JP5356527B2 - 信号分類装置 - Google Patents

信号分類装置 Download PDF

Info

Publication number
JP5356527B2
JP5356527B2 JP2011531668A JP2011531668A JP5356527B2 JP 5356527 B2 JP5356527 B2 JP 5356527B2 JP 2011531668 A JP2011531668 A JP 2011531668A JP 2011531668 A JP2011531668 A JP 2011531668A JP 5356527 B2 JP5356527 B2 JP 5356527B2
Authority
JP
Japan
Prior art keywords
unit
feature vector
feature
model
reference model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011531668A
Other languages
English (en)
Other versions
JPWO2011033597A1 (ja
Inventor
誠 広畑
和範 井本
恒 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPWO2011033597A1 publication Critical patent/JPWO2011033597A1/ja
Application granted granted Critical
Publication of JP5356527B2 publication Critical patent/JP5356527B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、信号分類装置に関する。
信号分類技術は、細かい時間単位で分割した音響信号を、その特徴を用いて類似するもの同士に分類するものである。この技術は、複数の参加者からなる会議や放送番組にて、話者毎に信号を区別することができる。また、ホームビデオなどの映像にて、撮影場所の背景音を区別し、イベント毎やシーン毎に信号を分類することができる。以下、発話者やイベントも含めてシーンと記述する。分割した音響信号を特徴づけるため、特許文献1では、処理対象である音響信号から生成した複数の音響モデルに対する観測確率(以下、尤度と記述)を求める。ここで生成した音響モデルは、音響特徴量によって表現される。同一シーンに含まれる信号は、特定の音響モデルに対しての尤度が高くなり、類似した特徴を持つ。
特開2008−175955号公報
様々な長さのシーンで構成される音響信号から参照モデルを作成する際、特許文献1では、各シーンを表す参照モデルの数はシーンの長さに依存している。言い換えれば、シーンによってはモデルの数が複数になり、シーンの長さが長いほど、そのシーンを表すモデルの数は多くなる。したがって、特定シーンを表すモデル全てに対して、信号が高い尤度を示さなければ、該当するシーンに信号を分類することは困難であった。また、モデル数が多いシーンへの分類によって、モデル数が少ないシーンに関する情報が埋もれ、短いシーンの検出を見落しやすい問題があった。
本発明は、上記に鑑みてなされたものであって、音響信号をシーン毎に分類する分類精度を向上させることが可能な信号分類装置を提供することを目的とする。
上記目的を達成するために、本発明の信号分類装置は、音響信号の特性を表し、分布をもった特徴量を抽出する特徴量抽出部と、前記抽出した特徴量を予め指定した分割情報に従って任意の時間長からなる区間毎に分割する分割部と、前記各々の区間が参照する特徴量の分布を表す2つ以上の参照モデルとして、前記特徴量抽出部によって抽出された前記特徴量によって表現される参照モデルを取得する参照モデル取得部と、分割された前記区間毎の特徴量が、前記参照モデルに用いた特徴量の分布の中心から離れるに従い急速に減衰する値をベクトル成分の特徴として、前記参照モデルそれぞれに対して求めたベクトル成分を含む第1特徴ベクトルを前記区間毎に夫々導出する第1特徴ベクトル導出部と、前記区間毎の参照モデルと、前記全ての区間の参照モデルとの類似度を夫々算出するモデル間類似度算出部と、前記第1特徴ベクトルと前記全ての区間の参照モデルとが入力され、前記第1特徴ベクトルのベクトル成分に前記夫々の類似度を重みとして掛け合わせて第2特徴ベクトルを導出する第2特徴ベクトル導出部と、前記第2特徴ベクトルのベクトル成分に基づいて、各第2特徴ベクトルに対応する前記区間を、特徴が類似した区間毎に分類するクラスタリング部と、を備えたことを特徴とする。
本発明によれば、音響信号をシーン毎に分類する分類精度を向上させることが可能な信号分類装置を提供することができる。
本発明の第1の実施例に係る信号分類装置の構成を示したブロック図。 第1の実施例に係る信号分類装置の機能構成を示した図。 第1の実施例に係る信号分類処理の動作手順を示したフローチャート。 第1の実施例に係る信号分類装置の動作例1を示した図である。 第1の実施例に係る信号分類装置の動作例2を示した図である。 第2の実施例に係る信号分類装置の動作例3を示した図である。 第1の実施例に係る参照モデル取得部の機能構成を示した図である。 第1の実施例に係る第1特徴ベクトル導出部の動作手順を示したフローチャート。 第1の実施例に係るモデル間類似度算出部の動作手順を示したフローチャート。 第1の実施例に係る第2特徴ベクトル導出部の動作手順を示したフローチャート。 図4(b)の動作例O7に示した類似度を基にして、2つのクラスに分類するクラスタリングを示す図。 図9(a)と同じ音響信号に対し第1特徴ベクトルのみを使用した場合のクラスタリングを示す図。 第2の実施例に係る信号分類装置の機能構成を示した図。 第2の実施例に係る特定モデル選定部の動作手順を示したフローチャート。 第2の実施例に係る第3特徴ベクトル導出部の動作手順を示したフローチャート。 第2の実施例に係る第1特徴ベクトル導出部を使用した場合と第3特徴ベクトル導出部を使用した場合の類似度を比較する図。 第2の実施例の信号分類処理の手順を示したフローチャート。 図4(c)の動作例O10に示した類似度を基にして、2つのクラスに分類するクラスタリングを示す図。 第3の実施例における信号分類装置の機能構成を示した図。 第3の実施例の信号分類処理の動作手順を示したフローチャート。 第3の実施例の分類結果表示部の動作例を示した図。
以下に図面を参照して、実施例に係る信号分類装置を詳細に説明する。
[第1の実施例]
図1は、第1の実施例に係る信号分類装置100の全体の構成を示したブロック図である。図1に示す通り、信号分類装置100は、CPU(Central Processing Unit)101、操作部102、表示部103、ROM(Read Only Memory)104、RAM(Random Access Memory)105、信号入力部105、記憶部107等を備え、各部はバス108により接続されている。
CPU101は、RAM105の所定領域を作業領域として、ROM104に予め記憶された各種制御プログラムとの協働により各種処理を実行し、信号分類装置100を構成する各部の動作を統括的に制御する。
操作部102は、各種入力キー等を備え、ユーザから操作入力された情報を入力信号として受け付け、その入力信号をCPU101に出力する。
表示部103は、例えばLCD(Liquid Crystal Display)等の表示装置により構成され、CPU101からの表示信号に基づいて、各種情報を表示する。なお、表示部103は、操作部102と一体的にタッチパネルを構成する様態としてもよい。
ROM104は、信号分類装置100の制御にかかるプログラムや各種設定情報等を書き換え不可能に記憶する。RAM105は、SDRAM等の記憶手段であって、CPU101の作業エリアとして機能し、バッファ等の役割を果たす。信号入力部106は、図示しないマイクからの音響信号や、図示しないカメラからの映像信号を電気信号に変換し、PCM(Pulse Code Modulation)等の数値データとしてCPU101に出力するものである。
記憶部107は、磁気的又は光学的に記憶可能な記憶媒体を有し、信号入力部106を介して取得された信号や、図示しない通信部やI/F(インターフェース)等を介して外部から入力される信号等のデータを記憶する。また、記憶部107は、後述する信号分類装置による音響信号の分類結果情報を記憶する。
図2は、第1の実施例に係る信号分類装置100aの機能構成を示したブロック図である。図2に示すように、信号分類装置100は、特徴量抽出部10、分割部11、参照モデル取得部12、第1特徴ベクトル導出部13、モデル間類似度算出部14、第2特徴ベクトル導出部15及びクラスタリング部16等を備えている。
特徴量抽出部10は、信号入力部106等を介して入力された音響信号から一定の時間長c1毎に音響特徴量を抽出する。特徴量抽出部10は、抽出した音響特徴量を分割部11に出力する。また、特徴量抽出部10は、後述する参照モデル取得部12の動作に応じて、参照モデル取得部12にも音響特徴量を出力する。
特徴量抽出部10は、Y. Akitaらによる“Unsupervised Speaker Indexing using Anchor Models and Automatic Transcription of Discussions”, ISCA 8th European Conf. Speech Communication and Technology (Euro Speech), September 2003(参考文献1)に記載された手法を用いても良い。具体的には、特徴量抽出部10は、LPCケプストラムやMFCC等のケプストラム系特徴量を、一定の時間長c1毎に一定の時間長c2分の音響信号から抽出する。なお、時間長c1と時間長c2は、c1<c2の関係を有する。例えば、c1は10.0msec、c2は25.0msecに設定される。
特徴量抽出部10は、E. Scheirer らによる“Construction and Evaluation of a Robust Multi feature Speech/Music Discriminator”, IEEE International Conference on Acoustic Speech, and Signal Processing, April 1997(参考文献2)に記載された手法を用いても良い。具体的には、特徴量抽出部10は、c1毎にc2分のスペクトル変動または零交差数を導出し、当該スペクトル変動または零交差数に基づき音響特徴量を抽出する。また、一定の時間長c2’内における当該スペクトル変動または零交差数の分散を音響特徴量としても良い。
この特徴量抽出部10は、音響信号から音響特徴量を抽出するとしたが、これに限るものではなく、カメラからの映像信号から画像特徴量を抽出することもできる。また、音響信号が付与された複数の写真に対し、音響信号のみを取り出し繋げることで、一続きの音響信号として信号入力部106を介して入力することもできる。
分割部11は、指定した分割情報に従って、特徴量抽出部10から入力された音響特徴量を任意の時間長からなる区間毎に分割する。分割部11は、分割された区間毎に纏めた音響特徴量を時刻情報(開始時刻と終了時刻)と共に第1特徴ベクトル導出部13に出力する。
参照モデル取得部12は、特徴量抽出部10によって抽出された音響特徴量によって表現される音響モデルを複数取得する。参照モデル取得部12は、取得した音響モデルの情報を第1特徴ベクトル導出部13及びモデル間類似度算出部14に出力する。各音響モデルは、表すシーンの情報を持たないとする(条件1)。この条件1は、任意の2つの音響モデルが同じシーンを表しているか否か判定できないことを意味する。また、シーンの中には、複数のモデルで表されるシーンがあるとする(条件2)。条件1及び条件2を満たすならば、後述する参照モデル取得部12の動作に従わずに、ROM104に記憶されている音響モデルを取得してもよい。
ここでシーンとは、音響信号の特徴が類似するもの同士に分類したものをさす。例えば、会議や放送番組での話者の違い、ホームビデオなどの撮影場所における背景音の区別、行事の細目の区別などといったイベント毎の違いによった分類で、意味的にまとまった区分である。
第1特徴ベクトル導出部13は、分割部11から入力された分割された区間毎の音響特徴量と、参照モデル取得部12から入力された複数の参照モデルを用いて、各区間に固有の第1特徴ベクトルを導出する。また、第1特徴ベクトル導出部13は、導出した各区間の第1特徴ベクトルを時刻情報と共に第2特徴ベクトル導出部15に出力する。
モデル間類似度算出部14は、参照モデル取得部12から入力された複数の参照モデルを用いて、参照モデル毎に、全ての参照モデル夫々との類似度を算出する。また、モデル間類似度算出部14は、算出した類似度を第2特徴ベクトル導出部15に出力する。
第2特徴ベクトル導出部15は、第1特徴ベクトル導出部13から入力された分割された区間毎の第1特徴ベクトルとモデル間類似度算出部14から入力された類似度を用いて、各区間に固有の特徴ベクトル(第2特徴ベクトル)を導出する。また、第2特徴ベクトル導出部15は、導出した各区間の第2特徴ベクトルを時刻情報と共にクラスタリング部16に出力する。
クラスタリング部16は、第2特徴ベクトル導出部15から入力された全ての分割された区間の第2特徴ベクトルの中で、類似した第2特徴ベクトル同士を一つのクラスとして纏める。クラスタリング部16は、同じクラスに属した各第2特徴ベクトルに対応する区間に、同一ID(クラス番号)を付与する。
次に、本実施例の信号分類装置100の動作を説明する。図3は、本実施例の信号分類装置100aによる信号分類処理の流れを示したフローチャートである。以下、図3及び図4(a)(b)に示した動作例O1乃至O7を参照して、本実施例の信号分類処理について説明する。
まず、信号入力部106等を介して信号が入力されると(図3のステップS101)、特徴量抽出部10は、入力された信号から音響特徴量を一定の時間長c1毎に抽出する(図3のステップS102)。特徴量抽出部10は、抽出した音響特徴量を分割部11及び参照モデル取得部12に出力する。
続いて、分割部11は、予め指定した分割情報に従い、入力された音響特徴量を区間毎に分割する(図3のステップS103)。分割部11は、分割した音響特徴量を第1特徴ベクトル導出部13に出力する。
ここで、分割された区間毎に纏めた音響特徴量は、各区間に含まれる複数の音響特徴量を表しても良い。また、複数の音響特徴量の平均値を表すとしても良い。また、指定される分割情報は、分割された区間の全ての区間長は一定の時間長c3に設定されるという情報で良い。なお、時間長c3はc2<c3の関係を有する。例えばc3は、1secに設定される。図4(a)の動作例では、4つの時刻T1、T2、T3、T4で処理される様子を示し、夫々 -9.0、-3.1、1.0、8.0という音響特徴量を有するとする(図4(a)の動作例O1参照)。
また、分割情報は、他の処理から得られた情報でも良く、各区間は同じ長さである必要はない。例えば、中川らによる“発話間のVQ歪みを用いた話者交替識別と話者クラスタリング”, 電子情報通信学会論文誌, November 2002の記載の手法によって、話者交替時刻のような特徴変化の大きい時刻を検出し、当該時刻で区切られた区間を分割情報として与えても良い。また、音響信号から無音区間を検出し、当該無音区間によって区切られた有音区間を分割情報として与えても良い。
なお、図4(a)の動作例では、4つの参照モデルs1、s2、s3、s4を取得し、夫々平均値は -7、-6、0、8、分散は1となるとする。また、参照モデルs1とs2は、同じシーンを表すとする(図4(a)の動作例O2参照)。
次いで、参照モデル取得部12は、ステップS102で一定の時間長c1毎に抽出された音響特徴量を用いて、参照モデル取得処理を実行し、参照モデルを取得する(ステップS104)。
ここで、参照モデル取得部12の詳細な動作を、図5を参照して説明する。図5は、参照モデル取得部12の動作に関する機能構成を示したブロック図である。図5に示す通り、参照モデル取得部12は、プレ分割部121、プレモデル生成部122、領域内類似度算出部123、学習領域抽出部124及び参照モデル生成部125等を有している。
プレ分割部121は、特徴量抽出部10から入力される音響特徴量を、所定時間長からなるプレ区間毎に分割する。ここで、プレ分割部11は、分割単位となるプレ区間を一定時間長c4に設定し、各プレ区間の音響特徴量を時刻情報と共にプレモデル生成部122に出力する。ここで、時間長c4は、一人の話者による一般的な発話時間や一シーンより短い時刻に設定し(例えば2.0sec)、プレ区間を一人の話者や一シーンの音響特徴量のみで構成されるようにすることが望ましい。
プレモデル生成部122は、プレ分割部121からプレ区間分の音響特徴量が入力される度に、その音響特徴量から音響モデル(プレモデル)を生成する。プレモデル生成部122は、生成したプレモデルと生成に用いたプレ区間の固有情報(音響特徴量と時刻情報)を領域内類似度算出部123に出力する。上記の一定時間長c4の条件下では、モデル生成において十分な統計量を得られない可能性があるため、ここでの音響モデルはVQ(Vector Quantization)コードブック等を用いて生成されることが好ましい。
領域内類似度算出部123は、プレモデル生成部122から連続して入力される所定数分のプレ区間を一つの領域として順次設定し、これら領域毎の類似度を、当該領域に含まれるプレ区間のプレモデルに基づいて算出する。また、領域内類似度算出部123は、算出した類似度をそれに対応する領域に含まれるプレ区間の情報と共に、学習領域抽出部124に出力する。
学習領域抽出部124は、領域内類似度算出部123から入力された類似度が所定値以上となる領域を学習領域として抽出する。また、学習領域抽出部124は、抽出した学習領域に対応する音響特徴量と時刻情報を参照モデル生成部125に出力する。この領域内類似度算出部123及び学習領域抽出部124にて行われる学習領域抽出処理は、特開2008−175955号公報(特許文献1)における学習領域抽出処理と同様の方法で実行することができる。
参照モデル生成部125は、学習領域抽出部124から入力された学習領域毎の音響特徴量に基づいて、各学習領域の音響モデルを生成する。この音響モデルに対して求めた音響特徴量の尤度値は、その音響特徴量がモデル生成時に用いた音響特徴量の分布の中心に近いほど高く、分布の中心から離れるに従い急速に減衰する特性を持つ(音響モデルの制約)。この音響モデルの制約は、求めた尤度値を他の尤度値に重み付き加算する際、加算度合いに大きな強弱を付けることができる。例えば、GMM(Gaussian Mixture Model)等の正規分布を元にしたモデルは、この音響モデルに対する制約を満たす。なお、ROM104に記憶されている音響モデルもこの音響モデルの制約を満たすとする。
参照モデル取得部12は、参照モデル生成部125で取得した参照モデルを第1特徴ベクトル導出部13及びモデル間類似度算出部14に出力する。
次いで、第1特徴ベクトル導出部13は、ステップS104で取得された参照モデルと、ステップS103で分割された区間毎の音響特徴量を用いて、第1特徴ベクトル導出処理を実行し、区間毎に第1特徴ベクトルを導出する(図3のステップS105)。
ここで、第1特徴ベクトル導出部13の詳細な動作を、図6を参照して説明する。図6は、第1特徴ベクトル導出部13による第1特徴ベクトル導出する動作手順を示したフローチャートである。まず、第1特徴ベクトル導出部13は、最初の区間Tkに参照番号k=1を設定する(ステップS11)。次に、最初の参照モデルsmに参照番号m=1を設定する(ステップS12)。
次に、k番目の区間Tkの音響特徴量を用いて、m番目の参照モデルsmに対する尤度P(Tk | sm)を算出する(ステップS13)。ここで、参照モデルsmに対する尤度は式(1)のように表される。
Figure 0005356527
なお、式(1)において、dimは音響特徴量の次元数、Ikは区間Tkの音響特徴量の数、fiは区間Tkのi番目の音響特徴量、Nmは参照モデルsmの混合数、cmn、umn、Umnは夫々参照モデルsmの混合nの混合重み係数、平均ベクトル、対角共分散行列を表す。また、尤度の対数を後段の処理で用いても良い。
続いて、第1特徴ベクトル導出部13は、参照モデル取得部12から入力される全ての参照モデルに対し、ステップS13の尤度算出を行ったか否かを判定する(ステップS14)。ここで、未完了の参照モデルがあると判定した場合(ステップS14のNo)、参照番号m=m+1を設定して、次の参照モデルsmを処理対象とした後(ステップS15)、ステップS13に戻る。
一方、ステップS14において、全ての参照モデルに対し、尤度を算出したと判定した場合(ステップS14のYes)、下記式(2)に基づいてk番目の区間Tkに対し、導出した尤度を成分として持つベクトルを区間Tkの第1特徴ベクトルvkとして生成する(ステップS16)。ここで、下記式(2)では、参照モデルの数をM個とする。なお、第1特徴ベクトルvkの成分を正規化する等、第1特徴ベクトルvkに加工処理を加えてもよい。図4(a)の動作例では、式(2)に基づき尤度算出を行い、第1特徴ベクトル毎に、成分の平均値と標準偏差を用いて、平均0、分散1となるように各成分を正規化した(図4(a)の動作例O3を参照)。
Figure 0005356527
次いで、第1特徴ベクトル導出部13は、全ての区間に対し第1特徴ベクトルvkを生成したか否かを判定する(ステップS17)。ここで、全ての区間Tkに対し第1特徴ベクトルvkを生成していないと判定した場合(ステップS17のNo)、参照番号k=k+1を設定し、次の区間Tkを処理対象とした後(ステップS18)、ステップS12に戻る。
一方、ステップS17において、全ての区間に対し第1特徴ベクトルvkを生成したと判定した場合(ステップS17のYes)、各区間の第1特徴ベクトルを時刻情報と共に第2特徴ベクトル導出部15に出力し(ステップS19)、処理を終了する。こうして、第1特徴ベクトル導出部13は、導出した第1特徴ベクトルを第2特徴ベクトル導出部15に出力する。
次いで、モデル間類似度算出部14は、ステップS104で取得した参照モデルを用いて、モデル間類似度算出処理を実行し、参照モデル毎に全ての参照モデルとの類似度を算出する(図3のステップS106)。
ここで、モデル間類似度算出部14の詳細な動作を、図7を参照して説明する。図7は、モデル間類似度算出部14によるモデル間類似度を算出する動作手順を示したフローチャートである。
まず、モデル間類似度算出部14は、最初の参照モデルskに参照番号k=1を設定する(ステップS21)。次に、参照モデルskが参照する最初の参照モデルsmに参照番号m=1を設定する(ステップS22)。
次に、モデル間類似度算出部14は、k番目の参照モデルskと参照モデルsmの類似度S(sk, sm)を算出する(ステップS23)。類似度S(sk, sm)は、例えば参照モデル間の平均ベクトルを用いたユークリッド距離にマイナスを掛けた値とすることができる(図4(b)の動作例O4参照)。この類似度S(sk, sm)は、S(sm, sk)と等しいとする。なお、既に類似度S(sm, sk)を求めていた場合、類似度S(sk, sm)の算出処理を省くことができる。
続いて、モデル間類似度算出部14は、k番目の参照モデルskに対し、全ての参照モデルsmと類似度を算出したか否かを判定する(ステップS24)。ここで、未完了の参照モデルsmがあると判定した場合(ステップS24のNo)、参照番号m=m+1を設定し、次の参照モデルsmを処理対象とした後(ステップS25)、ステップS23に戻る。
一方、ステップS24において、k番目の参照モデルskに対し、全ての参照モデルsmと類似度を算出したと判定した場合(ステップS24のYes)、下記式(3)に基づいてk番目の参照モデルskに対する参照モデルsmの類似度S(sm | sk)を求める(ステップS26)。類似度S(sm | sk)の導出には、参照モデルskに対して求めた類似度全ての平均値meanと標準偏差sd、さらにパラメータa、bと関数Gを用いる。
Figure 0005356527
Figure 0005356527
まず、類似度S(sk, sm)を平均b、分散a2になるように正規化する。ここで、パラメータbより大きく上限値H以下である上限値H’を設定する。また、パラメータbより小さく下限値H以上である下限値H’を設定する。関数Gは、入力値(類似度S(sk, sm)を正規化した値)を、閾値th1以上ならば上限値H1以下上限値H’以上に調節する関数とする。また、入力値を閾値th2以下ならば、下限値H以上下限値H’以下に調節する関数とする。また、2つの変数xとyにx > yの関係があるとき、G(x)≧G(y)が成立するとする。関数Gを示した式(4)はH=H’、H=H’とした例である。図4(b)の動作例では、さらに、a=2.0、b=0.5、H=1.0、H=0.0、th1=1.0、th2=0.0と設定し、類似度S(sm | sk)を求めている(図4(b)の動作例O5参照)。なお、関数Gは、シグモイド関数など、様々な関数を適用することが可能である。
次いで、モデル間類似度算出部14は、全ての参照モデルskに対し、全てに参照モデルsmとの類似度を算出したか否かを判定する(ステップS27)。ここで、未完了の参照モデルskがあると判定した場合(ステップS27のNo)、参照番号k=k+1を設定し、次の参照モデルskを処理対象とした後(ステップS28)、ステップS22に戻る。
一方、ステップS27において、全ての参照モデルskに対し、全ての参照モデルsmとの類似度を算出したと判定した場合(ステップS27のYes)、参照モデル毎に、全ての参照モデルとの間で求めた類似度を第2特徴ベクトル導出部15に出力し(ステップS29)、処理を終了する。こうして、モデル間類似度算出部14は、算出した類似度を第2特徴ベクトル導出部15に出力する。
次いで、第2特徴ベクトル導出部15は、ステップS105で導出された第1特徴ベクトルとステップS106で算出された類似度を用いて、第2特徴ベクトル導出処理を実行し、分割された区間毎に第2特徴ベクトルを導出する(図3のステップS107)。
ここで、第2特徴ベクトル導出部15の詳細な動作を、図8を参照して説明する。図8は、第2特徴ベクトル導出部15による第2特徴ベクトルを導出する動作手順を示したフローチャートである。
まず、第2特徴ベクトル導出部15は、最初の区間Tkに参照番号k=1を設定した後(ステップS31)、最初の参照モデルsmに参照番号m=1を設定する(ステップS32)。このステップS32は、k番目の区間Tkのm次元目の要素(ベクトル成分)を導出するための処理である。
次に、第2特徴ベクトル導出部15は、k番目の区間Tkのm次元目の要素ykm=0を新たに設定する(ステップS33)。また、m番目の参照モデルsmが参照する最初の参照モデルsjに参照番号j=1を設定する(ステップS34)。
続いて、第2特徴ベクトル導出部15は、k番目の区間Tkで導出した第1特徴ベクトルvkのm次元目の要素vkmと、m番目の参照モデルsmに対するj番目の参照モデルsjの類似度S(sj | sm)を用いて、要素ykmを更新する。具体的には、ykm=ykm+S(sj | sm)*vkmを設定する(ステップS35)。
次いで、第2特徴ベクトル導出部15は、要素ykm更新のために、m番目の参照モデルsmに対する全ての参照モデルsjの類似度を利用したか否かを判定する(ステップS36)。ここで、未完了の参照モデルがあると判定した場合(ステップS36のNo)、参照番号j=j+1を設定し、次の参照モデルsjを処理対象とした後(ステップS37)、ステップS35に戻る。
一方、ステップS36において、要素ykm更新のために、m番目の参照モデルsmに対する全ての参照モデルsjの類似度を利用したと判定した場合(ステップS36のYes)、k番目の区間Tkに対し、M(=参照モデル数)次元分全ての要素を更新したか否かを判定する(ステップS38)。ここで、未完了の要素があると判定した場合(ステップS38のNo)、参照番号m=m+1を設定し、次の要素モデルsmを処理対象とした後(ステップS39)、ステップS33に戻る。
一方、ステップS38において、k番目の区間Tkに対し、全ての要素を更新したと判定した場合(ステップS38のYes)、算出した要素を成分に持つ第2特徴ベクトルykを生成する(ステップS40)。図4(b)の動作例では、図4(b)の動作例O5の情報を得た後、図4(a)の動作例O3の情報も用いて、第2特徴ベクトルを得る(図4(b)の動作例O6参照)。
次いで、第2特徴ベクトル導出部15は、全ての区間に対し第2特徴ベクトルykを生成したか否かを判定する(ステップS41)。ここで、未完了の区間があると判定した場合(ステップS41のNo)、参照番号k=k+1を設定し、次の区間Tkを処理対象とした後(ステップS42)、ステップS32に戻る。
一方、ステップS41において、全ての区間に対し第2特徴ベクトルykを生成したと判定した場合(ステップS41のYes)、各区間の第2特徴ベクトルykを時刻情報と共にクラスタリング部16に出力し(ステップS43)、処理を終了する。こうして、第2特徴ベクトル導出部15は、導出した第2特徴ベクトルをクラスタリング部16に出力する。
そして、クラスタリング部16は、ステップS107で導出された第2特徴ベクトルの中で、類似する第2特徴ベクトル同士を一つのクラスとして纏め、同一クラスに属する第2特徴ベクトルを持つ区間全てに同一IDを付与した後(ステップS108)、処理を終了する。
ここで、クラスタリング部16の処理において、図4(b)の動作例では、同じIDを付与するまでは示していないが、ベクトル同士のユークリッド距離にマイナスを掛けた値を類似度として示している(図4(b)の動作例O7参照)。図4(a),(b)の動作例では、参照モデルs1及びs2が特定のシーンを表すとしている。参照モデルs1またはs2の分布に属する区間T1とT2に同じシーンのIDを付与するには、区間T1とT2の類似度が他の区間同士の組み合わせより高くならなければならない。シーンs1とs2のどちらかにしか高い尤度を示さない状況では(図4(a)の動作例O3参照)、区間T1とT2の類似度を高くし、同じシーンのIDを付与することが困難である(図4(a)の動作例O7’参照)。一方、モデル間の類似性を考慮し、一部の高い尤度値を他の尤度値に反映した本実施例では(図4(b)の動作例O6参照)、T1とT2の類似度は高くなり、同じシーンのIDを付与することができる(図4(b)の動作例O7参照)。
図9(a)は、図4(b)の動作例O7に示した類似度を基にして、2つのクラスに分類するクラスタリングを示す図である。また、図9(b)は、図9(a)と同じ音響信号に対し第1特徴ベクトルのみを使用した場合のクラスタリングを示している。
図9(a)に示した第1の実施例の第2特徴ベクトルを用いた場合では、4つの区間T1,T2,T3,T4のお互いの類似度から、最も大きい類似度と次に大きい類似度(太線矢印で表示)を持つ区間T1とT2、区間T3とT4を同じクラスに分類することができるので、その結果2つのクラスに分類される。また、1つのクラスが1つのシーンを表すとみなす。したがって、区間T1とT2、および区間T3とT4に対し同じシーンIDを付与することができる。その結果、図9(a)の右側に示すような時刻情報が表示できるようになる。表示動作については後述する。
これに対し、図9(b)では、4つの区間T1,T2,T3,T4のお互いの類似度から、最も大きい類似度と次に大きい類似度(太線矢印で表示)を持つ区間T2、T3およびT4を同じクラスに分類することで、2つのクラスに分類される。前述したように、区間T1とT2には同じシーンIDを付与したいが、区間T2とT3(または区間T3とT4)の類似度に比べ区間T1とT2の類似度が低いため、第1特徴ベクトルを用いた場合では、同じシーンIDを付与できない。
以上のように、本実施例によれば、信号が特定シーンを表すモデル全てに対して高い尤度を示さなくても、モデル間の類似性を考慮することで、一部の高い尤度値を他の尤度値に反映し、該当するシーンに信号を分類することができる。
[第2の実施例]
次に、第2の実施例の信号分類装置100bについて説明する。図10は、第2の実施例における信号分類装置100bの機能構成を示したブロック図である。第2の実施例は、第1の実施例に特定モデル選定部27、および第3特徴ベクトル導出部28が追加されていることが分かる。よって、特定モデル選定部27、第3特徴ベクトル導出部28を中心に説明し、第1の実施例と同等の構成については、同一の名称を付与し、その説明を省略する。
図10に示したように、第2の実施例の信号分類装置100bは、特徴量抽出部10、分割部11、参照モデル取得部12、第1特徴ベクトル導出部23、モデル間類似度算出部24、第2特徴ベクトル導出部25、特定モデル選定部27、第3特徴ベクトル導出部28及びクラスタリング部26等から構成される。
なお、図10において、第1特徴ベクトル導出部23、モデル間類似度算出部24、第2特徴ベクトル導出部25、特定モデル選定部27、第3特徴ベクトル導出部28及びクラスタリング部26は、特徴量抽出部10、分割部11及び参照モデル取得部12と同様、CPU101とROM104に予め記録された所定のプログラムとの協働により実現される機能部である。
第1特徴ベクトル導出部23は、導出した各区間の第1特徴ベクトルと時刻情報をさらに第3特徴ベクトル導出部28に出力する。モデル間類似度算出部24は、算出した類似度を第2特徴ベクトル導出部25および特定モデル選定部27に出力する。また、第2特徴ベクトル導出部25は、導出した各区間の第2特徴ベクトルと時刻情報を第3特徴ベクトル導出部28に出力する。
第3特徴ベクトル導出部28は、第2特徴ベクトル導出部25から入力された分割された区間毎の第2特徴ベクトルと、第1特徴ベクトル導出部23から入力された分割された区間毎の第1特徴ベクトル及び特定モデル選定部から入力された特定モデルを用いて、各区間に固有の第3特徴ベクトルを導出する。また、第3特徴ベクトル導出部28は、導出した各区間の第3特徴ベクトルを時刻情報と共にクラスタリング部26に出力する。
次に、特定モデル選定部27について説明する。特定モデル選定部27は、モデル間類似度算出部24から入力された類似度を用いて、参照モデル毎に、全ての参照モデル夫々において求めた当該参照モデルとの類似度に基づくスコアを算出する。そして、特定モデル選定部27は、算出した各参照モデルの特定度スコアを比較し、一つ以上の参照モデルを特定モデルとして選定する。また、特定モデル選定部27は、選定した特定モデルを参照モデルとの対応関係と一緒に第3特徴ベクトル導出部28に出力する。
以下、図11を参照して、特定モデル選定部27の動作について説明する。図11は、特定モデル選定部27による特定モデルを選定する処理手順を示したフローチャートである。
まず、特定モデル選定部27は、特定モデルを選定するための特定度スコアを算出したい最初の参照モデルskに参照番号k=1を設定する(ステップS51)。
次に、特定モデル選定部27は、k番目の参照モデルskの特定度スコアlk=0を設定する(ステップS52)。また、参照モデルskが参照する最初の参照モデルsmに参照番号m=1を設定する(ステップS53)。
続いて、特定モデル選定部27は、参照モデルsmに対するk番目の参照モデルskの類似度S(sk | sm)と下式(5)で表される関数Fを用いて、特定度スコアlk=lk+F(S(sk | sm))を設定する。
Figure 0005356527
ここで、2つの変数xとyにx > yの関係があるとき、F(x)≧F(y)が成立するとする。他に例えば、関数FはF(x)=xと設定できる。
次いで、特定モデル選定部27は、全ての参照モデルsmに対するk番目の参照モデルskの類似度を利用したか否かを判定する(ステップS55)。ここで、未完了の参照モデルがあると判定した場合(ステップS55のNo)、参照番号m=m+1を設定し、次の参照モデルsmを処理対象とした後(ステップS56)、ステップS54に戻る。
一方、ステップS55において、全ての参照モデルsmに対する類似度を利用したと判定した場合(ステップS55のYes)、全ての参照モデルskに対し特定度スコアを算出したか否かを判定する(ステップS57)。ここで、未完了の参照モデルskがあると判定した場合(ステップS57のNo)、参照番号k=k+1を設定し、次の参照モデルskを処理対象とした後(ステップS58)、ステップS52に戻る。
一方、ステップS57において、全ての参照モデルskの特定度スコアを算出したと判定した場合(ステップS57のYes)、特定度スコアが低いL個の参照モデルを特定モデルとして選定し、選定した特定モデルを対応する参照モデルの情報と一緒に第3特徴ベクトル導出部28に出力し(ステップS59)、処理を終了する。なお、Lはパラメータであり、図4(c)の動作例では、L=1とし、上式(5)を使用することで、参照モデルs4が特定モデルr1として選定される(図4(c)の動作例O8参照)。
次に、第3特徴ベクトル導出部28について説明する。第3特徴ベクトル導出部28は、分割された区間毎の第2特徴ベクトルと、分割された区間毎の第1特徴ベクトル及び特定モデルを用いて、各区間に固有の第3特徴ベクトルを導出するものである。図12は、第3特徴ベクトル導出部28により実行される第3特徴ベクトル導出処理の手順を示したフローチャートである。
まず、第3特徴ベクトル導出部28は、最初の区間Tkに参照番号k=1を設定する(ステップS61)。また、最初の特定モデルrlに参照番号l=1を設定する(ステップS62)。
次に、第3特徴ベクトル導出部28は、l番目の特定モデルrlに対応する(等しい)参照モデルの参照番号mを取得する(ステップS63)。
続いて、第3特徴ベクトル導出部28は、k番目の区間Tkで導出した第2特徴ベクトルykにおいて、M+l番目の新しいベクトル成分として第1特徴ベクトルvkのm番目のベクトル成分vkmを追加する(ステップS64)。
次いで、第3特徴ベクトル導出部28は、k番目の区間Tkで導出した第2特徴ベクトルykに対し、全ての特定モデルrlに対応する第1特徴ベクトルの成分Vkmを追加したか否かを判定する(ステップS65)。ここで、未完了の特定モデルがあると判定した場合(ステップS65のNo)、参照番号l=l+1を設定し、次の特定モデルrlを処理対象とした後(ステップS66)、ステップS63に戻る。
一方、ステップS65において、全ての特定モデルに対して、対応する第1特徴ベクトルの成分を第2特徴ベクトルの成分として追加したと判定した場合(ステップS65のYes)、成分を追加されたk番目の区間Tkで導出した第2特徴ベクトルykを第3特徴ベクトルzkとして設定する(ステップS67)。図4(a)〜図4(c)の動作例では、図4(c)の動作例O8の情報を得た後、図4(a)の動作例O3と図4(b)の動作例O6の情報を用いて、第3特徴ベクトルを得る(図4(c)の動作例O9参照)。
次いで、第3特徴ベクトル導出部28は、全ての区間に対し第3特徴ベクトルを生成したか否かを判定する(ステップS68)。ここで、未完了の区間があると判定した場合(ステップS68のNo)、参照番号k=k+1を設定し、次の区間Tkを処理対象とした後(ステップS69)、ステップS62に戻る。
一方、ステップS68において、分割された全ての区間に対し第3特徴ベクトルを生成したと判定した場合(ステップS68のYes)、各区間の第3特徴ベクトルを時刻情報と一緒にクラスタリング部26に出力し(ステップS70)、処理を終了する。こうして、第3特徴ベクトル導出部28は、導出した各区間の第3特徴ベクトルを時刻情報と一緒にクラスタリング部26に出力して動作を終了する。
そして、クラスタリング部26は、第3特徴ベクトル導出部15から入力された全ての分割された区間の第3特徴ベクトルの中で、類似した第3特徴ベクトル同士を一つのクラスとして纏める。クラスタリング部26は、同じクラスに属した各第3特徴ベクトルに対応する区間に、同一ID(クラス番号)を付与する。
図13は、実際のビデオカメラにて運動会の様子を撮影したときに得られた音響信号の処理結果の一例を示した図である。図13(a)は第1特徴ベクトルを使用した場合の各時刻において隣り合う区間同士の類似度を示し、図13(b)は第3特徴ベクトルを使用した場合の各時刻において隣り合う区間同士の類似度を示した図である。
図13(a)に示したように、第1特徴ベクトルを使用しただけでは、幾つかのシーン(例えば、出し物シーン、徒競走シーン)の前後で十分に低い類似度が得られていないことが分かる。これに対し、図13(b)に示したように、モデル間類似度を用いて導出した第3特徴ベクトルを使用した場合では、各シーンの境界(出し物シーンと退場シーンの間、退場シーンと競技準備シーンの間、競技準備シーンと徒競走シーンの間)にて低い類似度が得られている。従って、第3特徴ベクトルを使用した場合、各シーンの検出を容易にすることができる。
図14は、第2の実施例の信号分類装置100bによる信号分類処理の流れを示したフローチャートである。以下、図14及び図4(a)乃至図4(c)に示した動作例O1〜O10を参照して、本実施例の信号分類処理について説明する。
まず、ステップS101〜ステップS104では、図3でのステップS101〜ステップS104と同様の処理を行う(図4(a)の動作例O1、O2参照)。
続いて、第1特徴ベクトル導出部23は、図14のステップS104で取得された参照モデルと、分割された区間毎に分類された音響特徴量を用いて第1特徴ベクトルの導出処理を実行し、分割された区間毎に第1特徴ベクトルを導出する(ステップS205、図4(a)の動作例O3参照)。第1特徴ベクトル導出部23は、導出した第1特徴ベクトルを第2特徴ベクトル導出部25及び第3特徴ベクトル導出部28に出力する。
次いで、モデル間類似度算出部24は、ステップS104で取得された参照モデルを用いてモデル間類似度算出処理を実行し、参照モデル毎に全ての参照モデルとの類似度を算出する(ステップS206、図4(b)の動作例O4及びO5参照)。モデル間類似度算出部24は、算出した類似度を第2特徴ベクトル導出部25及び特定モデル選定部27に出力する。
次いで、第2特徴ベクトル導出部25は、ステップS205で導出された第1特徴ベクトルとステップS206で算出された類似度を用いて第2特徴ベクトルの導出処理を実行し、分割された区間毎に第2特徴ベクトルを導出する(ステップS207、図4の(b)動作例O6参照)。第2特徴ベクトル導出部25は、導出した第2特徴ベクトルを第3特徴ベクトル導出部28に出力する。
次いで、特定モデル選定部27は、ステップS206で算出された類似度を用いて特定モデルの選定処理を実行し、一つ以上の特定モデルを選定する(ステップS208、図4(c)の動作例O8参照)。特定モデル選定部27は、選定した特定モデルを第3特徴ベクトル導出部28に出力する。
次いで、第3特徴ベクトル導出部28は、ステップS207で導出された第2特徴ベクトルと、ステップS205で導出された第1特徴ベクトル及びステップS208で選定された特定モデルを用いて第3特徴ベクトルの導出処理を実行し、分割された区間毎に第3特徴ベクトルを導出する(ステップS209、図4(c)の動作例O9参照)。第3特徴ベクトル導出部28は、導出した第3特徴ベクトルをクラスタリング部26に出力する。
最後に、クラスタリング部26は、ステップS209で導出した第3特徴ベクトルの中で、類似する第3特徴ベクトル同士を一つのクラスとして纏め、同一クラスに属する第3特徴ベクトルを持つ区間全てに同一IDを付与した後(ステップS210)、処理を終了する。
図4(a)および図4(b)の動作例に関する第1の実施例での説明では、参照モデルs1及びs2が特定のシーンを表すとしていた。第2の実施例では、図4(c)に示すように、さらに参照モデルs3も同じ特定のシーンを表すとする。参照モデルs3の平均値は、参照モデルs4の平均値よりも参照モデルs1やs2の平均値に近い。そのため、この参照モデルs3も同じ特定のシーンを表すという状況が起こり得る。このとき、参照モデルs4は唯一異なるシーンを表すことになり、モデル数の多いシーンとモデル数の少ないシーンがある状況になる。そして、参照モデルs3の分布に属する区間T3が参照モデルs2の分布に属する区間T2と同じシーンのIDを取得するには、区間T2とT3の類似度が区間T3と他のシーンに属する区間T4の類似度より高くならなければならない。第2特徴ベクトルを利用した状況下では、参照モデルs4が表すシーンの情報が埋もれ、区間T2とT3に同じシーンのIDを付与し、かつ、区間T4には異なるシーンのIDを付与することは困難である(図4(b)の動作例O7参照)。
第2の実施例では、モデル数の少ないシーンを表す参照モデルs4を特定モデルとして選定し、且つ、対応する第1特徴ベクトル成分を追加して導出した第3特徴ベクトルを利用してIDを付与するとした(図4(c)の動作例O9参照)。その結果、区間T2とT3の類似度が高くなり、区間T2とT3に同じシーンのIDを付与することができる。また、区間T4には、異なるシーンのIDを付与することができる(図4(c)の動作例O10参照)。
図15は、図4(c)の動作例O10に示した類似度を基にして、2つのクラスに分類するクラスタリングを示す図である。第3特徴ベクトルを用いた場合では、4つの区間T1,T2,T3,T4のお互いの類似度から、最も大きい類似度と次に大きい類似度(太線矢印で表示)を持つ区間T1とT2、および区間T2とT3を同じクラスに分類することができるので、その結果2つのクラスに分類される。したがって、区間T1とT2とT3に対し同じシーンIDを付与することができる。その結果、図15の右側に示すような時刻情報が表示できるようになる。
以上のように、第2の実施例によれば、モデル数が多いシーンへの分類によって、モデル数が少ない短いシーンの情報が埋もれてしまう状況でも、モデル数の少ないシーンを表すモデルを選定し、対応する特徴をさらに考慮することで、短いシーンを検出することができる。また、短いシーンを表すモデルに対する尤度値をさらに追加することで、短いシーンの情報を強調し、検出漏れを防ぐことができる。
[第3の実施例]
次に、第3の実施例の信号分類装置100cについて説明する。図16は、第3の実施例における信号分類装置100cの機能構成を示したブロック図である。第3の実施例は、第1の実施例に分類結果表示部39が追加されている。したがって、ここでは分類結果表示部39を中心に説明して、第1の実施例と同等の構成については、同一の符号又は名称を付与し、その説明を省略する。
図16に示したように、第3の実施例の信号分類装置100cは、特徴量抽出部10、分割部11、参照モデル取得部12、第1特徴ベクトル導出部13、モデル間類似度算出部14、第2特徴ベクトル導出部15、クラスタリング部36及び分類結果表示部39から構成される。
なお、図16において、クラスタリング部36及び分類結果表示部39は、特徴量抽出部10、分割部11、第1特徴ベクトル導出部13、モデル間類似度算出部14及び第2特徴ベクトル導出部15と同様、CPU101とROM104に予め記録された所定のプログラムとの協働により実現される機能部である。
クラスタリング部36は、分割された区間毎に付与したID情報を時刻情報と共に分類結果表示部39に出力する。
分類結果表示部39は、クラスタリング部36から入力されたID情報を基に、図18の表示部103を介し、絵や文字による時刻毎のシーン情報またはシーン毎の時刻情報を表示する。なお、同じIDを持つ区間は同じシーンに属するとし、同じIDを持ち連続する区間は一纏まりの区間とする。
図17は、第3の実施例の信号分類装置100cによる信号分類処理の流れを示したフローチャートである。以下、図16乃至図18を参照して、第3の実施例の信号分類処理の動作を説明する。なお、図18は、クラスタリングの結果を分類結果表示部39によって表示した表示例を示すものである。
まず、図16のステップS101〜ステップS107では、図3のステップS101〜ステップS107と同様の処理を行う(図4(a)、(b)の動作例O1〜O6参照)。
続いて、クラスタリング部36は、ステップS107で導出された第2特徴ベクトルの中で、類似する第2特徴ベクトル同士を一つのクラスとして纏め、同一クラスに属する第2特徴ベクトルを持つ区間全てに同一IDを付与する(ステップS308)。クラスタリング部36は、分割された区間毎に付与されたIDの情報を分類結果表示部39に出力する。
分類結果表示部39は、ステップS308で各区間に付与されたID情報を基に、図18に示す表示部103を介し、絵や文字による時刻毎のシーン情報またはシーン毎の時刻情報を表示し(ステップS309)、処理を終了する。
図18(a)は、クラスタリング部36から出力された分類結果を分類結果表示部39で処理した表示例を示す。各シーンのIDには、開示時刻および終了時刻が合わせて記録されている。同図(b)は、分類結果(a)からシーン毎の時刻情報を表示したものである。同図(c)は、分類結果(a)から同じシーンの区間毎の時刻情報を表示したものである。同図(d)は、分類結果(a)からタイムバーによる時刻毎のシーン情報を表示したものである。
以上のように、本実施例によれば、信号をシーン毎に分類した後、分類結果を表示することで、信号に対応する映像や音声の視聴において、発話者やイベント、シーンを単位として、スキップ再生等の特定時刻へのアクセスを容易に行うことができる。
なお、本実施例に係る信号分類処理は、プログラムをコンピュータ装置にあらかじめインストールすることで実現してもよい。また、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。
以上、発明の実施の形態について説明したが、本発明はこれに限定されるものではなく、本発明の主旨を逸脱しない範囲での種々の変更、置換、追加などが可能である。
100‥信号分類装置
101‥CPU
102‥操作部
103‥表示部
104‥ROM
105‥RAM
106‥信号入力部
107‥記憶部
108‥バス
10‥特徴量抽出部
11‥分割部
12‥参照モデル取得部
13,23‥第1特徴ベクトル導出部
14,24‥モデル間類似度算出部
15,25‥第2特徴ベクトル導出部
16,26,39‥クラスタリング部
27‥特定モデル選定部
28‥第3特徴ベクトル導出部
39‥分類結果表示部
121‥プレ分割部
122‥プレモデル作成部
123‥領域内類似度算出部
124‥学習領域抽出部
125‥参照モデル生成部

Claims (4)

  1. 音響信号の特性を表し、分布をもった特徴量を抽出する特徴量抽出部と、
    前記抽出した特徴量を予め指定した分割情報に従って任意の時間長からなる区間毎に分割する分割部と、
    前記各々の区間が参照する特徴量の分布を表す参照モデルとして、前記特徴量抽出部によって抽出された前記特徴量によって表現される2つ以上の参照モデルを取得する参照モデル取得部と、
    分割された前記区間毎の特徴量が、前記参照モデルに用いた特徴量の分布の中心から離れるに従い急速に減衰する値をベクトル成分の特徴として、前記参照モデルそれぞれに対して求めたベクトル成分を含む第1特徴ベクトルを前記区間毎に夫々導出する第1特徴ベクトル導出部と、
    前記区間毎の参照モデルと、前記全ての区間の参照モデルとの類似度を夫々算出するモデル間類似度算出部と、
    前記第1特徴ベクトルと前記全ての区間の参照モデルとが入力され、前記第1特徴ベクトルのベクトル成分に前記夫々の類似度を重みとして掛け合わせて第2特徴ベクトルを導出する第2特徴ベクトル導出部と、
    前記第2特徴ベクトルのベクトル成分に基づいて、各第2特徴ベクトルに対応する前記区間を、特徴が類似した区間毎に分類するクラスタリング部と、
    を備えたことを特徴とする信号分類装置。
  2. 前記参照モデル取得部は、
    前記抽出した特徴量を所定時間長からなるプレ区間毎に分割し、
    前記プレ区間毎に、当該プレ区間に含まれる特徴量に基づいてプレモデルを生成し、
    連続する所定数分の前記プレ区間を一つの領域として順次設定し、
    当該領域毎の類似度を、各領域に含まれる前記プレ区間のプレモデルに基づいて算出し、
    算出した前記類似度が所定値以上となる領域を学習領域として抽出し、
    抽出した前記学習領域毎に当該学習領域に含まれる特徴量に基づいて参照モデルを生成することを特徴とする請求項1に記載の信号分類装置。
  3. 前記参照モデル毎に、全ての参照モデル毎にそれぞれ求めた当該参照モデルとの類似度を用いてスコアを算出し、各前記参照モデルのスコアを比較して一つ以上の参照モデルを特定モデルとして選定する特定モデル選定部と、
    前記第2特徴ベクトル毎に、当該第2特徴ベクトルに対応する前記第1特徴ベクトルのベクトル成分の中で、前記特定モデルに選定された前記参照モデルから導出されたベクトル成分を当該第2特徴ベクトルに加えて第3特徴ベクトルを導出する第3特徴ベクトル導出部を
    さらに備え、
    前記クラスタリング部は、前記第3特徴ベクトルのベクトル成分に基づいて、各第3特徴ベクトルに対応する前記区間を類似した区間毎に分類することを特徴とする請求項1に記載の信号分類装置。
  4. 前記クラスタリング部による分類結果に基づいて、対応する前記音響信号の分類結果を表示する分類結果表示部をさらに備える請求項1に記載の信号分類装置。
JP2011531668A 2009-09-19 2009-09-19 信号分類装置 Expired - Fee Related JP5356527B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/004778 WO2011033597A1 (ja) 2009-09-19 2009-09-19 信号分類装置

Publications (2)

Publication Number Publication Date
JPWO2011033597A1 JPWO2011033597A1 (ja) 2013-02-07
JP5356527B2 true JP5356527B2 (ja) 2013-12-04

Family

ID=43758225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011531668A Expired - Fee Related JP5356527B2 (ja) 2009-09-19 2009-09-19 信号分類装置

Country Status (3)

Country Link
US (1) US8804973B2 (ja)
JP (1) JP5356527B2 (ja)
WO (1) WO2011033597A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10324425B2 (en) 2016-10-19 2019-06-18 Fanuc Corporation Human collaborative robot system having improved external force detection accuracy by machine learning

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3003398B2 (ja) * 1992-07-29 2000-01-24 日本電気株式会社 超伝導積層薄膜
WO2012093430A1 (ja) * 2011-01-05 2012-07-12 パナソニック株式会社 興味区間抽出装置、興味区間抽出方法
WO2013157190A1 (ja) * 2012-04-20 2013-10-24 パナソニック株式会社 音声処理装置、音声処理方法、プログラムおよび集積回路
CN106409310B (zh) * 2013-08-06 2019-11-19 华为技术有限公司 一种音频信号分类方法和装置
JP6085538B2 (ja) 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
US9576589B2 (en) * 2015-02-06 2017-02-21 Knuedge, Inc. Harmonic feature processing for reducing noise
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
CA3033675C (en) * 2016-07-11 2022-11-15 FTR Labs Pty Ltd Method and system for automatically diarising a sound recording
WO2019176986A1 (ja) 2018-03-15 2019-09-19 日本電気株式会社 信号処理システム、信号処理装置、信号処理方法、および記録媒体
CN110874615B (zh) * 2019-11-14 2023-09-26 深圳前海微众银行股份有限公司 特征聚类处理方法、集群服务器及可读存储介质
CN111597998B (zh) * 2020-05-18 2021-08-31 江苏电力信息技术有限公司 一种电流信号的分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03231297A (ja) * 1990-02-06 1991-10-15 Matsushita Refrig Co Ltd 音声認識システム
JP2008175955A (ja) * 2007-01-17 2008-07-31 Toshiba Corp インデキシング装置、方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6434520B1 (en) 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
JP4220449B2 (ja) 2004-09-16 2009-02-04 株式会社東芝 インデキシング装置、インデキシング方法およびインデキシングプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03231297A (ja) * 1990-02-06 1991-10-15 Matsushita Refrig Co Ltd 音声認識システム
JP2008175955A (ja) * 2007-01-17 2008-07-31 Toshiba Corp インデキシング装置、方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ201010077519; 広畑誠 他: '"話者交代検出のためのモデル学習区間推定法"' 日本音響学会2007年春季研究発表会講演論文集CD-ROM , 20070306, p.109-110 *
JPN6013008105; 広畑誠 他: '"話者交代検出のためのモデル学習区間推定法"' 日本音響学会2007年春季研究発表会講演論文集CD-ROM , 20070306, p.109-110 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10324425B2 (en) 2016-10-19 2019-06-18 Fanuc Corporation Human collaborative robot system having improved external force detection accuracy by machine learning
DE102017009471B4 (de) 2016-10-19 2019-09-19 Fanuc Corporation Humankollaboratives Robotersytem mit verbesserter Genauigkeit der Erfassng einer äußeren Kraft durch maschinelles Lernen

Also Published As

Publication number Publication date
US20120237042A1 (en) 2012-09-20
JPWO2011033597A1 (ja) 2013-02-07
US8804973B2 (en) 2014-08-12
WO2011033597A1 (ja) 2011-03-24

Similar Documents

Publication Publication Date Title
JP5356527B2 (ja) 信号分類装置
US11900947B2 (en) Method and system for automatically diarising a sound recording
JP4728972B2 (ja) インデキシング装置、方法及びプログラム
JP6596376B2 (ja) 話者識別方法及び話者識別装置
JP5273042B2 (ja) 画像音響区間群対応付け装置と方法およびプログラム
US7171360B2 (en) Background learning of speaker voices
JP4220449B2 (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
JP5321596B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
CN111292764A (zh) 辨识系统及辨识方法
US20100114572A1 (en) Speaker selecting device, speaker adaptive model creating device, speaker selecting method, speaker selecting program, and speaker adaptive model making program
Jermsittiparsert et al. Pattern recognition and features selection for speech emotion recognition model using deep learning
JP2001092974A (ja) 話者認識方法及びその実行装置並びに音声発生確認方法及び装置
CN101937268A (zh) 基于视觉唇形识别的设备控制
Tao et al. Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection.
KR100729316B1 (ko) 학습 장치 및 학습 방법, 인식 장치 및 인식 방법, 및기록 매체
CN102473409B (zh) 声音空间的基准模型适应装置、集成电路以及av设备
JP2011013731A (ja) 情報処理装置、情報処理方法、およびプログラム
US9053751B2 (en) Sound and image segment sorting device and method
JP6784255B2 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
KR101925248B1 (ko) 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치
JP4340939B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
JP2000181486A (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
Abd El-Moneim et al. Effect of reverberation phenomena on text-independent speaker recognition based deep learning
US20200320549A1 (en) Method and system for integrated contextual performance analysis
Beigi et al. Speaker Modeling

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130828

LAPS Cancellation because of no payment of annual fees