JP5356527B2

JP5356527B2 - 信号分類装置

Info

Publication number: JP5356527B2
Application number: JP2011531668A
Authority: JP
Inventors: 誠広畑; 和範井本; 恒青木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-09-19
Filing date: 2009-09-19
Publication date: 2013-12-04
Anticipated expiration: 2029-09-19
Also published as: US20120237042A1; JPWO2011033597A1; US8804973B2; WO2011033597A1

Description

本発明は、信号分類装置に関する。

信号分類技術は、細かい時間単位で分割した音響信号を、その特徴を用いて類似するもの同士に分類するものである。この技術は、複数の参加者からなる会議や放送番組にて、話者毎に信号を区別することができる。また、ホームビデオなどの映像にて、撮影場所の背景音を区別し、イベント毎やシーン毎に信号を分類することができる。以下、発話者やイベントも含めてシーンと記述する。分割した音響信号を特徴づけるため、特許文献１では、処理対象である音響信号から生成した複数の音響モデルに対する観測確率（以下、尤度と記述）を求める。ここで生成した音響モデルは、音響特徴量によって表現される。同一シーンに含まれる信号は、特定の音響モデルに対しての尤度が高くなり、類似した特徴を持つ。

特開２００８−１７５９５５号公報

様々な長さのシーンで構成される音響信号から参照モデルを作成する際、特許文献１では、各シーンを表す参照モデルの数はシーンの長さに依存している。言い換えれば、シーンによってはモデルの数が複数になり、シーンの長さが長いほど、そのシーンを表すモデルの数は多くなる。したがって、特定シーンを表すモデル全てに対して、信号が高い尤度を示さなければ、該当するシーンに信号を分類することは困難であった。また、モデル数が多いシーンへの分類によって、モデル数が少ないシーンに関する情報が埋もれ、短いシーンの検出を見落しやすい問題があった。

本発明は、上記に鑑みてなされたものであって、音響信号をシーン毎に分類する分類精度を向上させることが可能な信号分類装置を提供することを目的とする。

上記目的を達成するために、本発明の信号分類装置は、音響信号の特性を表し、分布をもった特徴量を抽出する特徴量抽出部と、前記抽出した特徴量を予め指定した分割情報に従って任意の時間長からなる区間毎に分割する分割部と、前記各々の区間が参照する特徴量の分布を表す２つ以上の参照モデルとして、前記特徴量抽出部によって抽出された前記特徴量によって表現される参照モデルを取得する参照モデル取得部と、分割された前記区間毎の特徴量が、前記参照モデルに用いた特徴量の分布の中心から離れるに従い急速に減衰する値をベクトル成分の特徴として、前記参照モデルそれぞれに対して求めたベクトル成分を含む第１特徴ベクトルを前記区間毎に夫々導出する第１特徴ベクトル導出部と、前記区間毎の参照モデルと、前記全ての区間の参照モデルとの類似度を夫々算出するモデル間類似度算出部と、前記第１特徴ベクトルと前記全ての区間の参照モデルとが入力され、前記第１特徴ベクトルのベクトル成分に前記夫々の類似度を重みとして掛け合わせて第２特徴ベクトルを導出する第２特徴ベクトル導出部と、前記第２特徴ベクトルのベクトル成分に基づいて、各第２特徴ベクトルに対応する前記区間を、特徴が類似した区間毎に分類するクラスタリング部と、を備えたことを特徴とする。

本発明によれば、音響信号をシーン毎に分類する分類精度を向上させることが可能な信号分類装置を提供することができる。

本発明の第１の実施例に係る信号分類装置の構成を示したブロック図。第１の実施例に係る信号分類装置の機能構成を示した図。第１の実施例に係る信号分類処理の動作手順を示したフローチャート。第１の実施例に係る信号分類装置の動作例１を示した図である。第１の実施例に係る信号分類装置の動作例２を示した図である。第２の実施例に係る信号分類装置の動作例３を示した図である。第１の実施例に係る参照モデル取得部の機能構成を示した図である。第１の実施例に係る第１特徴ベクトル導出部の動作手順を示したフローチャート。第１の実施例に係るモデル間類似度算出部の動作手順を示したフローチャート。第１の実施例に係る第２特徴ベクトル導出部の動作手順を示したフローチャート。図４（ｂ）の動作例Ｏ７に示した類似度を基にして、２つのクラスに分類するクラスタリングを示す図。図９（ａ）と同じ音響信号に対し第１特徴ベクトルのみを使用した場合のクラスタリングを示す図。第２の実施例に係る信号分類装置の機能構成を示した図。第２の実施例に係る特定モデル選定部の動作手順を示したフローチャート。第２の実施例に係る第３特徴ベクトル導出部の動作手順を示したフローチャート。第２の実施例に係る第１特徴ベクトル導出部を使用した場合と第３特徴ベクトル導出部を使用した場合の類似度を比較する図。第２の実施例の信号分類処理の手順を示したフローチャート。図４（ｃ）の動作例Ｏ１０に示した類似度を基にして、２つのクラスに分類するクラスタリングを示す図。第３の実施例における信号分類装置の機能構成を示した図。第３の実施例の信号分類処理の動作手順を示したフローチャート。第３の実施例の分類結果表示部の動作例を示した図。

以下に図面を参照して、実施例に係る信号分類装置を詳細に説明する。

［第１の実施例］
図１は、第１の実施例に係る信号分類装置１００の全体の構成を示したブロック図である。図１に示す通り、信号分類装置１００は、ＣＰＵ(Central Processing Unit)１０１、操作部１０２、表示部１０３、ＲＯＭ（Read Only Memory）１０４、ＲＡＭ(Random Access Memory)１０５、信号入力部１０５、記憶部１０７等を備え、各部はバス１０８により接続されている。

ＣＰＵ１０１は、ＲＡＭ１０５の所定領域を作業領域として、ＲＯＭ１０４に予め記憶された各種制御プログラムとの協働により各種処理を実行し、信号分類装置１００を構成する各部の動作を統括的に制御する。

操作部１０２は、各種入力キー等を備え、ユーザから操作入力された情報を入力信号として受け付け、その入力信号をＣＰＵ１０１に出力する。

表示部１０３は、例えばＬＣＤ(Liquid Crystal Display)等の表示装置により構成され、ＣＰＵ１０１からの表示信号に基づいて、各種情報を表示する。なお、表示部１０３は、操作部１０２と一体的にタッチパネルを構成する様態としてもよい。

ＲＯＭ１０４は、信号分類装置１００の制御にかかるプログラムや各種設定情報等を書き換え不可能に記憶する。ＲＡＭ１０５は、ＳＤＲＡＭ等の記憶手段であって、ＣＰＵ１０１の作業エリアとして機能し、バッファ等の役割を果たす。信号入力部１０６は、図示しないマイクからの音響信号や、図示しないカメラからの映像信号を電気信号に変換し、ＰＣＭ(Pulse Code Modulation)等の数値データとしてＣＰＵ１０１に出力するものである。

記憶部１０７は、磁気的又は光学的に記憶可能な記憶媒体を有し、信号入力部１０６を介して取得された信号や、図示しない通信部やＩ／Ｆ（インターフェース）等を介して外部から入力される信号等のデータを記憶する。また、記憶部１０７は、後述する信号分類装置による音響信号の分類結果情報を記憶する。

図２は、第１の実施例に係る信号分類装置１００ａの機能構成を示したブロック図である。図２に示すように、信号分類装置１００は、特徴量抽出部１０、分割部１１、参照モデル取得部１２、第１特徴ベクトル導出部１３、モデル間類似度算出部１４、第２特徴ベクトル導出部１５及びクラスタリング部１６等を備えている。

特徴量抽出部１０は、信号入力部１０６等を介して入力された音響信号から一定の時間長c1毎に音響特徴量を抽出する。特徴量抽出部１０は、抽出した音響特徴量を分割部１１に出力する。また、特徴量抽出部１０は、後述する参照モデル取得部１２の動作に応じて、参照モデル取得部１２にも音響特徴量を出力する。

特徴量抽出部１０は、Y. Akitaらによる“Unsupervised Speaker Indexing using Anchor Models and Automatic Transcription of Discussions”, ISCA 8th European Conf. Speech Communication and Technology (Euro Speech), September 2003（参考文献１）に記載された手法を用いても良い。具体的には、特徴量抽出部１０は、ＬＰＣケプストラムやＭＦＣＣ等のケプストラム系特徴量を、一定の時間長c1毎に一定の時間長c2分の音響信号から抽出する。なお、時間長c1と時間長c2は、c1＜c2の関係を有する。例えば、c1は10.0msec、c2は25.0msecに設定される。

特徴量抽出部１０は、E. Scheirer らによる“Construction and Evaluation of a Robust Multi feature Speech/Music Discriminator”, IEEE International Conference on Acoustic Speech, and Signal Processing, April 1997（参考文献２）に記載された手法を用いても良い。具体的には、特徴量抽出部１０は、c1毎にc2分のスペクトル変動または零交差数を導出し、当該スペクトル変動または零交差数に基づき音響特徴量を抽出する。また、一定の時間長c2’内における当該スペクトル変動または零交差数の分散を音響特徴量としても良い。

この特徴量抽出部１０は、音響信号から音響特徴量を抽出するとしたが、これに限るものではなく、カメラからの映像信号から画像特徴量を抽出することもできる。また、音響信号が付与された複数の写真に対し、音響信号のみを取り出し繋げることで、一続きの音響信号として信号入力部１０６を介して入力することもできる。

分割部１１は、指定した分割情報に従って、特徴量抽出部１０から入力された音響特徴量を任意の時間長からなる区間毎に分割する。分割部１１は、分割された区間毎に纏めた音響特徴量を時刻情報（開始時刻と終了時刻）と共に第１特徴ベクトル導出部１３に出力する。

参照モデル取得部１２は、特徴量抽出部１０によって抽出された音響特徴量によって表現される音響モデルを複数取得する。参照モデル取得部１２は、取得した音響モデルの情報を第１特徴ベクトル導出部１３及びモデル間類似度算出部１４に出力する。各音響モデルは、表すシーンの情報を持たないとする（条件１）。この条件１は、任意の２つの音響モデルが同じシーンを表しているか否か判定できないことを意味する。また、シーンの中には、複数のモデルで表されるシーンがあるとする（条件２）。条件１及び条件２を満たすならば、後述する参照モデル取得部１２の動作に従わずに、ＲＯＭ１０４に記憶されている音響モデルを取得してもよい。

ここでシーンとは、音響信号の特徴が類似するもの同士に分類したものをさす。例えば、会議や放送番組での話者の違い、ホームビデオなどの撮影場所における背景音の区別、行事の細目の区別などといったイベント毎の違いによった分類で、意味的にまとまった区分である。

第１特徴ベクトル導出部１３は、分割部１１から入力された分割された区間毎の音響特徴量と、参照モデル取得部１２から入力された複数の参照モデルを用いて、各区間に固有の第１特徴ベクトルを導出する。また、第１特徴ベクトル導出部１３は、導出した各区間の第１特徴ベクトルを時刻情報と共に第２特徴ベクトル導出部１５に出力する。

モデル間類似度算出部１４は、参照モデル取得部１２から入力された複数の参照モデルを用いて、参照モデル毎に、全ての参照モデル夫々との類似度を算出する。また、モデル間類似度算出部１４は、算出した類似度を第２特徴ベクトル導出部１５に出力する。

第２特徴ベクトル導出部１５は、第１特徴ベクトル導出部１３から入力された分割された区間毎の第１特徴ベクトルとモデル間類似度算出部１４から入力された類似度を用いて、各区間に固有の特徴ベクトル（第２特徴ベクトル）を導出する。また、第２特徴ベクトル導出部１５は、導出した各区間の第２特徴ベクトルを時刻情報と共にクラスタリング部１６に出力する。

クラスタリング部１６は、第２特徴ベクトル導出部１５から入力された全ての分割された区間の第２特徴ベクトルの中で、類似した第２特徴ベクトル同士を一つのクラスとして纏める。クラスタリング部１６は、同じクラスに属した各第２特徴ベクトルに対応する区間に、同一ＩＤ（クラス番号）を付与する。

次に、本実施例の信号分類装置１００の動作を説明する。図３は、本実施例の信号分類装置１００ａによる信号分類処理の流れを示したフローチャートである。以下、図３及び図４（ａ）（ｂ）に示した動作例Ｏ１乃至Ｏ７を参照して、本実施例の信号分類処理について説明する。

まず、信号入力部１０６等を介して信号が入力されると（図３のステップＳ１０１）、特徴量抽出部１０は、入力された信号から音響特徴量を一定の時間長c1毎に抽出する（図３のステップＳ１０２）。特徴量抽出部１０は、抽出した音響特徴量を分割部１１及び参照モデル取得部１２に出力する。

続いて、分割部１１は、予め指定した分割情報に従い、入力された音響特徴量を区間毎に分割する（図３のステップＳ１０３）。分割部１１は、分割した音響特徴量を第１特徴ベクトル導出部１３に出力する。

ここで、分割された区間毎に纏めた音響特徴量は、各区間に含まれる複数の音響特徴量を表しても良い。また、複数の音響特徴量の平均値を表すとしても良い。また、指定される分割情報は、分割された区間の全ての区間長は一定の時間長c3に設定されるという情報で良い。なお、時間長c3はc2＜c3の関係を有する。例えばc3は、1secに設定される。図４（ａ）の動作例では、４つの時刻T1、T2、T3、T4で処理される様子を示し、夫々 -9.0、-3.1、1.0、8.0という音響特徴量を有するとする（図４（ａ）の動作例Ｏ１参照）。

また、分割情報は、他の処理から得られた情報でも良く、各区間は同じ長さである必要はない。例えば、中川らによる“発話間のVQ歪みを用いた話者交替識別と話者クラスタリング”, 電子情報通信学会論文誌, November 2002の記載の手法によって、話者交替時刻のような特徴変化の大きい時刻を検出し、当該時刻で区切られた区間を分割情報として与えても良い。また、音響信号から無音区間を検出し、当該無音区間によって区切られた有音区間を分割情報として与えても良い。

なお、図４（ａ）の動作例では、４つの参照モデルs1、s2、s3、s4を取得し、夫々平均値は -7、-6、0、8、分散は1となるとする。また、参照モデルs1とs2は、同じシーンを表すとする（図４（ａ）の動作例Ｏ２参照）。

次いで、参照モデル取得部１２は、ステップＳ１０２で一定の時間長c1毎に抽出された音響特徴量を用いて、参照モデル取得処理を実行し、参照モデルを取得する（ステップＳ１０４）。

ここで、参照モデル取得部１２の詳細な動作を、図５を参照して説明する。図５は、参照モデル取得部１２の動作に関する機能構成を示したブロック図である。図５に示す通り、参照モデル取得部１２は、プレ分割部１２１、プレモデル生成部１２２、領域内類似度算出部１２３、学習領域抽出部１２４及び参照モデル生成部１２５等を有している。

プレ分割部１２１は、特徴量抽出部１０から入力される音響特徴量を、所定時間長からなるプレ区間毎に分割する。ここで、プレ分割部１１は、分割単位となるプレ区間を一定時間長c4に設定し、各プレ区間の音響特徴量を時刻情報と共にプレモデル生成部１２２に出力する。ここで、時間長c4は、一人の話者による一般的な発話時間や一シーンより短い時刻に設定し（例えば2.0sec）、プレ区間を一人の話者や一シーンの音響特徴量のみで構成されるようにすることが望ましい。

プレモデル生成部１２２は、プレ分割部１２１からプレ区間分の音響特徴量が入力される度に、その音響特徴量から音響モデル（プレモデル）を生成する。プレモデル生成部１２２は、生成したプレモデルと生成に用いたプレ区間の固有情報（音響特徴量と時刻情報）を領域内類似度算出部１２３に出力する。上記の一定時間長c4の条件下では、モデル生成において十分な統計量を得られない可能性があるため、ここでの音響モデルはVQ(Vector Quantization)コードブック等を用いて生成されることが好ましい。

領域内類似度算出部１２３は、プレモデル生成部１２２から連続して入力される所定数分のプレ区間を一つの領域として順次設定し、これら領域毎の類似度を、当該領域に含まれるプレ区間のプレモデルに基づいて算出する。また、領域内類似度算出部１２３は、算出した類似度をそれに対応する領域に含まれるプレ区間の情報と共に、学習領域抽出部１２４に出力する。

学習領域抽出部１２４は、領域内類似度算出部１２３から入力された類似度が所定値以上となる領域を学習領域として抽出する。また、学習領域抽出部１２４は、抽出した学習領域に対応する音響特徴量と時刻情報を参照モデル生成部１２５に出力する。この領域内類似度算出部１２３及び学習領域抽出部１２４にて行われる学習領域抽出処理は、特開２００８−１７５９５５号公報（特許文献１）における学習領域抽出処理と同様の方法で実行することができる。

参照モデル生成部１２５は、学習領域抽出部１２４から入力された学習領域毎の音響特徴量に基づいて、各学習領域の音響モデルを生成する。この音響モデルに対して求めた音響特徴量の尤度値は、その音響特徴量がモデル生成時に用いた音響特徴量の分布の中心に近いほど高く、分布の中心から離れるに従い急速に減衰する特性を持つ（音響モデルの制約）。この音響モデルの制約は、求めた尤度値を他の尤度値に重み付き加算する際、加算度合いに大きな強弱を付けることができる。例えば、GMM(Gaussian Mixture Model)等の正規分布を元にしたモデルは、この音響モデルに対する制約を満たす。なお、ＲＯＭ１０４に記憶されている音響モデルもこの音響モデルの制約を満たすとする。

参照モデル取得部１２は、参照モデル生成部１２５で取得した参照モデルを第１特徴ベクトル導出部１３及びモデル間類似度算出部１４に出力する。

次いで、第１特徴ベクトル導出部１３は、ステップＳ１０４で取得された参照モデルと、ステップＳ１０３で分割された区間毎の音響特徴量を用いて、第１特徴ベクトル導出処理を実行し、区間毎に第１特徴ベクトルを導出する（図３のステップＳ１０５）。

ここで、第１特徴ベクトル導出部１３の詳細な動作を、図６を参照して説明する。図６は、第１特徴ベクトル導出部１３による第１特徴ベクトル導出する動作手順を示したフローチャートである。まず、第１特徴ベクトル導出部１３は、最初の区間Tkに参照番号k=1を設定する（ステップＳ１１）。次に、最初の参照モデルsmに参照番号m=1を設定する（ステップＳ１２）。

次に、k番目の区間Tkの音響特徴量を用いて、m番目の参照モデルsmに対する尤度P(Tk | sm)を算出する（ステップＳ１３）。ここで、参照モデルsmに対する尤度は式（１）のように表される。

なお、式（１）において、dimは音響特徴量の次元数、Ikは区間Tkの音響特徴量の数、fiは区間Tkのi番目の音響特徴量、Nmは参照モデルsmの混合数、cmn、umn、Umnは夫々参照モデルsmの混合nの混合重み係数、平均ベクトル、対角共分散行列を表す。また、尤度の対数を後段の処理で用いても良い。

続いて、第１特徴ベクトル導出部１３は、参照モデル取得部１２から入力される全ての参照モデルに対し、ステップＳ１３の尤度算出を行ったか否かを判定する（ステップＳ１４）。ここで、未完了の参照モデルがあると判定した場合（ステップＳ１４のＮｏ）、参照番号m=m+1を設定して、次の参照モデルsmを処理対象とした後（ステップＳ１５）、ステップＳ１３に戻る。

一方、ステップＳ１４において、全ての参照モデルに対し、尤度を算出したと判定した場合（ステップＳ１４のＹｅｓ）、下記式（２）に基づいてk番目の区間Tkに対し、導出した尤度を成分として持つベクトルを区間Tkの第１特徴ベクトルvkとして生成する（ステップＳ１６）。ここで、下記式（２）では、参照モデルの数をＭ個とする。なお、第１特徴ベクトルvkの成分を正規化する等、第１特徴ベクトルvkに加工処理を加えてもよい。図４（ａ）の動作例では、式（２）に基づき尤度算出を行い、第１特徴ベクトル毎に、成分の平均値と標準偏差を用いて、平均0、分散1となるように各成分を正規化した（図４（ａ）の動作例Ｏ３を参照）。

次いで、第１特徴ベクトル導出部１３は、全ての区間に対し第１特徴ベクトルvkを生成したか否かを判定する（ステップＳ１７）。ここで、全ての区間Tkに対し第１特徴ベクトルvkを生成していないと判定した場合（ステップＳ１７のＮｏ）、参照番号k=k+1を設定し、次の区間Tkを処理対象とした後（ステップＳ１８）、ステップＳ１２に戻る。

一方、ステップＳ１７において、全ての区間に対し第１特徴ベクトルvkを生成したと判定した場合（ステップＳ１７のＹｅｓ）、各区間の第１特徴ベクトルを時刻情報と共に第２特徴ベクトル導出部１５に出力し（ステップＳ１９）、処理を終了する。こうして、第１特徴ベクトル導出部１３は、導出した第１特徴ベクトルを第２特徴ベクトル導出部１５に出力する。

次いで、モデル間類似度算出部１４は、ステップＳ１０４で取得した参照モデルを用いて、モデル間類似度算出処理を実行し、参照モデル毎に全ての参照モデルとの類似度を算出する（図３のステップＳ１０６）。

ここで、モデル間類似度算出部１４の詳細な動作を、図７を参照して説明する。図７は、モデル間類似度算出部１４によるモデル間類似度を算出する動作手順を示したフローチャートである。

まず、モデル間類似度算出部１４は、最初の参照モデルskに参照番号k=1を設定する（ステップＳ２１）。次に、参照モデルskが参照する最初の参照モデルsmに参照番号m=1を設定する（ステップＳ２２）。

次に、モデル間類似度算出部１４は、k番目の参照モデルskと参照モデルsmの類似度S(sk, sm)を算出する（ステップＳ２３）。類似度S(sk, sm)は、例えば参照モデル間の平均ベクトルを用いたユークリッド距離にマイナスを掛けた値とすることができる（図４（ｂ）の動作例Ｏ４参照）。この類似度S(sk, sm)は、S(sm, sk)と等しいとする。なお、既に類似度S(sm, sk)を求めていた場合、類似度S(sk, sm)の算出処理を省くことができる。

続いて、モデル間類似度算出部１４は、k番目の参照モデルskに対し、全ての参照モデルsmと類似度を算出したか否かを判定する（ステップＳ２４）。ここで、未完了の参照モデルsmがあると判定した場合（ステップＳ２４のＮｏ）、参照番号m=m+1を設定し、次の参照モデルsmを処理対象とした後（ステップＳ２５）、ステップＳ２３に戻る。

一方、ステップＳ２４において、k番目の参照モデルskに対し、全ての参照モデルsmと類似度を算出したと判定した場合（ステップＳ２４のＹｅｓ）、下記式（３）に基づいてk番目の参照モデルskに対する参照モデルsmの類似度S(sm | sk)を求める（ステップＳ２６）。類似度S(sm | sk)の導出には、参照モデルskに対して求めた類似度全ての平均値meanと標準偏差sd、さらにパラメータa、bと関数Gを用いる。

まず、類似度S(sk, sm)を平均b、分散a²になるように正規化する。ここで、パラメータbより大きく上限値H_１以下である上限値H_１’を設定する。また、パラメータbより小さく下限値H_２以上である下限値H_２’を設定する。関数Gは、入力値（類似度S(sk, sm)を正規化した値）を、閾値th1以上ならば上限値H1以下上限値H_１’以上に調節する関数とする。また、入力値を閾値th2以下ならば、下限値H_２以上下限値H_２’以下に調節する関数とする。また、２つの変数xとyにx > yの関係があるとき、G(x)≧G(y)が成立するとする。関数Gを示した式（４）はH_１=H_１’、H_２=H_２’とした例である。図４（ｂ）の動作例では、さらに、a=2.0、b=0.5、H_１=1.0、H_２=0.0、th1=1.0、th2=0.0と設定し、類似度S(sm | sk)を求めている（図４（ｂ）の動作例Ｏ５参照）。なお、関数Gは、シグモイド関数など、様々な関数を適用することが可能である。

次いで、モデル間類似度算出部１４は、全ての参照モデルskに対し、全てに参照モデルsmとの類似度を算出したか否かを判定する（ステップＳ２７）。ここで、未完了の参照モデルskがあると判定した場合（ステップＳ２７のＮｏ）、参照番号k=k+1を設定し、次の参照モデルskを処理対象とした後（ステップＳ２８）、ステップＳ２２に戻る。

一方、ステップＳ２７において、全ての参照モデルskに対し、全ての参照モデルsmとの類似度を算出したと判定した場合（ステップＳ２７のＹｅｓ）、参照モデル毎に、全ての参照モデルとの間で求めた類似度を第２特徴ベクトル導出部１５に出力し（ステップＳ２９）、処理を終了する。こうして、モデル間類似度算出部１４は、算出した類似度を第２特徴ベクトル導出部１５に出力する。

次いで、第２特徴ベクトル導出部１５は、ステップＳ１０５で導出された第１特徴ベクトルとステップＳ１０６で算出された類似度を用いて、第２特徴ベクトル導出処理を実行し、分割された区間毎に第２特徴ベクトルを導出する（図３のステップＳ１０７）。

ここで、第２特徴ベクトル導出部１５の詳細な動作を、図８を参照して説明する。図８は、第２特徴ベクトル導出部１５による第２特徴ベクトルを導出する動作手順を示したフローチャートである。

まず、第２特徴ベクトル導出部１５は、最初の区間Tkに参照番号k=1を設定した後（ステップＳ３１）、最初の参照モデルsmに参照番号m=1を設定する（ステップＳ３２）。このステップＳ３２は、k番目の区間Tkのm次元目の要素（ベクトル成分）を導出するための処理である。

次に、第２特徴ベクトル導出部１５は、k番目の区間Tkのm次元目の要素ykm=0を新たに設定する（ステップＳ３３）。また、m番目の参照モデルsmが参照する最初の参照モデルsjに参照番号j=1を設定する（ステップＳ３４）。

続いて、第２特徴ベクトル導出部１５は、k番目の区間Tkで導出した第１特徴ベクトルvkのm次元目の要素vkmと、m番目の参照モデルsmに対するj番目の参照モデルsjの類似度S(sj | sm)を用いて、要素ykmを更新する。具体的には、ykm=ykm+S(sj | sm)*vkmを設定する（ステップＳ３５）。

次いで、第２特徴ベクトル導出部１５は、要素ykm更新のために、m番目の参照モデルsmに対する全ての参照モデルsjの類似度を利用したか否かを判定する（ステップＳ３６）。ここで、未完了の参照モデルがあると判定した場合（ステップＳ３６のＮｏ）、参照番号j=j+1を設定し、次の参照モデルsjを処理対象とした後（ステップＳ３７）、ステップＳ３５に戻る。

一方、ステップＳ３６において、要素ykm更新のために、m番目の参照モデルsmに対する全ての参照モデルsjの類似度を利用したと判定した場合（ステップＳ３６のＹｅｓ）、k番目の区間Tkに対し、M（=参照モデル数）次元分全ての要素を更新したか否かを判定する（ステップＳ３８）。ここで、未完了の要素があると判定した場合（ステップＳ３８のＮｏ）、参照番号m=m+1を設定し、次の要素モデルsmを処理対象とした後（ステップＳ３９）、ステップＳ３３に戻る。

一方、ステップＳ３８において、k番目の区間Tkに対し、全ての要素を更新したと判定した場合（ステップＳ３８のＹｅｓ）、算出した要素を成分に持つ第２特徴ベクトルykを生成する（ステップＳ４０）。図４（ｂ）の動作例では、図４（ｂ）の動作例Ｏ５の情報を得た後、図４（ａ）の動作例Ｏ３の情報も用いて、第２特徴ベクトルを得る（図４（ｂ）の動作例Ｏ６参照）。

次いで、第２特徴ベクトル導出部１５は、全ての区間に対し第２特徴ベクトルykを生成したか否かを判定する（ステップＳ４１）。ここで、未完了の区間があると判定した場合（ステップＳ４１のＮｏ）、参照番号k=k+1を設定し、次の区間Tkを処理対象とした後（ステップＳ４２）、ステップＳ３２に戻る。

一方、ステップＳ４１において、全ての区間に対し第２特徴ベクトルykを生成したと判定した場合（ステップＳ４１のＹｅｓ）、各区間の第２特徴ベクトルykを時刻情報と共にクラスタリング部１６に出力し（ステップＳ４３）、処理を終了する。こうして、第２特徴ベクトル導出部１５は、導出した第２特徴ベクトルをクラスタリング部１６に出力する。

そして、クラスタリング部１６は、ステップＳ１０７で導出された第２特徴ベクトルの中で、類似する第２特徴ベクトル同士を一つのクラスとして纏め、同一クラスに属する第２特徴ベクトルを持つ区間全てに同一ＩＤを付与した後（ステップＳ１０８）、処理を終了する。

ここで、クラスタリング部１６の処理において、図４（ｂ）の動作例では、同じＩＤを付与するまでは示していないが、ベクトル同士のユークリッド距離にマイナスを掛けた値を類似度として示している（図４（ｂ）の動作例Ｏ７参照）。図４（ａ），（ｂ）の動作例では、参照モデルs1及びs2が特定のシーンを表すとしている。参照モデルs1またはs2の分布に属する区間T1とT2に同じシーンのＩＤを付与するには、区間T1とT2の類似度が他の区間同士の組み合わせより高くならなければならない。シーンs1とs2のどちらかにしか高い尤度を示さない状況では（図４（ａ）の動作例Ｏ３参照）、区間T1とT2の類似度を高くし、同じシーンのＩＤを付与することが困難である（図４（ａ）の動作例Ｏ７’参照）。一方、モデル間の類似性を考慮し、一部の高い尤度値を他の尤度値に反映した本実施例では（図４（ｂ）の動作例Ｏ６参照）、T1とT2の類似度は高くなり、同じシーンのＩＤを付与することができる（図４（ｂ）の動作例Ｏ７参照）。

図９（ａ）は、図４（ｂ）の動作例Ｏ７に示した類似度を基にして、２つのクラスに分類するクラスタリングを示す図である。また、図９（ｂ）は、図９（ａ）と同じ音響信号に対し第１特徴ベクトルのみを使用した場合のクラスタリングを示している。

図９（ａ）に示した第１の実施例の第２特徴ベクトルを用いた場合では、４つの区間T1,T2,T3,T4のお互いの類似度から、最も大きい類似度と次に大きい類似度（太線矢印で表示）を持つ区間T1とT2、区間T3とT4を同じクラスに分類することができるので、その結果２つのクラスに分類される。また、１つのクラスが１つのシーンを表すとみなす。したがって、区間T1とT2、および区間T3とT4に対し同じシーンＩＤを付与することができる。その結果、図９（ａ）の右側に示すような時刻情報が表示できるようになる。表示動作については後述する。

これに対し、図９（ｂ）では、４つの区間T1,T2,T3,T4のお互いの類似度から、最も大きい類似度と次に大きい類似度（太線矢印で表示）を持つ区間T2、T3およびT4を同じクラスに分類することで、２つのクラスに分類される。前述したように、区間T1とT2には同じシーンＩＤを付与したいが、区間T2とT3（または区間T3とT4）の類似度に比べ区間T1とT2の類似度が低いため、第１特徴ベクトルを用いた場合では、同じシーンＩＤを付与できない。

以上のように、本実施例によれば、信号が特定シーンを表すモデル全てに対して高い尤度を示さなくても、モデル間の類似性を考慮することで、一部の高い尤度値を他の尤度値に反映し、該当するシーンに信号を分類することができる。

［第２の実施例］
次に、第２の実施例の信号分類装置１００ｂについて説明する。図１０は、第２の実施例における信号分類装置１００ｂの機能構成を示したブロック図である。第２の実施例は、第１の実施例に特定モデル選定部２７、および第３特徴ベクトル導出部２８が追加されていることが分かる。よって、特定モデル選定部２７、第３特徴ベクトル導出部２８を中心に説明し、第１の実施例と同等の構成については、同一の名称を付与し、その説明を省略する。

図１０に示したように、第２の実施例の信号分類装置１００ｂは、特徴量抽出部１０、分割部１１、参照モデル取得部１２、第１特徴ベクトル導出部２３、モデル間類似度算出部２４、第２特徴ベクトル導出部２５、特定モデル選定部２７、第３特徴ベクトル導出部２８及びクラスタリング部２６等から構成される。

なお、図１０において、第１特徴ベクトル導出部２３、モデル間類似度算出部２４、第２特徴ベクトル導出部２５、特定モデル選定部２７、第３特徴ベクトル導出部２８及びクラスタリング部２６は、特徴量抽出部１０、分割部１１及び参照モデル取得部１２と同様、ＣＰＵ１０１とＲＯＭ１０４に予め記録された所定のプログラムとの協働により実現される機能部である。

第１特徴ベクトル導出部２３は、導出した各区間の第１特徴ベクトルと時刻情報をさらに第３特徴ベクトル導出部２８に出力する。モデル間類似度算出部２４は、算出した類似度を第２特徴ベクトル導出部２５および特定モデル選定部２７に出力する。また、第２特徴ベクトル導出部２５は、導出した各区間の第２特徴ベクトルと時刻情報を第３特徴ベクトル導出部２８に出力する。

第３特徴ベクトル導出部２８は、第２特徴ベクトル導出部２５から入力された分割された区間毎の第２特徴ベクトルと、第１特徴ベクトル導出部２３から入力された分割された区間毎の第１特徴ベクトル及び特定モデル選定部から入力された特定モデルを用いて、各区間に固有の第３特徴ベクトルを導出する。また、第３特徴ベクトル導出部２８は、導出した各区間の第３特徴ベクトルを時刻情報と共にクラスタリング部２６に出力する。

次に、特定モデル選定部２７について説明する。特定モデル選定部２７は、モデル間類似度算出部２４から入力された類似度を用いて、参照モデル毎に、全ての参照モデル夫々において求めた当該参照モデルとの類似度に基づくスコアを算出する。そして、特定モデル選定部２７は、算出した各参照モデルの特定度スコアを比較し、一つ以上の参照モデルを特定モデルとして選定する。また、特定モデル選定部２７は、選定した特定モデルを参照モデルとの対応関係と一緒に第３特徴ベクトル導出部２８に出力する。

以下、図１１を参照して、特定モデル選定部２７の動作について説明する。図１１は、特定モデル選定部２７による特定モデルを選定する処理手順を示したフローチャートである。

まず、特定モデル選定部２７は、特定モデルを選定するための特定度スコアを算出したい最初の参照モデルskに参照番号k=1を設定する（ステップＳ５１）。

次に、特定モデル選定部２７は、k番目の参照モデルskの特定度スコアlk=0を設定する（ステップＳ５２）。また、参照モデルskが参照する最初の参照モデルsmに参照番号m=1を設定する（ステップＳ５３）。

続いて、特定モデル選定部２７は、参照モデルsmに対するk番目の参照モデルskの類似度S(sk | sm)と下式（５）で表される関数Fを用いて、特定度スコアlk=lk+F(S(sk | sm))を設定する。

ここで、２つの変数xとyにx > yの関係があるとき、F(x)≧F(y)が成立するとする。他に例えば、関数FはF(x)=xと設定できる。

次いで、特定モデル選定部２７は、全ての参照モデルsmに対するk番目の参照モデルskの類似度を利用したか否かを判定する（ステップＳ５５）。ここで、未完了の参照モデルがあると判定した場合（ステップＳ５５のＮｏ）、参照番号m=m+1を設定し、次の参照モデルsmを処理対象とした後（ステップＳ５６）、ステップＳ５４に戻る。

一方、ステップＳ５５において、全ての参照モデルsmに対する類似度を利用したと判定した場合（ステップＳ５５のＹｅｓ）、全ての参照モデルskに対し特定度スコアを算出したか否かを判定する（ステップＳ５７）。ここで、未完了の参照モデルskがあると判定した場合（ステップＳ５７のＮｏ）、参照番号k=k+1を設定し、次の参照モデルskを処理対象とした後（ステップＳ５８）、ステップＳ５２に戻る。

一方、ステップＳ５７において、全ての参照モデルskの特定度スコアを算出したと判定した場合（ステップＳ５７のＹｅｓ）、特定度スコアが低いL個の参照モデルを特定モデルとして選定し、選定した特定モデルを対応する参照モデルの情報と一緒に第３特徴ベクトル導出部２８に出力し（ステップＳ５９）、処理を終了する。なお、Lはパラメータであり、図４（ｃ）の動作例では、L=1とし、上式（５）を使用することで、参照モデルs4が特定モデルr1として選定される（図４（ｃ）の動作例Ｏ８参照）。

次に、第３特徴ベクトル導出部２８について説明する。第３特徴ベクトル導出部２８は、分割された区間毎の第２特徴ベクトルと、分割された区間毎の第１特徴ベクトル及び特定モデルを用いて、各区間に固有の第３特徴ベクトルを導出するものである。図１２は、第３特徴ベクトル導出部２８により実行される第３特徴ベクトル導出処理の手順を示したフローチャートである。

まず、第３特徴ベクトル導出部２８は、最初の区間Tkに参照番号k=1を設定する（ステップＳ６１）。また、最初の特定モデルrlに参照番号l=1を設定する（ステップＳ６２）。

次に、第３特徴ベクトル導出部２８は、l番目の特定モデルrlに対応する（等しい）参照モデルの参照番号mを取得する（ステップＳ６３）。

続いて、第３特徴ベクトル導出部２８は、k番目の区間Tkで導出した第２特徴ベクトルykにおいて、M+l番目の新しいベクトル成分として第１特徴ベクトルvkのm番目のベクトル成分vkmを追加する（ステップＳ６４）。

次いで、第３特徴ベクトル導出部２８は、k番目の区間Tkで導出した第２特徴ベクトルykに対し、全ての特定モデルrlに対応する第１特徴ベクトルの成分Vkmを追加したか否かを判定する（ステップＳ６５）。ここで、未完了の特定モデルがあると判定した場合（ステップＳ６５のＮｏ）、参照番号l=l+1を設定し、次の特定モデルrlを処理対象とした後（ステップＳ６６）、ステップＳ６３に戻る。

一方、ステップＳ６５において、全ての特定モデルに対して、対応する第１特徴ベクトルの成分を第２特徴ベクトルの成分として追加したと判定した場合（ステップＳ６５のＹｅｓ）、成分を追加されたk番目の区間Tkで導出した第２特徴ベクトルykを第３特徴ベクトルzkとして設定する（ステップＳ６７）。図４（ａ）〜図４（ｃ）の動作例では、図４（ｃ）の動作例Ｏ８の情報を得た後、図４（ａ）の動作例Ｏ３と図４（ｂ）の動作例Ｏ６の情報を用いて、第３特徴ベクトルを得る（図４（ｃ）の動作例Ｏ９参照）。

次いで、第３特徴ベクトル導出部２８は、全ての区間に対し第３特徴ベクトルを生成したか否かを判定する（ステップＳ６８）。ここで、未完了の区間があると判定した場合（ステップＳ６８のＮｏ）、参照番号k=k+1を設定し、次の区間Tkを処理対象とした後（ステップＳ６９）、ステップＳ６２に戻る。

一方、ステップＳ６８において、分割された全ての区間に対し第３特徴ベクトルを生成したと判定した場合（ステップＳ６８のＹｅｓ）、各区間の第３特徴ベクトルを時刻情報と一緒にクラスタリング部２６に出力し（ステップＳ７０）、処理を終了する。こうして、第３特徴ベクトル導出部２８は、導出した各区間の第３特徴ベクトルを時刻情報と一緒にクラスタリング部２６に出力して動作を終了する。

そして、クラスタリング部２６は、第３特徴ベクトル導出部１５から入力された全ての分割された区間の第３特徴ベクトルの中で、類似した第３特徴ベクトル同士を一つのクラスとして纏める。クラスタリング部２６は、同じクラスに属した各第３特徴ベクトルに対応する区間に、同一ＩＤ（クラス番号）を付与する。

図１３は、実際のビデオカメラにて運動会の様子を撮影したときに得られた音響信号の処理結果の一例を示した図である。図１３（ａ）は第１特徴ベクトルを使用した場合の各時刻において隣り合う区間同士の類似度を示し、図１３（ｂ）は第３特徴ベクトルを使用した場合の各時刻において隣り合う区間同士の類似度を示した図である。

図１３（ａ）に示したように、第１特徴ベクトルを使用しただけでは、幾つかのシーン（例えば、出し物シーン、徒競走シーン）の前後で十分に低い類似度が得られていないことが分かる。これに対し、図１３（ｂ）に示したように、モデル間類似度を用いて導出した第３特徴ベクトルを使用した場合では、各シーンの境界（出し物シーンと退場シーンの間、退場シーンと競技準備シーンの間、競技準備シーンと徒競走シーンの間）にて低い類似度が得られている。従って、第３特徴ベクトルを使用した場合、各シーンの検出を容易にすることができる。

図１４は、第２の実施例の信号分類装置１００ｂによる信号分類処理の流れを示したフローチャートである。以下、図１４及び図４（ａ）乃至図４（ｃ）に示した動作例Ｏ１〜Ｏ１０を参照して、本実施例の信号分類処理について説明する。

まず、ステップＳ１０１〜ステップＳ１０４では、図３でのステップＳ１０１〜ステップＳ１０４と同様の処理を行う（図４（ａ）の動作例Ｏ１、Ｏ２参照）。

続いて、第１特徴ベクトル導出部２３は、図１４のステップＳ１０４で取得された参照モデルと、分割された区間毎に分類された音響特徴量を用いて第１特徴ベクトルの導出処理を実行し、分割された区間毎に第１特徴ベクトルを導出する（ステップＳ２０５、図４（ａ）の動作例Ｏ３参照）。第１特徴ベクトル導出部２３は、導出した第１特徴ベクトルを第２特徴ベクトル導出部２５及び第３特徴ベクトル導出部２８に出力する。

次いで、モデル間類似度算出部２４は、ステップＳ１０４で取得された参照モデルを用いてモデル間類似度算出処理を実行し、参照モデル毎に全ての参照モデルとの類似度を算出する（ステップＳ２０６、図４（ｂ）の動作例Ｏ４及びＯ５参照）。モデル間類似度算出部２４は、算出した類似度を第２特徴ベクトル導出部２５及び特定モデル選定部２７に出力する。

次いで、第２特徴ベクトル導出部２５は、ステップＳ２０５で導出された第１特徴ベクトルとステップＳ２０６で算出された類似度を用いて第２特徴ベクトルの導出処理を実行し、分割された区間毎に第２特徴ベクトルを導出する（ステップＳ２０７、図４の（ｂ）動作例Ｏ６参照）。第２特徴ベクトル導出部２５は、導出した第２特徴ベクトルを第３特徴ベクトル導出部２８に出力する。

次いで、特定モデル選定部２７は、ステップＳ２０６で算出された類似度を用いて特定モデルの選定処理を実行し、一つ以上の特定モデルを選定する（ステップＳ２０８、図４（ｃ）の動作例Ｏ８参照）。特定モデル選定部２７は、選定した特定モデルを第３特徴ベクトル導出部２８に出力する。

次いで、第３特徴ベクトル導出部２８は、ステップＳ２０７で導出された第２特徴ベクトルと、ステップＳ２０５で導出された第１特徴ベクトル及びステップＳ２０８で選定された特定モデルを用いて第３特徴ベクトルの導出処理を実行し、分割された区間毎に第３特徴ベクトルを導出する（ステップＳ２０９、図４（ｃ）の動作例Ｏ９参照）。第３特徴ベクトル導出部２８は、導出した第３特徴ベクトルをクラスタリング部２６に出力する。

最後に、クラスタリング部２６は、ステップＳ２０９で導出した第３特徴ベクトルの中で、類似する第３特徴ベクトル同士を一つのクラスとして纏め、同一クラスに属する第３特徴ベクトルを持つ区間全てに同一ＩＤを付与した後（ステップＳ２１０）、処理を終了する。

図４（ａ）および図４（ｂ）の動作例に関する第１の実施例での説明では、参照モデルs1及びs2が特定のシーンを表すとしていた。第２の実施例では、図４（ｃ）に示すように、さらに参照モデルs3も同じ特定のシーンを表すとする。参照モデルs3の平均値は、参照モデルs4の平均値よりも参照モデルs1やs2の平均値に近い。そのため、この参照モデルs3も同じ特定のシーンを表すという状況が起こり得る。このとき、参照モデルs4は唯一異なるシーンを表すことになり、モデル数の多いシーンとモデル数の少ないシーンがある状況になる。そして、参照モデルs3の分布に属する区間T3が参照モデルs2の分布に属する区間T2と同じシーンのＩＤを取得するには、区間T2とT3の類似度が区間T3と他のシーンに属する区間T4の類似度より高くならなければならない。第２特徴ベクトルを利用した状況下では、参照モデルs4が表すシーンの情報が埋もれ、区間T2とT3に同じシーンのＩＤを付与し、かつ、区間T4には異なるシーンのＩＤを付与することは困難である（図４（ｂ）の動作例Ｏ７参照）。

第２の実施例では、モデル数の少ないシーンを表す参照モデルs4を特定モデルとして選定し、且つ、対応する第１特徴ベクトル成分を追加して導出した第３特徴ベクトルを利用してＩＤを付与するとした（図４（ｃ）の動作例Ｏ９参照）。その結果、区間T2とT3の類似度が高くなり、区間T2とT3に同じシーンのＩＤを付与することができる。また、区間T4には、異なるシーンのＩＤを付与することができる（図４（ｃ）の動作例Ｏ１０参照）。

図１５は、図４（ｃ）の動作例Ｏ１０に示した類似度を基にして、２つのクラスに分類するクラスタリングを示す図である。第３特徴ベクトルを用いた場合では、４つの区間T1,T2,T3,T4のお互いの類似度から、最も大きい類似度と次に大きい類似度（太線矢印で表示）を持つ区間T1とT2、および区間T2とT3を同じクラスに分類することができるので、その結果２つのクラスに分類される。したがって、区間T1とT2とT3に対し同じシーンＩＤを付与することができる。その結果、図１５の右側に示すような時刻情報が表示できるようになる。

以上のように、第２の実施例によれば、モデル数が多いシーンへの分類によって、モデル数が少ない短いシーンの情報が埋もれてしまう状況でも、モデル数の少ないシーンを表すモデルを選定し、対応する特徴をさらに考慮することで、短いシーンを検出することができる。また、短いシーンを表すモデルに対する尤度値をさらに追加することで、短いシーンの情報を強調し、検出漏れを防ぐことができる。

［第３の実施例］
次に、第３の実施例の信号分類装置１００ｃについて説明する。図１６は、第３の実施例における信号分類装置１００ｃの機能構成を示したブロック図である。第３の実施例は、第１の実施例に分類結果表示部３９が追加されている。したがって、ここでは分類結果表示部３９を中心に説明して、第１の実施例と同等の構成については、同一の符号又は名称を付与し、その説明を省略する。

図１６に示したように、第３の実施例の信号分類装置１００ｃは、特徴量抽出部１０、分割部１１、参照モデル取得部１２、第１特徴ベクトル導出部１３、モデル間類似度算出部１４、第２特徴ベクトル導出部１５、クラスタリング部３６及び分類結果表示部３９から構成される。

なお、図１６において、クラスタリング部３６及び分類結果表示部３９は、特徴量抽出部１０、分割部１１、第１特徴ベクトル導出部１３、モデル間類似度算出部１４及び第２特徴ベクトル導出部１５と同様、ＣＰＵ１０１とＲＯＭ１０４に予め記録された所定のプログラムとの協働により実現される機能部である。

クラスタリング部３６は、分割された区間毎に付与したＩＤ情報を時刻情報と共に分類結果表示部３９に出力する。

分類結果表示部３９は、クラスタリング部３６から入力されたＩＤ情報を基に、図１８の表示部１０３を介し、絵や文字による時刻毎のシーン情報またはシーン毎の時刻情報を表示する。なお、同じＩＤを持つ区間は同じシーンに属するとし、同じＩＤを持ち連続する区間は一纏まりの区間とする。

図１７は、第３の実施例の信号分類装置１００ｃによる信号分類処理の流れを示したフローチャートである。以下、図１６乃至図１８を参照して、第３の実施例の信号分類処理の動作を説明する。なお、図１８は、クラスタリングの結果を分類結果表示部３９によって表示した表示例を示すものである。

まず、図１６のステップＳ１０１〜ステップＳ１０７では、図３のステップＳ１０１〜ステップＳ１０７と同様の処理を行う（図４（ａ）、（ｂ）の動作例Ｏ１〜Ｏ６参照）。

続いて、クラスタリング部３６は、ステップＳ１０７で導出された第２特徴ベクトルの中で、類似する第２特徴ベクトル同士を一つのクラスとして纏め、同一クラスに属する第２特徴ベクトルを持つ区間全てに同一ＩＤを付与する（ステップＳ３０８）。クラスタリング部３６は、分割された区間毎に付与されたＩＤの情報を分類結果表示部３９に出力する。

分類結果表示部３９は、ステップＳ３０８で各区間に付与されたＩＤ情報を基に、図１８に示す表示部１０３を介し、絵や文字による時刻毎のシーン情報またはシーン毎の時刻情報を表示し（ステップＳ３０９）、処理を終了する。

図１８（ａ）は、クラスタリング部３６から出力された分類結果を分類結果表示部３９で処理した表示例を示す。各シーンのＩＤには、開示時刻および終了時刻が合わせて記録されている。同図（ｂ）は、分類結果（ａ）からシーン毎の時刻情報を表示したものである。同図（ｃ）は、分類結果（ａ）から同じシーンの区間毎の時刻情報を表示したものである。同図（ｄ）は、分類結果（ａ)からタイムバーによる時刻毎のシーン情報を表示したものである。

以上のように、本実施例によれば、信号をシーン毎に分類した後、分類結果を表示することで、信号に対応する映像や音声の視聴において、発話者やイベント、シーンを単位として、スキップ再生等の特定時刻へのアクセスを容易に行うことができる。

なお、本実施例に係る信号分類処理は、プログラムをコンピュータ装置にあらかじめインストールすることで実現してもよい。また、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。

以上、発明の実施の形態について説明したが、本発明はこれに限定されるものではなく、本発明の主旨を逸脱しない範囲での種々の変更、置換、追加などが可能である。

１００‥信号分類装置
１０１‥ＣＰＵ
１０２‥操作部
１０３‥表示部
１０４‥ＲＯＭ
１０５‥ＲＡＭ
１０６‥信号入力部
１０７‥記憶部
１０８‥バス
１０‥特徴量抽出部
１１‥分割部
１２‥参照モデル取得部
１３，２３‥第１特徴ベクトル導出部
１４，２４‥モデル間類似度算出部
１５，２５‥第２特徴ベクトル導出部
１６，２６，３９‥クラスタリング部
２７‥特定モデル選定部
２８‥第３特徴ベクトル導出部
３９‥分類結果表示部
１２１‥プレ分割部
１２２‥プレモデル作成部
１２３‥領域内類似度算出部
１２４‥学習領域抽出部
１２５‥参照モデル生成部

Claims

音響信号の特性を表し、分布をもった特徴量を抽出する特徴量抽出部と、
前記抽出した特徴量を予め指定した分割情報に従って任意の時間長からなる区間毎に分割する分割部と、
前記各々の区間が参照する特徴量の分布を表す参照モデルとして、前記特徴量抽出部によって抽出された前記特徴量によって表現される２つ以上の参照モデルを取得する参照モデル取得部と、
分割された前記区間毎の特徴量が、前記参照モデルに用いた特徴量の分布の中心から離れるに従い急速に減衰する値をベクトル成分の特徴として、前記参照モデルそれぞれに対して求めたベクトル成分を含む第１特徴ベクトルを前記区間毎に夫々導出する第１特徴ベクトル導出部と、
前記区間毎の参照モデルと、前記全ての区間の参照モデルとの類似度を夫々算出するモデル間類似度算出部と、
前記第１特徴ベクトルと前記全ての区間の参照モデルとが入力され、前記第１特徴ベクトルのベクトル成分に前記夫々の類似度を重みとして掛け合わせて第２特徴ベクトルを導出する第２特徴ベクトル導出部と、
前記第２特徴ベクトルのベクトル成分に基づいて、各第２特徴ベクトルに対応する前記区間を、特徴が類似した区間毎に分類するクラスタリング部と、
を備えたことを特徴とする信号分類装置。
前記参照モデル取得部は、
前記抽出した特徴量を所定時間長からなるプレ区間毎に分割し、
前記プレ区間毎に、当該プレ区間に含まれる特徴量に基づいてプレモデルを生成し、
連続する所定数分の前記プレ区間を一つの領域として順次設定し、
当該領域毎の類似度を、各領域に含まれる前記プレ区間のプレモデルに基づいて算出し、
算出した前記類似度が所定値以上となる領域を学習領域として抽出し、
抽出した前記学習領域毎に当該学習領域に含まれる特徴量に基づいて参照モデルを生成することを特徴とする請求項１に記載の信号分類装置。
前記参照モデル毎に、全ての参照モデル毎にそれぞれ求めた当該参照モデルとの類似度を用いてスコアを算出し、各前記参照モデルのスコアを比較して一つ以上の参照モデルを特定モデルとして選定する特定モデル選定部と、
前記第２特徴ベクトル毎に、当該第２特徴ベクトルに対応する前記第１特徴ベクトルのベクトル成分の中で、前記特定モデルに選定された前記参照モデルから導出されたベクトル成分を当該第２特徴ベクトルに加えて第３特徴ベクトルを導出する第３特徴ベクトル導出部を
さらに備え、
前記クラスタリング部は、前記第３特徴ベクトルのベクトル成分に基づいて、各第３特徴ベクトルに対応する前記区間を類似した区間毎に分類することを特徴とする請求項１に記載の信号分類装置。
前記クラスタリング部による分類結果に基づいて、対応する前記音響信号の分類結果を表示する分類結果表示部をさらに備える請求項１に記載の信号分類装置。