JP4220449B2

JP4220449B2 - インデキシング装置、インデキシング方法およびインデキシングプログラム

Info

Publication number: JP4220449B2
Application number: JP2004270448A
Authority: JP
Inventors: 幸一山本; 貴史益子; 信一田中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2004-09-16
Filing date: 2004-09-16
Publication date: 2009-02-04
Anticipated expiration: 2024-09-16
Also published as: JP2006084875A; US20060058998A1; CN1750120A

Description

本発明は、音響信号に対して索引を付与するインデキシング装置、インデキシング方法およびインデキシングプログラムに関するものである。

従来、音響信号に対して索引を付与するインデキシング方式としては、音響信号を複数の区間に分割し、各区間同士の類似度を利用して区間を分類するものが知られている。各区間同士の類似度を利用したインデキシング方式としては、例えば非特許文献１がある。

このように音響信号に対して索引を付与することにより、蓄積された大量なデータを効率よく処理することができる。例えば、テレビ放送などの番組音声に対し、いずれの話者による音声であるかを示す話者情報を索引として付与する。これにより、番組音声における話者検索が可能になる。

Yvonne Moh, Patrick Nguyen, and Jean-Claude Junqua, "TOWARDS DOMAIN INDEPENDENT SPEAKER CLUSTERING", In Proc. IEEE-ICASSP, Vol.2, pp.85-88, 2003.

しかしながら、従来のインデキシング技術では、例えば雑音の影響で各区間同士の類似度を正確に判定できず、インデキシングを正確に行えない場合があった。このように、様々な音響信号に対し精度良くインデキシングを行うことができないという問題があった。このため、インデキシング精度の向上が望まれている。

本発明は、上記に鑑みてなされたものであって、正確にインデキシングを行うことのできるインデキシング装置を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、音響信号に索引を付与するインデキシング装置であって、音響信号を取得する取得手段と、前記取得手段が取得した音響信号を複数の区間に分割する分割手段と、前記分割手段によって分割された各区間それぞれの音響モデルを作成する音響モデル作成手段と、前記音響モデル作成手段が作成した前記音響モデルの信頼度を決定する信頼度決定手段と、前記信頼度決定手段が決定した前記音響モデルの信頼度に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成手段と、前記類似度ベクトル作成手段によって作成された複数の前記類似度ベクトルをクラスタリングするクラスタリング手段と、前記クラスタリング手段によってクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与手段とを備えたことを特徴とする。

また、本発明は、音響信号に索引を付与するインデキシング装置であって、音響信号を取得する取得手段と、前記取得手段が取得した音響信号を複数の区間に分割する分割手段と、前記分割手段によって分割された各区間それぞれの音響モデルを作成する音響モデル作成手段と、前記分割手段によって分割された各区間の音響信号の音響種別を判別する音響種別判別手段と、前記音響種別判別手段によって判別された前記音響種別に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成手段と、前記類似度ベクトル作成手段によって作成された複数の前記類似度ベクトルをクラスタリングするクラスタリング手段と、前記クラスタリング手段によってクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与手段とを備えたことを特徴とする。

また、本発明は、音響信号に索引を付与するインデキシング方法であって、音響信号を取得する取得ステップと、前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、前記音響モデル作成ステップにおいて作成した前記音響モデルの信頼度を決定する信頼度決定ステップと、前記信頼度決定ステップにおいて決定した前記音響モデルの信頼度に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップとを有することを特徴とする。

また、本発明は、音響信号に索引を付与するインデキシング方法であって、音響信号を取得する取得ステップと、前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、前記分割ステップにおいて分割した各区間の音響信号の音響種別を判別する音響種別判別ステップと、前記音響種別判別ステップにおいて判別した前記音響種別に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップとを有することを特徴とする。

また、本発明は、音響信号に索引を付与するインデキシング処理をコンピュータに実行させるインデキシングプログラムであって、音響信号を取得する取得ステップと、前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、前記音響モデル作成ステップにおいて作成した前記音響モデルの信頼度を決定する信頼度決定ステップと、前記信頼度決定ステップにおいて決定した前記音響モデルの信頼度に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップとを有することを特徴とする。

また、本発明は、音響信号に索引を付与するインデキシング処理をコンピュータに実行させるインデキシングプログラムであって、音響信号を取得する取得ステップと、前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、前記分割ステップにおいて分割した各区間の音響信号の音響種別を判別する音響種別判別ステップと、前記音響種別判別ステップにおいて判別した前記音響種別に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップとを有することを特徴とする。

本発明にかかるインデキシング装置においては、分割手段は、音響信号を複数の区間に分割し、音響モデル作成手段が各区間それぞれの音響モデルを作成し、信頼度決定手段は、音響モデル作成手段が作成した音響モデルの信頼度を決定し、類似度ベクトル作成手段は、信頼度決定手段が決定した音響モデルの信頼度に基づいて、所定の区間に対して作成した音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成し、クラスタリング手段は、類似度ベクトル作成手段によって作成された複数の類似度ベクトルをクラスタリングし、索引付与手段は、クラスタリング手段によってクラスタリングされた類似度ベクトルに基づいて音響信号に索引を付与することができる。このように、本発明にかかるインデキシング装置は、音響モデルの信頼度に基づいて類似度ベクトルを作成するので、精度の高い類似度ベクトルを作成することができるという効果を奏する。さらに、信頼度に基づいて作成した類似度ベクトルに基づいてインデキシングを行うので、正確にインデキシングを行うことができるという効果を奏する。

以下に、本発明にかかるインデキシング装置、インデキシング方法およびインデキシングプログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。

（実施の形態１）
図１は、実施の形態１にかかるインデキシング方式により音響信号のインデキシングを行うインデキシング装置１０の機能構成を示すブロック図である。

インデキシング装置１０は、音響信号取得部１０２と、分割部１０４と、音響モデル作成部１０６と、信頼度決定部１０８と、類似度ベクトル作成部１１０と、クラスタリング部１１２と、インデキシング部１１４とを備えている。

音響信号取得部１０２は、外部から入力された音響信号をマイク等を介して取得する。分割部１０４は、音響信号取得部１０２から音響信号を取得する。そして、パワーおよび零交差数などの情報を利用して音響信号を複数の区間に分割する。

図２は、分割部１０４の処理を説明するための図である。分割部１０４は、上段に示す音響信号２００の分割点２１０ａ〜２１０ｄを境界位置として、複数の区間に分割する。下段に示す各区間（区間１〜区間５）は、上段の音響信号２００から得られた区間である。区間に分割する場合に区間同士がオーバーラップしてもよい。

また、他の例としては、１発話を１区間としてもよい。このように、音響信号の内容に基づいて区間を決定してもよい。

音響モデル作成部１０６では、各区間について音響モデルを作成する。音響モデルとしては、ＨＭＭ、ＧＭＭおよびＶＱコードブックなどを用いるのが好ましい。音響モデル作成部１０６は、具体的には分割部１０４によって得られた各区間の特徴量を抽出する。そして、当該特徴量に基づいて区間の特徴を表す音響モデルを作成する。

なお、音響モデルを作成する際に使用する特徴量は、分類対象に応じて決定してもよい。例えば、話者毎の分類を目的とする場合は、ＬＰＣケプストラムやＭＦＣＣなどのケプストラム系特徴量を抽出する。また、音楽のジャンル分類を目的とする場合は、ケプストラムに加えピッチや零交差数などの特徴量を抽出する。

このように分類対象に適した特徴量を抽出することにより、所望の分類対象毎のインデキシングを行うことができる。

他の例としては、抽出すべき特徴量は、ユーザによって変更可能であってもよい。これにより、音響信号毎に所望の分類対象に適した特徴量を抽出することができる。

また、音響モデル作成部１０６が作成する音響モデルは、当該区間の音響種別を反映するものであればよく、音響モデルの作成方法は、本実施の形態に限定されるものではない。

信頼度決定部１０８は、音響モデル作成部１０６が作成した各音響モデルの信頼度を決定する。信頼度決定部１０８は、各区間の長さに基づいて信頼度を決定する。区間長が長いほど、大きい値を信頼度として決定する。

具体的には、音響モデルに対応する区間の区間長自体を信頼度としてもよい。例えば、区間長１．０ｓｅｃに対する音響モデルの信頼度を「１」、区間長２．０ｓｅｃに対する音響モデルの信頼度を「２」とする。

信頼度決定部１０８は、さらに、区間長が予め定められた閾値以上であるか否かを判定する。閾値としては、例えば、１．０ｓｅｃが好ましい。

ここで、信頼度について説明する。一般に、音響モデルを作成する場合、与えられた学習データ量が多いほど音響モデルの信頼度は高くなる。信頼度の低い音響モデルに基づいて類似度ベクトルを作成した場合、類似度ベクトルの精度が低下してしまい、望ましくない。

例えば、討論番組などの音響信号には、相槌などの短い発話が多数存在する。このような短い発話を含む区間から作成した音響モデルは、当該区間が属する音響種別（話者情報）を表すモデルとしての信頼度は極端に低くなる。

このように、信頼度は区間長に依存する値である。具体的には、区間長が長いほど信頼度が高い。そこで、信頼度決定部１０８は、区間長に基づいて各音響モデルの信頼度を決定する。

類似度ベクトル作成部１１０では、分割部１０４によって得られた各区間と音響モデル作成部１０６で作成された複数の音響モデルの類似度を要素とする類似度ベクトルを作成する。より詳しくは、類似度ベクトル作成部１１０は、信頼度決定部１０８によって判定された信頼度に基づいて、類似度ベクトルを作成する。

まず基本的な類似度ベクトル作成部１１０の処理について説明する。類似度ベクトル作成部１１０は、各区間の音響モデルと各区間の音響信号との類似度に基づいて、類似度ベクトルを作成する。区間ｘ_iの類似度ベクトルＳ_iは次式で表される。

ここで、Ｎは総区間数を示している。ｘ_iは、ｉ番目の区間の音響信号を示している。Ｍ_iは、ｉ番目の区間の音響モデルを示している。（Ｐｘ_i｜Ｍ_j）は、区間ｘ_iと音響モデルＭ_jの類似度を示している。

音響信号が区間１から区間５の５つの区間に分類された場合、類似度ベクトル作成部１１０は、以下の処理を行う。すなわち、区間１から作成された音響モデルと、区間１から区間５のそれぞれの区間の音響信号との類似度を算出する。同様に区間２から区間５のそれぞれの音響モデルと、区間１から区間５のそれぞれの区間の音響信号との類似度を算出する。そして、算出した複数の類似度に基づいて、類似度ベクトルを作成する。

図３は、類似度ベクトル作成部１１０の処理を具体的に説明するための図である。図３に示す区間１および区間４は、話者Ａの発話区間である。また、区間２、区間３および区間５は、話者Ｂの発話区間である。

区間１は話者Ａの発話区間であるから、話者Ａの発話区間である区間１および区間４との類似度が高い。したがって、区間１の類似度ベクトル２２１は、区間１および区間４に対応する類似度が高い。同様に、区間４の類似度ベクトル２２４は、区間１および区間４との類似度が高い。

一方、区間２は、話者Ｂの発話区間であるから、話者Ｂの発話区間である区間２、区間３および区間５との類似度が高い。したがって、区間２の類似度ベクトル２２２は、区間２、区間３および区間５との類似度が高い。同様に区間３の類似度ベクトル２２３および区間５の類似度ベクトル２２５は、区間２、区間３および区間５との類似度が高い。

図４は、類似度ベクトル作成部１１０によって作成された類似度ベクトルの一例を示している。横軸は、区間番号を示している。また、縦軸は、各発話に対する類似度ベクトルを示している。区間１は、話者Ａの発話区間である。区間１は、１６発話で構成されている。区間２は、話者Ｂの発話区間である。区間２も１６発話で構成されている。以下同様に、話者Ａ〜話者Ｈまでの計８名の話者による発話を含み、各区間は、１６発話で構成されている。すなわち、音響信号は、計１２８発話で構成されている。色が白いほど類似度が高く、黒いほど類似度が低くなる。

次に、本実施の形態にかかる類似度ベクトル作成部１１０に特徴的な処理について説明する。類似度ベクトル作成部１１０は、信頼度決定部１０８から各音響モデルの信頼度を取得する。そして、閾値以上の信頼度を示す音響モデルに対する類似度のみに基づいて類似度ベクトルを作成する。すなわち、閾値未満の信頼度を示す音響モデルに対する類似度を類似度ベクトルの要素として使用しない。

図５は、類似度ベクトル作成部１１０の処理を説明するための図である。図５に示す区間３に対する音響モデルの信頼度が閾値以下であるとする。この場合には、各区間（区間１〜区間５）の音響信号と区間３の音響モデルとの類似度を示す要素２２１３，２２２３，２２３３，２２４３，２２５３は類似度ベクトルの要素として利用しない。すなわち、類似度ベクトル２２１の要素２２１１，２２１２，２２１５、類似度ベクトル２２２の要素２２２１，２２２２，２２２５、類似度ベクトル２２３の要素２２３１，２２３２，２２３５、類似度ベクトル２２４の要素２２４１，２２４２，２２４５、類似度ベクトル２２５の要素２２５１，２２５２，２２５５を要素とする類似度ベクトルを作成する。この場合、類似度ベクトルは次式で示される。

すなわち、信頼度が閾値以下の音響モデルが１個含まれている場合には、式（１）に示す類似度ベクトルよりも１次元少ないＮ−１次元の式となる。類似度ベクトルがＮ次元であって、区間３の音響モデルの信頼度が閾値以下である場合、類似度ベクトルは次式で示される。

同様に、信頼度が閾値以下の音響モデルがｍ個含まれている場合には、式（１）に示す類似度ベクトルよりもｍ次元少ないＮ−ｍ次元の式となる。

音響信号取得部１０２が取得した音響信号には、相槌などの短い発話や「え〜」（フィラー）のように出現音素が偏った発話が含まれることがある。このような区間の音響信号は、情報量が少ない。したがって、かかる区間の音響信号に基づいて作成した音響モデルの信頼度は低くなる。

このように信頼度の低い音響モデルと他の区間の音響信号とを照合して類似度を求めた場合、類似度は正確な値と大きく異なる値となる場合がある。また、このように信頼度の低い音響モデルに基づいて類似度を求めた場合、類似度が極端な値となることもある。

このように、実際の類似度と大きく異なる類似度を要素とする類似度ベクトルを作成した場合、高精度の類似度ベクトルは得られない。

これに対し、本実施の形態にかかるインデキシング装置１０においては、類似度ベクトル作成部１１０は、信頼度が閾値以上となる音響モデルのみを利用して類似度ベクトルを作成する。したがって、高精度の類似度ベクトルを作成することができる。

このように、音響モデルの信頼度に応じて類似度ベクトルの各要素に処理を施すことによって、相槌などの短い区間やフィラーのように出現音素が偏っている音響信号の影響を類似度ベクトルに反映させることなく高精度の類似度ベクトルを作成することができる。

クラスタリング部１１２は、類似度ベクトル作成部１１０で作成された類似度ベクトルのクラスタリングを行う。これにより、入力された音響信号を分類することができる。具体的には、図４に示す類似度ベクトルに対応する音響信号には、話者Ａから話者Ｈの計８人の発話が含まれている。そこで、クラスタリング部１１２は、クラスタ数８のクラスタリングを行う。これにより話者インデキシングを行うことができる。

クラスタリング手法としては、ｋ-ｍｅａｎｓやＧＭＭなどを利用するのが好ましい。その際、ＢＩＣなどの情報量基準を利用することによって、クラスタ数を推定してもよい。図４に示す例においては、クラスタ数として話者数を推定する。

インデキシング部１１４は、クラスタリング部１１２によってクラスタリングされた類似度ベクトルに基づいて、音響信号に索引を付与する。具体的には、話者Ａから話者Ｈの計８人の発話に対応するクラスタ数８にクラスタリングされた場合には、各話者に対応する区間に対し各話者を示す索引を付与する。

以上のように本実施の形態にかかるインデキシング装置１０は、信頼度の低い音響モデルとの類似度を利用せずに作成した類似度ベクトルに基づいてクラスタリングを行うので、クラスタリングの精度を向上させることができる。したがって、正確にインデキシングを行うことができる。

従来のインデキシング技術においては、区間同士の類似度を計算する際に使用する音響モデルの信頼度は考慮していなかった。したがって、相槌などの短い発話や音声、音楽、雑音が混在する信号を正確にインデキシングすることは難しかった。これに対し、本実施形態のインデキシング装置１０は、音響モデルの信頼度に基づいて作成した類似度ベクトルを利用することにより、相槌などの短い発話等に対しても正確にインデキシングを行うことができる。

また、信頼度を音響信号の区間長に基づいて決定することにより、区間長の異なる複数の区間を含む場合であっても、正確にインデキシングを行うことができる。

図６は、実施の形態１に係るインデキシング装置１０のハードウェア構成を示す図である。インデキシング装置１０は、ハードウェア構成として、インデキシング装置１０におけるインデキシング処理を実行するインデキシングプログラムなどが格納されているＲＯＭ５２と、ＲＯＭ５２内のプログラムに従ってインデキシング装置１０の各部を制御するＣＰＵ５１と、インデキシング装置１０の制御に必要な種々のデータを記憶するＲＡＭ５３と、ネットワークに接続して通信を行う通信I／Ｆ５７と、各部を接続するバス６２とを備えている。

先に述べたインデキシング装置１０におけるインデキシングプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フロッピー（登録商標）ディスク（ＦＤ）、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。

この場合には、インデキシングプログラムは、インデキシング装置１０において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

また、本実施の形態のインデキシングプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。

以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。

そうした第１の変更例としては、実施の形態１にかかる信頼度決定部１０８は、区間長に基づいて信頼度を決定したが、これにかえて、クローズな類似度に基づいて信頼度を決定してもよい。

ここで、クローズな類似度とは、同一区間に対する音響モデルと音響信号の類似度である。図４に示す類似度ベクトルにおいては、対角成分がクローズな類似度を示す。したがって、対角成分は、他の類似度に比べて高い値を示している。

また、第２の変更例としては、第１の変更例と同様に、クローズな類似度に基づいて信頼度を決定し、さらに、極端に高いクローズな類似度に対応する信頼度を示す音響モデル以外の音響モデルを利用して類似度ベクトルを作成してもよい。

クローズな類似度が極端に高い値を示す場合がある。このように、極端に高い値を示す音響モデルは、当該区間について過学習されたものであると言える。例えば「こんにちは」と「え〜」という区間について、それぞれ同じ条件で音響モデルを作成し、そのクローズな類似度を比較した場合、後者の「え〜」の値は極端に大きな値を取る。これは出現音素が偏っていることが原因であり、特定音素にモデルが過学習されたものである。このような過学習された音響モデルとの類似度は意味を持たないと言える。

そこで、第２の変更例にかかる類似度ベクトル作成部１１０は、クローズな類似度の上限値、すなわち信頼度の下限値を設定し、設定した下限値を下まわる信頼度を示す音響モデル以外の音響モデルを利用して類似度ベクトルを作成する。これにより、より高精度な類似度ベクトルを算出することができる。

音響モデルとしてＧＭＭを用いた場合には、クローズな類似度は尤度で表すことができ、ある区間において出現する音素が偏っている場合や、ＧＭＭの混合数に対して区間長が短すぎる場合、クローズな尤度は極端に大きな値を取る。このようなＧＭＭと他の区間の類似度は意味をなさない場合が多い。そこで、類似度ベクトル作成部１１０は、尤度が極端に大きな値となる場合には、類似度ベクトルの要素として使用しない。

また、第３の変更例としては、実施の形態１にかかる類似度ベクトル作成部１１０は、閾値以上の信頼度を示す音響モデルのみを利用して類似度ベクトルを作成したが、これにかえて、類似度ベクトルの各要素に対して、音響ベクトルの信頼度に応じた重みを付与してもよい。

類似度ベクトル作成部１１０は、次式で示される類似度ベクトルを作成する。ここで、ｗ_iはｉ番目の音響モデルとの類似度に対する重みである。

上式における重みｗ_iは音響モデルの信頼度に応じて決定される。

例えば、信頼度に対し閾値を設定し、閾値以上である場合に重み値を「１」とする。また、閾値以下である場合に重み値を「０」とする。すなわち、信頼度に応じて「０」および「１」の２値の重み値を設定する。このように、信頼度に応じて予め定められた規定値を重み値として決定する。

なお、第３の変更例においては、２値に設定する例について説明したが、重み値は、３以上の値であってもよい。例えば、分割された区間長をそのまま重みとして用いてもよい。例えば、２．０ｓｅｃの区間に対する重み値を「２．０」とし、２．１ｓｅｃの区間に対する重み値を「２．１」とし、４．０ｓｅｃの区間に対する重み値を「４．０」としてもよい。これにより、区間長の最少単位に応じた数の値をとり得る重み値を付与することができる。このように、重み値がとり得る値の数は、第３の変更例に限定されるものではない。

また、式(３)では、各要素に重み値を乗じているが、重み付け方法はこれに限定されるものではない。例えば、重み値を加算してもよい。

以上のように、第３の変更例によれば、信頼度の高い要素が類似度ベクトルに大きく影響することになる。したがって、高精度の類似度ベクトルを作成することができる。すなわち、第３の変更例にかかる類似度ベクトル作成部１１０によって作成された類似度ベクトルを利用した場合、クラスタリングの精度を向上させることができる。

また、第４の変更例としては、類似度ベクトル作成部１１０は、音響ベクトルの信頼度に応じて類似度ベクトルの要素を一定値に置き換えてもよい。

具体的には、類似度ベクトル作成部１１０は、例えば、予め定めた閾値未満の信頼度を示す音響モデルとの類似度を一定値に置き換える。式（５）は、「０」に置き換える場合の類似度ベクトルを示している。なお、次式は、区間３の音響モデルの信頼度が閾値未満である場合の類似度ベクトルを示している。

以上のように、第２の変更例によれば、信頼度の低い音響モデルに対する要素を「０」とすることにより、信頼度の低い音響モデルが類似度ベクトルに与える影響が小さくなるので、高精度の類似度ベクトルを作成することができる。

また、他の例としては、予め定めた閾値以上の信頼度を示す音響モデルとの類似度を一定値に置き換えてもよい。具体的には、閾値以上の信頼度を「１」に置き換える。これにより、極端に大きい信頼度を「１」に置き換えることができる。極端に大きい信頼度は、正確な値でない可能性が高い。したがって、このように極端に大きい信頼度を「１」に置き換えることにより、信頼度が極端に高い音響ベクトルが類似度ベクトルに与える影響が小さくなるので、高精度の類似度ベクトルを作成することができる。

また、第５の変更例としては、類似度ベクトルのある要素が極端な値を取った場合、その要素は利用しないこととしてもよい。具体的には、類似度ベクトルの要素が極端に大きい値である場合には、クラスタリング部１１２はクラスタリングにおいて、類似度ベクトルの当該要素を利用しないこととする。また他の例としては、類似度ベクトルの要素が極端に小さい値である場合には、クラスタリング部１１２は、クラスタリングにおいて類似度ベクトルの当該要素を利用しないこととしてもよい。

また他の例としては、類似度ベクトルの要素が極端に小さい場合および類似度ベクトルの要素が極端に大きい値である場合のいずれの場合にも、クラスタリングにおいて類似度ベクトルの当該要素を利用しないこととしてもよい。

なお、極端に大きい類似度ベクトルの要素または極端に小さい類似度ベクトルの要素を特定する方法としては、類似度ベクトルの閾値を設定してもよい。例えば、予め定められた閾値以下の値は、極端に大きい値であると判断し、類似度ベクトルの当該要素を利用しない。

また他の例としては、複数の類似度ベクトルの要素の分散に基づいて、極端な値か否かを判断してもよい。このように極端な値を特定できればよく、その方法は本例に限定されるものではない。

また、第６の変更例としては、実施の形態１にかかる分割部１０４は、パワーおよび零交差数などの情報を利用して、各区間の幅を決定したが、これにかえて、これらの情報を用いずに予め定めた一定幅に分割してもよい。より具体的には、音響信号を１．０ｓｅｃを１区間とする複数の区間に分割してもよい。区間の幅は、１．０〜２．０ｓｅｃ程度が好ましい。

なお、この場合いずれの区間も等しい区間長となる。したがって、区間長に応じた信頼度を決定した場合、各区間の信頼度は一律値となり意味がない。そこで、この場合信頼度決定部１０８は、クローズな類似度など区間長以外の情報に基づいて信頼度を決定するのが好ましい。

（実施の形態２）
図７は、実施の形態２にかかるインデキシング装置１０の機能構成を示すブロック図である。実施の形態２にかかるインデキシング装置１０は、音響種別判別部１２０を備えている。この点で実施の形態１にかかるインデキシング装置１０と異なっている。

音響種別判別部１２０は、分割部１０４で分割された各区間の音響信号の音響種別を判別する。例えば、入力された音響信号の話者インデキシングを行う場合、音響信号に含まれる音楽・雑音などの非音声信号は不要な信号となる。そこで、この場合には音響種別判別部１２０は、音声／非音声を判別する。

具体的には、入力された音響信号を１〜２ｓ程度のブロックに分割する。各ブロックからＢｌｏｃｋＣｅｐｓｔｒｕｍＦｌｕｘ（ＢＣＦ）を抽出する。そして、ＢＣＦが閾値より大きい場合は音声、小さい場合は音楽と判定している。なお、ＢＣＦはフレーム毎に計算するＣｅｐｓｔｒｕｍＦｌｕｘをブロック単位で平均化したものである。

より詳しくは、Muramoto, T., Sugiyama, M., "Visual and audio segmentation for video streams", Multimedia and Expo, 2000. ICME 2000. 2000 IEEE International Conference on , Volume: 3 , 30 July-2 Aug. 2000 Pages:1547 - 1550 vol.3に記載されている方法を利用してもよい。

音響モデル作成部１０６は、音響種別判別部１２０によってインデキシングとの対象となる音響種別であると判別された区間に対する音響モデルを作成する。具体的には、例えば話者インデキシングを行う場合には、音響信号のうち音声に対応する区間のみに基づいて音響モデルを作成する。

類似度ベクトル作成部１１０は、インデキシングの対象となる音響種別の区間の音響信号と音響モデルを利用して、類似度ベクトルを作成する。すなわち、インデキシングの対象となる音響種別の区間の音響モデルとの類似度を要素とする類似度ベクトルを作成する。

なお、実施の形態２にかかるインデキシング装置１０のこれ以外の構成および処理は、実施の形態１にかかるインデキシング装置１０等の構成および処理と同様である。

従来方式では、上述のような音響種別の判別を行わなかったので、音声・音楽・雑音などが混在する音響信号を正確にインデキシングすることは難しかった。しかし、上記のように分割された区間の音響種別を判別し、対象となる音響種別の区間のみを処理対象とすることにより、雑音などインデキシングに関係のない音を排除することができる。したがって、所望の音響信号について精度よくインデキシングすることができる。

また、対象となる区間を限定することにより、無駄な処理を省くことができるので、処理の効率化を図ることができる。

他の例としては、本実施の形態においては、音声／非音声を判別する場合について説明したが、これにかえて、またはこれに加えて男女判別および言語判別などを行ってもよい。

（実施の形態３）
次に、実施の形態３にかかるインデキシング装置１０について説明する。実施の形態３にかかるインデキシング装置１０の機能構成は、実施の形態２にかかるインデキシング装置１０と同様である。実施の形態３にかかるインデキシング装置１０は、音声らしさを音響モデルの信頼度として利用する。この点で、実施の形態３にかかるインデキシング装置１０は、他の実施の形態にかかるインデキシング装置１０と異なっている。

音響種別判別部１２０は、分割部１０４によって分割された各区間の音声らしさを判別する。音声らしさとして、予め用意した音声モデルとの尤度を算出してもよい。

また、他の例としては、音響種別判別部１２０は、音声と判別された場合に「１」非音声と判別された場合に「０」と２値を音声らしさの値とし、各区間に対する音声らしさとして「１」または「０」の値のいずれかを判別してもよい。

信頼度決定部１０８は、音響種別判別部１２０によって判別された音声の尤度、すなわち判別された音声らしさの値に基づいて信頼度を決定する。より具体的には、音声らしさの値自体を信頼度とする。すなわち音声らしさが２値で示される場合には、信頼度も２値で示される。さらに、信頼度決定部１０８は、閾値を「１」とする。

類似度ベクトル作成部１１０は、音響種別判別部１２０によって判別された音声らしさを信頼度として利用して音響モデルを作成する。類似度ベクトル作成部１１０は、具体的には、閾値「１」となる区間のみに基づいて類似度ベクトル作成する。

このように、実施の形態３にかかるインデキシング装置１０は、音声らしさに基づいて、類似度ベクトルを作成するので、インデキシングの対象とならない雑音の影響を抑えて、高精度な類似度ベクトルを得ることができる。

なお、実施の形態３にかかるインデキシング装置１０のこれ以外の構成および処理は、実施の形態１にかかるインデキシング装置１０等の構成および処理と同様である。

また、他の例としては、各区間の音声らしさを音響モデルの信頼度として用い、かつかかる信頼度を重みとして、類似度ベクトルの各要素に加味してもよい。

例えば、区間（１,２，３，・・・，Ｎ）の音声らしさがそれぞれ、(１，０，２，・・・，１．５)と与えられた場合、区間ｘ_iの類似度ベクトルＳ_iは次式のように計算する。

ここで、Ｎは総区間数を示している。ｘ_iは、ｉ番目の区間の音響信号を示している。Ｍ_iは、ｉ番目の区間の音響モデルを示している。Ｐ（ｘ_i｜Ｍ_j）は、区間ｘ_iと音響モデルＭ_jの類似度を示している。

このように、音声らしさに応じた重み付けを類似度ベクトルに施すことによって、音声らしさの低い音響モデルの影響を低減させることが可能になる。なお、音声らしさの低い音響モデルには、音楽・雑音などの非音声信号が重畳した音声区間から作成された音響モデルが含まれる。

また、他の例としては、本実施の形態においては、音声らしさに基づいて類似度ベクトルを作成したが、音楽に対するインデキシングを行う場合には、音楽らしさに基づいて類似度ベクトルを作成してもよい。これによれば、精度よく音楽インデキシングを行うことができる。

（実施の形態４）
次に実施の形態４にかかるインデキシング装置１０について説明する。図８は、実施の形態４にかかるインデキシング装置１０の機能構成を示すブロック図である。各部の機能は、実施の形態１または２にかかるインデキシング装置１０の同一番号を付した各部の機能と同様である。

実施の形態４にかかるインデキシング装置１０においては、音響種別判別部１２０は、クリーン音声と雑音重畳音声とを判別する。そして、クラスタリング部１１２は、音響種別判別部１２０によってクリーン音声と判別された区間に基づいて作成された類似度ベクトルを利用して、クラスタリングにおける代表モデルを作成する。実施の形態４にかかるインデキシング装置１０は、この点で他の実施の形態にかかるインデキシング装置１０と異なっている。

本実施の形態においては、音響種別判別部１２０は、音響信号の話者インデキシングを目的として、音響信号をクリーン音声と雑音重畳音声に分類する。

具体的には、入力された音響信号を１ｓのブロック単位に分割する。各ブロックから２６種類の特徴量を抽出する。特徴量は、短時間零交差数の平均と分散、短時間パワーの平均と分散、調波構造の強さなどである。そして、この特徴量に基づいて、クリーン音声と雑音重畳音声とを分類する。

より詳しくは、例えば、Y. Li and C. Dorai,"SVM-based audio classification for instructional video analysis", ICASSP 2004, V 897-900, 2004.に示される技術を利用してもよい。

クラスタリング部１１２は、音響種別判別部１２０によってクリーン音声と判別された区間の類似度ベクトルを用いてクラスタリングにおける代表モデルを作成する。その後、この代表モデルを用いて雑音重畳音声を含む全ての区間をクラスタリングする。

図９は、クラスタリング処理を説明するための図である。図９は、ＧＭＭでクラスタリングした場合の代表モデルを示している。通常、類似度ベクトルは発話区間数と同数の次元数を持つが、図９および図１０においては、説明の便宜上、２次元特徴ベクトルを示している。すなわち、ｘ軸が発話間類似度ベクトルの1つめの要素、ｙ軸が発話間類似度ベクトルの２つめの要素を表している。

ＧＭＭでクラスタリングした場合、代表モデルはサンプル集合より学習した混合ガウス分布となる。

このように、本実施の形態にかかるクラスタリング部１１２は、クリーン音声と判別された区間の類似度ベクトルを用いて代表モデルを作成するので、高精度の代表モデルを得ることができる。

なお、実施の形態４にかかるインデキシング装置１０のこれ以外の構成および処理は、実施の形態１にかかるインデキシング装置１０等の構成および処理と同様である。

他の例としては、本実施の形態においては、ＧＭＭでクラスタリングしたが、これにかえて、ｋ−ｍｅａｎｓでクラスタリングを行ってもよい。ＧＭＭでクラスタリングを行う場合は、各クラスタにおけるガウス分布となる。

図１０は、Ｋ−ｍｅａｎｓでクラスタリングした場合の代表モデルを示している。Ｋ−ｍｅａｎｓでクラスタリングした場合、代表モデルはサンプル集合より学習した代表点（各クラスタの重心）となる。この場合も、ＧＭＭでクラスタリングした場合と同様に、クリーン音声のみに基づいて代表モデルを作成するので、高精度の代表モデルを得ることができる。

図１１は、実施の形態４にかかるインデキシング装置１０の他の例にかかるインデキシング装置１０の機能構成を示すブロック図である。本例にかかるインデキシング装置１０においては、音響モデル作成部１０６は、実施の形態２にかかる音響モデル作成部１０６と同様に音響種別判別部１２０による判別結果に基づいてクラスタリングの対象となる音響種別の区間に対する音響モデルのみを作成してもよい。

このように、クラスタリングの対象となる音響種別の区間のみに基づいてクラスタリングを行うことにより、クラスタリングの精度をさらに向上させることができる。

実施の形態１にかかるインデキシング方式により音響信号のインデキシングを行うインデキシング装置１０の機能構成を示すブロック図である。分割部１０４の処理を説明するための図である。類似度ベクトル作成部１１０の処理を説明するための図である。類似度ベクトル作成部１１０によって作成された類似度ベクトルの一例を示す図である。類似度ベクトル作成部１１０の処理を説明するための図である。実施の形態１に係るインデキシング装置１０のハードウェア構成を示す図である。実施の形態２にかかるインデキシング装置１０の機能構成を示すブロック図である。実施の形態４にかかるインデキシング装置１０の機能構成を示すブロック図である。ＧＭＭでクラスタリングした場合の代表モデルを示す図である。Ｋ−ｍｅａｎｓでクラスタリングした場合の代表モデルを示す図である。実施の形態４にかかるインデキシング装置１０の他の例にかかるインデキシング装置１０の機能構成を示すブロック図である。

符号の説明

１０インデキシング装置
５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５７通信I／Ｆ
６２バス
１０２音響信号取得部
１０４分割部
１０６音響モデル作成部
１０８信頼度決定部
１１０類似度ベクトル作成部
１１２クラスタリング部
１１４インデキシング部
１２０音響種別判別部
２００音響信号
２１０ａ〜ｄ分割点
２２１〜２２５類似度ベクトル

Claims

音響信号に索引を付与するインデキシング装置であって、
音響信号を取得する取得手段と、
前記取得手段が取得した音響信号を複数の区間に分割する分割手段と、
前記分割手段によって分割された各区間それぞれの音響モデルを作成する音響モデル作成手段と、
前記音響モデル作成手段が作成した前記音響モデルの信頼度を決定する信頼度決定手段と、
前記信頼度決定手段が決定した前記音響モデルの信頼度に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成手段と、
前記類似度ベクトル作成手段によって作成された複数の前記類似度ベクトルをクラスタリングするクラスタリング手段と、
前記クラスタリング手段によってクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与手段と
を備えたことを特徴とするインデキシング装置。
前記類似度ベクトル作成手段は、前記音響モデル作成手段が作成した前記音響モデルのうち、信頼度が予め定められた閾値以上となる音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成することを特徴とする請求項１に記載のインデキシング装置。
前記類似度ベクトル作成手段は、前記音響モデル作成手段が作成した前記音響モデルの信頼度に応じて、各音響モデルに対する類似度に重み付けを行い、重み付けされた類似度を要素とする類似度ベクトルを作成することを特徴とする請求項１に記載のインデキシング装置。
前記類似度ベクトル作成手段は、前記音響モデル作成手段が作成した前記音響モデルの信頼度に対して予め定めた規定値を前記音響モデルに対する類似度として決定し、当該類似度を要素とする類似度ベクトルを作成することを特徴とする請求項１に記載のインデキシング装置。
前記類似度ベクトル作成手段は、前記音響モデル作成手段が作成した前記音響モデルの信頼度が予め定めた閾値以上である場合に、予め定めた規定値を当該音響モデルに対する類似度として決定し、当該類似度を要素とする類似度ベクトルを作成することを特徴とする請求項４に記載のインデキシング装置。
前記類似度ベクトル作成手段は、前記音響モデル作成手段が作成した前記音響モデルの信頼度が予め定めた閾値以下である場合に、予め定めた規定値を当該音響モデルに対する類似度として決定し、当該類似度を要素とする類似度ベクトルを作成することを特徴とする請求項４または５に記載のインデキシング装置。
前記信頼度決定手段は、前記音響モデル作成手段が作成した前記音響モデルの区間長に基づいて前記信頼度を決定することを特徴とする請求項１に記載のインデキシング装置。
前記信頼度決定手段は、前記音響モデル作成手段が作成した前記音響モデルの区間長が長いほど、高い値を信頼度として決定することを特徴とする請求項５に記載のインデキシング装置。
前記信頼度決定手段は、前記音響モデル作成手段が作成した前記音響モデルと自身の区間の音響信号との類似度に基づいて前記信頼度を決定することを特徴とする請求項１に記載のインデキシング装置。
前記信頼度決定手段は、前記音響モデル作成手段が所定の区間に対して作成した前記音響モデルと、当該区間の音響信号との類似度が高いほど、低い値を信頼度として決定することを特徴とする請求項７に記載のインデキシング装置。
前記分割手段によって分割された各区間の音響信号の音響種別を判別する音響種別判別手段をさらに備え、
前記類似度ベクトル作成手段は、前記音響種別判別手段によって判別された前記音響種別に基づいて、前記類似度ベクトルを作成することを特徴とする請求項１に記載のインデキシング装置。
前記類似度ベクトル作成手段は、前記音響種別判別手段によって所定の音響種別と判別された区間の音響信号に基づいて、前記類似度ベクトルを作成することを特徴とする請求項１１に記載のインデキシング装置。
前記信頼度決定手段は、前記音響種別判別手段によって判別された前記音響種別に基づいて、前記信頼度を決定することを特徴とする請求項１１に記載のインデキシング装置。
前記音響種別判別手段は、前記音響信号の前記音響種別を判別し、さらに判別した前記音響種別における尤度を算出し、
前記信頼度決定手段は、前記音響種別判別手段によって判定された前記音響種別に対する尤度に基づいて信頼度を決定することを特徴とする請求項１３に記載のインデキシング装置。
前記信頼度決定手段は、前記音響種別判別手段によって判別された前記音響種別に対する尤度が高いほど高い値を信頼度として決定することを特徴とする請求項１４に記載のインデキシング装置。
前記分割手段によって分割された各区間の音響信号の音響種別を判別する音響種別判別手段をさらに備え、
前記クラスタリング手段は、前記音響種別判別手段によって判別された前記音響種別に基づいて、各クラスの代表点を算出し、当該代表点に基づいて複数の類似度ベクトルをクラスタリングすることを特徴とする請求項１に記載のインデキシング装置。
音響信号に索引を付与するインデキシング装置であって、
音響信号を取得する取得手段と、
前記取得手段が取得した音響信号を複数の区間に分割する分割手段と、
前記分割手段によって分割された各区間それぞれの音響モデルを作成する音響モデル作成手段と、
前記分割手段によって分割された各区間の音響信号の音響種別を判別する音響種別判別手段と、
前記音響種別判別手段によって判別された前記音響種別に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成手段と、
前記類似度ベクトル作成手段によって作成された複数の前記類似度ベクトルをクラスタリングするクラスタリング手段と、
前記クラスタリング手段によってクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与手段と
を備えたことを特徴とするインデキシング装置。
前記類似度ベクトル作成手段は、前記音響種別判別手段によって所定の音響種別と判別された区間の音響信号に基づいて、前記類似度ベクトルを作成することを特徴とする請求項１７に記載のインデキシング装置。
音響信号に索引を付与するインデキシング方法であって、
音響信号を取得する取得ステップと、
前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、
前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、
前記音響モデル作成ステップにおいて作成した前記音響モデルの信頼度を決定する信頼度決定ステップと、
前記信頼度決定ステップにおいて決定した前記音響モデルの信頼度に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、
前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、
前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップと
を有することを特徴とするインデキシング方法。
音響信号に索引を付与するインデキシング方法であって、
音響信号を取得する取得ステップと、
前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、
前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、
前記分割ステップにおいて分割した各区間の音響信号の音響種別を判別する音響種別判別ステップと、
前記音響種別判別ステップにおいて判別した前記音響種別に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、
前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、
前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップと
を有することを特徴とするインデキシング方法。
音響信号に索引を付与するインデキシング処理をコンピュータに実行させるインデキシングプログラムであって、
音響信号を取得する取得ステップと、
前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、
前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、
前記音響モデル作成ステップにおいて作成した前記音響モデルの信頼度を決定する信頼度決定ステップと、
前記信頼度決定ステップにおいて決定した前記音響モデルの信頼度に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、
前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、
前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップと
を有することを特徴とするインデキシングプログラム。
音響信号に索引を付与するインデキシング処理をコンピュータに実行させるインデキシングプログラムであって、
音響信号を取得する取得ステップと、
前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、
前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、
前記分割ステップにおいて分割した各区間の音響信号の音響種別を判別する音響種別判別ステップと、
前記音響種別判別ステップにおいて判別した前記音響種別に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、
前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、
前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップと
を有することを特徴とするインデキシングプログラム。