JP4220449B2 - インデキシング装置、インデキシング方法およびインデキシングプログラム - Google Patents

インデキシング装置、インデキシング方法およびインデキシングプログラム Download PDF

Info

Publication number
JP4220449B2
JP4220449B2 JP2004270448A JP2004270448A JP4220449B2 JP 4220449 B2 JP4220449 B2 JP 4220449B2 JP 2004270448 A JP2004270448 A JP 2004270448A JP 2004270448 A JP2004270448 A JP 2004270448A JP 4220449 B2 JP4220449 B2 JP 4220449B2
Authority
JP
Japan
Prior art keywords
acoustic
similarity
indexing
acoustic model
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004270448A
Other languages
English (en)
Other versions
JP2006084875A (ja
Inventor
幸一 山本
貴史 益子
信一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004270448A priority Critical patent/JP4220449B2/ja
Priority to US11/202,155 priority patent/US20060058998A1/en
Priority to CNA2005100917558A priority patent/CN1750120A/zh
Publication of JP2006084875A publication Critical patent/JP2006084875A/ja
Application granted granted Critical
Publication of JP4220449B2 publication Critical patent/JP4220449B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Description

本発明は、音響信号に対して索引を付与するインデキシング装置、インデキシング方法およびインデキシングプログラムに関するものである。
従来、音響信号に対して索引を付与するインデキシング方式としては、音響信号を複数の区間に分割し、各区間同士の類似度を利用して区間を分類するものが知られている。各区間同士の類似度を利用したインデキシング方式としては、例えば非特許文献1がある。
このように音響信号に対して索引を付与することにより、蓄積された大量なデータを効率よく処理することができる。例えば、テレビ放送などの番組音声に対し、いずれの話者による音声であるかを示す話者情報を索引として付与する。これにより、番組音声における話者検索が可能になる。
Yvonne Moh, Patrick Nguyen, and Jean-Claude Junqua, "TOWARDS DOMAIN INDEPENDENT SPEAKER CLUSTERING", In Proc. IEEE-ICASSP, Vol.2, pp.85-88, 2003.
しかしながら、従来のインデキシング技術では、例えば雑音の影響で各区間同士の類似度を正確に判定できず、インデキシングを正確に行えない場合があった。このように、様々な音響信号に対し精度良くインデキシングを行うことができないという問題があった。このため、インデキシング精度の向上が望まれている。
本発明は、上記に鑑みてなされたものであって、正確にインデキシングを行うことのできるインデキシング装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、音響信号に索引を付与するインデキシング装置であって、音響信号を取得する取得手段と、前記取得手段が取得した音響信号を複数の区間に分割する分割手段と、前記分割手段によって分割された各区間それぞれの音響モデルを作成する音響モデル作成手段と、前記音響モデル作成手段が作成した前記音響モデルの信頼度を決定する信頼度決定手段と、前記信頼度決定手段が決定した前記音響モデルの信頼度に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成手段と、前記類似度ベクトル作成手段によって作成された複数の前記類似度ベクトルをクラスタリングするクラスタリング手段と、前記クラスタリング手段によってクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与手段とを備えたことを特徴とする。
また、本発明は、音響信号に索引を付与するインデキシング装置であって、音響信号を取得する取得手段と、前記取得手段が取得した音響信号を複数の区間に分割する分割手段と、前記分割手段によって分割された各区間それぞれの音響モデルを作成する音響モデル作成手段と、前記分割手段によって分割された各区間の音響信号の音響種別を判別する音響種別判別手段と、前記音響種別判別手段によって判別された前記音響種別に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成手段と、前記類似度ベクトル作成手段によって作成された複数の前記類似度ベクトルをクラスタリングするクラスタリング手段と、前記クラスタリング手段によってクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与手段とを備えたことを特徴とする。
また、本発明は、音響信号に索引を付与するインデキシング方法であって、音響信号を取得する取得ステップと、前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、前記音響モデル作成ステップにおいて作成した前記音響モデルの信頼度を決定する信頼度決定ステップと、前記信頼度決定ステップにおいて決定した前記音響モデルの信頼度に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップとを有することを特徴とする。
また、本発明は、音響信号に索引を付与するインデキシング方法であって、音響信号を取得する取得ステップと、前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、前記分割ステップにおいて分割した各区間の音響信号の音響種別を判別する音響種別判別ステップと、前記音響種別判別ステップにおいて判別した前記音響種別に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップとを有することを特徴とする。
また、本発明は、音響信号に索引を付与するインデキシング処理をコンピュータに実行させるインデキシングプログラムであって、音響信号を取得する取得ステップと、前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、前記音響モデル作成ステップにおいて作成した前記音響モデルの信頼度を決定する信頼度決定ステップと、前記信頼度決定ステップにおいて決定した前記音響モデルの信頼度に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップとを有することを特徴とする。
また、本発明は、音響信号に索引を付与するインデキシング処理をコンピュータに実行させるインデキシングプログラムであって、音響信号を取得する取得ステップと、前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、前記分割ステップにおいて分割した各区間の音響信号の音響種別を判別する音響種別判別ステップと、前記音響種別判別ステップにおいて判別した前記音響種別に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップとを有することを特徴とする。
本発明にかかるインデキシング装置においては、分割手段は、音響信号を複数の区間に分割し、音響モデル作成手段が各区間それぞれの音響モデルを作成し、信頼度決定手段は、音響モデル作成手段が作成した音響モデルの信頼度を決定し、類似度ベクトル作成手段は、信頼度決定手段が決定した音響モデルの信頼度に基づいて、所定の区間に対して作成した音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成し、クラスタリング手段は、類似度ベクトル作成手段によって作成された複数の類似度ベクトルをクラスタリングし、索引付与手段は、クラスタリング手段によってクラスタリングされた類似度ベクトルに基づいて音響信号に索引を付与することができる。このように、本発明にかかるインデキシング装置は、音響モデルの信頼度に基づいて類似度ベクトルを作成するので、精度の高い類似度ベクトルを作成することができるという効果を奏する。さらに、信頼度に基づいて作成した類似度ベクトルに基づいてインデキシングを行うので、正確にインデキシングを行うことができるという効果を奏する。
以下に、本発明にかかるインデキシング装置、インデキシング方法およびインデキシングプログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
(実施の形態1)
図1は、実施の形態1にかかるインデキシング方式により音響信号のインデキシングを行うインデキシング装置10の機能構成を示すブロック図である。
インデキシング装置10は、音響信号取得部102と、分割部104と、音響モデル作成部106と、信頼度決定部108と、類似度ベクトル作成部110と、クラスタリング部112と、インデキシング部114とを備えている。
音響信号取得部102は、外部から入力された音響信号をマイク等を介して取得する。分割部104は、音響信号取得部102から音響信号を取得する。そして、パワーおよび零交差数などの情報を利用して音響信号を複数の区間に分割する。
図2は、分割部104の処理を説明するための図である。分割部104は、上段に示す音響信号200の分割点210a〜210dを境界位置として、複数の区間に分割する。下段に示す各区間(区間1〜区間5)は、上段の音響信号200から得られた区間である。区間に分割する場合に区間同士がオーバーラップしてもよい。
また、他の例としては、1発話を1区間としてもよい。このように、音響信号の内容に基づいて区間を決定してもよい。
音響モデル作成部106では、各区間について音響モデルを作成する。音響モデルとしては、HMM、GMMおよびVQコードブックなどを用いるのが好ましい。音響モデル作成部106は、具体的には分割部104によって得られた各区間の特徴量を抽出する。そして、当該特徴量に基づいて区間の特徴を表す音響モデルを作成する。
なお、音響モデルを作成する際に使用する特徴量は、分類対象に応じて決定してもよい。例えば、話者毎の分類を目的とする場合は、LPCケプストラムやMFCCなどのケプストラム系特徴量を抽出する。また、音楽のジャンル分類を目的とする場合は、ケプストラムに加えピッチや零交差数などの特徴量を抽出する。
このように分類対象に適した特徴量を抽出することにより、所望の分類対象毎のインデキシングを行うことができる。
他の例としては、抽出すべき特徴量は、ユーザによって変更可能であってもよい。これにより、音響信号毎に所望の分類対象に適した特徴量を抽出することができる。
また、音響モデル作成部106が作成する音響モデルは、当該区間の音響種別を反映するものであればよく、音響モデルの作成方法は、本実施の形態に限定されるものではない。
信頼度決定部108は、音響モデル作成部106が作成した各音響モデルの信頼度を決定する。信頼度決定部108は、各区間の長さに基づいて信頼度を決定する。区間長が長いほど、大きい値を信頼度として決定する。
具体的には、音響モデルに対応する区間の区間長自体を信頼度としてもよい。例えば、区間長1.0secに対する音響モデルの信頼度を「1」、区間長2.0secに対する音響モデルの信頼度を「2」とする。
信頼度決定部108は、さらに、区間長が予め定められた閾値以上であるか否かを判定する。閾値としては、例えば、1.0secが好ましい。
ここで、信頼度について説明する。一般に、音響モデルを作成する場合、与えられた学習データ量が多いほど音響モデルの信頼度は高くなる。信頼度の低い音響モデルに基づいて類似度ベクトルを作成した場合、類似度ベクトルの精度が低下してしまい、望ましくない。
例えば、討論番組などの音響信号には、相槌などの短い発話が多数存在する。このような短い発話を含む区間から作成した音響モデルは、当該区間が属する音響種別(話者情報)を表すモデルとしての信頼度は極端に低くなる。
このように、信頼度は区間長に依存する値である。具体的には、区間長が長いほど信頼度が高い。そこで、信頼度決定部108は、区間長に基づいて各音響モデルの信頼度を決定する。
類似度ベクトル作成部110では、分割部104によって得られた各区間と音響モデル作成部106で作成された複数の音響モデルの類似度を要素とする類似度ベクトルを作成する。より詳しくは、類似度ベクトル作成部110は、信頼度決定部108によって判定された信頼度に基づいて、類似度ベクトルを作成する。
まず基本的な類似度ベクトル作成部110の処理について説明する。類似度ベクトル作成部110は、各区間の音響モデルと各区間の音響信号との類似度に基づいて、類似度ベクトルを作成する。区間xiの類似度ベクトルSiは次式で表される。
Figure 0004220449
ここで、Nは総区間数を示している。xiは、i番目の区間の音響信号を示している。Miは、i番目の区間の音響モデルを示している。(Pxi|Mj)は、区間xiと音響モデルMjの類似度を示している。
音響信号が区間1から区間5の5つの区間に分類された場合、類似度ベクトル作成部110は、以下の処理を行う。すなわち、区間1から作成された音響モデルと、区間1から区間5のそれぞれの区間の音響信号との類似度を算出する。同様に区間2から区間5のそれぞれの音響モデルと、区間1から区間5のそれぞれの区間の音響信号との類似度を算出する。そして、算出した複数の類似度に基づいて、類似度ベクトルを作成する。
図3は、類似度ベクトル作成部110の処理を具体的に説明するための図である。図3に示す区間1および区間4は、話者Aの発話区間である。また、区間2、区間3および区間5は、話者Bの発話区間である。
区間1は話者Aの発話区間であるから、話者Aの発話区間である区間1および区間4との類似度が高い。したがって、区間1の類似度ベクトル221は、区間1および区間4に対応する類似度が高い。同様に、区間4の類似度ベクトル224は、区間1および区間4との類似度が高い。
一方、区間2は、話者Bの発話区間であるから、話者Bの発話区間である区間2、区間3および区間5との類似度が高い。したがって、区間2の類似度ベクトル222は、区間2、区間3および区間5との類似度が高い。同様に区間3の類似度ベクトル223および区間5の類似度ベクトル225は、区間2、区間3および区間5との類似度が高い。
図4は、類似度ベクトル作成部110によって作成された類似度ベクトルの一例を示している。横軸は、区間番号を示している。また、縦軸は、各発話に対する類似度ベクトルを示している。区間1は、話者Aの発話区間である。区間1は、16発話で構成されている。区間2は、話者Bの発話区間である。区間2も16発話で構成されている。以下同様に、話者A〜話者Hまでの計8名の話者による発話を含み、各区間は、16発話で構成されている。すなわち、音響信号は、計128発話で構成されている。色が白いほど類似度が高く、黒いほど類似度が低くなる。
次に、本実施の形態にかかる類似度ベクトル作成部110に特徴的な処理について説明する。類似度ベクトル作成部110は、信頼度決定部108から各音響モデルの信頼度を取得する。そして、閾値以上の信頼度を示す音響モデルに対する類似度のみに基づいて類似度ベクトルを作成する。すなわち、閾値未満の信頼度を示す音響モデルに対する類似度を類似度ベクトルの要素として使用しない。
図5は、類似度ベクトル作成部110の処理を説明するための図である。図5に示す区間3に対する音響モデルの信頼度が閾値以下であるとする。この場合には、各区間(区間1〜区間5)の音響信号と区間3の音響モデルとの類似度を示す要素2213,2223,2233,2243,2253は類似度ベクトルの要素として利用しない。すなわち、類似度ベクトル221の要素2211,2212,2215、類似度ベクトル222の要素2221,2222,2225、類似度ベクトル223の要素2231,2232,2235、類似度ベクトル224の要素2241,2242,2245、類似度ベクトル225の要素2251,2252,2255を要素とする類似度ベクトルを作成する。この場合、類似度ベクトルは次式で示される。
Figure 0004220449
すなわち、信頼度が閾値以下の音響モデルが1個含まれている場合には、式(1)に示す類似度ベクトルよりも1次元少ないN−1次元の式となる。類似度ベクトルがN次元であって、区間3の音響モデルの信頼度が閾値以下である場合、類似度ベクトルは次式で示される。
Figure 0004220449
同様に、信頼度が閾値以下の音響モデルがm個含まれている場合には、式(1)に示す類似度ベクトルよりもm次元少ないN−m次元の式となる。
音響信号取得部102が取得した音響信号には、相槌などの短い発話や「え〜」(フィラー)のように出現音素が偏った発話が含まれることがある。このような区間の音響信号は、情報量が少ない。したがって、かかる区間の音響信号に基づいて作成した音響モデルの信頼度は低くなる。
このように信頼度の低い音響モデルと他の区間の音響信号とを照合して類似度を求めた場合、類似度は正確な値と大きく異なる値となる場合がある。また、このように信頼度の低い音響モデルに基づいて類似度を求めた場合、類似度が極端な値となることもある。
このように、実際の類似度と大きく異なる類似度を要素とする類似度ベクトルを作成した場合、高精度の類似度ベクトルは得られない。
これに対し、本実施の形態にかかるインデキシング装置10においては、類似度ベクトル作成部110は、信頼度が閾値以上となる音響モデルのみを利用して類似度ベクトルを作成する。したがって、高精度の類似度ベクトルを作成することができる。
このように、音響モデルの信頼度に応じて類似度ベクトルの各要素に処理を施すことによって、相槌などの短い区間やフィラーのように出現音素が偏っている音響信号の影響を類似度ベクトルに反映させることなく高精度の類似度ベクトルを作成することができる。
クラスタリング部112は、類似度ベクトル作成部110で作成された類似度ベクトルのクラスタリングを行う。これにより、入力された音響信号を分類することができる。具体的には、図4に示す類似度ベクトルに対応する音響信号には、話者Aから話者Hの計8人の発話が含まれている。そこで、クラスタリング部112は、クラスタ数8のクラスタリングを行う。これにより話者インデキシングを行うことができる。
クラスタリング手法としては、k-meansやGMMなどを利用するのが好ましい。その際、BICなどの情報量基準を利用することによって、クラスタ数を推定してもよい。図4に示す例においては、クラスタ数として話者数を推定する。
インデキシング部114は、クラスタリング部112によってクラスタリングされた類似度ベクトルに基づいて、音響信号に索引を付与する。具体的には、話者Aから話者Hの計8人の発話に対応するクラスタ数8にクラスタリングされた場合には、各話者に対応する区間に対し各話者を示す索引を付与する。
以上のように本実施の形態にかかるインデキシング装置10は、信頼度の低い音響モデルとの類似度を利用せずに作成した類似度ベクトルに基づいてクラスタリングを行うので、クラスタリングの精度を向上させることができる。したがって、正確にインデキシングを行うことができる。
従来のインデキシング技術においては、区間同士の類似度を計算する際に使用する音響モデルの信頼度は考慮していなかった。したがって、相槌などの短い発話や音声、音楽、雑音が混在する信号を正確にインデキシングすることは難しかった。これに対し、本実施形態のインデキシング装置10は、音響モデルの信頼度に基づいて作成した類似度ベクトルを利用することにより、相槌などの短い発話等に対しても正確にインデキシングを行うことができる。
また、信頼度を音響信号の区間長に基づいて決定することにより、区間長の異なる複数の区間を含む場合であっても、正確にインデキシングを行うことができる。
図6は、実施の形態1に係るインデキシング装置10のハードウェア構成を示す図である。インデキシング装置10は、ハードウェア構成として、インデキシング装置10におけるインデキシング処理を実行するインデキシングプログラムなどが格納されているROM52と、ROM52内のプログラムに従ってインデキシング装置10の各部を制御するCPU51と、インデキシング装置10の制御に必要な種々のデータを記憶するRAM53と、ネットワークに接続して通信を行う通信I/F57と、各部を接続するバス62とを備えている。
先に述べたインデキシング装置10におけるインデキシングプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(登録商標)ディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
この場合には、インデキシングプログラムは、インデキシング装置10において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
また、本実施の形態のインデキシングプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。
そうした第1の変更例としては、実施の形態1にかかる信頼度決定部108は、区間長に基づいて信頼度を決定したが、これにかえて、クローズな類似度に基づいて信頼度を決定してもよい。
ここで、クローズな類似度とは、同一区間に対する音響モデルと音響信号の類似度である。図4に示す類似度ベクトルにおいては、対角成分がクローズな類似度を示す。したがって、対角成分は、他の類似度に比べて高い値を示している。
また、第2の変更例としては、第1の変更例と同様に、クローズな類似度に基づいて信頼度を決定し、さらに、極端に高いクローズな類似度に対応する信頼度を示す音響モデル以外の音響モデルを利用して類似度ベクトルを作成してもよい。
クローズな類似度が極端に高い値を示す場合がある。このように、極端に高い値を示す音響モデルは、当該区間について過学習されたものであると言える。例えば「こんにちは」と「え〜」という区間について、それぞれ同じ条件で音響モデルを作成し、そのクローズな類似度を比較した場合、後者の「え〜」の値は極端に大きな値を取る。これは出現音素が偏っていることが原因であり、特定音素にモデルが過学習されたものである。このような過学習された音響モデルとの類似度は意味を持たないと言える。
そこで、第2の変更例にかかる類似度ベクトル作成部110は、クローズな類似度の上限値、すなわち信頼度の下限値を設定し、設定した下限値を下まわる信頼度を示す音響モデル以外の音響モデルを利用して類似度ベクトルを作成する。これにより、より高精度な類似度ベクトルを算出することができる。
音響モデルとしてGMMを用いた場合には、クローズな類似度は尤度で表すことができ、ある区間において出現する音素が偏っている場合や、GMMの混合数に対して区間長が短すぎる場合、クローズな尤度は極端に大きな値を取る。このようなGMMと他の区間の類似度は意味をなさない場合が多い。そこで、類似度ベクトル作成部110は、尤度が極端に大きな値となる場合には、類似度ベクトルの要素として使用しない。
また、第3の変更例としては、実施の形態1にかかる類似度ベクトル作成部110は、閾値以上の信頼度を示す音響モデルのみを利用して類似度ベクトルを作成したが、これにかえて、類似度ベクトルの各要素に対して、音響ベクトルの信頼度に応じた重みを付与してもよい。
類似度ベクトル作成部110は、次式で示される類似度ベクトルを作成する。ここで、wiはi番目の音響モデルとの類似度に対する重みである。
Figure 0004220449
上式における重みwiは音響モデルの信頼度に応じて決定される。
例えば、信頼度に対し閾値を設定し、閾値以上である場合に重み値を「1」とする。また、閾値以下である場合に重み値を「0」とする。すなわち、信頼度に応じて「0」および「1」の2値の重み値を設定する。このように、信頼度に応じて予め定められた規定値を重み値として決定する。
なお、第3の変更例においては、2値に設定する例について説明したが、重み値は、3以上の値であってもよい。例えば、分割された区間長をそのまま重みとして用いてもよい。例えば、2.0secの区間に対する重み値を「2.0」とし、2.1secの区間に対する重み値を「2.1」とし、4.0secの区間に対する重み値を「4.0」としてもよい。これにより、区間長の最少単位に応じた数の値をとり得る重み値を付与することができる。このように、重み値がとり得る値の数は、第3の変更例に限定されるものではない。
また、式(3)では、各要素に重み値を乗じているが、重み付け方法はこれに限定されるものではない。例えば、重み値を加算してもよい。
以上のように、第3の変更例によれば、信頼度の高い要素が類似度ベクトルに大きく影響することになる。したがって、高精度の類似度ベクトルを作成することができる。すなわち、第3の変更例にかかる類似度ベクトル作成部110によって作成された類似度ベクトルを利用した場合、クラスタリングの精度を向上させることができる。
また、第4の変更例としては、類似度ベクトル作成部110は、音響ベクトルの信頼度に応じて類似度ベクトルの要素を一定値に置き換えてもよい。
具体的には、類似度ベクトル作成部110は、例えば、予め定めた閾値未満の信頼度を示す音響モデルとの類似度を一定値に置き換える。式(5)は、「0」に置き換える場合の類似度ベクトルを示している。なお、次式は、区間3の音響モデルの信頼度が閾値未満である場合の類似度ベクトルを示している。
Figure 0004220449
以上のように、第2の変更例によれば、信頼度の低い音響モデルに対する要素を「0」とすることにより、信頼度の低い音響モデルが類似度ベクトルに与える影響が小さくなるので、高精度の類似度ベクトルを作成することができる。
また、他の例としては、予め定めた閾値以上の信頼度を示す音響モデルとの類似度を一定値に置き換えてもよい。具体的には、閾値以上の信頼度を「1」に置き換える。これにより、極端に大きい信頼度を「1」に置き換えることができる。極端に大きい信頼度は、正確な値でない可能性が高い。したがって、このように極端に大きい信頼度を「1」に置き換えることにより、信頼度が極端に高い音響ベクトルが類似度ベクトルに与える影響が小さくなるので、高精度の類似度ベクトルを作成することができる。
また、第5の変更例としては、類似度ベクトルのある要素が極端な値を取った場合、その要素は利用しないこととしてもよい。具体的には、類似度ベクトルの要素が極端に大きい値である場合には、クラスタリング部112はクラスタリングにおいて、類似度ベクトルの当該要素を利用しないこととする。また他の例としては、類似度ベクトルの要素が極端に小さい値である場合には、クラスタリング部112は、クラスタリングにおいて類似度ベクトルの当該要素を利用しないこととしてもよい。
また他の例としては、類似度ベクトルの要素が極端に小さい場合および類似度ベクトルの要素が極端に大きい値である場合のいずれの場合にも、クラスタリングにおいて類似度ベクトルの当該要素を利用しないこととしてもよい。
なお、極端に大きい類似度ベクトルの要素または極端に小さい類似度ベクトルの要素を特定する方法としては、類似度ベクトルの閾値を設定してもよい。例えば、予め定められた閾値以下の値は、極端に大きい値であると判断し、類似度ベクトルの当該要素を利用しない。
また他の例としては、複数の類似度ベクトルの要素の分散に基づいて、極端な値か否かを判断してもよい。このように極端な値を特定できればよく、その方法は本例に限定されるものではない。
また、第6の変更例としては、実施の形態1にかかる分割部104は、パワーおよび零交差数などの情報を利用して、各区間の幅を決定したが、これにかえて、これらの情報を用いずに予め定めた一定幅に分割してもよい。より具体的には、音響信号を1.0secを1区間とする複数の区間に分割してもよい。区間の幅は、1.0〜2.0sec程度が好ましい。
なお、この場合いずれの区間も等しい区間長となる。したがって、区間長に応じた信頼度を決定した場合、各区間の信頼度は一律値となり意味がない。そこで、この場合信頼度決定部108は、クローズな類似度など区間長以外の情報に基づいて信頼度を決定するのが好ましい。
(実施の形態2)
図7は、実施の形態2にかかるインデキシング装置10の機能構成を示すブロック図である。実施の形態2にかかるインデキシング装置10は、音響種別判別部120を備えている。この点で実施の形態1にかかるインデキシング装置10と異なっている。
音響種別判別部120は、分割部104で分割された各区間の音響信号の音響種別を判別する。例えば、入力された音響信号の話者インデキシングを行う場合、音響信号に含まれる音楽・雑音などの非音声信号は不要な信号となる。そこで、この場合には音響種別判別部120は、音声/非音声を判別する。
具体的には、入力された音響信号を1〜2s程度のブロックに分割する。各ブロックからBlock Cepstrum Flux(BCF)を抽出する。そして、BCFが閾値より大きい場合は音声、小さい場合は音楽と判定している。なお、BCFはフレーム毎に計算するCepstrum Fluxをブロック単位で平均化したものである。
より詳しくは、Muramoto, T., Sugiyama, M., "Visual and audio segmentation for video streams", Multimedia and Expo, 2000. ICME 2000. 2000 IEEE International Conference on , Volume: 3 , 30 July-2 Aug. 2000 Pages:1547 - 1550 vol.3に記載されている方法を利用してもよい。
音響モデル作成部106は、音響種別判別部120によってインデキシングとの対象となる音響種別であると判別された区間に対する音響モデルを作成する。具体的には、例えば話者インデキシングを行う場合には、音響信号のうち音声に対応する区間のみに基づいて音響モデルを作成する。
類似度ベクトル作成部110は、インデキシングの対象となる音響種別の区間の音響信号と音響モデルを利用して、類似度ベクトルを作成する。すなわち、インデキシングの対象となる音響種別の区間の音響モデルとの類似度を要素とする類似度ベクトルを作成する。
なお、実施の形態2にかかるインデキシング装置10のこれ以外の構成および処理は、実施の形態1にかかるインデキシング装置10等の構成および処理と同様である。
従来方式では、上述のような音響種別の判別を行わなかったので、音声・音楽・雑音などが混在する音響信号を正確にインデキシングすることは難しかった。しかし、上記のように分割された区間の音響種別を判別し、対象となる音響種別の区間のみを処理対象とすることにより、雑音などインデキシングに関係のない音を排除することができる。したがって、所望の音響信号について精度よくインデキシングすることができる。
また、対象となる区間を限定することにより、無駄な処理を省くことができるので、処理の効率化を図ることができる。
他の例としては、本実施の形態においては、音声/非音声を判別する場合について説明したが、これにかえて、またはこれに加えて男女判別および言語判別などを行ってもよい。
(実施の形態3)
次に、実施の形態3にかかるインデキシング装置10について説明する。実施の形態3にかかるインデキシング装置10の機能構成は、実施の形態2にかかるインデキシング装置10と同様である。実施の形態3にかかるインデキシング装置10は、音声らしさを音響モデルの信頼度として利用する。この点で、実施の形態3にかかるインデキシング装置10は、他の実施の形態にかかるインデキシング装置10と異なっている。
音響種別判別部120は、分割部104によって分割された各区間の音声らしさを判別する。音声らしさとして、予め用意した音声モデルとの尤度を算出してもよい。
また、他の例としては、音響種別判別部120は、音声と判別された場合に「1」非音声と判別された場合に「0」と2値を音声らしさの値とし、各区間に対する音声らしさとして「1」または「0」の値のいずれかを判別してもよい。
信頼度決定部108は、音響種別判別部120によって判別された音声の尤度、すなわち判別された音声らしさの値に基づいて信頼度を決定する。より具体的には、音声らしさの値自体を信頼度とする。すなわち音声らしさが2値で示される場合には、信頼度も2値で示される。さらに、信頼度決定部108は、閾値を「1」とする。
類似度ベクトル作成部110は、音響種別判別部120によって判別された音声らしさを信頼度として利用して音響モデルを作成する。類似度ベクトル作成部110は、具体的には、閾値「1」となる区間のみに基づいて類似度ベクトル作成する。
このように、実施の形態3にかかるインデキシング装置10は、音声らしさに基づいて、類似度ベクトルを作成するので、インデキシングの対象とならない雑音の影響を抑えて、高精度な類似度ベクトルを得ることができる。
なお、実施の形態3にかかるインデキシング装置10のこれ以外の構成および処理は、実施の形態1にかかるインデキシング装置10等の構成および処理と同様である。
また、他の例としては、各区間の音声らしさを音響モデルの信頼度として用い、かつかかる信頼度を重みとして、類似度ベクトルの各要素に加味してもよい。
例えば、区間(1,2,3,・・・,N)の音声らしさがそれぞれ、(1,0,2,・・・,1.5)と与えられた場合、区間xiの類似度ベクトルSiは次式のように計算する。
Figure 0004220449
ここで、Nは総区間数を示している。xiは、i番目の区間の音響信号を示している。Miは、i番目の区間の音響モデルを示している。P(xi|Mj)は、区間xiと音響モデルMjの類似度を示している。
このように、音声らしさに応じた重み付けを類似度ベクトルに施すことによって、音声らしさの低い音響モデルの影響を低減させることが可能になる。なお、音声らしさの低い音響モデルには、音楽・雑音などの非音声信号が重畳した音声区間から作成された音響モデルが含まれる。
また、他の例としては、本実施の形態においては、音声らしさに基づいて類似度ベクトルを作成したが、音楽に対するインデキシングを行う場合には、音楽らしさに基づいて類似度ベクトルを作成してもよい。これによれば、精度よく音楽インデキシングを行うことができる。
(実施の形態4)
次に実施の形態4にかかるインデキシング装置10について説明する。図8は、実施の形態4にかかるインデキシング装置10の機能構成を示すブロック図である。各部の機能は、実施の形態1または2にかかるインデキシング装置10の同一番号を付した各部の機能と同様である。
実施の形態4にかかるインデキシング装置10においては、音響種別判別部120は、クリーン音声と雑音重畳音声とを判別する。そして、クラスタリング部112は、音響種別判別部120によってクリーン音声と判別された区間に基づいて作成された類似度ベクトルを利用して、クラスタリングにおける代表モデルを作成する。実施の形態4にかかるインデキシング装置10は、この点で他の実施の形態にかかるインデキシング装置10と異なっている。
本実施の形態においては、音響種別判別部120は、音響信号の話者インデキシングを目的として、音響信号をクリーン音声と雑音重畳音声に分類する。
具体的には、入力された音響信号を1sのブロック単位に分割する。各ブロックから26種類の特徴量を抽出する。特徴量は、短時間零交差数の平均と分散、短時間パワーの平均と分散、調波構造の強さなどである。そして、この特徴量に基づいて、クリーン音声と雑音重畳音声とを分類する。
より詳しくは、例えば、Y. Li and C. Dorai,"SVM-based audio classification for instructional video analysis", ICASSP 2004, V 897-900, 2004.に示される技術を利用してもよい。
クラスタリング部112は、音響種別判別部120によってクリーン音声と判別された区間の類似度ベクトルを用いてクラスタリングにおける代表モデルを作成する。その後、この代表モデルを用いて雑音重畳音声を含む全ての区間をクラスタリングする。
図9は、クラスタリング処理を説明するための図である。図9は、GMMでクラスタリングした場合の代表モデルを示している。通常、類似度ベクトルは発話区間数と同数の次元数を持つが、図9および図10においては、説明の便宜上、2次元特徴ベクトルを示している。すなわち、x軸が発話間類似度ベクトルの1つめの要素、y軸が発話間類似度ベクトルの2つめの要素を表している。
GMMでクラスタリングした場合、代表モデルはサンプル集合より学習した混合ガウス分布となる。
このように、本実施の形態にかかるクラスタリング部112は、クリーン音声と判別された区間の類似度ベクトルを用いて代表モデルを作成するので、高精度の代表モデルを得ることができる。
なお、実施の形態4にかかるインデキシング装置10のこれ以外の構成および処理は、実施の形態1にかかるインデキシング装置10等の構成および処理と同様である。
他の例としては、本実施の形態においては、GMMでクラスタリングしたが、これにかえて、k−meansでクラスタリングを行ってもよい。GMMでクラスタリングを行う場合は、各クラスタにおけるガウス分布となる。
図10は、K−meansでクラスタリングした場合の代表モデルを示している。K−meansでクラスタリングした場合、代表モデルはサンプル集合より学習した代表点(各クラスタの重心)となる。この場合も、GMMでクラスタリングした場合と同様に、クリーン音声のみに基づいて代表モデルを作成するので、高精度の代表モデルを得ることができる。
図11は、実施の形態4にかかるインデキシング装置10の他の例にかかるインデキシング装置10の機能構成を示すブロック図である。本例にかかるインデキシング装置10においては、音響モデル作成部106は、実施の形態2にかかる音響モデル作成部106と同様に音響種別判別部120による判別結果に基づいてクラスタリングの対象となる音響種別の区間に対する音響モデルのみを作成してもよい。
このように、クラスタリングの対象となる音響種別の区間のみに基づいてクラスタリングを行うことにより、クラスタリングの精度をさらに向上させることができる。
実施の形態1にかかるインデキシング方式により音響信号のインデキシングを行うインデキシング装置10の機能構成を示すブロック図である。 分割部104の処理を説明するための図である。 類似度ベクトル作成部110の処理を説明するための図である。 類似度ベクトル作成部110によって作成された類似度ベクトルの一例を示す図である。 類似度ベクトル作成部110の処理を説明するための図である。 実施の形態1に係るインデキシング装置10のハードウェア構成を示す図である。 実施の形態2にかかるインデキシング装置10の機能構成を示すブロック図である。 実施の形態4にかかるインデキシング装置10の機能構成を示すブロック図である。 GMMでクラスタリングした場合の代表モデルを示す図である。 K−meansでクラスタリングした場合の代表モデルを示す図である。 実施の形態4にかかるインデキシング装置10の他の例にかかるインデキシング装置10の機能構成を示すブロック図である。
符号の説明
10 インデキシング装置
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
102 音響信号取得部
104 分割部
106 音響モデル作成部
108 信頼度決定部
110 類似度ベクトル作成部
112 クラスタリング部
114 インデキシング部
120 音響種別判別部
200 音響信号
210a〜d 分割点
221〜225 類似度ベクトル

Claims (22)

  1. 音響信号に索引を付与するインデキシング装置であって、
    音響信号を取得する取得手段と、
    前記取得手段が取得した音響信号を複数の区間に分割する分割手段と、
    前記分割手段によって分割された各区間それぞれの音響モデルを作成する音響モデル作成手段と、
    前記音響モデル作成手段が作成した前記音響モデルの信頼度を決定する信頼度決定手段と、
    前記信頼度決定手段が決定した前記音響モデルの信頼度に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成手段と、
    前記類似度ベクトル作成手段によって作成された複数の前記類似度ベクトルをクラスタリングするクラスタリング手段と、
    前記クラスタリング手段によってクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与手段と
    を備えたことを特徴とするインデキシング装置。
  2. 前記類似度ベクトル作成手段は、前記音響モデル作成手段が作成した前記音響モデルのうち、信頼度が予め定められた閾値以上となる音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成することを特徴とする請求項1に記載のインデキシング装置。
  3. 前記類似度ベクトル作成手段は、前記音響モデル作成手段が作成した前記音響モデルの信頼度に応じて、各音響モデルに対する類似度に重み付けを行い、重み付けされた類似度を要素とする類似度ベクトルを作成することを特徴とする請求項1に記載のインデキシング装置。
  4. 前記類似度ベクトル作成手段は、前記音響モデル作成手段が作成した前記音響モデルの信頼度に対して予め定めた規定値を前記音響モデルに対する類似度として決定し、当該類似度を要素とする類似度ベクトルを作成することを特徴とする請求項1に記載のインデキシング装置。
  5. 前記類似度ベクトル作成手段は、前記音響モデル作成手段が作成した前記音響モデルの信頼度が予め定めた閾値以上である場合に、予め定めた規定値を当該音響モデルに対する類似度として決定し、当該類似度を要素とする類似度ベクトルを作成することを特徴とする請求項4に記載のインデキシング装置。
  6. 前記類似度ベクトル作成手段は、前記音響モデル作成手段が作成した前記音響モデルの信頼度が予め定めた閾値以下である場合に、予め定めた規定値を当該音響モデルに対する類似度として決定し、当該類似度を要素とする類似度ベクトルを作成することを特徴とする請求項4または5に記載のインデキシング装置。
  7. 前記信頼度決定手段は、前記音響モデル作成手段が作成した前記音響モデルの区間長に基づいて前記信頼度を決定することを特徴とする請求項1に記載のインデキシング装置。
  8. 前記信頼度決定手段は、前記音響モデル作成手段が作成した前記音響モデルの区間長が長いほど、高い値を信頼度として決定することを特徴とする請求項5に記載のインデキシング装置。
  9. 前記信頼度決定手段は、前記音響モデル作成手段が作成した前記音響モデルと自身の区間の音響信号との類似度に基づいて前記信頼度を決定することを特徴とする請求項1に記載のインデキシング装置。
  10. 前記信頼度決定手段は、前記音響モデル作成手段が所定の区間に対して作成した前記音響モデルと、当該区間の音響信号との類似度が高いほど、低い値を信頼度として決定することを特徴とする請求項7に記載のインデキシング装置。
  11. 前記分割手段によって分割された各区間の音響信号の音響種別を判別する音響種別判別手段をさらに備え、
    前記類似度ベクトル作成手段は、前記音響種別判別手段によって判別された前記音響種別に基づいて、前記類似度ベクトルを作成することを特徴とする請求項1に記載のインデキシング装置。
  12. 前記類似度ベクトル作成手段は、前記音響種別判別手段によって所定の音響種別と判別された区間の音響信号に基づいて、前記類似度ベクトルを作成することを特徴とする請求項11に記載のインデキシング装置。
  13. 前記信頼度決定手段は、前記音響種別判別手段によって判別された前記音響種別に基づいて、前記信頼度を決定することを特徴とする請求項11に記載のインデキシング装置。
  14. 前記音響種別判別手段は、前記音響信号の前記音響種別を判別し、さらに判別した前記音響種別における尤度を算出し、
    前記信頼度決定手段は、前記音響種別判別手段によって判定された前記音響種別に対する尤度に基づいて信頼度を決定することを特徴とする請求項13に記載のインデキシング装置。
  15. 前記信頼度決定手段は、前記音響種別判別手段によって判別された前記音響種別に対する尤度が高いほど高い値を信頼度として決定することを特徴とする請求項14に記載のインデキシング装置。
  16. 前記分割手段によって分割された各区間の音響信号の音響種別を判別する音響種別判別手段をさらに備え、
    前記クラスタリング手段は、前記音響種別判別手段によって判別された前記音響種別に基づいて、各クラスの代表点を算出し、当該代表点に基づいて複数の類似度ベクトルをクラスタリングすることを特徴とする請求項1に記載のインデキシング装置。
  17. 音響信号に索引を付与するインデキシング装置であって、
    音響信号を取得する取得手段と、
    前記取得手段が取得した音響信号を複数の区間に分割する分割手段と、
    前記分割手段によって分割された各区間それぞれの音響モデルを作成する音響モデル作成手段と、
    前記分割手段によって分割された各区間の音響信号の音響種別を判別する音響種別判別手段と、
    前記音響種別判別手段によって判別された前記音響種別に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成手段と、
    前記類似度ベクトル作成手段によって作成された複数の前記類似度ベクトルをクラスタリングするクラスタリング手段と、
    前記クラスタリング手段によってクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与手段と
    を備えたことを特徴とするインデキシング装置。
  18. 前記類似度ベクトル作成手段は、前記音響種別判別手段によって所定の音響種別と判別された区間の音響信号に基づいて、前記類似度ベクトルを作成することを特徴とする請求項17に記載のインデキシング装置。
  19. 音響信号に索引を付与するインデキシング方法であって、
    音響信号を取得する取得ステップと、
    前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、
    前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、
    前記音響モデル作成ステップにおいて作成した前記音響モデルの信頼度を決定する信頼度決定ステップと、
    前記信頼度決定ステップにおいて決定した前記音響モデルの信頼度に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、
    前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、
    前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップと
    を有することを特徴とするインデキシング方法。
  20. 音響信号に索引を付与するインデキシング方法であって、
    音響信号を取得する取得ステップと、
    前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、
    前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、
    前記分割ステップにおいて分割した各区間の音響信号の音響種別を判別する音響種別判別ステップと、
    前記音響種別判別ステップにおいて判別した前記音響種別に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、
    前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、
    前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップと
    を有することを特徴とするインデキシング方法。
  21. 音響信号に索引を付与するインデキシング処理をコンピュータに実行させるインデキシングプログラムであって、
    音響信号を取得する取得ステップと、
    前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、
    前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、
    前記音響モデル作成ステップにおいて作成した前記音響モデルの信頼度を決定する信頼度決定ステップと、
    前記信頼度決定ステップにおいて決定した前記音響モデルの信頼度に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、
    前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、
    前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップと
    を有することを特徴とするインデキシングプログラム。
  22. 音響信号に索引を付与するインデキシング処理をコンピュータに実行させるインデキシングプログラムであって、
    音響信号を取得する取得ステップと、
    前記取得ステップにおいて取得した音響信号を複数の区間に分割する分割ステップと、
    前記分割ステップにおいて分割した各区間それぞれの音響モデルを作成する音響モデル作成ステップと、
    前記分割ステップにおいて分割した各区間の音響信号の音響種別を判別する音響種別判別ステップと、
    前記音響種別判別ステップにおいて判別した前記音響種別に基づいて、所定の区間に対して作成した前記音響モデルと他の区間の音響信号との類似度を要素とする類似度ベクトルを作成する類似度ベクトル作成ステップと、
    前記類似度ベクトル作成ステップにおいて作成した複数の前記類似度ベクトルをクラスタリングするクラスタリングステップと、
    前記クラスタリングステップにおいてクラスタリングされた前記類似度ベクトルに基づいて前記音響信号に索引を付与する索引付与ステップと
    を有することを特徴とするインデキシングプログラム。
JP2004270448A 2004-09-16 2004-09-16 インデキシング装置、インデキシング方法およびインデキシングプログラム Expired - Fee Related JP4220449B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004270448A JP4220449B2 (ja) 2004-09-16 2004-09-16 インデキシング装置、インデキシング方法およびインデキシングプログラム
US11/202,155 US20060058998A1 (en) 2004-09-16 2005-08-12 Indexing apparatus and indexing method
CNA2005100917558A CN1750120A (zh) 2004-09-16 2005-08-17 索引设备和索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004270448A JP4220449B2 (ja) 2004-09-16 2004-09-16 インデキシング装置、インデキシング方法およびインデキシングプログラム

Publications (2)

Publication Number Publication Date
JP2006084875A JP2006084875A (ja) 2006-03-30
JP4220449B2 true JP4220449B2 (ja) 2009-02-04

Family

ID=36035228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004270448A Expired - Fee Related JP4220449B2 (ja) 2004-09-16 2004-09-16 インデキシング装置、インデキシング方法およびインデキシングプログラム

Country Status (3)

Country Link
US (1) US20060058998A1 (ja)
JP (1) JP4220449B2 (ja)
CN (1) CN1750120A (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
JP4884163B2 (ja) * 2006-10-27 2012-02-29 三洋電機株式会社 音声分類装置
JP4728972B2 (ja) * 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
CA2676380C (en) * 2007-01-23 2015-11-24 Infoture, Inc. System and method for detection and analysis of speech
US8630853B2 (en) 2007-03-26 2014-01-14 Nec Corporation Speech classification apparatus, speech classification method, and speech classification program
JP5060224B2 (ja) 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
JP5052449B2 (ja) * 2008-07-29 2012-10-17 日本電信電話株式会社 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体
WO2011033597A1 (ja) 2009-09-19 2011-03-24 株式会社 東芝 信号分類装置
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US9558762B1 (en) * 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN105047202B (zh) * 2015-05-25 2019-04-16 广州酷狗计算机科技有限公司 一种音频处理方法、装置及终端
JP6434162B2 (ja) * 2015-10-28 2018-12-05 株式会社東芝 データ管理システム、データ管理方法およびプログラム
US10141009B2 (en) * 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
AU2017327003B2 (en) 2016-09-19 2019-05-23 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
US11646018B2 (en) 2019-03-25 2023-05-09 Pindrop Security, Inc. Detection of calls from voice assistants
KR20220151504A (ko) * 2021-05-06 2022-11-15 삼성전자주식회사 오호출을 식별하는 서버 및 이의 제어 방법

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58105295A (ja) * 1981-12-18 1983-06-23 株式会社日立製作所 音声標準パタン作成方法
US5864809A (en) * 1994-10-28 1999-01-26 Mitsubishi Denki Kabushiki Kaisha Modification of sub-phoneme speech spectral models for lombard speech recognition
US5742928A (en) * 1994-10-28 1998-04-21 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for speech recognition in the presence of unnatural speech effects
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US6119084A (en) * 1997-12-29 2000-09-12 Nortel Networks Corporation Adaptive speaker verification apparatus and method including alternative access control
US6230129B1 (en) * 1998-11-25 2001-05-08 Matsushita Electric Industrial Co., Ltd. Segment-based similarity method for low complexity speech recognizer
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
JP3789246B2 (ja) * 1999-02-25 2006-06-21 株式会社リコー 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体
US6577999B1 (en) * 1999-03-08 2003-06-10 International Business Machines Corporation Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
EP1187096A1 (en) * 2000-09-06 2002-03-13 Sony International (Europe) GmbH Speaker adaptation with speech model pruning
US6961703B1 (en) * 2000-09-13 2005-11-01 Itt Manufacturing Enterprises, Inc. Method for speech processing involving whole-utterance modeling
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US6915009B2 (en) * 2001-09-07 2005-07-05 Fuji Xerox Co., Ltd. Systems and methods for the automatic segmentation and clustering of ordered information
US6928407B2 (en) * 2002-03-29 2005-08-09 International Business Machines Corporation System and method for the automatic discovery of salient segments in speech transcripts
EP1575031A3 (en) * 2002-05-15 2010-08-11 Pioneer Corporation Voice recognition apparatus
JP4623920B2 (ja) * 2002-07-09 2011-02-02 ソニー株式会社 類似度算出方法及び装置、並びにプログラム及び記録媒体
US20040138894A1 (en) * 2002-10-17 2004-07-15 Daniel Kiecza Speech transcription tool for efficient speech transcription
US20040143434A1 (en) * 2003-01-17 2004-07-22 Ajay Divakaran Audio-Assisted segmentation and browsing of news videos
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US7610199B2 (en) * 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
JP4476786B2 (ja) * 2004-11-10 2010-06-09 株式会社東芝 検索装置
US7475016B2 (en) * 2004-12-15 2009-01-06 International Business Machines Corporation Speech segment clustering and ranking
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
US7396990B2 (en) * 2005-12-09 2008-07-08 Microsoft Corporation Automatic music mood detection

Also Published As

Publication number Publication date
JP2006084875A (ja) 2006-03-30
US20060058998A1 (en) 2006-03-16
CN1750120A (zh) 2006-03-22

Similar Documents

Publication Publication Date Title
JP4220449B2 (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
US11900947B2 (en) Method and system for automatically diarising a sound recording
US10366693B2 (en) Acoustic signature building for a speaker from multiple sessions
US20230043916A1 (en) Text-to-speech processing using input voice characteristic data
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
JP4590692B2 (ja) 音響モデル作成装置及びその方法
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN108831506B (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
WO2018192186A1 (zh) 语音识别方法及装置
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
CN108899033B (zh) 一种确定说话人特征的方法及装置
CN107480152A (zh) 一种音频分析及检索方法和系统
KR101068122B1 (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
CN111554279A (zh) 一种基于Kinect的多模态人机交互系统
JP5050698B2 (ja) 音声処理装置およびプログラム
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP5626221B2 (ja) 音響画像区間分類装置および方法
Hafen et al. Speech information retrieval: a review
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
KR101551879B1 (ko) 비교데이터 프루닝과 가우시안 혼합 모델의 유사도 추정을 이용한 유해 동영상 필터링 시스템 및 방법
DeMarco et al. An accurate and robust gender identification algorithm
Yanagisawa et al. Noise robustness in HMM-TTS speaker adaptation
JP2002062892A (ja) 音響分類装置
Mengistu et al. Text independent Amharic language dialect recognition: A hybrid approach of VQ and GMM

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131121

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees