JP2010504553A

JP2010504553A - 音声キーワードの特定方法、装置及び音声識別システム

Info

Publication number: JP2010504553A
Application number: JP2009528942A
Authority: JP
Inventors: リ，フォンチン; ウ，ヤドン; ヤン，チンタオ; チェン，チェン
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2006-09-27
Filing date: 2007-09-27
Publication date: 2010-02-12
Anticipated expiration: 2027-09-27
Also published as: JP5059115B2; EP2070079A1; US8255215B2; CN101154379A; WO2008044582A1; CN101154379B; EP2070079A4; US20100094626A1

Abstract

【課題】音声特徴空間軌跡のマッチングに基づいた音声中のキーワードを特定する。
【解決手段】本発明は、音声のキーワードを特定する方法、装置及び音声識別システムを提供することにある。上記方法は、識別対象音声を構成する各フレームの特徴パラメータを取り出し、識別対象音声を描く特徴パラメータベクトル配列を形成するステップと、複数のコードブックベクトルを含むコードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、ベクトル空間における識別対象音声の特徴軌跡を得るステップと、及び予め記憶されたキーワードテンプレート軌跡と上記特徴軌跡とのマッチングをし、キーワードの位置を確定するステップとを備える。
【選択図】図１

Description

本発明は、音声のキーワードを特定する方法、装置及び音声識別システムに関するものである。より詳細には、音声特徴空間軌跡のマッチングに基づいて音声のキーワードを特定する方法、装置、及びその装置を用いた音声識別システムに関するものである。本発明によれば、特定及び識別の速度を向上でき、識別の精度を保証できる。

近年、ますます多くの情報端末装置、例えば、ＰＣ（パーソナルコンピュータ）、ＰＤＡ（Personal Digital Assistant）、携帯電話、リモコン等は、音声入力機能を備えている。そのため、ユーザが発した音声によって命令またはキーワードを入力することができるようになっている。すなわち、上記情報端末装置を利用し、ユーザが入力した未知の音声からユーザの入力したいキーワードを識別することができる。ここで、正確に、かつ迅速にキーワードの位置を確定することは、音声識別技術において重要な問題のひとつになっている。

非特許文献１では、特徴が非常に類似している音声波フレームを除くことによって、入力した音声を迅速に識別する目的を達成し、かつ音声の識別に応用されている可変フレームレート技術が提案されている。非特許文献１において、数学的な微分の方法を利用し、適宜な閾値を定義することによって音声の特徴を合併し、音韻特徴構造を備える音声特徴ベクトルの配列が得られる。しかし、上記閾値の設定は、非常に困難であり、さらに、識別の精度に直接の影響を与える。また、非特許文献１に提案された方法は、非線形マッチングを利用しているため、キーワードの識別過程において、大量の計算を要する。

非特許文献２では、特徴ベクトル空間における各ベクトル間の距離の計算、及び適宜な閾値の定義によって、音声特徴を合併し、音韻特徴構造を備える音声特徴ベクトルの配列が得られる。しかし、このような合併は、特定の話者の音声に対するものであるため、同一音韻特徴を表示する代表特徴点自身は、たくさんの話者の特徴情報を含み、変動が大きい。従って、後のマッチング過程において、音声軌跡に対して再サンプリングを行う必要がある。このため、識別の複雑度を増大させてしまう。また、非特許文献２において、再サンプリングの技術がよく解決されていないので、識別の精度を保証することは困難となる。さらに、ベクトル間の距離を計算する計算量が非常に大きい、それに、特徴を合併するため、適宜な閾値の設定も非常に困難である。また、この閾値の設定は、音韻特徴構造を備える音声軌跡への推測が正しいかに直接影響を与える。これらの原因によって、音声特徴空間軌跡に基づいた後のマッチングの正確度が高くならない。

また、キーワードテンプレートの設立について、非特許文献２に開示されている技術も、この合併方法を利用し、キーワード音声特徴空間軌跡の推測を行う。キーワードの内容は、特定した識別の課題領域により設計されている。具体的に言えば、該キーワード音声軌跡は、複数種類の応用領域の学習コーパスにより生成するものではないため、直接に特定の話者以外の領域への応用が困難である。課題領域が変更される場合、キーワードの音声テンプレートを改めて作成しなければならない。このため、非特許文献２に開示されている技術では、キーワードの音声軌跡テンプレートは通用性がないので、実際の応用は困難である。

「音声識別における可変フレームレート技術の応用」、孫放（Fang Sun）、胡光鋭（Guangrui Hu）、虞暁（Xiao Yu）、上海交通大学学報（Journal of Shanghai Jiaotong University）、第32巻、第8期、１９９８年８月（Aug 1998, Vol.32 No.8）「A Keyword Spotting Method Based on Speech Feature Space Trace Matching」, YA-DONG WU, BAO-LONG LIU, Proceedings of the Second International Conference on Machine Learning and Cybernetics, 2-5 November 2003

上記問題によれば、非特許文献１と非特許文献２とに提案した方法は、実際に情報端末装置への応用に適用することができない。従って、入力した音声のキーワードを迅速に特定し、計算量を減らす技術が必要となる。

本発明は、上記課題を鑑みてなされたものであり、その目的は、音声特徴空間軌跡のマッチングに基づいた音声中のキーワードを特定する方法、装置、及びその装置を用いた音声識別システムに提供することにある。これによって特定および識別の速度を向上できると同時に、識別の精度を保証できる。

本発明では、識別対象音声のキーワードの特定方法は、識別対象音声を構成する各フレームの特徴パラメータを取り出し、識別対象音声を描く特徴パラメータベクトル配列を形成するステップと、複数のコードブックベクトル（コードブック・コードベクトル）を含むコードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、ベクトル空間における識別対象音声の特徴軌跡を得るステップと、及び予め記憶されたキーワードテンプレート軌跡と上記特徴軌跡とのマッチングをし、キーワードの位置を確定するステップとを備えることを特徴とする。

また、本発明の実施例によれば、上記正規化は、上記特徴パラメータベクトル配列から代表特徴パラメータベクトルを抽出し、上記特徴軌跡を表示するステップを含む。

また、本発明の実施例によれば、上記代表特徴パラメータベクトルの抽出は、上記コードブックから、上記特徴パラメータベクトルと最も接近しているコードブックベクトルを探索するステップと、探索したコードブックベクトルの番号を用いて上記特徴パラメータベクトルを表示するステップと、連続的に同一のコードブックベクトルで表示される特徴パラメータベクトルを合併し、上記特徴パラメータを表示するステップとを備える。

また、本発明の実施例によれば、上記マッチングは、各キーワードテンプレート軌跡を利用し、上記特徴軌跡を時間軸で表示した軌跡フレーム毎に対して、上記キーワードテンプレート軌跡を表示する各テンプレート特徴ベクトルと、上記特徴軌跡を表示する各代表特徴パラメータベクトルとの間の距離を順に計算するステップと、上記距離から最小値を確定するステップと、及び上記最小値に対応するキーワードテンプレート軌跡がベクトル空間における位置をキーワードの位置として確定するステップとを備える。

また、本発明の実施例によれば、上記特徴パラメータベクトルは、ケプストラムパラメータ、ケプストラムパラメータのエネルギー値、ケプストラムパラメータの一階導関数、ケプストラムパラメータの二階導関数、エネルギーの一階導関数、エネルギーの二階導関数のうち、少なくとも一つのパラメータを含む。

また、本発明の実施例によれば、上記距離は、コードブックベクトル距離を用いて表示され、上記コードブックベクトル距離が、上記任意二つのコードブックベクトル間の距離である。

また、本発明の実施例によれば、上記コードブックベクトル距離は、マトリクスの形式で予め記憶されている。

また、本発明の実施例によれば、上記キーワードテンプレート軌跡は、上記コードブックベクトルに基づいて生成される。

また、本発明の実施例によれば、キーワードテンプレート軌跡は、音節と音素モデルとの間にある対応関係によって、キーワードの各音節の音素名を得るステップと、音素モデルと状態との間にある対応関係によって、キーワードの各状態を得、状態ベクトルを形成するステップと、上記コードブック中にある状態ベクトルに対応する番号を用いて、音素モデルのコードブックベクトル配列の番号を表示するステップと、連続的に同一のコードブックベクトルの番号で表示される音素モデルのコードブックベクトル配列の番号を合併するステップと、及び各コードブックベクトル配列の番号を順に連接合併した後にキーワードテンプレート軌跡を得るステップとによって得られる。

また、本発明の実施例によれば、キーワードテンプレート軌跡は、入力したキーワードの音声波を音声波フレームに切り分け、各音声波フレームの特徴パラメータベクトルを抽出することによって、該キーワードの特徴パラメータベクトル配列を形成するステップと、及び上記コードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、上記キーワードテンプレート軌跡を表示するテンプレートベクトル配列を形成するステップとによって得られる。

また、本発明の実施例によれば、コードブックは、隠れマルコフモデルに基づいた音響モデルから、各音素モデルの状態を描く統計パラメータを抽出し、各状態の特徴ベクトルを形成するステップと、及び番号を用いて各状態の特徴ベクトルを表示し、上記コードブックの各コードブックベクトルを形成するステップとによって得られる。

また、本発明の実施例によれば、上記音素モデルは、複数の応用領域の学習コーパスによって生成される。

また、本発明の実施例によれば、本発明の識別装置は、識別対象音声を構成する各フレームの特徴パラメータを抽出し、識別対象音声を描く特徴パラメータベクトル配列を形成する特徴抽出装置と、複数のコードブックベクトルを含むコードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、ベクトル空間における識別対象音声の特徴軌跡を得る正規化装置と、予め記憶されたキーワードテンプレート軌跡と上記特徴軌跡とのマッチングをし、キーワードの位置を確定するマッチング装置とを備えることを特徴とする。

また、本発明の実施例によれば、上記正規化装置は、上記特徴パラメータベクトル配列から代表特徴パラメータベクトルを抽出し、上記特徴軌跡を表示する。

また、本発明の実施例によれば、上記正規化装置は、上記コードブックから、上記特徴パラメータベクトルに最も接近しているコードブックベクトルを探索し、探索し得たコードブックの番号を用いて上記特徴パラメータベクトルを表示し、連続的に同一のコードブックベクトルで表示された特徴パラメータベクトルを合併し、上記特徴軌跡を表示する。

また、本発明の実施例によれば、上記マッチング装置は、各キーワードテンプレート軌跡を利用し、上記特徴軌跡を時間軸で表示した軌跡フレーム毎に対して、上記キーワードテンプレート軌跡を表示する各テンプレート特徴ベクトルと上記特徴軌跡を表示する各代表特徴パラメータベクトルとの間の距離を順に計算し、上記距離のうち、最小値を確定し、この最小値に対応するキーワードテンプレート軌跡がベクトル空間における位置をキーワードの位置として確定する。

また、本発明の実施例によれば、本発明の音声識別システムは、上記装置と、上記装置により確定されたキーワードの位置に基づいて、キーワードの内容を識別する音声識別装置とを備えることを特徴とする。

また、本発明の実施例によれば、音声識別システムは、隠れマルコフモデルに基づいて識別を行う。

本発明の方法及び装置を用いたことにより、同一のコードブックに基づいて、キーワードテンプレート軌跡と識別対象音声の特徴空間軌跡とを描写するため、同様な音韻特徴構造を有する音声波フレームを線形移動マッチングする際、再サンプリングをすることが必要ないので、計算量を低減でき、かつ、特定と識別の速度を向上できる。

また、予め記憶されたコードブックベクトル距離を利用し、識別対象音声の特徴空間軌跡とキーワードテンプレート軌跡間の距離とを描くことにより、マッチング過程において、識別音声とテンプレート音声との間の距離を計算する際、検索の方式でマッチングの結果を得ることが可能となる。そのため、マッチングに必要な計算量を更に減少でき、特定と識別の精度を向上できる。

また、本発明は、コードブックの形成に必要である音素モデルが、複数な応用領域の学習コーパスにより形成されるため、通用性を有する。つまり、異なる領域にも応用できる。

また、本発明のキーワード特定方法、装置と、従来のＨＭＭ（隠れマルコフモデル）の音声識別システムとを組み合わせることによって、ＨＭＭ識別方法から未登録語モデル（Out 0f Vocabulary Word Modeling）の設立が困難である欠点が避けられ、かつ識別の精度をより向上できる。

本発明の上記特徴及び優れた点は、添付図面を参照した次の詳細な説明で明白になるであろう。

図１は、本発明の実施例に基づいた音声識別システムの構成のブロック図である。図２（ａ）は、本発明実施例に基づいた状態特徴コードブックの生成過程及びコードブックベクトル距離のマトリックスの生成過程を説明するための図である。図２（ａ）は、コードブックの生成過程及びコードブックベクトル距離のマトリックスの生成過程のフローチャートである。図２（ｂ）は、本発明実施例に基づいた状態特徴コードブックの生成過程及びコードブックベクトル距離のマトリックスの生成過程を説明するための図である。図２（ｂ）は、状態特徴コードブックを説明する実施例を示す図である。図３（ａ）は、本発明の実施例において音声特徴空間軌跡を正規化する過程を説明する図である。図３（ａ）は、入力音声の特徴ベクトルを得るための説明図である。図３（ｂ）は、本発明の実施例において音声特徴空間軌跡を正規化する過程を説明する図である。図３（ｂ）は、ベクトル空間における特徴ベクトルの説明図である。図３（ｃ）は、本発明の実施例において音声特徴空間軌跡を正規化する過程を説明する図である。図３（ｃ）は、得た特徴ベクトルの正規化の説明図である。図３（ｄ）は、本発明の実施例において音声特徴空間軌跡を正規化する過程を説明する図である。図３（ｄ）は、ベクトル空間において正規化した特徴ベクトルの説明図である。図４（ａ）は、本発明の実施例の音声特徴空間軌跡の生成過程を説明する図である。図４（ａ）は、ベクトル空間における入力音声の特徴ベクトル配列を説明する図である。図４（ｂ）は、本発明の実施例の音声特徴空間軌跡の生成過程を説明する図である。図４（ｂ）は、ベクトル空間における正規化した特徴ベクトル配列を説明する図である。図４（ｃ）は、本発明の実施例の音声特徴空間軌跡の生成過程を説明する図である。図４（ｃ）は、音声特徴空間軌跡の生成過程のフローチャートである。図５（ａ）は、本発明の実施例に基づいた音声特徴空間軌跡のマッチングによる入力音声のうち、キーワードを特定する過程の原理を示す図である。図５（ａ）は、キーワード音声とキーワード以外の音声とを含む音声のうち、ある音声の波形を示す図である。図５（ｂ）は、本発明の実施例に基づいた音声特徴空間軌跡のマッチングによる入力音声のうち、キーワードを特定する過程の原理を示す図である。図５（ｂ）は、ベクトル空間におけるキーワード音声とキーワード以外の音声の軌跡を示す図である。図５（ｃ）は、本発明の実施例に基づいた音声特徴空間軌跡のマッチングによる入力音声のうち、キーワードを特定する過程の原理を示す図である。図５（ｃ）は、キーワードテンプレートの軌跡と入力音声の軌跡とを線形マッチングする過程を説明する図である。図６（ａ）は、本発明の実施例のキーワードテンプレートを生成する過程の説明図である。図６（ａ）は、キーワードテンプレートを生成する過程のフローチャートである。図６（ｂ）は、本発明の実施例のキーワードテンプレートを生成する過程の説明図である。図６（ｂ）は、キーワードテンプレート生成過程の具体例を示している。図７は、本発明の実施例に基づいた線形移動マッチング過程を説明する図である。

本発明の実施の形態について、図面を参照して以下に説明する。

なお、図面において、同様な符号は、異なる図面でも同じ或いは近似な部品を表示する。便宜のため、ここで、本発明の主旨が不明白であることを避けるため、周知した機能と構成の説明を省略する。

図１は、本発明の実施例に基づいた音声識別システムの構成のブロック図である。図１に示すように、本発明の音声識別システムは、識別対象音声を入力するマイクなどの入力部１０と、入力部１０と接続し、識別対象音声のキーワードの位置を確定するためのキーワード特定装置１００と、キーワード特定装置１００と接続し、キーワード特定装置１００によって確定したキーワードの位置に基づいてキーワードの識別を行うための音声識別エンジン８０と、音声識別エンジン８０の識別結果を出力する出力部９０とを備える。

図１に示すように、本発明の実施例に基づいたキーワード特定装置１００は、入力部１０と接続し、分割した音声フレームの特徴パラメータを抽出するための特徴抽出部２０と、磁気メモリまたは半導体メモリなどのベクトル量子化したコードブックを記憶するコードブック記憶部４０と、磁気メモリまたは半導体メモリなどのマトリクスの形式でコードブック中にあるコードベクトル間の距離を記憶する距離マトリックス記憶部５０と、コードブック記憶部４０が記憶しているコードブックに基づいて、特徴抽出部２０から抽出した特徴パラメータにより形成した各特徴パラメータベクトルを正規化し、ベクトル空間における特徴軌跡を得る正規化部３０と、ベクトル空間におけるユーザの興味がある軌跡を記憶するキーワードテンプレート軌跡データベース６０と、距離マトリクス記憶部５０が記憶しているコードブックベクトル間の距離及びキーワードテンプレート軌跡データベース６０が記憶しているキーワードテンプレートに基づいて、キーワードテンプレート軌跡と識別対象音声の特徴軌跡とのマッチングをすることによってキーワードの位置を確定するマッチング部７０とを備えている。

本発明の実施例の音声識別システムには、マイクなどの音声入力部１０を用いて識別対象音声またはテンプレート音声を入力する。もちろん、記憶装置から、予め記録された音声データ、または音声ファイルを直接使用して音声を入力してもよい。

特徴抽出部２０は、例えば、フォーム、サンプリングの頻度、コードのビット数、声道（Audio channel）の類型、フレーム長、フレーム移動及び特徴パラメータの類型などの所定のパラメータ配置に基づいて、入力した音声データの各フレームの特徴を抽出することによって、入力音声の特徴パラメータベクトルの配列｛Ｖ_１，Ｖ_２,・・・・・・Ｖ_Ｎ｝が得られる。ここで、各ベクトルＶ_ｉは、所定次元数Ｋの特徴ベクトル（ｉ=１，・・・・・・，Ｎ）である。本実施形態では、特徴抽出部２０は、入力した音声を切り分けて音声波フレームになり、その後、各音声波フレームにより、対応した特徴パラメータを抽出し、特徴パラメータベクトルを形成する。抽出した特徴パラメータは、ケプストラムパラメータ、ケプストラムパラメータのエネルギー値、ケプストラムパラメータの一階導関数、ケプストラムパラメータの二階導関数、エネルギーの一階導関数、エネルギーの二階導関数を含む。上述したケプストラムパラメータは、例えば、１２次元のＦＦＴ（高速フーリエ変換）のケプストラムパラメータである。この場合、特徴パラメータベクトルの次元数Ｋは、３９である。具体的には、下記のように示している。

ケプストラムパラメータ：Ｃ_１，Ｃ_２，・・・・・・，Ｃ_１２；
エネルギー値：Ｅ；
ケプストラムパラメータの一階導関数：ｄＣ_１，ｄＣ_２，・・・・・・，ｄＣ_１２；
ケプストラムパラメータの二階導関数：ＤＣ_１，ＤＣ_２，・・・・・・，ＤＣ_１２；
エネルギーの一階導関数：ｄＥ；
エネルギーの二階導関数：ＤＥ。

本実施形態において、特徴抽出部２０により抽出した特徴パラメータベクトルの配列｛Ｖ_１，Ｖ_２，・・・・・・，Ｖ_Ｎ｝は、キーワード特定装置１００の正規化部３０に入力され、ベクトル空間における該入力音声の軌跡を推測し、後のマッチングを処理するため、推測した該入力音声の軌跡の正規化処理を行う。正規化部３０は、コードブック記憶部４０に予め記憶された“コードブック”を用いて、特徴パラメータベクトル配列中にある各特徴パラメータベクトルをベクトル量子化し、その後、特徴ベクトル量子化された配列で表示する該入力音声のベクトル空間における特徴軌跡を出力する。ここで、コードブック記憶部４０に記憶しているものは、ＨＭＭ方法を用いて生成した特徴パラメータの基準ベクトルである。この基準ベクトルを用いて量子化ベクトル対象を量子化する。

また、距離マトリクス記憶部５０は、コードブック記憶部４０が記憶した複数の基準ベクトル（即ち、コードブックベクトル）のうち、任意二つの基準ベクトル間の距離を記憶している。該コードブックベクトルの距離は、ベクトル空間においてテンプレート音声の特徴パラメータベクトルと、識別対象音声の特徴ベクトルとの間の類似度を表すのに用いられる。

キーワードテンプレート軌跡データベース６０は、特徴ベクトル量子化配列で表示した、かつユーザの興味があるキーワード（すなわちテンプレートキーワード）のベクトル空間での特徴軌跡を予め記憶している。該特徴軌跡は、入力した識別対象音声の特徴軌跡とのマッチングをするため利用される。

正規化部３０は、入力音声の正規化した特徴ベクトル配列をマッチング部７０に提供する。マッチング部７０は、キーワードテンプレート軌跡データベース６０から、逐次に各キーワードのテンプレート軌跡を取り出し、正規化の特徴パラメータベクトル配列で表示した点がベクトル空間で形成された軌跡（該軌跡は、識別対象音声のベクトル空間中での特徴軌跡を現す）を沿い、取り出したテンプレート軌跡を移動し、軌跡フレームに対してマッチングの操作を逐次に行う。ここで、軌跡フレームは、正規化の音声フレーム、すなわち、正規化の軌跡を構成する各特徴ベクトルに対応する音声波である。移動の過程において、一つずつ軌跡フレームを移動する際、マッチング部７０は、距離マトリクス記憶部５０に記憶されているコードブックベクトル距離に基づいて和を求める計算により、該キーワードテンプレート軌跡と、識別対象音声がベクトル空間における特徴軌跡との間の距離を計算する。全ての軌跡のマッチング終了後、該キーワードテンプレート軌跡のマッチングにより最小距離が得られる。その後、マッチング部７０は、記憶している各キーワードに対して、上述した過程を行うことにより、各キーワードテンプレート軌跡と、識別対象音声がベクトル空間における特徴軌跡との間に対応する最小の距離が得られる。

続いて、マッチング部７０は、各キーワードテンプレート軌跡の最小距離を比較して最小値を確定する。そして、この最小値に対応するテンプレート軌跡のキーワードが、候補キーワードとして識別される。ここで、高い精度が不要な場合、マッチング７０は、直接に該候補キーワードを最終キーワードとして識別してもよい。

その後、マッチング部７０は、ベクトル空間軌跡上に該候補キーワードの位置を時間軸に対応する音声波フレームに反映することによって、識別対象音声の中に該キーワードの位置を確定できる。

上記のように、音声識別エンジン８０は、既に特定した候補キーワードの位置における識別対象音声から、特徴抽出部２０によって抽出された特徴パラメータを直接利用でき、さらに識別を行うことにより、最終の識別結果、すなわちキーワードの内容が得られる。キーワードの内容を最終に確定する際、候補キーワードの結果を参考できる。

最後に、出力部９０は、音声識別エンジン８０の識別結果に基づいて、識別のキーワードの内容を出力する。例えば、出力部９０は、識別したキーワードをスクリーンに表示する。

次に、図２（ａ）から図７を参照し、上記各部での具体的な操作過程を説明する。

図２（ａ）および図２（ｂ）は、本発明の実施例に基づいた状態特徴コードブックの生成過程及びコードブックベクトル距離のマトリックスの生成過程を説明するための図である。図２（ａ）は、コードブックの生成過程及びコードブックベクトル距離のマトリクスを生成する過程のフローチャートである。図２（ｂ）は、状態特徴コードブックを説明する実施例を示す図である。

コードブックは、ベクトル量子化に利用される基準ベクトルの集合により構成される。本実施例において、コードブックの物理的意味は、ＨＭＭ音響モデルの状態の特徴を描くことである。

コードブックベクトルマトリクスは、コードブックにおいて、任意の二つのコードブックベクトル間の距離を示す二次元データ組を保存している。該コードブックとコードブックベクトルマトリクスとを、予めＲＯＭ（読み出し専用メモリ）、またはＨＤ（ハードディスク）などのメモリに記憶させる。コードブックおよびコードブックベクトルマトリクスは、それぞれ、一つの単独的なメモリに記憶されることができる。例えば、コードブック記憶部４０および距離マトリクス記憶部５０、また、コードブックおよびコードブックベクトルマトリクスは、メモリの異なる記憶区域に記憶されてもよい。

本実施例において、コードブックは、ＨＭＭ音響モデルに基づいて生成されたものである。具体的な生成過程は、以下のように示す。

（１）ＨＭＭ音響モデルは、ＨＭＭモデル定義のファイル（ｈｍｍｄｅｆｓ）を用いて描かれたものであり、各音素モデルのｈｍｍｄｅｆｓは、複数の応用領域の学習コーパスによって得られたものである。ｈｍｍｄｅｆｓの構成は以下のように示している。

〜ｈ“iz2” //音響モデル名
＜ＢＥＧＩＮＨＭＭ＞
＜ＮＵＭＳＴＡＴＥＳ＞５ //五つの状態数、ただし、２，３，４の三つが有効状態
＜ＳＴＡＴＥ＞２ //状態の番号
＜ＮＵＭＭＩＸＥＳ＞６ //混合ガウス分布数
＜ＭＩＸＴＵＲＥ＞１ 1.250000e-001 //ガウス分布番号と重み付け
＜ＭＥＡＮ＞３９ //ガウス分布の平均値パラメータ（mean parameter）、３９次元
7.702041e+000 6.226375e+000・・・・・・2.910257e-001 -8.276044e-002
＜ＶＡＲＩＡＮＣＥ＞３９ //ガウス分布の共分散パラメータ(mean parameter)、３９次元
7.258195e+001 5.090110e+001・・・・・・3.907018e-001 2.388687e-002・・・・・・
＜ＭＩＸＴＵＲＥ＞６ 1.250000e-001 //ガウス分布の番号及び重み付け
＜ＭＥＡＮ＞３９ //ガウス分布の共分散パラメータ、３９次元
8.864381e-001 5.187749e-001・・・・・・-2.090234e-001 -2.064035e-001
＜ＶＡＲＩＡＮＣＥ＞３９ //ガウス分布の共分散パラメータ、３９次元
7.258195e+001 5.090110e+001・・・・・・3.907018e-001 2.388687e-002
＜ＳＴＡＴＥ＞３ //状態の番号
＜ＮＵＭＭＩＸＥＳ＞６ //混合ガウス分布数は、各ガウス分布ともに、二つのパラメータ、平均値と共分散で表示される
・・・・・・
＜ＳＴＡＴＥ＞４ //状態の番号
＜ＮＵＭＭＩＸＥＳ＞６ //混合ガウス分布数は、各ガウス分布ともに、二つのパラメータ、平均値と共分散で表示される
・・・・・・
＜ＴＲＡＮＳＰ＞５ //状態遷移確率マトリクス
0.000000e+000 1.000000e+000 0.000000e+000 0.000000e+000 0.000000e+000
0.000000e+000 6.800905e-001 3.199094e-001 0.000000e+000 0.000000e+000
0.000000e+000 0.000000e+000 6.435547e-001 3.564453e-001 0.000000e+000
0.000000e+000 0.000000e+000 0.000000e+000 5.890240e-001 4.109760e-001
0.000000e+000 0.000000e+000 0.000000e+000 0.000000e+000 0.000000e+000
＜ＥＮＤＨＭＭ＞。

（２）状態特徴抽出をする（Ｓ１１０）、すなわち、具体的な応用に基づいて、コードブックを形成する必要な特徴パラメータの抽出を行う。ＨＭＭモデル定義ファイルにおいて音素モデル各状態を描く統計パラメータを記憶している。上記統計パラメータは、ガウス分布平均値（３９次元）、共分散（３９次元）、重みつけ及び状態遷移マトリクス（音素モデルにおける各状態間遷移の確率、音素毎を五つの状態で描くため、５×５のマトリクスになる）を備える。本実施例において、各状態を描く六つのガウス分布の平均値パラメータ(mean parameter)部分（１２次元ＣＥＰ）を抽出した。かつ、各ガウス分布の重み付けによりこれらの数学平均を求め、その計算により得られた平均値（１２次元ＣＥＰ）は、該状態を表すコードブック特徴のパラメータとする。

その後、全ての状態に番号を付ける。各状態は、唯一確定したＩＤ番号、例えば、図２（ｂ）に示したように、１、２、・・・・・・、Ｍ−１、Ｍに対応する。これらのＩＤ番号は、該状態の特徴ベクトルを代表し、かつ特徴コードブックを生成するために利用される。生成した状態特徴コードブックは、コードブック記憶部４０に記憶される。コードブック中のコードブックベクトルの個数（Ｍ）は、コードブックの大小によって定義される。

それ以外に、上記ＨＭＭ音響モデルを生成する過程において、音節−音素モデルの対応表及び音素モデル名−状態名の対応表が得られる。ここで、状態名は、上記のように、コードブックベクトルの各状態の番号を用いて表示される。

（３）コードブックにある任意二つの状態特徴ベクトル間の距離を計算することによって、Ｍ×Ｍのコードベクトルの距離マトリクス（Ｓ１２０）が得られる。得られた距離マトリクスが、距離マトリクス記憶部５０に記憶される。

図３（ａ）〜図３（ｄ）は、本発明の実施例において音声特徴空間軌跡を正規化する過程を説明する図である。図３（ａ）は、入力音声の特徴ベクトルを得るための説明図である。図３（ｂ）は、ベクトル空間における特徴ベクトルの説明図である。図３（ｃ）は、得た特徴ベクトルの正規化の説明図である。図３（ｄ）は、ベクトル空間において正規化した特徴ベクトルの説明図である。

非特許文献２によれば、同一の字（或いは語彙）の発音の二つ特徴ベクトルの時間配列Ｘ（ｔｘ）とＲ（ｔｒ）とに対して、同様な軌跡長ｓに基づいて、各自の軌跡に沿って抽出した新たな特徴ベクトルの時間配列Ｘ’（ｓ）とＲ’（ｓ）とは、時間軸に対して伸縮不変性を有する。この基本原理に基づいて、特徴空間軌跡は、音声に対して時間軸で正規化されるものである。時間正規化後の特徴ベクトル配列は、線形マッチングの方式を用いることができるため、識別する際の計算量を大幅に削減することができる。

本実施例において、音声特徴空間軌跡は、ＨＭＭ音響モデルに基づいて生成されている。まず、図３（ａ）に示すように、入力音声ファイルの基本特徴パラメータを抽出する。

例えば、符号配列Ｓ_１、Ｓ_２、Ｓ_３を表示する連続音声波信号（波形）は、フレーム分割処理によって７つの音声波フレームに切り分けられる。この７つの音声波フレームに対して、対応する特徴パラメータを抽出することによって、七つの特徴ベクトルＶ_ｉ（１≦ｉ≦７）が得られ、特徴ベクトル配列が形成される。ここで、Ｖ_ｉは、指定次元（Ｋ次元）の特徴ベクトルである。

各図において三次元空間を用いて上記Ｋ次元空間を表示して説明したが、これは、本発明の目的を明白にさせるものであり、本領域の技術者にとって、本発明は、三次元に限らない。

図３（ｂ）に示すように、これらの特徴配列Ｖ_ｉは、Ｋ次元空間上に分布している座標点とされ、以下これらを特徴点と称する。これらの特徴点は、時間の順（Ｖ_１→Ｖ_２→Ｖ_３・・・・・・→Ｖ_６→Ｖ_７）に連接することによって、Ｋ次元空間上に一本の軌跡が得られる。図３（ｂ）から見ると、特徴点Ｖ_１は、他の特徴点から遠く離れ、特徴点Ｖ_２とＶ_３の距離は近い。また、特徴点Ｖ_４からＶ_７は、概ね一つの集中した範囲内に分布している。

音声特徴空間軌跡を正規化することは、如何に音声の特徴空間軌跡を正確に推測することによって決定される。実際の応用においては、音声中の各特徴ベクトルが、時間軸上に離散しているし、また音速変化の影響以外に、その他の複数種類の変動要素から影響を受けるため、同一音韻特徴空間区域にしても、該区域内での各フレームの波動スペクトル特性の変動が発生してしまう。具体的には、音声特徴空間において一群れにある隣接する特徴点が、発音の長い音韻に対しては、その群れ中に特徴点（Ｖ_４，Ｖ_５，Ｖ_６，Ｖ_７）が多く、発音の短い音韻に対しては、その群れにおいて特徴点（Ｖ_２，Ｖ_３）が少ない。図３（ｂ）に示すように、同一である音韻の特徴点が散らばる区域を準平穏区（Ｓｅｍｉ−ＳｔａｂｉｌｉｔｙＡｒｅａ）と称し、異なる音韻の特徴点が散らばる区域を非平穏区（Ｎｏｎ−ＳｔａｂｉｌｉｔｙＡｒｅａ）と称する。そのため、該群れから抽出した特徴点（ベクトル）のうち、代表となる特徴点を用いて該音韻の特徴を現し、これらの代表的な特徴ベクトル（Ｆ_ｊ，ｊ＝１，２，３）を用いて音声の軌跡を推測する。ここで、図３（ｄ）に示すように、特徴ベクトルＦ_１は、第一群れの特徴点の中にある代表特徴点を表示し、特徴ベクトルＦ_２は、第二群れの特徴点の中にある代表特徴点を表示し、特徴ベクトルＦ_３は、第三群れの特徴点の中にある代表特徴点を表示する。

また、図３（ｃ）に示すように、音声波フレーム１の特徴パラメータは、正規化した特徴点（ベクトル）Ｆ_１で表示し、音声波フレーム２と３の特徴パラメータは、同一特徴点（ベクトル）Ｆ_２で表示し、そして、音声波フレーム４〜７の特徴パラメータは、もう一つの特徴点（ベクトル）Ｆ_３で表示する。

また、音声特徴軌跡の推測の正確性を向上するため、以下の（１）および（２）を考慮しなければならない。
（１）非平穏区域内の特徴点の密度をアップするため、音声信号をより小さいフレーム移動（Ｆｒａｍｅｓｈｉｆｔ）周期でフレームを切り分ける。例えば、従来技術のフレーム移動周期では、２０ｍｓであるが、本実施例では、１０ｍｓまたは８ｍｓのフレーム移動周期を利用している。（２）準平穏区域内に散らばる特徴点を適宜に整理する。すなわち、代表的な特徴点を保留し、それ以外に必要ない特徴点を削除する。選択可能な整理方法のひとつは、順に特徴点間の導関数を計算し、導関数が所定の閾値より小さい特徴点らを同一の準平穏区の点として、これらの特徴点の平均を該平穏区の代表特徴点とすることである。もう一つ挙げられる選択可能な整理方法は、各特徴点間のベクトル距離を計算し、ベクトル距離が、所定の閾値より小さい特徴点らを同一の準平穏区の点として、これらの特徴点の平均を該平穏区域の代表特徴点とする方法である。また、上記以外のその他の選択可能な整理方法は、連続的に同一のコードブックベクトルで表示される特徴ベクトル（点）フレームを圧縮合併することにより行う方法である。以下、この方法について詳細に述べる。

図４（ａ）〜図４（ｃ）は、本発明の実施例において音声特徴空間軌跡（特徴ベクトル配列）の生成過程を説明する図である。図４（ａ）は、ベクトル空間における入力音声の特徴ベクトル配列を説明する図である。図４（ｂ）は、ベクトル空間における正規化した特徴ベクトル配列の説明図である。図４（ｃ）は、音声特徴空間軌跡の生成過程のフローチャートである。

以下、図４（ａ）〜図４（ｃ）を参照し、特徴ベクトルを圧縮する場合において、特徴ベクトル配列を生成する過程を説明する。該方法は、音声軌跡正規化過程において上記注意すべく二点を考慮し、ＨＭＭ音響モデルに基づいたベクトル量子化を用いて入力音声を正規化する方法である。

図４（ｃ）に示すように、識別対象音声（Ｓ２１０）を入力する。ここで、入力した音声は、
Ｘ_ｉ（ｔ）＝（Ｘ_１（ｔ），Ｘ_２（ｔ），・・・・・・Ｘ_６（ｔ），Ｘ_７（ｔ））（ｉ：音声波フレームの番号）
とする。

その後、入力した音声から特徴抽出の操作を行う（Ｓ２２０）ことによって、数が同じである特徴ベクトル：
Ｖ_ｉ（ｔ）＝（Ｖ_１（ｔ），Ｖ_２（ｔ），・・・・・・Ｖ_６（ｔ），Ｖ_７（ｔ））（ｉ：音声波フレームの番号）
が得られる。

正規化部３０は、上記生成した状態特徴コードブックを参照し、コードブックから特徴ベクトルと最もよくマッチングしたコードブックベクトルを探索し、該コードブックベクトルのＩＤ番号を用いて該特徴ベクトルを表示する。そして、連続的に同一のコードブックベクトルで表示される特徴ベクトルフレームを圧縮合併する（Ｓ２３０）。正規化部３０により、得られた音声特徴空間のベクトル量子化（ＶＱ）のベクトルを出力する（Ｓ２４０）。図４（ｂ）は、ｋ＝３の場合の特徴ベクトル：
Ｖ_ｊ（ｔ）＝（ＩＤ_１（ｔ），ＩＤ_２（ｔ），・・・・・・ＩＤ_ｋ−１（ｔ），ＩＤ_ｋ（ｔ））
を示す。なお、ｊ＝１，２，・・・・・・，ｋ、ＩＤ_ｊがコードブックベクトルの番号、ｋは、識別対象音声の状態特徴ベクトルの総数で、通常音声波フレームの数より小さい。

図５（ａ）〜図５（ｃ）は、本発明の実施例に基づいて、音声特徴空間軌跡のマッチングによって入力音声のうち、キーワードを特定する過程の原理を示す図である。図５（ａ）は、キーワード音声とキーワード以外の音声とを含む音声のうち、ある音声の波形を示す図である。図５（ｂ）は、ベクトル空間におけるキーワード音声とキーワード以外の音声の軌跡を示す図である。図５（ｃ）は、キーワードテンプレートの軌跡と入力音声の軌跡とを線形マッチングする過程を説明する図である。

図５（ａ）に示すように、通常、キーワードの波形は、入力した識別対象音声の波形の中にある。図５（ｂ）に示すように、入力した音声がベクトル空間にある軌跡は、連続的な一本の曲線である。該曲線上にほぼ中間の部分は、キーワード音声がベクトル空間中にある軌跡である。

上述に示すように、入力音声の特徴軌跡が分かった場合、キーワードテンプレート軌跡が、入力した音声の特徴軌跡を沿って移動することで、二者のマッチングを行う。同時に、特徴軌跡と対応する時間軸の信号の中にある一つの音声波フレーム、すなわち一つの軌跡フレームを移動するごとに、テンプレート軌跡上にある特徴点と、それに対応する識別対象音声の特徴点との間の距離を線形にプラスし、両軌跡間の距離を計算する。該距離とは、該テンプレート軌跡がこの位置において識別対象音声の空間軌跡との類似度を表す。該キーワードテンプレート軌跡のマッチング終了後に、該キーワードテンプレート軌跡に対する最小の距離が得られる。その後、異なるキーワードテンプレートに対して、マッチングを行うことによって、各最小距離が得られる。最後に、これらの最小距離から最小値を探し出し、該最小値に対応するキーワードを候補キーワードとする。そして、該候補キーワードと入力音声の軌跡との間に、距離が最小である位置を時間軸の音声波フレームに対応させて戻すことによって、該候補キーワードと対応する音声波フレームのフレーム番号が得られる。

図６（ａ）および図６（ｂ）は、本発明の実施例のキーワードテンプレートを生成する過程の説明図である。図６（ａ）は、キーワードテンプレートを生成する過程のフローチャートである、図６（ｂ）は、キーワードテンプレート生成過程の具体例を示している。

テンプレートの入力では、音声入力およびテキスト入力の二種類の入力方式がある。しかし、本発明は、これに限らず、その他の方式を用いて入力してもよい。以下、テキスト入力と音声入力とを例として具体的に説明する。

（テキスト入力）
図６（a）に示すように、キーワードテキストを入力する（Ｓ３１０）、例えば、“上海”。そして、音節の切り分けとピンイン変換の操作とを行う。例えば、“上海”を切りわけ、“上／海”になり、かつ、図６（ｂ）に示すように“上”と“海”との文字列の表示式、すなわち、ピンイン“shang4”と“hai3”とが得られる(Ｓ３２０)。

続いて、音節−音素モデル名の対応表を用いて、“shang4”と“hai3”とで表示する音素の表示が得られる。すなわち、音素モデル名は、図６（ｂ）に示すようにそれぞれ“sh a4 ng4”と“ｈ aa3 i3”とである（Ｓ３３０）。

キーワードの音素名が得られた後、音素名を用いて音素モデル名−状態名の対応表から、該音素モデル名と対応する状態名を探索することによって、音素を構成する各モデルのコードブックベクトルの番号が得られる（Ｓ３４０）。図６（ｂ）に示すように、キーワード“上海”のコードブックベクトル配列の番号は、３，６，９，９，８，１，・・・・・である。

次に、これらの番号をキーワードの元の順番で連接し、連続的に同一のコードブックベクトルを用いて表示された特徴ベクトルフレームを圧縮合併することによって、キーワードテンプレートの軌跡が得られる。図６（ｂ）に示すように、キーワード“上海”のテンプレート軌跡の特徴ベクトル配列の番号は、３，６，９，８，１，・・・・・である。ここで、同様である二つの番号“９”が圧縮され、一つの“９”になる。最後に、該キーワードテンプレートの軌跡と、該キーワードとを対応させ、キーワードテンプレート軌跡データベース６０に記憶される。

（音声入力）
まず、音声形式で入力されたキーワード、すなわち音声波形を、その音声波フレームに切り分け、切り分けた各音声波フレームの特徴パラメータベクトルを抽出することによって、該音声波形を描く特徴パラメータベクトル配列が得られる。ベクトル空間において、上述ベクトルを用いてコードブックを量子化し、各特徴パラメータベクトルを正規化することによって、各特徴点（ベクトル）で表示された特徴ベクトル配列が出力される。同様に、該特徴ベクトル配列の中にある各特徴ベクトルの要素は、状態の番号である。

図７は、本発明の実施例の軌跡移動に基づいたマッチング過程を説明する図である。

図７に示すように、正規化部３０は、ＨＭＭ音響モデルのベクトル量子化の正規化計算法により、識別対象音声を正規化することで、識別対象音声に対して各自の特徴ベクトル配列Ｔ’＝｛Ｔ’_ｍ｝（Ｍ＝０，１，・・・・・・，Ｌ）が得られる。なお、Ｌは、識別対象音声の軌跡の全長（Ｓ４１０）である。

上記に示すように、テンプレート音声ｗ（ｗ＝０，１，・・・・・・，Ｗ）は、事前に正規化を行った。また、得られた正規化の特徴ベクトル配列Ｘ’_ｗ＝｛Ｘ’_ｎ，ｗ｝(ｎ＝０，１，・・・・・・，Ｌ_ｗ)がキーワードテンプレート軌跡データベース６０に記憶されている。なお、Ｗはテンプレートの総数、Ｌ_ｗは、正規化後テンプレートｗの軌跡の全長を指している。

続いて、識別対象音声の特徴ベクトル配列｛Ｔ’_ｍ｝での第０軌跡フレーム（ｍ＝０）から、識別音声軌跡のマッチングの終点（ｍ＝Ｌ−Ｌ_ｗ）まで、識別対象音声の軌跡部分

をフレームごとに線形移動マッチングし、コードブックベクトル距離マトリクスに記憶されているコートブックベクトルの距離を用いて、和の計算によって軌跡フレーム毎を移動したマッチング距離：

を記憶する。その後、テンプレート音声ｗの軌跡と識別対象音声の軌跡との間で、最小マッチング距離：

が記録される（Ｓ４２０）。

ｗ＜Ｗの場合、その他のキーワードテンプレートに対してＳ４２０のステップを繰り返す。それ以外は、各テンプレートの最小マッチング距離

の中から、最小値に対応するキーワード

を、すなわち検出した識別対象音声を含む候補キーワードｗ^＊を取り出す（Ｓ４３０）。そして、ｗ^＊に対応する特徴点の位置ｍ^＊を時間軸にある元の音声波フレームの番号に変換してから、検出を終了する（Ｓ４４０）。

また、上述の実施例において、コードブックベクトル距離の和を用いてマッチングの距離を表示する。しかし、これは、本発明の範囲に対する限定するものではなく、例えば、本領域の技術者に対して、コードブックベクトル距離の二次の和、ルートの和またはノルム（ｎｏｒｍ）の和で表示してもよい。

音声識別エンジン８０は、上述したように、マッチング部７０がキーワードの位置を確定した後、既に特定した候補キーワードの位置にあった識別対象音声の、特徴抽出部２０が抽出した特徴パラメータを利用し、さらに識別することによって、最終の識別結果すなわち識別内容が得られる。最終キーワードの内容を確定する際、候補キーワードの結果を参考にしてよい。

また、出力部９０は、音声識別エンジン８０の識別結果により、識別のキーワードの内容を出力する。例えば、出力部９０は、識別のキーワードをスクリーンに表示する。

発明の詳細な説明の項においてなされた具体的な実施形態は、あくまでも、本発明の技術内容を明らかにするものであって、そのような具体例にのみ限定して狭義に解釈されるべきものではなく、本発明の精神と次に記載する特許請求の範囲内で、さまざまに変更して実施することができるものである。

本発明は、音声中のキーワードの特定、及び識別の速度が向上すると同時に、音声中のキーワードの識別の精度を保証できるため、音声中のキーワードを特定する方法、装置及び音声識別システムに適用できる。

１０入力部
２０特徴抽出部
３０正規化部
４０コードブック記憶部
５０距離マトリクス記憶部
６０キーワードテンプレート軌跡データベース
７０マッチング部
８０音声識別エンジン
９０出力部
１００キーワード特定装置

Claims

識別対象音声を構成する各フレームの特徴パラメータを取り出し、識別対象音声を描く特徴パラメータベクトル配列を形成するステップと、
複数のコードブックベクトルを含むコードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、ベクトル空間における識別対象音声の特徴軌跡を得るステップと、
予め記憶されたキーワードテンプレート軌跡と上記特徴軌跡とのマッチングをし、キーワードの位置を確定するステップとを備えることを特徴とする識別対象音声のキーワードの特定方法。
上記正規化は、上記特徴パラメータベクトルの配列から代表特徴パラメータベクトルを抽出し、上記特徴軌跡を表示するステップを含むことを特徴とする請求項１に記載の方法。
上記代表特徴パラメータベクトルの抽出は、上記コードブックから、上記特徴パラメータベクトルと最も接近しているコードブックベクトルを探索するステップと、
探索したコードブックベクトルの番号を用いて上記特徴パラメータベクトルを表示するステップと、
連続的に同一のコードブックベクトルで表示される特徴パラメータベクトルを合併し、上記特徴パラメータを表示するステップとを備えることを特徴とする請求項２に記載の方法。
上記マッチングは、各キーワードテンプレート軌跡を利用し、上記特徴軌跡を時間軸で表示した軌跡フレーム毎に対して、上記キーワードテンプレート軌跡を表示する各テンプレート特徴ベクトルと、上記特徴軌跡を表示する各代表特徴パラメータベクトル間との距離を順に計算するステップと、
上記距離から最小値を確定するステップと、
上記最小値に対応するキーワードテンプレート軌跡がベクトル空間における位置をキーワードの位置として確定するステップとを備えることを特徴とする請求項２または３に記載の方法。
上記特徴パラメータベクトルは、ケプストラムパラメータ、ケプストラムパラメータのエネルギー値、ケプストラムパラメータの一階導関数、ケプストラムパラメータの二階導関数、エネルギー値の一階導関数、エネルギー値の二階導関数のうち、少なくとも一つのパラメータを含むことを特徴とする請求項４に記載の方法。
上記距離は、コードブックベクトル距離を用いて表示され、上記コードブックベクトル距離が、上記任意二つのコードブックベクトル間の距離であることを特徴とする請求項４に記載の方法。
上記コードブックベクトル距離は、マトリクスの形式で予め記憶されていることを特徴とする請求項６に記載の方法。
上記キーワードテンプレート軌跡は、上記コードブックベクトルに基づいて生成されることを特徴とする請求項１に記載の方法。
キーワードテンプレート軌跡は、音節と音素モデルとの間にある対応関係によって、キーワードの各音節の音素名を得るステップと、
音素モデルと状態との間にある対応関係によって、キーワードの各状態を得、状態ベクトルを形成するステップと、
上記コードブック中にある状態ベクトルに対応する番号を用いて、音素モデルのコードブックベクトル配列の番号を表示するステップと、
連続的に同一のコードブックベクトルの番号で表示される音素モデルのコードブックベクトル配列の番号を合併するステップと、
各コードブックベクトル配列の番号を順に連接合併した後にキーワードテンプレート軌跡を得るステップとによって得られることを特徴とする請求項８に記載の方法。
キーワードテンプレート軌跡は、入力したキーワードの音声波を音声波フレームに切り分け、各音声波フレームの特徴パラメータベクトルを抽出することによって、該キーワードの特徴パラメータベクトル配列を形成するステップと、
上記コードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、上記キーワードテンプレート軌跡を表示するテンプレートベクトル配列を形成するステップとによって得られることを特徴とする請求項８に記載の方法。
コードブックは、隠れマルコフモデルに基づいた音響モデルから、各音素モデルの状態を描く統計パラメータを抽出し、各状態の特徴ベクトルを形成するステップと、
番号を用いて各状態の特徴ベクトルを表示し、上記コードブックの各コードブックベクトルを形成するステップとによって得られることを特徴とする請求項４に記載の方法。
上記音素モデルは、複数の応用領域の学習コーパスによって生成することを特徴とする請求項１１に記載の方法。
識別対象音声を構成する各フレームの特徴パラメータを抽出し、識別対象音声を描く特徴パラメータベクトル配列を形成する特徴抽出装置と、
複数のコードブックベクトルを含むコードブックを用いて、特徴パラメータベクトル配列の正規化を処理し、ベクトル空間における識別対象音声の特徴軌跡を得る正規化装置と、
予め記憶されたキーワードテンプレート軌跡と上記特徴軌跡とのマッチングをし、キーワードの位置を確定するマッチング装置とを備えることを特徴とする識別対象音声中のキーワードを特定する装置。
上記正規化装置は、上記特徴パラメータベクトル配列から代表特徴パラメータベクトルを抽出し、上記特徴軌跡を表示することを特徴とする請求項１３に記載の装置。
上記正規化装置は、上記コードブックから、上記特徴パラメータベクトルに最も接近しているコードブックベクトルを探索し、探索し得たコードブックの番号を用いて上記特徴パラメータベクトルを表示し、連続的に同一のコードブックベクトルで表示された特徴パラメータベクトルを合併し、上記特徴軌跡を表示することを特徴とする請求項１４に記載の装置。
上記マッチング装置は、各キーワードテンプレート軌跡を利用し、上記特徴軌跡を時間軸で表示した軌跡フレーム毎に対して、上記キーワードテンプレート軌跡を表示する各テンプレート特徴ベクトルと、上記特徴軌跡を表示する各代表特徴パラメータベクトルとの間の距離を順に計算し、
上記距離のうち、最小値を確定し、この最小値に対応するキーワードテンプレート軌跡がベクトル空間における位置をキーワードの位置として確定することを特徴とする請求項１４または１５に記載の装置。
請求項１３に記載の装置と、
上記装置により確定されたキーワードの位置に基づいて、キーワードの内容を識別する音声識別装置とを備えることを特徴とする音声識別システム。
上記音声識別装置は、隠れマルコフモデルに基づいて識別を行うことを特徴とする、請求項１７に記載の音声識別システム。