JP4340685B2

JP4340685B2 - 音声認識装置及び音声認識方法

Info

Publication number: JP4340685B2
Application number: JP2006511627A
Authority: JP
Inventors: 聡一外山
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2004-03-30
Filing date: 2005-03-22
Publication date: 2009-10-07
Anticipated expiration: 2025-03-22
Also published as: WO2005096271A1; CN1957397A; US20070203700A1; JPWO2005096271A1

Description

本発明は、例えば、音声認識装置及び音声認識方法等に関する。

従来の音声認識システムとして、例えば、後述の非特許文献１に示される“隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）”（以下、単に“ＨＭＭ”と称する）を用いた方法が一般に知られている。ＨＭＭによる音声認識手法は、単語を含む発話音声全体と、辞書メモリやサブワード音響モデルから生成した単語音響モデルとのマッチングを行い、各単語音響モデル毎にマッチングの尤度を計算して、最も高い尤度のモデルに対応する単語を音声認識の結果と判定するものである。
ＨＭＭによる一般的な音声認識処理の概略を図１に基づいて説明する。ＨＭＭは、時間と共に状態Ｓｉを遷移させながら、様々な時系列信号Ｏ（Ｏ＝ｏ（１），ｏ（２），……，ｏ（ｎ））を確率的に生成する信号生成モデルとして捉えることができる。そして、かかる状態系列Ｓと、出力信号系列Ｏとの遷移関係を表したものが図１である。即ち、ＨＭＭによる信号生成モデルは、図１の縦軸に示される状態Ｓｉが遷移するたびに、同図横軸の信号ｏ（ｎ）を１つ出力するものと考えることができる。
因みに、同モデルの構成要素としては、｛Ｓ０，Ｓ１，Ｓｍ｝の状態集合、状態Ｓｉから状態Ｓｊに遷移するときの状態遷移確率ａｉｊ、状態Ｓｉ毎に信号ｏを出力する出力確率ｂｉ（ｏ）＝Ｐ（ｏＩＳｉ）がある。なお、確率Ｐ（ｏＩＳｉ）は、基本事象の集合Ｓｉに対するｏの条件付き確率を表すものとする。また、Ｓ０は信号を生成する前の初期状態を、Ｓｍは信号を出力し終わった後の終了状態を示すものである。
ここで、かかる信号生成モデルにおいて、ある信号系列Ｏ＝ｏ（１），ｏ（２），……，ｏ（ｎ）が観測されたと仮定する。そして、状態Ｓ＝０，ｓ（１），……，ｓ（Ｎ），Ｍは、信号系列Ｏを出力することが可能な或る状態系列であると仮定する。いま、ＨＭＭΛがＳに沿って信号系列Ｏを出力する確率は、

として表すことができる。そして、かかる信号系列ＯがＨＭＭΛから生成される確率Ｐ（ＯＩΛ）は、

として求められる。
このように、Ｐ（ＯＩΛ）は、信号系列Ｏを出力することが可能な全ての状態経路を介した生成確率の総和で表すことができる。しかしながら、確率計算時のメモリの使用量を削減すべく、ビタビアルゴリズムを用いて、信号系列Ｏを出力する確率が最大となる状態系列のみの生成確率によってＰ（ＯＩΛ）を近似することが一般に行われる。すなわち、

として表現される状態系列が信号系列Ｏを出力する確率Ｐ（Ｏ，Ｓ＾ＩΛ）を、ＨＭＭΛから信号系列Ｏが生成される確率Ｐ（ＯＩΛ）とみなすのである。
一般に、音声認識の処理過程では、音声入力信号を２０〜３０ｍｓ程度の長さのフレームに分割して、各フレーム毎にその音声の音素的な特徴を示す特徴ベクトルｏ（ｎ）を算出する。なお、かかるフレーム分割に際しては、隣接するフレームが互いにオーバーラップするようにフレームの設定を行う。そして、時間的に連続する特徴ベクトルを時系列信号Ｏとして捉えるものとする。また、単語認識においては、音素や音節単位等のいわゆるサブワード単位の音響モデルを用意する。
また、認識処理において用いられる辞書メモリには、認識の対象となる単語ｗ１，ｗ２，…，ｗＬのサブワード音響モデルの並べ方が記憶されており、かかる辞書記憶に従って、上記のサブワード音響モデルを結合して単語モデルＷ１，Ｗ２，…，ＷＬを生成する。そして、上記のように各単語毎に確率Ｐ（ＯＩＷｉ）を算出して、かかる確率が最大となる単語ｗｉを認識結果として出力するのである。
すなわち、Ｐ（ＯＩＷｉ）は、単語Ｗｉに対する類似度と捉えることができる。また、確率Ｐ（ＯＩＷｉ）の算出の際にビタビアルゴリズムを用いることにより、音声入力信号のフレームと同期して計算を進めて、最終的に信号系列ｏを生成することが可能な状態系列のうち確率最大となる状態系列の確率値を算出することができる。
しかしながら、以上に説明した従来技術においては、図１に示す如く、可能性のある全ての状態系列を対象にしてマッチングの探索が行われる。このため、音響モデルの不完全さや、或いは混入雑音の影響によって、不正解単語の正しくない状態系列による生成確率の方が正解単語の正しい状態系列による生成確率よりも高くなるおそれがある。その結果、誤認識や認識不能の事態を引き起こす場合があり、また、音声認識の処理過程における計算量や計算に使用されるメモリ量も膨大となって音声認識処理の効率の低下を招くおそれもあった。
ＨＭＭを用いた従来の音声認識システムは例えば鹿野清宏他４名（著）情報処理学会（編）、書名『音声認識システム』（２００１年５月；オーム社刊）（非特許文献１）に開示されている。

本発明が解決しようとする課題には、誤認識や認識不能の事態を減少させ、かつ認識効率を向上させた音声認識装置及び音声認識方法を提供することが一例として挙げられる。
請求項１に記載の発明は、辞書メモリとサブワード音響モデルとに基づいて単語モデルを生成し、かつ所定のアルゴリズムに沿って前記単語モデルと音声入力信号とを照合して前記音声入力信号に対する音声認識を行う音声認識装置であって、前記アルゴリズムによって示される処理経路に沿って前記単語モデルと前記音声入力信号とを照合する際に、針路指令に基づき前記処理経路を限定して前記音声入力信号に最も近似する単語モデルを選択する主マッチング手段と、発話音声の局所的な音響特徴を予め類型化してこれを局所テンプレートとして記憶する局所テンプレート記憶手段と、前記音声入力信号の構成部位毎に前記局所テンプレート記憶手段に記憶された局所テンプレートを照合して前記構成部位毎の音響特徴を確定し、該確定の結果に応じた前記針路指令を生成する局所マッチング手段とを含むことを特徴とする。
また、請求項８に記載の発明は、辞書メモリとサブワード音響モデルとに基づいて単語モデルを生成して、音声入力信号を所定のアルゴリズムに沿って前記単語モデルと照合して前記音声入力信号に対する音声認識を行う音声認識方法であって、前記アルゴリズムによって示される処理経路に沿って前記音声入力信号と前記単語モデルとを照合する際に、針路指令に基づき前記処理経路を限定して前記音声入力信号に最も近似する単語モデルを選択するステップと、発話音声の局所的な音響特徴を予め類型化してこれを局所テンプレートとして記憶するステップと、前記音声入力信号の構成部位毎に前記局所テンプレートを照合して前記構成部位毎の音響特徴を確定し、該確定の結果に応じた前記針路指令を生成するステップとを含むことを特徴とする。

図１は、従来の音声認識処理における状態系列と出力信号系列との遷移過程を示す状態遷移図である。
図２は、本発明による音声認識装置の構成を示すブロック図である。
図３は、本発明に基づく音声認識処理における状態系列と出力信号系列との遷移過程を示す状態遷移図である。

図２に本発明の実施例である音声認識装置を示す。同図に示される音声認識装置１０は、例えば、同装置単体で用いられる構成であっても良いし、或いは、他の音響関連機器に内蔵される構成としても良い。
図２において、サブワード音響モデル記憶部１１は、音素や音節等のサブワード単位毎の音響モデルを記憶した部分である。また、辞書記憶部１２は、音声認識の対象となる各単語について上記サブワード音響モデルの並べ方を記憶した部分である。単語モデル生成部１３は、辞書記憶部１２の記憶内容に従って、サブワード音響モデル記憶部１１に記憶されているサブワード音響モデルを結合して音声認識に使用する単語モデルを生成する部分である。また、局所テンプレート記憶部１４は、上記の単語モデルとは別に、音声入力信号の各フレームについて局所的にその発話内容を捉える音響モデルである局所テンプレートを記憶した部分である。
主音響分析部１５は、音声入力信号を所定時間長のフレーム区間に区切り、各フレーム毎にその音素的な特徴を示す特徴ベクトルを算出して、かかる特徴ベクトルの信号時系列を生成する部分である。また、局所音響分析部１６は、音声入力信号の各フレーム毎に上記局所テンプレートとの照合を行うための音響特徴量を算出する部分である。
局所マッチング部１７は、かかるフレーム毎に局所テンプレート記憶部１４に記憶されている局所テンプレートと、局所音響分析部１６からの出力である音響特徴量とを比較する部分である。即ち、局所マッチング部１７は、この両者を比較して相関性を示す尤度を計算し、当該尤度が高い場合にそのフレームを局所テンプレートに対応する発話部分であると確定する。
主マッチング部１８は、主音響分析部１５からの出力である特徴ベクトルの信号系列と、単語モデル生成部１３で生成された各単語モデルとを比較して、各単語モデルについての尤度計算を行って音声入力信号に対する単語モデルのマッチングを行う部分である。但し、前述の局所マッチング部１７において発話内容が確定されたフレームに対しては、該確定された発話内容に対応するサブワード音響モデルの状態を通る状態経路が選択されるような制約付きのマッチング処理が為される。これによって、主マッチング部１８から、音声入力信号に対する音声認識結果が最終的に出力される。
なお、図２における信号の流を示す矢印の向きは、各構成要素間の主要な信号の流を示すものであり、例えば、かかる主要信号に付随する応答信号や監視信号等の各種の信号に関しては、矢印の向きと逆に伝達される場合をも含むものとする。また、矢印の経路は各構成要素間における信号の流を概念的に表すものであり、実際の装置において各信号が図中の経路通りに忠実に伝達される必要はない。
次に、図２に示される音声認識装置１０の動作について説明を行う。
先ず、局所マッチング部１７の動作について説明する。局所マッチング部１７は、局所テンプレートと局所音響分析部１６からの出力である音響特徴量とを比較して、フレームの発話内容を確実に捉えた場合にのみ当該フレームの発話内容を確定する。
局所マッチング部１７は、音声入力信号に含まれる各単語に対する発話全体の類似度を算出する主マッチング部１８の動作を補助するものである。それ故、局所マッチング部１７は、音声入力信号に含まれる発話全ての音素や音節を捉える必要はない。例えば、ＳＮ比が悪い場合でも比較的に捉え易い母音や有声子音などの発声エネルギーの大きい音素や音節をのみを利用する構成としても良い。また、発話中に出現する全ての母音や有声子音を捉える必要もない。つまり、局所マッチング部１７は、そのフレームの発話内容を局所テンプレートによって確実にマッチングさせた場合にのみ、そのフレームの発話内容を確定して、かかる確定情報を主マッチング部１８に伝達する。
主マッチング部１８は、局所マッチング部１７から上記の確定情報が送られてこない場合、前述した従来の単語認識と同様のビタビアルゴリズムによって、主音響分析部１５から出力されるフレームに同期して入力音声信号と単語モデルとの尤度計算を行う。一方、局所マッチング部１７から上記の確定情報が送られて来ると、局所マッチング部１７で確定された発話内容に対応するモデルがそのフレームを通らない処理経路を認識候補の処理経路から除外する。
この様子を図３に示す。因みに、同図に示される状況は、図１と同様に音声入力信号として“千葉（ｃｈｉｂａ）”なる発話音声が入力された場合を示すものである。
本事例では、特徴量ベクトルである出力信号時系列においてｏ（６）乃至ｏ（８）が出力される時点で、局所マッチング部１７から局所テンプレートによりフレームの発話内容が“ｉ”と確定された旨の確定情報が主マッチング部１８に伝えられた場合を示している。かかる確定情報の通知により、主マッチング部１８は、マッチング探索の処理経路から“ｉ”以外の状態を通過する経路を含むα及びγの領域を除外する。これによって、主マッチング部１８は、探索の処理経路をβの領域にのみ限定して処理を継続することができる。図１の場合と比較して明らかな如く、かかる処理を施すことによって、マッチング探索時における計算量や計算に使用するメモリの量を大幅に削減することができる。
なお、図３では、局所マッチング部１７からの確定情報が一度しか送られなかった事例を示したが、局所マッチング部１７での発話内容確定が更に達成されれば、かかる確定情報は他のフレームについても送られて来るものであり、これによって主マッチング部１８で処理を行う経路は更に限定される。
一方、音声入力信号中の母音部分を捉える方法としては、様々な方法が考えられる。例えば、母音を捉えるための特徴量（多次元ベクトル）に基づいて各母音毎の標準パターン、例えば、平均ベクトルμｉと共分散行列Σｉを学習して準備し、その標準パターンとｎ番目の入力フレームの尤度を計算して判別する方法を用いても良い。因みに、かかる尤度としては、例えば、確率Ｅｉ（ｎ）＝Ｐ（ｏ’（ｎ）Ｉμｉ，Σｉ）等を用いても良い。ここで、ｏ’（ｎ）は、局所音響分析部１６から出力されるフレームｎの特徴量ベクトルにおけるｉ番目の標準パターンを示すものである。
なお、局所マッチング部１７からの確定情報を正確にすべく、例えば、首位候補の尤度と次位候補の尤度との差が十分に大きい場合にのみ首位候補の尤度を確定するようにしても良い。すなわち、標準パターンがｋ個ある場合に、ｎフレーム目の各標準パターンとの尤度Ｅ１（ｎ），Ｅ２（ｎ），…，Ｅｋ（ｎ）を計算する。そして、これらの中で最大のものをＳ１＝ｍａｘｉ｛Ｅｉ（ｎ）｝、次に大きいものをＳ２として、
Ｓ１＞Ｓｔｈ１かつ（Ｓ１−Ｓ２）＞Ｓｔｈ２
なる関係を満たす場合にのみ、このフレームの発話内容を
Ｉ＝ａｒｇｍａｘｉ｛Ｅｉ（ｎ）｝
と定めても良い。なお、Ｓｔｈ１、Ｓｔｈ２は、実際の使用において適切に定められる所定の閾値とする。
さらに、局所マッチングの結果を一意的に確定せず、複数の処理パスを許容する確定情報を主マッチング部１８に伝達する構成としても良い。例えば、局所マッチングを行った結果、当該フレームの母音は“ａ”又は“ｅ”であると言う内容の確定情報を伝達するようにしても良い。これに伴い、主マッチング部１８では、“ａ”及び“ｅ”の単語モデルがこのフレームに対応する処理パスのみを残すようにする。
また、上記の特徴量として、ＭＦＣＣ（メル周波数ケプストラム係数）やＬＰＣケプストラム、或いは対数スペクトル等のパラメータを用いるようにしても良い。これらの特徴量はサブワード音響モデルと同様の構成としても良いが、母音の推定精度を向上させるべく、サブワード音響モデルの場合よりも次元数を拡大して用いるようにしても良い。なお、その場合でも局所テンプレートの数は数種類と比較的に少ないので、かかる変更に伴う計算量の増加は僅かである。
さらに、特徴量として音声入力信号のフォルマント情報を用いることも可能である。一般に、第１フォルマントと第２フォルマントの周波数帯域は、母音の特徴を良く表しているため、これらのフォルマント情報を上記の特徴量として利用することができる。また、主要フォルマントの周波数とその振幅から内耳基底膜上の受聴位置を求めて、これを特徴量として用いることも可能である。
また、母音は有声音であるため、これをより確実にとらえるには、各フレームで音声の基本周波数範囲にピッチが検出できるか否かを先ず判定して、検出された場合にのみ母音標準パターンとの照合を行うようにしても良い。この他に、例えば、母音をニューラルネットによりとらえる構成としても良い。
なお、以上の説明では局所テンプレートとして母音を用いる場合を例にとって説明を行ったが、本実施例はかかる事例に限定されるものではなく、発話内容を確実にとらえるための特徴的な情報を抽出できるものであれば局所テンプレートとして用いることができる。
また、本実施例は、単語認識だけでなく、連続単語認識や大語彙連続音声認識にも適用が可能である。
以上に説明した如く、本発明の音声認識装置、若しくは音声認識方法によれば、マッチング処理の過程において明らかに不正解となるパスの候補を削除できるので、音声認識の結果が誤認識や認識不可となる要因の一部を削除することができる。また、検索するパスの候補を削減できるので計算量や計算において使用するメモリ量の削減を図ることができ認識効率の向上が可能となる。さらに、本実施例による処理は、通常のビタビアルゴリズムと同様に、音声入力信号のフレームと同期して実行が可能であるため、計算効率も高めることができる。

Claims

辞書メモリとサブワード音響モデルとに基づいて単語モデルを生成し、かつ所定のアルゴリズムに沿って前記単語モデルと音声入力信号とを照合して前記音声入力信号に対する音声認識を行う音声認識装置であって、
前記アルゴリズムによって示される処理経路に沿って前記単語モデルと前記音声入力信号とを照合する際に、針路指令に基づき前記処理経路を限定して前記音声入力信号に最も近似する単語モデルを選択する主マッチング手段と、
発話音声の局所的な音響特徴を予め類型化してこれを局所テンプレートとして記憶する局所テンプレート記憶手段と、
前記音声入力信号の構成部位毎に前記局所テンプレート記憶手段に記憶された局所テンプレートを照合して前記構成部位毎の音響特徴を確定し、該確定の結果に応じた前記針路指令を生成する局所マッチング手段と、を含むことを特徴とする音声認識装置。
前記アルゴリズムは、隠れマルコフモデルであることを特徴とする請求項１に記載の音声認識装置。
前記処理経路は、ビタビアルゴリズムによって算出されることを特徴とする請求項１に記載の音声認識装置。
前記局所マッチング手段は、前記音響特徴量を確定する際に前記構成部位と前記局所テンプレートとの照合尤度に応じて前記針路指令を複数個生成することを特徴とする請求項１乃至請求項３の何れか１項に記載の音声認識装置。
前記局所マッチング手段は、前記照合尤度の首位と次位との差分が所定閾値を越えたときにのみ前記針路指令を生成することを特徴とする請求項１乃至請求項３の何れか１項に記載の音声認識装置。
前記局所テンプレートは、前記音声入力信号に含まれる母音部分の音響特徴量に基づいて生成されることを特徴とする請求項１乃至請求項３の何れか１項に記載の音声認識装置。
前記局所テンプレートは、前記音声入力信号に含まれる有声子音部分の音響特徴量に基づいて生成されることを特徴とする請求項１乃至請求項３の何れか１項に記載の音声認識装置。
辞書メモリとサブワード音響モデルとに基づいて単語モデルを生成して、音声入力信号を所定のアルゴリズムに沿って前記単語モデルと照合して前記音声入力信号に対する音声認識を行う音声認識方法であって、
前記アルゴリズムによって示される処理経路に沿って前記音声入力信号と前記単語モデルとを照合する際に、針路指令に基づき前記処理経路を限定して前記音声入力信号に最も近似する単語モデルを選択するステップと、
発話音声の局所的な音響特徴を予め類型化してこれを局所テンプレートとして記憶するステップと、
前記音声入力信号の構成部位毎に前記局所テンプレートを照合して前記構成部位毎の音響特徴を確定し、該確定の結果に応じた前記針路指令を生成するステップと、を含むことを特徴とする音声認識方法。