JP2009169154A

JP2009169154A - 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体

Info

Publication number: JP2009169154A
Application number: JP2008007937A
Authority: JP
Inventors: Tsuneo Kato; 恒夫加藤; Hisashi Kawai; 恒河井
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-01-17
Filing date: 2008-01-17
Publication date: 2009-07-30
Anticipated expiration: 2028-01-17
Also published as: JP4883717B2

Abstract

【課題】前向き探索および後向き探索を含む複数の探索を独立に実行し、各探索により得られた認識結果を正当に評価することにより、文法に記述できない物音や音声が文頭や文末に混入する場合でも、確度の高い認識結果を得られるようにした音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体を提供する。
【解決手段】前向き探索では、音声データの最終フレームまで到達していない状態仮説Eに関して、その累積尤度Sf9と、後向き探索で得られた最大累積尤度Mr14との加算値をフレーム数T（＝２３）で除した値(Sf9+Mr14)/Tがフレーム平均尤度となる。後向き探索では、音声データの先頭フレームまで到達していない状態仮説Gに関して、その累積尤度Sr14と、前向き探索で得られた最大累積尤度Mf9との加算値をフレーム数T（＝２３）で除した値(Sr14+Mr9)/Tがフレーム平均尤度となる。
【選択図】図８

Description

本発明は、音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体に係り、特に、HMMに代表される状態遷移確率モデルを用いて音声認識を行う音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体に関する。

音声認識では、入力された音声信号に最も近い単語列が、状態系列として表現される単語との類似度（確率）に基づいて判定される。HMM(Hidden Markov Model：隠れマルコフモデル)は、単語や、単語を構成する音素を表現するのに適切な確率モデルの１つであり、各状態は状態遷移確率および出力確率密度関数を持つ。以下、従来の音声認識の手法を、前記HMM を利用した場合を例にして説明する。

音声認識装置では、認識可能な文の集合が単語を単位とするネットワークとして記述された文法と、文を構成する単語の読み（音素列）が記述された単語辞書とに従って認識処理が進行する。図１４は、文法の一例を示した図であり、ここでは、「伊藤です」、「糸井です」、「今井です」、「土井です」という４つの音声を識別する場合を例にして説明する。

図１４に示された文法は、丸数字１で示した状態「１」を始端（文頭）とし、状態「５」を終端（文末）とする状態遷移図であり、矢印で対応付けられた単語を出力して状態間を遷移する。文法を構成する各単語は、その読み（音素列）に従ってHMMの状態系列として表現され、単語辞書に含まれる単語の集合は、図１５に示したような木構造辞書として展開される。

木構造辞書では、各単語が音素列に分解され、単語「糸井」であれば４つの音素「i」，「t」，「o」，「i」の列に展開される。各音素は、通常３つ程度の状態（HMM状態）から構成される。木構造辞書は、HMMの状態系列として表現される単語間で、先頭から共通する部分的な状態系列をマージすることにより、右に進むにつれて分岐が広がる状態遷移図である。図１５の木構造辞書では、「伊藤」、「糸井」、「今井」の３単語で、単語先頭の「い」に相当するHMMの状態系列がマージされ、さらに「伊藤」と「糸井」の間で「いと」までに相当するHMMの状態系列がマージされている。また「土井」と「です」との間で、単語先頭の「d」に相当するHMM状態系列がマージされている。図中の「sil」は無音声区間（silence）を表している。

音声認識処理では、図１４に示した文法の制約に従って、図１５に示した木構造辞書中の単語先頭のHMM状態から、状態仮説と呼ばれるトークンが木構造辞書を左から右へと遷移する。状態仮説が単語終端のHMM状態に到達すると、単語仮説と呼ばれる履歴を残して、図１４の文法における該当単語の遷移先状態に遷移する。遷移先状態が文末でなければ、次の時刻から同様に、文法の制約に従って木構造辞書の探索が行われる。

木構造辞書中のHMM状態系列を状態仮説が左から右へと遷移する間に、入力音声に対して、その単語らしさのスコア（累積尤度）が計算される。木構造辞書を構成する各HMM状態は、音響特徴パラメータの入力に対して尤もらしさを出力する確率分布（出力確率密度関数）を有している。また、HMM状態間の遷移について遷移確率（状態遷移確率）が定義されている。これらの確率を時間方向に累積することで、累積尤度が計算される。

この累積尤度は、後述する認識結果の確定処理のため、状態仮説が各単語の終端の状態に到達して単語仮説と呼ばれる履歴を残すときに、先行する単語仮説のインデックスとともに単語仮説中に格納される。

音声信号を分析して音響特徴ベクトルを得る所定の一定周期ごとに、各HMM状態まで遷移した各状態仮説は、さらに自身のHMM状態への遷移（自己遷移）および右隣のHMM状態への遷移（L-R遷移）とを同時に繰り返す。このとき、t番目のフレームに状態jが存在する累積尤度をαj(t)とすれば、累積尤度αj(t)は次式(1)で表される。ここで、αijは状態iから状態jへの遷移確率、bj(ot)は状態jが音響特徴量otを出力する確率である。自己遷移は、次式(1)においてi=jの場合として考える。

T個のフレームから構成される音声信号についてN個のHMM状態からなる単語系列を探索する場合、すなわち、状態仮説がHMM状態系列を遷移していく場合の、自己遷移とL-R遷移との空間（トレリス）を図１６に示す。トレリス空間は、横軸を観察系列としてのフレーム、縦軸を状態として可能な状態系列を示す格子グラフであって、それぞれの状態系列は、各時刻における状態を表す点（○印）を線分で結んだ折れ線で表される。

図１６に示したように、t番目のフレームのタイミングで状態jに至るパスは数多く存在するが、音声認識は最も確からしいパス（最尤パス）を求めるのが目的であるので、各フレームの各HMM状態において、次式(2)に従って高いスコアを残すViterbi探索が行われる。

音声認識処理は、文法が許容する全ての単語連鎖を探索する必要があるため、同時刻に数多くの状態仮説が、自分自身のHMM状態への遷移（図１６では、右隣りへの自己遷移）と隣接する他のHMM状態への遷移（図１６では、右下隣りへのL-R遷移）とを行うので、その計算量は膨大になる。この計算量の増大を抑えるために、通常はViterbi探索途中で確率の小さい状態仮説を探索空間から除外する枝刈りが行われる。

枝刈りでは、処理中の時刻における最大の尤度から、尤度が一定幅以内にある状態仮説を次の時刻の探索空間として残し、尤度が一定幅以上に低い状態仮説は次の時刻の探索空間から除外される。すなわち、時刻t、状態jの尤度を同時刻の全状態仮説中で最大の尤度と比較する。そして、次式(3)が成立する場合は、状態jを次の時刻の探索空間に残し、次式(4)が成立する場合は、状態jを次の時刻の探索空間から除外する。θpruningは枝刈りの閾値であって正の実数である。

なお、上記した検索手法は、１発声分の音響特徴量を古い時刻から新しい時刻の順、すなわち正順に与え、文頭から文末に向かって探索を行う前向き探索の例である。図１４の文法を文末から文頭に向かって記述し、図１５の木構造辞書を単語の末尾から先頭に向かって並べ、単語の末尾から共通部分をマージして作成し、１発声分の音響特徴量を新しい時刻から古い時刻の順、すなわち逆順に与えれば、前向き探索と同様に後向き探索を行うことができる。図１４、１５で定義される前向き探索の空間を、後向き探索用に変更した文法および木構造の一例を、それぞれ図１７，１８に示す。

次いで、探索処理の最後に認識結果を確定するバックトレースについて説明する。パワーの低下等、音声の終了を判断する何らかの条件により探索処理が終了すると、終了時刻に文末に到達した単語仮説のうち、音声始端からの累積尤度の最も高いものから、先行する単語の系列（この単語仮説に至るまでの単語の履歴）を導き出す。これが最終的な認識結果の候補となる。この操作はバックトレースと呼ばれる。なお、累積尤度は音声の時間長によって異なるので、時間長の影響を取り除くために累積尤度をフレーム数で除算してフレーム平均尤度が求められる場合がある。

次いで、信頼性尺度について説明する。認識結果を出力する前に、認識結果の候補を検証することがある。信頼性尺度は、フレーム平均尤度以上に認識結果の正誤判定に適した尺度である。例えば、図１４，１７の文法の他に、任意の日本語の音を認識する音節タイプライタ文法で並列に探索処理を行い、音節タイプライタのスコア（累積尤度）を求めると、図１４，１７の文法のスコアが音節タイプライタのスコアに近い値ならば認識結果の信頼性は高く、反対に音節タイプライタのスコアより著しく低ければ信頼性は低いと判断できる。信頼性尺度は単語毎に算出することができる。単語wiの始端時刻をti-1、終端時刻をtiとすると、単語wiの区間のスコアαwiは次式(5)で求められる

信頼性尺度Cwiは、次式(6)のように、αwiと同区間の音節タイプライタのスコアβtwの差分をフレーム数で除算して求められる。Cwiがゼロに近いとき信頼性は高く、負の大きな値のとき信頼性は低い。

音声認識は前向き探索および後向き探索の一方で可能であるが、前向き探索と後向き探索の組み合わせは探索の効率化と精度向上を目的に以下のように用いられてきた。

(1)大語彙連続音声認識において、計算コストの小さな粗い音響モデルと言語モデルとを用いて前向き探索を行い、最終的な認識結果を含む有望な候補単語の集合に絞り込み、この集合に対して計算コストの大きい精密な音響モデルと言語モデルを用いて後向き探索を行うことで最終的な認識結果を確定する。

(2)特許文献１では、前向き探索として特定のタスクに依存しない音節タイプライタ文法を用い音声先頭から各フレームまでの累積尤度の最大値を記録しておき、次に後向き探索でタスクの文法と単語辞書を用いてA*探索を行い、このA*探索における未探索部分の推定スコアとして前向き探索の最大累積尤度を用いることで、高速な後向き探索を可能にしている。
特開平１０−９７２７５号公報

従来の前向き探索と後向き探索との組合せは、大語彙連続音声認識を高い精度で短時間に実行することを目的としている。そのため、前向き探索で探索空間を絞り込み、後向き探索で最終的な認識結果を求めたり、前向き探索と後向き探索を整合させたりすることを前提としている。

しかしながら、実際の発声には、最初に言い誤った後で言い直したり、利用者の発声の後に他人のおしゃべりが混入したりする現象が含まれる。そして、このような文頭の言い誤りや、発声終了後に混入する他人の声は文法に記述することが難しい。

文頭に言い誤りが含まれる場合、前向き探索では最終的に正解となる状態仮説が枝刈りの対象になり易いので正解を得ることが難しいが、後向き探索では正解を得やすくなる。一方、発声終了後に他人の声が含まれる場合、後向き探索では正解となる状態仮説が枝刈りの対象となり易いので正解を得ることが難しいが、前向き探索では正解を得やすくなる。

したがって、前向き探索により得られた認識結果と後向き探索により得られた認識結果とを正当に評価できれば、最初に言い誤った後で言い直したり、利用者の発声の後に他人のおしゃべりが混入したりする場合でも、確度の高い認識結果が得られるはずである。

しかしながら、音声信号から抽出された音響パラメータと音響モデルとを照合し、音響パラメータと音響モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識では、前向き探索において音声データの最終フレームに到達する前に文法上の最後のHMM状態まで到達して探索を完了する状態仮説や、後向き探索において音声データの先頭フレームに到達する前に文法上の最後のHMM状態まで到達して探索を完了する状態仮説があり、各探索により得られた認識結果（累積尤度）は探索フレーム区間が異なるので、両者の認識結果を単純に比較しただけでは公平な評価が難しかった。

本発明の目的は、上記した従来技術の課題を解決し、前向き探索および後向き探索を含む複数の探索を独立に実行し、各探索により得られた認識結果を正当に評価することにより、文法に記述できない物音や音声が文頭や文末に混入する場合でも、確度の高い認識結果を得られるようにした音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体を提供することにある。

上記した目的を達成するために、本発明は、音声信号から抽出された音響パラメータと音響モデルとを照合し、尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識装置において、音声信号からフレーム単位で音響特徴パラメータを抽出する音響分析手段と、前記音響特徴パラメータを記憶するパラメータ記憶手段と、前記パラメータ記憶手段から音響特徴パラメータを取り込んで、前向き探索および後ろ向き探索を含む複数の探索を実行する手段と、前向き探索で得られた認識結果候補のうち、音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、後向き探索で得られた認識結果候補のうち、音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、前記未探索フレーム区間の尤度が補完された各認識結果候補のフレーム平均尤度を算出する手段と、前記各認識結果候補のフレーム平均尤度に基づいて認識結果を判定する手段とを含むことを特徴とする。

本発明によれば、各認識結果候補において、それぞれの状態仮説が文法上の最後のHMM状態に到達した際のフレーム位置にかかわらず、全ての認識結果候補は、未探索フレーム区間の尤度を他の探索結果を用いて補完され、探索フレーム区間を等しくされた状態で、その累積尤度を相互に比較されるので、各認識結果候補を正当に比較できるようになる。

以下、図面を参照して本発明の最良の実施の形態について詳細に説明する。図１は、本発明に係る音声認識装置の主要部の構成を示したブロック図である。

音声信号入力部１１は、入力された音声信号をデジタル信号に変換する。音響分析部１２は、音声デジタル信号を音響分析して音響特徴パラメータを抽出し、これをパラメータ記憶部１３に記憶する。音響特徴パラメータとは、入力音声を一定時間間隔（例えば１０ms：以下、フレームと表現する）毎に分析して得られる特徴ベクトルである。したがって、音声信号は特徴ベクトルの系列X＝x1,x2,…,xTに変換される。

前向き探索用データベース１４Ｆには、前向き探索用の文法および木構造辞書が予め記憶されている。後向き探索用データベース１４Ｒには、後向き探索用の文法および木構造辞書が予め記憶されている。

前向き探索部１５Ｆは、前向き探索用の文法および木構造辞書に音響特徴パラメータの時系列データを正順に照合させて音響的な尤度を算出し、時間方向に尤度を累積して、これを探索結果記憶部１６Ｆに記憶する。同様に、後向き探索部１５Ｒは、後向き探索用の文法および木構造辞書に音響特徴パラメータの時系列データを逆順に照合させて音響的な尤度を算出し、時間方向に尤度を累積して、これを探索結果記憶部１６Ｒに記憶する。なお、文法の制約から木構造辞書の状態系列が複数に枝分れする場合、各探索部１５Ｆ，１５Ｒは枝の数だけ状態仮説を複製し、枝ごとに状態仮説を進行させて尤度を計算する。

尤度補完部１９は、後に詳述するように、前向き探索において音声データの最終フレームに到達する前に文法上の最後のHMM状態まで到達して探索を完了した状態仮説、および後向き探索において音声データの先頭フレームに到達する前に文法上の最後のHMM状態まで到達して探索を完了した状態仮説に関して、前向き探索にあっては探索が完了したフレームから最終フレームまでの未探索フレーム区間の累積尤度を後向き探索で得られた累積尤度で補完し、後向き探索にあっては探索が完了したフレームから先頭フレームまでの未探索フレーム区間の累積尤度を前向き探索で得られた累積尤度で補完する。

フレーム平均尤度算出部１７Ｆは、前向き探索において枝刈りされることなく文法上の最後のHMM状態まで到達した状態仮説に関して、最終フレームまで補完された累積尤度に基づいてフレーム平均尤度を算出する。フレーム平均尤度算出部１７Ｒも同様に、後向き探索において枝刈りされることなく文法上の最後のHMM状態まで到達した状態仮説に関して、先頭フレームまで補完された累積尤度に基づいてフレーム平均尤度を算出する。

認識結果判定部１８は、前向き探索および後向き探索で文法上の最後のHMM状態まで到達した全ての状態仮説を前記フレーム平均尤度に基づいてソートし、フレーム平均尤度が最も高い状態系列にバックトレースを実行して認識結果を判定する。

図２は、本発明を適用した音声認識の手順を示したフローチャートであり、前向き探索および後向き探索の探索結果に基づいて音声認識が行われる。ここでは、音声信号入力部１１に入力された認識対象の音声信号が音響分析部１２においてフレームごとに音響分析され、各フレームの音響特徴パラメータがパラメータ記憶部１３に蓄積されている状態から説明を始める。

ステップＳ１では、パラメータ記憶部１３に蓄積された各フレームの音響特徴パラメータのパワーに基づいて、発話タイミングおよび終話タイミングが検知される。そして、発話タイミングから数百ms遡った時刻のフレームが先頭フレームとして識別され、終話タイミングから数百ms経過した時刻のフレームが最終フレームとして識別される。ステップＳ２では、先頭フレームから最終フレームまでを対象に前向き探索が実行される。

図３は、前向き探索の手順を示したフローチャートであり、ステップＳ２０１では、前記パラメータ記憶部１３に記憶されている音響特徴パラメータが、前記先頭フレームから正順で取り込まれる。ステップＳ２０２では、有効な状態仮説の一つが今回の計算対象として選択される。ステップＳ２０３では自己遷移が実施され、その尤度が計算・更新される。ステップＳ２０４では、今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了したか否かが判定され、完了していなければステップＳ２０２へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記した各処理が繰り返される。

今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了するとステップＳ２０５へ進み、改めて今回のタイミングに対応した有効な状態仮説の一つが計算対象として選択される。ステップＳ２０６では各状態仮説がL-R遷移される。ステップＳ２０７ではViterbi探索が実行される。ステップＳ２０８では、今回のタイミングで遷移すべき全ての状態仮説に関して、上記したL-R遷移およびViterbi探索が完了したか否かが判定される。完了していなければステップＳ２０５へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記した各処理が繰り返される。

その後、今回のタイミングで遷移すべき全ての状態仮説について上記した各処理が完了するとステップＳ２０９へ進み、現在の全状態仮説の中でスコアが上位の状態仮説のみを残して他の状態仮説を次の探索から除外する枝刈りが行われる。本実施形態では、時刻t、状態jの各尤度αj(t)を同時刻の全状態仮説の中で最大の尤度αmax(t)と比較し、次式(7)を満足する状態仮説を次の時刻の探索空間に残し、次式(8)を満足する状態仮説を次の時刻の探索空間から除外する。なお、θpruningは枝刈りの閾値を示す正の実数である。

ステップＳ２１０では、枝刈りを逃れた状態仮説の中で最大の累積尤度Mmaxが判定される。ステップＳ２１１では、前記累積尤度Mmaxが今回の注目フレームiに対応した最大累積尤度Mfiとして探索結果記憶部１６Ｆに記憶される。

ステップＳ２１２では、次フレームの有無が判定され、次フレームが存在すればステップＳ２０１へ戻って次フレームの音響特徴パラメータを取り込んで上記した各処理が繰り返される。この間、観察系列が最終フレームに到達する前であっても、文法上の最後のHMM状態まで到達した状態系列に関しては、その状態遷移が終了する。

全てのフレームに関して上記した各処理が終了して音声データの最終フレームまで到達すると、ステップＳ２１３では、これまでに文法上の最後のHMM状態まで到達した全ての単語仮説からバックトレースして認識結果候補が抽出されて探索結果記憶部１６Ｆに記憶される。

図２へ戻り、ステップＳ３では、今度は最終フレームから先頭フレームまでを対象に後向き探索が実行され、文法上の最後のHMM状態まで到達した単語仮説からバックトレースして前向き探索の認識結果候補が抽出される。

図４は、前向き探索の手順を示したフローチャートであり、この後向き探索でも、ステップＳ３０１では、前記パラメータ記憶部１３に記憶されている音響特徴パラメータが、前記最終フレームから逆順で取り込まれる。ステップＳ３１０では、枝刈りを逃れた状態仮説の中で最大の累積尤度Mmaxが判定され、ステップＳ３１１において、前記累積尤度Mmaxが今回の注目フレームiに対応した最大累積尤度Mriとして探索結果記憶部１６Ｒに記憶される。そして、全てのフレームに関して各処理が終了して音声データの先頭フレームまで到達すると、ステップＳ３１３では、文法上の最後のHMM状態まで到達した全ての状態仮説が後向き探索の認識結果候補として抽出されて探索結果記憶部１６Ｒに記憶される。

ところで、状態仮説がHMM状態系列をフレーム単位で遷移し、文法上の最後のHMM状態まで到達した多数の状態仮説の中で最大尤度の状態仮説を認識結果とする認識手法では、音声データの最終フレームに到達するよりも前に、状態仮説が文法上の最後のHMM状態まで到達して認識結果候補となることがある。

図５において、状態仮説Aは観測系列が最終フレームに達した時点で文法上の最後のHMM状態まで到達しているのに対して、状態仮説B，Cは観測系列が最終フレームに到達するよりも前に文法上の最後のHMM状態まで到達して探索を完了している。音声認識では、状態仮説A，B，Cが出力する単語仮説が認識結果候補となって各単語仮説の累積尤度をフレーム長で割り算したフレーム平均尤度が比較され、最大のフレーム平均尤度を持つ単語仮説からバックトレース（単語履歴を遡ること）が行われて認識結果とされる。しかしながら、前記状態仮説A，B，Cではフレーム平均尤度の算出フレーム区間が異なってしまうので、各状態仮説を公平に比較することが難しい。

そこで、本発明では尤度補完部１９を設け、前向き探索において音声データの最終フレームに達するよりも前に文法上の最後のHMM状態まで到達して探索を完了した状態仮説、および後向き探索において観測系列が音声データの先頭フレームに達するよりも前に文法上の最後のHMM状態まで到達して探索を完了した状態仮説に関して、前向き探索にあっては探索が完了したフレームから最終フレームまでの未探索のフレーム区間の累積尤度を後向き探索で得られた累積尤度で補完し、後向き探索にあっては探索が完了したフレームから先頭フレームまでの未探索のフレーム区間の累積尤度を前向き探索で得られた累積尤度で補完し、この補完された累積尤度に基づいてフレーム平均尤度が算出されるようにしている。

図６は、前向き探索におけるフレーム平均尤度の算出手順を示したフローチャートであり、ステップＳ４０１では、前向き探索で得られた認識結果候補（単語仮説）の一つが今回のフレーム平均尤度の計算対象として選択される。ステップＳ４０２では、単語仮説の出力時刻が最終フレームであるか否かが判定され、図５の状態仮説Aのように、単語仮説の出力時刻が最終フレームであればステップＳ４０３へ進む。ステップＳ４０３では、状態仮説の累積尤度Sfを先頭フレームから最終フレームまでのフレーム数Tで除してフレーム平均尤度Sf_aveが算出される。

これに対して、図５の状態仮説B，Cのように、単語仮説の出力時刻が音声データの最終フレームに到達するよりも前であればステップＳ４０４へ進む。ステップＳ４０４では、状態仮説が文法上の最後のHMM状態まで到達した時点での音声データのフレーム番号が探索完了フレーム番号Nf_endとして認識される。ステップＳ４０５では、後向き探索においてフレームごとに記憶された最大累積尤度Mriのうち、最終フレームから前記探索完了フレーム直前のフレームまでの最大累積尤度Mr（Nf_end＋１）が読み出される。

ステップＳ４０６では、状態仮説の累積尤度Sfと前記最大累積尤度M（Nf_end＋１）との加算値をフレーム数Tで除してフレーム平均尤度Sf_aveが算出される。ステップＳ４０７では、認識結果候補が他にもあるか否かが判定され、他にもあれば、ステップＳ４０１へ戻って認識結果を切り替えながら上記した各処理が繰り返される。

図８は、前記フレーム平均尤度の算出方法を模式的に表現した図であり、観測系列が最終フレームまで到達した単語仮説Dに関しては、その累積尤度Sf23をフレーム数T（＝２３）で除した値Sf23/Tがフレーム平均尤度となる。これに対して、観測系列が最終フレームまで到達していない単語仮説Eに関しては、その累積尤度Sf9と、後向き探索で得られた最大累積尤度Mr14との加算値をフレーム数T（＝２３）で除した値(Sf9+Mr14)/Tがフレーム平均尤度となる。同様に、観測系列が最終フレームまで到達していない単語仮説Fに関しては、その累積尤度Sf18と後向き探索で得られた最大累積尤度Mr5との加算値をフレーム数T（＝２３）で除した値(Sf18+Mr5)/Tがフレーム平均尤度となる。

図７は、後向き探索におけるフレーム平均尤度の算出手順を示したフローチャートであり、ステップＳ５０１では、後向き探索で得られた認識結果候補（状態仮説）の一つが今回のフレーム平均尤度の計算対象として選択される。ステップＳ５０２では、音声データの先頭フレームに到達した単語仮説であるか否かが判定され、音声データの先頭フレームに到達した単語仮説であればステップＳ５０３へ進む。ステップＳ５０３では、状態仮説の累積尤度Srを最終フレームから先頭フレームまでのフレーム数Tで除してフレーム平均尤度Sr_aveが算出される。

これに対して、音声データの最終フレームに到達するよりも前に文法上の最後のHMM状態まで到達した単語仮説であればステップＳ５０４へ進む。ステップＳ５０４では、観察系列の最後のフレーム番号が探索完了フレーム番号Nr_endとして認識される。ステップＳ５０５では、前向き探索においてフレームごとに記憶された最大累積尤度Mfのうち、先頭フレームから前記探索完了フレームの次のフレームまでの最大累積尤度が読み出される。

ステップＳ５０６では、累積尤度Srと最大累積尤度M（Nr_end−１）との加算値をフレーム数Tで除してフレーム平均尤度Sr_aveが算出される。ステップＳ５０７では、認識結果候補が他にもあるか否かが判定され、他にもあれば、ステップＳ５０１へ戻って認識結果を切り替えながら上記した各処理が繰り返される。

再び図８を参照し、ここでは音声データの先頭まで到達した単語仮説が無く、音声データの最終フレームまで到達していない単語仮説Gに関しては、その累積尤度Sr14と、前向き探索で得られた最大累積尤度Mf9との加算値をフレーム数T（＝２３）で除した値(Sr14+Mr9)/Tがフレーム平均尤度となる。同様に、音声データの最終フレームまで到達していない単語仮説Hに関しては、その累積尤度Sf15と前向き探索で得られた最大累積尤度Mf8との加算値をフレーム数T（＝２３）で除した値(Sf15+Mf8)/Tがフレーム平均尤度となる。

図２へ戻り、以上のようにして、文法上の最後のHMM状態まで到達した全ての状態仮説（図８の例では、１０個）についてフレーム平均尤度が求まると、ステップＳ６では、全てのフレーム平均尤度が昇順にソートされる。このステップＳ６では、発声全体のフレーム平均尤度の大きさ順にソートしたり、前向き探索と後向き探索とで共通の認識結果を優先的に上位にソートしたり、あるいは前向き探索と後向き探索とのキーワード区間（ポーズを除いた発声期間）のフレーム平均尤度の順にソートしたりできる。ステップＳ７では、フレーム平均尤度が最大値を示す状態仮説が認識結果として出力される。

なお、前記ステップＳ６における次いで、本発明の第２実施形態について説明する。上記した第１実施形態では、先頭フレームから最終フレームまでの全てのフレーム区間を比較対象とするために、前向き探索において観察系列が最終フレームに達する前に探索を終了した状態仮説には、後ろ向き探索で得られた最大累積尤度で未探索フレーム区間の尤度を補完し、後向き探索において観察系列が先頭フレームに達する前に探索を終了した状態仮説には、前向き探索で得られた最大累積尤度で未探索フレーム区間の尤度を補完するものとして説明した。これに対して、第２実施形態では、上記した２つの探索とは別にタイプライタ探索を実行して各フレームまでの最大累積尤度を求め、この累積尤度で前向き探索および後向き探索における未探索フレーム区間の尤度を補完するようにした点に特徴がある。

図９は、本発明の第２実施形態に係る音声認識装置の主要部の構成を示したブロック図であり、前記と同一の符号は同一または同等部分を表している。

スコア正規化用探索用データベース１４Ｔには、スコア正規化用探索用の文法が予め記憶されている。スコア正規化用探索部１５Ｔは、スコア正規化用探索用の文法に音響特徴パラメータの時系列データを照合させて音響的な尤度を算出し、時間方向に尤度を累積して、これを探索結果記憶部１６Ｔに記憶する。尤度補完部２１は、後に詳述するように、前向き探索および後向き探索で得られた認識結果候補の未探索フレーム区間の累積尤度を、スコア正規化用探索において前記と同様の手順でフレームごとに求めた最大累積尤度で補完する。

フレーム平均尤度算出部１７Ｆは、前向き探索において枝刈りされることなく文法上の最後のHMM状態まで到達した状態仮説に関して、最終フレームまで補完された累積尤度に基づいてフレーム平均尤度を算出する。フレーム平均尤度算出部１７Ｒも同様に、後向き探索において枝刈りされることなく文法上の最後のHMM状態まで到達した状態仮説に関して、先頭フレームまで補完された累積尤度に基づいてフレーム平均尤度を算出する。認識結果判定部１８は、前向き探索および後向き探索で得られた全ての認識結果候補を、そのフレーム平均尤度に基づいてソートし、フレーム平均尤度が最も高い状態系列にバックトレースを実行して認識結果を判定する。

図１０は、この第２実施形態の手順を示したフローチャートであり、タイプライタ探索、前向き探索および後向き探索の探索結果に基づいて音声認識が行われる。

ステップＳ２１では、パラメータ記憶部１３に蓄積された各フレームの音響特徴パラメータのパワーに基づいて、発話タイミングおよび終話タイミングが検知されるそして、発話タイミングから数百ms遡った時刻のフレームが先頭フレームとして識別され、終話タイミングから数百ms経過した時刻のフレームが最終フレームとして識別される。

ステップＳ２２では、先頭フレームから最終フレームまでを探索範囲として、タイプライタ探索が例えば前向きで実施される。このタイプライタ探索では、先頭フレームから各フレームまでの累積尤度の最大値が逐一記憶される。

ステップＳ２３では、先頭フレームから最終フレームまでを対象に前向き探索が実行され、文法上の最後のHMM状態まで到達した全ての状態仮説が前向き探索の認識結果候補として抽出される。ステップＳ２４では、最終フレームから先頭フレームまでを対象に後向き探索が実行され、文法上の最後のHMM状態まで到達した全ての状態仮説が後向き探索の認識結果候補として抽出される。

ステップＳ２５では、前向き探索で得られた認識結果候補の全フレーム区間の平均尤度が、未探索フレーム区間を前記タイプライタ探索で得られた累積尤度で補完して算出される。ステップＳ２６でも同様に、後向き探索で得られた認識結果候補の全フレーム区間の平均尤度が、未探索フレーム区間を前記タイプライタ探索で得られた累積尤度で補完して算出される。

図１１は、第２実施形態における前記フレーム平均尤度の算出方法を模式的に表現した図であり、前向き探索において音声データの最終フレームまで到達した状態仮説Dに関しては、その累積尤度Sf23をフレーム数T（＝２３）で除した値Sf23/Tがフレーム平均尤度となる。

これに対して、音声データの最終フレームまで到達するよりも前に文法上の最後のHMM状態まで到達した状態仮説Eに関しては、その未探索フレーム区間をタイプライタ探索で得られた累積尤度（M23-M9）で補完して得られた全フレームの累積尤度(Sf9+M23-M9)を全フレーム数T（＝２３）で除した値(Sf9+M23-M9)/Tがフレーム平均尤度として求められる。

後ろ向き探索に関しても同様に、観測系列が先頭フレームまで到達するよりも前に文法上の最後のHMM状態まで到達した状態仮説Gに関しては、その未探索フレーム区間をタイプライタ探索で得られた累積尤度M9で補完して得られた全フレームの累積尤度(Sr14+M9)を全フレーム数T（＝２３）で除した値(Sr14+M9)/Tがフレーム平均尤度として求められる。

図１０へ戻り、以上のようにして、前向き探索および後向き探索において、状態仮説が文法上の最後のHMM状態まで到達した全ての認識結果候補についてフレーム平均尤度が求まると、ステップＳ２７では、全てのフレーム平均尤度が昇順にソートされる。ステップＳ２８では、フレーム平均尤度が最大値を示す状態仮説にバックトレースを実行して認識結果が判定される。

図１２は、本発明の第３実施形態に係る音声認識装置の主要部の構成を示したブロック図であり、前記と同一の符号は同一または同等部分を表している。

本実施形態では、前記図９に関して説明した第２実施形態の構成に加えて、スコア正規化用探索結果と前向き探索結果とを比較して信頼性尺度を算出する信頼性尺度算出部２０Ｆおよびスコア正規化用探索結果と後向き探索結果とを比較して信頼性尺度を算出する信頼性尺度算出部２０Ｒを設け、各探索結果の信頼性尺度に基づいて認識結果を判定するようにした点に特徴がある。

図１３は、この第３実施形態の手順を示したフローチャートであり、ステップＳ３１では、パラメータ記憶部１３に蓄積された各フレームの音響特徴パラメータのパワーに基づいて、発話タイミングおよび終話タイミングが検知される。そして、発話タイミングから数百ms遡った時刻のフレームが先頭フレームとして識別され、終話タイミングから数百ms経過した時刻のフレームが最終フレームとして識別される。

ステップＳ３２では、先頭フレームから最終フレームまでを探索範囲として、スコア正規化用探索が、例えば前向きで実施される。このスコア正規化用探索でも、先頭フレームから各フレームまでの累積尤度の最大値が逐一記憶される。

ステップＳ３３では、先頭フレームから最終フレームまでを対象に前向き探索が実行され、文法上の最後のHMM状態まで到達した全ての状態仮説が前向き探索の認識結果候補として抽出される。ステップＳ３４では、最終フレームから先頭フレームまでを対象に後向き探索が実行され、文法上の最後のHMM状態まで到達した全ての状態仮説が後向き探索の認識結果候補として抽出される。

ステップＳ３５では、前記第２実施形態と同様に、前向き探索で得られた認識結果候補の全フレーム区間の平均尤度が、未探索フレーム区間を前記スコア正規化用探索で得られた累積尤度で補完して算出される。ステップＳ３６でも同様に、後向き探索で得られた認識結果候補の全フレーム区間の平均尤度が、未探索フレーム区間を前記スコア正規化用探索で得られた累積尤度で補完して算出される。

ステップＳ３７では、スコア正規化用探索結果と前向き探索結果とが比較されて各前向き探索結果の信頼性尺度が算出される。ステップＳ３８では、スコア正規化用探索結果と後向き探索結果とが比較されて各後向き探索結果の信頼性尺度が算出される。ステップＳ３９では、各信頼性尺度の算出結果がソートされる。このステップＳ３９では、前向き探索および後向き探索で共通の結果を優先的に上位にソートしたり、発声全体の信頼性尺度の順にソートしたり、前向き探索および後向き探索のキーワード区間の信頼性尺度の順にソートしたりできる。ステップＳ４０では、最上位に位置する信頼性尺度に対応した認識結果候補が認識結果とされる。

本発明に係る音声認識装置の第１実施形態のブロック図である。第１実施形態の音声認識手順を示したフローチャートである。前向き探索の手順を示したフローチャートである。後向き探索の手順を示したフローチャートである。状態仮説の観測系列と文法上のHMM状態との関係を示した図である。前向き探索におけるフレーム平均尤度の算出手順を示したフローチャートである。後向き探索におけるフレーム平均尤度の算出手順を示したフローチャートである。第１実施形態におけるフレーム平均尤度の算出方法を示した図である。本発明に係る音声認識装置の第２実施形態のブロック図である。第２実施形態の音声認識手順を示したフローチャートである。第２実施形態におけるフレーム平均尤度の算出方法を示した図である。本発明に係る音声認識装置の第３実施形態のブロック図である。第３実施形態の音声認識手順を示したフローチャートである。前向き探索で参照される文法の一例を示した図である。前向き探索で参照される木構造辞書の一例を示した図である。自己遷移とL-R遷移との空間（トレリス）の一例を示した図である。後向き探索で参照される文法の一例を示した図である。後向き探索で参照される木構造辞書の一例を示した図である。

符号の説明

１１…音声信号入力部，１２…音響分析部，１３…パラメータ記憶部，１４Ｆ…前向き探索用データベース，１４Ｒ…後向き探索用データベース，１５Ｆ…前向き探索部，１５Ｒ…後向き探索部，１６Ｒ…探索結果記憶部，１７Ｆ，１７Ｒ…フレーム平均尤度算出部，１８…認識結果判定部，１９…尤度補完部

Claims

音声信号から抽出された音響パラメータと音素モデルの確率的な状態遷移ネットワークとを照合し、前記音響パラメータと音素モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識装置において、
音声信号からフレーム単位で音響特徴パラメータを抽出する音響分析手段と、
前記音響特徴パラメータを記憶するパラメータ記憶手段と、
前記パラメータ記憶手段から音響特徴パラメータを取り込んで、前向き探索および後ろ向き探索を含む複数の探索を実行する手段と、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、
前記未探索フレーム区間の累積尤度が補完された各認識結果候補について確からしさの尺度を算出する手段と、
前記各認識結果候補の確からしさに基づいて認識結果をマージもしくは取捨選択する手段とを含むことを特徴とする音声認識装置。
前記複数の探索を実行する手段が、
前記パラメータ記憶手段から音響特徴パラメータを正順に取り込んで前向き探索を実行する前向き探索手段と、
前記前向き探索中に、各フレームまでの累積尤度を記憶する手段と、
前記パラメータ記憶手段から音響特徴パラメータを逆順に取り込んで後向き探索を実行する後向き探索手段と、
前記後向き探索中に、各フレームまでの累積尤度を記憶する手段とを含み、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、後向き探索で得られた当該未探索フレーム区間の累積尤度で補完し、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前向き探索で得られた当該未探索フレーム区間の累積尤度で補完することを特徴とする請求項２に記載の音声認識装置。
前記複数の探索を実行する手段が、
前記パラメータ記憶手段から音響特徴パラメータを正順に取り込んで前向き探索を実行する前向き探索手段と、
前記パラメータ記憶手段から音響特徴パラメータを逆順に取り込んで後向き探索を実行する後向き探索手段と、
前記パラメータ記憶手段から音響特徴パラメータを取り込んで音節タイプライタを用いた探索やディクテーション用モデルを用いた探索を実行するスコア正規化用探索手段と、
前記スコア正規化用探索中に、各フレームまでの累積尤度を記憶する手段とを含み、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前記タイプライタ探索で得られた当該未探索フレーム区間の累積尤度で補完し、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完することを特徴とする請求項１に記載の音声認識装置。
音声信号から抽出された音響パラメータと音素モデルの確率的な状態遷移ネットワ−クとを照合し、前記音響パラメータと音素モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識装置において、
音声信号からフレーム単位で音響特徴パラメータを抽出する音響分析手段と、
前記音響特徴パラメータを記憶するパラメータ記憶手段と、
前記パラメータ記憶手段から音響特徴パラメータを正順に取り込んで前向き探索を実行する前向き探索手段と、
前記パラメータ記憶手段から音響特徴パラメータを逆順に取り込んで後向き探索を実行する後向き探索手段と、
前記パラメータ記憶手段から音響特徴パラメータを取り込んで音節タイプライタを用いた探索やディクテーション用モデルを用いた探索を実行するスコア正規化用探索手段と、
前記スコア正規化用探索中に、各フレームまでの累積尤度を記憶する手段と、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の累積尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の累積尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、
前記スコア正規化用探索で得られた認識結果と前向きおよび後向きの各探索で得られた認識結果との比較結果に基づいて、前向きおよび後向きの各探索で得られた認識結果候補の信頼性尺度を算出する手段と、
前記各認識結果候補の信頼性尺度に基づいて認識結果をマージもしくは取捨選択する手段とを含むことを特徴とする音声認識装置。
前記認識結果を判定する手段は、フレーム平均尤度が最も高い認識結果候補を認識結果とすることを特徴とする請求項２ないし４のいずれかに記載の音声認識装置。
前記認識結果を判定する手段は、前向き探索および後向き探索に共通する認識結果候補を優先的に認識結果とすることを特徴とする請求項２ないし４のいずれかに記載の音声認識装置。
前記認識結果を判定する手段は、信頼性尺度が最も高い認識結果候補を認識結果とすることを特徴とする請求項５に記載の音声認識装置。
音声信号から抽出された音響パラメータと音素モデルの確率的な状態遷移ネットワークとを照合し、前記音響パラメータと音素モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識方法において、
音声信号からフレーム単位で音響特徴パラメータを抽出する手順と、
前記音響特徴パラメータを記憶する手順と、
前記パラメータ記憶手段から音響特徴パラメータを取り込んで、前向き探索および後ろ向き探索を含む複数の探索を実行する手順と、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手順と、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手順と、
前記未探索フレーム区間の尤度が補完された各認識結果候補のフレーム平均尤度を算出する手順と、
前記各認識結果候補のフレーム平均尤度に基づいて認識結果を判定する手順とを含むことを特徴とする音声認識方法。
前記複数の探索を実行する手順が、
音響特徴パラメータを正順に取り込んで前向き探索を実行する手順と、
前記前向き探索中に、各フレームまでの累積尤度を記憶する手順と、
音響特徴パラメータを逆順に取り込んで後向き探索を実行する手順と、
前記後向き探索中に、各フレームまでの累積尤度を記憶する手順とを含み、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、後向き探索で得られた当該未探索フレーム区間の累積尤度で補完補完し、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前向き探索で得られた当該未探索フレーム区間の累積尤度で補完補完することを特徴とする請求項９に記載の音声認識装置。
前記複数の探索を実行する手順が、
音響特徴パラメータを正順に取り込んで前向き探索を実行する手順と、
音響特徴パラメータを逆順に取り込んで後向き探索を実行する手順と、
音響特徴パラメータを取り込んでスコア正規化用探索を実行する手順と、
前記スコア正規化用探索中に、各フレームまでの累積尤度を記憶する手順とを含み、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完補完し、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完補完することを特徴とする請求項８に記載の音声認識方法。
音声信号から抽出された音響パラメータと音素モデルの確率的な状態遷移ネットワ−クとを照合し、前記音響パラメータと音素モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識方法において、
音声信号からフレーム単位で音響特徴パラメータを抽出する手順と、
前記音響特徴パラメータを記憶する手順と、
前記音響特徴パラメータを正順に取り込んで前向き探索を実行する手順と、
前記音響特徴パラメータを逆順に取り込んで後向き探索を実行する手順と、
前記音響特徴パラメータを取り込んでスコア正規化用探索を実行する手順と、
前記スコア正規化用探索中に、各フレームまでの累積尤度を記憶する手順と、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の累積尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完補完する手順と、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の累積尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完補完する手順と、
前記スコア正規化用探索で得られた認識結果と前向きおよび後向きの各探索で得られた認識結果候補との比較結果に基づいて、前向きおよび後向きの各探索で得られた認識結果候補の信頼性尺度を算出する手順と、
前記各認識結果候補の信頼性尺度に基づいて認識結果を判定する手順とを含むことを特徴とする音声認識方法。
前記認識結果を判定する手順では、フレーム平均尤度が最も高い認識結果候補が認識結果とされることを特徴とする請求項８ないし１０のいずれかに記載の音声認識方法。
前記認識結果を判定する手段では、前向き探索および後向き探索に共通する認識結果候補が優先的に認識結果とされることを特徴とする請求項８ないし１０のいずれかに記載の音声認識方法。
前記認識結果を判定する手順では、信頼性尺度が最も高い認識結果候補が認識結果とされることを特徴とする請求項１１に記載の音声認識方法。
前記請求項８ないし１４のいずれかに記載の音声認識方法を、コンピュータに実行させるための音声認識プログラム。
前記請求項１５に記載した音声認識プログラムをコンピュータが読み取り可能に記憶した記録媒体。