JP4727330B2

JP4727330B2 - 音声認識装置及び音声認識プログラム

Info

Publication number: JP4727330B2
Application number: JP2005207526A
Authority: JP
Inventors: 啓恭伍井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-07-15
Filing date: 2005-07-15
Publication date: 2011-07-20
Anticipated expiration: 2025-07-15
Also published as: JP2007025279A

Description

この発明は、音声を認識して、その音声に対応する単語系列を出力する音声認識装置及び音声認識プログラムに関するものである。

言葉をテキスト化する技術は有用であり、例えば、医療や法律分野の書き起こしや、放送字幕の作成など、多くの分野で書き起こしに対する効率向上が望まれている。
しかし、実際の使用時には、ユーザが入力を希望する音声と、入力を希望しない音声があり、これらの音声を弁別するには大きな技術的課題がある。

無意味語の照合によって認識単語をリジェクトすることにより、上記の技術的な課題を解決している音声認識装置が、以下の特許文献１に開示されている。
また、冗長語を含むモデルと、冗長語が除かれているモデルを用いることにより、音声の認識精度を高めている音声認識装置が、以下の特許文献２に開示されている。
ただし、この音声認識装置では、発声内の冗長語に特化した処理ではなく、発声単位に入力したい句であるか否かを弁別可能とするものである。
以下、この明細書で用いる専門用語は、以下の非特許文献１，２に開示されている用語である。

従来の音声認識装置では、入力音声を精度よく認識することができるようにするため、言語モデルとしてｎ−ｇｒａｍを用いる方式を採用しており、マイク、音響処理装置、単語予測装置、ＲＡＭ、３−ｇｒａｍ表及び出力装置から構成されている。
以下、この音声認識装置の処理内容を説明する。

音声認識装置のマイクは、ユーザが声を発すると、その音声を取り込み、その音声信号を電気信号に変換して出力する。
音響処理装置は、マイクから電気信号を受けると、その電気信号をＡ／Ｄ変換し、ディジタル信号である電気信号を量子化する。
そして、音響処理装置は、その量子化信号をスペクトル分析して、その量子化信号を音節単位に分離する認識処理を実施する。
そして、音響処理装置は、音節単位の認識結果を連接して音韻列候補を生成し、その音韻列候補をＲＡＭに記憶する。

単語予測装置は、上記のようにして、音響処理装置が音韻列候補をＲＡＭに記憶すると、そのＲＡＭから音韻列候補を１つ取り出し、先頭単語列の初期化を実施する。
また、単語予測装置は、３−ｇｒａｍ表から検索キーに対応する３−ｇｒａｍ情報を検索し、その３−ｇｒａｍ情報に基づいて単語３連鎖の確率値を計算する。

単語予測装置は、単語３連鎖の確率値を計算すると、その単語３連鎖の確率値を参照して、ＲＡＭに記憶されている音韻列候補に対して最も確率の高い単語列を特定し、その単語列をＲＡＭに記憶する。
単語予測装置は、ＲＡＭに記憶されている全ての音韻列候補に対して、最も確率の高い単語列の特定処理を実施し、最も確率の高い単語列Ｗと音韻列候補を選択する。
出力装置は、単語予測装置が単語列Ｗと音韻列候補を選択すると、その単語列Ｗから表記を取り出し、その表記を出力する。
これにより、ユーザの音声に類似している確率が高い単語列が提示される。

ここで、音韻列候補に対して最も確率の高い単語列の特定処理について説明する。
単語列候補の生成は、単語列の確率Ｐ（Ｗ｜Ｙ）を最大にする単語列Ｗを算出することで得られる。単語列の確率は次式から得られる。

式（１）において、Ｗは発話された単語列であり、Ｙは音韻列である。
式（１）では、Ｐ（Ｗ｜Ｙ）を最大にするＷを求めればよく、右辺の中で単語列Ｗに共通なＰ（Ｙ）については省略することができるため、Ｐ（Ｙ｜Ｗ）Ｐ（Ｗ）を最大にするＷを求めればよい。
Ｐ（Ｙ｜Ｗ）は単語列Ｗが与えられたときの音韻列の出現確率であり、Ｐ（Ｗ）は単語列の出現確率である。

時刻ｔ＝１，２，…，Ｌにおいて、単語列Ｗに対応する音韻列が下記の式（２）で決定される場合、下記の式（３）に示すように、Ｐ（Ｗ｜Ｙ）は音韻確率から算出することができる。
Ｙ＝Ｙ₁，Ｙ₂，・・・，Ｙ_L （２）

また、単語列の出現確率Ｐ（Ｗ）は、ｍ語の単語列Ｗが下記の式（４）で決定される場合、音韻確率とは独立に、下記の式（５）に示す単語３−ｇｒａｍの確率から近似することができる。
Ｗ＝ｗ₁，ｗ₂，・・・，ｗ_m （４）

上記の計算により、音韻列候補のうち、３−ｇｒａｍインデックスに単語の列が存在するものについて、単語列確率Ｐ（Ｗ｜Ｙ）を最大にする単語列Ｗを算出する。
各単語の出現確率は、単語の３−ｇｒａｍ表に記憶されている頻度値を参照して算出する。
これにより、音声認識装置の音声認識精度が高められるが、ユーザの音声が、入力を希望する音声であるのか、入力を希望しない音声であるのかの弁別は、次のようにしている。

即ち、音声認識装置は、入力単語と非入力単語を単語辞書に登録する手法を採用して、弁別を行っている。
例えば、入力単語として「泣こう」、非入力単語として「鳴こう」を単語辞書に登録することにより、ユーザの音声が「なこう」であるとき、音声認識結果として「泣こう」を出力し、「鳴こう」を出力しないようにしている。
これにより、「泣こう」と「鳴こう」の単語を弁別することができるが、次のような句は、句の全体を１単語として単語辞書に登録しない限り、弁別することができない。
例えば、「子供が泣く」と「鳥が鳴く」が入力句で、「子供が鳴く」と「鳥が泣く」が非入力句であることは弁別することができない。言語現象は実際にはさらに複雑であり「子供が鳴く鳥をさがす」などのように単語の組み合わせは無数に存在するため正しい句として予め登録するには困難がある。

特開昭６１−５２６９８号公報（第７頁から第１３頁、図１）特開２００２−２７８５８４号公報（段落番号［００４７］から［００６０］、図１）鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著：「音声認識システム」株式会社オーム社，平成１３年５月１５日北研二著,「確率的言語モデル」,東京大学出版会、１９９９年１１月２５日

従来の音声認識装置は以上のように構成されているので、入力単語と非入力単語を単語辞書に登録すれば、単語を弁別することができるが、ユーザの音声が句である場合、句の全体を１単語として単語辞書に登録しない限り、弁別することができない。換言すると、句の全体を１単語として単語辞書に登録すれば、句の弁別も可能になるが、句の全体を１単語として単語辞書に登録するには、膨大な記憶メモリが必要になり、現実的には対応が困難である課題があった。

この発明は上記のような課題を解決するためになされたもので、句の全体を１単語として単語辞書に登録することなく、精度よく句単位のユーザの音声を弁別することができる音声認識装置を得ることを目的とする。

この発明に係る音声認識装置は、入力対象分野の単語ｎ−ｇｒａｍを参照して、音響系列変換手段により変換された音響系列と最も尤度が高い句単位の単語系列を特定する第１の単語系列特定手段と、入力不要分野の単語ｎ−ｇｒａｍを参照して、音響系列変換手段により変換された音響系列と最も尤度が高い句単位の単語系列を特定する第２の単語系列特定手段とを設け、第１の単語系列特定手段により特定された句単位の単語系列の尤度と第２の単語系列特定手段により特定された句単位の単語系列の尤度を比較し、第１の単語系列特定手段により特定された句単位の単語系列の尤度の方が高ければ、その句単位の単語系列を出力するようにしたものである。

この発明によれば、入力対象分野の単語ｎ−ｇｒａｍを参照して、音響系列変換手段により変換された音響系列と最も尤度が高い句単位の単語系列を特定する第１の単語系列特定手段と、入力不要分野の単語ｎ−ｇｒａｍを参照して、音響系列変換手段により変換された音響系列と最も尤度が高い句単位の単語系列を特定する第２の単語系列特定手段とを設け、第１の単語系列特定手段により特定された句単位の単語系列の尤度と第２の単語系列特定手段により特定された句単位の単語系列の尤度を比較し、第１の単語系列特定手段により特定された句単位の単語系列の尤度の方が高ければ、その句単位の単語系列を出力するように構成したので、句の全体を１単語として単語辞書に登録することなく、ユーザの音声が入力対象分野の音響系列である場合に限り、その音響系列に対応している句単位の単語系列を出力することができる効果がある。

実施の形態１．
図１はこの発明の実施の形態１による音声認識装置を示す構成図であり、図において、マイク１はユーザが声を発すると、その音声を取り込んで、その音声信号を電気信号に変換して出力する処理を実施する。なお、マイク１は音声取込手段を構成している。
音響処理装置２はマイク１から出力された電気信号をＡ／Ｄ変換して、ディジタル信号である電気信号を量子化し、その量子化信号をスペクトル分析して、その量子化信号を音節単位に分離することにより、音節単位の認識結果を連接して音韻列候補（音響系列）を生成し、その音韻列候補をＲＡＭ３に記憶する処理を実施する。ＲＡＭ３は音響処理装置２により生成された音韻列候補を格納するメモリである。
なお、音響処理装置２から音響系列変換手段が構成されている。

対象単語ｎ−ｇｒａｍ４は音響系列に対応する単語系列の出現確率が記憶されている入力対象分野（例えば、医療業務の分野）のｎ−ｇｒａｍモデルである。
不要単語ｎ−ｇｒａｍ５は音響系列に対応する単語系列の出現確率が記憶されている入力不要分野（例えば、日常一般的に使用する言葉がモデル化された入力不要の分野）のｎ−ｇｒａｍモデルである。
対象単語ｎ−ｇｒａｍ４及び不要単語ｎ−ｇｒａｍ５のｎ−ｇｒａｍモデルは十分な規模のコーパスから生成されて事前に記録されており、例えば、２−ｇｒａｍ（単語２連鎖）と１−ｇｒａｍから構成されている。
なお、先頭の音韻列が検索キーになっており、２−ｇｒａｍでは、検索キーに対して前接形態素、後接形態素及び確率が記録されている。２−ｇｒａｍに記録されている確率は、前接形態素の次に後接形態素が接続する確率であり、２−ｇｒａｍの生起確率に相当する。
１−ｇｒａｍでは、直接、次に連接する形態素の情報と確率が記録されている。１−ｇｒａｍに記録されている確率は、その形態素自身の生起確率である。なお、形態素は表記、音素表記、見出し読み及び品詞の組で表されている。

言語処理装置６は前処理部６ａと単語系列特定部６ｂと単語系列特定部６ｃから構成されている。
言語処理装置６の前処理部６ａは所定の初期化処理等を実施する。
言語処理装置６の単語系列特定部６ｂは対象単語ｎ−ｇｒａｍ４を参照して、ＲＡＭ３に格納されている音韻列候補と最も尤度が高い単語系列を特定する処理を実施する。
言語処理装置６の単語系列特定部６ｃは不要単語ｎ−ｇｒａｍ５を参照して、ＲＡＭ３に格納されている音韻列候補と最も尤度が高い単語系列を特定する処理を実施する。
なお、単語系列特定部６ｂは第１の単語系列特定手段を構成し、単語系列特定部６ｃは第２の単語系列特定手段を構成している。

リジェクト装置７は言語処理装置６の単語系列特定部６ｂにより特定された単語系列の尤度と単語系列特定部６ｃにより特定された単語系列の尤度を比較し、単語系列特定部６ｃにより特定された単語系列の尤度の方が高ければ、音声認識結果である単語系列の出力を行わず、単語系列特定部６ｂにより特定された単語系列の尤度の方が高ければ、その単語系列を出力する処理を実施する。
出力装置８はリジェクト装置７から単語系列を受けると、その単語系列から表記を取り出し、その表記を出力する処理を実施する。なお、リジェクト装置７及び出力装置８からリジェクト手段が構成されている。
図２はこの発明の実施の形態１による音声認識装置の処理内容を示すフローチャートである。

なお、図１の例では、音声認識装置の構成要素である音響処理装置２、言語処理装置６、リジェクト装置７及び出力装置８が個々のハードウェア（例えば、ＭＰＵなどのＬＳＩを実装している半導体集積回路基板）で構成されていることを想定しているが、音声認識装置がコンピュータで構成されている場合、音響処理装置２、言語処理装置６、リジェクト装置７及び出力装置８の処理内容が記述されているプログラムをコンピュータのメモリに格納し、コンピュータのＣＰＵが当該メモリに格納されているプログラムを実行するようにしてもよい。

次に動作について説明する。
マイク１は、ユーザが声を発すると、その音声を取り込んで（ステップＳＴ１）、その音声信号を電気信号に変換して、その電気信号を音響処理装置２に出力する（ステップＳＴ２）。
ここでは、図３に示すように、“ａＱｋａｓｉｔａｓｅＮｅＮ”の音声が取り込まれたものとして説明する。

音響処理装置２は、マイク１から電気信号を受けると、その電気信号をＡ／Ｄ変換して、ディジタル信号である電気信号を量子化する。
音響処理装置２は、その電気信号を量子化すると、その量子化信号をスペクトル分析して、その量子化信号を音節単位に分離することにより、音節単位の認識結果を連接して音韻列候補（音響系列）を生成し、その音韻列候補をＲＡＭ３に記憶する（ステップＳＴ３）。
なお、量子化信号をスペクトル分析して、その量子化信号を音節単位に分離する手法は、例えば、上記の非特許文献１に開示されている。

ここで、音韻列候補は、マイク１により取り込まれた音声信号であるアナログデータに対応する各音韻の確からしさが確率値で表現されたものであり、音響処理装置２から音韻列候補として、連鎖している音韻連鎖と、その連鎖の音響尤度とが出力されて、ＲＡＭ３に記憶される。
この実施の形態１では、説明の簡単化のため、音響系列を１ベストの音韻列候補音韻連鎖として、以下に示す音韻連鎖と音響尤度が出力されるものとする。
＃ａＱｋａｓｉｔａｓｅＮｅＮ＃０．９
この例では、音響尤度として確率“０．９”を出力しているが、上記の非特許文献１と同様に、確率ではなく、対数確率を出力するようにしてもよい。また、音韻連鎖については、ラティス等の効率的な記憶方式を用いてもよい。

言語処理装置６の前処理部６ａは、音響処理装置２が音韻列候補をＲＡＭ３に記憶すると、ＲＡＭ３から音韻列候補を１つ取り出すとともに、所定の初期化処理を実施する（ステップＳＴ４）。
所定の初期化処理としては、例えば、先行単語列候補として、ヌル単語「｛＃＃＃文頭｝」をＲＡＭ３に記憶するとともに、その先行単語列候補の初期言語尤度値として、確率値「１」をＲＡＭ３に記憶する処理を実施する。

言語処理装置６の前処理部６ａは、上記のようにして、所定の初期化処理を実施すると、ＲＡＭ３に記憶されている全ての先行単語列候補が音韻列候補における末端の音韻と対応しているかをチェックする（ステップＳＴ５）。
全ての先行単語列候補が音韻列候補における末端の音韻と対応していれば、ステップＳＴ１０の処理に移行するが、この段階では、まだ対応していないので、ステップＳＴ６の処理に移行する。

言語処理装置６の前処理部６ａは、まだ対応していない場合、ＲＡＭ３から先行単語列候補を１つ取り出す処理を実施する（ステップＳＴ６）。
この段階では、上述したように、先行単語列候補として、ヌル単語「｛＃＃＃文頭｝」がＲＡＭ３に記憶されているので、ヌル単語「｛＃＃＃文頭｝」が先行単語列候補として取り出される。

言語処理装置６の単語系列特定部６ｂは、前処理部６ａが先行単語列候補を取り出すと、対象単語ｎ−ｇｒａｍ４に記憶されている音韻列の中に、ステップＳＴ４で取り出されている音韻列候補と前方一致する音韻列が記憶されているか否かを判別する（ステップＳＴ７）。
図４は対象単語ｎ−ｇｒａｍ４の記憶内容を示す説明図である。
この実施の形態１では、“ａＱｋａｓｉｔａｓｅＮｅＮ”の音声が取り込まれているので、対象単語ｎ−ｇｒａｍ４の２−ｇｒａｍには、音韻列「ａＱｋａｓｉｔａｓｅＮｅＮ」と前方一致する音韻列が記憶されていないが、対象単語ｎ−ｇｒａｍ４の１−ｇｒａｍには、音韻列「ａＱｋａｓｉｔａｓｅＮｅＮ」と前方一致する音韻列「ａＱｋａｓｉｔａ」が記憶されているので、その音韻列の後接続形態素「悪化したａＱｋａｓｉｔａあっかした動詞」を後方単語の候補として、対象単語ｎ−ｇｒａｍ４の１−ｇｒａｍから抽出するとともに、対象単語ｎ−ｇｒａｍ４の１−ｇｒａｍから当該音韻列の確率“０．００１”を抽出する。

言語処理装置６の単語系列特定部６ｂは、後方単語の候補として、音韻列の後接続形態素「悪化したａＱｋａｓｉｔａあっかした動詞」を抽出すると、前処理部６ａにより取り出された先行単語列候補（現在の先行単語列候補）に、その後接続形態素「悪化したａＱｋａｓｉｔａあっかした動詞」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をＲＡＭ３に記憶する。
また、単語系列特定部６ｂは、新たな先行単語列候補の言語尤度を下記のように計算する（ステップＳＴ８）。
新たな先行単語列候補の言語尤度
＝現在の先行単語列候補の確率×後接続形態素の確率
＝１×０．００１
＝０．００１

言語処理装置６の単語系列特定部６ｂは、上記のようにして、新たな先行単語列候補を生成して、新たな先行単語列候補の言語尤度を計算しても、ステップＳＴ４で取り出されている音韻列候補「ａＱｋａｓｉｔａｓｅＮｅＮ」の中に未だ前方一致していない音韻列「ｓｅＮｅＮ」が残されているので、対象単語ｎ−ｇｒａｍ４に記憶されている音韻列の中に、その音韻列「ｓｅＮｅＮ」と前方一致する音韻列が記憶されているか否かを判別する。
この場合、対象単語ｎ−ｇｒａｍ４の１−ｇｒａｍには、音韻列「ｓｅＮｅＮ」と前方一致する音韻列「ｓｅＮ」が記憶されているので、その音韻列の後接続形態素「腺ｓｅＮせん接尾語」を後方単語の候補として、対象単語ｎ−ｇｒａｍ４の１−ｇｒａｍから抽出するとともに、対象単語ｎ−ｇｒａｍ４の１−ｇｒａｍから当該音韻列の確率“０．００３”を抽出する。

言語処理装置６の単語系列特定部６ｂは、後方単語の候補として、音韻列の後接続形態素「腺ｓｅＮせん接尾語」を抽出すると、先に生成した新たな先行単語列候補（現在の先行単語列候補）に、その後接続形態素「腺ｓｅＮせん接尾語」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をＲＡＭ３に記憶する。
また、単語系列特定部６ｂは、新たな先行単語列候補の言語尤度を下記のように再計算する。
新たな先行単語列候補の言語尤度
＝現在の先行単語列候補の確率×後接続形態素の確率
＝０．００１×０．００３
＝０．０００００３

また、言語処理装置６の単語系列特定部６ｂは、新たな先行単語列候補を生成して、新たな先行単語列候補の言語尤度を計算しても、ステップＳＴ４で取り出されている音韻列候補「ａＱｋａｓｉｔａｓｅＮｅＮ」の中に未だ前方一致していない音韻列「ｅＮ」が残されているので、対象単語ｎ−ｇｒａｍ４に記憶されている音韻列の中に、その音韻列「ｅＮ」と前方一致する音韻列が記憶されているか否かを判別する。
この場合、対象単語ｎ−ｇｒａｍ４の１−ｇｒａｍには、音韻列「ｅＮ」と前方一致する音韻列「ｅＮ」が記憶されているので、その音韻列の後接続形態素「炎ｅＮえん接尾語」を後方単語の候補として、対象単語ｎ−ｇｒａｍ４の１−ｇｒａｍから抽出するとともに、対象単語ｎ−ｇｒａｍ４の１−ｇｒａｍから当該音韻列の確率“０．００２”を抽出する。

言語処理装置６の単語系列特定部６ｂは、後方単語の候補として、音韻列の後接続形態素「炎ｅＮえん接尾語」を抽出すると、先に生成した新たな先行単語列候補（現在の先行単語列候補）に、その後接続形態素「炎ｅＮえん接尾語」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をＲＡＭ３に記憶する。
また、単語系列特定部６ｂは、新たな先行単語列候補の言語尤度を下記のように再計算する。
新たな先行単語列候補の言語尤度
＝現在の先行単語列候補の確率×後接続形態素の確率
＝０．０００００３×０．００２
＝０．００００００００６
＝６．０×１０^-9

言語処理装置６の単語系列特定部６ｂは、ステップＳＴ４で取り出されている音韻列候補「ａＱｋａｓｉｔａｓｅＮｅＮ」の中に前方一致していない音韻列がなくなると、下記に示すように、入力対象分野における新たな先行単語列候補の尤度を計算し、新たな先行単語列候補の尤度をＲＡＭ３に記憶する（ステップＳＴ９）。
新たな先行単語列候補の尤度
＝新たな先行単語列候補の言語尤度×音響尤度
＝６．０×１０^-9×０．９
＝５．４×１０^-9

言語処理装置６の単語系列特定部６ｃは、前処理部６ａが先行単語列候補を取り出すと、不要単語ｎ−ｇｒａｍ５に記憶されている音韻列の中に、ステップＳＴ４で取り出されている音韻列候補と前方一致する音韻列が記憶されているか否かを判別する（ステップＳＴ７）。
図５は不要単語ｎ−ｇｒａｍ５の記憶内容を示す説明図である。
この実施の形態１では、“ａＱｋａｓｉｔａｓｅＮｅＮ”の音声が取り込まれており、不要単語ｎ−ｇｒａｍ５の２−ｇｒａｍには、音韻列「ａＱｋａｓｉｔａｓｅＮｅＮ」と前方一致する音韻列「ａＱ」が記憶されているので、その音韻列の後接続形態素「あっａＱあっ感動詞」を後方単語の候補として、不要単語ｎ−ｇｒａｍ５の２−ｇｒａｍから抽出するとともに、不要単語ｎ−ｇｒａｍ５の２−ｇｒａｍから当該音韻列の確率“０．０１”を抽出する。

言語処理装置６の単語系列特定部６ｃは、後方単語の候補として、音韻列の後接続形態素「あっａＱあっ感動詞」を抽出すると、前処理部６ａにより取り出された先行単語列候補（現在の先行単語列候補）に、その後接続形態素「あっａＱあっ感動詞」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をＲＡＭ３に記憶する。
また、単語系列特定部６ｃは、新たな先行単語列候補の言語尤度を下記のように計算する（ステップＳＴ８）。
新たな先行単語列候補の言語尤度
＝現在の先行単語列候補の確率×後接続形態素の確率
＝１×０．０１
＝０．０１

言語処理装置６の単語系列特定部６ｃは、上記のようにして、新たな先行単語列候補を生成して、新たな先行単語列候補の言語尤度を計算しても、ステップＳＴ４で取り出されている音韻列候補「ａＱｋａｓｉｔａｓｅＮｅＮ」中に未だ前方一致していない音韻列「ｋａｓｉｔａｓｅＮｅＮ」が残されているので、不要単語ｎ−ｇｒａｍ５に記憶されている音韻列の中に、ＲＡＭ３に記憶されている「あっａＱあっ感動詞」が前接続形態素で、かつ残りの音韻列「ｋａｓｉｔａｓｅＮｅＮ」と後接続形態素の部分音韻列が前方一致する音韻列が記憶されているか否かを判別する。
この場合、不要単語ｎ−ｇｒａｍ５の２−ｇｒａｍには、音韻列「ａＱｋａｓｉｔａｓｅＮｅＮ」と前方一致する音韻列「ａＱｋａｓｉｔａ」が記憶されているので、その音韻列の後接続形態素「貸したｋａｓｉｔａかした動詞」を後方単語の候補として、不要単語ｎ−ｇｒａｍ５の２−ｇｒａｍから抽出するとともに、不要単語ｎ−ｇｒａｍ５の２−ｇｒａｍから当該音韻列の確率“０．０２”を抽出する。

言語処理装置６の単語系列特定部６ｃは、後方単語の候補として、音韻列の後接続形態素「貸したｋａｓｉｔａかした動詞」を抽出すると、先に生成した新たな先行単語列候補（現在の先行単語列候補）に、その後接続形態素「貸したｋａｓｉｔａかした動詞」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をＲＡＭ３に記憶する。
また、単語系列特定部６ｃは、新たな先行単語列候補の言語尤度を下記のように再計算する。
新たな先行単語列候補の言語尤度
＝現在の先行単語列候補の確率×音韻列の確率
＝０．０１×０．０２
＝０．０００２

また、言語処理装置６の単語系列特定部６ｃは、新たな先行単語列候補を生成して、新たな先行単語列候補の言語尤度を計算しても、ステップＳＴ４で取り出されている音韻列候補「ａＱｋａｓｉｔａｓｅＮｅＮ」の中に未だ前方一致していない音韻列「ｓｅＮｅＮ」が残されているので、不要単語ｎ−ｇｒａｍ５に記憶されている音韻列の中に、ＲＡＭ３に記憶されている「貸したｋａｓｉｔａかした動詞」が前接続形態素で、かつ残りの音韻列「ｓｅＮｅＮ」と後接続形態素の部分音韻列が前方一致する音韻列が記憶されているか否かを判別する。
この場合、不要単語ｎ−ｇｒａｍ５の２−ｇｒａｍには、音韻列「ｋａｓｉｔａｓｅＮｅＮ」と前方一致する音韻列「ｋａｓｉｔａｓｅＮ」が記憶されているので、その音韻列の後接続形態素「千ｓｅＮせん数字」を後方単語の候補として、不要単語ｎ−ｇｒａｍ５の２−ｇｒａｍから抽出するとともに、不要単語ｎ−ｇｒａｍ５の２−ｇｒａｍから当該音韻列の確率“０．０３”を抽出する。

言語処理装置６の単語系列特定部６ｃは、後方単語の候補として、音韻列の後接続形態素「千ｓｅＮせん数字」を抽出すると、先に生成した新たな先行単語列候補（現在の先行単語列候補）に、その後接続形態素「千ｓｅＮせん数字」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をＲＡＭ３に記憶する。
また、単語系列特定部６ｃは、新たな先行単語列候補の言語尤度を下記のように再計算する。
新たな先行単語列候補の言語尤度
＝現在の先行単語列候補の確率×音韻列の確率
＝０．０００２×０．０３
＝０．００００６
＝６×１０^-5

また、言語処理装置６の単語系列特定部６ｃは、新たな先行単語列候補を生成して、新たな先行単語列候補の言語尤度を計算しても、ステップＳＴ４で取り出されている音韻列候補「ａＱｋａｓｉｔａｓｅＮｅＮ」の中に未だ前方一致していない音韻列「ｅＮ」が残されているので、不要単語ｎ−ｇｒａｍ５に記憶されている音韻列の中に、ＲＡＭ３に記憶されている「千ｓｅＮせん数字」が前接続形態素で、かつ残りの音韻列「ｅＮ」と後接続形態素の部分音韻列が前方一致する音韻列が記憶されているか否かを判別する。
この場合、不要単語ｎ−ｇｒａｍ５の２−ｇｒａｍには、音韻列「ｓｅＮｅＮ」と前方一致する音韻列「ｓｅＮｅＮ」が記憶されているので、その音韻列の後接続形態素「円ｅＮえん接尾語」を後方単語の候補として、不要単語ｎ−ｇｒａｍ５の２−ｇｒａｍから抽出するとともに、不要単語ｎ−ｇｒａｍ５の２−ｇｒａｍから当該音韻列の確率“０．０３”を抽出する。

言語処理装置６の単語系列特定部６ｃは、後方単語の候補として、音韻列の後接続形態素「円ｅＮえん接尾語」を抽出すると、先に生成した新たな先行単語列候補（現在の先行単語列候補）に、その後接続形態素「円ｅＮえん接尾語」を接続して新たな先行単語列候補を生成し、新たな先行単語列候補をＲＡＭ３に記憶する。
また、単語系列特定部６ｃは、新たな先行単語列候補の言語尤度を下記のように再計算する。
新たな先行単語列候補の言語尤度
＝現在の先行単語列候補の確率×音韻列の確率
＝０．００００６×０．０３
＝０．００００００１８
＝１．８×１０^-7

言語処理装置６の単語系列特定部６ｃは、ステップＳＴ４で取り出されている音韻列候補「ａＱｋａｓｉｔａｓｅＮｅＮ」の中に前方一致していない音韻列がなくなると、下記に示すように、入力不要分野における新たな先行単語列候補の尤度を計算し、新たな先行単語列候補の尤度をＲＡＭ３に記憶する（ステップＳＴ９）。
新たな先行単語列候補の尤度
＝新たな先行単語列候補の言語尤度×音響尤度
＝１．８×１０^-7×０．９
＝１．６２×１０^-7
なお、図６は単語系列特定部６ｂ，６ｃにより生成された新たな先行単語列候補の形態素列と、新たな先行単語列候補の尤度を示している。

なお、この実施の形態１では、説明の簡単化のため、単語系列特定部６ｂ，６ｃが前方一致する音韻列を検索するものについて示したが、これに限るものではなく、上記の非特許文献１に開示されている曖昧な音韻連鎖との照合処理の手法や、文献「阿部他,“認識誤り傾向の確率モデルを用いた２段階探索法による大語彙連続音声認識”,電子情報通信学会論文誌，ＶｏｌＪ−８３−ＤＩＮｏ１２，２０００．１２」に開示されている手法を用いて音韻列を検索するようにしてもよい。

言語処理装置６の前処理部ａは、上記のようにして、単語系列特定部６ｂ，６ｃが新たな先行単語列候補の尤度をＲＡＭ３に記憶すると、未だ取り出していない音韻列候補がＲＡＭ３に記憶されているか否かを判定し（ステップＳＴ１０）、未だ取り出していない音韻列候補があれば、ステップＳＴ４の処理に戻り、ステップＳＴ４〜ＳＴ９の処理を繰り返し実施する。全ての音韻列候補を取り出していれば、ステップＳＴ１１の処理に移行する。

リジェクト装置７は、ＲＡＭ３から単語系列特定部６ｂ，６ｃにより生成された新たな先行単語列候補の尤度を取り出し、単語系列特定部６ｂにより生成された新たな先行単語列候補の尤度と、単語系列特定部６ｃにより生成された新たな先行単語列候補の尤度とを比較する（ステップＳＴ１１）。
リジェクト装置７は、単語系列特定部６ｃにより生成された新たな先行単語列候補の尤度が、単語系列特定部６ｂにより生成された新たな先行単語列候補の尤度より高い場合、入力を希望しない音声がユーザから発せられた可能性が高いので、単語系列特定部６ｃにより生成された新たな先行単語列候補は出力しない。

一方、単語系列特定部６ｂにより生成された新たな先行単語列候補の尤度が、単語系列特定部６ｃにより生成された新たな先行単語列候補の尤度より高い場合、あるいは、両者の尤度が等しい場合、入力を希望する音声がユーザから発せられた可能性が高いので、ＲＡＭ３から単語系列特定部６ｂにより生成された新たな先行単語列候補を読み出し、その先行単語列候補を出力装置８に出力する（ステップＳＴ１２）。
出力装置８はリジェクト装置７から先行単語列候補を受けると、その先行単語列候補から表記を取り出し、その表記を音声認識結果として外部に出力する（ステップＳＴ１３）。
これにより、「腺炎」、「千円」などの同音語が存在する場合でも、不要音声である「あっ貸した千円」についてはリジェクトされるようになる。

以上で明らかなように、この実施の形態１によれば、対象単語ｎ−ｇｒａｍ４を参照して、音響処理装置２により生成された音響系列候補と最も尤度が高い単語列候補を生成する単語系列特定部６ｂと、不要単語ｎ−ｇｒａｍ５を参照して、音響処理装置２により生成された音響系列候補と最も尤度が高い単語列候補を生成する単語系列特定部６ｃとを設け、単語系列特定部６ｂにより生成された単語列候補の尤度と単語系列特定部６ｃにより生成された単語列候補の尤度を比較し、単語系列特定部６ｂにより特定された単語列候補の尤度の方が高ければ、その単語列候補の表記を出力するように構成したので、句の全体を１単語として単語辞書に登録することなく、ユーザの音声が入力対象分野の音響系列である場合に限り、その音響系列に対応している単語系列を出力することができる効果を奏する。

また、この実施の形態１によれば、単語系列特定部６ｃにより特定された単語列候補の尤度の方が高ければ、音声認識結果である単語系列の出力を行わないように構成したので、不要音声をリジェクトして、精度よく句単位のユーザの音声を弁別することができる効果を奏する。

なお、この実施の形態１では、対象単語ｎ−ｇｒａｍ４及び不要単語ｎ−ｇｒａｍ５が、２−ｇｒａｍと１−ｇｒａｍから構成されているものについて示したが、これに限るものではなく、例えば、１−ｇｒａｍと２−ｇｒａｍと３−ｇｒａｍなどから構成されていてもよい。

実施の形態２．
図７はこの発明の実施の形態２による音声認識装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
重み付きリジェクト装置１１は図１のリジェクト装置７と同様に、単語系列特定部６ｂにより生成された単語列候補の尤度と単語系列特定部６ｃにより生成された単語列候補の尤度を比較し、単語系列特定部６ｂにより生成された単語列候補の尤度の方が高ければ、その単語列候補を出力するが、尤度の比較処理を実施する前に、単語系列特定部６ｂにより生成された単語列候補の尤度に入力対象分野の重み係数９を乗算するとともに、単語系列特定部６ｃにより生成された単語列候補の尤度に入力不要分野の重み係数１０を乗算し、重み係数乗算後の単語列候補の尤度同士を比較するようにしている。なお、重み付きリジェクト装置１１はリジェクト手段を構成している。
図８はこの発明の実施の形態２による音声認識装置の処理内容を示すフローチャートである。

次に動作について説明する。
上記実施の形態１では、リジェクト装置７が単語系列特定部６ｂにより生成された単語列候補の尤度と単語系列特定部６ｃにより生成された単語列候補の尤度を比較し、単語系列特定部６ｂにより特定された単語列候補の尤度の方が高ければ、その単語列候補を出力するものについて示したが、重み付きリジェクト装置１１が、単語系列特定部６ｂにより生成された単語列候補の尤度に入力対象分野の重み係数９を乗算するとともに、単語系列特定部６ｃにより生成された単語列候補の尤度に入力不要分野の重み係数１０を乗算することにより、それらの単語列候補の尤度を補正してから単語列候補の尤度同士を比較するようにしてもよい。
具体的には、以下の通りである。

上記実施の形態１では、対象単語ｎ−ｇｒａｍ４が十分な規模のコーパスから作成されているものとして説明したが、現実的には十分な規模のコーパスが得られない場合や、入力対象を絞りたい場合がある。
図９の対象単語ｎ−ｇｒａｍ４は、コーパスが「リンパ腺炎悪化した」という１文しかないと仮定した場合の記憶例である。
この場合、対象単語ｎ−ｇｒａｍ４の２−ｇｒａｍは、全ての音韻列の確率が“１”、１−ｇｒａｍは全ての音韻列の確率が“０．２”という大きな値にある（図９と図４を比較参照）。

上記実施の形態１と同様に、“ａＱｋａｓｉｔａｓｅＮｅＮ”の音声が取り込まれた場合、言語処理装置６の単語系列特定部６ｂが、上記実施の形態１と同様の先行単語列候補（｛＃＃＃文頭｝｛悪化したａＱｋａｓｉｔａあっかした動詞｝｛腺ｓｅＮせん接尾語｝｛炎ｅＮえん接尾語｝）を生成することになるが、先行単語列候補の尤度は以下のように計算される。
先行単語列候補の尤度
＝１×１×１×１
＝１

図１０の不要単語ｎ−ｇｒａｍ５の記憶内容は、図５の不要単語ｎ−ｇｒａｍ５の記憶内容と同じであるため、言語処理装置６の単語系列特定部６ｃは、上記実施の形態１と同様の先行単語列候補（｛＃＃＃文頭｝｛あっａＱあっ感動詞｝｛貸したｋａｓｉｔａかした動詞｝｛千ｓｅＮせん数字｝｛円ｅＮえん接尾語｝を生成するとともに、先行単語列候補の尤度を計算する。
先行単語列候補の尤度
＝１×０．０１×０．０２×０．０３×０．０３
＝１．８×１０^-7

このように、対象単語ｎ−ｇｒａｍ４が十分な規模のコーパスから作成されていない場合、入力を希望しない音声であるにも拘わらず、単語系列特定部６ｂにより生成された単語列候補の尤度“１”が、単語系列特定部６ｃにより生成された単語列候補の尤度“１．８×１０^-7”より大きくなることがある。
そこで、この実施の形態２では、重み付きリジェクト装置１１が、ｎ−ｇｒａｍのコーパス量の偏りの影響を回避するため、単語系列特定部６ｂにより生成された単語列候補の尤度“１”に入力対象分野の重み係数９（例えば、“１０^-7”）を乗算するとともに、単語系列特定部６ｃにより生成された単語列候補の尤度“１．８×１０^-7”に入力不要分野の重み係数１０（例えば、“１”）を乗算する（ステップＳＴ２１）。

これにより、単語系列特定部６ｂにより生成された単語列候補の尤度は“１．０×１０^-7”、単語系列特定部６ｃにより生成された単語列候補の尤度は“１．８×１０^-7”に補正される。
重み付きリジェクト装置１１は、補正後の単語列候補の尤度同士を比較するが、上記の補正を実施したことにより、単語系列特定部６ｃにより生成された単語列候補の尤度の方が大きくなるため、対象単語ｎ−ｇｒａｍ４が十分な規模のコーパスから作成されている場合と同様に、不要音声である「あっ貸した千円」についてはリジェクトすることができるようになる。

以上で明らかなように、この実施の形態２によれば、単語系列特定部６ｂにより生成された単語列候補の尤度に入力対象分野の重み係数９を乗算するとともに、単語系列特定部６ｃにより生成された単語列候補の尤度に入力不要分野の重み係数１０を乗算し、重み係数乗算後の単語列候補の尤度同士を比較するように構成したので、対象単語ｎ−ｇｒａｍ４と不要単語ｎ−ｇｒａｍ５のコーパス量に偏りがある場合でも、不要音声をリジェクトして、精度よく句単位のユーザの音声を弁別することができる効果を奏する。

実施の形態３．
図１１はこの発明の実施の形態３による音声認識装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
形態変更リジェクト装置１２は単語系列特定部６ｂにより生成された単語列候補の尤度と単語系列特定部６ｃにより生成された単語列候補の尤度を比較し、単語系列特定部６ｂにより生成された単語列候補の尤度の方が高ければ、図１のリジェクト装置７と同様に、その単語列候補を出力するが、単語系列特定部６ｃにより生成された単語列候補の尤度の方が高ければ、その単語列候補の表記を所定の形態（例えば、「＊」）に変換して出力する処理を実施する。なお、形態変更リジェクト装置１２はリジェクト手段を構成している。
図１２はこの発明の実施の形態３による音声認識装置の処理内容を示すフローチャートである。

次に動作について説明する。
形態変更リジェクト装置１２は、単語系列特定部６ｂ，６ｃが新たな先行単語列候補の尤度をＲＡＭ３に記憶すると、図１のリジェクト装置７と同様に、ＲＡＭ３から単語系列特定部６ｂ，６ｃにより生成された新たな先行単語列候補の尤度を取り出し、単語系列特定部６ｂにより生成された新たな先行単語列候補の尤度と、単語系列特定部６ｃにより生成された新たな先行単語列候補の尤度とを比較する（ステップＳＴ１１）。

図１のリジェクト装置７では、単語系列特定部６ｃにより生成された新たな先行単語列候補の尤度が、単語系列特定部６ｂにより生成された新たな先行単語列候補の尤度より高い場合、単語系列特定部６ｃにより生成された新たな先行単語列候補を出力しないようにしているが、この場合、ユーザが、自分の音声が取り込まれずに音声認識結果が出力されないのか、リジェクトされて音声認識結果が出力されないのかを判別することができず、不便さを伴うことがある。
そこで、形態変更リジェクト装置１２は、不要な音声が取り込まれた旨を明示するため、単語系列特定部６ｃにより生成された新たな先行単語列候補の尤度が、単語系列特定部６ｂにより生成された新たな先行単語列候補の尤度より高い場合、単語系列特定部６ｃにより生成された新たな先行単語列候補の表記を「＊」に変換し、変換後の先行単語列候補をＲＡＭ３に記憶する（ステップＳＴ３１）。

形態変更リジェクト装置１２は、単語系列特定部６ｂにより生成された新たな先行単語列候補の尤度が、単語系列特定部６ｃにより生成された新たな先行単語列候補の尤度より高い場合、あるいは、両者の尤度が等しい場合、入力を希望する音声がユーザから発せられた可能性が高いので、図１のリジェクト装置７と同様に、ＲＡＭ３から単語系列特定部６ｂにより生成された新たな先行単語列候補を読み出して、その先行単語列候補を出力装置８に出力する。
一方、単語系列特定部６ｃにより生成された新たな先行単語列候補の尤度が、単語系列特定部６ｂにより生成された新たな先行単語列候補の尤度より高い場合、ＲＡＭ３から先に表記を「＊」に変換した先行単語列候補を読み出して、その先行単語列候補を出力装置８に出力する（ステップＳＴ３２）。
出力装置８はリジェクト装置７から先行単語列候補を受けると、その先行単語列候補から表記を取り出し、その表記を音声認識結果として外部に出力する（ステップＳＴ１３）。
これにより、不要音声である「あっ貸した千円」が取り込まれた場合には、「＊＊＊＊＊＊＊」が表示されるようになる。

以上で明らかなように、この実施の形態３によれば、単語系列特定部６ｂにより生成された単語列候補の尤度と単語系列特定部６ｃにより生成された単語列候補の尤度を比較し、単語系列特定部６ｃにより生成された単語列候補の尤度の方が高ければ、その単語列候補の表記を「＊」に変換して出力するように構成したので、不要な音声が取り込まれた旨を明示することができる効果を奏する。

この発明の実施の形態１による音声認識装置を示す構成図である。この発明の実施の形態１による音声認識装置の処理内容を示すフローチャートである。入力音声を示す説明図である。対象単語ｎ−ｇｒａｍの記憶内容を示す説明図である。不要単語ｎ−ｇｒａｍの記憶内容を示す説明図である。単語系列特定部により生成された新たな先行単語列候補の形態素列と、新たな先行単語列候補の尤度を示す説明図である。この発明の実施の形態２による音声認識装置を示す構成図である。この発明の実施の形態２による音声認識装置の処理内容を示すフローチャートである。対象単語ｎ−ｇｒａｍの記憶内容を示す説明図である。不要単語ｎ−ｇｒａｍの記憶内容を示す説明図である。この発明の実施の形態３による音声認識装置を示す構成図である。この発明の実施の形態３による音声認識装置の処理内容を示すフローチャートである。

符号の説明

１マイク（音声取込手段）、２音響処理装置（音響系列変換手段）、３ＲＡＭ、４対象単語ｎ−ｇｒａｍ、５不要単語ｎ−ｇｒａｍ、６言語処理装置、６ａ前処理部、６ｂ単語系列特定部（第１の単語系列特定手段）、６ｃ単語系列特定部（第２の単語系列特定手段）、７リジェクト装置（リジェクト手段）、８出力装置（リジェクト手段）、９入力対象分野の重み係数、１０入力不要分野の重み係数、１１重み付きリジェクト装置（リジェクト手段）、１２形態変更リジェクト装置（リジェクト手段）。

Claims

音声を取り込んで、その音声信号を出力する音声取込手段と、上記音声取込手段から出力された音声信号を音響系列に変換する音響系列変換手段と、音響系列に対応する単語系列の出現確率が記憶されている入力対象分野の複数の単語連鎖を示す単語ｎ−ｇｒａｍと、音響系列に対応する単語系列の出現確率が記憶されている入力不要分野の複数の単語連鎖を示す単語ｎ−ｇｒａｍと、入力対象分野の単語ｎ−ｇｒａｍを参照して、上記音響系列変換手段により変換された音響系列と最も尤度が高い句単位の単語系列を特定する第１の単語系列特定手段と、入力不要分野の単語ｎ−ｇｒａｍを参照して、上記音響系列変換手段により変換された音響系列と最も尤度が高い句単位の単語系列を特定する第２の単語系列特定手段と、上記第１の単語系列特定手段により入力対象分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度と上記第２の単語系列特定手段により入力不要分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度を比較し、上記第１の単語系列特定手段により特定された句単位の単語系列の尤度の方が高ければ、その句単位の単語系列を出力するリジェクト手段とを備えた音声認識装置。
リジェクト手段は、第２の単語系列特定手段により入力不要分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度の方が高ければ、音声認識結果である句単位の単語系列の出力を行わないことを特徴とする請求項１記載の音声認識装置。
リジェクト手段は、第１の単語系列特定手段により入力対象分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度に入力対象分野の重み係数を乗算するとともに、第２の単語系列特定手段により入力不要分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度に入力不要分野の重み係数を乗算し、重み係数乗算後の句単位の単語系列の尤度同士を比較することを特徴とする請求項１記載の音声認識装置。
リジェクト手段は、第２の単語系列特定手段により入力不要分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度の方が高ければ、その句単位の単語系列の表記を所定の形態に変換することを特徴とする請求項１または請求項３記載の音声認識装置。
マイクにより音声が取り込まれて、そのマイクから音声信号が出力されると、その音声信号を音響系列に変換する処理を実施する音響系列変換処理手順と、音響系列に対応する単語系列の出現確率が記憶されている入力対象分野の複数の単語連鎖を示す単語ｎ−ｇｒａｍを参照して、上記音響系列変換処理手順により変換された音響系列と最も尤度が高い句単位の単語系列を特定する処理を実施する第１の単語系列特定処理手順と、音響系列に対応する単語系列の出現確率が記憶されている入力不要分野の複数の単語連鎖を示す単語ｎ−ｇｒａｍを参照して、上記音響系列変換処理手順により変換された音響系列と最も尤度が高い句単位の単語系列を特定する処理を実施する第２の単語系列特定処理手順と、上記第１の単語系列特定処理手順により入力対象分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度と上記第２の単語系列特定処理手順により入力不要分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度を比較し、上記第１の単語系列特定処理手順により特定された句単位の単語系列の尤度の方が高ければ、その句単位の単語系列を出力する処理を実施するリジェクト処理手順とをコンピュータに実行させるための音声認識プログラム。
リジェクト処理手順は、第２の単語系列特定処理手順により入力不要分野の複数の単語連鎖に基づいて特定された句単位の単語系列の尤度の方が高ければ、音声認識結果である句単位の単語系列の出力を行わないことを特徴とする請求項５記載の音声認識プログラム。