JP4604424B2

JP4604424B2 - 音声認識装置及び方法、並びにプログラム

Info

Publication number: JP4604424B2
Application number: JP2001239710A
Authority: JP
Inventors: 滋加福
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2001-08-07
Filing date: 2001-08-07
Publication date: 2011-01-05
Anticipated expiration: 2021-08-07
Also published as: JP2003050595A

Description

【０００１】
【発明の属する技術分野】
本発明は、不特定話者または特定話者の発話を音声認識する音声認識装置等に関する。
【０００２】
【従来の技術】
音声認識処理を行う場合、話者がマイクから入力した音声をデジタルデータ化したＰＣＭデータからノイズなどの無関係なデータを極力排除し、話者が発声した音声だけを切り出して音声認識し、認識結果を返すことが理想である。無関係なデータを切り出して、意味のない認識結果を返してしまうことは、混乱を生む原因となる。
【０００３】
ノイズに強い音声認識システムを構築するためには、音声区間の検出精度を向上させるのに加えて、話者が発した音声以外のノイズなどを音声区間として誤って検出してしまった場合にも、その誤って検出した区間を棄却することが望まれる。音声以外から誤って検出した音声区間を棄却することができれば、すぐに再び音声入力待ちの状態に戻すことができ、何事もなかったかのように処理していくことが可能である。
【０００４】
ここで、音声区間を検出するための処理では、一般に、音声のパワー成分に着目し、パワーが大きく増大する部分を音声の開始区間と判断している。そして、パワーが大きな部分が連続して長時間続かずに、短時間の後に下がってしまう部分については、ノイズと見なして棄却するようにしている。
【０００５】
【発明が解決しようとする課題】
しかしながら、このような処理では、話者が発した音声と似たようなパワー成分を持つノイズを棄却することができずに、音声区間であると判断してしまうことになる。また、「ええと」などといった話者が本来発話したい内容と無関係な音声は、音声区間の検出だけでは棄却することができない。
【０００６】
そこで、パワー成分に基づく判断で音声区間として検出された部分については、全て音声認識処理を行い、認識結果が正解である確率、すなわち認識結果の尤度を判定して、音声認識結果を出力するか、または検出された音声区間を棄却して再び入力待ちの状態に戻すかしている。ここで、認識結果の確からしさを求め方としては、連続音素認識の結果との比較、ガベージモデルの尤度との差の比較、などの方法が一般的に適用されている。
【０００７】
ところが、現実の世界で発生するノイズは、種々雑多であり、認識結果の尤度が高いと判定されてしまうようなものも中には存在する。とりわけこのようなノイズが多く発生するような環境では、上記したような従来の方法だけでは、ノイズの区間を棄却できる確率が十分なものとならず、音声認識の精度が低くなってしまうという問題があった。
【０００８】
本発明は、上記従来技術の問題点を解消するためになされたものであり、音声認識の結果として高い尤度を示しているノイズを棄却できるようにすることで、音声認識の精度を高くすることができる音声認識装置及び方法、並びにそのためのプログラムを提供することを目的とする。
【０００９】
【課題を解決するための手段】
上記目的を達成するため、本発明の第１の観点に係る音声認識装置は、
認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を格納した単語辞書格納手段と、
入力された音声を前記音素モデル及び前記単語辞書を参照して音声認識し、前記単語辞書に登録された各種類の単語の尤度を求め、該求めた尤度に基づいて、認識結果として出力される単語の候補を抽出する候補単語抽出手段と、
前記入力された音声に含まれる母音と子音との比率を算出する比率算出手段と、
前記比率算出手段が算出した母音と子音との比率が所定の範囲にあるかどうかを判定する比率判定手段と、
前記比率判定手段が所定の範囲にあると判定したときに、前記候補単語抽出手段が候補として抽出した単語を音声認識結果として出力する結果出力手段と、を備え、
前記単語辞書は、
前記複数種類の単語のそれぞれに対応付けて、さらに前記比率判定手段の判定に用いるための比率範囲を登録しており、
前記比率判定手段は、
前記母音と子音との比率が前記候補単語抽出手段が候補として抽出した単語に対応した比率範囲にあるかどうかを判定する
ことを特徴とする。
【００１０】
本発明の第２の観点に係る音声認識方法は、
入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して音声認識し、前記単語辞書に登録された各種類の単語の尤度を求め、該求めた尤度に基づいて、認識結果として出力される単語の候補を抽出する候補単語抽出ステップと、
前記入力された音声に含まれる母音と子音との比率を算出する比率算出ステップと、
前比率算出ステップで算出した母音と子音との比率が所定の範囲にあるかどうかを判定する比率判定ステップと、
前記比率判定ステップで所定の範囲にあると判定したときに、前記候補単語抽出ステップにおいて候補として抽出した単語を音声認識結果として出力する結果出力ステップと、を含み、
前記単語辞書は、
前記複数種類の単語のそれぞれに対応付けて、さらに前記比率判定手段の判定に用いるための比率範囲を登録しており、
前記比率判定ステップは、
前記母音と子音との比率が前記候補単語抽出手段が候補として抽出した単語に対応した比率範囲にあるかどうかを判定する
ことを特徴とする。
【００１１】
本発明の第３の観点に係るプログラムは、
入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して音声認識し、前記単語辞書に登録された各種類の単語の尤度を求め、該求めた尤度に基づいて、認識結果として出力される単語の候補を抽出する候補単語抽出手段、
前記入力された音声に含まれる母音と子音との比率を算出する比率算出手段、
前記比率算出手段が算出した母音と子音との比率が所定の範囲にあるかどうかを判定する比率判定手段、
及び、前記比率判定手段が所定の範囲にあると判定したときに、前記候補単語抽出手段が候補として抽出した単語を音声認識結果として出力する結果出力手段
としてコンピュータ装置を機能させ、
前記単語辞書は、
前記複数種類の単語のそれぞれに対応付けて、さらに前記比率判定手段の判定に用いるための比率範囲を登録しており、
前記比率判定手段は、
前記母音と子音との比率が前記候補単語抽出手段が候補として抽出した単語に対応した比率範囲にあるかどうかを判定する。
【００２８】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態について説明する。
【００２９】
［第１の実施の形態］
図１は、この実施の形態にかかる音声認識装置の構成を示すブロック図である。図示するように、この音声認識装置は、音声入力部１と、入力音声格納部２と、パワー算出部３と、音声区間検出部４と、音声特徴抽出部５と、音素モデル格納部６と、単語辞書格納部７と、尤度計算部８と、検証部９と、最終判定部１０と、出力部１１とを備えている。
【００３０】
音声入力部１は、不特定話者から入力された音声（アナログ信号）をＡ／Ｄ変換するもので、この音声を時系列で示すデジタル音声信号（例えば、ＰＣＭ信号）に変換する。入力音声格納部２は、音声入力部１によって変換されたデジタル音声信号を格納する。
【００３１】
パワー算出部３は、入力音声格納部２に格納されたデジタル音声信号を、所定の時間間隔（２．０〜４．０ミリ秒）で音声データを、時間窓などのハミング窓によって複数のフレームに区分し、区分した各フレームから音声データを切り出してパワー成分を求める。音声区間検出部４は、パワー算出部３が算出したパワー成分が所定の閾値を超えたフレームを音声区間として検出する。例えば、１秒以内にパワー成分が閾値を下回ったフレームは、音声区間としない。音声特徴抽出部５は、音声区間検出部４が検出した音声区間について、それぞれパワー算出部３が算出したパワー成分に基づいて音響特徴ベクトルＸ（ｔ）を計算する。
【００３２】
音素モデル格納部６は、認識対象となる音声を構成する全ての音素をモデル化した音素モデルを格納している。音素モデルとしては、例えば図２に示すような隠れマルコフモデル（ＨＭＭ）が適用される。図２では、音素“ｚ”についてのみ示しているが、実際には、全ての音素についてのＨＭＭが記憶されていることとなる。
【００３３】
単語辞書格納部７は、単語毎の音素パターン系列情報を登録した単語辞書を格納している。この単語辞書は、例えば図３に示すようなものであり、“善光寺（ぜんこうじ）”という単語について、ｚ→ｅ→ｎ→ｋ→ｏ→ｕ→ｊ→ｉという音素パターン系列を登録し、“善通寺（ぜんつうじ）”という単語について、ｚ→ｅ→ｎ→ｔｓ→→ｕ→ｊ→ｉという音素パターン系列を登録している。
【００３４】
尤度計算部８は、音響特徴ベクトルＸ（ｔ）とＨＭＭによる音素モデルとを参照してフレーム毎の連続音素認識を行い、各フレームの尤度の合計が最大となるものを暫定的に第１位候補単語として抽出する。尤度計算部８は、第１位候補単語を抽出するのに必要となる尤度（取得尤度）の他に、検証部９が尤度信頼度率Ｓを求めるために必要となる最低尤度と最高尤度とを求めている。
【００３５】
次に、尤度計算部８による尤度（取得尤度、最低尤度及び最高尤度）の計算について、図４を参照して説明する。これは、「善通寺（ぜんつうじ）」という単語を音声認識する場合の例であり、その理想的な音素の並びとしては、
ｚ・・・ｚ、ｅ・・・ｅ、ｎ・・・ｎ、ｔｓ・・・ｔｓ、ｕ・・・ｕ、ｊ・・・ｊ、ｉ・・・ｉ
となる。
【００３６】
この図において、縦軸は時間（フレーム）を示しており、第０〜第７９までの８０フレームが尤度計算の対象となっている。図の左側（フレーム番号のすぐ右側）の格子状に示される○は、音素モデルとしてのＨＭＭの状態を表しており、単語「善通寺」を音声認識する際の状態の遷移の経路を太矢印で示している。この経路を進むために各フレームで出力された値が取得尤度である。
【００３７】
第１位音素は、入力音声格納部２に格納された音声信号をフレーム毎に音声認識した結果、当該フレームにおいて尤度が最も高くなった音素であり、その尤度が最高尤度となる。また、音声認識した結果として最低だった音素の尤度が最低尤度となる。各フレームでの取得尤度、最低尤度及び最高尤度は、次の検証部９で尤度信頼度率Ｓを求めるのに用いられる。第０フレームから第７９フレームまでに状態の経路として複数の経路を考えることができるが、そのうちで取得尤度の合計が最も高くなるものを抽出し、第１候補単語としている。
【００３８】
検証部９は、音声認識の精度を高めるべく、尤度計算部８が抽出した第１位候補単語について、次の数式による演算を行って、その尤度信頼度率Ｓを求める。
【数１】
Ｓ＝｛Σ（取得尤度−最低尤度）／（最高尤度−最低尤度）｝／フレーム数
【００３９】
尤度信頼度率Ｓが求まると、検証部９は、これが予め定めた閾値Ｓminよりも大きいかどうかを判定する。閾値Ｓmin以下であれば第１位候補単語を棄却し、閾値より大きければさらに最終判定部１０による判定を行わせる。尤度信頼度率Ｓと比較される閾値Ｓminの値は、例えば９０％に設定される。これは、何らかの認識結果が得られることと、認識結果が正確であることのバランスをとるための値として設定されたものである。
【００４０】
最終判定部１０は、検証部９が閾値Ｓminより大きいと判定した尤度信頼度率Ｓを持つ第１候補単語の母音率Ｖを求める。母音率Ｖは、音声区間検出部４が音声区間であると検出したフレームのうちでａ、ｉ，ｕ、ｅ、ｏ、ｎの音素を持つフレームを母音系音素のフレームとし、その他の音素を持つフレームを子音系音素のフレームとして、母音系音素のフレームと子音系音素のフレームの合計に対して母音系音素のフレームが示す比率を示すものである。
【００４１】
そして、最終判定部１０は、求めた母音率Ｖが予め設定した閾値Ｖminよりも大きいかどうかを判定する。閾値Ｖminよりも大きければ第１位候補単語を正解の単語として出力部１１に渡し、閾値Ｖmin以下であれば第１位候補単語を棄却する。ここで、母音率Ｖと比較される閾値Ｖminの値は、例えば１５％に設定される。これは、人間が言語で発話した音声は比較的母音率が高くなることが経験上知られているのに対して、例えば、図５に示すようにキーボードを打つ音の実測結果では母音率が非常に低くなっていることから、このような値に設定されたものである。
【００４２】
出力部１１は、最終判定部１０から渡された正解となった単語を出力する。出力部１１は、第１位候補単語が棄却され、正解が得られなかった場合には、その旨を出力する。
【００４３】
なお、上記の音声認識装置は、パーソナルコンピュータなどの汎用コンピュータをプラットフォームとして実現することができ、例えば、音声入力部１及び出力部１１は、それぞれ汎用コンピュータに接続されるマイクロフォン、表示装置によって実現される。入力音声格納部２、音素モデル格納部６、単語辞書格納部７は、それぞれに対応した領域がメモリに確保されることによって実現される。音素モデル格納部６が格納する音素モデル、単語辞書格納部７が格納する単語辞書は、音声認識処理を行う前に予め外部装置から読み込まれてメモリに記憶されるものである。パワー算出部３、音声区間検出部４、音声特徴検出部５、尤度計算部８、検証部９及び最終判定部１０は、ＣＰＵ（Central Processing Unit）がメモリに記憶されたプログラムを実行することによって実現される。
【００４４】
次に、動作について説明する。図６は、この実施の形態にかかる音声認識装置における処理を示すフローチャートである。
【００４５】
最初に、音素モデルと、単語辞書及び母音率テーブルとを外部記憶装置からメモリに読み込み、音素モデル格納部６と単語辞書格納部７とを構築する（ステップＳ１０１）。次に、尤度信頼度率Ｓと比較される閾値Ｓminの値と、母音率Ｖと比較される閾値Ｖminの値とを最終判定部１０に設定する（ステップＳ１０２）。そして、次に示す音声認識処理を行い（ステップＳ１０３）、このフローチャートの処理を終了する。
【００４６】
図７は、ステップＳ１０３の音声認識処理を詳細に示すフローチャートである。まず、話者が認識対象として発声した音声を音声入力部１から入力し、時系列のデジタル音声信号に変換して入力音声格納部２に格納する（ステップＳ２０１）。次に、パワー算出部３は、入力音声格納部２に格納したデジタル音声信号を所定時間毎で複数のフレームに区分し、各フレームのパワー成分を算出する（ステップＳ２０２）。
【００４７】
次に、音声区間検出部４は、ステップＳ２０２で算出した各フレームのパワー成分を所定の閾値と比較し、閾値を上回ったフレームを音声区間として抽出する（ステップＳ２０３）。そして、この処理で候補の単語を抽出するのに必要なだけの音声区間が検出されたかどうかを判定する（ステップＳ２０４）。必要なだけの音声区間が検出されていなければ、処理を終了する。必要なだけの音声区間が検出された場合には、音声特徴抽出部５は、ステップＳ２０２で算出した各フレームのパワー成分に基づいて、ステップＳ２０３で抽出した音声区間の音響特徴ベクトルＸ（ｔ）を計算する（ステップＳ２０５）。
【００４８】
次に、尤度計算部８は、ステップＳ２０５で算出した音声特徴ベクトルＸ（ｔ）と音素モデル格納部６に格納されている音素モデルとしての隠れマルコフモデルに基づいて、単語辞書格納部７に格納されている単語辞書に登録された単語のうちで尤度が最も高くなるものを、第１位候補単語として抽出する（ステップＳ２０６）。
【００４９】
第１位候補単語が抽出されると、検証部９は、前述した処理を行うことで、第１位候補単語についての尤度信頼度率Ｓを求める（ステップＳ２０７）。そして、この尤度信頼度率ＳをステップＳ１０２で設定した閾値Ｓminと比較し、尤度信頼度率Ｓが閾値Ｓminを上回っているかどうかを判定する（ステップＳ２０８）。尤度信頼度率Ｓが閾値Ｓmin以下であれば、抽出された第１候補単語を棄却して（ステップＳ２１２）、処理を終了する。
【００５０】
尤度信頼度率Ｓが閾値Ｓminを上回っていれば、第１位候補単語が最終判定部１０に渡され、最終判定部１０は、ステップＳ２０３で検出された音声区間のうちの母音率Ｖを求める（ステップＳ２０９）。そして、この母音率ＶをステップＳ１０２で設定した閾値Ｖminと比較し、母音率Ｖが閾値Ｖminを上回っているかどうかを判定する（ステップＳ２１０）。
【００５１】
母音率Ｖが閾値Ｖmin以下であれば、抽出された第１位候補単語を棄却して（ステップＳ２１２）、処理を終了する。一方、母音率Ｖが閾値Ｖminを上回っていた場合には、抽出された第１位候補単語を出力部１１に渡す。そして、出力部１１は、この第１位候補単語を音声認識の結果として出力する（ステップＳ２１１）。そして、処理を終了する。なお、ステップＳ２１２で第１候補単語が棄却された場合は、その旨を示すメッセージが出力部１１から出力される。
【００５２】
以上説明したように、この実施の形態にかかる音声認識装置では、尤度計算部８において尤度が最大となる第１位候補単語を抽出した後、さらに検証部９において尤度信頼度率Ｓに基づく検証を行い、最終判定部１０において母音率Ｖに基づく最終判定を行っている。ここで、尤度計算部８は、尤度が最大となる第１位候補単語を抽出するだけであるが、音声区間検証部４が音声区間として検出したフレームがノイズのフレームであった場合には、経験則的に尤度信頼度率Ｓの値は低くなる。また、話者の発した音声の母音率Ｖは、極端に低くなることがない。
【００５３】
このため、ノイズを音声認識した場合に、尤度信頼度率Ｓが低くなるか、母音率Ｖが極端に低くなることによって、尤度計算部８で計算した尤度が高かったとしてもノイズとして棄却することができるようになる。これにより、ノイズについての棄却率を高めることができ、従来に比べて精度の高い音声認識を行うことができるようになる。
【００５４】
［第２の実施の形態］
この実施の形態にかかる音声認識装置は、第１の実施の形態にかかるものとほぼ同じ構成を有しているが、特定話者の音声認識を対象とするもので、単語辞書格納部７に格納される単語辞書が第１の実施の形態のものと異なっており、また、単語辞書格納部７は、後述する母音率履歴テーブルをさらに格納している。また、音声認識のために実行される処理（プログラム）が第１の実施の形態のものと異なり、最終判定部１０の機能が異なる。
【００５５】
図８（ａ）は、この実施の形態にかかる音声認識装置において、単語辞書格納部７に格納される単語辞書の例を示す図である。この単語辞書は、単語毎の音素パターン系列情報に加えて、最終判定部１０で母音率Ｖと比較される規定範囲（最小値Ｖminと最大値Ｖmax）を登録している。この規定範囲は、初期状態では所定のデフォルト値が登録されているが、単語辞書格納部７内に格納された母音率履歴テーブルに登録された母音率に基づいて変更されることができる。
【００５６】
図８（ｂ）は、この実施の形態にかかる音声認識装置において、単語辞書格納部７に格納される母音率履歴テーブルを示す図である。母音率履歴テーブルは、最終判定部１０が求めた母音率Ｖの履歴を単語辞書に登録された単語毎に登録するテーブルである。なお、母音率履歴テーブルへの母音率Ｖの登録の処理、及び単語辞書に登録された規定範囲の変更の処理は、最終判定部１０が行うこととなる。
【００５７】
次に、動作について説明する。図９は、この実施の形態にかかる音声認識装置における処理を示すフローチャートである。
【００５８】
まず、第１の実施の形態の場合と同じく、音素モデルと、単語辞書及び母音率履歴テーブルとを外部記憶装置からメモリに読み込み、音素モデル格納部６と単語辞書格納部７とを構築する（ステップＳ３０１）。次に、尤度信頼度率Ｓと比較される閾値Ｓminの値を判定部１０に設定する（ステップＳ３０２）。そして、次に示す音声認識処理を行い（ステップＳ３０３）、このフローチャートの処理を終了する。
【００５９】
図１０、図１１は、ステップＳ３０３の音声認識処理を示すフローチャートである。このフローチャートにおけるステップＳ４０１〜Ｓ４０９、Ｓ４１８の処理は、それぞれ図７のステップＳ２０１〜Ｓ２０９、Ｓ２１２の処理と同じである。
【００６０】
ステップＳ４０９で母音率Ｖが求められると、最終判定部１０は、第１位候補単語に対応付けて単語辞書に登録されている規定範囲の最小値Ｖminと最大値Ｖmaxとを読み出し、求めた母音率Ｖが最小値Ｖminよりも大きく、最大値Ｖmaxよりも小さい範囲、すなわち規定範囲内にあるかどうかを判定する（ステップＳ４１１）。規定範囲内になければ、ステップＳ４１８の処理に進み、第１位候補単語が棄却される。
【００６１】
規定範囲内にあれば、抽出された第１位候補単語を出力部１１に渡し、出力部１１が、この第１位候補単語を音声認識の結果として出力する（ステップＳ４１１）。さらに最終判定部１０は、出力した単語について母音率履歴テーブルに既に登録されている母音率の数を変数ｎに代入し、さらに変数ｎの値を１だけプラスする（ステップＳ４１２）。そして、ステップＳ４０９で求めた母音率Ｖを当該単語のｎ個目の母音率として母音率履歴テーブルに登録する（ステップＳ４１３）。
【００６２】
次に、最終判定部１０は、当該単語について母音率履歴テーブルに登録された母音率の個数ｎが所定数ｍ以上となっているかどうかを判定する（ステップＳ４１４）。母音率の個数ｎが所定数ｍ以上となっていなければ、そのまま処理を終了する。
【００６３】
一方、母音率の個数ｎが所定数ｍ以上となっていれば、最終判定部１０は、当該単語について母音率履歴テーブルに登録されたｎ個の母音率の分散ｐを求める（ステップＳ４１５）。次に、分散ｐの値が予め定められた値ｘよりも小さいかどうかを判定する。分散ｐの値が値ｘ以上である場合には、そのまま処理を終了する。分散ｐの値が値ｘよりも小さい場合には、当該単語について単語辞書に登録された規定範囲の最小値Ｖminと最大値Ｖmaxとにそれぞれ分散ｐの値を加算し、規定範囲を再設定する（ステップＳ４１７）。そして、処理を終了する。
【００６４】
以上説明したように、この実施の形態にかかる音声認識装置では、母音率Ｖによる判定には、単語毎に登録された規定範囲（最小値Ｖminと最大値Ｖmax）を用いている。このため、第１の実施の形態に示した音声認識装置に比べて、より正確にノイズの棄却を行うことができ、音声認識の精度が向上する。しかも、規定範囲の値は、話者が過去に発した同じ単語についての母音率の履歴に従って変更することができる。この音声認識装置は、特定話者を対象としているものであるので、母音率の履歴によって規定範囲をより適正なものとしていくことができ、音声認識の精度を高めることができるようになる。
【００６５】
［実施の形態の変形］
本発明は、上記の第１、第２の実施の形態に限られず、種々の変形、応用が可能である。以下、本発明に適用可能な上記の実施の形態の変形態様について説明する。
【００６６】
上記の第１の実施の形態では、母音率Ｖと比較される閾値Ｖminは、第１位候補単語に関わらず、同一の値が用いられていたが、第１の実施の形態のように単語辞書に単語毎に対応付けて閾値Ｖminを登録しておき、第１位候補単語に対応づけられた閾値Ｖminを、求めた母音率Ｖと比較するものとしてもよい。ここで、「愛（あい）」といった母音率が高くなる単語に関しては閾値Ｖminの値を高めに設定し、「被災（ひさい）」といった母音率が低くなる単語に関しては閾値Ｖminの値を低めに設定しておけばよい。
【００６７】
上記の第２の実施の形態では、全ての単語について単語辞書に規定範囲が登録されているものとしていたが、一部の単語についてのみ独自の規定範囲を登録し、他の単語については共通の規定範囲（ＶMIN、ＶMAX）を用いるものとしてもよい。この場合、ステップＳ３０２の処理で共通の規定範囲（ＶMIN、ＶMAX）を最終判定部１０に設定しておく。ステップＳ４０９で母音率Ｖを求めた後に、第１位候補単語に独自の規定範囲が登録されているかどうかを判別する。独自の規定範囲が登録されていなければ、そのままステップＳ４１０の処理に進むものとし、独自の規定範囲が登録されていれば、最終判定部に設定される規定範囲を共通の規定範囲（ＶMIN、ＶMAX）から独自の規定範囲（Ｖmin、Ｖmax）に書き替えて、ステップＳ４１０の処理に進めばよい。
【００６８】
上記の第２の実施の形態では、単語辞書に登録される規定範囲（Ｖmin、Ｖmax）は、母音率履歴テーブルに登録された母音率の分散ｐが加算されて変更されるものとなっていた。これに対して、特定話者が発話した同じ単語であれば、その母音率の値はほぼ同じ値になることが一般に知られている。このため、母音率履歴テーブルに登録された母音率の個数が多くなるに従って、その計算結果に基づいて規定範囲を狭く設定していくようにしてもよい。
【００６９】
上記の第１、第２の実施の形態では、検証部９で尤度信頼度率Ｓが閾値Ｓminよりも大きいと判定された場合に、最終判定部１０は、母音率Ｖについての判定を行うものとしていた。しかしながら、検証部９の処理を経ずに母音率Ｖについての判定を行い、その判定結果を最終結果とするものとしてもよい。また、母音率Ｖについての判定を先に行い、母音率Ｖが閾値Ｖminよりも大きい場合（第２の実施の形態では、規定範囲（ＶminからＶmaxの間）内にあると判定した場合）、さらに尤度信頼度率Ｓを閾値Ｓminと比較させるものとしてもよい。
【００７０】
上記の第１、第２の実施の形態では、第１位候補単語の尤度信頼度率Ｓ及び母音率Ｖを、全てのフレームに基づいて算出していたが、２つまたはそれ以上の間隔毎のフレームに基づいて算出するものとしてもよい。これにより、尤度信頼度率Ｓおよび／または母音率Ｖの計算精度が低下するが、処理時間を短縮することができるというメリットが得られる。
【００７１】
上記の第１、第２の実施の形態では、尤度計算部８は、ＨＭＭによる音素モデルを参照し、フレーム毎の連続音素認識により尤度を計算していた。これに対して、ＨＭＭを母音毎にまたは子音毎に混合したガベージモデルで表現したモデルを用いて、尤度を計算するものとしてもよい。この場合、フレーム毎の音声認識を必要としないので、計算量が少なくなり、特に単語辞書に登録されている単語数が少ない場合に適用するのに好適である。
【００７２】
上記の第１、第２の実施の形態では、第１位候補単語による尤度信頼度率Ｓと母音率Ｖの判定で棄却されれば、その時点で音声認識結果が得られないものとなっていた。しかしながら、第１位候補単語よりも尤度が低くても、ある程度の尤度がある単語（ＨＭＭの状態の経路が異なるのみで、単語としては第１位候補単語と同じである場合を含む）であれば、尤度信頼度率Ｓと母音率Ｖの判定で棄却されず、しかもこれが正解の単語である可能性も存在する。そこで、次のような変形を加えるものとしてもよい。
【００７３】
尤度計算部８は、例えば、尤度が高い単語に３つの単語を第１位、第２位、第３位候補単語として抽出する。第１位候補単語が尤度信頼度率Ｓまたは母音率Ｖに基づいて棄却された場合には、第２位候補単語の尤度信頼度率Ｓと母音率Ｖとを順次求める。これで棄却されなければ、第２位候補単語を音声認識結果として出力部１１から出力する。第２位候補単語についても尤度信頼度率Ｓまたは母音率Ｖに基づいて棄却された場合には、第３位候補単語の尤度信頼度率Ｓと母音率Ｖとを順次求める。これで棄却されなければ、第３位候補単語を音声認識結果として出力部１１から出力する。第３位候補単語も棄却された場合には、音声認識結果が得られなかった旨を出力部１１から出力すればよい。
【００７４】
上記の第１、第２の実施の形態では、出力部１１は、例えば表示装置によって構成され、音声認識結果（棄却された旨の情報を含む）を話者に提示するものであった。これに対して、出力部１１を何らかの電子回路に接続させ、出力部１１からの出力結果に従って当該電子回路を動作させるものとしてもよい。
【００７５】
上記の第１、第２の実施の形態では、図６及び図７に示したフローチャートの処理、或いは図９乃至図１１に示したフローチャートの処理を実行させるためのプログラムは、汎用コンピュータのメモリに記憶されているものとして説明した。そして、ＣＰＵがメモリに記憶されたプログラムを実行することで、パワー算出部３、音声区間検出部４、音声特徴検出部５、尤度計算部８、検証部９及び最終判定部１０が実現されるものとしていた。これに対して、図６及び図７のフローチャートの処理、或いは図９乃至図１１のフローチャートの処理を汎用コンピュータに実行させ、パワー算出部３、音声区間検出部４、音声特徴抽出部５、尤度計算部８、検証部９及び最終判定部１０を実現させるためのプログラムを、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなどのコンピュータ読み取り可能な記録媒体に格納して配布してもよい。または、これらのプログラムをＷｅｂサーバ装置が有する固定ディスク装置に格納しておき、インターネットを汎用コンピュータにダウンロードさせるものとしてもよい。
【００７６】
【発明の効果】
以上説明したように、本発明によれば、音声認識の結果として高い尤度を示しているノイズでも棄却できるようなり、音声認識の精度を高めることができる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態にかかる音声認識装置の構成を示すブロック図である。
【図２】図１の音素モデル格納部に格納される音素モデルの例を示す図である。
【図３】図１の単語辞書格納部に格納される単語辞書の例を示す図である。
【図４】尤度信頼度率を求める方法を説明する図である。
【図５】キーボードを打つ音の実測結果を示す図である。
【図６】本発明の第１の実施の形態にかかる音声認識装置における処理を示すフローチャートである。
【図７】図６の音声認識処理を詳細に示すフローチャートである。
【図８】（ａ）は、本発明の第２の実施の形態にかかる音声認識装置において単語辞書格納部に格納される単語辞書の例を、（ｂ）は、母音率履歴テーブルを示す図である。
【図９】本発明の第２の実施の形態にかかる音声認識装置における処理を示すフローチャートである。
【図１０】図９の音声認識処理を詳細に示すフローチャートである。
【図１１】図９の音声認識処理を詳細に示すフローチャートである。
【符号の説明】
１・・・音声入力部、２・・・入力音声格納部、３・・・パワー算出部、４・・・音声区間検出部、５・・・音声特徴抽出部、６・・・音素モデル格納部、７・・・単語辞書格納部、８・・・尤度計算部、９・・・検証部、１０・・・最終判定部、１１・・・出力部

Claims

認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を格納した単語辞書格納手段と、
入力された音声を前記音素モデル及び前記単語辞書を参照して音声認識し、前記単語辞書に登録された各種類の単語の尤度を求め、該求めた尤度に基づいて、認識結果として出力される単語の候補を抽出する候補単語抽出手段と、
前記入力された音声に含まれる母音と子音との比率を算出する比率算出手段と、
前記比率算出手段が算出した母音と子音との比率が所定の範囲にあるかどうかを判定する比率判定手段と、
前記比率判定手段が所定の範囲にあると判定したときに、前記候補単語抽出手段が候補として抽出した単語を音声認識結果として出力する結果出力手段と、を備え、
前記単語辞書は、
前記複数種類の単語のそれぞれに対応付けて、さらに前記比率判定手段の判定に用いるための比率範囲を登録しており、
前記比率判定手段は、
前記母音と子音との比率が前記候補単語抽出手段が候補として抽出した単語に対応した比率範囲にあるかどうかを判定する
ことを特徴とする音声認識装置。
前記比率判定手段は、
前記母音と子音との比率を予め設定された閾値と比較することで、所定の範囲にあるかどうかの判定を行う
ことを特徴とする請求項１に記載の音声認識装置。
同一の話者から入力された同一の単語について、前記比率算出手段が算出した母音と子音との比率の履歴を複数回分登録する履歴登録手段をさらに備え、
少なくとも１の単語に対応付けて前記単語辞書に登録された比率範囲は、前記履歴登録手段に登録された各比率の分散値に応じて変更されるもの、または、前記履歴登録手段に登録される比率の数が多くなるにつれて狭くなるものである
ことを特徴とする請求項２に記載の音声認識装置。
前記候補単語抽出手段は、
尤度の高いほうから順位付けられた複数の単語の候補を抽出し、
前記比率算出手段は、
尤度の高い単語から順に母音と子音との比率を算出し、該算出した母音と子音との比率が所定の範囲にないと前記比率判定手段によって判定されたときに、次の順位の単語について母音と子音との比率を算出する
ことを特徴とする請求項１乃至３のいずれか１項に記載の音声認識装置。
前記候補単語抽出手段が候補として抽出した単語について、その尤度の信頼度を算出する尤度信頼度算出手段と、
前記尤度信頼度算出手段が算出した尤度の信頼度が所定の閾値を上回るかどうかを判定する尤度信頼度判定手段とをさらに備え、
前記結果出力手段は、前記尤度信頼度判定手段が所定の閾値を上回ると判定し、且つ前記比率判定手段が所定の範囲にあると判定したときに、前記候補単語抽出手段が抽出した単語を音声認識結果として出力する
ことを特徴とする請求項１乃至４のいずれか１項に記載の音声認識装置。
前記候補単語抽出手段は、
尤度の高いほうから順位付けられた複数の単語の候補を抽出し、
前記尤度信頼度算出手段は、
尤度の高い単語から順に尤度の信頼度を算出し、該算出した尤度の信頼度が前記所定の閾値を上回らないと前記尤度信頼度判定手段によって判定されたときに、次の順位の単語について尤度の信頼度を算出する
ことを特徴とする請求項５に記載の音声認識装置。
前記音素モデルは、
認識対象となる音声に含まれる各音素を隠れマルコフモデルでモデル化したものであり、
前記候補単語抽出手段は、
前記入力された音声を所定時間を単位として複数の区間に分割し、該分割した区間のうちの音声区間について音響特徴ベクトルを求め、各区間の音響特徴ベクトルと前記音素モデルとに基づいて連続音素認識を行い、各フレームでの尤度の合計が最大となる単語を候補として抽出する
ことを特徴とする請求項１乃至６のいずれか１項に記載の音声認識装置。
入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して音声認識し、前記単語辞書に登録された各種類の単語の尤度を求め、該求めた尤度に基づいて、認識結果として出力される単語の候補を抽出する候補単語抽出ステップと、
前記入力された音声に含まれる母音と子音との比率を算出する比率算出ステップと、
前比率算出ステップで算出した母音と子音との比率が所定の範囲にあるかどうかを判定する比率判定ステップと、
前記比率判定ステップで所定の範囲にあると判定したときに、前記候補単語抽出ステップにおいて候補として抽出した単語を音声認識結果として出力する結果出力ステップと、を含み、
前記単語辞書は、
前記複数種類の単語のそれぞれに対応付けて、さらに前記比率判定手段の判定に用いるための比率範囲を登録しており、
前記比率判定ステップは、
前記母音と子音との比率が前記候補単語抽出手段が候補として抽出した単語に対応した比率範囲にあるかどうかを判定する
ことを特徴とする音声認識方法。
入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して音声認識し、前記単語辞書に登録された各種類の単語の尤度を求め、該求めた尤度に基づいて、認識結果として出力される単語の候補を抽出する候補単語抽出手段、
前記入力された音声に含まれる母音と子音との比率を算出する比率算出手段、
前記比率算出手段が算出した母音と子音との比率が所定の範囲にあるかどうかを判定する比率判定手段、
及び、前記比率判定手段が所定の範囲にあると判定したときに、前記候補単語抽出手段が候補として抽出した単語を音声認識結果として出力する結果出力手段
としてコンピュータ装置を機能させ、
前記単語辞書は、
前記複数種類の単語のそれぞれに対応付けて、さらに前記比率判定手段の判定に用いるための比率範囲を登録しており、
前記比率判定手段は、
前記母音と子音との比率が前記候補単語抽出手段が候補として抽出した単語に対応した比率範囲にあるかどうかを判定する
プログラム。