JP4604424B2 - 音声認識装置及び方法、並びにプログラム - Google Patents
音声認識装置及び方法、並びにプログラム Download PDFInfo
- Publication number
- JP4604424B2 JP4604424B2 JP2001239710A JP2001239710A JP4604424B2 JP 4604424 B2 JP4604424 B2 JP 4604424B2 JP 2001239710 A JP2001239710 A JP 2001239710A JP 2001239710 A JP2001239710 A JP 2001239710A JP 4604424 B2 JP4604424 B2 JP 4604424B2
- Authority
- JP
- Japan
- Prior art keywords
- ratio
- word
- likelihood
- candidate
- vowel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、不特定話者または特定話者の発話を音声認識する音声認識装置等に関する。
【0002】
【従来の技術】
音声認識処理を行う場合、話者がマイクから入力した音声をデジタルデータ化したPCMデータからノイズなどの無関係なデータを極力排除し、話者が発声した音声だけを切り出して音声認識し、認識結果を返すことが理想である。無関係なデータを切り出して、意味のない認識結果を返してしまうことは、混乱を生む原因となる。
【0003】
ノイズに強い音声認識システムを構築するためには、音声区間の検出精度を向上させるのに加えて、話者が発した音声以外のノイズなどを音声区間として誤って検出してしまった場合にも、その誤って検出した区間を棄却することが望まれる。音声以外から誤って検出した音声区間を棄却することができれば、すぐに再び音声入力待ちの状態に戻すことができ、何事もなかったかのように処理していくことが可能である。
【0004】
ここで、音声区間を検出するための処理では、一般に、音声のパワー成分に着目し、パワーが大きく増大する部分を音声の開始区間と判断している。そして、パワーが大きな部分が連続して長時間続かずに、短時間の後に下がってしまう部分については、ノイズと見なして棄却するようにしている。
【0005】
【発明が解決しようとする課題】
しかしながら、このような処理では、話者が発した音声と似たようなパワー成分を持つノイズを棄却することができずに、音声区間であると判断してしまうことになる。また、「ええと」などといった話者が本来発話したい内容と無関係な音声は、音声区間の検出だけでは棄却することができない。
【0006】
そこで、パワー成分に基づく判断で音声区間として検出された部分については、全て音声認識処理を行い、認識結果が正解である確率、すなわち認識結果の尤度を判定して、音声認識結果を出力するか、または検出された音声区間を棄却して再び入力待ちの状態に戻すかしている。ここで、認識結果の確からしさを求め方としては、連続音素認識の結果との比較、ガベージモデルの尤度との差の比較、などの方法が一般的に適用されている。
【0007】
ところが、現実の世界で発生するノイズは、種々雑多であり、認識結果の尤度が高いと判定されてしまうようなものも中には存在する。とりわけこのようなノイズが多く発生するような環境では、上記したような従来の方法だけでは、ノイズの区間を棄却できる確率が十分なものとならず、音声認識の精度が低くなってしまうという問題があった。
【0008】
本発明は、上記従来技術の問題点を解消するためになされたものであり、音声認識の結果として高い尤度を示しているノイズを棄却できるようにすることで、音声認識の精度を高くすることができる音声認識装置及び方法、並びにそのためのプログラムを提供することを目的とする。
【0009】
【課題を解決するための手段】
上記目的を達成するため、本発明の第1の観点に係る音声認識装置は、
認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を格納した単語辞書格納手段と、
入力された音声を前記音素モデル及び前記単語辞書を参照して音声認識し、前記単語辞書に登録された各種類の単語の尤度を求め、該求めた尤度に基づいて、認識結果として出力される単語の候補を抽出する候補単語抽出手段と、
前記入力された音声に含まれる母音と子音との比率を算出する比率算出手段と、
前記比率算出手段が算出した母音と子音との比率が所定の範囲にあるかどうかを判定する比率判定手段と、
前記比率判定手段が所定の範囲にあると判定したときに、前記候補単語抽出手段が候補として抽出した単語を音声認識結果として出力する結果出力手段と、を備え、
前記単語辞書は、
前記複数種類の単語のそれぞれに対応付けて、さらに前記比率判定手段の判定に用いるための比率範囲を登録しており、
前記比率判定手段は、
前記母音と子音との比率が前記候補単語抽出手段が候補として抽出した単語に対応した比率範囲にあるかどうかを判定する
ことを特徴とする。
【0010】
本発明の第2の観点に係る音声認識方法は、
入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して音声認識し、前記単語辞書に登録された各種類の単語の尤度を求め、該求めた尤度に基づいて、認識結果として出力される単語の候補を抽出する候補単語抽出ステップと、
前記入力された音声に含まれる母音と子音との比率を算出する比率算出ステップと、
前比率算出ステップで算出した母音と子音との比率が所定の範囲にあるかどうかを判定する比率判定ステップと、
前記比率判定ステップで所定の範囲にあると判定したときに、前記候補単語抽出ステップにおいて候補として抽出した単語を音声認識結果として出力する結果出力ステップと、を含み、
前記単語辞書は、
前記複数種類の単語のそれぞれに対応付けて、さらに前記比率判定手段の判定に用いるための比率範囲を登録しており、
前記比率判定ステップは、
前記母音と子音との比率が前記候補単語抽出手段が候補として抽出した単語に対応した比率範囲にあるかどうかを判定する
ことを特徴とする。
【0011】
本発明の第3の観点に係るプログラムは、
入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して音声認識し、前記単語辞書に登録された各種類の単語の尤度を求め、該求めた尤度に基づいて、認識結果として出力される単語の候補を抽出する候補単語抽出手段、
前記入力された音声に含まれる母音と子音との比率を算出する比率算出手段、
前記比率算出手段が算出した母音と子音との比率が所定の範囲にあるかどうかを判定する比率判定手段、
及び、前記比率判定手段が所定の範囲にあると判定したときに、前記候補単語抽出手段が候補として抽出した単語を音声認識結果として出力する結果出力手段
としてコンピュータ装置を機能させ、
前記単語辞書は、
前記複数種類の単語のそれぞれに対応付けて、さらに前記比率判定手段の判定に用いるための比率範囲を登録しており、
前記比率判定手段は、
前記母音と子音との比率が前記候補単語抽出手段が候補として抽出した単語に対応した比率範囲にあるかどうかを判定する。
【0028】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態について説明する。
【0029】
[第1の実施の形態]
図1は、この実施の形態にかかる音声認識装置の構成を示すブロック図である。図示するように、この音声認識装置は、音声入力部1と、入力音声格納部2と、パワー算出部3と、音声区間検出部4と、音声特徴抽出部5と、音素モデル格納部6と、単語辞書格納部7と、尤度計算部8と、検証部9と、最終判定部10と、出力部11とを備えている。
【0030】
音声入力部1は、不特定話者から入力された音声(アナログ信号)をA/D変換するもので、この音声を時系列で示すデジタル音声信号(例えば、PCM信号)に変換する。入力音声格納部2は、音声入力部1によって変換されたデジタル音声信号を格納する。
【0031】
パワー算出部3は、入力音声格納部2に格納されたデジタル音声信号を、所定の時間間隔(2.0〜4.0ミリ秒)で音声データを、時間窓などのハミング窓によって複数のフレームに区分し、区分した各フレームから音声データを切り出してパワー成分を求める。音声区間検出部4は、パワー算出部3が算出したパワー成分が所定の閾値を超えたフレームを音声区間として検出する。例えば、1秒以内にパワー成分が閾値を下回ったフレームは、音声区間としない。音声特徴抽出部5は、音声区間検出部4が検出した音声区間について、それぞれパワー算出部3が算出したパワー成分に基づいて音響特徴ベクトルX(t)を計算する。
【0032】
音素モデル格納部6は、認識対象となる音声を構成する全ての音素をモデル化した音素モデルを格納している。音素モデルとしては、例えば図2に示すような隠れマルコフモデル(HMM)が適用される。図2では、音素“z”についてのみ示しているが、実際には、全ての音素についてのHMMが記憶されていることとなる。
【0033】
単語辞書格納部7は、単語毎の音素パターン系列情報を登録した単語辞書を格納している。この単語辞書は、例えば図3に示すようなものであり、“善光寺(ぜんこうじ)”という単語について、z→e→n→k→o→u→j→iという音素パターン系列を登録し、“善通寺(ぜんつうじ)”という単語について、z→e→n→ts→→u→j→iという音素パターン系列を登録している。
【0034】
尤度計算部8は、音響特徴ベクトルX(t)とHMMによる音素モデルとを参照してフレーム毎の連続音素認識を行い、各フレームの尤度の合計が最大となるものを暫定的に第1位候補単語として抽出する。尤度計算部8は、第1位候補単語を抽出するのに必要となる尤度(取得尤度)の他に、検証部9が尤度信頼度率Sを求めるために必要となる最低尤度と最高尤度とを求めている。
【0035】
次に、尤度計算部8による尤度(取得尤度、最低尤度及び最高尤度)の計算について、図4を参照して説明する。これは、「善通寺(ぜんつうじ)」という単語を音声認識する場合の例であり、その理想的な音素の並びとしては、
z・・・z、e・・・e、n・・・n、ts・・・ts、u・・・u、j・・・j、i・・・i
となる。
【0036】
この図において、縦軸は時間(フレーム)を示しており、第0〜第79までの80フレームが尤度計算の対象となっている。図の左側(フレーム番号のすぐ右側)の格子状に示される○は、音素モデルとしてのHMMの状態を表しており、単語「善通寺」を音声認識する際の状態の遷移の経路を太矢印で示している。この経路を進むために各フレームで出力された値が取得尤度である。
【0037】
第1位音素は、入力音声格納部2に格納された音声信号をフレーム毎に音声認識した結果、当該フレームにおいて尤度が最も高くなった音素であり、その尤度が最高尤度となる。また、音声認識した結果として最低だった音素の尤度が最低尤度となる。各フレームでの取得尤度、最低尤度及び最高尤度は、次の検証部9で尤度信頼度率Sを求めるのに用いられる。第0フレームから第79フレームまでに状態の経路として複数の経路を考えることができるが、そのうちで取得尤度の合計が最も高くなるものを抽出し、第1候補単語としている。
【0038】
検証部9は、音声認識の精度を高めるべく、尤度計算部8が抽出した第1位候補単語について、次の数式による演算を行って、その尤度信頼度率Sを求める。
【数1】
S={Σ(取得尤度−最低尤度)/(最高尤度−最低尤度)}/フレーム数
【0039】
尤度信頼度率Sが求まると、検証部9は、これが予め定めた閾値Sminよりも大きいかどうかを判定する。閾値Smin以下であれば第1位候補単語を棄却し、閾値より大きければさらに最終判定部10による判定を行わせる。尤度信頼度率Sと比較される閾値Sminの値は、例えば90%に設定される。これは、何らかの認識結果が得られることと、認識結果が正確であることのバランスをとるための値として設定されたものである。
【0040】
最終判定部10は、検証部9が閾値Sminより大きいと判定した尤度信頼度率Sを持つ第1候補単語の母音率Vを求める。母音率Vは、音声区間検出部4が音声区間であると検出したフレームのうちでa、i,u、e、o、nの音素を持つフレームを母音系音素のフレームとし、その他の音素を持つフレームを子音系音素のフレームとして、母音系音素のフレームと子音系音素のフレームの合計に対して母音系音素のフレームが示す比率を示すものである。
【0041】
そして、最終判定部10は、求めた母音率Vが予め設定した閾値Vminよりも大きいかどうかを判定する。閾値Vminよりも大きければ第1位候補単語を正解の単語として出力部11に渡し、閾値Vmin以下であれば第1位候補単語を棄却する。ここで、母音率Vと比較される閾値Vminの値は、例えば15%に設定される。これは、人間が言語で発話した音声は比較的母音率が高くなることが経験上知られているのに対して、例えば、図5に示すようにキーボードを打つ音の実測結果では母音率が非常に低くなっていることから、このような値に設定されたものである。
【0042】
出力部11は、最終判定部10から渡された正解となった単語を出力する。出力部11は、第1位候補単語が棄却され、正解が得られなかった場合には、その旨を出力する。
【0043】
なお、上記の音声認識装置は、パーソナルコンピュータなどの汎用コンピュータをプラットフォームとして実現することができ、例えば、音声入力部1及び出力部11は、それぞれ汎用コンピュータに接続されるマイクロフォン、表示装置によって実現される。入力音声格納部2、音素モデル格納部6、単語辞書格納部7は、それぞれに対応した領域がメモリに確保されることによって実現される。音素モデル格納部6が格納する音素モデル、単語辞書格納部7が格納する単語辞書は、音声認識処理を行う前に予め外部装置から読み込まれてメモリに記憶されるものである。パワー算出部3、音声区間検出部4、音声特徴検出部5、尤度計算部8、検証部9及び最終判定部10は、CPU(Central Processing Unit)がメモリに記憶されたプログラムを実行することによって実現される。
【0044】
次に、動作について説明する。図6は、この実施の形態にかかる音声認識装置における処理を示すフローチャートである。
【0045】
最初に、音素モデルと、単語辞書及び母音率テーブルとを外部記憶装置からメモリに読み込み、音素モデル格納部6と単語辞書格納部7とを構築する(ステップS101)。次に、尤度信頼度率Sと比較される閾値Sminの値と、母音率Vと比較される閾値Vminの値とを最終判定部10に設定する(ステップS102)。そして、次に示す音声認識処理を行い(ステップS103)、このフローチャートの処理を終了する。
【0046】
図7は、ステップS103の音声認識処理を詳細に示すフローチャートである。まず、話者が認識対象として発声した音声を音声入力部1から入力し、時系列のデジタル音声信号に変換して入力音声格納部2に格納する(ステップS201)。次に、パワー算出部3は、入力音声格納部2に格納したデジタル音声信号を所定時間毎で複数のフレームに区分し、各フレームのパワー成分を算出する(ステップS202)。
【0047】
次に、音声区間検出部4は、ステップS202で算出した各フレームのパワー成分を所定の閾値と比較し、閾値を上回ったフレームを音声区間として抽出する(ステップS203)。そして、この処理で候補の単語を抽出するのに必要なだけの音声区間が検出されたかどうかを判定する(ステップS204)。必要なだけの音声区間が検出されていなければ、処理を終了する。必要なだけの音声区間が検出された場合には、音声特徴抽出部5は、ステップS202で算出した各フレームのパワー成分に基づいて、ステップS203で抽出した音声区間の音響特徴ベクトルX(t)を計算する(ステップS205)。
【0048】
次に、尤度計算部8は、ステップS205で算出した音声特徴ベクトルX(t)と音素モデル格納部6に格納されている音素モデルとしての隠れマルコフモデルに基づいて、単語辞書格納部7に格納されている単語辞書に登録された単語のうちで尤度が最も高くなるものを、第1位候補単語として抽出する(ステップS206)。
【0049】
第1位候補単語が抽出されると、検証部9は、前述した処理を行うことで、第1位候補単語についての尤度信頼度率Sを求める(ステップS207)。そして、この尤度信頼度率SをステップS102で設定した閾値Sminと比較し、尤度信頼度率Sが閾値Sminを上回っているかどうかを判定する(ステップS208)。尤度信頼度率Sが閾値Smin以下であれば、抽出された第1候補単語を棄却して(ステップS212)、処理を終了する。
【0050】
尤度信頼度率Sが閾値Sminを上回っていれば、第1位候補単語が最終判定部10に渡され、最終判定部10は、ステップS203で検出された音声区間のうちの母音率Vを求める(ステップS209)。そして、この母音率VをステップS102で設定した閾値Vminと比較し、母音率Vが閾値Vminを上回っているかどうかを判定する(ステップS210)。
【0051】
母音率Vが閾値Vmin以下であれば、抽出された第1位候補単語を棄却して(ステップS212)、処理を終了する。一方、母音率Vが閾値Vminを上回っていた場合には、抽出された第1位候補単語を出力部11に渡す。そして、出力部11は、この第1位候補単語を音声認識の結果として出力する(ステップS211)。そして、処理を終了する。なお、ステップS212で第1候補単語が棄却された場合は、その旨を示すメッセージが出力部11から出力される。
【0052】
以上説明したように、この実施の形態にかかる音声認識装置では、尤度計算部8において尤度が最大となる第1位候補単語を抽出した後、さらに検証部9において尤度信頼度率Sに基づく検証を行い、最終判定部10において母音率Vに基づく最終判定を行っている。ここで、尤度計算部8は、尤度が最大となる第1位候補単語を抽出するだけであるが、音声区間検証部4が音声区間として検出したフレームがノイズのフレームであった場合には、経験則的に尤度信頼度率Sの値は低くなる。また、話者の発した音声の母音率Vは、極端に低くなることがない。
【0053】
このため、ノイズを音声認識した場合に、尤度信頼度率Sが低くなるか、母音率Vが極端に低くなることによって、尤度計算部8で計算した尤度が高かったとしてもノイズとして棄却することができるようになる。これにより、ノイズについての棄却率を高めることができ、従来に比べて精度の高い音声認識を行うことができるようになる。
【0054】
[第2の実施の形態]
この実施の形態にかかる音声認識装置は、第1の実施の形態にかかるものとほぼ同じ構成を有しているが、特定話者の音声認識を対象とするもので、単語辞書格納部7に格納される単語辞書が第1の実施の形態のものと異なっており、また、単語辞書格納部7は、後述する母音率履歴テーブルをさらに格納している。また、音声認識のために実行される処理(プログラム)が第1の実施の形態のものと異なり、最終判定部10の機能が異なる。
【0055】
図8(a)は、この実施の形態にかかる音声認識装置において、単語辞書格納部7に格納される単語辞書の例を示す図である。この単語辞書は、単語毎の音素パターン系列情報に加えて、最終判定部10で母音率Vと比較される規定範囲(最小値Vminと最大値Vmax)を登録している。この規定範囲は、初期状態では所定のデフォルト値が登録されているが、単語辞書格納部7内に格納された母音率履歴テーブルに登録された母音率に基づいて変更されることができる。
【0056】
図8(b)は、この実施の形態にかかる音声認識装置において、単語辞書格納部7に格納される母音率履歴テーブルを示す図である。母音率履歴テーブルは、最終判定部10が求めた母音率Vの履歴を単語辞書に登録された単語毎に登録するテーブルである。なお、母音率履歴テーブルへの母音率Vの登録の処理、及び単語辞書に登録された規定範囲の変更の処理は、最終判定部10が行うこととなる。
【0057】
次に、動作について説明する。図9は、この実施の形態にかかる音声認識装置における処理を示すフローチャートである。
【0058】
まず、第1の実施の形態の場合と同じく、音素モデルと、単語辞書及び母音率履歴テーブルとを外部記憶装置からメモリに読み込み、音素モデル格納部6と単語辞書格納部7とを構築する(ステップS301)。次に、尤度信頼度率Sと比較される閾値Sminの値を判定部10に設定する(ステップS302)。そして、次に示す音声認識処理を行い(ステップS303)、このフローチャートの処理を終了する。
【0059】
図10、図11は、ステップS303の音声認識処理を示すフローチャートである。このフローチャートにおけるステップS401〜S409、S418の処理は、それぞれ図7のステップS201〜S209、S212の処理と同じである。
【0060】
ステップS409で母音率Vが求められると、最終判定部10は、第1位候補単語に対応付けて単語辞書に登録されている規定範囲の最小値Vminと最大値Vmaxとを読み出し、求めた母音率Vが最小値Vminよりも大きく、最大値Vmaxよりも小さい範囲、すなわち規定範囲内にあるかどうかを判定する(ステップS411)。規定範囲内になければ、ステップS418の処理に進み、第1位候補単語が棄却される。
【0061】
規定範囲内にあれば、抽出された第1位候補単語を出力部11に渡し、出力部11が、この第1位候補単語を音声認識の結果として出力する(ステップS411)。さらに最終判定部10は、出力した単語について母音率履歴テーブルに既に登録されている母音率の数を変数nに代入し、さらに変数nの値を1だけプラスする(ステップS412)。そして、ステップS409で求めた母音率Vを当該単語のn個目の母音率として母音率履歴テーブルに登録する(ステップS413)。
【0062】
次に、最終判定部10は、当該単語について母音率履歴テーブルに登録された母音率の個数nが所定数m以上となっているかどうかを判定する(ステップS414)。母音率の個数nが所定数m以上となっていなければ、そのまま処理を終了する。
【0063】
一方、母音率の個数nが所定数m以上となっていれば、最終判定部10は、当該単語について母音率履歴テーブルに登録されたn個の母音率の分散pを求める(ステップS415)。次に、分散pの値が予め定められた値xよりも小さいかどうかを判定する。分散pの値が値x以上である場合には、そのまま処理を終了する。分散pの値が値xよりも小さい場合には、当該単語について単語辞書に登録された規定範囲の最小値Vminと最大値Vmaxとにそれぞれ分散pの値を加算し、規定範囲を再設定する(ステップS417)。そして、処理を終了する。
【0064】
以上説明したように、この実施の形態にかかる音声認識装置では、母音率Vによる判定には、単語毎に登録された規定範囲(最小値Vminと最大値Vmax)を用いている。このため、第1の実施の形態に示した音声認識装置に比べて、より正確にノイズの棄却を行うことができ、音声認識の精度が向上する。しかも、規定範囲の値は、話者が過去に発した同じ単語についての母音率の履歴に従って変更することができる。この音声認識装置は、特定話者を対象としているものであるので、母音率の履歴によって規定範囲をより適正なものとしていくことができ、音声認識の精度を高めることができるようになる。
【0065】
[実施の形態の変形]
本発明は、上記の第1、第2の実施の形態に限られず、種々の変形、応用が可能である。以下、本発明に適用可能な上記の実施の形態の変形態様について説明する。
【0066】
上記の第1の実施の形態では、母音率Vと比較される閾値Vminは、第1位候補単語に関わらず、同一の値が用いられていたが、第1の実施の形態のように単語辞書に単語毎に対応付けて閾値Vminを登録しておき、第1位候補単語に対応づけられた閾値Vminを、求めた母音率Vと比較するものとしてもよい。ここで、「愛(あい)」といった母音率が高くなる単語に関しては閾値Vminの値を高めに設定し、「被災(ひさい)」といった母音率が低くなる単語に関しては閾値Vminの値を低めに設定しておけばよい。
【0067】
上記の第2の実施の形態では、全ての単語について単語辞書に規定範囲が登録されているものとしていたが、一部の単語についてのみ独自の規定範囲を登録し、他の単語については共通の規定範囲(VMIN、VMAX)を用いるものとしてもよい。この場合、ステップS302の処理で共通の規定範囲(VMIN、VMAX)を最終判定部10に設定しておく。ステップS409で母音率Vを求めた後に、第1位候補単語に独自の規定範囲が登録されているかどうかを判別する。独自の規定範囲が登録されていなければ、そのままステップS410の処理に進むものとし、独自の規定範囲が登録されていれば、最終判定部に設定される規定範囲を共通の規定範囲(VMIN、VMAX)から独自の規定範囲(Vmin、Vmax)に書き替えて、ステップS410の処理に進めばよい。
【0068】
上記の第2の実施の形態では、単語辞書に登録される規定範囲(Vmin、Vmax)は、母音率履歴テーブルに登録された母音率の分散pが加算されて変更されるものとなっていた。これに対して、特定話者が発話した同じ単語であれば、その母音率の値はほぼ同じ値になることが一般に知られている。このため、母音率履歴テーブルに登録された母音率の個数が多くなるに従って、その計算結果に基づいて規定範囲を狭く設定していくようにしてもよい。
【0069】
上記の第1、第2の実施の形態では、検証部9で尤度信頼度率Sが閾値Sminよりも大きいと判定された場合に、最終判定部10は、母音率Vについての判定を行うものとしていた。しかしながら、検証部9の処理を経ずに母音率Vについての判定を行い、その判定結果を最終結果とするものとしてもよい。また、母音率Vについての判定を先に行い、母音率Vが閾値Vminよりも大きい場合(第2の実施の形態では、規定範囲(VminからVmaxの間)内にあると判定した場合)、さらに尤度信頼度率Sを閾値Sminと比較させるものとしてもよい。
【0070】
上記の第1、第2の実施の形態では、第1位候補単語の尤度信頼度率S及び母音率Vを、全てのフレームに基づいて算出していたが、2つまたはそれ以上の間隔毎のフレームに基づいて算出するものとしてもよい。これにより、尤度信頼度率Sおよび/または母音率Vの計算精度が低下するが、処理時間を短縮することができるというメリットが得られる。
【0071】
上記の第1、第2の実施の形態では、尤度計算部8は、HMMによる音素モデルを参照し、フレーム毎の連続音素認識により尤度を計算していた。これに対して、HMMを母音毎にまたは子音毎に混合したガベージモデルで表現したモデルを用いて、尤度を計算するものとしてもよい。この場合、フレーム毎の音声認識を必要としないので、計算量が少なくなり、特に単語辞書に登録されている単語数が少ない場合に適用するのに好適である。
【0072】
上記の第1、第2の実施の形態では、第1位候補単語による尤度信頼度率Sと母音率Vの判定で棄却されれば、その時点で音声認識結果が得られないものとなっていた。しかしながら、第1位候補単語よりも尤度が低くても、ある程度の尤度がある単語(HMMの状態の経路が異なるのみで、単語としては第1位候補単語と同じである場合を含む)であれば、尤度信頼度率Sと母音率Vの判定で棄却されず、しかもこれが正解の単語である可能性も存在する。そこで、次のような変形を加えるものとしてもよい。
【0073】
尤度計算部8は、例えば、尤度が高い単語に3つの単語を第1位、第2位、第3位候補単語として抽出する。第1位候補単語が尤度信頼度率Sまたは母音率Vに基づいて棄却された場合には、第2位候補単語の尤度信頼度率Sと母音率Vとを順次求める。これで棄却されなければ、第2位候補単語を音声認識結果として出力部11から出力する。第2位候補単語についても尤度信頼度率Sまたは母音率Vに基づいて棄却された場合には、第3位候補単語の尤度信頼度率Sと母音率Vとを順次求める。これで棄却されなければ、第3位候補単語を音声認識結果として出力部11から出力する。第3位候補単語も棄却された場合には、音声認識結果が得られなかった旨を出力部11から出力すればよい。
【0074】
上記の第1、第2の実施の形態では、出力部11は、例えば表示装置によって構成され、音声認識結果(棄却された旨の情報を含む)を話者に提示するものであった。これに対して、出力部11を何らかの電子回路に接続させ、出力部11からの出力結果に従って当該電子回路を動作させるものとしてもよい。
【0075】
上記の第1、第2の実施の形態では、図6及び図7に示したフローチャートの処理、或いは図9乃至図11に示したフローチャートの処理を実行させるためのプログラムは、汎用コンピュータのメモリに記憶されているものとして説明した。そして、CPUがメモリに記憶されたプログラムを実行することで、パワー算出部3、音声区間検出部4、音声特徴検出部5、尤度計算部8、検証部9及び最終判定部10が実現されるものとしていた。これに対して、図6及び図7のフローチャートの処理、或いは図9乃至図11のフローチャートの処理を汎用コンピュータに実行させ、パワー算出部3、音声区間検出部4、音声特徴抽出部5、尤度計算部8、検証部9及び最終判定部10を実現させるためのプログラムを、CD−ROMやDVD−ROMなどのコンピュータ読み取り可能な記録媒体に格納して配布してもよい。または、これらのプログラムをWebサーバ装置が有する固定ディスク装置に格納しておき、インターネットを汎用コンピュータにダウンロードさせるものとしてもよい。
【0076】
【発明の効果】
以上説明したように、本発明によれば、音声認識の結果として高い尤度を示しているノイズでも棄却できるようなり、音声認識の精度を高めることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態にかかる音声認識装置の構成を示すブロック図である。
【図2】図1の音素モデル格納部に格納される音素モデルの例を示す図である。
【図3】図1の単語辞書格納部に格納される単語辞書の例を示す図である。
【図4】尤度信頼度率を求める方法を説明する図である。
【図5】キーボードを打つ音の実測結果を示す図である。
【図6】本発明の第1の実施の形態にかかる音声認識装置における処理を示すフローチャートである。
【図7】図6の音声認識処理を詳細に示すフローチャートである。
【図8】(a)は、本発明の第2の実施の形態にかかる音声認識装置において単語辞書格納部に格納される単語辞書の例を、(b)は、母音率履歴テーブルを示す図である。
【図9】本発明の第2の実施の形態にかかる音声認識装置における処理を示すフローチャートである。
【図10】図9の音声認識処理を詳細に示すフローチャートである。
【図11】図9の音声認識処理を詳細に示すフローチャートである。
【符号の説明】
1・・・音声入力部、2・・・入力音声格納部、3・・・パワー算出部、4・・・音声区間検出部、5・・・音声特徴抽出部、6・・・音素モデル格納部、7・・・単語辞書格納部、8・・・尤度計算部、9・・・検証部、10・・・最終判定部、11・・・出力部
Claims (9)
- 認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を格納した単語辞書格納手段と、
入力された音声を前記音素モデル及び前記単語辞書を参照して音声認識し、前記単語辞書に登録された各種類の単語の尤度を求め、該求めた尤度に基づいて、認識結果として出力される単語の候補を抽出する候補単語抽出手段と、
前記入力された音声に含まれる母音と子音との比率を算出する比率算出手段と、
前記比率算出手段が算出した母音と子音との比率が所定の範囲にあるかどうかを判定する比率判定手段と、
前記比率判定手段が所定の範囲にあると判定したときに、前記候補単語抽出手段が候補として抽出した単語を音声認識結果として出力する結果出力手段と、を備え、
前記単語辞書は、
前記複数種類の単語のそれぞれに対応付けて、さらに前記比率判定手段の判定に用いるための比率範囲を登録しており、
前記比率判定手段は、
前記母音と子音との比率が前記候補単語抽出手段が候補として抽出した単語に対応した比率範囲にあるかどうかを判定する
ことを特徴とする音声認識装置。 - 前記比率判定手段は、
前記母音と子音との比率を予め設定された閾値と比較することで、所定の範囲にあるかどうかの判定を行う
ことを特徴とする請求項1に記載の音声認識装置。 - 同一の話者から入力された同一の単語について、前記比率算出手段が算出した母音と子音との比率の履歴を複数回分登録する履歴登録手段をさらに備え、
少なくとも1の単語に対応付けて前記単語辞書に登録された比率範囲は、前記履歴登録手段に登録された各比率の分散値に応じて変更されるもの、または、前記履歴登録手段に登録される比率の数が多くなるにつれて狭くなるものである
ことを特徴とする請求項2に記載の音声認識装置。 - 前記候補単語抽出手段は、
尤度の高いほうから順位付けられた複数の単語の候補を抽出し、
前記比率算出手段は、
尤度の高い単語から順に母音と子音との比率を算出し、該算出した母音と子音との比率が所定の範囲にないと前記比率判定手段によって判定されたときに、次の順位の単語について母音と子音との比率を算出する
ことを特徴とする請求項1乃至3のいずれか1項に記載の音声認識装置。 - 前記候補単語抽出手段が候補として抽出した単語について、その尤度の信頼度を算出する尤度信頼度算出手段と、
前記尤度信頼度算出手段が算出した尤度の信頼度が所定の閾値を上回るかどうかを判定する尤度信頼度判定手段とをさらに備え、
前記結果出力手段は、前記尤度信頼度判定手段が所定の閾値を上回ると判定し、且つ前記比率判定手段が所定の範囲にあると判定したときに、前記候補単語抽出手段が抽出した単語を音声認識結果として出力する
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声認識装置。 - 前記候補単語抽出手段は、
尤度の高いほうから順位付けられた複数の単語の候補を抽出し、
前記尤度信頼度算出手段は、
尤度の高い単語から順に尤度の信頼度を算出し、該算出した尤度の信頼度が前記所定の閾値を上回らないと前記尤度信頼度判定手段によって判定されたときに、次の順位の単語について尤度の信頼度を算出する
ことを特徴とする請求項5に記載の音声認識装置。 - 前記音素モデルは、
認識対象となる音声に含まれる各音素を隠れマルコフモデルでモデル化したものであり、
前記候補単語抽出手段は、
前記入力された音声を所定時間を単位として複数の区間に分割し、該分割した区間のうちの音声区間について音響特徴ベクトルを求め、各区間の音響特徴ベクトルと前記音素モデルとに基づいて連続音素認識を行い、各フレームでの尤度の合計が最大となる単語を候補として抽出する
ことを特徴とする請求項1乃至6のいずれか1項に記載の音声認識装置。 - 入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して音声認識し、前記単語辞書に登録された各種類の単語の尤度を求め、該求めた尤度に基づいて、認識結果として出力される単語の候補を抽出する候補単語抽出ステップと、
前記入力された音声に含まれる母音と子音との比率を算出する比率算出ステップと、
前比率算出ステップで算出した母音と子音との比率が所定の範囲にあるかどうかを判定する比率判定ステップと、
前記比率判定ステップで所定の範囲にあると判定したときに、前記候補単語抽出ステップにおいて候補として抽出した単語を音声認識結果として出力する結果出力ステップと、を含み、
前記単語辞書は、
前記複数種類の単語のそれぞれに対応付けて、さらに前記比率判定手段の判定に用いるための比率範囲を登録しており、
前記比率判定ステップは、
前記母音と子音との比率が前記候補単語抽出手段が候補として抽出した単語に対応した比率範囲にあるかどうかを判定する
ことを特徴とする音声認識方法。 - 入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して音声認識し、前記単語辞書に登録された各種類の単語の尤度を求め、該求めた尤度に基づいて、認識結果として出力される単語の候補を抽出する候補単語抽出手段、
前記入力された音声に含まれる母音と子音との比率を算出する比率算出手段、
前記比率算出手段が算出した母音と子音との比率が所定の範囲にあるかどうかを判定する比率判定手段、
及び、前記比率判定手段が所定の範囲にあると判定したときに、前記候補単語抽出手段が候補として抽出した単語を音声認識結果として出力する結果出力手段
としてコンピュータ装置を機能させ、
前記単語辞書は、
前記複数種類の単語のそれぞれに対応付けて、さらに前記比率判定手段の判定に用いるための比率範囲を登録しており、
前記比率判定手段は、
前記母音と子音との比率が前記候補単語抽出手段が候補として抽出した単語に対応した比率範囲にあるかどうかを判定する
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001239710A JP4604424B2 (ja) | 2001-08-07 | 2001-08-07 | 音声認識装置及び方法、並びにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001239710A JP4604424B2 (ja) | 2001-08-07 | 2001-08-07 | 音声認識装置及び方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003050595A JP2003050595A (ja) | 2003-02-21 |
JP4604424B2 true JP4604424B2 (ja) | 2011-01-05 |
Family
ID=19070416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001239710A Expired - Fee Related JP4604424B2 (ja) | 2001-08-07 | 2001-08-07 | 音声認識装置及び方法、並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4604424B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1524650A1 (en) * | 2003-10-06 | 2005-04-20 | Sony International (Europe) GmbH | Confidence measure in a speech recognition system |
JP5467043B2 (ja) | 2008-06-06 | 2014-04-09 | 株式会社レイトロン | 音声認識装置、音声認識方法および電子機器 |
JP5538350B2 (ja) * | 2011-11-30 | 2014-07-02 | 日本電信電話株式会社 | 音声認識方法とその装置とプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58224396A (ja) * | 1982-06-23 | 1983-12-26 | 富士通株式会社 | 音声認識装置 |
JPS61219099A (ja) * | 1985-03-25 | 1986-09-29 | 株式会社東芝 | 音声認識装置 |
JPH01185599A (ja) * | 1988-01-18 | 1989-07-25 | Toshiba Corp | 音声認識装置 |
JPH02293798A (ja) * | 1989-05-02 | 1990-12-04 | Ricoh Co Ltd | 音声認識装置の辞書更新方式 |
JPH05249987A (ja) * | 1992-03-09 | 1993-09-28 | Matsushita Electric Ind Co Ltd | 音声検出方法および音声検出装置 |
JPH1185189A (ja) * | 1997-09-10 | 1999-03-30 | Hitachi Ltd | 音声認識装置 |
-
2001
- 2001-08-07 JP JP2001239710A patent/JP4604424B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58224396A (ja) * | 1982-06-23 | 1983-12-26 | 富士通株式会社 | 音声認識装置 |
JPS61219099A (ja) * | 1985-03-25 | 1986-09-29 | 株式会社東芝 | 音声認識装置 |
JPH01185599A (ja) * | 1988-01-18 | 1989-07-25 | Toshiba Corp | 音声認識装置 |
JPH02293798A (ja) * | 1989-05-02 | 1990-12-04 | Ricoh Co Ltd | 音声認識装置の辞書更新方式 |
JPH05249987A (ja) * | 1992-03-09 | 1993-09-28 | Matsushita Electric Ind Co Ltd | 音声検出方法および音声検出装置 |
JPH1185189A (ja) * | 1997-09-10 | 1999-03-30 | Hitachi Ltd | 音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2003050595A (ja) | 2003-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP2011033680A (ja) | 音声処理装置及び方法、並びにプログラム | |
JP6866715B2 (ja) | 情報処理装置、感情認識方法、及び、プログラム | |
CN107610693B (zh) | 文本语料库的构建方法和装置 | |
JP5229124B2 (ja) | 話者照合装置、話者照合方法およびプログラム | |
JP6481939B2 (ja) | 音声認識装置および音声認識プログラム | |
JP2011053569A (ja) | 音響処理装置およびプログラム | |
KR101242182B1 (ko) | 음성인식장치 및 음성인식방법 | |
US11961510B2 (en) | Information processing apparatus, keyword detecting apparatus, and information processing method | |
Hirschberg et al. | Generalizing prosodic prediction of speech recognition errors | |
JP4604424B2 (ja) | 音声認識装置及び方法、並びにプログラム | |
JP2003177779A (ja) | 音声認識のための話者学習法 | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
JP2004177551A (ja) | 音声認識用未知発話検出装置及び音声認識装置 | |
JP4610451B2 (ja) | 音声認識装置及びプログラム | |
US6438521B1 (en) | Speech recognition method and apparatus and computer-readable memory | |
JP5673239B2 (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
KR101066472B1 (ko) | 초성 기반 음성인식장치 및 음성인식방법 | |
JPWO2010024052A1 (ja) | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム | |
JP2006313261A (ja) | 音声認識装置並びに音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070625 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100506 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100920 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131015 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |