JP6131537B2

JP6131537B2 - 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法

Info

Publication number: JP6131537B2
Application number: JP2012150348A
Authority: JP
Inventors: 清孝森岡
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2012-07-04
Filing date: 2012-07-04
Publication date: 2017-05-24
Anticipated expiration: 2032-07-04
Also published as: US20140012578A1; US9251789B2; JP2014013302A

Description

本発明の幾つかの態様は、音声認識システム、音声認識プログラム及び音声認識方法等に関する。

音声認識は、一般的には入力された音声を分析して得られる音声の特徴を表すパラメーターからなる入力パターンをデータ処理し、この未知の入力パターンと予め複数の音声についてデータベース化された登録パターン（たとえば辞書データ）とをパターンマッチングによって比較し、尤度の大きい辞書データの登録パターンを認識結果として出力する方法がとられる。ここで尤度は、音声認識結果の候補の尤もらしさを表すパラメーターであり、音声のスペクトル的な揺らぎと時間的な揺らぎを多数の学習サンプルによって統計的にモデル化する隠れマルコフモデル（Hidden Markov Model）などに対応付けて求められる。尚、入力された音声は、複数のフレームに分割されて処理される場合が多い。

特許文献１には、隠れマルコフモデルなどにより尤度を求め、１位の音声認識結果の尤度と２位以下の各音声認識結果の尤度との差である尤度差を求め、予め定めてある尤度差判定閾値に基づいて、音声認識が適正に実施されたものと認識されたもののみを認識結果の正解の候補として定める音声認識手法が開示されている。

特開平１０−２０７４８６号公報

しかし隠れマルコフモデル（Hidden Markov Model）などを用いてマッチングを行う音声認識においては、話す速度（発話速度）が遅くなると遅くなった分比較するフレーム数が多くなるので認識結果の尤度が高まる傾向がある。これに伴い、尤度差も広がる傾向にある。このため、発話速度が遅くなれば遅くなるほど尤度差の値が大きくなり、１位の音声認識結果が間違っていても正しい答えであると判定してしまう傾向がある。

尤度差判定閾値を高く設定することにより、発話速度が遅い場合でも答えの信頼性を担保することができるが、逆により速い速度で話した場合の認識率が低下してしまう。

本発明は、以上のような技術的課題に鑑みてなされたものである。本発明は、上述した問題若しくは課題の少なくともひとつを解決するためになされたものであり、以下の適用例若しくは実施形態として実現することが可能である。

［適用例１］
本適用例にかかる音声認識システムは、音声データの認識を行う音声認識システムであって、前記音声データの音声認識を行い、前記音声データについて予め登録された登録語に対する尤度を算出する音声認識部と、前記尤度に基づき、前記音声認識の信頼性判定を行う信頼性判定部と、前記音声データの発話速度に応じて、前記信頼性判定の判定基準を変更する判定基準変更処理部と、を含むことを特徴とする。

この構成によれば、音声認識部において音声データの音声認識を行い予め登録された登
録語に対する尤度を算出し、信頼性判定部により尤度に基づき信頼性を判定し、判定基準変更処理部により利用者の発話速度に応じて信頼性判定の判定基準を変更することで、利用者の話す速度が変化することによって発生する誤った音声認識（誤認識）を低減することができる音声認識システムを提供することができる。

同一の単語若しくはフレーズなどを発話した場合、利用者の発話速度が速い場合と遅い場合とでは、遅い場合の方の尤度が大きく算出される場合が多い。従って、尤度に基づき信頼性判定を行う場合には、利用者の発話速度に応じて判定基準を変更することで、信頼性を高めた音声認識システムを構成することができる。

［適用例２］
上記適用例にかかる音声認識システムにおいて、前記信頼性判定部は、前記音声認識の結果得られた複数の前記登録語における前記尤度の差である尤度差と尤度差判定閾値との比較の結果に基づき前記音声認識の信頼性を判定する前記信頼性判定を行い、前記判定基準変更処理部は、前記発話速度が遅くなるほど前記信頼性判定に用いる前記尤度差判定閾値が大きくなるように前記尤度差判定閾値を変更することが好ましい。

この構成によれば、信頼性判定部において複数の登録語における尤度差と尤度差判定閾値との比較において音声認識の信頼性を判定し、利用者の発話速度が遅くなるほど尤度差判定閾値の値が大きくなるようにすることで、誤認識の増加を低減することができる音声認識システムを提供することができる。

上述したように、同一の単語若しくはフレーズなどを発話した場合、利用者の発話速度が速い場合と遅い場合とでは、遅い場合の方の尤度が大きく算出される場合が多い。また、異なる登録語の間の尤度差をみると、発話速度が遅くなれば尤度差も大きくなる傾向にある。従って、利用者の発話速度にかかわらず尤度差判定閾値が固定の場合には、発話速度が遅いと、誤認識のときの尤度が第１位の登録語と第２位の登録語における尤度差が尤度差判定閾値よりも大きくなる場合が想定される。このような場合は、誤認識がなされているにもかかわらず、正しい音声認識（正認識）が行われたと判断されることになり、誤認識の結果が正認識の結果として音声認識システムから出力されることになる。利用者の発話速度に合わせて尤度差判定閾値の値を変えることにより、このような事態の発生の低減を図ることができる。

［適用例３］
上記適用例にかかる音声認識システムにおいて、前記尤度差判定閾値は、前記登録語の音響モデルに対応して設定されており、前記信頼性判定部は、前記音声認識の結果得られた尤度が第１位の第１の登録語の音響モデルに対応して設定された前記尤度差判定閾値を用いて、前記音声データが前記第１の登録語であることの信頼性を判定することが好ましい。

この構成によれば、登録語の音響モデルに対応して尤度差判定閾値が設定され、尤度が第１位の第１の登録語の音響モデルに対応した尤度差判定閾値が信頼性判定部において用いられることで、第１の登録語の音響モデル毎に適した尤度差判定閾値を設定しておくことができ、信頼性判定の結果をより好ましいものにすることができる。

［適用例４］
上記適用例にかかる音声認識システムにおいて、前記判定基準変更処理部は、前記音声データの音声認識における認識時間と前記登録語の音響モデルの母音数とに基づき前記音声データの前記発話速度を判断することが好ましい。

この構成によれば、音声データの音声認識における認識時間と登録語の音響モデルの母音数とに基づき音声データにおける発話速度を判断することで、好ましい尤度差判定閾値を選択することが可能な発話速度を求めることができる。ここで、音響モデルの母音数とは、音響モデルを音素に分解した場合の母音の数でよい。

［適用例５］
上記適用例にかかる音声認識システムにおいて、前記信頼性判定部は、前記第１の登録語と前記尤度が第２位の第２の登録語とにおける前記尤度差を求め、前記尤度差と前記尤度差判定閾値との比較の結果に基づき前記音声データが前記第１の登録語であることの信頼性を判定することが好ましい。

この構成によれば、第１の登録語と第２の登録語とにおける尤度差と尤度差判定閾値との比較の結果に基づき音声データが第１の登録語であることの信頼性を判定することで、音声認識の結果に対する信頼性の高い音声認識システムを構成することができる。

［適用例６］
本適用例にかかる音声認識プログラムは、音声データの音声認識を行い、前記音声データについて予め登録された登録語に対する尤度を算出する音声認識部と、前記尤度に基づき、前記音声認識の信頼性判定を行う信頼性判定部と、前記音声データの発話速度に応じて、前記信頼性判定の判定基準を変更する判定基準変更処理部と、してコンピューターを機能させることを特徴とする。

この構成によれば、音声データの音声認識を行い、音声データについて予め登録された登録語に対する尤度を算出する音声認識部と、尤度に基づき、音声認識の信頼性判定を行う信頼性判定部と、音声データの発話速度に応じて、信頼性判定の判定基準を変更する判定基準変更処理部と、してコンピューターを機能させるプログラムを提供することにより、信頼性の高い音声認識システムを構成することができる。

［適用例７］
本適用例にかかる記憶媒体は、上記適用例にかかる音声認識プログラムが記憶されていることを特徴とする。

この構成によれば、上述したプログラムを記録した記録媒体を用いることにより、信頼性の高い音声認識システムを構成するためのプログラムを容易に持ち運ぶことができる。

［適用例８］
本適用例にかかる音声認識方法は、音声データの音声認識を行う音声認識方法であって、前記音声認識を行い、前記音声データについて予め登録された登録語に対する尤度を算出する音声認識ステップと、前記音声データの発話速度に応じて、信頼性判定の判定基準を変更する判定基準変更処理ステップと、前記尤度に基づき、前記音声認識の前記信頼性判定を行う信頼性判定ステップと、を含むことを特徴とする。

この方法によれば、音声認識を行い、音声データについて予め登録された登録語に対する尤度を算出する音声認識ステップと、音声データの発話速度に応じて、信頼性判定の判定基準を変更する判定基準変更処理ステップと、尤度に基づき、音声認識の信頼性判定を行う信頼性判定ステップと、を含む方法を用いることで、信頼性の高い音声認識システムを構成することができる。

本実施の形態の音声認識システムの機能ブロック図。本実施の形態の音声認識システムの構成の一例。音声認識結果の尤度差の正認識分布と誤認識分布を示す図。本実施の形態の発話速度に応じた信頼性判定例について説明するための図。本実施の形態の発話速度に応じた信頼性判定例について説明するための図。本実施の形態の信頼性判定処理の流れを示すフローチャート。

以下、本発明の好適な実施の形態について図面を用いて詳細に説明する。用いる図面は、説明を行うための便宜上のものである。尚、以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。

（第１実施形態）
図１は、本実施形態の音声認識システム１００の機能ブロック図である。音声認識システム１００は、例えばコンピューターを用いて実現してもよいし、専用のハードウェアで実現してもよい。

音声認識システム１００は音声データの音声認識を行う音声認識システムであって、音声認識部２０、信頼性判定部３０及び判定基準変更処理部４０を含む。音声認識部２０は、音声データの音声認識を行い、音声データについて、予め登録された登録語に対する尤度を算出する部分である。信頼性判定部３０は、音声データの音声認識の結果得られた複数の登録語についての尤度に基づき、音声データの音声認識の信頼性判定を行う部分である。判定基準変更処理部４０は、音声データの発話速度に応じて、信頼性判定の判定基準を変更する部分である。

音声認識システム１００で行う音声認識は、音声データに基づき求めた特徴量と登録語に対応する音響モデルとについて公知の音声認識の手法を用いたマッチングを行い、音声データが登録語である確からしさを示すパラメーターである尤度を求めても良い。登録語は、１つの単語で構成されてもよいし、複数の単語で構成されてもよい。

音声データの発話速度は、音声データに係る音声が通常速度で話されたものか、通常速度よりゆっくりした速度で話されたものか、通常速度より早口で話されたものか等の音声データに係る音声の話す速度を判断するためのものであればよい。ここで、通常速度とは、平均的な発話速度と解してもよい。

音声認識システム１００は、音声データの発話速度を、例えば音声データの音声認識に要した時間（音声認識時間）と音声認識のマッチング対象の登録語（尤度が第１位である登録語でもよい）の長さとに基づき算出してもよい。また、音声認識システム１００は、音声データの発話速度を、例えば音声データにおける母音数並びに子音数と登録語の長さとに基づき算出してもよい。ここで、登録語の長さは、登録語の音響モデルにおける母音数としてもよいし、音響モデルの母音数と子音数とを所定の割合で重み付けをして算出した値としてもよい。

また音声認識システム１００は、例えば登録語毎に基準時間（例えば登録語を通常の速さで話した場合に要する時間やフレーム数でも良い）を持たせ、今回の音声データの発話時間と基準時間との比較により発話速度を算出してもよい。

音声データの音声認識の信頼性判定とは、例えば音声認識の結果、一致すると判断された登録語（尤度が第１位の登録語）についての信頼度に基づく判定でもよい。判定結果は、音声認識結果（音声データが所与の登録語であるという認識結果）に対する信頼度の有
り無しで示しても良いし、信頼度の値を割合やパーセンテージで示してもよい。

また、音声認識システム１００は、信頼性判定の結果を、音声認識が可能な場合（音声データと一致すると判断された登録語が存在した場合）と、音声認識が不可能な場合（音声データと一致すると判断された登録語が存在しなかった場合）とで示してもよい。このとき、音声認識システム１００は、信頼度に基づいて、認識対象の音声データについて音声認識が可能な場合か否かを判断してもよい。尚、信頼度については、ひとつの例を後述する。

この信頼性判定の結果は様々に利用可能である。例えば音声認識システム１００は、音声認識の結果、一致すると判断された登録語（尤度が第１位の登録語）についての信頼度が所定の基準以上である場合に音声認識ができたと判断してもよい。音声認識システム１００は、信頼度に基づいて、音声データについて音声認識可能か否かを判断してもよい。また音声認識システム１００は、一致すると判断された登録語（尤度が第１位の登録語）についての信頼度が所定の基準以上である場合に、結果を採用するようにしてもよい。

また信頼性判定部３０は、音声データの音声認識の結果得られた複数の登録語に対する尤度の尤度差と尤度差判定閾値とを比較して、この比較の結果に基づき音声認識の信頼性を判定する信頼性判定を行い、判定基準変更処理部４０は、発話速度が遅くなるほど信頼性判定に用いる尤度差判定閾値が大きくなるように変更してもよい。

また信頼性判定部３０は、音声データの音声認識の結果得られた尤度が第１位の登録語と他の登録語（例えば第２位の登録語）との尤度差を求め、尤度差と尤度差判定閾値と比較して、比較結果に基づき第１位の登録語の信頼性を判定する信頼性判定を行ってもよい。

発話速度が遅い場合には、速い場合に比べて音声データにおける音声認識時間が長くなりフレーム数も多くなるので、フレーム単位のマッチング結果の累計値としての尤度の値も大きくなる可能性が高いので、発話速度が遅くなるほど尤度差の値も大きくなる傾向にある。従って、発話速度が遅くなるほど、間違っていても正しい答えであると判定してしまい、答えの信頼性が低下する傾向がある。しかしながら、発話速度が遅くなるほど信頼性判定に用いる尤度差判定閾値が大きくなるように尤度差判定閾値を変更することで、これを回避することができる。

尤度差判定閾値は、登録語の音響モデルに対応して設定されており、信頼性判定部３０は、音声データの音声認識の結果得られた尤度が第１位の登録語の音響モデルに対応して設定された尤度差判定閾値を用いて、音声データと尤度が第１位の登録語とが一致することの信頼性を判定してもよい。

また判定基準変更処理部４０は、認識対象の音声データにおいて検出された母音数と所与の登録語に対応した音響モデル（尤度が第１位である音響モデル）の母音数に基づき認識対象音声データの発話速度を判断してもよい。

発話速度が遅くなった場合は、通常の場合より母音が発話されている時間が長い場合が多い。従って判定基準変更処理部４０は、所与の登録語に対応した音響モデルの母音数に基づき登録語の長さを求めて、この登録語の長さを用いて発話速度を算出してもよい。また判定基準変更処理部４０は、登録語に対応した音響モデルの子音数と母音数を所定の割合で重み付けして登録語の長さを求めて、この登録語の長さを用いて発話速度を算出してもよい。

また音声認識部２０は、音声データについて予め用意された選択肢となる複数の登録語に対する尤度を算出し、信頼性判定部３０は、音声データの音声認識の結果得られた尤度が第１位の登録語と第２位の登録語の尤度差を求め、この尤度差と尤度差判定閾値とを比較して、比較結果に基づき音声データが尤度が第１位の登録語であることの信頼性を判定してもよい。

また音声認識部２０は、音声データについて、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）の手法を用いて特徴量（特徴ベクトル等）を抽出し、登録語に対応する隠れマルコフモデルの手法により作成された音響モデルを用意し、特徴量と所与の登録語の音響モデルについて、隠れマルコフモデルの手法を用いたマッチングによる音声認識をおこなってもよい。

図２は、本実施形態における音声認識システムの構成の一例である。尚、上述した機能ブロックと同様の機能を有する構成要素には同一の名称及び付番を行い、本実施例の中における説明は省略する場合がある。

本実施例の音声認識システム２００は、音声データ入力部１０と、特徴抽出部１２、音声認識部２０と、信頼性判定部３０、判定基準変更処理部４０、音声辞書記憶部５０等を含む。

音声データ入力部１０は、音声データを入力する部分で、例えば話者の音声を入力するマイクロフォン等で実現できる。特徴抽出部１２は、入力された音声データに対して、Ａ／Ｄ変換、フィルターによるノイズ除去、高速フーリエ変換（ＦＦＴ）、ケプストラム計算等を施して特徴ベクターを抽出する処理を行ってもよい。

音声辞書記憶部５０は、記憶部によって実現され、音声認識に用いる複数の登録語の音響モデル等が記憶されている部分である。ここで、記憶部は、プログラムやデータなどを格納するものであり、その機能はコンピューターにより読み取り可能な媒体（光ディスク（ＣＤ、ＤＶＤ等）、光磁気ディスク（ＭＯ）、磁気ディスク、ハードディスク、磁気テープ、或いはメモリー（ＲＯＭ））などのハードウェアにより実現できる。

音声認識部２０、信頼性判定部３０及び判定基準変更処理部４０は、専用又は汎用のプロセッサー等に、音声認識部２０、信頼性判定部３０及び判定基準変更処理部４０として機能させるプログラムを実行させることにより実現することができる。また音声認識部２０、信頼性判定部３０及び判定基準変更処理部４０の少なくとも一部を専用のハードウエア（回路）に実現してもよい。

例えば、音声認識システム２００は、特徴抽出部１２、音声認識部２０及び音声辞書記憶部５０を含む集積回路装置（半導体集積回路装置）１１０と、信頼性判定部３０及び判定基準変更処理部４０を含むホストシステム１２０とで実現されてもよい。尚、図示はしていないが、音声認識システム２００は、操作のための入力装置、及び、操作のためのメニュー並びに音声認識結果などを表示するための表示部を含む。

また音声認識システム２００は、特徴抽出部１２、音声認識部２０、音声辞書記憶部５０、信頼性判定部３０、判定基準変更処理部４０を含む集積回路装置（半導体集積回路装置）１３０として実現してもよい。

図３（Ａ）（Ｂ）は、尤度が第１位の登録語と第２位の登録語との尤度差の正認識における分布（正認識分布）と誤認識における分布（誤認識分布）とを示す図である。横軸は
尤度差、縦軸は出現確率である。

図３（Ａ）は、通常速度で話した場合の正認識分布３２０と誤認識分布３１０とを示したものである。正認識分布３２０は、音声データが発話者の意図した登録語に正しく認識された場合の尤度差の複数のサンプルから求めた出現確率をグラフ化したものである。誤認識分布３１０は、音声データが発話者の意図と異なる登録語に誤認識された場合の尤度差の複数のサンプルから求めた出現確率をグラフ化したものである。

図３（Ｂ）は、通常速度よりゆっくり話した場合の正認識分布３２２と誤認識分布３１２とを示したものである。

図３（Ａ）（Ｂ）に示すように、正認識の場合のほうが、誤認識の場合に比べて尤度差が大きくなる傾向になる。従って、尤度が第１位と第２位の登録語の尤度差を所定の閾値と比較することで、音声データが尤度が第１の登録語であることの信頼性を判定することができる。

図３（Ａ）のＳ１は、通常速度における尤度差判定閾値の１例を示している。この場合、尤度が第１位の登録語と第２位の登録語との尤度差が尤度差判定閾値Ｓ１以上であれば正認識の確率が誤認識の確率よりも高くなり、音声データが尤度が第１位の登録語であることの信頼度は高いと判断することができる。しかし、尤度差が尤度差判定閾値Ｓ１未満であれば正認識の確率が誤認識の確率よりも低くなり、音声データが尤度が第１位の登録語である信頼度は低いと判断することができる。信頼性判定部３０において信頼度が高いと判断された場合を正認識であると判定して、尤度が第１位の登録語を音声データに対する音声認識の結果として表示部に表示してもよい。

また、信頼度の判断をどのように活用するかは、音声認識システム２００で実行されるアプリケーションプログラムに委ねてもよく、例えば信頼度が低いと判断された場合においても、信頼性を示す記号若しくは数値などと共に尤度が第１位の登録語を表示部に表示することでもよい。信頼性を示す記号若しくは数値は、例えば、図３（Ａ）のグラフにおける尤度差の値に対応した正認識分布３２０の出現数と誤認識分布３１０の出現数との比から算出されたものでよい。

また、音声認識システム２００の音声認識の結果の信頼性を高くしたい場合には、図３（Ａ）において、尤度差判定閾値を尤度差判定閾値Ｓ１よりも尤度差が大きくなる側（例えば図３（Ａ）の尤度差判定閾値Ｓ２）にずらしてもよい。この場合、尤度差が尤度差判定閾値Ｓ２よりも小さい場合であっても正認識の確率が誤認識の確率よりも高い場合が存在することになるが、誤認識であるとの表示がなされる確率は尤度差判定閾値Ｓ１の場合に比較して低くなる。よって、音声認識システム２００としての音声認識率（正認識であると表示される確率）は低くなるが、正認識と判定された場合の正認識であることの信頼性は高くなる。音声認識システム２００の音声認識の結果を何らかの制御に利用する場合などは、誤制御により問題が発生することを防ぐために、尤度差判定閾値を尤度差判定閾値Ｓ１よりも大きい値とすることが好ましいことになる。

逆に、図３（Ａ）において、尤度差判定閾値が尤度差判定閾値Ｓ１よりも尤度差が小さくなる側にずれると、誤認識の確率が正認識の確率よりも高くなり、誤認識にもかかわらず正認識とされる確率が高くなり、正認識と判定された場合の正認識であることの信頼性は低くなる。上述したように、尤度差判定閾値をどのように設定するかは音声認識システム２００のアプリケーションにより決められることでよい。

図３（Ｂ）は、発話速度が通常速度よりも遅い場合のグラフであり、正認識分布３２２
の出現数と誤認識分布３１２の出現数とが同数となるときの値はＳ１よりも大きいＳ２である。従って、通常速度の場合と同じ条件の信頼性判定を行いたい場合には、尤度差判定閾値の値を大きくする必要がある。通常速度の場合と異なり、尤度差判定閾値をＳ１とした場合には、尤度差が尤度差判定閾値Ｓ１よりも大きい場合であっても誤認識の確率が正認識の確率よりも高い場合が存在する。

従って、発話速度に応じて尤度差判定閾値の値を変更すること、即ち、発話速度が遅くなれば尤度差判定閾値の値を大きくすることが好ましいことになる。

図４、図５は、本実施例の発話速度に応じた信頼性判定例について説明するための図である。

図４を用いて、利用者１が「こんにちわ」と通常速度（ここでは２秒とする）で発話した音声データ１が正認識された場合の信頼性判定と、利用者２が「こんにちわ」と通常速度（２秒）で発話した音声データ２が誤認識された場合の信頼性判定を例に取り、信頼性判定手法について説明する。

ここでは取得した音声データが予め用意された複数の登録語（例えば音声データが発話されている場面で選択肢となっている登録語）のいずれであるかを判定するタイプの音声認識を例にとり説明する。

選択肢として用意されている登録語が「こんにちわ」、「おはよう」、「こんばんわ」である場合、音声辞書記憶部５０には、これら各登録語に対応して、例えば隠れマルコフモデル（ＨＭＭ）の手法を用いて生成された音響モデルが用意されている。

音声認識部２０は、音声データを基にした情報（例えば周波数スペクトル信号）と、選択肢として予め用意された登録語である「こんにちわ」、「おはよう」、「こんばんわ」の音響モデルとについて、隠れマルコフモデルの手法を用いたマッチングによる音声認識をおこない、音声データが各登録語である確からしさを示すパラメーターである尤度を算出し、音声認識の際の認識時間を出力する。

まず音声データ１の音声認識結果に対する信頼性の判定例である、利用者１が「こんにちわ」（音声データ１）と２秒で発話して尤度が第１位の認識結果が「こんにちわ」である場合、すなわち正認識の場合について説明する。

この例では、音声データ１と「こんにちわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「７８」、音声データ１と「おはよう」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「３０」、音声データ１と「こんばんわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は、「２０」である。

尚、音声認識部２０は、尤度差による信頼性判定を行う前に、選択対象の各登録語における尤度を、最低尤度閾値と比較して、比較結果に基づき各登録語の尤度を採用するか否か判定する尤度判定処理を行ってもよい。そして採用すると判定した登録語についての尤度差に基づき、尤度が第１位の登録語の音声データの音声認識の信頼性判定を行ってもよい。ここで最低尤度閾値とは、これよりも尤度が小さい場合においては音声データと一致する登録語と見做さないとする値のことである。

すなわち、音声認識部２０は「こんにちわ」、「おはよう」、「こんばんわ」の各登録語について求めた尤度のそれぞれを最低尤度閾値と比較して、最低尤度閾値より高い尤度
の登録語について、尤度差を用いた信頼性判定を行うようにしてもよい。尤度差判定閾値は、例えば無音又は雑音の音響モデルと音声認識を行って得られた尤度（この場合音声データ毎に異なる値となる）でもよいし、実験結果等から求めた尤度でもよい。また、音声認識部２０は、発話速度が遅い場合には、速い場合に比べて最低尤度閾値の値が大きくなるように変更してもよい。

音声認識部２０は、例えば最低尤度閾値が「２１」の場合には、「こんにちわ」と「おはよう」の尤度については、最低尤度閾値以上であるので採用し、「こんばんわ」の尤度については最低尤度閾値以下であるので、信頼性判定に使用しないようにしても良い。

音声データ１については、尤度が第１位の登録語は尤度が「７８」である「こんにちわ」であり、尤度が２位の登録語は尤度が「３０」である「おはよう」である。これらはいずれも最低尤度閾値を上回っているので、信頼性判定部３０は、尤度が第１位と第２位の登録語における尤度差を用いての信頼性判定を行う。尤度が第１位と第２位の登録語の尤度差は７８−３０＝４８である。

信頼性判定部３０は、尤度が第１位と第２位の登録語における尤度差を用いての信頼性判定を行う場合に音声データの音声認識の結果得られた尤度が第１位の登録語の音響モデルに対応して設定された尤度差判定閾値を用いてもよい。

尚、尤度差判定閾値は、各登録語の音響モデル毎に設定されていてもよい。信頼性判定部３０は、例えば「こんにちわ」の尤度が第１位となった場合には、「こんにちわ」の音響モデルに対応して設定されている尤度差判定閾値を用いてもよい。また信頼性判定部３０は、「おはよう」の尤度が第１位となった場合には、「おはよう」の音響モデルに対応して設定されている尤度差判定閾値を用いてもよい。また信頼性判定部３０は、「こんばんわ」の尤度が第１位となった場合には、「こんばんわ」の音響モデルに対応して設定されている尤度差判定閾値を用いてもよい。

尤度差判定閾値は音声データの発話速度に応じて変化する。音声認識部２０は、発話速度を、音声認識の認識時間と登録語（音響モデル）の長さによって判断してもよい。ここで登録語の長さは、尤度が第１位の登録語の長さを使用してもよい。すなわち音声認識部２０は、音声認識の際の認識時間と尤度が第１位である登録語の音響モデルの長さ（例えば母音数）に基づき認識対象の発話速度を求めてもよい。ここで、音声認識の認識時間若しくは音声認識時間とは、音声認識が開始されてから対象となる各々の登録語の尤度の算出が終わるまでの時間から、割込み処理などの尤度の算出以外に要した時間を差し引いた、時間の長さである。

例えば「こんにちわ」は母音数が４個なので、音声認識部２０は、音声認識時間２秒を４で割って、「０．５」を発話速度としてもよい。尚、本実施例並びに本実施例以降の実施例において、上述した通常速度に対応する、標準的な速さ若しくは平均的な速さにおける発話速度を基準速度と呼ぶことにする。

判定基準変更処理部４０は、図４に示すように、各登録語を基準速度で発話した場合の尤度差判定閾値（基準尤度差判定閾値４１０）を各登録語の音響モデルに対応させて設定しておいてもよい。そして判定基準変更処理部４０は、尤度が第１位の登録語の基準尤度差判定閾値４１０と今回の音声データの発話速度とに基づき、今回の尤度差判定閾値４２０を求めても良い。

判定基準変更処理部４０は、基準尤度差判定閾値４１０と今回の発話速度に対応した今回の尤度差判定閾値４２０とが所定の関係（例えば比例関係でもよいし、所定の関数で定
義できる関係でもよい）にあるとして、基準尤度差判定閾値４１０と今回の発話速度とに基づき今回の尤度差判定閾値４２０を求めてもよい。

例えば「こんにちわ」という登録語の音響モデルについて基準速度（ここでは「こんにちわ」を２秒で発話した場合と同じ「０．５」とする）の基準尤度判定閾値４１０が「４０」であれば、今回の尤度差判定閾値４２０は「４０」となる。

音声データ１の場合、尤度が第１位の登録語が「こんにちわ」なので、「こんにちわ」に対応する今回の尤度差判定閾値４２０である「４０」を用いて、尤度が第１位の登録語と尤度が第２位の登録語との尤度差「４８」の判定を行う。（注１）に示すように４８＞４０で、今回の尤度差判定閾値４２０を用いて判定した信頼度は「○」（音声データ１が「こんにちわ」である信頼性が高い）となる。すなわち音声データ１が「こんにちわ」であるという音声認識結果は正認識である可能性が高いということを示している。

次に音声データ２の音声認識結果に対する信頼性の判定例である利用者２が「こんにちわ」（音声データ２）と２秒で発話して尤度が第１位の認識結果が「こんばんわ」である誤認識の場合について説明する。

この例では、音声データ２と「こんにちわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「５０」、音声データ２と「おはよう」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「３０」、音声データ２と「こんばんわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「８０」である。

音声データ２については、尤度が第１位の登録語は尤度が「８０」である「こんばんわ」であり、２位の登録語は尤度が「５０」である「こんにちわ」である。これらはいずれも最低尤度閾値を上回っているので、音声認識部２０は尤度が第１位と第２位の登録語における尤度差を用いた信頼性判定を行う。尤度が第１位の登録語と尤度が第２位の登録語における尤度差は８０−５０＝３０である。

尤度が第１位である「こんばんわ」は母音数が３個なので、音声認識部２０は音声認識時間２秒を３で割って、「０．６６」を発話速度としてもよい。

例えば「こんばんわ」という登録語の音響モデルについて基準速度（ここでは「こんばんわ」を２秒で発話した場合と同じ「０．６６とする）の基準尤度判定閾値４１０が「４１」であれば、今回の尤度差判定閾値４２０は「４１」となる。

音声認識部２０は、音声データ２の場合、尤度が第１位の登録語が「こんばんわ」なので、「こんばんわ」に対応する今回の尤度差判定閾値４２０である「４１」を用いて、尤度が第１位と第２位の登録語における尤度差「３０」の判定を行う。（注２）に示すように３０＜４１で、今回の尤度差判定閾値を用いて判定した信頼度は「×」（音声データ２が「こんばんわ」である信頼性が低い）となる。すなわち音声データ２が「こんばんわ」であるという音声認識結果は誤認識である可能性が高いということを示している。

次に図５を用いて、通常よりゆっくりした速度（例えば３秒）で発話した場合の音声認識結果に対する信頼性判定例について説明する。

まず音声データ３の音声認識結果に対する信頼性の判定例である利用者３が「こんにちわ」（音声データ３）と３秒で発話して尤度が第１位の登録語が「こんにちわ」である、正認識の場合について説明する。

この例では、音声データ３と「こんにちわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「１１７」、音声データ３と「おはよう」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「４５」、音声データ３と「こんばんわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「３０」である。

音声データ３については、尤度が第１位の登録語は尤度が「１１７」である「こんにちわ」であり、尤度が２位の登録語は尤度が「４５」である「おはよう」である。これらはいずれも最低尤度閾値を上回っているので、音声認識部２０は、尤度が第１位と第２位の登録語における尤度差を用いての信頼性判定を行う。尤度が第１位と第２位の登録語における尤度差は１１７−４５＝６２である。

尤度が第１位である「こんにちわ」は母音数が４個なので、音声認識部２０は、認識時間３秒を４で割って、「０．７５」を発話速度としてもよい。

例えば「こんにちわ」という登録語の音響モデルについて基準速度（ここでは「こんにちわ」を２秒で発話した場合と同じ「０．５」とする）の基準尤度判定閾値４１０が「４０」であれば、今回は発話速度が「０．７５」であり、１．５倍の速さになっている。

発話速度がｘ倍になった場合には、音声データのフレーム数もｘ（ｘ＞１の場合）倍になるので尤度も高くなる可能性が高い。また、尤度がｘ倍になれば尤度差もｘ倍となる可能性が高い。これに伴い、図３（Ａ）（Ｂ）に示すような正認識と誤認識の尤度差の分布も広がることになる。図３（Ａ）と図３（Ｂ）では話す速度の遅い図３（Ｂ）のほうが誤認識分布３１２との分布が広くなっている。

判定基準変更処理部４０は、発話速度が遅くなるほど尤度差判定閾値の値を大きくするアルゴリズムを採用している。例えば、判定基準変更処理部４０は、発話速度がｘ倍になった場合には尤度差判定閾値は、｛１＋（ｘ−１）／ｘ｝倍になるというアルゴリズムを採用してもよい。本実施例のように発話速度が基準発話速度の１．５倍である場合には、判定基準変更処理部４０は、尤度差判定閾値の値を１＋（１．５−１）／２＝１．２５倍となる値に変更する。

信頼性判定部３０は、音声データ３の場合、尤度が第１位の登録語が「こんにちわ」なので、今回の尤度差判定閾値４２０は、「こんにちわ」に対応する基準尤度差判定閾値４１０の「４０」の１．２５倍の「５０」が使われる。これを用いて、尤度が第１位と第２位の登録語の尤度差「６２」の判定を行う。（注３）に示すように６２＞５０で、今回の尤度差判定閾値を用いて判定した信頼度は「○」（音声データ３が「こんにちわ」である信頼性が高い）となる。すなわち音声データ３が「こんにちわ」であるという音声認識結果は正認識である可能性が高いということを示している。

次に音声データ４の音声認識結果に対する信頼性の判定例として利用者４が「こんにちわ」（音声データ４）と３秒で発話して尤度が第１位の登録語が「こんばんわ」である、誤認識の場合について説明する。

この例では、音声データ４と「こんにちわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「７５」、音声データ４と「おはよう」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「４５」、音声データ４と「こんばんわ」に対応する音響モデルとのマッチングによる音声認識の結果として得られた尤度は「１２０」である。

音声データ４については、尤度が第１位の登録語は尤度が「１２０」である「こんばんわ」であり、尤度が２位の登録語は尤度が「７５」である「こんにちわ」である。これらはいずれも最低尤度閾値を上回っているので、音声認識部２０は、尤度が第１位と第２位の登録語における尤度差を用いての信頼性判定を行う。尤度が第１位と第２位の登録語における尤度差は１２０−７５＝４５である。

尤度が第１位の登録語である「こんばんわ」は母音数が３個なので、音声認識部２０は、認識時間３秒を３で割って、「１」を発話速度としてもよい。

例えば「こんばんわ」という登録語の音響モデルについて基準速度（ここでは「こんばんわ」を２秒で発話した場合と同じ「０．６６」とする）の基準尤度判定閾値４１０が「４１」であれば、今回は発話速度が「１」であり、約１．５倍の速さになっている。

音声データ４の場合、尤度が第１位の登録語が「こんばんわ」なので、今回の尤度差判定閾値４２０としては、「こんばんわ」に対応する基準尤度差判定閾値４１０「４１」の１．２５倍の「５２」が使われる。これを用いて、尤度が第１位の登録語と尤度が第２位の登録語との尤度差「４５」の判定を行う。（注４）に示すように４５＜５２で、今回の尤度差判定閾値４２０を用いて判定した信頼度は「×」（音声データ４が「こんばんわ」である信頼性が低い）となる。すなわち音声データ４が「こんばんわ」であるという音声認識結果は誤認識である可能性が高いということを示している。

（注５）は音声データ４の信頼性判定の際に、基準速度で発話された場合の基準尤度差判定閾値４１０の値である「４１」を用いた範囲の信頼性判定結果を示している。（注５）に示すように４５＞４１で、信頼度は「○」（音声データ４が「こんばんわ」である信頼性が高い）となる。すなわち音声データ４が「こんにちわ」であるにもかかわらず、「こんばんわ」であるという音声認識結果が正認識である可能性が高いということになる。このように音声認識部２０が、尤度差判定閾値の発話速度に応じた変更を行わない場合には、誤認識にもかかわらず正認識と判定される可能性がある。しかしながら、音声認識部２０が発話速度に応じて尤度差判定閾値を変更することにより、（注５）のようなケースを防止することができる。

本実施例は、本実施形態の音声認識システムにおける信頼性判定処理のフローを説明するものである。図６に、信頼性判定処理のフローの一部を示すフローチャートを示す。

本実施例の音声認識システムは、音声データと、予め用意された選択肢である複数の登録語に対応する音響モデルとについて、隠れマルコフモデルの手法を用いたマッチングによる音声認識を行い、音声データに対する複数の登録語の各々の尤度及び音声認識時間を算出する（ステップＳ１０）

次に本実施例の音声認識システムは、尤度が第１位と第２位の登録語の尤度差を求める（ステップＳ２０）。また本実施例の音声認識システムは、音声認識時間と尤度が第１位の登録語の長さとから発話速度を求める（ステップＳ３０）。次に本実施例の音声認識システムは、尤度が第１位の登録語の音響モデルについて基準速度で発話された場合について設定されている尤度差判定閾値と発話速度とに基づき、今回の尤度差判定閾値を求める（ステップＳ４０）。

そして、本実施例の音声認識システムは、尤度が第１位と第２位の登録語の尤度差と今回の尤度差判定閾値に基づき、音声データが尤度が第１位の登録語であることの信頼性判
定を行う（ステップＳ５０）。

以上、本発明にかかる実施形態並びに適用例の説明を行ったが、本発明は上述した本実施形態並びに適用例に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。

本発明は、実施の形態で説明した構成と実質的に同一の構成（例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成）を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、上述した実施形態並びに適用例で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。本発明は、本発明の趣旨を逸脱しない範囲において広く適用が可能である。

１０…音声データ入力部、１２…特徴抽出部、２０…音声認識部、３０…信頼性判定部、４０…判定基準変更処理部、５０…音声辞書記憶部、１００…音声認識システム、１１０…集積回路装置、１２０…ホストシステム、１３０…集積回路装置、２００…音声認識システム

Claims

音声データの認識を行う音声認識システムであって、
前記音声データの音声認識を行い、前記音声データについて予め登録された登録語に対する尤度を算出する音声認識部と、
前記尤度に基づき、前記音声認識の信頼性判定を行う信頼性判定部と、
前記音声データの発話速度に応じて、前記信頼性判定の判定基準を変更する判定基準変更処理部と、を含み、
前記信頼性判定は、前記音声認識の結果得られた複数の前記登録語における前記尤度の差である尤度差と尤度差判定閾値との比較の結果に基づき行われ、
前記判定基準変更処理部は、前記発話速度が遅くなるほど前記信頼性判定に用いる前記尤度差判定閾値が大きくなるように前記尤度差判定閾値を変更し、
前記尤度差判定閾値は、前記登録語の音響モデルに対応して設定されており、
前記信頼性判定部は、前記第１の登録語と前記尤度が第２位の第２の登録語とにおける前記尤度差と、前記音声認識の結果得られた尤度が第１位の第１の登録語の音響モデルに対応して設定された前記尤度差判定閾値と、を用いて、前記音声データが前記第１の登録語であることの信頼性を判定することを特徴とする音声認識システム。
前記信頼性判定部は、前記登録された登録語を前記信頼性判定に用いる登録語として採用するか否かを、前記登録語における尤度と前記登録語に対して設定された最低尤度閾値とを比較することによって判定し、
前記判定基準変更処理部は、前記発話速度が遅くなるほど前記最低尤度閾値が大きくなるように前記最低尤度閾値を変更することを特徴とする請求項１に記載の音声認識システム。
前記判定基準変更処理部は、前記音声データの音声認識における認識時間と前記音声認識の結果得られた尤度が第１位の第１の登録語の長さとに基づき前記音声データの前記発話速度を判断することを特徴とする請求項１または２に記載の音声認識システム。
前記判定基準変更処理部は、
前記音声データの音声認識における認識時間と前記登録語の音響モデルの母音数とに基づき前記音声データの前記発話速度を判断することを特徴とする請求項１または２に記載の音声認識システム。
音声データの音声認識を行い、前記音声データについて予め登録された登録語に対する尤度を算出する音声認識部と、
前記尤度に基づき、前記音声認識の信頼性判定を行う信頼性判定部と、
前記音声データの発話速度に応じて、前記信頼性判定の判定基準を変更する判定基準変更処理部と、してコンピューターを機能させ、
前記信頼性判定は、前記音声認識の結果得られた複数の前記登録語における前記尤度の差である尤度差と尤度差判定閾値との比較の結果に基づき行われ、
前記判定基準変更処理部は、前記発話速度が遅くなるほど前記信頼性判定に用いる前記尤度差判定閾値が大きくなるように前記尤度差判定閾値を変更し、
前記尤度差判定閾値は、前記登録語の音響モデルに対応して設定されており、
前記信頼性判定部は、前記第１の登録語と前記尤度が第２位の第２の登録語とにおける前記尤度差と、前記音声認識の結果得られた尤度が第１位の第１の登録語の音響モデルに対応して設定された前記尤度差判定閾値と、を用いて、前記音声データが前記第１の登録語であることの信頼性を判定することを特徴とする音声認識プログラム。
請求項５に記載された音声認識プログラムが記憶されていることを特徴とするコンピューターで読み取り可能な記録媒体。
音声データの音声認識を行う音声認識方法であって、
前記音声認識を行い、前記音声データについて予め登録された登録語に対する尤度を算出する音声認識ステップと、
前記音声データの発話速度に応じて、信頼性判定の判定基準を変更する判定基準変更処理ステップと、
前記尤度に基づき、前記音声認識の前記信頼性判定を行う信頼性判定ステップと、
を含み、
前記信頼性判定は、前記音声認識の結果得られた複数の前記登録語における前記尤度の差である尤度差と尤度差判定閾値との比較の結果に基づき行われ、
前記尤度差判定閾値は、前記発話速度が遅くなるほど大きくなるように変更され、
前記尤度差判定閾値は、前記登録語の音響モデルに対応して設定されており、
前記信頼性判定は、前記第１の登録語と前記尤度が第２位の第２の登録語とにおける前記尤度差と、前記音声認識の結果得られた尤度が第１位の第１の登録語の音響モデルに対応して設定された前記尤度差判定閾値と、を用いて、前記音声データが前記第１の登録語であることの信頼性を判定することを特徴とする音声認識方法。