JP5673239B2

JP5673239B2 - 音声認識装置、音声認識方法、および音声認識プログラム

Info

Publication number: JP5673239B2
Application number: JP2011053568A
Authority: JP
Inventors: 岩見田　均; 均岩見田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-03-10
Filing date: 2011-03-10
Publication date: 2015-02-18
Anticipated expiration: 2031-03-10
Also published as: JP2012189829A

Description

本発明は、音声信号を音声認識する音声認識装置、音声認識方法、および音声認識プログラムに係わる。

入力される音声信号を音声認識し、その認識結果を出力する音声認識装置が知られている。音声認識装置は、例えば、マイク等を介して入力される音声信号あるいはデジタル音声ファイルから、所定の単語辞書に登録されている単語の読み情報（または、発音情報）と類似する音声区間を抽出する。そして、音声認識装置は、所定の閾値以上の類似度を有する読み情報に対応する単語を認識結果として出力する。

音声認識装置により得られる認識結果は、例えば、カーナビゲーションシステム、音声自動応答システム等に入力される。そうすると、音声認識装置の認識結果が入力されたシステムは、その認識結果に対応する処理を実行する。

他の音声認識装置は、例えば、人と人との会話または通話を録音したデジタル音声ファイル、あるいは映像音声ファイルの音声信号の全音声区間に渡って、キーボード等から入力される検索語の読み情報との類似度を算出し、所定の閾値以上の類似度を有する音声区間の情報を出力する。この場合、例えば、音声ファイルの中から、検索語に相当する発話が行われている音声区間を検索し、その周辺区間の音声を再生する処理を行うことができる。

音声認識の精度を高めるために、単語共起情報を利用する方法が提案されている。例えば、特許文献１には、下記の音声認識装置が記載されている。共起関係にある中心語と共起語とを組み合わせて認識語句辞書に格納しておく。この認識語句辞書に格納されている中心語を連続的な一つの入力音声から抽出する。この抽出された中心語と共起関係にある共起語を認識語句辞書から読み出して入力音声から抽出する。さらに、認識語句辞書は、中心語と共起語との組み合わせに時間間隔の情報も付与されており、語句認識手段は、中心語と共起語とを時間間隔に対応して入力音声から認識する。

特開平１０−５５１９６号公報

一般に、発話中には、文脈に直接的には係わりのない不要語（例えば、「えーと」「あのー」など）が含まれることが多い。そして、発話中の不要語は、単語共起情報を利用する音声認識の精度を低下させることがある。

単語共起情報を利用する音声認識においては、共起関係を有する第１単語および第２単語は時間的に互いに隣接して存在する確率が高いとの前提の下で、例えば、音声信号から第１単語が抽出されたときは、その第１単語の抽出位置から所定の時間範囲（すなわち、検索範囲）内で第２単語が検索される。ところが、第１単語と第２単語との間に上述のような不要語が挿入されると、第１単語と第２単語との間の時間間隔が長くなり、第２の単語が検出されなくなることがある。すなわち、検出漏れが発生し得る。

検出漏れの問題は、例えば、上述の検索範囲を広くすることにより解決可能である。しかし、単に検索範囲を広くすると、「共起関係を有する１組の単語は時間的に互いに隣接して存在する」という制約が働かなくなる。この場合、ターゲット単語と異なる単語を誤ってターゲット単語と認識してしまう誤検出が発生する可能性が高くなる。

なお、上述の問題は、不要語によってのみ発生するものではない。すなわち、上述の問題は、１組の共起語が登場する時間間隔が他の要因（例えば、沈黙）によって長くなる場合にも発生し得る。

本発明の課題は、単語共起情報を利用する音声認識において、認識精度の低下を抑えることである。

本発明の１つの態様の音声認識装置は、音声データから認識対象単語および前記認識対象単語の共起単語を検出する単語検出部と、前記認識対象単語が検出された第１の音声区間と前記共起単語が検出された第２の音声区間との間の時間間隔に基づいて、前記認識対象単語および前記共起単語の組合せに対する評価値を算出する評価値算出部、を備える。

上述の態様によれば、単語共起情報を利用する音声認識において、認識精度の低下を抑えることができる。

第１の実施形態の音声認識装置の機能構成を示す図である。第２の実施形態の音声認識装置の機能構成を示す図である。単語リストの一例を示す図である。共起単語情報の一例を示す図である。単語検出部による検出結果の一例を示す図である。補正計算の一例を示す図である。評価値算出部の処理を示すフローチャートである。比較方式１における共起単語情報の例を示す図である。比較方式１による認識結果の例を示す図である。比較方式２における共起単語情報の例を示す図である。比較方式２による認識結果の例を示す図である。実施形態の音声認識装置の認識結果の例を示す図である。共起単語情報の別例を示す図である。共起範囲基準時間と補正値との関係を示す図である。他の実施形態において使用される共起単語情報の例を示す図である。他の実施形態の音声認識装置の認識結果の例を示す図である。音声認識装置を実現するためのコンピュータシステムのハードウェア構成を示す図である。

図１は、第１の実施形態の音声認識装置の機能構成を示す。第１の実施形態の音声認識装置１には、音声データが入力される。また、音声認識装置１には、認識対象単語が与えられる。認識対象単語は、入力音声データから検出すべき単語であり、例えば、ユーザによって指定される。そして、音声認識装置１は、単語検出部１１および評価値算出部１２を有する。

単語検出部１１は、共起単語情報１３を参照して、認識対象単語に対応する共起単語を特定する。共起単語情報１３は、文またはフレーズ等の中に共に出現しやすい単語の組合せを記述する。そして、単語検出部１１は、音声認識により、入力音声データから認識対象単語およびその認識対象単語の共起単語を検出する。

評価値算出部１２は、認識対象単語が検出された第１の音声区間と共起単語が検出された第２の音声区間との間の時間間隔に基づいて、認識対象単語および共起単語の組合せに対する評価値を算出する。この評価値は、音声認識の信頼性または確からしさを表す指標である。そして、音声認識装置１は、評価値算出部１２により得られる評価値が所定の条件を満たしていれば、単語検出部１１により検出された認識対象単語および共起単語を、入力音声データから認識された単語として出力する。

共起関係を有する１組の単語は、通常の発話においては、比較的短い時間間隔で出現する確率が高い。ところが、共起関係を有する１組の単語間に不要語（例えば、「えーと」「あのー」など）が挿入されると、その１組の単語間の時間間隔が長くなる。この場合、従来技術においては、上述したように、検出漏れまたは誤検出が発生するおそれがある。

これに対して、第１の実施形態においては、音声データから検出された認識対象単語と共起単語との間の時間間隔に基づいて、認識対象単語および共起単語の組合せに対する評価値が算出される。すなわち、認識対象単語と共起単語との間に挿入された不要語等に起因して、認識対象単語と共起単語との間の時間間隔が長くなったときは、音声認識装置１は、そのようにして長くなった時間間隔に応じて評価値を算出する。したがって、第１の実施形態の構成または方法によれば、認識対象単語と共起単語との間に不要語等が挿入された場合であっても、検出漏れおよび／または誤検出が抑制される。

図２は、第２の実施形態の音声認識装置の機能構成を示す。第２の実施形態の音声認識装置２は、図２に示すように、単語検出部１１、評価値算出部１２、音声入力部２１、単語リスト２２、共起情報格納部２３を有する。なお、第２の実施形態の音声認識装置２が備える単語検出部１１および評価値算出部１２は、第１の実施形態と実質的に同じである。

音声入力部２１は、ユーザが発話した音声信号を、マイクを利用して集音し、その音声信号をアナログ／デジタル変換することによりデジタル音響信号を生成する。そして、音声入力部２１は、そのデジタル音響信号を単語検出部１１に入力する。なお、音声入力部２１は、上述の機能を備える構成に限定されるものではない。例えば、ユーザが発話した音声を表す音声データを含むデジタル音声ファイルが音声認識装置２に入力されるときには、音声入力部２１は、そのデジタル音声ファイルを受信して単語検出部１１へ導く入力インタフェースとして動作する。

単語検出部１１には、音声認識装置２が音声認識処理を実行すべき音声データ、および単語リスト２２が入力される。音声データは、上述の例では、アナログ／デジタル変換により得られるデジタル音響信号、或いはデジタル音声ファイルである。

単語リスト２２は、入力音声データから認識すべき１以上の単語（すなわち、認識対象単語）を格納する。図３に示す例では、単語リスト２２には、認識対象単語およびその読みを表す読み情報（または、発音情報）が登録されている。なお、単語リスト２２は、例えば、ユーザにより作成され音声認識装置２に入力される。

共起情報格納部２３は、共起単語情報１３を格納する。共起情報格納部２３は、音声認識装置２が備えるメモリまたは記憶装置を利用して実現される。或いは、共起情報格納部２３は、音声認識装置２に接続する記憶装置に設けられてもよい。

共起単語情報１３は、文またはフレーズ等のひとかたまりの音声の中で、短い期間内に一緒に出現しやすい単語の組合せを記述する。図４に示す例では、共起単語情報１３は、ある単語（対象単語）に対して、その単語と共に出現しやすい単語（共起単語）が登録されている。共起単語情報１３においては、１つの対象単語に対して２以上の共起単語が登録されてもよい。なお、共起単語情報１３は、例えば、大量のテキストデータを解析し、その中に出現する単語の情報に基づいて生成される。或いは、共起単語情報１３は、経験等に基づいて、人手で作成してもよい。

単語検出部１１は、単語リスト２２および共起単語情報１３を参照し、入力音声データに対して音声認識処理を実行する。すなわち、単語検出部１１は、入力音声データから、単語リスト２２に登録されている各認識対象単語、および各認識対象単語に対応する共起単語を検出する。各単語（認識対象単語および共起単語）の検出は、例えば、ワードスポッティング技術を利用して実行される。この場合、単語検出部１１は、例えば、入力音声データから抽出した特徴量の時系列パターンにおいて、認識対象単語または共起単語の読み情報に対する評価値が所定レベル以上の区間を検出する。そして、単語検出部１１は、検出結果として、音声データから検出した単語、検出した単語に対する評価値、検出した単語が音声データ内で出現する時間位置を出力する。

図５は、単語検出部１１による検出結果の一例を示す。図５に示す例では、認識対象単語の１つとして単語検出部１１に「パソコン」が与えられている。この結果、音声データの時刻2.22〜2.81秒の区間において、評価値９０で認識対象単語「パソコン」が検出されている。また、音声データの時刻3.81〜4.20秒の区間において、評価値９６で、「パソコン」の共起単語である「メモリー」が検出されている。なお、評価値は、この実施例では、０〜１００の値をとり、値が大きいほど、その検出結果が確からしく信頼性が高いことを表す。

評価値算出部１２は、単語検出部１１により検出された各単語の時間情報および各単語の評価値に基づいて、共起関係を有する単語ペアについての評価値を算出する。時間情報は、図５に示す例では、各単語が検出された音声区間の開始時刻および終了時刻に相当する。なお、以下の説明では、単語検出部１１により検出された共起関係を有する単語ペアを「共起単語ペア」と呼ぶことがある。また、共起単語ペアに属する一方の単語を「認識対象単語」、他方を「対応共起単語」と呼ぶことがある。

評価値算出部１２は、例えば、まず、認識対象単語の評価値（第１の評価値）および対応共起単語の評価値（第２の評価値）の平均を算出することにより、共起単語ペアのベース評価値を得る。例えば、図５に示す実施例では、「パソコン」の評価値９０および「メモリー」の評価値９６から、ベース評価値９３が得られる。なお、評価値算出部１２は、他の方法でベース評価値を算出してもよい。例えば、認識対象単語の評価値または対応共起単語の評価値の小さい方の値を、ベース評価値として出力してもよい。

続いて、評価値算出部１２は、認識対象単語が検出された音声区間と対応共起単語が検出された音声区間との間の時間間隔を算出する。図５に示す実施例では、「パソコン」が検出された音声区間の終了時刻「2.81秒」と、「メモリー」が検出された音声区間の開始時刻「3.81秒」との差分を計算することで、時間間隔＝1.0秒が得られる。

さらに、評価値算出部１２は、共起単語ペアのベース評価値を、認識対象単語と対応共起単語との間の時間間隔に基づいて補正することにより、共起単語ペアについての評価値を算出する。このとき、評価値算出部１２は、認識対象単語と対応共起単語との間の時間間隔が長いほど共起単語ペアの評価値が小さくなるように、共起単語ペアのベース評価値を補正する。

図６は、補正計算の一例を示す図である。共起単語ペアのベース評価値を補正するための補正値は、認識対象単語と対応共起単語との間の時間間隔に依存する。図６に示す例では、認識対象単語と対応共起単語との間の時間間隔が0〜0.5秒であるときは、補正値はゼロである。時間間隔が0.5秒よりも長くなると、補正値は、その時間間隔に比例して変化する。図６では、時間間隔0.5〜1.5秒の範囲で、補正値が「０」から「−２０」へ直線的に変化している。なお、評価値算出部１２には、例えば、補正計算を実現するための計算式が予め与えられているものとする。図６に示す補正計算を実現するための計算式は、下記の通りである。
Ｃ＝０（０≦Ｔ≦0.5）
Ｃ＝１０−２０Ｔ（0.5＜Ｔ）
Ｃは、補正値を表す。Ｔは、認識対象単語と対応共起単語との間の時間間隔を表す。そして、評価値算出部１２は、上述のベース評価値に補正値を加算することにより、共起単語ペアの評価値を得る。すなわち、この実施例では、評価値算出部１２は、認識対象単語と対応共起単語との間の時間間隔が所定の閾値（ここでは、0.5秒）以下であれば、ベース評価値を変えることなく共起単語ペアに対する評価値として出力する。一方、時間間隔が閾値よりも長ければ、その時間間隔が長いほど共起単語ペアに対する評価値が小さくなるようにベース評価値を補正する。

図７は、評価値算出部１２の処理を示すフローチャートである。このフローチャートの処理は、単語検出部１１により入力音声データから１または複数の共起単語ペアが検出されたときに実行される。

ステップＳ１において、評価値算出部１２は、単語検出部１１により検出された共起単語ペアの中で、ステップＳ２〜Ｓ７の処理が実行されていない共起単語ペアが残っているか判定する。そして、すべての共起単語ペアに対してステップＳ２〜Ｓ７の処理が実行されていれば、評価値算出部１２の処理は終了する。

ステップＳ２において、評価値算出部１２は、ステップＳ３〜Ｓ７の処理が実行されていない共起単語ペアを１つ選択する。このとき、評価値算出部１２は、例えば、入力音声データの先頭から末尾に向かって、未処理の共起単語ペアをサーチする。

ステップＳ３において、評価値算出部１２は、共起単語ペアの単語間の時間間隔を算出する。すなわち、ステップＳ２で選択された共起単語ペアに属する認識対象単語と対応共起単語との間の時間間隔が算出される。

ステップＳ４において、評価値算出部１２は、ステップＳ３で算出された時間間隔から単語間の評価値を算出する。ここで、単語間の評価値は、図６を参照しながら説明した共起単語ペアの補正値に相当する。すなわち、評価値算出部１２は、ステップＳ２で選択された共起単語ペアについて、その共起単語ペアに属する認識対象単語と対応共起単語との間の時間間隔に基づいて、補正値を算出する。

ステップＳ５において、評価値算出部１２は、認識対象単語の評価値および対応共起単語の評価値の平均（すなわち、ベース評価値）に、ステップＳ４で得られた補正値を加算することにより、全体の評価値（すなわち、共起単語ペアの評価値）を算出する。

ステップＳ６において、評価値算出部１２は、ステップＳ５で得られた共起単語ペアの評価値が閾値以上であるかを判定する。そして、共起単語ペアの評価値が閾値以上であれば、評価値算出部１２は、ステップＳ７において、その共起単語ペアに属する認識対象単語および対応共起単語を、認識結果として出力する。一方、共起単語ペアの評価値が閾値よりも小さければ、評価値算出部１２の処理はステップＳ１に戻る。すなわち、評価値算出部１２は、すべての共起単語ペアに対してステップＳ２〜Ｓ７の処理を実行する。

一例を示す。ここでは、図５に示す検出結果が評価値算出部１２に与えられるものとする。また、補正値は、図６に示す関数に従って計算されるものとする。さらに、ステップＳ６の閾値は８０であるものとする。

この場合、ステップＳ３において、共起単語ペアの単語間の時間間隔＝1.0秒が得られる。また、ステップＳ４において、図６に示す関数に「時間間隔＝1.0秒」を与えることにより補正値「−１０」が得られる。ここで、共起単語ペアに属する２つの単語の評価値の平均は「９３」である。よって、ステップＳ５において、共起単語ペアについての評価値として「８３（＝９３−１０）」が得られる。さらに、ステップＳ６において、共起単語ペアについての評価値「８３」が閾値「８０」以上と判定される。したがって、ステップＳ７において、入力音声データに対する音声認識の結果として「パソコン」および「メモリー」が出力される。

＜実施形態の音声認識方法による効果＞
実施形態（上述した第１または第２の実施形態）の音声認識方法による効果について記載する。ただし、以下では、実施形態の音声認識方法による効果の理解を助けるために、まず、２つの比較方式を示す。

比較方式１においては、図８に示す共起単語情報３１を利用して音声データから共起単語が検出される。比較方式１の共起単語情報３１は、各単語（対象単語）に対して、対応する１または複数の共起単語および共起範囲を記述する。共起範囲は、対象単語を基準として音声データから共起単語を検索する時間範囲（すなわち、検索範囲）を表す。図８に示す例では、例えば、対象単語「パソコン」に対して、共起単語として「メモリー」「価格」「ＦＭＶ」「ＣＰＵ」が登録され、共起範囲として「0.6秒」が設定されている。この場合、比較方式１の音声認識装置は、入力音声データから「パソコン」を検出すると、その音声区間に続く0.6秒間の音声データから「メモリー」「価格」「ＦＭＶ」「ＣＰＵ」を検索する。

図９は、比較方式１による認識結果の例を示す。図９（ａ）に示す例１においては、入力音声１「パソコンのメモリーについて教えて」が音声認識装置に入力される。音声認識装置は、評価値９０で「パソコン」を検出するとともに、評価値９６で「メモリー」を検出する。このとき、「パソコン」と「メモリー」との間の時間間隔は0.2秒である。このケースでは、２つの単語の時間間隔「0.2秒」は、共起範囲「0.6秒」以内である。また、２つの単語の評価値の平均「９３」は、閾値「８０」以上である。したがって、音声認識装置は、認識結果として「パソコン」「メモリー」を出力する。すなわち、音声認識装置の認識結果は、正しい。

図９（ｂ）に示す例２においては、入力音声２「パソコンの、えーっと、メモリーについて教えて」が音声認識装置に入力される。例２では、不要語「えーっと」が発話されたことにより、「パソコン」と「メモリー」との間の時間間隔は1.0秒に広がっている。このケースでは、２つの単語の時間間隔「1.0秒」は共起範囲「0.6秒」を超えている。したがって、音声認識装置は、「パソコン」および「メモリー」を共起単語ペアと認識しない。すなわち、このケースでは、共起関係を有する１組の単語が共起単語ペアとして認識されず、検出漏れが発生する。

図９（ｃ）に示す例３においては、入力音声３「パソコンの他にですねー、ＦＭラジオは扱ってますか」が音声認識装置に入力される。ここで、音声認識装置は、評価値９０で「パソコン」を検出するとともに、入力音声中の「ＦＭラジオ」を表す区間の音声データを評価値８６で誤って「ＦＭＶ」と認識するものとする。ただし、例３では「パソコン」と「ＦＭＶ」との間の時間間隔は1.5秒であり、共起範囲「0.6秒」を超えている。したがって、音声認識装置は、「パソコン」および「ＦＭＶ」を共起単語ペアと認識しない。すなわち、このケースでは、「ＦＭラジオ」を誤って「ＦＭＶ」と認識してしまう誤検出は回避されている。

このように、比較方式１においては、不要語の発話等に起因して、共起関係を有する１組の単語間の時間間隔が長くなると、検出漏れが発生するおそれがある。なお、比較方式１は、上述した特許文献１に記載の方法を模擬したものである。

比較方式２においては、図１０に示す共起単語情報３２を利用して音声データから共起単語が検出される。比較方式１の共起単語情報３１と比較方式２の共起単語情報３２との差異は、共起範囲の幅である。すなわち、比較方式２においては、図９（ｂ）に示す検出漏れを防ぐために、各対象単語の共起範囲の幅がそれぞれ比較方式１よりも広く設定されている。例えば、図１０に示す共起単語情報３２において、対象単語「パソコン」の共起範囲として「1.6秒」が設定されている。この場合、比較方式２の音声認識装置は、入力音声データから「パソコン」を検出すると、その区間に続く1.6秒間の音声データから「メモリー」「価格」「ＦＭＶ」「ＣＰＵ」を検索する。

図１１は、比較方式２による認識結果の例を示す。なお、図１１（ａ）〜図１１（ｃ）に示す入力音声は、それぞれ図９（ａ）〜図９（ｃ）と同じである。また、音声認識装置が入力音声データから個々の単語を認識する処理は、比較方式１、２において互いに同じである。

図１１（ａ）に示す例１においては、評価値９０で「パソコン」が検出され、評価値９６で「メモリー」が検出される。また、時間間隔は0.2秒である。このケースでは、２つの単語間の時間間隔「0.2秒」は、共起範囲「1.6秒」以内であり、２つの単語の評価値の平均「９３」は、閾値「８０」以上である。したがって、比較方式１と同様に、音声認識装置は、認識結果として「パソコン」「メモリー」を出力する。すなわち、音声認識装置の認識結果は、正しい。

図１１（ｂ）に示す例２においては、入力音声２から検出される「パソコン」と「メモリー」との間の時間間隔は1.0秒である。ところが、比較方式２では、対象単語「パソコン」に対する共起範囲は、1.6秒に設定されている。すなわち、２つの単語間の時間間隔「1.0秒」は、共起範囲「1.6秒」以内である。また、２つの単語の評価値の平均「９３」は、閾値「８０」以上である。したがって、音声認識装置は、認識結果として「パソコン」および「メモリー」を出力する。すなわち、入力音声２に対しても正しい認識結果が得られる。このように、比較方式２では、共起範囲の幅を広げることにより、検出漏れの発生が抑制される。

図１１（ｃ）に示す例３においては、評価値９０で「パソコン」が検出され、入力音声中の「ＦＭラジオ」を表す区間の音声データが評価値８６で誤って「ＦＭＶ」と認識される。ここで、２つの単語間の時間間隔は1.5秒であり、共起範囲「1.6秒」以内である。また、２つの単語の評価値の平均「８８」は、閾値「８０」以上である。したがって、音声認識装置は、認識結果として「パソコン」および「ＦＭＶ」を出力する。すなわち、このケースでは、「ＦＭラジオ」が誤って「ＦＭＶ」と認識される誤検出が発生している。このように、比較方式２では、共起範囲の幅を広げることにより、検出漏れは抑制されるが、誤検出の発生頻度が高くなる。

図１２は、実施形態の音声認識装置の認識結果の例を示す。なお、図１２（ａ）〜図１２（ｃ）に示す入力音声は、それぞれ図９（ａ）〜図９（ｃ）、または図１１（ａ）〜図１１（ｃ）と同じである。また、実施形態の音声認識装置が音声データから個々の単語を認識する処理は、比較方式１、２と同じである。ただし、実施形態の音声認識装置は、図６に示す補正値を利用して、図７に示すフローチャートの手順で評価値を算出する。

図１２（ａ）に示す例１においては、評価値９０で「パソコン」が検出され、評価値９６で「メモリー」が検出される。また、時間間隔は0.2秒である。そうすると、評価値算出部１２は、ステップＳ４において、時間間隔「0.2秒」に応じて補正値を計算する。この場合、図６に示す例では、時間間隔「0.2秒」に対して補正値＝ゼロが得られる。続いて、評価値算出部１２は、ステップＳ５において、２つの単語の評価値の平均「９３」を補正値で補正する。ただし、例１では補正値はゼロなので、上述の共起単語ペア（パソコン、メモリー）についての評価値は「９３」である。そして、この評価値「９３」は閾値「８０」以上である。したがって、実施形態の音声認識装置は、認識結果として「パソコン」「メモリー」を出力する。すなわち、実施形態の音声認識装置の認識結果は、正しい。

図１２（ｂ）に示す例２においては、入力音声２から検出される「パソコン」と「メモリー」との間の時間間隔は1.0秒である。この場合、評価値算出部１２は、ステップＳ４において、時間間隔「1.0秒」に対応する補正値として「−１０」を得る。続いて、評価値算出部１２は、ステップＳ５において、２つの単語の評価値の平均「９３」に補正値「−１０」を加算する。この結果、上述の共起単語ペア（パソコン、メモリー）についての評価値として「８３」が得られる。ここで、この評価値「８３」は、ステップＳ６において、閾値「８０」以上である。したがって、実施形態の音声認識装置は、認識結果として「パソコン」「メモリー」を出力する。すなわち、実施形態の音声認識装置は、入力音声２に対しても正しい認識結果を得ることができる。

このように、実施形態の音声認識方法においては、不要語の発話等に起因して共起単語ペアの単語間の時間間隔が長くなると、その時間間隔が長いほど共起単語ペアに対する評価値が低くなるように、補正計算が行われる。換言すれば、不要語の発話等に起因する単語間の時間間隔の拡大幅がさほど大きくないときは、補正による評価値の低下幅は比較的小さい。このため、共起単語ペアに属する各単語の評価値が大きく、且つ、不要語の発話等に起因する単語間の時間間隔の拡大幅がさほど大きくなければ、共起単語ペアに対する評価値は閾値以上のままである。この場合、共起単語ペアに属する各単語が正しく認識される。図１２（ｂ）に示す例では、「パソコン」および「メモリー」の評価値がそれぞれ高く、且つ、不要語「えーっと」に起因する時間間隔の拡大幅は比較的小さいので、「パソコン」および「メモリー」が正しく認識されている。したがって、実施形態の音声認識方法においては、比較方式１による図９（ｂ）に示す検出漏れが抑制される。

図１２（ｃ）に示す例３においては、評価値９０で「パソコン」が検出され、入力音声中の「ＦＭラジオ」を表す区間の音声データが評価値８６で誤って「ＦＭＶ」と認識される。ここで、２つの単語間の時間間隔は1.5秒であり、評価値算出部１２は、ステップＳ４において、時間間隔「1.5秒」に対応する補正値として「−２０」を得る。続いて、評価値算出部１２は、ステップＳ５において、２つの単語の評価値の平均「８８」に補正値「−２０」を加算する。この結果、上述の共起単語ペア（パソコン、ＦＭＶ）についての評価値として「６８」が得られる。ここで、この評価値「６８」は、閾値「８０」よりも小さい。したがって、実施形態の音声認識装置は、「パソコン」および「ＦＭＶ」を共起単語ペアと認識しない。すなわち、実施形態の音声認識装置の認識結果は、正しい。

このように、実施形態の音声認識方法においては、不要語の発話等に起因して共起単語ペアの単語間の時間間隔が長くなるほど共起単語ペアに対する評価値が低くなる。したがって、実施形態の音声認識方法においては、比較方式２による図１１（ｃ）に示す誤検出が抑制される。

なお、実施形態の音声認識装置は、共起情報を利用して共起単語ペアを検出する機能だけでなく、音声データから個々の単語を検出する機能を備えるようにしてもよい。たとえば、図１２（ｃ）に示す例では、入力音声３から比較的高い評価値で「パソコン」が検出されている。この場合、音声認識装置は、「パソコン」を、共起単語ペアに属する単語としては検出しないが、入力音声３に含まれる１つの単語として検出してもよい。

また、図６に示す例では、すべての共起単語ペアに対して同じ補正値が使用される。しかし、本発明はこの方法に限定されるものではない。例えば、音声認識装置は、図１３に示す共起単語情報１４を参照して音声認識を実行するようにしてもよい。共起単語情報１４は、たとえば、共起情報格納部２３に格納され、共起単語情報１３の代わりに使用される。共起範囲基準時間は、共起単語ペアのベース評価値を補正する補正値を生成するための計算式を識別する。

図１４は、共起範囲基準時間と補正値との関係を示す図である。この例では、共起範囲基準時間は、補正値がゼロである領域を指定する。例えば、図１３に示す例では、共起単語ペア（富士通、パソコン）に対して、共起範囲基準時間＝0.5秒が設定されている。この場合、この共起単語ペアのベース評価値を補正する補正値を得るために、図１４に示す関数Ａ(0.5)が使用される。すなわち、音声認識装置は、入力音声から「富士通」および「パソコン」を検出すると、それら２つの単語間の時間間隔の値を関数Ａ(0.5)に与えることにより、対応する補正値を取得する。また、共起単語ペア（パソコン、メモリー）に対しては、共起範囲基準時間＝0.6秒が設定されている。この場合、この共起単語ペアのベース評価値を補正する補正値を得るために、図１４に示す関数Ａ(0.6)が使用される。同様に、共起範囲基準時間＝1.0秒が設定されている共起単語ペアについては、図１４に示す関数Ａ(1.0)が使用される。このように、共起単語ペア毎に補正値を得るための関数を設定する手順を採用すれば、検出漏れのさらなる抑制、および／または、誤検出のさらなる抑制を実現することができる。

なお、本発明は、共起単語ペアの評価値を算出するための関数として、様々なバリエーションを採用することができる。例えば、図６または図１４に示す例では、時間間隔に対する補正値の変化の傾きは一定であるが、共起単語ペアごとにこの傾きを設定可能としてもよい。また、図６または図１４に示す例では、時間間隔に対して補正値が直線的に変化するが、補正値は、時間間隔に対して非直線的に変化してもよい。

また、音声入力部２１は、wavファイルあるいはその他のデジタル音声データから復元した音声データを利用し、入力音声の中からユーザが検索したい単語の読み情報を生成して単語検出部１１に与えるようにしてもよい。この場合、音声認識装置は、入力音声の中から、ユーザが検索したい単語が音声として発話されている音声区間の情報を認識結果として出力できる。

＜他の実施形態＞
他の実施形態においては、ある単語に対して複数の共起単語が存在するときに、それら複数の共起単語の中の１つのみが共起することを設定することができる。この設定を実現するために、他の実施形態の音声認識装置は、図１５に示す共起単語情報１５を参照して音声認識を実行する。共起単語情報１５は、例えば、共起情報格納部２３に格納され、共起単語情報１３の代わりに使用される。なお、他の実施形態の音声認識装置は、図１または図２に示す単語検出部１１および評価値算出部１２を備える。ただし、評価値算出部１２の処理は、図７に示すフローチャートの処理と一部が異なっている。

図１５に示す共起単語情報１５おいては、対象単語「パソコン」に対して、２つの共起単語「デスクトップ」および「ノート」が登録されている。ここで、{ ｜} は、{ } 内のいずれか１つの単語のみが共起することを表している。すなわち、この例では、「パソコン」に対して、「デスクトップ」または「ノート」のいずれか一方のみが共起単語として認識される。

図１６は、他の実施形態の音声認識装置の認識結果の例を示す。図１６に示す例では、入力音声「パソコンで、ノートじゃなかった、デスクトップはどんなものがありますか」が音声認識装置に入力される。音声認識装置は、評価値９０で「パソコン」を検出し、評価値９２で「ノート」を検出し、評価値９４で「デスクトップ」を検出する。このとき、「パソコン」と「ノート」との間の時間間隔は0.2秒であり、「パソコン」と「デスクトップ」との間の時間間隔は1.0秒である。

この場合、評価値算出部１２は、認識対象単語「パソコン」と、時間的に後に検出された共起単語「デスクトップ」との間の時間間隔に基づいて、共起単語ペア（パソコン、デスクトップ）の評価値を算出する。この例では、「パソコン」および「デスクトップ」の評価値の平均は「９２」である。また、図６に示す関数で補正値を計算する場合は、時間間隔「1.0秒」に対応して補正値「−１０」が得られる。したがって、共起単語ペア（パソコン、デスクトップ）の評価値として「８２」が算出される。この評価値「８２」は閾値「８０」以上なので、音声認識装置は、認識結果として「パソコン」「デスクトップ」を出力する。

このように、他の実施形態の方法においては、入力音声データから検出された対象単語に対して複数の共起単語が存在するときに、時間的に後に存在する共起単語が、その対象単語に共起する単語として採用される。このため、他の実施形態の方法は、例えば、図１６を参照しながら説明したように、話者が言い間違えた単語「ノート」を無視することができる。したがって、この方法によれば、入力音声の文脈に沿った単語の抽出が可能となる。

＜音声認識装置のハードウェア構成＞
図１７は、音声認識装置を実現するためのコンピュータシステムのハードウェア構成を示す図である。コンピュータシステム１００は、図１７に示すように、ＣＰＵ１０１、メモリ１０２、記憶装置１０３、読み取り装置１０４、通信インタフェース１０６、および入出力装置１０７を備える。ＣＰＵ１０１、メモリ１０２、記憶装置１０３、読み取り装置１０４、通信インタフェース１０６、入出力装置１０７は、例えば、バス１０８を介して互いに接続されている。

ＣＰＵ１０１は、メモリ１０２を利用して音声認識プログラムを実行することにより、単語検出部１１、評価値算出部１２の一部または全部の機能を提供する。このとき、ＣＰＵ１０１は、図７に示すフローチャートの処理を記述したプログラムを実行することにより、評価値算出部１２の機能を提供してもよい。

メモリ１０２は、例えば半導体メモリであり、ＲＡＭ領域およびＲＯＭ領域を含んで構成される。記憶装置１０３は、例えばハードディスクであり、実施形態の音声認識に係わる音声認識プログラムを格納する。なお、記憶装置１０３は、フラッシュメモリ等の半導体メモリであってもよい。また、記憶装置１０３は、外部記録装置であってもよい。共起情報格納部２３は、メモリ１０２または記憶装置１０３を利用して実現される。

読み取り装置１０４は、ＣＰＵ１０１の指示に従って着脱可能記録媒体１０５にアクセスする。着脱可能記録媒体１０５は、たとえば、半導体デバイス（ＵＳＢメモリ等）、磁気的作用により情報が入出力される媒体（磁気ディスク等）、光学的作用により情報が入出力される媒体（ＣＤ−ＲＯＭ、ＤＶＤ等）などにより実現される。通信インタフェース１０６は、ＣＰＵ１０１の指示に従ってネットワークを介してデータを送受信する。入出力装置１０７は、例えば、ユーザからの指示を受け付けるデバイス、認識結果を出力するインタフェース等に相当する。

実施形態の音声認識プログラムは、例えば、下記の形態でコンピュータシステム１００に提供される。
（１）記憶装置１０３に予めインストールされている。
（２）着脱可能記録媒体１０５により提供される。
（３）プログラムサーバ１１０から提供される。

なお、実施形態の音声認識方法は、複数のコンピュータを利用して上述の処理を提供してもよい。この場合、あるコンピュータが、上述の処理の一部を、ネットワークを介して他のコンピュータに依頼し、その処理結果を受け取るようにしてもよい。

さらに、実施形態の音声認識装置の一部は、ハードウェアで実現してもよい。或いは、実施形態の音声認識装置は、ソフトウェアおよびハードウェアの組み合わせで実現してもよい。

１、２音声認識装置
１１単語検出部
１２評価値算出部
１３〜１５共起単語情報
２１音声入力部
２２単語リスト
２３共起情報格納部

Claims

音声データから認識対象単語および前記認識対象単語の共起単語を検出し、前記認識対象単語についての認識結果の確からしさを表す第１の評価値、及び前記共起単語についての認識結果の確からしさを表す第２の評価値を出力する単語検出部と、
前記第１の評価値および前記第２の評価値から得られるベース評価値を、前記認識対象単語が検出された第１の音声区間と前記共起単語が検出された第２の音声区間との間の時間間隔に基づいて補正することにより、前記認識対象単語および前記共起単語の組合せに対する評価値を算出する評価値算出部と、を備え、
前記評価値算出部は、前記時間間隔が閾値時間以下であれば、前記ベース評価値を変えることなく前記認識対象単語および前記共起単語の組合せに対する評価値として出力し、前記時間間隔が前記閾値時間よりも長ければ、前記時間間隔が長いほど前記認識対象単語および前記共起単語の組合せに対する評価値が小さくなるように前記ベース評価値を補正する
ことを特徴とする音声認識装置。
音声データから認識対象単語および前記認識対象単語の共起単語を検出し、前記認識対象単語についての認識結果の確からしさを表す第１の評価値、及び前記共起単語についての認識結果の確からしさを表す第２の評価値を出力する単語検出部と、
前記第１の評価値および前記第２の評価値から得られるベース評価値を、前記認識対象単語が検出された第１の音声区間と前記共起単語が検出された第２の音声区間との間の時間間隔に基づいて補正することにより、前記認識対象単語および前記共起単語の組合せに対する評価値を算出する評価値算出部と、
共起関係を有する各単語ペアに対してそれぞれ共起範囲基準時間を表す情報を格納する共起情報格納部と、を備え、
前記評価値算出部は、前記単語検出部により検出された認識対象単語および共起単語の組合せに基づいて前記共起情報格納部を参照することで得られる共起範囲基準時間が長いほど前記認識対象単語および前記共起単語の組合せに対する評価値が大きくなり、且つ、前記時間間隔が長いほど前記認識対象単語および前記共起単語の組合せに対する評価値が小さくなるように、前記ベース評価値を補正する
ことを特徴とする音声認識装置。
音声データから認識対象単語および前記認識対象単語の共起単語を検出する単語検出部と、
前記認識対象単語が検出された第１の音声区間と前記共起単語が検出された第２の音声区間との間の時間間隔に基づいて、前記認識対象単語および前記共起単語の組合せに対する評価値を算出する評価値算出部と、を備え、
前記単語検出部により前記認識対象単語に対して複数の共起単語が検出されたときは、前記評価値算出部は、前記認識対象単語および前記単語検出部により時間的に後に検出された共起単語の組合せに対する評価値を算出する
ことを特徴とする音声認識装置。
コンピュータを用いて、
音声データから認識対象単語および前記認識対象単語の共起単語を検出し、
前記認識対象単語についての認識結果の確からしさを表す第１の評価値、及び前記共起単語についての認識結果の確からしさを表す第２の評価値を算出し、
前記第１の評価値および前記第２の評価値から得られるベース評価値を、前記認識対象単語が検出された第１の音声区間と前記共起単語が検出された第２の音声区間との間の時間間隔に基づいて補正することにより、前記認識対象単語および前記共起単語の組合せに対する評価値を算出するときに、前記時間間隔が閾値時間以下であれば、前記ベース評価値を変えることなく前記認識対象単語および前記共起単語の組合せに対する評価値として出力し、前記時間間隔が前記閾値時間よりも長ければ、前記時間間隔が長いほど前記認識対象単語および前記共起単語の組合せに対する評価値が小さくなるように前記ベース評価値を補正する
ことを特徴とする音声認識方法。
音声データから認識対象単語および前記認識対象単語の共起単語を検出し、
前記認識対象単語についての認識結果の確からしさを表す第１の評価値、及び前記共起単語についての認識結果の確からしさを表す第２の評価値を算出し、
前記第１の評価値および前記第２の評価値から得られるベース評価値を、前記認識対象単語が検出された第１の音声区間と前記共起単語が検出された第２の音声区間との間の時間間隔に基づいて補正することにより、前記認識対象単語および前記共起単語の組合せに対する評価値を算出するときに、前記時間間隔が閾値時間以下であれば、前記ベース評価値を変えることなく前記認識対象単語および前記共起単語の組合せに対する評価値として出力し、前記時間間隔が前記閾値時間よりも長ければ、前記時間間隔が長いほど前記認識対象単語および前記共起単語の組合せに対する評価値が小さくなるように前記ベース評価値を補正する
処理をコンピュータに実行させる音声認識プログラム。