JP5583301B1

JP5583301B1 - 音声認識装置

Info

Publication number: JP5583301B1
Application number: JP2014509532A
Authority: JP
Inventors: 慶太山室; 洋平岡登
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-11-29
Filing date: 2013-11-29
Publication date: 2014-09-03
Anticipated expiration: 2033-11-29
Also published as: JPWO2015079568A1; US9424839B2; WO2015079568A1; US20150348539A1; DE112013001772T5; DE112013001772B4; CN104823235A; CN104823235B

Abstract

予め定められた単語列を認識可能な第１の認識エンジンと前記単語列の一部を認識可能な第２の認識エンジンからなる音声認識部２と、第１および第２の認識エンジン２ａ，２ｂの音声認識での認識結果である、第１および第２の認識結果候補の時間長の差に基づいて、第１および第２認識結果候補の中から、一または複数の確からしい認識結果候補を採用する判定部４を備える。

Description

この発明は、複数の音声認識結果から確からしい認識結果候補を採用して出力する音声認識装置に関する。

従来、認識可能な語彙の分野、環境が異なる複数の認識エンジンを併用して音声認識を行い、得られた認識結果の中から確からしい認識結果を取得する音声認識装置が提案されている（例えば、特許文献１参照）。

特開２００７−３３６７１号公報

従来は、複数の認識エンジンで得られた認識結果から最終的な認識結果を選択する際、複数の認識エンジンのそれぞれの基準で決定された認識結果の信頼度を比較して最も信頼度の高い認識結果を選択するか、または複数の認識エンジンの全ての認識結果を信頼度が高い順にソートして信頼度が高い認識結果を選択していた。
このため、ある認識エンジンで認識可能な単語または単語列（以下、単語列と記載し、単語列には１つの単語も含むとする）の一部分と他の認識エンジンで認識可能な単語列が一致する場合、ある認識エンジンで認識されるべき結果が他の認識エンジンの結果として誤認識される可能性があるという課題があった。

例えば、第１の認識エンジンと第１の認識エンジンよりも短い単語列を認識可能な第２の認識エンジンとを利用して、“ＣａｌｉｆｏｒｎｉａＬｏｓＡｎｇｅｌｅｓ”と発話された場合を考える。この場合、第１の認識エンジンの認識結果が確からしいとして選択されるべきであるが、“Ｃａｌｉｆｏｒｎｉａ”という単語は、第２の認識エンジンでも認識可能である。すなわち、発話音声には“Ｃａｌｉｆｏｒｎｉａ”という第１および第２の認識エンジンで認識可能な単語が含まれているため、第１および第２の認識エンジンのそれぞれの基準で決定された認識結果の信頼度によっては、第２の認識エンジンの結果が最終的な認識結果として誤って選択される可能性がある。

この発明は、上記のような課題を解決するためになされたもので、認識エンジンの音声認識結果から確からしい認識結果の候補を精度よく採用することができる音声認識装置を得ることを目的とする。

この発明に係る音声認識装置は、発話された音声を入力する音声入力部と、音声入力部から取得した音声について、予め定められた単語列を認識可能な第１の認識エンジンと単語列の一部を認識可能な第２の認識エンジンとを有する音声認識部と、第１の認識エンジンで認識した第１の認識結果候補が有する時間長から第２の認識エンジンで認識した第２の認識結果候補が有する時間長を差し引いた時間長が予め定めた第１の閾値以上である場合には、第２の認識結果候補を棄却し、第１の認識結果候補を採用する判定部とを備える。

この発明によれば、認識エンジンの音声認識結果から確からしい認識結果の候補を精度よく採用することができるという効果がある。

この発明の実施の形態１に係る音声認識装置の構成を示すブロック図である。認識エンジンの構成を示すブロック図である。音声始終端検出の一例を示す図である。第１および第２の認識エンジンで認識可能な単語列を例示する図である。実施の形態１に係る音声認識装置の動作を示すフローチャートである。第１および第２の認識エンジンの出力情報を例示する図である。この発明の実施の形態２に係る音声認識装置の構成を示すブロック図である。実施の形態２に係る音声認識装置の動作を示すフローチャートである。認識結果候補の時間長と取得音声時間長とを比較した結果を例示する図である。認識対象の単語列のカテゴリに応じた設定値を用いて発話時間の基準値を決定する処理を示す図である。

以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１に係る音声認識装置の構成を示すブロック図である。図１に示す音声認識装置は、例えば、車両内に搭載または持ち込みされたナビゲーション装置やオーディオ装置の入力手段として利用される装置である。その構成として、音声入力部１、音声認識部２、第１および第２の認識候補取得部３ａ，３ｂ、判定部４および統合部５を備える。

音声入力部１は、発話された音声を集音して入力信号を取得する機能を有し、例えば、マイクロフォンなどから入力された音声信号をデジタル信号に変換する。
音声認識部２は、音声入力部１から出力された同一の音声信号をそれぞれ音声認識する第１および第２の認識エンジン２ａ，２ｂを備える。
第１および第２の認識エンジン２ａ，２ｂは、入力された音声信号に対して音声認識処理を実施して、認識結果の文字列、認識結果の信頼度および認識結果の時間長を出力する。ここで、第１の認識エンジンは、第２の認識エンジンで認識可能な単語列の一部を含む単語列を、少なくとも一つ以上は認識可能であるものとする。
なお、実施の形態１においては、第２の認識エンジン２ｂで認識可能な単語列を構成する単語数が、第１の認識エンジン２ａで認識可能な単語列を構成する単語数以下であるものとして説明する。
具体的には、第１の認識エンジン２ａはアメリカの州名と市名を組み合わせた単語列を認識可能であり、第２の認識エンジン２ｂは州名を認識可能であるとする。

また、この実施の形態１において、音声認識部２は２つの認識エンジンを備えるものとしているが、他の認識エンジンで認識可能な単語列の一部を含む単語列を少なくとも一つ以上は認識可能である認識エンジンを備えるならば、３つ以上の認識エンジンを備えていてもよい（実施の形態２においても同様である）。

第１および第２の認識候補取得部３ａ，３ｂは、音声認識部２の第１および第２の認識エンジン２ａ，２ｂと接続している。第１および第２の認識候補取得部３ａ，３ｂは、第１および第２の認識エンジン２ａ，２ｂの音声認識処理結果から、認識結果の文字列を認識結果候補として取得し、さらに認識結果候補の信頼度およびこの認識結果候補の時間長を取得する。
なお、以降の説明において、第１の認識候補取得部３ａにより第１の認識エンジン２ａから取得された認識結果候補を“第１の認識結果候補”と記載する。
また、第２の認識候補取得部３ｂにより第２の認識エンジン２ｂから取得された認識結果候補を“第２の認識結果候補”と記載する。

判定部４は、第１の認識結果候補の時間長と第２の認識結果候補の時間長との差に基づいて、認識結果候補の正誤判定を実施する。正誤判定において、判定部４は、誤認識と判定された認識結果候補を棄却し、残りの認識結果候補を確からしい認識結果候補として採用する。
例えば、判定部４は、第１の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と、第２の認識結果候補の全ての認識結果候補の時間長の差を算出する。そして、当該時間長の差が、予め定めた第１の閾値以上（または、閾値より大きい）である第２の認識結果候補を棄却する。そして、第１の認識結果候補と棄却されなかった第２の認識結果候補を採用し認識結果統合部５に出力する。
他の方法として、例えば、第１の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と、第２の認識結果候補であって、最も信頼度が高い認識結果候補の時間長との差を算出する。そして、当該時間長の差が予め定めた第１の閾値以上（または、閾値より大きい）である場合は、第２の認識結果候補を全て棄却し、第１の認識結果候補を採用する。そして、当該採用した認識結果候補を統合部５に出力する。

統合部５は、第１および第２の認識候補取得部３ａ，３ｂが取得したそれぞれの認識結果候補のうち、判定部４が確からしいとして採用した認識結果候補を統合して一つの認識結果候補群とし、認識候補群における認識結果候補を信頼度の高い順にソートする。
なお、統合部５は、判定部４によって第２の認識結果候補を全て棄却できなかった場合は、第１の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と第２の認識結果候補のそれぞれの認識結果候補の時間長の差に基づいて、第２の認識結果候補のそれぞれの認識結果候補の信頼度を補正し、当該補正後の信頼度に基づいてソートするとしてもよい。

図２は、認識エンジンの構成を示すブロック図である。第１および第２の認識エンジン２ａ，２ｂは、図２に示すように、検出部２０、音声信号処理部２１、照合部２２および音声認識辞書２３を備えて構成される。
検出部２０は、音声入力部１から出力された音声信号を入力して、この音声信号の発話の始端時間と終端時間を検出する。検出部２０によって検出された始端時間と終端時間とから判断された音声信号の発話時間（有声区間）部分は、音声信号処理部２１に出力される。

図３は、音声始終端検出の一例を示す図であって、入力された音声信号全体から発話の始端時間と終端時間を検出して音声の無声区間と有声区間（発話時間）を分類している。図３に示すように、発話の始終端は、音声信号の振幅サイズによって決定される。
例えば、音声信号の音声波形において、時間軸に沿って最初に振幅基準値を超える振幅が検出された時点を始端時間に決定する。また、時間軸に沿って最後に振幅基準値を超える振幅が検出された時点を終端時間に決定する。

音声信号処理部２１は、検出部２０で検出された音声信号の有声区間部分を入力して、この有声区間部分に対して高速フーリエ変換、フィルタ分析、線形予測分析、ケプストラム分析などの信号処理を実施し、音声特徴パラメータを抽出する。抽出された音声特徴パラメータは、照合部２２へ出力される。

照合部２２は、音声信号処理部２１で抽出された音声信号の音声特徴パラメータと音声認識辞書２３に格納される複数の音声特徴パラメータとを照合して、音声認識辞書２３に登録されている音声特徴パラメータとの類似度が高い音声特徴パラメータが得られた認識結果を出力する。このとき、照合部２２は、類似度の高さを正規化した値を認識結果の信頼度として出力する。さらに、照合処理の際に算出された認識結果の時間長を出力する。

音声認識辞書２３は、認識対象となる一つ以上の単語列がその音声特徴パラメータとともに登録された辞書データである。実施の形態１において、第１および第２の認識エンジン２ａ，２ｂは、異なる長さの単語列が登録された音声認識辞書２３を有している。
第１の認識エンジン２ａの音声認識辞書２３には、第２の認識エンジン２ｂの音声認識辞書２３に登録されている単語列の一部を含む単語列が、少なくとも一つ以上登録されている。

音声認識辞書２３に登録される単語列は音声認識装置の認識モードに応じて変化する。例えば、住所の認識モードが設定された場合、第１の認識エンジン２ａの音声認識辞書２３には、“ＣａｌｉｆｏｒｎｉａＬｏｓＡｎｇｅｌｅｓ”、“ＣａｌｉｆｏｒｎｉａＳａｎＤｉｅｇｏ”といった住所のカテゴリに属する単語列が登録される。
一方、第２の認識エンジン２ｂは、第１の認識エンジン２ａよりも短い単語列を認識する認識エンジンであるので、“Ｃａｌｉｆｏｒｎｉａ”といった単語が、第２の認識エンジン２ｂの音声認識辞書２３に登録される。

このように、図４では、第２の認識エンジン２ｂの音声認識辞書２３に登録されている“Ｃａｌｉｆｏｒｎｉａ”の単語は、第１の認識エンジン２ａの音声認識辞書２３に登録されている“ＣａｌｉｆｏｒｎｉａＬｏｓＡｎｇｅｌｅｓ”、“ＣａｌｉｆｏｒｎｉａＳａｎＤｉｅｇｏ”などの単語列の一部分に重複している。
なお、音声認識装置の認識モードである場合に、住所のカテゴリに属する単語列を音声認識辞書２３に登録する例を示したが、名前の認識モードを設定することにより、第１および第２の認識エンジン２ａ，２ｂの音声認識辞書２３には、名前のカテゴリに属する単語列が登録される。すなわち、モードを変更することにより、住所や名前以外のカテゴリに属する単語列も音声認識辞書２３に登録することができる。

なお、音声入力部１、音声認識部２、第１および第２の認識候補取得部３ａ，３ｂ、判定部４および統合部５は、この発明に特有な処理が記述されたプログラムをマイクロコンピュータが実行することにより、ハードウェアとソフトウェアとが協働した具体的な手段として実現することができる。

次に動作について説明する。
図５は、実施の形態１に係る音声認識装置の動作を示すフローチャートである。
最初に、上述のように異なる音声認識辞書２３を有する第１の認識エンジン２ａおよび第２の認識エンジン２ｂが、音声入力部１から入力された音声信号に対して音声認識処理を実施する（ステップＳＴ１）。このとき、図４で示すように、第１の認識エンジンは、第２の認識エンジンで認識可能な単語列の一部を含む単語列を、少なくとも一つ以上は認識可能であるものとする。

次に、第１および第２の認識候補取得部３ａ，３ｂが、第１および第２の認識エンジン２ａ，２ｂから、認識結果候補の文字列、認識結果候補の信頼度および認識結果候補の時間長を取得する（ステップＳＴ２）。第１および第２の認識エンジン２ａ，２ｂの音声認識処理結果は、第１および第２の認識候補取得部３ａ，３ｂから判定部４へ出力される。

判定部４は、第１の認識結果候補のうち信頼度が最も高い認識結果候補の時間長と、第２の認識結果候補のうち信頼度が最も高い認識結果候補の時間長との差分を算出する。このように第１および第２の認識エンジン２ａ，２ｂの音声認識でそれぞれ検出された認識結果候補の時間長の差と認識結果候補の信頼度とに基づいて認識結果の確からしさを評価することで、より精度よく確からしい認識結果候補を選別することが可能となる。

次に、判定部４は、第１の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と、第２の認識結果候補であって、最も信頼度が高い認識結果候補の時間長との差分が予め定めた第１の閾値以上であるか否かを判定する（ステップＳＴ３）。
ここで、第１の閾値は、例えば、判定部４が、第１の認識エンジン２ａの音声認識辞書２３と第２の認識エンジン２ｂの音声認識辞書２３とに登録されている単語列の時間長の差分を予め計算して、それらに平均などの統計的な処理を施して得た値とする。
この場合、第１の閾値は、第１の認識エンジン２ａの音声認識辞書２３と第２の認識エンジン２ｂの音声認識辞書２３に登録されている単語列のカテゴリに応じて可変的に設定される。
すなわち、音声認識辞書２３は、図４を用いて説明したように、音声認識装置の認識モードに対応したカテゴリに属する単語列が登録されるので、判定部４が、認識モードに応じて上記第１の閾値を変更することになる。このようにすることで、判定部４は、音声認識装置の認識モードも考慮してより精度よく認識結果候補を棄却することが可能となる。

時間長の差分が第１の閾値以上である場合（ステップＳＴ３；ＹＥＳ）、判定部４は、第２の認識結果候補を棄却する（ステップＳＴ４）。このように、認識可能な単語列の長さが異なる認識エンジンを利用する場合において、認識結果候補の時間長の差分に基づく正誤判定を実施することによって誤認識された認識結果候補を精度よく棄却することが可能である。
一方、認識結果候補の時間長の差分が第１の閾値未満であれば（ステップＳＴ３；ＮＯ）、第１および第２の認識結果候補が判定部４から統合部５へ出力される。統合部５は、判定部４から第１および第２の認識結果候補を取得すると、これらを１つの認識結果候補群に統合する（ステップＳＴ５）。

統合部５は、第１および第２の認識結果候補を統合するか、または、ステップＳＴ４の処理で第２の認識候補が棄却されて残りの第１の認識結果候補が入力された場合、これらの認識結果候補を信頼度が高い順にソートする（ステップＳＴ６）。このようにすることで、確からしい認識結果候補を選別した結果を信頼度に応じてユーザに提示することができる。
なお、認識結果候補の時間長の差分が第１の閾値未満（ステップＳＴ３；ＮＯ）であり、判定部４が、第２の認識結果候補を棄却できなかった場合は、ステップＳＴ３で算出した認識結果候補の時間長の差分に基づいて、第２の認識結果候補のそれぞれの認識結果候補の信頼度を補正し、当該補正後の信頼度に基づいてソートするとしてもよい。
また、上位から予め定めた順位までを最終的な認識結果候補として出力してもよい。

次に具体例を挙げて説明する。
“ＣａｌｉｆｏｒｎｉａＬｏｓＡｎｇｅｌｅｓ”という音声が発話された場合に、音声入力部１は、発話音声を集音して“ＣａｌｉｆｏｒｎｉａＬｏｓＡｎｇｅｌｅｓ”という音声信号を第１および第２の認識エンジン２ａ，２ｂに出力する。
第１および第２の認識エンジン２ａ，２ｂは、“ＣａｌｉｆｏｒｎｉａＬｏｓＡｎｇｅｌｅｓ”の音声信号について音声認識処理を実施する。このとき、第１および第２の認識エンジン２ａ，２ｂの音声認識辞書２３には、図４に示す単語列が登録されているものとする。

次に、第１および第２の認識候補取得部３ａ，３ｂは、第１および第２の認識エンジン２ａ，２ｂから、認識結果候補の文字列、認識結果候補の信頼度、および認識結果候補の時間長を取得し判定部４に出力する。第１および第２の認識候補取得部３ａ，３ｂにより取得された、第１および第２の認識結果候補の一例を図６に示す。
判定部４は、第１の認識結果候補であって最も信頼度が高い“ＣａｌｉｆｏｒｎｉａＬｏｓＡｎｇｅｌｅｓ”の時間長である４０００ｍｓから、第２の認識結果候補であって最も信頼度が高い“Ｃａｌｉｆｏｒｎｉａ”の時間長である２５００ｍｓを差し引いた差分１５００ｍｓを算出する。
この後、判定部４は、時間長の差分１５００ｍｓと予め定めた第１の閾値とを比較する。なお、第１の閾値は各認識エンジンの音声認識辞書２３に登録されている単語列の時間長の差分を考慮して、１０００ｍｓを設定している。

それぞれの認識結果候補の時間長の差分である１５００ｍｓは第１の閾値１０００ｍｓ以上であるため、判定部４は、第２の認識結果候補を全て棄却する。
例えば、第１および第２の認識結果候補のうち、信頼度が最も高い候補は、第２の認識結果候補で信頼度が６０００の“Ｃａｌｉｆｏｒｎｉａ”である。このため、従来では、信頼度を選択基準としており、“ＣａｌｉｆｏｒｎｉａＬｏｓＡｎｇｅｌｅｓ”という音声が発話されたにもかかわらず、第２の認識エンジン２ｂの音声認識で得られた“Ｃａｌｉｆｏｒｎｉａ”が最終的な認識結果として出力される可能性がある。
これに対して、この発明では、認識結果候補の時間長の差分に基づき“Ｃａｌｉｆｏｒｎｉａ”が棄却されるため、正しい認識結果である“ＣａｌｉｆｏｒｎｉａＬｏｓＡｎｇｅｌｅｓ”を的確に最終的な認識結果として採用することができる。

最後に、統合部５は、第１の認識結果候補を信頼度の高い順にソートする。
ここで、それぞれの認識結果候補の時間長の差分が第１の閾値より小さく、第２の認識結果候補が棄却されなかった場合、認識結果候補の時間長の差分に基づいて第２の認識結果候補のそれぞれの認識結果候補の信頼度を補正し、当該補正後の信頼度に基づいてソートするとしてもよい。
例えば、図６に示した第２の認識結果候補を対象として信頼度を補正する場合、まず、全ての第２認識結果候補の時間長と第１の認識結果候補のうち最も信頼度が高い認識結果候補の時間長との差分を算出する。次に、全ての認識結果候補の時間長の差分から認識結果候補ごとに重みを計算し、各認識結果候補の信頼度にその重みを掛け合わすことで信頼度を補正する。このとき、例えば、差分が“０”の場合は重みを“１”とし、差分が大きくなるにつれて重みを０に近づけていくことで、信頼度を引き下げる方向に補正する。

以上のように、この実施の形態１によれば、予め定められた単語列を認識可能な第１の認識エンジンと前記単語列の一部を認識可能な第２の認識エンジンからなる音声認識部２と、第１および第２の認識エンジン２ａ，２ｂの音声認識での認識結果である、第１および第２の認識結果候補の時間長の差に基づいて、第１および第２認識結果候補の中から、一または複数の確からしい認識結果候補を採用する判定部４を備える。
このように構成することで、第１および第２の認識エンジン２ａ，２ｂでの認識結果である第１および第２の認識結果候補の中にある、明らかに誤った時間長を持つ認識結果候補を判別することができ、これ以外の認識結果候補を確からしい候補として採用することができる。すなわち、第１および第２の認識エンジン２ａ，２ｂでの認識結果である第１および第２の認識結果候補から、確からしい認識結果候補を精度よく採用することができる。

また、この実施の形態１によれば、音声認識部２が、予め定められた単語列を認識可能な第１の認識エンジンと前記単語列の一部を認識可能な第２の認識エンジンとを有し、判定部４が、第１および第２の認識エンジン２ａ，２ｂでの認識である第１および第２の認識結果候補の時間長の差が予め定めた第１の閾値以上である場合に、第２の認識結果候補を棄却し、第１の認識結果候補を確からしい候補として採用する。このように認識結果候補の時間長の差分に基づく正誤判定を実施することによって、誤認識された認識結果候補を精度よく棄却することが可能である。

さらに、この実施の形態１によれば、判定部４が、第１および第２の認識エンジン２ａ，２ｂでの認識結果である、第１および第２の認識結果候補の時間長の差と認識結果候補の信頼度とに基づいて認識結果候補の確からしさを評価する。このようにすることで、より精度よく確からしい認識結果候補を選別することが可能となる。

さらに、この実施の形態１によれば、判定部４が、認識対象とする単語列のカテゴリに応じて第１の閾値を変更する。このようにすることで、認識モードも考慮してより精度よく認識結果候補を選別することが可能となる。

実施の形態２．
図７は、この発明の実施の形態２に係る音声認識装置の構成を示すブロック図である。図７に示す音声認識装置は、実施の形態１と同様に、例えば車両内に搭載または持ち込みされたナビゲーション装置やオーディオ装置の入力手段として利用される装置である。
その構成として音声入力部１、音声認識部２、第１および第２の認識候補取得部３ａ，３ｂ、判定部４Ａ、統合部５および検出部６を備える。
なお、図７において、図１と同一構成要素には同一符号を付して説明を省略する。

上記実施の形態１では、２つ以上の認識エンジンの音声認識での認識結果である第１および第２の認識結果候補の時間長を比較して認識結果候補の正誤を判定した。
これに対して、実施の形態２は、認識エンジンとは別に検出部６を備えており、判定部４Ａは、検出部６が検出した、音声入力部１が取得した音声の発話時間長（以下、取得音声時間長と記載する）を正誤判定の基準値として使用する。

検出部６は、判定部４Ａで、各認識結果候補の時間長と比較される基準値である取得音声時間長を決定する。例えば、検出部６は、認識エンジンに含まれる検出部２０と同様に、音声入力部１で入力された音声信号から取得音声時間長を検出して判定部４Ａに出力する。

なお、第１および第２の認識エンジン２ａ，２ｂでは、認識エンジンごとに異なる音声認識処理を行ってもよいため、認識エンジンごとに異なるアルゴリズムで発話時間情報が算出されることがある。
また、検出部６から出力される取得音声時間長は、異なるアルゴリズムを使用する認識エンジンを比較する基準値となる。異なる音声認識アルゴリズムを使用する認識エンジンとしては、例えばＮｕａｎｃｅ社のＶｏＣｏｎ、Ｇｏｏｇｌｅ社のＧｏｏｇｌｅ音声検索、名古屋工業大学と京都大学のＪｕｌｉｕｓなどが挙げられる。なお、これらの認識エンジンの名称は、それぞれ商標登録されている。

なお、音声入力部１、音声認識部２、第１および第２の認識候補取得部３ａ，３ｂ、判定部４Ａ、統合部５および検出部６は、この発明に特有な処理が記述されたプログラムをマイクロコンピュータが実行することで、ハードウェアとソフトウェアとが協働した具体的な手段として実現することができる。

次に動作について説明する。
図８は、実施の形態２に係る音声認識装置の動作を示すフローチャートである。
最初に、第１の認識エンジン２ａおよび第２の認識エンジン２ｂが、音声入力部１から入力された音声信号に対して音声認識処理を実施する。このとき、検出部６が、音声入力部１で入力された音声信号から取得音声時間長を検出する。

第１および第２の認識候補取得部３ａ，３ｂが、第１および第２の認識エンジン２ａ，２ｂから、認識結果候補の文字列、認識結果候補の信頼度、および認識結果候補の時間長を取得する。第１および第２の認識エンジン２ａ，２ｂの音声認識処理結果は、第１および第２の認識候補取得部３ａ，３ｂから判定部４へ出力される。また、検出部６が検出した取得音声時間長は、基準値として判定部４Ａへ出力される。

判定部４Ａは、第１および第２の認識候補取得部３ａ，３ｂにより取得された認識結果候補の文字列、認識結果候補の信頼度および認識結果候補の時間長、および、検出部６が検出した基準値となる取得音声時間長を取得する（ステップＳＴ１ａ）。

次いで、判定部４Ａは、第１および第２の認識候補取得部３ａ，３ｂから取得した全ての認識結果候補の時間長と基準値とする取得音声時間長との差分を計算し、この差分の絶対値を求める。
続いて、判定部４Ａは、上記差分の絶対値と予め定めた第２の閾値とを比較して、差分の絶対値が第２の閾値以上であるか否かを判定する（ステップＳＴ２ａ）。
上記差分の絶対値が第２の閾値以上である場合（ステップＳＴ２ａ；ＹＥＳ）、判定部４Ａは、上記差分の絶対値が得られた認識結果候補を棄却する（ステップＳＴ３ａ）。この後、ステップＳＴ２ａの処理に戻り、全ての認識結果候補について完了するまで正誤判定が繰り返される。

次に、統合部５は、第１および第２の認識結果候補のうち、判定部４Ａによって棄却されなかった残りの認識結果候補を１つの認識結果候補群に統合する（ステップＳＴ４ａ）。
最後に、統合部５は、認識結果候補群における認識結果候補を信頼度の高い順にソートする（ステップＳＴ５ａ）。ここで、統合部５は、認識結果候補群におけるそれぞれの認識結果候補に対して、ステップＳＴ２ａで計算した基準値とする取得音声時間長と認識結果候補の時間長の差分に基づいて、認識結果候補の信頼度を引き下げる補正を行う。
すなわち、棄却できなかった第１の認識結果候補がそれぞれ有する時間長と取得音声時間長との差に基づいて棄却できなかった第１の認識結果候補の信頼度を引き下げる方向にそれぞれ補正するとともに、棄却できなかった第２の認識結果候補がそれぞれ有する時間長と取得音声時間長との差に基づいて棄却できなかった第２の認識結果候補の信頼度を引き下げる方向にそれぞれ補正する。そして、当該補正後の信頼度に基づいてソートするとしてもよい。また、上位から予め定めた順位までを最終的な認識結果候補として出力してもよい。

次に具体例を挙げて説明する。
図９は認識結果候補の時間長と取得音声時間長とを比較した結果を例示する図であり、６つの認識結果候補に対して第２の閾値による正誤判定を実施している。図９において、取得音声時間長として４１００ｍｓが設定され、正誤判定の第２の閾値として８００ｍｓが設定されているものとする。

例えば、認識結果候補“ＣａｌｉｆｏｒｎｉａＬｏｓＡｎｇｅｌｅｓ”の場合、取得音声時間長との差分の絶対値を算出すると、１００となり、第２の閾値８００よりも小さいため、この認識結果候補は、確からしい認識結果候補として採用される。
一方、認識結果候補“ＣａｌｉｆｏｒｎｉａＳａｎＪｏｓｅ”の場合は、取得音声時間長との差分の絶対値が９００となり、第２の閾値８００よりも大きいため、この認識結果候補は棄却される。
判定部４Ａは、全ての認識結果候補に対して上記と同様の処理を実施する。

また、基準値となる取得音声時間長は、音声認識装置の認識モード、すなわち認識対象とする単語列のカテゴリに応じて検出部６によって決定される。
図１０は、認識対象とする単語列のカテゴリに応じた設定値を用いて基準値となる取得音声時間長を決定する処理を示す図である。検出部６は、入力された音声信号の音声波形において、時間軸に沿って最初に振幅基準値を超える振幅が検出された時点を始端時間に決定する。
また、時間軸に沿って、振幅基準値未満の振幅となりその後に振幅基準値を超える振幅が検出された期間を終端候補とする。

図１０では、発話の終端候補が２箇所存在する場合を示している。候補（１）は無声区間が０．７ｓであり、候補（２）は無声区間が３．０ｓである。
また、検出部６には、発話の終端時間を検出するため、認識対象とする単語列のカテゴリに応じた第３の閾値が設定されている。
すなわち、終端候補の無声区間が第３の閾値以上継続した場合、検出部６は、この候補を入力された音声信号の終端位置として検出する。

図１０の場合は、住所の認識モード、すなわち認識対象とする単語列のカテゴリが“住所”の場合、第３の閾値が１．０ｓ以上に設定され、電話番号の認識モード、すなわち認識対象とする単語列のカテゴリが“電話番号”では閾値が０．５ｓ以上に設定される。
住所の認識モードが設定されている場合、検出部６は、無声区間が１．０ｓ以上継続する候補（２）を発話の終端として検出する。また、電話番号の認識モードが設定されている場合、検出部６は、無声区間が０．５ｓ以上継続する候補（１）を発話の終端として検出する。なお、終端検出のための第３の閾値は、認識対象とする単語列のカテゴリ応じて変更してもよい。

検出部６は、上述のように認識対象とする単語列のカテゴリに応じた第３の閾値で発話の終端を検出して基準値となる取得音声時間長を検出する。すなわち、検出部６は、認識対象の単語列のカテゴリと入力音声の音声波形に基づいて基準値となる取得音声時間長を決定している。
ユーザは音声認識装置の認識モードに応じた発話を行うため、認識対象とする単語列のカテゴリと入力音声の音声波形に基づいて基準値を決定することで、実際の入力音声に対応した基準値を検出することができる。これにより、確からしい認識候補を精度よく採用することが可能である。

なお、図７では、音声認識部２が、第１および第２の認識エンジン２ａ，２ｂを備える場合を示したが、音声認識部２は２つ以上の認識エンジンを備えていればよい。

以上のように、この実施の形態２によれば、入力音声を音声認識する第１および第２の認識エンジン２ａ，２ｂからなる音声認識部２と、第１および第２の認識エンジン２ａ，２ｂの認識結果である認識結果候補の時間長と認識エンジンが有する検出部２０とは別の検出部６により検出された取得音声時間長との差に基づいて、第１および第２の認識エンジン２ａ，２ｂでの認識結果である認識結果候補の中から、確からしい認識結果候補を採用する判定部４Ａとを備える。
このように構成することで、上記実施の形態１と同様に、第１および第２の認識エンジン２ａ，２ｂでの認識結果である認識結果候補の中にある、明らかに誤った時間長を持つ認識結果候補を判別することができ、これ以外の認識結果候補を確からしい候補として採用することができる。すなわち、第１および第２の認識エンジン２ａ，２ｂでの認識結果である認識結果候補から、確からしい認識結果候補を精度よく採用することができる。

また、この実施の形態２によれば、判定部４Ａが、第１および第２の認識エンジン２ａ，２ｂの音声認識でそれぞれ検出された認識結果候補の時間長と取得音声時間長との差が予め定めた第２の閾値以上になる認識結果の候補を棄却し、残りを確からしい認識結果候補として採用する。
このように、認識結果候補の時間長と取得音声時間長との差に基づく正誤判定を実施することによって、誤認識された認識結果候補を精度よく棄却することが可能である。

さらに、この実施の形態２によれば、認識対象の単語列のカテゴリと入力音声の音声波形に基づいて取得音声時間長を決定する検出部６を備える。
このように構成することで、実際の入力音声に対応した基準値を検出することができる。これにより、確からしい認識結果候補を精度よく採用することが可能である。

なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

この発明に係る音声認識装置は、認識エンジンの音声認識結果から確からしい認識結果の候補を精度よく採用することができるので、例えば車載ナビゲーション装置などの入力手段に好適である。

１音声入力部、２音声認識部、２ａ第１の認識エンジン、２ｂ第２の認識エンジン、３ａ第１の認識候補取得部、３ｂ第２の認識候補取得部、４判定部、５統合部、６，２０検出部、２１音声信号処理部、２２照合部、２３音声認識辞書。

Claims

発話された音声を入力する音声入力部と、
前記音声入力部から取得した音声について、予め定められた単語列を認識可能な第１の認識エンジンと前記単語列の一部を認識可能な第２の認識エンジンとを有する音声認識部と、
前記第１の認識エンジンで認識した第１の認識結果候補が有する時間長から前記第２の認識エンジンで認識した第２の認識結果候補が有する時間長を差し引いた時間長が予め定めた第１の閾値以上である場合には、前記第２の認識結果候補を棄却し、前記第１の認識結果候補を採用する判定部とを備える音声認識装置。
前記差し引いた時間長に基づいて、前記判定部によって棄却されなかった前記第２の認識結果候補の信頼度を引き下げる方向に補正する統合部をさらに備えることを特徴とする請求項１記載の音声認識装置。
前記判定部は、認識対象とする単語列のカテゴリに応じて前記予め定めた第１の閾値を変更することを特徴とする請求項１記載の音声認識装置。
発話された音声を入力する音声入力部と、
前記音声入力部から取得した音声をそれぞれ認識する複数の認識エンジンからなる音声認識部と、
前記取得した音声の始端から終端までの取得音声時間長を検出する検出部と、
前記複数の認識エンジンで認識した認識結果候補がそれぞれ有する時間長と前記取得音声時間長との差が予め定めた第２の閾値以上となる認識結果候補を棄却する判定部とを備える音声認識装置。
前記判定部によって棄却されなかった認識結果候補がそれぞれ有する時間長と前記取得音声時間長との差に基づいて、前記棄却されなかった認識結果候補の信頼度を引き下げる方向にそれぞれ補正する統合部をさらに備えることを特徴とする請求項４記載の音声認識装置。
前記音声認識部で認識対象となる予め定められた単語列のカテゴリと、前記取得した音声の終端検出の閾値とに基づいて前記取得音声時間長を決定することを特徴とする請求項４記載の音声認識装置。