JP5583301B1 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP5583301B1
JP5583301B1 JP2014509532A JP2014509532A JP5583301B1 JP 5583301 B1 JP5583301 B1 JP 5583301B1 JP 2014509532 A JP2014509532 A JP 2014509532A JP 2014509532 A JP2014509532 A JP 2014509532A JP 5583301 B1 JP5583301 B1 JP 5583301B1
Authority
JP
Japan
Prior art keywords
recognition
recognition result
speech
candidate
time length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014509532A
Other languages
English (en)
Other versions
JPWO2015079568A1 (ja
Inventor
慶太 山室
洋平 岡登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5583301B1 publication Critical patent/JP5583301B1/ja
Publication of JPWO2015079568A1 publication Critical patent/JPWO2015079568A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

予め定められた単語列を認識可能な第1の認識エンジンと前記単語列の一部を認識可能な第2の認識エンジンからなる音声認識部2と、第1および第2の認識エンジン2a,2bの音声認識での認識結果である、第1および第2の認識結果候補の時間長の差に基づいて、第1および第2認識結果候補の中から、一または複数の確からしい認識結果候補を採用する判定部4を備える。

Description

この発明は、複数の音声認識結果から確からしい認識結果候補を採用して出力する音声認識装置に関する。
従来、認識可能な語彙の分野、環境が異なる複数の認識エンジンを併用して音声認識を行い、得られた認識結果の中から確からしい認識結果を取得する音声認識装置が提案されている(例えば、特許文献1参照)。
特開2007−33671号公報
従来は、複数の認識エンジンで得られた認識結果から最終的な認識結果を選択する際、複数の認識エンジンのそれぞれの基準で決定された認識結果の信頼度を比較して最も信頼度の高い認識結果を選択するか、または複数の認識エンジンの全ての認識結果を信頼度が高い順にソートして信頼度が高い認識結果を選択していた。
このため、ある認識エンジンで認識可能な単語または単語列(以下、単語列と記載し、単語列には1つの単語も含むとする)の一部分と他の認識エンジンで認識可能な単語列が一致する場合、ある認識エンジンで認識されるべき結果が他の認識エンジンの結果として誤認識される可能性があるという課題があった。
例えば、第1の認識エンジンと第1の認識エンジンよりも短い単語列を認識可能な第2の認識エンジンとを利用して、“California Los Angeles”と発話された場合を考える。この場合、第1の認識エンジンの認識結果が確からしいとして選択されるべきであるが、“California”という単語は、第2の認識エンジンでも認識可能である。すなわち、発話音声には“California”という第1および第2の認識エンジンで認識可能な単語が含まれているため、第1および第2の認識エンジンのそれぞれの基準で決定された認識結果の信頼度によっては、第2の認識エンジンの結果が最終的な認識結果として誤って選択される可能性がある。
この発明は、上記のような課題を解決するためになされたもので、認識エンジンの音声認識結果から確からしい認識結果の候補を精度よく採用することができる音声認識装置を得ることを目的とする。
この発明に係る音声認識装置は、発話された音声を入力する音声入力部と、音声入力部から取得した音声について、予め定められた単語列を認識可能な第1の認識エンジンと単語列の一部を認識可能な第2の認識エンジンとを有する音声認識部と、第1の認識エンジンで認識した第1の認識結果候補が有する時間長から第2の認識エンジンで認識した第2の認識結果候補が有する時間長を差し引いた時間長が予め定めた第1の閾値以上である場合には、第2の認識結果候補を棄却し、第1の認識結果候補を採用する判定部とを備える。
この発明によれば、認識エンジンの音声認識結果から確からしい認識結果の候補を精度よく採用することができるという効果がある。
この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。 認識エンジンの構成を示すブロック図である。 音声始終端検出の一例を示す図である。 第1および第2の認識エンジンで認識可能な単語列を例示する図である。 実施の形態1に係る音声認識装置の動作を示すフローチャートである。 第1および第2の認識エンジンの出力情報を例示する図である。 この発明の実施の形態2に係る音声認識装置の構成を示すブロック図である。 実施の形態2に係る音声認識装置の動作を示すフローチャートである。 認識結果候補の時間長と取得音声時間長とを比較した結果を例示する図である。 認識対象の単語列のカテゴリに応じた設定値を用いて発話時間の基準値を決定する処理を示す図である。
以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。図1に示す音声認識装置は、例えば、車両内に搭載または持ち込みされたナビゲーション装置やオーディオ装置の入力手段として利用される装置である。その構成として、音声入力部1、音声認識部2、第1および第2の認識候補取得部3a,3b、判定部4および統合部5を備える。
音声入力部1は、発話された音声を集音して入力信号を取得する機能を有し、例えば、マイクロフォンなどから入力された音声信号をデジタル信号に変換する。
音声認識部2は、音声入力部1から出力された同一の音声信号をそれぞれ音声認識する第1および第2の認識エンジン2a,2bを備える。
第1および第2の認識エンジン2a,2bは、入力された音声信号に対して音声認識処理を実施して、認識結果の文字列、認識結果の信頼度および認識結果の時間長を出力する。ここで、第1の認識エンジンは、第2の認識エンジンで認識可能な単語列の一部を含む単語列を、少なくとも一つ以上は認識可能であるものとする。
なお、実施の形態1においては、第2の認識エンジン2bで認識可能な単語列を構成する単語数が、第1の認識エンジン2aで認識可能な単語列を構成する単語数以下であるものとして説明する。
具体的には、第1の認識エンジン2aはアメリカの州名と市名を組み合わせた単語列を認識可能であり、第2の認識エンジン2bは州名を認識可能であるとする。
また、この実施の形態1において、音声認識部2は2つの認識エンジンを備えるものとしているが、他の認識エンジンで認識可能な単語列の一部を含む単語列を少なくとも一つ以上は認識可能である認識エンジンを備えるならば、3つ以上の認識エンジンを備えていてもよい(実施の形態2においても同様である)。
第1および第2の認識候補取得部3a,3bは、音声認識部2の第1および第2の認識エンジン2a,2bと接続している。第1および第2の認識候補取得部3a,3bは、第1および第2の認識エンジン2a,2bの音声認識処理結果から、認識結果の文字列を認識結果候補として取得し、さらに認識結果候補の信頼度およびこの認識結果候補の時間長を取得する。
なお、以降の説明において、第1の認識候補取得部3aにより第1の認識エンジン2aから取得された認識結果候補を“第1の認識結果候補”と記載する。
また、第2の認識候補取得部3bにより第2の認識エンジン2bから取得された認識結果候補を“第2の認識結果候補”と記載する。
判定部4は、第1の認識結果候補の時間長と第2の認識結果候補の時間長との差に基づいて、認識結果候補の正誤判定を実施する。正誤判定において、判定部4は、誤認識と判定された認識結果候補を棄却し、残りの認識結果候補を確からしい認識結果候補として採用する。
例えば、判定部4は、第1の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と、第2の認識結果候補の全ての認識結果候補の時間長の差を算出する。そして、当該時間長の差が、予め定めた第1の閾値以上(または、閾値より大きい)である第2の認識結果候補を棄却する。そして、第1の認識結果候補と棄却されなかった第2の認識結果候補を採用し認識結果統合部5に出力する。
他の方法として、例えば、第1の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と、第2の認識結果候補であって、最も信頼度が高い認識結果候補の時間長との差を算出する。そして、当該時間長の差が予め定めた第1の閾値以上(または、閾値より大きい)である場合は、第2の認識結果候補を全て棄却し、第1の認識結果候補を採用する。そして、当該採用した認識結果候補を統合部5に出力する。
統合部5は、第1および第2の認識候補取得部3a,3bが取得したそれぞれの認識結果候補のうち、判定部4が確からしいとして採用した認識結果候補を統合して一つの認識結果候補群とし、認識候補群における認識結果候補を信頼度の高い順にソートする。
なお、統合部5は、判定部4によって第2の認識結果候補を全て棄却できなかった場合は、第1の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と第2の認識結果候補のそれぞれの認識結果候補の時間長の差に基づいて、第2の認識結果候補のそれぞれの認識結果候補の信頼度を補正し、当該補正後の信頼度に基づいてソートするとしてもよい。
図2は、認識エンジンの構成を示すブロック図である。第1および第2の認識エンジン2a,2bは、図2に示すように、検出部20、音声信号処理部21、照合部22および音声認識辞書23を備えて構成される。
検出部20は、音声入力部1から出力された音声信号を入力して、この音声信号の発話の始端時間と終端時間を検出する。検出部20によって検出された始端時間と終端時間とから判断された音声信号の発話時間(有声区間)部分は、音声信号処理部21に出力される。
図3は、音声始終端検出の一例を示す図であって、入力された音声信号全体から発話の始端時間と終端時間を検出して音声の無声区間と有声区間(発話時間)を分類している。図3に示すように、発話の始終端は、音声信号の振幅サイズによって決定される。
例えば、音声信号の音声波形において、時間軸に沿って最初に振幅基準値を超える振幅が検出された時点を始端時間に決定する。また、時間軸に沿って最後に振幅基準値を超える振幅が検出された時点を終端時間に決定する。
音声信号処理部21は、検出部20で検出された音声信号の有声区間部分を入力して、この有声区間部分に対して高速フーリエ変換、フィルタ分析、線形予測分析、ケプストラム分析などの信号処理を実施し、音声特徴パラメータを抽出する。抽出された音声特徴パラメータは、照合部22へ出力される。
照合部22は、音声信号処理部21で抽出された音声信号の音声特徴パラメータと音声認識辞書23に格納される複数の音声特徴パラメータとを照合して、音声認識辞書23に登録されている音声特徴パラメータとの類似度が高い音声特徴パラメータが得られた認識結果を出力する。このとき、照合部22は、類似度の高さを正規化した値を認識結果の信頼度として出力する。さらに、照合処理の際に算出された認識結果の時間長を出力する。
音声認識辞書23は、認識対象となる一つ以上の単語列がその音声特徴パラメータとともに登録された辞書データである。実施の形態1において、第1および第2の認識エンジン2a,2bは、異なる長さの単語列が登録された音声認識辞書23を有している。
第1の認識エンジン2aの音声認識辞書23には、第2の認識エンジン2bの音声認識辞書23に登録されている単語列の一部を含む単語列が、少なくとも一つ以上登録されている。
音声認識辞書23に登録される単語列は音声認識装置の認識モードに応じて変化する。例えば、住所の認識モードが設定された場合、第1の認識エンジン2aの音声認識辞書23には、“California Los Angeles”、“California San Diego”といった住所のカテゴリに属する単語列が登録される。
一方、第2の認識エンジン2bは、第1の認識エンジン2aよりも短い単語列を認識する認識エンジンであるので、“California”といった単語が、第2の認識エンジン2bの音声認識辞書23に登録される。
このように、図4では、第2の認識エンジン2bの音声認識辞書23に登録されている“California”の単語は、第1の認識エンジン2aの音声認識辞書23に登録されている“California Los Angeles”、“California San Diego”などの単語列の一部分に重複している。
なお、音声認識装置の認識モードである場合に、住所のカテゴリに属する単語列を音声認識辞書23に登録する例を示したが、名前の認識モードを設定することにより、第1および第2の認識エンジン2a,2bの音声認識辞書23には、名前のカテゴリに属する単語列が登録される。すなわち、モードを変更することにより、住所や名前以外のカテゴリに属する単語列も音声認識辞書23に登録することができる。
なお、音声入力部1、音声認識部2、第1および第2の認識候補取得部3a,3b、判定部4および統合部5は、この発明に特有な処理が記述されたプログラムをマイクロコンピュータが実行することにより、ハードウェアとソフトウェアとが協働した具体的な手段として実現することができる。
次に動作について説明する。
図5は、実施の形態1に係る音声認識装置の動作を示すフローチャートである。
最初に、上述のように異なる音声認識辞書23を有する第1の認識エンジン2aおよび第2の認識エンジン2bが、音声入力部1から入力された音声信号に対して音声認識処理を実施する(ステップST1)。このとき、図4で示すように、第1の認識エンジンは、第2の認識エンジンで認識可能な単語列の一部を含む単語列を、少なくとも一つ以上は認識可能であるものとする。
次に、第1および第2の認識候補取得部3a,3bが、第1および第2の認識エンジン2a,2bから、認識結果候補の文字列、認識結果候補の信頼度および認識結果候補の時間長を取得する(ステップST2)。第1および第2の認識エンジン2a,2bの音声認識処理結果は、第1および第2の認識候補取得部3a,3bから判定部4へ出力される。
判定部4は、第1の認識結果候補のうち信頼度が最も高い認識結果候補の時間長と、第2の認識結果候補のうち信頼度が最も高い認識結果候補の時間長との差分を算出する。このように第1および第2の認識エンジン2a,2bの音声認識でそれぞれ検出された認識結果候補の時間長の差と認識結果候補の信頼度とに基づいて認識結果の確からしさを評価することで、より精度よく確からしい認識結果候補を選別することが可能となる。
次に、判定部4は、第1の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と、第2の認識結果候補であって、最も信頼度が高い認識結果候補の時間長との差分が予め定めた第1の閾値以上であるか否かを判定する(ステップST3)。
ここで、第1の閾値は、例えば、判定部4が、第1の認識エンジン2aの音声認識辞書23と第2の認識エンジン2bの音声認識辞書23とに登録されている単語列の時間長の差分を予め計算して、それらに平均などの統計的な処理を施して得た値とする。
この場合、第1の閾値は、第1の認識エンジン2aの音声認識辞書23と第2の認識エンジン2bの音声認識辞書23に登録されている単語列のカテゴリに応じて可変的に設定される。
すなわち、音声認識辞書23は、図4を用いて説明したように、音声認識装置の認識モードに対応したカテゴリに属する単語列が登録されるので、判定部4が、認識モードに応じて上記第1の閾値を変更することになる。このようにすることで、判定部4は、音声認識装置の認識モードも考慮してより精度よく認識結果候補を棄却することが可能となる。
時間長の差分が第1の閾値以上である場合(ステップST3;YES)、判定部4は、第2の認識結果候補を棄却する(ステップST4)。このように、認識可能な単語列の長さが異なる認識エンジンを利用する場合において、認識結果候補の時間長の差分に基づく正誤判定を実施することによって誤認識された認識結果候補を精度よく棄却することが可能である。
一方、認識結果候補の時間長の差分が第1の閾値未満であれば(ステップST3;NO)、第1および第2の認識結果候補が判定部4から統合部5へ出力される。統合部5は、判定部4から第1および第2の認識結果候補を取得すると、これらを1つの認識結果候補群に統合する(ステップST5)。
統合部5は、第1および第2の認識結果候補を統合するか、または、ステップST4の処理で第2の認識候補が棄却されて残りの第1の認識結果候補が入力された場合、これらの認識結果候補を信頼度が高い順にソートする(ステップST6)。このようにすることで、確からしい認識結果候補を選別した結果を信頼度に応じてユーザに提示することができる。
なお、認識結果候補の時間長の差分が第1の閾値未満(ステップST3;NO)であり、判定部4が、第2の認識結果候補を棄却できなかった場合は、ステップST3で算出した認識結果候補の時間長の差分に基づいて、第2の認識結果候補のそれぞれの認識結果候補の信頼度を補正し、当該補正後の信頼度に基づいてソートするとしてもよい。
また、上位から予め定めた順位までを最終的な認識結果候補として出力してもよい。
次に具体例を挙げて説明する。
“California Los Angeles”という音声が発話された場合に、音声入力部1は、発話音声を集音して“California Los Angeles”という音声信号を第1および第2の認識エンジン2a,2bに出力する。
第1および第2の認識エンジン2a,2bは、“California Los Angeles”の音声信号について音声認識処理を実施する。このとき、第1および第2の認識エンジン2a,2bの音声認識辞書23には、図4に示す単語列が登録されているものとする。
次に、第1および第2の認識候補取得部3a,3bは、第1および第2の認識エンジン2a,2bから、認識結果候補の文字列、認識結果候補の信頼度、および認識結果候補の時間長を取得し判定部4に出力する。第1および第2の認識候補取得部3a,3bにより取得された、第1および第2の認識結果候補の一例を図6に示す。
判定部4は、第1の認識結果候補であって最も信頼度が高い“California Los Angeles”の時間長である4000msから、第2の認識結果候補であって最も信頼度が高い“California”の時間長である2500msを差し引いた差分1500msを算出する。
この後、判定部4は、時間長の差分1500msと予め定めた第1の閾値とを比較する。なお、第1の閾値は各認識エンジンの音声認識辞書23に登録されている単語列の時間長の差分を考慮して、1000msを設定している。
それぞれの認識結果候補の時間長の差分である1500msは第1の閾値1000ms以上であるため、判定部4は、第2の認識結果候補を全て棄却する。
例えば、第1および第2の認識結果候補のうち、信頼度が最も高い候補は、第2の認識結果候補で信頼度が6000の“California”である。このため、従来では、信頼度を選択基準としており、“California Los Angeles”という音声が発話されたにもかかわらず、第2の認識エンジン2bの音声認識で得られた“California”が最終的な認識結果として出力される可能性がある。
これに対して、この発明では、認識結果候補の時間長の差分に基づき“California”が棄却されるため、正しい認識結果である“California Los Angeles”を的確に最終的な認識結果として採用することができる。
最後に、統合部5は、第1の認識結果候補を信頼度の高い順にソートする。
ここで、それぞれの認識結果候補の時間長の差分が第1の閾値より小さく、第2の認識結果候補が棄却されなかった場合、認識結果候補の時間長の差分に基づいて第2の認識結果候補のそれぞれの認識結果候補の信頼度を補正し、当該補正後の信頼度に基づいてソートするとしてもよい。
例えば、図6に示した第2の認識結果候補を対象として信頼度を補正する場合、まず、全ての第2認識結果候補の時間長と第1の認識結果候補のうち最も信頼度が高い認識結果候補の時間長との差分を算出する。次に、全ての認識結果候補の時間長の差分から認識結果候補ごとに重みを計算し、各認識結果候補の信頼度にその重みを掛け合わすことで信頼度を補正する。このとき、例えば、差分が“0”の場合は重みを“1”とし、差分が大きくなるにつれて重みを0に近づけていくことで、信頼度を引き下げる方向に補正する。
以上のように、この実施の形態1によれば、予め定められた単語列を認識可能な第1の認識エンジンと前記単語列の一部を認識可能な第2の認識エンジンからなる音声認識部2と、第1および第2の認識エンジン2a,2bの音声認識での認識結果である、第1および第2の認識結果候補の時間長の差に基づいて、第1および第2認識結果候補の中から、一または複数の確からしい認識結果候補を採用する判定部4を備える。
このように構成することで、第1および第2の認識エンジン2a,2bでの認識結果である第1および第2の認識結果候補の中にある、明らかに誤った時間長を持つ認識結果候補を判別することができ、これ以外の認識結果候補を確からしい候補として採用することができる。すなわち、第1および第2の認識エンジン2a,2bでの認識結果である第1および第2の認識結果候補から、確からしい認識結果候補を精度よく採用することができる。
また、この実施の形態1によれば、音声認識部2が、予め定められた単語列を認識可能な第1の認識エンジンと前記単語列の一部を認識可能な第2の認識エンジンとを有し、判定部4が、第1および第2の認識エンジン2a,2bでの認識である第1および第2の認識結果候補の時間長の差が予め定めた第1の閾値以上である場合に、第2の認識結果候補を棄却し、第1の認識結果候補を確からしい候補として採用する。このように認識結果候補の時間長の差分に基づく正誤判定を実施することによって、誤認識された認識結果候補を精度よく棄却することが可能である。
さらに、この実施の形態1によれば、判定部4が、第1および第2の認識エンジン2a,2bでの認識結果である、第1および第2の認識結果候補の時間長の差と認識結果候補の信頼度とに基づいて認識結果候補の確からしさを評価する。このようにすることで、より精度よく確からしい認識結果候補を選別することが可能となる。
さらに、この実施の形態1によれば、判定部4が、認識対象とする単語列のカテゴリに応じて第1の閾値を変更する。このようにすることで、認識モードも考慮してより精度よく認識結果候補を選別することが可能となる。
実施の形態2.
図7は、この発明の実施の形態2に係る音声認識装置の構成を示すブロック図である。図7に示す音声認識装置は、実施の形態1と同様に、例えば車両内に搭載または持ち込みされたナビゲーション装置やオーディオ装置の入力手段として利用される装置である。
その構成として音声入力部1、音声認識部2、第1および第2の認識候補取得部3a,3b、判定部4A、統合部5および検出部6を備える。
なお、図7において、図1と同一構成要素には同一符号を付して説明を省略する。
上記実施の形態1では、2つ以上の認識エンジンの音声認識での認識結果である第1および第2の認識結果候補の時間長を比較して認識結果候補の正誤を判定した。
これに対して、実施の形態2は、認識エンジンとは別に検出部6を備えており、判定部4Aは、検出部6が検出した、音声入力部1が取得した音声の発話時間長(以下、取得音声時間長と記載する)を正誤判定の基準値として使用する。
検出部6は、判定部4Aで、各認識結果候補の時間長と比較される基準値である取得音声時間長を決定する。例えば、検出部6は、認識エンジンに含まれる検出部20と同様に、音声入力部1で入力された音声信号から取得音声時間長を検出して判定部4Aに出力する。
なお、第1および第2の認識エンジン2a,2bでは、認識エンジンごとに異なる音声認識処理を行ってもよいため、認識エンジンごとに異なるアルゴリズムで発話時間情報が算出されることがある。
また、検出部6から出力される取得音声時間長は、異なるアルゴリズムを使用する認識エンジンを比較する基準値となる。異なる音声認識アルゴリズムを使用する認識エンジンとしては、例えばNuance社のVoCon、Google社のGoogle音声検索、名古屋工業大学と京都大学のJuliusなどが挙げられる。なお、これらの認識エンジンの名称は、それぞれ商標登録されている。
なお、音声入力部1、音声認識部2、第1および第2の認識候補取得部3a,3b、判定部4A、統合部5および検出部6は、この発明に特有な処理が記述されたプログラムをマイクロコンピュータが実行することで、ハードウェアとソフトウェアとが協働した具体的な手段として実現することができる。
次に動作について説明する。
図8は、実施の形態2に係る音声認識装置の動作を示すフローチャートである。
最初に、第1の認識エンジン2aおよび第2の認識エンジン2bが、音声入力部1から入力された音声信号に対して音声認識処理を実施する。このとき、検出部6が、音声入力部1で入力された音声信号から取得音声時間長を検出する。
第1および第2の認識候補取得部3a,3bが、第1および第2の認識エンジン2a,2bから、認識結果候補の文字列、認識結果候補の信頼度、および認識結果候補の時間長を取得する。第1および第2の認識エンジン2a,2bの音声認識処理結果は、第1および第2の認識候補取得部3a,3bから判定部4へ出力される。また、検出部6が検出した取得音声時間長は、基準値として判定部4Aへ出力される。
判定部4Aは、第1および第2の認識候補取得部3a,3bにより取得された認識結果候補の文字列、認識結果候補の信頼度および認識結果候補の時間長、および、検出部6が検出した基準値となる取得音声時間長を取得する(ステップST1a)。
次いで、判定部4Aは、第1および第2の認識候補取得部3a,3bから取得した全ての認識結果候補の時間長と基準値とする取得音声時間長との差分を計算し、この差分の絶対値を求める。
続いて、判定部4Aは、上記差分の絶対値と予め定めた第2の閾値とを比較して、差分の絶対値が第2の閾値以上であるか否かを判定する(ステップST2a)。
上記差分の絶対値が第2の閾値以上である場合(ステップST2a;YES)、判定部4Aは、上記差分の絶対値が得られた認識結果候補を棄却する(ステップST3a)。この後、ステップST2aの処理に戻り、全ての認識結果候補について完了するまで正誤判定が繰り返される。
次に、統合部5は、第1および第2の認識結果候補のうち、判定部4Aによって棄却されなかった残りの認識結果候補を1つの認識結果候補群に統合する(ステップST4a)。
最後に、統合部5は、認識結果候補群における認識結果候補を信頼度の高い順にソートする(ステップST5a)。ここで、統合部5は、認識結果候補群におけるそれぞれの認識結果候補に対して、ステップST2aで計算した基準値とする取得音声時間長と認識結果候補の時間長の差分に基づいて、認識結果候補の信頼度を引き下げる補正を行う。
すなわち、棄却できなかった第1の認識結果候補がそれぞれ有する時間長と取得音声時間長との差に基づいて棄却できなかった第1の認識結果候補の信頼度を引き下げる方向にそれぞれ補正するとともに、棄却できなかった第2の認識結果候補がそれぞれ有する時間長と取得音声時間長との差に基づいて棄却できなかった第2の認識結果候補の信頼度を引き下げる方向にそれぞれ補正する。そして、当該補正後の信頼度に基づいてソートするとしてもよい。また、上位から予め定めた順位までを最終的な認識結果候補として出力してもよい。
次に具体例を挙げて説明する。
図9は認識結果候補の時間長と取得音声時間長とを比較した結果を例示する図であり、6つの認識結果候補に対して第2の閾値による正誤判定を実施している。図9において、取得音声時間長として4100msが設定され、正誤判定の第2の閾値として800msが設定されているものとする。
例えば、認識結果候補“California Los Angeles”の場合、取得音声時間長との差分の絶対値を算出すると、100となり、第2の閾値800よりも小さいため、この認識結果候補は、確からしい認識結果候補として採用される。
一方、認識結果候補“California San Jose”の場合は、取得音声時間長との差分の絶対値が900となり、第2の閾値800よりも大きいため、この認識結果候補は棄却される。
判定部4Aは、全ての認識結果候補に対して上記と同様の処理を実施する。
また、基準値となる取得音声時間長は、音声認識装置の認識モード、すなわち認識対象とする単語列のカテゴリに応じて検出部6によって決定される。
図10は、認識対象とする単語列のカテゴリに応じた設定値を用いて基準値となる取得音声時間長を決定する処理を示す図である。検出部6は、入力された音声信号の音声波形において、時間軸に沿って最初に振幅基準値を超える振幅が検出された時点を始端時間に決定する。
また、時間軸に沿って、振幅基準値未満の振幅となりその後に振幅基準値を超える振幅が検出された期間を終端候補とする。
図10では、発話の終端候補が2箇所存在する場合を示している。候補(1)は無声区間が0.7sであり、候補(2)は無声区間が3.0sである。
また、検出部6には、発話の終端時間を検出するため、認識対象とする単語列のカテゴリに応じた第3の閾値が設定されている。
すなわち、終端候補の無声区間が第3の閾値以上継続した場合、検出部6は、この候補を入力された音声信号の終端位置として検出する。
図10の場合は、住所の認識モード、すなわち認識対象とする単語列のカテゴリが“住所”の場合、第3の閾値が1.0s以上に設定され、電話番号の認識モード、すなわち認識対象とする単語列のカテゴリが“電話番号”では閾値が0.5s以上に設定される。
住所の認識モードが設定されている場合、検出部6は、無声区間が1.0s以上継続する候補(2)を発話の終端として検出する。また、電話番号の認識モードが設定されている場合、検出部6は、無声区間が0.5s以上継続する候補(1)を発話の終端として検出する。なお、終端検出のための第3の閾値は、認識対象とする単語列のカテゴリ応じて変更してもよい。
検出部6は、上述のように認識対象とする単語列のカテゴリに応じた第3の閾値で発話の終端を検出して基準値となる取得音声時間長を検出する。すなわち、検出部6は、認識対象の単語列のカテゴリと入力音声の音声波形に基づいて基準値となる取得音声時間長を決定している。
ユーザは音声認識装置の認識モードに応じた発話を行うため、認識対象とする単語列のカテゴリと入力音声の音声波形に基づいて基準値を決定することで、実際の入力音声に対応した基準値を検出することができる。これにより、確からしい認識候補を精度よく採用することが可能である。
なお、図7では、音声認識部2が、第1および第2の認識エンジン2a,2bを備える場合を示したが、音声認識部2は2つ以上の認識エンジンを備えていればよい。
以上のように、この実施の形態2によれば、入力音声を音声認識する第1および第2の認識エンジン2a,2bからなる音声認識部2と、第1および第2の認識エンジン2a,2bの認識結果である認識結果候補の時間長と認識エンジンが有する検出部20とは別の検出部6により検出された取得音声時間長との差に基づいて、第1および第2の認識エンジン2a,2bでの認識結果である認識結果候補の中から、確からしい認識結果候補を採用する判定部4Aとを備える。
このように構成することで、上記実施の形態1と同様に、第1および第2の認識エンジン2a,2bでの認識結果である認識結果候補の中にある、明らかに誤った時間長を持つ認識結果候補を判別することができ、これ以外の認識結果候補を確からしい候補として採用することができる。すなわち、第1および第2の認識エンジン2a,2bでの認識結果である認識結果候補から、確からしい認識結果候補を精度よく採用することができる。
また、この実施の形態2によれば、判定部4Aが、第1および第2の認識エンジン2a,2bの音声認識でそれぞれ検出された認識結果候補の時間長と取得音声時間長との差が予め定めた第2の閾値以上になる認識結果の候補を棄却し、残りを確からしい認識結果候補として採用する。
このように、認識結果候補の時間長と取得音声時間長との差に基づく正誤判定を実施することによって、誤認識された認識結果候補を精度よく棄却することが可能である。
さらに、この実施の形態2によれば、認識対象の単語列のカテゴリと入力音声の音声波形に基づいて取得音声時間長を決定する検出部6を備える。
このように構成することで、実際の入力音声に対応した基準値を検出することができる。これにより、確からしい認識結果候補を精度よく採用することが可能である。
なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明に係る音声認識装置は、認識エンジンの音声認識結果から確からしい認識結果の候補を精度よく採用することができるので、例えば車載ナビゲーション装置などの入力手段に好適である。
1 音声入力部、2 音声認識部、2a 第1の認識エンジン、2b 第2の認識エンジン、3a 第1の認識候補取得部、3b 第2の認識候補取得部、4 判定部、5 統合部、6,20 検出部、21 音声信号処理部、22 照合部、23 音声認識辞書。

Claims (6)

  1. 発話された音声を入力する音声入力部と、
    前記音声入力部から取得した音声について、予め定められた単語列を認識可能な第1の認識エンジンと前記単語列の一部を認識可能な第2の認識エンジンとを有する音声認識部と、
    前記第1の認識エンジンで認識した第1の認識結果候補が有する時間長から前記第2の認識エンジンで認識した第2の認識結果候補が有する時間長を差し引いた時間長が予め定めた第1の閾値以上である場合には、前記第2の認識結果候補を棄却し、前記第1の認識結果候補を採用する判定部とを備える音声認識装置。
  2. 前記差し引いた時間長に基づいて、前記判定部によって棄却されなかった前記第2の認識結果候補の信頼度を引き下げる方向に補正する統合部をさらに備えることを特徴とする請求項記載の音声認識装置。
  3. 前記判定部は、認識対象とする単語列のカテゴリに応じて前記予め定めた第1の閾値を変更することを特徴とする請求項記載の音声認識装置。
  4. 発話された音声を入力する音声入力部と、
    前記音声入力部から取得した音声をそれぞれ認識する複数の認識エンジンからなる音声認識部と、
    前記取得した音声の始端から終端までの取得音声時間長を検出する検出部と、
    前記複数の認識エンジンで認識した認識結果候補がそれぞれ有する時間長と前記取得音声時間長との差が予め定めた第2の閾値以上となる認識結果候補を棄却する判定部とを備える音声認識装置。
  5. 前記判定部によって棄却されなかった認識結果候補がそれぞれ有する時間長と前記取得音声時間長との差に基づいて、前記棄却されなかった認識結果候補の信頼度を引き下げる方向にそれぞれ補正する統合部をさらに備えることを特徴とする請求項記載の音声認識装置。
  6. 前記音声認識部で認識対象となる予め定められた単語列のカテゴリと、前記取得した音声の終端検出の閾値とに基づいて前記取得音声時間長を決定することを特徴とする請求項記載の音声認識装置。
JP2014509532A 2013-11-29 2013-11-29 音声認識装置 Active JP5583301B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/082227 WO2015079568A1 (ja) 2013-11-29 2013-11-29 音声認識装置

Publications (2)

Publication Number Publication Date
JP5583301B1 true JP5583301B1 (ja) 2014-09-03
JPWO2015079568A1 JPWO2015079568A1 (ja) 2017-03-16

Family

ID=51617794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014509532A Active JP5583301B1 (ja) 2013-11-29 2013-11-29 音声認識装置

Country Status (5)

Country Link
US (1) US9424839B2 (ja)
JP (1) JP5583301B1 (ja)
CN (1) CN104823235B (ja)
DE (1) DE112013001772B4 (ja)
WO (1) WO2015079568A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US20180366123A1 (en) * 2015-12-01 2018-12-20 Nuance Communications, Inc. Representing Results From Various Speech Services as a Unified Conceptual Knowledge Base
US10062385B2 (en) * 2016-09-30 2018-08-28 International Business Machines Corporation Automatic speech-to-text engine selection
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
CN106601257B (zh) * 2016-12-31 2020-05-26 联想(北京)有限公司 一种声音识别方法、设备和第一电子设备
CN110299136A (zh) * 2018-03-22 2019-10-01 上海擎感智能科技有限公司 一种用于语音识别的处理方法及其系统
TWI682386B (zh) * 2018-05-09 2020-01-11 廣達電腦股份有限公司 整合式語音辨識系統及方法
JP7121461B2 (ja) * 2018-09-27 2022-08-18 株式会社オプティム コンピュータシステム、音声認識方法及びプログラム
US11150866B2 (en) * 2018-11-13 2021-10-19 Synervoz Communications Inc. Systems and methods for contextual audio detection and communication mode transactions
KR102577589B1 (ko) * 2019-10-22 2023-09-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN112435671B (zh) * 2020-11-11 2021-06-29 深圳市小顺智控科技有限公司 汉语精准识别的智能化语音控制方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772899A (ja) * 1993-09-01 1995-03-17 Matsushita Electric Ind Co Ltd 音声認識装置
JPH09292899A (ja) * 1996-04-26 1997-11-11 Nec Corp 音声認識装置
JPH11311994A (ja) * 1998-04-30 1999-11-09 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2007033671A (ja) * 2005-07-25 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
TW323364B (ja) * 1993-11-24 1997-12-21 At & T Corp
DE69937823T2 (de) * 1999-07-08 2008-12-24 Sony Deutschland Gmbh Verfahren zum Ermitteln eines Zuverlässigkeitsmasses für die Spracherkennung
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
WO2007097390A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
JP5530729B2 (ja) * 2009-01-23 2014-06-25 本田技研工業株式会社 音声理解装置
EP2221806B1 (en) * 2009-02-19 2013-07-17 Nuance Communications, Inc. Speech recognition of a list entry
CN102013253B (zh) * 2009-09-07 2012-06-06 株式会社东芝 基于语音单元语速的差异的语音识别方法及语音识别系统
JP5668553B2 (ja) * 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
US20150228274A1 (en) * 2012-10-26 2015-08-13 Nokia Technologies Oy Multi-Device Speech Recognition
CN103065627B (zh) * 2012-12-17 2015-07-29 中南大学 基于dtw与hmm证据融合的特种车鸣笛声识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772899A (ja) * 1993-09-01 1995-03-17 Matsushita Electric Ind Co Ltd 音声認識装置
JPH09292899A (ja) * 1996-04-26 1997-11-11 Nec Corp 音声認識装置
JPH11311994A (ja) * 1998-04-30 1999-11-09 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2007033671A (ja) * 2005-07-25 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識プログラム

Also Published As

Publication number Publication date
JPWO2015079568A1 (ja) 2017-03-16
US9424839B2 (en) 2016-08-23
WO2015079568A1 (ja) 2015-06-04
US20150348539A1 (en) 2015-12-03
DE112013001772T5 (de) 2015-08-06
DE112013001772B4 (de) 2020-02-13
CN104823235A (zh) 2015-08-05
CN104823235B (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
JP5583301B1 (ja) 音声認識装置
EP1936606B1 (en) Multi-stage speech recognition
US10074363B2 (en) Method and apparatus for keyword speech recognition
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US20160336007A1 (en) Speech search device and speech search method
US20140207457A1 (en) False alarm reduction in speech recognition systems using contextual information
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
EP1734509A1 (en) Method and system for speech recognition
US11132998B2 (en) Voice recognition device and voice recognition method
US20180075843A1 (en) Voice recognition device and voice recognition method
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
JPH03167600A (ja) 音声認識装置
KR100930587B1 (ko) 혼동 행렬 기반 발화 검증 방법 및 장치
Mengusoglu et al. Use of acoustic prior information for confidence measure in ASR applications.
EP1067512A1 (en) Method for determining a confidence measure for speech recognition
JP2002516419A (ja) 発声言語における少なくとも1つのキーワードを計算器により認識する方法および認識装置
US20210398521A1 (en) Method and device for providing voice recognition service
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
JP4281369B2 (ja) 音声認識装置
JP2001175276A (ja) 音声認識装置及び記録媒体
KR20000025827A (ko) 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법
Singh et al. Environment Detection Methods using Speech Signals-A Review
Silaghi et al. A new evaluation criteria for keyword spotting techniques and a new algorithm.
Kakutani et al. Detection and recognition of repaired speech on misrecognized utterances for speech input of car navigation system.

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140617

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140715

R150 Certificate of patent or registration of utility model

Ref document number: 5583301

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250