JP5996152B2 - 音声認識システム及び音声認識方法 - Google Patents

音声認識システム及び音声認識方法 Download PDF

Info

Publication number
JP5996152B2
JP5996152B2 JP2016532819A JP2016532819A JP5996152B2 JP 5996152 B2 JP5996152 B2 JP 5996152B2 JP 2016532819 A JP2016532819 A JP 2016532819A JP 2016532819 A JP2016532819 A JP 2016532819A JP 5996152 B2 JP5996152 B2 JP 5996152B2
Authority
JP
Japan
Prior art keywords
speech recognition
speech
recognition
unit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016532819A
Other languages
English (en)
Other versions
JPWO2016006038A1 (ja
Inventor
直哉 杉谷
直哉 杉谷
岡登 洋平
洋平 岡登
道弘 山崎
道弘 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5996152B2 publication Critical patent/JP5996152B2/ja
Publication of JPWO2016006038A1 publication Critical patent/JPWO2016006038A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Traffic Control Systems (AREA)

Description

本発明は、出力部から出力すべき音声認識を行う音声認識システム及び音声認識方法に関する。
従来の音声認識装置に用いる音声認識の技術は、認識率、演算量及びハードウェアリソースに応じて特化されている。例えば、車載の音声認識装置には、車載用に特化された音声認識(ローカル認識)が採用されており、高い耐騒音性及び応答性などを利点として有する。また、例えば、外部からネットワークを介して受信した音声データを認識するサーバの音声認識装置には、サーバ用に特化された音声認識(サーバ認識)が採用されており、多数または新しい語彙を含む辞典が使用可能であること、及び、高い演算量で音声認識が可能であることを利点として有する。
ここで、近年、用途の多様化などを理由に、ローカル認識とサーバ認識とを組み合わせて両者の利点を得る構成が検討されている。しかしながら、複数の音声認識部を用いる構成では、それぞれの音声認識エンジンの認識方式や、認識に用いる辞書(認識辞書)が異なるため、それぞれの認識結果を単純に比較することができないという問題がある。
具体的には、複数の音声認識部のそれぞれでは、音声認識の結果として、入力音声に対応する候補文字列(入力音声に一致する可能性が高い語彙などの文字列)が決定されるとともに、各候補文字列の正確性(各候補文字列が入力音声と一致する可能性)を示すスコア値が算出される。しかしながら、いくつかの候補文字列に対するスコア値が複数の音声認識部間で異なる場合には、複数の音声認識部間でスコア値を単純に比較することができないという問題がある。
そこで、この問題に対して様々な技術が提案されている。例えば、特許文献1には、複数の音声認識部にて異なるスコア値を統計的に処理して、複数の音声認識部間で比較可能なスコア値に正規化し、最もスコア値が高い候補文字列を、全体の認識結果として出力する技術が提案されている。
また、例えば、特許文献2には、複数の認識辞書を用いて第1の音声認識部にて入力音声を認識し、その結果であるスコア値が上位の候補文字列を二次判定辞書に格納し、当該二次判定辞書を用いて第2の音声認識部にて入力音声を認識させる技術が提案されている。
特開2005−003997号公報 特開2008−197356号公報
上述したように、特許文献1の技術では、複数の音声認識部間にて異なるスコア値を統計的に処理して、複数の音声認識部間で比較可能なスコア値に正規化する。しかしながら、例えば、複数の音声認識部間にて異なるスコア値が算出された候補文字列が多数ある場合には、適切に比較できる程度にまでスコア値を正規化しきれず、結果として妥当性の高い認識結果を得ることができないという問題がある。
また、特許文献2の技術では、一段階目の音声認識で十分正確な結果が得られている場合であっても、二段階目の音声認識も行うので、無駄な処理が生じているという問題がある。
そこで、本発明は、上記のような問題点を鑑みてなされたものであり、無駄な処理を抑制しつつ、妥当性の高い認識結果が得られる技術を提供することを目的とする。
本発明に係る音声認識システムは、出力部から出力すべき音声認識を行う音声認識システムであって、入力音声を認識することによって、当該入力音声に対応する候補文字列を含む認識結果を取得する第1、第2及び第3の音声認識部と、第1及び第2の音声認識部で取得された認識結果に基づいて、第3の音声認識部に入力音声を認識させると判定された場合に、第1及び第2の音声認識部の少なくとも一方で取得された候補文字列を含む辞書を用いて第3の音声認識部に入力音声を認識させ、それによって得られた認識結果を出力部に出力させる制御部とを備える。
また、本発明に係る音声認識方法は、出力部から出力すべき音声認識を行う音声認識方法であって、入力音声を認識することによって、当該入力音声に対応する候補文字列を含む認識結果を取得する第1、第2及び第3の音声認識部のうち、第1及び第2の音声認識部で取得された認識結果に基づいて、第3の音声認識部に入力音声を認識させると判定された場合に、第1及び第2の音声認識部の少なくとも一方で取得された候補文字列を含む辞書を用いて第3の音声認識部に入力音声を認識させ、それによって得られた認識結果を出力部に出力させる、音声認識方法。
本発明によれば、無駄な処理を抑制しつつ、妥当性の高い認識結果を得ることができる。
本発明の目的、特徴、態様および利点は、以下の詳細な説明と添付図面とによって、より明白となる。
実施の形態1に係る音声認識装置の主要な構成を示すブロック図である。 実施の形態1に係る入力音声の認識結果の一例を示す図である。 実施の形態1に係る音声認識装置の構成を示すブロック図である。 実施の形態1に係る指標の一例を説明するための図である。 実施の形態1に係る音声認識装置の動作を示すフローチャートである。 変形例1に係る指標の一例を説明するための図である。 変形例2に係る指標の一例を説明するための図である。 実施の形態2に係る音声認識装置の構成を示すブロック図である。 その他の変形例に係る音声認識システムの主要な構成を示すブロック図である。 その他の変形例に係る音声認識システムの主要な構成を示すブロック図である。
<実施の形態1>
以下の説明では、本発明に係る音声認識システムが、音声認識装置単体に適用された場合を例にして主に説明する。
図1は、本発明の実施の形態1に係る音声認識装置1の主要な構成を示すブロック図である。図1の音声認識装置1は、第1の音声認識部11と、第2の音声認識部12と、第3の音声認識部13と、制御部14と、認識結果出力部15とを備えている。
図1の音声認識装置1は、出力部である認識結果出力部15から出力すべき音声認識を行う。認識結果出力部15は、例えば音声認識によって得られた認識結果を他の装置に出力する出力端子であってもよいし、認識結果を表示する表示装置であってもよいし、認識結果を音声出力する音声出力装置であってもよい。なお、図1の構成では、認識結果出力部15は音声認識装置1に備えられているが、認識結果出力部15が表示装置または音声出力装置などである場合には、認識結果出力部15は音声認識装置1に備えられずに、他の装置に備えられてもよい。
第1〜第3の音声認識部11〜13は、例えば、複数の語彙、単語または文書を含む辞書、及び、プログラムを記憶した半導体メモリなどの記憶装置と、Central Processing Unit(以下「CPU」と記す)などのプロセッサが上記プログラムを実行することで実現される機能とから構成される。このように構成された第1〜第3の音声認識部11〜13は、入力音声を認識することによって、入力音声に対応する候補文字列(入力音声に一致する可能性が高い語彙、単語または文書などの文字列)を含む認識結果を取得(生成)する。
図2は、第1〜第3の音声認識部11〜13で取得される認識結果の一例を示す図である。本実施の形態1では、第1〜第3の音声認識部11〜13の認識結果は、候補文字列だけでなく、各候補文字列の正確性(各候補文字列が入力音声と一致する可能性)を示すスコア値をさらに含んでいる。以下、一例として、スコア値が大きいほど候補文字列の正確性が高いものとして説明する。
制御部14は、例えばCPUなどのプロセッサが記憶装置に記憶されたプログラムを実行することによって実現される。制御部14は、第1及び第2の音声認識部11,12で取得された認識結果に基づいて、第3の音声認識部13に入力音声を認識させると判定された場合に、第1及び第2の音声認識部11,12で取得された候補文字列を含む辞書を用いて第3の音声認識部13に入力音声を認識させ、それによって得られた認識結果を認識結果出力部15に出力させる。
第3の音声認識部13に音声認識させるか否かの判定は、音声認識装置1で行われてもよいし、第1及び第2の音声認識部11,12で取得された認識結果が、音声認識装置1の外部の装置に与えられることにより、当該装置で行われてもよい。
以上のような本実施の形態1に係る音声認識装置1によれば、第3の音声認識部13が、第1及び第2の音声認識部11,12で取得された候補文字列を含む辞書を用いて入力音声を認識する。これにより、例えば、第1及び第2の音声認識部11,12で取得された候補文字列のスコア値が比較できない程度にばらついていても、当該候補文字列に対して基準が統一されたスコア値を第3の音声認識部13で算出することができる。つまり、実質的に第1及び第2の音声認識部11,12のスコア値を正規化することができるので、その結果として、妥当性の高い認識結果を得ることができる。
また、制御部14は、第1及び第2の音声認識部11,12で取得された認識結果に基づいて、第3の音声認識部13に入力音声を認識させると判定された場合に、第3の音声認識部13に入力音声を認識させる。これにより、第1及び第2の音声認識部11,12の認識結果が完全に一致していないけれども似ている場合のように、第1及び第2の音声認識部11,12の認識結果のどちらが適切かを明確に判定することが困難である場合に、第3の音声認識部13に入力音声を認識させることができる。したがって、第3の音声認識部13の音声認識を必要以上に行わないようにすることができるので、無駄な処理を抑制することができる。
次に、音声認識装置1の主要な構成要素だけでなく、付加的な構成要素についても説明する。ただし、以下の内容は、上述の内容の一例を説明したものであり、本発明は以下の内容に限ったものではない。
図3は、本実施の形態1に係る音声認識装置1の主要な構成及び付加的な構成を示すブロック図である。
音声認識装置1は、音声入力部51と接続されている。音声入力部51は、例えばマイクなどから構成され、ユーザなどが発した音声を受け取る。音声入力部51は、受け取った音声を入力音声として第1及び第2の音声認識部11,12、並びに音声記憶部21に出力する。
音声記憶部21は、音声入力部51から受け取った入力音声を一時的に記憶する。例えば、音声記憶部21は、音声入力部51から受け取った入力音声を、次に音声入力部51から入力音声を受け取るまで記憶する。
第1の音声認識部11は、第1辞書記憶部11aと、第1音声認識エンジン11bとを含んでいる。同様に、第2の音声認識部12は、第2辞書記憶部12aと、第2音声認識エンジン12bとを含んでおり、第3の音声認識部13は、一時辞書記憶部13aと、第3音声認識エンジン13bとを含んでいる。
第1及び第2辞書記憶部11a,12a、並びに一時辞書記憶部13aは、例えば半導体メモリなどの記憶装置から構成されている。第1〜第3音声認識エンジン11b,12b,13bは、例えばプロセッサが音声認識用のアルゴリズム(例えば隠れマルコフモデルなど)を含むプログラムを実行することによって実現される。
次に、第1の音声認識部11の第1辞書記憶部11a及び第1音声認識エンジン11bについて詳細に説明する。
第1辞書記憶部11aには、複数の語彙、単語または文書などを含む辞書が記憶されている。第1音声認識エンジン11bは、第1辞書記憶部11aの辞書を用いて、音声入力部51から受け取った入力音声を認識する。具体的には、第1音声認識エンジン11bは、第1辞書記憶部11aの辞書に含まれる語彙、単語または文書などの中から、入力音声に対応する候補文字列(図2)を決定するとともに、当該候補文字列のスコア値(図2)を算出する。そして、第1音声認識エンジン11bは、候補文字列及びスコア値を含む認識結果を、制御部14(認識結果評価部14a)に出力する。
第2の音声認識部12の第2辞書記憶部12a及び第2音声認識エンジン12bも、第1辞書記憶部11a及び第1音声認識エンジン11bと同様に構成されている。ただし、第2の音声認識部12は、第1の音声認識部11と完全に同じ音声認識を行わないように構成されている。仮に、第2の音声認識部12が、第1の音声認識部11と完全に同じ音声認識を行う場合には、同じ入力音声に対して同じ認識結果しか得られないからである。
第1及び第2の音声認識部11,12が異なる音声認識を行う構成としては、例えば、辞書及びアルゴリズム(認識方式)の両方が、第1及び第2の音声認識部11,12の間で異なる構成、あるいは、辞書及びアルゴリズム(認識方式)の一方が、第1及び第2の音声認識部11,12の間で異なる構成が想定される。
第3の音声認識部13の一時辞書記憶部13a及び第3音声認識エンジン13bについては後で詳細に説明する。
制御部14は、認識結果評価部14a及び辞書登録部14bを含んでいる。
認識結果評価部14aは、第1及び第2の音声認識部11,12で取得された認識結果(候補文字列及びスコア値)の評価を示す指標を算出し、当該指標に基づいて第3の音声認識部13に入力音声を認識させるか否かを判定する。
図4(a)〜図4(f)は、本実施の形態1に係る指標の一例を説明するための図である。本実施の形態1では、認識結果評価部14aは、上述の指標として、第1及び第2の音声認識部11,12で取得されたスコア値順に並べられた候補文字列の順序が異なる度合を示す順序距離を算出する。
以下、順序距離の算出について説明する。図4(a)には、第1の音声認識部11で取得された認識結果の一例が、候補文字列をスコア値順に並べた状態で示されており、図4(b)には、第2の音声認識部12で取得された認識結果の一例が、候補文字列をスコア値順に並べた状態で示されている。
図4(c)には、第1の音声認識部11で取得された候補文字列(図4(a))のうち、第2の音声認識部12で取得された候補文字列(図4(b))と共通する候補文字列A〜C,E,Fがスコア順に並べられて示されている。
図4(f)には、第2の音声認識部12で取得された候補文字列(図4(b))のうち、第1の音声認識部11で取得された候補文字列(図4(a))と共通する候補文字列A〜C,E,Fがスコア順に並べられて示されている。
図4(d)及び図4(e)には、図4(c)の第1の音声認識部11に関する候補文字列の順序を入れ替えて、図4(f)の第2の音声認識部12に関する候補文字列の順序と一致させるまでの途中経過が示されている。具体的には、図4(c)の順序から図4(d)の順序に移行する1回目の順序入れ替えでは、候補文字列Cと候補文字列Aとの順序が入れ替えられている。図4(d)の順序から図4(e)の順序に移行する2回目の順序入れ替えでは、候補文字列Cと候補文字列Bとの順序が入れ替えられている。図4(e)の順序から図4(f)の順序に移行する3回目の順序入れ替えでは、候補文字列Fと候補文字列Eとの順序が入れ替えられている。
上述の順序距離は、順序入れ替えの回数に相当しており、図4(c)〜図4(f)の例では「3」となる。
図3の認識結果評価部14aは、第1及び第2の音声認識部11,12で取得された認識結果が完全に一致せず、かつ、順序距離が予め定められた閾値以下である場合(どちらが適切かを明確に判定することが困難である場合)には、第3の音声認識部13に入力音声を認識させると判定する。認識結果評価部14aは、それ以外の場合には、第3の音声認識部13に入力音声を認識させないと判定する。
例えば、判定に用いられる閾値が「4」に設定されている場合において、図4(a)及び図4(b)の認識結果が取得された場合には、図4(a)及び図4(b)の認識結果は順序が完全に一致しておらず、かつ、順序距離(「3」)は閾値(「4」)以下であることから、認識結果評価部14aは、第3の音声認識部13に音声認識させると判定する。
なお、判定に用いられる閾値は、例えば、第1及び第2音声認識エンジン11b,12bの設定値(取得可能な候補文字列の個数、つまりリスト表示個数)及び実測値などに基づいて設定される。
認識結果評価部14aは、第3の音声認識部13に入力音声を認識させないと判定した場合には、第1及び第2の音声認識部11,12の一方で取得された認識結果を認識結果出力部15に出力させる。すなわち、認識結果評価部14a(制御部14)は、第1及び第2の音声認識部11,12で取得された認識結果に基づいて、第3の音声認識部13に入力音声を認識させないと判定された場合に、第1及び第2の音声認識部11,12の一方で取得された認識結果を認識結果出力部15に出力させる。
なお、第1及び第2の音声認識部11,12の認識結果のどちらを認識結果出力部15に出力させるかは、例えば、ユースケース、音声認識エンジンの特性などに基づく信頼性(信頼度)を考慮して初期設定などの段階で予め設定される。このため、第1及び第2の音声認識部11,12の認識結果が似ていない程度に全く異なる場合には、第1及び第2の音声認識部11,12の認識結果のどちらが適切かを明確に判定することが困難ではなく、第1及び第2の音声認識部11,12のうち予め決定された信頼性の高い一方の認識結果が出力されることになる。
認識結果評価部14aは、第3の音声認識部13に入力音声を認識させると判定した場合には、第1及び第2の音声認識部11,12で取得された候補文字列とを、辞書登録部14bに出力する。
辞書登録部14bは、認識結果評価部14aから入力された第1及び第2の音声認識部11,12の候補文字列を統合して、第3の音声認識部13に用いられる辞書を生成する。この辞書の生成は、認識結果評価部14aから第1及び第2の音声認識部11,12の候補文字列が入力された場合、すなわち、認識結果評価部14aが第3の音声認識部13に入力音声を認識させると判定した場合に行われる。
辞書登録部14bは、例えば候補文字列のリストとして、上述の辞書を生成する。辞書登録部14bは、生成した辞書を一時辞書記憶部13aに記憶(登録)する。
第3の音声認識部13は、上述したように、一時辞書記憶部13aと、第3音声認識エンジン13bとを含んでいる。
一時辞書記憶部13aには、辞書登録部14bによって生成された辞書が記憶される。第3音声認識エンジン13bは、一時辞書記憶部13aの辞書を用いて、音声記憶部21に記憶された入力音声を認識することによって、当該入力音声に対応する候補文字列及びスコア値を含む認識結果を取得(生成)し、当該認識結果を認識結果出力部15に出力する。なお、本実施の形態1では、第3の音声認識部13が入力音声を認識するごとに、当該認識に用いられた候補文字列は、一時辞書記憶部13aから消去されるものとする。
上述したように、第2の音声認識部12は、第1の音声認識部11と完全に同じ音声認識を行わないように構成されているが、同様に、第3の音声認識部13は、第1及び第2の音声認識部11,12と完全に同じ音声認識を行わないように構成されている。ただし、本実施の形態1では、一時辞書記憶部13aに記憶された辞書は、第1及び第2の音声認識部11,12で取得された候補文字列の両方を含んでおり、第3の音声認識部13の辞書の候補文字列が、第1及び第2の音声認識部11,12の各々の辞書のみに含まれないことがある。このことは、第3の音声認識部13の辞書が、第1及び第2の音声認識部11,12の各々の辞書と実質的に異なることに相当することから、第3の音声認識部13のアルゴリズムは、第1及び第2の音声認識部11,12のアルゴリズムと必ずしも異ならなくてもよい。
認識結果出力部15は、第1〜第3の音声認識部11〜13のいずれかで取得された認識結果を出力する。認識結果出力部15は、例えば、図2に示した認識結果のようにスコア値にソートされた複数の候補文字列を出力してもよいし、スコア値が最も高い候補文字列のみを出力してもよい。
<動作>
図5は、本実施の形態1に係る音声認識装置1の動作を示すフローチャートである。
まずステップS1にて、第1及び第2の音声認識部11,12は、入力音声を認識する。
ステップS2にて、認識結果評価部14aは、第1及び第2の音声認識部11,12の認識結果に基づいて、当該認識結果の評価を示す指標を算出する。
ステップS3にて、認識結果評価部14aは、算出した指標に基づいて、第3の音声認識部13に入力音声を認識させるか否かを判定する。本実施の形態1では、当該指標は順序距離であることから、第1及び第2の音声認識部11,12の認識結果が完全に一致せず、かつ、順序距離が予め定められた閾値以下である場合には、第3の音声認識部13に入力音声を認識させると判定してステップS4に進み、それ以外の場合にはステップS8に進む。
ステップS4にて、辞書登録部14bは、第1及び第2の音声認識部11,12で取得された候補文字列から辞書を生成する。
ステップS5にて、一時辞書記憶部13aは、ステップS4で生成された辞書を記憶する。
ステップS6にて、第3の音声認識部13(第3音声認識エンジン13b)は、一時辞書記憶部13aに記憶された辞書を用いて、入力音声を認識する。なお、第3の音声認識部13による音声認識後には、当該音声認識に用いられた候補文字列は、一時辞書記憶部13aから消去される。
ステップS7にて、認識結果出力部15は、第3の音声認識部13で取得された認識結果を出力する。その後、図5に示す動作を終了する。
ステップS3からステップS8に進んだ場合、認識結果出力部15は、第1及び第2の音声認識部11,12の一方で取得された認識結果を出力する。その後、図5に示す動作を終了する。
<効果>
以上のような本実施の形態1に係る音声認識装置1によれば、制御部14は、第1及び第2の音声認識部11,12で取得された認識結果に基づいて、第3の音声認識部13に入力音声を認識させると判定された場合に、第1及び第2の音声認識部11,12で取得された候補文字列を含む辞書を用いて第3の音声認識部13に入力音声を認識させ、それによって得られた認識結果を認識結果出力部15に出力させる。これにより、上述したように無駄な処理を抑制しつつ、妥当性の高い認識結果を得ることができる。
また本実施の形態1では、制御部14は、第1及び第2の音声認識部11,12で取得された認識結果に基づいて、第3の音声認識部13に入力音声を認識させないと判定された場合に、第1及び第2の音声認識部11,12の一方で取得された認識結果を認識結果出力部15に出力させる。これにより、第1及び第2の音声認識部11,12の認識結果が似ていない程度に全く異なり、どちらが適切かを明確に判定することが困難ではない場合には、適切な一方の認識結果を出力することができる。
また本実施の形態1では、指標(ここでは順序距離)に基づいて第3の音声認識部13に入力音声を認識させるか否かが判定される。これにより、第1及び第2の音声認識部11,12の認識結果のどちらが適切かを明確に判定することが困難か否かを判定することができる。
また本実施の形態1では、第3の音声認識部13が入力音声を認識するごとに、当該認識に用いられた候補文字列は、一時辞書記憶部13aから消去される。これにより、第3の音声認識部13は、通常、入力音声と関係性が低い候補文字列を用いて、入力音声を認識しなくて済むので、無駄な処理を抑制する効果を高めることができる。
<変形例1>
実施の形態1では、第3の音声認識部13に入力音声を認識させるか否かを判定するための指標は、順序距離であった。しかしながら、当該指標はこれに限ったものではない。本変形例1では、上述の指標は、第1及び第2の音声認識部11,12でそれぞれ取得された最大のスコア値である。以下、第1の音声認識部11で取得された最大のスコア値を、「第1の最大のスコア値」と記し、第2の音声認識部12で取得された最大のスコア値を、「第2の最大のスコア値」と記して説明する。
本変形例1では、認識結果評価部14aは、第1及び第2の音声認識部11,12で取得された認識結果が完全に一致せず、かつ、第1及び第2の音声認識部11,12で取得された第1及び第2の最大のスコア値が両者とも、予め定められた第1及び第2の閾値よりも小さいか、または第1及び第2の閾値よりも大きい場合には、第3の音声認識部13に入力音声を認識させると判定する。また、認識結果評価部14aは、それ以外の場合には、第3の音声認識部13に入力音声を認識させないと判定する。なお、第1の閾値は、例えば、第1音声認識エンジン11bの設定値(スコア値の上限値)及び実測値などに基づいて設定され、第2の閾値は、例えば、第2音声認識エンジン12bの設定値(スコア値の上限値)及び実測値などに基づいて設定される。
図6(a)及び図6(b)は、本変形例1に係る指標の一例を説明するための図である。図6(a)には第1の音声認識部11で取得された認識結果の一例が示されており、図6(b)には、第2の音声認識部12で取得された認識結果の一例が示されている。
第1の音声認識部11のスコア値の上限値は「1000」であり、その半分の値「500」が第1の閾値として設定されている。第2の音声認識部12のスコア値の上限値は「10000」であり、その半分の値「5000」が第2の閾値として設定されている。
図6(a)の例では、第1の音声認識部11で取得された第1の最大のスコア値は「300」であり、第1閾値「500」よりも小さい。また、図6(b)の例では、第2の音声認識部12で取得された第2の最大のスコア値は「4000」であり、第2閾値「5000」よりも小さい。このため、図6(a)及び図6(b)の認識結果が得られた場合には、図4(a)及び図4(b)の認識結果は順序が完全に一致しておらず、かつ、第1及び第2の最大のスコア値がそれぞれ、第1及び第2の閾値よりも小さいことから、認識結果評価部14aは、第3の音声認識部13に音声認識させると判定する。
同様に、第1及び第2の音声認識部11,12で取得された認識結果が完全に一致せず、かつ、第1及び第2の最大のスコア値がそれぞれ、第1及び第2の閾値よりも大きい場合にも、認識結果評価部14aは、第3の音声認識部13に音声認識させると判定する。
一方、第1の最大のスコア値が第1の閾値よりも大きく、かつ第2の最大のスコア値が第2の閾値よりも小さい場合、または、第1の最大のスコア値が第1の閾値よりも小さく、かつ第2の最大のスコア値が第2の閾値よりも大きい場合などには、認識結果評価部14aは、第3の音声認識部13に音声認識させないと判定する。
以上のような本変形例1によれば、実施の形態1と同様に、指標(ここでは第1及び第2の最大のスコア値)に基づいて第3の音声認識部13に入力音声を認識させるか否かを判定することができる。したがって、実施の形態1と同様に、第1及び第2の音声認識部11,12の認識結果のどちらが適切かを明確に判定することが困難か否かを判定することができる。
なお、例えば、第1の最大のスコア値が第1の閾値よりも小さく、第2の最大のスコア値が第2の閾値よりも大きく、かつ第3音声認識エンジン13bが第2音声認識エンジン12bと異なる場合にのみ、認識結果評価部14aは、第3の音声認識部13に音声認識させないと判定してもよい。同様に、第1の最大のスコア値が第1の閾値よりも大きく、第2の最大のスコア値が第2の閾値よりも小さく、かつ第3音声認識エンジン13bが第1音声認識エンジン11bと異なる場合にのみ、認識結果評価部14aは、第3の音声認識部13に音声認識させないと判定してもよい。これによれば、スコア算出基準が同一となる演算を省略することができる。
<変形例2>
本変形例2では、第3の音声認識部13に入力音声を認識させるか否かを判定するための指標は、第1及び第2の音声認識部11,12で取得された候補文字列が一致する度合を示す類似度である。
また、本変形例2では、認識結果評価部14aは、第1及び第2の音声認識部11,12で取得された認識結果が完全に一致せず、かつ、類似度が予め定められた閾値以上である場合には、第3の音声認識部13に入力音声を認識させると判定し、それ以外の場合には、第3の音声認識部13に入力音声を認識させないと判定する。なお、閾値は、例えば、第1及び第2音声認識エンジン11b,12bの設定値(取得可能な候補文字列の個数、つまりリスト表示個数)及び実測値などに基づいて設定される。
図7(a)及び図7(b)は、本変形例2に係る指標の一例を説明するための図である。図7(a)には第1の音声認識部11で取得された認識結果の一例が示されており、図7(b)には、第2の音声認識部12で取得された認識結果の一例が示されている。なお、図7(a)及び図7(b)に示されるように、本変形例2ではスコア値は必須ではない。
まず、認識結果評価部14aは、第1の音声認識部11で取得された候補文字列の個数(以下「第1全候補数」と記す)と、第2の音声認識部12で取得された候補文字列の個数(以下「第2全候補数」と記す)とを算出する。図7(a)の例では、第1全候補数は「6」であり、図7(b)の例では、第2全候補数は「5」である。
次に、認識結果評価部14aは、第1及び第2の音声認識部11,12で取得された候補文字列のうち、共通する候補文字列の個数(以下「共通候補数」と記す)を算出する。図7(a)及び図7(b)の例では、共通候補数は、候補文字列A〜Dの合計の個数「4」である。
認識結果評価部14aは、第1全候補数、第2全候補数、及び共通候補数を次式(1)に適用することにより、類似度を算出する。図7(a)及び図7(b)の例では、類似度は「0.53=(4/6*4/5)」となる。
Figure 0005996152
例えば、上記閾値が「0.25」に設定されており、かつ、図7(a)及び図7(b)の認識結果が取得された場合には、図7(a)及び図7(b)の認識結果は個数が完全に一致しておらず、かつ、類似度(「0.53」)は閾値(「0.25」)以上であることから、認識結果評価部14aは、第3の音声認識部13に音声認識させると判定する。
以上のような本変形例2によれば、実施の形態1と同様に、指標(ここでは類似度)に基づいて第3の音声認識部13に入力音声を認識させるか否かを判定することができる。したがって、実施の形態1と同様に、第1及び第2の音声認識部11,12の認識結果のどちらが適切かを明確に判定することが困難か否かを判定することができる。
<変形例3>
以上の説明では、上述の指標は、順序距離と、第1及び第2の最大のスコア値と、類似度とのいずれか1つであった。しかしこれに限ったものではなく、上述の指標は、順序距離と、第1及び第2の最大のスコア値と、類似度との少なくともいずれか1つを含むものであればよい。
例えば、指標には、順序距離と、第1及び第2の最大のスコア値と、類似度とが適宜組み合わされた次式(2)〜(5)が適用されてもよい。なお、次式(2)及び次式(3)は、類似度と同様の性質を有するので、類似度と同様の判定が行われる。一方、次式(4)及び次式(5)は、順序距離と同様の性質を有するので、順序距離と同様の判定が行われる。このことからも分かるように、類似度は変形例2で説明したものには限ったものではなく、順序距離は実施の形態1で説明したものに限ったものではない。
Figure 0005996152
Figure 0005996152
Figure 0005996152
Figure 0005996152
以上のような本変形例3によっても、実施の形態1と同様に、第1及び第2の音声認識部11,12の認識結果のどちらが適切かを明確に判定することが困難か否かを判定することができる。
<変形例4>
実施の形態1では、辞書登録部14bは、第1及び第2の音声認識部11,12で取得された候補文字列の両方から、一時辞書記憶部13aに記憶される辞書を生成した。しかしこれに限ったものではなく、本変形例4のように、辞書登録部14bは、第1及び第2の音声認識部11,12の一方で取得された候補文字列から、一時辞書記憶部13aに記憶される辞書を生成してもよい。
ここで、一時辞書記憶部13aに記憶される辞書が、第1の音声認識部11で取得された候補文字列のみから生成される構成を想定する。本構成では、第3の音声認識部13の辞書の候補文字列が、第1の音声認識部11の辞書のみに必ず含まれることになる。このことは、第3の音声認識部13の辞書が、第1の音声認識部11の辞書と実質的に同じであることに相当する。したがって、本構成において、第3の音声認識部13が、第1の音声認識部11と完全に同じ音声認識を行わないようにするためには、第3の音声認識部13に、第1の音声認識部11と異なるアルゴリズムが適用されることになる。なお、ここでいう第1の音声認識部11と異なるアルゴリズムには、例えば第2の音声認識部12のアルゴリズムが含まれる。
同様に、一時辞書記憶部13aに記憶される辞書が、第2の音声認識部12で取得された候補文字列のみから生成される構成において、第3の音声認識部13が、第2の音声認識部12と完全に同じ音声認識を行わないようにするためには、第3の音声認識部13には、第2の音声認識部12と異なるアルゴリズムが適用されることになる。なお、ここでいう第2の音声認識部12と異なるアルゴリズムには、例えば第1の音声認識部11のアルゴリズムが含まれる。
なお、上述した変形例1〜4は、実施の形態1だけでなく、次に説明する実施の形態2にも適用されてもよい。
<実施の形態2>
図8は、本発明の実施の形態2に係る音声認識装置1の構成を示すブロック図である。なお、本実施の形態2に係る音声認識装置1において、以上で説明した構成要素と同一または類似するものについては同じ参照符号を付し、異なる部分について主に説明する。
図8の音声認識装置1は、図3の音声認識装置1の構成に加えて、第3辞書記憶部13cを備えている。この第3辞書記憶部13cは、第3の音声認識部13に含まれており、第3の音声認識部13に固有の辞書を記憶している。第3の音声認識部13は、一時辞書記憶部13aに記憶された辞書と、第3辞書記憶部13cに記憶された辞書とを用いて入力音声の認識を行う。つまり、第3の音声認識部13は、第1及び第2の音声認識部11,12で取得された候補文字列を含む辞書とともに、第3の音声認識部13に固有の辞書も用いて、入力音声の認識を行う。
<効果>
以上のような本実施の形態2に係る音声認識装置1によれば、第1及び第2の音声認識部11,12では認識され難い語彙などの存在が予測される場合などには、その語彙などを第3辞書記憶部13cの辞書に含めておくことにより、妥当性の高い認識結果を得る効果を高めることができる。
<その他の変形例>
図9は、本変形例に係る音声認識装置1の主要な構成を示すブロック図である。図9に示すように、第1の音声認識部11が第1のサーバ61に設けられ、第1の音声認識部11で取得された認識結果を受信する第1の通信部71が音声認識装置1に設けられてもよい。このような構成であっても、実施の形態1と同様の効果を得ることができる。
図10は、本変形例に係る音声認識装置1の別の主要な構成を示すブロック図である。図10に示すように、第1及び第2の音声認識部11,12が第1及び第2のサーバ61,62にそれぞれ設けられ、第1及び第2の音声認識部11,12で取得された認識結果を受信する第1及び第2の通信部71,72が音声認識装置1に設けられてもよい。このような構成であっても、実施の形態1と同様の効果を得ることができる。
また、以上に説明した音声認識装置1は、車両に搭載可能な備え付けられたナビゲーション装置、Portable Navigation Device、通信端末(例えば携帯電話、スマートフォン、及びタブレットなどの携帯端末)、及びこれらにインストールされるアプリケーションの機能、並びにサーバなどを適宜に組み合わせてシステムとして構築される音声認識システムにも適用することができる。この場合、以上で説明した音声認識装置1の各機能あるいは各構成要素は、前記システムを構築する各機器に分散して配置されてもよいし、いずれかの機器に集中して配置されてもよい。
なお、本発明は、その発明の範囲内において、各実施の形態及び各変形例を自由に組み合わせたり、各実施の形態及び各変形例を適宜、変形、省略したりすることが可能である。
本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、本発明がそれに限定されるものではない。例示されていない無数の変形例が、本発明の範囲から外れることなく想定され得るものと解される。
1 音声認識装置、11 第1の音声認識部、12 第2の音声認識部、13 第3の音声認識部、14 制御部、15 認識結果出力部。

Claims (11)

  1. 出力部から出力すべき音声認識を行う音声認識システムであって、
    入力音声を認識することによって、当該入力音声に対応する候補文字列を含む認識結果を取得する第1、第2及び第3の音声認識部と、
    前記第1及び前記第2の音声認識部で取得された前記認識結果に基づいて、前記第3の音声認識部に前記入力音声を認識させると判定された場合に、前記第1及び前記第2の音声認識部の少なくとも一方で取得された前記候補文字列を含む辞書を用いて前記第3の音声認識部に前記入力音声を認識させ、それによって得られた前記認識結果を前記出力部に出力させる制御部と
    を備える、音声認識システム。
  2. 請求項1に記載の音声認識システムであって、
    前記制御部は、
    前記第1及び前記第2の音声認識部で取得された前記認識結果に基づいて、前記第3の音声認識部に前記入力音声を認識させないと判定された場合に、前記第1及び前記第2の音声認識部の一方で取得された前記認識結果を前記出力部に出力させる、音声認識システム。
  3. 請求項1に記載の音声認識システムであって、
    前記第3の音声認識部は、
    前記候補文字列を含む辞書とともに、前記第3の音声認識部に固有の辞書も用いて、前記入力音声の認識を行う、音声認識システム。
  4. 請求項1に記載の音声認識システムであって、
    前記第1及び前記第2の音声認識部で取得された前記候補文字列が一致する度合を示す類似度に基づいて、第3の前記音声認識部に前記入力音声を認識させるか否かが判定される、音声認識システム。
  5. 請求項4に記載の音声認識システムであって、
    前記第1及び前記第2の音声認識部で取得された前記認識結果が完全に一致せず、かつ、前記類似度が予め定められた閾値以上である場合には、第3の前記音声認識部に前記入力音声を認識させると判定され、それ以外の場合には、第3の前記音声認識部に前記入力音声を認識させないと判定される、音声認識システム。
  6. 請求項1に記載の音声認識システムであって、
    前記第1及び前記第2の音声認識部でそれぞれ取得された認識結果は、前記候補文字列の正確性を示すスコア値をさらに含み、
    前記第1及び前記第2の音声認識部でそれぞれ取得された最大の前記スコア値と、前記第1及び前記第2の音声認識部で取得された前記候補文字列が一致する度合を示す類似度と、前記第1及び前記第2の音声認識部で取得された前記スコア値順に並べられた前記候補文字列の順序が異なる度合を示す順序距離との少なくともいずれか1つを含む指標に基づいて、第3の前記音声認識部に前記入力音声を認識させるか否かが判定される、音声認識システム。
  7. 請求項6に記載の音声認識システムであって、
    前記指標は前記類似度であり、
    前記第1及び前記第2の音声認識部で取得された前記認識結果が完全に一致せず、かつ、前記類似度が予め定められた閾値以上である場合には、第3の前記音声認識部に前記入力音声を認識させると判定され、それ以外の場合には、第3の前記音声認識部に前記入力音声を認識させないと判定される、音声認識システム。
  8. 請求項6に記載の音声認識システムであって、
    前記指標は前記順序距離であり、
    前記第1及び前記第2の音声認識部で取得された前記認識結果が完全に一致せず、かつ、前記順序距離が予め定められた閾値以下である場合には、第3の前記音声認識部に前記入力音声を認識させると判定され、それ以外の場合には、第3の前記音声認識部に前記入力音声を認識させないと判定される、音声認識システム。
  9. 請求項6に記載の音声認識システムであって、
    前記指標は前記最大のスコア値であり、
    前記第1及び前記第2の音声認識部で取得された前記認識結果が完全に一致せず、かつ、前記第1及び前記第2の音声認識部で取得された第1及び第2の前記最大のスコア値が両者とも、予め定められた第1及び第2の閾値よりも小さいか、または前記第1及び前記第2の閾値よりも大きい場合には、第3の前記音声認識部に前記入力音声を認識させると判定され、それ以外の場合には、第3の前記音声認識部に前記入力音声を認識させないと判定される、音声認識システム。
  10. 請求項1に記載の音声認識システムであって、
    前記第3の音声認識部が前記入力音声を認識するごとに、当該認識に用いられた前記候補文字列を前記辞書から消去する、音声認識システム。
  11. 出力部から出力すべき音声認識を行う音声認識方法であって、
    入力音声を認識することによって、当該入力音声に対応する候補文字列を含む認識結果を取得する第1、第2及び第3の音声認識部のうち、前記第1及び前記第2の音声認識部で取得された前記認識結果に基づいて、前記第3の音声認識部に前記入力音声を認識させると判定された場合に、前記第1及び前記第2の音声認識部の少なくとも一方で取得された前記候補文字列を含む辞書を用いて前記第3の音声認識部に前記入力音声を認識させ、それによって得られた前記認識結果を前記出力部に出力させる、音声認識方法。
JP2016532819A 2014-07-08 2014-07-08 音声認識システム及び音声認識方法 Active JP5996152B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/068191 WO2016006038A1 (ja) 2014-07-08 2014-07-08 音声認識システム及び音声認識方法

Publications (2)

Publication Number Publication Date
JP5996152B2 true JP5996152B2 (ja) 2016-09-21
JPWO2016006038A1 JPWO2016006038A1 (ja) 2017-04-27

Family

ID=55063714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016532819A Active JP5996152B2 (ja) 2014-07-08 2014-07-08 音声認識システム及び音声認識方法

Country Status (5)

Country Link
US (1) US10115394B2 (ja)
JP (1) JP5996152B2 (ja)
CN (1) CN106663421B (ja)
DE (1) DE112014006795B4 (ja)
WO (1) WO2016006038A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106663421B (zh) * 2014-07-08 2018-07-06 三菱电机株式会社 声音识别系统以及声音识别方法
JP6659514B2 (ja) * 2016-10-12 2020-03-04 東芝映像ソリューション株式会社 電子機器及びその制御方法
CN108630191A (zh) * 2018-07-23 2018-10-09 上海斐讯数据通信技术有限公司 一种模拟不同距离的语音识别成功率的测试系统及方法
CN109273000B (zh) * 2018-10-11 2023-05-12 河南工学院 一种语音识别方法
US11380315B2 (en) * 2019-03-09 2022-07-05 Cisco Technology, Inc. Characterizing accuracy of ensemble models for automatic speech recognition by determining a predetermined number of multiple ASR engines based on their historical performance
US11107475B2 (en) * 2019-05-09 2021-08-31 Rovi Guides, Inc. Word correction using automatic speech recognition (ASR) incremental response

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008089625A (ja) * 2006-09-29 2008-04-17 Honda Motor Co Ltd 音声認識装置、音声認識方法及び音声認識プログラム

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195400A (ja) 1989-01-24 1990-08-01 Canon Inc 音声認識装置
JPH0683388A (ja) 1992-09-04 1994-03-25 Fujitsu Ten Ltd 音声認識装置
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US6922669B2 (en) * 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US20030149566A1 (en) * 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
JP3992586B2 (ja) * 2002-10-18 2007-10-17 富士通株式会社 音声認識用辞書調整装置及び方法
US20040138885A1 (en) * 2003-01-09 2004-07-15 Xiaofan Lin Commercial automatic speech recognition engine combinations
DE602004020738D1 (de) * 2003-02-21 2009-06-04 Voice Signal Technologies Inc Verfahren zum produzieren abwechselnder äusserungs bezüglich nahen konkurrenten
JP2005003997A (ja) * 2003-06-12 2005-01-06 Toyota Motor Corp 音声認識装置および音声認識方法ならびに車両
US8041566B2 (en) * 2003-11-21 2011-10-18 Nuance Communications Austria Gmbh Topic specific models for text formatting and speech recognition
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US7809567B2 (en) * 2004-07-23 2010-10-05 Microsoft Corporation Speech recognition application or server using iterative recognition constraints
US9020966B2 (en) * 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US9128926B2 (en) * 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
JP2008197356A (ja) * 2007-02-13 2008-08-28 Denso Corp 音声認識装置および音声認識方法
KR101415534B1 (ko) * 2007-02-23 2014-07-07 삼성전자주식회사 다단계 음성인식장치 및 방법
JP4812029B2 (ja) * 2007-03-16 2011-11-09 富士通株式会社 音声認識システム、および、音声認識プログラム
EP1976255B1 (en) * 2007-03-29 2015-03-18 Intellisist, Inc. Call center with distributed speech recognition
WO2009040382A1 (en) * 2007-09-27 2009-04-02 Siemens Aktiengesellschaft Method and system for identifying information related to a good
EP2048655B1 (en) * 2007-10-08 2014-02-26 Nuance Communications, Inc. Context sensitive multi-stage speech recognition
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8180641B2 (en) * 2008-09-29 2012-05-15 Microsoft Corporation Sequential speech recognition with two unequal ASR systems
US8140328B2 (en) * 2008-12-01 2012-03-20 At&T Intellectual Property I, L.P. User intention based on N-best list of recognition hypotheses for utterances in a dialog
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
US9245525B2 (en) * 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
US8484031B1 (en) * 2011-01-05 2013-07-09 Interactions Corporation Automated speech recognition proxy system for natural language understanding
EP2678861B1 (en) * 2011-02-22 2018-07-11 Speak With Me, Inc. Hybridized client-server speech recognition
DE112011105407T5 (de) 2011-07-05 2014-04-30 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Navigationsvorrichtung
US9153229B2 (en) * 2011-11-21 2015-10-06 Robert Bosch Gmbh Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local SR performance
US9009049B2 (en) * 2012-06-06 2015-04-14 Spansion Llc Recognition of speech with different accents
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9858038B2 (en) * 2013-02-01 2018-01-02 Nuance Communications, Inc. Correction menu enrichment with alternate choices and generation of choice lists in multi-pass recognition systems
CN106663421B (zh) * 2014-07-08 2018-07-06 三菱电机株式会社 声音识别系统以及声音识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008089625A (ja) * 2006-09-29 2008-04-17 Honda Motor Co Ltd 音声認識装置、音声認識方法及び音声認識プログラム

Also Published As

Publication number Publication date
DE112014006795T5 (de) 2017-03-16
WO2016006038A1 (ja) 2016-01-14
US20170140752A1 (en) 2017-05-18
JPWO2016006038A1 (ja) 2017-04-27
DE112014006795B4 (de) 2018-09-20
CN106663421A (zh) 2017-05-10
CN106663421B (zh) 2018-07-06
US10115394B2 (en) 2018-10-30

Similar Documents

Publication Publication Date Title
JP5996152B2 (ja) 音声認識システム及び音声認識方法
KR102494139B1 (ko) 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
EP3584786B1 (en) Voice recognition method, electronic device, and computer storage medium
US9966077B2 (en) Speech recognition device and method
US9558741B2 (en) Systems and methods for speech recognition
US20170323637A1 (en) Name recognition system
JP5868544B2 (ja) 音声認識装置および音声認識方法
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US20150120301A1 (en) Information Recognition Method and Apparatus
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
KR102443087B1 (ko) 전자 기기 및 그의 음성 인식 방법
JP2017515147A5 (ja)
KR102348124B1 (ko) 차량의 기능 추천 장치 및 방법
US10170122B2 (en) Speech recognition method, electronic device and speech recognition system
US20170294188A1 (en) Apparatus, method for voice recognition, and non-transitory computer-readable storage medium
US20190066678A1 (en) Information processing device, in-vehicle device, and storage medium
JP6869835B2 (ja) 音声認識システム、端末装置、及び辞書管理方法
US20180357269A1 (en) Address Book Management Apparatus Using Speech Recognition, Vehicle, System and Method Thereof
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP2018163313A5 (ja)
CN117378006A (zh) 混合多语种的文本相关和文本无关说话者确认
CN111522937B (zh) 话术推荐方法、装置和电子设备
US10600405B2 (en) Speech signal processing method and speech signal processing apparatus
JP5342629B2 (ja) 男女声識別方法、男女声識別装置及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160715

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160823

R150 Certificate of patent or registration of utility model

Ref document number: 5996152

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250