JP5583301B1 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP5583301B1 JP5583301B1 JP2014509532A JP2014509532A JP5583301B1 JP 5583301 B1 JP5583301 B1 JP 5583301B1 JP 2014509532 A JP2014509532 A JP 2014509532A JP 2014509532 A JP2014509532 A JP 2014509532A JP 5583301 B1 JP5583301 B1 JP 5583301B1
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- recognition result
- speech
- candidate
- time length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 claims description 32
- 230000010354 integration Effects 0.000 claims description 18
- 238000000034 method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 1
- 241001417524 Pomacanthidae Species 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
このため、ある認識エンジンで認識可能な単語または単語列(以下、単語列と記載し、単語列には1つの単語も含むとする)の一部分と他の認識エンジンで認識可能な単語列が一致する場合、ある認識エンジンで認識されるべき結果が他の認識エンジンの結果として誤認識される可能性があるという課題があった。
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。図1に示す音声認識装置は、例えば、車両内に搭載または持ち込みされたナビゲーション装置やオーディオ装置の入力手段として利用される装置である。その構成として、音声入力部1、音声認識部2、第1および第2の認識候補取得部3a,3b、判定部4および統合部5を備える。
音声認識部2は、音声入力部1から出力された同一の音声信号をそれぞれ音声認識する第1および第2の認識エンジン2a,2bを備える。
第1および第2の認識エンジン2a,2bは、入力された音声信号に対して音声認識処理を実施して、認識結果の文字列、認識結果の信頼度および認識結果の時間長を出力する。ここで、第1の認識エンジンは、第2の認識エンジンで認識可能な単語列の一部を含む単語列を、少なくとも一つ以上は認識可能であるものとする。
なお、実施の形態1においては、第2の認識エンジン2bで認識可能な単語列を構成する単語数が、第1の認識エンジン2aで認識可能な単語列を構成する単語数以下であるものとして説明する。
具体的には、第1の認識エンジン2aはアメリカの州名と市名を組み合わせた単語列を認識可能であり、第2の認識エンジン2bは州名を認識可能であるとする。
なお、以降の説明において、第1の認識候補取得部3aにより第1の認識エンジン2aから取得された認識結果候補を“第1の認識結果候補”と記載する。
また、第2の認識候補取得部3bにより第2の認識エンジン2bから取得された認識結果候補を“第2の認識結果候補”と記載する。
例えば、判定部4は、第1の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と、第2の認識結果候補の全ての認識結果候補の時間長の差を算出する。そして、当該時間長の差が、予め定めた第1の閾値以上(または、閾値より大きい)である第2の認識結果候補を棄却する。そして、第1の認識結果候補と棄却されなかった第2の認識結果候補を採用し認識結果統合部5に出力する。
他の方法として、例えば、第1の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と、第2の認識結果候補であって、最も信頼度が高い認識結果候補の時間長との差を算出する。そして、当該時間長の差が予め定めた第1の閾値以上(または、閾値より大きい)である場合は、第2の認識結果候補を全て棄却し、第1の認識結果候補を採用する。そして、当該採用した認識結果候補を統合部5に出力する。
なお、統合部5は、判定部4によって第2の認識結果候補を全て棄却できなかった場合は、第1の認識結果候補であって、最も信頼度が高い認識結果候補の時間長と第2の認識結果候補のそれぞれの認識結果候補の時間長の差に基づいて、第2の認識結果候補のそれぞれの認識結果候補の信頼度を補正し、当該補正後の信頼度に基づいてソートするとしてもよい。
検出部20は、音声入力部1から出力された音声信号を入力して、この音声信号の発話の始端時間と終端時間を検出する。検出部20によって検出された始端時間と終端時間とから判断された音声信号の発話時間(有声区間)部分は、音声信号処理部21に出力される。
例えば、音声信号の音声波形において、時間軸に沿って最初に振幅基準値を超える振幅が検出された時点を始端時間に決定する。また、時間軸に沿って最後に振幅基準値を超える振幅が検出された時点を終端時間に決定する。
第1の認識エンジン2aの音声認識辞書23には、第2の認識エンジン2bの音声認識辞書23に登録されている単語列の一部を含む単語列が、少なくとも一つ以上登録されている。
一方、第2の認識エンジン2bは、第1の認識エンジン2aよりも短い単語列を認識する認識エンジンであるので、“California”といった単語が、第2の認識エンジン2bの音声認識辞書23に登録される。
なお、音声認識装置の認識モードである場合に、住所のカテゴリに属する単語列を音声認識辞書23に登録する例を示したが、名前の認識モードを設定することにより、第1および第2の認識エンジン2a,2bの音声認識辞書23には、名前のカテゴリに属する単語列が登録される。すなわち、モードを変更することにより、住所や名前以外のカテゴリに属する単語列も音声認識辞書23に登録することができる。
図5は、実施の形態1に係る音声認識装置の動作を示すフローチャートである。
最初に、上述のように異なる音声認識辞書23を有する第1の認識エンジン2aおよび第2の認識エンジン2bが、音声入力部1から入力された音声信号に対して音声認識処理を実施する(ステップST1)。このとき、図4で示すように、第1の認識エンジンは、第2の認識エンジンで認識可能な単語列の一部を含む単語列を、少なくとも一つ以上は認識可能であるものとする。
ここで、第1の閾値は、例えば、判定部4が、第1の認識エンジン2aの音声認識辞書23と第2の認識エンジン2bの音声認識辞書23とに登録されている単語列の時間長の差分を予め計算して、それらに平均などの統計的な処理を施して得た値とする。
この場合、第1の閾値は、第1の認識エンジン2aの音声認識辞書23と第2の認識エンジン2bの音声認識辞書23に登録されている単語列のカテゴリに応じて可変的に設定される。
すなわち、音声認識辞書23は、図4を用いて説明したように、音声認識装置の認識モードに対応したカテゴリに属する単語列が登録されるので、判定部4が、認識モードに応じて上記第1の閾値を変更することになる。このようにすることで、判定部4は、音声認識装置の認識モードも考慮してより精度よく認識結果候補を棄却することが可能となる。
一方、認識結果候補の時間長の差分が第1の閾値未満であれば(ステップST3;NO)、第1および第2の認識結果候補が判定部4から統合部5へ出力される。統合部5は、判定部4から第1および第2の認識結果候補を取得すると、これらを1つの認識結果候補群に統合する(ステップST5)。
なお、認識結果候補の時間長の差分が第1の閾値未満(ステップST3;NO)であり、判定部4が、第2の認識結果候補を棄却できなかった場合は、ステップST3で算出した認識結果候補の時間長の差分に基づいて、第2の認識結果候補のそれぞれの認識結果候補の信頼度を補正し、当該補正後の信頼度に基づいてソートするとしてもよい。
また、上位から予め定めた順位までを最終的な認識結果候補として出力してもよい。
“California Los Angeles”という音声が発話された場合に、音声入力部1は、発話音声を集音して“California Los Angeles”という音声信号を第1および第2の認識エンジン2a,2bに出力する。
第1および第2の認識エンジン2a,2bは、“California Los Angeles”の音声信号について音声認識処理を実施する。このとき、第1および第2の認識エンジン2a,2bの音声認識辞書23には、図4に示す単語列が登録されているものとする。
判定部4は、第1の認識結果候補であって最も信頼度が高い“California Los Angeles”の時間長である4000msから、第2の認識結果候補であって最も信頼度が高い“California”の時間長である2500msを差し引いた差分1500msを算出する。
この後、判定部4は、時間長の差分1500msと予め定めた第1の閾値とを比較する。なお、第1の閾値は各認識エンジンの音声認識辞書23に登録されている単語列の時間長の差分を考慮して、1000msを設定している。
例えば、第1および第2の認識結果候補のうち、信頼度が最も高い候補は、第2の認識結果候補で信頼度が6000の“California”である。このため、従来では、信頼度を選択基準としており、“California Los Angeles”という音声が発話されたにもかかわらず、第2の認識エンジン2bの音声認識で得られた“California”が最終的な認識結果として出力される可能性がある。
これに対して、この発明では、認識結果候補の時間長の差分に基づき“California”が棄却されるため、正しい認識結果である“California Los Angeles”を的確に最終的な認識結果として採用することができる。
ここで、それぞれの認識結果候補の時間長の差分が第1の閾値より小さく、第2の認識結果候補が棄却されなかった場合、認識結果候補の時間長の差分に基づいて第2の認識結果候補のそれぞれの認識結果候補の信頼度を補正し、当該補正後の信頼度に基づいてソートするとしてもよい。
例えば、図6に示した第2の認識結果候補を対象として信頼度を補正する場合、まず、全ての第2認識結果候補の時間長と第1の認識結果候補のうち最も信頼度が高い認識結果候補の時間長との差分を算出する。次に、全ての認識結果候補の時間長の差分から認識結果候補ごとに重みを計算し、各認識結果候補の信頼度にその重みを掛け合わすことで信頼度を補正する。このとき、例えば、差分が“0”の場合は重みを“1”とし、差分が大きくなるにつれて重みを0に近づけていくことで、信頼度を引き下げる方向に補正する。
このように構成することで、第1および第2の認識エンジン2a,2bでの認識結果である第1および第2の認識結果候補の中にある、明らかに誤った時間長を持つ認識結果候補を判別することができ、これ以外の認識結果候補を確からしい候補として採用することができる。すなわち、第1および第2の認識エンジン2a,2bでの認識結果である第1および第2の認識結果候補から、確からしい認識結果候補を精度よく採用することができる。
図7は、この発明の実施の形態2に係る音声認識装置の構成を示すブロック図である。図7に示す音声認識装置は、実施の形態1と同様に、例えば車両内に搭載または持ち込みされたナビゲーション装置やオーディオ装置の入力手段として利用される装置である。
その構成として音声入力部1、音声認識部2、第1および第2の認識候補取得部3a,3b、判定部4A、統合部5および検出部6を備える。
なお、図7において、図1と同一構成要素には同一符号を付して説明を省略する。
これに対して、実施の形態2は、認識エンジンとは別に検出部6を備えており、判定部4Aは、検出部6が検出した、音声入力部1が取得した音声の発話時間長(以下、取得音声時間長と記載する)を正誤判定の基準値として使用する。
また、検出部6から出力される取得音声時間長は、異なるアルゴリズムを使用する認識エンジンを比較する基準値となる。異なる音声認識アルゴリズムを使用する認識エンジンとしては、例えばNuance社のVoCon、Google社のGoogle音声検索、名古屋工業大学と京都大学のJuliusなどが挙げられる。なお、これらの認識エンジンの名称は、それぞれ商標登録されている。
図8は、実施の形態2に係る音声認識装置の動作を示すフローチャートである。
最初に、第1の認識エンジン2aおよび第2の認識エンジン2bが、音声入力部1から入力された音声信号に対して音声認識処理を実施する。このとき、検出部6が、音声入力部1で入力された音声信号から取得音声時間長を検出する。
続いて、判定部4Aは、上記差分の絶対値と予め定めた第2の閾値とを比較して、差分の絶対値が第2の閾値以上であるか否かを判定する(ステップST2a)。
上記差分の絶対値が第2の閾値以上である場合(ステップST2a;YES)、判定部4Aは、上記差分の絶対値が得られた認識結果候補を棄却する(ステップST3a)。この後、ステップST2aの処理に戻り、全ての認識結果候補について完了するまで正誤判定が繰り返される。
最後に、統合部5は、認識結果候補群における認識結果候補を信頼度の高い順にソートする(ステップST5a)。ここで、統合部5は、認識結果候補群におけるそれぞれの認識結果候補に対して、ステップST2aで計算した基準値とする取得音声時間長と認識結果候補の時間長の差分に基づいて、認識結果候補の信頼度を引き下げる補正を行う。
すなわち、棄却できなかった第1の認識結果候補がそれぞれ有する時間長と取得音声時間長との差に基づいて棄却できなかった第1の認識結果候補の信頼度を引き下げる方向にそれぞれ補正するとともに、棄却できなかった第2の認識結果候補がそれぞれ有する時間長と取得音声時間長との差に基づいて棄却できなかった第2の認識結果候補の信頼度を引き下げる方向にそれぞれ補正する。そして、当該補正後の信頼度に基づいてソートするとしてもよい。また、上位から予め定めた順位までを最終的な認識結果候補として出力してもよい。
図9は認識結果候補の時間長と取得音声時間長とを比較した結果を例示する図であり、6つの認識結果候補に対して第2の閾値による正誤判定を実施している。図9において、取得音声時間長として4100msが設定され、正誤判定の第2の閾値として800msが設定されているものとする。
一方、認識結果候補“California San Jose”の場合は、取得音声時間長との差分の絶対値が900となり、第2の閾値800よりも大きいため、この認識結果候補は棄却される。
判定部4Aは、全ての認識結果候補に対して上記と同様の処理を実施する。
図10は、認識対象とする単語列のカテゴリに応じた設定値を用いて基準値となる取得音声時間長を決定する処理を示す図である。検出部6は、入力された音声信号の音声波形において、時間軸に沿って最初に振幅基準値を超える振幅が検出された時点を始端時間に決定する。
また、時間軸に沿って、振幅基準値未満の振幅となりその後に振幅基準値を超える振幅が検出された期間を終端候補とする。
また、検出部6には、発話の終端時間を検出するため、認識対象とする単語列のカテゴリに応じた第3の閾値が設定されている。
すなわち、終端候補の無声区間が第3の閾値以上継続した場合、検出部6は、この候補を入力された音声信号の終端位置として検出する。
住所の認識モードが設定されている場合、検出部6は、無声区間が1.0s以上継続する候補(2)を発話の終端として検出する。また、電話番号の認識モードが設定されている場合、検出部6は、無声区間が0.5s以上継続する候補(1)を発話の終端として検出する。なお、終端検出のための第3の閾値は、認識対象とする単語列のカテゴリ応じて変更してもよい。
ユーザは音声認識装置の認識モードに応じた発話を行うため、認識対象とする単語列のカテゴリと入力音声の音声波形に基づいて基準値を決定することで、実際の入力音声に対応した基準値を検出することができる。これにより、確からしい認識候補を精度よく採用することが可能である。
このように構成することで、上記実施の形態1と同様に、第1および第2の認識エンジン2a,2bでの認識結果である認識結果候補の中にある、明らかに誤った時間長を持つ認識結果候補を判別することができ、これ以外の認識結果候補を確からしい候補として採用することができる。すなわち、第1および第2の認識エンジン2a,2bでの認識結果である認識結果候補から、確からしい認識結果候補を精度よく採用することができる。
このように、認識結果候補の時間長と取得音声時間長との差に基づく正誤判定を実施することによって、誤認識された認識結果候補を精度よく棄却することが可能である。
このように構成することで、実際の入力音声に対応した基準値を検出することができる。これにより、確からしい認識結果候補を精度よく採用することが可能である。
Claims (6)
- 発話された音声を入力する音声入力部と、
前記音声入力部から取得した音声について、予め定められた単語列を認識可能な第1の認識エンジンと前記単語列の一部を認識可能な第2の認識エンジンとを有する音声認識部と、
前記第1の認識エンジンで認識した第1の認識結果候補が有する時間長から前記第2の認識エンジンで認識した第2の認識結果候補が有する時間長を差し引いた時間長が予め定めた第1の閾値以上である場合には、前記第2の認識結果候補を棄却し、前記第1の認識結果候補を採用する判定部とを備える音声認識装置。 - 前記差し引いた時間長に基づいて、前記判定部によって棄却されなかった前記第2の認識結果候補の信頼度を引き下げる方向に補正する統合部をさらに備えることを特徴とする請求項1記載の音声認識装置。
- 前記判定部は、認識対象とする単語列のカテゴリに応じて前記予め定めた第1の閾値を変更することを特徴とする請求項1記載の音声認識装置。
- 発話された音声を入力する音声入力部と、
前記音声入力部から取得した音声をそれぞれ認識する複数の認識エンジンからなる音声認識部と、
前記取得した音声の始端から終端までの取得音声時間長を検出する検出部と、
前記複数の認識エンジンで認識した認識結果候補がそれぞれ有する時間長と前記取得音声時間長との差が予め定めた第2の閾値以上となる認識結果候補を棄却する判定部とを備える音声認識装置。 - 前記判定部によって棄却されなかった認識結果候補がそれぞれ有する時間長と前記取得音声時間長との差に基づいて、前記棄却されなかった認識結果候補の信頼度を引き下げる方向にそれぞれ補正する統合部をさらに備えることを特徴とする請求項4記載の音声認識装置。
- 前記音声認識部で認識対象となる予め定められた単語列のカテゴリと、前記取得した音声の終端検出の閾値とに基づいて前記取得音声時間長を決定することを特徴とする請求項4記載の音声認識装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/082227 WO2015079568A1 (ja) | 2013-11-29 | 2013-11-29 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5583301B1 true JP5583301B1 (ja) | 2014-09-03 |
JPWO2015079568A1 JPWO2015079568A1 (ja) | 2017-03-16 |
Family
ID=51617794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014509532A Active JP5583301B1 (ja) | 2013-11-29 | 2013-11-29 | 音声認識装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9424839B2 (ja) |
JP (1) | JP5583301B1 (ja) |
CN (1) | CN104823235B (ja) |
DE (1) | DE112013001772B4 (ja) |
WO (1) | WO2015079568A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US20180366123A1 (en) * | 2015-12-01 | 2018-12-20 | Nuance Communications, Inc. | Representing Results From Various Speech Services as a Unified Conceptual Knowledge Base |
US10062385B2 (en) * | 2016-09-30 | 2018-08-28 | International Business Machines Corporation | Automatic speech-to-text engine selection |
US9959861B2 (en) * | 2016-09-30 | 2018-05-01 | Robert Bosch Gmbh | System and method for speech recognition |
CN106601257B (zh) * | 2016-12-31 | 2020-05-26 | 联想(北京)有限公司 | 一种声音识别方法、设备和第一电子设备 |
CN110299136A (zh) * | 2018-03-22 | 2019-10-01 | 上海擎感智能科技有限公司 | 一种用于语音识别的处理方法及其系统 |
TWI682386B (zh) * | 2018-05-09 | 2020-01-11 | 廣達電腦股份有限公司 | 整合式語音辨識系統及方法 |
JP7121461B2 (ja) * | 2018-09-27 | 2022-08-18 | 株式会社オプティム | コンピュータシステム、音声認識方法及びプログラム |
US11150866B2 (en) * | 2018-11-13 | 2021-10-19 | Synervoz Communications Inc. | Systems and methods for contextual audio detection and communication mode transactions |
KR102577589B1 (ko) * | 2019-10-22 | 2023-09-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN112435671B (zh) * | 2020-11-11 | 2021-06-29 | 深圳市小顺智控科技有限公司 | 汉语精准识别的智能化语音控制方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0772899A (ja) * | 1993-09-01 | 1995-03-17 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH09292899A (ja) * | 1996-04-26 | 1997-11-11 | Nec Corp | 音声認識装置 |
JPH11311994A (ja) * | 1998-04-30 | 1999-11-09 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
JP2007033671A (ja) * | 2005-07-25 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識プログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5526466A (en) * | 1993-04-14 | 1996-06-11 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus |
TW323364B (ja) * | 1993-11-24 | 1997-12-21 | At & T Corp | |
DE69937823T2 (de) * | 1999-07-08 | 2008-12-24 | Sony Deutschland Gmbh | Verfahren zum Ermitteln eines Zuverlässigkeitsmasses für die Spracherkennung |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
WO2007097390A1 (ja) * | 2006-02-23 | 2007-08-30 | Nec Corporation | 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
JP5530729B2 (ja) * | 2009-01-23 | 2014-06-25 | 本田技研工業株式会社 | 音声理解装置 |
EP2221806B1 (en) * | 2009-02-19 | 2013-07-17 | Nuance Communications, Inc. | Speech recognition of a list entry |
CN102013253B (zh) * | 2009-09-07 | 2012-06-06 | 株式会社东芝 | 基于语音单元语速的差异的语音识别方法及语音识别系统 |
JP5668553B2 (ja) * | 2011-03-18 | 2015-02-12 | 富士通株式会社 | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム |
US20150228274A1 (en) * | 2012-10-26 | 2015-08-13 | Nokia Technologies Oy | Multi-Device Speech Recognition |
CN103065627B (zh) * | 2012-12-17 | 2015-07-29 | 中南大学 | 基于dtw与hmm证据融合的特种车鸣笛声识别方法 |
-
2013
- 2013-11-29 JP JP2014509532A patent/JP5583301B1/ja active Active
- 2013-11-29 US US14/374,324 patent/US9424839B2/en active Active
- 2013-11-29 CN CN201380019801.6A patent/CN104823235B/zh active Active
- 2013-11-29 DE DE112013001772.5T patent/DE112013001772B4/de active Active
- 2013-11-29 WO PCT/JP2013/082227 patent/WO2015079568A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0772899A (ja) * | 1993-09-01 | 1995-03-17 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH09292899A (ja) * | 1996-04-26 | 1997-11-11 | Nec Corp | 音声認識装置 |
JPH11311994A (ja) * | 1998-04-30 | 1999-11-09 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
JP2007033671A (ja) * | 2005-07-25 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識プログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2015079568A1 (ja) | 2017-03-16 |
US9424839B2 (en) | 2016-08-23 |
WO2015079568A1 (ja) | 2015-06-04 |
US20150348539A1 (en) | 2015-12-03 |
DE112013001772T5 (de) | 2015-08-06 |
DE112013001772B4 (de) | 2020-02-13 |
CN104823235A (zh) | 2015-08-05 |
CN104823235B (zh) | 2017-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5583301B1 (ja) | 音声認識装置 | |
EP1936606B1 (en) | Multi-stage speech recognition | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP3826032B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US20160336007A1 (en) | Speech search device and speech search method | |
US20140207457A1 (en) | False alarm reduction in speech recognition systems using contextual information | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
EP1734509A1 (en) | Method and system for speech recognition | |
US11132998B2 (en) | Voice recognition device and voice recognition method | |
US20180075843A1 (en) | Voice recognition device and voice recognition method | |
JP6481939B2 (ja) | 音声認識装置および音声認識プログラム | |
JPH03167600A (ja) | 音声認識装置 | |
KR100930587B1 (ko) | 혼동 행렬 기반 발화 검증 방법 및 장치 | |
Mengusoglu et al. | Use of acoustic prior information for confidence measure in ASR applications. | |
EP1067512A1 (en) | Method for determining a confidence measure for speech recognition | |
JP2002516419A (ja) | 発声言語における少なくとも1つのキーワードを計算器により認識する方法および認識装置 | |
US20210398521A1 (en) | Method and device for providing voice recognition service | |
KR20210052563A (ko) | 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치 | |
JP4281369B2 (ja) | 音声認識装置 | |
JP2001175276A (ja) | 音声認識装置及び記録媒体 | |
KR20000025827A (ko) | 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법 | |
Singh et al. | Environment Detection Methods using Speech Signals-A Review | |
Silaghi et al. | A new evaluation criteria for keyword spotting techniques and a new algorithm. | |
Kakutani et al. | Detection and recognition of repaired speech on misrecognized utterances for speech input of car navigation system. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140617 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5583301 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |