JP2019535034A - 音声認識のためのシステム及び方法 - Google Patents
音声認識のためのシステム及び方法 Download PDFInfo
- Publication number
- JP2019535034A JP2019535034A JP2019517330A JP2019517330A JP2019535034A JP 2019535034 A JP2019535034 A JP 2019535034A JP 2019517330 A JP2019517330 A JP 2019517330A JP 2019517330 A JP2019517330 A JP 2019517330A JP 2019535034 A JP2019535034 A JP 2019535034A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- candidate speech
- recognition result
- word
- controller
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 239000013598 vector Substances 0.000 claims description 82
- 230000008569 process Effects 0.000 claims description 55
- 230000004044 response Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000012417 linear regression Methods 0.000 description 6
- 238000007637 random forest analysis Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 235000018087 Spondias lutea Nutrition 0.000 description 4
- 230000009471 action Effects 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000005043 peripheral vision Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
自動音声認識は、広範囲に及ぶ適用事例においてヒューマンマシンインタフェース(HMI)を実現するための重要な技術である。詳細には、マウスやキーボードなど慣用の入力デバイスを使用するのが不便であるか又は非実用的なところで、ヒューマンユーザがタスクの実施に集中しなければならない状況において、音声認識は有用である。例えば、車載「インフォテイメント」システム、ホームオートメーションシステム、並びに、スマートフォン、タブレット及びウェアラブルコンピュータなどの小型電子モバイルデバイスの数多くの用途は、音声命令及び他の入力をユーザから受け取るために、音声認識を採用することができる。
1つの実施形態によれば、ハイブリッド音声認識結果を用いて音声認識を実施するための方法が開発された。この方法は、オーディオ入力デバイスにより、ユーザからの音声入力に対応するオーディオ入力データを生成すること、コントローラにより、第1の汎用音声認識エンジンを用いて、オーディオ入力データに対応する第1の複数の候補音声認識結果を生成すること、コントローラにより、第1のドメイン固有音声認識エンジンを用いて、オーディオ入力データに対応する第2の複数の候補音声認識結果を生成すること、コントローラにより、第3の複数の候補音声認識結果を生成すること、ただし、この第3の複数の候補音声認識結果における各候補音声認識結果は、第1の複数の候補音声認識結果のうちの1つの結果中に含まれる複数の単語と、第2の複数の候補音声認識結果のうちの他の結果中に含まれる少なくとも1つの単語とを含み、コントローラにより、最も高くランク付けされた候補音声認識結果を識別するために、ペアワイズランカーを用いて少なくとも第3の複数の音声認識結果をランク付けすること、及び、コントローラにより、最も高くランク付けされた候補音声認識結果をユーザからの入力として用いて、自動システムを動作させることを含む。
次に、本明細書で開示する実施形態の原理を理解しやすくする目的で、図面及び以下に記載された明細書中の説明について言及する。この言及は、保護対象の範囲に対する限定を意図するものではない。本開示には、例示した実施形態に対するあらゆる代案や変更も含まれ、また、本開示が属する技術分野の当業者であれば通常想定するであろう開示された実施形態の原理のさらなる応用も含まれる。
x’=e’i+((x−ei)/(ei+1−ei))(e’i+1−e’i)
ただし、xは、第1の音声認識エンジンから得られたスコアであり、x’は、第2の音声認識エンジンの信頼度スコア範囲内のxの等価値であり、値ei及びei+1は、第1の音声認識エンジンに対する値xに最も近い種々のエッジ値に対し推定された精度スコア(例えば、信頼度スコア22周囲のエッジ値20及び25に対し推定された精度スコア)に対応し、さらに値e’i及びe’i+1は、第2の音声認識エンジンに対する同じ相対的エッジ値において推定された精度スコアに対応する。
Claims (18)
- 自動システムにおける音声認識のための方法であって、
オーディオ入力デバイスにより、ユーザからの音声入力に対応するオーディオ入力データを生成すること、
コントローラにより、第1の汎用音声認識エンジンを用いて、前記オーディオ入力データに対応する第1の複数の候補音声認識結果を生成すること、
前記コントローラにより、第1のドメイン固有音声認識エンジンを用いて、前記オーディオ入力データに対応する第2の複数の候補音声認識結果を生成すること、
前記コントローラにより、第3の複数の候補音声認識結果を生成すること、ただし、当該第3の複数の候補音声認識結果における各候補音声認識結果は、前記第1の複数の候補音声認識結果のうちの1つの結果中に含まれる複数の単語と、前記第2の複数の候補音声認識結果のうちの他の結果中に含まれる少なくとも1つの単語とを含み、
前記コントローラにより、最も高くランク付けされた候補音声認識結果を識別するために、ペアワイズランカーを用いて少なくとも前記第3の複数の候補音声認識結果をランク付けすること、及び、
前記コントローラにより、前記最も高くランク付けされた候補音声認識結果を前記ユーザからの入力として用いて、前記自動システムを動作させること
を包含する、
自動システムにおける音声認識のための方法。 - 前記第3の複数の候補音声認識結果において少なくとも1つの候補音声認識結果を生成することはさらに、
前記コントローラにより、前記第1の複数の候補音声認識結果における第1の候補音声認識結果の第1の複数の単語において第1の単語を識別すること、ただし、当該第1の単語は、前記第2の複数の候補音声認識結果における第2の候補音声認識結果中の第2の複数の単語において、前記第1の単語とは異なる第2の単語に対応し、
前記コントローラにより、前記第3の複数の候補音声認識結果のために前記候補音声認識結果を生成すること、ただし、当該候補音声認識結果は、前記第1の候補音声認識結果からの前記第1の複数の単語を、前記第1の候補音声認識結果からの前記第1の単語を置き換える前記第2の候補音声認識結果からの前記第2の単語と共に含む、
を包含する、
請求項1に記載の方法。 - さらに、
前記コントローラにより、前記第2の候補音声認識結果中の前記第2の複数の単語を、前記第1の複数の単語にも存在する前記第2の複数の単語における少なくとも1つの単語のポジションに基づき、前記第1の候補音声認識結果中の前記第1の複数の単語とアライメントすること、及び、
前記コントローラにより、前記第1の複数の音声認識結果における前記第1の候補音声認識結果の前記第1の複数の単語において前記第1の単語を識別すること、ただし、前記第1の単語は、前記第2の複数の単語とアライメントされた前記第1の複数の単語における1つの単語ポジションにおいて、第2の候補音声認識結果中の前記第2の複数の単語における前記第2の単語に対応する、
を包含する、
請求項2に記載の方法。 - 前記ランク付けすることはさらに、
前記コントローラにより、前記ペアワイズランカーを用いて前記第3の複数の候補音声認識結果から選択された複数の候補音声認識結果ペア間において、ペアワイズランキングプロセスを用いたランキングスコアに基づき、前記最も高くランク付けされた候補音声認識結果を識別すること
を包含し、各候補音声認識結果ペアをランク付けすることはさらに、
前記コントローラにより、前記ペアワイズランカーを用いて前記第3の複数の候補音声認識結果における第1の候補音声認識結果の第1の単語誤り率を推定すること、
前記コントローラにより、前記ペアワイズランカーを用いて前記第3の複数の候補音声認識結果における第2の候補音声認識結果の第2の単語誤り率を推定すること、
前記コントローラにより、前記第1の単語誤り率が前記第2の単語誤り率よりも低いことに応答して、前記第1の候補音声認識結果に関連づけられたランキングスコアを増分すること、及び、
前記コントローラにより、前記第1の単語誤り率が前記第2の単語誤り率よりも高いことに応答して、前記第2の候補音声認識結果に関連づけられた他のランキングスコアを増分すること
を包含する、
請求項1に記載の方法。 - さらに、
前記コントローラにより、メモリに記憶された複数の所定のトリガペアを参照して、前記第1の候補音声認識結果内で2つの所定のトリガ単語を含む、少なくとも1つのトリガペアに対応する特徴を含む第1の特徴ベクトルを生成すること、
前記コントローラにより、前記複数の所定のトリガペアを参照して、前記第2の候補音声認識結果内で2つの所定のトリガ単語を含む、少なくとも1つのトリガペアに対応する特徴を含む第2の特徴ベクトルを生成すること、
前記コントローラにより、前記第1の特徴ベクトルと前記第2の特徴ベクトルとの間の差に基づき、第3の特徴ベクトルを生成すること、及び、
前記コントローラにより、ペアワイズランカーを用いて前記第3の特徴ベクトルに基づき、前記第1の候補音声認識結果における前記第1の単語誤り率と、前記第2の候補音声認識結果における前記第2の単語誤り率とを推定すること
を包含する、
請求項4に記載の方法。 - さらに、
前記コントローラにより、前記第1の候補音声認識結果中の少なくとも1つの単語に対応する減衰性バッグ・オブ・ワーズ値に応じた特徴を含む第1の特徴ベクトルを生成すること、
前記コントローラにより、前記第2の候補音声認識結果中の少なくとも1つの単語に対応する減衰性バッグ・オブ・ワーズ値に応じた特徴を含む第2の特徴ベクトルを生成すること、
前記コントローラにより、前記第1の特徴ベクトルと前記第2の特徴ベクトルとの間の差に基づき第3の特徴ベクトルを生成すること、及び、
前記コントローラにより、ペアワイズランカーを用いて前記第3の特徴ベクトルに基づき、前記第1の候補音声認識結果における前記第1の単語誤り率と、前記第2の候補音声認識結果における前記第2の単語誤り率とを推定すること
を包含する、
請求項4に記載の方法。 - 前記ランク付けすることはさらに、
前記コントローラにより、前記最も高くランク付けされた候補音声認識結果を、前記第3の複数の候補音声認識結果において前記最高ランキングスコアを有する1つの候補音声認識結果として識別すること、ただし、当該識別を、前記1つの候補音声認識結果の信頼度スコアが、前記第3の複数の候補音声認識結果において最高信頼度スコアを有する他の候補音声認識結果の所定の閾値内にあることに応答して行い、
前記コントローラにより、前記第3の複数の候補音声認識結果において前記最高信頼度スコアを有する前記他の候補音声認識結果を、前記最も高くランク付けされた候補音声認識結果として識別すること、ただし、当該識別を、前記最高信頼度スコアが前記最高ランキングスコアを有する前記1つの候補音声認識結果の前記信頼度スコアを、前記所定の閾値を超えた大きさで上回っていることに応答して行う、
を包含する、
請求項4に記載の方法。 - 前記ランク付けすることはさらに、
前記コントローラにより、前記最も高くランク付けされた候補音声認識結果を、前記第3の複数の候補音声認識結果において前記最高ランキングスコアを有する1つの候補音声認識結果として識別すること
を包含する、
請求項4に記載の方法。 - 前記ランク付けすることはさらに、
前記コントローラにより、前記最も高くランク付けされた候補音声認識結果を識別するために前記ペアワイズランカーを用いて、前記第1の複数の候補音声認識結果と前記第3の複数の候補音声認識結果とをランク付けすること
を包含する、
請求項1に記載の方法。 - 音声入力制御を有する自動システムであって、
ユーザからの音声入力に対応するオーディオ入力データを生成するように構成されたオーディオ入力デバイスと、前記オーディオ入力デバイス及びメモリに動作可能に接続されたコントローラとを備えており、前記コントローラは、
前記オーディオ入力デバイスから前記オーディオ入力データを受け取り、
第1の汎用音声認識エンジンを用いて、前記オーディオ入力データに対応する第1の複数の候補音声認識結果を生成し、
第1のドメイン固有音声認識エンジンを用いて、前記オーディオ入力データに対応する第2の複数の候補音声認識結果を生成し、
第3の複数の候補音声認識結果を生成し、ただし、当該第3の複数の候補音声認識結果における各候補音声認識結果は、前記第1の複数の候補音声認識結果のうちの1つの結果中に含まれる複数の単語と、前記第2の複数の候補音声認識結果のうちの他の結果中に含まれる少なくとも1つの単語とを含み、
最も高くランク付けされた候補音声認識結果を識別するために、ペアワイズランカーを用いて少なくとも前記第3の複数の候補音声認識結果をランク付けし、
前記最も高くランク付けされた候補音声認識結果を前記ユーザからの入力として用いて、当該自動システムを動作させる
ように構成されている、
音声入力制御を備えた自動システム。 - 前記コントローラはさらに、
前記第1の複数の候補音声認識結果における第1の候補音声認識結果の第1の複数の単語において第1の単語を識別し、ただし、当該第1の単語は、前記第2の複数の候補音声認識結果における第2の候補音声認識結果中の第2の複数の単語において、前記第1の単語とは異なる第2の単語に対応し、
前記第3の複数の候補音声認識結果のために前記候補音声認識結果を生成し、ただし、当該候補音声認識結果は、前記第1の候補音声認識結果からの前記第1の複数の単語を、前記第1の候補音声認識結果からの前記第1の単語を置き換える前記第2の候補音声認識結果からの前記第2の単語と共に含む、
ように構成されている、
請求項10に記載の自動システム。 - 前記コントローラはさらに、
前記第2の候補音声認識結果中の前記第2の複数の単語を、前記第1の複数の単語にも存在する前記第2の複数の単語における少なくとも1つの単語のポジションに基づき、前記第1の候補音声認識結果中の前記第1の複数の単語とアライメントし、
前記第1の複数の候補音声認識結果における前記第1の候補音声認識結果の前記第1の複数の単語において前記第1の単語を識別する、ただし、前記第1の単語は、前記第2の複数の単語とアライメントされた前記第1の複数の単語における1つの単語ポジションにおいて、第2の候補音声認識結果中の前記第2の複数の単語における前記第2の単語に対応する、
ように構成されている、
請求項11に記載の自動システム。 - 前記コントローラはさらに、
前記ペアワイズランカーを用いて前記第3の複数の候補音声認識結果から選択された複数の候補音声認識結果ペア間において、ペアワイズランキングプロセスを用いたランキングスコアに基づき、前記最も高くランク付けされた候補音声認識結果を識別する
ように構成されており、各候補音声認識結果ペアをランク付けすることはさらに、
前記ペアワイズランカーを用いて前記第3の複数の候補音声認識結果における第1の候補音声認識結果の第1の単語誤り率を推定し、
前記ペアワイズランカーを用いて前記第3の複数の候補音声認識結果における第2の候補音声認識結果の第2の単語誤り率を推定し、
前記コントローラにより、前記第1の単語誤り率が前記第2の単語誤り率よりも低いことに応答して、前記第1の候補音声認識結果に関連づけられたランキングスコアを増分し、
前記第1の単語誤り率が前記第2の単語誤り率よりも高いことに応答して、前記第2の候補音声認識結果に関連づけられた他のランキングスコアを増分する
ように、前記コントローラが構成されていることを包含する、
請求項10に記載の自動システム。 - 前記コントローラはさらに、
前記メモリに記憶された複数の所定のトリガペアを参照して、前記第1の候補音声認識結果内で2つの所定のトリガ単語を含む、少なくとも1つのトリガペアに対応する特徴を含む第1の特徴ベクトルを生成し、
前記複数の所定のトリガペアを参照して、前記第2の候補音声認識結果内で2つの所定のトリガ単語を含む、少なくとも1つのトリガペアに対応する特徴を含む第2の特徴ベクトルを生成し、
前記第1の特徴ベクトルと前記第2の特徴ベクトルとの間の差に基づき、第3の特徴ベクトルを生成し、
ペアワイズランカーを用いて前記第3の特徴ベクトルに基づき、前記第1の候補音声認識結果における前記第1の単語誤り率と、前記第2の候補音声認識結果における前記第2の単語誤り率とを推定する
ように構成されている、
請求項13に記載の自動システム。 - 前記コントローラはさらに、
前記第1の候補音声認識結果中の少なくとも1つの単語に対応する減衰性バッグ・オブ・ワーズ値に応じた特徴を含む第1の特徴ベクトルを生成し、
前記第2の候補音声認識結果中の少なくとも1つの単語に対応する減衰性バッグ・オブ・ワーズ値に応じた特徴を含む第2の特徴ベクトルを生成し、
前記第1の特徴ベクトルと前記第2の特徴ベクトルとの間の差に基づき第3の特徴ベクトルを生成し、
ペアワイズランカーを用いて前記第3の特徴ベクトルに基づき、前記第1の候補音声認識結果における前記第1の単語誤り率と、前記第2の候補音声認識結果における前記第2の単語誤り率とを推定する
ように構成されている、
請求項13に記載の自動システム。 - 前記コントローラはさらに、
前記最も高くランク付けされた候補音声認識結果を、前記第3の複数の候補音声認識結果において前記最高ランキングスコアを有する1つの候補音声認識結果として識別し、ただし、当該識別を、前記1つの候補音声認識結果の信頼度スコアが、前記第3の複数の候補音声認識結果において最高信頼度スコアを有する他の候補音声認識結果の所定の閾値内にあることに応答して行い、
前記第3の複数の候補音声認識結果において前記最高信頼度スコアを有する前記他の候補音声認識結果を、前記最も高くランク付けされた候補音声認識結果として識別し、ただし、当該識別を、前記最高信頼度スコアが前記最高ランキングスコアを有する前記1つの候補音声認識結果の前記信頼度スコアを、前記所定の閾値を超えた大きさで上回っていることに応答して行う、
ように構成されている、
請求項13に記載の自動システム。 - 前記コントローラはさらに、
前記最も高くランク付けされた候補音声認識結果を、前記第3の複数の音声認識結果において前記最高ランキングスコアを有する1つの候補音声認識結果として識別する
ように構成されている、
請求項13に記載の自動システム。 - 前記コントローラはさらに、
前記最も高くランク付けされた候補音声認識結果を識別するために前記ペアワイズランカーを用いて、前記第1の複数の候補音声認識結果と前記第3の複数の候補音声認識結果とをランク付けする
ように構成されている、
請求項10に記載の自動システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/281,973 US9959861B2 (en) | 2016-09-30 | 2016-09-30 | System and method for speech recognition |
US15/281,973 | 2016-09-30 | ||
PCT/EP2017/073162 WO2018059957A1 (en) | 2016-09-30 | 2017-09-14 | System and method for speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019535034A true JP2019535034A (ja) | 2019-12-05 |
JP6869339B2 JP6869339B2 (ja) | 2021-05-12 |
Family
ID=59966716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019517330A Active JP6869339B2 (ja) | 2016-09-30 | 2017-09-14 | 音声認識のためのシステム及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9959861B2 (ja) |
JP (1) | JP6869339B2 (ja) |
CN (1) | CN109791767B (ja) |
DE (1) | DE112017004374B4 (ja) |
WO (1) | WO2018059957A1 (ja) |
Families Citing this family (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10643616B1 (en) * | 2014-03-11 | 2020-05-05 | Nvoq Incorporated | Apparatus and methods for dynamically changing a speech resource based on recognized text |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9826306B2 (en) | 2016-02-22 | 2017-11-21 | Sonos, Inc. | Default playback device designation |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
JP6682007B2 (ja) * | 2016-11-11 | 2020-04-15 | 旭化成株式会社 | 電子機器、電子機器の制御方法及び電子機器の制御プログラム |
US10455328B2 (en) * | 2017-07-14 | 2019-10-22 | Hand Held Products, Inc. | Adjustable microphone headset |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10769210B2 (en) | 2017-09-29 | 2020-09-08 | Rovi Guides, Inc. | Recommending results in multiple languages for search queries based on user profile |
US10747817B2 (en) * | 2017-09-29 | 2020-08-18 | Rovi Guides, Inc. | Recommending language models for search queries based on user profile |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10395647B2 (en) * | 2017-10-26 | 2019-08-27 | Harman International Industries, Incorporated | System and method for natural language processing |
US20190197549A1 (en) * | 2017-12-21 | 2019-06-27 | Paypal, Inc. | Robust features generation architecture for fraud modeling |
US11087766B2 (en) * | 2018-01-05 | 2021-08-10 | Uniphore Software Systems | System and method for dynamic speech recognition selection based on speech rate or business domain |
JP7070653B2 (ja) * | 2018-02-21 | 2022-05-18 | 日本電信電話株式会社 | 学習装置、音声認識順位推定装置、それらの方法、およびプログラム |
US11676062B2 (en) * | 2018-03-06 | 2023-06-13 | Samsung Electronics Co., Ltd. | Dynamically evolving hybrid personalized artificial intelligence system |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10147428B1 (en) * | 2018-05-30 | 2018-12-04 | Green Key Technologies Llc | Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof |
CN110689881B (zh) * | 2018-06-20 | 2022-07-12 | 深圳市北科瑞声科技股份有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
US10825451B1 (en) * | 2018-06-25 | 2020-11-03 | Amazon Technologies, Inc. | Wakeword detection |
US10762896B1 (en) | 2018-06-25 | 2020-09-01 | Amazon Technologies, Inc. | Wakeword detection |
EP3830823B1 (en) * | 2018-07-27 | 2022-04-27 | Dolby Laboratories Licensing Corporation | Forced gap insertion for pervasive listening |
CN111194463A (zh) * | 2018-08-27 | 2020-05-22 | 北京嘀嘀无限科技发展有限公司 | 用于在移动设备上显示目的地的人工智能系统和方法 |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
JP7009338B2 (ja) * | 2018-09-20 | 2022-01-25 | Tvs Regza株式会社 | 情報処理装置、情報処理システム、および映像装置 |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) * | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) * | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10325597B1 (en) * | 2018-10-08 | 2019-06-18 | Sorenson Ip Holdings, Llc | Transcription of communications |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
CN109599098A (zh) * | 2018-11-01 | 2019-04-09 | 百度在线网络技术(北京)有限公司 | 音频处理方法和装置 |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11380315B2 (en) * | 2019-03-09 | 2022-07-05 | Cisco Technology, Inc. | Characterizing accuracy of ensemble models for automatic speech recognition by determining a predetermined number of multiple ASR engines based on their historical performance |
US11024315B2 (en) * | 2019-03-09 | 2021-06-01 | Cisco Technology, Inc. | Characterizing accuracy of ensemble models for automatic speech recognition |
US11158307B1 (en) * | 2019-03-25 | 2021-10-26 | Amazon Technologies, Inc. | Alternate utterance generation |
RU2731334C1 (ru) * | 2019-03-25 | 2020-09-01 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для формирования текстового представления фрагмента устной речи пользователя |
CN110148416B (zh) * | 2019-04-23 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备和存储介质 |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11107475B2 (en) * | 2019-05-09 | 2021-08-31 | Rovi Guides, Inc. | Word correction using automatic speech recognition (ASR) incremental response |
US11615785B2 (en) * | 2019-05-10 | 2023-03-28 | Robert Bosch Gmbh | Speech recognition using natural language understanding related knowledge via deep feedforward neural networks |
JP7173327B2 (ja) * | 2019-06-07 | 2022-11-16 | 日本電信電話株式会社 | 学習装置、音声認識装置、それらの方法、およびプログラム |
WO2020256184A1 (ko) * | 2019-06-20 | 2020-12-24 | 엘지전자 주식회사 | 디스플레이 장치 |
WO2021002493A1 (ko) * | 2019-07-01 | 2021-01-07 | 엘지전자 주식회사 | 지능형 게이트웨이 장치 및 그를 포함하는 제어 시스템 |
US11189264B2 (en) * | 2019-07-08 | 2021-11-30 | Google Llc | Speech recognition hypothesis generation according to previous occurrences of hypotheses terms and/or contextual data |
CN110491383B (zh) * | 2019-09-25 | 2022-02-18 | 北京声智科技有限公司 | 一种语音交互方法、装置、系统、存储介质及处理器 |
CN110675871B (zh) * | 2019-09-25 | 2021-03-05 | 北京蓦然认知科技有限公司 | 一种语音识别方法及装置 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11437027B1 (en) * | 2019-12-04 | 2022-09-06 | Amazon Technologies, Inc. | Alternate natural language input generation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11626106B1 (en) * | 2020-02-25 | 2023-04-11 | Amazon Technologies, Inc. | Error attribution in natural language processing systems |
KR20230010624A (ko) * | 2020-03-10 | 2023-01-19 | 밋카이, 인크. | 다중 언어, 다중 턴, 다중 도메인 가상 어시스턴트를 강화하기 위한 병렬 가설적 추론 |
US11995561B2 (en) | 2020-03-17 | 2024-05-28 | MeetKai, Inc. | Universal client API for AI services |
US11991253B2 (en) | 2020-03-17 | 2024-05-21 | MeetKai, Inc. | Intelligent layer to power cross platform, edge-cloud hybrid artificial intelligence services |
CN111554276B (zh) * | 2020-05-15 | 2023-11-03 | 深圳前海微众银行股份有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
CN111651599B (zh) * | 2020-05-29 | 2023-05-26 | 北京搜狗科技发展有限公司 | 一种语音识别候选结果的排序方法及装置 |
CN111883122B (zh) * | 2020-07-22 | 2023-10-27 | 海尔优家智能科技(北京)有限公司 | 语音识别方法及装置、存储介质、电子设备 |
US11921712B2 (en) | 2020-10-05 | 2024-03-05 | MeetKai, Inc. | System and method for automatically generating question and query pairs |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11532312B2 (en) | 2020-12-15 | 2022-12-20 | Microsoft Technology Licensing, Llc | User-perceived latency while maintaining accuracy |
KR20220099003A (ko) * | 2021-01-05 | 2022-07-12 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN112699242A (zh) * | 2021-01-11 | 2021-04-23 | 大连东软信息学院 | 一种中文文本作者识别方法 |
US11922943B1 (en) * | 2021-01-26 | 2024-03-05 | Wells Fargo Bank, N.A. | KPI-threshold selection for audio-transcription models |
KR102486120B1 (ko) * | 2022-10-13 | 2023-01-09 | (주)액션파워 | 음성 신호와 연관된 컨텐츠를 결정하는 방법 |
US11960668B1 (en) | 2022-11-10 | 2024-04-16 | Honeywell International Inc. | Cursor management methods and systems for recovery from incomplete interactions |
US11954325B1 (en) | 2023-04-05 | 2024-04-09 | Honeywell International Inc. | Methods and systems for assigning text entry components to cursors |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011227129A (ja) * | 2010-04-15 | 2011-11-10 | Nec Corp | 音声認識システム、データ処理装置、音声認識方法およびプログラム |
JP2011242613A (ja) * | 2010-05-19 | 2011-12-01 | Yahoo Japan Corp | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 |
US20140337032A1 (en) * | 2013-05-13 | 2014-11-13 | Google Inc. | Multiple Recognizer Speech Recognition |
WO2016013503A1 (ja) * | 2014-07-23 | 2016-01-28 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1246229A (en) * | 1985-05-29 | 1988-12-06 | Lalit R. Bahl | Apparatus and method for producing a list of likely candidate words corresponding to a spoken input |
US6006182A (en) * | 1997-09-22 | 1999-12-21 | Northern Telecom Limited | Speech recognition rejection method using generalized additive models |
US20020116196A1 (en) * | 1998-11-12 | 2002-08-22 | Tran Bao Q. | Speech recognizer |
US6526380B1 (en) * | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
AUPR082400A0 (en) * | 2000-10-17 | 2000-11-09 | Telstra R & D Management Pty Ltd | An information retrieval system |
TWI245259B (en) * | 2002-12-20 | 2005-12-11 | Ibm | Sensor based speech recognizer selection, adaptation and combination |
US7805299B2 (en) * | 2004-03-01 | 2010-09-28 | Coifman Robert E | Method and apparatus for improving the transcription accuracy of speech recognition software |
US7899671B2 (en) * | 2004-02-05 | 2011-03-01 | Avaya, Inc. | Recognition results postprocessor for use in voice recognition systems |
GB0426347D0 (en) * | 2004-12-01 | 2005-01-05 | Ibm | Methods, apparatus and computer programs for automatic speech recognition |
US7840409B2 (en) * | 2007-02-27 | 2010-11-23 | Nuance Communications, Inc. | Ordering recognition results produced by an automatic speech recognition engine for a multimodal application |
CN101082836A (zh) * | 2007-06-29 | 2007-12-05 | 华中科技大学 | 一种整合语音输入和手写输入功能的汉字输入系统 |
CN101093478B (zh) * | 2007-07-25 | 2010-06-02 | 中国科学院计算技术研究所 | 一种根据实体的汉语简称识别汉语全称的方法及系统 |
US20090132237A1 (en) * | 2007-11-19 | 2009-05-21 | L N T S - Linguistech Solution Ltd | Orthogonal classification of words in multichannel speech recognizers |
US8126839B2 (en) * | 2008-06-19 | 2012-02-28 | Yahoo! Inc. | Methods and apparatuses for adapting a ranking function of a search engine for use with a specific domain |
JP5530729B2 (ja) * | 2009-01-23 | 2014-06-25 | 本田技研工業株式会社 | 音声理解装置 |
US8271408B2 (en) * | 2009-10-22 | 2012-09-18 | Yahoo! Inc. | Pairwise ranking-based classifier |
US9183843B2 (en) * | 2011-01-07 | 2015-11-10 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US9384734B1 (en) * | 2012-02-24 | 2016-07-05 | Google Inc. | Real-time audio recognition using multiple recognizers |
US9129591B2 (en) * | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
US9093076B2 (en) * | 2012-04-30 | 2015-07-28 | 2236008 Ontario Inc. | Multipass ASR controlling multiple applications |
US10354650B2 (en) * | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
US10282419B2 (en) * | 2012-12-12 | 2019-05-07 | Nuance Communications, Inc. | Multi-domain natural language processing architecture |
US9477753B2 (en) * | 2013-03-12 | 2016-10-25 | International Business Machines Corporation | Classifier-based system combination for spoken term detection |
CN103247291B (zh) * | 2013-05-07 | 2016-01-13 | 华为终端有限公司 | 一种语音识别设备的更新方法、装置及系统 |
DE112013001772B4 (de) * | 2013-11-29 | 2020-02-13 | Mitsubishi Electric Corporation | Spracherkennungssystem |
US20150325236A1 (en) * | 2014-05-08 | 2015-11-12 | Microsoft Corporation | Context specific language model scale factors |
US10108608B2 (en) * | 2014-06-12 | 2018-10-23 | Microsoft Technology Licensing, Llc | Dialog state tracking using web-style ranking and multiple language understanding engines |
KR101581816B1 (ko) * | 2014-10-14 | 2016-01-05 | 서강대학교산학협력단 | 기계학습을 이용한 음성인식방법 |
JP6363478B2 (ja) * | 2014-11-21 | 2018-07-25 | 日本電信電話株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
KR102380833B1 (ko) | 2014-12-02 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10789539B2 (en) * | 2015-12-31 | 2020-09-29 | Nuance Communications, Inc. | Probabilistic ranking for natural language understanding |
-
2016
- 2016-09-30 US US15/281,973 patent/US9959861B2/en active Active
-
2017
- 2017-09-14 WO PCT/EP2017/073162 patent/WO2018059957A1/en active Application Filing
- 2017-09-14 DE DE112017004374.3T patent/DE112017004374B4/de active Active
- 2017-09-14 JP JP2019517330A patent/JP6869339B2/ja active Active
- 2017-09-14 CN CN201780060607.0A patent/CN109791767B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011227129A (ja) * | 2010-04-15 | 2011-11-10 | Nec Corp | 音声認識システム、データ処理装置、音声認識方法およびプログラム |
JP2011242613A (ja) * | 2010-05-19 | 2011-12-01 | Yahoo Japan Corp | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 |
US20140337032A1 (en) * | 2013-05-13 | 2014-11-13 | Google Inc. | Multiple Recognizer Speech Recognition |
WO2016013503A1 (ja) * | 2014-07-23 | 2016-01-28 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
Non-Patent Citations (1)
Title |
---|
STANLEY JUNGKYU CHOI ET AL.: ""Utilizing Multiple Speech Recognizers to Improve Spoken Language Understanding Performance"", THE 18TH IEEE INTERNATIONAL SYMPOSIUM ON CONSUMER ELECTRONICS (ISCE 2014), JPN6020023514, 22 June 2014 (2014-06-22), ISSN: 0004299413 * |
Also Published As
Publication number | Publication date |
---|---|
WO2018059957A1 (en) | 2018-04-05 |
US9959861B2 (en) | 2018-05-01 |
CN109791767A (zh) | 2019-05-21 |
DE112017004374B4 (de) | 2022-10-13 |
CN109791767B (zh) | 2023-09-05 |
US20180096678A1 (en) | 2018-04-05 |
DE112017004374T5 (de) | 2019-06-06 |
JP6869339B2 (ja) | 2021-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6869339B2 (ja) | 音声認識のためのシステム及び方法 | |
CN109923608B (zh) | 利用神经网络对混合语音识别结果进行评级的系统和方法 | |
JP6852006B2 (ja) | ドメイン曖昧性除去を含む音声対応システム | |
US11615785B2 (en) | Speech recognition using natural language understanding related knowledge via deep feedforward neural networks | |
US11450313B2 (en) | Determining phonetic relationships | |
US8195459B1 (en) | Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments | |
US9715877B2 (en) | Systems and methods for a navigation system utilizing dictation and partial match search | |
JP2022531524A (ja) | オンデバイスの音声認識モデルの訓練のためのテキストセグメントのオンデバイスの音声合成 | |
US20180357269A1 (en) | Address Book Management Apparatus Using Speech Recognition, Vehicle, System and Method Thereof | |
Seltzer et al. | In-car media search | |
US10546580B2 (en) | Systems and methods for determining correct pronunciation of dictated words | |
WO2019236745A1 (en) | Temporary account association with voice-enabled devices | |
US11355114B2 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
JP7274376B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
US20240013782A1 (en) | History-Based ASR Mistake Corrections | |
US20200321006A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
Dunnachie et al. | Filler models for automatic speech recognition created from hidden Markov models using the K-Means algorithm | |
Ito et al. | A spoken dialog system based on automatically-generated example database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190529 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200708 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20201008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6869339 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |