JP7654792B2 - 自動音声認識のローカル実行のためのデバイス調停 - Google Patents
自動音声認識のローカル実行のためのデバイス調停 Download PDFInfo
- Publication number
- JP7654792B2 JP7654792B2 JP2023536526A JP2023536526A JP7654792B2 JP 7654792 B2 JP7654792 B2 JP 7654792B2 JP 2023536526 A JP2023536526 A JP 2023536526A JP 2023536526 A JP2023536526 A JP 2023536526A JP 7654792 B2 JP7654792 B2 JP 7654792B2
- Authority
- JP
- Japan
- Prior art keywords
- additional
- client device
- text representation
- audio data
- spoken utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
102 ユーザ
104 携帯電話
106 スマートウォッチ
108 ディスプレイを有する自動化されたアシスタント
110 Wi-Fiアクセスポイント
112 スマートカメラ
114 ラップトップコンピュータ
300 環境
302、314 クライアントデバイス
304、316 ユーザインターフェース入出力デバイス
306、320 候補テキスト表現エンジン
308 テキスト表現エンジン
310 追加のデバイスエンジン
312、322 ASRモデル
318 オーディオ源エンジン
800 自動化されたアシスタント
802 クライアントデバイス
804 自動化されたアシスタントクライアント
806 ローカルエンジン
810 クラウドベースの自動化されたアシスタント構成要素
812 TTSモジュール
814 STTモジュール
816 自然言語プロセッサ
818 対話状態トラッカ
820 対話マネージャ
910 コンピューティングデバイス
912 バスサブシステム
914 プロセッサ
916 ネットワークインターフェース
920 ユーザインターフェース出力デバイス
922 ユーザインターフェース入力デバイス
924 ストレージサブシステム
925 メモリサブシステム
926 ファイルストレージサブシステム
Claims (14)
クライアントデバイスにおいて、ユーザの口頭の発話をキャプチャするオーディオデータを検出するステップであって、
前記クライアントデバイスは、1つまたは複数の追加のクライアントデバイスを含む環境内にあり、ローカルネットワークを介して前記1つまたは複数の追加のクライアントデバイスとローカルで通信し、
前記1つまたは複数の追加のクライアントデバイスは、少なくとも第1の追加のクライアントデバイスを含む、ステップと、
前記クライアントデバイスにおいて、前記口頭の発話の候補テキスト表現を生成すべく、前記クライアントデバイスにおいてローカルで記憶された自動音声認識(「ASR」)モデルを使用して前記オーディオデータを処理するステップと、
前記クライアントデバイスにおいて、前記第1の追加のクライアントデバイスから前記ローカルネットワークを介して、前記口頭の発話の第1の追加の候補テキスト表現を受信するステップであって、
前記第1の追加のクライアントデバイスにおいてローカルで生成される前記口頭の発話の前記第1の追加の候補テキスト表現は、(a)前記クライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記オーディオデータ、および(b)前記第1の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャするローカルで検出されたオーディオデータに基づき、
前記口頭の発話の前記第1の追加の候補テキスト表現は、前記第1の追加のクライアントデバイスにおいてローカルで記憶された第1の追加のASRモデルを使用して、前記クライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記オーディオデータおよび前記第1の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記ローカルで生成されたオーディオデータを処理することによって生成される、ステップと、
前記口頭の発話のテキスト表現を、前記口頭の発話の前記候補テキスト表現、および前記第1の追加のクライアントデバイスによって生成された前記口頭の発話の前記第1の追加の候補テキスト表現に基づいて決定するステップと
を含む方法。
前記クライアントデバイスにおいて、前記第1の追加のクライアントデバイスから前記ローカルネットワークを介して、前記第1の追加の候補テキスト表現を受信するステップは、
前記クライアントデバイスにおいて、前記第2の追加のクライアントデバイスから前記ローカルネットワークを介して、(a)前記オーディオデータ、および/または(b)前記第2の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャする追加のローカルで検出されたオーディオデータに基づいて前記第2の追加のクライアントデバイスにおいてローカルで生成された前記口頭の発話の第2の追加の候補テキスト表現を受信するステップであって、前記口頭の発話の前記第2の追加の候補テキスト表現は、前記第2の追加のクライアントデバイスにおいてローカルで記憶された第2の追加のASRモデルを使用して前記オーディオデータおよび/または前記追加のローカルで生成されたオーディオデータを処理することによって生成される、ステップをさらに含み、
前記口頭の発話の前記候補テキスト表現、および前記第1の追加のクライアントデバイスによって生成された前記口頭の発話の前記第1の追加の候補テキスト表現に基づいて、前記口頭の発話の前記テキスト表現を決定するステップは、
前記口頭の発話の前記候補テキスト表現、前記第1の追加のクライアントデバイスによって生成された前記口頭の発話の前記第1の追加の候補テキスト表現、および前記第2の追加のクライアントデバイスによって生成された前記口頭の発話の前記第2の追加の候補テキスト表現に基づいて、前記口頭の発話の前記テキスト表現を決定するステップをさらに含む、請求項1に記載の方法。
前記口頭の発話の前記候補テキスト表現、または前記口頭の発話の前記第1の追加の候補テキスト表現をランダムに選択するステップと、
前記ランダムな選択に基づいて前記口頭の発話の前記テキスト表現を決定するステップとを含む、請求項1に記載の方法。
前記候補テキスト表現が前記テキスト表現である確率を示す前記候補テキスト表現の信頼度スコアを決定するステップであって、前記信頼度スコアは、前記クライアントデバイスの1つまたは複数のデバイスパラメータに基づく、ステップと、
前記追加の候補テキスト表現が前記テキスト表現である追加の確率を示す前記追加の候補テキスト表現の追加の信頼度スコアを決定するステップであって、前記追加の信頼度スコアは、前記追加のクライアントデバイスの1つまたは複数の追加のデバイスパラメータに基づく、ステップと、
前記信頼度スコアと前記追加の信頼度スコアを比較するステップと、
前記比較に基づいて前記口頭の発話の前記テキスト表現を決定するステップとを含む、請求項1に記載の方法。
前記クライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記オーディオデータの品質を示すオーディオ品質値を決定するステップと、
前記第1の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャする追加のオーディオデータの前記品質を示す追加のオーディオ品質値を決定するステップと、
前記オーディオ品質値と前記追加のオーディオ品質値を比較するステップと、
前記比較に基づいて前記口頭の発話の前記テキスト表現を決定するステップとを含む、請求項1または請求項4に記載の方法。
前記クライアントデバイスにおいてローカルで記憶された前記ASRモデルの品質を示すASR品質値を決定するステップと、
前記追加のクライアントデバイスにおいてローカルで記憶された前記追加のASRモデルの前記品質を示す追加のASR品質値を決定するステップと、
前記ASR品質値と前記追加のASR品質値を比較するステップと、
前記比較に基づいて前記口頭の発話の前記テキスト表現を決定するステップとを含む、請求項1、請求項4、または請求項5に記載の方法。
前記クライアントデバイスを使用して前記複数の仮説を格付けし直すステップと、
前記口頭の発話の前記候補テキスト表現、および前記格付けし直された複数の仮説に基づいて、前記口頭の発話の前記テキスト表現を決定するステップとを含む、請求項1から6のいずれか一項に記載の方法。
(a)前記オーディオデータ、および/または(b)前記第1の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記ローカルで検出されたオーディオデータに基づいて、前記第1の追加のクライアントデバイスにおいてローカルで前記口頭の発話の前記第1の追加の候補表現を生成するかどうかを決定するステップをさらに含み、(a)前記オーディオデータ、および/または(b)前記第1の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記ローカルで検出されたオーディオデータに基づいて、前記第1の追加のクライアントデバイスにおいてローカルで前記口頭の発話の前記第1の追加の候補表現を生成するかどうかを決定するステップは、
前記クライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記オーディオデータの品質を示すオーディオ品質値を決定するステップと、
前記第1の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記ローカルで検出されたオーディオデータの前記品質を示す追加のオーディオ品質値を決定するステップと、
前記オーディオ品質値と前記追加のオーディオ品質値を比較するステップと、
前記比較に基づいて、(a)前記オーディオデータ、および/または(b)前記第1の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記ローカルで検出されたオーディオデータに基づいて、前記第1の追加のクライアントデバイスにおいてローカルで前記口頭の発話の前記第1の追加の候補表現を生成するかどうかを決定するステップとを含む、請求項1から7のいずれか一項に記載の方法。
前記クライアントデバイスの1つまたは複数のマイクロホンを識別するステップと、
前記クライアントデバイスの前記1つまたは複数のマイクロホンに基づいて前記オーディオ品質値を決定するステップとを含み、
前記第1の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記ローカルで検出されたオーディオデータの前記品質を示す前記追加のオーディオ品質値を決定するステップは、
前記第1の追加のクライアントデバイスの1つまたは複数の第1の追加のマイクロホンを識別するステップと、
前記第1の追加のクライアントデバイスの前記1つまたは複数の第1の追加のマイクロホンに基づいて前記追加のオーディオ品質値を決定するステップとを含む、請求項8に記載の方法。
前記口頭の発話をキャプチャする前記オーディオデータを処理することに基づいて信号対ノイズ比値を生成するステップと、
前記信号対ノイズ比値に基づいて前記オーディオ品質値を決定するステップとを含み、
前記第1の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記ローカルで検出されたオーディオデータの前記品質を示す前記追加のオーディオ品質値を決定するステップは、
前記口頭の発話をキャプチャする前記オーディオデータを処理することに基づいて追加の信号対ノイズ比値を生成するステップと、
前記追加の信号対ノイズ比値に基づいて前記追加のオーディオ品質値を決定するステップとを含む、請求項8または請求項9に記載の方法。
前記口頭の発話の前記第1の追加の候補テキスト表現を求める前記要求を前記第1の追加のクライアントデバイスに送信することを決定することに応答して、前記口頭の発話の前記第1の追加の候補テキスト表現を求める前記要求を前記第1の追加のクライアントデバイスに送信するステップと
をさらに含む、請求項1から10のいずれか一項に記載の方法。
ホットワードモデルを使用して前記ユーザの前記口頭の発話をキャプチャする前記オーディオデータの少なくとも一部分を処理することに基づいてホットワード信頼度スコアを決定するステップであって、前記ホットワード信頼度スコアは、前記オーディオデータの少なくとも前記一部分がホットワードを含むかどうかの確率を示す、ステップと、
前記ホットワード信頼度スコアが1つまたは複数の条件を満たすかどうかを判定するステップであって、前記ホットワード信頼度スコアが前記1つまたは複数の条件を満たすかどうかを判定することは、前記ホットワード信頼度スコアがしきい値を満たすかどうかを判定することを含む、ステップと、
前記ホットワード信頼度スコアがしきい値を満たすと判定することに応答して、前記ホットワード信頼度スコアが、前記オーディオデータの少なくとも前記一部分が前記ホットワードを含む弱い確率を示すかどうかを判定するステップと、
前記ホットワード信頼度スコアが、前記オーディオデータの少なくとも前記一部分が前記ホットワードを含む前記弱い確率を示すと判定したことに応答して、前記口頭の発話の前記第1の追加の候補テキスト表現を求める前記要求を前記第1の追加のクライアントデバイスに送信することを決定するステップとを含む、請求項11に記載の方法。
クライアントデバイスにおいて、ユーザの口頭の発話をキャプチャするオーディオデータを検出することであって、
前記クライアントデバイスは、1つまたは複数の追加のクライアントデバイスを含む環境内にあり、ローカルネットワークを介して前記1つまたは複数の追加のクライアントデバイスとローカルで通信し、
前記1つまたは複数の追加のクライアントデバイスは、少なくとも第1の追加のクライアントデバイスを含む、こと、
前記クライアントデバイスにおいて、前記口頭の発話の候補テキスト表現を生成すべく、前記クライアントデバイスにおいてローカルで記憶された自動音声認識(「ASR」)モデルを使用して前記オーディオデータを処理すること、
前記クライアントデバイスにおいて、前記第1の追加のクライアントデバイスから前記ローカルネットワークを介して、前記口頭の発話の第1の追加の候補テキスト表現を受信することであって、
前記第1の追加のクライアントデバイスにおいてローカルで生成される前記口頭の発話の前記第1の追加の候補テキスト表現は、(a)前記クライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記オーディオデータ、および(b)前記第1の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャするローカルで検出されたオーディオデータに基づき、
前記口頭の発話の前記第1の追加の候補テキスト表現は、前記第1の追加のクライアントデバイスにおいてローカルで記憶された第1の追加のASRモデルを使用して、前記クライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記オーディオデータおよび前記第1の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記ローカルで生成されたオーディオデータを処理することによって生成される、こと、ならびに
前記口頭の発話のテキスト表現を、前記口頭の発話の前記候補テキスト表現、および前記第1の追加のクライアントデバイスによって生成された前記口頭の発話の前記第1の追加の候補テキスト表現に基づいて決定すること
を含む動作を実行させる命令を記憶するように構成されたコンピュータ可読記憶媒体。
1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、
クライアントデバイスにおいて、ユーザの口頭の発話をキャプチャするオーディオデータを検出することであって、
前記クライアントデバイスは、1つまたは複数の追加のクライアントデバイスを含む環境内にあり、ローカルネットワークを介して前記1つまたは複数の追加のクライアントデバイスとローカルで通信し、
前記1つまたは複数の追加のクライアントデバイスは、少なくとも第1の追加のクライアントデバイスを含む、こと、
前記クライアントデバイスにおいて、前記口頭の発話の候補テキスト表現を生成すべく、前記クライアントデバイスにおいてローカルで記憶された自動音声認識(「ASR」)モデルを使用して前記オーディオデータを処理すること、
前記クライアントデバイスにおいて、前記第1の追加のクライアントデバイスから前記ローカルネットワークを介して、前記口頭の発話の第1の追加の候補テキスト表現を受信することであって、
前記第1の追加のクライアントデバイスにおいてローカルで生成される前記口頭の発話の前記第1の追加の候補テキスト表現は、(a)前記クライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記オーディオデータ、および(b)前記第1の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャするローカルで検出されたオーディオデータに基づき、
前記口頭の発話の前記第1の追加の候補テキスト表現は、前記第1の追加のクライアントデバイスにおいてローカルで記憶された第1の追加のASRモデルを使用して、前記クライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記オーディオデータおよび前記第1の追加のクライアントデバイスにおいて検出された前記口頭の発話をキャプチャする前記ローカルで生成されたオーディオデータを処理することによって生成される、こと、ならびに
前記口頭の発話のテキスト表現を、前記口頭の発話の前記候補テキスト表現、および前記第1の追加のクライアントデバイスによって生成された前記口頭の発話の前記第1の追加の候補テキスト表現に基づいて決定すること
を含む動作を実行させる命令を記憶するように構成されたメモリと、
を含むシステム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17/198,679 | 2021-03-11 | ||
| US17/198,679 US20220293109A1 (en) | 2021-03-11 | 2021-03-11 | Device arbitration for local execution of automatic speech recognition |
| PCT/US2021/063370 WO2022191892A1 (en) | 2021-03-11 | 2021-12-14 | Device arbitration for local execution of automatic speech recognition |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024505788A JP2024505788A (ja) | 2024-02-08 |
| JP7654792B2 true JP7654792B2 (ja) | 2025-04-01 |
Family
ID=79927589
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023536526A Active JP7654792B2 (ja) | 2021-03-11 | 2021-12-14 | 自動音声認識のローカル実行のためのデバイス調停 |
Country Status (6)
| Country | Link |
|---|---|
| US (2) | US20220293109A1 (ja) |
| EP (2) | EP4485456A3 (ja) |
| JP (1) | JP7654792B2 (ja) |
| KR (1) | KR20230153450A (ja) |
| CN (1) | CN116762126A (ja) |
| WO (1) | WO2022191892A1 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12393617B1 (en) * | 2022-09-30 | 2025-08-19 | Amazon Technologies, Inc. | Document recommendation based on conversational log for real time assistance |
| US12518749B2 (en) * | 2023-08-09 | 2026-01-06 | Google Llc | Adaptive sending or rendering of audio with text messages sent via automated assistant |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005266192A (ja) | 2004-03-18 | 2005-09-29 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識方法 |
| JP2018532151A (ja) | 2015-09-11 | 2018-11-01 | アマゾン テクノロジーズ インコーポレイテッド | 音声対応デバイス間の調停 |
| US20190318742A1 (en) | 2019-06-26 | 2019-10-17 | Intel Corporation | Collaborative automatic speech recognition |
| WO2020040775A1 (en) | 2018-08-23 | 2020-02-27 | Google Llc | Regulating assistant responsiveness according to characteristics of a multi-assistant environment |
| JP2020129130A (ja) | 2020-04-27 | 2020-08-27 | パイオニア株式会社 | 情報処理装置 |
Family Cites Families (25)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8010369B2 (en) * | 2007-10-30 | 2011-08-30 | At&T Intellectual Property I, L.P. | System and method for controlling devices that are connected to a network |
| JP5545467B2 (ja) * | 2009-10-21 | 2014-07-09 | 独立行政法人情報通信研究機構 | 音声翻訳システム、制御装置、および情報処理方法 |
| US20110184740A1 (en) * | 2010-01-26 | 2011-07-28 | Google Inc. | Integration of Embedded and Network Speech Recognizers |
| EP2678861B1 (en) * | 2011-02-22 | 2018-07-11 | Speak With Me, Inc. | Hybridized client-server speech recognition |
| JP6198432B2 (ja) * | 2013-04-09 | 2017-09-20 | 小島プレス工業株式会社 | 音声認識制御装置 |
| US20150032238A1 (en) * | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device for Audio Input Routing |
| US9443527B1 (en) * | 2013-09-27 | 2016-09-13 | Amazon Technologies, Inc. | Speech recognition capability generation and control |
| EP3958255A1 (en) * | 2015-01-16 | 2022-02-23 | Samsung Electronics Co., Ltd. | Method and device for performing voice recognition |
| KR102387567B1 (ko) * | 2015-01-19 | 2022-04-18 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
| US9875081B2 (en) * | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
| US10559309B2 (en) * | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
| US10546583B2 (en) * | 2017-08-30 | 2020-01-28 | Amazon Technologies, Inc. | Context-based device arbitration |
| CN109523991B (zh) * | 2017-09-15 | 2023-08-18 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置、设备 |
| KR102471493B1 (ko) * | 2017-10-17 | 2022-11-29 | 삼성전자주식회사 | 전자 장치 및 음성 인식 방법 |
| US10616726B1 (en) * | 2018-02-22 | 2020-04-07 | Amazon Technologies, Inc. | Outputing notifications using device groups |
| US10782986B2 (en) * | 2018-04-20 | 2020-09-22 | Facebook, Inc. | Assisting users with personalized and contextual communication content |
| US11393476B2 (en) * | 2018-08-23 | 2022-07-19 | Google Llc | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
| US11514917B2 (en) * | 2018-08-27 | 2022-11-29 | Samsung Electronics Co., Ltd. | Method, device, and system of selectively using multiple voice data receiving devices for intelligent service |
| WO2020060311A1 (en) * | 2018-09-20 | 2020-03-26 | Samsung Electronics Co., Ltd. | Electronic device and method for providing or obtaining data for training thereof |
| WO2020085794A1 (en) * | 2018-10-23 | 2020-04-30 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the same |
| US11017778B1 (en) * | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
| US10861446B2 (en) * | 2018-12-10 | 2020-12-08 | Amazon Technologies, Inc. | Generating input alternatives |
| WO2020196955A1 (ko) * | 2019-03-27 | 2020-10-01 | 엘지전자 주식회사 | 인공 지능 기기 및 인공 지능 기기의 동작 방법 |
| US11138969B2 (en) * | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
| CN111768783B (zh) * | 2020-06-30 | 2024-04-02 | 北京百度网讯科技有限公司 | 语音交互控制方法、装置、电子设备、存储介质和系统 |
-
2021
- 2021-03-11 US US17/198,679 patent/US20220293109A1/en not_active Abandoned
- 2021-12-14 CN CN202180088457.0A patent/CN116762126A/zh active Pending
- 2021-12-14 EP EP24214048.1A patent/EP4485456A3/en active Pending
- 2021-12-14 KR KR1020237033835A patent/KR20230153450A/ko active Pending
- 2021-12-14 WO PCT/US2021/063370 patent/WO2022191892A1/en not_active Ceased
- 2021-12-14 EP EP21847810.5A patent/EP4139918B1/en active Active
- 2021-12-14 JP JP2023536526A patent/JP7654792B2/ja active Active
-
2025
- 2025-05-30 US US19/223,976 patent/US20250292774A1/en active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005266192A (ja) | 2004-03-18 | 2005-09-29 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識方法 |
| JP2018532151A (ja) | 2015-09-11 | 2018-11-01 | アマゾン テクノロジーズ インコーポレイテッド | 音声対応デバイス間の調停 |
| WO2020040775A1 (en) | 2018-08-23 | 2020-02-27 | Google Llc | Regulating assistant responsiveness according to characteristics of a multi-assistant environment |
| US20190318742A1 (en) | 2019-06-26 | 2019-10-17 | Intel Corporation | Collaborative automatic speech recognition |
| JP2020129130A (ja) | 2020-04-27 | 2020-08-27 | パイオニア株式会社 | 情報処理装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP4139918B1 (en) | 2025-02-05 |
| EP4485456A2 (en) | 2025-01-01 |
| US20220293109A1 (en) | 2022-09-15 |
| EP4485456A3 (en) | 2025-03-05 |
| WO2022191892A1 (en) | 2022-09-15 |
| EP4139918A1 (en) | 2023-03-01 |
| JP2024505788A (ja) | 2024-02-08 |
| US20250292774A1 (en) | 2025-09-18 |
| KR20230153450A (ko) | 2023-11-06 |
| CN116762126A (zh) | 2023-09-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20240153502A1 (en) | Dynamically adapting assistant responses | |
| US11735173B2 (en) | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface | |
| CN118538199B (zh) | 确定经由自动助理界面接收的口头话语的语音识别的语言 | |
| CN112334976B (zh) | 利用本地文本响应映射呈现对用户的口头话语的响应 | |
| US12204569B2 (en) | Natural language understanding clarifications | |
| US11854533B2 (en) | Speaker awareness using speaker dependent speech model(s) | |
| US20250292774A1 (en) | Device arbitration for local execution of automatic speech recognition | |
| CN115605842A (zh) | 当环境干扰预计会抑制某些自动化助理交互时建议备选接口 | |
| US12190892B2 (en) | Selectively storing, with multiple user accounts and/or to a shared assistant device: speech recognition biasing, NLU biasing, and/or other data | |
| US20240331681A1 (en) | Automatic adaptation of the synthesized speech output of a translation application | |
| KR20240154576A (ko) | 자동 스피치 인식 모델(들)에 대한 비의도적 기억화 측정치(들)를 생성 및/또는 활용 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230809 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230809 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240911 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240924 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241224 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250218 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250319 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7654792 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |