JP2018197855A - 複数の音声認識装置間の調整 - Google Patents
複数の音声認識装置間の調整 Download PDFInfo
- Publication number
- JP2018197855A JP2018197855A JP2018089922A JP2018089922A JP2018197855A JP 2018197855 A JP2018197855 A JP 2018197855A JP 2018089922 A JP2018089922 A JP 2018089922A JP 2018089922 A JP2018089922 A JP 2018089922A JP 2018197855 A JP2018197855 A JP 2018197855A
- Authority
- JP
- Japan
- Prior art keywords
- detected
- utterance
- event
- locally
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
Description
本願明細書は、例えば、以下の項目も提供する。
(項目1)
発話ベースのコマンドを処理する方法であって、
ローカルに検出された発話イベントと関連付けられた特徴の集合を生成することと、
外部装置から、上記外部装置によって検出された上記発話イベントと関連付けられた第2の特徴の集合を受信することと、
上記特徴の集合と上記第2の特徴の集合との比較に基づいて、上記発話イベントに対応するアクションがローカルに実行されるべきであると判断することと、
上記アクションをローカルに実行することと、
を含む、上記方法。
(項目2)
上記特徴の集合が、上記発話イベントに対応するローカルに検出された音声信号の周波数を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記周波数が人間の発話と関連付けられる周波数範囲内に入ると判断することを含む、上記項目に記載の方法。
(項目3)
上記特徴の集合が、上記発話イベントに対応するローカルに検出された音声信号のエネルギーの測定量を含み、上記第2の特徴の集合が、上記発話イベントに対応する外部で検出された音声信号のエネルギーの第2の測定量を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記ローカルに検出された音声信号のエネルギーの上記測定量が、上記外部で検出された音声信号のエネルギーの上記第2の測定量よりも大きいと判断することを含む、上記項目のいずれかに記載の方法。
(項目4)
上記特徴の集合が、上記発話イベントに対応するローカルに検出された音声の質の測定量を含み、上記第2の特徴の集合が上記発話イベントに対応する外部で検出された音声の質の第2の測定量を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記ローカルに検出された音声の質の上記測定量が上記外部で検出された音声の質の上記第2の測定量よりも高いと判断することを含む、上記項目のいずれかに記載の方法。
(項目5)
上記特徴の集合が、上記発話イベントがローカルに検出されたときに対応するタイムスタンプを含み、上記第2の特徴の集合が、上記発話イベントが上記外部装置によって検出されたときに対応するタイムスタンプを含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記タイムスタンプに基づいて、上記発話イベントが上記外部装置によって検出された以前に上記発話イベントがローカルに検出されたと判断することを含む、上記項目のいずれかに記載の方法。
(項目6)
上記特徴の集合が、ローカルに検出された上記発話イベントから認識された話された内容と関連付けられた信頼スコアを含み、上記第2の特徴の集合が、上記外部装置によって検出された上記発話イベントから認識された話された内容と関連付けられた第2の信頼スコアを含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記ローカルに検出された音声の上記信頼スコアが上記第2の信頼スコアよりも高いと判断することを含む、上記項目のいずれかに記載の方法。
(項目7)
上記特徴の集合が、上記発話イベントから認識された話された内容と関連付けられた信頼スコアを含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記信頼スコアが閾値よりも大きいと判断することを含む、上記項目のいずれかに記載の方法。
(項目8)
上記特徴の集合が、上記発話イベントから認識された話された内容を含み、上記第2の特徴の集合が、上記発話イベントから認識された第2の話された内容を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記話された内容が上記第2の話された内容と実質的に一致すると判断することを含む、上記項目のいずれかに記載の方法。
(項目9)
ローカルに検出された第2の発話イベントと関連付けられた第3の特徴の集合を生成することと、
上記外部装置から、上記外部装置によって検出された上記第2の発話イベントと関連付けられた第4の特徴の集合を受信することと、
上記第3の特徴の集合と上記第4の特徴の集合との比較に基づいて、上記発話イベントに対応するアクションが上記外部装置によって実行されるべきであると判断することと、
上記第2の発話イベントのローカル処理を終了することと、
をさらに含む、上記項目のいずれかに記載の方法。
(項目10)
プロセッサによる実行時に、上記プロセッサに、
ローカルに検出された発話イベントと関連付けられた特徴の集合を生成するステップと、
外部装置から、上記外部装置によって検出された上記発話イベントと関連付けられた第2の特徴の集合を受信するステップと、
上記特徴の集合と上記第2の特徴の集合との比較に基づいて、上記発話イベントに対応するアクションがローカルに実行されるべきであると判断するステップと、
上記アクションをローカルに実行するステップと、
を実行することによって発話ベースのコマンドを処理させる命令を記憶するコンピュータ可読媒体。
(項目11)
上記特徴の集合が、上記発話イベントに対応するローカルに検出された音声信号の周波数を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記周波数が人間の発話と関連付けられた周波数範囲内に入ると判断することを含む、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目12)
上記特徴の集合が、上記発話イベントに対応するローカルに検出された音声信号のエネルギーの測定量を含み、上記第2の特徴の集合が、上記発話イベントに対応する外部で検出された音声信号のエネルギーの第2の測定量を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記ローカルに検出された音声信号のエネルギーの上記測定量が、上記外部で検出された音声信号のエネルギーの上記第2の測定量よりも大きいと判断することを含む、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目13)
上記特徴の集合が、上記発話イベントに対応するローカルに検出された音声の質の測定量を含み、上記第2の特徴の集合が上記発話イベントに対応する外部で検出された音声の質の第2の測定量を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記ローカルに検出された音声の質の上記測定量が上記外部で検出された音声の質の上記第2の測定量よりも高いと判断することを含む、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目14)
上記特徴の集合が、上記発話イベントがローカルに検出されたときに対応するタイムスタンプを含み、上記第2の特徴の集合が、上記発話イベントが上記外部装置によって検出されたときに対応するタイムスタンプを含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記タイムスタンプに基づいて、上記発話イベントが上記外部装置によって検出された以前に上記発話イベントがローカルに検出されたと判断することを含む、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目15)
上記タイムスタンプが同期されたクロックに基づいて決定される、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目16)
上記命令が、上記プロセッサに、上記外部装置によって検出された上記発話イベントが、ローカルに検出された上記発話イベントに一致すると判断するステップをさらに実行させる、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目17)
上記外部装置によって検出された上記発話イベントが、ローカルに検出された上記発話イベントに一致すると判断することが、上記外部装置が上記発話イベントを検出したときに対応する外部タイムスタンプを、上記発話イベントがローカルに検出されたときに対応するローカルタイムスタンプと比較することを含む、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目18)
上記外部装置によって検出された上記発話イベントが、ローカルに検出された上記発話イベントと一致すると判断することが、上記外部装置によって検出された上記発話イベントに基づいて認識された第1の内容を、ローカルに検出された上記発話イベントに基づいて認識された第2の内容と比較することを含む、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目19)
音声認識システムであって、
マイクと、
コンピュータプロセッサであって、
上記マイクを介してローカルに検出された発話イベントと関連付けられた特徴の集合を生成するステップと、
外部で検出された上記発話イベントと関連付けられた第2の特徴の集合を受信するステップと、
上記特徴の集合と上記第2の特徴の集合との比較に基づいて、上記発話イベントに対応するアクションがローカルに実行されるべきであると判断するステップと、
上記アクションをローカルに実行するステップと、
を実行するために命令を実行する上記コンピュータプロセッサと、
を備える、上記音声認識システム。
(項目20)
上記命令が、
上記マイクを介してローカルに検出された第2の発話イベントと関連付けられた第3の特徴の集合を生成するステップと、
上記外部装置から、外部で検出された上記第2の発話イベントと関連付けられた第4の特徴の集合を受信するステップと、
上記第3の特徴の集合と上記第4の特徴の集合との比較に基づいて、上記発話イベントに対応するアクションが上記外部装置によって実行されるべきであると判断するステップと、
上記第2の発話イベントのローカル処理を終了するステップと、
を、上記プロセッサにさらに実行させる、上記項目のいずれかに記載の音声認識システム。
(摘要)
本発明の一実施形態は音声認識装置を選択するための機構を説明し、該音声認識装置は検出された発話イベントに対応する音声コマンドを処理するために係る装置のネットワークに含まれる。ネットワークの音声認識装置は、装置の内のどの装置が発話イベントに対応する音声コマンドを処理するために最適であるのかを個別に判断する。動作中、同じ発話イベントを検出した音声認識装置のそれぞれは、音声コマンドを処理するために同じ装置を独立して選択する。選択された装置を含む音声認識装置のそれぞれは、音声コマンドを処理するために同じ装置を選択するため、音声認識装置は選択された装置に関係する情報を互いと共有する必要がない。
Claims (20)
- 発話ベースのコマンドを処理する方法であって、
ローカルに検出された発話イベントと関連付けられた特徴の集合を生成することと、
外部装置から、前記外部装置によって検出された前記発話イベントと関連付けられた第2の特徴の集合を受信することと、
前記特徴の集合と前記第2の特徴の集合との比較に基づいて、前記発話イベントに対応するアクションがローカルに実行されるべきであると判断することと、
前記アクションをローカルに実行することと、
を含む、前記方法。 - 前記特徴の集合が、前記発話イベントに対応するローカルに検出された音声信号の周波数を含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記周波数が人間の発話と関連付けられる周波数範囲内に入ると判断することを含む、請求項1に記載の方法。
- 前記特徴の集合が、前記発話イベントに対応するローカルに検出された音声信号のエネルギーの測定量を含み、前記第2の特徴の集合が、前記発話イベントに対応する外部で検出された音声信号のエネルギーの第2の測定量を含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記ローカルに検出された音声信号のエネルギーの前記測定量が、前記外部で検出された音声信号のエネルギーの前記第2の測定量よりも大きいと判断することを含む、請求項1に記載の方法。
- 前記特徴の集合が、前記発話イベントに対応するローカルに検出された音声の質の測定量を含み、前記第2の特徴の集合が前記発話イベントに対応する外部で検出された音声の質の第2の測定量を含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記ローカルに検出された音声の質の前記測定量が前記外部で検出された音声の質の前記第2の測定量よりも高いと判断することを含む、請求項1に記載の方法。
- 前記特徴の集合が、前記発話イベントがローカルに検出されたときに対応するタイムスタンプを含み、前記第2の特徴の集合が、前記発話イベントが前記外部装置によって検出されたときに対応するタイムスタンプを含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記タイムスタンプに基づいて、前記発話イベントが前記外部装置によって検出された以前に前記発話イベントがローカルに検出されたと判断することを含む、請求項1に記載の方法。
- 前記特徴の集合が、ローカルに検出された前記発話イベントから認識された話された内容と関連付けられた信頼スコアを含み、前記第2の特徴の集合が、前記外部装置によって検出された前記発話イベントから認識された話された内容と関連付けられた第2の信頼スコアを含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記ローカルに検出された音声の前記信頼スコアが前記第2の信頼スコアよりも高いと判断することを含む、請求項1に記載の方法。
- 前記特徴の集合が、前記発話イベントから認識された話された内容と関連付けられた信頼スコアを含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記信頼スコアが閾値よりも大きいと判断することを含む、請求項1に記載の方法。
- 前記特徴の集合が、前記発話イベントから認識された話された内容を含み、前記第2の特徴の集合が、前記発話イベントから認識された第2の話された内容を含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記話された内容が前記第2の話された内容と実質的に一致すると判断することを含む、請求項1に記載の方法。
- ローカルに検出された第2の発話イベントと関連付けられた第3の特徴の集合を生成することと、
前記外部装置から、前記外部装置によって検出された前記第2の発話イベントと関連付けられた第4の特徴の集合を受信することと、
前記第3の特徴の集合と前記第4の特徴の集合との比較に基づいて、前記発話イベントに対応するアクションが前記外部装置によって実行されるべきであると判断することと、
前記第2の発話イベントのローカル処理を終了することと、
をさらに含む、請求項1に記載の方法。 - プロセッサによる実行時に、前記プロセッサに、
ローカルに検出された発話イベントと関連付けられた特徴の集合を生成するステップと、
外部装置から、前記外部装置によって検出された前記発話イベントと関連付けられた第2の特徴の集合を受信するステップと、
前記特徴の集合と前記第2の特徴の集合との比較に基づいて、前記発話イベントに対応するアクションがローカルに実行されるべきであると判断するステップと、
前記アクションをローカルに実行するステップと、
を実行することによって発話ベースのコマンドを処理させる命令を記憶するコンピュータ可読媒体。 - 前記特徴の集合が、前記発話イベントに対応するローカルに検出された音声信号の周波数を含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記周波数が人間の発話と関連付けられた周波数範囲内に入ると判断することを含む、請求項10に記載のコンピュータ可読媒体。
- 前記特徴の集合が、前記発話イベントに対応するローカルに検出された音声信号のエネルギーの測定量を含み、前記第2の特徴の集合が、前記発話イベントに対応する外部で検出された音声信号のエネルギーの第2の測定量を含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記ローカルに検出された音声信号のエネルギーの前記測定量が、前記外部で検出された音声信号のエネルギーの前記第2の測定量よりも大きいと判断することを含む、請求項10に記載のコンピュータ可読媒体。
- 前記特徴の集合が、前記発話イベントに対応するローカルに検出された音声の質の測定量を含み、前記第2の特徴の集合が前記発話イベントに対応する外部で検出された音声の質の第2の測定量を含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記ローカルに検出された音声の質の前記測定量が前記外部で検出された音声の質の前記第2の測定量よりも高いと判断することを含む、請求項10に記載のコンピュータ可読媒体。
- 前記特徴の集合が、前記発話イベントがローカルに検出されたときに対応するタイムスタンプを含み、前記第2の特徴の集合が、前記発話イベントが前記外部装置によって検出されたときに対応するタイムスタンプを含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記タイムスタンプに基づいて、前記発話イベントが前記外部装置によって検出された以前に前記発話イベントがローカルに検出されたと判断することを含む、請求項10に記載のコンピュータ可読媒体。
- 前記タイムスタンプが同期されたクロックに基づいて決定される、請求項14に記載のコンピュータ可読媒体。
- 前記命令が、前記プロセッサに、前記外部装置によって検出された前記発話イベントが、ローカルに検出された前記発話イベントに一致すると判断するステップをさらに実行させる、請求項10に記載のコンピュータ可読媒体。
- 前記外部装置によって検出された前記発話イベントが、ローカルに検出された前記発話イベントに一致すると判断することが、前記外部装置が前記発話イベントを検出したときに対応する外部タイムスタンプを、前記発話イベントがローカルに検出されたときに対応するローカルタイムスタンプと比較することを含む、請求項16に記載のコンピュータ可読媒体。
- 前記外部装置によって検出された前記発話イベントが、ローカルに検出された前記発話イベントと一致すると判断することが、前記外部装置によって検出された前記発話イベントに基づいて認識された第1の内容を、ローカルに検出された前記発話イベントに基づいて認識された第2の内容と比較することを含む、請求項16に記載のコンピュータ可読媒体。
- 音声認識システムであって、
マイクと、
コンピュータプロセッサであって、
前記マイクを介してローカルに検出された発話イベントと関連付けられた特徴の集合を生成するステップと、
外部で検出された前記発話イベントと関連付けられた第2の特徴の集合を受信するステップと、
前記特徴の集合と前記第2の特徴の集合との比較に基づいて、前記発話イベントに対応するアクションがローカルに実行されるべきであると判断するステップと、
前記アクションをローカルに実行するステップと、
を実行するために命令を実行する前記コンピュータプロセッサと、
を備える、前記音声認識システム。 - 前記命令が、
前記マイクを介してローカルに検出された第2の発話イベントと関連付けられた第3の特徴の集合を生成するステップと、
前記外部装置から、外部で検出された前記第2の発話イベントと関連付けられた第4の特徴の集合を受信するステップと、
前記第3の特徴の集合と前記第4の特徴の集合との比較に基づいて、前記発話イベントに対応するアクションが前記外部装置によって実行されるべきであると判断するステップと、
前記第2の発話イベントのローカル処理を終了するステップと、
を、前記プロセッサにさらに実行させる、請求項19に記載の音声認識システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/604,536 | 2017-05-24 | ||
US15/604,536 US10665232B2 (en) | 2017-05-24 | 2017-05-24 | Coordination among multiple voice recognition devices |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018197855A true JP2018197855A (ja) | 2018-12-13 |
JP7202075B2 JP7202075B2 (ja) | 2023-01-11 |
Family
ID=62186258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018089922A Active JP7202075B2 (ja) | 2017-05-24 | 2018-05-08 | 複数の音声認識装置間の調整 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10665232B2 (ja) |
EP (1) | EP3407348B1 (ja) |
JP (1) | JP7202075B2 (ja) |
KR (1) | KR20180128838A (ja) |
CN (1) | CN108962258B (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7062958B2 (ja) * | 2018-01-10 | 2022-05-09 | トヨタ自動車株式会社 | 通信システム、及び通信方法 |
KR20200074680A (ko) * | 2018-12-17 | 2020-06-25 | 삼성전자주식회사 | 단말 장치 및 이의 제어 방법 |
US11417323B2 (en) * | 2019-02-27 | 2022-08-16 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
US11580969B2 (en) * | 2019-03-27 | 2023-02-14 | Lg Electronics Inc. | Artificial intelligence device and method of operating artificial intelligence device |
CA3143944A1 (en) * | 2019-12-10 | 2021-06-17 | Rovi Guides, Inc. | Systems and methods for local automated speech-to-text processing |
CN113489627A (zh) * | 2020-03-16 | 2021-10-08 | 深圳市艾特智能科技有限公司 | 一种智能设备语音唤醒方法、系统、可读存储介质及电子设备 |
US11798530B2 (en) * | 2020-10-30 | 2023-10-24 | Google Llc | Simultaneous acoustic event detection across multiple assistant devices |
KR20220057989A (ko) * | 2020-10-30 | 2022-05-09 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
US11749284B2 (en) * | 2020-11-13 | 2023-09-05 | Google Llc | Dynamically adapting on-device models, of grouped assistant devices, for cooperative processing of assistant requests |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0720892A (ja) * | 1993-06-30 | 1995-01-24 | Fujitsu Ltd | 音声認識装置におけるノイズキャンセリング装置 |
US20170083285A1 (en) * | 2015-09-21 | 2017-03-23 | Amazon Technologies, Inc. | Device selection for providing a response |
JP2017072857A (ja) * | 2014-10-09 | 2017-04-13 | グーグル インコーポレイテッド | 複数のデバイス上でのホットワード検出 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9978365B2 (en) * | 2008-10-31 | 2018-05-22 | Nokia Technologies Oy | Method and system for providing a voice interface |
US8660847B2 (en) * | 2011-09-02 | 2014-02-25 | Microsoft Corporation | Integrated local and cloud based speech recognition |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
US9514747B1 (en) * | 2013-08-28 | 2016-12-06 | Amazon Technologies, Inc. | Reducing speech recognition latency |
JP6118838B2 (ja) | 2014-08-21 | 2017-04-19 | 本田技研工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
US10789041B2 (en) * | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9734845B1 (en) * | 2015-06-26 | 2017-08-15 | Amazon Technologies, Inc. | Mitigating effects of electronic audio sources in expression detection |
US10026399B2 (en) * | 2015-09-11 | 2018-07-17 | Amazon Technologies, Inc. | Arbitration between voice-enabled devices |
US20170311005A1 (en) * | 2016-04-26 | 2017-10-26 | Szu-Tung Lin | Method of wireless audio transmission and playback |
-
2017
- 2017-05-24 US US15/604,536 patent/US10665232B2/en active Active
-
2018
- 2018-05-08 JP JP2018089922A patent/JP7202075B2/ja active Active
- 2018-05-15 EP EP18172414.7A patent/EP3407348B1/en active Active
- 2018-05-15 KR KR1020180055163A patent/KR20180128838A/ko active Search and Examination
- 2018-05-23 CN CN201810500648.3A patent/CN108962258B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0720892A (ja) * | 1993-06-30 | 1995-01-24 | Fujitsu Ltd | 音声認識装置におけるノイズキャンセリング装置 |
JP2017072857A (ja) * | 2014-10-09 | 2017-04-13 | グーグル インコーポレイテッド | 複数のデバイス上でのホットワード検出 |
US20170083285A1 (en) * | 2015-09-21 | 2017-03-23 | Amazon Technologies, Inc. | Device selection for providing a response |
Also Published As
Publication number | Publication date |
---|---|
US10665232B2 (en) | 2020-05-26 |
US20180342244A1 (en) | 2018-11-29 |
EP3407348B1 (en) | 2022-07-27 |
CN108962258A (zh) | 2018-12-07 |
KR20180128838A (ko) | 2018-12-04 |
CN108962258B (zh) | 2023-08-15 |
EP3407348A1 (en) | 2018-11-28 |
JP7202075B2 (ja) | 2023-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7202075B2 (ja) | 複数の音声認識装置間の調整 | |
US11922095B2 (en) | Device selection for providing a response | |
US11875820B1 (en) | Context driven device arbitration | |
US20210210071A1 (en) | Methods and devices for selectively ignoring captured audio data | |
US10643609B1 (en) | Selecting speech inputs | |
US11138977B1 (en) | Determining device groups | |
US20210174802A1 (en) | Processing spoken commands to control distributed audio outputs | |
US9898250B1 (en) | Controlling distributed audio outputs to enable voice output | |
US20190066670A1 (en) | Context-based device arbitration | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
WO2019199868A1 (en) | Device arbitration by multiple speech processing systems | |
US9460714B2 (en) | Speech processing apparatus and method | |
JP2019101385A (ja) | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム | |
KR20230002690A (ko) | 발화의 음성 인식 오류 교정 | |
US11348579B1 (en) | Volume initiated communications | |
JP2023553451A (ja) | 検出のシーケンスに基づいたホットフレーズトリガ | |
US11693622B1 (en) | Context configurable keywords | |
US20220161131A1 (en) | Systems and devices for controlling network applications | |
JP2019139146A (ja) | 音声認識システム、及び、音声認識方法 | |
JP2015087718A (ja) | 音声対話システム及び音声対話方法 | |
KR20230106335A (ko) | 음성인식장치 및 이를 이용한 음성인식방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210409 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220502 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7202075 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |