JP7202075B2 - 複数の音声認識装置間の調整 - Google Patents
複数の音声認識装置間の調整 Download PDFInfo
- Publication number
- JP7202075B2 JP7202075B2 JP2018089922A JP2018089922A JP7202075B2 JP 7202075 B2 JP7202075 B2 JP 7202075B2 JP 2018089922 A JP2018089922 A JP 2018089922A JP 2018089922 A JP2018089922 A JP 2018089922A JP 7202075 B2 JP7202075 B2 JP 7202075B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- detected
- features
- vrd
- vrds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 claims description 60
- 238000000034 method Methods 0.000 claims description 59
- 230000005236 sound signal Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 20
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 238000013442 quality metrics Methods 0.000 description 16
- 230000007246 mechanism Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000002730 additional effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
Description
本願明細書は、例えば、以下の項目も提供する。
(項目1)
発話ベースのコマンドを処理する方法であって、
ローカルに検出された発話イベントと関連付けられた特徴の集合を生成することと、
外部装置から、上記外部装置によって検出された上記発話イベントと関連付けられた第2の特徴の集合を受信することと、
上記特徴の集合と上記第2の特徴の集合との比較に基づいて、上記発話イベントに対応するアクションがローカルに実行されるべきであると判断することと、
上記アクションをローカルに実行することと、
を含む、上記方法。
(項目2)
上記特徴の集合が、上記発話イベントに対応するローカルに検出された音声信号の周波数を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記周波数が人間の発話と関連付けられる周波数範囲内に入ると判断することを含む、上記項目に記載の方法。
(項目3)
上記特徴の集合が、上記発話イベントに対応するローカルに検出された音声信号のエネルギーの測定量を含み、上記第2の特徴の集合が、上記発話イベントに対応する外部で検出された音声信号のエネルギーの第2の測定量を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記ローカルに検出された音声信号のエネルギーの上記測定量が、上記外部で検出された音声信号のエネルギーの上記第2の測定量よりも大きいと判断することを含む、上記項目のいずれかに記載の方法。
(項目4)
上記特徴の集合が、上記発話イベントに対応するローカルに検出された音声の質の測定量を含み、上記第2の特徴の集合が上記発話イベントに対応する外部で検出された音声の質の第2の測定量を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記ローカルに検出された音声の質の上記測定量が上記外部で検出された音声の質の上記第2の測定量よりも高いと判断することを含む、上記項目のいずれかに記載の方法。
(項目5)
上記特徴の集合が、上記発話イベントがローカルに検出されたときに対応するタイムスタンプを含み、上記第2の特徴の集合が、上記発話イベントが上記外部装置によって検出されたときに対応するタイムスタンプを含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記タイムスタンプに基づいて、上記発話イベントが上記外部装置によって検出された以前に上記発話イベントがローカルに検出されたと判断することを含む、上記項目のいずれかに記載の方法。
(項目6)
上記特徴の集合が、ローカルに検出された上記発話イベントから認識された話された内容と関連付けられた信頼スコアを含み、上記第2の特徴の集合が、上記外部装置によって検出された上記発話イベントから認識された話された内容と関連付けられた第2の信頼スコアを含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記ローカルに検出された音声の上記信頼スコアが上記第2の信頼スコアよりも高いと判断することを含む、上記項目のいずれかに記載の方法。
(項目7)
上記特徴の集合が、上記発話イベントから認識された話された内容と関連付けられた信頼スコアを含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記信頼スコアが閾値よりも大きいと判断することを含む、上記項目のいずれかに記載の方法。
(項目8)
上記特徴の集合が、上記発話イベントから認識された話された内容を含み、上記第2の特徴の集合が、上記発話イベントから認識された第2の話された内容を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記話された内容が上記第2の話された内容と実質的に一致すると判断することを含む、上記項目のいずれかに記載の方法。
(項目9)
ローカルに検出された第2の発話イベントと関連付けられた第3の特徴の集合を生成することと、
上記外部装置から、上記外部装置によって検出された上記第2の発話イベントと関連付けられた第4の特徴の集合を受信することと、
上記第3の特徴の集合と上記第4の特徴の集合との比較に基づいて、上記発話イベントに対応するアクションが上記外部装置によって実行されるべきであると判断することと、
上記第2の発話イベントのローカル処理を終了することと、
をさらに含む、上記項目のいずれかに記載の方法。
(項目10)
プロセッサによる実行時に、上記プロセッサに、
ローカルに検出された発話イベントと関連付けられた特徴の集合を生成するステップと、
外部装置から、上記外部装置によって検出された上記発話イベントと関連付けられた第2の特徴の集合を受信するステップと、
上記特徴の集合と上記第2の特徴の集合との比較に基づいて、上記発話イベントに対応するアクションがローカルに実行されるべきであると判断するステップと、
上記アクションをローカルに実行するステップと、
を実行することによって発話ベースのコマンドを処理させる命令を記憶するコンピュータ可読媒体。
(項目11)
上記特徴の集合が、上記発話イベントに対応するローカルに検出された音声信号の周波数を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記周波数が人間の発話と関連付けられた周波数範囲内に入ると判断することを含む、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目12)
上記特徴の集合が、上記発話イベントに対応するローカルに検出された音声信号のエネルギーの測定量を含み、上記第2の特徴の集合が、上記発話イベントに対応する外部で検出された音声信号のエネルギーの第2の測定量を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記ローカルに検出された音声信号のエネルギーの上記測定量が、上記外部で検出された音声信号のエネルギーの上記第2の測定量よりも大きいと判断することを含む、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目13)
上記特徴の集合が、上記発話イベントに対応するローカルに検出された音声の質の測定量を含み、上記第2の特徴の集合が上記発話イベントに対応する外部で検出された音声の質の第2の測定量を含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記ローカルに検出された音声の質の上記測定量が上記外部で検出された音声の質の上記第2の測定量よりも高いと判断することを含む、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目14)
上記特徴の集合が、上記発話イベントがローカルに検出されたときに対応するタイムスタンプを含み、上記第2の特徴の集合が、上記発話イベントが上記外部装置によって検出されたときに対応するタイムスタンプを含み、上記発話イベントに対応する上記アクションがローカルに実行されるべきであると判断することが、上記タイムスタンプに基づいて、上記発話イベントが上記外部装置によって検出された以前に上記発話イベントがローカルに検出されたと判断することを含む、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目15)
上記タイムスタンプが同期されたクロックに基づいて決定される、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目16)
上記命令が、上記プロセッサに、上記外部装置によって検出された上記発話イベントが、ローカルに検出された上記発話イベントに一致すると判断するステップをさらに実行させる、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目17)
上記外部装置によって検出された上記発話イベントが、ローカルに検出された上記発話イベントに一致すると判断することが、上記外部装置が上記発話イベントを検出したときに対応する外部タイムスタンプを、上記発話イベントがローカルに検出されたときに対応するローカルタイムスタンプと比較することを含む、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目18)
上記外部装置によって検出された上記発話イベントが、ローカルに検出された上記発話イベントと一致すると判断することが、上記外部装置によって検出された上記発話イベントに基づいて認識された第1の内容を、ローカルに検出された上記発話イベントに基づいて認識された第2の内容と比較することを含む、上記項目のいずれかに記載のコンピュータ可読媒体。
(項目19)
音声認識システムであって、
マイクと、
コンピュータプロセッサであって、
上記マイクを介してローカルに検出された発話イベントと関連付けられた特徴の集合を生成するステップと、
外部で検出された上記発話イベントと関連付けられた第2の特徴の集合を受信するステップと、
上記特徴の集合と上記第2の特徴の集合との比較に基づいて、上記発話イベントに対応するアクションがローカルに実行されるべきであると判断するステップと、
上記アクションをローカルに実行するステップと、
を実行するために命令を実行する上記コンピュータプロセッサと、
を備える、上記音声認識システム。
(項目20)
上記命令が、
上記マイクを介してローカルに検出された第2の発話イベントと関連付けられた第3の特徴の集合を生成するステップと、
上記外部装置から、外部で検出された上記第2の発話イベントと関連付けられた第4の特徴の集合を受信するステップと、
上記第3の特徴の集合と上記第4の特徴の集合との比較に基づいて、上記発話イベントに対応するアクションが上記外部装置によって実行されるべきであると判断するステップと、
上記第2の発話イベントのローカル処理を終了するステップと、
を、上記プロセッサにさらに実行させる、上記項目のいずれかに記載の音声認識システム。
(摘要)
本発明の一実施形態は音声認識装置を選択するための機構を説明し、該音声認識装置は検出された発話イベントに対応する音声コマンドを処理するために係る装置のネットワークに含まれる。ネットワークの音声認識装置は、装置の内のどの装置が発話イベントに対応する音声コマンドを処理するために最適であるのかを個別に判断する。動作中、同じ発話イベントを検出した音声認識装置のそれぞれは、音声コマンドを処理するために同じ装置を独立して選択する。選択された装置を含む音声認識装置のそれぞれは、音声コマンドを処理するために同じ装置を選択するため、音声認識装置は選択された装置に関係する情報を互いと共有する必要がない。
Claims (18)
- 複数の音声認識装置(VRD)を備えるVRDネットワークにおいて発話ベースのコマンドを処理する方法であって、前記方法が、前記複数のVRDの各々が、
ローカルに検出された発話イベントと関連付けられた特徴の集合を生成することであって、前記特徴の集合が、前記発話イベントから認識された話された内容を含む、ことと、
前記特徴の集合及び関連付けられたメタデータを前記ネットワークの他のVRDに送信することであって、前記メタデータが、前記話された内容の特徴と関連付けられている、ことと、
前記ネットワークの前記他のVRDの各々から、前記ネットワークの前記他のVRDのうちの当該VRDによって検出された前記発話イベントと関連付けられた第2の特徴の集合を受信することであって、前記第2の特徴の集合が、前記ネットワークの前記他のVRDのうちの当該VRDによって前記発話イベントから認識された第2の話された内容を含む、ことと、
前記特徴の集合と前記第2の特徴の集合との比較に基づいて、前記発話イベントに対応するアクションが前記ネットワークの前記VRDのうちの決定されたVRDによってローカルに実行されるべきであると判断することであって、前記判断することが、前記話された内容が前記第2の話された内容と実質的に一致すると判断することを含む、ことと、
を行うことを含み、
前記方法が、前記ネットワークの前記VRDのうちの前記決定されたVRDによって前記アクションをローカルに実行することをさらに含む、方法。 - 前記特徴の集合が、前記発話イベントに対応するローカルに検出された音声信号の周波数を含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記周波数が人間の発話と関連付けられる周波数範囲内に入ると判断することを含む、請求項1に記載の方法。
- 前記特徴の集合が、前記発話イベントに対応するローカルに検出された音声信号のエネルギーの測定量を含み、前記第2の特徴の集合が、前記発話イベントに対応する外部で検出された音声信号のエネルギーの第2の測定量を含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記ローカルに検出された音声信号のエネルギーの前記測定量が、前記外部で検出された音声信号のエネルギーの前記第2の測定量よりも大きいと判断することを含む、請求項1に記載の方法。
- 前記特徴の集合が、前記発話イベントに対応するローカルに検出された音声の質の測定量を含み、前記第2の特徴の集合が前記発話イベントに対応する外部で検出された音声の質の第2の測定量を含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記ローカルに検出された音声の質の前記測定量が前記外部で検出された音声の質の前記第2の測定量よりも高いと判断することを含む、請求項1に記載の方法。
- 前記特徴の集合が、前記発話イベントがローカルに検出されたときに対応するタイムスタンプを含み、前記第2の特徴の集合が、前記発話イベントが前記ネットワークの前記他のVRDのうちの当該VRDによって検出されたときに対応するタイムスタンプを含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記タイムスタンプに基づいて、前記発話イベントが前記ネットワークの前記他のVRDのうちの当該VRDによって検出された以前に前記発話イベントがローカルに検出されたと判断することを含む、請求項1に記載の方法。
- 前記特徴の集合が、ローカルに検出された前記発話イベントから認識された話された内容と関連付けられた信頼スコアを含み、前記第2の特徴の集合が、前記ネットワークの前記他のVRDによって検出された前記発話イベントから認識された話された内容と関連付けられた第2の信頼スコアを含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記ローカルに検出された音声の前記信頼スコアが前記第2の信頼スコアよりも高いと判断することを含む、請求項1に記載の方法。
- 前記特徴の集合が、前記発話イベントから認識された話された内容と関連付けられた信頼スコアを含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記信頼スコアが閾値よりも大きいと判断することを含む、請求項1に記載の方法。
- 前記複数のVRDの各々が、
ローカルに検出された第2の発話イベントと関連付けられた第3の特徴の集合を生成することと、
前記ネットワークの前記他のVRDの各々から、前記ネットワークの前記他のVRDのうちの当該VRDによって検出された前記第2の発話イベントと関連付けられた第4の特徴の集合を受信することと、
前記第3の特徴の集合と前記第4の特徴の集合との比較に基づいて、前記発話イベントに対応するアクションが前記ネットワークの前記他のVRDのうちの前記VRDによって実行されるべきであると判断することと、
前記第2の発話イベントのローカル処理を終了することと、
を行うことをさらに含む、請求項1に記載の方法。 - プロセッサによる実行時に、前記プロセッサに、ステップを実行することによって複数の音声認識装置(VRD)を備えるVRDネットワークにおいて発話ベースのコマンドを処理させるプログラムを記憶するコンピュータ可読媒体であって、前記ステップが、
ローカルに検出された発話イベントと関連付けられた特徴の集合を生成するステップであって、前記特徴の集合が、前記発話イベントから認識された話された内容を含む、ステップと、
前記特徴の集合及び関連付けられたメタデータを前記ネットワークの他のVRDに送信するステップであって、前記メタデータが、前記話された内容の特徴と関連付けられている、ステップと、
前記ネットワークの前記他のVRDの各々から、前記ネットワークの前記他のVRDのうちの当該VRDによって検出された前記発話イベントと関連付けられた第2の特徴の集合を受信するステップであって、前記第2の特徴の集合が、前記ネットワークの前記他のVRDのうちの当該VRDによって前記発話イベントから認識された第2の話された内容を含む、ステップと、
前記特徴の集合と前記第2の特徴の集合との比較に基づいて、前記発話イベントに対応するアクションが前記ネットワークの前記VRDのうちの決定されたVRDによってローカルに実行されるべきであると判断するステップであって、前記判断することが、前記話された内容が前記第2の話された内容と実質的に一致すると判断することを含む、ステップと、
であり、
前記ステップが、前記ネットワークの前記VRDのうちの前記決定されたVRDによって前記アクションをローカルに実行することをさらに含む、コンピュータ可読媒体。 - 前記特徴の集合が、前記発話イベントに対応するローカルに検出された音声信号の周波数を含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記周波数が人間の発話と関連付けられた周波数範囲内に入ると判断することを含む、請求項9に記載のコンピュータ可読媒体。
- 前記特徴の集合が、前記発話イベントに対応するローカルに検出された音声信号のエネルギーの測定量を含み、前記第2の特徴の集合が、前記発話イベントに対応する外部で検出された音声信号のエネルギーの第2の測定量を含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記ローカルに検出された音声信号のエネルギーの前記測定量が、前記外部で検出された音声信号のエネルギーの前記第2の測定量よりも大きいと判断することを含む、請求項9に記載のコンピュータ可読媒体。
- 前記特徴の集合が、前記発話イベントに対応するローカルに検出された音声の質の測定量を含み、前記第2の特徴の集合が前記発話イベントに対応する外部で検出された音声の質の第2の測定量を含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記ローカルに検出された音声の質の前記測定量が前記外部で検出された音声の質の前記第2の測定量よりも高いと判断することを含む、請求項9に記載のコンピュータ可読媒体。
- 前記特徴の集合が、前記発話イベントがローカルに検出されたときに対応するタイムスタンプを含み、前記第2の特徴の集合が、前記発話イベントが前記ネットワークの前記他のVRDのうちの当該VRDによって検出されたときに対応するタイムスタンプを含み、前記発話イベントに対応する前記アクションがローカルに実行されるべきであると判断することが、前記タイムスタンプに基づいて、前記発話イベントが前記ネットワークの前記他のVRDのうちの当該VRDによって検出された以前に前記発話イベントがローカルに検出されたと判断することを含む、請求項9に記載のコンピュータ可読媒体。
- 前記タイムスタンプが同期されたクロックに基づいて決定される、請求項13に記載のコンピュータ可読媒体。
- 前記話された内容が前記第2の話された内容と実質的に一致すると判断することが、前記ネットワークの前記他のVRDが前記発話イベントを検出したときに対応する外部タイムスタンプを、前記発話イベントがローカルに検出されたときに対応するローカルタイムスタンプと比較することを含む、請求項9に記載のコンピュータ可読媒体。
- 前記話された内容が前記第2の話された内容と実質的に一致すると判断することが、前記ネットワークの前記他のVRDによって検出された前記発話イベントに基づいて認識された第1の内容を、ローカルに検出された前記発話イベントに基づいて認識された第2の内容と比較することを含む、請求項9に記載のコンピュータ可読媒体。
- 複数の音声認識装置(VRD)を備えるVRDネットワークにおいて使用する音声認識装置(VRD)であって、前記VRDが、
マイクと、
プログラムを実行するコンピュータプロセッサであって、前記プログラムが、前記コンピュータプロセッサにステップを実行させ、前記ステップが、
前記マイクを介してローカルに検出された発話イベントと関連付けられた特徴の集合を生成するステップであって、前記特徴の集合が、前記発話イベントから認識された話された内容を含む、ステップと、
前記特徴の集合及び関連付けられたメタデータを前記ネットワークの他のVRDに送信するステップであって、前記メタデータが、前記話された内容の特徴と関連付けられている、ステップと、
前記ネットワークの前記VRDの各々から、前記ネットワークの前記他のVRDのうちの当該VRDによって検出された前記発話イベントと関連付けられた第2の特徴の集合を受信するステップであって、前記第2の特徴の集合が、前記ネットワークの前記他のVRDのうちの当該VRDによって前記発話イベントから認識された第2の話された内容を含む、ステップと、
前記特徴の集合と前記第2の特徴の集合との比較に基づいて、前記発話イベントに対応するアクションが前記ネットワークの前記VRDのうちの決定されたVRDによってローカルに実行されるべきであると判断するステップであって、前記判断することが、前記話された内容が前記第2の話された内容と実質的に一致すると判断することを含む、ステップと、
であり、
前記ステップが、前記ネットワークの前記VRDのうちの前記決定されたVRDによって前記アクションをローカルに実行することをさらに含む、コンピュータプロセッサと、
を備える、VRD。 - 前記プログラムが、
前記マイクを介してローカルに検出された第2の発話イベントと関連付けられた第3の特徴の集合を生成するステップと、
前記ネットワークの前記他のVRDの各々から、外部で検出された前記第2の発話イベントと関連付けられた第4の特徴の集合を受信するステップと、
前記第3の特徴の集合と前記第4の特徴の集合との比較に基づいて、前記発話イベントに対応するアクションが前記ネットワークの前記他のVRDのうちのVRDによって実行されるべきであると判断するステップと、
前記第2の発話イベントのローカル処理を終了するステップと、
を、前記コンピュータプロセッサにさらに実行させる、請求項17に記載のVRD。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/604,536 US10665232B2 (en) | 2017-05-24 | 2017-05-24 | Coordination among multiple voice recognition devices |
US15/604,536 | 2017-05-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018197855A JP2018197855A (ja) | 2018-12-13 |
JP7202075B2 true JP7202075B2 (ja) | 2023-01-11 |
Family
ID=62186258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018089922A Active JP7202075B2 (ja) | 2017-05-24 | 2018-05-08 | 複数の音声認識装置間の調整 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10665232B2 (ja) |
EP (1) | EP3407348B1 (ja) |
JP (1) | JP7202075B2 (ja) |
KR (1) | KR20180128838A (ja) |
CN (1) | CN108962258B (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7062958B2 (ja) * | 2018-01-10 | 2022-05-09 | トヨタ自動車株式会社 | 通信システム、及び通信方法 |
KR20200074680A (ko) * | 2018-12-17 | 2020-06-25 | 삼성전자주식회사 | 단말 장치 및 이의 제어 방법 |
WO2020175802A1 (en) * | 2019-02-27 | 2020-09-03 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
WO2020196955A1 (ko) * | 2019-03-27 | 2020-10-01 | 엘지전자 주식회사 | 인공 지능 기기 및 인공 지능 기기의 동작 방법 |
US20220301561A1 (en) * | 2019-12-10 | 2022-09-22 | Rovi Guides, Inc. | Systems and methods for local automated speech-to-text processing |
CN113489627A (zh) * | 2020-03-16 | 2021-10-08 | 深圳市艾特智能科技有限公司 | 一种智能设备语音唤醒方法、系统、可读存储介质及电子设备 |
US11798530B2 (en) * | 2020-10-30 | 2023-10-24 | Google Llc | Simultaneous acoustic event detection across multiple assistant devices |
KR20220057989A (ko) * | 2020-10-30 | 2022-05-09 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
US11749284B2 (en) | 2020-11-13 | 2023-09-05 | Google Llc | Dynamically adapting on-device models, of grouped assistant devices, for cooperative processing of assistant requests |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170083285A1 (en) | 2015-09-21 | 2017-03-23 | Amazon Technologies, Inc. | Device selection for providing a response |
JP2017072857A (ja) | 2014-10-09 | 2017-04-13 | グーグル インコーポレイテッド | 複数のデバイス上でのホットワード検出 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0720892A (ja) * | 1993-06-30 | 1995-01-24 | Fujitsu Ltd | 音声認識装置におけるノイズキャンセリング装置 |
US9978365B2 (en) * | 2008-10-31 | 2018-05-22 | Nokia Technologies Oy | Method and system for providing a voice interface |
US8660847B2 (en) * | 2011-09-02 | 2014-02-25 | Microsoft Corporation | Integrated local and cloud based speech recognition |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
US9514747B1 (en) * | 2013-08-28 | 2016-12-06 | Amazon Technologies, Inc. | Reducing speech recognition latency |
JP6118838B2 (ja) | 2014-08-21 | 2017-04-19 | 本田技研工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
US10789041B2 (en) * | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9734845B1 (en) * | 2015-06-26 | 2017-08-15 | Amazon Technologies, Inc. | Mitigating effects of electronic audio sources in expression detection |
US10026399B2 (en) * | 2015-09-11 | 2018-07-17 | Amazon Technologies, Inc. | Arbitration between voice-enabled devices |
US20170311005A1 (en) * | 2016-04-26 | 2017-10-26 | Szu-Tung Lin | Method of wireless audio transmission and playback |
-
2017
- 2017-05-24 US US15/604,536 patent/US10665232B2/en active Active
-
2018
- 2018-05-08 JP JP2018089922A patent/JP7202075B2/ja active Active
- 2018-05-15 KR KR1020180055163A patent/KR20180128838A/ko not_active Application Discontinuation
- 2018-05-15 EP EP18172414.7A patent/EP3407348B1/en active Active
- 2018-05-23 CN CN201810500648.3A patent/CN108962258B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017072857A (ja) | 2014-10-09 | 2017-04-13 | グーグル インコーポレイテッド | 複数のデバイス上でのホットワード検出 |
US20170083285A1 (en) | 2015-09-21 | 2017-03-23 | Amazon Technologies, Inc. | Device selection for providing a response |
Also Published As
Publication number | Publication date |
---|---|
CN108962258A (zh) | 2018-12-07 |
US20180342244A1 (en) | 2018-11-29 |
EP3407348B1 (en) | 2022-07-27 |
CN108962258B (zh) | 2023-08-15 |
KR20180128838A (ko) | 2018-12-04 |
JP2018197855A (ja) | 2018-12-13 |
EP3407348A1 (en) | 2018-11-28 |
US10665232B2 (en) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7202075B2 (ja) | 複数の音声認識装置間の調整 | |
US11922095B2 (en) | Device selection for providing a response | |
US11138977B1 (en) | Determining device groups | |
CN110214351B (zh) | 记录的媒体热词触发抑制 | |
US10149049B2 (en) | Processing speech from distributed microphones | |
US10431217B2 (en) | Audio playback device that dynamically switches between receiving audio data from a soft access point and receiving audio data from a local access point | |
KR101752119B1 (ko) | 다수의 디바이스에서의 핫워드 검출 | |
US20170330566A1 (en) | Distributed Volume Control for Speech Recognition | |
JP6450139B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP7470839B2 (ja) | クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoS | |
US9460714B2 (en) | Speech processing apparatus and method | |
US20240257809A1 (en) | Multi-device output management | |
EP4004907B1 (en) | Multi-device wakeword detection | |
US11528571B1 (en) | Microphone occlusion detection | |
JP2019139146A (ja) | 音声認識システム、及び、音声認識方法 | |
US20210174811A1 (en) | Asynchronous ad-hoc distributed microphone array processing in smart home applications using voice biometrics | |
EP3539128A1 (en) | Processing speech from distributed microphones | |
US12002444B1 (en) | Coordinated multi-device noise cancellation | |
US12125483B1 (en) | Determining device groups |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210409 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220502 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7202075 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |