JP2022542113A - 複数装置の起動ワード検出 - Google Patents
複数装置の起動ワード検出 Download PDFInfo
- Publication number
- JP2022542113A JP2022542113A JP2022504624A JP2022504624A JP2022542113A JP 2022542113 A JP2022542113 A JP 2022542113A JP 2022504624 A JP2022504624 A JP 2022504624A JP 2022504624 A JP2022504624 A JP 2022504624A JP 2022542113 A JP2022542113 A JP 2022542113A
- Authority
- JP
- Japan
- Prior art keywords
- activation word
- word confidence
- activation
- local maximum
- wake
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims description 89
- 230000004913 activation Effects 0.000 claims abstract description 350
- 238000000034 method Methods 0.000 claims abstract description 138
- 230000000977 initiatory effect Effects 0.000 claims description 54
- 230000007423 decrease Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 9
- 230000000630 rising effect Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010411 cooking Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
Abstract
オーディオ処理のための装置を選択する方法は、少なくとも第1マイクロフォンを含む第1装置から第1起動ワード信頼指標を受信するステップと、少なくとも第2マイクロフォンを含む第2装置から第2起動ワード信頼指標を受信するステップと、を含んでよい。前記第1及び第2起動ワード信頼指標は、前記第1装置により決定された第1の複数の起動ワード信頼値のうちの第1ローカル最大値、及び前記第2装置により決定された第2の複数の起動ワード信頼値のうちの第2ローカル最大値に対応してよい。前記方法は、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標を比較するステップと、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。
Description
[関連出願]
本願は、米国仮特許出願番号第62/880,112号、2019年7月30日出願、及び米国仮特許出願番号第62/964,018号、2020年1月21日出願の優先権を主張する。両出願は、参照によりその全体がここに組み込まれる。
本願は、米国仮特許出願番号第62/880,112号、2019年7月30日出願、及び米国仮特許出願番号第62/964,018号、2020年1月21日出願の優先権を主張する。両出願は、参照によりその全体がここに組み込まれる。
[技術分野]
本開示は、環境内の複数の装置の中から、オーディオ処理のための装置を自動的に選択するシステム及び方法に関する。
本開示は、環境内の複数の装置の中から、オーディオ処理のための装置を自動的に選択するシステム及び方法に関する。
限定ではなくスマートオーディオ装置を含むオーディオ装置は、広く展開されており、多くの家庭の一般的特徴になりつつある。オーディオ装置の位置を特定する既存のシステム及び方法は利益をもたらすが、改良されたシステム及び方法が望ましいことがある。
[注釈及び用語]
本願明細書では、表現「スマートオーディオ装置」は、単一目的のオーディオ装置又は仮想アシスタント(例えば、接続された仮想アシスタント)であるスマート装置を示すために使用される。単一目的のオーディオ装置は、少なくとも1つのマイクロフォンを含む又はそれに結合された(及び幾つかの例では少なくとも1つのスピーカも含み又はそれに結合された)倣いbに単一目的を達成するために大部分は又は主に設計された装置(例えば、スマートスピーカ、テレビジョン(TV)、又は携帯電話機)である。TVは、標準的に番組素材からオーディオを再生できるが(再生する能力があると考えられるが)、多くの例では、最新のTVは、何らかのオペレーティングシステムを実行し、該オペレーティングシステム上ではテレビを試聴するアプリケーションを含むアプリケーションがローカルに実行する。同様に、携帯電話機におけるオーディオ入力及び出力は、多くのことを行い得るが、これらは該電話機上で実行しているアプリケーションによりサービスされる。この意味で、スピーカ及びマイクロフォンを有する単一目的オーディオ装置は、ローカルアプリケーション及び/又はサービスを実行して、スピーカ及びマイクロフォンを直接使用するよう構成されることが多い。幾つかの単一目的オーディオ装置は、ゾーン又はユーザの構成した領域に渡りオーディオの再生を達成するために一緒にグループ化するよう構成されてよい。
本願明細書では、表現「スマートオーディオ装置」は、単一目的のオーディオ装置又は仮想アシスタント(例えば、接続された仮想アシスタント)であるスマート装置を示すために使用される。単一目的のオーディオ装置は、少なくとも1つのマイクロフォンを含む又はそれに結合された(及び幾つかの例では少なくとも1つのスピーカも含み又はそれに結合された)倣いbに単一目的を達成するために大部分は又は主に設計された装置(例えば、スマートスピーカ、テレビジョン(TV)、又は携帯電話機)である。TVは、標準的に番組素材からオーディオを再生できるが(再生する能力があると考えられるが)、多くの例では、最新のTVは、何らかのオペレーティングシステムを実行し、該オペレーティングシステム上ではテレビを試聴するアプリケーションを含むアプリケーションがローカルに実行する。同様に、携帯電話機におけるオーディオ入力及び出力は、多くのことを行い得るが、これらは該電話機上で実行しているアプリケーションによりサービスされる。この意味で、スピーカ及びマイクロフォンを有する単一目的オーディオ装置は、ローカルアプリケーション及び/又はサービスを実行して、スピーカ及びマイクロフォンを直接使用するよう構成されることが多い。幾つかの単一目的オーディオ装置は、ゾーン又はユーザの構成した領域に渡りオーディオの再生を達成するために一緒にグループ化するよう構成されてよい。
ここで、「仮想アシスタント」(例えば、接続された仮想アシスタント)は、少なくとも1つのマイクロフォンを含み又はそれに結合される(及び任意的に少なくとも1つのスピーカも含み又はそれに結合される)、並びにある意味でクラウド対応であり又はその他の場合に仮想アシスタント自体に又はその上に実装されないアプリケーションのために(仮想アシスタントから離れた)複数の装置を利用する能力を提供し得る装置(例えば、スマートスピーカ、スマートディスプレイ、又は音声アシスタント統合装置)である。仮想アシスタントは、時に、一緒に、例えば非常に離散的且つ条件付きで定義された方法で、動作してよい。例えば、2つ以上の仮想アシスタントは、それらのうちの1つ、つまり起動ワードを聞いたことを最も確信しているものが、ワードに応答するという意味で、一緒に動作してよい。接続された装置は、ある種のコンステレーションを形成してよく、これは、仮想アシスタントであってよい(又はそれを含む又は実装する)1つのメインアプリケーションにより管理されてよい。
ここで、「起動ワード(wakeword)」は、広い意味で使用され、任意の音声(例えば、人間により発話された単語、又は何らかの他の音声)を示し、スマートオーディオ装置は、(スマートオーディオ装置に含まれる又はそれに結合される少なくとも1つのマイクロフォン、又は少なくとも1つの他のマイクロフォンを用いて)音声の検出(「聞こえること」)に応答して起動するよう構成される。この文脈では、「起動する(awake)」ことは、装置が、音声コマンドを待機している(つまり、傾聴している)状態に入ることを示す。
ここで、表現「起動ワード検出器」は、リアルタイム音声(例えば、会話)特徴とトレーニング済みモデルとの間の不整合を連続的に検索するよう構成された装置(又は装置を構成するための命令を含むソフトウェア)を示す。標準的に、起動イベントは、起動ワードが検出される確立が所定の閾値を超えることが起動ワード検出器により決定されるときは常にトリガされる。例えば、閾値は、誤った受容と誤った拒否との率の間の良好な妥協を与えるよう調整される所定の閾値であってよい。起動ワードイベントに続き、装置は、コマンドを傾聴し、受信したコマンドをより大きなより計算集約的な認識器に渡す状態(これは、「起動」状態又は「注意力(attentiveness)」状態と呼ばれてよい)に入り得る。
特許請求の範囲を含む本開示を通じて、「スピーカ」及び「ラウドスピーカ」は、単一のスピーカ供給により駆動される任意の放音トランスデューサ(又はトランスデューサのセット)を示すために同義的に使用される。標準的なヘッドフォンセットは、2つのスピーカを含む。スピーカは、複数のトランスデューサ(例えば、ウーファー及びツイーター)を含むよう実装され、これらの全部は単一の共通のスピーカ供給により駆動される。スピーカ供給は、幾つかの場合には、異なるトランスデューサに結合された異なる回路ブランチで異なる処理を受けてよい。
特許請求の範囲を含む本開示を通じて、信号又はデータに「対して」動作を実行する(例えば、信号又はデータをフィルタリング、スケーリング、変換、又は利得を適用する)という表現は、信号又はデータに、又は信号又はデータの処理済みのバージョンに(例えば、当該動作の実行の前に予備的なフィルタリング又は後処理の行われた信号のバージョン)、直接動作を実行することを示すために広義に使用される。
特許請求の範囲を含む本開示を通じて、表現「システム」は、装置、システム、又はサブシステムを示すために広義に使用される。例えば、デコーダを実装するサブシステムは、デコーダシステムと呼ばれてよく、このようなサブシステムを含むシステムは(例えば、複数の複数の入力に応答してX個の出力信号を生成するシステムであり、そのうちサブシステムがM個の入力を生成し、他のX-M個の入力は外部ソースから受信される)、デコーダシステムとも呼ばれてよい。
特許請求の範囲を含む本開示を通じて、用語「プロセッサ」は、データ(例えば、オーディオ又はビデオ又は他の画像データ)に対して動作を実行するよう(ソフトウェア又はファームウェアにより)プログラム可能な又はその他の場合構成可能なシステム又は装置を示すために広義に使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ(又は他の構成可能な集積回路又はチップセット)、オーディオ又は他の音声データに対してパイプライン処理を実行するようプログラムされた及び/又はその他の場合に構成されたデジタル信号プロセッサ、プログラム可能な汎用プロセッサ若しくはコンピュータ、及びプログラム可能なマイクロプロセッサチップ又はチップセットを含む。
本開示の少なくとも幾つかの態様は、方法を介して実装されてよい。幾つかの方法は、少なくとも第1マイクロフォンを含む第1装置から第1起動ワード信頼指標を受信するステップを含んでよい。第1起動ワード信頼指標は、例えば、第1装置により決定された第1の複数の起動ワード信頼値のうちの第1ローカル最大値に対応してよい。幾つかのそのような方法は、少なくとも第2マイクロフォンを含む第2装置から第2起動ワード信頼指標を受信するステップを含んでよい。第2起動ワード信頼指標は、例えば、第2装置により決定された第2の複数の起動ワード信頼値のうちの第2ローカル最大値に対応してよい。幾つかのそのような方法は、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標を比較するステップと、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。
幾つかの例では、方法は、少なくとも第3マイクロフォンを含む第3装置から第3起動ワード信頼指標を受信するステップを含んでよい。第3起動ワード信頼指標は第3装置により決定された第3の複数の起動ワード信頼値のうちの第3ローカル最大値に対応してよい。方法は、前記第3起動ワード信頼指標を前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標と比較するステップと、前記第1起動ワード信頼指標、前記第2起動ワード信頼指標、及び第3起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。
幾つかの実装によると、後続のオーディオ処理は、会話認識処理を含んでよい。幾つかの例では、後続のオーディオ処理は、コマンド認識処理を含んでよい。幾つかのそのような方法は、前記コマンド認識処理に従い、選択された装置を制御するステップ、を更に含んでよい。
幾つかの例では、ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定されてよい。幾つかのそのような例では、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定されてよい。幾つかのそのような実装によると、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定されてよく、kは整数である。幾つかのそのような例は、前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより前記起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始するステップ、を更に含んでよい。幾つかのそのような例は、前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より低くなった後に、前記ローカル最大値決定時間間隔を終了するステップ、を更に含んでよい。
幾つかの例では、第1装置は、第1クロックドメインに従い第1マイクロフォンにより受信されたオーディオデータをサンプリングしてよい。幾つかのそのような例では、第2装置は、第1クロックドメインと異なる第2クロックドメインに従い、第2マイクロフォンにより受信されたオーディオデータをサンプリングしてよい。
幾つかの実装によると、前記方法は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行されてよい。代替として又は追加で、前記方法は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成される装置により実行されてよい。しかしながら、幾つかの例では、方法は、後続のオーディオ処理を実行するよう構成されない装置により、少なくとも部分的に実行されてよい。
本開示の少なくとも幾つかの態様は、代替の方法を介して実装されてよい。幾つかの代替の方法は、少なくとも第1マイクロフォンを有する第1マイクロフォンシステムを含む第1装置により、第1起動ワード信頼指標を決定するステップを含んでよい。第1起動ワード信頼指標を決定するステップは、第1マイクロフォンシステムにより、検出した音声に対応する第1オーディオデータを生成するステップと、第1オーディオデータに基づき、第1の複数の起動ワード信頼値を決定するステップと、を含んでよい。第1起動ワード信頼指標を決定するステップは、第1の複数の起動ワード信頼値のうちの第1ローカル最大値を決定するステップと、第1ローカル最大値に基づき第1起動ワード信頼指標を決定するステップと、を含んでよい。
幾つかのそのような方法は、少なくとも第2マイクロフォンを含む第2装置から第2起動ワード信頼指標を受信するステップを含んでよい。第2起動ワード信頼指標は、第2装置により決定された第2の複数の起動ワード信頼値のうちの第2ローカル最大値に対応してよい。幾つかのそのような方法は、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標を比較するステップと、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。
幾つかの例では、ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定されてよい。幾つかの例では、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定されてよい。幾つかの実装によると、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定されてよく、kは整数である。
幾つかのそのような実装は、前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより前記起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始するステップ、を更に含んでよい。幾つかの例によると、前記ローカル最大値決定時間間隔は、時間Aで開始し、時間(A+K)、前記第1装置及び前記第2装置の起動ワード信頼値が起動ワード検出終了閾値より下になる時間で終了してよい。幾つかの例では、起動ワード検出終了閾値は、起動ワード検出開始閾値以下であってよい。幾つかの実装では、起動ワード検出終了閾値は、起動ワード検出開始閾値以下であってよい。幾つかの例は、Kの最大値に達した後に、前記ローカル最大値決定時間間隔を終了するステップ、を含んでよい。
幾つかの例では、前記方法は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行されてよい。幾つかの実装によると、方法は、第1装置により実行されてよい。
幾つかの実装は、第1装置から第1起動ワード信頼指標を受信するステップを含んでよい。幾つかのそのような実装では、前記方法は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成されない装置により実行されてよい。
本願明細書に記載の動作、機能、及び/又は方法のうちの一部又は全部は、1つ以上の非一時的媒体に記憶された命令(例えば、ソフトウェア)に従い1つ以上の装置により実行されてよい。このような非一時的媒体は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、等を含むがこれらに限定されない、本願明細書に記載のようなメモリ装置を含んでよい。したがって、本開示に記載された主題の幾つかの新規な態様は、ソフトウェアを記憶された非一時的媒体に実装されてよい。
例えば、ソフトウェアは、第1起動ワード信頼指標を少なくとも第1マイクロフォンを含む第1装置から受信するステップを含む方法を実行するよう、1つ以上の装置を制御するための命令を含んでよい。第1起動ワード信頼指標は、例えば、第1装置により決定された第1の複数の起動ワード信頼値のうちの第1ローカル最大値に対応してよい。幾つかのそのような方法は、少なくとも第2マイクロフォンを含む第2装置から第2起動ワード信頼指標を受信するステップを含んでよい。第2起動ワード信頼指標は、例えば、第2装置により決定された第2の複数の起動ワード信頼値のうちの第2ローカル最大値に対応してよい。幾つかのそのような方法は、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標を比較するステップと、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。
幾つかの例では、方法は、少なくとも第3マイクロフォンを含む第3装置から第3起動ワード信頼指標を受信するステップを含んでよい。第3起動ワード信頼指標は第3装置により決定された第3の複数の起動ワード信頼値のうちの第3ローカル最大値に対応してよい。方法は、前記第3起動ワード信頼指標を前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標と比較するステップと、前記第1起動ワード信頼指標、前記第2起動ワード信頼指標、及び第3起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。
幾つかの実装によると、後続のオーディオ処理は、会話認識処理を含んでよい。幾つかの例では、後続のオーディオ処理は、コマンド認識処理を含んでよい。幾つかのそのような方法は、前記コマンド認識処理に従い、選択された装置を制御するステップ、を更に含んでよい。
幾つかの例では、ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定されてよい。幾つかのそのような例では、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定されてよい。幾つかのそのような実装によると、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定されてよく、kは整数である。幾つかのそのような例は、前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより前記起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始するステップ、を更に含んでよい。幾つかのそのような例は、前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より低くなった後に、前記ローカル最大値決定時間間隔を終了するステップ、を更に含んでよい。
幾つかの例では、第1装置は、第1クロックドメインに従い第1マイクロフォンにより受信されたオーディオデータをサンプリングしてよい。幾つかのそのような例では、第2装置は、第1クロックドメインと異なる第2クロックドメインに従い、第2マイクロフォンにより受信されたオーディオデータをサンプリングしてよい。
幾つかの実装によると、前記方法は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行されてよい。代替として又は追加で、前記方法は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成される装置により実行されてよい。しかしながら、幾つかの例では、方法は、後続のオーディオ処理を実行するよう構成されない装置により、少なくとも部分的に実行されてよい。
本開示の少なくとも幾つかの態様は、代替の方法を介して実装されてよい。幾つかの代替の方法は、少なくとも第1マイクロフォンを有する第1マイクロフォンシステムを含む第1装置により、第1起動ワード信頼指標を決定するステップを含んでよい。第1起動ワード信頼指標を決定するステップは、第1マイクロフォンシステムにより、検出した音声に対応する第1オーディオデータを生成するステップと、第1オーディオデータに基づき、第1の複数の起動ワード信頼値を決定するステップと、を含んでよい。第1起動ワード信頼指標を決定するステップは、第1の複数の起動ワード信頼値のうちの第1ローカル最大値を決定するステップと、第1ローカル最大値に基づき第1起動ワード信頼指標を決定するステップと、を含んでよい。
幾つかのそのような方法は、少なくとも第2マイクロフォンを含む第2装置から第2起動ワード信頼指標を受信するステップを含んでよい。第2起動ワード信頼指標は、第2装置により決定された第2の複数の起動ワード信頼値のうちの第2ローカル最大値に対応してよい。幾つかのそのような方法は、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標を比較するステップと、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。
幾つかの例では、ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定されてよい。幾つかの例では、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定されてよい。幾つかの実装によると、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定されてよく、kは整数である。
幾つかのそのような実装は、前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより前記起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始するステップ、を更に含んでよい。幾つかの例によると、前記ローカル最大値決定時間間隔は、時間Aで開始し、時間(A+K)、前記第1装置及び前記第2装置の起動ワード信頼値が起動ワード検出終了閾値より下になる時間で終了してよい。幾つかの例では、起動ワード検出終了閾値は、起動ワード検出開始閾値以下であってよい。幾つかの実装では、起動ワード検出終了閾値は、起動ワード検出開始閾値以下であってよい。幾つかの例は、Kの最大値に達した後に、前記ローカル最大値決定時間間隔を終了するステップ、を含んでよい。
幾つかの例では、前記方法は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行されてよい。幾つかの実装によると、方法は、第1装置により実行されてよい。
幾つかの実装は、第1装置から第1起動ワード信頼指標を受信するステップを含んでよい。幾つかのそのような実装では、前記方法は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成されない装置により実行されてよい。
本開示の少なくとも幾つかの態様は、機器を介して実装されてよい。例えば、1つ以上の装置は、本願明細書に開示した方法を少なくとも部分的に実行する能力があってよい。幾つかの実装では、機器は、インタフェースシステムおよび制御システムを含んでよい。制御システムは、汎用の単一又は複数チッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又は他のプログラマブル論理素子、個別ゲート又はトランジスタロジック、個別ハードウェアコンポーネント、又はそれらの組合せのうちの少なくとも1つを含んでよい。
幾つかの例によると、制御システムは、少なくとも第1マイクロフォンを含む第1装置から第1起動ワード信頼指標を受信するよう構成されてよい。第1起動ワード信頼指標は、例えば、第1装置により決定された第1の複数の起動ワード信頼値のうちの第1ローカル最大値に対応してよい。制御システムは、少なくとも第2マイクロフォンを含む第2装置から第2起動ワード信頼指標を受信するよう構成されてよい。第2起動ワード信頼指標は、例えば、第2装置により決定された第2の複数の起動ワード信頼値のうちの第2ローカル最大値に対応してよい。前記制御システムは、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標を比較し、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するよう構成されてよい。
幾つかの例では、制御システムは、少なくとも第3マイクロフォンを含む第3装置から第3起動ワード信頼指標を受信するよう構成されてよい。第3起動ワード信頼指標は第3装置により決定された第3の複数の起動ワード信頼値のうちの第3ローカル最大値に対応してよい。前記制御システムは、前記第3起動ワード信頼指標を前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標と比較し、前記第1起動ワード信頼指標、前記第2起動ワード信頼指標、及び第3起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するよう構成されてよい。
幾つかの実装によると、後続のオーディオ処理は、会話認識処理を含んでよい。幾つかの例では、後続のオーディオ処理は、コマンド認識処理を含んでよい。幾つかの実装では、前記制御システムは、前記コマンド認識処理に従い、選択された装置を制御するよう構成されてよい。
幾つかの例では、ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定されてよい。幾つかのそのような例では、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定されてよい。幾つかのそのような実装によると、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定されてよく、kは整数である。幾つかのそのような例は、前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより前記起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始するステップ、を更に含んでよい。幾つかのそのような例は、前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より低くなった後に、前記ローカル最大値決定時間間隔を終了するステップ、を更に含んでよい。
幾つかの例では、第1装置は、第1クロックドメインに従い第1マイクロフォンにより受信されたオーディオデータをサンプリングしてよい。幾つかのそのような例では、第2装置は、第1クロックドメインと異なる第2クロックドメインに従い、第2マイクロフォンにより受信されたオーディオデータをサンプリングしてよい。
幾つかの実装によると、前記制御システム機能は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行されてよい。代替として又は追加で、前記制御システム機能は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成される装置により実行されてよい。しかしながら、幾つかの例では、制御システム機能は、後続のオーディオ処理を実行するよう構成されない装置により、少なくとも部分的に実行されてよい。
本開示の少なくとも幾つかの態様は、代替の装置を介して実装されてよい。幾つかの代替の機器の制御システムは、少なくとも第1マイクロフォンを有する第1マイクロフォンシステムを含む第1装置により、第1起動ワード信頼指標を決定するよう構成されてよい。第1起動ワード信頼指標を決定することは、第1マイクロフォンシステムにより、検出した音声に対応する第1オーディオデータを生成することと、第1オーディオデータに基づき、第1の複数の起動ワード信頼値を決定することと、を含んでよい。第1起動ワード信頼指標を決定することは、第1の複数の起動ワード信頼値のうちの第1ローカル最大値を決定することと、第1ローカル最大値に基づき第1起動ワード信頼指標を決定することと、を含んでよい。
制御システムは、少なくとも第2マイクロフォンを含む第2装置から第2起動ワード信頼指標を受信するよう構成されてよい。第2起動ワード信頼指標は、第2装置により決定された第2の複数の起動ワード信頼値のうちの第2ローカル最大値に対応してよい。前記制御システムは、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標を比較し、前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するよう構成されてよい。
幾つかの例では、ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定されてよい。幾つかの例では、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定されてよい。幾つかの実装によると、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定されてよく、kは整数である。
幾つかのそのような実装は、前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより前記起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始すること、を更に含んでよい。幾つかの例によると、前記ローカル最大値決定時間間隔は、時間Aで開始し、時間(A+K)、前記第1装置及び前記第2装置の起動ワード信頼値が起動ワード検出終了閾値より下になる時間で終了してよい。幾つかの例では、起動ワード検出終了閾値は、起動ワード検出開始閾値以下であってよい。幾つかの実装では、起動ワード検出終了閾値は、起動ワード検出開始閾値以下であってよい。幾つかの例は、Kの最大値に達した後に、前記ローカル最大値決定時間間隔を終了すること、を含んでよい。
幾つかの例では、前述の動作のうちの少なくとも幾つかは、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行されてよい。幾つかの実装によると、そのような動作は、第1装置により実行されてよい。
幾つかの実装は、第1装置から第1起動ワード信頼指標を受信するステップを含んでよい。幾つかのそのような実装では、幾つかの動作は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成されない装置により実行されてよい。
本願明細書に記載の主題の1つ以上の実装の詳細は、添付の図面及び以下の説明において説明される。他の特徴、態様、および利点は、説明、図面、及び特許請求の範囲から明らかになる。以下の図面の相対的寸法は縮尺通りに描かれないことがある。
種々の図面において類似する番号および指示は、同様の要素示す。
複数のスマートオーディオ装置で構成される編成されたシステムは、ユーザからの「起動ワード(wakeword)」(以上に定義された)っが検出されるときを決定するよう構成されてよい。そのようなシステムの少なくとも幾つかの装置は、ユーザからのコマンドを傾聴するよう構成されてよい。
図1Aは、オーディオ対話のためのスマートオーディオ装置(装置1.1)のセット、オーディオ出力のためのスピーカ(1.3)、マイクロフォン(1.5)、及び制御可能照明(1.2)、を含むシステムを含む環境(居間空間)の図である。本願の他の図と同様に、図1Aに示される特定の要素及び要素の配置は、単に例として作成された。これらの特徴の必ずしも全部が、種々の開示された実装を実行するために必要ない。例えば、制御可能照明1.2、スピーカ1.3、等は、少なくとも幾つかの開示された実装にとっては任意である。幾つかの例では、マイクロフォン1.5のうちの1つ以上は、装置1.1、照明1.2、又はスピーカ1.3のうちの1つの部分であり、又はそれに関連付けられてよい。代替として又は追加で、マイクロフォン1.5のうちの1つ以上は、環境の別の部分に、例えば、壁に、天井に、家具に、家庭用電化製品に、又は環境の別の装置に、取り付けられてよい。例では、スマートオーディオ装置1.1の各々は、少なくとも1つのマイクロフォン1.5を含む(及び/又はそれと通信するよう構成される)。図1Aのシステムは、本開示の実施形態を実装するよう構成されてよい。種々の方法を用いて、情報は、集合的に図1Aのマイクロフォン1.5から取得され、起動ワードを話したユーザの位置推定を提供するよう構成される装置に提供されてよい。
居間空間(例えば、図1Aのもの)には、人が作業又は活動を行っている又は敷居をまたぐ自然な活動ゾーンのセットが存在する。これらの領域は、本願明細書ではユーザゾーンと呼ばれてよく、幾つかの例では地理的位置の座標又は他のインデックスを指定することなく、ユーザにより定義されてよい。図1Aに示した例では、ユーザゾーンは以下を含んでよい。
1.流し台及び調理領域(居間空間の左上領域)。
2.冷蔵庫ドア(流し台及び調理領域の右)。
3.食堂領域(居間空間の左下領域)。
4.居間空間のオープン領域(流し台及び調理領域及び食堂領域の右)。
5.TVカウチ(オープン領域の右)。
6.TV自体。
7.テーブル。
8.ドア領域又は入り口(生活空間の右上領域)。
1.流し台及び調理領域(居間空間の左上領域)。
2.冷蔵庫ドア(流し台及び調理領域の右)。
3.食堂領域(居間空間の左下領域)。
4.居間空間のオープン領域(流し台及び調理領域及び食堂領域の右)。
5.TVカウチ(オープン領域の右)。
6.TV自体。
7.テーブル。
8.ドア領域又は入り口(生活空間の右上領域)。
幾つかの実施形態によると、音声(例えば、起動ワード又は注意のための他の信号)が生じる又は発生する場所を推定するシステムは、該推定(又はそれに対する複数の仮説)について何らかの確かな信頼を有し得る。例えば、ユーザがシステムの環境のゾーンとゾーンの間の境界近くに居た場合、ユーザの位置の不確かな推定は、ユーザがゾーンの各々に居ることの確かな信頼を含み得る。音声インタフェースの幾つかの従来の実装では、音声アシスタントの音声が一度に1つの位置からのみ発行されることが必要であり、これは単一の位置について単一の選択肢を強制している(例えば、図1Aの8個のスピーカ位置1.1及び1.3のうちの1つ)。しかしながら、簡単な想像上のロールプレイに基づき、(そのような従来の実装では)アシスタントの音声の音源の選択された位置(例えば、アシスタントに含まれる又はそれと通信するよう構成されるスピーカの位置)が、注意を表現するための焦点又は自然なリターン応答である可能性は低い可能性がある。
次に、図1Bを参照して、直接会話102を発話するユーザ(101)、並びに、スマートオーディオ装置(103、105、107)のセットとオーディオ出力のためのスピーカとマイクロフォンとを含むシステムの例を含む別の環境100(音響空間)を説明する。システムは、本開示の実施形態に従い構成されてよい。ユーザ101(本願明細書では時に話者と呼ばれる)により発話された会話は、起動ワードとしてシステムの要素により認識されてよい。
より具体的には、図1Bの要素は、以下を含む:
102:直接ローカル音声(ユーザ101により生成される);
103:音声アシスタント装置(1つ以上のラウドスピーカに結合される);装置103は、装置105又は装置107よりも、ユーザ101の近くに位置付けられる。従って、装置103は時に「近い」装置と呼ばれ、装置105は「中距離」装置と呼ばれてよく、装置107は「遠い」装置と呼ばれてよい。
104:近い装置103内の(又はそれに結合される)複数のマイクロフォン;
105:中距離音声アシスタント装置(1つ以上のラウドスピーカに結合される);
106:中距離装置105内の(又はそれに結合される)複数のマイクロフォン;
107:遠い音声アシスタント装置(1つ以上のラウドスピーカに結合される);
108:遠い装置107内の(又はそれに結合される)複数のマイクロフォン;
109:家庭用機器(例えば、ランプ);
110:家庭用機器109内の(又はそれに結合される)複数のマイクロフォン。幾つかの例では、マイクロフォン110の各々は、開示される方法のうちの1つ以上を実施するよう構成される、幾つかの例では装置103、105、又は107のうちの少なくとも1つであってよい装置と通信するよう構成されてよい。
102:直接ローカル音声(ユーザ101により生成される);
103:音声アシスタント装置(1つ以上のラウドスピーカに結合される);装置103は、装置105又は装置107よりも、ユーザ101の近くに位置付けられる。従って、装置103は時に「近い」装置と呼ばれ、装置105は「中距離」装置と呼ばれてよく、装置107は「遠い」装置と呼ばれてよい。
104:近い装置103内の(又はそれに結合される)複数のマイクロフォン;
105:中距離音声アシスタント装置(1つ以上のラウドスピーカに結合される);
106:中距離装置105内の(又はそれに結合される)複数のマイクロフォン;
107:遠い音声アシスタント装置(1つ以上のラウドスピーカに結合される);
108:遠い装置107内の(又はそれに結合される)複数のマイクロフォン;
109:家庭用機器(例えば、ランプ);
110:家庭用機器109内の(又はそれに結合される)複数のマイクロフォン。幾つかの例では、マイクロフォン110の各々は、開示される方法のうちの1つ以上を実施するよう構成される、幾つかの例では装置103、105、又は107のうちの少なくとも1つであってよい装置と通信するよう構成されてよい。
話者101は、音響空間内で起動ワードを示す音声102を発話し、該音声は近い装置103、中距離装置105、及び遠い装置107により受信される。本例では、装置103、105、及び107の各々は、起動ワード検出器であり(又はそれを含み)、装置103、105、及び107の各々は、起動ワード可能性(起動ワードが装置により検出される確率)が所定の閾値を超えるときを決定するよう構成される。時間が経つにつれ、各装置により決定される起動ワード可能性は、時間の関数としてグラフ化できる。
図2は、3個の装置により決定される起動ワード信頼値の例を示す。図2に示す破線の曲線205aは、近い装置103により決定された、起動ワード可能性を時間の関数として示す。点線の曲線205bは、中距離装置105により決定された、起動ワード可能性を時間の関数として示す。実線の曲線205cは、遠い装置107により決定された、起動ワード可能性を時間の関数として示す。
図2から明らかなように、時間が経つにつれ、装置103、105、及び107の各々により決定される起動ワード可能性は、増大し、次に減少する(例えば、それが装置のうちの関連する1つの履歴バッファに入り及び出るとき)。幾つかの場合には、遠い装置の起動ワード可能性(図2の実線の曲線)は、中距離装置の起動ワード信頼性(図2の点線の曲線)より前に閾値を超え得る。中距離装置の起動ワード信頼性(図2の点線の曲線)は、また、近い装置の起動ワード信頼性(図2の破線の曲線)より前に閾値を超え得る。近い装置の起動ワード信頼性がそのローカル最大値(例えば、図2の関連する曲線の最大の最大値)に達する時間まで、このイベントは通常(従来のアプローチにより)無視され、起動ワード信頼性(起動ワード可能性)が最初に閾値を超えた装置(図2の例では遠い装置)を選択することを優先する。
図1Bに戻ると、システムは、本願明細書に開示されるオー処理のための装置を選択する1つ以上の方法を実施するよう構成される少なくとも1つの装置を含んでよい。例えば、装置103、装置105、及び/又は装置107は、1つ以上のそのような方法を実施するよう構成されてよい。代替として又は追加で、装置103、装置105、及び/又は装置107と通信するよう構成される別の装置が、1つ以上のそのような方法を実施するよう構成されてよい。幾つかの例では、1つ以上の開示された方法は、別のローカル装置(例えば、環境100内にある装置)により実施されてよいが、他の例では、1つ以上の開示された方法は、環境100の外部に位置するリモート装置(例えば、サーバ)により実施されてよい。
図3は、本開示の種々の態様を実装可能な機器のコンポーネントの例を示すブロック図である。幾つかの例によると、機器300は、本願明細書に開示される方法のうちの少なくとも幾つかを実行するよう構成されるスマートオーディオ装置であってよく、又はそれを含んでよい。他の実装では、機器300は、本願明細書に開示される方法のうちの少なくとも幾つかを実行するよう構成される別の装置であってよく、又はそれを含んでよい。幾つかのそのような実装では、機器300は、サーバであってよく、又はそれを含んでよい。
本例では、機器300は、インタフェースシステム305および制御システム310を含む。インタフェースシステム305は、幾つかの実装では、環境内の複数のマイクロフォンの各々から入力を受信するよう構成されてよい。インタフェースシステム305は、1つ以上のネットワークインタフェース、及び/又は1つ以上の外部装置インタフェース(例えば、1つ以上のUSB(universal serial bus)インタフェース)を含んでよい。幾つかの実装によると、インタフェースシステム305は、1つ以上の無線インタフェースを含んでよい。インタフェースシステム305は、1つ以上のマイクロフォン、1つ以上のスピーカ、ディスプレイシステム、タッチセンサシステム、及び/又はジェスチャセンサシステム、のようなユーザインタフェースを実装する1つ以上の装置を含んでよい。幾つかの例では、インタフェースシステム305は、制御システム310とメモリシステム、例えば図3に示される任意的メモリシステム315との間の1つ以上のインタフェースを含んでよい。しかしながら、制御システム310は、メモリシステムを含んでよい。
制御システム310は、例えば、汎用の単一または複数チッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又は他のプログラマブル論理素子、個別ゲートまたはトランジスタロジック、および/または個別ハードウェアコンポーネント、を含んでよい。幾つかの実装では、制御システム310の機能は1つより多くの装置に存在してよい。例えば、制御システム310の部分は、図1A及び1Bに示された環境のうちの1つの中にある装置に存在してよく、制御システム310の別の部分は、サーバ、モバイル装置(例えば、スマートフォン、又はタブレットコンピュータ)のような、環境の外部にある装置の中に存在してよい、等である。インタフェースシステム305は、また、幾つかのそのような例では、1つより多くの装置に存在してよい。
幾つかの実装では、制御システム310は、本願明細書に開示した方法を少なくとも部分的に実行するよう構成されてよい。幾つかの例によると、制御システム310は、例えば本願明細書に開示されたようなオーディオ処理のための装置を選択する方法を実施するよう構成されてよい。幾つかのそのような例では、制御システム310は、複数の起動ワード信頼指標の比較に少なくとも部分的に基づき、オーディオ処理のための装置を選択するよう構成されてよい。
本願明細書に記載の方法のうちの一部または全部は、1つ以上の非一時的媒体に記憶された命令(例えば、ソフトウェア)に従い1つ以上の装置により実行されてよい。そのような非一時的媒体は、限定ではないが、RAM(random access memory)装置、ROM(read-only memory)装置、等を含む、本願明細書で説明されたようなメモリ装置を含んでよい。1つ以上の非一時的媒体は、例えば、図3に示される任意的メモリシステム315内に、及び/又は制御システム310内に、存在してよい。したがって、本開示に記載された主題の種々の新規な態様は、ソフトウェアを記憶された1つ以上の非一時的媒体に実装されてよい。ソフトウェアは、例えば、オーディオデータを処理するよう少なくとも1つの装置を制御するための命令を含んでよい。ソフトウェアは、例えば、図3の制御システム310のような制御システムの1つ以上のコンポーネントにより実行可能であってよい。
幾つかの例では、機器300は、図3に示される任意的なマイクロフォンシステムを含んでよい。任意的なマイクロフォンシステムは、1つ以上のマイクロフォンを含んでよい。幾つかのそのような例によると、機器300は、スマートオーディオ装置であってよく、又はそれを含んでよい。幾つかのそのような実装では、機器300は、起動ワード検出器であってよく、又はそれを含んでよい。幾つかの例では、機器300は、仮想アシスタントであってよく、又はそれを含んでよい。
図4は、図3に示したような機器により実行され得る方法の一例の概要を示すフロー図である。方法400のブロックは、本願明細書に記載の他の方法度同様に、必ずしも示された順序で実行されない。さらに、このような方法は、図示及び/又は記載のものより多数または少数のブロックを含んでよい。本実装では、方法400は、オーディオ処理のための装置を選択するステップを含む。幾つかの例によると、方法400は、オーディオ処理を実行するよう構成される装置により実行されてよい。しかしながら、幾つかの例では、方法400は、オーディオ処理を実行するよう構成されない装置により実行されてよい。
本例では、ブロック405は、少なくとも第1マイクロフォンを含む第1装置から第1起動ワード信頼指標を受信するステップを含む。本例によると、第1起動ワード信頼指標は、第1装置により決定された第1の複数の起動ワード信頼値のうちの第1ローカル最大値に対応してよい。
本実装では、ブロック410は、少なくとも第2マイクロフォンを含む第2装置から第2起動ワード信頼指標を受信するステップを含む。本例によると、第2起動ワード信頼指標は、第2装置により決定された第2の複数の起動ワード信頼値のうちの第2ローカル最大値に対応する。本例では、第1装置及び第2装置は、図1A又は図1Bに示される環境であってよい同じ環境内にある。
しかしながら、第1マイクロフォン及び第2マイクロフォンは、特定の実装に基づき、同期マイクロフォンであってよく又はそうでなくてよい。本願明細書で使用されるとき、マイクロフォンは、マイクロフォンにより検出された音声が同じサンプルクロック又は同期サンプルクロックを用いてデジタル方式でサンプリングされる場合、「同期している」と表されてよい。例えば、環境内の複数のマイクロフォンのうちの第1マイクロフォンは、第1サンプルクロックに従いオーディオデータをサンプリングしてよく、複数のマイクロフォンのうちの第2マイクロフォンは、第1サンプルクロックに従いオーディオデータをサンプリングしてよい。
幾つかの代替の実装によると、環境の少なくとも幾つかのマイクロフォン又はマイクロフォンシステムは、「非同期」であってよい。本願明細書で使用されるとき、マイクロフォンは、マイクロフォンにより検出された音声が異なるサンプルクロックを用いてデジタル方式でサンプリングされる場合、「非同期である」と表されてよい。例えば、環境内の複数のマイクロフォンのうちの第1マイクロフォンは、第2サンプルクロックに従いオーディオデータをサンプリングしてよく、複数のマイクロフォンのうちの第2マイクロフォンは、第1サンプルクロックに従いオーディオデータをサンプリングしてよい。幾つかの例では、環境内のマイクロフォンは、ランダムに配置されてよく、或いは、少なくとも、不規則に及び/又は非対称に環境内に分散されてよい。
再び図2を参照すると、曲線205aは、第1装置により決定された第1の複数の起動ワード信頼値の例を提供し、曲線205bは、第2装置により決定された第2の複数の起動ワード信頼値の例を提供する。ローカル最大値210aは、第1装置により決定された第1の複数の起動ワード信頼値のうちの第1ローカル最大値の例を提供し、ローカル最大値210bは、第2装置により決定された第2の複数の起動ワード信頼値のうちの第2ローカル最大値の例を提供する。幾つかの例では、ローカル最大値210aは、第1起動ワード信頼指標に対応し、ローカル最大値210bは、第2起動ワード信頼指標に対応する。
図4に示す例によると、ブロック415は、第1起動ワード信頼指標及び第2起動ワード信頼指標を比較するステップを含む。本例では、ブロック420は、第1起動ワード信頼指標及び第2起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップを含む。例えば、ブロック420は、より高い起動ワード信頼指標を決定した装置を選択するステップを含んでよい。
幾つかの実装によると、後続のオーディオ処理は、会話認識処理であってよく、又はそれを含んでよい。例えば、後続のオーディオ処理は、コマンド認識処理であってよく、又はそれを含んでよい。幾つかの例では、方法400は、コマンド認識処理に従い、選択された装置を制御するステップを含んでよい。例えば、方法400は、コマンド認識処理に従い、仮想アシスタントを制御するステップを含んでよい。幾つかのそのような例では、方法400は、電話呼を開始するよう仮想アシスタントを制御するステップ、インターネット検索を実行するよう仮想アシスタントを制御するステップ、テレビ、音声システム制御部、又は環境内の別の装置のような別の装置に命令を提供するよう仮想アシスタントを制御するステップ、を含んでよい。
幾つかの例では、方法400は、環境内の2つより多くの装置から、起動ワード信頼指標を受信するステップを含んでよい。幾つかのそのような例は、少なくとも第3マイクロフォンを含む第3装置から第3起動ワード信頼指標を受信するステップを含んでよい。第3起動ワード信頼指標は第3装置により決定された第3の複数の起動ワード信頼値のうちの第3ローカル最大値に対応してよい。幾つかのそのような例では、方法400は、第3起動ワード信頼指標を第1起動ワード信頼指標及び第2起動ワード信頼指標と比較するステップと、第1起動ワード信頼指標、第2起動ワード信頼指標、及び第3起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。
幾つかの例によると、方法400は、環境内の第1~第Nの装置から、第1N起動ワード信頼指標を受信するステップを含んでよい。第1~第Nの起動ワード信頼指標は、第1~第Nの装置により決定された起動ワード信頼指標のうちの第1~第Nのローカル最大値に対応してよい。幾つかのそのような例では、方法400は、第1~第Nの起動ワード信頼指標を比較するステップと、第1~第Nの起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。
幾つかの実装では、ブロック405及び410は、起動ワード信頼値を決定し起動ワード信頼値のうちのローカル最大値を決定するよう構成される第3装置により、第1起動ワード信頼指標及び第2起動ワード信頼指標を受信するステップを含んでよい。幾つかのそのような実装では、第3装置は、方法400の少なくともブロック415及び420を実行するよう構成されてよい。幾つかの実装では、第3装置はローカル装置であってよい。幾つかのそのような実装では、3個全部の装置は、起動ワード検出器であってよく、又はそれを含んでよい。装置のうちの1つ以上は、仮想アシスタントであってよく、又はそれを含んでよい。しかしながら、他の実装では、第3装置は、サーバのようなリモート装置であってよい。
幾つかの例によると、ローカル最大値は、所定の閾値であってよい起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定されてよい。例えば、再び図2を参照すると、幾つかのそのような例では、ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値215aを超えたという決定の後に決定されてよい。幾つかのそのような例では、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定されてよい。
幾つかのそのような実装では、ローカル最大値は、前の起動ワード信頼値が起動ワード検出開始閾値を超えた後に、前のオーディオフレームの起動ワード信頼値と比べたときのオーディオフレームの起動ワード信頼値の減少を検出することにより決定されてよく、前のオーディオフレームは、幾つかの例では、最近のオーディオフレーム、又は最近のオーディオフレームのうちの1つであってよい。例えば、ローカル最大値は、前の起動ワード信頼値が起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定されてよく、kは整数である。
幾つかのそのような実装によると、幾つかの方法は、第1装置、第2装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始すること、を含んでよい。幾つかのそのような例は、前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より低くなった後に、前記ローカル最大値決定時間間隔を終了するステップ、を含んでよい。
例えば、再び図2を参照すると、幾つかのそのような例では、ローカル最大値決定時間間隔は、装置のグループのうちの任意の装置に対応する起動ワード信頼値が起動ワード検出開始閾値21aを超えたときである開始時間Aで開始されてよい。本例では、遠い装置は、起動ワード信頼値が起動ワード検出開始閾値を超えた最初の装置であり、その時間Aは、曲線205cが起動ワード検出開始閾値215aを超えたときである。本例によると、閾値215bは起動ワード検出終了閾値である。本例では、起動ワード検出終了閾値215bは、起動ワード検出開始閾値215aより小さい(より低い)。幾つかの代替の例では、起動ワード検出終了閾値215bは、起動ワード検出開始閾値215aに等しくてよい。更に他の例では、起動ワード検出終了閾値215bは、起動ワード検出開始閾値215aより大きくてよい。
幾つかの例によると、ローカル最大値決定時間間隔は、グループ内の全部の装置の起動ワード信頼値が起動ワード検出終了閾値215bより下に降下した後に、終了してよい。例えば、図2を参照すると、ローカル最大値決定時間間隔は、K個の時間単位に等しくてよく、近い装置の起動ワード信頼値が起動ワード検出終了閾値215bより下に降下したとき、時間A+Kで終了してよい。終了時間A+Kまでに、遠い装置及び中距離装置の起動ワード信頼値は、起動ワード検出終了閾値215bより下に既に降下している。幾つかの例によると、ローカル最大値決定時間間隔は、グループ内の全部の装置の起動ワード信頼値が起動ワード検出終了閾値215bより下に降下したとき、又は最大時間間隔が経過した後、のいずれか先に達したとき、終了してよい。
図5は、ある開示された実施形態による要素(及びそれにより実施される処理ステップ)の例を示すブロック図である。図5に示す例では、複数のマイクロフォン501A~501Nは、対応する複数の起動ワード検出器502A~502Nに供給する。幾つかのそのような実装によると、各装置は、マイクロフォン501、対応する起動ワード検出器502、及び対応するローカル最大値検出器503、の少なくとも1つを含む。例えば、起動ワード検出器502A~502Nは、図1Bの装置103、105、107の起動ワード検出サブシステムの実装であってよい。
本例によると、起動ワード信頼値のシーケンスは、検出器502A~502Nの各々により決定され、各々のそのようなシーケンスは、複数のローカル最大値検出器502A~503Nのうちの1つに供給される。幾つかのそのような例では、各々のそのような値は、wi(n)={1…M}であり、ここで、Mは起動ワード検出器502の数を表し、iは検出器インデックスを表し、nはフレームインデックスを表す。(検出器502A~502Nのうちの1つにより決定された)起動ワード信頼性が所定の起動ワード検出開始閾値を超えた後の何からの時間に、起動ワード信頼性は、標準的に下降し始める。例えば、ローカル最大値検出器503A~503Nのうちの1つは、wi(n)<wi(n-k)であることを決定してよく、ここで、kはフレーム番号を表す。1つのそのような実装では、ローカル最大値検出器503A~503Nのうちの1つは、wi(n)<wi(n-1)であることを決定してよい。起動ワード信頼性が下降し始めると、幾つかの実装では、この時点までのローカル最大値信頼値yiは、記録されてよい。幾つかの実装では、次式の通りであり:
ここで、Nは関連する履歴バッファの長さを表す。
幾つかのそのような実装によると、各々のそのようなローカル最大値信頼値は、装置セレクタを実装するシステムの要素に提供されてよい。図5に示す例では、ローカル最大値検出器503A~503Nの各々は、ローカル最大値信頼値504A~504Nのうちの対応する1つを装置セレクタ506に提供する。幾つかの例によると、装置セレクタ506は、起動ワード検出器502A~502Nのうちの1つを実装しているローカル装置により実装されてよい。代替の実装では、装置セレクタ506は、起動ワード検出器502A~502Nのうちの1つを実装していないローカル装置、例えば、ラップトップコンピュータ、セルラ電話機、等により実装されてよい。幾つかの例では、装置セレクタ506は、クラウドに基づくサービスプロバイダのサーバのようなリモート装置により実装されてよい。
幾つかの例によると、装置の全部が、最大信頼性yiを生成した後に、最大信頼値yiのうちの最も大きいものである、最も信頼できる装置のインデックスargmax(yi)は、後続の会話キャプチャのために選択される。例えば、ユーザに最も近い起動ワード検出器が最大信頼値yiを生成した場合、この検出器が内部に実装された又はそのために実装されたスマートオーディオ装置は、注意力状態に入れられ(ユーザに適切な注意力指示を明示してよい)。注意力状態では、該装置は、後続の音声コマンドを待機し、次にそのような音声コマンドに応答して、装置は少なくとも1つの所定の動作を実行してよい。
図6は、図3に示したような機器により実行され得る方法の別の例の概要を示すフロー図である。方法600のブロックは、本願明細書に記載の他の方法度同様に、必ずしも示された順序で実行されない。さらに、このような方法は、図示及び/又は記載のものより多数または少数のブロックを含んでよい。本実装では、方法600は、オーディオ処理のための装置を選択するステップを含む。本例では、方法600は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成される装置により実行されてよい。幾つかの例によると、方法600は、オーディオ処理を実行するよう構成される装置により実行されてよい。しかしながら、幾つかの例では、方法600は、オーディオ処理を実行するよう構成されない装置により実行されてよい。
本例では、ブロック605は、少なくとも第1マイクロフォンを有する第1マイクロフォンシステムを含む第1装置により、第1起動ワード信頼指標を決定するステップを含んでよい。本例では、第1起動ワード信頼指標を決定するステップは、第1マイクロフォンシステムにより、検出された音声に対応する第1オーディオデータを生成するステップを含む。本例によると、第1起動ワード信頼指標を決定するステップは、第1オーディオデータに基づき、第1の複数の起動ワード信頼値を決定するステップと、第1の複数の起動ワード信頼値のうちの第1ローカル最大値を決定するステップと、を含む。本実装では、第1起動ワード信頼指標を決定するステップは、第1ローカル最大値に基づき、第1起動ワード信頼指標を決定するステップを含む。例えば、第1起動ワード信頼指標を決定するステップは、第1ローカル最大値に等しい第1起動ワード信頼指標を生成するステップを含んでよい。
本実装では、ブロック610は、少なくとも第2マイクロフォンを含む第2装置から第2起動ワード信頼指標を受信するステップを含む。本例によると、第2起動ワード信頼指標は、第2装置により決定された第2の複数の起動ワード信頼値のうちの第2ローカル最大値に対応する。本例では、第1装置及び第2装置は、図1A又は図1Bに示される環境であってよい同じ環境内にある。
しかしながら、第1マイクロフォン及び第2マイクロフォンは、特定の実装に基づき、同期マイクロフォンであってよく又はそうでなくてよい。幾つかの例によると、環境内の複数のマイクロフォンのうちの第1マイクロフォンは、第2サンプルクロックに従いオーディオデータをサンプリングしてよく、複数のマイクロフォンのうちの第2マイクロフォンは、第1サンプルクロックに従いオーディオデータをサンプリングしてよい。
図6に示す例によると、ブロック615は、第1起動ワード信頼指標及び第2起動ワード信頼指標を比較するステップを含む。本例では、ブロック620は、第1起動ワード信頼指標及び第2起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップを含む。例えば、ブロック620は、より高い起動ワード信頼指標を決定した装置を選択するステップを含んでよい。
幾つかの実装によると、後続のオーディオ処理は、会話認識処理であってよく、又はそれを含んでよい。例えば、後続のオーディオ処理は、コマンド認識処理であってよく、又はそれを含んでよい。幾つかの例では、方法600は、コマンド認識処理に従い、選択された装置を制御するステップを含んでよい。例えば、方法600は、コマンド認識処理に従い、仮想アシスタントを制御するステップを含んでよい。幾つかのそのような例では、方法600は、電話呼を開始するよう仮想アシスタントを制御するステップ、インターネット検索を実行するよう仮想アシスタントを制御するステップ、テレビ、音声システム制御部、又は環境内の別の装置のような別の装置に命令を提供するよう仮想アシスタントを制御するステップ、を含んでよい。
幾つかの例では、方法600は、環境内の2つより多くの装置から、起動ワード信頼指標を受信するステップを含んでよい。幾つかのそのような例は、少なくとも第3マイクロフォンを含む第3装置から第3起動ワード信頼指標を受信するステップを含んでよい。第3起動ワード信頼指標は第3装置により決定された第3の複数の起動ワード信頼値のうちの第3ローカル最大値に対応してよい。幾つかのそのような例では、方法600は、第3起動ワード信頼指標を第1起動ワード信頼指標及び第2起動ワード信頼指標と比較するステップと、第1起動ワード信頼指標、第2起動ワード信頼指標、及び第3起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。
幾つかの例によると、方法600は、環境内の第1~第Nの装置から、第1N起動ワード信頼指標を受信するステップを含んでよい。第1~第Nの起動ワード信頼指標は、第1~第Nの装置により決定された起動ワード信頼指標のうちの第1~第Nのローカル最大値に対応してよい。幾つかのそのような例では、方法600は、第1~第Nの起動ワード信頼指標を比較するステップと、第1~第Nの起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、を含んでよい。
幾つかの実装では、方法600は、起動ワード信頼値を決定し起動ワード信頼値のうちのローカル最大値を決定するよう構成される第3装置により、第1起動ワード信頼指標及び第2起動ワード信頼指標を受信するステップを含んでよい。幾つかのそのような実装では、第3装置は、方法400の少なくともブロック415及び420を実行するよう構成されてよい。幾つかの実装では、第3装置はローカル装置であってよい。幾つかのそのような実装では、3個全部の装置は、起動ワード検出器であってよく、又はそれを含んでよい。装置のうちの1つ以上は、仮想アシスタントであってよく、又はそれを含んでよい。しかしながら、他の実装では、第3装置は、起動ワード検出器を含まないローカル装置、及び/又は複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成されない装置であってよい。幾つかの代替の実装によると、第3装置は、サーバのようなリモート装置であってよい。
幾つかの例によると、ローカル最大値は、所定の閾値であってよい起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定されてよい。例えば、再び図2を参照すると、幾つかのそのような例では、ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値215aを超えたという決定の後に決定されてよい。幾つかのそのような例では、ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定されてよい。
幾つかのそのような実装では、ローカル最大値は、前の起動ワード信頼値が起動ワード検出開始閾値を超えた後に、前のオーディオフレームの起動ワード信頼値と比べたときのオーディオフレームの起動ワード信頼値の減少を検出することにより決定されてよく、前のオーディオフレームは、幾つかの例では、最近のオーディオフレーム、又は最近のオーディオフレームのうちの1つであってよい。例えば、ローカル最大値は、前の起動ワード信頼値が起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定されてよく、kは整数である。
幾つかのそのような実装によると、幾つかの方法は、第1装置、第2装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始すること、を含んでよい。幾つかのそのような例は、前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より低くなった後に、前記ローカル最大値決定時間間隔を終了するステップ、を含んでよい。
幾つかのそのような方法によると、ローカル最大値決定時間間隔は、時間Aで開始してよく、時間(A+K)で終了してよい。幾つかのそのような方法は、図2を参照して上述された。幾つかの例によると、時間(A+K)は、第1装置及び第2装置の起動ワード信頼値が起動ワード検出終了閾値より下になる時間であってよい。幾つかの例では、時間(A+K)は、第1装置、第2装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より低くなる時間であってよい。幾つかの例では、起動ワード検出終了閾値は、起動ワード検出開始閾値以下であってよい。幾つかの実装は、Kの最大値に達した後に、ローカル最大値決定時間間隔を終了するステップを含んでよい。幾つかのそのような実装は、第1装置、第2装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より低くなったかどうかに関係なく、Kの最大値に達した後に、ローカル最大値決定時間間隔を終了するステップを含んでよい。
本開示の特定の実施形態及び適用が本願明細書に記載されたが、当業者に明らかなことに、本願明細書に記載され及び請求される本発明の範囲から逸脱することなく、本願明細書に記載された実施形態及び適用に対する多くの変形が、可能である。
Claims (28)
- オーディオ処理のための装置を選択する方法であって、前記方法は、
少なくとも第1マイクロフォンを含む第1装置から、第1起動ワード信頼指標を受信するステップであって、前記第1起動ワード信頼指標は、前記第1装置により決定された第1の複数の起動ワード信頼値のうちの第1ローカル最大値に対応する、ステップと、
少なくとも第2マイクロフォンを含む第2装置から第2起動ワード信頼指標を受信するステップであって、前記第2起動ワード信頼指標は、前記第2装置により決定された第2の複数の起動ワード信頼値のうちの第2ローカル最大値に対応する、ステップと、
前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標を比較するステップと、
前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、
を含む方法。 - 少なくとも第3マイクロフォンを含む第3装置から、第3起動ワード信頼指標を受信するステップであって、前記第3起動ワード信頼指標は、前記第3装置により決定された第3の複数の起動ワード信頼値のうちの第3ローカル最大値に対応する、ステップと、
前記第3起動ワード信頼指標を前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標を比較するステップと、
前記第1起動ワード信頼指標、前記第2起動ワード信頼指標、及び前記第3起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、
を更に含む請求項1に記載の方法。 - 前記後続のオーディオ処理は会話認識処理を含む、請求項1又は2に記載の方法。
- 前記後続のオーディオ処理はコマンド認識処理を含む、請求項1~3のいずれか一項に記載の方法。
- 前記コマンド認識処理に従い、選択された装置を制御するステップ、を更に含む請求項4に記載の方法。
- ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定される、請求項1~5のいずれか一項に記載の方法。
- ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定される、請求項6に記載の方法。
- ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定され、kは整数である、請求項6に記載の方法。
- 前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより前記起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始するステップ、を更に含む請求項6~8のいずれか一項に記載の方法。
- 前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より低くなった後に、前記ローカル最大値決定時間間隔を終了するステップ、を更に含む請求項9に記載の方法。
- 前記第1装置は、第1クロックドメインに従い、前記第1マイクロフォンにより受信したオーディオデータをサンプリングし、
前記第2装置は、前記第1クロックドメインと異なる第2クロックドメインに従い、前記第2マイクロフォンにより受信したオーディオデータをサンプリングする、
請求項1~10のいずれか一項に記載の方法。 - 前記方法は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行される、請求項1~11のいずれか一項に記載の方法。
- 前記方法は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成される装置により実行される、請求項1~11のいずれか一項に記載の方法。
- 前記方法は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成されない装置により実行される、請求項1~11のいずれか一項に記載の方法。
- オーディオ処理のための装置を選択する方法であって、前記方法は、
少なくとも第1マイクロフォンを有する第1マイクロフォンシステムを含む第1装置により、第1起動ワード信頼指標を決定するステップであって、前記第1起動ワード信頼指標を決定するステップは、
前記第1マイクロフォンシステムにより、検出した音声に対応する第1オーディオデータを生成するステップと、
前記第1オーディオデータに基づき、第1の複数の起動ワード信頼値を決定するステップと、
前記第1の複数の起動ワード信頼値のうちの第1ローカル最大値を決定するステップと、
前記第1ローカル最大値に基づき、前記第1起動ワード信頼指標を決定するステップと、
少なくとも第2マイクロフォンを含む第2装置から第2起動ワード信頼指標を受信するステップであって、前記第2起動ワード信頼指標は、前記第2装置により決定された第2の複数の起動ワード信頼値のうちの第2ローカル最大値に対応する、ステップと、
前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標を比較するステップと、
前記第1起動ワード信頼指標及び前記第2起動ワード信頼指標の比較に少なくとも部分的に基づき、後続のオーディオ処理のための装置を選択するステップと、
を含む方法。 - ローカル最大値は、起動ワード信頼値が起動ワード検出開始閾値を超えたという決定の後に決定される、請求項15に記載の方法。
- ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、起動ワード信頼値の減少を検出することにより決定される、請求項15に記載の方法。
- ローカル最大値は、前の起動ワード信頼値が前記起動ワード検出開始閾値を超えた後に、オーディオフレームn-kの起動ワード信頼値と比べたときのオーディオフレームnの起動ワード信頼値の減少を検出することにより決定され、kは整数である、請求項15に記載の方法。
- 前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が立ち上がりエッジにより前記起動ワード検出開始閾値を超えた後に、ローカル最大値決定時間間隔を開始するステップ、を更に含む請求項18に記載の方法。
- 前記ローカル最大値決定時間間隔は、時間Aで開始し、時間(A+K)、前記第1装置及び前記第2装置の起動ワード信頼値が起動ワード検出終了閾値より下になる時間で終了する、請求項19に記載の方法。
- 前記ローカル最大値決定時間間隔は、時間Aで開始し、時間(A+K)、前記第1装置、前記第2装置、又は別の装置の起動ワード信頼値が起動ワード検出終了閾値より下になる時間で終了する、請求項19に記載の方法。
- 前記起動ワード検出終了閾値は、前記起動ワード検出開始閾値以下である、請求項20又は21に記載の方法。
- Kの最大値に達した後に、前記ローカル最大値決定時間間隔を終了するステップ、を更に含む請求項20に記載の方法。
- 前記方法は、前記後続のオーディオ処理を少なくとも部分的に実行するよう構成される装置により実行される、請求項15~23のいずれか一項に記載の方法。
- 前記方法は前記第1装置により実行される、請求項15~24のいずれか一項に記載の方法。
- 前記第1装置から前記第1起動ワード信頼指標を受信するステップを更に含み、前記方法は、複数の起動ワード信頼値のうちのローカル最大値に対応する起動ワード信頼指標を決定するよう構成されない装置により実行される、請求項15~24のいずれか一項に記載の方法。
- 請求項1~26のいずれか一項に記載の方法を実行するよう構成される機器。
- ソフトウェアを記憶している1つ以上の非一時的媒体であって、前記ソフトウェアは、請求項1~26のいずれか一項に記載の方法を実行するよう1つ以上の装置を制御するための命令を含む、非一時的媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962880112P | 2019-07-30 | 2019-07-30 | |
US62/880,112 | 2019-07-30 | ||
US202062964018P | 2020-01-21 | 2020-01-21 | |
US62/964,018 | 2020-01-21 | ||
PCT/US2020/044114 WO2021021960A1 (en) | 2019-07-30 | 2020-07-29 | Multi-device wakeword detection |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022542113A true JP2022542113A (ja) | 2022-09-29 |
Family
ID=72087254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022504624A Pending JP2022542113A (ja) | 2019-07-30 | 2020-07-29 | 複数装置の起動ワード検出 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220351724A1 (ja) |
EP (1) | EP4004907B1 (ja) |
JP (1) | JP2022542113A (ja) |
CN (1) | CN114207712A (ja) |
WO (1) | WO2021021960A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12003673B2 (en) | 2019-07-30 | 2024-06-04 | Dolby Laboratories Licensing Corporation | Acoustic echo cancellation control for distributed audio devices |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9940949B1 (en) * | 2014-12-19 | 2018-04-10 | Amazon Technologies, Inc. | Dynamic adjustment of expression detection criteria |
US10026399B2 (en) * | 2015-09-11 | 2018-07-17 | Amazon Technologies, Inc. | Arbitration between voice-enabled devices |
US9875081B2 (en) * | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
US9996316B2 (en) * | 2015-09-28 | 2018-06-12 | Amazon Technologies, Inc. | Mediation of wakeword response for multiple devices |
US9484030B1 (en) * | 2015-12-02 | 2016-11-01 | Amazon Technologies, Inc. | Audio triggered commands |
US10181323B2 (en) * | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
CN107919119A (zh) * | 2017-11-16 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 多设备交互协同的方法、装置、设备及计算机可读介质 |
US10777189B1 (en) * | 2017-12-05 | 2020-09-15 | Amazon Technologies, Inc. | Dynamic wakeword detection |
US11195522B1 (en) * | 2019-06-17 | 2021-12-07 | Amazon Technologies, Inc. | False invocation rejection for speech processing systems |
-
2020
- 2020-07-29 WO PCT/US2020/044114 patent/WO2021021960A1/en unknown
- 2020-07-29 EP EP20757124.1A patent/EP4004907B1/en active Active
- 2020-07-29 JP JP2022504624A patent/JP2022542113A/ja active Pending
- 2020-07-29 CN CN202080054717.8A patent/CN114207712A/zh active Pending
- 2020-07-29 US US17/626,619 patent/US20220351724A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220351724A1 (en) | 2022-11-03 |
EP4004907B1 (en) | 2023-07-12 |
EP4004907A1 (en) | 2022-06-01 |
CN114207712A (zh) | 2022-03-18 |
WO2021021960A1 (en) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6489563B2 (ja) | 音量調節方法、システム、デバイス及びプログラム | |
CN110268470B (zh) | 音频设备滤波器修改 | |
US11051139B2 (en) | Outputting notifications using device groups | |
TWI603258B (zh) | 用於隨時聽取語音觸發之動態臨限值 | |
US10149049B2 (en) | Processing speech from distributed microphones | |
US20170330566A1 (en) | Distributed Volume Control for Speech Recognition | |
US20180018965A1 (en) | Combining Gesture and Voice User Interfaces | |
US12003673B2 (en) | Acoustic echo cancellation control for distributed audio devices | |
US10089980B2 (en) | Sound reproduction method, speech dialogue device, and recording medium | |
US20180174574A1 (en) | Methods and systems for reducing false alarms in keyword detection | |
US20230037824A1 (en) | Methods for reducing error in environmental noise compensation systems | |
US20220335937A1 (en) | Acoustic zoning with distributed microphones | |
EP3484183A1 (en) | Location classification for intelligent personal assistant | |
US20240127844A1 (en) | Processing and utilizing audio signals based on speech separation | |
JP2022542113A (ja) | 複数装置の起動ワード検出 | |
US20240048901A1 (en) | Processing method and device | |
JP2019537071A (ja) | 分散したマイクロホンからの音声の処理 | |
RU2818982C2 (ru) | Управление акустической эхокомпенсацией для распределенных аудиоустройств | |
EP4005249A1 (en) | Estimating user location in a system including smart audio devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240521 |