JP6855588B2 - サーバ側ホットワーディング - Google Patents
サーバ側ホットワーディング Download PDFInfo
- Publication number
- JP6855588B2 JP6855588B2 JP2019543379A JP2019543379A JP6855588B2 JP 6855588 B2 JP6855588 B2 JP 6855588B2 JP 2019543379 A JP2019543379 A JP 2019543379A JP 2019543379 A JP2019543379 A JP 2019543379A JP 6855588 B2 JP6855588 B2 JP 6855588B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- key phrase
- audio signal
- threshold
- client device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 claims description 191
- 230000009471 action Effects 0.000 claims description 69
- 238000000034 method Methods 0.000 claims description 42
- 230000004044 response Effects 0.000 claims description 33
- 238000001514 detection method Methods 0.000 description 46
- 230000015654 memory Effects 0.000 description 41
- 238000004590 computer program Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 230000003993 interaction Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000000177 Indigofera tinctoria Nutrition 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 229940097275 indigo Drugs 0.000 description 1
- COHYTHOBJLSHDF-UHFFFAOYSA-N indigo powder Natural products N1C2=CC=CC=C2C(=O)C1=C1C(=O)C2=CC=CC=C2N1 COHYTHOBJLSHDF-UHFFFAOYSA-N 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
第1の発話の少なくとも一部がキーフレーズの少なくとも一部であるとする第1の閾値を満たすかどうかを判定することと、
第1の発話の少なくとも一部がキーフレーズの少なくとも一部であるとする第1の閾値を満たすとの判定に応じて、第1の発話がキーフレーズであるとする第2の閾値を満たすかどうかを判定するサーバシステムにオーディオ信号を送信することであって、第2の閾値は第1の閾値より制限的である、送信することと、
サーバシステムが、第1の発話が第2の閾値を満たすと判定した場合、オーディオ信号においてエンコードされた1つまたは複数の発話を表すタグ付きテキストデータをサーバシステムから受信することと、
を含む動作を、コンピュータによって実行された場合、そのコンピュータに実行させる命令でエンコードされた非一時的コンピュータ記憶媒体。
タグ付きテキストデータを用いてアクションを実行することは、第1の発話後にオーディオ信号においてエンコードされた1つまたは複数の発話についてのタグ付きテキストデータを用いてアクションを実行することを含む、
実施例1または2のコンピュータ記憶媒体。
第1の発話の少なくとも一部がキーフレーズの少なくとも一部であるとする第1の閾値を満たすかどうかを判定することは、第1の発話の少なくとも一部が、2つ以上の単語を含むキーフレーズの少なくとも一部であるとする第1の閾値を満たすかどうかを判定することを含む、実施例1から3のうちの1つのコンピュータ記憶媒体。
第2の発話を含む1つまたは複数の第2の発話をエンコードしている第2のオーディオ信号を受信することと、
第2の発話の少なくとも一部がキーフレーズの少なくとも一部であるとする第1の閾値を満たすかどうかを判定することと、
第2の発話の少なくとも一部がキーフレーズの少なくとも一部であるとする第1の閾値を満たさないとの判定に応じて、第2のオーディオ信号を破棄することと、
を含む、実施例1から4のうちの1つのコンピュータ記憶媒体。
クライアントデバイスが、1つまたは複数の第1の発話の少なくとも一部がキーフレーズの少なくとも一部であるとする第1の閾値を満たすと判定された1つまたは複数の第1の発話を含む1つまたは複数の発話をエンコードしているオーディオ信号をクライアントデバイスから受信することと、
1つまたは複数の第1の発話がキーフレーズの少なくとも一部であるとする第2の閾値を満たすかどうかを判定することあって、第2の閾値は第1の閾値よりも制限的である、判定することと、
1つまたは複数の第1の発話がキーフレーズであるとする第2の閾値を満たすかどうかの判定の結果をクライアントデバイスに送信することと、
を含む動作を、1つまたは複数のコンピュータによって実行された場合、1つまたは複数のコンピュータに実行させるように動作可能な命令がストレージデバイスに格納されている、システム。
識別子を受信することと、
その識別子を用いて、キーフレーズについてのキーフレーズデータを決定することと、
を含み、キーフレーズについての言語モデルをカスタマイズすることは、キーフレーズデータを用いて、キーフレーズについての言語モデルをカスタマイズすることを含む、実施例8から15のうちの1つのシステム。
1つまたは複数の第1の発話についてのデータを言語モデルに提供して、言語モデルに第1の出力を生成させることと、
1つまたは複数の第1の発話についてのデータを音響モデルに提供して、音響モデルに第2の出力を生成させることと、
第1の出力と第2の出力とを組み合わせて組み合わせ出力を生成することと、
組み合わせ出力を用いて、1つまたは複数の第1の発話がキーフレーズであるとする第2の閾値を満たすかどうかを判定することと、
を含む、実施例8から17のうちの1つのシステム。
第1の発話の少なくとも一部がキーフレーズの少なくとも一部であるとする第1の閾値を満たすかどうかを判定するステップと、
第1の発話の少なくとも一部がキーフレーズの少なくとも一部であるとする第1の閾値を満たすとの判定に応じて、第1の発話がキーフレーズであるとする第2の閾値を満たすかどうかを判定するサーバシステムにオーディオ信号を送信するステップであって、第2の閾値は第1の閾値より制限的である、ステップと、
サーバシステムが、第1の発話が第2の閾値を満たすと判定した場合、オーディオ信号においてエンコードされた1つまたは複数の発話を表すタグ付きテキストデータをサーバシステムから受信するステップと、
を含む、コンピュータで実行される方法。
104 マイクロフォン
106 クライアントホットワード検出モジュール
108 第1の閾値
110 位置デバイス
112 音声認識システム
114 サーバホットワード検出モジュール
116 第2の閾値
118 言語モデル
120 音響モデル
122 タグ付きテキストジェネレータ
124 ネットワーク
400 コンピューティングデバイス
402 プロセッサ
404 メモリ
406 ストレージデバイス
408 高速インターフェース、高速コントローラ
410 高速拡張ポート
412 低速インターフェース、低速コントローラ
414 低速バス
416 ディスプレイ
420 サーバ
422 ラップトップコンピュータ
424 ラックサーバシステム
450 コンピューティングデバイス
452 プロセッサ
454 ディスプレイ
456 ディスプレイインターフェース
458 制御インターフェース
460 オーディオコーデック
462 外部インターフェース
464 メモリ
466 通信インターフェース
468 トランシーバ
470 GPS受信機モジュール
474 拡張メモリ
480 携帯電話
482 スマートフォン
Claims (13)
- コンピュータによって実行された場合、前記コンピュータに以下の動作を実行させる命令を記憶しているコンピュータ可読記憶媒体であって、前記動作が、
第1の発話を含む複数の発話をエンコードしているオーディオ信号を受信することと、
前記第1の発話の一部が、キーフレーズの一部であるとする第1の閾値を満たすかどうかを判定することと、
前記第1の発話の一部が、前記キーフレーズの一部であるとする前記第1の閾値を満たすとの判定に応じて、サーバシステムに、前記オーディオ信号を送信することであって、前記サーバシステムは、前記第1の発話が、前記キーフレーズであるとする第2の閾値を満たすかどうかを判定し、前記第2の閾値は、前記第1の閾値より制限的である、ことと、
前記サーバシステムが、前記第1の発話が前記第2の閾値を満たすと判定した場合、前記オーディオ信号においてエンコードされた前記第1の発話および1つまたは複数の他の発話を表すタグ付きテキストデータを前記サーバシステムから受信することとを含む、
コンピュータ可読記憶媒体。 - 前記動作は、
前記サーバシステムが、前記第1の発話が前記第2の閾値を満たすと判定した場合、前記オーディオ信号においてエンコードされた前記発話を表す前記タグ付きテキストデータを前記サーバシステムから受信することに続いて、前記タグ付きテキストデータを用いてアクションを実行することを含む、
請求項1に記載のコンピュータ可読記憶媒体。 - 前記発話は、2つ以上の発話を含み、
前記第1の発話は、前記オーディオ信号における前記2つ以上の発話からの他の発話の前にエンコードされ、
前記タグ付きテキストデータを用いて前記アクションを実行することは、
前記第1の発話後に前記オーディオ信号においてエンコードされた前記1つまたは複数の発話についての前記タグ付きテキストデータを用いてアクションを実行することを含む、
請求項2に記載のコンピュータ可読記憶媒体。 - 前記第1の発話が前記キーフレーズの一部であるとする前記第1の閾値を満たすかどうかを判定することは、
前記第1の発話の一部が、2つ以上の単語を含む前記キーフレーズの一部であるとする前記第1の閾値を満たすかどうかを判定することを含む、
請求項1に記載のコンピュータ可読記憶媒体。 - 前記動作は、
第2の発話を含む1つまたは複数の発話をエンコードしている第2のオーディオ信号を受信することと、
前記第2の発話の一部がキーフレーズの一部であるとする前記第1の閾値を満たすかどうかを判定することと、
前記第2の発話の一部がキーフレーズの一部であるとする前記第1の閾値を満たさないとの判定に応じて、前記第2のオーディオ信号を破棄することとを含む、
請求項1に記載のコンピュータ可読記憶媒体。 - 前記動作は、
前記第2の発話の一部がキーフレーズの一部であるとする前記第1の閾値を満たさないとの判定に応じて、前記第2のオーディオ信号からのデータを用いてアクションを実行しないことを決定することを含む、
請求項5に記載のコンピュータ可読記憶媒体。 - 前記第1の発話の一部がキーフレーズの一部であるとする前記第1の閾値を満たすかどうかを判定することは、
前記第1の発話の一部がキーフレーズの一部であるとする第1の可能性を満たすかどうかを判定することを含む、
請求項1に記載のコンピュータ可読記憶媒体。 - 1つまたは複数のコンピュータおよび1つまたは複数のストレージデバイスを含むシステムであって、前記1つまたは複数のコンピュータによって実行された場合に、前記1つまたは複数のコンピュータに以下の動作を実行させるように動作可能な命令が前記ストレージデバイスに記憶されており、前記動作が、
第1の発話を含む1つまたは複数の発話をエンコードしているオーディオ信号をクライアントデバイスから受信することであって、前記クライアントデバイスにおいて、前記第1の発話の少なくとも一部が、キーフレーズの少なくとも一部であるとする第1の閾値を満たすと判定される、ことと、
前記第1の発話が、前記キーフレーズであるとする第2の閾値を満たすかどうかを判定することであって、前記第2の閾値は、前記第1の閾値より制限的である、ことと、
前記第1の発話が、前記キーフレーズであるとする前記第2の閾値を満たすかどうかの判定の結果を前記クライアントデバイスに送信することとを含む、
システム。 - 前記第1の発話が前記キーフレーズであるとする前記第2の閾値を満たすかどうかの判定の前記結果を前記クライアントデバイスに送信することは、
前記第1の発話が前記キーフレーズであるとする前記第2の閾値を満たさないとの判定に応じて、前記キーフレーズが前記オーディオ信号に含まれていそうにないことを示すデータを前記クライアントデバイスに送信することを含む、
請求項8に記載のシステム。 - 前記第1の発話が前記キーフレーズであるとする前記第2の閾値を満たすかどうかの判定の前記結果を前記クライアントデバイスに送信することは、
前記第1の発話が前記キーフレーズであるとする前記第2の閾値を満たすとの判定に応じて、前記オーディオ信号についてのデータを前記クライアントデバイスに送信することを含む、
請求項8に記載のシステム。 - 前記第1の発話が前記キーフレーズであるとする前記第2の閾値を満たすとの判定に応じて、前記オーディオ信号についてのデータを前記クライアントデバイスに送信することは、前記オーディオ信号においてエンコードされた前記発話を表すタグ付きテキストデータを前記クライアントデバイスに送信することを含む、
請求項10に記載のシステム。 - 前記動作は、
前記オーディオ信号の全体を分析して、前記1つまたは複数の発話のそれぞれについて第1のデータを決定することを含み、
前記第1の発話が前記キーフレーズであるとする前記第2の閾値を満たすとの判定に応じて前記オーディオ信号についての前記データを前記クライアントデバイスに送信することは、
前記第1の発話が前記キーフレーズであるとする前記第2の閾値を満たすとの判定に応じて、前記オーディオ信号についての前記第1のデータを前記クライアントデバイスに送信することを含む、
請求項10に記載のシステム。 - 第1の発話を含む複数の発話をエンコードしているオーディオ信号を受信するステップと、
前記第1の発話の一部がキーフレーズの一部であるとする第1の閾値を満たすかどうかを判定するステップと、
前記第1の発話の一部がキーフレーズの一部であるとする前記第1の閾値を満たすとの判定に応じて、サーバシステムに前記オーディオ信号を送信するステップであって、前記サーバシステムは、前記第1の発話が前記キーフレーズであるとする第2の閾値を満たすかどうかを判定し、前記第2の閾値は、前記第1の閾値より制限的である、ステップと、
前記サーバシステムが、前記第1の発話が前記第2の閾値を満たすと判定した場合、前記オーディオ信号においてエンコードされた前記第1の発話および1つまたは複数の他の発話を表すタグ付きテキストデータを前記サーバシステムから受信するステップとを含む、
コンピュータで実行される方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021042293A JP7189248B2 (ja) | 2017-02-14 | 2021-03-16 | サーバ側ホットワーディング |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/432,358 | 2017-02-14 | ||
US15/432,358 US10311876B2 (en) | 2017-02-14 | 2017-02-14 | Server side hotwording |
PCT/US2017/058944 WO2018151772A1 (en) | 2017-02-14 | 2017-10-30 | Server side hotwording |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021042293A Division JP7189248B2 (ja) | 2017-02-14 | 2021-03-16 | サーバ側ホットワーディング |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020507815A JP2020507815A (ja) | 2020-03-12 |
JP6855588B2 true JP6855588B2 (ja) | 2021-04-07 |
Family
ID=60452744
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019543379A Active JP6855588B2 (ja) | 2017-02-14 | 2017-10-30 | サーバ側ホットワーディング |
JP2021042293A Active JP7189248B2 (ja) | 2017-02-14 | 2021-03-16 | サーバ側ホットワーディング |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021042293A Active JP7189248B2 (ja) | 2017-02-14 | 2021-03-16 | サーバ側ホットワーディング |
Country Status (7)
Country | Link |
---|---|
US (5) | US10311876B2 (ja) |
EP (2) | EP3767623A1 (ja) |
JP (2) | JP6855588B2 (ja) |
KR (1) | KR102332944B1 (ja) |
CN (2) | CN116504238A (ja) |
DE (1) | DE202017106606U1 (ja) |
WO (1) | WO2018151772A1 (ja) |
Families Citing this family (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
DE102016114265A1 (de) * | 2016-08-02 | 2018-02-08 | Claas Selbstfahrende Erntemaschinen Gmbh | Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10311876B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Server side hotwording |
KR20180118461A (ko) * | 2017-04-21 | 2018-10-31 | 엘지전자 주식회사 | 음성 인식 장치 및 음성 인식 방법 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
CN107591151B (zh) * | 2017-08-22 | 2021-03-16 | 百度在线网络技术(北京)有限公司 | 远场语音唤醒方法、装置和终端设备 |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
WO2019079962A1 (en) * | 2017-10-24 | 2019-05-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | VOICE RECOGNIZING SYSTEM AND METHOD HAVING DECOUPLING AWAKENING EXPRESSION |
TWI661319B (zh) * | 2017-11-30 | 2019-06-01 | 財團法人資訊工業策進會 | 根據文本產生控制指令之裝置、方法及其電腦程式產品 |
US10672380B2 (en) * | 2017-12-27 | 2020-06-02 | Intel IP Corporation | Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
CN108665900B (zh) * | 2018-04-23 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 云端唤醒方法及系统、终端以及计算机可读存储介质 |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11308939B1 (en) * | 2018-09-25 | 2022-04-19 | Amazon Technologies, Inc. | Wakeword detection using multi-word model |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
CN111048068B (zh) * | 2018-10-11 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 语音唤醒方法、装置、系统及电子设备 |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11232788B2 (en) * | 2018-12-10 | 2022-01-25 | Amazon Technologies, Inc. | Wakeword detection |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11093720B2 (en) * | 2019-03-28 | 2021-08-17 | Lenovo (Singapore) Pte. Ltd. | Apparatus, method, and program product for converting multiple language variations |
EP3738119B1 (en) | 2019-04-01 | 2023-06-07 | Google LLC | Adaptive management of casting requests and/or user inputs at a rechargeable device |
KR102375115B1 (ko) * | 2019-05-03 | 2022-03-17 | 구글 엘엘씨 | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
KR20200141860A (ko) * | 2019-06-11 | 2020-12-21 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11282500B2 (en) * | 2019-07-19 | 2022-03-22 | Cisco Technology, Inc. | Generating and training new wake words |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US20210050003A1 (en) * | 2019-08-15 | 2021-02-18 | Sameer Syed Zaheer | Custom Wake Phrase Training |
WO2021071115A1 (en) * | 2019-10-07 | 2021-04-15 | Samsung Electronics Co., Ltd. | Electronic device for processing user utterance and method of operating same |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11610578B2 (en) * | 2020-06-10 | 2023-03-21 | Google Llc | Automatic hotword threshold tuning |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11749267B2 (en) * | 2020-11-20 | 2023-09-05 | Google Llc | Adapting hotword recognition based on personalized negatives |
US20230019737A1 (en) * | 2021-07-14 | 2023-01-19 | Google Llc | Hotwording by Degree |
DE102021005206B3 (de) * | 2021-10-19 | 2022-11-03 | Mercedes-Benz Group AG | Verfahren und Vorrichtung zur Bestimmung eines mehrteiligen Schlüsselwortes |
JP7267636B1 (ja) | 2021-10-21 | 2023-05-02 | 株式会社アートクリフ | 情報処理装置、情報処理システム、情報処理方法およびプログラム |
US20230267155A1 (en) * | 2022-02-23 | 2023-08-24 | The Knot Worldwide Inc. | Matching online accounts with overlapping characteristics based on non-homogenous data types |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1207517B1 (en) * | 2000-11-16 | 2007-01-03 | Sony Deutschland GmbH | Method for recognizing speech |
US8838449B2 (en) * | 2010-12-23 | 2014-09-16 | Microsoft Corporation | Word-dependent language model |
JP5596649B2 (ja) * | 2011-09-26 | 2014-09-24 | 株式会社東芝 | 文書マークアップ支援装置、方法、及びプログラム |
WO2014039106A1 (en) * | 2012-09-10 | 2014-03-13 | Google Inc. | Answering questions using environmental context |
US8468023B1 (en) * | 2012-10-01 | 2013-06-18 | Google Inc. | Handsfree device with countinuous keyword recognition |
US9704486B2 (en) | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
US20150279351A1 (en) | 2012-12-19 | 2015-10-01 | Google Inc. | Keyword detection based on acoustic alignment |
US9842489B2 (en) | 2013-02-14 | 2017-12-12 | Google Llc | Waking other devices for additional data |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
JP2015011170A (ja) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
US9202462B2 (en) | 2013-09-30 | 2015-12-01 | Google Inc. | Key phrase detection |
US8768712B1 (en) | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
GB2524222B (en) | 2013-12-18 | 2018-07-18 | Cirrus Logic Int Semiconductor Ltd | Activating speech processing |
US9484022B2 (en) * | 2014-05-23 | 2016-11-01 | Google Inc. | Training multiple neural networks with different accuracy |
US20160055847A1 (en) * | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
US9418656B2 (en) * | 2014-10-29 | 2016-08-16 | Google Inc. | Multi-stage hotword detection |
US9779725B2 (en) | 2014-12-11 | 2017-10-03 | Mediatek Inc. | Voice wakeup detecting device and method |
US9508340B2 (en) | 2014-12-22 | 2016-11-29 | Google Inc. | User specified keyword spotting using long short term memory neural network feature extractor |
EP3067884B1 (en) | 2015-03-13 | 2019-05-08 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
US10311876B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Server side hotwording |
US10762903B1 (en) * | 2017-11-07 | 2020-09-01 | Amazon Technologies, Inc. | Conversational recovery for voice user interface |
US11017778B1 (en) * | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
EP3738119B1 (en) | 2019-04-01 | 2023-06-07 | Google LLC | Adaptive management of casting requests and/or user inputs at a rechargeable device |
-
2017
- 2017-02-14 US US15/432,358 patent/US10311876B2/en active Active
- 2017-10-30 WO PCT/US2017/058944 patent/WO2018151772A1/en unknown
- 2017-10-30 CN CN202310534112.4A patent/CN116504238A/zh active Pending
- 2017-10-30 EP EP20194706.6A patent/EP3767623A1/en active Pending
- 2017-10-30 EP EP17804349.3A patent/EP3559944B1/en active Active
- 2017-10-30 KR KR1020197025555A patent/KR102332944B1/ko active IP Right Grant
- 2017-10-30 DE DE202017106606.1U patent/DE202017106606U1/de active Active
- 2017-10-30 CN CN201780086256.0A patent/CN110268469B/zh active Active
- 2017-10-30 JP JP2019543379A patent/JP6855588B2/ja active Active
-
2019
- 2019-04-24 US US16/392,829 patent/US10706851B2/en active Active
-
2020
- 2020-05-27 US US16/885,151 patent/US11049504B2/en active Active
-
2021
- 2021-03-16 JP JP2021042293A patent/JP7189248B2/ja active Active
- 2021-06-02 US US17/337,182 patent/US11699443B2/en active Active
-
2023
- 2023-06-30 US US18/345,077 patent/US20230343340A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US10311876B2 (en) | 2019-06-04 |
US20190304465A1 (en) | 2019-10-03 |
US10706851B2 (en) | 2020-07-07 |
WO2018151772A1 (en) | 2018-08-23 |
CN110268469B (zh) | 2023-05-23 |
KR20190109532A (ko) | 2019-09-25 |
EP3559944A1 (en) | 2019-10-30 |
US20200365158A1 (en) | 2020-11-19 |
KR102332944B1 (ko) | 2021-11-30 |
JP2020507815A (ja) | 2020-03-12 |
CN116504238A (zh) | 2023-07-28 |
US20210287678A1 (en) | 2021-09-16 |
CN110268469A (zh) | 2019-09-20 |
DE202017106606U1 (de) | 2018-02-14 |
EP3767623A1 (en) | 2021-01-20 |
EP3559944B1 (en) | 2020-09-09 |
US20180233150A1 (en) | 2018-08-16 |
US11699443B2 (en) | 2023-07-11 |
US11049504B2 (en) | 2021-06-29 |
JP7189248B2 (ja) | 2022-12-13 |
US20230343340A1 (en) | 2023-10-26 |
JP2021107927A (ja) | 2021-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6855588B2 (ja) | サーバ側ホットワーディング | |
JP6630765B2 (ja) | 個別化されたホットワード検出モデル | |
US10269346B2 (en) | Multiple speech locale-specific hotword classifiers for selection of a speech locale | |
US11289096B2 (en) | Providing answers to voice queries using user feedback | |
US20160300568A1 (en) | Initiating actions based on partial hotwords | |
CN104584119A (zh) | 确定热词适合度 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20191008 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191008 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210317 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6855588 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |