JP2019079052A - 音声データ処理方法、装置、設備及びプログラム - Google Patents
音声データ処理方法、装置、設備及びプログラム Download PDFInfo
- Publication number
- JP2019079052A JP2019079052A JP2018199704A JP2018199704A JP2019079052A JP 2019079052 A JP2019079052 A JP 2019079052A JP 2018199704 A JP2018199704 A JP 2018199704A JP 2018199704 A JP2018199704 A JP 2018199704A JP 2019079052 A JP2019079052 A JP 2019079052A
- Authority
- JP
- Japan
- Prior art keywords
- identification
- alarm
- voice
- result
- engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000012790 confirmation Methods 0.000 claims abstract description 92
- 238000012545 processing Methods 0.000 claims description 77
- 230000015654 memory Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F5/00—Methods or arrangements for data conversion without changing the order or content of the data handled
- G06F5/06—Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor
- G06F5/08—Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor having a sequence of storage locations, the intermediate ones not being accessible for either enqueue or dequeue operations, e.g. using a shift register
- G06F5/085—Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor having a sequence of storage locations, the intermediate ones not being accessible for either enqueue or dequeue operations, e.g. using a shift register in which the data is recirculated
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4418—Suspend and resume; Hibernate and awake
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
Description
該シーンにおいて、クライアントは、音声目覚ましエンジンが返信した疑似目覚ましという識別の結果を取得し、現在がoneshot状況にあると確定した後に、キャッシュデータを音声識別エンジンに送信し、音声識別エンジンはキャッシュデータに基づいて2度目の目覚まし識別を行い、2度目の目覚まし識別の結果を返信することができ、2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、音声識別エンジンによってキャッシュデータにおける識別内容に対して音声識別を行う。
Claims (22)
- 音声データ処理方法であって、
クライアントが、音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶すること、
前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるoneshot状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得すること、
前記クライアントが、音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信すること、を含む、音声データ処理方法。 - 前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし単語の、前記音声データにおける終了位置及び前記目覚まし単語の長さ情報を、取得すること、を更に含み、
前記切出先頭位置を確定することは、
前記目覚まし単語の音声データにおける終了位置及び前記目覚まし単語の長さに基づいて、前記目覚まし単語の音声データにおける先頭位置を確定し、前記目覚まし単語の音声データにおける先頭位置を前記切出先頭位置とすること、を含む、請求項1に記載の音声データ処理方法。 - 前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし単語を取得すること、
前記クライアントが、前記キャッシュデータを前記音声識別エンジンに送信する以外に、前記音声識別エンジンが前記目覚まし単語に基づいて前記キャッシュデータから前記識別内容をフィルタリングするように、前記目覚まし単語を前記音声識別エンジンに送信すること、を更に含む、請求項2に記載の音声データ処理方法。 - 前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い前記2度目の目覚まし識別の結果を返信するように、前記クライアントが前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定すること、を更に含む、請求項2に記載の音声データ処理方法。
- 前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い前記2度目の目覚まし識別の結果を返信するように、前記クライアントが前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を更に含む、請求項2に記載の音声データ処理方法。
- 音声データ処理方法であって、
音声識別エンジンがクライアントからの少なくとも識別内容を含むキャッシュデータを取得し、前記キャッシュデータが、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであり、現在がoneshot状況にあると確定した時に、前記クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶することであって、前記キャッシュデータは取得された循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、前記oneshot状況は目覚まし単語と識別内容とが連続的に話される状況である、記憶すること、
前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を含む、音声データ処理方法。 - 前記切出先頭位置は、前記目覚まし単語の音声データにおける先頭位置を含む
、請求項6に記載の音声データ処理方法。 - 前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあれば、前記音声識別エンジンが、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータに基づいて、2度目の目覚まし識別を行い、前記クライアントに前記2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定すること、を更に含む、請求項7に記載の音声データ処理方法。
- 前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあれば、前記音声識別エンジンが、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータに基づいて、2度目の目覚まし識別を行い、前記クライアントに前記2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、前記音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を更に含む、請求項7に記載の音声データ処理方法。
- 音声データ処理装置であって、第1の処理手段と第2の処理手段とを含み、
前記第1の処理手段は、音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶することに用いられ、
前記第2の処理手段は、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるoneshot状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得し、音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信することに用いられ、音声データ処理装置。 - 前記第2の処理手段は、さらに、
前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし単語の、前記音声データにおける終了位置及び前記目覚まし単語の長さ情報を、取得すること、
前記目覚まし単語の音声データにおける終了位置及び前記目覚まし単語の長さに基づいて、前記目覚まし単語の音声データにおける先頭位置を確定し、前記目覚まし単語の音声データにおける先頭位置を前記切出先頭位置とすることにも用いられる、請求項10に記載の音声データ処理装置。 - 前記第2の処理手段は、さらに、
前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし単語を取得すること、
前記音声識別エンジンが前記目覚まし単語に基づいて前記キャッシュデータから前記識別内容をフィルタリングするように、前記目覚まし単語を前記音声識別エンジンに送信することにも用いられる、請求項11に記載の音声データ処理装置。 - 前記第2の処理手段は、さらに、
前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い前記2度目の目覚まし識別の結果を返信するように、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することにも用いられる、請求項11に記載の音声データ処理装置。 - 前記第2の処理手段は、さらに、
前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い前記2度目の目覚まし識別の結果を返信するように、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うことにも用いられる、請求項11に記載の音声データ処理装置。 - 音声データ処理装置であって、第3の処理手段と第4の処理手段とを含み、
前記第3の処理手段は、クライアントからの少なくとも識別内容を含むキャッシュデータを取得し、前記キャッシュデータが、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであり、現在がoneshot状況にあると確定した時に、前記クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶することであって、前記キャッシュデータは取得された前記循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、前記oneshot状況は目覚まし単語と識別内容とが連続的に話される状況である、記憶することに用いられ、
前記第4の処理手段は、前記キャッシュデータにおける識別内容に対して音声識別を行うことに用いられる、音声データ処理装置。 - 前記切出先頭位置は、前記目覚まし単語の音声データにおける先頭位置を含む、請求項15に記載の音声データ処理装置。
- 前記第3の処理手段は、さらに、
前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあると確定すれば、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを取得することにも用いられ、
前記第4の処理手段は、さらに、
前記キャッシュデータに基づいて2度目の目覚まし識別を行い、前記クライアントに前記2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することにも用いられる、請求項16に記載の音声データ処理装置。 - 前記第3の処理手段は、さらに、
前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあると確定すれば、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを取得することにも用いられ、
前記第4の処理手段は、さらに、
前記キャッシュデータに基づいて2度目の目覚まし識別を行い、前記クライアントに前記2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、前記キャッシュデータにおける識別内容に対して音声識別を行うことにも用いられる、請求項16に記載の音声データ処理装置。 - メモリ、プロセッサ及び前記メモリに記憶され前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、
前記プロセッサが前記コンピュータプログラムを実行する時、請求項1〜5のいずれか1項に記載された音声データ処理方法を実現する、コンピュータ設備。 - 記憶されプロセッサ実行されが、請求項1〜5のいずれか1項に記載された音声データ処理方法を実現するための、コンピュータプログラム。
- メモリ、プロセッサ及び前記メモリに記憶され前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、
前記プロセッサが前記コンピュータプログラムを実行する時、請求項6〜9のいずれか1項に記載された音声データ処理方法を実現する、コンピュータ設備。 - 記憶されプロセッサ実行されが、請求項6〜9のいずれか1項に記載された音声データ処理方法を実現するための、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711010711.7 | 2017-10-25 | ||
CN201711010711.7A CN107808670B (zh) | 2017-10-25 | 2017-10-25 | 语音数据处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019079052A true JP2019079052A (ja) | 2019-05-23 |
JP6683234B2 JP6683234B2 (ja) | 2020-04-15 |
Family
ID=61592423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018199704A Active JP6683234B2 (ja) | 2017-10-25 | 2018-10-24 | 音声データ処理方法、装置、設備及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10923119B2 (ja) |
JP (1) | JP6683234B2 (ja) |
CN (1) | CN107808670B (ja) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9826306B2 (en) | 2016-02-22 | 2017-11-21 | Sonos, Inc. | Default playback device designation |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US11295747B2 (en) * | 2018-03-07 | 2022-04-05 | Dsp Group Ltd. | System and a method for transmission of audio signals |
CN110299137B (zh) * | 2018-03-22 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 语音交互方法和装置 |
JP7186375B2 (ja) * | 2018-03-29 | 2022-12-09 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
CN108563468B (zh) * | 2018-03-30 | 2021-09-21 | 深圳市冠旭电子股份有限公司 | 一种蓝牙音箱数据处理的方法、装置及蓝牙音箱 |
CN108766422B (zh) * | 2018-04-02 | 2020-09-15 | 青岛海尔科技有限公司 | 语音设备的响应方法、装置、存储介质及计算机设备 |
US11238856B2 (en) * | 2018-05-01 | 2022-02-01 | International Business Machines Corporation | Ignoring trigger words in streamed media content |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
CN109065037B (zh) * | 2018-07-10 | 2023-04-25 | 瑞芯微电子股份有限公司 | 一种基于语音交互的音频流控制方法 |
CN108962262B (zh) * | 2018-08-14 | 2021-10-08 | 思必驰科技股份有限公司 | 语音数据处理方法和装置 |
CN109147779A (zh) * | 2018-08-14 | 2019-01-04 | 苏州思必驰信息科技有限公司 | 语音数据处理方法和装置 |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) * | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
CN109819319A (zh) * | 2019-03-07 | 2019-05-28 | 重庆蓝岸通讯技术有限公司 | 一种录像记录关键帧的方法 |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
CN110232916A (zh) * | 2019-05-10 | 2019-09-13 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN110047471A (zh) * | 2019-05-13 | 2019-07-23 | 深圳市智宇盟科技有限公司 | 语音唤醒方法 |
CN110223687B (zh) * | 2019-06-03 | 2021-09-28 | Oppo广东移动通信有限公司 | 指令执行方法、装置、存储介质及电子设备 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
CN111081241B (zh) * | 2019-11-20 | 2023-04-07 | Oppo广东移动通信有限公司 | 设备误唤醒的数据检测方法、装置、移动终端和存储介质 |
CN110971685B (zh) * | 2019-11-29 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 内容处理方法、装置、计算机设备及存储介质 |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN111091849B (zh) * | 2020-03-03 | 2020-12-22 | 龙马智芯(珠海横琴)科技有限公司 | 鼾声识别的方法及装置、存储介质止鼾设备和处理器 |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
CN111816190A (zh) * | 2020-07-08 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 用于上位机与下位机的语音交互方法和装置 |
CN112071323B (zh) * | 2020-09-18 | 2023-03-21 | 阿波罗智联(北京)科技有限公司 | 误唤醒样本数据的获取方法、装置和电子设备 |
CN112233681A (zh) * | 2020-10-10 | 2021-01-15 | 北京百度网讯科技有限公司 | 一种误唤醒语料确定方法、装置、电子设备和存储介质 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN112698872A (zh) * | 2020-12-21 | 2021-04-23 | 北京百度网讯科技有限公司 | 语音数据处理的方法、装置、设备及存储介质 |
CN115497457A (zh) * | 2022-09-29 | 2022-12-20 | 贵州小爱机器人科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015011170A (ja) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
JP2016535312A (ja) * | 2013-09-03 | 2016-11-10 | アマゾン・テクノロジーズ、インコーポレイテッド | 高性能循環オーディオバッファ |
JP2017079051A (ja) * | 2015-09-08 | 2017-04-27 | アップル インコーポレイテッド | ゼロレイテンシデジタルアシスタント |
JP2017520012A (ja) * | 2014-04-21 | 2017-07-20 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | スピーチ入力によってアプリケーションをアクティブ化するための方法および装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100631786B1 (ko) * | 2005-02-18 | 2006-10-12 | 삼성전자주식회사 | 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치 |
US7831427B2 (en) * | 2007-06-20 | 2010-11-09 | Microsoft Corporation | Concept monitoring in spoken-word audio |
EP2192794B1 (en) * | 2008-11-26 | 2017-10-04 | Oticon A/S | Improvements in hearing aid algorithms |
CN102118886A (zh) * | 2010-01-04 | 2011-07-06 | 中国移动通信集团公司 | 一种语音信息的识别方法和设备 |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
CN104321622B (zh) * | 2012-06-05 | 2017-09-08 | 苹果公司 | 情景感知语音引导 |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
US9603065B2 (en) | 2013-04-03 | 2017-03-21 | Google Technology Holdings LLC | Methods and devices for cell discovery |
KR102197143B1 (ko) * | 2013-11-26 | 2020-12-31 | 현대모비스 주식회사 | 음성 인식을 이용한 명령 수행 시스템 및 그 동작 방법 |
US9335966B2 (en) * | 2014-09-11 | 2016-05-10 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup |
KR102299330B1 (ko) | 2014-11-26 | 2021-09-08 | 삼성전자주식회사 | 음성 인식 방법 및 그 전자 장치 |
BR112017021673B1 (pt) * | 2015-04-10 | 2023-02-14 | Honor Device Co., Ltd | Método de controle de voz, meio não-transitório legível por computador e terminal |
CN104850827B (zh) * | 2015-04-23 | 2018-12-18 | 小米科技有限责任公司 | 指纹识别方法及装置 |
US9734822B1 (en) * | 2015-06-01 | 2017-08-15 | Amazon Technologies, Inc. | Feedback based beamformed signal selection |
US9691378B1 (en) * | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
CN106228985A (zh) * | 2016-07-18 | 2016-12-14 | 广东志高空调有限公司 | 一种语音控制系统、控制器和家用电器设备 |
US10403279B2 (en) * | 2016-12-21 | 2019-09-03 | Avnera Corporation | Low-power, always-listening, voice command detection and capture |
CN106910496A (zh) * | 2017-02-28 | 2017-06-30 | 广东美的制冷设备有限公司 | 智能家电控制方法和装置 |
US10311870B2 (en) * | 2017-05-10 | 2019-06-04 | Ecobee Inc. | Computerized device with voice command input capability |
US10304475B1 (en) * | 2017-08-14 | 2019-05-28 | Amazon Technologies, Inc. | Trigger word based beam selection |
-
2017
- 2017-10-25 CN CN201711010711.7A patent/CN107808670B/zh active Active
- 2017-12-28 US US15/857,487 patent/US10923119B2/en active Active
-
2018
- 2018-10-24 JP JP2018199704A patent/JP6683234B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015011170A (ja) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
JP2016535312A (ja) * | 2013-09-03 | 2016-11-10 | アマゾン・テクノロジーズ、インコーポレイテッド | 高性能循環オーディオバッファ |
JP2017520012A (ja) * | 2014-04-21 | 2017-07-20 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | スピーチ入力によってアプリケーションをアクティブ化するための方法および装置 |
JP2017079051A (ja) * | 2015-09-08 | 2017-04-27 | アップル インコーポレイテッド | ゼロレイテンシデジタルアシスタント |
Also Published As
Publication number | Publication date |
---|---|
JP6683234B2 (ja) | 2020-04-15 |
US10923119B2 (en) | 2021-02-16 |
CN107808670B (zh) | 2021-05-14 |
CN107808670A (zh) | 2018-03-16 |
US20190122662A1 (en) | 2019-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019079052A (ja) | 音声データ処理方法、装置、設備及びプログラム | |
CN108520743B (zh) | 智能设备的语音控制方法、智能设备及计算机可读介质 | |
US20190066671A1 (en) | Far-field speech awaking method, device and terminal device | |
JP7029613B2 (ja) | インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム | |
US10621972B2 (en) | Method and device extracting acoustic feature based on convolution neural network and terminal device | |
JP2019185011A (ja) | アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体 | |
CN108133707B (zh) | 一种内容分享方法及系统 | |
WO2017008426A1 (zh) | 语音合成方法和装置 | |
JP2020112778A (ja) | 音声対話設備のウェイクアップ方法、装置、設備及び記憶媒体 | |
CN107256707B (zh) | 一种语音识别方法、系统及终端设备 | |
JP2019015952A (ja) | ウェイクアップ方法、デバイス及びシステム、クラウドサーバーと可読媒体 | |
JP2020016875A (ja) | 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム | |
CN107516526B (zh) | 一种声源跟踪定位方法、装置、设备和计算机可读存储介质 | |
EP3444811B1 (en) | Speech recognition method and device | |
JP6756079B2 (ja) | 人工知能に基づく三元組チェック方法、装置及びコンピュータプログラム | |
CN108564944B (zh) | 智能控制方法、系统、设备及存储介质 | |
CN108682414A (zh) | 语音控制方法、语音系统、设备和存储介质 | |
CN109215646B (zh) | 语音交互处理方法、装置、计算机设备及存储介质 | |
US20190251961A1 (en) | Transcription of audio communication to identify command to device | |
JPWO2016157782A1 (ja) | 音声認識システム、音声認識装置、音声認識方法、および制御プログラム | |
CN106228047B (zh) | 一种应用程序图标处理方法及终端设备 | |
CN111899859A (zh) | 手术器械清点方法及装置 | |
CN110826036A (zh) | 用户操作行为安全性的识别方法、装置和电子设备 | |
JP2022120024A (ja) | オーディオ信号処理方法、モデルトレーニング方法、並びにそれらの装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN113053390B (zh) | 基于语音识别的文本处理方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181024 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200309 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6683234 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |