JP7354110B2 - オーディオ処理システム及び方法 - Google Patents
オーディオ処理システム及び方法 Download PDFInfo
- Publication number
- JP7354110B2 JP7354110B2 JP2020533654A JP2020533654A JP7354110B2 JP 7354110 B2 JP7354110 B2 JP 7354110B2 JP 2020533654 A JP2020533654 A JP 2020533654A JP 2020533654 A JP2020533654 A JP 2020533654A JP 7354110 B2 JP7354110 B2 JP 7354110B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- host device
- command
- audio samples
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 43
- 238000000034 method Methods 0.000 title claims description 38
- 230000005236 sound signal Effects 0.000 claims description 59
- 238000001514 detection method Methods 0.000 claims description 14
- 238000012546 transfer Methods 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 3
- 230000003466 anti-cipated effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/12—Arrangements for remote connection or disconnection of substations or of equipment thereof
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/90—Buffering arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
Claims (10)
- デジタル信号プロセッサを用いて第1データレートで音声強調オーディオサンプルのストリームを生成するようにオーディオ入力信号を処理することと、
ファーストイン、ファーストアウト準拠の遅延バッファに前記音声強調オーディオサンプルを格納することと、
前記デジタル信号プロセッサの第1トリガーエンジンにより、前記音声強調オーディオサンプルにおいてキーワードを検知することと、
前記音声強調オーディオサンプルにおける前記キーワードの検知に応じてホストデバイスに起動コマンドを送信することと、
格納した前記音声強調オーディオサンプルを前記ホストデバイスにデータバスを介して第2データレートで送信し、前記第2データレートは前記第1データレートより大きいことと、
前記ホストデバイスの第2トリガーエンジンにより、前記音声強調オーディオサンプルにおける前記キーワードの存在を検証することと、
前記ホストデバイスから停止コマンドを受信するまで、生成された前記音声強調オーディオサンプルのストリームを前記ホストデバイスに前記第1データレートで送信することと、
前記ホストデバイスが、前記起動コマンドに応じて、スリープモードからオペレーションモードに移ることと、
前記ホストデバイスが、前記キーワードが前記第2トリガーエンジンによって検証されなかったことに応じて前記オペレーションモードから前記スリープモードに移ることと、
を含み、
前記第1トリガーエンジンが、前記第2トリガーエンジンよりも低電力である
方法。 - 前記オーディオ入力信号をオーディオセンサアレイから受信し、前記オーディオ入力信号はオーディオ信号であることをさらに含む
請求項1に記載の方法。 - 前記遅延バッファは、T秒のオーディオ入力データに相当する前記音声強調オーディオサンプルを格納するように構成され、前記T秒は前記オーディオ入力信号を受信してから最初に送信された音声強調オーディオサンプルを前記ホストデバイスが受信するまでの時間である請求項1に記載の方法。
- 前記ホストデバイスが前記起動コマンドを受信することと、
前記ホストデバイスが前記オペレーションモードに移った後、前記ホストデバイスからオーディオサンプルの要求を送信することと、
をさらに含む
請求項1に記載の方法。 - 音声コマンドプロセッサが、コマンドを決定するように、前記キーワードに続く前記音声強調オーディオサンプルを処理することと、
決定された前記コマンドを実行することと、
をさらに含む
請求項1に記載の方法。 - 前記ホストデバイスの非アクティブの期間を検知することと、
前記ホストデバイスが停止コマンドを送信することと、
前記ホストデバイスがオペレーションモードからスリープモードに移行することと、
をさらに含む
請求項1に記載の方法。 - ホストデバイスと、
オーディオ入力信号を受信して、第1データレートを有するオーディオサンプルのストリームを生成するように動作可能なオーディオ入力回路部と、
前記オーディオサンプルのストリームにおいてキーワードを検知し、前記オーディオサンプルのストリームにおける前記キーワードの検知に応じて起動コマンドを前記ホストデバイスにデータバスを介して送信するように動作可能な第1トリガーエンジンと、
遅延バッファと、
を備え、
前記遅延バッファは、前記オーディオサンプルのストリームを、ファーストイン、ファーストアウト準拠で格納して、データの転送要求を前記ホストデバイスから受信した後、格納された前記オーディオサンプルを前記ホストデバイスに前記第1データレートより大きい第2データレートで、次のオーディオサンプルが前記遅延バッファに格納されなくなるまで送信するように動作可能であり、
前記遅延バッファは、格納された前記オーディオサンプルを前記遅延バッファから前記ホストデバイスに送信した後、停止コマンドを前記ホストデバイスから受信するまで、前記オーディオサンプルのストリームを前記ホストデバイスに前記第1データレートで送信するように動作可能であり、
前記ホストデバイスが、前記オーディオサンプルにおける前記キーワードの存在を検証するように動作可能な第2トリガーエンジンを備え、
前記第1トリガーエンジンが前記第2トリガーエンジンよりも低電力であり、
前記ホストデバイスが、
前記起動コマンドに応じてスリープモードからオペレーションモードに移り、
前記第2トリガーエンジンによって前記キーワードが検証されなかったことに応じて前記オペレーションモードから前記スリープモードに移るように動作可能である
オーディオ処理システム。 - 前記遅延バッファは、前記オーディオ入力信号の少なくともT秒に相当する前記オーディオサンプルのストリームのサブセットを格納するように動作可能なメモリであり、前記T秒は前記オーディオサンプルのストリームを受信したときから前記ホストデバイスが最初に格納された前記オーディオサンプルを受信するときまでの間の時間である
請求項7に記載のオーディオ処理システム。 - 前記ホストデバイスは、
前記起動コマンドを前記データバスから受信し、起動シークエンスを実行し、前記データバスにオーディオサンプルの要求を送信し、格納された前記オーディオサンプルを受信するように動作可能なホストプロセッサ
を備える
請求項7に記載のオーディオ処理システム。 - 前記ホストデバイスは、
前記データバスから受信した前記オーディオサンプルを格納するように動作可能な入力バッファと、
前記入力バッファに格納された前記オーディオサンプルにおいて前記キーワードに続く音声コマンドを認識し、認識された前記音声コマンドを実行するように動作可能な音声コマンドプロセッサと、
を備える
請求項7に記載のオーディオ処理システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/859,242 US10601599B2 (en) | 2017-12-29 | 2017-12-29 | Voice command processing in low power devices |
US15/859,242 | 2017-12-29 | ||
PCT/US2018/068016 WO2019133911A1 (en) | 2017-12-29 | 2018-12-28 | Voice command processing in low power devices |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021508842A JP2021508842A (ja) | 2021-03-11 |
JP7354110B2 true JP7354110B2 (ja) | 2023-10-02 |
Family
ID=67059963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020533654A Active JP7354110B2 (ja) | 2017-12-29 | 2018-12-28 | オーディオ処理システム及び方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10601599B2 (ja) |
JP (1) | JP7354110B2 (ja) |
CN (1) | CN111566730B (ja) |
WO (1) | WO2019133911A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11367449B2 (en) * | 2017-08-09 | 2022-06-21 | Lg Electronics Inc. | Method and apparatus for calling voice recognition service by using Bluetooth low energy technology |
TWI651714B (zh) * | 2017-12-22 | 2019-02-21 | 隆宸星股份有限公司 | 語音選項選擇系統與方法以及使用其之智慧型機器人 |
CN111357048B (zh) * | 2017-12-31 | 2024-10-08 | 美的集团股份有限公司 | 用于控制家庭助手装置的方法和系统 |
KR102459920B1 (ko) * | 2018-01-25 | 2022-10-27 | 삼성전자주식회사 | 저전력 에코 제거를 지원하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
US11150869B2 (en) | 2018-02-14 | 2021-10-19 | International Business Machines Corporation | Voice command filtering |
GB2572065B (en) * | 2018-02-20 | 2021-03-03 | Cirrus Logic Int Semiconductor Ltd | Methods and apparatus relating to data transfer over a USB connector |
US20190295540A1 (en) * | 2018-03-23 | 2019-09-26 | Cirrus Logic International Semiconductor Ltd. | Voice trigger validator |
US11200890B2 (en) | 2018-05-01 | 2021-12-14 | International Business Machines Corporation | Distinguishing voice commands |
US11238856B2 (en) * | 2018-05-01 | 2022-02-01 | International Business Machines Corporation | Ignoring trigger words in streamed media content |
US11776538B1 (en) * | 2019-04-01 | 2023-10-03 | Dialog Semiconductor B.V. | Signal processing |
CN110060685B (zh) * | 2019-04-15 | 2021-05-28 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN112073862B (zh) * | 2019-06-10 | 2023-03-31 | 美商楼氏电子有限公司 | 数字处理器、麦克风组件和对关键字进行检测的方法 |
US11355108B2 (en) | 2019-08-20 | 2022-06-07 | International Business Machines Corporation | Distinguishing voice commands |
US10827271B1 (en) * | 2019-10-07 | 2020-11-03 | Synaptics Incorporated | Backward compatibility for audio systems and methods |
EP4447046A2 (en) * | 2020-04-08 | 2024-10-16 | Google LLC | Cascade architecture for noise-robust keyword spotting |
CN111681675B (zh) * | 2020-06-03 | 2024-06-07 | 西安通立软件开发有限公司 | 数据动态传输方法、装置、设备和存储介质 |
TWI765485B (zh) * | 2020-12-21 | 2022-05-21 | 矽統科技股份有限公司 | 外接式語音喚醒裝置及其控制方法 |
US11792560B2 (en) * | 2021-05-21 | 2023-10-17 | Skullcandy, Inc. | Audio operating systems for portable electronic accessory systems and related systems, methods, and devices |
KR102464972B1 (ko) * | 2021-05-24 | 2022-11-08 | 한양대학교 산학협력단 | 자동 활성화 마이크의 초기 음성 신호를 인식하기 위한 음성 신호의 제어 및 동기화 방법 및 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015082138A (ja) | 2013-10-21 | 2015-04-27 | 富士通株式会社 | 音声検索装置及び音声検索方法 |
US20160148615A1 (en) | 2014-11-26 | 2016-05-26 | Samsung Electronics Co., Ltd. | Method and electronic device for voice recognition |
JP2016526331A (ja) | 2013-05-23 | 2016-09-01 | ノールズ エレクトロニクス,リミテッド ライアビリティ カンパニー | Vad検出マイク及びその動作方法 |
JP6200516B2 (ja) | 2012-12-11 | 2017-09-20 | アマゾン テクノロジーズ インコーポレイテッド | 発話認識電力管理 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4837830A (en) * | 1987-01-16 | 1989-06-06 | Itt Defense Communications, A Division Of Itt Corporation | Multiple parameter speaker recognition system and methods |
US6411926B1 (en) * | 1999-02-08 | 2002-06-25 | Qualcomm Incorporated | Distributed voice recognition system |
US7389461B2 (en) * | 2005-09-28 | 2008-06-17 | Teradyne, Inc. | Data capture in automatic test equipment |
WO2009124911A1 (en) * | 2008-04-07 | 2009-10-15 | Nxp B.V. | Mobile phone with low-power media rendering sub-system |
JP5971550B2 (ja) * | 2011-03-28 | 2016-08-17 | ヤマハ株式会社 | オーディオデータ入力装置および出力装置 |
US9110668B2 (en) * | 2012-01-31 | 2015-08-18 | Broadcom Corporation | Enhanced buffer-batch management for energy efficient networking based on a power mode of a network interface |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10051115B2 (en) | 2013-05-01 | 2018-08-14 | Thomson Licensing | Call initiation by voice command |
US9454975B2 (en) | 2013-11-07 | 2016-09-27 | Nvidia Corporation | Voice trigger |
GB2523984B (en) | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
US9646607B2 (en) | 2014-03-10 | 2017-05-09 | Dell Products, L.P. | Managing wake-on-voice buffer quality based on system boot profiling |
US9652017B2 (en) * | 2014-12-17 | 2017-05-16 | Qualcomm Incorporated | System and method of analyzing audio data samples associated with speech recognition |
US10133690B2 (en) * | 2016-02-19 | 2018-11-20 | Invensense, Inc. | Adaptive buffering of data received from a sensor |
WO2018039045A1 (en) * | 2016-08-24 | 2018-03-01 | Knowles Electronics, Llc | Methods and systems for keyword detection using keyword repetitions |
-
2017
- 2017-12-29 US US15/859,242 patent/US10601599B2/en active Active
-
2018
- 2018-12-28 CN CN201880084613.4A patent/CN111566730B/zh active Active
- 2018-12-28 JP JP2020533654A patent/JP7354110B2/ja active Active
- 2018-12-28 WO PCT/US2018/068016 patent/WO2019133911A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6200516B2 (ja) | 2012-12-11 | 2017-09-20 | アマゾン テクノロジーズ インコーポレイテッド | 発話認識電力管理 |
JP2016526331A (ja) | 2013-05-23 | 2016-09-01 | ノールズ エレクトロニクス,リミテッド ライアビリティ カンパニー | Vad検出マイク及びその動作方法 |
JP2015082138A (ja) | 2013-10-21 | 2015-04-27 | 富士通株式会社 | 音声検索装置及び音声検索方法 |
US20160148615A1 (en) | 2014-11-26 | 2016-05-26 | Samsung Electronics Co., Ltd. | Method and electronic device for voice recognition |
Also Published As
Publication number | Publication date |
---|---|
CN111566730B (zh) | 2024-04-26 |
CN111566730A (zh) | 2020-08-21 |
US20190207777A1 (en) | 2019-07-04 |
US10601599B2 (en) | 2020-03-24 |
WO2019133911A1 (en) | 2019-07-04 |
JP2021508842A (ja) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7354110B2 (ja) | オーディオ処理システム及び方法 | |
US9613626B2 (en) | Audio device for recognizing key phrases and method thereof | |
EP3389044B1 (en) | Management layer for multiple intelligent personal assistant services | |
EP3413305B1 (en) | Dual mode speech recognition | |
US11308978B2 (en) | Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices | |
CN110018735B (zh) | 智能个人助理接口系统 | |
JP6751433B2 (ja) | アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体 | |
JP6956126B2 (ja) | 第三者アプリケーションのインタラクション方法、及びシステム | |
US9652017B2 (en) | System and method of analyzing audio data samples associated with speech recognition | |
US20160125883A1 (en) | Speech recognition client apparatus performing local speech recognition | |
US11062703B2 (en) | Automatic speech recognition with filler model processing | |
EP3828741B1 (en) | Key phrase detection with audio watermarking | |
US9484028B2 (en) | Systems and methods for hands-free voice control and voice search | |
US11004453B2 (en) | Avoiding wake word self-triggering | |
US20180293974A1 (en) | Spoken language understanding based on buffered keyword spotting and speech recognition | |
US20190147890A1 (en) | Audio peripheral device | |
US10896677B2 (en) | Voice interaction system that generates interjection words | |
US11887584B2 (en) | Vocal command recognition | |
CN114999496A (zh) | 音频传输方法、控制设备及终端设备 | |
US20230386458A1 (en) | Pre-wakeword speech processing | |
US20210350798A1 (en) | Two stage user customizable wake word detection | |
EP3502868A1 (en) | Intelligent personal assistant interface system | |
CN113628613A (zh) | 两阶段的用户可定制唤醒词检测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230731 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7354110 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |