JP6783339B2 - 音声を処理する方法及び装置 - Google Patents
音声を処理する方法及び装置 Download PDFInfo
- Publication number
- JP6783339B2 JP6783339B2 JP2019047290A JP2019047290A JP6783339B2 JP 6783339 B2 JP6783339 B2 JP 6783339B2 JP 2019047290 A JP2019047290 A JP 2019047290A JP 2019047290 A JP2019047290 A JP 2019047290A JP 6783339 B2 JP6783339 B2 JP 6783339B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice dialogue
- dialogue device
- input
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 90
- 230000008569 process Effects 0.000 claims description 47
- 238000004458 analytical method Methods 0.000 claims description 43
- 230000004044 response Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000005406 washing Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000012528 membrane Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 2
- 230000004043 responsiveness Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Description
Claims (10)
- 音声を処理する方法であって、
目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置が受信した入力音声の音声特徴を取得するステップと、
前記入力音声に所定のウェークアップワードが含まれると確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基いて、前記少なくとも一つの音声対話装置から、音声対話装置を選択してウェークアップするステップと、
ウェークアップされた音声対話装置に前記入力音声を処理させるステップと、
を含む方法。 - 前記音声特徴は、ボリュームを含み、
前記少なくとも一つの音声対話装置から、音声対話装置を選択してウェークアップするステップは、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で、前記少なくとも一つの音声対話装置から、所定の第1の数の音声対話装置を選択してウェークアップする、請求項1に記載の方法。 - 前記音声特徴は音圧を含み、
前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップするステップは、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音圧の大きい順で、前記少なくとも一つの音声対話装置から所定の第2の数の音声対話装置を選択してウェークアップするステップを含む、請求項1に記載の方法。 - 前記の前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップするステップの前に、前記方法は、更に、
前記入力音声を解析して解析結果を取得するステップを含み、
ウェークアップされた音声対話装置に前記入力音声を処理させるステップは、選択された音声対話装置が前記解析結果により指示された操作を実行するように、選択された音声対話装置へ前記解析結果を送信することを含む請求項1から3の何れか一つに記載の方法。 - 音声を処理する装置であって、
目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得するように構成される取得ユニットと、
前記入力音声に所定のウェークアップワードが含まれると確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップし、ウェークアップされた音声対話装置に前記入力音声を処理させるように構成される選択ユニットと、を備える装置。 - 前記音声特徴はボリュームを含み、
前記選択ユニットは、更に、
前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップする時、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で前記少なくとも一つの音声対話装置から、所定の第1の数の音声対話装置を選択してウェークアップするように構成される、請求項5に記載の装置。 - 前記音声特徴は音圧を含み、
前記選択ユニットは、更に、
前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップする時、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音圧の大きい順で前記少なくとも一つの音声対話装置から所定の第2の数の音声対話装置を選択してウェークアップするように構成される、請求項5に記載の装置。 - 前記装置は、
前記入力音声を解析して解析結果を取得するように構成される解析ユニットを更に備え、
前記選択ユニットは、更に、
ウェークアップされた音声対話装置に前記入力音声を処理させることは、選択された音声対話装置が前記解析結果により指示された操作を実行するように、選択された音声対話装置へ前記解析結果を送信することを含むように構成される、請求項5から7の何れか一つに記載の装置。 - 一つ又は複数のプロセッサと、
一つ又は複数のプログラムが記憶される記憶装置と、を備え、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項1から4の何れか一つに記載の方法を実現させる電子装置。 - コンピュータプログラムが記憶されており、当該プログラムがプロセッサにより実行されると、請求項1から4の何れか一つに記載の方法を実現させるコンピュータに読取可能な媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810718087.4A CN108922528B (zh) | 2018-06-29 | 2018-06-29 | 用于处理语音的方法和装置 |
CN201810718087.4 | 2018-06-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020003774A JP2020003774A (ja) | 2020-01-09 |
JP6783339B2 true JP6783339B2 (ja) | 2020-11-11 |
Family
ID=64423452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019047290A Active JP6783339B2 (ja) | 2018-06-29 | 2019-03-14 | 音声を処理する方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11244686B2 (ja) |
JP (1) | JP6783339B2 (ja) |
CN (1) | CN108922528B (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111354336B (zh) * | 2018-12-20 | 2023-12-19 | 美的集团股份有限公司 | 分布式语音交互方法、装置、系统及家电设备 |
CN109841214B (zh) | 2018-12-25 | 2021-06-01 | 百度在线网络技术(北京)有限公司 | 语音唤醒处理方法、装置和存储介质 |
CN111653284B (zh) * | 2019-02-18 | 2023-08-11 | 阿里巴巴集团控股有限公司 | 交互以及识别方法、装置、终端设备及计算机存储介质 |
CN109841207A (zh) * | 2019-03-01 | 2019-06-04 | 深圳前海达闼云端智能科技有限公司 | 一种交互方法及机器人、服务器和存储介质 |
WO2021002493A1 (ko) * | 2019-07-01 | 2021-01-07 | 엘지전자 주식회사 | 지능형 게이트웨이 장치 및 그를 포함하는 제어 시스템 |
CN110610720B (zh) * | 2019-09-19 | 2022-02-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
JPWO2023286775A1 (ja) * | 2021-07-13 | 2023-01-19 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9342516B2 (en) * | 2011-05-18 | 2016-05-17 | Microsoft Technology Licensing, Llc | Media presentation playback annotation |
JP2013153307A (ja) * | 2012-01-25 | 2013-08-08 | Sony Corp | 音声処理装置および方法、並びにプログラム |
US20130238326A1 (en) * | 2012-03-08 | 2013-09-12 | Lg Electronics Inc. | Apparatus and method for multiple device voice control |
US9892729B2 (en) * | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
US10789041B2 (en) * | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
KR102371770B1 (ko) * | 2015-01-19 | 2022-03-07 | 삼성전자주식회사 | 음성 인식 장지 및 방법 |
WO2016152007A1 (ja) * | 2015-03-25 | 2016-09-29 | パナソニックIpマネジメント株式会社 | 画像処理装置およびこれを備えた監視システムならびに画像処理方法 |
US9911416B2 (en) * | 2015-03-27 | 2018-03-06 | Qualcomm Incorporated | Controlling electronic device based on direction of speech |
US11587559B2 (en) * | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US20170221336A1 (en) * | 2016-01-28 | 2017-08-03 | Flex Ltd. | Human voice feedback system |
CN106452987B (zh) * | 2016-07-01 | 2019-07-30 | 广东美的制冷设备有限公司 | 一种语音控制方法及装置、设备 |
CN107622767B (zh) * | 2016-07-15 | 2020-10-02 | 青岛海尔智能技术研发有限公司 | 家电系统的语音控制方法与家电控制系统 |
US10134399B2 (en) * | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
KR102575634B1 (ko) * | 2016-07-26 | 2023-09-06 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
US10832684B2 (en) * | 2016-08-31 | 2020-11-10 | Microsoft Technology Licensing, Llc | Personalization of experiences with digital assistants in communal settings through voice and query processing |
US10390096B2 (en) * | 2016-09-16 | 2019-08-20 | DISH Technologies L.L.C. | Collecting media consumer data |
US10347256B2 (en) * | 2016-09-19 | 2019-07-09 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
CN107016993A (zh) * | 2017-05-15 | 2017-08-04 | 成都铅笔科技有限公司 | 一种智能家居的语音交互系统及方法 |
US20180336892A1 (en) * | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
CN107195305B (zh) * | 2017-07-21 | 2021-01-19 | 合肥联宝信息技术有限公司 | 一种信息处理方法及电子设备 |
CN107610700A (zh) * | 2017-09-07 | 2018-01-19 | 唐冬香 | 一种基于mems麦克风的终端控制方法和系统 |
CN107680591A (zh) * | 2017-09-21 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 基于车载终端的语音交互方法、装置及其设备 |
US10466962B2 (en) * | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
CN107895578B (zh) * | 2017-11-15 | 2021-07-20 | 百度在线网络技术(北京)有限公司 | 语音交互方法和装置 |
JP6977169B2 (ja) * | 2017-12-08 | 2021-12-08 | グーグル エルエルシーGoogle LLC | デジタル音声アシスタントコンピューティングデバイスの間の信号処理の調整 |
CN108461084A (zh) * | 2018-03-01 | 2018-08-28 | 广东美的制冷设备有限公司 | 语音识别系统控制方法、控制装置及计算机可读存储介质 |
JPWO2019171732A1 (ja) * | 2018-03-08 | 2021-02-18 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラム及び情報処理システム |
US11145299B2 (en) * | 2018-04-19 | 2021-10-12 | X Development Llc | Managing voice interface devices |
US11488590B2 (en) * | 2018-05-09 | 2022-11-01 | Staton Techiya Llc | Methods and systems for processing, storing, and publishing data collected by an in-ear device |
JP7014072B2 (ja) * | 2018-07-17 | 2022-02-01 | 日本電信電話株式会社 | 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム |
-
2018
- 2018-06-29 CN CN201810718087.4A patent/CN108922528B/zh active Active
-
2019
- 2019-03-14 JP JP2019047290A patent/JP6783339B2/ja active Active
- 2019-03-15 US US16/355,164 patent/US11244686B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020003774A (ja) | 2020-01-09 |
US20200005793A1 (en) | 2020-01-02 |
CN108922528B (zh) | 2020-10-23 |
US11244686B2 (en) | 2022-02-08 |
CN108922528A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6783339B2 (ja) | 音声を処理する方法及び装置 | |
EP3234945B1 (en) | Application focus in speech-based systems | |
US11961519B2 (en) | Localized wakeword verification | |
CN107423364B (zh) | 基于人工智能的回答话术播报方法、装置及存储介质 | |
JP2021516790A (ja) | ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法 | |
US20190355354A1 (en) | Method, apparatus and system for speech interaction | |
JP2020526789A (ja) | ラストマイル等化 | |
US11457061B2 (en) | Creating a cinematic storytelling experience using network-addressable devices | |
US9799329B1 (en) | Removing recurring environmental sounds | |
US20120198339A1 (en) | Audio-Based Application Architecture | |
US11862153B1 (en) | System for recognizing and responding to environmental noises | |
CN104123938A (zh) | 语音控制系统、电子装置及语音控制方法 | |
JP6619488B2 (ja) | 人工知能機器における連続会話機能 | |
US12062364B2 (en) | Memory allocation for keyword spotting engines | |
US20240203416A1 (en) | Combining Device or Assistant-Specific Hotwords in a Single Utterance | |
US10693944B1 (en) | Media-player initialization optimization | |
CN104317404A (zh) | 一种声纹控制音频播放设备、控制系统及方法 | |
CN112017662A (zh) | 控制指令确定方法、装置、电子设备和存储介质 | |
TW202418138A (zh) | 語言資料處理系統及方法與電腦程式產品 | |
CN108053825A (zh) | 一种基于音频信号的批处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190411 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190411 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200828 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6783339 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |