JP2020012954A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2020012954A JP2020012954A JP2018134664A JP2018134664A JP2020012954A JP 2020012954 A JP2020012954 A JP 2020012954A JP 2018134664 A JP2018134664 A JP 2018134664A JP 2018134664 A JP2018134664 A JP 2018134664A JP 2020012954 A JP2020012954 A JP 2020012954A
- Authority
- JP
- Japan
- Prior art keywords
- trigger
- section
- unit
- voice recognition
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 56
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000001514 detection method Methods 0.000 claims abstract description 65
- 230000005236 sound signal Effects 0.000 claims description 73
- 230000001960 triggered effect Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 description 35
- 238000010586 diagram Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
なお、上記実施形態では、トリガとして「お願い」という言葉を設定する例を示した。しかし、情報処理装置10は、トリガとして、別のトリガ(トリガワード)を複数用意してもよい。
なお、音声を発話した話者推定が可能である場合、情報処理装置10は、トリガと話者との組合せを予め用意してもよい。話者推定とは、音声取得部12Aで取得した音声信号から、該音声信号の音声を発話した個人を識別することを指す。制御部12が、トリガと話者との組合せを予め用意することで、同じトリガワードが発せられた場合であっても、異なる話者の場合には、音声認識に用いる辞書(トリガ付音声認識辞書26B、音声認識辞書26C)を変更することが可能となる。
次に、上記実施形態の情報処理装置10の、ハードウェア構成について説明する。図9は、上記実施形態の情報処理装置10のハードウェア構成例を示すブロック図である。
12B 検出部
12C 音声認識部
12D 出力制御部
12E 受付部
26B トリガ付音声認識辞書
26C 音声認識辞書
Claims (9)
- 音声信号から音声認識開始を示すトリガを検出する検出部と、
検出された前記トリガに対応するトリガ付音声認識辞書を用いて、前記トリガを含むトリガ音区間に後続する認識音区間を音声認識する音声認識部と、
を備える情報処理装置。 - 前記音声認識部は、
検出された前記トリガに対応する前記トリガ付音声認識辞書と、前記トリガ音区間の始端から該トリガ音区間より後の予め定めた終端までの単位区間と、を用いて、該単位区間における前記認識音区間を音声認識する、
請求項1に記載の情報処理装置。 - 前記単位区間は、
検出された前記トリガの前記トリガ音区間の始端から該トリガ音区間を超える予め定めた長さの区間、検出された前記トリガの前記トリガ音区間の始端から該トリガ音区間の後に隣接する他の前記トリガ音区間の始端までの区間、または、検出された前記トリガの前記トリガ音区間の始端から該トリガ音区間の後に隣接する無音区間までの区間である、
請求項2に記載の情報処理装置。 - 前記音声認識部は、
検出された前記トリガに対応する前記トリガ付音声認識辞書と、前記音声信号における、検出された該トリガの前記トリガ音区間の始端から該トリガ音区間の後に隣接する無音区間までの前記単位区間と、を用いて該単位区間における前記認識音区間を音声認識し、
前記音声信号における、該無音区間に後続する有音区間を、検出された該トリガに対応する、有音区間から該有音区間の音声認識結果を導出するための音声認識辞書を用いて音声認識する、
請求項2または請求項3に記載の情報処理装置。 - 前記音声認識部の音声認識結果を出力する出力制御部、
を備える、請求項1〜請求項4の何れか1項に記載の情報処理装置。 - 前記出力制御部は、
複数の前記音声認識結果の各々について、
前記音声認識結果から、前記音声信号における該音声認識結果に対応する区間の後の区間に対応する他の前記音声認識結果を除去した結果を出力する、
請求項5に記載の情報処理装置。 - 出力対象の前記音声認識結果の選択入力を受付ける受付部を備え、
前記出力制御部は、
複数の前記音声認識結果の内、受付けた出力対象の前記音声認識結果を出力する、
請求項5または請求項6に記載の情報処理装置。 - 音声信号から音声認識開始を示すトリガを検出するステップと、
検出された前記トリガに対応するトリガ付音声認識辞書を用いて、前記トリガを含むトリガ音区間に後続する認識音区間を音声認識するステップと、
を含む情報処理方法。 - 音声信号から音声認識開始を示すトリガを検出するステップと、
検出された前記トリガに対応するトリガ付音声認識辞書を用いて、前記トリガを含むトリガ音区間に後続する認識音区間を音声認識するステップと、
をコンピュータに実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018134664A JP7000268B2 (ja) | 2018-07-18 | 2018-07-18 | 情報処理装置、情報処理方法、およびプログラム |
US16/287,845 US11062705B2 (en) | 2018-07-18 | 2019-02-27 | Information processing apparatus, information processing method, and computer program product |
CN201910149009.1A CN110808039B (zh) | 2018-07-18 | 2019-02-28 | 信息处理装置、信息处理方法以及记录介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018134664A JP7000268B2 (ja) | 2018-07-18 | 2018-07-18 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020012954A true JP2020012954A (ja) | 2020-01-23 |
JP7000268B2 JP7000268B2 (ja) | 2022-01-19 |
Family
ID=69162491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018134664A Active JP7000268B2 (ja) | 2018-07-18 | 2018-07-18 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11062705B2 (ja) |
JP (1) | JP7000268B2 (ja) |
CN (1) | CN110808039B (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9826306B2 (en) | 2016-02-22 | 2017-11-21 | Sonos, Inc. | Default playback device designation |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) * | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
JP2021140097A (ja) * | 2020-03-09 | 2021-09-16 | 東芝テック株式会社 | 情報処理端末 |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
CN111833870A (zh) * | 2020-07-01 | 2020-10-27 | 中国第一汽车股份有限公司 | 车载语音系统的唤醒方法、装置、车辆和介质 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005492A (ja) * | 1999-06-21 | 2001-01-12 | Matsushita Electric Ind Co Ltd | 音声認識方法および音声認識装置 |
JP2007025036A (ja) * | 2005-07-13 | 2007-02-01 | Fujitsu Ltd | 音声対話処理方法及びシステム並びにそのためのプログラム |
JP2014016402A (ja) * | 2012-07-06 | 2014-01-30 | Alpine Electronics Inc | 音声入力装置 |
JP2015194766A (ja) * | 2015-06-29 | 2015-11-05 | 株式会社東芝 | 音声認識装置および音声認識方法 |
WO2017090115A1 (ja) * | 2015-11-25 | 2017-06-01 | 三菱電機株式会社 | 音声対話装置および音声対話方法 |
US20180040324A1 (en) * | 2016-08-05 | 2018-02-08 | Sonos, Inc. | Multiple Voice Services |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000214878A (ja) * | 1999-01-22 | 2000-08-04 | Sharp Corp | 音声情報処理装置 |
JP2002358095A (ja) * | 2001-03-30 | 2002-12-13 | Sony Corp | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 |
US8000972B2 (en) * | 2007-10-26 | 2011-08-16 | Sony Corporation | Remote controller with speech recognition |
WO2015041892A1 (en) | 2013-09-20 | 2015-03-26 | Rawles Llc | Local and remote speech processing |
JP6497372B2 (ja) * | 2016-09-29 | 2019-04-10 | トヨタ自動車株式会社 | 音声対話装置および音声対話方法 |
-
2018
- 2018-07-18 JP JP2018134664A patent/JP7000268B2/ja active Active
-
2019
- 2019-02-27 US US16/287,845 patent/US11062705B2/en active Active
- 2019-02-28 CN CN201910149009.1A patent/CN110808039B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005492A (ja) * | 1999-06-21 | 2001-01-12 | Matsushita Electric Ind Co Ltd | 音声認識方法および音声認識装置 |
JP2007025036A (ja) * | 2005-07-13 | 2007-02-01 | Fujitsu Ltd | 音声対話処理方法及びシステム並びにそのためのプログラム |
JP2014016402A (ja) * | 2012-07-06 | 2014-01-30 | Alpine Electronics Inc | 音声入力装置 |
JP2015194766A (ja) * | 2015-06-29 | 2015-11-05 | 株式会社東芝 | 音声認識装置および音声認識方法 |
WO2017090115A1 (ja) * | 2015-11-25 | 2017-06-01 | 三菱電機株式会社 | 音声対話装置および音声対話方法 |
US20180040324A1 (en) * | 2016-08-05 | 2018-02-08 | Sonos, Inc. | Multiple Voice Services |
Also Published As
Publication number | Publication date |
---|---|
CN110808039A (zh) | 2020-02-18 |
JP7000268B2 (ja) | 2022-01-19 |
US20200027453A1 (en) | 2020-01-23 |
US11062705B2 (en) | 2021-07-13 |
CN110808039B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7000268B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US9966077B2 (en) | Speech recognition device and method | |
US11669300B1 (en) | Wake word detection configuration | |
US8606581B1 (en) | Multi-pass speech recognition | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US20160118039A1 (en) | Sound sample verification for generating sound detection model | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JPWO2015098109A1 (ja) | 音声認識処理装置、音声認識処理方法、および表示装置 | |
JP2007256482A (ja) | 音声認識装置、音声認識方法、及びコンピュータプログラム | |
US10685664B1 (en) | Analyzing noise levels to determine usability of microphones | |
KR20180127065A (ko) | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 | |
JP2023081946A (ja) | 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム | |
JP2001092496A (ja) | 連続音声認識装置および記録媒体 | |
EP3503091A1 (en) | Dialogue control device and method | |
WO2015171154A1 (en) | Methods and apparatus for speech recognition using a garbage model | |
JP2018185561A (ja) | 対話支援システム、対話支援方法、及び対話支援プログラム | |
US20200311354A1 (en) | Speech translation device, speech translation method, and recording medium | |
JP2018045127A (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP2020013034A (ja) | 音声認識装置及び音声認識方法 | |
JP2015087544A (ja) | 音声認識装置及び音声認識プログラム | |
US10629197B2 (en) | Voice processing system and voice processing method for predicting and executing an ask-again request corresponding to a received request | |
KR20190062369A (ko) | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 | |
US20230117535A1 (en) | Method and system for device feature analysis to improve user experience | |
JP5196114B2 (ja) | 音声認識装置およびプログラム | |
CN112823047A (zh) | 用于控制网络应用程序的系统和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200618 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211223 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7000268 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |