JP7000268B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7000268B2 JP7000268B2 JP2018134664A JP2018134664A JP7000268B2 JP 7000268 B2 JP7000268 B2 JP 7000268B2 JP 2018134664 A JP2018134664 A JP 2018134664A JP 2018134664 A JP2018134664 A JP 2018134664A JP 7000268 B2 JP7000268 B2 JP 7000268B2
- Authority
- JP
- Japan
- Prior art keywords
- trigger
- section
- voice recognition
- unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 56
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000005236 sound signal Effects 0.000 claims description 49
- 230000001960 triggered effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 description 66
- 238000000034 method Methods 0.000 description 30
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Description
なお、上記実施形態では、トリガとして「お願い」という言葉を設定する例を示した。しかし、情報処理装置10は、トリガとして、別のトリガ(トリガワード)を複数用意してもよい。
なお、音声を発話した話者推定が可能である場合、情報処理装置10は、トリガと話者との組合せを予め用意してもよい。話者推定とは、音声取得部12Aで取得した音声信号から、該音声信号の音声を発話した個人を識別することを指す。制御部12が、トリガと話者との組合せを予め用意することで、同じトリガワードが発せられた場合であっても、異なる話者の場合には、音声認識に用いる辞書(トリガ付音声認識辞書26B、音声認識辞書26C)を変更することが可能となる。
次に、上記実施形態の情報処理装置10の、ハードウェア構成について説明する。図9は、上記実施形態の情報処理装置10のハードウェア構成例を示すブロック図である。
12B 検出部
12C 音声認識部
12D 出力制御部
12E 受付部
26B トリガ付音声認識辞書
26C 音声認識辞書
Claims (9)
- 音声信号を時系列に沿って読取り、トリガ辞書に登録されている何れかのトリガと一致する音信号の時系列集合を特定することによって、前記音声信号から音声認識開始を示すキーワードとなる音声である前記トリガを検出する検出部と、
前記トリガ辞書と、前記トリガ辞書に登録されている前記トリガごとに予め作成され、前記トリガを示す音信号の時系列集合によって表されるトリガ音区間および前記トリガ音区間の後に連続する区間である認識音区間から前記認識音区間の音声認識結果を導出するためのトリガ付音声認識辞書と、を記憶した記憶部における、検出された前記トリガに対応する前記トリガ付音声認識辞書を用いて、前記音声信号における検出された前記トリガを含む前記トリガ音区間に後続する前記認識音区間を音声認識する音声認識部と、
を備える情報処理装置。 - 前記音声認識部は、
検出された前記トリガに対応する前記トリガ付音声認識辞書と、前記トリガ音区間の始端から該トリガ音区間より後の予め定めた終端までの単位区間と、を用いて、該単位区間における前記認識音区間を音声認識する、
請求項1に記載の情報処理装置。 - 前記単位区間は、
検出された前記トリガの前記トリガ音区間の始端から該トリガ音区間を超える予め定めた長さの区間、検出された前記トリガの前記トリガ音区間の始端から該トリガ音区間の後に隣接する他の前記トリガ音区間の始端までの区間、または、検出された前記トリガの前記トリガ音区間の始端から該トリガ音区間の後に隣接する無音区間までの区間である、
請求項2に記載の情報処理装置。 - 前記音声認識部は、
検出された前記トリガに対応する前記トリガ付音声認識辞書と、前記音声信号における、検出された該トリガの前記トリガ音区間の始端から該トリガ音区間の後に隣接する無音区間までの前記単位区間と、を用いて該単位区間における前記認識音区間を音声認識し、
前記音声信号における、該無音区間に後続する有音区間を、検出された該トリガに対応する、有音区間から該有音区間の音声認識結果を導出するための音声認識辞書を用いて音声認識する、
請求項2または請求項3に記載の情報処理装置。 - 前記音声認識部の音声認識結果を出力する出力制御部、
を備える、請求項1~請求項4の何れか1項に記載の情報処理装置。 - 前記出力制御部は、
前記トリガごとに認識された前記音声認識結果に前記音声信号における重複する区間の前記音声認識結果が含まれる場合、複数の前記認識音区間の前記音声認識結果の各々について、
前記音声認識結果から、前記音声信号における次の前記トリガ音区間および前記認識音区間の前記音声認識結果を除去した結果を出力する、
請求項5に記載の情報処理装置。 - 出力対象の前記音声認識結果の選択入力を受付ける受付部を備え、
前記出力制御部は、
複数の前記音声認識結果の内、受付けた出力対象の前記音声認識結果を出力する、
請求項5または請求項6に記載の情報処理装置。 - 音声信号を時系列に沿って読取り、トリガ辞書に登録されている何れかのトリガと一致する音信号の時系列集合を特定することによって、前記音声信号から音声認識開始を示すキーワードとなる音声である前記トリガを検出するステップと、
前記トリガ辞書と、前記トリガ辞書に登録されている前記トリガごとに予め作成され、前記トリガを示す音信号の時系列集合によって表されるトリガ音区間および前記トリガ音区間の後に連続する区間である認識音区間から前記認識音区間の音声認識結果を導出するためのトリガ付音声認識辞書と、を記憶した記憶部における、検出された前記トリガに対応する前記トリガ付音声認識辞書を用いて、前記音声信号における検出された前記トリガを含む前記トリガ音区間に後続する前記認識音区間を音声認識するステップと、
を含む情報処理方法。 - 音声信号を時系列に沿って読取り、トリガ辞書に登録されている何れかのトリガと一致する音信号の時系列集合を特定することによって、前記音声信号から音声認識開始を示すキーワードとなる音声である前記トリガを検出するステップと、
前記トリガ辞書と、前記トリガ辞書に登録されている前記トリガごとに予め作成され、前記トリガを示す音信号の時系列集合によって表されるトリガ音区間および前記トリガ音区間の後に連続する区間である認識音区間から前記認識音区間の音声認識結果を導出するためのトリガ付音声認識辞書と、を記憶した記憶部における、検出された前記トリガに対応する前記トリガ付音声認識辞書を用いて、前記音声信号における検出された前記トリガを含む前記トリガ音区間に後続する前記認識音区間を音声認識するステップと、
をコンピュータに実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018134664A JP7000268B2 (ja) | 2018-07-18 | 2018-07-18 | 情報処理装置、情報処理方法、およびプログラム |
US16/287,845 US11062705B2 (en) | 2018-07-18 | 2019-02-27 | Information processing apparatus, information processing method, and computer program product |
CN201910149009.1A CN110808039B (zh) | 2018-07-18 | 2019-02-28 | 信息处理装置、信息处理方法以及记录介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018134664A JP7000268B2 (ja) | 2018-07-18 | 2018-07-18 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020012954A JP2020012954A (ja) | 2020-01-23 |
JP7000268B2 true JP7000268B2 (ja) | 2022-01-19 |
Family
ID=69162491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018134664A Active JP7000268B2 (ja) | 2018-07-18 | 2018-07-18 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11062705B2 (ja) |
JP (1) | JP7000268B2 (ja) |
CN (1) | CN110808039B (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) * | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
JP2021140097A (ja) * | 2020-03-09 | 2021-09-16 | 東芝テック株式会社 | 情報処理端末 |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
CN111833870A (zh) * | 2020-07-01 | 2020-10-27 | 中国第一汽车股份有限公司 | 车载语音系统的唤醒方法、装置、车辆和介质 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005492A (ja) | 1999-06-21 | 2001-01-12 | Matsushita Electric Ind Co Ltd | 音声認識方法および音声認識装置 |
JP2007025036A (ja) | 2005-07-13 | 2007-02-01 | Fujitsu Ltd | 音声対話処理方法及びシステム並びにそのためのプログラム |
JP2014016402A (ja) | 2012-07-06 | 2014-01-30 | Alpine Electronics Inc | 音声入力装置 |
JP2015194766A (ja) | 2015-06-29 | 2015-11-05 | 株式会社東芝 | 音声認識装置および音声認識方法 |
WO2017090115A1 (ja) | 2015-11-25 | 2017-06-01 | 三菱電機株式会社 | 音声対話装置および音声対話方法 |
US20180040324A1 (en) | 2016-08-05 | 2018-02-08 | Sonos, Inc. | Multiple Voice Services |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000214878A (ja) * | 1999-01-22 | 2000-08-04 | Sharp Corp | 音声情報処理装置 |
JP2002358095A (ja) * | 2001-03-30 | 2002-12-13 | Sony Corp | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 |
US8000972B2 (en) * | 2007-10-26 | 2011-08-16 | Sony Corporation | Remote controller with speech recognition |
JP2016531375A (ja) | 2013-09-20 | 2016-10-06 | アマゾン テクノロジーズ インコーポレイテッド | ローカルとリモートのスピーチ処理 |
JP6497372B2 (ja) * | 2016-09-29 | 2019-04-10 | トヨタ自動車株式会社 | 音声対話装置および音声対話方法 |
-
2018
- 2018-07-18 JP JP2018134664A patent/JP7000268B2/ja active Active
-
2019
- 2019-02-27 US US16/287,845 patent/US11062705B2/en active Active
- 2019-02-28 CN CN201910149009.1A patent/CN110808039B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005492A (ja) | 1999-06-21 | 2001-01-12 | Matsushita Electric Ind Co Ltd | 音声認識方法および音声認識装置 |
JP2007025036A (ja) | 2005-07-13 | 2007-02-01 | Fujitsu Ltd | 音声対話処理方法及びシステム並びにそのためのプログラム |
JP2014016402A (ja) | 2012-07-06 | 2014-01-30 | Alpine Electronics Inc | 音声入力装置 |
JP2015194766A (ja) | 2015-06-29 | 2015-11-05 | 株式会社東芝 | 音声認識装置および音声認識方法 |
WO2017090115A1 (ja) | 2015-11-25 | 2017-06-01 | 三菱電機株式会社 | 音声対話装置および音声対話方法 |
US20180040324A1 (en) | 2016-08-05 | 2018-02-08 | Sonos, Inc. | Multiple Voice Services |
Also Published As
Publication number | Publication date |
---|---|
US11062705B2 (en) | 2021-07-13 |
US20200027453A1 (en) | 2020-01-23 |
CN110808039B (zh) | 2023-12-01 |
CN110808039A (zh) | 2020-02-18 |
JP2020012954A (ja) | 2020-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7000268B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US8606581B1 (en) | Multi-pass speech recognition | |
EP3210205B1 (en) | Sound sample verification for generating sound detection model | |
US10885909B2 (en) | Determining a type of speech recognition processing according to a request from a user | |
KR101986354B1 (ko) | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 | |
KR20140089863A (ko) | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 | |
US11164584B2 (en) | System and method for uninterrupted application awakening and speech recognition | |
JP2015153325A (ja) | 情報処理装置、操作支援方法及び操作支援プログラム | |
JP2001092496A (ja) | 連続音声認識装置および記録媒体 | |
US20200311354A1 (en) | Speech translation device, speech translation method, and recording medium | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP4791857B2 (ja) | 発話区間検出装置及び発話区間検出プログラム | |
US11416593B2 (en) | Electronic device, control method for electronic device, and control program for electronic device | |
US10629197B2 (en) | Voice processing system and voice processing method for predicting and executing an ask-again request corresponding to a received request | |
US11164578B2 (en) | Voice recognition apparatus, voice recognition method, and non-transitory computer-readable storage medium storing program | |
KR20190062369A (ko) | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 | |
US20230117535A1 (en) | Method and system for device feature analysis to improve user experience | |
JP2011065044A (ja) | 音声処理装置、プログラム | |
JP2020091435A (ja) | 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器 | |
JP7449070B2 (ja) | 音声入力装置、音声入力方法及びそのプログラム | |
JP7035476B2 (ja) | 音声処理プログラム、音声処理装置、及び音声処理方法 | |
JP2005031260A (ja) | 情報処理方法及び装置 | |
US20200312333A1 (en) | Speech input device, speech input method, and recording medium | |
JP2019184819A (ja) | コマンド出力装置 | |
JP2010044240A (ja) | 音声認識装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200618 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211223 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7000268 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |