JP6225920B2 - 音声認識付き機器及び音声認識方法 - Google Patents
音声認識付き機器及び音声認識方法 Download PDFInfo
- Publication number
- JP6225920B2 JP6225920B2 JP2014554069A JP2014554069A JP6225920B2 JP 6225920 B2 JP6225920 B2 JP 6225920B2 JP 2014554069 A JP2014554069 A JP 2014554069A JP 2014554069 A JP2014554069 A JP 2014554069A JP 6225920 B2 JP6225920 B2 JP 6225920B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- sound
- command
- voice recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 description 99
- 230000004048 modification Effects 0.000 description 18
- 238000012986 modification Methods 0.000 description 18
- 238000005070 sampling Methods 0.000 description 17
- 230000000052 comparative effect Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 15
- 230000007257 malfunction Effects 0.000 description 11
- 239000000470 constituent Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 2
- 208000033748 Device issues Diseases 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
Description
本実施の形態に係る音声認識付き機器は、スピーカから出音される音声を認識し、認識した音声が予め定められたキーワードと同じである場合は、当該音声認識付き機器を制御するコマンドの発行を禁止する。これにより、音声認識付き機器自身が発する音声による誤作動を抑止することができる。
本実施の形態に係る音声認識付き機器は、スピーカから出音される音声の電気信号である音声信号を狭帯域にダウンサンプルし、ダウンサンプルされた音声信号を用いて、スピーカから出音された音声のうちマイクロホンで収音された音声であるエコー成分を、マイクロホンで収音された音声から除去する。これにより、少ない演算量で、音声認識付き機器自身が出音した音声信号に邪魔されずに音声認識できる。
上記実施の形態2では、音声認識付き機器2であるテレビから生成される音声信号をモノラル信号としたが、近年では、音声信号がステレオ信号であることが普通となった。さらに、5.1chのマルチチャネル放送なども始まっている。このように、テレビから生成される信号がマルチチャネルとなった場合の音声認識つき機器について、例えばチャネル数が2chの場合を例に、実施の形態2の変形例として説明する。
100、200、300 TV受信部
101、201、401、501、801、901 スピーカ
102、202、302、402、502、802、902 マイクロホン
103、403 第1の音声認識部
104 第2の音声認識部
105、206、306 コマンド制御部
203、303、503 音声認識部
204、504、904 エコーキャンセラ
205、505、207 ダウンサンプラ
301 ステレオスピーカ
304 ステレオエコーキャンセラ
305 ステレオダウンサンプラ
800、900 TV受信表示部
803 第1音声認識部
804 第2音声認識部
Claims (2)
- ユーザーの音声を認識する音声認識付き機器であって、
空間に音声を出音するスピーカと、
当該空間の音声を収音するマイクロホンと、
前記マイクロホンで収音された音声を認識する第1の音声認識部と、
前記第1の音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部と、
前記スピーカから出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する制御部とを備え、
前記制御部は、
前記スピーカから出音される音声を認識する第2の音声認識部を備え、
前記第2の音声認識部で認識された音声が予め定められたキーワードと同じであるか否かを判断し、同じである場合は、前記コマンド発行部による前記コマンドの発行を禁止する
音声認識付き機器。 - ユーザーの音声を認識する音声認識方法であって、
空間に音声を出音する出音ステップと、
前記出音ステップの後、当該空間の音声を収音する収音ステップと、
前記収音ステップで収音された音声を認識する音声認識ステップと、
コマンド発行部が、前記音声認識ステップで認識された音声に基づいて、音声認識付き機器を制御するコマンドを発行するコマンド発行ステップと、
前記出音ステップで出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する禁止ステップとを含み、
前記禁止ステップでは、
前記出音ステップで出音される音声を認識し、
認識された音声が予め定められたキーワードと同じであるか否かを判断し、
同じである場合は、前記コマンド発行部による前記コマンドの発行を禁止する
音声認識方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012287724 | 2012-12-28 | ||
JP2012287724 | 2012-12-28 | ||
PCT/JP2013/004813 WO2014103099A1 (ja) | 2012-12-28 | 2013-08-09 | 音声認識付き機器及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2014103099A1 JPWO2014103099A1 (ja) | 2017-01-12 |
JP6225920B2 true JP6225920B2 (ja) | 2017-11-08 |
Family
ID=51020242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014554069A Active JP6225920B2 (ja) | 2012-12-28 | 2013-08-09 | 音声認識付き機器及び音声認識方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US9792902B2 (ja) |
JP (1) | JP6225920B2 (ja) |
CN (1) | CN104956436B (ja) |
WO (1) | WO2014103099A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11600270B2 (en) | 2017-09-15 | 2023-03-07 | Saturn Licensing Llc | Information processing apparatus and information processing method |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102332729B1 (ko) * | 2014-07-28 | 2021-11-30 | 삼성전자주식회사 | 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치 |
DE102015222105A1 (de) * | 2015-11-10 | 2017-05-11 | Volkswagen Aktiengesellschaft | Audiosignalverarbeitung in einem Fahrzeug |
JP6810527B2 (ja) * | 2016-03-11 | 2021-01-06 | パイオニア株式会社 | 再生制御装置、再生制御システム、並びに再生制御方法、プログラム及び記録媒体 |
US10091545B1 (en) * | 2016-06-27 | 2018-10-02 | Amazon Technologies, Inc. | Methods and systems for detecting audio output of associated device |
US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
US10134396B2 (en) | 2016-12-07 | 2018-11-20 | Google Llc | Preventing of audio attacks |
US10242673B2 (en) | 2016-12-07 | 2019-03-26 | Google Llc | Preventing of audio attacks using an input and an output hotword detection model |
US10395650B2 (en) * | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
JP6824554B2 (ja) * | 2017-08-22 | 2021-02-03 | アルパイン株式会社 | 音声認識システム |
JP6817915B2 (ja) * | 2017-08-29 | 2021-01-20 | アルパイン株式会社 | 音声認識装置、車載システム及びコンピュータプログラム |
JP6912985B2 (ja) * | 2017-09-13 | 2021-08-04 | アルパイン株式会社 | 音声認識システム及びコンピュータプログラム |
US10276175B1 (en) * | 2017-11-28 | 2019-04-30 | Google Llc | Key phrase detection with audio watermarking |
JP6962158B2 (ja) * | 2017-12-01 | 2021-11-05 | ヤマハ株式会社 | 機器制御システム、機器制御方法、及びプログラム |
FR3075442B1 (fr) | 2017-12-19 | 2019-11-22 | Sagemcom Broadband Sas | Dispositif et procede d'assistance vocale |
CN110312093A (zh) * | 2018-03-27 | 2019-10-08 | 晨星半导体股份有限公司 | 电子装置及相关的信号处理方法 |
JP2019184679A (ja) * | 2018-04-03 | 2019-10-24 | シャープ株式会社 | ネットワークシステム、サーバ、および情報処理方法 |
JP7197992B2 (ja) * | 2018-04-10 | 2022-12-28 | シャープ株式会社 | 音声認識装置、音声認識方法 |
US10692496B2 (en) * | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
EP3901946B1 (en) * | 2018-12-18 | 2023-12-27 | NISSAN MOTOR Co., Ltd. | Voice recognition device, control method of voice recognition device, content reproducing device, and content transmission/reception system |
CN110718223B (zh) | 2019-10-28 | 2021-02-12 | 百度在线网络技术(北京)有限公司 | 用于语音交互控制的方法、装置、设备和介质 |
KR20210073975A (ko) * | 2019-12-11 | 2021-06-21 | 삼성전자주식회사 | 화자를 인식하는 방법 및 장치 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2874176B2 (ja) | 1989-03-16 | 1999-03-24 | アイシン精機株式会社 | 音声信号処理装置 |
JPH03160499A (ja) * | 1989-11-20 | 1991-07-10 | Sanyo Electric Co Ltd | 音声認識装置 |
JP4296622B2 (ja) * | 1998-10-26 | 2009-07-15 | ソニー株式会社 | エコー消去装置及び方法、並びに音声再生装置 |
US6665645B1 (en) | 1999-07-28 | 2003-12-16 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus for AV equipment |
JP4554044B2 (ja) * | 1999-07-28 | 2010-09-29 | パナソニック株式会社 | Av機器用音声認識装置 |
JP2001154694A (ja) * | 1999-09-13 | 2001-06-08 | Matsushita Electric Ind Co Ltd | 音声認識装置及び方法 |
US6526382B1 (en) * | 1999-12-07 | 2003-02-25 | Comverse, Inc. | Language-oriented user interfaces for voice activated services |
JP2004505305A (ja) * | 2000-07-21 | 2004-02-19 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複数の装置についてのスピーチ制御 |
KR100368289B1 (ko) * | 2001-02-20 | 2003-01-24 | (주)성우테크노 | 음성인식장치를 위한 음성명령식별기 |
KR100552468B1 (ko) | 2001-07-19 | 2006-02-15 | 삼성전자주식회사 | 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법 |
US20050114141A1 (en) * | 2003-09-05 | 2005-05-26 | Grody Stephen D. | Methods and apparatus for providing services using speech recognition |
JP4608670B2 (ja) * | 2004-12-13 | 2011-01-12 | 日産自動車株式会社 | 音声認識装置および音声認識方法 |
ATE522078T1 (de) | 2006-12-18 | 2011-09-15 | Harman Becker Automotive Sys | Echokompensation mit geringer komplexität |
KR101567603B1 (ko) * | 2009-05-07 | 2015-11-20 | 엘지전자 주식회사 | 멀티 음성 시스템의 동작 제어 장치 및 방법 |
US20100308999A1 (en) * | 2009-06-05 | 2010-12-09 | Chornenky Todd E | Security and monitoring apparatus |
US9953643B2 (en) * | 2010-12-23 | 2018-04-24 | Lenovo (Singapore) Pte. Ltd. | Selective transmission of voice data |
US10270831B2 (en) * | 2011-04-04 | 2019-04-23 | Soundlink, Inc. | Automated system for combining and publishing network-based audio programming |
EP3089158B1 (en) * | 2013-12-26 | 2018-08-08 | Panasonic Intellectual Property Management Co., Ltd. | Speech recognition processing |
-
2013
- 2013-08-09 JP JP2014554069A patent/JP6225920B2/ja active Active
- 2013-08-09 CN CN201380067993.8A patent/CN104956436B/zh active Active
- 2013-08-09 WO PCT/JP2013/004813 patent/WO2014103099A1/ja active Application Filing
-
2015
- 2015-06-25 US US14/750,647 patent/US9792902B2/en active Active
-
2017
- 2017-09-13 US US15/703,594 patent/US10262653B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11600270B2 (en) | 2017-09-15 | 2023-03-07 | Saturn Licensing Llc | Information processing apparatus and information processing method |
Also Published As
Publication number | Publication date |
---|---|
JPWO2014103099A1 (ja) | 2017-01-12 |
US20150294666A1 (en) | 2015-10-15 |
CN104956436B (zh) | 2018-05-29 |
WO2014103099A1 (ja) | 2014-07-03 |
CN104956436A (zh) | 2015-09-30 |
US9792902B2 (en) | 2017-10-17 |
US10262653B2 (en) | 2019-04-16 |
US20180005627A1 (en) | 2018-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6225920B2 (ja) | 音声認識付き機器及び音声認識方法 | |
US9336793B2 (en) | Controller for audio device and associated operation method | |
US10013995B1 (en) | Combined reference signal for acoustic echo cancellation | |
JP5562309B2 (ja) | エコーキャンセラ | |
US10510361B2 (en) | Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user | |
JP6887139B2 (ja) | 音響処理装置、音響処理方法、およびプログラム | |
JP5629429B2 (ja) | オーディオ再生装置及びオーディオ再生方法 | |
KR20180036032A (ko) | 영상처리장치 및 기록매체 | |
JP2007158873A (ja) | 音声補正装置 | |
JP6355049B2 (ja) | 音響信号処理方法、及び音響信号処理装置 | |
JP2019049599A (ja) | カラオケユニット | |
US10360922B2 (en) | Noise reduction device and method for reducing noise | |
US20090285403A1 (en) | Method and Apparatus for Improving Audio Reproduction for a Portable Electronic Device | |
US20190014411A1 (en) | Audio processing apparatus, audio processing method, and program | |
WO2023149015A1 (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム | |
JP5333786B2 (ja) | カラオケ装置及びカラオケ装置用プログラム | |
CN112243191B (zh) | 音响处理装置及音响处理方法 | |
US10313824B2 (en) | Audio processing device for processing audio, audio processing method, and program | |
JP2007288408A (ja) | 2ヶ国語音声識別システム | |
JP4985562B2 (ja) | 録音装置、方法及びプログラム | |
JP5051235B2 (ja) | エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置及び音出力装置 | |
US20210233552A1 (en) | Sound collection loudspeaker apparatus, method and program for the same | |
JP2023070705A (ja) | 音声出力装置、テレビ受信装置、制御方法及びプログラム | |
CN118678284A (zh) | 一种立体声声像平衡方法、装置及相关设备 | |
TW202131308A (zh) | 用於聲學回聲消除的時間延遲校準方法及電視裝置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170711 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170822 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170912 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170925 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6225920 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |