JP6539940B2 - 音声認識装置及び音声認識プログラム - Google Patents
音声認識装置及び音声認識プログラム Download PDFInfo
- Publication number
- JP6539940B2 JP6539940B2 JP2013262482A JP2013262482A JP6539940B2 JP 6539940 B2 JP6539940 B2 JP 6539940B2 JP 2013262482 A JP2013262482 A JP 2013262482A JP 2013262482 A JP2013262482 A JP 2013262482A JP 6539940 B2 JP6539940 B2 JP 6539940B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice data
- guidance
- input
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Navigation (AREA)
- Traffic Control Systems (AREA)
Description
また、請求項2に記載した発明によれば、音声認識手段は、音声出力手段から出力されたガイダンス音声が音声入力手段に入力されたことで、ガイダンス音声データが前記音声データ入力手段に入力された場合に、前記音声データ入力手段に入力されたリファレンス音声データのサイズが、前記ガイダンス音声データ出力手段から出力されたガイダンス音声データのサイズに達したことを条件とし、その入力されたガイダンス音声データを、前記音声データ入力手段に入力されたリファレンス音声データを用いて除去する処理を開始する。
即ち、音声データ入力手段に入力されたリファレンス音声データのサイズが、ガイダンス音声データ出力手段から出力されたガイダンス音声データのサイズに達したことを条件とし、ガイダンス音声データを、リファレンス音声データを用いて除去する処理を開始するようにした。これにより、ガイダンス音声データの出力と、リファレンス音声データの入力との時間差(タイムラグ)を考慮した上で、ガイダンス音声データの全てを、リファレンス音声データを用いて除去することができる。即ち、ガイダンス音声データの一部が除去されない状況(除去漏れ)を回避することができる。
音認コア10は、PTTボタン14から検知信号を入力し、ユーザが音声認識機能を開始させたと判定すると(A1:YES)、再生開始要求を制御線13を介して発声コア7に出力する。発声コア7は、音認コア10から再生開始要求を入力すると、最終フラグを「0」に設定し(B1)、SDカード15からガイダンス音声データを読み出す(B2)。次いで、発声コア7は、その読み出したガイダンス音声データ(3ブロック分、1ブロックは例えば32k byte)を音声データ線16を介して音声ドライバ8に出力し、続けて再生開始要求を音声ドライバ8に出力する。又、発声コア7は、その読み出したガイダンス音声データを音声データ線16を介して音声ドライバ8に出力すると同時に、マイクオン要求を制御線13を介して音認コア10に出力する。音認コア10は、発声コア7からマイクオン要求を入力すると、起動信号をマイクロホン17に出力し、マイクロホン17を起動させ、ユーザから発話された音声の入力(集音)を待機させる(A2)。音認コア10は、マイクロホン17を起動させると、マイクオン応答を制御線13を介して発声コア7に出力する。
車両用の音声認識装置に適用する構成に限らず、他の用途の音声認識装置に適用しても良い。ガイダンス音声は、ナビゲーション機能で利用される音声の発話を促す音声に限らず、他の機能で利用される音声の発話を促す音声であっても良い。
Claims (4)
- ガイダンス音声データを出力するガイダンス音声データ出力手段(8)と、
前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをガイダンス音声に変換して出力する音声出力手段(23)と、
音声を入力し、その入力した音声を音声データに変換する音声入力手段(17)と、
音声データを入力する音声データ入力手段(10)と、
ユーザから発話された認識語の音声が前記音声入力手段に入力されたことで、認識語の音声データが前記音声データ入力手段に入力された場合に、その認識語の音声データを音声認識する音声認識手段(12)と、を備え、
前記ガイダンス音声データ出力手段は、前記ガイダンス音声データの出力が完了する前に、前記認識語の音声データが前記音声データ入力手段に入力された場合、前記ガイダンス音声データの出力を停止し、
前記音声データ入力手段は、前記ガイダンス音声データ出力手段から出力された前記ガイダンス音声データの出力済みである部分に対応する対象ガイダンス音声データをリファレンス音声データとして入力し、
前記音声認識手段は、前記音声出力手段から出力された、前記対象ガイダンス音声データに対応する対象ガイダンス音声が前記音声入力手段に入力されたことで、前記対象ガイダンス音声データが前記音声データ入力手段に入力された場合に、前記音声データ入力手段に入力されたリファレンス音声データのサイズが、前記ガイダンス音声データ出力手段から出力された前記対象ガイダンス音声データのサイズに達したことを条件とし、その入力された前記対象ガイダンス音声データを、前記音声データ入力手段に入力されたリファレンス音声データを用いて除去する処理を開始することを特徴とする音声認識装置(1)。 - ガイダンス音声データを出力するガイダンス音声データ出力手段(8)と、
前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをガイダンス音声に変換して出力する音声出力手段(23)と、
音声を入力し、その入力した音声を音声データに変換する音声入力手段(17)と、
音声データを入力する音声データ入力手段(10)と、
ユーザから発話された認識語の音声が前記音声入力手段に入力されたことで、認識語の音声データが前記音声データ入力手段に入力された場合に、その認識語の音声データを音声認識する音声認識手段(12)と、を備え、
前記音声データ入力手段は、前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをリファレンス音声データとして入力し、
前記音声認識手段は、前記音声出力手段から出力されたガイダンス音声が前記音声入力手段に入力されたことで、ガイダンス音声データが前記音声データ入力手段に入力された場合に、前記音声データ入力手段に入力されたリファレンス音声データのサイズが、前記ガイダンス音声データ出力手段から出力されたガイダンス音声データのサイズに達したことを条件とし、その入力されたガイダンス音声データを、前記音声データ入力手段に入力されたリファレンス音声データを用いて除去する処理を開始することを特徴とする音声認識装置(1)。 - 請求項1又は2に記載した音声認識装置において、
前記音声データ入力手段に入力されるリファレンス音声データのサンプリングレートを、前記音声入力手段から前記音声データ入力手段に入力される音声データのサンプリングレートと同じレートに変換するサンプリングレート変換手段(6)を備えたことを特徴とする音声認識装置。 - ガイダンス音声データを出力するガイダンス音声データ出力手段(8)と、
前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをガイダンス音声に変換して出力する音声出力手段(23)と、
音声を入力し、その入力した音声を音声データに変換する音声入力手段(17)と、
音声データを入力する音声データ入力手段(10)と、
ユーザから発話された認識語の音声が前記音声入力手段に入力されたことで、認識語の音声データが前記音声データ入力手段に入力された場合に、その認識語の音声データを音声認識する音声認識手段(12)と、を備えた音声認識装置(1)に設けられる制御手段(9)に、
前記ガイダンス音声データ出力手段から出力されたガイダンス音声データをリファレンス音声データとして前記音声データ入力手段に入力させる第1の手順と、
前記音声出力手段から出力されたガイダンス音声が前記音声入力手段に入力されたことで、ガイダンス音声データが前記音声データ入力手段に入力された場合に、前記第1の手順により入力されたリファレンス音声データのサイズが、前記ガイダンス音声データ出力手段から出力されたガイダンス音声データのサイズに達したことを条件とし、その入力されたガイダンス音声データを、前記第1の手順により入力させたリファレンス音声データを用いて除去させる処理を前記音声認識手段に開始させる第2の手順と、を実行させることを特徴とする音声認識プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013262482A JP6539940B2 (ja) | 2013-12-19 | 2013-12-19 | 音声認識装置及び音声認識プログラム |
US15/105,061 US10127910B2 (en) | 2013-12-19 | 2014-12-11 | Speech recognition apparatus and computer program product for speech recognition |
PCT/JP2014/006168 WO2015093013A1 (ja) | 2013-12-19 | 2014-12-11 | スピーチ認識装置及びスピーチ認識のためのコンピュータプログラム製品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013262482A JP6539940B2 (ja) | 2013-12-19 | 2013-12-19 | 音声認識装置及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015118307A JP2015118307A (ja) | 2015-06-25 |
JP6539940B2 true JP6539940B2 (ja) | 2019-07-10 |
Family
ID=53402390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013262482A Active JP6539940B2 (ja) | 2013-12-19 | 2013-12-19 | 音声認識装置及び音声認識プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10127910B2 (ja) |
JP (1) | JP6539940B2 (ja) |
WO (1) | WO2015093013A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6539940B2 (ja) * | 2013-12-19 | 2019-07-10 | 株式会社デンソー | 音声認識装置及び音声認識プログラム |
JP6515897B2 (ja) | 2016-09-28 | 2019-05-22 | トヨタ自動車株式会社 | 音声対話システムおよび発話意図理解方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5155760A (en) * | 1991-06-26 | 1992-10-13 | At&T Bell Laboratories | Voice messaging system with voice activated prompt interrupt |
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
JP4296622B2 (ja) * | 1998-10-26 | 2009-07-15 | ソニー株式会社 | エコー消去装置及び方法、並びに音声再生装置 |
GB9928011D0 (en) * | 1999-11-27 | 2000-01-26 | Ibm | Voice processing system |
US6574595B1 (en) * | 2000-07-11 | 2003-06-03 | Lucent Technologies Inc. | Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition |
WO2002052546A1 (en) * | 2000-12-27 | 2002-07-04 | Intel Corporation | Voice barge-in in telephony speech recognition |
US7069221B2 (en) * | 2001-10-26 | 2006-06-27 | Speechworks International, Inc. | Non-target barge-in detection |
JP2004109779A (ja) | 2002-09-20 | 2004-04-08 | Kobe Steel Ltd | 音声処理装置 |
US7318030B2 (en) * | 2003-09-17 | 2008-01-08 | Intel Corporation | Method and apparatus to perform voice activity detection |
JP5115944B2 (ja) * | 2006-04-20 | 2013-01-09 | アルパイン株式会社 | 音声認識装置 |
JP4829184B2 (ja) | 2007-07-23 | 2011-12-07 | クラリオン株式会社 | 車載装置および音声認識方法 |
EP2107553B1 (en) * | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Method for determining barge-in |
JP5127754B2 (ja) * | 2009-03-24 | 2013-01-23 | 株式会社東芝 | 信号処理装置 |
JP5156043B2 (ja) * | 2010-03-26 | 2013-03-06 | 株式会社東芝 | 音声判別装置 |
JP2011215421A (ja) * | 2010-03-31 | 2011-10-27 | Toshiba Corp | 音声対話装置 |
JP5443547B2 (ja) * | 2012-06-27 | 2014-03-19 | 株式会社東芝 | 信号処理装置 |
JP6539940B2 (ja) * | 2013-12-19 | 2019-07-10 | 株式会社デンソー | 音声認識装置及び音声認識プログラム |
-
2013
- 2013-12-19 JP JP2013262482A patent/JP6539940B2/ja active Active
-
2014
- 2014-12-11 US US15/105,061 patent/US10127910B2/en active Active
- 2014-12-11 WO PCT/JP2014/006168 patent/WO2015093013A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2015093013A1 (ja) | 2015-06-25 |
US20160314787A1 (en) | 2016-10-27 |
JP2015118307A (ja) | 2015-06-25 |
US10127910B2 (en) | 2018-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4942860B2 (ja) | 認識辞書作成装置、音声認識装置及び音声合成装置 | |
JP5613335B2 (ja) | 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置 | |
JP2009169139A (ja) | 音声認識装置 | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP6539940B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP5375423B2 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
US20210056955A1 (en) | Training method, speaker identification method, and recording medium | |
JP6673243B2 (ja) | 音声認識装置 | |
JP7338489B2 (ja) | 音声信号制御装置、音声信号制御システム及び音声信号制御プログラム | |
JP3916861B2 (ja) | 音声認識装置 | |
JP5342629B2 (ja) | 男女声識別方法、男女声識別装置及びプログラム | |
JP2018116206A (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
JP2005338454A (ja) | 音声対話装置 | |
JP2019139146A (ja) | 音声認識システム、及び、音声認識方法 | |
JP2020148805A (ja) | 音声認識システム、及び、音声認識方法 | |
US11699438B2 (en) | Open smart speaker | |
JP5173895B2 (ja) | 音声認識装置 | |
JP2010164992A (ja) | 音声対話装置 | |
JP2006039382A (ja) | 音声認識装置 | |
JP2007171637A (ja) | 音声処理装置 | |
JP2015215503A (ja) | 音声認識方法、音声認識装置および音声認識プログラム | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
JP4979336B2 (ja) | 音声出力装置 | |
JP7465700B2 (ja) | 車載装置および車載装置における音声処理方法 | |
JP2014021425A (ja) | 音声認識システム及び集積回路装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160808 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180626 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190306 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20190319 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190527 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6539940 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |