JP5328744B2 - 音声認識装置及び音声認識方法 - Google Patents
音声認識装置及び音声認識方法 Download PDFInfo
- Publication number
- JP5328744B2 JP5328744B2 JP2010232817A JP2010232817A JP5328744B2 JP 5328744 B2 JP5328744 B2 JP 5328744B2 JP 2010232817 A JP2010232817 A JP 2010232817A JP 2010232817 A JP2010232817 A JP 2010232817A JP 5328744 B2 JP5328744 B2 JP 5328744B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- unit
- noise
- self
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000000926 separation method Methods 0.000 claims description 77
- 238000000605 extraction Methods 0.000 claims description 19
- 230000010354 integration Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 abstract description 4
- 230000033001 locomotion Effects 0.000 description 13
- 238000001514 detection method Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002465 magnetic force microscopy Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Manipulator (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
音声認識装置の性能を確認するための実験について以下に説明する。
実験には、人間型のロボットを使用する。ロボットは、頭部に8チャネルのマイクロフォンアレイを備えている。ロボットの多くの自由度の内、鉛直方向の頭部の動き(傾き)及びそれぞれの腕の動きのための4個のモータの、全部で9個の自由度を使用した。30分間のトレーニング・データベース及び10分間のテスト・データベースを記憶することによって、上記の部分によるランダムな動きを記録した。ノイズの記録は、独立した語の認識に使用される発話よりも長いので、全ての関節がノイズに寄与するセグメントを選択した。発話のエネルギレベルを、−6dBのSN比(ノイズは、他の二人の干渉しているスピーカ)に正規化した後、自己の動きのノイズ及びファン・ノイズを含む自己ノイズからなるノイズ信号及び周囲の背景ノイズを、明瞭なスピーチの発話に混合した。日本語の語のデータセットは、一人の女性及び二人の男性スピーカに対して、一般的な人間型ロボットの対話に使用される236語を含む。音モデルは、306人の男性及び女性スピーカによって話された60時間のスピーチデータである、日本語新聞記事文章(JNAS)コーパスを使用してトレーニングされる。したがって、音声認識は、ワード(語)オープンなテストである。音の特徴として、13個の静的なMSLS(Mel-scale logarithmic spectrum)、13個の差分(delta)MSLS及び1個の差分パワーを使用した。音声認識の結果は、語正答比率(WCR,Word Correct Rate)によって与えられる。
図7及び図8は、それぞれ広いスピーカ間隔の場合及び狭いスピーカ間隔の場合について、種々の方法による音声認識の結果を示す図である。全ての図において、横軸はSN比(単位dB)を表し、縦軸はWCR(語正答比率、単位%)を表す。多数話者の音声認識であるので、GSS+PF(音源分離部および音声強調部)を基準として考える。種々の方法とは、音源分離部および音声強調部のみ(マスクなし)、及び音源分離部および音声強調部にそれぞれ、自己ノイズ用ハードMFM(mecなし)、自己ノイズ用ハードMFM(mecあり)、話者用ハードMFM、話者用ハードMFM、自己ノイズ用ソフトMFM、話者用ソフトMFM及び統合ソフトMFMを加えたものである。図7及び図8におけるハードマスクに対する比較に示すように、最小エネルギ基準(minimum energy criterion, mec)による改善はわずかである。全体として最小エネルギ基準はWCRを1乃至3%しか改善しない。一般的な傾向は以下のとおりである。
ここで、SNRはSN比を表す。SN比は、話者ごとに、音声強調部105の出力と、自己ノイズ推定部200の出力を話者の数で除したものとの比によって定める。
Claims (8)
- 音源分離・音声強調部と、
自己ノイズ推定部と、
該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成する、ミッシングフィーチャーマスク生成部と、
該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出する音特徴抽出部と、
該音特徴抽出部の出力及び該ミッシングフィーチャーマスクを使用して音声認識を行なう音声認識部と、を備えた音声認識装置。 - 音源分離・音声強調部と、
自己ノイズ推定部と、
該音源分離・音声強調部の出力を使用して、音源ごとの話者用ミッシングフィーチャーマスクを生成する、話者用ミッシングフィーチャーマスク生成部と、
該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、音源ごとの自己ノイズ用ミッシングフィーチャーマスクを生成する、自己ノイズ用ミッシングフィーチャーマスク生成部と、
話者用ミッシングフィーチャーマスク及び自己ノイズ用ミッシングフィーチャーマスクを統合して、統合ミッシングフィーチャーマスクを生成するミッシングフィーチャーマスク統合部と、
該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出する音特徴抽出部と、
該音特徴抽出部の出力及び該統合ミッシングフィーチャーマスクを使用して音声認識を行なう音声認識部と、を備えた音声認識装置。 - 前記自己ノイズ用ミッシングフィーチャーマスク生成部が、前記自己ノイズ推定部の出力を音源の数で除した値と、前記音源分離・音声強調部の音源ごとの出力との比を使用して、前記自己ノイズ用ミッシングフィーチャーマスクを生成する請求項2に記載の音声認識装置。
- 前記ミッシングフィーチャーマスク統合部が、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値以上である場合には、前記話者用ミッシングフィーチャーマスクを統合ミッシングフィーチャーマスクとし、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値よりも小さい場合には、自己ノイズ用ミッシングフィーチャーマスクを統合ミッシングフィーチャーマスクとする請求項2または3に記載の音声認識装置。
- 音源分離・音声強調部が音源を分離するステップと、
自己ノイズ推定部が自己ノイズを推定するステップと、
ミッシングフィーチャーマスク生成部が該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、ミッシングフィーチャーマスクを生成するステップと、
音特徴抽出部が該音源分離・音声強調部の出力を使用して、音源ごとの音の特徴を抽出するステップと、
音声認識部が該音特徴抽出部の出力及び該ミッシングフィーチャーマスクを使用して音声認識を行なうステップと、を含む音声認識方法。 - 音源分離・音声強調部が音源を分離するステップと、
自己ノイズ推定部が自己ノイズを推定するステップと、
話者用ミッシングフィーチャーマスク生成部が、該音源分離・音声強調部の出力を使用して、音源ごとの話者用ミッシングフィーチャーマスクを生成するステップと、
自己ノイズ用ミッシングフィーチャーマスク生成部が、該音源分離・音声強調部及び該自己ノイズ推定部の出力を使用して、音源ごとの自己ノイズ用ミッシングフィーチャーマスクを生成するステップと、
ミッシングフィーチャーマスク統合部が、話者用ミッシングフィーチャーマスク及び自己ノイズ用ミッシングフィーチャーマスクを統合して、統合ミッシングフィーチャーマスクを生成するステップと、
音特徴抽出部が、該音源分離・音声強調部の出力を使用して音源ごとの音の特徴を抽出するステップと、
音声認識部が、該音特徴抽出部の出力及び該統合ミッシングフィーチャーマスクを使用して音声認識を行なうステップと、を含む音声認識方法。 - 自己ノイズ用ミッシングフィーチャーマスクを生成するステップにおいて、前記自己ノイズ推定部の出力を音源の数で除した値と、前記音源分離・音声強調部の音源ごとの出力との比を使用して、前記自己ノイズ用ミッシングフィーチャーマスクを生成する請求項6に記載の音声認識方法。
- 統合ミッシングフィーチャーマスクを生成するステップにおいて、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値以上である場合には、前記話者用ミッシングフィーチャーマスクが統合ミッシングフィーチャーマスクとされ、前記音源分離・音声強調部の音源ごとの出力が前記自己ノイズ推定部の出力を音源の数で除した値よりも小さい場合には、自己ノイズ用ミッシングフィーチャーマスクが統合ミッシングフィーチャーマスクとされる請求項6または7に記載の音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010232817A JP5328744B2 (ja) | 2010-10-15 | 2010-10-15 | 音声認識装置及び音声認識方法 |
US13/157,648 US8538751B2 (en) | 2010-10-15 | 2011-06-10 | Speech recognition system and speech recognizing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010232817A JP5328744B2 (ja) | 2010-10-15 | 2010-10-15 | 音声認識装置及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012088390A JP2012088390A (ja) | 2012-05-10 |
JP5328744B2 true JP5328744B2 (ja) | 2013-10-30 |
Family
ID=45934872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010232817A Active JP5328744B2 (ja) | 2010-10-15 | 2010-10-15 | 音声認識装置及び音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8538751B2 (ja) |
JP (1) | JP5328744B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
US9378752B2 (en) * | 2012-09-05 | 2016-06-28 | Honda Motor Co., Ltd. | Sound processing device, sound processing method, and sound processing program |
US9520141B2 (en) | 2013-02-28 | 2016-12-13 | Google Inc. | Keyboard typing detection and suppression |
US9747899B2 (en) | 2013-06-27 | 2017-08-29 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
US9608889B1 (en) | 2013-11-22 | 2017-03-28 | Google Inc. | Audio click removal using packet loss concealment |
US9747921B2 (en) * | 2014-02-28 | 2017-08-29 | Nippon Telegraph And Telephone Corporation | Signal processing apparatus, method, and program |
US9721580B2 (en) | 2014-03-31 | 2017-08-01 | Google Inc. | Situation dependent transient suppression |
JP6118838B2 (ja) * | 2014-08-21 | 2017-04-19 | 本田技研工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
CN106328165A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种机器人自身音源消除系统 |
JP7131424B2 (ja) * | 2019-02-18 | 2022-09-06 | 日本電信電話株式会社 | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム |
US10997967B2 (en) * | 2019-04-18 | 2021-05-04 | Honeywell International Inc. | Methods and systems for cockpit speech recognition acoustic model training with multi-level corpus data augmentation |
KR102636002B1 (ko) * | 2019-06-18 | 2024-02-08 | 엘지전자 주식회사 | 음성인식 로봇에 사용되는 사운드 처리방법 |
KR20210073343A (ko) | 2019-12-10 | 2021-06-18 | 주식회사 케이티 | 중첩 음원을 분리하는 장치, 방법 및 컴퓨터 프로그램 |
CN113270099B (zh) * | 2021-06-29 | 2023-08-29 | 深圳市欧瑞博科技股份有限公司 | 智能语音提取方法、装置、电子设备及存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1098297A1 (en) * | 1999-11-02 | 2001-05-09 | BRITISH TELECOMMUNICATIONS public limited company | Speech recognition |
JP2001215990A (ja) * | 2000-01-31 | 2001-08-10 | Japan Science & Technology Corp | ロボット聴覚装置 |
DE60141403D1 (de) * | 2000-06-09 | 2010-04-08 | Japan Science & Tech Agency | Hörvorrichtung für einen Roboter |
JP2002323900A (ja) * | 2001-04-24 | 2002-11-08 | Sony Corp | ロボット装置、プログラム及び記録媒体 |
JP3632099B2 (ja) * | 2002-12-17 | 2005-03-23 | 独立行政法人科学技術振興機構 | ロボット視聴覚システム |
JP4157581B2 (ja) * | 2004-12-03 | 2008-10-01 | 本田技研工業株式会社 | 音声認識装置 |
US20080071540A1 (en) * | 2006-09-13 | 2008-03-20 | Honda Motor Co., Ltd. | Speech recognition method for robot under motor noise thereof |
JP5041934B2 (ja) * | 2006-09-13 | 2012-10-03 | 本田技研工業株式会社 | ロボット |
US8019089B2 (en) * | 2006-11-20 | 2011-09-13 | Microsoft Corporation | Removal of noise, corresponding to user input devices from an audio signal |
JP2009156888A (ja) * | 2007-12-25 | 2009-07-16 | Sanyo Electric Co Ltd | 音声補正装置及びそれを備えた撮像装置並びに音声補正方法 |
US8392185B2 (en) * | 2008-08-20 | 2013-03-05 | Honda Motor Co., Ltd. | Speech recognition system and method for generating a mask of the system |
JP5180928B2 (ja) * | 2008-08-20 | 2013-04-10 | 本田技研工業株式会社 | 音声認識装置及び音声認識装置のマスク生成方法 |
JP5535746B2 (ja) * | 2009-05-22 | 2014-07-02 | 本田技研工業株式会社 | 音データ処理装置及び音データ処理方法 |
-
2010
- 2010-10-15 JP JP2010232817A patent/JP5328744B2/ja active Active
-
2011
- 2011-06-10 US US13/157,648 patent/US8538751B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012088390A (ja) | 2012-05-10 |
US8538751B2 (en) | 2013-09-17 |
US20120095761A1 (en) | 2012-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5328744B2 (ja) | 音声認識装置及び音声認識方法 | |
JP5738020B2 (ja) | 音声認識装置及び音声認識方法 | |
US8392185B2 (en) | Speech recognition system and method for generating a mask of the system | |
Yamamoto et al. | Enhanced robot speech recognition based on microphone array source separation and missing feature theory | |
JP2011191423A (ja) | 発話認識装置、発話認識方法 | |
Liu et al. | Neural network based time-frequency masking and steering vector estimation for two-channel MVDR beamforming | |
US8666737B2 (en) | Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method | |
Ince et al. | Assessment of general applicability of ego noise estimation | |
Delcroix et al. | Speech recognition in living rooms: Integrated speech enhancement and recognition system based on spatial, spectral and temporal modeling of sounds | |
Asano et al. | Detection and separation of speech event using audio and video information fusion and its application to robust speech interface | |
US8548802B2 (en) | Acoustic data processor and acoustic data processing method for reduction of noise based on motion status | |
JP5180928B2 (ja) | 音声認識装置及び音声認識装置のマスク生成方法 | |
Okuno et al. | Robot audition: Missing feature theory approach and active audition | |
Na et al. | Joint ego-noise suppression and keyword spotting on sweeping robots | |
Kumar et al. | Unsupervised neural mask estimator for generalized eigen-value beamforming based ASR | |
Grondin et al. | Robust speech/non-speech discrimination based on pitch estimation for mobile robots | |
Novoa et al. | Robustness over time-varying channels in DNN-hmm ASR based human-robot interaction. | |
Gomez et al. | Dereverberation robust to speaker's azimuthal orientation in multi-channel human-robot communication | |
JP5535746B2 (ja) | 音データ処理装置及び音データ処理方法 | |
Ng et al. | Small footprint multi-channel convmixer for keyword spotting with centroid based awareness | |
Hu et al. | Wake-up-word detection for robots using spatial eigenspace consistency and resonant curve similarity | |
Gomez et al. | Utilizing visual cues in robot audition for sound source discrimination in speech-based human-robot communication | |
Liu et al. | A unified network for multi-speaker speech recognition with multi-channel recordings | |
Himawan et al. | Feature mapping using far-field microphones for distant speech recognition | |
Dat et al. | A comparative study of multi-channel processing methods for noisy automatic speech recognition in urban environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130723 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5328744 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |