JP5738020B2 - 音声認識装置及び音声認識方法 - Google Patents
音声認識装置及び音声認識方法 Download PDFInfo
- Publication number
- JP5738020B2 JP5738020B2 JP2011053124A JP2011053124A JP5738020B2 JP 5738020 B2 JP5738020 B2 JP 5738020B2 JP 2011053124 A JP2011053124 A JP 2011053124A JP 2011053124 A JP2011053124 A JP 2011053124A JP 5738020 B2 JP5738020 B2 JP 5738020B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- mask
- index
- sound
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000000926 separation method Methods 0.000 claims description 64
- 230000001186 cumulative effect Effects 0.000 claims description 37
- 238000009826 distribution Methods 0.000 claims description 33
- 230000005236 sound signal Effects 0.000 claims description 21
- 230000003595 spectral effect Effects 0.000 claims description 21
- 230000003068 static effect Effects 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000002465 magnetic force microscopy Methods 0.000 description 32
- 238000012545 processing Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000005457 optimization Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 101001120757 Streptococcus pyogenes serotype M49 (strain NZ131) Oleate hydratase Proteins 0.000 description 2
- 229940083712 aldosterone antagonist Drugs 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
x(ω)
は、
x(ω) = H(ω)s(ω)
によって計算される。ここで、
H(ω)
は、伝達関数行列である。伝達関数行列の各コンポーネントHnmは、m番目の音源からn番目のマイクロフォンへの伝達関数を表す。音源分離は、一般的に以下の式によってあらわされる。
y(ω) = W(ω)x(ω)
ここで、
W(ω)
は、分離行列と呼ばれる。音源分離は、出力信号
y(ω)
が
s(ω)
と同じであるという条件を満足する
W(ω)
を見つけることとして定義される。
ym
は、音源分離部100の出力である。
ym
は、音声
bn
とリークを足し合わせたものからなるため、リークがない場合(他の音源からの混ざりこみがなく、完全に分離できている場合)には分離信頼度Rが1となり、リークが大きくなるにつれて0に近い値をとるようになる。
ym
を入力として、分離信頼度Rに対する音声信号及びノイズの分布を作成する。
(1-α)α-tを加算することによって、全てのインデクスにαを乗じる処理を避けることができ、さらに計算時間が削減される。しかし、この方法は、S(t,i)を指数的に増加させる。したがって、S(t,Imax)が変数の最大値に近づいた際に、S(t,i)の大きさを正規化する処理が必要である。
Lmin =-100
Lstep= 0.2
Imax = 1000
スペクトル成分の最大レベルは、96dB(1Pa)に正規化されるとした。
ym
を音声とノイズとに分離する。
ds(R)
を作成する。ここで、音声の分布
ds(R)
は正規分布と仮定する。正規分布の分布関数は以下の式によって定義される。
μs
及び標準偏差
σs
を定めることによって音声分布
ds(R)
を作成する。
dn(R)
を作成する。ここで、ノイズの分布
dn(R)
は正規分布と仮定する。したがって、ノイズ分布作成部4350は、平均値
μn
及び標準偏差
σn
を定めることによって
dn(R)
を作成する。
ds(R)
及びノイズの分布
dn(R)
から以下の式にしたがって、音声の信頼度
B(R)
すなわち、MFMを求める。
w1 及び w2
は、静的特徴量及び動的特徴量の重み係数を表す。静的特徴量と動的特徴量に対して別個の重み係数を定めた点は、本例の特徴である。重み係数は、あらかじめ定めておく。重み係数の定め方の一例については後で説明する。
ym
である。ここで、mは各音源を表す。
bn
を推定する。
ym
を使用して、分離信頼度Rに対する音声の分布
ds(R)
及び分離信頼度Rに対するノイズの分布
dn(R)
を求める。
ds(R)
及び分離信頼度Rに対するノイズの分布
dn(R)
に基づいて、音声の信頼度
B(R)
を演算する。
w1 及び w2
の機能を確認するための実験について説明する。ここでは、簡単化の目的で、音声の信頼度
B(R)
を、パラメータa及びbを有するシグモイド関数によって近似した。静的音特徴量に対するMFMは、以下の式で表せる。
w1 及び w2
を最適化した。同時スピーチ信号は、反響時間が0.35秒である部屋の中で記録した。3個の異なる単語は、ロボットから2メートル離れた3個のスピーカーから同じ大きさで発生させた。各単語は、国際電気通信基礎研究所(ATR)による、216個の日本語の単語からなる音声的にバランスのとれた単語セットから選択した。
w1 及び w2
の最適化の例を示す図である。他の条件に対しても、パラメータ
w1 及びw2
の最適化について同様の傾向が得られた。パラメータa及びbの最適化を実施し、その結果は、各配置に対して共通の傾向を示すものであった。そこで、最適化されたパラメータ・セットを以下の式によって定義した。
WCθ、 WRθ 及びWLθ
は、配置がそれぞれ、(0、θ、−θ)度であるとして、正面、右及び左スピーカーに対する、語正答率(word correct rate, WCR)を表す。
Popt= (40,0.5,0.1,0.2)
が得られた。
1)ハードMFMを使用した音声認識システム
静的音特徴量に対するハードMFMは以下の式で定義される。
R>TMFMの場合
HMm(k)=1 (19)
その他の場合
HMm(k)=0 (20)
ここで、
TMFM
は閾値である。動的音特徴量に対するハードMFMは以下の式で定義される。
2)重みづけしないソフトMFMを使用した音声認識システム
式(15)及び式(18)のソフトMFMを使用する。重みは、
w1=w2=1
である。
3)最適化パラメータ・セットのソフトMFMを使用した音声認識システム
式(15)及び式(18)のソフトMFMを使用する。パラメータは、
Popt = (40,0.5,0.1,0.2)
である。
Claims (7)
- 複数音源からの混合音を分離する音源分離部と、
前記分離された音声信号のパワーをインデクスに変換し、前記分離された音声信号の周波数スペクトルの成分ごとに生成された、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、移動平均の重みをつけた累積ヒストグラムを更新し、下記数式(1)のχに相当する累積ヒストグラムのインデクスを求め、前記累積ヒストグラムの最小パワーレベルとパワーレベル幅と最大インデクスと前記χと時間減衰パラメータとを用いてノイズパワーを求め、前記ノイズパワーに基づくノイズ閾値を使用して、音声信号とノイズとを分離し、前記分離された音声信号の分離信頼度に対する音声信号の分布及びノイズの分布を求めることによって、前記分離された音声信号の周波数のスペクトル成分ごとに、0から1の間の連続的な値をとりうるソフトマスクを生成するマスク生成部と、
前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、を備えた音声認識装置。
t:時間ステップ、
i:整数インデクス、
S(t,i):累積頻度、
I max :累積ヒストグラムの最大インデクス、
argmin(i下付き):[]内の値を最小値とするi、
I x (t):χを求めるために計算される値。 - 前記マスク生成部が、環境の変化に応じて適応的にソフトマスクを生成するように構成された請求項1に記載の音声認識装置。
- 前記マスク生成部が、前記分離信頼度を変数とする正規分布の確率密度関数を使用して前記ソフトマスクを生成する請求項1または2に記載の音声認識装置。
- 前記ソフトマスクが、音声信号の静的特徴量と動的特徴量に対して、別個の重み係数を備える請求項1から3のいずれかに記載の音声認識装置。
- 前記マスク生成部が、角度を変えて配置された前記音源の前記角度ごとの語正答率の平均を求めることにより最適化された前記別個の重み係数をそれぞれ求めて前記ソフトマスクを生成する請求項4に記載の音声認識装置。
- 音源分離部が、複数音源からの混合音を分離するステップと、
マスク生成部が、
分離された音声信号の分離信頼度を求めるステップと、
前記分離された音声信号のパワーをインデクスに変換するステップと、
前記分離された音声信号の周波数スペクトルの成分ごとに生成された、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、移動平均の重みをつけた累積ヒストグラムを更新するステップと、
下記数式(3)のχに相当する累積ヒストグラムのインデクスを求めるステップと、
前記累積ヒストグラムの最小パワーレベルとパワーレベル幅と最大インデクスと前記χと時間減衰パラメータとを用いてノイズパワーを求めるステップと、
前記ノイズパワーに基づくノイズ閾値を使用して、音声信号とノイズを分離するステップと、
前記分離された音声信号の分離信頼度に対する音声信号及びノイズの分布を求めるステップと、
によって、前記分離された音声信号の周波数のスペクトル成分ごとに、0から1の間の連続的な値をとりうるソフトマスクを作成するステップと、
音声認識部が、該ソフトマスクを使用して音声を認識するステップと、を含む音声認識方法。
t:時間ステップ、
i:整数インデクス、
S(t,i):累積頻度、
I max :累積ヒストグラムの最大インデクス、
argmin(i下付き):[]内の値を最小値とするi、
I x (t):χを求めるために計算される値。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US31274010P | 2010-03-11 | 2010-03-11 | |
US61/312,740 | 2010-03-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011191759A JP2011191759A (ja) | 2011-09-29 |
JP5738020B2 true JP5738020B2 (ja) | 2015-06-17 |
Family
ID=44560792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011053124A Active JP5738020B2 (ja) | 2010-03-11 | 2011-03-10 | 音声認識装置及び音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8577678B2 (ja) |
JP (1) | JP5738020B2 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100834679B1 (ko) * | 2006-10-31 | 2008-06-02 | 삼성전자주식회사 | 음성 인식 오류 통보 장치 및 방법 |
US8577678B2 (en) * | 2010-03-11 | 2013-11-05 | Honda Motor Co., Ltd. | Speech recognition system and speech recognizing method |
JP5566846B2 (ja) * | 2010-10-15 | 2014-08-06 | 本田技研工業株式会社 | ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法 |
JP5662276B2 (ja) * | 2011-08-05 | 2015-01-28 | 株式会社東芝 | 音響信号処理装置および音響信号処理方法 |
US20130085703A1 (en) * | 2011-09-30 | 2013-04-04 | Broadcom Corporation | Histogram-Based Linearization of Analog-to-Digital Converters |
JP6169849B2 (ja) * | 2013-01-15 | 2017-07-26 | 本田技研工業株式会社 | 音響処理装置 |
JP2014145838A (ja) * | 2013-01-28 | 2014-08-14 | Honda Motor Co Ltd | 音響処理装置及び音響処理方法 |
US10102850B1 (en) * | 2013-02-25 | 2018-10-16 | Amazon Technologies, Inc. | Direction based end-pointing for speech recognition |
JP6059130B2 (ja) * | 2013-12-05 | 2017-01-11 | 日本電信電話株式会社 | 雑音抑圧方法とその装置とプログラム |
US9747922B2 (en) | 2014-09-19 | 2017-08-29 | Hyundai Motor Company | Sound signal processing method, and sound signal processing apparatus and vehicle equipped with the apparatus |
US9792952B1 (en) * | 2014-10-31 | 2017-10-17 | Kill the Cann, LLC | Automated television program editing |
US9659578B2 (en) * | 2014-11-27 | 2017-05-23 | Tata Consultancy Services Ltd. | Computer implemented system and method for identifying significant speech frames within speech signals |
KR101647058B1 (ko) | 2015-03-18 | 2016-08-10 | 서강대학교산학협력단 | 강인음성인식을 위한 손실특징 복원방법 및 장치 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
JP6501260B2 (ja) * | 2015-08-20 | 2019-04-17 | 本田技研工業株式会社 | 音響処理装置及び音響処理方法 |
JP6543844B2 (ja) * | 2015-08-27 | 2019-07-17 | 本田技研工業株式会社 | 音源同定装置および音源同定方法 |
JP6703460B2 (ja) * | 2016-08-25 | 2020-06-03 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及び音声処理プログラム |
US10811000B2 (en) * | 2018-04-13 | 2020-10-20 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for recognizing simultaneous speech by multiple speakers |
CN110797021B (zh) * | 2018-05-24 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 |
CN110176226B (zh) * | 2018-10-25 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 一种语音识别、及语音识别模型训练方法及装置 |
CN110400575B (zh) * | 2019-07-24 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 通道间特征提取方法、音频分离方法和装置、计算设备 |
US11257510B2 (en) * | 2019-12-02 | 2022-02-22 | International Business Machines Corporation | Participant-tuned filtering using deep neural network dynamic spectral masking for conversation isolation and security in noisy environments |
CN112863480B (zh) * | 2020-12-22 | 2022-08-09 | 北京捷通华声科技股份有限公司 | 端到端语音合成模型的优化方法及装置,电子设备 |
CN113314099B (zh) * | 2021-07-28 | 2021-11-30 | 北京世纪好未来教育科技有限公司 | 语音识别置信度的确定方法和确定装置 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5485522A (en) * | 1993-09-29 | 1996-01-16 | Ericsson Ge Mobile Communications, Inc. | System for adaptively reducing noise in speech signals |
PL174216B1 (pl) * | 1993-11-30 | 1998-06-30 | At And T Corp | Sposób redukcji w czasie rzeczywistym szumu transmisji mowy |
US5712953A (en) * | 1995-06-28 | 1998-01-27 | Electronic Data Systems Corporation | System and method for classification of audio or audio/video signals based on musical content |
US6098038A (en) * | 1996-09-27 | 2000-08-01 | Oregon Graduate Institute Of Science & Technology | Method and system for adaptive speech enhancement using frequency specific signal-to-noise ratio estimates |
SE515674C2 (sv) * | 1997-12-05 | 2001-09-24 | Ericsson Telefon Ab L M | Apparat och metod för brusreducering |
US7072831B1 (en) * | 1998-06-30 | 2006-07-04 | Lucent Technologies Inc. | Estimating the noise components of a signal |
US6519559B1 (en) * | 1999-07-29 | 2003-02-11 | Intel Corporation | Apparatus and method for the enhancement of signals |
JP3961290B2 (ja) * | 1999-09-30 | 2007-08-22 | 富士通株式会社 | 雑音抑圧装置 |
US6804640B1 (en) * | 2000-02-29 | 2004-10-12 | Nuance Communications | Signal noise reduction using magnitude-domain spectral subtraction |
JP4157581B2 (ja) * | 2004-12-03 | 2008-10-01 | 本田技研工業株式会社 | 音声認識装置 |
US7509259B2 (en) * | 2004-12-21 | 2009-03-24 | Motorola, Inc. | Method of refining statistical pattern recognition models and statistical pattern recognizers |
US7596231B2 (en) * | 2005-05-23 | 2009-09-29 | Hewlett-Packard Development Company, L.P. | Reducing noise in an audio signal |
JP4863713B2 (ja) * | 2005-12-29 | 2012-01-25 | 富士通株式会社 | 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム |
US7664643B2 (en) * | 2006-08-25 | 2010-02-16 | International Business Machines Corporation | System and method for speech separation and multi-talker speech recognition |
CN101138507B (zh) * | 2006-09-05 | 2010-05-12 | 深圳迈瑞生物医疗电子股份有限公司 | 多普勒血流声音信号的处理方法及装置 |
JP5041934B2 (ja) * | 2006-09-13 | 2012-10-03 | 本田技研工業株式会社 | ロボット |
US8249271B2 (en) * | 2007-01-23 | 2012-08-21 | Karl M. Bizjak | Noise analysis and extraction systems and methods |
US8489396B2 (en) * | 2007-07-25 | 2013-07-16 | Qnx Software Systems Limited | Noise reduction with integrated tonal noise reduction |
JP5642339B2 (ja) * | 2008-03-11 | 2014-12-17 | トヨタ自動車株式会社 | 信号分離装置及び信号分離方法 |
EP2151822B8 (en) * | 2008-08-05 | 2018-10-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction |
JP5180928B2 (ja) * | 2008-08-20 | 2013-04-10 | 本田技研工業株式会社 | 音声認識装置及び音声認識装置のマスク生成方法 |
EP2306449B1 (en) * | 2009-08-26 | 2012-12-19 | Oticon A/S | A method of correcting errors in binary masks representing speech |
US8577678B2 (en) * | 2010-03-11 | 2013-11-05 | Honda Motor Co., Ltd. | Speech recognition system and speech recognizing method |
BR112012031656A2 (pt) * | 2010-08-25 | 2016-11-08 | Asahi Chemical Ind | dispositivo, e método de separação de fontes sonoras, e, programa |
US20120245927A1 (en) * | 2011-03-21 | 2012-09-27 | On Semiconductor Trading Ltd. | System and method for monaural audio processing based preserving speech information |
-
2011
- 2011-03-10 US US13/044,737 patent/US8577678B2/en active Active
- 2011-03-10 JP JP2011053124A patent/JP5738020B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US8577678B2 (en) | 2013-11-05 |
US20110224980A1 (en) | 2011-09-15 |
JP2011191759A (ja) | 2011-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5738020B2 (ja) | 音声認識装置及び音声認識方法 | |
Yoshioka et al. | Making machines understand us in reverberant rooms: Robustness against reverberation for automatic speech recognition | |
Yamamoto et al. | Enhanced robot speech recognition based on microphone array source separation and missing feature theory | |
US8392185B2 (en) | Speech recognition system and method for generating a mask of the system | |
Valin et al. | Robust recognition of simultaneous speech by a mobile robot | |
Hori et al. | The MERL/SRI system for the 3rd CHiME challenge using beamforming, robust feature extraction, and advanced speech recognition | |
Xiao et al. | The NTU-ADSC systems for reverberation challenge 2014 | |
Nakatani et al. | Dominance based integration of spatial and spectral features for speech enhancement | |
Delcroix et al. | Speech recognition in living rooms: Integrated speech enhancement and recognition system based on spatial, spectral and temporal modeling of sounds | |
Garg et al. | A comparative study of noise reduction techniques for automatic speech recognition systems | |
Omologo et al. | Speech recognition with microphone arrays | |
Huang et al. | Multi-microphone adaptive noise cancellation for robust hotword detection | |
JP5180928B2 (ja) | 音声認識装置及び音声認識装置のマスク生成方法 | |
Yamamoto et al. | Making a robot recognize three simultaneous sentences in real-time | |
Shi et al. | Phase-based dual-microphone speech enhancement using a prior speech model | |
Nakadai et al. | A robot referee for rock-paper-scissors sound games | |
Yamamoto et al. | Design and implementation of a robot audition system for automatic speech recognition of simultaneous speech | |
Yoshioka et al. | Noise model transfer: Novel approach to robustness against nonstationary noise | |
Kundegorski et al. | Two-Microphone dereverberation for automatic speech recognition of Polish | |
Himawan et al. | Feature mapping using far-field microphones for distant speech recognition | |
Dat et al. | A comparative study of multi-channel processing methods for noisy automatic speech recognition in urban environments | |
Yamamoto et al. | Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals | |
Font | Multi-microphone signal processing for automatic speech recognition in meeting rooms | |
Wang et al. | Denoising autoencoder and environment adaptation for distant-talking speech recognition with asynchronous speech recording | |
Takahashi et al. | Soft missing-feature mask generation for simultaneous speech recognition system in robots. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140703 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150414 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150421 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5738020 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |