JP2006084928A - 音声入力装置 - Google Patents
音声入力装置 Download PDFInfo
- Publication number
- JP2006084928A JP2006084928A JP2004271183A JP2004271183A JP2006084928A JP 2006084928 A JP2006084928 A JP 2006084928A JP 2004271183 A JP2004271183 A JP 2004271183A JP 2004271183 A JP2004271183 A JP 2004271183A JP 2006084928 A JP2006084928 A JP 2006084928A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- filter
- learning
- sound
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】目的音声と非目的音とが混在する音響をマイクロフォン10-1〜10-nで検知することによって目的音声信号と非目的音信号とが混在する音響信号を取得し、該音響信号から少なくとも一つの該目的音声信号を分離する音声信号分離フィルタを学習の繰り返しによって取得する独立成分解析法を実行する音声入力装置において、前記目的音声信号の周波数帯域を通過周波数帯域とする前置フィルタを内容とする減衰過程1(40)を通過した音響信号をフィルタ学習過程50に用いることを特徴とする音声入力装置を構成する。
【選択図】 図1
Description
ここで、S(f)は各音源から送出される音信号ベクトル、X(f)は受音点であるマイクロフォンアレーで観測された観測信号ベクトル、A(f)は各音源と受音点との空間的な音響系に関する混合行列であり、それぞれ以下のように書くことができる。
X(f) = [X1(f),...,XL(f)]T (3)
ここで上添字Tはベクトルの転置を表す。このとき、混合行列A(f)が既知であれば、受音点での観測信号ベクトルX(f)を用いて、
S(f) = A(f)−X(f) (5)
(ただし、A(f)−は行列A(f)の一般逆行列を表す)のようにA(f)の一般逆行列A(f)−を計算することで音源から送出される音信号S(f)を計算することができる。しかし一般にA(f)は未知であり、X(f)だけを利用することで音信号S(f)を求めなければならない。
X(f,t) = [X1(f,t),...,XK(f,t)]T (6)
と記述できる。次に、逆混合行列W(f)を用いて信号分離を行う。この処理は以下のように示される。
ここで、逆混合行列W(f)は、L個の時系列の出力Y(f,t)が互いに独立になるように最適化される。これらの処理を全ての周波数ビンについて行う。最後に、分離した時系列Y(f,t)に逆直交変換を適用して、音源信号時間波形の再構成を行う。
ここで、Y(f,t)はは音源分離が為された分離信号である。ここで、i+1回目に学習される逆混合行列(音源分離フィルタ)Wi+1(f)は、i回目に学習された逆混合行列Wi(f)から、下記式(8)によって計算することが、Amariらによって提案されている(上記非特許文献3)。
η(diag(<Φ(Y(f,t))YH(f,t)>)-<Φ(Y(f,t))YH(f,t)>)Wi(f)+Wi(f) (8)
ここで、ηは更新係数、diag( )は対角行列、< >は時間に関する平均、Hはエルミート転置を表す。Φ( )は、一般に音声信号のような非ガウス性の振幅分布に従う信号を扱う場合にはsigmoid関数によって近似する手法が提案されている(上記非特許文献3、4参照)。
図1は第1の実施の形態におけるフィルタ更新処理過程のブロック図である。図中、10-1〜10-nは、目的音声と非目的音とが混在する音響を検知し、目的音声信号と非目的音信号とが混在する複数の音響信号として出力する複数の音響センサであるマイクロフォンであり、20は、マイクロフォン10-1〜10-nの出力である音響信号を検知して離散信号に変換する検知過程であり、30は、その離散信号を周波数に分解し、かつ、周波数分割帯域に分割する帯域分割過程である。信号を周波数に分解する変換は、FFTが一般的であるが、ウェーブレット、Z変換など、直交変換系であればいずれでもよい。また、一定範囲の帯域の代表値でも良い。
図8は、本発明に係る音声入力装置における、フィルタ更新システムの一例のブロック図である。この場合、減衰手段2(155)の分離精度を向上させるため、複数のフィルタを予め計算しておき、車室内に発生する雑音に応じて適切なフィルタを選択し、減衰手段1(140)の内容である前置フィルタとする。
図11は、本発明に係る音声入力装置におけるフィルタ更新システムの一例のブロック図である。この場合、減衰手段2(155)の分離精度を向上させるため、適応学習を用いて減衰手段1(140)を環境に適応させる。
以下に、本発明の効果を、本発明に係る音声入力装置が車両中において構成された場合について検証した結果について説明する。
(比較対象)
比較対象は、(1)原信号、(2)従来手法(周波数領域ICA(FDICA)とSBEとの組み合わせ、非特許文献3に記載)によって得られる信号、(3)本発明が提案する手法(前置フィルタ(SPF)とFDICAとの組み合わせ)によって得られる信号の3つである。
収録時のマイクロフォン及びラウドスピーカ(話者口部)の配置を図14に示す。ラウドスピーカは人体基準寸法(JIS規格)に基づき運転者の口の位置を決定し、HATS(頭・胴体シミュレータ、Head And Torso Simulator)の口部スピーカを配置した。マイクロフォンはルームミラー直上の天井に40mm間隔で部材に固定して配置した。マイクロフォンとラウドスピーカとの角度は60.9度である。以上の条件で、サンプリング周波数48kHz、量子化ビット数16bit、データ長36768点のTSP信号(実施の形態4に記載)を用いて伝達特性を測定し、11.025kHzにダウンサンプリングして使用した。
走行雑音及び空調機等の車両機器雑音を個々に収録し合成した。雑音条件は、晴天走行で、速度0、60、100km/hとした。
防音室において話者23人(男性17人、女性5人)から69単語/人を収録した。
音声に伝達特性を重畳し、晴天走行速度0km/hにおいて、車室内雑音とのS/Nが10dBとなるように時間領域において調整し、更に先に収録した車室内雑音を加算した。
周波数領域ICA(FDICA)の分離フィルタW(f)の学習は、サンプリング周波数11.025kHz、量子化ビット数16bit、分離フィルタ長は2048点、学習データ長は10秒、30回の繰返し学習とし、音声信号分離フィルタ初期値は運転席付近(-60度)とその対称位置(60度)に死角を形成するビームフォーマとした。なお、この分離フィルタ学習処理は、実験条件及び話者毎に、先頭の評価音声について1回だけ行った。音声認識は、ネットワーク文法による69単語同時待受けの孤立単語音声認識とし、デコーダとしてVORERO Ver4.3(実施の形態5に記載)を用いた。
図15に実験結果を示す。縦軸は単語正解率、横方向に実験条件ごとの結果を示す。図中、丸で囲んだ1、2、3は、それぞれ、比較対象(1)、(2)、(3)に対応する。棒の高さは平均値(AVG)を示し、Maxは最大値を示し、Minは最小値を示す。丸で囲んだ3に示す本発明における手法は、0km/h(アイドリング環境下)では従来手法である丸で囲んだ1、2と同等の性能を示し、60km/hでは、従来手法である丸で囲んだ1、2より性能は向上しており、100km/h走行環境下では、丸で囲んだ1より向上、丸で囲んだ2と同等の性能を示した。これらの結果からもわかるように、丸で囲んだ3に示す本発明における手法は環境の変化に対しても安定した単語正解率を示していることがわかる。
Claims (6)
- 目的音声と非目的音とが混在する音響を音響センサで検知することによって目的音声信号と非目的音信号とが混在する音響信号を取得し、該音響信号から少なくとも一つの該目的音声信号を分離する音声信号分離フィルタを学習の繰り返しによって取得する独立成分解析法を実行する音声入力装置において、
前記目的音声信号の周波数帯域を通過周波数帯域とする前置フィルタが備えられ、前記音響信号は、該前置フィルタを通過した後に、前記学習の繰り返しに用いられることを特徴とする音声入力装置。 - 前記音響信号が複数ある場合、いずれの該音響信号も同じ通過特性を有する前記前置フィルタを通過することを特徴とする請求項1に記載の音声入力装置。
- 前記学習の繰り返しの最初に用いられる初期音声信号分離フィルタとして、予め学習によって取得された音声信号分離フィルタを用いることを特徴とする請求項1または2に記載の音声入力装置。
- 前記学習の繰り返しの最大繰り返し回数が決定していることを特徴とする請求項1、2または3に記載の音声入力装置。
- 記憶装置に記憶されている複数のフィルタの中から、フィルタを選択して前記前置フィルタとして用いる選択手段を有することを特徴とする請求項1ないし4のいずれかに記載の音声入力装置。
- 前記前置フィルタを更新する更新手段を有することを特徴とする請求項1ないし5のいずれかに記載の音声入力装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004271183A JP2006084928A (ja) | 2004-09-17 | 2004-09-17 | 音声入力装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004271183A JP2006084928A (ja) | 2004-09-17 | 2004-09-17 | 音声入力装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006084928A true JP2006084928A (ja) | 2006-03-30 |
Family
ID=36163479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004271183A Pending JP2006084928A (ja) | 2004-09-17 | 2004-09-17 | 音声入力装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006084928A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008072566A1 (ja) * | 2006-12-12 | 2008-06-19 | Nec Corporation | 信号分離再生装置および信号分離再生方法 |
JP2008185834A (ja) * | 2007-01-30 | 2008-08-14 | Fujitsu Ltd | 音響判定方法、音響判定装置及びコンピュータプログラム |
US8477962B2 (en) | 2009-08-26 | 2013-07-02 | Samsung Electronics Co., Ltd. | Microphone signal compensation apparatus and method thereof |
US10049687B2 (en) | 2016-02-02 | 2018-08-14 | Canon Kabushiki Kaisha | Audio processing apparatus and audio processing method |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271166A (ja) * | 2002-03-14 | 2003-09-25 | Nissan Motor Co Ltd | 入力信号処理方法および入力信号処理装置 |
JP2003333682A (ja) * | 2002-05-15 | 2003-11-21 | Nippon Telegr & Teleph Corp <Ntt> | 信号抽出方法および装置、信号抽出プログラムおよびこのプログラムを記録した記録媒体 |
JP2004029754A (ja) * | 2002-05-10 | 2004-01-29 | Univ Kinki | 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法 |
WO2004053839A1 (en) * | 2002-12-11 | 2004-06-24 | Softmax, Inc. | System and method for speech processing using independent component analysis under stability constraints |
-
2004
- 2004-09-17 JP JP2004271183A patent/JP2006084928A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271166A (ja) * | 2002-03-14 | 2003-09-25 | Nissan Motor Co Ltd | 入力信号処理方法および入力信号処理装置 |
JP2004029754A (ja) * | 2002-05-10 | 2004-01-29 | Univ Kinki | 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法 |
JP2003333682A (ja) * | 2002-05-15 | 2003-11-21 | Nippon Telegr & Teleph Corp <Ntt> | 信号抽出方法および装置、信号抽出プログラムおよびこのプログラムを記録した記録媒体 |
WO2004053839A1 (en) * | 2002-12-11 | 2004-06-24 | Softmax, Inc. | System and method for speech processing using independent component analysis under stability constraints |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008072566A1 (ja) * | 2006-12-12 | 2008-06-19 | Nec Corporation | 信号分離再生装置および信号分離再生方法 |
US8345884B2 (en) | 2006-12-12 | 2013-01-01 | Nec Corporation | Signal separation reproduction device and signal separation reproduction method |
JP5131596B2 (ja) * | 2006-12-12 | 2013-01-30 | 日本電気株式会社 | 信号分離再生装置および信号分離再生方法 |
JP2008185834A (ja) * | 2007-01-30 | 2008-08-14 | Fujitsu Ltd | 音響判定方法、音響判定装置及びコンピュータプログラム |
US9082415B2 (en) | 2007-01-30 | 2015-07-14 | Fujitsu Limited | Sound determination method and sound determination apparatus |
US8477962B2 (en) | 2009-08-26 | 2013-07-02 | Samsung Electronics Co., Ltd. | Microphone signal compensation apparatus and method thereof |
US10049687B2 (en) | 2016-02-02 | 2018-08-14 | Canon Kabushiki Kaisha | Audio processing apparatus and audio processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3698360B1 (en) | Noise reduction using machine learning | |
US20060031067A1 (en) | Sound input device | |
JP5127754B2 (ja) | 信号処理装置 | |
US20070033020A1 (en) | Estimation of noise in a speech signal | |
CN110120217B (zh) | 一种音频数据处理方法及装置 | |
US20200045166A1 (en) | Acoustic signal processing device, acoustic signal processing method, and hands-free communication device | |
WO2015086895A1 (en) | Spatial audio processing apparatus | |
US9761223B2 (en) | Acoustic impulse response simulation | |
CN111798860A (zh) | 音频信号处理方法、装置、设备及存储介质 | |
JP4448464B2 (ja) | 雑音低減方法、装置、プログラム及び記録媒体 | |
JP2022529912A (ja) | 深層フィルタを決定するための方法および装置 | |
EP1995722B1 (en) | Method for processing an acoustic input signal to provide an output signal with reduced noise | |
CN113593612B (zh) | 语音信号处理方法、设备、介质及计算机程序产品 | |
JP5443547B2 (ja) | 信号処理装置 | |
Xiong et al. | Spectro-Temporal SubNet for Real-Time Monaural Speech Denoising and Dereverberation. | |
Ahn et al. | Background noise reduction via dual-channel scheme for speech recognition in vehicular environment | |
JP4529611B2 (ja) | 音声入力装置 | |
JP3786038B2 (ja) | 入力信号処理方法および入力信号処理装置 | |
JP2006084928A (ja) | 音声入力装置 | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment | |
Al-Mafrachi et al. | A Robust Acoustic Head Orientation Estimation and Speech Enhancement for In-Car Communication Systems | |
CN111863017B (zh) | 一种基于双麦克风阵列的车内定向拾音方法及相关装置 | |
CN117558286A (zh) | 语音降噪方法、装置、车辆、电子设备和存储介质 | |
Plucienkowski et al. | Combined front-end signal processing for in-vehicle speech systems | |
JP4924652B2 (ja) | 音声認識装置及びカーナビゲーション装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100427 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100525 |