JP2006084928A - 音声入力装置 - Google Patents

音声入力装置 Download PDF

Info

Publication number
JP2006084928A
JP2006084928A JP2004271183A JP2004271183A JP2006084928A JP 2006084928 A JP2006084928 A JP 2006084928A JP 2004271183 A JP2004271183 A JP 2004271183A JP 2004271183 A JP2004271183 A JP 2004271183A JP 2006084928 A JP2006084928 A JP 2006084928A
Authority
JP
Japan
Prior art keywords
signal
filter
learning
sound
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004271183A
Other languages
English (en)
Inventor
Mitsunobu Kaminuma
充伸 神沼
Daisuke Saito
大介 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2004271183A priority Critical patent/JP2006084928A/ja
Publication of JP2006084928A publication Critical patent/JP2006084928A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】一般的な周波数領域ICAに適用するSBEと比較して少ない計算量で済み、拡散性の雑音を除去できる音声入力装置を提供すること。
【解決手段】目的音声と非目的音とが混在する音響をマイクロフォン10-1〜10-nで検知することによって目的音声信号と非目的音信号とが混在する音響信号を取得し、該音響信号から少なくとも一つの該目的音声信号を分離する音声信号分離フィルタを学習の繰り返しによって取得する独立成分解析法を実行する音声入力装置において、前記目的音声信号の周波数帯域を通過周波数帯域とする前置フィルタを内容とする減衰過程1(40)を通過した音響信号をフィルタ学習過程50に用いることを特徴とする音声入力装置を構成する。
【選択図】 図1

Description

本発明は音声入力装置に関する。
近年、車室内における音声入力系は、音声認識による車載機器操作及びハンドフリー電話などに広く用いられている。これらの技術の実現を阻害する要因として、車室内における、音声入力使用者以外の音源からの音の存在があげられる。音声入力使用者からの音声を他の音源からの音から分離する方法として、複数の音響センサからそれぞれの音信号を取得し、取得した複数の音信号のみを用いて、その音信号から目的とする音声信号を分離するフィルタを学習によって得る方法として、独立成分解析法(Independent Component Analysis、以下ICAと記す)が開発されている。
特開2003−271166号公報 「アレー信号処理を用いたブラインド音源分離の基礎」Technical report of IEICE,EA2001-7。 「独立成分解析とは」Computer Today,pp.38-43,1998.9,No.87、「fMRI画像解析への応用」Computer Today,pp.60-67,2001.1 No.95。 S.Amari,A.Chichocki,and H.H.Yang,"A new learning algorithm for blind signal separation",In:D.S.Touretzky,M.C.Mozer and M.E.Hasselmoeds.,Advanced in Neural Information Processing System 8,pp.753-763,MIT Press,Cambridge MA,1996. N.Murata and S.Ikeda,"An on-line algorithm for blind source separation on speech signals",Proceeding of 1998 International Symposium on Nonlinear Theory and its Application((NOLTA'98),vol.3,pp.923-926,Sep.1998. http://www.asahi-kasei.co.jp/vorero/jp/
しかしながら、上記ICAに基づく目的信号分離の処理における問題点としては、以下が挙げられる。
まず、信号源から送出される信号同士の統計的な独立性を利用するが、実環境では信号の伝達特性・背景ノイズ等によりその統計量を精度よく推定することが困難であり、それによって、分離精度が劣化する。
また、拡散性の信号源は、それを一信号源と見なすことが困難であることより、分離が非常に困難となる。
上記の問題に対し、上記特許文献1においては、ICAの計算過程で拡散性の信号源の影響を除去する手法が提案されている。この手法においては、ICAの計算過程において周波数毎に計算されるコスト関数の大きさによって音源分離処理の精度を予測し、音源分離処理の精度が低い周波数ではフィルタの応答を小さくする処理を行う(以下、SBE(Sub-Band Eliminate)と記す)。SBEでは周波数毎に音源分離処理の精度が閾値を超えているか否かの判定処理を行うため、一般的な周波数領域ICAと比較して、計算量が大きくなる。
本発明の目的は、この点を改良し、一般的な周波数領域ICAに適用するSBEと比較して少ない計算量で済み、拡散性の雑音を除去できる音声入力装置を提供することである。
目的音声信号と非目的音信号とが混在する音響信号から少なくとも一つの目的音声信号を分離する音声信号分離フィルタを学習の繰り返しによって取得する独立成分解析法を実行する音声入力装置において、前記音響信号を、目的音声信号の周波数帯域を通過周波数帯域とする前置フィルタを通過させた後に、前記学習の繰り返しに用いることを特徴とする音声入力装置を構成する。
本発明の実施により、学習結果が発散する可能性がある周波数帯域における学習が緩やかに進むようにし、一般的な周波数領域ICAに適用するSBEと比較して少ない計算量で済み、拡散性の雑音を除去できる音声入力装置を提供することが可能となる。
以下に、本発明に係る音声入力装置が特徴とする、フィルタを得るための学習方法を、ICAの一例に適用した場合を説明する。
例えば、信号源として、音信号をK個のマイクロフォン(センサ)で音を受信することに加え、各音源から到来する、音信号同士が統計的に独立であることを利用することでマイクロフォンと同じK個もしくはK個以下の音源を分離することができる。当初、ICAを用いた音源分離法は、各音源からの到来音の時間差が考慮されていなかったため、マイクロフォンアレーに適用することは困難であった。しかし近年では、時間差を考慮し、マイクロフォンアレーを用いて複数の音信号を観測し、周波数領域にて混合過程の逆変換を求める手法が多数提案されている。
一般に、L個の複数音源から到来する音信号が線形に混合されてK個のマイクロフォンにて観測されている場合、観測された音信号は、ある周波数fにおいて以下のように書くことができる。
X(f) = A(f)S(f) (1)
ここで、S(f)は各音源から送出される音信号ベクトル、X(f)は受音点であるマイクロフォンアレーで観測された観測信号ベクトル、A(f)は各音源と受音点との空間的な音響系に関する混合行列であり、それぞれ以下のように書くことができる。
S(f) = [S(f),...,S(f)] (2)
X(f) = [X(f),...,X(f)] (3)
Figure 2006084928

ここで上添字はベクトルの転置を表す。このとき、混合行列A(f)が既知であれば、受音点での観測信号ベクトルX(f)を用いて、
S(f) = A(f)X(f) (5)
(ただし、A(f)は行列A(f)の一般逆行列を表す)のようにA(f)の一般逆行列A(f)を計算することで音源から送出される音信号S(f)を計算することができる。しかし一般にA(f)は未知であり、X(f)だけを利用することで音信号S(f)を求めなければならない。
この問題を解くためには、音信号S(f)が確率的に発生し、更に、S(f)の各成分が全て互いに独立であると仮定する。このとき観測信号X(f)は混合された信号であるためX(f)の各成分の分布は独立ではない。そこで、観測信号 に含まれる独立な成分をICAによって探索することを考える。すなわち、観測信号X(f)を独立な成分に変換する行列W(f)(以下、逆混合行列)を計算し、観測信号X(f)に逆混合行列W(f)を適用(行列乗算)することで、音源から送出される音信号S(f)に対して近似的な信号を求める。
ICAによる混合過程の逆変換を求める処理には時間領域で分析する手法と、周波数領域で分析する手法が提案されている。ここでは周波数領域で計算する手法を例にして説明する。
最初に、各マイクロフォンにて観測された信号を適切な直交変換を用いて短時間フレーム分析を行う。このとき、1つのマイクロフォン入力における、特定の周波数ビンでの複素スペクトル値をプロットすることにより、それを時系列として考える。ここで、周波数ビンとは、例えば、短時間離散フーリエ変換によって周波数変換された信号ベクトルにおける個別の複素成分を示す。同様に、他のマイクロフォン入力に対しても同じ操作を行う。ここで得られた、時間‐周波数信号系列は、
X(f,t) = [X(f,t),...,X(f,t)] (6)
と記述できる。次に、逆混合行列W(f)を用いて信号分離を行う。この処理は以下のように示される。
Y(f,t) = [Y(f,t),...,Y(f,t)] = W(f)X(f,t) (7)
ここで、逆混合行列W(f)は、L個の時系列の出力Y(f,t)が互いに独立になるように最適化される。これらの処理を全ての周波数ビンについて行う。最後に、分離した時系列Y(f,t)に逆直交変換を適用して、音源信号時間波形の再構成を行う。
独立性の評価及び逆混合行列の最適化方法としては、Kullback-Leibler divergenceの最小化に基づく教師無し学習アルゴリズムや、2次または高次の相関を無相関化するアルゴリズムが提案されている(上記非特許文献1参照)。
なお、ICAは音信号処理だけではなく、例えば、移動体通信などで話が混線して到達した信号を、其々に分離する、或いは脳の内部の各所で生ずる信号を脳電計や脳磁計、fMRI(Functional Magnetic Resonance Imaging;磁気共鳴機能画像)などを用いて外部から測定した場合に、測定信号の中から目的の信号を分離抽出すること等に用いられている(上記非特許文献2参照)。
以下では、複数のマイクロフォンによる音源分離問題を例にとり、音源分離フィルタの学習アルゴリズムに周波数領域ICAを用いた場合の本発明の原理を説明する。
ICAを用いても、信号の分離が困難である周波数帯域においては、数十回の学習を経ても分離精度(例えばコサイン距離)の値が改善しない場合が多い。このような帯域における学習のための演算をつづけると、フィルタの分離性能が最適な状態から分離精度を低下させる状態へと移行させてしまう場合がある。このような学習を避けるため、本発明では帯域ごとに学習速度を変化させることを提案する。
はじめに、各マイクロフォンにて集音され短時間フレーム分析された時間‐周波数信号系列を、上式(6)と同じく、X(f,t) = [X(f,t),...,X(f,t)]と記述する。次に、ICAによって最適化された逆混合行列を用いて音源分離を行う。この処理は下式のように示される。
Y(f,t) = [Y(f,t),...,Y(f,t)] = W(f)X(f,t) (7)(再記)
ここで、Y(f,t)はは音源分離が為された分離信号である。ここで、i+1回目に学習される逆混合行列(音源分離フィルタ)Wi+1(f)は、i回目に学習された逆混合行列W(f)から、下記式(8)によって計算することが、Amariらによって提案されている(上記非特許文献3)。
Wi+1(f) =
η(diag(<Φ(Y(f,t))Y(f,t)>)-<Φ(Y(f,t))Y(f,t)>)W(f)+W(f) (8)
ここで、ηは更新係数、diag( )は対角行列、< >は時間に関する平均、はエルミート転置を表す。Φ( )は、一般に音声信号のような非ガウス性の振幅分布に従う信号を扱う場合にはsigmoid関数によって近似する手法が提案されている(上記非特許文献3、4参照)。
ここで、式(8)の第1項において、更新係数ηが固定であれば、式(7)の入力信号X(f,t)の周波数応答のエネルギーが大きいと、一回の学習過程におけるWi+1(f)の変動幅は大きくなり、入力信号X(f,t)の周波数応答のエネルギーが小さいとWi+1(f)の変動幅は小さくなる。よって、入力信号X(f,t)について、目的信号(すなわち使用者の音声信号)を通過させ、非目的信号を抑圧する帯域通過フィルタH(f)を適用させることで、非目的信号のエネルギーが大きい帯域fを抑圧し、Wi+1(f)の学習変動幅を小さくすることでWi+1(f)の更新量を小さくし、下式に示したように、学習の進行を遅らせる。
Figure 2006084928
式(9)及び式(10)の手続きにより、非目的信号のエネルギーが大きい帯域(すなわち分離が困難であるため適切な分離フィルタが設計できないと予測される帯域)fにおける分離フィルタWi+1(f)が初期値から変動しないため、フィルタの分離性能が最適な状態から分離精度を低下させる状態へと移行する現象を避けることができる。
以下に、本発明の構成を、実施の形態例によって説明する。
(実施の形態1)
図1は第1の実施の形態におけるフィルタ更新処理過程のブロック図である。図中、10-1〜10-nは、目的音声と非目的音とが混在する音響を検知し、目的音声信号と非目的音信号とが混在する複数の音響信号として出力する複数の音響センサであるマイクロフォンであり、20は、マイクロフォン10-1〜10-nの出力である音響信号を検知して離散信号に変換する検知過程であり、30は、その離散信号を周波数に分解し、かつ、周波数分割帯域に分割する帯域分割過程である。信号を周波数に分解する変換は、FFTが一般的であるが、ウェーブレット、Z変換など、直交変換系であればいずれでもよい。また、一定範囲の帯域の代表値でも良い。
40は、本発明に係る音声入力装置が特徴とする減衰過程1であって、この過程において、目的音声信号の周波数帯域を通過周波数帯域とする前置フィルタを用いてフィルタ処理を行う。この前置フィルタは、シンプルなハイパスフィルタ(HPF)、バンドパスフィルタ(BPF)などでもよいが、使用者の音声帯域と一致する通過特性を有していることが望ましい。音響信号が複数ある場合、いずれの音響信号も同じ通過特性を有する前置フィルタを通過するようにする。それぞれのマイクロフォンから得られた音響信号に対して、異なる前置フィルタ(減衰過程1の内容)を適用してしまうと、マイクロフォンごとに入力される情報(特に位相情報)が変わってしまう。2つ以上のマイクロフォンを使用する場合は、方向性の音を除去することが目的であるため、減衰過程1(40)で位相が変わることは避ける必要がある。同じ通過特性を有する前置フィルタを用いることによって、減衰過程2(図2の55)の分離精度が高まる。
減衰過程1(40)を経た信号、すなわち、上記前置フィルタを通過した音響信号は、目的音声信号を分離する音声信号分離フィルタを取得するための学習の繰り返しであるフィルタ学習過程50における学習の繰り返しに用いられる。
上記のフィルタ学習過程50において、最初に用いられる初期音声信号分離フィルタとして、予め学習によって取得されたものを用いることができる。すなわち、予め学習によって取得しておいたフィルタを環境に応じて徐々に適応させていくことでフィルタの性能向上を図ることができる。適応学習しても効果が無い帯域は、予め環境(例えば車両環境)に適応させておいた初期フィルタを用いることで、学習しない帯域の性能劣化を防ぐことができる。つまり、学習効果がある帯域は学習し、効果が無い帯域は緩やかに学習する。まったく効果が無い帯域は、ほとんど学習されずフィルタ初期値が適用されるようにしてもよい。このような処置によって、減衰過程2(図2の55)の分離精度が高まる。
学習終了後、フィルタ学習過程50によって取得された音声信号分離フィルタは、図2の減衰過程2(55)にけるフィルタとして用いられる。
減衰過程1(40)を設けることによって、フィルタ安定化(減衰過程2(55)が安定する)による性能向上が図れる。すなわち、減衰過程1(40)を用いて、学習の進み方(学習のステップサイズ)に変化をつける。学習を進めたほうが良い帯域と、学習を進めないほうが良い帯域(目的信号の情報が少ない帯域)とを分ける。減衰過程1(40)の通過域に存在する信号は、学習が進み、通過域以外に存在する信号は学習が緩やかに進む。
図2はフィルタ処理過程のブロック図である。マイクロフォン10-1〜10-nの出力である、目的音声信号と非目的音信号とが混在する音響信号は、検知過程20において離散信号に変換され、フィルタ学習過程50で取得された音声信号分離フィルタを内容とする減衰過程2(55)を経て、目的音声信号(信号R100)として出力される。減衰過程2(55)は、入力された音響信号から目的音声信号を抽出するか、または、非目的信号を抑圧する。
図3はフィルタ更新システムのブロック図である。マイクロフォン110-1〜110-nとしては、一般的なマイクロフォンが使用できる。検知手段120は、図5におけるフィルタ(アンチエリアシングフィルタ)220、AD変換器230、演算装置240に対応し、CPU、MPU、DSP、FPGAなど、一般的な動作回路を組合わせて構成される。帯域分割手段130は図5における演算装置240及び記憶装置250に対応する。減衰手段1(140)は図5における演算装置240及び記憶装置250に対応する。フィルタ学習手段150は図5における演算装置240及び記憶装置250に対応する。記憶手段180は図5における記憶装置250に対応する。
図4はフィルタ処理システムのブロック図である。マイクロフォン110-1〜110-n及び検知手段120は、図3に示したものと同じである。減衰手段2(155)は図5における演算装置240及び記憶装置250に対応する。記憶手段180は、図5における記憶装置250に対応し、キャッシュメモリ、メインメモリ、HDD、CD、MD、DVD、光ディスク、FDDなど、一般的な記憶媒体などによって構成されている。
図5はシステム構成の一例を示すブロック図である。マイクロフォン210-1〜210-nの出力である音響信号はフィルタ220を経てAD変換器230に入力され、AD変換された後、演算装置240に入力され、演算処理される。フィルタ220は、上記音響信号に含まれるノイズを除去することに用いられる。
図6はフィルタ学習手順のフロー図である。S100〜S150は個々のステップを表す。
S100で、システムの初期化、メモリへの読込作業を行う。
S110で、音入力を検知する。検知したらS120へ進む。
S120で、入力信号の帯域分割処理を行う。周波数ビンごとの帯域幅は固定でも可変でも良い。
S130で、入力信号に対し、目的信号帯域(使用者の音声帯域)を通過させ、非目的信号帯域を抑圧する前置フィルタを適用し、S140へ送出する。
S140で、S130から得た信号を用いてフィルタを学習(例えば周波数領域ICAを用いる)する。
S150で、学習が規定回数に達していたら終了。達していなければS130へ戻る。
上記の規定回数は学習の過程において定まるものであってもよいし、学習の前から決められているものであってもよい。学習の前から決められている場合は、学習の最大繰り返し回数が決定していることになる。学習回数が大きすぎると、性能劣化を防ぐ目的で緩やかに学習している帯域の学習が、性能劣化がおきる学習回数まで進んでしまう。学習回数に規定を設けることによって、学習の性能劣化を回避し、減衰手段2(155)の分離精度を高めることができる。
学習が終了したら、学習後のフィルタを図2の減衰過程2(55)のフィルタとして用いる。
図7はフィルタ処理手順のフロー図である。
S100で、システムの初期化、メモリへの読込作業を行う。
S110で、音入力を検知する。検知したらS120へ進む。
S180で、入力信号に対しフィルタ処理を行い結果を送出する。
(実施の形態2)
図8は、本発明に係る音声入力装置における、フィルタ更新システムの一例のブロック図である。この場合、減衰手段2(155)の分離精度を向上させるため、複数のフィルタを予め計算しておき、車室内に発生する雑音に応じて適切なフィルタを選択し、減衰手段1(140)の内容である前置フィルタとする。
図において、マイクロフォン110-1〜110-nとしては、一般的なマイクロフォンが使用できる。検知手段120は、図9におけるフィルタ(アンチエリアシングフィルタ)220、AD変換器230、演算装置240に対応し、CPU、MPU、DSP、FPGAなど、一般的な動作回路を組合わせて構成される。帯域分割手段130は図9における演算装置240及び記憶装置250に対応する。減衰手段1(140)は図9における演算装置240及び記憶装置250に対応する。
選択手段145は図9における演算装置240、記憶装置250及び情報装置260に対応し、車速信号、ワイパON/OFF信号、空調機ON/OFF信号、カメラ映像などから使用環境の変化に関する情報を取得する。選択手段145は、情報装置260から得られた車室内雑音などに関する情報から、減衰手段1(140)の内容として適切な前置フィルタを選択し、減衰手段1(140)の内容とする。
フィルタ学習手段150は図9における演算装置240及び記憶装置250に対応する。記憶手段180は図9における記憶装置250に対応する。
図9は、選択手段を含めたシステム構成の一例を示すブロック図である。マイクロフォン210-1〜210-nの出力である音響信号はフィルタ220を経てAD変換器230に入力され、AD変換された後、演算装置240に入力され、演算処理される。フィルタ220は、上記音響信号に含まれるノイズを除去することに用いられる。情報装置260は車室内雑音などに関する情報を演算装置240に入力する。
図10は、前置フィルタを選択する過程の一例を示したものである。図において予め、記憶手段180に記憶された4つのフィルタ(F10、F20、F30、F40)から、車室内雑音に応じた適切なフィルタを選択する。適切なフィルタとは、車室内雑音を除去し、話者の音声を残すことができるものであり、図に示した状態では、車両がアイドリング状態であり、かつ、空調機もワイパも動作していないので、このとき選択手段145では、アイドリングと音声を分離するためのフィルタ(F10)を選択して、減衰手段1(140)の内容である前置フィルタとする。
環境に応じて複数の前置フィルタを用意しておくことで、常に必要な帯域のフィルタ学習は進み、必要の無い帯域のフィルタ学習は緩やかに進む。このようにして、従来法と比較して計算時間が削減できる。
(実施の形態3)
図11は、本発明に係る音声入力装置におけるフィルタ更新システムの一例のブロック図である。この場合、減衰手段2(155)の分離精度を向上させるため、適応学習を用いて減衰手段1(140)を環境に適応させる。
図において、マイクロフォン110-1〜110-nとしては、一般的なマイクロフォンが使用できる。検知手段120は、図9におけるフィルタ(アンチエリアシングフィルタ)220、AD変換器230、演算装置240に対応し、CPU、MPU、DSP、FPGAなど、一般的な動作回路を組合わせて構成される。帯域分割手段130は図9における演算装置240及び記憶装置250に対応する。減衰手段1(140)は図9における演算装置240及び記憶装置250に対応する。
更新手段147は図9における演算装置240、記憶装置250及び情報装置260に対応し、車速信号、ワイパON/OFF信号、空調機ON/OFF信号、カメラ映像などから使用環境の変化に関する情報を取得する。すなわち、例えば、雑音環境、話者に応じて、減衰手段1(140)で用いる前置フィルタを適応学習して更新する。手続としては、1.情報装置260から得られた車室内雑音に関する情報から減衰手段1(140)を更新するタイミングを決定し、2.減衰手段1(140)のフィルタ学習を行い、3.減衰手段1(140)の内容である前置フィルタを更新する。
フィルタ学習手段150は図9における演算装置240及び記憶装置250に対応する。記憶手段180は図9における記憶装置250に対応する。
上記のような構成を用いることにより、減衰過程1(40)のの内容である前置フィルタを環境に適応させることで、減衰過程2(55)の分離精度が高まる。
図12に、適応学習により減衰手段1(140)を更新する例を示す。図において、目的信号S1と非目的信号N1を入力とし、適応フィルタのアルゴリズムを用いてフィルタを学習する。適応フィルタの入力信号はS1+N1、目的信号はS1とする。適応フィルタのアルゴリズムは最小二乗法など、一般的なウィナーフィルタの学習手法を用いればよい。このような手法の参考文献としては、大賀、山崎、金田共著「音響システムとディジタル処理」電子情報通信学会、P.136-144などがある。学習されたフィルタH100を減衰過程1(40)の内容とする。目的信号S1としては、予め適切な信号を記憶しておくか、アイドリング時など、S/Nが高いときに発話された音声を保存しておけばよい。非目的信号N1としては、走行中に観測できる雑音(ただし目的信号が含まれない信号)を収録して保存しておけばよい。学習タイミングとしては、車外騒音環境の変化を更新手段147で検出し、学習を実行すればよい。
以上に説明したように、本発明に係る音声入力装置においては、周波数領域ICAの学習過程の前段に使用者の音声帯域を通過帯域とする前置フィルタを配置し、周波数領域ICAに入力する学習のための信号のそれぞれの帯域における情報量を制御することにより、音声通過帯域は学習速度の変更なく、非音声通過帯域は学習が緩やかに進むように、学習速度を自動的に変更せしめる。これによって、学習速度が遅い帯域は、フィルタ初期値からの変更が少ない。このような帯域は、学習することにより発散していく帯域のため、初期値から動かないほうが良い。
本手法では、フィルタ学習する周波数帯域を適応的に判断できるため、すべての帯域においてフィルタ学習行う従来手法(上記特許文献1に記載)と比較して少ない計算量で同様の効果が実現できる。
(効果の検証)
以下に、本発明の効果を、本発明に係る音声入力装置が車両中において構成された場合について検証した結果について説明する。
この場合の目的音声信号は使用者の音声信号であり、非目的音信号は目的信号以外の信号である。この非目的音信号は、ロードノイズ、エンジンノイズ、空調機ノイズ、ワイパ、ウィンカが発する音、他の乗員の発話、車外雑音、オーディオ音、ガイダンス音などである。
本発明に係る音声入力装置においては、前置フィルタである目的信号帯域通過フィルタは目的信号のエネルギーが十分大きい帯域は通過域とし、目的信号より非目的信号のエネルギーが大きい帯域は抑圧するように設計されたフィルタである。例えば、運転者の発話音声を目的信号とし、エンジンノイズ及びロードノイズを非目的信号とした場合、400Hz以下をカットオフ周波数とするハイパスフィルタを用いる手法が簡単である。実際に用いる場合は以下の2通りが考えられる。
手法1:使用中に目的信号及び非目的信号に対して適応させる(実施の形態3)。
手法2:予め複数のフィルタを保持しておき、現在の環境に対して最適なフィルタを選択して用いる(実施の形態2)。
手法2は車種ごとに車室内雑音を予め調査しておき、車室内雑音のエネルギーが大きく、音声帯域のエネルギーが小さい帯域(例えば400Hz以下など)は抑圧するようなフィルタを用意する。
図13は、目的信号の帯域と非目的信号の帯域の関係を示す図である。図中、L210(実線)は目的信号の周波数応答の例であり、話者の発話は200Hzから2000Hzを中心に大きなエネルギーを有する。L220(点線)は非目的信号の周波数応答の例であり、車室内で観測される走行音は500Hz以下の帯域に大きなエネルギーを有する。L230(破線)は目的信号帯域を通過させる前置フィルタの通過特性を示し、300Hzから2kHzまでは入力信号の通過域が平坦な特性となっている。
周波数帯域を分割して考えると、図13中、B1の帯域には音声信号がほとんど存在せず、雑音のエネルギーが大きいため、B1はL230では抑圧される帯域となる。B2の帯域は音声信号と雑音信号とが混在する帯域である。音声信号が大きくなるに従い、L230では信号を通過する帯域となり、一方、雑音信号のエネルギーが大きい帯域では、L230は抑圧される帯域となる。B3の帯域は、音声信号のエネルギーが大きいため、ほとんど帯域が通過域となる。B4、B5の帯域は、音声信号、雑音信号の何れのエネルギーも小さいため、L230はほとんどの帯域において抑圧される帯域となる。
本発明の効果を検証するため、本発明が提案する前置フィルタを用いるシステムを音声認識システムへの前段処理として用いた場合の音源分離性能を、音声認識の正解率によって調べた。実験条件は以下の通りである。
1.実験条件
(比較対象)
比較対象は、(1)原信号、(2)従来手法(周波数領域ICA(FDICA)とSBEとの組み合わせ、非特許文献3に記載)によって得られる信号、(3)本発明が提案する手法(前置フィルタ(SPF)とFDICAとの組み合わせ)によって得られる信号の3つである。
(車室内伝達特性)
収録時のマイクロフォン及びラウドスピーカ(話者口部)の配置を図14に示す。ラウドスピーカは人体基準寸法(JIS規格)に基づき運転者の口の位置を決定し、HATS(頭・胴体シミュレータ、Head And Torso Simulator)の口部スピーカを配置した。マイクロフォンはルームミラー直上の天井に40mm間隔で部材に固定して配置した。マイクロフォンとラウドスピーカとの角度は60.9度である。以上の条件で、サンプリング周波数48kHz、量子化ビット数16bit、データ長36768点のTSP信号(実施の形態4に記載)を用いて伝達特性を測定し、11.025kHzにダウンサンプリングして使用した。
(車内雑音)
走行雑音及び空調機等の車両機器雑音を個々に収録し合成した。雑音条件は、晴天走行で、速度0、60、100km/hとした。
(発話)
防音室において話者23人(男性17人、女性5人)から69単語/人を収録した。
(評価用音声)
音声に伝達特性を重畳し、晴天走行速度0km/hにおいて、車室内雑音とのS/Nが10dBとなるように時間領域において調整し、更に先に収録した車室内雑音を加算した。
(周波数領域ICA)
周波数領域ICA(FDICA)の分離フィルタW(f)の学習は、サンプリング周波数11.025kHz、量子化ビット数16bit、分離フィルタ長は2048点、学習データ長は10秒、30回の繰返し学習とし、音声信号分離フィルタ初期値は運転席付近(-60度)とその対称位置(60度)に死角を形成するビームフォーマとした。なお、この分離フィルタ学習処理は、実験条件及び話者毎に、先頭の評価音声について1回だけ行った。音声認識は、ネットワーク文法による69単語同時待受けの孤立単語音声認識とし、デコーダとしてVORERO Ver4.3(実施の形態5に記載)を用いた。
2.実験結果
図15に実験結果を示す。縦軸は単語正解率、横方向に実験条件ごとの結果を示す。図中、丸で囲んだ1、2、3は、それぞれ、比較対象(1)、(2)、(3)に対応する。棒の高さは平均値(AVG)を示し、Maxは最大値を示し、Minは最小値を示す。丸で囲んだ3に示す本発明における手法は、0km/h(アイドリング環境下)では従来手法である丸で囲んだ1、2と同等の性能を示し、60km/hでは、従来手法である丸で囲んだ1、2より性能は向上しており、100km/h走行環境下では、丸で囲んだ1より向上、丸で囲んだ2と同等の性能を示した。これらの結果からもわかるように、丸で囲んだ3に示す本発明における手法は環境の変化に対しても安定した単語正解率を示していることがわかる。
フィルタ更新処理過程のブロック図である。 フィルタ処理過程のブロック図である。 フィルタ更新システムのブロック図である。 フィルタ処理システムのブロック図である。 システム構成の一例を示すブロック図である。 フィルタ学習手順のフロー図である。 フィルタ処理手順のフロー図である。 選択手段を含めたフィルタ更新システムの一例のブロック図である。 選択手段を含めたシステム構成の一例を示すブロック図である。 前置フィルタを選択する過程の一例を示す図である。 フィルタ更新システムの一例のブロック図である。 適応学習により減衰手段1を更新する例を示す図である。 目的信号の帯域と非目的信号の帯域の関係を示す図である。 効果の検証実験における収録時のマイクロフォン及びラウドスピーカ(話者口部)の配置を示す図である。 効果の検証実験の結果を示す図である。
符号の説明
10-1〜10-n:マイクロフォン、20:検知過程、30:帯域分割過程、40:減衰過程1、50:フィルタ学習過程、55:減衰過程2、110-1〜110-n:マイクロフォン、120:検知手段、130:帯域分割手段、140:減衰手段1、145:選択手段、147:更新手段、150:フィルタ学習手段、155:減衰手段2、180:記憶手段、210-1〜210-n:マイクロフォン、220:フィルタ、230:AD変換器、240:演算装置、250:記憶装置、260:情報装置。

Claims (6)

  1. 目的音声と非目的音とが混在する音響を音響センサで検知することによって目的音声信号と非目的音信号とが混在する音響信号を取得し、該音響信号から少なくとも一つの該目的音声信号を分離する音声信号分離フィルタを学習の繰り返しによって取得する独立成分解析法を実行する音声入力装置において、
    前記目的音声信号の周波数帯域を通過周波数帯域とする前置フィルタが備えられ、前記音響信号は、該前置フィルタを通過した後に、前記学習の繰り返しに用いられることを特徴とする音声入力装置。
  2. 前記音響信号が複数ある場合、いずれの該音響信号も同じ通過特性を有する前記前置フィルタを通過することを特徴とする請求項1に記載の音声入力装置。
  3. 前記学習の繰り返しの最初に用いられる初期音声信号分離フィルタとして、予め学習によって取得された音声信号分離フィルタを用いることを特徴とする請求項1または2に記載の音声入力装置。
  4. 前記学習の繰り返しの最大繰り返し回数が決定していることを特徴とする請求項1、2または3に記載の音声入力装置。
  5. 記憶装置に記憶されている複数のフィルタの中から、フィルタを選択して前記前置フィルタとして用いる選択手段を有することを特徴とする請求項1ないし4のいずれかに記載の音声入力装置。
  6. 前記前置フィルタを更新する更新手段を有することを特徴とする請求項1ないし5のいずれかに記載の音声入力装置。
JP2004271183A 2004-09-17 2004-09-17 音声入力装置 Pending JP2006084928A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004271183A JP2006084928A (ja) 2004-09-17 2004-09-17 音声入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004271183A JP2006084928A (ja) 2004-09-17 2004-09-17 音声入力装置

Publications (1)

Publication Number Publication Date
JP2006084928A true JP2006084928A (ja) 2006-03-30

Family

ID=36163479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004271183A Pending JP2006084928A (ja) 2004-09-17 2004-09-17 音声入力装置

Country Status (1)

Country Link
JP (1) JP2006084928A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008072566A1 (ja) * 2006-12-12 2008-06-19 Nec Corporation 信号分離再生装置および信号分離再生方法
JP2008185834A (ja) * 2007-01-30 2008-08-14 Fujitsu Ltd 音響判定方法、音響判定装置及びコンピュータプログラム
US8477962B2 (en) 2009-08-26 2013-07-02 Samsung Electronics Co., Ltd. Microphone signal compensation apparatus and method thereof
US10049687B2 (en) 2016-02-02 2018-08-14 Canon Kabushiki Kaisha Audio processing apparatus and audio processing method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271166A (ja) * 2002-03-14 2003-09-25 Nissan Motor Co Ltd 入力信号処理方法および入力信号処理装置
JP2003333682A (ja) * 2002-05-15 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> 信号抽出方法および装置、信号抽出プログラムおよびこのプログラムを記録した記録媒体
JP2004029754A (ja) * 2002-05-10 2004-01-29 Univ Kinki 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法
WO2004053839A1 (en) * 2002-12-11 2004-06-24 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271166A (ja) * 2002-03-14 2003-09-25 Nissan Motor Co Ltd 入力信号処理方法および入力信号処理装置
JP2004029754A (ja) * 2002-05-10 2004-01-29 Univ Kinki 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法
JP2003333682A (ja) * 2002-05-15 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> 信号抽出方法および装置、信号抽出プログラムおよびこのプログラムを記録した記録媒体
WO2004053839A1 (en) * 2002-12-11 2004-06-24 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008072566A1 (ja) * 2006-12-12 2008-06-19 Nec Corporation 信号分離再生装置および信号分離再生方法
US8345884B2 (en) 2006-12-12 2013-01-01 Nec Corporation Signal separation reproduction device and signal separation reproduction method
JP5131596B2 (ja) * 2006-12-12 2013-01-30 日本電気株式会社 信号分離再生装置および信号分離再生方法
JP2008185834A (ja) * 2007-01-30 2008-08-14 Fujitsu Ltd 音響判定方法、音響判定装置及びコンピュータプログラム
US9082415B2 (en) 2007-01-30 2015-07-14 Fujitsu Limited Sound determination method and sound determination apparatus
US8477962B2 (en) 2009-08-26 2013-07-02 Samsung Electronics Co., Ltd. Microphone signal compensation apparatus and method thereof
US10049687B2 (en) 2016-02-02 2018-08-14 Canon Kabushiki Kaisha Audio processing apparatus and audio processing method

Similar Documents

Publication Publication Date Title
EP3698360B1 (en) Noise reduction using machine learning
US20060031067A1 (en) Sound input device
JP5127754B2 (ja) 信号処理装置
US20070033020A1 (en) Estimation of noise in a speech signal
CN110120217B (zh) 一种音频数据处理方法及装置
US20200045166A1 (en) Acoustic signal processing device, acoustic signal processing method, and hands-free communication device
WO2015086895A1 (en) Spatial audio processing apparatus
US9761223B2 (en) Acoustic impulse response simulation
CN111798860A (zh) 音频信号处理方法、装置、设备及存储介质
JP4448464B2 (ja) 雑音低減方法、装置、プログラム及び記録媒体
JP2022529912A (ja) 深層フィルタを決定するための方法および装置
EP1995722B1 (en) Method for processing an acoustic input signal to provide an output signal with reduced noise
CN113593612B (zh) 语音信号处理方法、设备、介质及计算机程序产品
JP5443547B2 (ja) 信号処理装置
Xiong et al. Spectro-Temporal SubNet for Real-Time Monaural Speech Denoising and Dereverberation.
Ahn et al. Background noise reduction via dual-channel scheme for speech recognition in vehicular environment
JP4529611B2 (ja) 音声入力装置
JP3786038B2 (ja) 入力信号処理方法および入力信号処理装置
JP2006084928A (ja) 音声入力装置
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Al-Mafrachi et al. A Robust Acoustic Head Orientation Estimation and Speech Enhancement for In-Car Communication Systems
CN111863017B (zh) 一种基于双麦克风阵列的车内定向拾音方法及相关装置
CN117558286A (zh) 语音降噪方法、装置、车辆、电子设备和存储介质
Plucienkowski et al. Combined front-end signal processing for in-vehicle speech systems
JP4924652B2 (ja) 音声認識装置及びカーナビゲーション装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100525