JP3677143B2

JP3677143B2 - 音声処理方法および装置

Info

Publication number: JP3677143B2
Application number: JP20636697A
Authority: JP
Inventors: 岳彦井阪; 仁史永田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-07-31
Filing date: 1997-07-31
Publication date: 2005-07-27
Anticipated expiration: 2017-07-31
Also published as: JPH1152977A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力される音声信号の音声区間を検出したり雑音を抑圧し音声を強調する処理を行う音声処理処理方法／装置に関する。
【０００２】
【従来の技術】
雑音環境下で音声区間を検出する方法としては、例えば文献１：新美康永著、「音声認識」共立出版に開示されているように、エネルギーと零交差回数を用いて音声区間を検出する方法がある。しかし、この方法ではＳＮ比が大きく低下したときには音声区間を正確に検出することは難しい。
【０００３】
そこで、ＳＮ比の低い環境で音声入力を行うことを可能とするために、マイクロホンアレイによる雑音抑圧処理が研究されており、例えば文献２：「音響システムとデジタル処理」電子情報通信学会編では、少数のマイクロホンによる適応マイクロホンアレイを用いてＳＮ比を改善する方法が開示されている。しかしながら、雑音源が多数存在し雑音源の方向を特定できないような環境下では、この方法によりＳＮ比を改善することは難しいため、マイクロホンアレイの出力パワーを用いて正確に音声区間を検出することは困難である。
【０００４】
【発明が解決しようとする課題】
上述したように、少数のマイクロホンによるマイクロホンアレイを用いてＳＮ比を改善する方法では、雑音源の方向を特定できないような雑音環境下の場合にＳＮ比の改善が期待できないため、マイクロホンアレイの出力パワーを用いて正確に音声区間を検出することが難しいという問題があった。
【０００５】
本発明は上記の問題点を解決するためになされたもので、その目的はＳＮ比が低く、かつ雑音源の方向を特定できないような環境下で、少数のマイクロホンにより目的音源に対して音声区間を正確に検出できる音声処理方法および装置を提供することにある。
本発明の他の目的は、雑音を抑圧して音声のみを強調する処理を確実に行うことができる音声処理方法および装置を提供することにある。
【０００６】
【課題を解決するための手段】
上記の課題を解決するため、本発明は複数のチャネルを介して入力される音声信号に対して、ビームフォーマにより目的音源から到来する信号を抑圧するためのディジタル演算処理、つまりビームフォーマ処理を施し、このビームフォーマ処理により得られたフィルタ係数から目的音源の方向を推定し、この目的音源の方向に基づいて音声信号の音声区間を決定することを基本的な特徴とする。
【０００７】
雑音源の方向を特定できないような環境では、ビームフォーマによって目的音源のＳＮ比を改善することは難しいが、目的音源からの音声は方向性を持っているため、音声区間では目的音源の方向をビームフォーマのフィルタ係数から推定することが可能であり、この推定された目的音源の方向に基づいて音声区間を検出することができる。
【０００８】
また、本発明は目的音源から到来する信号を抑圧するためのビームフォーマ処理を行う第１のビームフォーマとは別に、雑音源から到来する信号を抑圧し、目的音源からの信号を出力するためのビームフォーマ処理を施す第２のビームフォーマを設け、第２のビームフォーマにより得られたフィルタ係数から雑音源の方向を推定し、目的音源の方向と第１および第２のビームフォーマにより得られた出力のパワーとに基づいて第２のビームフォーマを制御すると共に、雑音源の方向と第１および第２のビームフォーマにより得られた出力のパワーとに基づいて第１のビームフォーマを制御することを特徴とする。
【０００９】
このようにすると、方向性のある雑音源が存在する場合でも、第１のビームフォーマの入力方向を雑音源の方向に追随させることで、高精度に目的音源の方向を推定でき、もって音声区間をより確実に検出することが可能となる。
【００１０】
音声区間の決定に際しては、推定された目的音源の方向に加えて、さらに音声信号のパワーを用いて行ってもよい。
また、本発明は第１のビームフォーマの出力および推定された目的音源の方向の少なくとも一方を用いて、第２のビームフォーマの出力中の雑音を抑圧して音声を強調することを特徴とする。
【００１１】
すなわち、雑音源が非常に多いために雑音源の方向を特定できないような環境では、ビームフォーマによる雑音抑圧性能は低下するが、音声信号は方向性があるため、雑音源の方向に目的方向を設定した第１のビームフォーマにより、目的信号を抑圧した雑音のみの出力を抽出できるので、これを用いてスペクトルサブトラクションの手法により、第２のビームフォーマの出力に対して音声強調処理を行うことが可能である。
【００１２】
ここで、目的音源と雑音源の方向が固定でかつ既知である場合には、目的音源方向の推定と第１および第２のビームフォーマの制御は不要であるから、第１のビームフォーマを最も強い雑音源方向に向け、第２のビームフォーマを目的音源方向に向けておけばよい。この場合は、第１のビームフォーマの出力に基づいて第２のビームフォーマの出力に対して音声強調処理を行うことができる。
【００１３】
さらに、本発明では上記のようにして推定された目的音源方向と音声強調された信号を用いて音声区間の検出を行うことも可能であり、それによって音声区間の検出性能をさらに向上させることができる。
【００１４】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
（第１の実施形態）
本実施形態では、複数のチャネルを介して入力された音声信号から目的音源の方向を推定し、音声区間を検出する機能を有する音声処理装置を説明する。
【００１５】
本実施形態に係る音声処理装置は、図１に示されるように複数（ｎ個）のチャネルｃｈ１〜ｃｈｎを介して入力端子１０−１〜１０−ｎから音声信号を入力とする音声入力部１０と、これらの音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を行うビームフォーマ２０と、このビームフォーマ２０から得られたフィルタ係数に基づいて目的音源の方向を推定する目的音源方向推定部３０と、推定された目的音源の方向の時系列値と、音声入力部１０から得られた信号のパワーの時系列値、音声入力部１０から得られた信号のチャネル間の相関値の時系列値のいずれかあるいは両方に基づいて、音声信号の音声／非音声を決定する音声／非音声決定部４０とにより構成される。
【００１６】
ここでは簡単のため、チャネル数ｎが２の場合を例にとり説明する。
ビームフォーマ２０は、音声入力部１０からの信号に対して目的音源を抑圧するための適応ビームフォーマ処理と呼ばれるフィルタ演算処理を行う。ビームフォーマ２０の内部の処理方法としては、種々の方法が知られており、例えば先の文献２や、文献３：Heykin著“Adaptive Filter Theory(Plentice Hall) ”に開示されているように、一般化サイドローブキャンセラ（ＧＳＣ）、フロスト型ビームフォーマおよび参照信号法などがある。本実施形態は適応ビームフォーマであればどのようなものにも適用可能であるが、ここでは２チャネルのＧＳＣを例にとり説明する。
【００１７】
図２に、ビームフォーマ２０の例として、２チャネルのＧＳＣの中で一般的なJim-Griffith型のＧＳＣの構成例を示す。これは例えば、文献２に示されているように、減算器２１、加算器２２、遅延器２３、適応フィルタ２４および減算器２５からなるＧＳＣである。適応フィルタ２４はＬＭＳ、ＲＬＳ、射影型ＬＭＳなどの種々のものが使用可能であり、フィルタ長Ｌａは例えばＬａ＝５０を用いる。遅延器２３の遅延量は例えばＬａ／２とする。
【００１８】
ビームフォーマ２０を構成する図２に示した２チャネルのJim-Griffith型ＧＳＣの適応フィルタ２４にＬＭＳ適応フィルタを用いた場合、このフィルタの更新は、時刻をｎとして適応フィルタ２４の係数をＷ（ｎ）、第ｉチャネルの入力信号をｘｉ（ｎ）、第ｉチャネルの入力信号ベクトルをＸｉ（ｎ）＝（ｘｉ（ｎ），ｘｉ（ｎ−１），…，ｘｉ（ｎ−Ｌａ＋１））とおくと、次式で表される。
【００１９】
ｙ（ｎ）＝ｘ０（ｎ）＋ｘｌ（ｎ）（１）
Ｘ′（ｎ）＝Ｘ１（ｎ）−Ｘ０（ｎ）（２）
ｅ（ｎ）＝ｙ（ｎ）−Ｗ（ｎ）Ｘ′（ｎ）（３）
Ｗ（ｎ＋１）＝Ｗ（ｎ）一μＸ′（ｎ）ｅ（ｎ）（４）
図２のＧＳＣの入力方向を目的音源の方向以外の方向、例えば目的音源の方向を基準として９０°に設定しておく。ここでは、２チャネルの信号に遅延を与えることにより、設定した入力方向からの信号が等価的にアレイに同時に到着するようにする。このため、図２の構成のビームフォーマ２０に対して図３に示すように遅延器２６をチャネル１側に挿入する。遅延器２６の遅延時間は、入力方向を９０°にする場合、τ＝ｄ／ｃである。ここでｃは音速、ｄはマイクロホン間の距離である。
【００２０】
目的音源の方向から信号が到来した場合、ビームフォーマ２０内のフィルタは目的音源の方向に感度が低くなっているため、このフィイタのフィルタ係数から感度の方向依存性である指向性を調べることにより、目的音源の方向を推定することができる。
【００２１】
図４に、目的音源方向推定部３０において目的音源の方向を推定する手順を示す。まず、初期設定として目的方向の探索範囲θｒ、フィルタ長Ｌ、ＦＦＴ長（ＦＦＴポイント数）Ｎ、チャネル数Ｍなどを設定する（ステップＳ１０１）。例えばθｒ＝２０°、Ｌ＝５０、Ｎ＝６４、Ｍ＝２とする。ビームフォーマは目的音源からの信号の到来方向範囲のみを探索するため、例えば目的音源の方向を基準として探索角度範囲は士θｒの範囲とする。
【００２２】
次に、ビームフォーマがＧＳＣならば、フィルタ係数をトランスバーサル型のビームフォーマと等価な形に変換する（ステップＳ１０２）。例えば２チャネルのJim-Griffith型ＧＳＣの場合、ＧＳＣ内の適応フィルタの係数を
ｗｇ＝（ｗ₀ ，ｗ₁ ，ｗ₂ ，…，ｗ_L-2 ，ｗ_L-1 ）
とおくと、第１チャネルｃｈ１の等価フィルタの係数は、
ｗ_e1＝（−Ｗ₀ ，−Ｗ₁ ，−Ｗ₂ ，…，−Ｗ_L/2 ＋１，…，−Ｗ_L-2 ，−Ｗ_L-1 ）
第２チャネルｃｈ２の等価フィルタの係数は、
ｗ_e2＝（ｗ₀ ，ｗ₁ ，ｗ₂ ，…，ｗ_L/2 −１，…，ｗ_L-2 ，Ｗ_L-1 ）
とおけばよい。
【００２３】
次に、チャネル毎にフィルタ係数のＦＦＴを行い、その周波数成分Ｗei（ｋ）を求める（ステップＳ１０３）。ここで、ｋは周波数成分の番号、ｉはチャネルの番号である。
【００２４】
次に、探索範囲の中のある１つの方向をθとすると、θ方向から到来する信号に関する各チャネルの伝播位相遅れを表す方向ベクトルＳ（ｋ，θ）を生成する（ステップＳ１０４）。方向ベクトルＳ（ｋ，θ）は、例えば図５に示したマイクロホン配置の場合、第１チャネルｃｈ１を基準とすると、
Ｓ（ｋ，θ）＝(1，exp(−ｊｋ／Ｎｆs ｄ sin（θ)))
となる。ｆｓはサンプリング周波数、ｄはマイクロホン間の距離である。
【００２５】
次に、ＦＦＴにより求めたフィルタの周波数成分Ｗｅ＝（Ｗe1（ｋ），Ｗe2 （ｋ））と方向ベクトルＳ（ｋ，θ）の内積の絶対値の２乗｜Ｓ・Ｗ｜² を求める（ステップＳ１０５）。
【００２６】
ステップＳ１０３〜Ｓ１０６の処理の全ての周波数、すなわちｋ＝１からｋ＝Ｎ／２までについて行い、求めた内積の２乗和を方向θ毎に周波数ｋについて加算し、全帯域についてまとめた方向毎の感度
Ｄ（θ）＝Σ｜Ｗ（ｋ）・Ｓ（ｋ，θ）｜²
を求める（ステップＳ１０６）。このとき、方向を例えば１°ずつ変化させ、探索範囲の全ての方向について調べるようにする（ステップＳ１０７）。
次に、求めた方向毎の感度が最小となる方向θmin をＤ（θ）から求め、これを信号（目的音源からの信号または雑音源からの信号）の到来方向とする（ステップＳ１０８）。
【００２７】
次に、音声／非音声決定部４０の処理について説明する。
音声／非音声決定部４０では、目的音源方向推定部３０で推定された目的音源の方向の時系列値と、入力信号のパワーの時系列値のいずれかあるいは両方に基づいて音声／非音声の決定を行う。なお、２チャネルの相関値の時系列値を使うことも可能である。
【００２８】
音声／非音声の決定は、例えば以下の２つの方法によって行うことが可能である。すなわち、（１）目的音源の方向の時間変動量を用いる方法、（２）目的音源の方向の時間変動量および入力信号のパワーを用いる方法である。
ここで、目的音源の方向を用いずにその時間変動量を用いて音声／非音声を決定するのは、目的音源から信号が到来していないときには入力信号中に方向性のある信号が含まれず、目的音源の方向の推定値はランダムな値をとり、目的音源から信号が到来しているときには目的音源の方向の推定値は一定の範囲内の値をとるので、目的音源の方向の時間変動量が一定範囲内のときに音声とみなせば検出が可能となるためである。
【００２９】
まず、（１）の方法について音声／非音声の決定手順を図６を参照しながら説明する。図６は、音声／非音声の決定における処理の流れを状態遷移図で示したものであり、非音声状態を出発点とする。時刻ｎの目的音源の方向の時間変動量をΔθ（ｎ）＝｜θ（ｎ）一θ（ｎ−１）｜、音声の断片として認めるのに必要なθ（ｎ）の最大時間変動量をθth（例えばθth＝５°）として、Δθ（ｎ）≦θthとなったとき、その時刻を音声の仮の始端とし、仮の始端を見つけた状態を表す仮音声状態に遷移する。
【００３０】
仮音声状態では、音声の断片として認めるに必要な最小時間長をＴ１（例えばＴ１＝２０ｍｓｅｃ）とし、この時間長Ｔ１以内にΔθ（ｎ）＞θthとなれば非音声状態に戻り、そうでなければΔθ（ｎ）＞θthとなった時刻を音声の仮の終端とし、音声の終端が決定するのを待っている状態を表す終端待ち状態に遷移する。
【００３１】
終端待ち状態では、音声終了の判断に必要な最小時間長をＴ２（例えばＴ２＝１００ｍｓｅｃ）とし、この時間長Ｔ２以内にΔθ（ｎ）≦θthになれば、音声が継続している状態を表す仮音声継続状態に遷移する。そうでない場合は、最後に終端待ち状態に遷移したときの時刻を音声の仮の終端とし、仮の始端から仮の終端までの時間が音声として認めるのに必要な最小時間長Ｔ３（例えばＴ３＝３００ｍｓｅｃ）以下であれば非音声状態に戻り、そうでなければ仮の始端から仮の終端までを音声区間として終了状態に遷移する。
【００３２】
仮音声継続状態では、時間長Ｔ１以内にΔθ（ｎ）＞θthになれば終端待ち状態に戻り、そうでなければ音声が継続している状態を表す音声継続状態に遷移する。
【００３３】
一方、音声継続状態ではΔθ（ｎ）＞θthとなったとき終端待ち状態へ遷移する。
次に、（２）の方法について音声／非音声の決定手順を図７を参照しながら説明する。ここで、音声として認めるのに必要な入力信号のパワーの最小値としてＰth１，Ｐth２の２つ設ける（Ｐth１＞Ｐth２）。図７において、まず非音声状態を出発点とし、時刻ｎの目的音源の方向の時間変動量をΔθ（ｎ）、音声の断片として認めるのに必要なθ（ｎ）の最大時間変動量をθthとして、Δθ（ｎ）≦θthまたはＰ（ｎ）＞Ｐth１となったとき、その時刻を音声の仮の始端とし、仮の始端を見つけた状態を表す仮音声状態に遷移する。
【００３４】
仮音声状態では、「Ｔ１以内に、Δθ（ｎ）＞θthかつＰ（ｎ）≦Ｐth１」または「Δθ（ｎ）＞θthかつＰ（ｎ）≦Ｐth１、となるまでのＰ（ｎ）の最大値が閾値Ｐth以下」であれば非音声状態に戻り、そうでなければ音声の終端が決定するのを待っている状態を表す終端待ち状態に遷移する。ここで、Ｐthは音声として受理するのに必要な入力信号のパワーの最小値である。
【００３５】
終端待ち状態では、Ｔ２以内にΔθ（ｎ）≦θthまたはＰ（ｎ）＞Ｐth１になれば、音声が継続している状態を表す仮音声継続状態に遷移する。そうでない場合は、最後に終端待ち状態に遷移したときの時刻を音声の仮の終端とし、仮の始端から仮の終端までの時間が音声として認めるのに必要な最小時間長Ｔ３（例えばＴ３＝３００ｍｓｅｃ）以下であれば非音声状態に戻り、そうでなければ仮の始端から仮の終端までを音声区間として終了状態に遷移する。
【００３６】
仮音声継続状態では、「Ｔ１以内に、Δθ（ｎ）＞θthかつＰ（ｎ）≦Ｐth１」または「Δθ（ｎ）＞θthかつＰ（ｎ）≦Ｐth１、となるまでのＰ（ｎ）の最大値が閾値Ｐth以下」であれば終端待ち状態に戻り、そうでなければ音声が継続している状態を表す音声継続状態に遷移する。
【００３７】
音声継続状態では、Δθ（ｎ）＞θthかつＰ（ｎ）≦Ｐth１となったとき終端待ち状態へ遷移する。
この（２）の音声／非音声決定方法では、以上の手順で得られた音声区間においてさらにＰ（ｎ）＞Ｐth２を満たす区間を音声区間とする。ここで、Ｐth２は前述したようにＰ（ｎ）の第２の閾値である。
【００３８】
（２）の方法では、ＳＮ比が低い場合、Ｐth、Ｐth２を大きい値に設定してしまうと、音声区間を検出できないおそれがある。従って、Ｐth，Ｐth２の値は、パワーのみによる検出の場合よりも小さい値に設定しておくようにする。Ｐth，Ｐth２が小さい値に設定されても求めた目的音源方向の値を優先して用いているので、音声検出性能は確実に向上できる。例えば、Ｐth，Ｐth１，Ｐth２の値は背景雑音レベルに対する相対値Ｐth＝５ｄＢ，Ｐth１＝２ｄＢ，Ｐth２＝５ｄＢとする。Ｐth，Ｐth１，Ｐth２の値は背景雑音レベルの状況に応じて実験的に決めることが望ましい。
【００３９】
本実施形態によれば、ビームフォーマにより雑音を抑圧するのではなく、目的音源の方向をビームフォーマ内部のフィルタのフィルタ係数から得るようにしているので、雑音源の方向を特定できないような環境でも目的音源の音声区間を正確に検出することができる。
【００４０】
次に、本発明の他の実施形態について説明する。なお、以下の実施形態で使用するブロック図において、名称が同一のブロックは基本的に同一機能を有するものとして詳細な説明を省略する。
【００４１】
（第２の実施形態）
本実施形態では、方向性のある雑音源がある場合でも、高精度に目的音源の方向を抽出できるようにするため、目的音源の信号を抑圧するビームフォーマの入力方向を雑音の方向に追随させる場合について説明する。
【００４２】
ビームフォーマで設定される雑音源の方向を実際の雑音源の方向に追随させるため、本実施形態においては目的音源から到来する信号を抑圧する第１のビームフォーマとは別に第２のビームフォーマを設け、この第２のビームフォーマ内のフィルタの指向性から雑音源の方向を推定し、その推定結果に基づいて第１のビームフォーマの制御を行う。
【００４３】
図８に、本実施形態に係る音声区間検出機能を有する音声処理装置の構成を示す。本実施形態では、簡単のためチャネル数が２の場合の処理を例として述べるが、２チャネルに限定されるものではない。
【００４４】
入力端子５０−１、５０−２からチャネルｃｈ１、ｃｈ２を介して音声入力部５０に入力される音声信号は、第１および第２のビームフォーマ６１、６２にそれぞれ入力される。第１のビームフォーマ６１内のフィルタのフィルタ係数から目的音源の方向を推定し、その推定結果を第１の制御部６４に与える。雑音源方向推定部６５は、第２のビームフォーマ６２内のフィルタのフィルタ係数から雑音源の方向を推定し、その結果を第２の制御部６６に与える。
【００４５】
音声／非音声決定部７０は、目的音源方向推定部６３で推定された目的音源の方向の時系列と、音声入力部５０から得られた信号のパワーの時系列値および音声入力部５０から得られた信号のチャネル間の相関値の時系列値の少なくとも一方に基づいて音声／非音声を決定する。以降、第１および第２ビームフォーマ６１、６２において設定されている雑音源および目的音源の方向を入力方向と呼ぶことにする。
【００４６】
第１の制御部６４は、目的音源方向推定部６３により推定された目的音源の方向が入力方向として設定されるように、第２のビームフォーマ６２を制御する。第２の制御部６６は、雑音源方向推定部６５により推定された雑音源の方向が入力方向として設定されるように、第１のビームフォーマ６１を制御する。第１のビームフォーマ６１の入力方向を雑音源の方向に設定するのは、第１のビームフォーマ６１により雑音源の方向が推定されるのを防ぐためであり、第２のビームフォーマ６２の入力方向を目的音源の方向に設定するのは、第２のビームフォーマ６２により目的音源の方向が推定されるのを防ぐためである。
【００４７】
第１および第２のビームフォーマ６１、６２は、既に述べたようにＧＳＣでもフロスト型でも参照信号型でもよい。この場合、第１のビームフォーマ６１内のフィルタでは目的音源の方向に、第２のビームフォーマ６２内のフィルタでは雑音源の方向にそれぞれ感度が低くなっているため、各々のフィルタのフィルタ係数からその感度の方向依存性である指向性を調べることにより、目的音源および雑音源の方向を推定することができる。
【００４８】
目的音源方向推定部６３と雑音源方向推定部６５では、前述のように第１および第２のビームフォーマ６１、６２内のフィルタの指向性から目的音源および雑音源の方向を推定するため、図４に示したような手順で処理を行う。ここで、初期設定で設定される第１のビームフォーマ６１の目的音源到来方向の探索範囲は２０°、第２のビームフォーマ６２の雑音到来方向の探索範囲は例えば９０°とする。
【００４９】
制御部６４と制御部６６では、推定された音源方向に対してビームフォーマの出力パワーにより重み付けを行い、過去の推定された音源方向との平均化を行いながら、入力方向を更新するようにする。例えば、特願平９−９７９４に開示されている式に従って計算を行う。このような更新により目的音源からの信号のパワーが大きく、雑音のパワーが小さいときには更新を速くし、それ以外では更新を遅くするように制御することができる。
【００５０】
図９に、上述した推定処理を含む本実施形態の全体的な処理の流れを示す。まず、初期設定として目的音源の方向として許容する範囲Φを設定し、第１のビームフォーマ６１の入力方向θ１を例えば０°に、第２のビームフォーマ６２の入力方向θ２を例えば９０°に、目的音源方向推定部６３の探索範囲θｒ１を例えば２０°に、雑音源方向推定部６５の探索範囲θｒ２を例えば９０°にそれぞれ設定する（ステップＳ２０１）。ここで、ある角度範囲に到来した信号を目的音源からの信号とみなすようにするために、目的音源方向に許容範囲Φを設ける。Φの値は、例えば第１のビームフォーマ６１の探索範囲θｒ１と同じ値とし、Φ＝θｒ１＝２０°とする。なお、方向の基準として、図５に示したように２つのマイクロホンを結ぶ直線に垂直な方向を０°としている。
【００５１】
次に、第１のビームフォーマ６１の入力方向を設定する（ステップＳ２０２）。ここでは、２チャネルの信号に遅延を与えることにより、設定した入力方向からの信号が等価的にアレイに同時に到着するようにする。このために、第１のビームフォーマ６１において、図３に示す遅延器２６により第１のチャネルｃｈ１の信号に与える遅延をτ＝ｄｓｉｎ（θ１）／ｃにより計算する。ここで、ｃは音速、ｄはマイクロホン間の距離である。
【００５２】
次に、第１のビームフォーマ６１の処理を行い（ステップＳ２０３）、得られたフィルタ係数から上述した方法により探索範囲±θｒ１内で目的音源の方向を推定する（ステップＳ２０４）。推定された目的音源の方向をθｎとする。
【００５３】
次に、ステップＳ２０４で推定された目的音源の方向θｎが雑音源の方向の近傍（０°±Φ）にあるか否かを判断し（ステップＳ２０５）、近傍にある場合はそのままステップＳ２０７に進む。
【００５４】
一方、ステップＳ２０４で推定された目的音源の方向θｎが雑音源の方向の近傍でない場合は、推定された目的音源の方向を入力方向とするように第２のビームフォーマ６２の入力方向を設定する（ステップＳ２０６）。すなわち、θ２の値を先に述べた平均化により更新する。ステップＳ２０２と同様に、第２チャネルｃｈ２の信号に遅延を与えて入力方向からの信号が等価的にアレイに同時に到達するようにするため、第２のビームフオーマ６２において、図３に示すように遅延器２６により第１チャネルｃｈ１に与える遅延をτ＝ｄｓｉｎ（θ２）／ｃにより計算する。
【００５５】
次に、第２のビームフォーマ６２の処理を行い（ステップＳ２０７）、探索範囲±θｒ２の中で雑音源の方向を推定し（ステップＳ２０８）、再びステップＳ２０２に戻って、推定された雑音源の方向を入力方向とするように第１のビームフォーマ６１の入力方向を設定する。このときも、先に述べた平均化により入力方向を更新する。以降、以上の処理を繰り返す。
【００５６】
音声／非音声決定部７０では、図６および図７に示した処理手順によって音声／非音声が決定される。具体的な決定方法は、第１の実施形態に示した２つの方法が考えられるが、重複するので説明は避ける。
【００５７】
このように本実施形態によれば、２つのビームフォーマを設け、一方のビームフォーマで目的音源の方向を推定し、他方のビームフォーマで雑音源の方向を推定するようにしたため、方向性のある雑音源がある場合でも目的音源の音声区間を正確に検出することができる。
【００５８】
（第３の実施形態）
本実施形態では、第２の実施形態で述べた２つのビームフォーマを用いた構成において、音声区間を検出する代わりに音声強調を行い、目的とする音声を高精度に抽出する方法を説明する。本実施形態の構成を図１０に示す。
【００５９】
図１０に示す音声処理装置は、複数チャネルを介して音声を入力する音声入力部８０、入力音声をフィルタ処理し、目的音源からの信号を抑圧する第１のビームフォーマ９１、入力音声をフィルタ処理し、雑音を抑圧して目的音声を抽出する第２のビームフォーマ９２、第１のビームフォーマ９１のフィルタ係数から目的音源方向を推定する目的音源方向推定部９３、目的音源方向推定部により推定された目的音源方向に第２のビームフォーマ９２の目的方向を設定する第１の制御部９４、第２のビームフォーマのフィルタ９２から雑音源方向を推定する雑音源方向推定部９５、推定された雑音源方向に第１のビームフォーマ９１の目的方向を設定する第２の制御部９６、第２のビームフォーマ９２の出力信号中の雑音成分を抑圧して音声を強調する処理を行う音声強調部１００からなっている。
【００６０】
この構成は、ほぼ図８に示した第２の実施形態の構成における音声／非音声決定部７０が音声強調部１００に入れ替わった形となっている。第２の実施形態ではビームフォーマ９１の出力信号を用いていなかったが、本実施形態ではこれを音声強調の雑音参照用の信号として用いて音声強調処理を行っている。
【００６１】
先に述べたように、雑音源が非常に多く、雑音源方向を特定できないような環境では、ビームフォーマによる雑音抑圧性能は低下するが、入力音声は方向性があるため、雑音方向に目的方向を設定したビームフォーマにより、目的音源からの信号を抑圧した雑音のみの出力を抽出できる。従って、ビームフォーマ９１の出力は、雑音のみの信号であり、これを用いて従来からよく知られているスペクトルサブトラクション（ＳＳ）の手法を用いて音声を強調する。スペクトルサブトラクションの詳細については、例えば文献４：S.Boll著：“Suppression of acoustics noise in speech using spectral subtraction ”，IEEE Trans．,ASSP-27，No.2，pp.113-120，1979”に述べられている。
【００６２】
スペクトルサブトラクションには、参照用の雑音信号と音声信号の２チャネルを用いる２ｃｈＳＳと、１チャネルの音声信号のみを用いる１ｃｈＳＳとがあるが、本実施形態では参照用雑音としてビームフォーマ９１の出力を用いる２ｃｈＳＳにより音声強調を行う。通常、２ｃｈＳＳの雑音信号としては、目的音声が入力されないように目的音声収集用のマイクロホンと距離を隔てたマイクロホンの信号を使うが、雑音信号の性質が目的音声収集用マイクロホンに混入する雑音と異なってしまい、ＳＳの精度が落ちるという問題がある。
【００６３】
これに対し、本実施形態では雑音収集専用のマイクロホンは使わず、音声収集用のマイクロホンから雑音信号を抽出しているため、雑音の性質が異なってしまうという問題がなく、精度よくＳＳを行うことができる。第２の実施形態と異なるのは、この２ｃｈＳＳの部分だけであり、他の部分は同じなので、まず２ｃｈＳＳについて説明する。
【００６４】
２ｃｈＳＳは例えば図１３に示すような構成であり、この図の処理を入力データをブロック処理してブロック毎に行う。図１３に示す２ｃｈＳＳは、雑音信号をフーリエ変換する第１のＦＦＴ１０１、第１のＦＦＴにより得られた周波数成分を帯域パワーに変換する第１の帯域パワー変換部１０２、得られた帯域パワーを時間方向に平均化する雑音パワー計算部１０３、音声信号をフーリエ変換する第２のＦＦＴ１０４、第２のＦＦＴにより得られた周波数成分を帯域パワーに変換する第２の帯域パワー変換部１０５、得られた帯域パワーを時間方向に平均化する音声パワー計算部１０６、得られた雑音パワーと音声パワーとから帯域毎の重みを計算する帯域重み計算部１０７、音声信号から第２のＦＦＴにより得られた周波数スペクトルを帯域毎の重みにより重み付けする重み付け部１０８、重み付けされた周波数スペクトルを逆ＦＦＴして音声を出力する逆ＦＦＴ部１０９からなっている。
【００６５】
ブロック長は例えば２５６点とし、ＦＦＴの点数と一致させる。ＦＦＴの際には、例えばハニング窓により窓掛けを行い、ブロック長の半分の１２８点ずつシフトさせながら、同じ処理を繰り返す。最後に逆ＦＦＴして得られた処理結果の波形に、１２８点ずつオーバラップさせながら加算して窓掛けによる変形を復元し、出力するようにする。
【００６６】
帯域パワーへの変換は、例えば表１に示すように周波数成分を分割して１６の帯域にまとめ、帯域毎に周波数成分の２乗和を計算して帯域パワーとする。
雑音パワーと音声パワーの計算は、帯域毎に例えば、１次の回帰フィルタにより次式のように行う。
【００６７】
ｐ_k,n ＝ａ・ｐｐ_k ＋（１−ａ）・ｐ_k,n-1 （５）
ｖ_k,n ＝ａ・ｖｖ_k ＋（１−ａ）・ｖ_k,n-1 （６）
ここで、ｋは、帯域の番号、ｎはブロックの香号、ｐは平均化された雑音チャネルの帯域パワー、ｐｐは雑音チャネルの当ブロックの帯域パワー、ｖは音声チャネルの平均化された帯域パワー、ｖｖは音声チャネルの当ブロックの帯域パワー、ａは定数である。ａの値は、例えば０．５を用いる。
【００６８】
次に、帯域重み計算部では、得られた雑音と音声の帯域パワーを用いて、例えば次式により帯域毎の重みｗ_k,n を計算する。
ｗ_k,n ＝｜ｖ_k,n −ｐ_k,n ｜／ｖ_k,n （７）
次に、帯域毎の重みを用い、例えば次式により音声チャネルの周波数成分に重み付けする。
Ｙ_i,n ＝Ｘ_i,n ・ｗ_k,n （８）
ここで、Ｙ_i,n は重み付けされた周波数成分、Ｘ_i,n は音声チャネルの第２のＦＦＴにより得られた周波数成分、ｉは周波数成分の番号であり、表１において周波数成分番号ｉに対応する帯域ｋの重みｗ_k,n を用いるようにする。
【００６９】
【表１】

【００７０】
２ｃｈＳＳによる音声強調部の処理の流れを図１４を参照して説明する。
まず、初期設定を行い、例えばブロック長＝２５６、ＦＦＴ点数＝２５６、シフト点数＝１２８、帯域数＝１６とする（ステップＳ３０１）。
次に、第１のＦＦＴにおいて雑音チャネルのデータを読み込んで窓掛けおよびＦＦＴを行い、雑音の周波数成分を求める（ステップＳ３０２）。
次に、第２のＦＦＴにおいて音声チャネルのデータを読み込んで窓掛けおよびＦＦＴを行い、音声の周波数成分を求める（ステップＳ３０３）。
次に、第１の帯域パワー変換部において、雑音の周波数成分から表１の対応に従って雑音の帯域パワーを計算する（ステップＳ３０４）。
次に、第２の帯域パワー変換部において、音声の周波数成分から表１の対応に従って音声の帯域パワーを計算する（ステップＳ３０５）。
次に、雑音パワー計算部において、式（５）に従って平均雑音パワーを求める（ステップＳ３０６）。
次に、音声パワー計算部において、式（６）に従って平均音声パワーを求める（ステップＳ３０７）。
次に、帯域重み計算部において、式（７）に従って帯域重みを求める（ステップＳ３０８）。
次に、重み付け部において音声の周波数成分に対して、ステップＳ３０８で求めた重み係数を式（８）に従って重み付けする（ステップＳ３０９）。
次に、逆ＦＦＴ部において、ステップＳ３０９で重み付けされた周波数成分を逆ＦＦＴして波形を求め、前のブロックまでに求めた波形の最後の１２８ポイントに重畳させて出力する（ステップＳ３１０）。
【００７１】
以上、ステップＳ３０２〜Ｓ３１０までを入力がなくなるまで繰り返す。
なお、この処理はビームフォーマの処理を含めた全体の処理と同期させてブロック処理すると都合がよく、その場合はビームフォーマのブロック長は、音声強調部のシフト長１２８点と一致させるようにする。
【００７２】
（第４の実施形態）
図１１に、本実施形態に係る音声処理装置を示す。
第３の実施形態では、２つのビームフォーマを用いてその目的方向を各々雑音源方向および目的音源方向に向けるように制御していたが、目的音源と雑音源が固定されていてその方向が既知である場合にはビームフォーマの目的方向を制御する必要がないので、本実施形態のように図１０の目的音源方向推定部９３と第１および第２の制御部９４，９６を省略した構成とすることも可能である。この場合、第１のビームフォーマ１２１は最も強い雑音源方向に向け、第２のビームフォーマ１２２は目的音源方向に向けておく。この場合の処理は、第２の実施形態において音源方向推定部とビームフォーマの目的方向制御部を省略するだけで容易に実施可能なので、詳細な説明は省略する。
【００７３】
（第５の実施形態）
図１２に、本実施形態に係る音声強調処理機能を有する音声処理装置の構成を示す。目的音声よりも強い雑音源がない場合には、本実施形態のように雑音を抑圧する第２のビームフォーマも省略することができる。この場合も、第２のビームフォーマの処理を省略するだけなので、容易に実施可能であり、改めて説明しない。
【００７４】
（第６の実施形態）
図１５に、本実施形態に係る音声区間検出機能を有する音声処理装置の構成を示す。
第２の実施形態では、目的音源からの信号を抑圧する第１のビームフォーマのフィルタから得られる目的音源方向を音声区間検出に用いることにより、雑音環境での音声区間検出性能を向上する方法について説明したが、本実施形態は目的音源方向と第３の実施形態で述べた音声強調処理の出力を併用して音声区間の検出を行うことにより、さらに音声区間検出性能を向上することができるようにしたものである。
【００７５】
図１５に示すように、本実施形態は第３の実施形態の構成に第２の実施形態で説明した音声／非音声決定部７０を付け加えた形となっており、音声区間検出処理として、第２の実施形態で用いている第２のビームフォーマの出力の代わりに音声強調部１９０からの音声強調処理後の出力を用いた点が特徴となっている。
【００７６】
このように、目的音源からの信号を抑圧する第１のビームフォーマの出力を雑音信号として２ｃｈＳＳによる音声強調処理を行うことにより、従来の２ｃｈＳＳよりも、精度よく雑音を抑圧することができ、さらに音声強調出力と目的音源方向に基づいて音声区間検出することにより、非定常雑音下の音声区間検出性能を大幅に向上することができる。
【００７７】
なお、上記の音声区間検出において検出のために用いるパラメータはビームフォーマの出力パワーや目的音源方向だけに限らず、例えば零交差数、スペクトルの傾き、ＬＰＣケプストラム、Δ−ケプストラム、Δ２−ケプストラム、ＬＰＣ残差、自己相関係数、反射係数、対数断面積比、ピッチ等のパラメータおよびこれらを組み合わせたものを用いることも可能である。
【００７８】
【発明の効果】
以上説明したように、本発明によればＳＮ比が低く雑音源の方向を特定できないような環境下で、目的音源の音声区間の正確な検出や、さらには音声強調処理を行うことができる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態に係る音声処理装置の構成を示すブロック図
【図２】同実施形態における適応ビームフォーマ処理部の構成を示すブロック図
【図３】一方のチャネルの入力側に遅延器を挿入したビームフォーマの構成を示すブロック図
【図４】同実施形態における音源方向の推定処理の手順を示すフローチャート
【図５】２のマイクロフォンからの信号間の時間遅れについての説明図
【図６】同実施形態において音声／非音声を決定する第１の方法における処理の流れを示す状態遷移図
【図７】同実施形態において音声／非音声を決定する第１の方法における処理の流れを示す状態遷移図
【図８】本発明の第２の実施形態に係る音声処理装置の構成を示すブロック図
【図９】同実施形態における処理間の流れを示すフローチャート
【図１０】本発明の第３の実施形態に係る音声処理装置の構成を示すブロック図
【図１１】本発明の第４の実施形態に係る音声処理装置の構成を示すブロック図
【図１２】本発明の第５の実施形態に係る音声処理装置の構成を示すブロック図
【図１３】２チャネルスペクトルサブトラクションによる音声強調部の構成を示すブロック図
【図１４】２チャネルスペクトルサブトラクションによる音声強調部の処理手順を示すフローチャート
【図１５】本発明の第６の実施形態に係る音声処理装置の構成を示すブロック図
【符号の説明】
１０−１〜１０−ｎ…音声信号入力端子
１０…音声入力部
２０…ビームフォーマ処理部
２１…減算器
２２…加算器
２３…遅延器
２４…適応フィルタ
２５…減算器
２６…遅延器
２７…ビームフォーマ本体
３０…目的音源方向推定部
４０…音声／非音声決定部
５０−１〜５０−ｎ…音声信号入力端子
５０…音声入力部
６１…第１のビームフォーマ
６２…第２のビームフォーマ
６３…目的音源方向推定部
６４…第１の制御部
６５…雑音源方向推定部
６６…第２の制御部
７０…音声／非音声決定部
８０−１〜８０−ｎ…音声信号入力端子
８０…音声入力部
９１…第１のビームフォーマ処理部
９２…第２のビームフォーマ処理部
９３…目的音源方向推定部
９４…第１の制御部
９５…雑音源方向推定部
９６…第２の制御部
１００…音声強調部
１０１…ＦＦＴ部
１０２…帯域パワー変換部
１０３…雑音パワー計算部
１０４…ＦＦＴ部
１０５…帯域パワー変換部
１０６…音声パワー計算部
１０７…帯域重み計算部
１０８…重み付け部
１０９…逆ＦＦＴ部
１１０−１〜１１０−ｎ…音声信号入力端子
１１０…音声入力部
１２１…第１のビームフォーマ処理部
１２２…第２のビームフォーマ処理部
１３０…音声強調部
１４０−１〜１４０−ｎ…音声信号入力端子
１４０…音声入力部
１５０…第１のビームフォーマ処理部
１６０…音声強調部
１７０−１〜１７０−ｎ…音声信号入力端子
１７０…音声入力部
１８１…第１のビームフォーマ処理部
１８２…第２のビームフォーマ処理部
１８３…目的音源方向推定部
１８４…第１の制御部
１８５…雑音源方向推定部
１８６…第２の制御部
１９０…音声強調部
２００…音声／非音声決定部

Claims

複数のチャネルを介して音声信号を入力する音声入力ステップと、
前記音声入力ステップにより入力された音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を施すビームフォーマ処理ステップと、
前記ビームフォーマ処理ステップにより得られたフィルタ係数から目的音源の方向を推定する目的音源方向推定ステップと、
前記目的音源方向推定ステップにより推定された目的音源の方向に基づいて前記音声信号の音声区間を決定する音声区間決定ステップ
とを具備することを特徴とする音声処理方法。
複数のチャネルを介して音声信号を入力する音声入力ステップと、
前記音声入力ステップにより入力された音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を施す第１のビームフォーマ処理ステップと、
前記第１のビームフォーマ処理ステップにより得られたフィルタ係数から目的音源の方向を推定する目的音源方向推定ステップと、
前記音声入力ステップにより入力された音声信号に対して雑音源から到来する信号を抑圧し、目的音源からの信号を出力するためのビームフォーマ処理を施す第２のビームフォーマ処理ステップと、
前記第２のビームフォーマ処理ステップにより得られたフィルタ係数から雑音源の方向を推定する雑音源方向推定ステップと、
前記目的音源方向推定ステップにより推定された目的音源の方向と前記第１および第２のビームフォーマ処理ステップにより得られた出力のパワーとに基づいて前記第２のビームフォーマ処理ステップを制御する第１の制御ステップと、
前記雑音源方向推定ステップにより推定された雑音源の方向と前記第１および第２のビームフォーマ処理ステップにより得られた出力のパワーとに基づいて前記第１のビームフォーマ処理ステップを制御する第２の制御ステップと、
前記目的音源方向推定ステップにより推定された目的音源の方向に基づいて前記音声信号の音声区間を決定する音声区間決定ステップ
とを具備することを特徴とする音声処理方法。
前記音声区間決定ステップは、前記目的音源方向推定ステップにより推定された目的音源の方向と前記音声信号のパワーに基づいて前記音声信号の音声区間を決定することを特徴とする請求項１または２に記載の音声処理方法。
複数のチャネルを介して音声信号を入力する音声入力手段と、
前記音声入力手段により入力された音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を施すビームフォーマと、
前記ビームフォーマにより得られたフィルタ係数から目的音源の方向を求める目的音源方向推定手段と、
前記目的音源方向推定手段により推定された目的音源の方向に基づいて前記音声信号の音声区間を決定する音声区間決定手段
とを具備することを特徴とする音声処理装置。
複数のチャネルを介して音声を入力する音声入力手段と、
前記音声入力手段により入力された音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を施す第１のビームフォーマと、
前記第１のビームフォーマにより得られたフィルタ係数から目的音源の方向を推定する目的音源方向推定手段と、
前記音声入力手段により入力された音声信号に対して雑音源から到来する信号を抑圧し、目的音源からの信号を出力するためのビームフォーマ処理を施す第２のビームフォーマと、
前記第２のビームフォーマにより得られたフィルタ係数から雑音源の方向を推定する雑音源方向推定手段と、
前記目的音源方向推定手段により推定された目的音源の方向と前記第１および第２のビームフォーマの出力パワーとに基づいて前記第２のビームフォーマを制御する第１の制御手段と、
前記雑音源方向推定手段により推定された雑音源の方向と前記第１および第２のビームフォーマの出力パワーとに基づいて前記第１のビームフォーマを制御する第２の制御手段と、
前記目的音源方向推定手段により推定された目的音源の方向に基づいて前記音声信号の音声区間を決定する音声区間決定手段
とを具備することを特徴とする音声処理装置。
前記音声区間決定手段は、前記目的音源方向推定手段により推定された目的音源の方向と前記音声信号のパワーに基づいて前記音声信号の音声区間を決定することを特徴とする請求項４または５に記載の音声処理装置。
複数のチャネルを介して音声を入力する音声入力ステップと、
前記音声入力ステップにより入力された音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を施す第１のビームフォーマ処理ステップと、
前記第１のビームフォーマ処理により得られたフィルタ係数から目的音源方向を推定する目的音源方向推定ステップと、
前記音声入力ステップにより入力された音声信号に対して雑音源から到来する信号を抑圧し、目的音源からの信号を出力するためのビームフォーマ処理を施す第２のビームフォーマ処理ステップと、
前記第２のビームフォーマ処理により得られたフィルタ係数から雑音源方向を推定する雑音源方向推定ステップと、
前記目的音源方向推定ステップにより推定された目的音源方向と前記第１および第２のビームフォーマ処理の出力パワーとに基づいて前記第２のビームフォーマ処理ステップを制御する第１の制御ステップと、
前記雑音源方向推定ステップにより推定された雑音源方向と前記第１および第２のビームフォーマ処理ステップにより得られた出力のパワーとに基づいて前記第１のビームフォーマ処理ステップを制御する第２の制御ステップと、
前記第１のビームフォーマ処理ステップにより得られた出力および目的音源方向の少なくとも一方に基づいて前記第２のビームフォーマ処理ステップにより得られた出力中の雑音を抑圧して音声を強調する音声強調ステップ
とを具備することを特徴とする音声処理方法。
前記目的音源方向推定ステップにより推定された目的音源方向と、前記音声強調ステップにより音声が強調された音声信号に基づいて該音声信号の音声区間を検出する音声区間検出ステップをさらに有することを特徴とする請求項７に記載の音声処理方法。
複数のチャネルを介して音声信号を入力する音声入力手段と、
前記音声入力手段により入力された音声信号に対して目的音源から到来する信号を抑圧するためのビームフォーマ処理を施す第１のビームフォーマと、
前記第１のビームフォーマにより得られたフィルタ係数から目的音源方向を推定する目的音源方向推定手段と、
前記音声入力手段により入力された音声信号に対して雑音源から到来する信号を抑圧し、目的音源からの信号を出力するためのビームフォーマ処理を施す第２のビームフォーマと、
前記第２のビームフォーマにより得られたフィルタ係数から雑音源方向を推定する雑音源方向推定手段と、
前記目的音源方向推定手段により推定された目的音源方向と前記第１および第２のビームフォーマの出力パワーとに基づいて前記第２のビームフォーマの処理を制御する第１の制御手段と、
前記雑音源方向推定手段により推定された雑音源方向と前記第１および第２のビームフォーマの出力パワーとに基づいて前記第１のビームフォーマの処理を制御する第２の制御手段と、
前記第１のビームフォーマの出力と前記目的音源方向推定手段により推定された目的音源方向の少なくとも一方に基づいて前記第２のビームフォーマの出力中の雑音を抑圧して音声を強調する音声強調手段
とを具備することを特徴とする音声処理装置。
前記目的音源方向推定手段により推定された目的音源方向と、前記音声強調手段により音声が強調された信号に基づいて前記音声信号の音声区間を検出する音声区間検出手段をさらに有することを特徴とする請求項１０に記載の音声処理装置。