JP4893317B2

JP4893317B2 - 音声信号処理装置、音声信号処理方法、および、音声信号処理プログラム

Info

Publication number: JP4893317B2
Application number: JP2007001529A
Authority: JP
Inventors: 郁広松本
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2007-01-09
Filing date: 2007-01-09
Publication date: 2012-03-07
Anticipated expiration: 2027-01-09
Also published as: JP2008172334A

Description

本発明は、音声信号処理装置、音声信号処理方法、および、音声信号処理プログラムに関する。

特許文献１には、異なる指向特性を有するマイクロフォンを近接させて配置し、それぞれのマイクロフォンから得られる音声信号に対して、位相をシフトする処理および相関信号を抽出する処理を施すことにより、特定の角度範囲からの音声のみを選択的に集音するマイクロフォン装置が開示されている。

特開平２００４−７２６３０号公報（特許請求の範囲、要約書）

ところで、特許文献１に示す技術では、話者が発話した直接音が２つのマイクロフォンに入射されることが主に想定されている。

しかしながら、実際の使用環境においては、例えば、壁等によって反射された反射音も直接音とともにマイクロフォンに入射されることが一般的である。そのような反射音が直接音とともに存在している場合には、目的となる音声を効率良く抽出できない場合があるという問題点がある。

本発明は、上記の事情に基づきなされたもので、その目的とするところは、直接音のみならず反射音が存在する環境下でも目的の音を選択的に抽出することが可能な音声信号処理装置、音声信号処理方法、および、音声信号処理プログラムを提供することを目的とする。

上述の目的を達成するため、本発明の音声信号処理装置は、第１のマイクロフォンと、第１のマイクロフォンと近接して配置され、第１のマイクロフォンとは指向性を異ならせた第２のマイクロフォンと、第１のマイクロフォンから出力された第１の音声信号を目標信号とし、第２のマイクロフォンから出力された第２の音声信号に対して適応フィルタリング処理を施す第１の適応フィルタと、第１の音声信号を目標信号とし、第１の適応フィルタの誤差信号に対して適応フィルタリング処理を施す第２の適応フィルタと、第２の適応フィルタの誤差信号を目標信号とし、第２の音声信号に対して適応フィルタリング処理を施す第３の適応フィルタと、を有する。

また、他の発明の音声信号処理装置は、前述の発明に加えて、第２の音声信号を目標信号とし、第１の音声信号に対して適応フィルタリング処理を施す第４の適応フィルタと、第２の音声信号を目標信号とし、第４の適応フィルタの誤差信号に対して適応フィルタリング処理を施す第５の適応フィルタとをさらに有し、第３の適応フィルタは、第５の適応フィルタの誤差信号に対して適応フィルタリング処理を施すようにしている。

また、他の発明の音声信号処理装置は、前述の発明に加えて、第１のマイクロフォンが無指向性マイクロフォンであり、第２のマイクロフォンが双指向性マイクロフォンであるようにしている。

また、他の発明の音声信号処理装置は、前述の発明に加えて、第１および第２のマイクロフォンはともに単一指向性マイクロフォンであり、それぞれ異なる方向を向けて配置されている。

また、他の発明の音声信号処理装置は、前述の発明に加えて、各適応フィルタに供給される目標信号は、それぞれの適応フィルタに応じた遅延量を有するディレイ回路を通過した後に目標信号として与えられるようにしている。

また、他の発明の音声信号処理装置は、前述の発明に加えて、第１および第２のマイクロフォンには、目的となる音が直接音として入射され、適応フィルタ群は、直接音以外の反射音を除去するように機能するようにしている。

また、本発明の音声信号処理方法は、第１のマイクロフォンから出力された第１の音声信号を目標信号とし、第１のマイクロフォンと近接して配置され、第１のマイクロフォンとは指向性を異ならせた第２のマイクロフォンから出力された第２の音声信号に対して適応フィルタリング処理を施す第１の適応フィルタリングステップと、第１の音声信号を目標信号とし、第１の適応フィルタリングステップにおいて生成された誤差信号に対して適応フィルタリング処理を施す第２の適応フィルタリングステップと、第２の適応フィルタリングステップにおいて生成された誤差信号を目標信号とし、第２の音声信号に対して適応フィルタリング処理を施す第３の適応フィルタリングステップと、を有する。

また、本発明の音声信号処理プログラムは、第１のマイクロフォンから出力された第１の音声信号を目標信号とし、第１のマイクロフォンと近接して配置され、第１のマイクロフォンとは指向性を異ならせた第２のマイクロフォンから出力された第２の音声信号に対して適応フィルタリング処理を施す第１の適応フィルタ、第１の音声信号を目標信号とし、第１の適応フィルタの誤差信号に対して適応フィルタリング処理を施す第２の適応フィルタ、第２の適応フィルタの誤差信号を目標信号とし、第２の音声信号に対して適応フィルタリング処理を施す第３の適応フィルタ、としてコンピュータを機能させる。

本発明によれば、直接音のみならず反射音が存在する環境下でも目的の音を選択的に抽出することが可能な音声信号処理装置、音声信号処理方法、および、音声信号処理プログラムを提供することができる。

以下、本発明の一実施の形態について図に基づいて説明する。なお、以下では、（Ａ）第１の実施の形態の構成例、（Ｂ）第１の実施の形態の動作、（Ｃ）第１の実施の形態の実測結果、（Ｄ）第２の実施の形態の構成例、（Ｅ）第２の実施の形態の動作、（Ｆ）変形実施の態様の順に説明する。

（Ａ）第１の実施の形態の構成例

図１は、本発明の第１の実施の形態の音声信号処理装置の構成例を示すブロック図である。この図に示すように、本発明の音声信号処理装置は、マイクロフォン１０，１１、ディレイ回路１３〜１７、ＦＩＲ（Finite Impulse Response）回路１８〜２２、減算回路２３〜２７を主要な構成要素としている。なお、本発明の音声信号処理方法、および、音声信号処理プログラムについては、音声信号処理装置の動作として説明する。

ここで、マイクロフォン１１，１２は、相互に近接して配置され（例えば、１ｃｍ以下の距離を隔てて配置され）、音源からの音を感受して対応する音声信号にそれぞれ変換して出力する。この実施の形態では、第１のマイクロフォンとしてのマイクロフォン１１は、無指向性マイクロフォンとされ、また、第２のマイクロフォンとしてのマイクロフォン１２は、双指向性マイクロフォンとされている。

無指向性マイクロフォン１１の指向特性を図２（Ａ）に示す。無指向性マイクロフォン１１は、全角度範囲に対して一定の感度を有するとともに、一定の位相特性を有する。なお、無指向性マイクロフォン１１としては、圧力型マイクロフォンがあり、ダイナミック型マイクロフォン、コンデンサ型マイクロフォン、エレクトレットコンデンサ型マイクロフォンなどで実現される。

圧力型マイクロフォンは、振動板の正面側が開放され、背面側がハウジングで密閉された構造を有する。圧力型マイクロフォンの場合、背面側が密閉されているので、振動板の背面側の気圧は一定となり、正面側の気圧の変化によって振動板が動かされる。これにより、圧力型マイクロフォンは、マイクロフォンの配置場所における気圧の変化に従った波形信号を出力する。また、マイクロフォンの周囲の気圧変化は、マイクロフォンから見た音源の方向によらないので、音源の方向に拘わらず、感度が一定であり、出力信号の位相も一定である。

一方、双指向性マイクロフォン１２の指向特性を図２（Ｂ）に示す。双指向性マイクロフォン１２では、図中Ａの角度を境に、正面側の１８０度の角度範囲から入射した音波に対する出力信号の位相と、背面側の１８０度の角度範囲から入射した音波に対する出力信号の位相とは、１８０度異なる。なお、双指向性マイクロフォンとしては、速度型マイクロフォンがあり、リボン型マイクロフォンなどで実現される。

速度型マイクロフォンは、振動板の周囲が開放された構造を有する。振動板の周囲が開放されている場合、振動板の大きさが音波の波長に対して十分小さければ、振動板の正面側の気圧と背面側の気圧は同じになり、振動板は、気圧の変化ではなく、空気の直接的な動きに従って動く。したがって、速度型マイクロフォンでは、振動板の正面側から音波が入射する場合と、振動板の背面側から音波が入射する場合とでは、振動板の振動方向が逆になる。これにより、速度型マイクロフォンでは、マイクロフォンから見た音源の方向が正面側にある場合と背面側にある場合とでは、出力信号の位相が反転する。

なお、マイクロフォン１１，１２から出力された信号（アナログ信号）は図示せぬＡ／Ｄ（Analog to Digital）変換回路によってディジタル信号に変換され、後段の回路に供給される。

ディレイ回路１３〜１７は、ディレイ回路１３〜１７のそれぞれと対になるＦＩＲ回路１８〜２２に対応する所定の遅延量を有し、入力された信号を所定の遅延量だけ遅延して出力する。

ＦＩＲ回路１８〜２２は、適応フィルタを構成する。ＦＩＲ回路１８〜２２は、図３に示すように、入力された信号を遅延する複数の遅延回路３０と、それぞれの遅延回路３０から出力される信号に所定の係数（ｈ_０〜ｈ_ｎ）を乗算する複数の係数回路３１と、係数回路３１から出力された信号を加算する加算回路３２と、誤差信号に基づいてそれぞれの係数回路３１の係数を設定する制御回路３３とを有している。入力信号は、遅延回路３０のそれぞれによって遅延されて次段の遅延回路３０に順次入力される。遅延回路３０のそれぞれから出力された信号は、係数回路３１によって係数ｈ_０〜ｈ_ｎをそれぞれ乗算され、出力される。なお、本実施の形態では、ＦＩＲ回路１８〜２１については、ｎ＝１０００程度に設定され、ＦＩＲ回路２２については、ｎ＝５００〜６００程度に設定されている。なお、これ以外の設定であってもよいことはいうまでもない。

加算回路３２は、係数回路３１からそれぞれ出力された信号を加算して出力する。制御回路３３は、ＦＩＲ回路１８〜２２の後段に存在する減算回路２３〜２７から供給される誤差信号を入力し、当該誤差信号の実効値が最小となるように各係数回路３１の係数を設定する。なお、図１では、減算回路２３〜２７からＦＩＲ回路１８〜２２にフィードバックされている破線の信号が誤差信号である。

図１に戻る。減算回路２３〜２７は、ディレイ回路１３〜１７の出力信号からＦＩＲ回路１８〜２２の出力を減算し、得られた信号を次段の回路に供給するとともに、当該信号を誤差信号として、ＦＩＲ回路１８〜２２にそれぞれ供給する。

前述したように、ＦＩＲ回路１８〜２２は、適応フィルタを構成する。ＦＩＲ回路１８〜２２には、ディレイ回路１３〜１７から制御の目標となる目標信号がそれぞれ与えられる。また、減算回路２３〜２７からは、目標信号との誤差を示す誤差信号がそれぞれ与えられる。ＦＩＲ回路１８〜２２は、入力信号が目標信号に近づくように、すなわち、誤差信号の実効値が最小となるように、内部の係数回路３１の値を設定する。

なお、ディレイ回路１３〜１７、ＦＩＲ回路１８〜２２、および、減算回路２３〜２７は、例えば、ＤＳＰ（Digital Signal Processor）によって構成されている。

（Ｂ）第１の実施の形態の動作

つぎに、第１の実施の形態の動作について説明する。

図示せぬ音源は、マイクロフォン１１，１２の略正面に配置される。この図示せぬ音源から放射された音は、マイクロフォン１１，１２に直接音として入射されるとともに、壁等によって反射されて反射音として入射される。ここで、直接音をＳ_Ｄとし、反射音をＳ_Ｒとする。直接音Ｓ_Ｄは、音源からの音が直接入射されるので、音源と略同一の波形を有する音となる。一方、反射音Ｓ_Ｒは、音源から放射され複数の経路を経由して到達した音が重畳されたものであるので、様々な振幅および位相の音が重畳された状態となっている。マイクロフォン１１，１２は直接音Ｓ_Ｄおよび反射音Ｓ_Ｒをそれぞれ対応する電気信号に変換して出力する。なお、マイクロフォン１１は図２（Ａ）に示す無指向性を有するので、音の到来方向に拘わらず一定の位相の音声信号を出力する。一方、マイクロフォン１２は図２（Ｂ）に示す双指向性を有するので、マイクロフォン１２の正面範囲から到来した音と、背面範囲から到来した音とを比較すると、位相が１８０度異なる音声信号を出力する。また、双指向性マイクロフォン１２では、図２（Ｂ）に示すように、音の到来方向に応じて感度が異なる。したがって、マイクロフォン１２から出力される音声信号は、音の到来方向に応じた振幅および位相を有する。音源は、マイクロフォン１１，１２の正面に配置されているので、直接音Ｓ_Ｄはマイクロフォン１１，１２の正面（図２（Ａ），（Ｂ）における上側となる方向）から入射される。他方、反射音Ｓ_Ｒは様々な方向からマイクロフォン１１，１２に入射されるので、マイクロフォン１２では位相および振幅が到来方向によって異なる。

マイクロフォン１１から出力された音声信号は、ディレイ回路１３とＦＩＲ回路２０にそれぞれ供給される。また、マイクロフォン１２から出力された音声信号は、ディレイ回路１６と第１の適応フィルタとしてのＦＩＲ回路１８にそれぞれ供給される。

ディレイ回路１３は、マイクロフォン１１から出力された音声信号をＦＩＲ回路１８に対応した所定の時間だけ遅延して出力する。ＦＩＲ回路１８は、マイクロフォン１２の出力に対して、図３に示す回路により適応フィルタリング処理を施して出力する。

減算回路２３は、ディレイ回路１３の出力信号からＦＩＲ回路１８の出力信号を減算し、得られた信号を次段の第２の適応フィルタとしてのＦＩＲ回路１９に供給するとともに、ＦＩＲ回路１８に誤差信号として供給する。

ＦＩＲ回路１８は、減算回路２３から供給された信号を誤差信号として入力し、当該誤差信号の実効値が最小となるように、係数回路の係数値を設定する。具体的には、図３に示す制御回路３３は、例えば、ＬＭＳ（Least Mean Square）法に基づいて、ディレイ回路１３から出力されたマイクロフォン１１の出力信号を目標信号とし、減算回路２３の出力信号を誤差信号とし、誤差信号の実効値が最小となるようにＦＩＲ回路１８の係数ｈ_０〜ｈ_ｎを設定する。

ここで、ディレイ回路１３から出力される音声信号には、マイクロフォン１１から出力された、直接音Ｓ_Ｄと反射音Ｓ_Ｒとに対応する音声信号が含まれている。ＦＩＲ回路１８に入力される音声信号は、マイクロフォン１２の出力信号であり、同様に、直接音Ｓ_Ｄと反射音Ｓ_Ｒとに対応する音声信号が含まれている。マイクロフォン１１から出力される反射音Ｓ_Ｒに対応する信号が反射音Ｓ_Ｒの入射角によらず振幅が一定であるのに対し、マイクロフォン１２から出力される反射音Ｓ_Ｒに対応する信号は図２（Ｂ）に示すように、反射音Ｓ_Ｒの入射角によって振幅が変化する。

ＦＩＲ回路１８は、減算回路２３から出力される誤差信号が最小となるように係数ｈ_０〜ｈ_ｎを設定するが、これにより、マイクロフォン１２から出力される音声信号の振幅および位相が、ディレイ回路１３から出力される音声信号（マイクロフォン１１から出力される音声信号が遅延された信号）の振幅および位相と略等しくなるように調整される。一般的に、直接音Ｓ_Ｄと反射音Ｓ_Ｒの大きさを比較すると、Ｓ_Ｄ＞Ｓ_Ｒの関係が成立する。また、反射音Ｓ_Ｒに対応する音声信号は、マイクロフォン１１，１２では位相および振幅がその入射角に応じて異なっている。したがって、ＦＩＲ回路１８は、誤差信号の実効値を最小とするために、マイクロフォン１２から出力される直接音Ｓ_Ｄに対応する音声信号が、ディレイ回路１３から出力される直接音Ｓ_Ｄに対応する音声信号と振幅および位相が略等しくなるように調整する。

減算回路２３は、ディレイ回路１３の出力信号から、ＦＩＲ回路１８の出力信号を減算した結果を出力する。前述のように、ＦＩＲ回路１８の出力信号は、直接音Ｓ_Ｄに対応する音声信号と振幅および位相が略等しくなるように調整されているので、減算回路２３からは反射音Ｓ_Ｒに対応する音声信号が残差として出力される。減算回路２３から出力された信号は、ＦＩＲ回路１８に誤差信号として供給されるとともに、次段のＦＩＲ回路１９に供給される。

ＦＩＲ回路１９は、減算回路２４から出力される誤差信号が最小となるように係数ｈ_０〜ｈ_ｎを設定するが、これにより、減算回路２３から出力される音声信号の振幅および位相がディレイ回路１４から出力されるマイクロフォン１１から出力される音声信号の振幅および位相と略等しくなるように調整される。ここで、減算回路２３から出力される信号は、反射音Ｓ_Ｒに対応する信号を主に含んだ信号である。一方、ディレイ回路１４から出力される音声信号は、マイクロフォン１１から出力される信号の遅延信号であるので、直接音Ｓ_Ｄに対応する信号と、反射音Ｓ_Ｒに対応する信号を含んでいる。ＦＩＲ回路１９は、減算回路２３から供給された反射音Ｓ_Ｒに対応する音声信号を主に含む信号の振幅および位相を調整し、ディレイ回路１４から出力される信号に含まれている反射音Ｓ_Ｒに対応する音声信号の振幅および位相と略等しくなるようにする。減算回路２４は、ディレイ回路１４の出力信号からＦＩＲ回路１９の出力信号を減算して出力する。この結果、減算回路２４から出力される音声信号は、反射音Ｓ_Ｒに対応する音声信号が減衰され、直接音Ｓ_Ｄに対応する音声信号を主に含む信号となる。減算回路２４から出力された信号は、次段のディレイ回路１５に供給されるとともに、誤差信号としてＦＩＲ回路１９に供給される。

ディレイ回路１６は、マイクロフォン１２から出力された音声信号を第４の適応フィルタとしてのＦＩＲ回路２０に対応した所定の時間だけ遅延して出力する。ＦＩＲ回路２０は、マイクロフォン１１の出力に対して、図３に示す回路によりフィルタリング処理を施して出力する。

減算回路２５は、ディレイ回路１６の出力信号からＦＩＲ回路２０の出力信号を減算し、得られた信号をＦＩＲ回路２０に誤差信号として供給するとともに、次段の第５の適応フィルタとしてのＦＩＲ回路２１に供給する。

ＦＩＲ回路２０は、減算回路２５から出力される誤差信号が最小となるように係数ｈ_０〜ｈ_ｎを設定するが、これにより、マイクロフォン１１から出力される音声信号の振幅および位相が、ディレイ回路１６から出力される音声信号（マイクロフォン１２から出力される音声信号が遅延された信号）の振幅および位相と略等しくなるように調整される。前述の場合と同様に、直接音Ｓ_Ｄと反射音Ｓ_Ｒの大きさを比較すると、Ｓ_Ｄ＞Ｓ_Ｒの関係が成立する。また、反射音Ｓ_Ｒに対応する音声信号は、マイクロフォン１１，１２では位相および振幅がその入射角に応じて異なっている。したがって、ＦＩＲ回路２０は、誤差信号の実効値を最小とするために、マイクロフォン１１から出力される直接音Ｓ_Ｄに対応する音声信号が、ディレイ回路１６から出力される直接音Ｓ_Ｄに対応する音声信号と振幅および位相が略等しくなるように調整する。

減算回路２５は、ディレイ回路１６の出力信号から、ＦＩＲ回路２０の出力信号を減算した結果を出力する。前述のように、ＦＩＲ回路２０の出力信号は、直接音Ｓ_Ｄに対応する音声信号と振幅および位相が略等しくなるように調整されているので、減算回路２５からは反射音Ｓ_Ｒに対応する音声信号が残差として出力される。

ＦＩＲ回路２１は、減算回路２６から出力される誤差信号が最小となるように係数ｈ_０〜ｈ_ｎを設定するが、これにより、減算回路２５から出力される音声信号の振幅および位相がディレイ回路１７から出力されるマイクロフォン１２から出力される音声信号の振幅および位相と略等しくなるように調整される。ここで、減算回路２５から出力される信号は、反射音Ｓ_Ｒに対応する信号を主に含んだ信号である。一方、ディレイ回路１７から出力される音声信号は、マイクロフォン１２から出力される信号の遅延信号であるので、直接音Ｓ_Ｄに対応する信号と、反射音Ｓ_Ｒに対応する信号を含んでいる。ＦＩＲ回路２１は、減算回路２５から供給された反射音Ｓ_Ｒに対応する音声信号を主に含む信号の振幅および位相を調整し、ディレイ回路１７から出力される信号に含まれている反射音Ｓ_Ｒに対応する音声信号の振幅および位相と略等しくなるようにする。減算回路２６は、ディレイ回路１７の出力信号からＦＩＲ回路２１の出力信号を減算して出力する。この結果、減算回路２６から出力される音声信号は、反射音Ｓ_Ｒに対応する音声信号が減衰され、直接音Ｓ_Ｄに対応する音声信号を主に含む信号となる。減算回路２６から出力された信号は、第３の適応フィルタとしてのＦＩＲ回路２２に供給される。

ＦＩＲ回路２２は、ディレイ回路１５から出力された信号を目標信号とし、減算回路２７から出力された信号を誤差信号として、誤差信号の実効値が最小値となるように、係数ｈ_０〜ｈ_ｎを設定する。ここで、ディレイ回路１５に入力される信号は、マイクロフォン１１の出力信号から反射音Ｓ_Ｒに対応する音声信号が減算された信号である。また、ＦＩＲ回路２２に入力される信号は、マイクロフォン１２の出力信号から反射音Ｓ_Ｒに対応する音声信号が減算された信号である。ＦＩＲ回路２２は、減算回路２７から出力される誤差信号の実効値が最小となるように、係数ｈ_０〜ｈ_ｎを設定する。これにより、ＦＩＲ回路２２から出力される信号は、ディレイ回路１５から出力される信号の主要成分である直接音Ｓ_Ｄと振幅および位相が略同じとなった状態で出力される。また、減算回路２６から出力される信号は、直接音Ｓ_Ｄを主に含む信号であるので、ＦＩＲ回路２２から出力される信号には反射音Ｓ_Ｒに対応する音声信号が殆ど含まれていない。

したがって、例えば、ディレイ回路１５から出力される信号Ｖ１と、ＦＩＲ回路２２から出力される信号Ｖ２とを加算することにより、反射音Ｓ_Ｒに対応する信号が少なく、かつ、マイクロフォン１１，１２の正面方向に配置された音源からの直接音Ｓ_Ｄが強調された信号を得る。

（Ｃ）第１の実施の形態の実測結果

つぎに、第１の実施の形態の実測結果について説明する。図４は、測定環境を説明する図である。この例では、無響箱５０の略中央にマイクロフォン１１，１２が配置されている。また、マイクロフォン１１，１２の正面には音源となるスピーカ４０が配置されている。なお、無響箱５０は、例えば、くさび形状を有するグラスウールが内部の壁面に多数配置され、可聴帯域の音を吸収することで、反射音を生じない特性を有している。また、スピーカ４０からは、例えば、所定の話者が発話した音声等が放射される。

図５は比較対象となる回路を示す図である。この例では、図１に示す回路から、反射音を減衰させる処理に関する部分（ディレイ回路１３，１４，１６，１７、ＦＩＲ回路１８〜２１、および、減算回路２３〜２６）を除外している。なお、ディレイ回路１５、減算回路２７、および、ＦＩＲ回路２２については、図１の場合と同様である。図５の回路では、マイクロフォン１１から出力された音声信号を目標信号とし、マイクロフォン１２から出力された音声信号に対してＦＩＲ回路２２が適応フィルタリング処理を施し、減算回路２７から出力される誤差信号が最小となるように係数ｈ_０〜ｈ_ｎが設定される。

図６は、図４に示す測定環境における実測結果を示す図である。すなわち、図６（Ａ）は、図４における環境下において、図５に示す回路から出力されるＶ１を横軸に、Ｖ２を縦軸に対応付けし、各サンプル点を座標軸上にプロットしたものである。また、図６（Ｂ）は、同様にして、図１に示す回路の測定結果を示す図である。

２つの信号Ｖ１，Ｖ２をそれぞれ横軸および縦軸に対応付けして、各サンプル点を座標軸上にプロットした場合、各サンプル点においてＶ１＝Ｖ２である場合には、プロットされた点は、座標軸上のＹ＝Ｘの直線上を移動する。図６（Ａ），（Ｂ）の例では、プロットされた点はＹ＝Ｘの直線上に略集中していることから、いずれの回路の場合も各サンプル点においてＶ１＝Ｖ２が略成立していると言える。つまり、図４に示す測定環境下では、反射音が存在しないことから、そのような場合には、図１と図２の回路では有意な差は生じない。

図７（Ａ），（Ｂ）は、反射音が存在する環境下における実測結果を示している。すなわち、図８に示すように、無響箱５０の内側に音を反射する板状の部材（例えば、ベニア、段ボール等）によって反射壁５１を設けた状態で測定している。なお、図８では内部壁の内側のみに反射壁５１を設けているが、実際にはマイクロフォン１１，１２の周辺部分にも反射壁を配置している。これにより、スピーカ４０から放射された音は、反射壁５１その他によって反射され、その一部がマイクロフォン１１，１２に反射音Ｓ_Ｒとして入射される。

図７（Ａ）は、図５に示す回路による測定結果を示している。この例では、プロットされた点は、直線Ｙ＝Ｘから外れた位置に多く存在している。したがって、各サンプル点において、Ｖ１＝Ｖ２の関係が成立していない。これは、振幅および位相が異なる複数の反射音Ｓ_Ｒの存在により、直接音Ｓ_Ｄが擾乱されているものと考えられる。

図７（Ｂ）は、図１に示す回路による測定結果を示している。この例では、プロットされた点は、直線Ｙ＝Ｘの近傍に存在している。したがって、各サンプル点において、Ｖ１＝Ｖ２の関係が略成立している。すなわち、振幅および位相が異なる複数の反射音Ｓ_Ｒが減衰され、直接音Ｓ_Ｄが有効に抽出されていると考えられる。

図７（Ａ），（Ｂ）の比較から、図１の回路では、反射音Ｓ_Ｒの成分を減衰させることにより、直接音Ｓ_Ｄの成分を有効に抽出していることが分かる。

図９は、図４と同様の測定環境において、無響箱５０の代わりに実車を使用した実測結果を示している。すなわち、図９（Ａ）は、実車において図５に示す回路を用いて測定した結果を示し、図９（Ｂ）は、実車において図１に示す回路を用いて測定した結果を示している。実車の場合、フロントガラス、サイドガラス、リアガラス等の音を反射しやすいガラス群が存在する。また、ドア、天井、床等の壁面には、クッション性を有する部材が使用されているが、音の吸収特性は、無響箱５０のそれよりも劣っている。また、前述したガラス群および壁面は様々な方向に向いていることから、音を反射する方向も一定ではない。このため、実車の場合、図８の場合よりも反射音の特性は複雑であると考えられる。

図９（Ａ）の例では、このような実車の複雑な反射音の特性により、プロットされた点は直線Ｙ＝Ｘ上から大きく外れた位置に不規則に存在している。

図９（Ｂ）の例では、直線Ｙ＝Ｘの近傍にプロットされた点が集中していることから、図１に示す回路では、前述した複雑な反射音を効率良く減衰していると言える。

以上から、図１に示す回路は、効率良く反射音を減衰し、直接音を選択的に抽出していることが分かる。

（Ｄ）第２の実施の形態の構成例

つぎに、本発明の第２の実施の形態について説明する。

図１０は、本発明の第２の実施の形態の構成例を示す図である。この図において、図１と対応する部分には同一の符号を付してその説明を省略する。図１０の例では、図１の場合と比較して、ＦＩＲ回路２０，２１および減算回路２５，２６が除外されており、マイクロフォン１２から出力された音声信号は、ディレイ回路１６，１７を経由して、ＦＩＲ回路２２に直接供給されている。それ以外の構成は、図１の場合と同様であるので、詳細な説明は省略する。

（Ｅ）第２の実施の形態の動作

つぎに、第２の実施の形態の動作について説明する。

図１０の回路の場合も、マイクロフォン１１，１２に対して、音源からの直接音と、壁等によって反射された反射音とが入射される。マイクロフォン１１，１２は、これらの入射音に対応する電気信号を生成して出力する。マイクロフォン１１から出力された音声信号はディレイ回路１３に供給される。また、マイクロフォン１２から出力された音声はディレイ回路１６とＦＩＲ回路１８にそれぞれ供給される。

ディレイ回路１３はマイクロフォン１１の出力信号を遅延し、ディレイ回路１４と減算回路２３に供給する。減算回路２３は、ディレイ回路１３によって遅延されたマイクロフォン１１の出力信号からＦＩＲ回路１８の出力信号を減算し、得られた結果を次段のＦＩＲ回路１９に供給するとともに、ＦＩＲ回路１８に誤差信号として供給する。

ＦＩＲ回路１８は、減算回路２３から出力される誤差信号の実効値が最小となるように係数ｈ_０〜ｈ_ｎを設定する。ここで、ディレイ回路１３から出力される音声信号には、マイクロフォン１１から出力された、直接音Ｓ_Ｄと反射音Ｓ_Ｒとに対応する音声信号が含まれている。ＦＩＲ回路１８に入力される音声信号は、マイクロフォン１２の出力信号であり、同様に、直接音Ｓ_Ｄと反射音Ｓ_Ｒとに対応する音声信号が含まれている。マイクロフォン１１から出力される反射音Ｓ_Ｒに対応する信号が反射音Ｓ_Ｒの入射角によらず振幅が一定であるのに対し、マイクロフォン１２から出力される反射音Ｓ_Ｒに対応する信号は、図２（Ｂ）に示すように、反射音Ｓ_Ｒの入射角によって振幅が変化する。

減算回路２３は、ディレイ回路１３の出力信号から、ＦＩＲ回路１８の出力信号を減算した結果を出力する。前述のように、ＦＩＲ回路１８の出力信号は、直接音Ｓ_Ｄに対応する音声信号と振幅および位相が略等しくなるように調整されているので、減算回路２３からは反射音Ｓ_Ｒに対応する音声信号が残差として出力される。減算回路２３から出力された信号は、次段のＦＩＲ回路１９へ供給されるとともに、ＦＩＲ回路１８に誤差信号として供給される。

ＦＩＲ回路１９は、減算回路２４から出力される誤差信号が最小となるように係数ｈ_０〜ｈ_ｎを設定するが、これにより、減算回路２３から出力される音声信号の振幅および位相がディレイ回路１４から出力されるマイクロフォン１１の出力信号の振幅および位相と略等しくなるように調整される。ここで、減算回路２３から出力される信号は、反射音Ｓ_Ｒに対応する信号を主に含んだ信号である。一方、ディレイ回路１４から出力される音声信号は、マイクロフォン１１から出力される信号の遅延信号であるので、直接音Ｓ_Ｄに対応する信号と、反射音Ｓ_Ｒに対応する信号を含んでいる。ＦＩＲ回路１９は、減算回路２３から供給された反射音Ｓ_Ｒに対応する音声信号を主に含む信号の振幅および位相を調整し、ディレイ回路１４から出力される信号に含まれている反射音Ｓ_Ｒに対応する音声信号の振幅および位相と略等しくなるようにする。減算回路２４は、ディレイ回路１４の出力信号からＦＩＲ回路１９の出力信号を減算して出力する。この結果、減算回路２４から出力される音声信号は、反射音Ｓ_Ｒに対応する音声信号が減衰され、直接音Ｓ_Ｄに対応する音声信号を主に含む信号となる。減算回路２４から出力された信号は、ディレイ回路１５に供給される。

マイクロフォン１２から出力された音声信号は、ディレイ回路１６，１７を経由し、ディレイ回路１３，１４と同じ遅延量の遅延をそれぞれ与えられた後、ＦＩＲ回路２２に供給される。ＦＩＲ回路２２は、減算回路２７から出力される誤差信号が最小となるように係数ｈ_０〜ｈ_ｎを設定するが、これにより、ＦＩＲ回路２２から出力される音声信号の振幅および位相が、ディレイ回路１５から出力される音声信号（目標信号）の振幅および位相と略等しくなるように調整される。ここで、減算回路２４から出力される信号は、前述したように反射音Ｓ_Ｒに対応する音声信号が減衰され、直接音Ｓ_Ｄに対応する音声信号を主に含む信号であるので、ＦＩＲ回路２２は、ディレイ回路１７から出力された音声信号の直接音Ｓ_Ｄの振幅および位相がディレイ回路１５から出力される直接音Ｓ_Ｄに対応する信号の振幅および位相と等しくなるように調整する。また、ＦＩＲ回路２２は、ディレイ回路１７の出力信号に含まれている反射音Ｓ_Ｒに対応する音声信号が減衰するように調整する。これにより、ＦＩＲ回路２２から出力される信号は、ディレイ回路１５から出力される信号に含まれる直接音Ｓ_Ｄに対応する信号の振幅および位相が略同じであり、かつ、反射音Ｓ_Ｒが減衰された信号となる。

ディレイ回路１５から出力された信号Ｖ１と、ＦＩＲ回路２２から出力された信号Ｖ２を、例えば、加算することにより、反射音Ｓ_Ｒが減衰され、直接音Ｓ_Ｄを主に含む信号を得ることができる。

（Ｆ）変形実施の態様

なお、上述の実施の形態は、本発明の好適な例であるが、本発明は、これらに限定されるものではなく、本発明の要旨を逸脱しない範囲において、種々の変形、変更が可能である。

例えば、以上の各実施の形態では、ディレイ回路１３〜１７、ＦＩＲ回路１８〜２２、および、減算回路２３〜２７は、ＤＳＰによって構成するようにしたが、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等を有するマイクロコンピュータによって構成したり、アナログ回路またはディジタル回路によって構成したりすることも可能である。マイクロコンピュータによって実現する場合には、例えば、ＲＯＭに対して、上述した処理を実現するためのプログラムを記憶しておき、当該プログラムを実行することにより、ソフトウエア資源としてのプログラムと、ハードウエア資源としてのＣＰＵその他が協働することにより、図１，１０に示す機能ブロックを実現する。なお、当該プログラムは、ＲＯＭ等に格納された状態で出荷されてもよいし、出荷された後にＲＯＭ等に格納されるようにしてもよい。なお、出荷後に格納する場合には、例えば、ＣＤ−ＲＯＭ等の記憶媒体に記憶した形で配布し、配布されたＣＤ−ＲＯＭからプログラムを読み込んでＲＯＭに格納したり、例えば、インターネット等のネットワークを介して配布し、格納したりするようにしてもよい。

また、以上の各実施の形態では、マイクロフォン１１としては無指向性マイクロフォンを使用し、マイクロフォン１２としては双指向性マイクロフォンを使用するようにしたが、これらを逆に用いるようにしてもよい。すなわち、マイクロフォン１１としては双指向性マイクロフォンを使用し、マイクロフォン１２としては無指向性マイクロフォンを使用することも可能である。あるいは、これら以外の指向性を有するマイクロフォンを使用することも可能である。マイクロフォン１１，１２としては指向性が異なる１組のマイクロフォンを使用すればよい。

また、以上の各実施の形態では、マイクロフォン１１，１２として指向特性が異なるマイクロフォンを使用したが、指向特性が同じマイクロフォンを使用することも可能である。例えば、マイクロフォン１１，１２として、単一指向性のマイクロフォンを使用し、配置方向を異ならせることにより、「指向性を異ならせる」ようにしてもよい。具体的には、マイクロフォン１１については音源に向けて配置し、マイクロフォン１２については音源とは反対の方向に向けて配置するようにすればよい。あるいは、マイクロフォン１２については音源に向けて配置し、マイクロフォン１１については音源とは反対の方向に向けて配置するようにすればよい。これら以外にも、例えば、一方のマイクロフォンを音源からＸ（０≦Ｘ≦３６０）度外れた方向に向けて配置し、他方のマイクロフォンを音源からＹ（Ｙ≠Ｘ）度外れた方向に向けて配置するようにしてもよい。

また、以上の各実施の形態では、適応フィルタの適応アルゴリズムとしては、ＬＭＳ法を用いるようにしたが、これ以外のアルゴリズム（例えば、ＲＬＳ（Recursive Least Squares）法）を使用してもよい。

また、以上の各実施の形態では、適応フィルタとしては、ＦＩＲフィルタを用いるようにしたが、例えば、ＩＩＲ（Infinite Impulse Response）フィルタを用いるようにしてもよい。その場合、適応フィルタの適応アルゴリズムとしては、例えば、ＩＩＲ−ＬＭＳアルゴリズムを用いることができる。

また、第２の実施の形態では、ディレイ回路１６，１７を２つ設けるようにしたが、これらの合計の遅延量を有するディレイ回路を１つ設けるようにしてもよい。

また、上述した各実施の形態の音声信号処理装置を、例えば、車載のナビゲーション装置等に搭載し、ナビゲーション装置の音声認識処理部の前処理装置として用いることが可能である。そのような場合、マイクロフォン１１，１２を、話者（例えば、運転者）の方向に向けて配置し、ディレイ回路１５およびＦＩＲ回路２２の出力信号Ｖ１，Ｖ２を加算し、得られた信号を音声認識処理部へ供給する。これにより、話者以外から生じる音の影響を少なくすることができるとともに、話者の音声が、例えば、車内で反射されることにより生ずる反射音の影響を低減することができる。このため、音声認識の精度を向上させることができる。

本発明は、例えば、自動車に搭載されるカーナビゲーション装置に適用することができる。

本発明の第１の実施の形態に係る音声信号処理装置の構成例を示すブロック図である。（Ａ）は無指向性マイクロフォンの指向特性を示す図であり、（Ｂ）は双指向性マイクロフォンの指向特性を示す図である。図１に示すＦＩＲ回路の詳細な構成例を示す図である。図１に示す音声信号処理装置を実測した環境を示す図である。図１に示す音声信号処理装置の比較対象となる回路を示す図である。（Ａ）は図５に示す回路の図４に示す環境における測定結果であり、（Ｂ）は図１に示す回路の図４に示す環境における測定結果である。（Ａ）は図５に示す回路の図８に示す環境における測定結果であり、（Ｂ）は図１に示す回路の図８に示す環境における測定結果である。図１に示す音声信号処理装置を実測した環境を示す図である。（Ａ）は図５に示す回路の実車内における測定結果であり、（Ｂ）は図１に示す回路の実車内における測定結果である。本発明の第２の実施の形態に係る音声信号処理装置の構成例を示すブロック図である。

符号の説明

１１マイクロフォン（第１のマイクロフォン）
１２マイクロフォン（第２のマイクロフォン）
１３〜１７ディレイ回路
１８ＦＩＲ回路（第１の適応フィルタ）
１９ＦＩＲ回路（第２の適応フィルタ）
２０ＦＩＲ回路（第４の適応フィルタ）
２１ＦＩＲ回路（第５の適応フィルタ）
２２ＦＩＲ回路（第３の適応フィルタ）
２３〜２７減算回路

Claims

第１のマイクロフォンと、
上記第１のマイクロフォンと近接して配置され、上記第１のマイクロフォンとは指向性を異ならせた第２のマイクロフォンと、
上記第１のマイクロフォンから出力された第１の音声信号を目標信号とし、上記第２のマイクロフォンから出力された第２の音声信号に対して適応フィルタリング処理を施す第１の適応フィルタと、
上記第１の音声信号を目標信号とし、上記第１の適応フィルタの誤差信号に対して適応フィルタリング処理を施す第２の適応フィルタと、
上記第２の適応フィルタの誤差信号を目標信号とし、上記第２の音声信号に対して適応フィルタリング処理を施す第３の適応フィルタと、
を有することを特徴とする音声信号処理装置。
前記第２の音声信号を目標信号とし、前記第１の音声信号に対して適応フィルタリング処理を施す第４の適応フィルタと、
前記第２の音声信号を目標信号とし、上記第４の適応フィルタの誤差信号に対して適応フィルタリング処理を施す第５の適応フィルタとをさらに有し、
前記第３の適応フィルタは、上記第５の適応フィルタの誤差信号に対して適応フィルタリング処理を施す、
ことを特徴とする請求項１記載の音声信号処理装置。
前記第１のマイクロフォンは無指向性マイクロフォンであり、前記第２のマイクロフォンは双指向性マイクロフォンであることを特徴とする請求項１または２のいずれかに記載の音声信号処理装置。
前記第１および第２のマイクロフォンはともに単一指向性マイクロフォンであり、それぞれ異なる方向を向けて配置されていることを特徴とする請求項１または２のいずれかに記載の音声信号処理装置。
前記各適応フィルタに供給される目標信号は、それぞれの適応フィルタに応じた遅延量を有するディレイ回路を通過した後に目標信号として与えられることを特徴とする請求項１または２のいずれかに記載の音声信号処理装置。
前記第１および第２のマイクロフォンには、目的となる音が直接音として入射され、
前記適応フィルタ群は、直接音以外の反射音を除去するように機能する、
ことを特徴とする請求項１または２のいずれかに記載の音声信号処理装置。
第１のマイクロフォンから出力された第１の音声信号を目標信号とし、上記第１のマイクロフォンと近接して配置され、上記第１のマイクロフォンとは指向性を異ならせた第２のマイクロフォンから出力された第２の音声信号に対して適応フィルタリング処理を施す第１の適応フィルタリングステップと、
上記第１の音声信号を目標信号とし、上記第１の適応フィルタリングステップにおいて生成された誤差信号に対して適応フィルタリング処理を施す第２の適応フィルタリングステップと、
上記第２の適応フィルタリングステップにおいて生成された誤差信号を目標信号とし、上記第２の音声信号に対して適応フィルタリング処理を施す第３の適応フィルタリングステップと、
を有することを特徴とする音声信号処理方法。
第１のマイクロフォンから出力された第１の音声信号を目標信号とし、上記第１のマイクロフォンと近接して配置され、上記第１のマイクロフォンとは指向性を異ならせた第２のマイクロフォンから出力された第２の音声信号に対して適応フィルタリング処理を施す第１の適応フィルタ、
上記第１の音声信号を目標信号とし、上記第１の適応フィルタの誤差信号に対して適応フィルタリング処理を施す第２の適応フィルタ、
上記第２の適応フィルタの誤差信号を目標信号とし、上記第２の音声信号に対して適応フィルタリング処理を施す第３の適応フィルタ、
としてコンピュータを機能させることを特徴とするコンピュータ読取可能な音声信号処理プログラム。