JP2004289762A - Method of processing sound signal, and system and program therefor - Google Patents
Method of processing sound signal, and system and program therefor Download PDFInfo
- Publication number
- JP2004289762A JP2004289762A JP2003119116A JP2003119116A JP2004289762A JP 2004289762 A JP2004289762 A JP 2004289762A JP 2003119116 A JP2003119116 A JP 2003119116A JP 2003119116 A JP2003119116 A JP 2003119116A JP 2004289762 A JP2004289762 A JP 2004289762A
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- channels
- cross
- information
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、複数のマイクロホンによって得られる入力音声信号を処理する音声信号処理方法と装置及びプログラムに関する。より詳しくは、本発明は例えばハンズフリー通話や音声認識等において用いられる雑音抑圧技術の一つとして入力音声信号から目的とする音声信号を強調して出力する技術に関する。
【0002】
【従来の技術】
音声信号処理の分野では、音声認識や携帯電話の実用化に伴い、雑音対策が重要な問題となってきている。雑音抑圧技術としては、一つのマイクロホンを使う場合に用いられる、例えば雑音の定常性を仮定したスペクトルサブトラクション処理と、複数のマイクロホンを用いるマイクロホンアレイ処理がある。マイクロホンアレイ処理には、少数のマイクロホンでも高い雑音抑圧能力を発揮する適応型マイクロホンアレイがコスト面から有望である。適応マイクロホンアレイは、雑音方向に受音感度の低い死角を自動的に向けることにより雑音を抑圧するものであり、適応ビームフォーマ(適応BF)と呼ばれることもある。
【0003】
適応ビームフォーマは、方向性の強い雑音に対しては効果的であるが、その他の雑音、例えば(1) 車で走行中に発生する雑音のような高レベルの拡散性雑音、(2) 高速で移動する車からの放射音のように音響伝達系の変化が速い雑音、あるいは(3) 突発雑音のような継続時間が非常に短い雑音、等に関しては抑圧性能が十分ではない。これらのような雑音は実環境ではごく普通に存在するため、対処が必要である。
【0004】
非特許文献1には、複数のマイクロホンからの入力音声信号の2チャネル間のコヒーレンス関数に基づいたフィルタリングを行って雑音を抑圧する技術が示されている。
一方、非特許文献2では、相関の大きい雑音に対処するため、目的音のない区間でチャネル間の雑音のクロススペクトルを推定しておき、目的音のある区間で雑音の重畳した目的音のクロススペクトルから雑音のクロススペクトルを引き去る技術が開示されている。
【0005】
非特許文献3には、例えば複数チャネルの信号間の相互相関を用いて信号検出処理を行うために、コヒーレンス関数を閾値処理することによって目的信号の存在を判別する方法が示されている。
非特許文献4には、複数のマイクロホンから出力される複数チャネルの音声信号間の相互相関係数を閾値処理することにより、目的音を検出する方法が開示されている。
非特許文献5には、適応ビームフォーマを用いて2以上のチャネルの音声信号を1チャネルに統合する方法が記載されている。
非特許文献6には、重み関数を用いて複数チャネルの音声信号のチャネル間の一般化相互相関関数(generalized cross correlation function)を最尤推定する方法が開示されている。
【0006】
【非特許文献1】
“Using the coherence function for noise reduction”, IEE Proceedings−I Vol.139, No.3, 1992
【0007】
【非特許文献2】
“Enhancement of speech degraded by coherent and incoherent noise using a cross−spectral estimator”, IEEE Trans. on Seech and Audio processing, Vol.5, No.5, 1997
【0008】
【非特許文献3】
“Knowing the Wheat from the Weeds in Noisy Speech”, H. Agaiby and T. J. Moir 著, Proc. of EUROSPEECH’97, vol.3, pp.111−112, 1997
【0009】
【非特許文献4】「2つの指向性マイクロホンを用いた目的音検出に関する検討」、永田他、電子情報通信学会誌 Vol.J83−A No.2 (2000))
【0010】
【非特許文献5】
“The adaptive filter theory”, Hyakin 著, PRENTICE HALL 出版
【0011】
【非特許文献6】
“The Generalized Correlation Method for Estimation of Time Delay”, C. H. Knapp and G. C. Carter 著,IEEE Trans, Acoust., Speech, Signal Processing, Vol.ASSP−24, No.4, pp.320−327, 1976
【0012】
【発明が解決しようとする課題】
非特許文献1に記載された技術は、(1)の拡散性雑音のようにチャネル間で無相関であると仮定できる雑音に対しては有効である。しかし、(3)の突発性雑音や、ビームフォーマによって抑圧できた方向性のある雑音は、チャネル間の相関が大きくなるため、抑圧することができない。非特許文献2に記載の技術によると、このようなチャネル間の相関が大きい雑音を抑圧できる。しかし、この方法が有効なのは、雑音に方向性があり、かつ、雑音の定常性が仮定できる場合に限られる。このような雑音環境では、むしろビームフォーマのように指向性の死角を雑音源に向ける手法の方がよりよく対処できる。
【0013】
本発明は、突発雑音を含む実環境雑音下で雑音を抑圧して目的音の成分を強調することができる音声信号処理方法と装置及びプログラムを提供することを目的とする。
【0014】
本発明の他の目的は、目的音が到来しているか否かの検出を高精度で行うことを目的とする。
【0015】
【課題を解決するための手段】
上記の課題を解決するため、本発明の第1の観点によると、空間的に離れて配置された複数のマイクロホンから出力される複数チャネルの入力音声信号間の相互相関係数を求める。入力音声信号を1チャネルに統合して得られる統合音声信号の大きさを相互相関係数に従って調整することにより、目的音の成分が強調された出力音声信号を生成する。
【0016】
本発明の第2の観点では、各マイクロホンから出力される複数チャネルの入力音声信号を周波数分析して複数チャネルのスペクトル情報を生成し、複数チャネルのスペクトル情報間の相互相関係数を求める。スペクトル情報を1チャネルに統合して得られる統合スペクトル信号の大きさを相互相関係数に従って調整することにより、目的音の成分が強調されたスペクトル信号を得る。
【0017】
本発明の第3の観点では、各マイクロホンから出力される複数チャネルの入力音声信号を周波数分析して複数チャネルのスペクトル情報を生成し、これらのスペクトル情報から入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを求める。さらに、パワースペクトル及びクロススペクトルから各チャネルのスペクトル情報間のコヒーレンス関数を求める。次に、コヒーレンス関数を用いてパワースペクトル及びクロススペクトルを修正し、修正後のパワースペクトル及びクロススペクトルに基づいて重み付けられた、入力音声信号のチャネル間の相互相関係数を求める。
【0018】
本発明の第4の観点では、各マイクロホンから出力される複数チャネルの入力音声信号を周波数分析して複数チャネルのスペクトル情報を生成し、これらのスペクトル情報から入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを求める。さらに、パワースペクトル及びクロススペクトルから各チャネルのスペクトル情報間のコヒーレンス関数を求め、またスペクトル情報から入力音声信号のチャネル間の信号パワーに関するパワー情報を求める。次に、コヒーレンス関数及びパワー情報を用いてパワースペクトル及びクロススペクトルを修正し、修正後のパワースペクトル及びクロススペクトルに基づいて重み付けられた、入力音声信号のチャネル間の相互相関係数を求める。
【0019】
第3または第4の観点において、相互相関係数に対して予め定めた閾値を用いて閾値処理を行うことによりマイクロホンに目的音が到来しているか否かを判定してもよい。スペクトル情報を1チャネルに統合して統合スペクトル信号を求め、この統合スペクトル信号の大きさを相互相関係数に従って調整してもよい。コヒーレンス関数に従って、統合スペクトル信号の各周波数成分に対して重み付けを行ってもよい。相互相関係数に従って、複数チャネルのスペクトル情報の位相及び振幅の少なくとも一方をチャネル間で一致するように補正してもよい。
【0020】
第3及び第4の観点において、複数のマイクロホンは、少なくとも一つの無指向性マイクロホンと少なくとも一つの指向性マイクロホンを含んでもよいし、指向性の軸の向きを異ならせた少なくとも二つの指向性マイクロホンを含んでもよい。後者の場合、少なくとも二つの指向性マイクロホンは、指向性の軸が同一平面内に存在せず、且つ指向性の軸と目的音の到来方向とのなす角が一致するように配置されることが好ましい。
【0021】
さらに本発明の別の観点によると、上述した音声信号処理をコンピュータで実行するための以下のようなプログラムあるいは該プログラムを記憶した記憶媒体を提供する。
【0022】
(1)空間的に離れて配置された複数のマイクロホンから出力される複数チャネルの入力音声信号間の相互相関係数を求める処理と、入力音声信号を1チャネルに統合して統合音声信号を出力する処理と、統合音声信号の大きさを相互相関係数に従って調整することにより出力音声信号を生成する処理とをコンピュータに行わせるプログラム。
【0023】
(2)空間的に離れて配置された複数のマイクロホンから出力される複数チャネルの入力音声信号を周波数分析して複数チャネルのスペクトル情報を生成する処理と、複数チャネルのスペクトル情報間の相互相関係数を求める処理と、スペクトル情報を1チャネルに統合して統合スペクトル信号を生成する統合処理と、統合スペクトル信号の大きさを相互相関係数に従って調整する処理とをコンピュータに行わせるためのプログラム。
【0024】
(3)空間的に離れて配置された複数のマイクロホンから出力される複数チャネルの入力音声信号を周波数分析して複数チャネルのスペクトル情報を生成する処理と、スペクトル情報から入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを求める処理と、パワースペクトル及びクロススペクトルから複数チャネルのスペクトル情報間のコヒーレンス関数を求める処理と、コヒーレンス関数を用いてパワースペクトル及びクロススペクトルを修正する処理と、修正されたパワースペクトル及びクロススペクトルに基づいて重み付けられた、入力音声信号のチャネル間の相互相関係数を求める処理とをコンピュータに行わせるためのプログラム。
【0025】
(4)空間的に離れて配置された複数のマイクロホンから出力される複数チャネルの入力音声信号を周波数分析して複数チャネルのスペクトル情報を生成する処理と、スペクトル情報から入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを求める処理と、パワースペクトル及びクロススペクトルから複数チャネルのスペクトル情報間のコヒーレンス関数を求める処理と、スペクトル情報に基づいて入力音声信号のチャネル間の信号パワーに関するパワー情報を求める処理と、コヒーレンス関数及びパワー情報を用いてパワースペクトル及びクロススペクトルを修正する処理と、修正されたパワースペクトル及びクロススペクトルに基づいて重み付けられた、入力音声信号のチャネル間の相互相関係数を求める処理とをコンピュータに行わせるためのプログラム。
【0026】
(5)空間的に離れて配置された複数のマイクロホンに入力される音声に応答して該マイクロホンから出力される複数チャネルの入力音声信号を周波数分析して複数チャネルのスペクトル情報を生成する処理と、前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出する処理と、前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を算出する処理と、音声の複数の仮想到来方向からなる仮想到来方向群に対応して、該仮想到来方向から到来する音声が複数のチャネル間で一致するように補正するための補正係数を発生する処理と、前記補正係数に基づいて前記パワースペクトル及びクロススペクトルを補正し、補正パワースペクトル及び補正クロススペクトルを生成する処理と、前記補正パワースペクトル及び補正クロススペクトルに基づいて前記入力音声信号のチャネル間の信号パワーに関するパワー情報を算出する処理と、前記補正パワースペクトル及び補正クロススペクトルを前記コヒーレンス関数及びパワー情報に基づいて重み付けし、前記仮想到来方向群に対応した前記入力音声信号のチャネル間の相互相関係数を前記仮想到来方向毎に算出する処理と、前記相互相関係数に基づいて前記マイクロホンに入力される音声の音源方向を検出すると共に、検出した該音源方向における前記相互相関係数の値を音源相関係数として出力する処理とをコンピュータに行わせるためのプログラム。
【0027】
(6)空間的に離れて配置された複数のマイクロホンから出力される複数チャネルの入力音声信号を周波数分析して複数チャネルのスペクトル情報を生成する処理と、前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出する処理と、前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を算出する処理と、前記複数のスペクトル情報を1チャネルに統合して統合スペクトル信号を生成する処理と、前記統合スペクトル信号のパワースペクトルを計算する処理と、前記クロススペクトルを前記コヒーレンス関数に基づいて重み付けし、重み付けたクロススペクトルをさらに前記統合信号パワースペクトルに基づいて正規化して利得係数を計算する処理とをコンピュータに行わせるためのプログラム。
【0028】
(7)空間的に離れて配置された複数のマイクロホンから出力される複数チャネルの入力音声信号を周波数分析して複数チャネルのスペクトル情報を生成する処理と、前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出する処理と、前記複数チャネル間のクロススペクトルと各チャネルのパワースペクトルから前記複数チャネル間のコヒーレンス関数を算出する処理と、音声の複数の仮想到来方向からなる仮想到来方向群に対応して、該仮想到来方向から到来する音声が複数のチャネル間で一致するように補正するための補正係数を発生する処理と、前記補正係数に基づいて前記パワースペクトル及びクロススペクトルを補正し、補正パワースペクトル及び補正クロススペクトルを生成する処理と、前記補正パワースペクトル及び補正クロススペクトルに基づいて前記入力音声信号のチャネル間の信号パワーに関するパワー情報を算出する処理と、前記複数チャネルのスペクトル情報を前記補正係数により補正してから統合して得られる統合スペクトル情報に対するパワースペクトルを前記補正パワースペクトル及び補正クロススペクトルに基づいて計算する処理と、前記補正クロススペクトルを前記コヒーレンス関数及びパワー情報に基づいて重み付けし、さらに仮想統合パワースペクトルに基づいて正規化することにより、前記仮想到来方向に対応した利得係数を求める処理と、前記利得係数に基づいて前記マイクロホンに入力される音声の音源方向を検出すると共に、検出した該音源方向に対応する利得係数の値を音源利得係数として出力する処理とをコンピュータに行わせるためのプログラム。
【0029】
(8)空間的に離れて配置された複数のマイクロホンから出力される複数チャネルの入力音声信号を周波数分析して複数チャネルのスペクトル情報を生成する処理と、前記複数チャネルのスペクトル情報を入力として、前記複数チャネルの入力音声信号のチャネル間の第1の修正相互相関係数を計算する処理と、前記第1の修正相互相関係数に基づいて前記複数チャネルのスペクトル情報のチャネル間の差を適応的に補正して補正スペクトル情報を生成する処理と、前記補正スペクトル情報から第2の修正相互相関係数を計算する処理とをコンピュータに実行させるためのプログラムであって、前記第1及び第2の修正相互相関係数の計算処理は、(a)前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出する処理と、(b)前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を算出する処理と、(c)前記パワースペクトルから前記入力音声信号のチャネル間の信号パワーに関するパワー情報を算出する処理と、(d)前記パワースペクトル及びクロススペクトルを前記コヒーレンス関数及びパワー情報に基づいて重み付けして前記入力音声信号のチャネル間の相互相関係数を算出し、前記第1または第2の修正相互相関関数を出力する処理とを含む。
【0030】
(9)空間的に離れて配置された複数のマイクロホンから出力される複数チャネルの入力音声信号を周波数分析して複数チャネルの第1スペクトル情報を生成する処理と、前記第1スペクトル情報から第1の修正利得を計算する処理と、前記第1の利得係数に基づいて前記第1スペクトル情報のチャネル間の差を適応的に補正して第2スペクトル情報を生成する処理と、前記第2スペクトル情報から第2の修正利得を計算する処理とをコンピュータに行わせるためのプログラムであって、前記第1及び第2の修正利得係数の計算処理は、(a)前記第1または第2スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出する処理と、(b)前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を算出する処理と、(c)前記パワースペクトルから前記入力音声信号のチャネル間の信号パワーに関するパワー情報を算出する処理と、(d)前記複数のスペクトル情報を1チャネルに統合して統合スペクトル信号を生成する処理と、(e)前記統合スペクトル信号のパワースペクトルを計算する処理と、(f)前記クロススペクトルを前記コヒーレンス関数及びパワー情報に基づいて重み付けし、重み付けたクロススペクトルをさらに前記統合スペクトル信号のパワースペクトルに基づいて正規化して前記第1または第2の利得係数を計算する処理とを含む。
【0031】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。以下に説明する各実施形態における音声信号処理は、コンピュータ上で実行されるソフトウェア(ファームウェアを含む)として実現することが可能であり、またハードウェアによって実現することも可能である。
【0032】
(第1の実施形態)
図1に、本発明の第1の実施形態に係る信号処理装置の構成を示す。複数のマイクロホン101−1〜101−Mによって、例えば話者の入力音声のような目的音を含む音響信号が検出され、複数(M)チャネルの入力音声信号が出力される。ここで、雑音を抑圧して入力音声のうち最終的に出力音声として取り出したい成分を目的音という。マイクロホン101−1〜101−Mからの入力音声信号は、図示しないA/D変換器によりディジタル信号に変換された後、相互相関計算部102と信号統合部103に入力される。
【0033】
相互相関計算部102では、Mチャネルの入力音声信号間の相互相関係数が計算される。信号統合部103では、Mチャネルの入力音声信号が1チャネルに統合される。信号統合部103から出力される信号を統合音声信号という。統合音声信号は、相互相関係数に従って利得が制御される利得制御部104に入力され、その大きさが調整される。これにより、利得制御部104から目的音の成分が強調された出力音声信号105が出力される。
【0034】
一般に、複数チャネルの観測信号に対して計算される相互相関係数は、雑音下の目的信号の検出尺度としてソナーやレーダの処理において古くから使われている。本実施形態では、音声信号処理において目的音の検出だけでなく、目的音の強調に用いる方法を提案する。この方法により、チャネル間で無相関な雑音のある環境下でも、雑音を効果的に抑圧できる。
【0035】
本実施形態でいう相互相関係数とは、入力音声信号がx(n),y(n)の2チャネルの場合、次式で計算される値ρである。
【0036】
【数1】
【0037】
ここで、上線が付された値は、期待値または時間平均値を表す(以後、同様とする)。
【0038】
入力音声信号がMチャネルの場合(2チャネルに限定されない場合)には、相互相関係数ρは例えば次式で計算される。
【0039】
【数2】
【0040】
ここで、xp(n),xq(n)はそれぞれ第pチャネル,第qチャネルの入力音声信号であり、またK=M(M−1)/2である。
【0041】
従来、複数チャネルの信号のチャネル間相互相関は信号検出処理に用いられ、例えば、コヒーレンス関数を閾値処理することによって目的信号の存在を判別する方法が例えば、非特許文献3:“Knowing the Wheat from the Weeds in Noisy Speech”, H. Agaiby and T. J. Moir 著, Proc. of EUROSPEECH’97, vol.3, pp.111−112, 1997に開示されている。
【0042】
相互相関係数は音声検出にも使われており、この値を閾値処理して目的音を検出する方法は、例えば非特許文献4:「2つの指向性マイクロホンを用いた目的音検出に関する検討」、永田他、電子情報通信学会誌 Vol.J83−A No.2 (2000))に開示されている。本実施形態は、閾値処理による目的音の検出ではなく、相互相関を目的音の強調に用いる点が特徴である。
【0043】
相互相関係数ρは、入力音声に目的音が存在する場合は1に近い値をとり、雑音だけなら0に近い値となるので、音声強調に用いるには相互相関係数の大きさに従って統合音声信号に与える利得を制御すればよい。すなわち、マイクロホン101−1〜101−Mから得られる複数チャネルの入力音声信号について、相互相関係数計算部102により式(1−1)または(1−2)に従ってチャネル間の相互相関係数を計算する。この相互相関係数に基づき利得制御部104の利得を制御し、信号統合部103からの統合音声信号の振幅を利得制御部104で調整することによって出力音声信号105を生成する。
【0044】
相互相関係数ρは、−1から+1の範囲をとる。従って、利得制御部104では相互相関係数の絶対値をとってから用いるか、あるいは相互相関係数が負の場合は0と置くようにする。利得制御部104での利得制御は、こうして計算された相互相関係数を例えば統合音声信号の振幅に乗算することにより行われる。この場合、相互相関係数と利得の関係を図2に示す直線(A)のような比例関係に設定してもよいし、例えば図2の折れ線(B)や曲線(C)のような関係にしてもよい。
【0045】
次に、図3を用いて本実施形態における処理の流れを説明する。
まず、マイクロホン101−1〜101−Mから音声信号を入力する(ステップS11)。マイクロホンが二つの場合を例にとると、例えば図4に示すように二つのマイクロホン101−1〜101−2を10cm程度の距離を置いて、目的音源が各マイクロホン101−1〜101−2から等距離となるように設置する。マイクロホン101−1〜101−2の各々は指向性があってもよいし、無指向性でもよい。入力音声信号をディジタル化するA/D変換器のサンプリング周波数は例えば11kHzとするが、他の周波数でもかまわない。
【0046】
次に、相互相関係数ρを式(1−1)または式(1−2)によって計算する。このとき、相互相関係数ρの時間変化を考慮して、適当な時間間隔、例えば、N=128点おきに相互相関係数ρを求めることとし、時間平均を例えば対象時点の前後L点、計2L点の波形に対して式(1−1)を適用すると、相互相関係数ρを求める数式は以下となる。
【0047】
【数3】
【0048】
ここで、kは相互相関係数の番号であり、ρの値は入力音声信号波形のNサンプル毎に1個求まる。
【0049】
式(1−2)を用いた場合も同様に、次式によって相関係数ρが求まる。
【0050】
【数4】
【0051】
ここで、K=M(M−1)/2である。
【0052】
次に、信号統合部103によって複数チャネルの入力音声信号を1チャネルに統合する。信号統合部103の処理は、例えば単純な加算であってもよいし、図5に示すように雑音抑圧の機能を持つ、時間領域で動作する適応ビームフォーマ106による処理であってもよい。信号統合部103が単純な加算を行うとすると、統合音声信号z(n)は、次式のように求まる。
【0053】
【数5】
【0054】
信号統合部103に図5のように適応ビームフォーマ106、例えば、よく知られているLMS適応フィルタによる2チャネルのJim−Griffithビームフォーマを用いた場合、次式のように統合音声信号z(n)が求まる。
【0055】
【数6】
【0056】
ここで、U(n)は入力音声信号x,yの差の値をT個並べたベクトル、W(n)=[w1(n),w2(n),...,wT(n)]はn回更新を行った後のLMS適応フィルタの係数、d(n)は入力音声信号x,yの和信号、(・)は内積である。Dは遅延量であり、例えばT/2を用いる。μはステップサイズであり、例えば0.1を用いればよい。Mチャネルの場合への拡張も容易であり、M−1個の適応ビームフォーマを用いて1チャネルに統合された音声信号を得る方法が、例えば非特許文献5:“The adaptive filter theory”, Hyakin 著, PRENTICE HALL 出版に詳述されているが、ここでは詳しい説明を省略する。
【0057】
最後に、統合音声信号z(n)に相互相関係数ρに基づく利得を乗じて統合音声信号z(n)の大きさを調整することにより、出力音声信号105を出力する。ステップS11〜S14の処理は、ディジタル化された音声信号がステップS11においてフレーム単位で入力される毎に繰り返し行われる。
【0058】
このように本実施形態によれば、複数チャネルの入力音声信号が1チャネルに統合された統合音声信号の大きさを各チャネルの入力音声信号間の相互相関関数に従って調整することにより、相関の少ない雑音が抑圧され、相関の大きい目的音の成分が強調された出力音声信号を得ることが可能となる。
【0059】
(第2の実施形態)
図6に、本発明の第2の実施形態に係る音声信号処理装置の構成を示す。本実施形態では、第1の実施形態で説明した時間領域での音声信号処理と等価な音声信号処理を周波数領域で実現する。図6において、複数のマイクロホン101−1〜101−Mからの入力音声信号は図示しないA/D変換器によりディジタル信号に変換された後、周波数分析部201により周波数成分が分析され、周波数スペクトルを表すスペクトル情報が生成される。周波数分析部201は、例えば公知のFFT(高速フーリエ変換)、DFT(離散フーリエ変換)、あるいは通過帯域の異なる複数の帯域フィルタを並列に配置した帯域フィルタバンクによって実現される。周波数分析部201から出力されるスペクトル情報は、相関係数計算部202と信号統合部203に入力される。
【0060】
相互相関計算部202では、Mチャネルのスペクトル情報間の相互相関係数、すなわち周波数領域の相互相関係数が計算される。言い換えれば、本実施形態ではスペクトル情報を用いてMチャネルの入力音声信号のチャネル間の相互相関係数が求められる。信号統合部203では、Mチャネルのスペクトル情報が1チャネルに統合される。信号統合部203の処理は、第1の実施形態で説明したと同様、例えば単純な加算であってもよいし、周波数領域で動作する適応フィルタを用いたJim−Griffthの適応ビームフォーマによる処理であってもよい。信号統合部203から出力される信号を統合スペクトル信号という。
【0061】
信号統合部203から出力される統合スペクトル信号は、相互相関係数に従って利得が制御される利得制御部204に入力され、その大きさが調整される。これにより、利得制御部204から目的音の成分が強調されたスペクトル信号205が出力される。第1の実施形態と同様に、相互相関係数計算部202により得られる周波数領域の相互相関係数も、目的音が存在する場合は1に近い値をとり、雑音だけなら0に近い値となるので、目的音の強調に用いるには相互相関係数の大きさに従って統合スペクトル信号に与える利得を制御すればよい。
【0062】
目的音の成分が強調されたスペクトル信号205は、必要に応じて逆変換部206によって周波数分析部201とは逆の変換、すなわち周波数領域から時間領域への変換が施されることにより、目的音の成分が強調された出力音声信号207が生成される。逆変換部206は、周波数分析部201が例えばFFTの場合、その逆変換である逆FFTによって実現される。
【0063】
相互相関係数計算部202では、入力音声信号がx(n),y(n)の2チャネルの場合、周波数領域での相互相関係数として、次式で表されるρが計算される。
【0064】
【数7】
【0065】
ここで、Wxy(f)は入力音声信号x(n),y(n)間のクロススペクトルであり、Wxx(f),Wyy(f)は入力音声信号x(n),y(n)のパワースペクトル、Lは離散フーリエ変換(DFT)における周波数成分の数である。
【0066】
クロススペクトルとパワースペクトルは、よく知られているように、x(n)の離散フーリエ変換をX(f)とし、y(n)の離散フーリエ変換をY(f)とすると、
【数8】
のように計算できる。ここで、上線を付した値は時間平均値、*は複素共役である。DFTの長さは例えば256点を使うことができ、この場合L=256である。L=128として、得られた複素数の相互相関係数の実部をとっても等価な結果が得られる。
【0067】
入力音声信号がMチャネルの場合(2チャネルに限定されない場合)にも、同様に相互相関係数ρは例えば次式で計算される。
【数9】
【0068】
ここで、Wij(f)は入力音声信号xi(n),xj(n)間のクロススペクトル、Wii(f)、Wjj(f)は入力音声信号xi(n),xj(n)のパワースペクトルである。
【0069】
このようにマイクロホン101−1〜101−Mから得られる複数チャネルの入力音声信号を周波数分析部201でスペクトル情報に変換した後、相互相関係数計算部202により式(2−1)または(2−2)に従ってチャネル間の相互相関係数ρを計算する。
【0070】
一方、周波数分析部201で得られる複数チャネルのスペクトル情報を信号統合部203で1チャネルに統合して統合スペクトル信号Z(f)を求める。信号統合部203で単純な加算を用いる場合は、
【数10】
として、統合スペクトル信号Z(f)を得ることができる。
【0071】
適応ビームフォーマを用いる場合は、例えば、よく知られている2チャネルのJim−Griffithビームフォーマを使った場合、次式のように統合スペクトル信号Z(f)が求まる。
【数11】
【0072】
ここで、kはフレーム番号、Uはチャネル間の差分スペクトル、Dは加算スペクトル、Zは出力スペクトル、Wは複素数のフィルタ係数、μはステップサイズ、(*)は複素共役である。
【0073】
次に、相互相関係数ρに基づき利得制御部204の利得を制御し、信号統合部203からの統合スペクトル信号の大きさ(振幅)を利得制御部204で調整することによって、目的音の成分が強調されたスペクトル信号205を生成する。利得制御部204での利得制御に関しては、例えば相互相関係数ρを統合スペクトル信号の振幅に乗算することにより行うことができるが、第1の実施形態と同様に例えば図2(A)(B)(C)に示すような関数を用いて行うことも可能である。相互相関係数ρは負になる場合もあるが、その場合は、絶対値かまたは0と置いて利得制御に用いることも可能である。
【0074】
図7に、本実施形態における処理の流れを示す。音声信号入力ステップS21の後に周波数分析ステップS22が加わったこと以外、処理の流れは第1の実施形態と基本的に同様である。すなわち、ステップS22で周波数分析(例えば、FFT)を行った後に、相互相関係数の計算(ステップS23)、スペクトル情報の統合(ステップS24)及び相関係数による統合スペクトル信号に対する利得制御(ステップS25)を順次行って、目的音の成分が強調されたスペクトル信号を生成し、最後に必要に応じてステップS26で逆変換(例えば、逆FFT)を行って目的音の成分が強調された出力音声信号を得る。ステップS21〜S26の処理は、ディジタル化された音声信号がステップS21においてフレーム単位で入力される毎に繰り返し行われる。
【0075】
このように本実施形態によれば、相関の少ない雑音が抑圧され、相関の大きい目的音の音声が強調されたスペクトル信号あるいは出力音声信号を得ることが可能となる他、相関係数の計算と信号統合の処理を周波数領域で行うことにより、相関係数の計算と信号統合の処理を時間領域で行う第1の実施形態に比較して、演算量を少なくできるという利点がある。
【0076】
(第3の実施形態)
図8に、本発明の第3の実施形態に係る音声信号処理装置の構成を示す。本実施形態は、重み付き相互相関係数を用いて目的信号(目的音の信号)の活性度を算出する手法を提供する。こうして算出される目的信号活性度は、例えば目的音の検出や目的音の強調に有効に用いられる。
【0077】
本実施形態では、第1の実施形態と同様に、まず複数のマイクロホン101−1〜101−Mからの複数チャネルの入力音声信号が周波数分析部201により周波数領域の信号、すなわち複数の周波数成分を含むスペクトル情報に変換された後、目的信号活性度計算部300に入力される。目的信号活性度計算部300は、クロス・パワースペクトル計算部301、コヒーレンス関数計算部302、パワー情報計算部303、修正スペクトル計算部304及び重み付き相互相関関数計算部305を有する。
【0078】
クロス・パワースペクトル計算部301では、複数チャネルの周波数成分から各チャネルのパワースペクトルとチャネル間のクロススペクトルが算出される。コヒーレンス関数計算部302では、パワースペクトルとクロススペクトルからコヒーレンス関数が算出される。パワー計算部303では、パワースペクトルから入力音声信号のチャネル間の信号パワーに関するパワー情報が算出される。修正スペクトル計算部304では、パワースペクトルとクロススペクトルに対してコヒーレンス関数とパワー情報を用いて修正が加えられる。重み付き相互相関関数計算部304では、修正スペクトル計算部304で修正されたスペクトルに従って重み付けられた相互相関係数が目的信号活性度として計算される。
【0079】
次に、図9を用いて本実施形態における処理の流れを説明する。音声信号入力ステップS31から周波数分析ステップS32までは第2の実施形態と同様であり、複数チャネルの入力音声信号をフレーム単位で周波数領域の信号(スペクトル情報)に変換する。
【0080】
次に、周波数分析で得られたスペクトル情報から各チャネルのパワースペクトルとチャネル間のクロススペクトルを計算する(ステップS33)。次に、パワースペクトルとチャネル間のクロススペクトルを用いてコヒーレンス関数とパワー情報を計算する(ステップS34〜S35)次に、コヒーレンス関数とパワー情報に基づいて修正されたスペクトルを計算する(ステップS36)。この修正後のスペクトルに基づいて重み付き相互相関係数を計算し、これを目的信号活性度として出力する(ステップS37)。ステップS31〜S37の処理は、ディジタル化された音声信号がステップS31においてフレーム単位で入力される毎に繰り返し行われる。
【0081】
本実施形態は、耐雑音性を高めるように相互相関係数に修正を加える点が特徴である。一般的な相互相関係数は、雑音がチャネル間で無相関な場合の目的音検出には高い性能を示すものの、チャネル間で相関のある雑音が到来している場合と目的音が到来している場合を区別する性能は低い。本実施形態によると、相関のある雑音が到来する場合においても、目的音と雑音とを区別する性能を大幅に高めることができる。
【0082】
通常、耳障りな大振幅の雑音はチャネル間で高い相関があるので、本実施形態で示す方法は、これを抑圧するのに好適である。出力である目的信号活性度は、入力音声に目的音が存在するか否かの尺度を示すものであり、これは以降の実施形態の音声検出や音声強調などで必要となる必須の要素である。
【0083】
次に、クロス・パワースペクトル計算部301、コヒーレンス関数計算部302、パワー情報計算部303、修正スペクトル計算部304及び重み付き相互相関係数計算部304での具体的な計算方法について述べる。まず、クロス・パワースペクトル計算部301では、式(2−2)に従ってチャネル間のクロススペクトルとチャネル毎のパワースペクトルが計算される。次に、コヒーレンス関数計算部302では、入力音声信号がx,yの2チャネルの場合、次式に従ってコヒーレンス関数γ(f)が計算される。
【数12】
【0084】
ここで、Wxy(f)は二つのチャネル間のクロススペクトル、Wxx(f)及びWyy(f)は各チャネルのパワースペクトルである。
【0085】
入力音声信号がMチャネルの場合(2チャネルに限定されない場合)、第iチャネルと第jチャネル間のコヒーレンス関数γij(f)は、同様に次式に従って計算される。
【数13】
【0086】
ここで、Wij(f)は第iチャネルと第jチャネル間のクロススペクトル、Wii(f)及びWjj(f)は、第iチャネル及び第jチャネルのパワースペクトルである。
【0087】
Mチャネルの場合のトータルのコヒーレンス関数γm(f)は、例えば次式のように計算される。
【数14】
【0088】
パワー情報計算部303では、入力音声信号がx,yの2チャネルの場合、次式に従ってパワー情報p(f)が計算される。
【数15】
【0089】
ここで、min[a,b] はa,bのうちで小さい方を選択することを意味し、max[a,b] は、a,bのうちで大きい方を選択することを意味する。
【0090】
一方、入力音声信号がMチャネルの場合(2チャネルに限定されない場合)、第iチャネルと第jチャネル間のパワー情報はpij(f)は、次式に従って計算される。
【数16】
【0091】
このようにして計算されるパワー情報p(f),pij(f)に対して、次式のように適当な関数を用いて実際のチャネル間のパワー比に対する鋭敏性を調整することも可能である。
【数17】
【0092】
ここで、pow{a,b}はaのb乗を表す指数関数である。β=1のとき、式(3−6),(3−7)はそれぞれ式(3−4),(3−5)と同じであり、βを1より大きい値とすることで、パワー比に対する鋭敏性を増すことが可能である。
【0093】
修正スペクトル計算部304では、入力音声信号が2チャネルの場合、各チャネルのパワースペクトルとチャネル間のクロススペクトルに対して、先に算出されたコヒーレンス関数γ(f)を2乗した値である2乗コヒーレンス関数γ2(f)とパワー情報p(f)を用いて修正が加えられたクロススペクトル及びパワースペクトルが計算される。さらに、重み付き相互相関係数計算部305では、修正後のクロススペクトル及びパワースペクトルに従って重み付けられた重み付き相互相関係数ρ(目的信号活性度)が計算される。
【0094】
これら修正スペクトル計算部304及び重み付き相互相関係数計算部305での計算は、次式で示される。
【数18】
【0095】
ここで、Ψa(f),Ψb(f)は、各々相互相関係数の計算式(3−10)の分母、分子に用いる重み関数であり、Wxy(f)Ψb(f)は修正後のクロススペクトル、Wxx(f)Ψa(f),Wyy(f)Ψa(f)は修正後のパワースペクトルである。
【0096】
なお、コヒーレンス関数を用いた式(3−8)または(3−9)の重み関数以外にも、単純なクロススペクトル白色化の重み1/|Wxy(f)|を用いて
【数19】
などとすることも可能であるが、性能としては式(3−8)または(3−9)の重み関数を使うことが望ましい。
【0097】
一方、入力音声信号がMチャネルの場合(2チャネルに限定されない場合)、同様に各チャネルのパワースペクトルとチャネル間のクロススペクトルに対して、先に算出された第iチャネルと第jチャネル間のコヒーレンス関数γij(f)を2乗した値である2乗コヒーレンス関数γij2(f)とパワー情報pij(f)を用いて修正が加えられたクロススペクトル及びパワースペクトルが計算される。
【0098】
さらに、重み付き相互相関係数計算部305では、修正後のクロススペクトル及びパワースペクトルに従って重み付けられた重み付き相互相関係数ρ(目的信号活性度)が計算される。この場合の修正スペクトル計算部304及び重み付き相互相関係数計算部305での計算は、次式で示される。
【数20】
【0099】
ここで、Ψaij(f),Ψbij(f)は、各々相互相関係数の計算式(3−13)の分母、分子に用いる重み関数であり、i,jはチャネルの番号を表す。また、pij(f)は式(3−5)または式(3−7)のパワー情報である。また、K=M(m−1)/2である。
【0100】
Ψa(f)は、一般化相互相関関数(generalized cross correlation function)を最尤推定する際に使われる重み関数として知られており、チャネル間で無相関な雑音の影響を抑圧するのに効果がある。これに関しては、例えば非特許文献6:“The Generalized Correlation Method for Estimation of Time Delay, C. H. Knapp and G. C. Carter, IEEE Trans, Acoust., Speech, Signal Processing”, Vol.ASSP−24, No.4,pp.320−327(1976)に詳述されている。なお、文献6は相互相関関数を求める方法を開示するものであり、相互相関係数については触れていない。
これに対して、本実施形態では重み付き相互相関係数として、上述の重み関数Ψa(f)にさらにチャネル間のパワーの比に基づいた重みを与える式(3−6)または式(3−7)によって修正したΨb(f)を用いる点が大きく異なる。
【0101】
上記の処理では、チャネル間で無相関な雑音に加え、目的方向以外から到来する相関のある雑音までも効果的に抑圧するため、得られた重み付き相互相関係数は、目的信号が存在するか否かの程度を精度よく反映している。このため、重み付き相互相関係数の値を目的信号活性度として用いることができる。この目的信号活性度は、音声検出や音声強調など、種々の応用でその性能を向上するキーコンポーネントとして使用できる。
【0102】
本実施形態における目的信号活性度の測定において、活性度を帯域毎に分けて出力してもよい、例えば、DFTの1から128点を周波数上で等間隔に8帯域、つまり、128/8=16点ずつに分け、8個の目的信号活性度を出力するようにする。分割の仕方は必要に応じて変えて差し支えない。このことは以下の実施形態においても同様である。
【0103】
上述の説明では、コヒーレンス関数とパワー情報の両方を使って目的信号活性度を計算しているが、パワー情報を使わず、コヒーレンス関数のみを用いて目的信号活性度を計算しても、ある程度の効果がある。その場合、式(3−4)〜(3−7)によって計算されるパワー情報p(f)またはpij(f)を1と置けばよい。
【0104】
(第4の実施形態)
図10に、本発明の第4の実施形態に係る音声信号処理装置の構成を示す。本実施形態では、第3の実施形態を音声検出に適用し、目的信号活性度に対して閾値処理を行うことにより、入力音声信号から目的音の成分を検出する。
【0105】
複数のマイクロホン101−1〜101−Mからの入力音声信号が周波数分析部201により周波数領域の信号、すなわち複数チャネルの周波数成分を含むスペクトル情報に変換された後、目的信号活性度計算部300に入力される。目的信号活性度計算部300の構成は、第3の実施形態で説明した通りである。
【0106】
目的信号活性度計算部300から出力される目的信号活性度信号306は検出処理部401に入力され、ここで閾値処理が行われることにより、入力音声信号に目的音が存在しているかどうかを示す目的音検出ステータス信号402が出力される。具体的には、検出処理部401は入力音声信号に目的音の成分が存在すると判定した場合には“1”を、存在しないと判定した場合には“0”を目的音検出ステータス信号402として出力する。
【0107】
図11を用いて本実施形態における処理の流れを説明すると、まずステップS41で入力された入力音声信号を周波数分析し(ステップS42)、得られたスペクトル情報から第3の実施形態で述べた手順により目的信号活性度を計算する(ステップS43)。最後に、目的信号活性度に対して、目的に応じて予め定められた閾値を用いて閾値処理を行うことにより、入力音声信号に目的音の成分が存在しているかどうかの検出処理を行う(ステップS44)。ステップS41〜S44の処理は、ディジタル化された音声信号がステップS41においてフレーム単位で入力される毎に繰り返し行われる。
【0108】
次に、図12を用いて検出処理部401における閾値処理の手順を説明する。ここでは、目的音のない区間の目的信号活性度のバイアスと分散から、検出のための閾値を設定する例について示す。
まず、初期設定を行い(ステップS400)、次いで音声信号の入力(ステップS401)、周波数分析(ステップS402)及び目的信号活性度の計算(ステップS403)をフレーム毎に順次行う。
【0109】
第kフレームの目的信号活性度をρ(k)とすると、ρ(k)について目的音の無い区間(無音区間という)のバイアスと分散を推定する。無音区間か否かの暫定的な判定を|ρ(k)−b(k−1)|とκとの比較により行う(ステップS404)。ここで、b(k)はρ(k)のバイアスの推定値、κは判定のための閾値である。
【0110】
ここで、|ρ(k)−b(k−1)|<κの場合は、無音の可能性が高いと判断し、1次のローパスフィルタを用いて次式に示されるようにバイアスb(k)と分散v(k)の推定値を更新する(ステップS405)。
【数21】
【0111】
一方、|ρ(k)−b(k−1)|>κの場合は、目的音が存在する可能性が高いと判断し、次式に示されるように、バイアスb(k)と分散v(k)の推定値を更新しない(ステップS406)。
【数22】
【0112】
次に、次式によって検出のための閾値h(k)を設定する(ステップS407)。
【数23】
【0113】
ここで、ξは検出閾値h(k)を設定するための定数である。この結果、h(k)<ρ(k)ならば目的信号が存在するとして“1”を、そうでなければ“0”をそれぞれ目的ステータス信号として出力する(ステップS408)。
初期設定に必要なκ,η,η’,ξの値の例は、初期設定ステップS400の枠内に示した通りである。
【0114】
図13に、検出処理の具体的な例を示す。図13(A)に示す曲線ρから、図13(B)に示す検出ステータス信号の時系列が出力される。目的信号活性度の計算は、第3の実施形態で述べたようにチャネル間で相関のない雑音と相関があっても目的音とは違う方向から到来する雑音とを抑圧し、目的音だけに精度よく反応する。従って、算出される目的信号活性度を本実施形態のような音声検出のパラメータとして用いた場合、高い検出性能を達成できる。
【0115】
(第5の実施形態)
図14に、本発明の第5の実施形態に係る音声信号処理装置の構成を示す。本実施形態は、第3の実施形態を音声強調に適用したものである。複数のマイクロホン101−1〜101−Mからの入力音声信号が周波数分析部201により周波数領域の信号、すなわち複数チャネルの周波数成分を含むスペクトル情報に変換された後、目的信号活性度計算部300に入力される。目的信号活性度計算部300の構成は、第3の実施形態で説明した通りである。
【0116】
一方、第2の実施形態と同様に周波数分析部201からのスペクトル情報は信号統合部203にも入力され、ここで1チャネルの統合されることにより、統合スペクトル信号が生成される。信号統合部203から出力される統合スペクトル信号は、目的信号活性度計算部300から出力される目的信号活性度信号(相互相関係数)306に従って利得が制御される利得制御部501に入力され、その大きさが調整される。これにより、利得制御部501から目的音の成分が強調されたスペクトル信号502が出力される。
【0117】
目的音の成分が強調されたスペクトル信号502は、必要に応じて逆変換部503によって周波数分析部201とは逆の変換、すなわち周波数領域から時間領域への変換が施され、目的音の成分が強調された出力音声信号504が生成される。逆変換部502は、周波数分析部201が例えばFFTの場合、逆FFTによって実現される。
このように本実施形態に係る音声信号処理装置は、図6に示した第2の実施形態における相互相関係数計算部202が重み付き相互相関係数を計算する目的信号活性度計算部300に変更された構成となっている。
【0118】
次に、図11を用いて本実施形態における処理の流れを説明すると、まずステップS51からステップS53までの処理は、第4の実施形態で説明した図11中に示すステップS41からステップS43までの処理と同様である。ステップS52の周波数分析の後、ステップS53の目的信号活性度の計算と平行して、複数チャネルのスペクトル情報を1チャネルに統合して統合スペクトル信号を生成する処理を行う(ステップS54)
次に、統合スペクトル信号に対して、ステップS53で得られた目的信号活性度に応じた利得制御を行って振幅を調整することにより、目的音の成分が強調されたスペクトル信号を生成し(ステップS55)、最後に必要に応じてステップS56で逆変換(例えば、逆FFT)を行って目的音の成分が強調された出力音声信号を得る。ステップS51〜S56の処理は、ディジタル化された音声信号がステップS51においてフレーム単位で入力される毎に繰り返し行われる。
【0119】
本実施形態によると、第3の実施形態で説明したように、目的信号活性度が入力音声に目的音があるか否かを高精度に反映するので、これを用いて目的音を強調する音声強調を行うことによって、種々の雑音環境において非常に高い性能の処理を実現できる。
【0120】
なお、第3の実施形態の中で、目的信号活性度を複数の周波数帯域に分けて求めてもよいと述べたが、本実施形態の利得制御の処理において、このような複数の周波数帯域に関する目的信号活性度を用いて、帯域毎に利得を制御することも可能である。すなわち、目的信号活性度計算の際に用いた帯域毎に統合信号、例えばスペクトル情報の算出にL点のDFTを用い、帯域分割数をBとする場合、L/2/B=N点ずつを用いて以下のように目的活性度を計算する。
【0121】
【数24】
【0122】
ここで、ρ(b)は帯域番号bに関する目的信号活性度であり、帯域bの計算で用いる周波数成分の範囲をs(b),e(b)と置いている。この値は、例えば以下のようにとる。
【数25】
【0123】
これは、DFTにおいて周波数成分番号fが2からL/2の正の周波数に相当する成分と、fがL/2+1からLの負の周波数に相当する成分の番号の一般的な規則性を用いて求められる。ここで、f=1は直流成分に相当し、一般的な波形信号の場合、その成分は0と置いてよいので、上の計算式では除いてある。また、f=L/2の成分は利用可能な周波数の上限であり、その大きさはやはり0に近いので、除いてある。勿論、これらを計算に含めることにしても、何ら問題はない。
【0124】
このようにして求められた目的信号活性度ρ(b)を用いると、統合信号に対する利得制御は、以下のようにして行うことができる。
【数26】
【0125】
先に述べたと同様、上式のように目的信号活性度ρ(b)の絶対値を用いてもよいし、ρ(b)の実数部をとって負の場合は0と置いた値を用いて、以下のようにしてもよい。
【0126】
【数27】
【0127】
以上の方法により、目的音の成分を強調する際の利得制御を帯域毎に行うことができる。これにより、ある帯域に偏って雑音が存在する場合などに、その帯域のみ抑圧することが可能となるので、目的音成分強調の性能を向上させることができる。
【0128】
(第6の実施形態)
図16に、本発明の第6の実施形態に係る音声信号処理装置の構成を示す。本実施形態は、第5の実施形態にコヒーレンスとパワー情報に基づいたフィルタ演算を行うコヒーレンスフィルタ演算部601が加わった構成である。
【0129】
次に、図17を用いて本実施形態における処理の流れについて述べる。まずステップS61からステップS64までの処理は、第5の実施形態の図11中に示すステップS51からステップ54までの処理と同様である。本実施形態では、ステップS54で得られた統合スペクトル信号に対して、ステップS64の目的信号活性度計算の仮定で生成されるコヒーレンス関数とパワー情報を用いたフィルタ演算を行う。
【0130】
こうしてコヒーレンスフィルタ演算が施された統合スペクトル信号に対して、ステップS63で得られた目的信号活性度に応じた利得制御を行って振幅を調整することにより目的音の成分が強調されたスペクトル信号を生成し(ステップS65)、最後に必要に応じてステップS66で逆変換(例えば、逆FFT)を行って、目的音の成分が強調された出力音声信号を得る。ステップS61〜S66の処理は、ディジタル化された音声信号がステップS61においてフレーム単位で入力される毎に繰り返し行われる。
【0131】
次に、コヒーレンスフィルタ演算部601について詳しく述べる。コヒーレンスフィルタ演算部601では、目的信号活性度計算部300で計算されるコヒーレンス関数を用いて対象のスペクトル情報をフィルタリングする。コヒーレンス関数は、式(3−1)または式(3−2)を用いて計算される。このとき、目的信号活性度計算部300で内部的に得られた式(3−4)〜(3−7)のいずれかのパワー情報に従って、次式のようにコヒーレンス関数を修正して用いると、さらに効果的である。
【0132】
入力音声信号がx(f),y(f)の2チャネルの場合の修正コヒーレンス関数γ(f)は、次式に示される。
【数28】
【0133】
一方、Mチャネルの場合(2チャネルに限定されない場合)の修正コヒーレンス関数γ(f)は、次式に示される。
【数29】
【0134】
ここで、第3の実施形態と同様にi,jはチャネル番号、Wij(f)は第iチャネルと第jチャネル間のクロススペクトル、Wii(f),Wjj(f)は第iチャネル及び第jチャネルのパワースペクトルである。
【0135】
式(6−1)または式(6−2)に示される修正コヒーレンス関数γ(f)を用いたフィルタ演算は、次式に従って行われる。
【数30】
【0136】
ここで、ZO(f)はフィルタ演算の出力、Z(f)は信号統合部203で得られる統合スペクトル信号である。
【0137】
このとき、例えば次式のようにコヒーレンス関数γ(f)を適当な関数を用いて修正してから、フィルタ演算を行ってもよい。
【数31】
【0138】
ここで、pow(a,b)は、aのb乗を表す指数関数であり、例えばα=2などを用いることがある。この場合、式(6−3)(α=1に相当する)よりもコヒーレンス関数γ(f)の値が強調され、雑音抑圧量が増加するが、代わりに目的音声の歪みも大きくなるので、状況に合わせて設定するのがよい。
【0139】
このように本実施形態によれば、目的信号活性度を用いた目的音の強調に際して、コヒーレンス関数に対応したスペクトルの重み付けを行うことにより、チャネル間で無相関な雑音に対する音声強調性能をさらに改善することができる。
【0140】
(マイクロホンの配置について)
次に、これまでに述べたマイクロホンの好ましい配置方法について述べる。音声信号処理装置は、複数のマイクロホンに対して目的音に関しては同一の成分が入射し、雑音に関しては位相と振幅の少なくとも一方の異なった成分が入射することを想定している。このようなマイクロホンの受音状況を実現するためには、マイクロホン101−1〜101−Mを以下に述べるように配置することが望ましい。
【0141】
第3の実施形態では、重み付き相互相関係数を計算する過程で、チャネル間のパワー比に関する情報を用いており、目的音に対してはチャネル間で等パワー、雑音に対してはチャネル間で異なるパワーとなるようにマイクロホン101−1〜101−Mを配置したときに、高い性能が得られる。マイクロホン101−1〜101−Mに全て無指向性のマイクロホンを用いた場合でも、ある程度の性能は発揮できる。これは受音位置によって反射などの条件が異なるため、無指向性マイクロホンでも到来音のパワーが異なる場合があるからである。
【0142】
しかしながら、高い性能を安定して発揮させるには、マイクロホン101−1〜101−Mの少なくとも一つを指向性マイクロホンとする方がよい。これにより、目的音の到来方向以外の方向に対してチャネル間で感度差を作り出し、雑音抑圧性能を向上することができる。
【0143】
ここでは、マイクロホンの数Mが2個、すなわち2チャネルの場合について述べるが、3以上の多チャネルの場合にも容易に拡張可能である。図18に示すように、2個のマイクロホンの一方が無指向性マイクロホン701で、他方が指向性マイクロホン702の場合と、図19に示すように2個のマイクロホン711,712がいずれも指向性マイクロホンの場合について述べる。各々特徴のある使い分けが可能である。指向性マイクロホンとしては、通常の単一指向性マイクロホンを想定する。単一指向性以外のもっと鋭い指向性のものを使う場合は、さらに性能が高くなる可能性があるが、配置方法は単一指向性マイクロホンを用いた場合と同様である。
【0144】
図18に示すように無指向性マイクロホン701と指向性マイクロホン702を用いた場合、指向性マイクロホン702は、目的音の方向に指向性の頂点(感度最大方向)が向くようにする。マイクロホン701,702間の距離は、例えば5cmから20cm程度が適当である。この配置においては、無指向性マイクロホン701の感度と指向性マイクロホン702の頂点方向の感度を同程度に調整しておくことが望ましい。
【0145】
このような配置により、指向性マイクロホン702における低感度の方向、例えば、図18に示すように高感度の方向と180°逆の方向に関しては、チャネル間、すなわちマイクロホン701,702間の感度差が非常に大きいので、低感度の方向からの到来音の抑圧量は非常に大きくなる。一見、これは指向性マイクロホンの元々の指向性を表したにすぎないように見えるが、チャネル間のパワー比に対する鋭敏性を式(3−6)または式(3−7)のβの値によって調整できるため、指向性マイクロホン702の元々の指向性よりも鋭い指向性に調整することが可能である。
【0146】
すなわち、例えばβ=2とすることにより、実際のパワー比の2乗の重みが目的信号活性度の計算に使われることになる。実際のパワー比は、目的音方向に関しては1であるが、目的音の到来方向以外の方向では1以下であるため、これを2乗することによって目的音以外の成分に関する重みはさらに小さくなる。このため、低感度方向と目的音方向の間の横方向などの感度もさらに小さくできる。
【0147】
一方、図19に示すように2つのマイクロホンに指向性マイクロホン711,712を用いた場合は、例えば図19(A1)〜(A4)に示す配置が有効である。これは、同一平面上に二つのマイクロホン711,712の指向性の軸が含まれるような配置であり、図で上から見たときの指向性の軸の向きがθ=−90°〜90°程度の範囲内にあるのが望ましい。θ>0の場合は指向性の軸が2つのマイクロホン711,712の中点から外に開くような形となるが、θ<0としても同様な性能であり、この場合は指向性の軸が中点に向かう形となる。
【0148】
図19(B1)〜(B4)は、2つの指向性マイクロホン711,712のもう一つの好ましい配置の例である。指向性の軸は同一平面内に含まれていない。正確さを期すため、図20に図19(B1)〜(B4)の配置における指向性の軸の向きを方位角θと仰角φで表した図を示す。ここで、Rチャネルのマイクロホン712の指向性の軸の向きを(θ,φ)とすると、Lチャネルのマイクロホン711の指向性の軸の向きは(−θ,−φ)となるようにするのが望ましい。すなわち、2つのマイクロホンの位置と軸方向は180°の回転対称をなす。マイクロホンの数がMならば、360°/Mの回転対称となる配置が望ましい。θとφの範囲は、10°<θ<80°,10°<φ<80°となるようにするのが望ましい。指向性の軸の向きを上のように設定した後、2つのマイクロホン711,712の位置を目的音の到来方向を軸として回転させた場合も全く同じ特性を有するので、必要に応じて回転させて用いてもよい。
【0149】
図19(A1)〜(A4)の配置の場合、前述した音声信号処理により最終的な指向性は、目的音の到来方向に対しては感度最大となり、指向性マイクロホン711,712から等距離の方向、すなわち、2つのマイクロホン711,712を結ぶ直線に垂直な方向に対しては感度が極大となるため、真上や真下からの到来音に対してもある程度の感度を持つようになる。
【0150】
これに対し、図19(B1)〜(B4)の配置では、2つの指向性マイクロホン711,712の位相が一致する方向は、図19(A1)〜(A4)の場合と同様に、マイクロホン711,712から等距離の方向、すなわち2つのマイクロホン711,712を結ぶ直線に垂直な面(図21の面a)に含まれる方向となる。一方、2つのマイクロホン711,712の感度が一致するような到来方向は、マイクロホン711,712の軸の向きを表す2つのベクトルを1つの平面上に平行移動したとき、その2つのベクトルの差ベクトル(図21のベクトルC)と垂直の平面(図21の面b)に含まれる。
【0151】
本実施形態における目的信号活性度は、位相と振幅がチャネル間で共に一致した場合に大きな値となるので、図21に示す面aと面bが交わる方向、すなわち正面方向(図20または図21において矢印で示した目的音の到来方向)とその180°逆の方向にのみ、指向性の大きな極大ができる。正面の逆方向に関しては、指向性マイクロホン711,712の低感度方向が向いているため、その方向からの入射音のレベルは低い。従って、実質的に正面方向のみに極大のメインローブを持つような指向性を得ることができるので、真上や真下からの到来音も抑圧したい場合には、この配置が有効である。
【0152】
(第8の実施形態)
図22に、本発明の第8の実施形態に係る音声信号処理装置の構成を示す。本実施形態は、第3の実施形態における周波数分析部201と目的信号活性度計算部300との間にスペクトル補正部800を挿入した構成になっている。図23に示されるように、スペクトル補正部800は適応フィルタ801と補正フィルタ802を有する。
【0153】
前述したように、本発明の実施形態に係る音声信号処理装置は、目的音に関しては同一の成分が複数のマイクロホン101−1〜101−Mに入射することを想定している。従って、マイクロホン101−1〜101−Mの感度が経年変化やバイアス設定用のバッテリの消耗などによって変化した場合、処理精度が低下する可能性がある。目的音の到来方向が想定している方向とずれた場合にも、処理精度が低下する可能性がある。
【0154】
本実施形態では、マイクロホン101−1〜101−M毎の感度の違いや目的音の到来方向のずれを補正して、本来の性能を発揮させるために、スペクトル補正部800により、周波数分析部201で得られたスペクトル情報に対して、目的信号活性度計算部300で得られた目的信号活性度とスペクトル情報とに基づく修正を施す。
【0155】
次に、図23を用いてスペクトル補正部800での処理の詳細を述べる。ここでは、入力音声信号が2チャネルの場合について述べるが、Mチャネルへの拡張も同様である。スペクトルの補正は、チャネル間の差を適応フィルタ801により同定し、一方のチャネルのスペクトルに対して補正フィルタ802を用いて、適応フィルタ801により同定した差分を補正することにより行う。適応フィルタ801による差分同定の際、目的信号活性度信号306に従ってフィルタ更新の速さを制御するようにするようにしてもよい。
【0156】
適応フィルタ801としては、例えば、周波数領域のLMS適応フィルタを使用することが可能である。この場合、周波数領域LMS適応フィルタの計算は、以下のように行われる。
【数32】
【0157】
ここで、kはフレーム番号、Xは第1チャネルのスペクトル、Yは第2チャネルのスペクトル、Eは誤差スペクトル、Wは複素数のフィルタ係数、μはステップサイズ、(*)は複素共役である。
【0158】
補正フィルタ802の演算は、この場合、第1チャネルのスペクトルX(k,f)に対し、X′(k,f)=W(k,f)X(k,f)により行う。X′(k,f)は、補正後の第1チャネルのスペクトルである。この演算は、適応フィルタ801の演算の式(8−1)で既に行われているので、新たに補正フィルタ802を用意せず、適応フィルタ801からW(k,f)X(k,f)の信号を取り出すだけでもよい。
【0159】
目的信号活性度ρ(k)を用いて適応フィルタ801による差分同定の際のフィルタ更新の速さを制御することも可能であり、その場合は例えば、次式のように適応フィルタ801の更新式(8−2)を修正する。
【0160】
【数33】
【0161】
ここで、閾値hとしては例えば0.5を使うことができる。これは、ρ(k)の大きさが閾値より大きいときだけチャネル間の差分を求めることになるので、目的音が到来している可能性の大きいときのみフィルタ更新が行われ、雑音に適応してしまう心配がない。このような閾値を用いた適応の更新/停止の制御の他、次式のように更新分の大きさをρ(k)に比例させることも可能である。
【数34】
【0162】
式(8−3)を使ってチャネル間の差分を推定した場合、例えば、感度差が始めから大きく異なっている場合などは、ρ(k)の値が閾値を上回らないため、適応フィルタ801の更新が行われず、差分が全く求まらないこともある。しかしながら、前述したようにマイクロホンの感度が経年変化やバイアス設定用のバッテリの消耗などによって変化したことを想定した場合、感度差が急に大きくなることは少なくこのような不都合はあまり問題にならない。本実施形態は、例えば第3〜第6の実施形態で説明した音声信号処理における目的信号活性度を求める際の補正方法として用いることで、チャネル間の感度の差に影響を受けない動作が可能となる。
【0163】
(第9の実施形態)
図24に、本発明の第9の実施形態に係る音声信号処理装置の構成を示す。第8の実施形態と同様に、スペクトル補正部900が設けられ、さらに補正フィルタ学習指示部910が追加されている。
【0164】
第8の実施形態で示した感度補正は、マイクロホン101−1〜101−Mの感度が大きくは違わない場合に効果があった。第9の実施形態では、目的音の振幅または位相が各マイクロホンで同一であると想定できないような場合に、学習モードの処理を設け、第8の実施形態とは別の補正フィルタの学習を行ってチャネル間の差を補正する。
【0165】
学習後の経年変化による感度ずれや、目的話者位置の小さなずれによる位相差などを補正する場合は、学習モードを経て学習したフィルタによる補正の後、第8の実施形態で述べたような自動的な補正を行う。本実施形態は、このような二つの補正ができる構成になっている。
【0166】
目的音方向が想定している方向と異なる場合や、各マイクロホン101−1〜101−Mと目的音源との距離が異なるようなマイクロホン配置にした場合などでも、本実施形態の音声処理方法を利用可能になる。学習モードは、利用者の指示をトリガとして開始したり、装置の起動後などに装置側が自動的に学習モードに入る場合などがある。
【0167】
補正フィルタ学習指示部910は、学習モードであるか否かを表す信号を出力する。例えば、学習モードは“1”、学習モードでなければ“0”を出力する。学習モードの終了は、装置側が自動的に行ってもよいし、利用者が指示するようにしてもよい。学習モードにおいては、入力したい目的音の位置からテスト音を発生させる。利用者が発声してもよいし、スピーカなどのテスト音発生装置を目的音位置に置いて使用してもよい。テスト音は使用目的に応じて選択してよい。音声入力が目的なら音声や白色雑音を使うのが望ましい。
【0168】
図25に示されるように、補正フィルタ学習指示部910はスイッチ911により利用者の指示が入力されると、一定期間を学習モードとするように、指示入力後からの経過時間をタイマ912で測定して、補正フィルタ学習指示信号Sを出力する。タイマ912は補正フィルタ学習指示信号Sとして、スイッチ911による指示入力時点から予め定めた時間までは例えば“1”を出力し、その他の期間は“0”を出力する。タイマ912は、大抵のマイクロプロセッサに備わっている機能であるので、それを使えばよい。学習モードの終了は、このように装置側がタイマ912を用いて自動的に行ってもよいし、利用者が指示するようにしてもよい。
【0169】
スペクトル補正部900は、補正フィルタ学習指示部910からの指示に従って一定時間長の期間、例えば3秒間にわたって学習を行う。この期間を学習モードと呼ぶことにする。学習モードにおいては、入力したい目的音の位置からテスト音を発生させる。利用者が発声してもよいし、スピーカなどのテスト音発生装置を目的音位置に置いて使用してもよい。テスト音は使用目的に応じて選択してよい。音声入力が目的なら音声や白色雑音を使うのが望ましい。学習モードの終了後は、続けて第8の実施形態までに述べたような音声信号処理を行う。
【0170】
スペクトル補正部900の構成は、第8の実施形態におけるスペクトル補正部800の図23に示した構成と若干異なり、図26に示されるように図23の補正フィルタ802に相当する補正フィルタ902に加えて、補正フィルタ902の前段にもう一つの補正フィルタ901が追加されている。補正フィルタ902は、第8の実施形態で説明したと同様の働きをする。すなわち、チャネル間の小さなずれを補正する。
【0171】
一方、追加された補正フィルタ901は、チャネル間の大きな差を補正する。補正フィルタ901は、学習モード以外は固定される。補正フィルタ学習指示部910からの学習フィルタ指示信号Sが“1”の場合、適応フィルタ904は補正フィルタ901を学習させ、学習フィルタ指示信号Sが“0”の場合は補正フィルタ902を学習させる。
【0172】
例えば、LMSを用いた補正フィルタ902の学習は次式により行われる。
【数35】
【0173】
一方、補正フィルタ901の学習は、次式により行われる。
【数36】
【0174】
ここで、kはフレーム番号、Xは第1チャネルのスペクトル、Yは第2チャネルのスペクトル、X1はXに補正フィルタ901をかけた後のスペクトル、W0は補正フィルタ902のフィルタ係数、E0は補正フィルタ902の学習の際の誤差スペクトル、μ0は補正フィルタ902の学習の際のステップサイズ、W1は補正フィルタ1のフィルタ係数、E1は補正フィルタ901の学習の際の誤差スペクトル、μ1は補正フィルタ901の学習の際のステップサイズ、(*)は複素共役である。ステップサイズμ0,μ1には、例えば0.1を使う。
【0175】
式(9−1),(9−2)の補正フィルタ902の学習を行う際、第8の実施形態のように目的信号活性度を用いて適応の速度を制御してよい。補正フィルタ901のフィルタリングは、
【数37】
により行われ、補正フィルタ902のフィルタリングは
【数38】
ここで、X′(k,f)は、スペクトル補正部900の出力となる第1チャネルのスペクトルである。
【0176】
次に、図27を用いて本実施形態の処理の流れを説明する。
まず、初期設定として補正フィルタ901,902の係数の初期値を設定する(ステップS90)。補正フィルタ901を補正フィルタ1、補正フィルタ902を補正フィルタ0とすると、補正フィルタ1,0の係数の初期値を全ての周波数(f)で(1,0)としておけば、学習をしない場合でも音声信号の入力が可能となるので扱いやすい。ここで、(1,0)は複素数の1+j0を表す。ただし、補正フィルタ1,0の係数の初期値を全ての周波数(f)で(0,0)とした場合でも、学習さえ進めば動作するようになるので、初期値をどのように選ぶかは本質的な違いはない。
【0177】
次に、補正フィルタ学習指示信号Sが“1”か否か(“0”)を調べ(ステップS91)、S=“1”であれば補正フィルタ1の学習を式(9−3)(9−4)に従って行う(ステップS93)。一方、S=“0”であれば補正フィルタ1によるフィルタリングを式(9−5)に従って行い(ステップS94)、次に補正フィルタ0の学習を式(9−1)(9−2)に従って行った後、補正フィルタ0によるフィルタリングを行い(ステップS93〜S94)、この後に目的信号活性度を測定する(ステップS96)。ステップS91からステップS96までの処理は、ディジタル化された音声信号がステップS91においてフレーム単位で入力される毎に繰り返し行われる。
【0178】
本実施形態によれば、例えばマイクロホン101−1〜101−Mを目的音源の位置に対して距離が異なるように並べた場合にも、目的信号活性度の計算、目的音の検出及び目的音の強調などの処理を有効に行うことが可能となる。
【0179】
自動車内で観測される走行雑音の環境下で用いる場合、走行雑音は拡散性が強いため、マイクロホンを異なった位置や向きに置いた場合でもチャネル間の振幅の差があまりない。各マイクロホンと目的音位置との距離が異なるように並べた場合は、本実施形態のスペクトル補正によって、チャネル間で目的音が同振幅、同位相となるように補正される。一方で、等振幅だった雑音成分は補正により異なった振幅となり、目的信号活性度における雑音区間の区別が容易になり、活性度測定の精度が向上する。このように、マイクロホンを目的音から等距離に並べない場合は、拡散性雑音下での性能向上を図ることができる。
【0180】
(第10の実施形態)
図28に、本発明の第10の実施形態に係る音声信号処理装置の構成を示す。本実施形態は、修正相互相関係数に基づいて音源の到来方向を推定する技術に関する。音源の到来方向の推定は、音声強調や雑音源の同定など音声処理における種々の応用において重要である。特に、本実施形態に係る修正相互相関係数に基づく方法は、適応ビームフォーマなどの死角制御に基づく方法に比べて雑音源の信号や伝播状況に関する制約が少なく、広範囲の雑音環境で使用可能であるという利点がある。
【0181】
本実施形態に係る音声信号処理装置は、図28に示すようにマイクロホン101−1〜101−Mからの複数(M)チャネルの入力音声信号を周波数分析して周波数成分であるスペクトル情報に変換する周波数分析部201と、該スペクトル情報から音源方向を推定する音源方向推定部1000からなる。音声分析部201の処理は、第2の実施形態(図6)で説明した通りである。
【0182】
音源方向推定部1000は、クロス・パワースペクトル計算部1001、コヒーレンス関数計算部1002、補正係数発生部1003、クロス・パワースペクトル補正部1004、パワー情報計算部1005、仮想方向相関係数計算部1006及び音源方向検出部1007を有する。以下、音源方向推定部1000の各構成要素について説明する。
【0183】
クロス・パワースペクトル計算部1001は、周波数分析部201により得られたスペクトル情報から各チャネルのパワースペクトルとチャネル間のクロススペクトルを計算する。
【0184】
コヒーレンス関数計算部1002は、クロス・パワースペクトル計算部1001で得られたクロススペクトルと各チャネルのパワースペクトルから入力音声信号のチャネル間のコヒーレンス関数を算出する。
【0185】
補正係数発生部1003は、予め設定した信号の到来方向範囲の中に、信号の仮想的な到来方向である仮想方向を定め、この仮想方向から信号が到来したと仮定した場合に、入力音声信号のスペクトル情報中の当該信号成分がチャネル間で一致するようにスペクトル情報を補正するための補正係数を発生する。
【0186】
クロス・パワースペクトル補正部1004は、発生した補正係数を用いてクロススペクトルとパワースペクトルを補正し、補正クロススペクトルと補正パワースペクトルを生成する。
【0187】
パワー情報計算部1005は、補正クロススペクトルと補正パワースペクトルに基づいて入力音声信号のチャネル間の周波数毎の信号パワー比であるパワー情報を算出する。
【0188】
仮想方向相関係数計算部1006は、補正パワースペクトルと補正クロススペクトルを先のコヒーレンス関数とパワー情報に基づいて重み付けし、予め設定した1組の仮想方向に対応した相互相関係数を仮想方向毎に算出する。
【0189】
音源方向検出部1007は、仮想方向相関係数計算部1006によって計算された仮想方向毎の相互相関係数に基づき音源方向を検出して出力すると同時に、検出した音源方向における相互相関係数の値を音源相関係数として、また音源方向に対応した補正係数を音源方向補正係数として出力する。
【0190】
次に、各部の処理についてさらに詳しく説明する。クロス・パワースペクトル計算部1001、コヒーレンス関数計算部1002及びパワー情報計算1005での計算には、例えば入力音声信号のチャネル数Mが2チャネルの場合は式(3−8),(3−9),(3−10)を用い、3チャネル以上の場合は式(3−12),(3−13),(3−14)を用いる。
【0191】
補正係数発生部1003は、予め信号が到来する範囲を例えば図29に示すように設定する。到来方向は、水平方向の角度である方位角θと垂直方向の角度である仰角φの組(θ,φ)で表すものとし、例えば到来範囲の中の格子点上の方向を仮想方向とするものとする。図29の場合、到来範囲は方位角、仰角共に−40°〜40°、格子点は方位角、仰角共に5°おきであり、全ての格子点上の方向を仮想方向の組とする。図29では、作図の都合上格子点の間隔を5°にしてあるが、実際はもっと小さく、2°以下にすることが望ましい。
【0192】
格子点上の仮想方向は、dh,g=(θh,φg)で表すことにする。ここでhは格子点の方位角に関する番号、gは仰角の番号である。補正係数発生部1003は、仮想方向に対応する補正係数を次式に従って生成する。
【0193】
【数39】
【0194】
ここで、iはチャネル番号、Hi(f,θ,φ)は(θ,φ)方向に関するi番目のチャネルの補正係数、τi(θ,φ)は、i番目のマイクロホンに(θ,φ)方向からの到来信号が到達するときの基準マイクロホンでの受音信号に対する伝播遅れ時間、Di(θ,φ)は、i番目のマイクロホンにおける(θ,φ)方向の感度の指向性、fは周波数番号、Fはサンプリング周波数、LはFFTの点数である。基準マイクロホンは、例えば1番目のマイクロホンとする。
【0195】
伝搬遅延の値は、例えば図30に示すようなマイクロホン配置において、到来音の方向がd=(θ,φ)の場合、基準位置を座標の原点にとると、原点に対する時間遅れは、極座標と直交座標の関係を用いて以下のように計算できる。
【0196】
【数40】
【0197】
ここで、・は内積、cは音速である。マイクロホンiの位置が Ai=(xi, yi, zi)のときは、次式となる。
【0198】
【数41】
【0199】
Di(θ,φ)は、マイクロホン固有の特性であるので、製品情報から得るか、または測定により得る。マイクロホン感度の指向性の測定は、例えばマイクロホンへの音の入射角度を変えながら出力を測定すればよく、一般的な方法を用いればよいので、ここでは省略する。
【0200】
補正係数発生部1003で発生する補正係数は、音源方向探索の範囲とマイクロホン101−1〜101−Mの指向性が変化しなければ変化しないので、最初に係数を発生した後はテーブルに記憶しておき、格子点の番号でテーブルを参照して係数の値を読み出すようにする。
【0201】
クロス・パワースペクトル補正部1004では、補正係数発生部1003で発生した補正係数を対応するチャネルのクロススペクトルとパワースペクトルに乗じて補正クロススペクトルと補正パワースペクトルを求める。計算は、次式のように行う。
【0202】
【数42】
【0203】
ここでW′は補正後のスペクトル、*は複素共役、i,jはチャネルの番号であり、i≠jのときはクロススペクトル、i=jのときはパワースペクトルを意味する。
【0204】
式(10−4)の補正は、スペクトル情報Xi(f)をHi(f,θ,φ)で補正してからクロス・パワースペクトルを計算することと等価であり、上線を付した処理を時間平均化処理として、Hiは時間に対して変化しないことを使うと、以下のようになることに基づいている。
【数43】
【0205】
パワー情報計算部1005では、クロス・パワースペクトル補正部1004で補正したパワースペクトルからチャネル間のパワー比を求めることにより行う。パワー比の計算は、式(3−7)において元々のパワースペクトルWii(f) の代わりに、次式のように補正したものを使う。
【0206】
【数44】
【0207】
仮想方向相互相関係数計算部1006では、補正したクロス・パワースペクトルとパワー情報を用い、仮想方向(θ,φ)に関する相互相関係数を計算する。相互相関係数の計算は、式(3−11),(3−12),(3−13)において、元々のクロス・パワースペクトルとパワー情報を次式のように各々の補正したものに置き換えればよい。
【0208】
【数45】
【0209】
ここで、Kは
【数46】
であり、和における周波数fの範囲L1,L2は目的音の帯域に相当する範囲に相当する番号になるようにする。例えば、目的音の帯域を260Hzから4kHzであると定めた場合には、FFT長256、サンプリング11kHzの場合には、L1=6,L2=92とするのがよい。
【0210】
式(10−6)〜(10−10)を用い、θ=θhg,φ=φhgとし、設定した到来範囲の仮想方向d(θhg,φhg)(h=1〜Nh, g=1〜Ng)に対して仮想方向相関係数を求める。
【0211】
音源方向検出部1007は、仮想方向相互相関係数計算部1006によって計算された仮想方向毎の相関係数から、そのピークを検出して音源方向として出力する。このとき、例えば次式のように仮想方向相関係数の時間的な平均化によって安定化を図ることができる。
【0212】
【数47】
【0213】
ここで、ρ’k はk番目のフレームの処理において平均化された仮想方向相関係数、ρk はk番目のフレームの処理において求められた仮想方向相関係数、ηは学習定数であり、例えばη=0.05などを用いる。ピークの検出は、ρ’k(θ,φ) から最大値を求めればよい。
【0214】
音源方向検出部1007は、音源方向の他、音源方向のピークの値である音源相関係数と、音源方向に相当する補正係数である音源方向補正係数を出力する。このために、補正係数発生部1003の内部の補正係数のテーブルから、音源方向の格子点の番号に基づいて補正係数を取り出すようにする。
【0215】
次に、図31を用いて本実施形態における処理の流れを説明する。
まず、初期設定として音源方向の範囲を設定する(ステップS100)。次に補正係数の生成(ステップS101)、マイクロホン101−1〜101−Mからの音声信号の入力(ステップS102)、周波数分析(ステップS103)、クロススペクトルとパワースペクトルの計算(ステップS104)及びコヒーレンス関数の計算(ステップS105)を順次行う。次に、スペクトル補正(ステップS106)、パワー情報の計算(ステップS107)及び仮想方向相互相関関数の計算(ステップS108)を全ての仮想方向について繰り返し行い、最後に音源方向の検出を行う(ステップS109)。ステップS102〜S109の処理は、ディジタル化された音声信号がステップS102においてフレーム単位で入力される毎に繰り返し行われる。
【0216】
(第11の実施形態)
本発明の音声強調処理は、マイクロホン配列の正面から目的とする音である目的音が到来すると仮定しているので、目的音の方向が仮定とずれた場合は、性能が低下する可能性がある。第8の実施形態で述べた適応処理に基づいた補正により、目的音の方向ずれへの対処がある程度は可能であるが、目的音の方向が大きくずれた場合には適応処理だけでは対処が困難である。そこで、本実施形態では第10の実施形態で説明した音源方向推定処理の結果を用いて目的音の方向を追尾することにより、目的音が想定している方向とずれた場合に対する音声強調処理の安定度を向上させる。
【0217】
図32に、本実施形態に係る音声信号処理装置の構成を示す。本実施形態は、第10の実施形態で説明した音源方向推定処理で音源方向を推定し、音源方向に対応する補正係数を用いて入力のスペクトル情報の補正を行い、補正したスペクトル情報を統合し、統合スペクトル情報に対して利得制御を行って音声強調を行う。
【0218】
このような処理を実現するため、本実施形態に係る音声信号処理装置は第10の実施形態で説明した音源方向推定部1000、周波数分析部201からの複数チャネルのスペクトル情報を音源方向補正係数に基づいて補正するスペクトル情報補正部1100、補正したスペクトル情報を統合する信号統合部1101、統合スペクトル情報をコヒーレンス関数に基づいてフィルタリングするコヒーレンスフィルタ演算部1102、及びコヒーレンスでフィルタリングしたスペクトル情報をさらに音源相関係数に基づいて利得制御することにより雑音を抑圧する利得制御部1103を有する。
【0219】
周波数分析部201と音源方向推定部1000は、第10の実施形態で述べた通りである。スペクトル補正部1100では、音源方向推定部から出力される音源方向補正係数を用いて複数チャネルのスペクトル情報を補正する。このスペクトル情報の補正は、音源方向からの到来音に対して相関係数を最大化する働きがある。音源方向を(θo,φo)、音源相関係数をρ(θo,φo)、音源方向補正係数をHi(k,θo,φo)とすれば、スペクトル情報の補正は
【数48】
に従って行われる。ここでiはチャネル番号、X’i(k)は補正後のスペクトル情報、Xi(k)は補正前のスペクトル情報である。
【0220】
以降は、補正スペクトル情報X’i(k) を用いて信号統合部1101で1チャネルのスペクトル情報に統合し、この統合スペクトル情報に対してコヒーレンスフィルタ演算と利得制御を行えばよい。利得制御のための利得としては、前述したようにρ(θo,φo)を使う。これ以降の処理は、第10の実施形態と同様であるので省略する。
【0221】
次に、図33を用いて本実施形態における処理の流れを説明する。
まず、初期設定として音源方向範囲を設定し、かつ第10の実施形態で説明したように補正係数を発生する(ステップS200)。次に、マイクロホン101−1〜101−Mからの音声信号の入力(ステップS201)、周波数分析(ステップS202)、音源方向の推定(ステップS203)、スペクトル情報の補正(ステップS204)、スペクトル情報の統合(ステップS205)、コヒーレンス関数の演算(ステップS206)及び利得制御の処理(ステップS207)をディジタル化された音声信号がステップS201においてフレーム単位で入力される毎に繰り返し行う。
【0222】
(第12の実施形態)
次に、本発明の第12の実施形態について説明する。これまでに述べてきた修正相互相関係数の計算においては、式(3−13)に示したように、相互相関の正規化の際に入力スペクトル情報のパワーの幾何平均を用いていたが、本実施形態では幾何平均の代わりに入力スペクトル情報を統合して得られる統合スペクトル情報のパワーを用いる場合について述べる。
【0223】
複数チャネルの信号をビームフォーマなどによって統合する際には、ビームフォーマの働きによって方向性の雑音などが抑圧されている場合がある。このような場合、相互相関または修正相互相関係数による利得制御においては、既に抑圧されている分を考慮して軽めに利得制御した方がよい。本実施形態で説明する利得係数を用いると、抑圧された分が考慮されて利得制御が適正化できる。
【0224】
本実施形態に係る音声信号処理装置は、図34に示すように空間的に離れて配置された複数のマイクロホン101−0〜101−Mから出力される複数チャネルの入力音声信号を周波数分析して複数チャネルのスペクトル情報を生成する周波数分析部201と、複数のスペクトル情報から目的音の活性度に相当する値である利得係数を計算する修正利得係数計算部2000Aとからなる。
【0225】
修正利得係数計算部2000Aは、クロス・パワースペクトル計算部2001、コヒーレンス関数計算部2002、パワー情報計算部2003、信号統合部2004、統合信号パワースペクトル計算部2005及び利得係数計算部2006からなる。
【0226】
クロス・パワースペクトル計算部2001は、スペクトル情報から入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出する。
【0227】
コヒーレンス関数計算部2002は、複数チャネル間のクロススペクトルと各チャネルのパワースペクトルからコヒーレンス関数を算出する。
【0228】
パワー情報計算部2003は、複数チャネルのパワースペクトルから入力音声信号のチャネル間の信号パワーに関するパワー情報を算出する。
【0229】
信号統合部2004は、複数のスペクトル情報を統合して1チャネルの統合スペクトル情報を生成する。
【0230】
統合信号パワースペクトル計算部2005は、統合スペクトル情報のパワースペクトルを計算する。
【0231】
利得係数計算部2006は、クロススペクトルをコヒーレンス関数とパワー情報に基づいて重み付けし、重み付けたクロススペクトルをさらに統合信号パワースペクトルに基づいて正規化して得られる利得係数を計算する。
【0232】
周波数分析部201、クロス・パワースペクトル計算部2001、コヒーレンス関数計算部2002、パワー情報計算部2003及び信号統合部2004は第10の実施形態と同様であるため、説明を省略する。
【0233】
統合信号パワースペクトル計算部2005では、統合スペクトル情報のパワースペクトルが計算される。例えば、統合スペクトル情報をZ(f)として、統合処理が2チャネルの信号の加算平均Z(f)={X1(f)+X2(f)}/2であったとすると、Z(f)のパワースペクトルは、
【数49】
で求められる。Z(f)が異なる係数を持つビームフォーマから得られる統合信号であったとしても、同様である。
【0234】
利得係数計算部2006で計算される利得係数σは、相互相関係数の代わりに利得制御に用いる係数であり、M=2の場合は次式により計算できる。
【数50】
【0235】
なお、式(12−2),(12−3)はそれぞれ式(3−12),(3−13)と同じである。以上の計算により得られる利得係数σは、Wzzのパワーにおいて既に抑圧された雑音の分が除かれているので、利得を過小に計算する可能性が低くなり、性能を改善できる可能性がある。利得係数計算部2006は、パワー比とコヒーレンス関数で重み付けた利得係数であるという意味の修正利得係数σを出力する。
【0236】
次に、図35を用いて本実施形態における処理の流れについて説明する。マイクロホン101−1〜101−Mからの音声信号の入力(ステップS301)及び周波数分析(ステップS302)の後、修正理作係数計算部2000Aにおいてクロススペクトルとパワースペクトルの計算(ステップS303)、、パワー情報の計算(ステップS304)、コヒーレンス関数の計算(ステップS305)、信号統合(スペクトル情報の統合)(ステップS306)、統合スペクトル情報(統合信号)のパワースペクトルの計算(ステップS307)及び修正利得係数の計算(S308)をディジタル化された音声信号がステップS301においてフレーム単位で入力される毎に繰り返し行う。
【0237】
(第13の実施形態)
図36に、本発明の第13の実施形態に係る音声信号処理装置の構成を示す。本実施形態は式(12−3)においてパワー情報pij(f)を全て1とおいて、パワー情報を用いないようにした例であり、修正利得係数計算部2000Bでは図34中に示したパワー情報計算部2003が除去されている。
【0238】
(第14の実施形態)
次に、本発明の第14の実施形態として、第12の実施形態で求めた利得係数に基づいて雑音を抑圧し、目的音声を強調する音声強調処理装置について説明する。
【0239】
本実施形態に係る音声信号処理装置は、図36に示すように空間的に離れて配置された複数のマイクロホン101−0〜101−Mから出力される複数チャネルの入力音声信号を周波数分析してMチャネルのスペクトル情報を生成する周波数分析部201及びスペクトル情報から目的音の活性度に相当する値である利得係数を計算する図34に示した修正利得係数計算部2000Aに加えて、利得制御部2101及びコヒーレンスフィルタ演算部2102を有する。
【0240】
利得制御部2101は、修正利得係数計算部2000Aで計算した利得係数に基づいて、修正利得係数計算部2000A内の信号統合部2004で得られた統合スペクトル情報に対して利得の制御を行う。コヒーレンスフィルタ演算部2102は、修正利得係数計算部2000A内のコヒーレンス関数計算部2002で得られたコヒーレンス関数に基づいて、利得制御部2101から出力されるスペクトル情報をフィルタリングする。
【0241】
次に、図38を用いて本実施形態における処理の流れを説明する。
マイクロホン101−1〜101−Mからの音声信号の入力(ステップS401)及び周波数分析(ステップS402)の後、修正利得係数計算部2000Aにおいてクロススペクトル及びパワースペクトルの計算(ステップS403)、パワー情報の計算(ステップS404)、コヒーレンス関数の計算(ステップS405)、スペクトル情報の統合(ステップS406)、統合スペクトル情報のパワースペクトルの計算(ステップS407)及び利得係数の計算(ステップS408)を行う。次に、計算された利得係数に基づく利得制御処理(ステップS409)とコヒーレンスフィルタ演算の処理(ステップS410)を行う。以上のステップS401〜S410の処理をディジタル化された音声信号がステップS401においてフレーム単位で入力される毎に繰り返し行う。
【0242】
(第15の実施形態)
図39に、本発明の第15の実施形態に係る音声信号処理装置の構成を示す。本実施形態は式(10−6)のパワー情報pij(f)を1とおいて、パワー情報を用いないようにした例であり、修正利得係数計算部2000Bでは図37中に示したパワー情報計算部2003が除去されている。
【0243】
(第16の実施形態)
次に、第12の実施形態で説明した利得係数を用いて音源方向を推定する本発明の第16の実施形態について説明する。本実施形態に係る音声信号処理装置は、図40に示すようにマイクロホン101−1〜101−Mからの複数(M)チャネルの入力音声信号を周波数分析して周波数成分であるスペクトル情報に変換する周波数分析部201と、該スペクトル情報から音源方向を推定する音源方向推定部3000からなる。音声分析部201の処理は、第2の実施形態(図6)で説明した通りである。
【0244】
音源方向推定部3000は、クロス・パワースペクトル計算部3001、コヒーレンス関数計算部3002、補正係数発生部3003、クロス・パワースペクトル補正部3004、パワー情報計算部3005、仮想統合パワースペクトル計算部3006、仮想方向利得係数計算部3007及び音源方向検出部3008を有する。以下、音源方向推定部3000の各部について説明する。
【0245】
クロス・パワースペクトル計算部3001は、周波数分析部201により得られたスペクトル情報から各チャネルの入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出する。
【0246】
コヒーレンス関数計算部3002は、複数チャネル間のクロススペクトルと各チャネルのパワースペクトルから入力音声信号の複数チャネル間のコヒーレンス関数を算出する。
【0247】
補正係数発生部3003は、信号の仮想的な到来方向である仮想方向から到来する信号がチャネル間で一致するように補正するための係数を複数の仮想方向から成る1組の仮想方向群に対応して発生する。
【0248】
クロス・パワースペクトル補正部3004は、補正係数発生部3003で発生された補正係数に基づいてクロススペクトルとパワースペクトルを補正し、補正クロススペクトルと補正パワースペクトルを生成する。
【0249】
パワー情報計算部3005は、補正クロススペクトルと補正パワースペクトルに基づいて入力音声信号のチャネル間の信号パワーに関するパワー情報を算出する。
【0250】
仮想統合パワースペクトル計算部3006は、周波数分析部201で得られた複数チャネルのスペクトル情報を補正係数発生部3003で発生された補正係数により補正してから統合して得られる統合スペクトル情報に対するパワースペクトルを、クロス・パワースペクトル補正部3004で得られた補正クロススペクトルと補正パワースペクトルに基づいて計算する。
【0251】
仮想方向利得係数計算部3007は、クロス・パワースペクトル補正部で得られた補正クロススペクトルに対し、コヒーレンス関数とパワー情報に基づいて重み付けを行い、さらに仮想統合パワースペクトルに基づいて正規化を行った後、1組の仮想方向に対応した利得係数を求める。
【0252】
音源方向検出部3008は、仮想方向利得係数計算部3007において計算された仮想方向毎の利得係数に基づいて音源方向を検出し出力すると同時に、検出した音源方向に対応した利得係数の値を音源利得係数として、また音源方向に対応した補正係数を音源方向補正係数として出力する。
【0253】
ここで、周波数分析部201、クロス・パワースペクトル計算部3001、コヒーレンス関数計算部3002、補正係数発生部3003、クロス・パワースペクトル補正部3004及びパワー情報計算部3005の処理については、第10の実施形態に係る相関係数に基づく音源方向推定と同一であるので、詳細な説明を省略する。
【0254】
第12〜第14の実施形態における利得係数の計算においては、利得係数σの式の分母の値を求める際、複数チャネルのスペクトル情報を統合してそのパワースペクトルを求めている。これに対し、本実施形態ではスペクトル情報の段階での統合は行わず、パワースペクトルとクロススペクトルを補正して、統合信号のパワーを直接求める。これは実際に信号を統合してからパワーを求めるよりも、計算量と記憶領域の点で有利である。すなわち、スペクトル情報を統合してからパワーを求めると、仮想方向毎にパワースペクトル推定のための時間平均化が必要となるが、本実施形態によればこれを避けることが可能である。
【0255】
まず、各チャネルのスペクトル情報に補正係数発生部3003で発生した補正係数を乗じてから信号を統合したと仮定し、その処理式をここでは加算平均とする。このときの統合信号Z(f)は、
【数51】
と表せる。もちろん他の統合方法でもよい。
【0256】
このとき、統合信号Z(f)のパワースペクトルは、
【数52】
となる。ここで、式(16−2)では添え字は省略してある。また、上線は時間平均を表す。従って、クロススペクトルとパワースペクトルを一度求めておけば、後は補正係数を式(16−2)に従って乗じるだけで、仮想方向(θ,φ)に対応した利得係数σ(θ,φ)の分母の値が求まる。
【0257】
仮想方向利得係数計算部3007では、まずクロス・パワースペクトル補正部3004で求められた仮想方向に対応した補正クロススペクトル
【数53】
に対し、コヒーレンス関数γ2(f)と補正したパワー情報pij(f,θ,φ)に基づいて重み付けを行う。さらに、仮想方向利得係数計算部3007では、仮想統合パワースペクトル計算部3006で求められた仮想的な統合信号パワーWzz(f,θ,φ)に対し、コヒーレンス関数γ2(f)に基づいて重み付けを行い、先の式(2−3)により仮想方向に対応した利得係数である仮想方向利得係数σ(θ,φ)を求める。
【0258】
音源方向検出部3008の処理は、第10の実施形態における音源方向推定部10007と同様でよい。この場合、音源方向検出部3008が検出した音源方向に相当する利得係数σ(θo,φo)を音源方向利得係数と呼ぶことにする。さらに、音源方向検出部3008は第10の実施形態1と同様、音源方向(θo,φo)の他に、音源方向の補正係数Hi(θo,φo)を音源方向補正係数として出力する。以上により、利得係数に基づいて音源方向を推定することができる。
【0259】
次に、図41を用いて本実施形態における処理の流れを説明する。
まず、初期設定として音源方向の範囲を設定する(ステップS500)。次に補正係数の生成(ステップS501)、マイクロホン101−1〜101−Mからの音声信号の入力(ステップS502)、周波数分析(ステップS503)、クロススペクトルとパワースペクトルの計算(ステップS504)及びコヒーレンス関数の計算(ステップS505)を順次行う。次に、スペクトル補正(ステップS506)、パワー情報の計算(ステップS507)、仮想統合パワースペクトルの計算(ステップS508)及び仮想方向利得係数の計算(ステップS509)を全ての仮想方向について繰り返し行い、最後に音源方向の検出を行う(ステップS510)。ステップS502〜S510の処理は、ディジタル化された音声信号がステップS502においてフレーム単位で入力される毎に繰り返し行われる。
【0260】
(第17の実施形態)
次に、本発明の第17の実施形態として、第16の実施形態で説明した利得係数に基づく音源方向推定処理により推定した音源方向を用い、目的音が移動した場合でもその方向を追尾して音声強調を行うことにより、音声強調を安定に行うことができるようにするための処理について説明する。
【0261】
本実施形態の音声信号処理装置は、図42に示すように周波数分析部201、音源方向推定部3000、周波数分析部201からの複数チャネルのスペクトル情報を音源方向補正係数に基づいて補正するスペクトル情報補正部3100、補正したスペクトル情報を統合する信号統合部3101、統合スペクトル情報をコヒーレンス関数に基づいてフィルタリングするコヒーレンスフィルタ演算部3102、及びフィルタリングしたスペクトル情報をさらに音源利得係数に基づいて利得制御することにより雑音を抑圧する利得制御部3103を有する。
【0262】
ここで、周波数分析部201、音源方向推定部3000及びスペクトル情報補正部3100は第16の実施形態と同様であり、またコヒーレンスフィルタ演算部3002は第11の実施形態と同様である。
【0263】
信号統合部3101は、音源方向推定部3000内の図40に示した仮想統合信号パワースペクトル計算部3006において行っている仮想統合信号パワースペクトルの計算の際に仮定している信号の統合と同じ統合の式を用いて、補正されたスペクトル情報の統合を行う。すなわち、仮想統合信号パワースペクトル計算部3006において2チャネルの加算平均を想定していれば、信号統合部3101でのスペクトル情報の統合にも加算平均を用いる。この場合、音源方向推定部3000で得られた音源方向を(θo,φo)とし、これに対応する補正係数をH1(f,θo,φo),H2(f,θo,φo)とする。この場合、音源方向に対応して補正した統合信号Z(f,θo,φo)は、次式のようになる。
【0264】
【数54】
【0265】
X1(f),X2(f)は、周波数分析部で得られていた各チャネルのスペクトル情報である。
【0266】
利得制御部3103は、音源方向推定部3000で推定された音源方向に対応する利得係数σ(θo,φo)を用い、これに基づいて式(16−1)に従って補正した統合信号Z(f,θo,φo)の振幅を制御する。制御の方法としては、単純な比例のほか、第1実施形態で述べた通りの方法を用いればよい。
【0267】
次に、図43を用いて本実施形態における処理の流れを説明する。
まず、初期設定として音源方向の範囲を設定し、さらに補正係数を発生する(ステップS600)。次にマイクロホン101−1〜101−Mからの音声信号の入力(ステップS601)、周波数分析(ステップS602)、音源方向の推定(ステップS603)、スペクトル情報の補正(ステップS604)、スペクトル情報の統合(ステップS605)、コヒーレンスフィルタ演算(ステップS606)及び利得制御(ステップS607)をディジタル化された音声信号がステップS601においてフレーム単位で入力される毎に繰り返し行う。
【0268】
(第18の実施形態)
次に、本発明の第18の実施形態として、適応フィルタを用いて入力音声信号のチャネル間の差を適応的に補正し、目的音の方向が想定とわずかにずれる場合のほか、反射による影響も低減する音声信号処理装置について説明する。第11の実施形態及び第17の実施形態で述べた音源方向推定に基づく追尾型の安定化方法は、目的音のずれには効果的であるが、反射などによるチャネル間の信号のずれには効果が小さい。反射の状況は、受音位置により異なることが多いため、チャネル間のずれを生じる原因になる。そこで、本実施形態では適応フィルタを用いた安定化方法を用いる。
【0269】
適応フィルタを用いた安定化方法については、既に第8の実施形態において述べている。第8の実施形態では相関係数による目的信号活性度を求める前に、相関係数により適応フィルタを制御してチャネル間の補正を行っている。この場合は、相関係数を求める際の時間遅れがあるため、この遅延よりもゆっくりと変化する外乱要因、すなわちマイクロホンのバイアス電圧変化や経年変化等による感度変化などに効果がある。これに対し、本実施形態は反射波がある場合や頻繁に目的音が動く場合など、入力音声信号のチャネル間のずれの状況の変化が比較的速い場合に効果がある。
【0270】
本実施形態に係る音声信号処理装置は、図示しない空間的に離れて配置された複数のマイクロホンと、該マイクロホンから入力される複数チャネルの入力音声信号を周波数分析して複数チャネルのスペクトル情報を生成する周波数分析部に加えて、図44に示すように周波数分析部からの複数チャネルのスペクトル情報を入力として目的信号活性度を推定する安定化目的信号活性度推定部4000からなる。
【0271】
安定化目的信号活性度推定部4000は、入力音声信号のチャネル間の修正した相互相関係数である第1の修正相互相関係数を計算する第1の修正相互相関係数計算部4001と、第1の修正相互相関係数に基づき複数チャネルのスペクトル情報の間の差を適応的に補正して補正スペクトル情報を得る適応スペクトル補正部4002と、補正スペクトル情報から第2の修正相互相関係数を計算する第2の修正相互相関係数計算部4003からなる。周波数分析部、第1及び第2の修正相互相関係数計算部4001,4003は、既に述べたものと同一の処理を行う。
【0272】
適応スペクトル補正部4002は、図46に示すように周波数分析部で得られた各チャネルのスペクトル情報の間の伝達関数を適応フィルタ4103によって同定し、その差分を補正する。このとき第1の修正相互相関係数計算部4001から出力される修正相互相関係数に基づいて適応フィルタ4103を制御し、目的音が到来している間のみ適応フィルタ4103を更新することによって雑音への適応を避け、目的音に関する伝達関数のみ推定するようにする。
【0273】
第1修正相互相関係数の計算は、クロススペクトルとパワースペクトルを求める際の時間平均に起因する時間遅れがあるので、第1の修正相互相関係数計算部4001から出力される相関係数は、現時点からその時間遅れ分だけ過去の入力データに基づいて計算されたものである。従って、適応フィルタ4103に入力するスペクトル情報と相関係数を同期させるため、遅延回路4101,4102により相関係数計算と同じだけ遅延させたスペクトル情報を用いるようにする。
【0274】
時間遅れの値は、クロス・パワースペクトルの平均化に要する時間長をTとすると、T/2である。フレーム数で見ると、平均化フレーム数をTaとしてTaが偶数の場合、遅れはTa/2フレームであるが、Taが奇数の場合は(Ta−1)/2で計算できる。Taは奇数の方が望ましい。
【0275】
適応フィルタ4103を用いた演算は、第8の実施形態で既に述べたように例えば周波数領域のLMS適応フィルタを用いて行い、同定されたフィルタW(f)を参照信号に用いたチャネル側のスペクトル情報に乗じて補正する。第2の修正相互相関係数計算部4003は、適応スペクトル修正部4002で補正されたスペクトル情報から第2の修正相互相関係数を計算して出力する。
【0276】
次に、図45を用いて本実施形態における処理の流れを説明すると、まず入力音声信号のチャネル間の修正した相互相関係数である第1の修正相互相関係数を計算し(ステップS701)、これに基づいて各チャネルのスペクトル情報の間の伝達関数の差分を補正することにより適応スペクトルの補正を行い(ステップS702)、最後に補正された適応スペクトル情報から第2の修正相互相関係数を計算して目的信号活性度として出力する(ステップS703)。
【0277】
本実施形態では、適応の制御とフィルタの更新を同期したデータにより行うため、修正相互相関係数計算を時間遅れを考慮して2回行っている。これにより、状況がすばやく変化する場合にも、雑音の影響を抑えてチャネル間の差を適応的に正確に補正することが可能となる。
【0278】
(第19の実施形態)
第18の実施形態では、修正相互相関係数計算に関して適応的に安定化させる場合を述べたが、修正相互相関係数の代わりに、第12の実施形態で述べた利得係数の計算で同様な処理を行うことが可能である。
【0279】
本実施形態に係る音声信号処理装置は、図示しない空間的に離れて配置された複数のマイクロホンと、該マイクロホンから入力される複数チャネルの入力音声信号を周波数分析して複数チャネルのスペクトル情報を生成する周波数分析部に加えて、図45に示すように周波数分析部からの複数チャネルのスペクトル情報を入力として目的信号活性度を推定する安定化目的信号活性度推定部5000からなる。
【0280】
安定化目的信号活性度推定部5000は、複数チャネルのスペクトル情報から目的音の活性度に相当する値である第1の修正利得係数を計算する第1の修正利得係数計算部5001と、第1の修正利得係数に基づき複数チャネルのスペクトル情報の間の差を適応的に補正して補正スペクトル情報を得る適応スペクトル補正部5002と、補正スペクトル情報から第2の修正利得係数を計算する第2の修正利得係数計算部5003からなる。第1及び第2の修正利得係数計算部5001,5003は、第12の実施形態で述べたものと同一の処理を行う。
【0281】
ところで、第1、第2、第4、第6、第11、第14及び第17の各実施形態においては、相関係数または利得係数の算出結果を用いて音声強調処理を行っている。これら第1、第2、第4、第6、第11、第14及び第17の各実施形態においても、図46で説明した同様に、相関係数または利得係数の計算による時間遅延を考慮して、相関係数または利得係数と入力のスペクトル情報が同期するように、相関係数または利得係数計算時の入力のスペクトル情報を遅延させて処理することが望ましい。この場合の遅延フレーム数は、図46で説明したと同様に、クロススペクトルとパワースペクトル推定のための時間平均化フレーム数の半分の値に選ばれる。このような遅延処理の導入は自明のことであるため、第1、第2、第4、第6、第11、第14及び第17の各実施形態の説明では省略されている。
【0282】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0283】
【発明の効果】
以上説明したように、本発明によれば突発雑音や拡散性雑音を含む実環境雑音下で雑音を抑圧することが可能となり、雑音環境下において目的音声が到来しているか否かを高精度で検出したり、ハンズフリー通話や音声認識の前処理に好適な音声信号処理を行うことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声信号処理装置の構成を示すブロック図
【図2】同実施形態における統合音声信号に対する利得制御に用いる種々の関数を示す図
【図3】同実施形態における音声信号処理手順を示すフローチャート
【図4】同実施形態におけるマイクロホンの配置例を示す図
【図5】同実施形態に係る信号統合部に適応ビームフォーマを用いた音声信号処理装置の構成を示すフローチャート
【図6】本発明の第2の実施形態に係る音声信号処理装置の構成を示すフローチャート
【図7】同実施形態における音声信号処理手順を示すフローチャート
【図8】本発明の第3の実施形態に係る音声信号処理装置の構成を示すブロック図
【図9】同実施形態における音声信号処理手順を示すフローチャート
【図10】本発明の第4の実施形態に係る音声信号処理装置の構成を示すブロック図
【図11】同実施形態における音声信号処理手順を示すフローチャート
【図12】同実施形態における検出処理手順を示すフローチャート
【図13】同実施形態における検出処理の具体例を示す図
【図14】本発明の第5の実施形態に係る音声信号処理装置の構成を示すブロック図
【図15】同実施形態における音声信号処理手順を示すフローチャート
【図16】本発明の第6の実施形態に係る音声信号処理装置の構成を示すブロック図
【図17】同実施形態における音声信号処理手順を示すフローチャート
【図18】本発明の第7の実施形態に係るマイクロホンの配置例を示す図
【図19】同実施形態に係るマイクロホンの他の配置例を示す図
【図20】図19(B1)〜(B4)の配置における到来方向を方位角と仰角を用いて表した図
【図21】図19(B1)〜(B4)の配置における2つのマイクロホンの位相が一致する到来方向と2つのマイクロホンの感度が一致する到来方向の関係を示す図
【図22】本発明の第8の実施形態に係る音声信号処理装置の構成を示すブロック図
【図23】同実施形態におけるスペクトル補正部の構成を示すブロック図
【図24】本発明の第9の実施形態に係る音声信号処理装置の構成を示すブロック図
【図25】同実施形態における補正フィルタ学習指示部の構成を示すブロック図
【図26】同実施形態におけるスペクトル補正部の構成を示すブロック図
【図27】同実施形態におけるスペクトル補正部の処理手順を示すフローチャート
【図28】本発明の第10の実施形態に係る音声信号処理装置の構成を示すブロック図
【図29】同実施形態における到来方向推定時の仮想点の設定について説明する図
【図30】同実施形態における伝搬遅延の計算法について説明する図
【図31】同実施形態における音声信号処理手順を示すフローチャート
【図32】本発明の第11の実施形態に係る音声信号処理装置の構成を示すブロック図
【図33】同実施形態における音声信号処理手順を示すフローチャート
【図34】本発明の第12の実施形態に係る音声信号処理装置の構成を示すブロック図
【図35】同実施形態における音声信号処理手順を示すフローチャート
【図36】本発明の第13の実施形態に係る音声信号処理装置の構成を示すブロック図
【図37】本発明の第14の実施形態に係る音声信号処理装置の構成を示すブロック図
【図38】同実施形態における音声信号処理手順を示すフローチャート
【図39】本発明の第15の実施形態に係る音声信号処理装置の構成を示すブロック図
【図40】本発明の第16の実施形態に係る音声信号処理装置の構成を示すブロック図
【図41】同実施形態における音声信号処理手順を示すフローチャート
【図42】本発明の第17の実施形態に係る音声信号処理装置の構成を示すブロック図
【図43】同実施形態における音声信号処理手順を示すフローチャート
【図44】本発明の第18の実施形態に係る音声信号処理装置の構成を示すブロック図
【図45】同実施形態における音声信号処理手順を示すフローチャート
【図46】同実施形態における適応スペクトル補正部の構成を示すブロック図
【図47】本発明の第19の実施形態に係る音声信号処理装置の構成を示すブロック図
【符号の説明】
101−1〜101−M…マイクロホン
102…相互相関係数計算部
103…信号統合部
104…利得制御部(調整部)
106…適応ビームフォーマ
201…周波数分析部
202…相互相関係数計算部
203…信号統合部
204…利得制御部(調整部)
300…目的信号活性度計算部
301…クロス・パワースペクトル計算部
302…コヒーレンス関数計算部
303…パワー情報計算部
304…修正スペクトル計算部
305…重み付き相互相関係数計算部
401…検出処理部(判定部)
501…利得制御部(調整部)
601…コヒーレンスフィルタ演算部
701…無指向性マイクロホン
702,711,712…指向性マイクロホン
800,900…スペクトル補正部
801,904…適応フィルタ
802,901,902…補正フィルタ
910…補正フィルタ学習部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an audio signal processing method, apparatus, and program for processing input audio signals obtained by a plurality of microphones. More specifically, the present invention relates to a technique for emphasizing and outputting a target audio signal from an input audio signal as one of noise suppression techniques used in, for example, hands-free communication and voice recognition.
[0002]
[Prior art]
In the field of voice signal processing, noise reduction has become an important issue with the practical use of voice recognition and mobile phones. As noise suppression techniques, there are, for example, spectral subtraction processing assuming noise continuity and microphone array processing using a plurality of microphones, which are used when one microphone is used. For microphone array processing, an adaptive microphone array that exhibits high noise suppression capability even with a small number of microphones is promising in terms of cost. The adaptive microphone array suppresses noise by automatically directing a blind spot with low sound reception sensitivity in the noise direction, and is sometimes called an adaptive beamformer (adaptive BF).
[0003]
The adaptive beamformer is effective against highly directional noise, but other noises, such as (1) high level diffuse noise such as noise generated while driving in a car, (2) high speed The noise is not sufficiently suppressed, for example, noise with a rapid change in the sound transmission system, such as a sound radiated from a moving vehicle, or (3) noise with a very short duration such as sudden noise. Noise such as these is very common in the real world and needs to be dealt with.
[0004]
Non-Patent
On the other hand, in Non-Patent
[0005]
Non-Patent Document 3 discloses a method of determining the presence of a target signal by performing threshold processing on a coherence function in order to perform signal detection processing using, for example, cross-correlation between signals of a plurality of channels.
Non-Patent Document 4 discloses a method of detecting a target sound by performing threshold processing on a cross-correlation coefficient between audio signals of a plurality of channels output from a plurality of microphones.
Non-Patent Document 5 describes a method of integrating audio signals of two or more channels into one channel using an adaptive beamformer.
Non-Patent Document 6 discloses a method of maximum likelihood estimation of a generalized cross-correlation function between channels of a plurality of channels of an audio signal using a weight function.
[0006]
[Non-patent document 1]
"Using the coherence function for noise reduction", IEEE Proceedings-I Vol. 139, no. 3, 1992
[0007]
[Non-patent document 2]
"Enhancement of speech degraded by coherent and incoherent noise using a cross-spectral estimator", IEEE Trans. on Seach and Audio processing, Vol. 5, No. 5, 1997
[0008]
[Non-Patent Document 3]
"Knowing the What from the Weeds in Noisy Speech", H .; Agaiby and T.A. J. Moir, Proc. of EUROSPEECH '97, vol. 3, pp. 111-112, 1997
[0009]
[Non-Patent Document 4] "Study on Target Sound Detection Using Two Directional Microphones", Nagata et al., Journal of the Institute of Electronics, Information and Communication Engineers, Vol. J83-A No. 2 (2000))
[0010]
[Non-Patent Document 5]
“The adaptive filter theory”, written by Hyakin, published by PRENTICE HALL.
[0011]
[Non-Patent Document 6]
"The Generalized Correlation Method for Estimation of Time Delay", C.I. H. Knapp and G .; C. Carter, IEEE Trans, Acoustic. , Speech, Signal Processing, Vol. ASSP-24, No. 4, pp. 320-327, 1976
[0012]
[Problems to be solved by the invention]
The technique described in
[0013]
SUMMARY OF THE INVENTION It is an object of the present invention to provide an audio signal processing method, apparatus, and program capable of suppressing noise under real environment noise including sudden noise and enhancing a target sound component.
[0014]
Another object of the present invention is to perform detection of whether or not a target sound has arrived with high accuracy.
[0015]
[Means for Solving the Problems]
In order to solve the above-described problems, according to a first aspect of the present invention, a cross-correlation coefficient between input audio signals of a plurality of channels output from a plurality of microphones spatially separated is obtained. By adjusting the magnitude of the integrated audio signal obtained by integrating the input audio signal into one channel according to the cross-correlation coefficient, an output audio signal in which the target sound component is emphasized is generated.
[0016]
According to a second aspect of the present invention, a plurality of channels of spectrum information is generated by frequency-analyzing a plurality of channels of input audio signals output from each microphone, and a cross-correlation coefficient between the plurality of channels of spectrum information is obtained. By adjusting the magnitude of the integrated spectral signal obtained by integrating the spectral information into one channel according to the cross-correlation coefficient, a spectral signal in which the component of the target sound is emphasized is obtained.
[0017]
According to a third aspect of the present invention, a plurality of channels of spectrum information is generated by frequency-analyzing a plurality of channels of input speech signals output from each microphone, and the power spectrum and the power spectrum of each channel of the input speech signal are obtained from the spectrum information. Find the cross spectrum between channels. Further, a coherence function between spectrum information of each channel is obtained from the power spectrum and the cross spectrum. Next, the power spectrum and the cross spectrum are corrected using the coherence function, and a cross-correlation coefficient between channels of the input audio signal, which is weighted based on the corrected power spectrum and the cross spectrum, is obtained.
[0018]
According to a fourth aspect of the present invention, a plurality of channels of spectrum information are generated by frequency-analyzing a plurality of channels of input speech signals output from each microphone, and the power spectrum and the power spectrum of each channel of the input speech signal are obtained from the spectrum information. Find the cross spectrum between channels. Further, a coherence function between spectrum information of each channel is obtained from the power spectrum and the cross spectrum, and power information on signal power between channels of the input audio signal is obtained from the spectrum information. Next, the power spectrum and the cross spectrum are corrected using the coherence function and the power information, and a cross-correlation coefficient between the channels of the input audio signal weighted based on the corrected power spectrum and the cross spectrum is obtained.
[0019]
In the third or fourth aspect, it may be determined whether or not the target sound has arrived at the microphone by performing threshold processing on the cross-correlation coefficient using a predetermined threshold. The spectrum information may be integrated into one channel to obtain an integrated spectrum signal, and the size of the integrated spectrum signal may be adjusted according to the cross-correlation coefficient. Each frequency component of the integrated spectrum signal may be weighted according to the coherence function. According to the cross-correlation coefficient, at least one of the phase and the amplitude of the spectral information of a plurality of channels may be corrected so as to match between the channels.
[0020]
In the third and fourth aspects, the plurality of microphones may include at least one omnidirectional microphone and at least one directional microphone, or at least two directional microphones having different directional axes. May be included. In the latter case, at least two directional microphones may be arranged such that the axis of directivity does not exist in the same plane and the angle between the directionality axis and the arrival direction of the target sound coincides with each other. preferable.
[0021]
Further, according to another aspect of the present invention, there is provided a program as described below for executing the above-described audio signal processing by a computer, or a storage medium storing the program.
[0022]
(1) Processing for obtaining a cross-correlation coefficient between input audio signals of a plurality of channels output from a plurality of microphones spatially separated, and integrating the input audio signals into one channel to output an integrated audio signal And a process for causing a computer to perform a process of generating an output audio signal by adjusting the magnitude of the integrated audio signal in accordance with the cross-correlation coefficient.
[0023]
(2) A process of generating frequency information of a plurality of channels by frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones spatially separated from each other, and a mutual phase relationship between the spectrum information of the plurality of channels A program for causing a computer to perform a process of obtaining a number, a process of integrating spectral information into one channel to generate an integrated spectrum signal, and a process of adjusting the size of the integrated spectrum signal according to a cross-correlation coefficient.
[0024]
(3) a process of generating frequency information of a plurality of channels by frequency-analyzing input voice signals of a plurality of channels output from a plurality of microphones arranged spatially apart from each other; Processing for obtaining a power spectrum and a cross spectrum between channels, processing for obtaining a coherence function between spectral information of a plurality of channels from the power spectrum and the cross spectrum, processing for correcting the power spectrum and the cross spectrum using the coherence function, and correction And calculating a cross-correlation coefficient between channels of the input audio signal, which is weighted based on the obtained power spectrum and cross spectrum.
[0025]
(4) a process of generating frequency information of a plurality of channels by frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones arranged spatially apart from each other; Processing for obtaining a power spectrum and a cross spectrum between channels; processing for obtaining a coherence function between spectral information of a plurality of channels from the power spectrum and the cross spectrum; and power information relating to signal power between channels of an input voice signal based on the spectral information. , Correcting the power spectrum and the cross spectrum using the coherence function and the power information, and the cross-correlation coefficient between the channels of the input audio signal weighted based on the corrected power spectrum and the cross spectrum. Ask for Program for causing the management to the computer.
[0026]
(5) A process of generating frequency information of a plurality of channels by frequency-analyzing input voice signals of a plurality of channels output from the microphones in response to voices input to a plurality of microphones spatially separated from each other. A process of calculating a power spectrum for each channel of the input voice signal and a cross spectrum between channels from the spectrum information, and a process of calculating a coherence function between channels of the spectrum information of the plurality of channels from the power spectrum and the cross spectrum Corresponding to a virtual arrival direction group consisting of a plurality of virtual arrival directions of voice, a process of generating a correction coefficient for correcting the voice arriving from the virtual arrival direction to match among a plurality of channels, Correcting the power spectrum and the cross spectrum based on the correction coefficient, A process of generating a positive power spectrum and a corrected cross spectrum, a process of calculating power information regarding signal power between channels of the input audio signal based on the corrected power spectrum and the corrected cross spectrum, and a process of calculating the corrected power spectrum and the corrected cross spectrum. Processing for weighting a spectrum based on the coherence function and the power information and calculating a cross-correlation coefficient between channels of the input voice signal corresponding to the virtual direction-of-arrival group for each virtual direction of arrival; Program for causing a computer to perform a process of detecting a sound source direction of a sound input to the microphone based on the number and outputting the value of the cross-correlation coefficient in the detected sound source direction as a sound source correlation coefficient. .
[0027]
(6) a process of frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones spatially separated to generate spectral information of a plurality of channels, and a channel of the input audio signal from the spectral information A process of calculating a power spectrum and a cross spectrum between channels, a process of calculating a coherence function between channels of the spectrum information of the plurality of channels from the power spectrum and the cross spectrum, and converting the plurality of spectrum information into one channel. A process of integrating to generate an integrated spectrum signal, a process of calculating a power spectrum of the integrated spectrum signal, and weighting the cross spectrum based on the coherence function, further converting the weighted cross spectrum to the integrated signal power spectrum Based Program for causing a process of calculating a gain factor normalized to the computer.
[0028]
(7) a process of frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones spatially separated to generate spectral information of a plurality of channels, and a channel of the input audio signal from the spectral information A process of calculating a power spectrum for each channel and a cross spectrum between channels; a process of calculating a coherence function between the plurality of channels from the cross spectrum between the plurality of channels and a power spectrum of each channel; and a plurality of virtual arrival directions of voice. A process of generating a correction coefficient for correcting a voice arriving from the virtual direction of arrival to match among a plurality of channels, corresponding to the virtual direction of arrival group consisting of: And corrected cross spectrum, corrected power spectrum and corrected cross spectrum Generating power information, calculating power information regarding signal power between channels of the input audio signal based on the corrected power spectrum and the corrected cross spectrum, and correcting the spectrum information of the plurality of channels with the correction coefficient. A process of calculating a power spectrum for integrated spectrum information obtained by integrating the corrected cross spectrum based on the corrected power spectrum and the corrected cross spectrum, weighting the corrected cross spectrum based on the coherence function and the power information, and further virtual integration. A process of obtaining a gain coefficient corresponding to the virtual arrival direction by normalizing based on the power spectrum; detecting a sound source direction of a sound input to the microphone based on the gain coefficient; Gain factor corresponding to direction Program for causing a process for outputting a value as a sound source gain factor in the computer.
[0029]
(8) a process of frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones spatially separated to generate spectral information of a plurality of channels; and inputting the spectral information of the plurality of channels as input. Calculating a first modified cross-correlation coefficient between channels of the input audio signals of the plurality of channels, and adapting a difference between channels of the spectral information of the plurality of channels based on the first modified cross-correlation coefficient A program for causing a computer to execute a process of generating corrected spectrum information by performing a correction and a process of calculating a second corrected cross-correlation coefficient from the corrected spectrum information, the program comprising: The calculation processing of the corrected cross-correlation coefficient of (a) includes: (B) calculating a coherence function between the channels of the spectral information of the plurality of channels from the power spectrum and the cross spectrum; and (c) calculating the input speech signal from the power spectrum. A process of calculating power information relating to signal power between channels; and (d) calculating a cross-correlation coefficient between channels of the input audio signal by weighting the power spectrum and the cross spectrum based on the coherence function and the power information. And outputting the first or second modified cross-correlation function.
[0030]
(9) a process of frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones arranged spatially apart to generate first spectrum information of a plurality of channels, and a first process based on the first spectrum information. Calculating the corrected gain of the first spectrum information, adaptively correcting the difference between the channels of the first spectrum information based on the first gain coefficient to generate second spectrum information, and processing the second spectrum information And calculating a second modified gain from the first and second spectral information, wherein the first and second modified gain factors are calculated from the first or second spectral information. A process of calculating a power spectrum for each channel of the input audio signal and a cross spectrum between channels; and (b) the power spectrum and the cross spectrum. (C) calculating power information related to signal power between channels of the input audio signal from the power spectrum; and (d) calculating power information related to signal power between channels of the input audio signal from the power spectrum. (E) calculating the power spectrum of the integrated spectrum signal, and (f) calculating the cross spectrum based on the coherence function and the power information. Calculating the first or second gain coefficient by further normalizing the weighted cross spectrum based on the power spectrum of the integrated spectrum signal.
[0031]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings. The audio signal processing in each embodiment described below can be implemented as software (including firmware) executed on a computer, and can also be implemented by hardware.
[0032]
(1st Embodiment)
FIG. 1 shows a configuration of a signal processing device according to the first embodiment of the present invention. The plurality of microphones 101-1 to 101-M detect an acoustic signal including a target sound such as a speaker's input sound, and output a plurality (M) of input sound signals. Here, a component which is desired to be finally extracted as an output sound from the input sound by suppressing noise is referred to as a target sound. Input audio signals from the microphones 101-1 to 101-M are converted into digital signals by an A / D converter (not shown), and then input to the
[0033]
The
[0034]
Generally, a cross-correlation coefficient calculated for observation signals of a plurality of channels has long been used in sonar and radar processing as a detection measure of a target signal under noise. This embodiment proposes a method used not only for detecting the target sound but also for enhancing the target sound in the audio signal processing. With this method, noise can be effectively suppressed even in an environment where there is no correlation between channels.
[0035]
The cross-correlation coefficient in the present embodiment is a value ρ calculated by the following equation when the input audio signal has two channels of x (n) and y (n).
[0036]
(Equation 1)
[0037]
Here, an overlined value indicates an expected value or a time average value (the same applies hereinafter).
[0038]
When the input audio signal has M channels (not limited to two channels), the cross-correlation coefficient ρ is calculated by the following equation, for example.
[0039]
(Equation 2)
[0040]
Here, xp (n) and xq (n) are the input audio signals of the p-th channel and the q-th channel, respectively, and K = M (M-1) / 2.
[0041]
Conventionally, cross-correlation between channels of signals of a plurality of channels is used for signal detection processing. For example, a method of determining the presence of a target signal by threshold processing of a coherence function is described in, for example, Non-Patent Document 3: “Knowing the What from the Weeds in Noise Speech ", H.S. Agaiby and T.A. J. Moir, Proc. of EUROSPEECH '97, vol. 3, pp. 111-112, 1997.
[0042]
The cross-correlation coefficient is also used for voice detection, and a method of thresholding this value to detect a target sound is described in, for example, Non-Patent Document 4: “Study on Target Sound Detection Using Two Directional Microphones” , Nagata et al., IEICE Journal, Vol. J83-A No. 2 (2000)). The present embodiment is characterized in that the cross-correlation is used for enhancing the target sound, instead of detecting the target sound by threshold processing.
[0043]
The cross-correlation coefficient ρ takes a value close to 1 if the target sound is present in the input voice, and takes a value close to 0 if the noise is only noise. What is necessary is just to control the gain given to an audio signal. That is, regarding the input audio signals of a plurality of channels obtained from the microphones 101-1 to 101-M, the cross-correlation
[0044]
The cross-correlation coefficient ρ ranges from −1 to +1. Therefore, the
[0045]
Next, the flow of processing in this embodiment will be described with reference to FIG.
First, audio signals are input from the microphones 101-1 to 101-M (step S11). Taking the case of two microphones as an example, for example, as shown in FIG. 4, two microphones 101-1 to 101-2 are placed at a distance of about 10 cm, and the target sound source is separated from each of the microphones 101-1 to 101-2. Install so that they are equidistant. Each of the microphones 101-1 to 101-2 may have directivity or may be non-directional. The sampling frequency of the A / D converter for digitizing the input audio signal is, for example, 11 kHz, but may be another frequency.
[0046]
Next, the cross-correlation coefficient ρ is calculated by Expression (1-1) or Expression (1-2). At this time, in consideration of the time change of the cross-correlation coefficient ρ, the cross-correlation coefficient ρ is determined at an appropriate time interval, for example, every N = 128 points, and the time average is calculated, for example, at L points before and after the target time point. When Equation (1-1) is applied to the waveform at a total of 2L points, the equation for calculating the cross-correlation coefficient ρ is as follows.
[0047]
[Equation 3]
[0048]
Here, k is the number of the cross-correlation coefficient, and one value of ρ is obtained for every N samples of the input voice signal waveform.
[0049]
Similarly, when the equation (1-2) is used, the correlation coefficient ρ is obtained by the following equation.
[0050]
(Equation 4)
[0051]
Here, K = M (M-1) / 2.
[0052]
Next, the
[0053]
(Equation 5)
[0054]
When an
[0055]
(Equation 6)
[0056]
Here, U (n) is a vector in which T values of the difference between the input audio signals x and y are arranged, and W (n) = [w1 (n), w2 (n),. . . , WT (n)] are the coefficients of the LMS adaptive filter after updating n times, d (n) is the sum signal of the input audio signals x and y, and (•) is the inner product. D is the delay amount, for example, T / 2 is used. μ is a step size, for example, 0.1 may be used. It is easy to expand to the case of M channels, and a method of obtaining an audio signal integrated into one channel using M-1 adaptive beamformers is described in, for example, Non-Patent Document 5: "The adaptive filter theory", Hyakin Author, PRENTICE HALL Publishing, but the detailed description is omitted here.
[0057]
Finally, the
[0058]
As described above, according to the present embodiment, by adjusting the magnitude of an integrated audio signal in which input audio signals of a plurality of channels are integrated into one channel in accordance with the cross-correlation function between the input audio signals of the respective channels, low correlation is achieved. It is possible to obtain an output audio signal in which noise is suppressed and the component of the target sound having a large correlation is emphasized.
[0059]
(Second embodiment)
FIG. 6 shows a configuration of an audio signal processing device according to the second embodiment of the present invention. In the present embodiment, audio signal processing equivalent to the audio signal processing in the time domain described in the first embodiment is realized in the frequency domain. In FIG. 6, input audio signals from a plurality of microphones 101-1 to 101-M are converted into digital signals by an A / D converter (not shown), and the frequency components are analyzed by a
[0060]
The
[0061]
The integrated spectrum signal output from
[0062]
The
[0063]
The cross-correlation
[0064]
(Equation 7)
[0065]
Here, Wxy (f) is the cross spectrum between the input audio signals x (n) and y (n), and Wxx (f) and Wyy (f) are the input audio signals x (n) and y (n). The power spectrum, L, is the number of frequency components in a discrete Fourier transform (DFT).
[0066]
As is well known, the cross spectrum and the power spectrum are expressed as follows: X (f) denotes a discrete Fourier transform of x (n) and Y (f) denotes a discrete Fourier transform of y (n).
(Equation 8)
It can be calculated as follows. Here, the value with an overline is a time average value, and * is a complex conjugate. For example, 256 points can be used as the length of the DFT, and in this case, L = 256. Assuming that L = 128, an equivalent result can be obtained by taking the real part of the obtained cross-correlation coefficient of the complex number.
[0067]
Similarly, when the input audio signal has M channels (not limited to two channels), the cross-correlation coefficient ρ is similarly calculated by the following equation, for example.
(Equation 9)
[0068]
Here, Wij (f) is a cross spectrum between the input audio signals xi (n) and xj (n), and Wii (f) and Wjj (f) are power spectra of the input audio signals xi (n) and xj (n). It is.
[0069]
After converting the input audio signals of a plurality of channels obtained from the microphones 101-1 to 101-M into spectrum information in the
[0070]
On the other hand, the spectrum information of a plurality of channels obtained by the
(Equation 10)
As a result, an integrated spectrum signal Z (f) can be obtained.
[0071]
When an adaptive beamformer is used, for example, when a well-known two-channel Jim-Griffith beamformer is used, an integrated spectrum signal Z (f) is obtained as in the following equation.
[Equation 11]
[0072]
Here, k is a frame number, U is a difference spectrum between channels, D is an addition spectrum, Z is an output spectrum, W is a complex filter coefficient, μ is a step size, and (*) is a complex conjugate.
[0073]
Next, the gain of the
[0074]
FIG. 7 shows a processing flow in the present embodiment. The flow of processing is basically the same as that of the first embodiment except that a frequency analysis step S22 is added after the audio signal input step S21. That is, after performing frequency analysis (for example, FFT) in step S22, calculation of a cross-correlation coefficient (step S23), integration of spectrum information (step S24), and gain control for an integrated spectrum signal using the correlation coefficient (step S25) ) Is sequentially performed to generate a spectrum signal in which the component of the target sound is enhanced, and finally, if necessary, an inverse transform (for example, inverse FFT) is performed in step S26 to output the output sound in which the component of the target sound is enhanced. Get the signal. The processing of steps S21 to S26 is repeated each time a digitized audio signal is input in units of frames in step S21.
[0075]
As described above, according to the present embodiment, noise with low correlation is suppressed, and it is possible to obtain a spectrum signal or an output audio signal in which the sound of the target sound having high correlation is emphasized. Performing the signal integration processing in the frequency domain has an advantage that the amount of calculation can be reduced as compared with the first embodiment in which the calculation of the correlation coefficient and the signal integration processing are performed in the time domain.
[0076]
(Third embodiment)
FIG. 8 shows a configuration of an audio signal processing device according to the third embodiment of the present invention. The present embodiment provides a method of calculating the activity of a target signal (target sound signal) using a weighted cross-correlation coefficient. The target signal activity calculated in this manner is effectively used, for example, for detection of a target sound and enhancement of the target sound.
[0077]
In the present embodiment, similarly to the first embodiment, first, input audio signals of a plurality of channels from a plurality of microphones 101-1 to 101-M are converted into frequency domain signals, that is, a plurality of frequency components by a
[0078]
The cross power
[0079]
Next, the flow of processing in this embodiment will be described with reference to FIG. The steps from the audio signal input step S31 to the frequency analysis step S32 are the same as in the second embodiment, and the input audio signals of a plurality of channels are converted into frequency domain signals (spectral information) in frame units.
[0080]
Next, the power spectrum of each channel and the cross spectrum between the channels are calculated from the spectrum information obtained by the frequency analysis (step S33). Next, a coherence function and power information are calculated using the power spectrum and a cross spectrum between channels (steps S34 to S35). Next, a spectrum corrected based on the coherence function and power information is calculated (step S36). . A weighted cross-correlation coefficient is calculated based on the spectrum after this correction, and this is output as the target signal activity (step S37). The processing of steps S31 to S37 is repeated each time a digitized audio signal is input in units of frames in step S31.
[0081]
The present embodiment is characterized in that the cross-correlation coefficient is modified so as to enhance the noise resistance. The general cross-correlation coefficient shows high performance in target sound detection when noise is uncorrelated between channels, but when the correlated noise arrives between channels and when the target sound arrives The ability to distinguish between cases is low. According to the present embodiment, even when correlated noise arrives, the performance of distinguishing the target sound from the noise can be greatly improved.
[0082]
Usually, harsh large-amplitude noise has a high correlation between channels. Therefore, the method described in the present embodiment is suitable for suppressing this. The target signal activity, which is an output, indicates a measure of whether or not the target sound is present in the input voice, and is an essential element required for voice detection and voice emphasis in the following embodiments. .
[0083]
Next, a specific calculation method in the cross power
(Equation 12)
[0084]
Here, Wxy (f) is a cross spectrum between two channels, and Wxx (f) and Wyy (f) are power spectra of each channel.
[0085]
When the input audio signal has M channels (not limited to two channels), the coherence function γij (f) between the i-th channel and the j-th channel is similarly calculated according to the following equation.
(Equation 13)
[0086]
Here, Wij (f) is a cross spectrum between the i-th channel and the j-th channel, and Wii (f) and Wjj (f) are power spectra of the i-th channel and the j-th channel.
[0087]
The total coherence function γm (f) in the case of the M channel is calculated, for example, by the following equation.
[Equation 14]
[0088]
The power
(Equation 15)
[0089]
Here, min [a, b] means selecting the smaller one of a and b, and max [a, b] means selecting the larger one of a and b.
[0090]
On the other hand, when the input audio signal has M channels (not limited to two channels), pij (f) of the power information between the i-th channel and the j-th channel is calculated according to the following equation.
(Equation 16)
[0091]
With respect to the power information p (f) and pij (f) calculated in this way, it is also possible to adjust the sensitivity to the actual power ratio between channels by using an appropriate function as in the following equation. is there.
[Equation 17]
[0092]
Here, pow {a, b} is an exponential function representing a raised to the power of b. When β = 1, Equations (3-6) and (3-7) are the same as Equations (3-4) and (3-5), respectively. Can be increased.
[0093]
When the input audio signal has two channels, the modified
[0094]
The calculations in the modified
(Equation 18)
[0095]
Here, Ψa (f) and Ψb (f) are weighting functions used for the denominator and the numerator of the equation (3-10) for calculating the cross-correlation coefficient, and Wxy (f) Ψb (f) is the corrected The cross spectrum, Wxx (f) Ψa (f), Wyy (f) Ψa (f), is the corrected power spectrum.
[0096]
In addition to the weighting function of the equation (3-8) or (3-9) using the coherence function, the
[Equation 19]
Although it is possible to use the weight function of Expression (3-8) or (3-9) as the performance, it is desirable.
[0097]
On the other hand, when the input audio signal is of the M channel (not limited to two channels), the power spectrum of each channel and the cross spectrum between the channels are similarly calculated between the i-th channel and the j-th channel. Squared coherence function γij which is a value obtained by squaring coherence function γij (f) 2 The corrected cross spectrum and power spectrum are calculated using (f) and the power information pij (f).
[0098]
Further, the weighted cross-correlation
(Equation 20)
[0099]
Here, Ψaij (f) and Ψbij (f) are weighting functions used for the denominator and the numerator of the equation (3-13) for calculating the cross-correlation coefficient, and i and j represent channel numbers. Pij (f) is the power information of the equation (3-5) or (3-7). In addition, K = M (m-1) / 2.
[0100]
Ψa (f) is known as a weight function used for maximum likelihood estimation of a generalized cross correlation function, and has an effect of suppressing the influence of uncorrelated noise between channels. is there. In this regard, see, for example, Non-Patent Document 6: “The Generalized Correlation Method for Estimation of Time Delay, CH Knapp and GC Carter, IEEE Trans, Acoustic. ASSP-24, No. 4, pp. 320-327 (1976). Reference 6 discloses a method for obtaining a cross-correlation function, and does not mention a cross-correlation coefficient.
On the other hand, in the present embodiment, as the weighted cross-correlation coefficient, the above-described weighting function Ψa (f) is further given a weight based on the ratio of the power between channels (3-6) or (3-6). The point that the Ψb (f) corrected according to 7) is used is greatly different.
[0101]
In the above processing, in addition to uncorrelated noise between channels, since even correlated noise arriving from directions other than the target direction is effectively suppressed, the obtained weighted cross-correlation coefficient indicates that the target signal exists. The degree of accuracy is accurately reflected. Therefore, the value of the weighted cross-correlation coefficient can be used as the target signal activity. This target signal activity can be used as a key component to improve its performance in various applications such as voice detection and voice enhancement.
[0102]
In the measurement of the target signal activity in the present embodiment, the activity may be divided and outputted for each band. For example, 1 to 128 points of the DFT are equally spaced on the frequency in eight bands, ie, 128/8 = It is divided into 16 points and eight target signal activities are output. The method of division can be changed as needed. This is the same in the following embodiments.
[0103]
In the above description, the target signal activity is calculated using both the coherence function and the power information. However, even if the target signal activity is calculated using only the coherence function without using the power information, a certain degree is obtained. effective. In that case, the power information p (f) or pij (f) calculated by the equations (3-4) to (3-7) may be set to 1.
[0104]
(Fourth embodiment)
FIG. 10 shows a configuration of an audio signal processing device according to the fourth embodiment of the present invention. In the present embodiment, the third embodiment is applied to voice detection, and threshold processing is performed on the target signal activity to detect a target sound component from an input voice signal.
[0105]
After the input audio signals from the plurality of microphones 101-1 to 101-M are converted into frequency domain signals by the
[0106]
The target
[0107]
The flow of processing in the present embodiment will be described with reference to FIG. 11. First, the frequency of the input audio signal input in step S41 is analyzed (step S42), and the procedure described in the third embodiment is performed based on the obtained spectrum information. To calculate the target signal activity (step S43). Finally, threshold processing is performed on the target signal activity using a threshold predetermined according to the purpose, thereby performing detection processing as to whether or not the target sound component exists in the input audio signal ( Step S44). The processes in steps S41 to S44 are repeatedly performed each time a digitized audio signal is input in units of frames in step S41.
[0108]
Next, a procedure of threshold processing in the
First, initialization is performed (step S400), and then input of an audio signal (step S401), frequency analysis (step S402), and calculation of target signal activity (step S403) are sequentially performed for each frame.
[0109]
Assuming that the target signal activity of the k-th frame is ρ (k), the bias and variance of ρ (k) in a section having no target sound (referred to as a silent section) are estimated. A provisional determination as to whether or not the section is a silent section is made by comparing | ρ (k) −b (k−1) | with κ (step S404). Here, b (k) is an estimated value of the bias of ρ (k), and κ is a threshold for determination.
[0110]
Here, if | ρ (k) −b (k−1) | <κ, it is determined that there is a high possibility of silence, and a bias b ( k) and the estimated value of the variance v (k) are updated (step S405).
(Equation 21)
[0111]
On the other hand, when | ρ (k) −b (k−1) |> κ, it is determined that there is a high possibility that the target sound exists, and the bias b (k) and the variance v The estimated value of (k) is not updated (step S406).
(Equation 22)
[0112]
Next, a threshold value h (k) for detection is set by the following equation (step S407).
[Equation 23]
[0113]
Here, ξ is a constant for setting the detection threshold h (k). As a result, if h (k) <ρ (k), “1” is output as the target status signal, and otherwise “0” is output as the target status signal (step S408).
Examples of the values of κ, η, η ′, 必要 necessary for the initial setting are as shown in the frame of the initial setting step S400.
[0114]
FIG. 13 shows a specific example of the detection processing. The time series of the detection status signal shown in FIG. 13B is output from the curve ρ shown in FIG. As described in the third embodiment, the calculation of the target signal activity suppresses noise having no correlation between the channels and noise arriving from a direction different from the target sound even if there is a correlation. React accurately. Therefore, when the calculated target signal activity is used as a parameter for voice detection as in the present embodiment, high detection performance can be achieved.
[0115]
(Fifth embodiment)
FIG. 14 shows a configuration of an audio signal processing device according to the fifth embodiment of the present invention. This embodiment is obtained by applying the third embodiment to speech enhancement. After the input audio signals from the plurality of microphones 101-1 to 101-M are converted into frequency domain signals by the
[0116]
On the other hand, similarly to the second embodiment, the spectrum information from the
[0117]
The
As described above, the audio signal processing apparatus according to the present embodiment includes the target
[0118]
Next, the flow of processing in this embodiment will be described with reference to FIG. 11. First, the processing from step S51 to step S53 is the same as the processing from step S41 to step S43 shown in FIG. 11 described in the fourth embodiment. This is the same as the processing. After the frequency analysis in step S52, in parallel with the calculation of the target signal activity in step S53, a process of integrating the spectral information of a plurality of channels into one channel to generate an integrated spectrum signal is performed (step S54).
Next, by performing gain control on the integrated spectrum signal in accordance with the target signal activity obtained in step S53 to adjust the amplitude, a spectrum signal in which the target sound component is emphasized is generated (step S53). S55) Finally, if necessary, in step S56, inverse conversion (for example, inverse FFT) is performed to obtain an output audio signal in which the target sound component is emphasized. The processes of steps S51 to S56 are repeatedly performed each time a digitized audio signal is input in units of frames in step S51.
[0119]
According to the present embodiment, as described in the third embodiment, since the target signal activity accurately reflects whether or not the input sound has the target sound, the target signal activity is used to emphasize the target sound. By performing the emphasis, very high-performance processing can be realized in various noise environments.
[0120]
In the third embodiment, it has been described that the target signal activity may be obtained by dividing into a plurality of frequency bands. However, in the gain control process of the present embodiment, such a plurality of frequency bands may be determined. It is also possible to control the gain for each band using the target signal activity. That is, when the integrated signal, for example, DFT of L points is used for calculation of spectrum information and the number of band divisions is B for each band used in the calculation of the target signal activity, L / 2 / B = N points are used for each. The target activity is calculated as follows.
[0121]
(Equation 24)
[0122]
Here, ρ (b) is the target signal activity related to the band number b, and the ranges of the frequency components used in the calculation of the band b are set as s (b) and e (b). This value is, for example, as follows.
(Equation 25)
[0123]
This is based on the general regularity of the number of the component whose frequency component number f corresponds to a positive frequency of 2 to L / 2 and the number of the component whose f corresponds to a negative frequency of L / 2 + 1 to L in the DFT. Required. Here, f = 1 corresponds to a direct current component, and in the case of a general waveform signal, the component may be set to 0, and thus is excluded from the above calculation formula. Also, the component of f = L / 2 is the upper limit of the usable frequency, and its magnitude is also close to 0, so it is excluded. Of course, there is no problem even if these are included in the calculation.
[0124]
Using the target signal activity ρ (b) obtained in this way, gain control for the integrated signal can be performed as follows.
(Equation 26)
[0125]
As described above, the absolute value of the target signal activity ρ (b) may be used as in the above equation, or the value obtained by taking the real part of ρ (b) and setting it to 0 when the value is negative is used. Then, the following may be performed.
[0126]
[Equation 27]
[0127]
With the above method, gain control when emphasizing the component of the target sound can be performed for each band. This makes it possible to suppress only a certain band when noise is present in a certain band, so that the performance of target sound component emphasis can be improved.
[0128]
(Sixth embodiment)
FIG. 16 shows a configuration of an audio signal processing device according to the sixth embodiment of the present invention. This embodiment has a configuration in which a coherence
[0129]
Next, the flow of processing in this embodiment will be described with reference to FIG. First, the processing from step S61 to step S64 is the same as the processing from step S51 to step 54 shown in FIG. 11 of the fifth embodiment. In the present embodiment, a filter operation is performed on the integrated spectrum signal obtained in step S54 using a coherence function and power information generated on the assumption of target signal activity calculation in step S64.
[0130]
By performing gain control according to the target signal activity obtained in step S63 on the integrated spectrum signal on which the coherence filter operation has been performed, the spectrum signal in which the component of the target sound is emphasized by adjusting the amplitude is obtained. It is generated (step S65), and finally, if necessary, inverse transformation (for example, inverse FFT) is performed in step S66 to obtain an output audio signal in which the target sound component is emphasized. The processing of steps S61 to S66 is repeated each time a digitized audio signal is input in units of frames in step S61.
[0131]
Next, the coherence
[0132]
The modified coherence function γ (f) when the input audio signal has two channels of x (f) and y (f) is expressed by the following equation.
[Equation 28]
[0133]
On the other hand, the modified coherence function γ (f) for the M channel (not limited to two channels) is shown by the following equation.
(Equation 29)
[0134]
Here, i and j are channel numbers, Wij (f) is a cross spectrum between the i-th channel and the j-th channel, and Wii (f) and Wjj (f) are the i-th channel and the It is a power spectrum of the j channel.
[0135]
The filter operation using the modified coherence function γ (f) shown in Expression (6-1) or Expression (6-2) is performed according to the following expression.
[Equation 30]
[0136]
Here, ZO (f) is an output of the filter operation, and Z (f) is an integrated spectrum signal obtained by the
[0137]
At this time, the filter operation may be performed after correcting the coherence function γ (f) using an appropriate function, for example, as in the following equation.
[Equation 31]
[0138]
Here, pow (a, b) is an exponential function representing a raised to the power b, and for example, α = 2 may be used. In this case, the value of the coherence function γ (f) is emphasized and the noise suppression amount is increased as compared with the equation (6-3) (corresponding to α = 1), but the distortion of the target voice is increased instead. It is good to set according to the situation.
[0139]
As described above, according to the present embodiment, in emphasizing the target sound using the target signal activity, the weight of the spectrum corresponding to the coherence function is performed, thereby further improving the voice emphasis performance with respect to uncorrelated noise between channels. can do.
[0140]
(About placement of microphone)
Next, a preferred arrangement method of the microphones described above will be described. The audio signal processing device assumes that the same component is incident on a plurality of microphones for the target sound, and that at least one of the phase and amplitude components is incident on the noise. In order to realize such a sound receiving condition of the microphone, it is desirable to arrange the microphones 101-1 to 101-M as described below.
[0141]
In the third embodiment, information on the power ratio between channels is used in the process of calculating the weighted cross-correlation coefficient. When the microphones 101-1 to 101-M are arranged so as to have different powers, high performance can be obtained. Even when all non-directional microphones are used as the microphones 101-1 to 101-M, some performance can be exhibited. This is because the conditions such as reflection vary depending on the sound receiving position, and therefore the power of the incoming sound may differ even with an omnidirectional microphone.
[0142]
However, in order to stably exhibit high performance, it is better to use at least one of the microphones 101-1 to 101-M as a directional microphone. This makes it possible to create a sensitivity difference between channels in directions other than the arrival direction of the target sound, thereby improving noise suppression performance.
[0143]
Here, a case where the number M of microphones is two, that is, two channels will be described. As shown in FIG. 18, one of the two microphones is an
[0144]
As shown in FIG. 18, when the
[0145]
With such an arrangement, the sensitivity difference between the channels, that is, the
[0146]
That is, for example, by setting β = 2, the weight of the square of the actual power ratio is used for calculating the target signal activity. Although the actual power ratio is 1 in the direction of the target sound, it is 1 or less in directions other than the arrival direction of the target sound. Therefore, by squaring this, the weight for components other than the target sound is further reduced. Therefore, the sensitivity in the horizontal direction between the low sensitivity direction and the target sound direction can be further reduced.
[0147]
On the other hand, when the
[0148]
FIGS. 19 (B1) to (B4) are examples of another preferred arrangement of the two
[0149]
In the case of the arrangements of FIGS. 19A1 to 19A4, the final directivity becomes maximum in the direction of arrival of the target sound due to the above-described sound signal processing, and the final directivity is equidistant from the
[0150]
On the other hand, in the arrangement of FIGS. 19 (B1) to (B4), the direction in which the phases of the two
[0151]
The target signal activity in the present embodiment has a large value when the phase and the amplitude are the same between the channels. Therefore, the direction in which the plane a and the plane b intersect in FIG. 21, that is, the front direction (FIG. 20 or FIG. 21) In this case, a large maximum directivity can be obtained only in a direction 180 ° opposite to the direction of arrival of the target sound indicated by the arrow). As for the direction opposite to the front, the low sensitivity direction of the
[0152]
(Eighth embodiment)
FIG. 22 shows a configuration of an audio signal processing device according to the eighth embodiment of the present invention. This embodiment has a configuration in which a
[0153]
As described above, the audio signal processing device according to the embodiment of the present invention assumes that the same component of the target sound enters the plurality of microphones 101-1 to 101-M. Therefore, when the sensitivity of the microphones 101-1 to 101-M changes due to aging or consumption of a bias setting battery, processing accuracy may be reduced. Even when the arrival direction of the target sound deviates from the expected direction, the processing accuracy may be reduced.
[0154]
In the present embodiment, in order to correct the difference in sensitivity for each of the microphones 101-1 to 101-M and the deviation in the arrival direction of the target sound, and to exhibit the original performance, the
[0155]
Next, details of the processing in the
[0156]
As the
(Equation 32)
[0157]
Here, k is a frame number, X is a spectrum of the first channel, Y is a spectrum of the second channel, E is an error spectrum, W is a complex filter coefficient, μ is a step size, and (*) is a complex conjugate.
[0158]
In this case, the calculation of the
[0159]
It is also possible to control the filter update speed at the time of the difference identification by the
[0160]
[Equation 33]
[0161]
Here, for example, 0.5 can be used as the threshold value h. This means that the difference between the channels is obtained only when the magnitude of ρ (k) is larger than the threshold value. Therefore, the filter is updated only when the possibility that the target sound is arriving is large, and the filter adapts to the noise. Don't worry about it. In addition to the adaptive update / stop control using such a threshold, it is also possible to make the size of the update proportional to ρ (k) as in the following equation.
(Equation 34)
[0162]
When the difference between the channels is estimated using Expression (8-3), for example, when the sensitivity difference is largely different from the beginning, the value of ρ (k) does not exceed the threshold value. In some cases, no updates are made and no differences are found. However, as described above, when it is assumed that the sensitivity of the microphone has changed due to aging, consumption of a battery for bias setting, and the like, the sensitivity difference does not suddenly increase and such an inconvenience does not cause much problem. This embodiment can be used as a correction method for obtaining the target signal activity in the audio signal processing described in the third to sixth embodiments, for example, so that an operation that is not affected by the difference in sensitivity between channels can be performed. It becomes.
[0163]
(Ninth embodiment)
FIG. 24 shows the configuration of the audio signal processing device according to the ninth embodiment of the present invention. As in the eighth embodiment, a
[0164]
The sensitivity correction described in the eighth embodiment is effective when the sensitivities of the microphones 101-1 to 101-M are not significantly different. In the ninth embodiment, when the amplitude or phase of the target sound cannot be assumed to be the same for each microphone, a learning mode process is provided, and learning of a correction filter different from that of the eighth embodiment is performed. To correct the difference between the channels.
[0165]
When correcting a sensitivity shift due to a secular change after learning or a phase difference due to a small shift of the target speaker position, the correction by the filter learned through the learning mode is performed, and then the automatic correction as described in the eighth embodiment is performed. Make a correct correction. The present embodiment is configured to perform such two corrections.
[0166]
Even when the target sound direction is different from the assumed direction, or when the microphones 101-1 to 101-M are arranged at different distances from the target sound source, the sound processing method of the present embodiment is used. Will be possible. The learning mode may be started by a user's instruction as a trigger, or the apparatus may automatically enter the learning mode after the apparatus is started.
[0167]
The correction filter learning
[0168]
As shown in FIG. 25, when a user's instruction is input by a
[0169]
The
[0170]
The configuration of the
[0171]
On the other hand, the added
[0172]
For example, learning of the
(Equation 35)
[0173]
On the other hand, learning of the
[Equation 36]
[0174]
Here, k is the frame number, X is the spectrum of the first channel, Y is the spectrum of the second channel, X1 is the spectrum obtained by applying X to the
[0175]
When learning the
(37)
The filtering of the
[Equation 38]
Here, X ′ (k, f) is the spectrum of the first channel which is the output of the
[0176]
Next, a processing flow of the present embodiment will be described with reference to FIG.
First, initial values of coefficients of the correction filters 901 and 902 are set as initial settings (step S90). Assuming that the
[0177]
Next, it is checked whether or not the correction filter learning instruction signal S is “1” (“0”) (step S91). If S = “1”, learning of the
[0178]
According to the present embodiment, for example, even when the microphones 101-1 to 101-M are arranged at different distances from the position of the target sound source, the calculation of the target signal activity, the detection of the target sound, and the detection of the target sound are performed. Processing such as emphasis can be performed effectively.
[0179]
When used in an environment of running noise observed in a car, the running noise has a high diffusivity, so that there is not much difference in amplitude between channels even when the microphone is placed in a different position or direction. When the microphones and the target sound positions are arranged so as to have different distances, the target sound is corrected to have the same amplitude and the same phase between channels by the spectrum correction of the present embodiment. On the other hand, noise components having the same amplitude have different amplitudes due to the correction, so that the noise section in the target signal activity is easily distinguished, and the accuracy of the activity measurement is improved. As described above, when the microphones are not arranged at the same distance from the target sound, performance improvement under diffuse noise can be achieved.
[0180]
(Tenth embodiment)
FIG. 28 shows the configuration of the audio signal processing device according to the tenth embodiment of the present invention. The present embodiment relates to a technique for estimating a direction of arrival of a sound source based on a corrected cross-correlation coefficient. Estimation of the direction of arrival of a sound source is important in various applications in speech processing, such as speech enhancement and noise source identification. In particular, the method based on the modified cross-correlation coefficient according to the present embodiment has less restrictions on the signal and propagation state of a noise source than a method based on blind spot control such as an adaptive beamformer, and can be used in a wide range of noise environments. There is an advantage that there is.
[0181]
The audio signal processing apparatus according to the present embodiment performs frequency analysis on input audio signals of a plurality of (M) channels from the microphones 101-1 to 101-M and converts them into spectrum information as frequency components, as shown in FIG. It comprises a
[0182]
The sound source
[0183]
The cross power
[0184]
The
[0185]
The correction
[0186]
The cross power
[0187]
The power
[0188]
The virtual direction correlation
[0189]
The sound source
[0190]
Next, the processing of each unit will be described in more detail. In the calculation in the cross power
[0191]
The correction
[0192]
The virtual direction on the lattice point is represented by dh, g = (θh, φg). Here, h is a number related to the azimuth of the lattice point, and g is a number of the elevation angle. The
[0193]
[Equation 39]
[0194]
Here, i is the channel number, Hi (f, θ, φ) is the correction coefficient of the i-th channel in the (θ, φ) direction, and τi (θ, φ) is (θ, φ) in the i-th microphone. Propagation delay time for the sound reception signal at the reference microphone when an incoming signal arrives from the direction, Di (θ, φ) is the directivity of sensitivity in the (θ, φ) direction at the i-th microphone, and f is the frequency The number, F is the sampling frequency, and L is the FFT score. The reference microphone is, for example, the first microphone.
[0195]
For example, when the direction of an incoming sound is d = (θ, φ) in a microphone arrangement as shown in FIG. 30 and the reference position is at the origin of the coordinates, the time delay with respect to the origin becomes It can be calculated as follows using the relation of the rectangular coordinates.
[0196]
(Equation 40)
[0197]
Here, * is the inner product and c is the speed of sound. When the position of the microphone i is Ai = (xi, yi, zi), the following expression is obtained.
[0198]
(Equation 41)
[0199]
Di (θ, φ) is a characteristic inherent to the microphone, and is obtained from product information or obtained by measurement. The measurement of the directivity of the microphone sensitivity may be performed by, for example, measuring the output while changing the incident angle of the sound to the microphone, and a general method may be used.
[0200]
Since the correction coefficient generated by the correction
[0201]
Cross power
[0202]
(Equation 42)
[0203]
Here, W 'is a spectrum after correction, * is a complex conjugate, i and j are channel numbers. When i ≠ j, it means a cross spectrum, and when i = j, it means a power spectrum.
[0204]
The correction of equation (10-4) is equivalent to correcting the spectrum information Xi (f) with Hi (f, θ, φ) and then calculating the cross power spectrum. Assuming that Hi does not change with time as the averaging process, it is based on the following.
[Equation 43]
[0205]
The power
[0206]
[Equation 44]
[0207]
The virtual direction cross-correlation
[0208]
[Equation 45]
[0209]
Where K is
[Equation 46]
The ranges L1 and L2 of the frequency f in the sum are set to numbers corresponding to the range corresponding to the band of the target sound. For example, if the band of the target sound is determined to be from 260 Hz to 4 kHz, it is preferable to set the FFT length to 256, and to set the sampling frequency to 11 kHz, L1 = 6 and L2 = 92.
[0210]
Using equations (10-6) to (10-10), θ = θhg, φ = φhg, and the virtual direction d (θhg, φhg) of the set arrival range (h = 1 to Nh, g = 1 to Ng) , A virtual direction correlation coefficient is obtained.
[0211]
The sound source
[0212]
[Equation 47]
[0213]
Here, ρ′k is a virtual direction correlation coefficient averaged in the processing of the kth frame, ρk is a virtual direction correlation coefficient obtained in the processing of the kth frame, and η is a learning constant. Use η = 0.05 or the like. The peak can be detected by finding the maximum value from ρ′k (θ, φ).
[0214]
The sound source
[0215]
Next, the flow of processing in this embodiment will be described with reference to FIG.
First, a range of a sound source direction is set as an initial setting (step S100). Next, generation of correction coefficients (step S101), input of audio signals from the microphones 101-1 to 101-M (step S102), frequency analysis (step S103), calculation of cross spectrum and power spectrum (step S104), and coherence The calculation of the function (step S105) is performed sequentially. Next, the spectrum correction (step S106), the calculation of the power information (step S107), and the calculation of the virtual direction cross-correlation function (step S108) are repeated for all the virtual directions, and finally the sound source direction is detected (step S109). ). The processes in steps S102 to S109 are repeatedly performed each time a digitized audio signal is input in units of frames in step S102.
[0216]
(Eleventh embodiment)
The voice emphasizing process of the present invention assumes that the target sound, which is the target sound, comes from the front of the microphone array, so that if the direction of the target sound deviates from the assumption, the performance may decrease. . The correction based on the adaptive processing described in the eighth embodiment can cope with the direction deviation of the target sound to some extent, but when the direction of the target sound is largely deviated, it is difficult to cope with only the adaptive processing. It is. Therefore, in the present embodiment, by tracking the direction of the target sound using the result of the sound source direction estimation processing described in the tenth embodiment, the sound enhancement processing for the case where the target sound deviates from the assumed direction is performed. Improve stability.
[0219]
FIG. 32 shows the configuration of the audio signal processing device according to the present embodiment. This embodiment estimates the sound source direction by the sound source direction estimation processing described in the tenth embodiment, corrects the input spectrum information using the correction coefficient corresponding to the sound source direction, and integrates the corrected spectrum information. , Perform gain control on the integrated spectrum information to perform voice enhancement.
[0218]
To realize such processing, the audio signal processing apparatus according to the present embodiment converts the spectral information of a plurality of channels from the sound source
[0219]
The
[Equation 48]
It is performed according to. Here, i is a channel number, X'i (k) is spectrum information after correction, and Xi (k) is spectrum information before correction.
[0220]
Thereafter, the
[0221]
Next, the flow of processing in this embodiment will be described with reference to FIG.
First, a sound source direction range is set as an initial setting, and a correction coefficient is generated as described in the tenth embodiment (step S200). Next, input of audio signals from the microphones 101-1 to 101-M (Step S201), frequency analysis (Step S202), estimation of sound source direction (Step S203), correction of spectrum information (Step S204), and spectrum information The integration (step S205), the calculation of the coherence function (step S206), and the processing of the gain control (step S207) are repeated each time a digitized audio signal is input in frame units in step S201.
[0222]
(Twelfth embodiment)
Next, a twelfth embodiment of the present invention will be described. In the above-described calculation of the corrected cross-correlation coefficient, as shown in Expression (3-13), the geometric mean of the power of the input spectrum information is used in normalizing the cross-correlation. In this embodiment, a case will be described in which the power of integrated spectral information obtained by integrating input spectral information is used instead of the geometric mean.
[0223]
When integrating signals of a plurality of channels using a beamformer or the like, there is a case where directional noise or the like is suppressed by the function of the beamformer. In such a case, in the gain control based on the cross-correlation or the modified cross-correlation coefficient, it is better to lightly control the gain in consideration of the already suppressed amount. When the gain coefficient described in the present embodiment is used, the gain control can be optimized in consideration of the suppressed amount.
[0224]
The audio signal processing device according to the present embodiment performs frequency analysis on input audio signals of a plurality of channels output from a plurality of microphones 101-0 to 101-M spatially separated as shown in FIG. The
[0225]
The modified gain
[0226]
The cross power
[0227]
The
[0228]
Power
[0229]
The
[0230]
Integrated signal power
[0231]
The
[0232]
The
[0233]
The integrated signal power
[Equation 49]
Is required. The same is true even if Z (f) is an integrated signal obtained from a beamformer having different coefficients.
[0234]
The gain coefficient σ calculated by the gain
[Equation 50]
[0235]
Equations (12-2) and (12-3) are the same as equations (3-12) and (3-13), respectively. In the gain coefficient σ obtained by the above calculation, since the noise already suppressed in the power of Wzz is removed, the possibility that the gain is calculated too small is reduced, and the performance may be improved. The gain
[0236]
Next, the flow of processing in this embodiment will be described with reference to FIG. After inputting audio signals from the microphones 101-1 to 101-M (Step S301) and analyzing the frequency (Step S302), the modified working
[0237]
(Thirteenth embodiment)
FIG. 36 shows the configuration of the audio signal processing device according to the thirteenth embodiment of the present invention. This embodiment is an example in which all the power information pij (f) is set to 1 in the equation (12-3), and the power information is not used. In the modified gain
[0238]
(14th embodiment)
Next, as a fourteenth embodiment of the present invention, a speech enhancement processing device that suppresses noise based on the gain coefficient obtained in the twelfth embodiment and enhances a target speech will be described.
[0239]
The audio signal processing device according to the present embodiment performs frequency analysis on input audio signals of a plurality of channels output from a plurality of microphones 101-0 to 101-M spatially separated as shown in FIG. A gain control unit in addition to the
[0240]
[0241]
Next, the flow of processing in this embodiment will be described with reference to FIG.
After input of audio signals from the microphones 101-1 to 101-M (step S401) and frequency analysis (step S402), the corrected
[0242]
(Fifteenth embodiment)
FIG. 39 shows the configuration of the audio signal processing device according to the fifteenth embodiment of the present invention. This embodiment is an example in which the power information pij (f) in the equation (10-6) is set to 1 and the power information is not used, and the modified
[0243]
(Sixteenth embodiment)
Next, a sixteenth embodiment of the present invention for estimating the sound source direction using the gain coefficient described in the twelfth embodiment will be described. As shown in FIG. 40, the audio signal processing device according to the present embodiment performs frequency analysis on input audio signals of a plurality of (M) channels from the microphones 101-1 to 101-M and converts the input audio signals into spectrum information as frequency components. It comprises a
[0244]
The sound source
[0245]
The cross power
[0246]
The coherence
[0247]
The correction
[0248]
The cross power
[0249]
The power
[0250]
The virtual integrated power
[0251]
The virtual direction
[0252]
The sound source
[0253]
Here, the processes of the
[0254]
In the calculation of the gain coefficient in the twelfth and fourteenth embodiments, when calculating the value of the denominator of the equation of the gain coefficient σ, the power spectrum is obtained by integrating spectral information of a plurality of channels. On the other hand, in the present embodiment, the integration at the stage of the spectrum information is not performed, and the power spectrum and the cross spectrum are corrected to directly obtain the power of the integrated signal. This is more advantageous in terms of calculation amount and storage area than actually obtaining the power after integrating the signals. That is, if power is obtained after integrating spectrum information, time averaging for power spectrum estimation is required for each virtual direction. According to the present embodiment, this can be avoided.
[0255]
First, it is assumed that the signals are integrated after multiplying the spectrum information of each channel by the correction coefficient generated by the correction
(Equation 51)
Can be expressed as Of course, other integration methods may be used.
[0256]
At this time, the power spectrum of the integrated signal Z (f) is
(Equation 52)
It becomes. Here, in Equation (16-2), the suffix is omitted. The upper line represents the time average. Therefore, once the cross spectrum and the power spectrum have been obtained, the denominator of the gain coefficient σ (θ, φ) corresponding to the virtual direction (θ, φ) can be obtained simply by multiplying the correction coefficient according to the equation (16-2). Is obtained.
[0257]
In the virtual direction gain
(Equation 53)
For the coherence function γ 2 Weighting is performed based on (f) and the corrected power information pij (f, θ, φ). Further, the virtual direction gain
[0258]
The processing of the sound source
[0259]
Next, the flow of processing in this embodiment will be described with reference to FIG.
First, a range of a sound source direction is set as an initial setting (step S500). Next, generation of correction coefficients (step S501), input of audio signals from the microphones 101-1 to 101-M (step S502), frequency analysis (step S503), calculation of cross spectrum and power spectrum (step S504), and coherence Function calculation (step S505) is performed sequentially. Next, the spectrum correction (step S506), the calculation of the power information (step S507), the calculation of the virtual integrated power spectrum (step S508), and the calculation of the virtual direction gain coefficient (step S509) are repeatedly performed for all the virtual directions. First, the sound source direction is detected (step S510). The processing of steps S502 to S510 is repeated each time a digitized audio signal is input in units of frames in step S502.
[0260]
(Seventeenth embodiment)
Next, as a seventeenth embodiment of the present invention, the sound source direction estimated by the sound source direction estimation processing based on the gain coefficient described in the sixteenth embodiment is used, and even when the target sound moves, the direction is tracked. A description will be given of a process for performing voice enhancement so that voice enhancement can be performed stably.
[0261]
As shown in FIG. 42, the audio signal processing apparatus according to the present embodiment is configured to correct the spectrum information of a plurality of channels from the
[0262]
Here, the
[0263]
The
[0264]
(Equation 54)
[0265]
X1 (f) and X2 (f) are spectrum information of each channel obtained by the frequency analysis unit.
[0266]
The
[0267]
Next, the flow of processing in this embodiment will be described with reference to FIG.
First, a range of the sound source direction is set as an initial setting, and a correction coefficient is generated (step S600). Next, input of audio signals from the microphones 101-1 to 101-M (step S601), frequency analysis (step S602), estimation of sound source direction (step S603), correction of spectrum information (step S604), integration of spectrum information (Step S605), the coherence filter operation (Step S606) and the gain control (Step S607) are repeated each time the digitized audio signal is input in frame units in Step S601.
[0268]
(Eighteenth Embodiment)
Next, as an eighteenth embodiment of the present invention, the difference between the channels of the input audio signal is adaptively corrected using an adaptive filter, and in addition to the case where the direction of the target sound slightly deviates from the expected one, The following describes a sound signal processing device that also reduces noise. The tracking-type stabilization method based on the sound source direction estimation described in the eleventh and seventeenth embodiments is effective for a target sound shift, but is effective for a signal shift between channels due to reflection or the like. The effect is small. Since the state of reflection often differs depending on the sound receiving position, it causes a shift between channels. Therefore, in the present embodiment, a stabilization method using an adaptive filter is used.
[0269]
The stabilization method using the adaptive filter has already been described in the eighth embodiment. In the eighth embodiment, before obtaining the target signal activity based on the correlation coefficient, correction between channels is performed by controlling an adaptive filter using the correlation coefficient. In this case, since there is a time delay in obtaining the correlation coefficient, this is effective for disturbance factors that change more slowly than this delay, that is, sensitivity changes due to microphone bias voltage changes and aging. On the other hand, the present embodiment is effective when the state of the shift between the channels of the input audio signal changes relatively quickly, such as when there is a reflected wave or when the target sound frequently moves.
[0270]
The audio signal processing apparatus according to the present embodiment generates a plurality of channels of spectral information by frequency-analyzing a plurality of microphones spatially separated from each other and an input audio signal of a plurality of channels input from the microphone. As shown in FIG. 44, in addition to the frequency analysis unit which performs the above-mentioned operations, the signal analysis unit includes a stabilized target signal
[0271]
A stabilization target
[0272]
As shown in FIG. 46, adaptive
[0273]
Since the calculation of the first modified cross-correlation coefficient has a time delay caused by a time average when obtaining the cross spectrum and the power spectrum, the correlation coefficient output from the first modified cross-correlation
[0274]
The value of the time delay is T / 2, where T is the time length required for averaging the cross power spectrum. In terms of the number of frames, when the averaged frame number is Ta and Ta is an even number, the delay is Ta / 2 frames, but when Ta is an odd number, the delay can be calculated as (Ta-1) / 2. Ta is preferably an odd number.
[0275]
The calculation using the
[0276]
Next, the flow of processing in this embodiment will be described with reference to FIG. 45. First, a first modified cross-correlation coefficient that is a corrected cross-correlation coefficient between channels of an input audio signal is calculated (step S701). Based on this, the adaptive spectrum is corrected by correcting the transfer function difference between the spectrum information of each channel (step S702), and the second corrected cross-correlation coefficient is calculated from the finally corrected adaptive spectrum information. Is calculated and output as the target signal activity (step S703).
[0277]
In the present embodiment, the modified cross-correlation coefficient calculation is performed twice in consideration of the time delay in order to perform adaptive control and update of the filter using synchronized data. This makes it possible to adaptively and accurately correct the difference between channels while suppressing the influence of noise even when the situation changes quickly.
[0278]
(Nineteenth Embodiment)
In the eighteenth embodiment, the case of adaptively stabilizing the modified cross-correlation coefficient calculation has been described. However, instead of the modified cross-correlation coefficient, similar calculation is performed by the calculation of the gain coefficient described in the twelfth embodiment. Processing can be performed.
[0279]
The audio signal processing apparatus according to the present embodiment generates a plurality of channels of spectral information by frequency-analyzing a plurality of microphones spatially separated from each other and an input audio signal of a plurality of channels input from the microphone. In addition to the frequency analysis unit, as shown in FIG. 45, a stabilization target signal
[0280]
The stabilization target signal
[0281]
By the way, in each of the first, second, fourth, sixth, eleventh, fourteenth, and seventeenth embodiments, the speech enhancement processing is performed using the calculation result of the correlation coefficient or the gain coefficient. In each of the first, second, fourth, sixth, eleventh, fourteenth, and seventeenth embodiments, the time delay due to the calculation of the correlation coefficient or the gain coefficient is also considered in the same manner as described with reference to FIG. It is desirable that the input spectral information at the time of calculating the correlation coefficient or the gain coefficient is processed with a delay so that the correlation coefficient or the gain coefficient and the input spectral information are synchronized. In this case, the number of delay frames is selected to be a half of the number of time-averaged frames for estimating the cross spectrum and the power spectrum, as described with reference to FIG. Since the introduction of such a delay process is self-evident, it is omitted in the description of the first, second, fourth, sixth, eleventh, fourteenth, and seventeenth embodiments.
[0282]
Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying constituent elements in an implementation stage without departing from the scope of the invention. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiment. Further, components of different embodiments may be appropriately combined.
[0283]
【The invention's effect】
As described above, according to the present invention, it is possible to suppress noise under real environment noise including sudden noise and diffuse noise, and it is possible to accurately determine whether or not a target voice has arrived under a noise environment. It is possible to perform audio signal processing suitable for detection, preprocessing for hands-free communication and voice recognition.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an audio signal processing device according to a first embodiment of the present invention.
FIG. 2 is an exemplary view showing various functions used for gain control for an integrated audio signal in the embodiment.
FIG. 3 is a flowchart showing an audio signal processing procedure according to the embodiment;
FIG. 4 is a view showing an example of arrangement of microphones in the embodiment.
FIG. 5 is a flowchart showing a configuration of an audio signal processing device using an adaptive beamformer in a signal integration unit according to the embodiment;
FIG. 6 is a flowchart illustrating a configuration of an audio signal processing device according to a second embodiment of the present invention.
FIG. 7 is a flowchart showing an audio signal processing procedure according to the embodiment;
FIG. 8 is a block diagram showing a configuration of an audio signal processing device according to a third embodiment of the present invention.
FIG. 9 is a flowchart showing an audio signal processing procedure according to the embodiment;
FIG. 10 is a block diagram showing a configuration of an audio signal processing device according to a fourth embodiment of the present invention.
FIG. 11 is a flowchart showing the audio signal processing procedure in the embodiment.
FIG. 12 is a flowchart showing a detection processing procedure according to the embodiment;
FIG. 13 is a view showing a specific example of a detection process according to the embodiment;
FIG. 14 is a block diagram showing a configuration of an audio signal processing device according to a fifth embodiment of the present invention.
FIG. 15 is a flowchart showing a sound signal processing procedure in the embodiment.
FIG. 16 is a block diagram showing a configuration of an audio signal processing device according to a sixth embodiment of the present invention.
FIG. 17 is a flowchart showing an audio signal processing procedure in the embodiment.
FIG. 18 is a diagram showing an arrangement example of microphones according to a seventh embodiment of the present invention.
FIG. 19 is an exemplary view showing another arrangement example of the microphone according to the embodiment;
FIG. 20 is a diagram showing arrival directions in the arrangements of FIGS. 19 (B1) to (B4) using azimuths and elevation angles.
FIG. 21 is a diagram showing a relationship between an arrival direction in which the phases of two microphones match and an arrival direction in which the sensitivities of the two microphones match in the arrangement of FIGS. 19 (B1) to (B4).
FIG. 22 is a block diagram illustrating a configuration of an audio signal processing device according to an eighth embodiment of the present invention.
FIG. 23 is a block diagram showing a configuration of a spectrum correction unit in the embodiment.
FIG. 24 is a block diagram showing a configuration of an audio signal processing device according to a ninth embodiment of the present invention.
FIG. 25 is a block diagram showing a configuration of a correction filter learning instructing unit in the embodiment.
FIG. 26 is a block diagram showing a configuration of a spectrum correction unit in the embodiment.
FIG. 27 is a flowchart showing a processing procedure of a spectrum correction unit in the embodiment.
FIG. 28 is a block diagram showing a configuration of an audio signal processing device according to a tenth embodiment of the present invention.
FIG. 29 is an exemplary view for explaining setting of virtual points at the time of arrival direction estimation in the embodiment.
FIG. 30 is an exemplary view for explaining a method of calculating a propagation delay in the embodiment.
FIG. 31 is a flowchart showing an audio signal processing procedure in the embodiment.
FIG. 32 is a block diagram showing a configuration of an audio signal processing device according to an eleventh embodiment of the present invention.
FIG. 33 is a flowchart showing an audio signal processing procedure in the embodiment.
FIG. 34 is a block diagram showing a configuration of an audio signal processing device according to a twelfth embodiment of the present invention.
FIG. 35 is a flowchart showing an audio signal processing procedure in the embodiment.
FIG. 36 is a block diagram showing a configuration of an audio signal processing device according to a thirteenth embodiment of the present invention.
FIG. 37 is a block diagram showing a configuration of an audio signal processing device according to a fourteenth embodiment of the present invention.
FIG. 38 is a flowchart showing an audio signal processing procedure in the embodiment.
FIG. 39 is a block diagram showing a configuration of an audio signal processing device according to a fifteenth embodiment of the present invention.
FIG. 40 is a block diagram showing a configuration of an audio signal processing device according to a sixteenth embodiment of the present invention.
FIG. 41 is a flowchart showing an audio signal processing procedure in the embodiment.
FIG. 42 is a block diagram showing a configuration of an audio signal processing device according to a seventeenth embodiment of the present invention.
FIG. 43 is a flowchart showing an audio signal processing procedure in the embodiment.
FIG. 44 is a block diagram showing a configuration of an audio signal processing device according to an eighteenth embodiment of the present invention.
FIG. 45 is a flowchart showing an audio signal processing procedure in the embodiment.
FIG. 46 is a block diagram showing a configuration of an adaptive spectrum correction unit in the embodiment.
FIG. 47 is a block diagram showing a configuration of an audio signal processing device according to a nineteenth embodiment of the present invention.
[Explanation of symbols]
101-1 to 101-M ... microphone
102: cross-correlation coefficient calculator
103 ... Signal integration unit
104: gain control unit (adjustment unit)
106 ... Adaptive beamformer
201: Frequency analysis unit
202: Cross-correlation coefficient calculator
203 ... Signal integration unit
204: gain control unit (adjustment unit)
300: target signal activity calculator
301: Cross power spectrum calculator
302: Coherence function calculator
303: Power information calculation unit
304: Corrected spectrum calculator
305 ... weighted cross-correlation coefficient calculator
401: detection processing unit (determination unit)
501: gain control unit (adjustment unit)
601 Coherence filter operation unit
701 omnidirectional microphone
702, 711, 712 ... directional microphone
800, 900: spectrum correction unit
801,904 ... Adaptive filter
802,901,902 ... correction filter
910: correction filter learning unit
Claims (39)
前記入力音声信号を1チャネルに統合して統合音声信号を出力する統合ステップと、
前記統合音声信号の大きさを前記相互相関係数に従って調整することにより出力音声信号を生成するステップとを具備する音声信号処理方法。Determining a cross-correlation coefficient between the channels of the input audio signals of a plurality of channels output from a plurality of microphones spatially separated;
An integrating step of integrating the input audio signal into one channel and outputting an integrated audio signal;
Generating an output audio signal by adjusting the magnitude of the integrated audio signal according to the cross-correlation coefficient.
前記複数チャネルのスペクトル情報のチャネル間の相互相関係数を求めるステップと、
前記スペクトル情報を1チャネルに統合して統合スペクトル信号を生成する統合ステップと、
前記統合スペクトル信号の大きさを前記相互相関係数に従って調整するステップとを具備する音声信号処理方法。Generating frequency information of a plurality of channels by frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones spatially separated;
Determining a cross-correlation coefficient between the channels of the spectral information of the plurality of channels;
An integrating step of integrating the spectral information into one channel to generate an integrated spectral signal;
Adjusting the magnitude of the integrated spectrum signal according to the cross-correlation coefficient.
前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを求めるステップと、
前記パワースペクトル及びクロススペクトルから計算される重み関数を用いて周波数毎に重みを掛けて前記コヒーレンス関数を用いて前記パワースペクトル及びクロススペクトルを修正するステップと、
修正されたパワースペクトル及びクロススペクトルに基づいて重み付けられた、前記入力音声信号のチャネル間の相互相関係数を求めるステップとを具備する音声信号処理方法。Generating frequency information of a plurality of channels by frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones spatially separated;
Obtaining a power spectrum for each channel of the input audio signal and a cross spectrum between channels from the spectrum information;
Correcting the power spectrum and the cross spectrum using the coherence function by weighting each frequency using a weight function calculated from the power spectrum and the cross spectrum,
Obtaining a cross-correlation coefficient between the channels of the input audio signal, which is weighted based on the corrected power spectrum and cross spectrum.
前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを求めるステップと、
前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を求めるステップと、
前記コヒーレンス関数を用いて前記パワースペクトル及びクロススペクトルを修正するステップと、
修正されたパワースペクトル及びクロススペクトルに基づいて重み付けられた、前記入力音声信号のチャネル間の相互相関係数を求めるステップとを具備する音声信号処理方法。Generating frequency information of a plurality of channels by frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones spatially separated;
Obtaining a power spectrum for each channel of the input audio signal and a cross spectrum between channels from the spectrum information;
Obtaining a coherence function between the channels of the spectral information of the plurality of channels from the power spectrum and the cross spectrum,
Modifying the power spectrum and the cross spectrum using the coherence function;
Obtaining a cross-correlation coefficient between the channels of the input audio signal, which is weighted based on the corrected power spectrum and cross spectrum.
前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを求めるステップと、
前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を求めるステップと、
前記パワースペクトルに基づいて前記入力音声信号のチャネル間の信号パワーに関するパワー情報を求めるステップと、
前記コヒーレンス関数及びパワー情報を用いて前記パワースペクトル及びクロススペクトルを修正するステップと、
修正されたパワースペクトル及びクロススペクトルに基づいて重み付けられた、前記入力音声信号のチャネル間の相互相関係数を求めるステップとを具備する音声信号処理方法。Generating frequency information of a plurality of channels by frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones spatially separated;
Obtaining a power spectrum for each channel of the input audio signal and a cross spectrum between channels from the spectrum information;
Obtaining a coherence function between the channels of the spectral information of the plurality of channels from the power spectrum and the cross spectrum,
Obtaining power information on signal power between channels of the input audio signal based on the power spectrum;
Modifying the power spectrum and cross spectrum using the coherence function and power information;
Obtaining a cross-correlation coefficient between the channels of the input audio signal, which is weighted based on the corrected power spectrum and cross spectrum.
前記入力音声信号を1チャネルに統合して統合音声信号を出力する統合部と、
前記統合音声信号の大きさを前記相互相関係数に従って調整することにより出力音声信号を生成する調整部とを具備する音声信号処理装置。A cross-correlation coefficient calculation unit that calculates a cross-correlation coefficient between channels of a plurality of channels of input audio signals output from a plurality of microphones spatially separated,
An integration unit that integrates the input audio signal into one channel and outputs an integrated audio signal;
An audio signal processing apparatus comprising: an adjustment unit configured to adjust an intensity of the integrated audio signal according to the cross-correlation coefficient to generate an output audio signal.
前記複数チャネルのスペクトル情報のチャネル間の相互相関係数を算出する相互相関係数計算部と、
前記スペクトル情報を1チャネルに統合して統合スペクトル信号を生成する統合部と、
前記統合スペクトル信号の大きさを前記相互相関係数に従って調整する調整部とを具備する音声信号処理装置。A frequency analysis unit that frequency-analyzes the input audio signals of a plurality of channels output from a plurality of microphones that are spatially separated to generate spectral information of a plurality of channels,
A cross-correlation coefficient calculation unit that calculates a cross-correlation coefficient between the channels of the spectral information of the plurality of channels,
An integration unit that integrates the spectrum information into one channel to generate an integrated spectrum signal;
An adjusting unit that adjusts the magnitude of the integrated spectrum signal according to the cross-correlation coefficient.
前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出するスペクトル計算部と、
前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を算出するコヒーレンス関数計算部と、
前記コヒーレンス関数を用いて前記パワースペクトル及びクロススペクトルを修正する修正スペクトル計算部と、
修正された前記パワースペクトル及びクロススペクトルに基づいて重み付けられた、前記入力音声信号のチャネル間の相互相関係数を算出する重み付き相互相関係数計算部とを具備する音声信号処理装置。A frequency analysis unit that frequency-analyzes the input audio signals of a plurality of channels output from a plurality of microphones that are spatially separated to generate spectral information of a plurality of channels,
A spectrum calculation unit that calculates a power spectrum for each channel of the input audio signal and a cross spectrum between channels from the spectrum information,
A coherence function calculation unit that calculates a coherence function between channels of the plurality of channels of spectrum information from the power spectrum and the cross spectrum,
A correction spectrum calculation unit that corrects the power spectrum and the cross spectrum using the coherence function,
An audio signal processing device comprising: a weighted cross-correlation coefficient calculation unit that calculates a cross-correlation coefficient between channels of the input audio signal, the weight being calculated based on the corrected power spectrum and cross spectrum.
前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出するスペクトル計算部と、
前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を算出するコヒーレンス関数計算部と、
前記パワースペクトルに基づいて前記入力音声信号のチャネル間の信号パワーに関するパワー情報を算出するパワー情報計算部と、
前記コヒーレンス関数及びパワー情報を用いて前記パワースペクトル及びクロススペクトルを修正する修正スペクトル計算部と、
修正された前記パワースペクトル及びクロススペクトルに基づいて重み付けられた、前記入力音声信号のチャネル間の相互相関係数を算出する重み付き相互相関係数計算部とを具備する音声信号処理装置。A frequency analysis unit that frequency-analyzes the input audio signals of a plurality of channels output from a plurality of microphones that are spatially separated to generate spectral information of a plurality of channels,
A spectrum calculation unit that calculates a power spectrum for each channel of the input audio signal and a cross spectrum between channels from the spectrum information,
A coherence function calculation unit that calculates a coherence function between channels of the plurality of channels of spectrum information from the power spectrum and the cross spectrum,
A power information calculation unit that calculates power information related to signal power between channels of the input audio signal based on the power spectrum,
A correction spectrum calculator that corrects the power spectrum and cross spectrum using the coherence function and power information,
An audio signal processing device comprising: a weighted cross-correlation coefficient calculation unit that calculates a cross-correlation coefficient between channels of the input audio signal, the weight being calculated based on the corrected power spectrum and cross spectrum.
前記入力音声信号を1チャネルに統合して統合音声信号を出力する処理と、
前記統合音声信号の大きさを前記相互相関係数に従って調整することにより出力音声信号を生成する処理とをコンピュータに行わせるプログラム。A process of determining a cross-correlation coefficient between channels of a plurality of channels of input audio signals output from a plurality of microphones spatially separated;
A process of integrating the input audio signal into one channel and outputting an integrated audio signal;
A program for causing a computer to perform a process of generating an output audio signal by adjusting a magnitude of the integrated audio signal according to the cross-correlation coefficient.
前記複数チャネルのスペクトル情報のチャネル間の相互相関係数を求める処理と、
前記スペクトル情報を1チャネルに統合して統合スペクトル信号を生成する統合処理と、
前記統合スペクトル信号の大きさを前記相互相関係数に従って調整する処理とをコンピュータに行わせるためのプログラム。A process of frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones spatially separated to generate spectral information of a plurality of channels,
A process of obtaining a cross-correlation coefficient between the channels of the spectral information of the plurality of channels;
An integration process of integrating the spectrum information into one channel to generate an integrated spectrum signal;
Adjusting a magnitude of the integrated spectrum signal in accordance with the cross-correlation coefficient.
前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを求める処理と、
前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を求める処理と、
前記コヒーレンス関数を用いて前記パワースペクトル及びクロススペクトルを修正する処理と、
修正されたパワースペクトル及びクロススペクトルに基づいて重み付けられた、前記入力音声信号のチャネル間の相互相関係数を求める処理とをコンピュータに行わせるためのプログラム。A process of frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones spatially separated to generate spectral information of a plurality of channels,
A process for obtaining a power spectrum for each channel of the input audio signal and a cross spectrum between channels from the spectrum information;
A process for obtaining a coherence function between channels of the plurality of channels of spectral information from the power spectrum and the cross spectrum,
Correcting the power spectrum and the cross spectrum using the coherence function,
A process for obtaining a cross-correlation coefficient between channels of the input audio signal, the process being weighted based on the corrected power spectrum and cross spectrum.
前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを求める処理と、
前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を求める処理と、
前記パワースペクトルに基づいて前記入力音声信号のチャネル間の信号パワーに関するパワー情報を求める処理と、
前記コヒーレンス関数及びパワー情報を用いて前記パワースペクトル及びクロススペクトルを修正する処理と、
修正されたパワースペクトル及びクロススペクトルに基づいて重み付けられた、前記入力音声信号のチャネル間の相互相関係数を求める処理とをコンピュータに行わせるためのプログラム。A process of frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones spatially separated to generate spectral information of a plurality of channels,
A process for obtaining a power spectrum for each channel of the input audio signal and a cross spectrum between channels from the spectrum information;
A process for obtaining a coherence function between channels of the plurality of channels of spectral information from the power spectrum and the cross spectrum,
A process for obtaining power information about signal power between channels of the input audio signal based on the power spectrum;
Correcting the power spectrum and the cross spectrum using the coherence function and power information,
A process for obtaining a cross-correlation coefficient between channels of the input audio signal, the process being weighted based on the corrected power spectrum and cross spectrum.
前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出するスペクトル計算部と、
前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を算出するコヒーレンス関数計算部と、
音声の複数の仮想到来方向からなる仮想到来方向群に対応して、該仮想到来方向から到来する音声が複数のチャネル間で一致するように補正するための補正係数を発生する補正係数発生部と、
前記補正係数に基づいて前記パワースペクトル及びクロススペクトルを補正し、補正パワースペクトル及び補正クロススペクトルを生成するスペクトル補正部と、
前記補正パワースペクトル及び補正クロススペクトルに基づいて前記入力音声信号のチャネル間の信号パワーに関するパワー情報を算出するパワー情報計算部と、
前記補正パワースペクトル及び補正クロススペクトルを前記コヒーレンス関数及びパワー情報に基づいて重み付けし、前記仮想到来方向群に対応した前記入力音声信号のチャネル間の相互相関係数を前記仮想到来方向毎に算出する相関係数計算部と、
前記相互相関係数に基づいて前記マイクロホンに入力される音声の音源方向を検出すると共に、検出した該音源方向における前記相互相関係数の値を音源相関係数として出力する音源方向検出部とを具備する音声信号処理装置。A frequency analysis unit that generates a plurality of channels of spectrum information by frequency-analyzing an input audio signal of a plurality of channels output from the microphones in response to sounds input to a plurality of microphones spatially separated,
A spectrum calculation unit that calculates a power spectrum for each channel of the input audio signal and a cross spectrum between channels from the spectrum information,
A coherence function calculation unit that calculates a coherence function between channels of the plurality of channels of spectrum information from the power spectrum and the cross spectrum,
A correction coefficient generation unit that generates a correction coefficient for correcting a voice arriving from the virtual arrival direction to match between a plurality of channels, corresponding to a virtual arrival direction group including a plurality of virtual arrival directions of the voice; ,
A spectrum correction unit that corrects the power spectrum and the cross spectrum based on the correction coefficient, and generates a corrected power spectrum and a corrected cross spectrum,
A power information calculation unit that calculates power information about signal power between channels of the input audio signal based on the corrected power spectrum and the corrected cross spectrum,
The corrected power spectrum and the corrected cross spectrum are weighted based on the coherence function and the power information, and a cross-correlation coefficient between channels of the input voice signal corresponding to the virtual direction of arrival group is calculated for each virtual direction of arrival. A correlation coefficient calculator,
A sound source direction detecting unit that detects a sound source direction of a sound input to the microphone based on the cross correlation coefficient, and outputs a value of the cross correlation coefficient in the detected sound source direction as a sound source correlation coefficient. An audio signal processing device provided.
補正された複数チャネルのスペクトル情報を1チャネルに統合して統合スペクトル信号を生成する統合部と、
前記コヒーレンス関数を用いて前記統合スペクトル信号をフィルタリングするコヒーレンスフィルタ演算部と、
フィルタリングされた統合スペクトル信号の大きさを前記音源相関係数に基づいて調整することにより出力音声信号を生成する調整部とをさらに具備する請求項31記載の音声信号処理装置。A spectrum information correction unit for correcting the spectrum information of the plurality of channels based on the sound source direction,
An integration unit that integrates the corrected spectrum information of the plurality of channels into one channel to generate an integrated spectrum signal;
A coherence filter operation unit that filters the integrated spectrum signal using the coherence function,
32. The audio signal processing device according to claim 31, further comprising: an adjusting unit configured to adjust the magnitude of the filtered integrated spectrum signal based on the sound source correlation coefficient to generate an output audio signal.
前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出するスペクトル計算部と、
前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を算出するコヒーレンス関数計算部と、
前記パワースペクトルから前記入力音声信号のチャネル間の信号パワーに関するパワー情報を算出するパワー情報計算部と、
前記複数のスペクトル情報を1チャネルに統合して統合スペクトル信号を生成する統合部と、
前記統合スペクトル信号のパワースペクトルを計算する統合信号パワースペクトル計算部と、
前記クロススペクトルを前記コヒーレンス関数及びパワー情報に基づいて重み付けし、重み付けたクロススペクトルをさらに前記統合スペクトル信号のパワースペクトルに基づいて正規化して利得係数を計算する利得係数計算部とを具備する音声信号処理装置。A frequency analysis unit that frequency-analyzes the input audio signals of a plurality of channels output from a plurality of microphones that are spatially separated to generate spectral information of a plurality of channels,
A spectrum calculation unit that calculates a power spectrum for each channel of the input audio signal and a cross spectrum between channels from the spectrum information,
A coherence function calculation unit that calculates a coherence function between channels of the plurality of channels of spectrum information from the power spectrum and the cross spectrum,
A power information calculation unit that calculates power information related to signal power between channels of the input audio signal from the power spectrum,
An integration unit that integrates the plurality of pieces of spectrum information into one channel to generate an integrated spectrum signal;
An integrated signal power spectrum calculation unit for calculating a power spectrum of the integrated spectrum signal,
An audio signal comprising: a gain coefficient calculator that weights the cross spectrum based on the coherence function and the power information, and further normalizes the weighted cross spectrum based on the power spectrum of the integrated spectrum signal to calculate a gain coefficient. Processing equipment.
前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出するスペクトル計算部と、
前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を算出するコヒーレンス関数計算部と、
前記複数のスペクトル情報を1チャネルに統合して統合スペクトル信号を生成する統合部と、
前記統合したスペクトル情報のパワースペクトルを計算する統合信号パワースペクトル計算部と、
前記クロススペクトルを前記コヒーレンス関数に基づいて重み付けし、重み付けたクロススペクトルをさらに前記統合信号パワースペクトルに基づいて正規化して利得係数を計算する利得係数計算部とを具備する音声信号処理装置。A frequency analysis unit that frequency-analyzes the input audio signals of a plurality of channels output from a plurality of microphones that are spatially separated to generate spectral information of a plurality of channels,
A spectrum calculation unit that calculates a power spectrum for each channel of the input audio signal and a cross spectrum between channels from the spectrum information,
A coherence function calculation unit that calculates a coherence function between channels of the plurality of channels of spectrum information from the power spectrum and the cross spectrum,
An integration unit that integrates the plurality of pieces of spectrum information into one channel to generate an integrated spectrum signal;
An integrated signal power spectrum calculation unit for calculating the power spectrum of the integrated spectrum information,
An audio signal processing apparatus comprising: a gain coefficient calculator that weights the cross spectrum based on the coherence function, and further normalizes the weighted cross spectrum based on the integrated signal power spectrum to calculate a gain coefficient.
前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出するスペクトル計算部と、
前記複数チャネル間のクロススペクトルと各チャネルのパワースペクトルから前記複数チャネル間のコヒーレンス関数を算出するコヒーレンス関数計算部と、
音声の複数の仮想到来方向からなる仮想到来方向群に対応して、該仮想到来方向から到来する音声が複数のチャネル間で一致するように補正するための補正係数を発生する補正係数発生部と、
前記補正係数に基づいて前記パワースペクトル及びクロススペクトルを補正し、補正パワースペクトル及び補正クロススペクトルを生成するスペクトル補正部と、
前記補正パワースペクトル及び補正クロススペクトルに基づいて前記入力音声信号のチャネル間の信号パワーに関するパワー情報を算出するパワー情報計算部と、
前記複数チャネルのスペクトル情報を前記補正係数により補正してから統合して得られる統合スペクトル情報に対するパワースペクトルを前記補正パワースペクトル及び補正クロススペクトルに基づいて計算する仮想統合パワースペクトル計算部と、
前記補正クロススペクトルを前記コヒーレンス関数及びパワー情報に基づいて重み付けし、さらに仮想統合パワースペクトルに基づいて正規化することにより、前記仮想到来方向に対応した利得係数を求める利得係数計算部と、
前記利得係数に基づいて前記マイクロホンに入力される音声の音源方向を検出すると共に、検出した該音源方向に対応する利得係数の値を音源利得係数として出力する音源方向検出部とを具備する音声信号処理装置。A frequency analysis unit that frequency-analyzes the input audio signals of a plurality of channels output from a plurality of microphones that are spatially separated to generate spectral information of a plurality of channels,
A spectrum calculation unit that calculates a power spectrum for each channel of the input audio signal and a cross spectrum between channels from the spectrum information,
A coherence function calculation unit that calculates a coherence function between the plurality of channels from the cross spectrum between the plurality of channels and a power spectrum of each channel,
A correction coefficient generation unit that generates a correction coefficient for correcting a voice arriving from the virtual arrival direction to match between a plurality of channels, corresponding to a virtual arrival direction group including a plurality of virtual arrival directions of the voice; ,
A spectrum correction unit that corrects the power spectrum and the cross spectrum based on the correction coefficient, and generates a corrected power spectrum and a corrected cross spectrum,
A power information calculation unit that calculates power information about signal power between channels of the input audio signal based on the corrected power spectrum and the corrected cross spectrum,
A virtual integrated power spectrum calculation unit that calculates a power spectrum for integrated spectrum information obtained by integrating the spectrum information of the plurality of channels after correcting with the correction coefficient based on the corrected power spectrum and the corrected cross spectrum,
A gain coefficient calculator for weighting the corrected cross spectrum based on the coherence function and the power information, and further normalizing the corrected cross spectrum based on the virtual integrated power spectrum, thereby obtaining a gain coefficient corresponding to the virtual arrival direction.
A sound source direction detecting unit that detects a sound source direction of a sound input to the microphone based on the gain coefficient, and outputs a value of a gain coefficient corresponding to the detected sound source direction as a sound source gain coefficient. Processing equipment.
前記補正された複数チャネルのスペクトル情報を1チャネルに統合して統合スペクトル信号を生成する信号統合部と、
前記コヒーレンス関数を用いて前記統合スペクトル信号をフィルタリングするコヒーレンスフィルタ演算部と、
フィルタリングされた統合スペクトル信号の大きさを前記音源相関係数に基づいて調整する調整部とをさらに具備する請求項36記載の音声信号処理装置。A spectrum information correction unit that corrects the spectrum information of the plurality of channels based on the correction coefficient,
A signal integration unit that integrates the corrected plurality of channels of spectrum information into one channel to generate an integrated spectrum signal;
A coherence filter operation unit that filters the integrated spectrum signal using the coherence function,
37. The audio signal processing device according to claim 36, further comprising: an adjusting unit that adjusts the magnitude of the filtered integrated spectrum signal based on the sound source correlation coefficient.
前記複数チャネルのスペクトル情報を入力として、前記複数チャネルの入力音声信号のチャネル間の第1の修正相互相関係数を計算する第1の修正相互相関係数計算部と、
前記第1の修正相互相関係数に基づいて前記複数チャネルのスペクトル情報のチャネル間の差を適応的に補正して補正スペクトル情報を生成する適応スペクトル補正部と、
前記補正スペクトル情報から第2の修正相互相関係数を計算する第2の修正相互相関係数計算部とを具備し、
前記第1及び第2の修正相互相関係数計算部は、(a)前記スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出するスペクトル計算部と、(b)前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を算出するコヒーレンス関数計算部と、(c)前記パワースペクトルから前記入力音声信号のチャネル間の信号パワーに関するパワー情報を算出するパワー情報計算部と、(d)前記パワースペクトル及びクロススペクトルを前記コヒーレンス関数及びパワー情報に基づいて重み付けして前記入力音声信号のチャネル間の相互相関係数を算出し、前記第1または第2の修正相互相関関数を出力する相関係数計算部とを有する音声信号処理装置。A frequency analysis unit that frequency-analyzes the input audio signals of a plurality of channels output from a plurality of microphones that are spatially separated to generate spectral information of a plurality of channels,
A first modified cross-correlation coefficient calculation unit that calculates a first modified cross-correlation coefficient between channels of the input audio signals of the plurality of channels by using the spectral information of the plurality of channels as an input;
An adaptive spectrum correction unit that adaptively corrects a difference between channels of the spectrum information of the plurality of channels based on the first corrected cross-correlation coefficient to generate corrected spectrum information;
A second corrected cross-correlation coefficient calculator that calculates a second corrected cross-correlation coefficient from the corrected spectrum information,
The first and second modified cross-correlation coefficient calculators include: (a) a spectrum calculator that calculates a power spectrum for each channel of the input voice signal and a cross spectrum between channels from the spectrum information; A coherence function calculator for calculating a coherence function between channels of the plurality of channels of spectrum information from the power spectrum and the cross spectrum; and (c) calculating power information on signal power between channels of the input voice signal from the power spectrum. And (d) calculating a cross-correlation coefficient between channels of the input audio signal by weighting the power spectrum and the cross spectrum based on the coherence function and the power information. And a correlation coefficient calculator that outputs the modified cross-correlation function of The audio signal processing apparatus.
前記第1スペクトル情報から第1の修正利得を計算する第1の修正利得係数計算部と、
前記第1の利得係数に基づいて前記第1スペクトル情報のチャネル間の差を適応的に補正して第2スペクトル情報を生成する適応スペクトル補正部と、
前記第2スペクトル情報から第2の修正利得を計算する第2の修正利得係数計算部とを具備し、
前記第1及び第2の修正利得係数計算部は、(a)前記第1または第2スペクトル情報から前記入力音声信号のチャネル毎のパワースペクトル及びチャネル間のクロススペクトルを算出するスペクトル計算部と、(b)前記パワースペクトル及びクロススペクトルから前記複数チャネルのスペクトル情報のチャネル間のコヒーレンス関数を算出するコヒーレンス関数計算部と、(c)前記パワースペクトルから前記入力音声信号のチャネル間の信号パワーに関するパワー情報を算出するパワー情報計算部と、(d)前記複数のスペクトル情報を1チャネルに統合して統合スペクトル信号を生成する統合部と、(e)前記統合スペクトル信号のパワースペクトルを計算する統合信号パワースペクトル計算部と、(f)前記クロススペクトルを前記コヒーレンス関数及びパワー情報に基づいて重み付けし、重み付けたクロススペクトルをさらに前記統合スペクトル信号のパワースペクトルに基づいて正規化して前記第1または第2の利得係数を計算する利得係数計算部とを有する音声信号処理装置。A frequency analysis unit for frequency-analyzing input audio signals of a plurality of channels output from a plurality of microphones spatially separated to generate first spectrum information of a plurality of channels;
A first modified gain coefficient calculator for calculating a first modified gain from the first spectrum information;
An adaptive spectrum correction unit that adaptively corrects a difference between channels of the first spectrum information based on the first gain coefficient to generate second spectrum information;
A second correction gain coefficient calculation unit that calculates a second correction gain from the second spectrum information,
The first and second modified gain coefficient calculators include: (a) a spectrum calculator that calculates a power spectrum for each channel of the input voice signal and a cross spectrum between channels from the first or second spectrum information; (B) a coherence function calculator for calculating a coherence function between channels of the spectrum information of the plurality of channels from the power spectrum and the cross spectrum; and (c) a power related to signal power between channels of the input audio signal from the power spectrum. A power information calculation unit for calculating information; (d) an integration unit for integrating the plurality of pieces of spectrum information into one channel to generate an integrated spectrum signal; and (e) an integrated signal for calculating a power spectrum of the integrated spectrum signal. A power spectrum calculation unit; A gain coefficient calculator for weighting based on the coherence function and the power information, and further normalizing the weighted cross spectrum based on the power spectrum of the integrated spectrum signal to calculate the first or second gain coefficient. Signal processing device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003119116A JP4247037B2 (en) | 2003-01-29 | 2003-04-23 | Audio signal processing method, apparatus and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003020996 | 2003-01-29 | ||
JP2003119116A JP4247037B2 (en) | 2003-01-29 | 2003-04-23 | Audio signal processing method, apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004289762A true JP2004289762A (en) | 2004-10-14 |
JP4247037B2 JP4247037B2 (en) | 2009-04-02 |
Family
ID=33301603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003119116A Expired - Fee Related JP4247037B2 (en) | 2003-01-29 | 2003-04-23 | Audio signal processing method, apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4247037B2 (en) |
Cited By (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006077745A1 (en) * | 2005-01-20 | 2006-07-27 | Nec Corporation | Signal removal method, signal removal system, and signal removal program |
JP2006254226A (en) * | 2005-03-11 | 2006-09-21 | Toshiba Corp | Acoustic signal processing apparatus, method and program, and computer-readable recording medium with acoustic signal processing program recorded thereon |
JP2006340391A (en) * | 2006-07-31 | 2006-12-14 | Toshiba Corp | Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and computer readable record medium which records acoustic signal processing program |
JP2007010897A (en) * | 2005-06-29 | 2007-01-18 | Toshiba Corp | Sound signal processing method, device, and program |
JP2007040954A (en) * | 2004-11-18 | 2007-02-15 | Nsk Ltd | Displacement measuring device of rotary member and load measuring device |
WO2007018293A1 (en) * | 2005-08-11 | 2007-02-15 | Asahi Kasei Kabushiki Kaisha | Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program |
WO2007026827A1 (en) * | 2005-09-02 | 2007-03-08 | Japan Advanced Institute Of Science And Technology | Post filter for microphone array |
JP2007195092A (en) * | 2006-01-23 | 2007-08-02 | Sony Corp | Device and method of sound reproduction |
JP2007235358A (en) * | 2006-02-28 | 2007-09-13 | Nippon Telegr & Teleph Corp <Ntt> | Sound pickup device, program, and recording medium recorded with it |
WO2007123052A1 (en) * | 2006-04-20 | 2007-11-01 | Nec Corporation | Adaptive array control device, method, program, adaptive array processing device, method, program |
WO2007123051A1 (en) * | 2006-04-20 | 2007-11-01 | Nec Corporation | Adaptive array controlling device, method, program, and adaptive array processing device, method, program |
JP2008131183A (en) * | 2006-11-17 | 2008-06-05 | Univ Waseda | Sound source separating device, sound source separating method, sound source separating program, and recording medium |
JP2008311866A (en) * | 2007-06-13 | 2008-12-25 | Toshiba Corp | Acoustic signal processing method and apparatus |
JP2009005261A (en) * | 2007-06-25 | 2009-01-08 | Nippon Telegr & Teleph Corp <Ntt> | Sound pickup apparatus, sound pickup method, sound pickup program using its method, and storage medium |
JP2009005157A (en) * | 2007-06-22 | 2009-01-08 | Sanyo Electric Co Ltd | Sound signal correction device |
JP2009005133A (en) * | 2007-06-22 | 2009-01-08 | Sanyo Electric Co Ltd | Wind noise reducing apparatus and electronic device with the wind noise reducing apparatus |
JP2009037032A (en) * | 2007-08-02 | 2009-02-19 | Nippon Telegr & Teleph Corp <Ntt> | Device and method of signal extraction and program therefor |
JP2009047803A (en) * | 2007-08-16 | 2009-03-05 | Toshiba Corp | Method and device for processing acoustic signal |
JPWO2007026691A1 (en) * | 2005-09-02 | 2009-03-26 | 日本電気株式会社 | Noise suppression method and apparatus, and computer program |
JP2009069503A (en) * | 2007-09-13 | 2009-04-02 | Fujitsu Ltd | Sound processing apparatus, gain controller, gain control method and computer program |
JP2009116245A (en) * | 2007-11-09 | 2009-05-28 | Yamaha Corp | Speech enhancement device |
JP2009188638A (en) * | 2008-02-05 | 2009-08-20 | Univ Of Electro-Communications | Microphone device |
JP2010026361A (en) * | 2008-07-23 | 2010-02-04 | Internatl Business Mach Corp <Ibm> | Speech collection method, system and program |
JP2010517047A (en) * | 2007-01-26 | 2010-05-20 | マイクロソフト コーポレーション | Multi-sensor sound source localization |
JP2010530718A (en) * | 2007-06-21 | 2010-09-09 | ボーズ・コーポレーション | Sound identification method and apparatus |
WO2010103900A1 (en) | 2009-03-11 | 2010-09-16 | 新日本石油株式会社 | Minimal flow rate liquid pump control device |
JP2010217773A (en) * | 2009-03-18 | 2010-09-30 | Yamaha Corp | Signal processing device and program |
JP2010286685A (en) * | 2009-06-12 | 2010-12-24 | Yamaha Corp | Signal processing apparatus |
KR20110034329A (en) * | 2009-09-28 | 2011-04-05 | 삼성전자주식회사 | Apparatus for gain calibration of microphone array and method thereof |
CN102142259A (en) * | 2010-01-28 | 2011-08-03 | 三星电子株式会社 | Signal separation system and method for automatically selecting threshold to separate sound source |
US8014230B2 (en) | 2006-04-20 | 2011-09-06 | Nec Corporation | Adaptive array control device, method and program, and adaptive array processing device, method and program using the same |
JP2011526114A (en) * | 2008-06-25 | 2011-09-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Audio processing |
JP2011254189A (en) * | 2010-06-01 | 2011-12-15 | Sony Corp | Audio signal processor, audio signal processing method |
WO2012001898A1 (en) * | 2010-07-02 | 2012-01-05 | パナソニック株式会社 | Directional microphone device and directivity control method |
JP2012502570A (en) * | 2008-09-11 | 2012-01-26 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Apparatus, method and apparatus for providing a set of spatial cues based on a microphone signal and a computer program and a two-channel audio signal and a set of spatial cues |
WO2012026126A1 (en) * | 2010-08-25 | 2012-03-01 | 旭化成株式会社 | Sound source separator device, sound source separator method, and program |
US8174935B2 (en) | 2006-04-20 | 2012-05-08 | Nec Corporation | Adaptive array control device, method and program, and adaptive array processing device, method and program using the same |
JP2012100160A (en) * | 2010-11-04 | 2012-05-24 | Panasonic Corp | Hearing aid |
US8194898B2 (en) | 2006-09-22 | 2012-06-05 | Sony Corporation | Sound reproducing system and sound reproducing method |
US8199940B2 (en) | 2007-04-16 | 2012-06-12 | Sony Corporation | Audio reproduction system and speaker apparatus |
JP2012517613A (en) * | 2009-02-09 | 2012-08-02 | ウェーブス・オーディオ・リミテッド | Multi-microphone-based directional sound filter |
JP2012235267A (en) * | 2011-04-28 | 2012-11-29 | Fujitsu Ltd | Microphone array device and tone signal processing program |
JP2013061421A (en) * | 2011-09-12 | 2013-04-04 | Oki Electric Ind Co Ltd | Device, method, and program for processing voice signals |
US8428275B2 (en) | 2007-06-22 | 2013-04-23 | Sanyo Electric Co., Ltd. | Wind noise reduction device |
JP2013520691A (en) * | 2010-02-24 | 2013-06-06 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Apparatus for generating extended downmix signal, method and computer program for generating extended downmix signal |
EP2608201A2 (en) | 2011-12-15 | 2013-06-26 | Fujitsu Limited | Signal processing apparatus and signal processing method |
JP2013142797A (en) * | 2012-01-11 | 2013-07-22 | Sony Corp | Sound signal processing device, sound signal processing method, program and recording medium |
US8494192B2 (en) | 2005-05-13 | 2013-07-23 | Sony Corporation | Audio reproducing system and method thereof |
JP2013533685A (en) * | 2010-07-15 | 2013-08-22 | ヴェーデクス・アクティーセルスカプ | Signal processing method and hearing aid system in hearing aid system |
JP2013192087A (en) * | 2012-03-14 | 2013-09-26 | Fujitsu Ltd | Noise suppression device, microphone array device, noise suppression method, and program |
US8611554B2 (en) | 2008-04-22 | 2013-12-17 | Bose Corporation | Hearing assistance apparatus |
JP2014502108A (en) * | 2010-12-03 | 2014-01-23 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Apparatus and method for spatially selective sound acquisition by acoustic triangulation method |
JP2014510452A (en) * | 2011-02-10 | 2014-04-24 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Synthetic suppression of noise, echo and out-of-location signals |
WO2014132500A1 (en) * | 2013-02-26 | 2014-09-04 | 沖電気工業株式会社 | Signal processing device and method |
WO2014132499A1 (en) * | 2013-02-26 | 2014-09-04 | 沖電気工業株式会社 | Signal processing device and method |
CN104067632A (en) * | 2012-01-27 | 2014-09-24 | 共荣工程株式会社 | Method and device for controlling directionality |
WO2015049921A1 (en) * | 2013-10-04 | 2015-04-09 | 日本電気株式会社 | Signal processing apparatus, media apparatus, signal processing method, and signal processing program |
JP2015126279A (en) * | 2013-12-25 | 2015-07-06 | 沖電気工業株式会社 | Audio signal processing apparatus and program |
US9078077B2 (en) | 2010-10-21 | 2015-07-07 | Bose Corporation | Estimation of synthetic audio prototypes with frequency-based input signal decomposition |
CN104885152A (en) * | 2012-12-28 | 2015-09-02 | 共荣工程株式会社 | Sound-source separation method, device, and program |
US9183839B2 (en) | 2008-09-11 | 2015-11-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues |
US9264797B2 (en) | 2012-12-21 | 2016-02-16 | Panasonic Intellectual Property Management Co., Ltd. | Directional microphone device, acoustic signal processing method, and program |
JP2016506664A (en) * | 2012-12-21 | 2016-03-03 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Filter and method for infomed spatial filtering using multiple instantaneous arrival direction estimates |
WO2018174135A1 (en) * | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | Sound collection device and sound collection method |
WO2018173266A1 (en) * | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | Sound pickup device and sound pickup method |
WO2018173267A1 (en) * | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | Sound pickup device and sound pickup method |
US10302741B2 (en) * | 2015-04-02 | 2019-05-28 | Texas Instruments Incorporated | Method and apparatus for live-object detection |
WO2020066542A1 (en) * | 2018-09-26 | 2020-04-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Acoustic object extraction device and acoustic object extraction method |
WO2020110228A1 (en) * | 2018-11-28 | 2020-06-04 | 三菱電機株式会社 | Information processing device, program and information processing method |
CN112133320A (en) * | 2019-06-07 | 2020-12-25 | 雅马哈株式会社 | Voice processing device and voice processing method |
WO2021025517A1 (en) * | 2019-08-07 | 2021-02-11 | Samsung Electronics Co., Ltd. | Electronic device with audio zoom and operating method thereof |
JP2021039074A (en) * | 2019-09-05 | 2021-03-11 | 株式会社デンソーEmcエンジニアリングサービス | Signal source estimation device |
JP2021076872A (en) * | 2013-04-05 | 2021-05-20 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Companding system and method to reduce quantization noise using advanced spectral extension |
CN113362808A (en) * | 2021-06-02 | 2021-09-07 | 云知声智能科技股份有限公司 | Target direction voice extraction method and device, electronic equipment and storage medium |
WO2022211300A1 (en) * | 2021-04-01 | 2022-10-06 | 삼성전자 주식회사 | Electronic device, and recording method by electronic device on basis of camera switching |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011191668A (en) | 2010-03-16 | 2011-09-29 | Sony Corp | Sound processing device, sound processing method and program |
-
2003
- 2003-04-23 JP JP2003119116A patent/JP4247037B2/en not_active Expired - Fee Related
Cited By (130)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007040954A (en) * | 2004-11-18 | 2007-02-15 | Nsk Ltd | Displacement measuring device of rotary member and load measuring device |
WO2006077745A1 (en) * | 2005-01-20 | 2006-07-27 | Nec Corporation | Signal removal method, signal removal system, and signal removal program |
JP4862656B2 (en) * | 2005-01-20 | 2012-01-25 | 日本電気株式会社 | Signal removal method, signal removal system, and signal removal program |
US7925504B2 (en) | 2005-01-20 | 2011-04-12 | Nec Corporation | System, method, device, and program for removing one or more signals incoming from one or more directions |
JP2006254226A (en) * | 2005-03-11 | 2006-09-21 | Toshiba Corp | Acoustic signal processing apparatus, method and program, and computer-readable recording medium with acoustic signal processing program recorded thereon |
US8494192B2 (en) | 2005-05-13 | 2013-07-23 | Sony Corporation | Audio reproducing system and method thereof |
JP2007010897A (en) * | 2005-06-29 | 2007-01-18 | Toshiba Corp | Sound signal processing method, device, and program |
US7995767B2 (en) | 2005-06-29 | 2011-08-09 | Kabushiki Kaisha Toshiba | Sound signal processing method and apparatus |
WO2007018293A1 (en) * | 2005-08-11 | 2007-02-15 | Asahi Kasei Kabushiki Kaisha | Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program |
US8112272B2 (en) | 2005-08-11 | 2012-02-07 | Asashi Kasei Kabushiki Kaisha | Sound source separation device, speech recognition device, mobile telephone, sound source separation method, and program |
JPWO2007018293A1 (en) * | 2005-08-11 | 2009-02-19 | 旭化成株式会社 | Sound source separation device, voice recognition device, mobile phone, sound source separation method, and program |
JP4671303B2 (en) * | 2005-09-02 | 2011-04-13 | 国立大学法人北陸先端科学技術大学院大学 | Post filter for microphone array |
JPWO2007026691A1 (en) * | 2005-09-02 | 2009-03-26 | 日本電気株式会社 | Noise suppression method and apparatus, and computer program |
WO2007026827A1 (en) * | 2005-09-02 | 2007-03-08 | Japan Advanced Institute Of Science And Technology | Post filter for microphone array |
US9318119B2 (en) | 2005-09-02 | 2016-04-19 | Nec Corporation | Noise suppression using integrated frequency-domain signals |
JPWO2007026827A1 (en) * | 2005-09-02 | 2009-03-12 | 国立大学法人北陸先端科学技術大学院大学 | Post filter for microphone array |
JP2007195092A (en) * | 2006-01-23 | 2007-08-02 | Sony Corp | Device and method of sound reproduction |
US8369531B2 (en) | 2006-01-23 | 2013-02-05 | Sony Corporation | Audio reproducing apparatus and method thereof |
JP2007235358A (en) * | 2006-02-28 | 2007-09-13 | Nippon Telegr & Teleph Corp <Ntt> | Sound pickup device, program, and recording medium recorded with it |
US8174935B2 (en) | 2006-04-20 | 2012-05-08 | Nec Corporation | Adaptive array control device, method and program, and adaptive array processing device, method and program using the same |
WO2007123051A1 (en) * | 2006-04-20 | 2007-11-01 | Nec Corporation | Adaptive array controlling device, method, program, and adaptive array processing device, method, program |
US8106827B2 (en) | 2006-04-20 | 2012-01-31 | Nec Corporation | Adaptive array control device, method and program, and adaptive array processing device, method and program |
WO2007123052A1 (en) * | 2006-04-20 | 2007-11-01 | Nec Corporation | Adaptive array control device, method, program, adaptive array processing device, method, program |
US8014230B2 (en) | 2006-04-20 | 2011-09-06 | Nec Corporation | Adaptive array control device, method and program, and adaptive array processing device, method and program using the same |
JP2006340391A (en) * | 2006-07-31 | 2006-12-14 | Toshiba Corp | Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and computer readable record medium which records acoustic signal processing program |
US8194898B2 (en) | 2006-09-22 | 2012-06-05 | Sony Corporation | Sound reproducing system and sound reproducing method |
JP2008131183A (en) * | 2006-11-17 | 2008-06-05 | Univ Waseda | Sound source separating device, sound source separating method, sound source separating program, and recording medium |
JP2010517047A (en) * | 2007-01-26 | 2010-05-20 | マイクロソフト コーポレーション | Multi-sensor sound source localization |
US8199940B2 (en) | 2007-04-16 | 2012-06-12 | Sony Corporation | Audio reproduction system and speaker apparatus |
US8363850B2 (en) | 2007-06-13 | 2013-01-29 | Kabushiki Kaisha Toshiba | Audio signal processing method and apparatus for the same |
JP2008311866A (en) * | 2007-06-13 | 2008-12-25 | Toshiba Corp | Acoustic signal processing method and apparatus |
US8767975B2 (en) | 2007-06-21 | 2014-07-01 | Bose Corporation | Sound discrimination method and apparatus |
JP2012147475A (en) * | 2007-06-21 | 2012-08-02 | Bose Corp | Sound discrimination method and apparatus |
JP2010530718A (en) * | 2007-06-21 | 2010-09-09 | ボーズ・コーポレーション | Sound identification method and apparatus |
JP2009005157A (en) * | 2007-06-22 | 2009-01-08 | Sanyo Electric Co Ltd | Sound signal correction device |
JP2009005133A (en) * | 2007-06-22 | 2009-01-08 | Sanyo Electric Co Ltd | Wind noise reducing apparatus and electronic device with the wind noise reducing apparatus |
US8428275B2 (en) | 2007-06-22 | 2013-04-23 | Sanyo Electric Co., Ltd. | Wind noise reduction device |
JP2009005261A (en) * | 2007-06-25 | 2009-01-08 | Nippon Telegr & Teleph Corp <Ntt> | Sound pickup apparatus, sound pickup method, sound pickup program using its method, and storage medium |
JP2009037032A (en) * | 2007-08-02 | 2009-02-19 | Nippon Telegr & Teleph Corp <Ntt> | Device and method of signal extraction and program therefor |
JP2009047803A (en) * | 2007-08-16 | 2009-03-05 | Toshiba Corp | Method and device for processing acoustic signal |
JP2009069503A (en) * | 2007-09-13 | 2009-04-02 | Fujitsu Ltd | Sound processing apparatus, gain controller, gain control method and computer program |
JP2009116245A (en) * | 2007-11-09 | 2009-05-28 | Yamaha Corp | Speech enhancement device |
JP2009188638A (en) * | 2008-02-05 | 2009-08-20 | Univ Of Electro-Communications | Microphone device |
US8611554B2 (en) | 2008-04-22 | 2013-12-17 | Bose Corporation | Hearing assistance apparatus |
JP2011526114A (en) * | 2008-06-25 | 2011-09-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Audio processing |
JP2010026361A (en) * | 2008-07-23 | 2010-02-04 | Internatl Business Mach Corp <Ibm> | Speech collection method, system and program |
US9183839B2 (en) | 2008-09-11 | 2015-11-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues |
JP2012502570A (en) * | 2008-09-11 | 2012-01-26 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Apparatus, method and apparatus for providing a set of spatial cues based on a microphone signal and a computer program and a two-channel audio signal and a set of spatial cues |
JP2012517613A (en) * | 2009-02-09 | 2012-08-02 | ウェーブス・オーディオ・リミテッド | Multi-microphone-based directional sound filter |
WO2010103900A1 (en) | 2009-03-11 | 2010-09-16 | 新日本石油株式会社 | Minimal flow rate liquid pump control device |
JP2010217773A (en) * | 2009-03-18 | 2010-09-30 | Yamaha Corp | Signal processing device and program |
JP2010286685A (en) * | 2009-06-12 | 2010-12-24 | Yamaha Corp | Signal processing apparatus |
US9407990B2 (en) | 2009-09-28 | 2016-08-02 | Samsung Electronics Co., Ltd. | Apparatus for gain calibration of a microphone array and method thereof |
KR20110034329A (en) * | 2009-09-28 | 2011-04-05 | 삼성전자주식회사 | Apparatus for gain calibration of microphone array and method thereof |
KR101601197B1 (en) * | 2009-09-28 | 2016-03-09 | 삼성전자주식회사 | Apparatus for gain calibration of microphone array and method thereof |
CN102142259B (en) * | 2010-01-28 | 2015-07-15 | 三星电子株式会社 | Signal separation system and method for automatically selecting threshold to separate sound source |
US8718293B2 (en) | 2010-01-28 | 2014-05-06 | Samsung Electronics Co., Ltd. | Signal separation system and method for automatically selecting threshold to separate sound sources |
CN102142259A (en) * | 2010-01-28 | 2011-08-03 | 三星电子株式会社 | Signal separation system and method for automatically selecting threshold to separate sound source |
US9357305B2 (en) | 2010-02-24 | 2016-05-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program |
JP2013520691A (en) * | 2010-02-24 | 2013-06-06 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Apparatus for generating extended downmix signal, method and computer program for generating extended downmix signal |
JP2011254189A (en) * | 2010-06-01 | 2011-12-15 | Sony Corp | Audio signal processor, audio signal processing method |
WO2012001898A1 (en) * | 2010-07-02 | 2012-01-05 | パナソニック株式会社 | Directional microphone device and directivity control method |
JP5756907B2 (en) * | 2010-07-02 | 2015-07-29 | パナソニックIpマネジメント株式会社 | Directional microphone device and directivity control method thereof |
US8879749B2 (en) | 2010-07-02 | 2014-11-04 | Panasonic Corporation | Directional microphone device and directivity control method |
JP2013533685A (en) * | 2010-07-15 | 2013-08-22 | ヴェーデクス・アクティーセルスカプ | Signal processing method and hearing aid system in hearing aid system |
KR101420960B1 (en) | 2010-07-15 | 2014-07-18 | 비덱스 에이/에스 | Method of signal processing in a hearing aid system and a hearing aid system |
US8842861B2 (en) | 2010-07-15 | 2014-09-23 | Widex A/S | Method of signal processing in a hearing aid system and a hearing aid system |
KR101339592B1 (en) | 2010-08-25 | 2013-12-10 | 아사히 가세이 가부시키가이샤 | Sound source separator device, sound source separator method, and computer readable recording medium having recorded program |
WO2012026126A1 (en) * | 2010-08-25 | 2012-03-01 | 旭化成株式会社 | Sound source separator device, sound source separator method, and program |
US9078077B2 (en) | 2010-10-21 | 2015-07-07 | Bose Corporation | Estimation of synthetic audio prototypes with frequency-based input signal decomposition |
JP2012100160A (en) * | 2010-11-04 | 2012-05-24 | Panasonic Corp | Hearing aid |
JP2014502108A (en) * | 2010-12-03 | 2014-01-23 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Apparatus and method for spatially selective sound acquisition by acoustic triangulation method |
US9143856B2 (en) | 2010-12-03 | 2015-09-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for spatially selective sound acquisition by acoustic triangulation |
EP2647221B1 (en) * | 2010-12-03 | 2020-01-08 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for spatially selective sound acquisition by acoustic triangulation |
KR101555416B1 (en) | 2010-12-03 | 2015-09-23 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | Apparatus and method for spatially selective sound acquisition by acoustic triangulation |
JP2014510452A (en) * | 2011-02-10 | 2014-04-24 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Synthetic suppression of noise, echo and out-of-location signals |
JP2012235267A (en) * | 2011-04-28 | 2012-11-29 | Fujitsu Ltd | Microphone array device and tone signal processing program |
JP2013061421A (en) * | 2011-09-12 | 2013-04-04 | Oki Electric Ind Co Ltd | Device, method, and program for processing voice signals |
US9271075B2 (en) | 2011-12-15 | 2016-02-23 | Fujitsu Limited | Signal processing apparatus and signal processing method |
EP2608201A2 (en) | 2011-12-15 | 2013-06-26 | Fujitsu Limited | Signal processing apparatus and signal processing method |
JP2013142797A (en) * | 2012-01-11 | 2013-07-22 | Sony Corp | Sound signal processing device, sound signal processing method, program and recording medium |
US9445195B2 (en) | 2012-01-27 | 2016-09-13 | Kyoei Engineering Co., Ltd. | Directivity control method and device |
CN104067632B (en) * | 2012-01-27 | 2018-04-06 | 共荣工程株式会社 | directivity control method and device |
EP2809086A4 (en) * | 2012-01-27 | 2015-09-23 | Kyoei Engineering Co Ltd | Method and device for controlling directionality |
CN104067632A (en) * | 2012-01-27 | 2014-09-24 | 共荣工程株式会社 | Method and device for controlling directionality |
JP2013192087A (en) * | 2012-03-14 | 2013-09-26 | Fujitsu Ltd | Noise suppression device, microphone array device, noise suppression method, and program |
US9264797B2 (en) | 2012-12-21 | 2016-02-16 | Panasonic Intellectual Property Management Co., Ltd. | Directional microphone device, acoustic signal processing method, and program |
JP2016506664A (en) * | 2012-12-21 | 2016-03-03 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Filter and method for infomed spatial filtering using multiple instantaneous arrival direction estimates |
US10331396B2 (en) | 2012-12-21 | 2019-06-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrival estimates |
CN104885152B (en) * | 2012-12-28 | 2019-04-26 | 共荣工程株式会社 | Sound source separating method, device and storage medium |
EP2940686A4 (en) * | 2012-12-28 | 2016-08-03 | Kyoei Engineering Co Ltd | Sound-source separation method, device, and program |
CN104885152A (en) * | 2012-12-28 | 2015-09-02 | 共荣工程株式会社 | Sound-source separation method, device, and program |
WO2014132499A1 (en) * | 2013-02-26 | 2014-09-04 | 沖電気工業株式会社 | Signal processing device and method |
US9659575B2 (en) | 2013-02-26 | 2017-05-23 | Oki Electric Industry Co., Ltd. | Signal processor and method therefor |
WO2014132500A1 (en) * | 2013-02-26 | 2014-09-04 | 沖電気工業株式会社 | Signal processing device and method |
US9570088B2 (en) | 2013-02-26 | 2017-02-14 | Oki Electric Industry Co., Ltd. | Signal processor and method therefor |
US11423923B2 (en) | 2013-04-05 | 2022-08-23 | Dolby Laboratories Licensing Corporation | Companding system and method to reduce quantization noise using advanced spectral extension |
JP7050976B2 (en) | 2013-04-05 | 2022-04-08 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Compression and decompression devices and methods for reducing quantization noise using advanced spread spectrum |
JP2021076872A (en) * | 2013-04-05 | 2021-05-20 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Companding system and method to reduce quantization noise using advanced spectral extension |
US9905247B2 (en) | 2013-10-04 | 2018-02-27 | Nec Corporation | Signal processing apparatus, medium apparatus, signal processing method, and signal processing program |
WO2015049921A1 (en) * | 2013-10-04 | 2015-04-09 | 日本電気株式会社 | Signal processing apparatus, media apparatus, signal processing method, and signal processing program |
JP2015126279A (en) * | 2013-12-25 | 2015-07-06 | 沖電気工業株式会社 | Audio signal processing apparatus and program |
US10302741B2 (en) * | 2015-04-02 | 2019-05-28 | Texas Instruments Incorporated | Method and apparatus for live-object detection |
US11197091B2 (en) | 2017-03-24 | 2021-12-07 | Yamaha Corporation | Sound pickup device and sound pickup method |
WO2018174135A1 (en) * | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | Sound collection device and sound collection method |
JPWO2018173266A1 (en) * | 2017-03-24 | 2020-01-23 | ヤマハ株式会社 | Sound pickup device and sound pickup method |
JPWO2018173267A1 (en) * | 2017-03-24 | 2020-01-23 | ヤマハ株式会社 | Sound pickup device and sound pickup method |
CN110495184B (en) * | 2017-03-24 | 2021-12-03 | 雅马哈株式会社 | Sound pickup device and sound pickup method |
WO2018173266A1 (en) * | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | Sound pickup device and sound pickup method |
US10873810B2 (en) | 2017-03-24 | 2020-12-22 | Yamaha Corporation | Sound pickup device and sound pickup method |
JPWO2018174135A1 (en) * | 2017-03-24 | 2020-01-16 | ヤマハ株式会社 | Sound pickup device and sound pickup method |
EP3905718A1 (en) * | 2017-03-24 | 2021-11-03 | Yamaha Corporation | Sound pickup device and sound pickup method |
WO2018173267A1 (en) * | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | Sound pickup device and sound pickup method |
US11758322B2 (en) | 2017-03-24 | 2023-09-12 | Yamaha Corporation | Sound pickup device and sound pickup method |
US10979839B2 (en) | 2017-03-24 | 2021-04-13 | Yamaha Corporation | Sound pickup device and sound pickup method |
CN110495184A (en) * | 2017-03-24 | 2019-11-22 | 雅马哈株式会社 | Sound pick up equipment and sound pick-up method |
US11488573B2 (en) | 2018-09-26 | 2022-11-01 | Panasonic Intellectual Property Corporation Of America | Acoustic object extraction device and acoustic object extraction method |
JPWO2020066542A1 (en) * | 2018-09-26 | 2021-09-16 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Acoustic object extraction device and acoustic object extraction method |
JP7405758B2 (en) | 2018-09-26 | 2023-12-26 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Acoustic object extraction device and acoustic object extraction method |
WO2020066542A1 (en) * | 2018-09-26 | 2020-04-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Acoustic object extraction device and acoustic object extraction method |
WO2020110228A1 (en) * | 2018-11-28 | 2020-06-04 | 三菱電機株式会社 | Information processing device, program and information processing method |
JPWO2020110228A1 (en) * | 2018-11-28 | 2021-03-11 | 三菱電機株式会社 | Information processing equipment, programs and information processing methods |
CN112133320A (en) * | 2019-06-07 | 2020-12-25 | 雅马哈株式会社 | Voice processing device and voice processing method |
CN112133320B (en) * | 2019-06-07 | 2024-02-20 | 雅马哈株式会社 | Speech processing apparatus and speech processing method |
US11277686B2 (en) | 2019-08-07 | 2022-03-15 | Samsung Electronics Co., Ltd. | Electronic device with audio zoom and operating method thereof |
WO2021025517A1 (en) * | 2019-08-07 | 2021-02-11 | Samsung Electronics Co., Ltd. | Electronic device with audio zoom and operating method thereof |
JP2021039074A (en) * | 2019-09-05 | 2021-03-11 | 株式会社デンソーEmcエンジニアリングサービス | Signal source estimation device |
WO2022211300A1 (en) * | 2021-04-01 | 2022-10-06 | 삼성전자 주식회사 | Electronic device, and recording method by electronic device on basis of camera switching |
CN113362808A (en) * | 2021-06-02 | 2021-09-07 | 云知声智能科技股份有限公司 | Target direction voice extraction method and device, electronic equipment and storage medium |
CN113362808B (en) * | 2021-06-02 | 2023-03-21 | 云知声智能科技股份有限公司 | Target direction voice extraction method and device, electronic equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP4247037B2 (en) | 2009-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4247037B2 (en) | Audio signal processing method, apparatus and program | |
CN106251877B (en) | Voice Sounnd source direction estimation method and device | |
US8675890B2 (en) | Speaker localization | |
US10771894B2 (en) | Method and apparatus for audio capture using beamforming | |
US7366662B2 (en) | Separation of target acoustic signals in a multi-transducer arrangement | |
US8565446B1 (en) | Estimating direction of arrival from plural microphones | |
AU2011334840B2 (en) | Apparatus and method for spatially selective sound acquisition by acoustic triangulation | |
US9042573B2 (en) | Processing signals | |
US10638224B2 (en) | Audio capture using beamforming | |
US10887691B2 (en) | Audio capture using beamforming | |
KR20130084298A (en) | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation | |
CA2521948A1 (en) | Systems and methods for interference suppression with directional sensing patterns | |
WO2007123052A1 (en) | Adaptive array control device, method, program, adaptive array processing device, method, program | |
CN110770827A (en) | Near field detector based on correlation | |
JP3795610B2 (en) | Signal processing device | |
US11483646B1 (en) | Beamforming using filter coefficients corresponding to virtual microphones | |
EP3566228B1 (en) | Audio capture using beamforming | |
CN108735228B (en) | Voice beam forming method and system | |
KR20090098552A (en) | Apparatus and method for automatic gain control using phase information | |
Anderson et al. | Multichannel Wiener filter estimation using source location knowledge for speech enhancement | |
Wang et al. | A robust generalized sidelobe canceller controlled by a priori sir estimate | |
Naghibi et al. | An approach to prevent adaptive beamformers from cancelling the desired signal | |
Meng et al. | Fully Automatic Balance between Directivity Factor and White Noise Gain for Large-scale Microphone Arrays in Diffuse Noise Fields. | |
Lafta et al. | Speaker Localization using Eenhanced Beamforming | |
Raj | Voice Recognition in Noisy Environment Using Array of Microphone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060419 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080508 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080603 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090109 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140116 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |