JP2005049153A

JP2005049153A - 音声方向推定装置及びその方法

Info

Publication number: JP2005049153A
Application number: JP2003204346A
Authority: JP
Inventors: Kaoru Suzuki; 薫鈴木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-07-31
Filing date: 2003-07-31
Publication date: 2005-02-24

Abstract

【課題】短時間に発生する音声の音源方向を安価に推定する。
【解決手段】音波を捉えて電気信号に変換する音声入力部１〜３と、音声入力部２，３の電気信号のいずれか一方を選択的に通過させるチャネル切替部４と、音声入力部１の電気信号を第１のデジタルデータに変換するＡ／Ｄ変換部５と、チャネル切替部４を通過する電気信号を第２のデジタルデータに変換するＡ／Ｄ変換部６と、第１のデジタルデータと第１のタイミングに取得された第２のデジタルデータに基づき音源の第１の方位角を算出し、第１のデジタルデータと第１のタイミング経過後の第２のタイミングに取得された第２のデジタルデータに基づき音源の第２の方位角を算出する方向推定部１４とを備える。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声を入力して有用な情報を抽出する音声処理技術に係り、特に入力音声の音源方向を推定する音源方向推定装置およびその方法に関するに関する。
【０００２】
【従来の技術】
音源方向推定装置とは実環境中の音声を電気信号に変換して入力し、その入力信号を処理することによって当該音声の発生方向を計算的に推定する装置を指す。
【０００３】
最も一般的な音源方向推定原理は、位相差を利用する方法である。装置は例えば空気などの媒質中の空間的に異なる位置に配置されたＮ個（Ｎ≧２）のマイクＭ_ｉ（ｉ：１≦ｉ≦Ｎ）で構成される受音器を備えている。このとき、Ｎ個のマイクは所定の位置関係を保つように配置されており、その位置関係は既知である。
【０００４】
この位相差に着目した音源方向推定の原理を説明する。
音声が音源Ｓを発した時刻をＴ_ｓとすると、この音声はマイクＭ_ｉと音源Ｓとの距離Ｌ_ｉに応じた時刻Ｔ_ｉ＝Ｔ_ｓ＋（Ｌ_ｉ／Ｃ）にマイクＭ_ｉに到達する。Ｃは媒質中の音速である。大気中であれば、気温を摂氏ｔ度としたときＣ＝３３１．４＋０．６０４ｔ（ｍ／ｓ）で近似的に与えることができる。各マイクＭ_ｉは空間的に異なる位置に配置されている。したがって、音源Ｓとの距離Ｌ_ｉはマイク毎に異なる可能性がある。この距離の相違は同一音声が各マイクＭ_ｉに到達する時刻Ｔ_ｉの違いとして観測される。ただし、音声が音源Ｓを発した時刻Ｔ_ｓは特定できないので、図１３に例示するように、マイクＭ_ｉとマイクＭ_ｊの音声到達時刻の差ΔＴ_ｉｊ＝（Ｔ_ｉ−Ｔ_ｊ）＝（Ｌ_ｉ−Ｌ_ｊ）／Ｃのみが計測可能である。このΔＴ_ｉｊは時間差、位相差、あるいは遅延量と呼ばれる。そして、この式からＭ_ｉとＭ_ｊの音源Ｓからの距離の差ΔＬ_ｉｊ＝Ｌ_ｉ−Ｌ_ｊ＝ΔＴ_ｉｊ・Ｃが導かれる。
【０００５】
音源Ｓを点音源と仮定したとき、音声は音源Ｓを中心とする同心球状の粗密波となる。受音器と音源Ｓの距離が受音器を構成するマイク間の距離より十分大きいとすれば、受音器に到達する音声の波面はほとんど平面状であると考えることができる。マイクＭ_ｉよりＭ_ｊの方が音源Ｓに近い場合の距離差ΔＬ_ｉｊと音源方向θの関係を図１４に平面波の例で示す。前述した通り、平面波の波面がＭ_ｊに到達してからＭ_ｉに到達するまでの時間差ΔＴ_ｉｊから距離差ΔＬ_ｉｊが導かれる。このとき、マイクＭ_ｉとＭ_ｊを結ぶベースラインＢの長さをｂとするとΔＬ_ｉｊ＝ｂ・ｃｏｓθが成立し、ベースラインＢと半直線Ｒのなす角θ＝ｃｏｓ^−１（ΔＬ_ｉｊ／ｂ）が計算可能である。なお、本明細書では倍角文字はベクトルを表す。
【０００６】
このとき、音源の存在範囲はベースラインＢを中心として半直線Ｒを回転させた円錐面上ということになる。通常は音源Ｓと受音器の高さがそれほど異ならないと仮定して、求められたθを受音器に対する音源Ｓの水平方位角と見做して利用する。なお、それでも実際の音源方向がベースラインＢを挟んでどちら側にあるかという曖昧性が残る。そのため、実用的には３個以上のマイクを用いて、その中の２つから成る組み合わせを複数組使ってこの曖昧性を排除する。
【０００７】
３個以上のマイクを使った例は、例えば、文献「能動的に音源を定位し識別する自律移動ロボット」（日本ロボット学会誌，Ｖｏｌ．１５，Ｎｏ．２，ｐｐ２２３−２２９，１９９７）（以下、非特許文献１）に示される。この非特許文献１記載の発明では、水平に置かれた正三角形の頂点を構成するように配置された３個のマイクＭ_１〜Ｍ_３を持つ受音器を用いる。そして、入力音声の立ち上がり（オンセット）後、最初に現れるゼロクロッシング（音声波形がゼロと交叉する時刻）を３つの入力音声から各々求めて時間差ΔＴ_１２、ΔＴ_１３、ΔＴ_３２を推定する。そして、これら時間差を用いて音源の水平方位角を一意に求める。
【０００８】
水平方位角の推定は、時間差ΔＴ_１２、ΔＴ_１３、ΔＴ_３２を正規化した値の組が、予め１°刻みで理論的に計算された時間差の組のどの方位角のものと最も一致するかを探索することで行われる。探索の結果、２乗誤差が最小となる最も一致した組の角度を音源の水平方位角として出力する。
【０００９】
なお、反響があるときに音源からの直接波が最も早くマイクに到達することから、音声の立ち上がり（オンセット）直後のゼロクロッシングを用いて、直接波の位相差を検出することができる。
【００１０】
このように、位相差に着目した音源方向推定方法は、音源Ｓを発した音を複数のマイクＭ_ｉ（ｉ：１≦ｉ≦Ｎ）を擁する受音器で捉えたときに、音源とマイクとの位置関係に応じた時間遅れを伴う現象を利用するアプローチであり、各マイクの入力信号波形上の同じ位置を何らかの手段により検出し、その時間差を求めて音源方向を決定する。
【００１１】
また、別の音源方向推定手法として、音響インテンシティに着目した手法がある。
音場中のある点において、音波の進行方向に垂直な単位面積を単位時間に通過する音響エネルギーを音響インテンシティと云い、Ｉ（ｔ）＝Ｐ（ｔ）・Ｖ（ｔ）で定義する。このとき、Ｐ（ｔ）は音圧を表すスカラ量、Ｖ（ｔ）は粒子速度を表すベクトル量である。このため、音響インテンシティＩ（ｔ）もまたベクトル量である。
【００１２】
近接して配置される２つのマイクを使う場合、音圧Ｐ（ｔ）は各マイクで測定される音圧の平均で与えられ、粒子速度Ｖ（ｔ）は各マイクで測定される音圧の差分を用いて近似される。このとき測定される音響インテンシティは、２つのマイクを結ぶ軸線方向の成分となる。したがって、軸線が音源方向を向いたとき最大の粒子速度が観測されて音響インテンシティが最大となる。
【００１３】
例えば、特許２６５６３０７号公報（以下、特許文献１）に開示される「音源探査装置」では、音声が２つのマイクで構成される受音器の軸線方向から入射するとき音響インテンシティが最大になることを利用して、受音器の向きを様々に変えつつ最も大きな音響インテンシティを示す受音器の向きを音源方向とする方法が示されている。当該特許の実施例によれば、受音器を鉛直軸周りに回転させるので、音源の水平方位角を推定可能である。なお、例示されていないが、受音器を水平と垂直の２軸で振るようにすれば音源の垂直方位角も併せて求めることができる。なお、受音器の向きを変えつつ音源方向を探るには一定の時間が必要であり、その間の音響インテンシティが安定していないと大小比較が意味をなさないことから、この方法で推定可能な音声は探索が完了するまで継続する定常的な音に限られる。
【００１４】
また、上記「音源探査装置」では、別の方法としてＸＹＺの直行座標軸上の原点と３軸上にそれぞれマイクを配置し、都合４個のマイクでＸ軸、Ｙ軸、Ｚ軸方向の音響インテンシティを求めてそれらをベクトル合成し、その合成ベクトルの方向を音源方向とする方法も示されている。受音器を固定したまま行えるこの方法によれば音声が非定常的で短時間であっても音源方向を推定でき、なおかつ４個のマイクを使うことで水平方位角と垂直方位角の２次元で音源方向を求めることができる。
【００１５】
このように、音響インテンシティに着目した音源方向推定は、音源Ｓを発した音を受音器で捉えたときに、音源方向と受音器軸線との角度に応じた成分の音響インテンシティが計測される現象を利用するアプローチであり、１つの軸線を用いる場合には音響インテンシティ最大となる軸線方向を求めることで、複数の軸線を用いる場合にはそのベクトル合成を求めることで音源方向を決定する。
【００１６】
以上２つの音源方向推定手法を説明したが、いずれの手法の場合も、短時間に生じる音声の音源方向を推定する場合には、３つ以上のマイクが必要となる。すなわち、音源方向を水平／垂直の２軸で推定しようとする場合には、少なくとも３つ以上のマイク入力を処理する必要がある。
【００１７】
しかしながら、最近進歩の著しいパーソナルコンピュータを使ってこの機能を実現しようとすると問題が生じる。標準装備の音声入力デバイスでは、同時取り込み可能なチャンネル数が２つ（ライン入力）しかないため、別にＡ／Ｄ変換器を用意して構成しなければならず、装置が高価になってしまう。２チャンネルの入力で３つ以上のマイク入力を扱えれば装置をより安価に構成できるが、従来技術はこれを解決していない。
【００１８】
【特許文献１】
特許２６５６３０７号公報
【００１９】
【非特許文献１】
王富民・竹内義則・大西昇・杉江昇、「能動的に音源を定位し識別する自律移動ロボット」、日本ロボット学会誌、Ｖｏｌ．１５，Ｎｏ．２，ｐｐ２２３−２２９，１９９７年
【００２０】
【発明が解決しようとする課題】
上述したように、従来の音源方向推定手法では、短時間に発生する音声の音源方向を推定する場合、音源方向を水平／垂直の２軸で推定するために３つ以上のマイク入力を扱う必要があり、一般的なパーソナルコンピュータの標準デバイスではこれを行うことができず、これを可能にするためには装置が高価になってしまう。
【００２１】
本発明は上記課題を解決するためになされたもので、その目的とするところは、短時間に発生する音声の音源方向を安価に推定することができる音源方向推定装置およびその方法を提供することである。
【００２２】
【課題を解決するための手段】
本発明の一の観点によれば、音源から発せられる音波を電気信号に変換する第１乃至第３の音声入力手段と、前記第２及び第３の音声入力手段の電気信号のいずれか一方を選択する選択手段と、前記第１の音声入力手段の電気信号を第１のデジタルデータに変換する第１のＡ／Ｄ変換手段と、前記選択手段により選択された電気信号を第２のデジタルデータに変換する第２のＡ／Ｄ変換手段と、前記第１のデジタルデータと前記第２の音声入力手段の電気信号に対応する前記第２のデジタルデータに基づき前記音源の第１の方位角を算出し、前記第１のデジタルデータと前記第３の音声入力手段の電気信号に対応する前記第２のデジタルデータに基づき前記音源の第２の方位角を算出する方向推定手段とを具備してなることを特徴とする音源方向推定装置が提供される。
【００２３】
また、本発明の別の観点によれば、第１乃至第３の音声入力手段により音源から発せられる音波を電気信号に変換し、前記第２及び第３の音声入力手段の電気信号のいずれか一方を選択手段により選択し、前記第１の音声入力手段の電気信号を第１のデジタルデータに変換し、前記選択手段により選択された電気信号を第２のデジタルデータに変換し、前記第１のデジタルデータと前記第２の音声入力手段の電気信号に対応する第２のデジタルデータに基づき前記音声の入射方向を推定して前記音源の第１の方位角を出力し、前記第１のデジタルデータと前記第３の音声入力手段の電気信号に対応する第２のデジタルデータに基づき前記音声の入射方向を推定して前記音源の第２の方位角を出力することを特徴とする音源方向推定方法が提供される。
【００２４】
また、装置または方法に係る本発明は、コンピュータを当該発明に相当する手段として機能させるためのプログラム、このプログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【００２５】
【発明の実施の形態】
以下、図面を参照しながら本発明の一実施形態を説明する。
【００２６】
図１は本発明の一実施形態に係る音源方向推定装置２０の機能ブロック図である。図１に示すように、音源方向推定装置２０は、３つの音声入力部１〜３と、チャネル切替部４と、Ａ／Ｄ変換部５及び６と、フレームバッファ部７及び８と、音声検出部９と、フレームデータ複写部１０及び１１と、データバッファ部１２及び１３と、方向推定部１４と、チャンネル切替指令発生部１５と、表示部１６とからなる。
【００２７】
音声入力部１〜３はそれぞれ異なる位置の音声を捉えて電気信号に変換する。
【００２８】
Ａ／Ｄ変換部５は、音声入力部１からの電気信号をＡ／Ｄ変換してデジタル数値データとしてフレームバッファ部７に出力する。チャネル切替部４は、音声入力部２及び３からの電気信号のいずれかを選択してＡ／Ｄ変換部６に出力する。Ａ／Ｄ変換部６は、チャネル切替部４からの電気信号をＡ／Ｄ変換してデジタル数値データとしてフレームバッファ部８に出力する。Ａ／Ｄ変換部５及びＡ／Ｄ変換部６は同期して動作するものであり、入力される電気信号の電位をサンプリングしてデジタル数値データとして出力する。
【００２９】
フレームバッファ部７とフレームバッファ部８は、Ａ／Ｄ変換部５及び６からのデジタル数値データを時系列にｍ個記憶できる。以下では、各デジタル数値データをサンプル、その時系列的なｍ個のデジタル数値データの集合をフレームデータと称する。フレームバッファ部７は、ｍ個のデジタル数値データを記憶すると、その記憶したフレームデータを音声検出部９及びフレームデータ複写部１０に出力する。フレームバッファ部８は、ｍ個の数値データを記憶すると、その記憶したフレームデータをフレームデータ複写部１１に出力する。
【００３０】
音声検出部９は、フレームバッファ部７からのフレームデータの音声波形の面積を計算する。この面積が閾値以上であれば音声が入力されたと判定し、蓄積開始指令をチャネル切替指令発生部１５に出力する。この蓄積開始指令と同時に、音声検出部９はデータ複写開始指令をフレームデータ複写部１０及び１１に出力する。
【００３１】
また、音声検出部９は、蓄積開始指令の出力から２Ｎフレーム分のデータ蓄積時間が経過すると、蓄積停止指令をチャネル切替指令発生部１５に出力する。この蓄積開始指令と同時に、音声検出部９はデータ複写停止指令をフレームデータ複写部１０及び１１に出力する。データ蓄積時間の経過は、例えばフレームバッファ部７からフレームデータを２Ｎ個受信したか否かで判定される。
【００３２】
チャネル切替指令発生部１５は、蓄積開始指令を受けると、音声入力部２からの音声を選択するようにチャネル切替指令をチャネル切替部４に出力する。また、チャネル切替指令発生部１５は、蓄積停止指令を受けると、音声入力部３からの音声を選択するようにチャネル切替指令をチャネル切替部４に出力する。チャネル切替部４は、音声入力部２及び３のうち、チャネル切替指令で指定された方の電気信号を選択してＡ／Ｄ変換器４に出力する。
【００３３】
また、チャネル切替指令発生部１５は、方向推定部１４に、蓄積開始指令からＮフレームのデータ取得時間経過毎に、水平方位推定指令と垂直方位推定指令を交互に出力する。例えば音声入力部２が水平方位を推定するためのものであり、音声入力部３が垂直方位を推定するためのものである場合、蓄積開始指令からＮフレームのデータ取得時間経過時に水平方位推定指令を方向推定部１４に出力し、２Ｎフレームのデータ取得時間経過時に垂直方位推定指令を方向推定部１４に出力する。
【００３４】
フレームデータ複写部１０は、フレームバッファ部７からのｍ個のデジタル数値データを逐次データバッファ部１２に複写する。また、フレームデータ複写部１１は、フレームバッファ部８からのｍ個のデジタル数値データを逐次データバッファ部１３に複写する。
【００３５】
データバッファ部１２及び１３は、２Ｎフレームのデータを時系列に記憶できる。データバッファ部１２は、蓄積開始指令から音声入力部１に入力されたデジタル数値データを２Ｎフレーム分記憶する。データバッファ部１３は、蓄積開始指令から音声入力部２に入力されたデジタル数値データをＮフレーム分、音声入力部３に入力されたデジタル数値データをＮフレーム分、計２Ｎフレーム分記憶する。
【００３６】
方向推定部１４は、チャネル切替指令発生部１５からの水平方向推定指令に基づき、データバッファ部１２からの最新Ｎフレームとデータバッファ部１３からの最新Ｎフレームを用いて水平方向の音源方向の推定を行う。また、方向推定部１４は、垂直方向推定指令に基づき、データバッファ部１２からのＮフレームとデータバッファ部１３からのＮフレームを用いて垂直方向の音源方向の推定を行う。得られた方向推定結果は表示部１６に表示される。
【００３７】
音声入力部１〜３は音声を電気信号に変化する手段であり、例えばＥＣＭとその信号を増幅するＯＰアンプにより構成される。音声入力部１〜３のＥＣＭをそれぞれ３１〜３３とした場合のＥＣＭ３１〜３３の配置の詳細を図２に示す。図２に示すように、ＥＣＭ３１とＥＣＭ３２は、直線３４上に互いに離間して水平方向に配置されている。また、ＥＣＭ３１とＥＣＭ３３は、直線３４に略直角に交わる直線３５上に互いに離間して垂直方向に配置されている。このように、ＥＣＭ３１〜３３はそれぞれＬ字型の配置をなす。
【００３８】
次に、図３のフローチャートを用いて音源方向推定装置２０の処理の流れを説明する。また、図４は、音声検出部９、フレームデータ複写部１０及び１１、方向推定部１４及びチャネル切替指令発生部１５のタイミングチャートの一例を示す。
【００３９】
まず、ステップＳ１に示されるように、音声入力部１からの電気信号はＡ／Ｄ変換部５に出力され、デジタル数値データに変換される。同様に、音声入力部２又は３のいずれかからの電気信号はチャネル切替部４を介してＡ／Ｄ変換部６に出力され、デジタル数値データに変換される。そして、これらＡ／Ｄ変換部５及び６のデジタル数値データはフレームバッファ部７及び８にそれぞれ蓄積記憶される。この蓄積記憶は、ｍ個のデジタル数値データ、すなわち１フレームについて行われ、ステップＳ２に進む。
【００４０】
ステップＳ２では、音声検出中であるか否かが判定される。音声検出中であるか否かは、例えば音声検出部９により蓄積開始指令が出力された後蓄積停止指令が出力されるまでの検出タイミングか否かで判定される。検出タイミング内であれば音声検出中と判定してステップＳ５に進み、検出タイミング外であれば音声検出中でないと判定してステップＳ３に進む。最初に装置を起動した際には、蓄積開始指令は出力される前であるので検出タイミング外であり、ステップＳ３に進む。
【００４１】
ステップＳ３では、音声検出部９はそのフレームデータの音声波形の面積を計算し、その面積が閾値以上か否かを判定し、閾値以上であれば音声入力ありと判定し、ステップＳ４に進む。閾値未満であれば音声入力なしと判定し、ステップＳ１に戻り、フレームバッファ部７及び８でのフレーム取得が繰り返される。
【００４２】
ステップＳ４では、音声検出部９が蓄積開始指令をチャネル切替指令発生部１５に出力する。チャネル切替指令発生部１５は、この蓄積開始指令を受けてチャネル切替部４に音声入力部２の音声の選択を指示するチャネル切替指令を出力する。このチャネル切替指令を受け、チャネル切替部４は音声入力部２の音声電気信号をＡ／Ｄ変換部６に通過させる。
【００４３】
ステップＳ５では、ステップＳ４の蓄積開始指令と同時に、音声検出部９が、フレームデータ複写部１０及び１１にデータ複写開始指令を出力する。このデータ複写開始指令を受け、フレームデータ複写部１０及び１１は、フレームバッファ部７及び８に蓄積記憶されたフレームデータをそれぞれデータバッファ部１２及び１３に複写する。また、ステップＳ２から分岐した場合も、フレームデータ複写部１０及び１１は、フレームバッファ部７及び８に蓄積記憶されたフレームデータをそれぞれデータバッファ部１２及び１３に複写する。
【００４４】
ステップＳ６では、チャネル切替指令発生部１５がステップＳ５のデータ複写がＮフレームの複写の終了タイミングか否かを判定する。Ｎフレームの複写終了タイミングと判定された場合には、ステップＳ７に進み、そうでない場合にはステップＳ８に進み、音声検出部９が２Ｎフレームの複写の終了タイミングか否かを判定する。ステップＳ８で、２Ｎフレームの複写終了タイミングと判定された場合には、ステップＳ９に進み、そうでない場合にはＮフレームの複写終了タイミングでも２Ｎフレームの複写終了タイミングでもないため、ステップＳ７及びＳ９のいずれにも進まずにステップＳ１に戻り、フレームデータの複写が繰り返される。
【００４５】
Ｎフレームの複写終了タイミングのステップＳ７では、チャネル切替指令発生部１５はチャネル切替部４に音声入力部３からの音声の選択を指示するチャネル切替指令を出力する。このチャネル切替指令を受け、チャネル切替部４は音声入力部３の音声電気信号をＡ／Ｄ変換部６に通過させる。また、チャネル切替指令と同時に、チャネル切替指令発生部１５は、方向推定部１４に水平方位角推定指令を出力する。この水平方位角推定指令を受け、方向推定部１４はデータバッファ部１２からの音声入力部１についてのＮフレームデータとデータバッファ部１３からの音声入力部２についてのＮフレームデータに基づき水平方位角を算出する。
【００４６】
２Ｎフレームの複写終了タイミングのステップＳ９では、音声検出部９は蓄積停止指令をチャネル切替指令発生部１５に出力する。チャネル切替指令発生部１５は、この蓄積停止指令を受けて、チャネル切替指令の出力を停止するとともに、垂直方位角推定指令を方向推定部１４に出力する。この垂直方位角推定指令を受け、方向推定部１４はデータバッファ部１２からの音声入力部１についてのＮフレームデータとデータバッファ部１３からの音声入力部３についてのＮフレームデータに基づき垂直方位角を算出する。また、音声検出部９は、蓄積停止指令とともにフレームデータ複写部１０及び１１に、データ複写停止指令を出力する。フレームデータ複写部１０及び１１は、このデータ複写停止指令を受け、フレームデータの複写を停止する。
【００４７】
上記ステップＳ７及びＳ９で算出された水平方位角と垂直方位角に基づき、方向推定部１４は音源の方向を算出し、表示部１６に表示する。これにより音源方向の推定処理が終了する。
【００４８】
このように、チャネル切替部４でＮフレームのデータ取得毎に音声入力部２と３の音声が切り換えられるので、データバッファ部１３には音声入力部２の音声と音声入力部３の音声がＮフレームずつ連続して交互に記憶され、一方、データバッファ部１２には、その間に音声入力部１から入力されるデータが２Ｎフレーム分記憶される。
【００４９】
以上の構成により、Ａ／Ｄ変換部５及び６という２チャンネルのＡ／Ｄ変換手段しか持たない装置であっても、３チャンネル中の２チャンネルの音声信号を交互に取り込むことで、水平と垂直の２軸の音源方向を推定することができるようになる。この結果、数万円もする高価なＡ／Ｄ変換ボードを追加することなく、２千円程度のマイクアンプ回路と一般的なパーソナルコンピュータのライン入力のみを用いて同様の機能を実現できる。さらに、チャンネル切替部４も数百円のアナログスイッチＩＣで実現でき、パーソナルコンピュータの備えるパラレルポートを経由して制御可能である。また、略瞬間的に音声入力部２及び３の音声電気信号を取得して方向推定を行うので、略瞬間的に生じる音声であっても正確に音源方向を推定できる。
【００５０】
次に、方向推定部１４における方向推定の原理を図５を用いて説明する。
方向推定部１４は、音源方向を推定するために、音源と音声入力部の距離差ΔＬ_ｉｊ（ｉ，ｊ：１≦ｉ，ｊ≦Ｎ、Ｎはマイク数）に相当する音声の到達の時間差ΔＴ_ｉｊを、２つの入力音声波形の部分間でその類似性を評価することにより推定する。
【００５１】
図中、２つのマイクＭ_ｉとＭ_ｊで観測される音声にはΔＴ_ｉｊの時間差、すなわち位相差が存在する。このとき、観測される音声は所定のサンプリング周期で時間離散的にサンプリングされ、各サンプリング時刻の振幅値は所定のビット長でＡ／Ｄ変換されていると仮定する。このＡ／Ｄ変換されたデジタル数値データを音声波形データと称する。マイクＭ_ｉで入力された音声波形データをＤ_ｉ、マイクＭ_ｊで入力されたデータをＤ_ｊとする。
【００５２】
このとき、音声波形データＤ_ｉ上の所定位置にＫ個のサンプルを覆う固定の窓Ｗ_ｉを設定し、音声波形データＤ_ｊ上にはこの固定位置を中心に±Ｄｍａｘサンプルの範囲で時間軸方向に動かすことのできる窓Ｗ_ｊ（ｄ）を設定する。ここで、窓とは、時間範囲を表し、窓Ｗ_ｉの幅と窓Ｗ_ｊ（ｄ）の幅は等しくＫサンプル分を覆うように設定されている。そして、音声波形データＤ_ｉとＤ_ｊのうち窓Ｗ_ｉと窓Ｗ_ｊ（ｄ）で覆われる部分音声波形データＰ_ｉ及びＰ_ｊ（ｄ）を各々抽出する。窓Ｗ_ｊ（ｄ）を±Ｄｍａｘの範囲で動かすということは、２つの音声波形データＤ_ｉとＤ_ｊの位相差ｄを±Ｄｍａｘの範囲で仮定してみることに他ならない。仮定する位相差ｄが正しくΔＴ_ｉｊであるなら、抽出される部分音声波形データは相互に類似したものになるはずである。
【００５３】
Ｄｍａｘは、音波がマイク間距離ｂだけ進行する時間中にＡ／Ｄ変換により数値化されるサンプル数に相当する。音速をＣ、サンプリングレートをＲヘルツとしたとき、Ｄｍａｘ＝Ｒ・ｂ／Ｃで与えられる。具体的には、マイク間距離ｂ＝２０ｃｍ、気温２０℃（音速Ｃ＝３４３．４８ｍ／ｓ）、サンプリングレートＲ＝４４．１ｋＨｚとしたとき、Ｄｍａｘ＝４４１００×０．２÷３４３．４８＝２５．６となる。
【００５４】
部分音声波形データの類似性を評価するために、ここではベクトル間内積値を利用する。すなわち、各窓Ｗ_ｉ及びＷ_ｊ（ｄ）で各々覆われるＫ個のサンプルから成る部分音声波形データＰ_ｉ及びＰ_ｊ（ｄ）は、各サンプルが振幅を表すスカラ量であることからＫ次元のベクトルと見做すことができる。このとき、各ベクトルＰ_ｉ及びＰ_ｊをノルム正規化（長さ１に正規化）したベクトルを各々Ｖ _ｉとＶ _ｊとし、類似度Ｓをノルム正規化ベクトルＶ _ｉとＶ _ｊの内積（Ｖ _ｉ・Ｖ _ｊ）、すなわち両ベクトルのなす角をθとしたときの余弦（ｃｏｓθ）として計算する。このとき、類似度Ｓの値域は｛Ｓ：−１≦Ｓ≦１｝であり、Ｓ＝１となるとき、２つのベクトルＶ _ｉとＶ _ｊは完全に一致している。窓Ｗ_ｊ（ｄ）を±Ｄｍａｘの範囲で動かしつつ得られる部分波形データＰ_ｊ（ｄ）について、上記の要領で類似度Ｓ（ｄ）を次々計算すると、位相差ｄがΔＴ_ｉｊに一致したところで類似度Ｓ（ｄ）が最大となるはずである。なお、実際に窓Ｗ_ｊ（ｄ）を動かす間隔はサンプル数を単位として±Ｄｍａｘの範囲に含まれる整数ということになる。例えば、Ｄｍａｘ＝２５．６であれば、窓Ｗ_ｊ（ｄ）はＤｍａｘの小数点以下を切り捨てて±２５サンプルの範囲で動かされる。
【００５５】
この図５に示す原理を用いた推定手法の作用効果を以下説明する。
【００５６】
位相差に着目した音源方向推定方法は、音源Ｓを発した音を複数のマイクＭ_ｉを擁する受音器で捉えたときに、音源とマイクとの位置関係に応じた時間遅れを伴う現象を利用する手法である。各マイクの入力信号波形上の同じ位置を何らかの手段により検出し、その時間差を求めて音源方向を決定する。したがって、もし検出された位置が各信号波形上の同じ位置を指していなければ正しい音源方向を推定することができない。
【００５７】
例えば従来技術の非特許文献１で説明されたゼロクロッシングによる時間差推定では、マイク校正の必要性の問題が生じる。通常、音声の入力は、（１）マイクで媒質振動を電気信号に変換し、（２）増幅器でこの信号を増幅し、さらに、デジタル処理をするなら、（３）Ａ／Ｄ変換器で信号電圧を数値データに変換することになる。このとき、マイクや増幅器のばらつきにより、０Ｖ電位が全てのマイク入力チャンネルで揃っているとは限らない。上記例では０Ｖ電位の不揃いはゼロクッロッシング位置（入力波形信号が電位０Ｖと交叉する位置）のずれをもたらし、音源方向推定を誤らせる原因となる。したがって、推定精度を確保するためには事前に全てのチャンネルで０Ｖ電位を校正しておかなければならない。０Ｖ電位の校正は装置組上げ時に一度行っておけば済みそうだが、何らかの理由でマイクや増幅器を交換した場合には必ず行わなければならず、長い目で見たときこの手間は必ずしも好ましいものではない。
【００５８】
また、従来技術の特許文献１に示した音響インテンシティに着目した音源方向推定は、音響インテンシティが計測される現象を利用する手法である。１つの軸線を用いる場合には音響インテンシティ最大となる軸線方向を求めることで、複数の軸線を用いる場合にはそのベクトル合成を求めることで音源方向を決定する。しかしながら、このためには音響インテンシティの各観測値が正しく比較可能あるいは合成可能である、すなわち各計測値のスケールが揃っている必要があり、これが保証されていないときに正しい音源方向を推定することができない。例示した音響インテンシティの比較もしくは合成においても、マイク校正の必要性が生じる。
【００５９】
非特許文献１の発明の場合と同様、音声の入力は、（１）マイクで媒質振動を電気信号に変換し、（２）増幅器でこの信号を増幅し、さらに、デジタル処理をするなら、（３）Ａ／Ｄ変換器で信号電圧を数値データに変換することになる。このとき、マイク、増幅器、Ａ／Ｄ変換器のばらつきにより、計測される音響インテンシティのスケールが全てのマイク入力チャンネルで揃っているとは限らない。上記特許文献１発明の例では、スケールの不揃いは最大値検出時や合成時の誤りをもたらす原因となる。したがって、推定精度を確保するためには事前に全てのチャンネルで０Ｖ電位とゲインを校正しておかなければならない。校正は装置組上げ時に一度行っておけば済みそうだが、何らかの理由でマイクや増幅器を交換した場合には再度行う必要があり、長い目で見ればその利便性は必ずしも良くない。
【００６０】
このように、非特許文献１や特許文献１記載の手法では、複数のマイク入力の０Ｖ電位やゲインを校正しなければ正しく音源方向を推定できないという問題がある。
【００６１】
これに対して図５を用いて説明した本実施形態の手法、すなわち位相差推定をノルム正規化ベクトルの内積を評価して解くこの方法は、部分波形の全体、すなわち、波形の比較的広範囲を比較して位相差を求める。したがって、０Ｖ電位やゲインの変動に影響されにくく、これらの厳密な校正を必要としない。
【００６２】
図６は位相差ｄから方位角θを求める原理を説明するための図である。
マイクＭ_ｉの入力から抽出されるＫ次元正規化ベクトルＶ _ｉと、マイクＭ_ｊの入力から抽出されるＫ次元正規化ベクトルＶ _ｊの位相差ｄは±Ｄｍａｘの範囲で変化し得る。図６（ａ）のように、正面から入射する場合、位相差ｄは０となり、方位角θは正面を基準にした場合０°となる。
【００６３】
また、図６（ｂ）のように音声が右真横、すなわちマイクＭ_ｊ方向から入射する場合、位相差ｄは−Ｄｍａｘに等しく、方位角θは正面を基準にして左回りを正として−９０°となる。同様に、図６（ｃ）のように音声が左真横、すなわちマイクＭ_ｉ方向から入射する場合、位相差ｄはＤｍａｘに等しく、方位角θは＋９０°となる。
【００６４】
以上図６（ａ）〜（ｃ）を踏まえて図６（ｄ）のような一般的な条件を考える。マイクＭ_ｉの位置をＡ、マイクＭ_ｊの位置をＢとし、音声が線分ＰＡ方向から入射すると仮定すると、△ＰＡＢは頂点Ｐが直角となる直角３角形となる。このとき、マイク間中心Ｏ、線分ＯＣを受音器正面方向として、ＯＣ方向を方位角０°とした左回りを正にとる角度を方位角θと定義する。△ＱＯＢは△ＰＡＢの相似形となるので、方位角θの絶対値は∠ＯＢＱ、すなわち∠ＡＢＰに等しく、符号は位相差ｄの符号に一致する。また、∠ＡＢＰはＰＡとＡＢの比のｓｉｎ^−１として計算可能である。このとき、線分ＰＡの長さをこれに相当する位相差ｄで表すと、線分ＡＢの長さはＤｍａｘに相当する。したがって、符号も含めて、方位角はθ＝ｓｉｎ^−１（ｄ／Ｄｍａｘ）として計算することができる。
【００６５】
次に、図７及び図８を用いて限界周波数の問題を解決する本実施形態の方向推定部１４の詳細について説明する。
【００６６】
音声の周波数が低ければ、マイク間に複数の波頭が入らないので、位相差が一意に決まる。一方、複数の波頭が入る高い周波数域では、正解から周期Ｔの自然数倍だけずれて位相差が推定されてしまう可能性が高い。特に、音声が周波数・パワーともに一定の成分を多く含むとき、このような誤推定が発生しやすい。このとき、複数の波頭が入るか否かを分ける周波数を限界周波数といい、音速Ｃをマイク間距離ｂで割った値で与える。例えば、マイク間距離ｂ＝２０ｃｍ、気温２０℃（音速Ｃ＝３４３．４８ｍ／ｓ）としたとき、限界周波数は１．７１７４ｋＨｚとなる。
【００６７】
図７にＬＰＦ（低域通過フィルタ）により限界周波数以上の成分を除去された音声波形データを与えた場合と、ＬＰＦを通過させずに限界周波数以上の成分を含む音声波形データを与えた場合の比較を示す。図７（ａ）に示す入力例は男声による母音「い」の連続音であり、そのパワースペクトルには限界周波数以上の強い成分（２ｋＨｚ付近、３ｋＨｚ付近）が含まれている。ＬＰＦにより１．７ｋＨｚ以下の低域成分のみを通過させた波形では位相差ｄを±Ｄｍａｘの範囲で動かしたときの類似度Ｓ（ｄ）の推移が図７（ｂ）に示される。横軸は位相、縦軸は類似度である。同図のように単峰性を示し、そのピーク類似度位相差ｄ_Ｌは若干ずれを生じているものの、入力方向である正面にほぼ一致している。一方、ＬＰＦによる周波数カットを行わなかった波形では、図７（ｃ）に示される。横軸は位相、縦軸は類似度である。同図のように、正解の位相差ｄ_Ａ２の他に３つのピークｄ_Ａ１、ｄ_Ａ３及びｄ_Ａ４を持つ多峰性を示している。また、正解ｄ_Ａ２とピーク類似度位相差ｄ_Ｌは若干ずれを生じている。例示した多峰性のグラフでは正解ｄ_Ａ２の類似度Ｓ（ｄ_Ａ２）が最大となっているが、実験によって正解以外のピークが最大となる場合も確認されている。その場合、最大類似度を示す位相差を求めるというロジックでは正解からかけ離れた全く別の方向に音源が推定されてしまう。
【００６８】
位相差の推定誤りを低減するために、ＬＰＦで単峰化してから類似度のピークを求める方法が考えられるが、低域周波数成分のみによる位相差推定は高域周波数成分を使った位相差推定よりもピーク精度が悪くなる。すなわち、図７に示したように、ピークを示す位相差が正解から１サンプル程度ずれることがあるという別の問題が発生する。高い周波数のピーク精度と低い周波数の単峰性を両立する方法が必要である。限界周波数以上をカットする低域通過が様々な局面で有効であることは広く知られているが、それによって位相差推定時のピーク精度が犠牲になることや、さらに進んで両者の特長を併せ持たせる方法について、非特許文献１や特許文献１などの従来技術には一切言及がない。
【００６９】
本実施形態の音源方向推定装置２０では上記両立を次のようにして解決する。すなわち、ＬＰＦ通過時の類似度を閾値処理することによって、位相差の存在エリアを限定する。このエリアは正解の近傍に広がっているはずである。次に、その存在エリア内に入るＬＰＦ非通過時の類似度ピークを抽出し、最大類似度を持つピークを推定された位相差として出力する。低域成分で正解の範囲を特定し、高域成分を使ってその範囲から精度の高い解を選択するという手法である。
【００７０】
図８は本実施形態の方向推定部１４の詳細な機能ブロック構成を示した図である。方向推定部１４は、データ選択部２１と、ＬＰＦ部２２と、類似度計算・閾値処理部２３と、類似度計算・ピーク検出部２４と、角度計算部２５とからなる。
【００７１】
チャンネル切替指令発生部１５から供給される水平／垂直方位推定指令の水平と垂直の別に従って、データ選択部２１はデータバッファ部１２とデータバッファ部１３から最初のＮフレームデータ（水平時）と次のＮフレームデータ（垂直時）のいずれかを選択して読み出す。
【００７２】
読み出されたＮフレームデータＤ_ｉとＤ_ｊはＬＰＦ部２２及び類似度計算・ピーク算出手段２４に出力される。ＬＰＦ部２２は、データバッファ部１２と１３からの各Ｎフレームデータの限界周波数以上を除去し、低周波成分のみを含む低周波波形データＤ_ＬｉとＤ_Ｌｊに変換して類似度計算・閾値処理部２３に出力する。このフィルタリングは、ＮフレームデータにＦＦＴを施してパワースペクトルを求め、このパワースペクトル上から限界周波数以上の成分を除去した後、再び逆ＦＦＴによってＮフレームの波形データに戻す処理によって実現される。各窓Ｗ_ｉ及びＷ_ｊ（ｄ）で各々覆われるＫ個のサンプルから成る部分音声波形データＰ_ｉ及びＰ_ｊ（ｄ）は、各サンプルが振幅を表すスカラ量であることからＫ次元のベクトルと見做すことができる。
【００７３】
類似度計算・閾値処理部２３は、低周波波形データに基づき位相差の存在エリア情報を抽出する。具体的には、類似度計算・閾値処理部２３は、ＬＰＦ通過後の波形データＤ_ＬｉとＤ_Ｌｊに対して図５により示される原理により位相差ｄを±Ｄｍａｘの範囲でずらした窓Ｗ_ｉと窓Ｗ_ｊ（ｄ）で各々覆われるＤ_ＬｉとＤ_Ｌｊの部分波形Ｐ_Ｌｉ及びＰ_Ｌｊ（ｄ）を抽出し、その抽出された部分波形Ｐ_Ｌｉ及びＰ_Ｌｊ（ｄ）の類似度Ｓ_Ｌ（ｄ）を計算する。そして、得られた類似度Ｓ_Ｌ（ｄ）が所定閾値Ｓ_ｔｈ以上の類似度を持つ位相差ｄ_ｔｈを全て列挙する。そして、列挙された位相差ｄ_ｔｈが連続（あるいは孤立）する範囲を位相差の存在エリアとして全て抽出する。類似度Ｓ_Ｌ（ｄ）が単峰性を示すなら、抽出される存在エリアは１つであるが、場合によっては複数抽出されることも許容する。なお、存在エリアを表す情報は、列挙された位相差ｄ_ｔｈが連続（あるいは孤立）する範囲の両端（最小値と最大値の２つの量）でｄ_ｔｈ１〜ｄ_ｔｈ２というように記述される。
【００７４】
一方、ＬＰＦ部２２に供給されたのと同じＮフレームデータＤ_ｉとＤ_ｊがＬＰＦ部２２を通過せずに類似度計算・ピーク検出部２４に供給される。類似度計算・ピーク検出部２４は、このＮフレームデータに基づき正確な類似度ピーク情報を抽出する。
【００７５】
具体的には、類似度計算・ピーク検出部２４は、ＮフレームデータＤ_ｉとＤ_ｊに対して図５により示される原理により位相差ｄを±Ｄｍａｘの範囲でずらした窓Ｗ_ｉと窓Ｗ_ｊ（ｄ）で各々覆われるＤ_ｉとＤ_ｊの部分波形Ｐ_ｉ及びＰ_ｊ（ｄ）を抽出し、その抽出された部分波形Ｐ_ｉ及びＰ_ｊ（ｄ）の類似度Ｓ_Ａ（ｄ）を計算して類似度のテーブルを作る。そして、Ｓ_Ａ（ｄ）がテーブル上で隣接する隣の類似度Ｓ_Ａ（ｄ−１）、Ｓ_Ａ（ｄ＋１）のいずれかより少なくとも大きければ、そのｄの位置をピーク類似度位相差ｄ_ｐとして検出する。検出されたピークを表す情報は位相差値そのものであり、ピークとして検出された全ての位相差値ｄ_ｐを列挙したリストが出力される。
【００７６】
角度計算部２５は、得られた位相差の存在エリアｄ_ｔｈ１〜ｄ_ｔｈ２に入る類似度ピークｄ_ｐを全て抽出し、最も高い類似度Ｓ_Ａ（ｄ）を獲得した最大ピーク類似度位相差ｄ_ｐ１を選んで方位角θを計算する。このとき、水平／垂直方位推定指令の水平と垂直の別に従って、得られた最大ピーク類似度位相差ｄ_ｐ１に水平方位か垂直方位かの別を示すフラグ情報を付加して位相差推定結果ｄ_ｐｈ、ｄ_ｐｖとする。最後に、水平位相差推定結果ｄ_ｐｈと垂直位相差推定結果ｄ_ｐｖに基づき音源の水平方位θ_ｈと垂直方位θ_ｖを算出する。θ_ｈとθ_ｖは、ｄ_ｐｈ及びｄ_ｐｖと、θ_ｈ及びθ_ｖとが対応付けられたデータテーブルから、該当するｄ_ｐｈ、ｄ_ｐｖに対応するθ_ｈとθ_ｖを抽出することにより得てもよいし、既知の計算式に基づき算出してもよい。得られた方向θ_ｈとθ_ｖをｄ_ｐｈやｄ_ｐｖとともに音源方向推定結果σとして表示部１６に出力して表示させる。
【００７７】
なお、複数の音源が存在するときには、上記角度計算部２５による計算手法を変えることにより対応可能である。
【００７８】
複数の音源が存在するとき、あるいは、音源が１つであっても受音器のごく近傍に壁があり、該壁面からの強い反射があるとき、上記最大類似度を得たピークｄ_ｐを１つ抽出する方位角推定方式では、応用上重要でない方の音源方向が得られたり、壁面反射の方向が得られたりして、必要な音源方向を得ることができない場合がある。特に、壁面反射では、直接波と反射波により類似度が２つのピークｄ_ｐ１、ｄ_ｐ２を示し、反射波のピークが直接波のピークより大きくなる逆転時に誤推定が発生する。実験によれば、受音器と壁が近いとき、この逆転が５０％程度の頻度で観測される。この場合、２つのピークｄ_ｐ１、ｄ_ｐ２は同程度の大きさを示すことになるが、その方向は大きく異なる。
【００７９】
例えば従来技術に記載の非特許文献１発明の場合、以下の問題が生じる。
非特許文献１発明のようにゼロクロッシングを用いるとき、最も問題となるのは信号にノイズが混入しているときである。既述のようにゼロクロッシング位置は信号波形が０Ｖ電位と交叉する位置であるから、入力信号波形に対象音声以外の環境雑音や電気的ノイズが含まれていると、一方の信号ではゼロクロッシングになっている箇所が、他方ではゼロクロッシングになっていなかったり、対象音声のゼロクロッシング位置が検出されずに、ノイズのゼロクロッシング位置が検出されてしまったりする可能性がある。ノイズの原因は回路上で発生するノイズと受音器が拾う環境雑音の２種類がある。前者は回路の設計や調整により回避できるが、後者は環境に依存するので解決できない。
【００８０】
また、従来技術に記載の特許文献１発明の場合でも、入力信号波形に対象音声以外の環境雑音が含まれていると、音響インテンシティの最大値が現れる方向や合成ベクトルの向きが正しくなくなる可能性がある。
【００８１】
このように、対象音声以外の音声（環境雑音）が存在する条件下では、正しい音源方向を出力できない危険性が高いという問題点があった。
【００８２】
そこで、本変形例では最大ピーク類似度位相差ｄ_ｐ１に加えて、該最大ピーク類似度値Ｓ_Ａ（ｄ_ｐ１）に対して所定割合（例えば８０％）以上の大きさの類似度Ｓ_Ａ（ｄ）を持つ全てのピーク類似度位相差ｄ_ｐｉ（ｄ_ｐ１を含む）を推定された位相差として出力するように角度計算部２５を強化する。なお、強化された角度計算部２５は、上述のようにして得られた複数のピーク類似度位相差ｄ_ｐｉに対する水平位相差と垂直位相差の全ての組み合わせに基づく複数の水平方位角θ_ｈと垂直方位角θ_ｖを算出する。
【００８３】
この結果、複数音源存在時や壁面反射存在時であっても、少なくとも必要な音源方向の情報が出力に含まれるようになり、従来技術の非特許文献１や特許文献１の発明の問題点を解決することができる。すなわち、出力される方位角に複数の候補を許すことで、複数音源や壁面反射という悪条件下でも、必要な方位角が出力される利便性の向上した音源方向推定装置を提供可能である。
【００８４】
本実施形態に係る音源方向推定装置およびその方法は、例示した実施形態に限定されず、以下に示すように、その趣旨を逸脱しない限り様々に変形して実施することが可能である。
【００８５】
また、図１の音声検出部９は、フレームバッファ部７からのフレームデータに基づき音声検出処理を行う例を示したが、フレームバッファ部８からのフレームデータに基づいて音声検出処理を行ってもよいし、フレームバッファ部７及び８双方のデータに基づいて音声検出処理を行ってもよい。
【００８６】
また、図１の例では、蓄積開始指令から２Ｎデータフレーム取得時間経過時のタイミング管理は音声検出部９が、蓄積開始指令からＮデータフレーム取得時間経過時のタイミング管理はチャネル切替指令発生部１５が管理する例を示したが、これに限定されない。例えば、音声検出部９が、蓄積開始指令からＮデータフレーム取得時間経過時のタイミングに切替指示をチャネル切替指令発生部１５に出力することにより、チャネル切替指令発生部１５はその切替指示を受け取ったタイミングにチャネル切替指令を出力すればよいため、タイミング管理をする必要がない。
【００８７】
なお、以上図１に示される各構成要素の各機能は、ソフトウェアとしても実現可能である。
【００８８】
また、本実施形態は、コンピュータに所定の手順を実行させるための（あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるための）プログラムを記録したコンピュータ読み取り可能な記録媒体として実施することもできる。
【００８９】
例えば、図９に例示するように、本発明に係る音源方向推定装置を実現する情報（例えばプログラム）を記録媒体１０４に記録し、該記録した情報を、該記録媒体１０４を経由して装置１０１や装置１０３に適用したり、通信回線１０５や１０６を経由して、装置１０２や１０３に適用したりすることも可能である。装置１０１、１０２及び１０３には、上記図１に示される音源方向推定装置２０が設けられている。
【００９０】
また、例えば、チャンネル切替指令発生部１５、チャンネル切替部４、そして音声入力部２あるいは３を設けずに、２個のマイク入力を常時処理することで水平あるいは垂直方位のみを推定可能な装置として実施することも可能である。このようにしても、２軸で音源方向を推定可能という利便性を除く本発明の他の利便性は損なわれない。図１０は２つのマイク入力の変形例に係る音源方向推定装置３０の機能ブロック図である。図１と共通する構成には同一符号を付し、説明は省略する。図１０の例の場合、音声入力部２の電気信号は直接Ａ／Ｄ変換部６に出力される。また、音声検出部９はＮフレームデータ取得期間経過時を蓄積開始指令を始点として管理し、図１のチャネル切替指令発生部１５と同様に、Ｎフレームデータ取得期間経過時に蓄積停止指令をフレームデータ複写部１０及び１１に出力するとともに、方向推定指令を方向推定部１４に出力する。方向推定部１４の構成は図８と共通する。これにより、２つの音声入力の場合も音源方向を推定できる。
【００９１】
また、図８は、ＬＰＦ部２２を通過するフレームデータとＬＰＦ部２２を通過しないフレームデータ各々に基づく類似度計算及び位相差決定処理を行う例を示したが、必ずしもＬＰＦ部２２を備えた構成に本発明が限定されるものではない。図１１は、ＬＰＦ部２２を有さない方向推定部１４の構成の一例を示す図である。図８と共通する構成には同一符号を付し、詳細な説明は省略する。図１１の場合、データ選択部２１で選択されたＮフレームデータは類似度計算・ピーク検出部２４に出力される。類似度計算・ピーク検出部２４は、図８の例と同様にピーク類似度位相差ｄ_ｐを算出し、角度計算部２５に出力する。角度計算部２５は、得られたピーク類似度位相差ｄ_ｐに基づき音源方向推定結果σを算出する。
【００９２】
図２では直線３４と直線３５が直角に交わる例を示したが、既知の角度であれば直角でなくてもよい。さらには、例えば、図１２に示すように、直線３４と直線３５が一致し、ＥＣＭ３１〜３３が一直線３４上に互いに離間して配置されていてもよい。このように、一直線上に互いに離間して配置された３つの音声入力部を用いることにより、隣接する２つの入力音声から各々導かれる２つの方位角を同時に満たす音源までの距離を三角測量により一意に求めることができる。この場合、既知の距離算出式に基づき距離を算出する距離算出手段を方向推定部１４に代えて配置すればよい。
【００９３】
さらに、図２のＥＣＭと図１２のＥＣＭを組合せ、一直線３４上に３つのＥＣＭが配置され、この直線から所定の距離離間した位置で直線３４と交差する直線３５上にさらにＥＣＭを配置することで、距離と方向を一意に算出することができる。この場合、方向推定部１４に距離算出手段を追加すればよい。また、チャネル切替部４に３つの音声入力部からの音声を入力し、これら３つの音声を切り換える。そして、Ｎフレームデータずつ、連続して３Ｎフレームデータを取得し、これに基づき距離算出及び方向推定を行うことにより、音源の正確な空間位置を特定できる。
【００９４】
【発明の効果】
以上詳述したように本発明によれば、短時間に発生する音声の音源方向を安価に推定することができる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る音源方向推定装置の機能ブロック図。
【図２】同実施形態に係るＥＣＭの配置の詳細を示す図。
【図３】同実施形態に係る音源方向推定装置の処理のフローチャートを示す図。
【図４】同実施形態に係る音源方向推定装置の各構成のタイミングチャートを示す図。
【図５】同実施形態に係る方向推定部における方向推定の原理を説明するための図。
【図６】同実施形態に係る位相差ｄから方位角θを求める原理を説明するための図。
【図７】同実施形態に係る限界周波数の問題を説明するための図。
【図８】同実施形態に係る方向推定部の詳細な機能ブロック図。
【図９】同実施形態に係る音源方向推定装置を記録媒体を用いて実現した例を示す図。
【図１０】同実施形態に係る２つのマイク入力の変形例に係る音源方向推定装置の機能ブロック図。
【図１１】同実施形態に係るＬＰＦ部を有さない方向推定部の構成の一例を示す図。
【図１２】同実施形態に係る距離算出のためのＥＣＭ配置例を示す図。
【図１３】２つのマイクによる音声波形の時間差を説明するための図。
【図１４】音声を平面波と仮定した場合の距離差と音源方向の関係を説明するための図。
【符号の説明】
１〜３…音声入力部、４…チャネル切替部、５，６…Ａ／Ｄ変換部、７，８…フレームバッファ部、９…音声検出部、１０，１１…フレームデータ複写部、１２，１３…データバッファ部、１４…方向推定部、１５…チャネル切替指令発生部、１６…表示部、３１〜３３…ＥＣＭ

Claims

音源から発せられる音波を電気信号に変換する第１乃至第３の音声入力手段と、
前記第２及び第３の音声入力手段の電気信号のいずれか一方を選択する選択手段と、
前記第１の音声入力手段の電気信号を第１のデジタルデータに変換する第１のＡ／Ｄ変換手段と、
前記選択手段により選択された電気信号を第２のデジタルデータに変換する第２のＡ／Ｄ変換手段と、
前記第１のデジタルデータと前記第２の音声入力手段の電気信号に対応する前記第２のデジタルデータに基づき前記音源の第１の方位角を算出し、前記第１のデジタルデータと前記第３の音声入力手段の電気信号に対応する前記第２のデジタルデータに基づき前記音源の第２の方位角を算出する方向推定手段と
を具備してなることを特徴とする音源方向推定装置。
さらに、前記第１のデジタルデータを解析して音声の入力を検出する音声検出手段と、
前記音声検出手段が、音声の入力を検出した場合に、前記第２の音声入力手段の電気信号を選択する第１のチャネル選択指令を前記選択手段に出力し、前記第１のチャネル選択指令の出力の後に、前記第３の音声入力手段の電気信号を選択する第２のチャネル選択指令を前記選択手段に出力するチャネル切替指令発生手段と
を具備してなることを特徴とする請求項１に記載の音源方向推定装置。
前記第１の音声入力手段と前記第２の音声入力手段は第１の線上に互いに離間して配置され、前記第１の音声入力手段と前記第３の音声入力手段は第１の線とは異なる第２の線上に互いに離間して配置されてなることを特徴とする請求項１に記載の音源方向推定装置。
前記方向推定手段は、前記第１のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第１の部分波形と、前記第１の部分波形と位相差を有し、前記第２のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第２の部分波形との類似度を、複数の位相差について算出する類似度算出手段と、
前記複数の位相差について算出された類似度が最大となる最大類似度位相差を検出し、前記最大類似度位相差に応じた角度を前記第１の方位角又は前記第２の方位角として算出する角度計算手段を有することを特徴とする請求項１に記載の音源方向推定装置。
前記方向推定手段は、前記第１のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第１の部分波形と、前記第１の部分波形と位相差を有し、前記第２のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第２の部分波形との類似度を、複数の位相差について算出する類似度算出手段と、
前記複数の位相差について算出された類似度が閾値以上のピーク値となるピーク類似度位相差を検出し、前記ピーク類似度位相差に応じた角度を前記第１の方位角又は前記第２の方位角として算出する角度計算手段を有することを特徴とする請求項１に記載の音源方向推定装置。
前記方向推定手段は、前記第１のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第１の部分波形と、前記第１の部分波形と第１の位相差を有し、前記第２のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第２の部分波形との第１の類似度を、複数の第１の位相差について算出する第１の類似度算出手段と、
前記第１のデジタルデータで表される音声波形の高周波数成分を除去する第１の周波数成分除去手段と、
前記第２のデジタルデータで表される音声波形の高周波数成分を除去する第２の周波数成分除去手段と、
第１の周波数成分除去手段の出力波形のうちの一部の時間範囲の波形を抽出した第３の部分波形と、前記第３の部分波形と第２の位相差を有し、第２の周波数成分除去手段の出力波形のうちの一部の時間範囲の波形を抽出した第４の部分波形との第２の類似度を、複数の第２の位相差について算出する第２の類似度算出手段と、
前記第１の類似度が閾値以上のピーク値となるピーク類似度位相差を検出し、該ピーク類似度位相差のうち、前記第２の類似度が閾値以上となる位相差に応じた角度を前記第１の方位角又は前記第２の方位角として算出する角度計算手段を有することを特徴とする請求項１に記載の音源方向推定装置。
音源から発せられる音波を電気信号に変換する第１及び第２の音声入力手段と、
前記第１の音声入力手段の電気信号を第１のデジタルデータに変換する第１のＡ／Ｄ変換手段と、
前記第２の音声入力手段の電気信号を第２のデジタルデータに変換する第２のＡ／Ｄ変換手段と、
前記第１のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第１の部分波形と、前記第１の部分波形と位相差を有し、前記第２のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第２の部分波形との類似度を、複数の位相差について算出する類似度算出手段と、
前記複数の位相差について算出された類似度が最大となる最大類似度位相差を検出し、前記最大類似度位相差に応じた角度を前記音源の方位角として算出する角度計算手段を有することを特徴とする音源方向推定装置。
音源から発せられる音波を電気信号に変換する第１及び第２の音声入力手段と、
前記第１の音声入力手段の電気信号を第１のデジタルデータに変換する第１のＡ／Ｄ変換手段と、
前記第２の音声入力手段の電気信号を第２のデジタルデータに変換する第２のＡ／Ｄ変換手段と、
前記第１のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第１の部分波形と、前記第１の部分波形と位相差を有し、前記第２のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第２の部分波形との類似度を、複数の位相差について算出する類似度算出手段と、
前記複数の位相差について算出された類似度が閾値以上のピーク値となるピーク類似度位相差を検出し、前記ピーク類似度位相差に応じた角度を前記音源の方位角として算出する角度計算手段を有することを特徴とする音源方向推定装置。
音源から発せられる音波を電気信号に変換する第１及び第２の音声入力手段と、
前記第１の音声入力手段の電気信号を第１のデジタルデータに変換する第１のＡ／Ｄ変換手段と、
前記第２の音声入力手段の電気信号を第２のデジタルデータに変換する第２のＡ／Ｄ変換手段と、
前記第１のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第１の部分波形と、前記第１の部分波形と第１の位相差を有し、前記第２のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第２の部分波形との第１の類似度を、複数の第１の位相差について算出する第１の類似度算出手段と、
前記第１のデジタルデータで表される音声波形の高周波数成分を除去する第１の周波数成分除去手段と、
前記第２のデジタルデータで表される音声波形の高周波数成分を除去する第２の周波数成分除去手段と、
第１の周波数成分除去手段の出力波形のうちの一部の時間範囲の波形を抽出した第３の部分波形と、前記第３の部分波形と第２の位相差を有し、第２の周波数成分除去手段の出力波形のうちの一部の時間範囲の波形を抽出した第４の部分波形との第２の類似度を、複数の第２の位相差について算出する第２の類似度算出手段と、
前記第１の類似度が閾値以上のピーク値となるピーク類似度位相差を検出し、該ピーク類似度位相差のうち、前記第２の類似度が閾値以上となる位相差に応じた角度を前記音源の方位角として算出する角度計算手段を有することを特徴とする音源方向推定装置。
前記類似度は、前記第１の部分波形をベクトル化した第１ベクトルと前記第２の部分波形をベクトル化した第２ベクトルとの内積に基づき算出されることを特徴とする請求項７乃至９のいずれか１項に記載の音源方向推定装置。
第１乃至第３の音声入力手段により音源から発せられる音波を電気信号に変換し、
前記第２及び第３の音声入力手段の電気信号のいずれか一方を選択手段により選択し、
前記第１の音声入力手段の電気信号を第１のデジタルデータに変換し、
前記選択手段により選択された電気信号を第２のデジタルデータに変換し、
前記第１のデジタルデータと前記第２の音声入力手段の電気信号に対応する第２のデジタルデータに基づき前記音声の入射方向を推定して前記音源の第１の方位角を出力し、
前記第１のデジタルデータと前記第３の音声入力手段の電気信号に対応する第２のデジタルデータに基づき前記音声の入射方向を推定して前記音源の第２の方位角を出力する
ことを特徴とする音源方向推定方法。