JP2005049153A - 音声方向推定装置及びその方法 - Google Patents
音声方向推定装置及びその方法 Download PDFInfo
- Publication number
- JP2005049153A JP2005049153A JP2003204346A JP2003204346A JP2005049153A JP 2005049153 A JP2005049153 A JP 2005049153A JP 2003204346 A JP2003204346 A JP 2003204346A JP 2003204346 A JP2003204346 A JP 2003204346A JP 2005049153 A JP2005049153 A JP 2005049153A
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- similarity
- digital data
- sound source
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
【課題】短時間に発生する音声の音源方向を安価に推定する。
【解決手段】音波を捉えて電気信号に変換する音声入力部1〜3と、音声入力部2,3の電気信号のいずれか一方を選択的に通過させるチャネル切替部4と、音声入力部1の電気信号を第1のデジタルデータに変換するA/D変換部5と、チャネル切替部4を通過する電気信号を第2のデジタルデータに変換するA/D変換部6と、第1のデジタルデータと第1のタイミングに取得された第2のデジタルデータに基づき音源の第1の方位角を算出し、第1のデジタルデータと第1のタイミング経過後の第2のタイミングに取得された第2のデジタルデータに基づき音源の第2の方位角を算出する方向推定部14とを備える。
【選択図】 図1
【解決手段】音波を捉えて電気信号に変換する音声入力部1〜3と、音声入力部2,3の電気信号のいずれか一方を選択的に通過させるチャネル切替部4と、音声入力部1の電気信号を第1のデジタルデータに変換するA/D変換部5と、チャネル切替部4を通過する電気信号を第2のデジタルデータに変換するA/D変換部6と、第1のデジタルデータと第1のタイミングに取得された第2のデジタルデータに基づき音源の第1の方位角を算出し、第1のデジタルデータと第1のタイミング経過後の第2のタイミングに取得された第2のデジタルデータに基づき音源の第2の方位角を算出する方向推定部14とを備える。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、音声を入力して有用な情報を抽出する音声処理技術に係り、特に入力音声の音源方向を推定する音源方向推定装置およびその方法に関するに関する。
【0002】
【従来の技術】
音源方向推定装置とは実環境中の音声を電気信号に変換して入力し、その入力信号を処理することによって当該音声の発生方向を計算的に推定する装置を指す。
【0003】
最も一般的な音源方向推定原理は、位相差を利用する方法である。装置は例えば空気などの媒質中の空間的に異なる位置に配置されたN個(N≧2)のマイクMi(i:1≦i≦N)で構成される受音器を備えている。このとき、N個のマイクは所定の位置関係を保つように配置されており、その位置関係は既知である。
【0004】
この位相差に着目した音源方向推定の原理を説明する。
音声が音源Sを発した時刻をTsとすると、この音声はマイクMiと音源Sとの距離Liに応じた時刻Ti=Ts+(Li/C)にマイクMiに到達する。Cは媒質中の音速である。大気中であれば、気温を摂氏t度としたときC=331.4+0.604t(m/s)で近似的に与えることができる。各マイクMiは空間的に異なる位置に配置されている。したがって、音源Sとの距離Liはマイク毎に異なる可能性がある。この距離の相違は同一音声が各マイクMiに到達する時刻Tiの違いとして観測される。ただし、音声が音源Sを発した時刻Tsは特定できないので、図13に例示するように、マイクMiとマイクMjの音声到達時刻の差ΔTij=(Ti−Tj)=(Li−Lj)/Cのみが計測可能である。このΔTijは時間差、位相差、あるいは遅延量と呼ばれる。そして、この式からMiとMjの音源Sからの距離の差ΔLij=Li−Lj=ΔTij・Cが導かれる。
【0005】
音源Sを点音源と仮定したとき、音声は音源Sを中心とする同心球状の粗密波となる。受音器と音源Sの距離が受音器を構成するマイク間の距離より十分大きいとすれば、受音器に到達する音声の波面はほとんど平面状であると考えることができる。マイクMiよりMjの方が音源Sに近い場合の距離差ΔLijと音源方向θの関係を図14に平面波の例で示す。前述した通り、平面波の波面がMjに到達してからMiに到達するまでの時間差ΔTijから距離差ΔLijが導かれる。このとき、マイクMiとMjを結ぶベースラインBの長さをbとするとΔLij=b・cosθが成立し、ベースラインBと半直線Rのなす角θ=cos−1(ΔLij/b)が計算可能である。なお、本明細書では倍角文字はベクトルを表す。
【0006】
このとき、音源の存在範囲はベースラインBを中心として半直線Rを回転させた円錐面上ということになる。通常は音源Sと受音器の高さがそれほど異ならないと仮定して、求められたθを受音器に対する音源Sの水平方位角と見做して利用する。なお、それでも実際の音源方向がベースラインBを挟んでどちら側にあるかという曖昧性が残る。そのため、実用的には3個以上のマイクを用いて、その中の2つから成る組み合わせを複数組使ってこの曖昧性を排除する。
【0007】
3個以上のマイクを使った例は、例えば、文献「能動的に音源を定位し識別する自律移動ロボット」(日本ロボット学会誌,Vol.15,No.2,pp223−229,1997)(以下、非特許文献1)に示される。この非特許文献1記載の発明では、水平に置かれた正三角形の頂点を構成するように配置された3個のマイクM1〜M3を持つ受音器を用いる。そして、入力音声の立ち上がり(オンセット)後、最初に現れるゼロクロッシング(音声波形がゼロと交叉する時刻)を3つの入力音声から各々求めて時間差ΔT12、ΔT13、ΔT32を推定する。そして、これら時間差を用いて音源の水平方位角を一意に求める。
【0008】
水平方位角の推定は、時間差ΔT12、ΔT13、ΔT32を正規化した値の組が、予め1°刻みで理論的に計算された時間差の組のどの方位角のものと最も一致するかを探索することで行われる。探索の結果、2乗誤差が最小となる最も一致した組の角度を音源の水平方位角として出力する。
【0009】
なお、反響があるときに音源からの直接波が最も早くマイクに到達することから、音声の立ち上がり(オンセット)直後のゼロクロッシングを用いて、直接波の位相差を検出することができる。
【0010】
このように、位相差に着目した音源方向推定方法は、音源Sを発した音を複数のマイクMi(i:1≦i≦N)を擁する受音器で捉えたときに、音源とマイクとの位置関係に応じた時間遅れを伴う現象を利用するアプローチであり、各マイクの入力信号波形上の同じ位置を何らかの手段により検出し、その時間差を求めて音源方向を決定する。
【0011】
また、別の音源方向推定手法として、音響インテンシティに着目した手法がある。
音場中のある点において、音波の進行方向に垂直な単位面積を単位時間に通過する音響エネルギーを音響インテンシティと云い、I(t)=P(t)・V(t)で定義する。このとき、P(t)は音圧を表すスカラ量、V(t)は粒子速度を表すベクトル量である。このため、音響インテンシティI(t)もまたベクトル量である。
【0012】
近接して配置される2つのマイクを使う場合、音圧P(t)は各マイクで測定される音圧の平均で与えられ、粒子速度V(t)は各マイクで測定される音圧の差分を用いて近似される。このとき測定される音響インテンシティは、2つのマイクを結ぶ軸線方向の成分となる。したがって、軸線が音源方向を向いたとき最大の粒子速度が観測されて音響インテンシティが最大となる。
【0013】
例えば、特許2656307号公報(以下、特許文献1)に開示される「音源探査装置」では、音声が2つのマイクで構成される受音器の軸線方向から入射するとき音響インテンシティが最大になることを利用して、受音器の向きを様々に変えつつ最も大きな音響インテンシティを示す受音器の向きを音源方向とする方法が示されている。当該特許の実施例によれば、受音器を鉛直軸周りに回転させるので、音源の水平方位角を推定可能である。なお、例示されていないが、受音器を水平と垂直の2軸で振るようにすれば音源の垂直方位角も併せて求めることができる。なお、受音器の向きを変えつつ音源方向を探るには一定の時間が必要であり、その間の音響インテンシティが安定していないと大小比較が意味をなさないことから、この方法で推定可能な音声は探索が完了するまで継続する定常的な音に限られる。
【0014】
また、上記「音源探査装置」では、別の方法としてXYZの直行座標軸上の原点と3軸上にそれぞれマイクを配置し、都合4個のマイクでX軸、Y軸、Z軸方向の音響インテンシティを求めてそれらをベクトル合成し、その合成ベクトルの方向を音源方向とする方法も示されている。受音器を固定したまま行えるこの方法によれば音声が非定常的で短時間であっても音源方向を推定でき、なおかつ4個のマイクを使うことで水平方位角と垂直方位角の2次元で音源方向を求めることができる。
【0015】
このように、音響インテンシティに着目した音源方向推定は、音源Sを発した音を受音器で捉えたときに、音源方向と受音器軸線との角度に応じた成分の音響インテンシティが計測される現象を利用するアプローチであり、1つの軸線を用いる場合には音響インテンシティ最大となる軸線方向を求めることで、複数の軸線を用いる場合にはそのベクトル合成を求めることで音源方向を決定する。
【0016】
以上2つの音源方向推定手法を説明したが、いずれの手法の場合も、短時間に生じる音声の音源方向を推定する場合には、3つ以上のマイクが必要となる。すなわち、音源方向を水平/垂直の2軸で推定しようとする場合には、少なくとも3つ以上のマイク入力を処理する必要がある。
【0017】
しかしながら、最近進歩の著しいパーソナルコンピュータを使ってこの機能を実現しようとすると問題が生じる。標準装備の音声入力デバイスでは、同時取り込み可能なチャンネル数が2つ(ライン入力)しかないため、別にA/D変換器を用意して構成しなければならず、装置が高価になってしまう。2チャンネルの入力で3つ以上のマイク入力を扱えれば装置をより安価に構成できるが、従来技術はこれを解決していない。
【0018】
【特許文献1】
特許2656307号公報
【0019】
【非特許文献1】
王富民・竹内義則・大西昇・杉江昇、「能動的に音源を定位し識別する自律移動ロボット」、日本ロボット学会誌、Vol.15,No.2,pp223−229,1997年
【0020】
【発明が解決しようとする課題】
上述したように、従来の音源方向推定手法では、短時間に発生する音声の音源方向を推定する場合、音源方向を水平/垂直の2軸で推定するために3つ以上のマイク入力を扱う必要があり、一般的なパーソナルコンピュータの標準デバイスではこれを行うことができず、これを可能にするためには装置が高価になってしまう。
【0021】
本発明は上記課題を解決するためになされたもので、その目的とするところは、短時間に発生する音声の音源方向を安価に推定することができる音源方向推定装置およびその方法を提供することである。
【0022】
【課題を解決するための手段】
本発明の一の観点によれば、音源から発せられる音波を電気信号に変換する第1乃至第3の音声入力手段と、前記第2及び第3の音声入力手段の電気信号のいずれか一方を選択する選択手段と、前記第1の音声入力手段の電気信号を第1のデジタルデータに変換する第1のA/D変換手段と、前記選択手段により選択された電気信号を第2のデジタルデータに変換する第2のA/D変換手段と、前記第1のデジタルデータと前記第2の音声入力手段の電気信号に対応する前記第2のデジタルデータに基づき前記音源の第1の方位角を算出し、前記第1のデジタルデータと前記第3の音声入力手段の電気信号に対応する前記第2のデジタルデータに基づき前記音源の第2の方位角を算出する方向推定手段とを具備してなることを特徴とする音源方向推定装置が提供される。
【0023】
また、本発明の別の観点によれば、第1乃至第3の音声入力手段により音源から発せられる音波を電気信号に変換し、前記第2及び第3の音声入力手段の電気信号のいずれか一方を選択手段により選択し、前記第1の音声入力手段の電気信号を第1のデジタルデータに変換し、前記選択手段により選択された電気信号を第2のデジタルデータに変換し、前記第1のデジタルデータと前記第2の音声入力手段の電気信号に対応する第2のデジタルデータに基づき前記音声の入射方向を推定して前記音源の第1の方位角を出力し、前記第1のデジタルデータと前記第3の音声入力手段の電気信号に対応する第2のデジタルデータに基づき前記音声の入射方向を推定して前記音源の第2の方位角を出力することを特徴とする音源方向推定方法が提供される。
【0024】
また、装置または方法に係る本発明は、コンピュータを当該発明に相当する手段として機能させるためのプログラム、このプログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【0025】
【発明の実施の形態】
以下、図面を参照しながら本発明の一実施形態を説明する。
【0026】
図1は本発明の一実施形態に係る音源方向推定装置20の機能ブロック図である。図1に示すように、音源方向推定装置20は、3つの音声入力部1〜3と、チャネル切替部4と、A/D変換部5及び6と、フレームバッファ部7及び8と、音声検出部9と、フレームデータ複写部10及び11と、データバッファ部12及び13と、方向推定部14と、チャンネル切替指令発生部15と、表示部16とからなる。
【0027】
音声入力部1〜3はそれぞれ異なる位置の音声を捉えて電気信号に変換する。
【0028】
A/D変換部5は、音声入力部1からの電気信号をA/D変換してデジタル数値データとしてフレームバッファ部7に出力する。チャネル切替部4は、音声入力部2及び3からの電気信号のいずれかを選択してA/D変換部6に出力する。A/D変換部6は、チャネル切替部4からの電気信号をA/D変換してデジタル数値データとしてフレームバッファ部8に出力する。A/D変換部5及びA/D変換部6は同期して動作するものであり、入力される電気信号の電位をサンプリングしてデジタル数値データとして出力する。
【0029】
フレームバッファ部7とフレームバッファ部8は、A/D変換部5及び6からのデジタル数値データを時系列にm個記憶できる。以下では、各デジタル数値データをサンプル、その時系列的なm個のデジタル数値データの集合をフレームデータと称する。フレームバッファ部7は、m個のデジタル数値データを記憶すると、その記憶したフレームデータを音声検出部9及びフレームデータ複写部10に出力する。フレームバッファ部8は、m個の数値データを記憶すると、その記憶したフレームデータをフレームデータ複写部11に出力する。
【0030】
音声検出部9は、フレームバッファ部7からのフレームデータの音声波形の面積を計算する。この面積が閾値以上であれば音声が入力されたと判定し、蓄積開始指令をチャネル切替指令発生部15に出力する。この蓄積開始指令と同時に、音声検出部9はデータ複写開始指令をフレームデータ複写部10及び11に出力する。
【0031】
また、音声検出部9は、蓄積開始指令の出力から2Nフレーム分のデータ蓄積時間が経過すると、蓄積停止指令をチャネル切替指令発生部15に出力する。この蓄積開始指令と同時に、音声検出部9はデータ複写停止指令をフレームデータ複写部10及び11に出力する。データ蓄積時間の経過は、例えばフレームバッファ部7からフレームデータを2N個受信したか否かで判定される。
【0032】
チャネル切替指令発生部15は、蓄積開始指令を受けると、音声入力部2からの音声を選択するようにチャネル切替指令をチャネル切替部4に出力する。また、チャネル切替指令発生部15は、蓄積停止指令を受けると、音声入力部3からの音声を選択するようにチャネル切替指令をチャネル切替部4に出力する。チャネル切替部4は、音声入力部2及び3のうち、チャネル切替指令で指定された方の電気信号を選択してA/D変換器4に出力する。
【0033】
また、チャネル切替指令発生部15は、方向推定部14に、蓄積開始指令からNフレームのデータ取得時間経過毎に、水平方位推定指令と垂直方位推定指令を交互に出力する。例えば音声入力部2が水平方位を推定するためのものであり、音声入力部3が垂直方位を推定するためのものである場合、蓄積開始指令からNフレームのデータ取得時間経過時に水平方位推定指令を方向推定部14に出力し、2Nフレームのデータ取得時間経過時に垂直方位推定指令を方向推定部14に出力する。
【0034】
フレームデータ複写部10は、フレームバッファ部7からのm個のデジタル数値データを逐次データバッファ部12に複写する。また、フレームデータ複写部11は、フレームバッファ部8からのm個のデジタル数値データを逐次データバッファ部13に複写する。
【0035】
データバッファ部12及び13は、2Nフレームのデータを時系列に記憶できる。データバッファ部12は、蓄積開始指令から音声入力部1に入力されたデジタル数値データを2Nフレーム分記憶する。データバッファ部13は、蓄積開始指令から音声入力部2に入力されたデジタル数値データをNフレーム分、音声入力部3に入力されたデジタル数値データをNフレーム分、計2Nフレーム分記憶する。
【0036】
方向推定部14は、チャネル切替指令発生部15からの水平方向推定指令に基づき、データバッファ部12からの最新Nフレームとデータバッファ部13からの最新Nフレームを用いて水平方向の音源方向の推定を行う。また、方向推定部14は、垂直方向推定指令に基づき、データバッファ部12からのNフレームとデータバッファ部13からのNフレームを用いて垂直方向の音源方向の推定を行う。得られた方向推定結果は表示部16に表示される。
【0037】
音声入力部1〜3は音声を電気信号に変化する手段であり、例えばECMとその信号を増幅するOPアンプにより構成される。音声入力部1〜3のECMをそれぞれ31〜33とした場合のECM31〜33の配置の詳細を図2に示す。図2に示すように、ECM31とECM32は、直線34上に互いに離間して水平方向に配置されている。また、ECM31とECM33は、直線34に略直角に交わる直線35上に互いに離間して垂直方向に配置されている。このように、ECM31〜33はそれぞれL字型の配置をなす。
【0038】
次に、図3のフローチャートを用いて音源方向推定装置20の処理の流れを説明する。また、図4は、音声検出部9、フレームデータ複写部10及び11、方向推定部14及びチャネル切替指令発生部15のタイミングチャートの一例を示す。
【0039】
まず、ステップS1に示されるように、音声入力部1からの電気信号はA/D変換部5に出力され、デジタル数値データに変換される。同様に、音声入力部2又は3のいずれかからの電気信号はチャネル切替部4を介してA/D変換部6に出力され、デジタル数値データに変換される。そして、これらA/D変換部5及び6のデジタル数値データはフレームバッファ部7及び8にそれぞれ蓄積記憶される。この蓄積記憶は、m個のデジタル数値データ、すなわち1フレームについて行われ、ステップS2に進む。
【0040】
ステップS2では、音声検出中であるか否かが判定される。音声検出中であるか否かは、例えば音声検出部9により蓄積開始指令が出力された後蓄積停止指令が出力されるまでの検出タイミングか否かで判定される。検出タイミング内であれば音声検出中と判定してステップS5に進み、検出タイミング外であれば音声検出中でないと判定してステップS3に進む。最初に装置を起動した際には、蓄積開始指令は出力される前であるので検出タイミング外であり、ステップS3に進む。
【0041】
ステップS3では、音声検出部9はそのフレームデータの音声波形の面積を計算し、その面積が閾値以上か否かを判定し、閾値以上であれば音声入力ありと判定し、ステップS4に進む。閾値未満であれば音声入力なしと判定し、ステップS1に戻り、フレームバッファ部7及び8でのフレーム取得が繰り返される。
【0042】
ステップS4では、音声検出部9が蓄積開始指令をチャネル切替指令発生部15に出力する。チャネル切替指令発生部15は、この蓄積開始指令を受けてチャネル切替部4に音声入力部2の音声の選択を指示するチャネル切替指令を出力する。このチャネル切替指令を受け、チャネル切替部4は音声入力部2の音声電気信号をA/D変換部6に通過させる。
【0043】
ステップS5では、ステップS4の蓄積開始指令と同時に、音声検出部9が、フレームデータ複写部10及び11にデータ複写開始指令を出力する。このデータ複写開始指令を受け、フレームデータ複写部10及び11は、フレームバッファ部7及び8に蓄積記憶されたフレームデータをそれぞれデータバッファ部12及び13に複写する。また、ステップS2から分岐した場合も、フレームデータ複写部10及び11は、フレームバッファ部7及び8に蓄積記憶されたフレームデータをそれぞれデータバッファ部12及び13に複写する。
【0044】
ステップS6では、チャネル切替指令発生部15がステップS5のデータ複写がNフレームの複写の終了タイミングか否かを判定する。Nフレームの複写終了タイミングと判定された場合には、ステップS7に進み、そうでない場合にはステップS8に進み、音声検出部9が2Nフレームの複写の終了タイミングか否かを判定する。ステップS8で、2Nフレームの複写終了タイミングと判定された場合には、ステップS9に進み、そうでない場合にはNフレームの複写終了タイミングでも2Nフレームの複写終了タイミングでもないため、ステップS7及びS9のいずれにも進まずにステップS1に戻り、フレームデータの複写が繰り返される。
【0045】
Nフレームの複写終了タイミングのステップS7では、チャネル切替指令発生部15はチャネル切替部4に音声入力部3からの音声の選択を指示するチャネル切替指令を出力する。このチャネル切替指令を受け、チャネル切替部4は音声入力部3の音声電気信号をA/D変換部6に通過させる。また、チャネル切替指令と同時に、チャネル切替指令発生部15は、方向推定部14に水平方位角推定指令を出力する。この水平方位角推定指令を受け、方向推定部14はデータバッファ部12からの音声入力部1についてのNフレームデータとデータバッファ部13からの音声入力部2についてのNフレームデータに基づき水平方位角を算出する。
【0046】
2Nフレームの複写終了タイミングのステップS9では、音声検出部9は蓄積停止指令をチャネル切替指令発生部15に出力する。チャネル切替指令発生部15は、この蓄積停止指令を受けて、チャネル切替指令の出力を停止するとともに、垂直方位角推定指令を方向推定部14に出力する。この垂直方位角推定指令を受け、方向推定部14はデータバッファ部12からの音声入力部1についてのNフレームデータとデータバッファ部13からの音声入力部3についてのNフレームデータに基づき垂直方位角を算出する。また、音声検出部9は、蓄積停止指令とともにフレームデータ複写部10及び11に、データ複写停止指令を出力する。フレームデータ複写部10及び11は、このデータ複写停止指令を受け、フレームデータの複写を停止する。
【0047】
上記ステップS7及びS9で算出された水平方位角と垂直方位角に基づき、方向推定部14は音源の方向を算出し、表示部16に表示する。これにより音源方向の推定処理が終了する。
【0048】
このように、チャネル切替部4でNフレームのデータ取得毎に音声入力部2と3の音声が切り換えられるので、データバッファ部13には音声入力部2の音声と音声入力部3の音声がNフレームずつ連続して交互に記憶され、一方、データバッファ部12には、その間に音声入力部1から入力されるデータが2Nフレーム分記憶される。
【0049】
以上の構成により、A/D変換部5及び6という2チャンネルのA/D変換手段しか持たない装置であっても、3チャンネル中の2チャンネルの音声信号を交互に取り込むことで、水平と垂直の2軸の音源方向を推定することができるようになる。この結果、数万円もする高価なA/D変換ボードを追加することなく、2千円程度のマイクアンプ回路と一般的なパーソナルコンピュータのライン入力のみを用いて同様の機能を実現できる。さらに、チャンネル切替部4も数百円のアナログスイッチICで実現でき、パーソナルコンピュータの備えるパラレルポートを経由して制御可能である。また、略瞬間的に音声入力部2及び3の音声電気信号を取得して方向推定を行うので、略瞬間的に生じる音声であっても正確に音源方向を推定できる。
【0050】
次に、方向推定部14における方向推定の原理を図5を用いて説明する。
方向推定部14は、音源方向を推定するために、音源と音声入力部の距離差ΔLij(i,j:1≦i,j≦N、Nはマイク数)に相当する音声の到達の時間差ΔTijを、2つの入力音声波形の部分間でその類似性を評価することにより推定する。
【0051】
図中、2つのマイクMiとMjで観測される音声にはΔTijの時間差、すなわち位相差が存在する。このとき、観測される音声は所定のサンプリング周期で時間離散的にサンプリングされ、各サンプリング時刻の振幅値は所定のビット長でA/D変換されていると仮定する。このA/D変換されたデジタル数値データを音声波形データと称する。マイクMiで入力された音声波形データをDi、マイクMjで入力されたデータをDjとする。
【0052】
このとき、音声波形データDi上の所定位置にK個のサンプルを覆う固定の窓Wiを設定し、音声波形データDj上にはこの固定位置を中心に±Dmaxサンプルの範囲で時間軸方向に動かすことのできる窓Wj(d)を設定する。ここで、窓とは、時間範囲を表し、窓Wiの幅と窓Wj(d)の幅は等しくKサンプル分を覆うように設定されている。そして、音声波形データDiとDjのうち窓Wiと窓Wj(d)で覆われる部分音声波形データPi及びPj(d)を各々抽出する。窓Wj(d)を±Dmaxの範囲で動かすということは、2つの音声波形データDiとDjの位相差dを±Dmaxの範囲で仮定してみることに他ならない。仮定する位相差dが正しくΔTijであるなら、抽出される部分音声波形データは相互に類似したものになるはずである。
【0053】
Dmaxは、音波がマイク間距離bだけ進行する時間中にA/D変換により数値化されるサンプル数に相当する。音速をC、サンプリングレートをRヘルツとしたとき、Dmax=R・b/Cで与えられる。具体的には、マイク間距離b=20cm、気温20℃(音速C=343.48m/s)、サンプリングレートR=44.1kHzとしたとき、Dmax=44100×0.2÷343.48=25.6となる。
【0054】
部分音声波形データの類似性を評価するために、ここではベクトル間内積値を利用する。すなわち、各窓Wi及びWj(d)で各々覆われるK個のサンプルから成る部分音声波形データPi及びPj(d)は、各サンプルが振幅を表すスカラ量であることからK次元のベクトルと見做すことができる。このとき、各ベクトルPi及びPjをノルム正規化(長さ1に正規化)したベクトルを各々V iとV jとし、類似度Sをノルム正規化ベクトルV iとV jの内積(V i・V j)、すなわち両ベクトルのなす角をθとしたときの余弦(cosθ)として計算する。このとき、類似度Sの値域は{S:−1≦S≦1}であり、S=1となるとき、2つのベクトルV iとV jは完全に一致している。窓Wj(d)を±Dmaxの範囲で動かしつつ得られる部分波形データPj(d)について、上記の要領で類似度S(d)を次々計算すると、位相差dがΔTijに一致したところで類似度S(d)が最大となるはずである。なお、実際に窓Wj(d)を動かす間隔はサンプル数を単位として±Dmaxの範囲に含まれる整数ということになる。例えば、Dmax=25.6であれば、窓Wj(d)はDmaxの小数点以下を切り捨てて±25サンプルの範囲で動かされる。
【0055】
この図5に示す原理を用いた推定手法の作用効果を以下説明する。
【0056】
位相差に着目した音源方向推定方法は、音源Sを発した音を複数のマイクMiを擁する受音器で捉えたときに、音源とマイクとの位置関係に応じた時間遅れを伴う現象を利用する手法である。各マイクの入力信号波形上の同じ位置を何らかの手段により検出し、その時間差を求めて音源方向を決定する。したがって、もし検出された位置が各信号波形上の同じ位置を指していなければ正しい音源方向を推定することができない。
【0057】
例えば従来技術の非特許文献1で説明されたゼロクロッシングによる時間差推定では、マイク校正の必要性の問題が生じる。通常、音声の入力は、(1)マイクで媒質振動を電気信号に変換し、(2)増幅器でこの信号を増幅し、さらに、デジタル処理をするなら、(3)A/D変換器で信号電圧を数値データに変換することになる。このとき、マイクや増幅器のばらつきにより、0V電位が全てのマイク入力チャンネルで揃っているとは限らない。上記例では0V電位の不揃いはゼロクッロッシング位置(入力波形信号が電位0Vと交叉する位置)のずれをもたらし、音源方向推定を誤らせる原因となる。したがって、推定精度を確保するためには事前に全てのチャンネルで0V電位を校正しておかなければならない。0V電位の校正は装置組上げ時に一度行っておけば済みそうだが、何らかの理由でマイクや増幅器を交換した場合には必ず行わなければならず、長い目で見たときこの手間は必ずしも好ましいものではない。
【0058】
また、従来技術の特許文献1に示した音響インテンシティに着目した音源方向推定は、音響インテンシティが計測される現象を利用する手法である。1つの軸線を用いる場合には音響インテンシティ最大となる軸線方向を求めることで、複数の軸線を用いる場合にはそのベクトル合成を求めることで音源方向を決定する。しかしながら、このためには音響インテンシティの各観測値が正しく比較可能あるいは合成可能である、すなわち各計測値のスケールが揃っている必要があり、これが保証されていないときに正しい音源方向を推定することができない。例示した音響インテンシティの比較もしくは合成においても、マイク校正の必要性が生じる。
【0059】
非特許文献1の発明の場合と同様、音声の入力は、(1)マイクで媒質振動を電気信号に変換し、(2)増幅器でこの信号を増幅し、さらに、デジタル処理をするなら、(3)A/D変換器で信号電圧を数値データに変換することになる。このとき、マイク、増幅器、A/D変換器のばらつきにより、計測される音響インテンシティのスケールが全てのマイク入力チャンネルで揃っているとは限らない。上記特許文献1発明の例では、スケールの不揃いは最大値検出時や合成時の誤りをもたらす原因となる。したがって、推定精度を確保するためには事前に全てのチャンネルで0V電位とゲインを校正しておかなければならない。校正は装置組上げ時に一度行っておけば済みそうだが、何らかの理由でマイクや増幅器を交換した場合には再度行う必要があり、長い目で見ればその利便性は必ずしも良くない。
【0060】
このように、非特許文献1や特許文献1記載の手法では、複数のマイク入力の0V電位やゲインを校正しなければ正しく音源方向を推定できないという問題がある。
【0061】
これに対して図5を用いて説明した本実施形態の手法、すなわち位相差推定をノルム正規化ベクトルの内積を評価して解くこの方法は、部分波形の全体、すなわち、波形の比較的広範囲を比較して位相差を求める。したがって、0V電位やゲインの変動に影響されにくく、これらの厳密な校正を必要としない。
【0062】
図6は位相差dから方位角θを求める原理を説明するための図である。
マイクMiの入力から抽出されるK次元正規化ベクトルV iと、マイクMjの入力から抽出されるK次元正規化ベクトルV jの位相差dは±Dmaxの範囲で変化し得る。図6(a)のように、正面から入射する場合、位相差dは0となり、方位角θは正面を基準にした場合0°となる。
【0063】
また、図6(b)のように音声が右真横、すなわちマイクMj方向から入射する場合、位相差dは−Dmaxに等しく、方位角θは正面を基準にして左回りを正として−90°となる。同様に、図6(c)のように音声が左真横、すなわちマイクMi方向から入射する場合、位相差dはDmaxに等しく、方位角θは+90°となる。
【0064】
以上図6(a)〜(c)を踏まえて図6(d)のような一般的な条件を考える。マイクMiの位置をA、マイクMjの位置をBとし、音声が線分PA方向から入射すると仮定すると、△PABは頂点Pが直角となる直角3角形となる。このとき、マイク間中心O、線分OCを受音器正面方向として、OC方向を方位角0°とした左回りを正にとる角度を方位角θと定義する。△QOBは△PABの相似形となるので、方位角θの絶対値は∠OBQ、すなわち∠ABPに等しく、符号は位相差dの符号に一致する。また、∠ABPはPAとABの比のsin−1として計算可能である。このとき、線分PAの長さをこれに相当する位相差dで表すと、線分ABの長さはDmaxに相当する。したがって、符号も含めて、方位角はθ=sin−1(d/Dmax)として計算することができる。
【0065】
次に、図7及び図8を用いて限界周波数の問題を解決する本実施形態の方向推定部14の詳細について説明する。
【0066】
音声の周波数が低ければ、マイク間に複数の波頭が入らないので、位相差が一意に決まる。一方、複数の波頭が入る高い周波数域では、正解から周期Tの自然数倍だけずれて位相差が推定されてしまう可能性が高い。特に、音声が周波数・パワーともに一定の成分を多く含むとき、このような誤推定が発生しやすい。このとき、複数の波頭が入るか否かを分ける周波数を限界周波数といい、音速Cをマイク間距離bで割った値で与える。例えば、マイク間距離b=20cm、気温20℃(音速C=343.48m/s)としたとき、限界周波数は1.7174kHzとなる。
【0067】
図7にLPF(低域通過フィルタ)により限界周波数以上の成分を除去された音声波形データを与えた場合と、LPFを通過させずに限界周波数以上の成分を含む音声波形データを与えた場合の比較を示す。図7(a)に示す入力例は男声による母音「い」の連続音であり、そのパワースペクトルには限界周波数以上の強い成分(2kHz付近、3kHz付近)が含まれている。LPFにより1.7kHz以下の低域成分のみを通過させた波形では位相差dを±Dmaxの範囲で動かしたときの類似度S(d)の推移が図7(b)に示される。横軸は位相、縦軸は類似度である。同図のように単峰性を示し、そのピーク類似度位相差dLは若干ずれを生じているものの、入力方向である正面にほぼ一致している。一方、LPFによる周波数カットを行わなかった波形では、図7(c)に示される。横軸は位相、縦軸は類似度である。同図のように、正解の位相差dA2の他に3つのピークdA1、dA3及びdA4を持つ多峰性を示している。また、正解dA2とピーク類似度位相差dLは若干ずれを生じている。例示した多峰性のグラフでは正解dA2の類似度S(dA2)が最大となっているが、実験によって正解以外のピークが最大となる場合も確認されている。その場合、最大類似度を示す位相差を求めるというロジックでは正解からかけ離れた全く別の方向に音源が推定されてしまう。
【0068】
位相差の推定誤りを低減するために、LPFで単峰化してから類似度のピークを求める方法が考えられるが、低域周波数成分のみによる位相差推定は高域周波数成分を使った位相差推定よりもピーク精度が悪くなる。すなわち、図7に示したように、ピークを示す位相差が正解から1サンプル程度ずれることがあるという別の問題が発生する。高い周波数のピーク精度と低い周波数の単峰性を両立する方法が必要である。限界周波数以上をカットする低域通過が様々な局面で有効であることは広く知られているが、それによって位相差推定時のピーク精度が犠牲になることや、さらに進んで両者の特長を併せ持たせる方法について、非特許文献1や特許文献1などの従来技術には一切言及がない。
【0069】
本実施形態の音源方向推定装置20では上記両立を次のようにして解決する。すなわち、LPF通過時の類似度を閾値処理することによって、位相差の存在エリアを限定する。このエリアは正解の近傍に広がっているはずである。次に、その存在エリア内に入るLPF非通過時の類似度ピークを抽出し、最大類似度を持つピークを推定された位相差として出力する。低域成分で正解の範囲を特定し、高域成分を使ってその範囲から精度の高い解を選択するという手法である。
【0070】
図8は本実施形態の方向推定部14の詳細な機能ブロック構成を示した図である。方向推定部14は、データ選択部21と、LPF部22と、類似度計算・閾値処理部23と、類似度計算・ピーク検出部24と、角度計算部25とからなる。
【0071】
チャンネル切替指令発生部15から供給される水平/垂直方位推定指令の水平と垂直の別に従って、データ選択部21はデータバッファ部12とデータバッファ部13から最初のNフレームデータ(水平時)と次のNフレームデータ(垂直時)のいずれかを選択して読み出す。
【0072】
読み出されたNフレームデータDiとDjはLPF部22及び類似度計算・ピーク算出手段24に出力される。LPF部22は、データバッファ部12と13からの各Nフレームデータの限界周波数以上を除去し、低周波成分のみを含む低周波波形データDLiとDLjに変換して類似度計算・閾値処理部23に出力する。このフィルタリングは、NフレームデータにFFTを施してパワースペクトルを求め、このパワースペクトル上から限界周波数以上の成分を除去した後、再び逆FFTによってNフレームの波形データに戻す処理によって実現される。各窓Wi及びWj(d)で各々覆われるK個のサンプルから成る部分音声波形データPi及びPj(d)は、各サンプルが振幅を表すスカラ量であることからK次元のベクトルと見做すことができる。
【0073】
類似度計算・閾値処理部23は、低周波波形データに基づき位相差の存在エリア情報を抽出する。具体的には、類似度計算・閾値処理部23は、LPF通過後の波形データDLiとDLjに対して図5により示される原理により位相差dを±Dmaxの範囲でずらした窓Wiと窓Wj(d)で各々覆われるDLiとDLjの部分波形PLi及びPLj(d)を抽出し、その抽出された部分波形PLi及びPLj(d)の類似度SL(d)を計算する。そして、得られた類似度SL(d)が所定閾値Sth以上の類似度を持つ位相差dthを全て列挙する。そして、列挙された位相差dthが連続(あるいは孤立)する範囲を位相差の存在エリアとして全て抽出する。類似度SL(d)が単峰性を示すなら、抽出される存在エリアは1つであるが、場合によっては複数抽出されることも許容する。なお、存在エリアを表す情報は、列挙された位相差dthが連続(あるいは孤立)する範囲の両端(最小値と最大値の2つの量)でdth1〜dth2というように記述される。
【0074】
一方、LPF部22に供給されたのと同じNフレームデータDiとDjがLPF部22を通過せずに類似度計算・ピーク検出部24に供給される。類似度計算・ピーク検出部24は、このNフレームデータに基づき正確な類似度ピーク情報を抽出する。
【0075】
具体的には、類似度計算・ピーク検出部24は、NフレームデータDiとDjに対して図5により示される原理により位相差dを±Dmaxの範囲でずらした窓Wiと窓Wj(d)で各々覆われるDiとDjの部分波形Pi及びPj(d)を抽出し、その抽出された部分波形Pi及びPj(d)の類似度SA(d)を計算して類似度のテーブルを作る。そして、SA(d)がテーブル上で隣接する隣の類似度SA(d−1)、SA(d+1)のいずれかより少なくとも大きければ、そのdの位置をピーク類似度位相差dpとして検出する。検出されたピークを表す情報は位相差値そのものであり、ピークとして検出された全ての位相差値dpを列挙したリストが出力される。
【0076】
角度計算部25は、得られた位相差の存在エリアdth1〜dth2に入る類似度ピークdpを全て抽出し、最も高い類似度SA(d)を獲得した最大ピーク類似度位相差dp1を選んで方位角θを計算する。このとき、水平/垂直方位推定指令の水平と垂直の別に従って、得られた最大ピーク類似度位相差dp1に水平方位か垂直方位かの別を示すフラグ情報を付加して位相差推定結果dph、dpvとする。最後に、水平位相差推定結果dphと垂直位相差推定結果dpvに基づき音源の水平方位θhと垂直方位θvを算出する。θhとθvは、dph及びdpvと、θh及びθvとが対応付けられたデータテーブルから、該当するdph、dpvに対応するθhとθvを抽出することにより得てもよいし、既知の計算式に基づき算出してもよい。得られた方向θhとθvをdphやdpvとともに音源方向推定結果σとして表示部16に出力して表示させる。
【0077】
なお、複数の音源が存在するときには、上記角度計算部25による計算手法を変えることにより対応可能である。
【0078】
複数の音源が存在するとき、あるいは、音源が1つであっても受音器のごく近傍に壁があり、該壁面からの強い反射があるとき、上記最大類似度を得たピークdpを1つ抽出する方位角推定方式では、応用上重要でない方の音源方向が得られたり、壁面反射の方向が得られたりして、必要な音源方向を得ることができない場合がある。特に、壁面反射では、直接波と反射波により類似度が2つのピークdp1、dp2を示し、反射波のピークが直接波のピークより大きくなる逆転時に誤推定が発生する。実験によれば、受音器と壁が近いとき、この逆転が50%程度の頻度で観測される。この場合、2つのピークdp1、dp2は同程度の大きさを示すことになるが、その方向は大きく異なる。
【0079】
例えば従来技術に記載の非特許文献1発明の場合、以下の問題が生じる。
非特許文献1発明のようにゼロクロッシングを用いるとき、最も問題となるのは信号にノイズが混入しているときである。既述のようにゼロクロッシング位置は信号波形が0V電位と交叉する位置であるから、入力信号波形に対象音声以外の環境雑音や電気的ノイズが含まれていると、一方の信号ではゼロクロッシングになっている箇所が、他方ではゼロクロッシングになっていなかったり、対象音声のゼロクロッシング位置が検出されずに、ノイズのゼロクロッシング位置が検出されてしまったりする可能性がある。ノイズの原因は回路上で発生するノイズと受音器が拾う環境雑音の2種類がある。前者は回路の設計や調整により回避できるが、後者は環境に依存するので解決できない。
【0080】
また、従来技術に記載の特許文献1発明の場合でも、入力信号波形に対象音声以外の環境雑音が含まれていると、音響インテンシティの最大値が現れる方向や合成ベクトルの向きが正しくなくなる可能性がある。
【0081】
このように、対象音声以外の音声(環境雑音)が存在する条件下では、正しい音源方向を出力できない危険性が高いという問題点があった。
【0082】
そこで、本変形例では最大ピーク類似度位相差dp1に加えて、該最大ピーク類似度値SA(dp1)に対して所定割合(例えば80%)以上の大きさの類似度SA(d)を持つ全てのピーク類似度位相差dpi(dp1を含む)を推定された位相差として出力するように角度計算部25を強化する。なお、強化された角度計算部25は、上述のようにして得られた複数のピーク類似度位相差dpiに対する水平位相差と垂直位相差の全ての組み合わせに基づく複数の水平方位角θhと垂直方位角θvを算出する。
【0083】
この結果、複数音源存在時や壁面反射存在時であっても、少なくとも必要な音源方向の情報が出力に含まれるようになり、従来技術の非特許文献1や特許文献1の発明の問題点を解決することができる。すなわち、出力される方位角に複数の候補を許すことで、複数音源や壁面反射という悪条件下でも、必要な方位角が出力される利便性の向上した音源方向推定装置を提供可能である。
【0084】
本実施形態に係る音源方向推定装置およびその方法は、例示した実施形態に限定されず、以下に示すように、その趣旨を逸脱しない限り様々に変形して実施することが可能である。
【0085】
また、図1の音声検出部9は、フレームバッファ部7からのフレームデータに基づき音声検出処理を行う例を示したが、フレームバッファ部8からのフレームデータに基づいて音声検出処理を行ってもよいし、フレームバッファ部7及び8双方のデータに基づいて音声検出処理を行ってもよい。
【0086】
また、図1の例では、蓄積開始指令から2Nデータフレーム取得時間経過時のタイミング管理は音声検出部9が、蓄積開始指令からNデータフレーム取得時間経過時のタイミング管理はチャネル切替指令発生部15が管理する例を示したが、これに限定されない。例えば、音声検出部9が、蓄積開始指令からNデータフレーム取得時間経過時のタイミングに切替指示をチャネル切替指令発生部15に出力することにより、チャネル切替指令発生部15はその切替指示を受け取ったタイミングにチャネル切替指令を出力すればよいため、タイミング管理をする必要がない。
【0087】
なお、以上図1に示される各構成要素の各機能は、ソフトウェアとしても実現可能である。
【0088】
また、本実施形態は、コンピュータに所定の手順を実行させるための(あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるための)プログラムを記録したコンピュータ読み取り可能な記録媒体として実施することもできる。
【0089】
例えば、図9に例示するように、本発明に係る音源方向推定装置を実現する情報(例えばプログラム)を記録媒体104に記録し、該記録した情報を、該記録媒体104を経由して装置101や装置103に適用したり、通信回線105や106を経由して、装置102や103に適用したりすることも可能である。装置101、102及び103には、上記図1に示される音源方向推定装置20が設けられている。
【0090】
また、例えば、チャンネル切替指令発生部15、チャンネル切替部4、そして音声入力部2あるいは3を設けずに、2個のマイク入力を常時処理することで水平あるいは垂直方位のみを推定可能な装置として実施することも可能である。このようにしても、2軸で音源方向を推定可能という利便性を除く本発明の他の利便性は損なわれない。図10は2つのマイク入力の変形例に係る音源方向推定装置30の機能ブロック図である。図1と共通する構成には同一符号を付し、説明は省略する。図10の例の場合、音声入力部2の電気信号は直接A/D変換部6に出力される。また、音声検出部9はNフレームデータ取得期間経過時を蓄積開始指令を始点として管理し、図1のチャネル切替指令発生部15と同様に、Nフレームデータ取得期間経過時に蓄積停止指令をフレームデータ複写部10及び11に出力するとともに、方向推定指令を方向推定部14に出力する。方向推定部14の構成は図8と共通する。これにより、2つの音声入力の場合も音源方向を推定できる。
【0091】
また、図8は、LPF部22を通過するフレームデータとLPF部22を通過しないフレームデータ各々に基づく類似度計算及び位相差決定処理を行う例を示したが、必ずしもLPF部22を備えた構成に本発明が限定されるものではない。図11は、LPF部22を有さない方向推定部14の構成の一例を示す図である。図8と共通する構成には同一符号を付し、詳細な説明は省略する。図11の場合、データ選択部21で選択されたNフレームデータは類似度計算・ピーク検出部24に出力される。類似度計算・ピーク検出部24は、図8の例と同様にピーク類似度位相差dpを算出し、角度計算部25に出力する。角度計算部25は、得られたピーク類似度位相差dpに基づき音源方向推定結果σを算出する。
【0092】
図2では直線34と直線35が直角に交わる例を示したが、既知の角度であれば直角でなくてもよい。さらには、例えば、図12に示すように、直線34と直線35が一致し、ECM31〜33が一直線34上に互いに離間して配置されていてもよい。このように、一直線上に互いに離間して配置された3つの音声入力部を用いることにより、隣接する2つの入力音声から各々導かれる2つの方位角を同時に満たす音源までの距離を三角測量により一意に求めることができる。この場合、既知の距離算出式に基づき距離を算出する距離算出手段を方向推定部14に代えて配置すればよい。
【0093】
さらに、図2のECMと図12のECMを組合せ、一直線34上に3つのECMが配置され、この直線から所定の距離離間した位置で直線34と交差する直線35上にさらにECMを配置することで、距離と方向を一意に算出することができる。この場合、方向推定部14に距離算出手段を追加すればよい。また、チャネル切替部4に3つの音声入力部からの音声を入力し、これら3つの音声を切り換える。そして、Nフレームデータずつ、連続して3Nフレームデータを取得し、これに基づき距離算出及び方向推定を行うことにより、音源の正確な空間位置を特定できる。
【0094】
【発明の効果】
以上詳述したように本発明によれば、短時間に発生する音声の音源方向を安価に推定することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音源方向推定装置の機能ブロック図。
【図2】同実施形態に係るECMの配置の詳細を示す図。
【図3】同実施形態に係る音源方向推定装置の処理のフローチャートを示す図。
【図4】同実施形態に係る音源方向推定装置の各構成のタイミングチャートを示す図。
【図5】同実施形態に係る方向推定部における方向推定の原理を説明するための図。
【図6】同実施形態に係る位相差dから方位角θを求める原理を説明するための図。
【図7】同実施形態に係る限界周波数の問題を説明するための図。
【図8】同実施形態に係る方向推定部の詳細な機能ブロック図。
【図9】同実施形態に係る音源方向推定装置を記録媒体を用いて実現した例を示す図。
【図10】同実施形態に係る2つのマイク入力の変形例に係る音源方向推定装置の機能ブロック図。
【図11】同実施形態に係るLPF部を有さない方向推定部の構成の一例を示す図。
【図12】同実施形態に係る距離算出のためのECM配置例を示す図。
【図13】2つのマイクによる音声波形の時間差を説明するための図。
【図14】音声を平面波と仮定した場合の距離差と音源方向の関係を説明するための図。
【符号の説明】
1〜3…音声入力部、4…チャネル切替部、5,6…A/D変換部、7,8…フレームバッファ部、9…音声検出部、10,11…フレームデータ複写部、12,13…データバッファ部、14…方向推定部、15…チャネル切替指令発生部、16…表示部、31〜33…ECM
【発明の属する技術分野】
本発明は、音声を入力して有用な情報を抽出する音声処理技術に係り、特に入力音声の音源方向を推定する音源方向推定装置およびその方法に関するに関する。
【0002】
【従来の技術】
音源方向推定装置とは実環境中の音声を電気信号に変換して入力し、その入力信号を処理することによって当該音声の発生方向を計算的に推定する装置を指す。
【0003】
最も一般的な音源方向推定原理は、位相差を利用する方法である。装置は例えば空気などの媒質中の空間的に異なる位置に配置されたN個(N≧2)のマイクMi(i:1≦i≦N)で構成される受音器を備えている。このとき、N個のマイクは所定の位置関係を保つように配置されており、その位置関係は既知である。
【0004】
この位相差に着目した音源方向推定の原理を説明する。
音声が音源Sを発した時刻をTsとすると、この音声はマイクMiと音源Sとの距離Liに応じた時刻Ti=Ts+(Li/C)にマイクMiに到達する。Cは媒質中の音速である。大気中であれば、気温を摂氏t度としたときC=331.4+0.604t(m/s)で近似的に与えることができる。各マイクMiは空間的に異なる位置に配置されている。したがって、音源Sとの距離Liはマイク毎に異なる可能性がある。この距離の相違は同一音声が各マイクMiに到達する時刻Tiの違いとして観測される。ただし、音声が音源Sを発した時刻Tsは特定できないので、図13に例示するように、マイクMiとマイクMjの音声到達時刻の差ΔTij=(Ti−Tj)=(Li−Lj)/Cのみが計測可能である。このΔTijは時間差、位相差、あるいは遅延量と呼ばれる。そして、この式からMiとMjの音源Sからの距離の差ΔLij=Li−Lj=ΔTij・Cが導かれる。
【0005】
音源Sを点音源と仮定したとき、音声は音源Sを中心とする同心球状の粗密波となる。受音器と音源Sの距離が受音器を構成するマイク間の距離より十分大きいとすれば、受音器に到達する音声の波面はほとんど平面状であると考えることができる。マイクMiよりMjの方が音源Sに近い場合の距離差ΔLijと音源方向θの関係を図14に平面波の例で示す。前述した通り、平面波の波面がMjに到達してからMiに到達するまでの時間差ΔTijから距離差ΔLijが導かれる。このとき、マイクMiとMjを結ぶベースラインBの長さをbとするとΔLij=b・cosθが成立し、ベースラインBと半直線Rのなす角θ=cos−1(ΔLij/b)が計算可能である。なお、本明細書では倍角文字はベクトルを表す。
【0006】
このとき、音源の存在範囲はベースラインBを中心として半直線Rを回転させた円錐面上ということになる。通常は音源Sと受音器の高さがそれほど異ならないと仮定して、求められたθを受音器に対する音源Sの水平方位角と見做して利用する。なお、それでも実際の音源方向がベースラインBを挟んでどちら側にあるかという曖昧性が残る。そのため、実用的には3個以上のマイクを用いて、その中の2つから成る組み合わせを複数組使ってこの曖昧性を排除する。
【0007】
3個以上のマイクを使った例は、例えば、文献「能動的に音源を定位し識別する自律移動ロボット」(日本ロボット学会誌,Vol.15,No.2,pp223−229,1997)(以下、非特許文献1)に示される。この非特許文献1記載の発明では、水平に置かれた正三角形の頂点を構成するように配置された3個のマイクM1〜M3を持つ受音器を用いる。そして、入力音声の立ち上がり(オンセット)後、最初に現れるゼロクロッシング(音声波形がゼロと交叉する時刻)を3つの入力音声から各々求めて時間差ΔT12、ΔT13、ΔT32を推定する。そして、これら時間差を用いて音源の水平方位角を一意に求める。
【0008】
水平方位角の推定は、時間差ΔT12、ΔT13、ΔT32を正規化した値の組が、予め1°刻みで理論的に計算された時間差の組のどの方位角のものと最も一致するかを探索することで行われる。探索の結果、2乗誤差が最小となる最も一致した組の角度を音源の水平方位角として出力する。
【0009】
なお、反響があるときに音源からの直接波が最も早くマイクに到達することから、音声の立ち上がり(オンセット)直後のゼロクロッシングを用いて、直接波の位相差を検出することができる。
【0010】
このように、位相差に着目した音源方向推定方法は、音源Sを発した音を複数のマイクMi(i:1≦i≦N)を擁する受音器で捉えたときに、音源とマイクとの位置関係に応じた時間遅れを伴う現象を利用するアプローチであり、各マイクの入力信号波形上の同じ位置を何らかの手段により検出し、その時間差を求めて音源方向を決定する。
【0011】
また、別の音源方向推定手法として、音響インテンシティに着目した手法がある。
音場中のある点において、音波の進行方向に垂直な単位面積を単位時間に通過する音響エネルギーを音響インテンシティと云い、I(t)=P(t)・V(t)で定義する。このとき、P(t)は音圧を表すスカラ量、V(t)は粒子速度を表すベクトル量である。このため、音響インテンシティI(t)もまたベクトル量である。
【0012】
近接して配置される2つのマイクを使う場合、音圧P(t)は各マイクで測定される音圧の平均で与えられ、粒子速度V(t)は各マイクで測定される音圧の差分を用いて近似される。このとき測定される音響インテンシティは、2つのマイクを結ぶ軸線方向の成分となる。したがって、軸線が音源方向を向いたとき最大の粒子速度が観測されて音響インテンシティが最大となる。
【0013】
例えば、特許2656307号公報(以下、特許文献1)に開示される「音源探査装置」では、音声が2つのマイクで構成される受音器の軸線方向から入射するとき音響インテンシティが最大になることを利用して、受音器の向きを様々に変えつつ最も大きな音響インテンシティを示す受音器の向きを音源方向とする方法が示されている。当該特許の実施例によれば、受音器を鉛直軸周りに回転させるので、音源の水平方位角を推定可能である。なお、例示されていないが、受音器を水平と垂直の2軸で振るようにすれば音源の垂直方位角も併せて求めることができる。なお、受音器の向きを変えつつ音源方向を探るには一定の時間が必要であり、その間の音響インテンシティが安定していないと大小比較が意味をなさないことから、この方法で推定可能な音声は探索が完了するまで継続する定常的な音に限られる。
【0014】
また、上記「音源探査装置」では、別の方法としてXYZの直行座標軸上の原点と3軸上にそれぞれマイクを配置し、都合4個のマイクでX軸、Y軸、Z軸方向の音響インテンシティを求めてそれらをベクトル合成し、その合成ベクトルの方向を音源方向とする方法も示されている。受音器を固定したまま行えるこの方法によれば音声が非定常的で短時間であっても音源方向を推定でき、なおかつ4個のマイクを使うことで水平方位角と垂直方位角の2次元で音源方向を求めることができる。
【0015】
このように、音響インテンシティに着目した音源方向推定は、音源Sを発した音を受音器で捉えたときに、音源方向と受音器軸線との角度に応じた成分の音響インテンシティが計測される現象を利用するアプローチであり、1つの軸線を用いる場合には音響インテンシティ最大となる軸線方向を求めることで、複数の軸線を用いる場合にはそのベクトル合成を求めることで音源方向を決定する。
【0016】
以上2つの音源方向推定手法を説明したが、いずれの手法の場合も、短時間に生じる音声の音源方向を推定する場合には、3つ以上のマイクが必要となる。すなわち、音源方向を水平/垂直の2軸で推定しようとする場合には、少なくとも3つ以上のマイク入力を処理する必要がある。
【0017】
しかしながら、最近進歩の著しいパーソナルコンピュータを使ってこの機能を実現しようとすると問題が生じる。標準装備の音声入力デバイスでは、同時取り込み可能なチャンネル数が2つ(ライン入力)しかないため、別にA/D変換器を用意して構成しなければならず、装置が高価になってしまう。2チャンネルの入力で3つ以上のマイク入力を扱えれば装置をより安価に構成できるが、従来技術はこれを解決していない。
【0018】
【特許文献1】
特許2656307号公報
【0019】
【非特許文献1】
王富民・竹内義則・大西昇・杉江昇、「能動的に音源を定位し識別する自律移動ロボット」、日本ロボット学会誌、Vol.15,No.2,pp223−229,1997年
【0020】
【発明が解決しようとする課題】
上述したように、従来の音源方向推定手法では、短時間に発生する音声の音源方向を推定する場合、音源方向を水平/垂直の2軸で推定するために3つ以上のマイク入力を扱う必要があり、一般的なパーソナルコンピュータの標準デバイスではこれを行うことができず、これを可能にするためには装置が高価になってしまう。
【0021】
本発明は上記課題を解決するためになされたもので、その目的とするところは、短時間に発生する音声の音源方向を安価に推定することができる音源方向推定装置およびその方法を提供することである。
【0022】
【課題を解決するための手段】
本発明の一の観点によれば、音源から発せられる音波を電気信号に変換する第1乃至第3の音声入力手段と、前記第2及び第3の音声入力手段の電気信号のいずれか一方を選択する選択手段と、前記第1の音声入力手段の電気信号を第1のデジタルデータに変換する第1のA/D変換手段と、前記選択手段により選択された電気信号を第2のデジタルデータに変換する第2のA/D変換手段と、前記第1のデジタルデータと前記第2の音声入力手段の電気信号に対応する前記第2のデジタルデータに基づき前記音源の第1の方位角を算出し、前記第1のデジタルデータと前記第3の音声入力手段の電気信号に対応する前記第2のデジタルデータに基づき前記音源の第2の方位角を算出する方向推定手段とを具備してなることを特徴とする音源方向推定装置が提供される。
【0023】
また、本発明の別の観点によれば、第1乃至第3の音声入力手段により音源から発せられる音波を電気信号に変換し、前記第2及び第3の音声入力手段の電気信号のいずれか一方を選択手段により選択し、前記第1の音声入力手段の電気信号を第1のデジタルデータに変換し、前記選択手段により選択された電気信号を第2のデジタルデータに変換し、前記第1のデジタルデータと前記第2の音声入力手段の電気信号に対応する第2のデジタルデータに基づき前記音声の入射方向を推定して前記音源の第1の方位角を出力し、前記第1のデジタルデータと前記第3の音声入力手段の電気信号に対応する第2のデジタルデータに基づき前記音声の入射方向を推定して前記音源の第2の方位角を出力することを特徴とする音源方向推定方法が提供される。
【0024】
また、装置または方法に係る本発明は、コンピュータを当該発明に相当する手段として機能させるためのプログラム、このプログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【0025】
【発明の実施の形態】
以下、図面を参照しながら本発明の一実施形態を説明する。
【0026】
図1は本発明の一実施形態に係る音源方向推定装置20の機能ブロック図である。図1に示すように、音源方向推定装置20は、3つの音声入力部1〜3と、チャネル切替部4と、A/D変換部5及び6と、フレームバッファ部7及び8と、音声検出部9と、フレームデータ複写部10及び11と、データバッファ部12及び13と、方向推定部14と、チャンネル切替指令発生部15と、表示部16とからなる。
【0027】
音声入力部1〜3はそれぞれ異なる位置の音声を捉えて電気信号に変換する。
【0028】
A/D変換部5は、音声入力部1からの電気信号をA/D変換してデジタル数値データとしてフレームバッファ部7に出力する。チャネル切替部4は、音声入力部2及び3からの電気信号のいずれかを選択してA/D変換部6に出力する。A/D変換部6は、チャネル切替部4からの電気信号をA/D変換してデジタル数値データとしてフレームバッファ部8に出力する。A/D変換部5及びA/D変換部6は同期して動作するものであり、入力される電気信号の電位をサンプリングしてデジタル数値データとして出力する。
【0029】
フレームバッファ部7とフレームバッファ部8は、A/D変換部5及び6からのデジタル数値データを時系列にm個記憶できる。以下では、各デジタル数値データをサンプル、その時系列的なm個のデジタル数値データの集合をフレームデータと称する。フレームバッファ部7は、m個のデジタル数値データを記憶すると、その記憶したフレームデータを音声検出部9及びフレームデータ複写部10に出力する。フレームバッファ部8は、m個の数値データを記憶すると、その記憶したフレームデータをフレームデータ複写部11に出力する。
【0030】
音声検出部9は、フレームバッファ部7からのフレームデータの音声波形の面積を計算する。この面積が閾値以上であれば音声が入力されたと判定し、蓄積開始指令をチャネル切替指令発生部15に出力する。この蓄積開始指令と同時に、音声検出部9はデータ複写開始指令をフレームデータ複写部10及び11に出力する。
【0031】
また、音声検出部9は、蓄積開始指令の出力から2Nフレーム分のデータ蓄積時間が経過すると、蓄積停止指令をチャネル切替指令発生部15に出力する。この蓄積開始指令と同時に、音声検出部9はデータ複写停止指令をフレームデータ複写部10及び11に出力する。データ蓄積時間の経過は、例えばフレームバッファ部7からフレームデータを2N個受信したか否かで判定される。
【0032】
チャネル切替指令発生部15は、蓄積開始指令を受けると、音声入力部2からの音声を選択するようにチャネル切替指令をチャネル切替部4に出力する。また、チャネル切替指令発生部15は、蓄積停止指令を受けると、音声入力部3からの音声を選択するようにチャネル切替指令をチャネル切替部4に出力する。チャネル切替部4は、音声入力部2及び3のうち、チャネル切替指令で指定された方の電気信号を選択してA/D変換器4に出力する。
【0033】
また、チャネル切替指令発生部15は、方向推定部14に、蓄積開始指令からNフレームのデータ取得時間経過毎に、水平方位推定指令と垂直方位推定指令を交互に出力する。例えば音声入力部2が水平方位を推定するためのものであり、音声入力部3が垂直方位を推定するためのものである場合、蓄積開始指令からNフレームのデータ取得時間経過時に水平方位推定指令を方向推定部14に出力し、2Nフレームのデータ取得時間経過時に垂直方位推定指令を方向推定部14に出力する。
【0034】
フレームデータ複写部10は、フレームバッファ部7からのm個のデジタル数値データを逐次データバッファ部12に複写する。また、フレームデータ複写部11は、フレームバッファ部8からのm個のデジタル数値データを逐次データバッファ部13に複写する。
【0035】
データバッファ部12及び13は、2Nフレームのデータを時系列に記憶できる。データバッファ部12は、蓄積開始指令から音声入力部1に入力されたデジタル数値データを2Nフレーム分記憶する。データバッファ部13は、蓄積開始指令から音声入力部2に入力されたデジタル数値データをNフレーム分、音声入力部3に入力されたデジタル数値データをNフレーム分、計2Nフレーム分記憶する。
【0036】
方向推定部14は、チャネル切替指令発生部15からの水平方向推定指令に基づき、データバッファ部12からの最新Nフレームとデータバッファ部13からの最新Nフレームを用いて水平方向の音源方向の推定を行う。また、方向推定部14は、垂直方向推定指令に基づき、データバッファ部12からのNフレームとデータバッファ部13からのNフレームを用いて垂直方向の音源方向の推定を行う。得られた方向推定結果は表示部16に表示される。
【0037】
音声入力部1〜3は音声を電気信号に変化する手段であり、例えばECMとその信号を増幅するOPアンプにより構成される。音声入力部1〜3のECMをそれぞれ31〜33とした場合のECM31〜33の配置の詳細を図2に示す。図2に示すように、ECM31とECM32は、直線34上に互いに離間して水平方向に配置されている。また、ECM31とECM33は、直線34に略直角に交わる直線35上に互いに離間して垂直方向に配置されている。このように、ECM31〜33はそれぞれL字型の配置をなす。
【0038】
次に、図3のフローチャートを用いて音源方向推定装置20の処理の流れを説明する。また、図4は、音声検出部9、フレームデータ複写部10及び11、方向推定部14及びチャネル切替指令発生部15のタイミングチャートの一例を示す。
【0039】
まず、ステップS1に示されるように、音声入力部1からの電気信号はA/D変換部5に出力され、デジタル数値データに変換される。同様に、音声入力部2又は3のいずれかからの電気信号はチャネル切替部4を介してA/D変換部6に出力され、デジタル数値データに変換される。そして、これらA/D変換部5及び6のデジタル数値データはフレームバッファ部7及び8にそれぞれ蓄積記憶される。この蓄積記憶は、m個のデジタル数値データ、すなわち1フレームについて行われ、ステップS2に進む。
【0040】
ステップS2では、音声検出中であるか否かが判定される。音声検出中であるか否かは、例えば音声検出部9により蓄積開始指令が出力された後蓄積停止指令が出力されるまでの検出タイミングか否かで判定される。検出タイミング内であれば音声検出中と判定してステップS5に進み、検出タイミング外であれば音声検出中でないと判定してステップS3に進む。最初に装置を起動した際には、蓄積開始指令は出力される前であるので検出タイミング外であり、ステップS3に進む。
【0041】
ステップS3では、音声検出部9はそのフレームデータの音声波形の面積を計算し、その面積が閾値以上か否かを判定し、閾値以上であれば音声入力ありと判定し、ステップS4に進む。閾値未満であれば音声入力なしと判定し、ステップS1に戻り、フレームバッファ部7及び8でのフレーム取得が繰り返される。
【0042】
ステップS4では、音声検出部9が蓄積開始指令をチャネル切替指令発生部15に出力する。チャネル切替指令発生部15は、この蓄積開始指令を受けてチャネル切替部4に音声入力部2の音声の選択を指示するチャネル切替指令を出力する。このチャネル切替指令を受け、チャネル切替部4は音声入力部2の音声電気信号をA/D変換部6に通過させる。
【0043】
ステップS5では、ステップS4の蓄積開始指令と同時に、音声検出部9が、フレームデータ複写部10及び11にデータ複写開始指令を出力する。このデータ複写開始指令を受け、フレームデータ複写部10及び11は、フレームバッファ部7及び8に蓄積記憶されたフレームデータをそれぞれデータバッファ部12及び13に複写する。また、ステップS2から分岐した場合も、フレームデータ複写部10及び11は、フレームバッファ部7及び8に蓄積記憶されたフレームデータをそれぞれデータバッファ部12及び13に複写する。
【0044】
ステップS6では、チャネル切替指令発生部15がステップS5のデータ複写がNフレームの複写の終了タイミングか否かを判定する。Nフレームの複写終了タイミングと判定された場合には、ステップS7に進み、そうでない場合にはステップS8に進み、音声検出部9が2Nフレームの複写の終了タイミングか否かを判定する。ステップS8で、2Nフレームの複写終了タイミングと判定された場合には、ステップS9に進み、そうでない場合にはNフレームの複写終了タイミングでも2Nフレームの複写終了タイミングでもないため、ステップS7及びS9のいずれにも進まずにステップS1に戻り、フレームデータの複写が繰り返される。
【0045】
Nフレームの複写終了タイミングのステップS7では、チャネル切替指令発生部15はチャネル切替部4に音声入力部3からの音声の選択を指示するチャネル切替指令を出力する。このチャネル切替指令を受け、チャネル切替部4は音声入力部3の音声電気信号をA/D変換部6に通過させる。また、チャネル切替指令と同時に、チャネル切替指令発生部15は、方向推定部14に水平方位角推定指令を出力する。この水平方位角推定指令を受け、方向推定部14はデータバッファ部12からの音声入力部1についてのNフレームデータとデータバッファ部13からの音声入力部2についてのNフレームデータに基づき水平方位角を算出する。
【0046】
2Nフレームの複写終了タイミングのステップS9では、音声検出部9は蓄積停止指令をチャネル切替指令発生部15に出力する。チャネル切替指令発生部15は、この蓄積停止指令を受けて、チャネル切替指令の出力を停止するとともに、垂直方位角推定指令を方向推定部14に出力する。この垂直方位角推定指令を受け、方向推定部14はデータバッファ部12からの音声入力部1についてのNフレームデータとデータバッファ部13からの音声入力部3についてのNフレームデータに基づき垂直方位角を算出する。また、音声検出部9は、蓄積停止指令とともにフレームデータ複写部10及び11に、データ複写停止指令を出力する。フレームデータ複写部10及び11は、このデータ複写停止指令を受け、フレームデータの複写を停止する。
【0047】
上記ステップS7及びS9で算出された水平方位角と垂直方位角に基づき、方向推定部14は音源の方向を算出し、表示部16に表示する。これにより音源方向の推定処理が終了する。
【0048】
このように、チャネル切替部4でNフレームのデータ取得毎に音声入力部2と3の音声が切り換えられるので、データバッファ部13には音声入力部2の音声と音声入力部3の音声がNフレームずつ連続して交互に記憶され、一方、データバッファ部12には、その間に音声入力部1から入力されるデータが2Nフレーム分記憶される。
【0049】
以上の構成により、A/D変換部5及び6という2チャンネルのA/D変換手段しか持たない装置であっても、3チャンネル中の2チャンネルの音声信号を交互に取り込むことで、水平と垂直の2軸の音源方向を推定することができるようになる。この結果、数万円もする高価なA/D変換ボードを追加することなく、2千円程度のマイクアンプ回路と一般的なパーソナルコンピュータのライン入力のみを用いて同様の機能を実現できる。さらに、チャンネル切替部4も数百円のアナログスイッチICで実現でき、パーソナルコンピュータの備えるパラレルポートを経由して制御可能である。また、略瞬間的に音声入力部2及び3の音声電気信号を取得して方向推定を行うので、略瞬間的に生じる音声であっても正確に音源方向を推定できる。
【0050】
次に、方向推定部14における方向推定の原理を図5を用いて説明する。
方向推定部14は、音源方向を推定するために、音源と音声入力部の距離差ΔLij(i,j:1≦i,j≦N、Nはマイク数)に相当する音声の到達の時間差ΔTijを、2つの入力音声波形の部分間でその類似性を評価することにより推定する。
【0051】
図中、2つのマイクMiとMjで観測される音声にはΔTijの時間差、すなわち位相差が存在する。このとき、観測される音声は所定のサンプリング周期で時間離散的にサンプリングされ、各サンプリング時刻の振幅値は所定のビット長でA/D変換されていると仮定する。このA/D変換されたデジタル数値データを音声波形データと称する。マイクMiで入力された音声波形データをDi、マイクMjで入力されたデータをDjとする。
【0052】
このとき、音声波形データDi上の所定位置にK個のサンプルを覆う固定の窓Wiを設定し、音声波形データDj上にはこの固定位置を中心に±Dmaxサンプルの範囲で時間軸方向に動かすことのできる窓Wj(d)を設定する。ここで、窓とは、時間範囲を表し、窓Wiの幅と窓Wj(d)の幅は等しくKサンプル分を覆うように設定されている。そして、音声波形データDiとDjのうち窓Wiと窓Wj(d)で覆われる部分音声波形データPi及びPj(d)を各々抽出する。窓Wj(d)を±Dmaxの範囲で動かすということは、2つの音声波形データDiとDjの位相差dを±Dmaxの範囲で仮定してみることに他ならない。仮定する位相差dが正しくΔTijであるなら、抽出される部分音声波形データは相互に類似したものになるはずである。
【0053】
Dmaxは、音波がマイク間距離bだけ進行する時間中にA/D変換により数値化されるサンプル数に相当する。音速をC、サンプリングレートをRヘルツとしたとき、Dmax=R・b/Cで与えられる。具体的には、マイク間距離b=20cm、気温20℃(音速C=343.48m/s)、サンプリングレートR=44.1kHzとしたとき、Dmax=44100×0.2÷343.48=25.6となる。
【0054】
部分音声波形データの類似性を評価するために、ここではベクトル間内積値を利用する。すなわち、各窓Wi及びWj(d)で各々覆われるK個のサンプルから成る部分音声波形データPi及びPj(d)は、各サンプルが振幅を表すスカラ量であることからK次元のベクトルと見做すことができる。このとき、各ベクトルPi及びPjをノルム正規化(長さ1に正規化)したベクトルを各々V iとV jとし、類似度Sをノルム正規化ベクトルV iとV jの内積(V i・V j)、すなわち両ベクトルのなす角をθとしたときの余弦(cosθ)として計算する。このとき、類似度Sの値域は{S:−1≦S≦1}であり、S=1となるとき、2つのベクトルV iとV jは完全に一致している。窓Wj(d)を±Dmaxの範囲で動かしつつ得られる部分波形データPj(d)について、上記の要領で類似度S(d)を次々計算すると、位相差dがΔTijに一致したところで類似度S(d)が最大となるはずである。なお、実際に窓Wj(d)を動かす間隔はサンプル数を単位として±Dmaxの範囲に含まれる整数ということになる。例えば、Dmax=25.6であれば、窓Wj(d)はDmaxの小数点以下を切り捨てて±25サンプルの範囲で動かされる。
【0055】
この図5に示す原理を用いた推定手法の作用効果を以下説明する。
【0056】
位相差に着目した音源方向推定方法は、音源Sを発した音を複数のマイクMiを擁する受音器で捉えたときに、音源とマイクとの位置関係に応じた時間遅れを伴う現象を利用する手法である。各マイクの入力信号波形上の同じ位置を何らかの手段により検出し、その時間差を求めて音源方向を決定する。したがって、もし検出された位置が各信号波形上の同じ位置を指していなければ正しい音源方向を推定することができない。
【0057】
例えば従来技術の非特許文献1で説明されたゼロクロッシングによる時間差推定では、マイク校正の必要性の問題が生じる。通常、音声の入力は、(1)マイクで媒質振動を電気信号に変換し、(2)増幅器でこの信号を増幅し、さらに、デジタル処理をするなら、(3)A/D変換器で信号電圧を数値データに変換することになる。このとき、マイクや増幅器のばらつきにより、0V電位が全てのマイク入力チャンネルで揃っているとは限らない。上記例では0V電位の不揃いはゼロクッロッシング位置(入力波形信号が電位0Vと交叉する位置)のずれをもたらし、音源方向推定を誤らせる原因となる。したがって、推定精度を確保するためには事前に全てのチャンネルで0V電位を校正しておかなければならない。0V電位の校正は装置組上げ時に一度行っておけば済みそうだが、何らかの理由でマイクや増幅器を交換した場合には必ず行わなければならず、長い目で見たときこの手間は必ずしも好ましいものではない。
【0058】
また、従来技術の特許文献1に示した音響インテンシティに着目した音源方向推定は、音響インテンシティが計測される現象を利用する手法である。1つの軸線を用いる場合には音響インテンシティ最大となる軸線方向を求めることで、複数の軸線を用いる場合にはそのベクトル合成を求めることで音源方向を決定する。しかしながら、このためには音響インテンシティの各観測値が正しく比較可能あるいは合成可能である、すなわち各計測値のスケールが揃っている必要があり、これが保証されていないときに正しい音源方向を推定することができない。例示した音響インテンシティの比較もしくは合成においても、マイク校正の必要性が生じる。
【0059】
非特許文献1の発明の場合と同様、音声の入力は、(1)マイクで媒質振動を電気信号に変換し、(2)増幅器でこの信号を増幅し、さらに、デジタル処理をするなら、(3)A/D変換器で信号電圧を数値データに変換することになる。このとき、マイク、増幅器、A/D変換器のばらつきにより、計測される音響インテンシティのスケールが全てのマイク入力チャンネルで揃っているとは限らない。上記特許文献1発明の例では、スケールの不揃いは最大値検出時や合成時の誤りをもたらす原因となる。したがって、推定精度を確保するためには事前に全てのチャンネルで0V電位とゲインを校正しておかなければならない。校正は装置組上げ時に一度行っておけば済みそうだが、何らかの理由でマイクや増幅器を交換した場合には再度行う必要があり、長い目で見ればその利便性は必ずしも良くない。
【0060】
このように、非特許文献1や特許文献1記載の手法では、複数のマイク入力の0V電位やゲインを校正しなければ正しく音源方向を推定できないという問題がある。
【0061】
これに対して図5を用いて説明した本実施形態の手法、すなわち位相差推定をノルム正規化ベクトルの内積を評価して解くこの方法は、部分波形の全体、すなわち、波形の比較的広範囲を比較して位相差を求める。したがって、0V電位やゲインの変動に影響されにくく、これらの厳密な校正を必要としない。
【0062】
図6は位相差dから方位角θを求める原理を説明するための図である。
マイクMiの入力から抽出されるK次元正規化ベクトルV iと、マイクMjの入力から抽出されるK次元正規化ベクトルV jの位相差dは±Dmaxの範囲で変化し得る。図6(a)のように、正面から入射する場合、位相差dは0となり、方位角θは正面を基準にした場合0°となる。
【0063】
また、図6(b)のように音声が右真横、すなわちマイクMj方向から入射する場合、位相差dは−Dmaxに等しく、方位角θは正面を基準にして左回りを正として−90°となる。同様に、図6(c)のように音声が左真横、すなわちマイクMi方向から入射する場合、位相差dはDmaxに等しく、方位角θは+90°となる。
【0064】
以上図6(a)〜(c)を踏まえて図6(d)のような一般的な条件を考える。マイクMiの位置をA、マイクMjの位置をBとし、音声が線分PA方向から入射すると仮定すると、△PABは頂点Pが直角となる直角3角形となる。このとき、マイク間中心O、線分OCを受音器正面方向として、OC方向を方位角0°とした左回りを正にとる角度を方位角θと定義する。△QOBは△PABの相似形となるので、方位角θの絶対値は∠OBQ、すなわち∠ABPに等しく、符号は位相差dの符号に一致する。また、∠ABPはPAとABの比のsin−1として計算可能である。このとき、線分PAの長さをこれに相当する位相差dで表すと、線分ABの長さはDmaxに相当する。したがって、符号も含めて、方位角はθ=sin−1(d/Dmax)として計算することができる。
【0065】
次に、図7及び図8を用いて限界周波数の問題を解決する本実施形態の方向推定部14の詳細について説明する。
【0066】
音声の周波数が低ければ、マイク間に複数の波頭が入らないので、位相差が一意に決まる。一方、複数の波頭が入る高い周波数域では、正解から周期Tの自然数倍だけずれて位相差が推定されてしまう可能性が高い。特に、音声が周波数・パワーともに一定の成分を多く含むとき、このような誤推定が発生しやすい。このとき、複数の波頭が入るか否かを分ける周波数を限界周波数といい、音速Cをマイク間距離bで割った値で与える。例えば、マイク間距離b=20cm、気温20℃(音速C=343.48m/s)としたとき、限界周波数は1.7174kHzとなる。
【0067】
図7にLPF(低域通過フィルタ)により限界周波数以上の成分を除去された音声波形データを与えた場合と、LPFを通過させずに限界周波数以上の成分を含む音声波形データを与えた場合の比較を示す。図7(a)に示す入力例は男声による母音「い」の連続音であり、そのパワースペクトルには限界周波数以上の強い成分(2kHz付近、3kHz付近)が含まれている。LPFにより1.7kHz以下の低域成分のみを通過させた波形では位相差dを±Dmaxの範囲で動かしたときの類似度S(d)の推移が図7(b)に示される。横軸は位相、縦軸は類似度である。同図のように単峰性を示し、そのピーク類似度位相差dLは若干ずれを生じているものの、入力方向である正面にほぼ一致している。一方、LPFによる周波数カットを行わなかった波形では、図7(c)に示される。横軸は位相、縦軸は類似度である。同図のように、正解の位相差dA2の他に3つのピークdA1、dA3及びdA4を持つ多峰性を示している。また、正解dA2とピーク類似度位相差dLは若干ずれを生じている。例示した多峰性のグラフでは正解dA2の類似度S(dA2)が最大となっているが、実験によって正解以外のピークが最大となる場合も確認されている。その場合、最大類似度を示す位相差を求めるというロジックでは正解からかけ離れた全く別の方向に音源が推定されてしまう。
【0068】
位相差の推定誤りを低減するために、LPFで単峰化してから類似度のピークを求める方法が考えられるが、低域周波数成分のみによる位相差推定は高域周波数成分を使った位相差推定よりもピーク精度が悪くなる。すなわち、図7に示したように、ピークを示す位相差が正解から1サンプル程度ずれることがあるという別の問題が発生する。高い周波数のピーク精度と低い周波数の単峰性を両立する方法が必要である。限界周波数以上をカットする低域通過が様々な局面で有効であることは広く知られているが、それによって位相差推定時のピーク精度が犠牲になることや、さらに進んで両者の特長を併せ持たせる方法について、非特許文献1や特許文献1などの従来技術には一切言及がない。
【0069】
本実施形態の音源方向推定装置20では上記両立を次のようにして解決する。すなわち、LPF通過時の類似度を閾値処理することによって、位相差の存在エリアを限定する。このエリアは正解の近傍に広がっているはずである。次に、その存在エリア内に入るLPF非通過時の類似度ピークを抽出し、最大類似度を持つピークを推定された位相差として出力する。低域成分で正解の範囲を特定し、高域成分を使ってその範囲から精度の高い解を選択するという手法である。
【0070】
図8は本実施形態の方向推定部14の詳細な機能ブロック構成を示した図である。方向推定部14は、データ選択部21と、LPF部22と、類似度計算・閾値処理部23と、類似度計算・ピーク検出部24と、角度計算部25とからなる。
【0071】
チャンネル切替指令発生部15から供給される水平/垂直方位推定指令の水平と垂直の別に従って、データ選択部21はデータバッファ部12とデータバッファ部13から最初のNフレームデータ(水平時)と次のNフレームデータ(垂直時)のいずれかを選択して読み出す。
【0072】
読み出されたNフレームデータDiとDjはLPF部22及び類似度計算・ピーク算出手段24に出力される。LPF部22は、データバッファ部12と13からの各Nフレームデータの限界周波数以上を除去し、低周波成分のみを含む低周波波形データDLiとDLjに変換して類似度計算・閾値処理部23に出力する。このフィルタリングは、NフレームデータにFFTを施してパワースペクトルを求め、このパワースペクトル上から限界周波数以上の成分を除去した後、再び逆FFTによってNフレームの波形データに戻す処理によって実現される。各窓Wi及びWj(d)で各々覆われるK個のサンプルから成る部分音声波形データPi及びPj(d)は、各サンプルが振幅を表すスカラ量であることからK次元のベクトルと見做すことができる。
【0073】
類似度計算・閾値処理部23は、低周波波形データに基づき位相差の存在エリア情報を抽出する。具体的には、類似度計算・閾値処理部23は、LPF通過後の波形データDLiとDLjに対して図5により示される原理により位相差dを±Dmaxの範囲でずらした窓Wiと窓Wj(d)で各々覆われるDLiとDLjの部分波形PLi及びPLj(d)を抽出し、その抽出された部分波形PLi及びPLj(d)の類似度SL(d)を計算する。そして、得られた類似度SL(d)が所定閾値Sth以上の類似度を持つ位相差dthを全て列挙する。そして、列挙された位相差dthが連続(あるいは孤立)する範囲を位相差の存在エリアとして全て抽出する。類似度SL(d)が単峰性を示すなら、抽出される存在エリアは1つであるが、場合によっては複数抽出されることも許容する。なお、存在エリアを表す情報は、列挙された位相差dthが連続(あるいは孤立)する範囲の両端(最小値と最大値の2つの量)でdth1〜dth2というように記述される。
【0074】
一方、LPF部22に供給されたのと同じNフレームデータDiとDjがLPF部22を通過せずに類似度計算・ピーク検出部24に供給される。類似度計算・ピーク検出部24は、このNフレームデータに基づき正確な類似度ピーク情報を抽出する。
【0075】
具体的には、類似度計算・ピーク検出部24は、NフレームデータDiとDjに対して図5により示される原理により位相差dを±Dmaxの範囲でずらした窓Wiと窓Wj(d)で各々覆われるDiとDjの部分波形Pi及びPj(d)を抽出し、その抽出された部分波形Pi及びPj(d)の類似度SA(d)を計算して類似度のテーブルを作る。そして、SA(d)がテーブル上で隣接する隣の類似度SA(d−1)、SA(d+1)のいずれかより少なくとも大きければ、そのdの位置をピーク類似度位相差dpとして検出する。検出されたピークを表す情報は位相差値そのものであり、ピークとして検出された全ての位相差値dpを列挙したリストが出力される。
【0076】
角度計算部25は、得られた位相差の存在エリアdth1〜dth2に入る類似度ピークdpを全て抽出し、最も高い類似度SA(d)を獲得した最大ピーク類似度位相差dp1を選んで方位角θを計算する。このとき、水平/垂直方位推定指令の水平と垂直の別に従って、得られた最大ピーク類似度位相差dp1に水平方位か垂直方位かの別を示すフラグ情報を付加して位相差推定結果dph、dpvとする。最後に、水平位相差推定結果dphと垂直位相差推定結果dpvに基づき音源の水平方位θhと垂直方位θvを算出する。θhとθvは、dph及びdpvと、θh及びθvとが対応付けられたデータテーブルから、該当するdph、dpvに対応するθhとθvを抽出することにより得てもよいし、既知の計算式に基づき算出してもよい。得られた方向θhとθvをdphやdpvとともに音源方向推定結果σとして表示部16に出力して表示させる。
【0077】
なお、複数の音源が存在するときには、上記角度計算部25による計算手法を変えることにより対応可能である。
【0078】
複数の音源が存在するとき、あるいは、音源が1つであっても受音器のごく近傍に壁があり、該壁面からの強い反射があるとき、上記最大類似度を得たピークdpを1つ抽出する方位角推定方式では、応用上重要でない方の音源方向が得られたり、壁面反射の方向が得られたりして、必要な音源方向を得ることができない場合がある。特に、壁面反射では、直接波と反射波により類似度が2つのピークdp1、dp2を示し、反射波のピークが直接波のピークより大きくなる逆転時に誤推定が発生する。実験によれば、受音器と壁が近いとき、この逆転が50%程度の頻度で観測される。この場合、2つのピークdp1、dp2は同程度の大きさを示すことになるが、その方向は大きく異なる。
【0079】
例えば従来技術に記載の非特許文献1発明の場合、以下の問題が生じる。
非特許文献1発明のようにゼロクロッシングを用いるとき、最も問題となるのは信号にノイズが混入しているときである。既述のようにゼロクロッシング位置は信号波形が0V電位と交叉する位置であるから、入力信号波形に対象音声以外の環境雑音や電気的ノイズが含まれていると、一方の信号ではゼロクロッシングになっている箇所が、他方ではゼロクロッシングになっていなかったり、対象音声のゼロクロッシング位置が検出されずに、ノイズのゼロクロッシング位置が検出されてしまったりする可能性がある。ノイズの原因は回路上で発生するノイズと受音器が拾う環境雑音の2種類がある。前者は回路の設計や調整により回避できるが、後者は環境に依存するので解決できない。
【0080】
また、従来技術に記載の特許文献1発明の場合でも、入力信号波形に対象音声以外の環境雑音が含まれていると、音響インテンシティの最大値が現れる方向や合成ベクトルの向きが正しくなくなる可能性がある。
【0081】
このように、対象音声以外の音声(環境雑音)が存在する条件下では、正しい音源方向を出力できない危険性が高いという問題点があった。
【0082】
そこで、本変形例では最大ピーク類似度位相差dp1に加えて、該最大ピーク類似度値SA(dp1)に対して所定割合(例えば80%)以上の大きさの類似度SA(d)を持つ全てのピーク類似度位相差dpi(dp1を含む)を推定された位相差として出力するように角度計算部25を強化する。なお、強化された角度計算部25は、上述のようにして得られた複数のピーク類似度位相差dpiに対する水平位相差と垂直位相差の全ての組み合わせに基づく複数の水平方位角θhと垂直方位角θvを算出する。
【0083】
この結果、複数音源存在時や壁面反射存在時であっても、少なくとも必要な音源方向の情報が出力に含まれるようになり、従来技術の非特許文献1や特許文献1の発明の問題点を解決することができる。すなわち、出力される方位角に複数の候補を許すことで、複数音源や壁面反射という悪条件下でも、必要な方位角が出力される利便性の向上した音源方向推定装置を提供可能である。
【0084】
本実施形態に係る音源方向推定装置およびその方法は、例示した実施形態に限定されず、以下に示すように、その趣旨を逸脱しない限り様々に変形して実施することが可能である。
【0085】
また、図1の音声検出部9は、フレームバッファ部7からのフレームデータに基づき音声検出処理を行う例を示したが、フレームバッファ部8からのフレームデータに基づいて音声検出処理を行ってもよいし、フレームバッファ部7及び8双方のデータに基づいて音声検出処理を行ってもよい。
【0086】
また、図1の例では、蓄積開始指令から2Nデータフレーム取得時間経過時のタイミング管理は音声検出部9が、蓄積開始指令からNデータフレーム取得時間経過時のタイミング管理はチャネル切替指令発生部15が管理する例を示したが、これに限定されない。例えば、音声検出部9が、蓄積開始指令からNデータフレーム取得時間経過時のタイミングに切替指示をチャネル切替指令発生部15に出力することにより、チャネル切替指令発生部15はその切替指示を受け取ったタイミングにチャネル切替指令を出力すればよいため、タイミング管理をする必要がない。
【0087】
なお、以上図1に示される各構成要素の各機能は、ソフトウェアとしても実現可能である。
【0088】
また、本実施形態は、コンピュータに所定の手順を実行させるための(あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるための)プログラムを記録したコンピュータ読み取り可能な記録媒体として実施することもできる。
【0089】
例えば、図9に例示するように、本発明に係る音源方向推定装置を実現する情報(例えばプログラム)を記録媒体104に記録し、該記録した情報を、該記録媒体104を経由して装置101や装置103に適用したり、通信回線105や106を経由して、装置102や103に適用したりすることも可能である。装置101、102及び103には、上記図1に示される音源方向推定装置20が設けられている。
【0090】
また、例えば、チャンネル切替指令発生部15、チャンネル切替部4、そして音声入力部2あるいは3を設けずに、2個のマイク入力を常時処理することで水平あるいは垂直方位のみを推定可能な装置として実施することも可能である。このようにしても、2軸で音源方向を推定可能という利便性を除く本発明の他の利便性は損なわれない。図10は2つのマイク入力の変形例に係る音源方向推定装置30の機能ブロック図である。図1と共通する構成には同一符号を付し、説明は省略する。図10の例の場合、音声入力部2の電気信号は直接A/D変換部6に出力される。また、音声検出部9はNフレームデータ取得期間経過時を蓄積開始指令を始点として管理し、図1のチャネル切替指令発生部15と同様に、Nフレームデータ取得期間経過時に蓄積停止指令をフレームデータ複写部10及び11に出力するとともに、方向推定指令を方向推定部14に出力する。方向推定部14の構成は図8と共通する。これにより、2つの音声入力の場合も音源方向を推定できる。
【0091】
また、図8は、LPF部22を通過するフレームデータとLPF部22を通過しないフレームデータ各々に基づく類似度計算及び位相差決定処理を行う例を示したが、必ずしもLPF部22を備えた構成に本発明が限定されるものではない。図11は、LPF部22を有さない方向推定部14の構成の一例を示す図である。図8と共通する構成には同一符号を付し、詳細な説明は省略する。図11の場合、データ選択部21で選択されたNフレームデータは類似度計算・ピーク検出部24に出力される。類似度計算・ピーク検出部24は、図8の例と同様にピーク類似度位相差dpを算出し、角度計算部25に出力する。角度計算部25は、得られたピーク類似度位相差dpに基づき音源方向推定結果σを算出する。
【0092】
図2では直線34と直線35が直角に交わる例を示したが、既知の角度であれば直角でなくてもよい。さらには、例えば、図12に示すように、直線34と直線35が一致し、ECM31〜33が一直線34上に互いに離間して配置されていてもよい。このように、一直線上に互いに離間して配置された3つの音声入力部を用いることにより、隣接する2つの入力音声から各々導かれる2つの方位角を同時に満たす音源までの距離を三角測量により一意に求めることができる。この場合、既知の距離算出式に基づき距離を算出する距離算出手段を方向推定部14に代えて配置すればよい。
【0093】
さらに、図2のECMと図12のECMを組合せ、一直線34上に3つのECMが配置され、この直線から所定の距離離間した位置で直線34と交差する直線35上にさらにECMを配置することで、距離と方向を一意に算出することができる。この場合、方向推定部14に距離算出手段を追加すればよい。また、チャネル切替部4に3つの音声入力部からの音声を入力し、これら3つの音声を切り換える。そして、Nフレームデータずつ、連続して3Nフレームデータを取得し、これに基づき距離算出及び方向推定を行うことにより、音源の正確な空間位置を特定できる。
【0094】
【発明の効果】
以上詳述したように本発明によれば、短時間に発生する音声の音源方向を安価に推定することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音源方向推定装置の機能ブロック図。
【図2】同実施形態に係るECMの配置の詳細を示す図。
【図3】同実施形態に係る音源方向推定装置の処理のフローチャートを示す図。
【図4】同実施形態に係る音源方向推定装置の各構成のタイミングチャートを示す図。
【図5】同実施形態に係る方向推定部における方向推定の原理を説明するための図。
【図6】同実施形態に係る位相差dから方位角θを求める原理を説明するための図。
【図7】同実施形態に係る限界周波数の問題を説明するための図。
【図8】同実施形態に係る方向推定部の詳細な機能ブロック図。
【図9】同実施形態に係る音源方向推定装置を記録媒体を用いて実現した例を示す図。
【図10】同実施形態に係る2つのマイク入力の変形例に係る音源方向推定装置の機能ブロック図。
【図11】同実施形態に係るLPF部を有さない方向推定部の構成の一例を示す図。
【図12】同実施形態に係る距離算出のためのECM配置例を示す図。
【図13】2つのマイクによる音声波形の時間差を説明するための図。
【図14】音声を平面波と仮定した場合の距離差と音源方向の関係を説明するための図。
【符号の説明】
1〜3…音声入力部、4…チャネル切替部、5,6…A/D変換部、7,8…フレームバッファ部、9…音声検出部、10,11…フレームデータ複写部、12,13…データバッファ部、14…方向推定部、15…チャネル切替指令発生部、16…表示部、31〜33…ECM
Claims (11)
- 音源から発せられる音波を電気信号に変換する第1乃至第3の音声入力手段と、
前記第2及び第3の音声入力手段の電気信号のいずれか一方を選択する選択手段と、
前記第1の音声入力手段の電気信号を第1のデジタルデータに変換する第1のA/D変換手段と、
前記選択手段により選択された電気信号を第2のデジタルデータに変換する第2のA/D変換手段と、
前記第1のデジタルデータと前記第2の音声入力手段の電気信号に対応する前記第2のデジタルデータに基づき前記音源の第1の方位角を算出し、前記第1のデジタルデータと前記第3の音声入力手段の電気信号に対応する前記第2のデジタルデータに基づき前記音源の第2の方位角を算出する方向推定手段と
を具備してなることを特徴とする音源方向推定装置。 - さらに、前記第1のデジタルデータを解析して音声の入力を検出する音声検出手段と、
前記音声検出手段が、音声の入力を検出した場合に、前記第2の音声入力手段の電気信号を選択する第1のチャネル選択指令を前記選択手段に出力し、前記第1のチャネル選択指令の出力の後に、前記第3の音声入力手段の電気信号を選択する第2のチャネル選択指令を前記選択手段に出力するチャネル切替指令発生手段と
を具備してなることを特徴とする請求項1に記載の音源方向推定装置。 - 前記第1の音声入力手段と前記第2の音声入力手段は第1の線上に互いに離間して配置され、前記第1の音声入力手段と前記第3の音声入力手段は第1の線とは異なる第2の線上に互いに離間して配置されてなることを特徴とする請求項1に記載の音源方向推定装置。
- 前記方向推定手段は、前記第1のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第1の部分波形と、前記第1の部分波形と位相差を有し、前記第2のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第2の部分波形との類似度を、複数の位相差について算出する類似度算出手段と、
前記複数の位相差について算出された類似度が最大となる最大類似度位相差を検出し、前記最大類似度位相差に応じた角度を前記第1の方位角又は前記第2の方位角として算出する角度計算手段を有することを特徴とする請求項1に記載の音源方向推定装置。 - 前記方向推定手段は、前記第1のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第1の部分波形と、前記第1の部分波形と位相差を有し、前記第2のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第2の部分波形との類似度を、複数の位相差について算出する類似度算出手段と、
前記複数の位相差について算出された類似度が閾値以上のピーク値となるピーク類似度位相差を検出し、前記ピーク類似度位相差に応じた角度を前記第1の方位角又は前記第2の方位角として算出する角度計算手段を有することを特徴とする請求項1に記載の音源方向推定装置。 - 前記方向推定手段は、前記第1のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第1の部分波形と、前記第1の部分波形と第1の位相差を有し、前記第2のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第2の部分波形との第1の類似度を、複数の第1の位相差について算出する第1の類似度算出手段と、
前記第1のデジタルデータで表される音声波形の高周波数成分を除去する第1の周波数成分除去手段と、
前記第2のデジタルデータで表される音声波形の高周波数成分を除去する第2の周波数成分除去手段と、
第1の周波数成分除去手段の出力波形のうちの一部の時間範囲の波形を抽出した第3の部分波形と、前記第3の部分波形と第2の位相差を有し、第2の周波数成分除去手段の出力波形のうちの一部の時間範囲の波形を抽出した第4の部分波形との第2の類似度を、複数の第2の位相差について算出する第2の類似度算出手段と、
前記第1の類似度が閾値以上のピーク値となるピーク類似度位相差を検出し、該ピーク類似度位相差のうち、前記第2の類似度が閾値以上となる位相差に応じた角度を前記第1の方位角又は前記第2の方位角として算出する角度計算手段を有することを特徴とする請求項1に記載の音源方向推定装置。 - 音源から発せられる音波を電気信号に変換する第1及び第2の音声入力手段と、
前記第1の音声入力手段の電気信号を第1のデジタルデータに変換する第1のA/D変換手段と、
前記第2の音声入力手段の電気信号を第2のデジタルデータに変換する第2のA/D変換手段と、
前記第1のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第1の部分波形と、前記第1の部分波形と位相差を有し、前記第2のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第2の部分波形との類似度を、複数の位相差について算出する類似度算出手段と、
前記複数の位相差について算出された類似度が最大となる最大類似度位相差を検出し、前記最大類似度位相差に応じた角度を前記音源の方位角として算出する角度計算手段を有することを特徴とする音源方向推定装置。 - 音源から発せられる音波を電気信号に変換する第1及び第2の音声入力手段と、
前記第1の音声入力手段の電気信号を第1のデジタルデータに変換する第1のA/D変換手段と、
前記第2の音声入力手段の電気信号を第2のデジタルデータに変換する第2のA/D変換手段と、
前記第1のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第1の部分波形と、前記第1の部分波形と位相差を有し、前記第2のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第2の部分波形との類似度を、複数の位相差について算出する類似度算出手段と、
前記複数の位相差について算出された類似度が閾値以上のピーク値となるピーク類似度位相差を検出し、前記ピーク類似度位相差に応じた角度を前記音源の方位角として算出する角度計算手段を有することを特徴とする音源方向推定装置。 - 音源から発せられる音波を電気信号に変換する第1及び第2の音声入力手段と、
前記第1の音声入力手段の電気信号を第1のデジタルデータに変換する第1のA/D変換手段と、
前記第2の音声入力手段の電気信号を第2のデジタルデータに変換する第2のA/D変換手段と、
前記第1のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第1の部分波形と、前記第1の部分波形と第1の位相差を有し、前記第2のデジタルデータで表される音声波形のうちの一部の時間範囲の波形を抽出した第2の部分波形との第1の類似度を、複数の第1の位相差について算出する第1の類似度算出手段と、
前記第1のデジタルデータで表される音声波形の高周波数成分を除去する第1の周波数成分除去手段と、
前記第2のデジタルデータで表される音声波形の高周波数成分を除去する第2の周波数成分除去手段と、
第1の周波数成分除去手段の出力波形のうちの一部の時間範囲の波形を抽出した第3の部分波形と、前記第3の部分波形と第2の位相差を有し、第2の周波数成分除去手段の出力波形のうちの一部の時間範囲の波形を抽出した第4の部分波形との第2の類似度を、複数の第2の位相差について算出する第2の類似度算出手段と、
前記第1の類似度が閾値以上のピーク値となるピーク類似度位相差を検出し、該ピーク類似度位相差のうち、前記第2の類似度が閾値以上となる位相差に応じた角度を前記音源の方位角として算出する角度計算手段を有することを特徴とする音源方向推定装置。 - 前記類似度は、前記第1の部分波形をベクトル化した第1ベクトルと前記第2の部分波形をベクトル化した第2ベクトルとの内積に基づき算出されることを特徴とする請求項7乃至9のいずれか1項に記載の音源方向推定装置。
- 第1乃至第3の音声入力手段により音源から発せられる音波を電気信号に変換し、
前記第2及び第3の音声入力手段の電気信号のいずれか一方を選択手段により選択し、
前記第1の音声入力手段の電気信号を第1のデジタルデータに変換し、
前記選択手段により選択された電気信号を第2のデジタルデータに変換し、
前記第1のデジタルデータと前記第2の音声入力手段の電気信号に対応する第2のデジタルデータに基づき前記音声の入射方向を推定して前記音源の第1の方位角を出力し、
前記第1のデジタルデータと前記第3の音声入力手段の電気信号に対応する第2のデジタルデータに基づき前記音声の入射方向を推定して前記音源の第2の方位角を出力する
ことを特徴とする音源方向推定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003204346A JP2005049153A (ja) | 2003-07-31 | 2003-07-31 | 音声方向推定装置及びその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003204346A JP2005049153A (ja) | 2003-07-31 | 2003-07-31 | 音声方向推定装置及びその方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005049153A true JP2005049153A (ja) | 2005-02-24 |
Family
ID=34263382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003204346A Pending JP2005049153A (ja) | 2003-07-31 | 2003-07-31 | 音声方向推定装置及びその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005049153A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006304124A (ja) * | 2005-04-25 | 2006-11-02 | V-Cube Inc | 音源方向確定装置および音源方向確定方法 |
JP2008185834A (ja) * | 2007-01-30 | 2008-08-14 | Fujitsu Ltd | 音響判定方法、音響判定装置及びコンピュータプログラム |
EP2133707A2 (en) | 2008-06-11 | 2009-12-16 | Sony Corporation | Signal processing apparatus, signal processing method, and program |
US7680667B2 (en) | 2004-12-24 | 2010-03-16 | Kabuhsiki Kaisha Toshiba | Interactive robot, speech recognition method and computer program product |
EP2237272A2 (en) | 2009-03-30 | 2010-10-06 | Sony Corporation | Signal processing apparatus, signal processing method, and program |
JP2011008263A (ja) * | 2009-06-26 | 2011-01-13 | Intel Corp | 環境オーディオ分析を使用した音楽プレイヤの制御 |
WO2016013286A1 (ja) * | 2014-07-25 | 2016-01-28 | シャープ株式会社 | 位相差算出装置、音源方向検知装置、および位相差算出方法 |
JP2017138343A (ja) * | 2016-02-01 | 2017-08-10 | カシオ計算機株式会社 | 感情推定装置、感情推定方法及びプログラム |
JP2018136170A (ja) * | 2017-02-21 | 2018-08-30 | オンフューチャー株式会社 | 音源の検出方法及びその検出装置 |
CN112105129A (zh) * | 2020-04-09 | 2020-12-18 | 苏州触达信息技术有限公司 | 一种智能灯、智能发光方法和计算机可读存储介质 |
CN115825853A (zh) * | 2023-02-14 | 2023-03-21 | 深圳时识科技有限公司 | 声源定向方法及其装置、声源分离及跟踪方法和芯片 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6446672A (en) * | 1987-08-17 | 1989-02-21 | Nippon Avionics Co Ltd | Searching and displaying device for sound source position |
JPH04215744A (ja) * | 1990-02-09 | 1992-08-06 | Philips Gloeilampenfab:Nv | 速度測定装置 |
JPH0792988A (ja) * | 1993-09-27 | 1995-04-07 | Matsushita Electric Ind Co Ltd | 音声検出装置と映像切り替え装置 |
JPH11142499A (ja) * | 1997-11-05 | 1999-05-28 | Nec Corp | 音源方向推定方法及びその装置 |
JPH11248824A (ja) * | 1998-03-03 | 1999-09-17 | Nec Radio Equipment Eng Ltd | 音響情報記録装置 |
JPH11326481A (ja) * | 1998-05-20 | 1999-11-26 | Oki Electric Ind Co Ltd | パルス音の到来時間差推定方法及びその装置 |
JP2001236092A (ja) * | 2000-02-23 | 2001-08-31 | Nec Corp | 話者方向検出回路及びそれに用いる話者方向検出方法 |
JP2002315089A (ja) * | 2001-04-19 | 2002-10-25 | Nec Eng Ltd | 話者方向検出回路 |
JP2003521692A (ja) * | 2000-01-26 | 2003-07-15 | インストロ プレシジョン リミテッド | 光学距離測定 |
JP2004536286A (ja) * | 2001-04-03 | 2004-12-02 | エイエイアイコーポレーション | 発射体弾道決定における曲率補正方法およびシステム |
-
2003
- 2003-07-31 JP JP2003204346A patent/JP2005049153A/ja active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6446672A (en) * | 1987-08-17 | 1989-02-21 | Nippon Avionics Co Ltd | Searching and displaying device for sound source position |
JPH04215744A (ja) * | 1990-02-09 | 1992-08-06 | Philips Gloeilampenfab:Nv | 速度測定装置 |
JPH0792988A (ja) * | 1993-09-27 | 1995-04-07 | Matsushita Electric Ind Co Ltd | 音声検出装置と映像切り替え装置 |
JPH11142499A (ja) * | 1997-11-05 | 1999-05-28 | Nec Corp | 音源方向推定方法及びその装置 |
JPH11248824A (ja) * | 1998-03-03 | 1999-09-17 | Nec Radio Equipment Eng Ltd | 音響情報記録装置 |
JPH11326481A (ja) * | 1998-05-20 | 1999-11-26 | Oki Electric Ind Co Ltd | パルス音の到来時間差推定方法及びその装置 |
JP2003521692A (ja) * | 2000-01-26 | 2003-07-15 | インストロ プレシジョン リミテッド | 光学距離測定 |
JP2001236092A (ja) * | 2000-02-23 | 2001-08-31 | Nec Corp | 話者方向検出回路及びそれに用いる話者方向検出方法 |
JP2004536286A (ja) * | 2001-04-03 | 2004-12-02 | エイエイアイコーポレーション | 発射体弾道決定における曲率補正方法およびシステム |
JP2002315089A (ja) * | 2001-04-19 | 2002-10-25 | Nec Eng Ltd | 話者方向検出回路 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7680667B2 (en) | 2004-12-24 | 2010-03-16 | Kabuhsiki Kaisha Toshiba | Interactive robot, speech recognition method and computer program product |
JP2006304124A (ja) * | 2005-04-25 | 2006-11-02 | V-Cube Inc | 音源方向確定装置および音源方向確定方法 |
JP2008185834A (ja) * | 2007-01-30 | 2008-08-14 | Fujitsu Ltd | 音響判定方法、音響判定装置及びコンピュータプログラム |
US9082415B2 (en) | 2007-01-30 | 2015-07-14 | Fujitsu Limited | Sound determination method and sound determination apparatus |
EP2133707A2 (en) | 2008-06-11 | 2009-12-16 | Sony Corporation | Signal processing apparatus, signal processing method, and program |
US8358563B2 (en) | 2008-06-11 | 2013-01-22 | Sony Corporation | Signal processing apparatus, signal processing method, and program |
EP2237272A2 (en) | 2009-03-30 | 2010-10-06 | Sony Corporation | Signal processing apparatus, signal processing method, and program |
US8577054B2 (en) | 2009-03-30 | 2013-11-05 | Sony Corporation | Signal processing apparatus, signal processing method, and program |
US8983640B2 (en) | 2009-06-26 | 2015-03-17 | Intel Corporation | Controlling audio players using environmental audio analysis |
JP2011008263A (ja) * | 2009-06-26 | 2011-01-13 | Intel Corp | 環境オーディオ分析を使用した音楽プレイヤの制御 |
US9542150B2 (en) | 2009-06-26 | 2017-01-10 | Intel Corporation | Controlling audio players using environmental audio analysis |
WO2016013286A1 (ja) * | 2014-07-25 | 2016-01-28 | シャープ株式会社 | 位相差算出装置、音源方向検知装置、および位相差算出方法 |
JP2016031243A (ja) * | 2014-07-25 | 2016-03-07 | シャープ株式会社 | 位相差算出装置、音源方向検知装置、および位相差算出方法 |
JP2017138343A (ja) * | 2016-02-01 | 2017-08-10 | カシオ計算機株式会社 | 感情推定装置、感情推定方法及びプログラム |
JP2018136170A (ja) * | 2017-02-21 | 2018-08-30 | オンフューチャー株式会社 | 音源の検出方法及びその検出装置 |
CN112105129A (zh) * | 2020-04-09 | 2020-12-18 | 苏州触达信息技术有限公司 | 一种智能灯、智能发光方法和计算机可读存储介质 |
CN112105129B (zh) * | 2020-04-09 | 2023-11-17 | 苏州触达信息技术有限公司 | 一种智能灯、智能发光方法和计算机可读存储介质 |
CN115825853A (zh) * | 2023-02-14 | 2023-03-21 | 深圳时识科技有限公司 | 声源定向方法及其装置、声源分离及跟踪方法和芯片 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6289936B2 (ja) | 音源方向推定装置、音源方向推定方法およびプログラム | |
Silverman et al. | Performance of real-time source-location estimators for a large-aperture microphone array | |
Nunes et al. | A steered-response power algorithm employing hierarchical search for acoustic source localization using microphone arrays | |
US20120162259A1 (en) | Sound information display device, sound information display method, and program | |
JP6467736B2 (ja) | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム | |
JP6591477B2 (ja) | 信号処理システム、信号処理方法及び信号処理プログラム | |
JP2005049153A (ja) | 音声方向推定装置及びその方法 | |
JP2006194700A (ja) | 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム | |
Traa et al. | Multichannel source separation and tracking with RANSAC and directional statistics | |
JP2008236077A (ja) | 目的音抽出装置,目的音抽出プログラム | |
JP6203714B2 (ja) | 位相スペクトルを使った音源定位 | |
Seewald et al. | Combining srp-phat and two kinects for 3d sound source localization | |
CN107396244B (zh) | 一种基于麦克风阵列的声源定位系统及方法 | |
JP2010175431A (ja) | 音源方向推定装置とその方法と、プログラム | |
Liu et al. | Acoustic positioning using multiple microphone arrays | |
Cho et al. | Sound source localization for robot auditory systems | |
JP2006304124A (ja) | 音源方向確定装置および音源方向確定方法 | |
Padois et al. | On the use of geometric and harmonic means with the generalized cross-correlation in the time domain to improve noise source maps | |
Scheuing et al. | Disambiguation of TDOA estimates in multi-path multi-source environments (DATEMM) | |
Ong et al. | Audio-visual based online multi-source separation | |
JP2017067948A (ja) | 音声処理装置および音声処理方法 | |
Al-Sheikh et al. | Sound source direction estimation in horizontal plane using microphone array | |
Le et al. | Robust TDOA-based joint source and microphone localization in a reverberant environment using medians of acceptable recovered TOAs | |
Ding et al. | DOA estimation of multiple speech sources by selecting reliable local sound intensity estimates | |
Su et al. | Acoustic imaging using a 64-node microphone array and beamformer system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060613 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061107 |