JP2014056181A - 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム - Google Patents
音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム Download PDFInfo
- Publication number
- JP2014056181A JP2014056181A JP2012201874A JP2012201874A JP2014056181A JP 2014056181 A JP2014056181 A JP 2014056181A JP 2012201874 A JP2012201874 A JP 2012201874A JP 2012201874 A JP2012201874 A JP 2012201874A JP 2014056181 A JP2014056181 A JP 2014056181A
- Authority
- JP
- Japan
- Prior art keywords
- correlation matrix
- sound source
- unit
- sound
- source direction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/02—Systems using the reflection of electromagnetic waves other than radio waves
- G01S17/06—Systems determining position data of a target
- G01S17/08—Systems determining position data of a target for measuring distance only
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/86—Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
- G01S3/8083—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
【解決手段】第1相関行列算出部は入力された複数の音響信号の相関行列を算出し、第2相関行列算出部は複数の音響信号に基づく雑音信号の相関行列を算出し、音源定位部は第1相関行列算出部が算出した相関行列と、第2相関行列算出部が算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて、複数のチャネルの音響信号に係る音源の方向を推定する。
【選択図】図2
Description
収録される音響信号には、人間が発した音声、音楽等の目的音に、空調装置等の機器等の動作音や風切音等の雑音が重畳されている。この雑音は、目的音の音源方向の推定精度を低下させる原因になる。そこで、音源方向推定において雑音による影響を低減することが提案されている。
また、特許文献2には、入力された音響信号の音響特徴量に基づき音源の種類を同定し、同定した種類の音響信号の相関行列を求め、求めた固有ベクトルを用いて音源方向を推定する音源方向推定装置が記載されている。特許文献1や特許文献2に記載の音源方向推定装置では、いずれも雑音の相関行列や音源の種類毎の音響特徴量を予め取得しておく必要がある。
本発明の態様(2)によれば、第1相関行列算出部が相関行列を算出する音響信号の時間帯(区間)と第2相関行列算出部が相関行列を算出する雑音信号の時間帯(区間)が異なる。そのため、第1相関行列算出部が算出する相関行列と第2相関行列算出部が算出する相関行列との独立性が確保される。そのため、より確実に目的音の方向を推定することができる。
本発明の態様(3)によれば、雑音信号よりも特性の変化が著しい目的音に追従できるため、目的音の方向の変化により適応できる。
本発明の態様(4)によれば、第1相関行列算出部は目的音信号に基づいて相関行列を算出し、第2相関行列算出部は目的音以外の成分である雑音成分を示す雑音信号に基づいて相関行列を算出するため、相関行列を算出するための各信号の区間の自由度が向上する。
そのため、処理に係る遅延をより低減することができる。
本発明の態様(5)によれば、第1相関行列算出部が算出した相関行列に、前記第2相関行列算出部が算出した相関行列の逆行列を乗算して得られた行列は、入力された音響信号に係る相関行列から雑音成分による寄与が除去された行列である。この行列について算出された固有ベクトルに基づいて算出した空間スペクトルも、雑音成分の影響が除去されるため、目的音である音源の方向を精度よく推定することができる。
本発明の態様(6)によれば、空間スペクトルが周波数間で平均化されるため、全周波数を代表する音源の方向を推定することができる。
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音響処理システム1の構成を示す概略図である。
音響処理システム1は、収音部11、音響信号受信部12、音源方向推定部13、距離検出部14、距離情報受信部15、位置推定部16、座標変換部17、及び音源方向出力部18を含んで構成される。音響信号受信部12と距離情報受信部15は、一体化して構成されていてもよいし、それぞれ別個に構成されていてもよい。
音響信号受信部12は、収音部11からMチャネルの音響信号を受信し、受信したMチャネルの音響信号を音源方向推定部13に出力する。
本実施形態では、音源方向推定部13は、収音部11等、その他の構成部とは独立した音源方向推定装置として構成されていてもよいし、その他の構成部の全部又は一部と一体化した音源方向推定装置として構成されていてもよい。音源方向推定部13の構成については、後述する。
距離検出部14は、収音部11までの距離を検出することができれば、赤外線センサの代わりに、レーザ距離計(レーザレンジファインダ、LRF:Laser Range Finder)等、他の検出手段を備えてもよい。
なお、距離検出部14の位置は、固定されていてもよい。距離検出部14は、距離情報を距離情報受信部15に送信することができれば、無線で送信してもよいし、有線で送信してもよい。
距離情報受信部15は、距離検出部14から受信した距離情報を位置推定部16に出力する。
なお、座標変換部17は、操作入力等、外部から受け付けた設定情報に基づいて音源の方向を変換するか否かを切り替えることができるようにしてもよい。距離検出部14の位置が基準となるように音源の方向を変換しない場合には、座標変換部17は、音源方向推定部13から入力された音源方向情報をそのまま音源方向出力部18に出力する。
なお、距離検出部14の位置が基準となるように音源の方向を変換しない場合には、音響処理システム1は、距離検出部14、距離情報受信部15、位置推定部16、及び座標変換部17を省略してもよい。その場合、音源方向出力部18には、音源方向推定部13から音源方向情報が入力される。
次に、本実施形態に係る音源方向推定部13の構成について説明する。
図2は、本実施形態に係る音源方向推定部13の構成を示す概略図である。
音源方向推定部13は、周波数分析部131、第1相関行列算出部132、第2相関行列算出部133、固有ベクトル算出部134、空間スペクトル算出部135、音源定位部136、及び音源分離部137を含んで構成される。
第1相関行列算出部132は、例えば、式(1)を用いて相関行列R(ω,f)を算出する。
第1相関行列算出部132は、算出した相関行列R(ω,f)を固有ベクトル算出部134に出力する。
第2相関行列算出部133は、例えば、式(2)を用いて雑音相関行列K(ω,f)を算出する。
即ち、式(2)は、チャネルkの入力信号値とチャネルlの入力信号値の複素共役との積についてフレーム時刻f−fs−TNからf−fsまでの窓長TNの区間にわたって平均した値を、チャネルkとチャネルlとの間のチャネル間相関として算出することを示す。
窓長TNについては、窓長TNが大きいほど雑音相関行列K(ω,τ)の時間変動が緩和されるため処理結果が安定する反面、窓長TNが小さいほど入力信号の周波数特性の時間変動により追従できるようになる。このように、遅延時間fsと窓長TNには、それぞれトレードオフの関係がある。第2相関行列算出部133には、遅延時間fsと窓長TNとして、それぞれ適切な値を予め設定しておく。遅延時間fsと窓長TNの例については後述する。
さらに、雑音相関行列K(ω,f)に係る窓長TNを、相関行列R(ω,f)に係る窓長TRよりも大きい値に定めておいてもよい。特に、定常雑音(stationary noise)のもとでは、雑音相関行列K(ω,f)の時間変動が乏しいため、窓長TNを長くすることが許容される。これに対し、入力信号の時間変動は、目的音の成分の時間変動が主であるため、相関行列R(ω,f)の算出において、この時間変動に追従するために窓長TNを短くすることが好ましい。
第2相関行列算出部133は、算出した雑音相関行列K(ω,f)を固有ベクトル算出部134に出力する。
これにより、相関行列R(ω,f)について、雑音相関行列K(ω,f)で白色化される。つまり、雑音の影響が除去されたうえで固有ベクトルe1,…,eMが算出される。固有ベクトルe1,…,eMは、それぞれ、その絶対値が1に正規化されていてもよい。
固有ベクトル算出部134は、算出したM個の固有ベクトルe1,…,eMを空間スペクトル算出部135に出力する。
空間スペクトル算出部135は、予め定めた探索範囲に含まれる音源方向ψの伝達関数ベクトルG(ω,ψ)を記憶部から読み出す。探索範囲とは音源方向ψの候補として探索する範囲である。
空間スペクトル算出部135は、各フレームfについて、周波数ω、音源方向ψ毎に、M個の固有ベクトルe1,…,eMと読み出した伝達関数ベクトルG(ω,ψ)に基づいて空間スペクトルP(ω,ψ,f)を算出する。空間スペクトル算出部135は、空間スペクトルP(ω,ψ,f)を算出する際に、例えば、式(5)を用いる。
空間スペクトル算出部135は、算出した平均化空間スペクトル<P(ψ,f)>を音源定位部136に出力する。
音源定位部136は、選択した各音源の音源方向ψを示す音源方向情報を座標変換部17及び音源分離部137に出力する。
音源分離部137は、生成した音響信号を外部に出力する。なお、音源方向出力部18に出力してもよい。
次に、窓長TR、TN、及び遅延時間fsの関係について説明する。
図3は、本実施形態に係る窓長及び遅延時間の一例を示す概念図である。
図3において横軸は時刻を示す。線分301は、相関行列R(ω,f)に係る窓長TRを示す線分である。線分301の起点が示すフレーム時刻はf−TRであって、終点が示すフレーム時刻はfである。つまり、線分301は、この起点と終点の間の区間に係るNチャネルの音響信号に基づいて相関行列R(ω,f)が算出されることを示す。
線分302は、雑音相関行列K(ω,f)に係る窓長TNを示す線分である。線分302の起点の時刻はf−fs−TNであって、終点の時刻はf−fsである。つまり、線分302は、この起点と終点の間の区間に係るNチャネルの音響信号に基づいて相関行列R(ω,f)が算出されることを示す。
また、図3に示す例では、窓長TNが窓長TRよりも長い。雑音の周波数特性の変動が、音声等の目的音よりも緩やかな場合には、そのように窓長を定めることによって、安定した雑音相関行列K(ω,f)を算出することができ、より時間変動への追従性の高い相関行列R(ω,f)を定めることができる。
次に、収音部11の構成例について説明する。
図4は、本実施形態に係る収音部11の構成例を示す概念図である。
収音部11は、移動体111、8個のマイクロホン112−1〜112−8、及び信号処理部113、及び3個の反射体(マーカ)114−1〜114−3を含んで構成される。
移動体111は、4個の輪状の支持部111−1〜111−4を備え、支持部111−1〜111−4は、同一の水平面上にそれぞれの中心点が正方形の頂点に配置されている。支持部111−1〜111−4のそれぞれには、その中心に回転軸を有する回転翼(図示せず)を備える。移動体111は、この回転翼が回転することによって飛行する。
マイクロホン112−1〜112−8は、それぞれ移動体111の中心部から一定の距離に配置されている。また、支持部111−1〜111−4には、マイクロホン112−1〜112−8のうち、それぞれ2個ずつを、互いに対面する位置に設置されている。これにより、8個のマイクロホン112−1〜112−8の位置が、移動体111において分散して配置される。
信号処理部113は、例えば、変換したディジタル音響信号を、基底周波数の信号から無線周波数の信号にアップコンバートして電波として音響信号受信部12に送信する。
音響信号受信部12では、受信した電波を無線周波数の信号から基底周波数の信号にダウンコンバートして、8チャネルのディジタル音響信号が復元される。
反射体114−1は、支持部111−1と111−2との間であって、移動体111の外縁に設置される。反射体114−2は、支持部111−1と111−4との間であって、移動体111の外縁に設置される。反射体114−3は、支持部111−3と111−4との間であって、移動体111の外縁に設置される。これにより、反射体114−1〜114−3には、支持部111−1〜111−4に妨げられずに距離検出部14が放射した赤外線が入射される。
次に、座標変換部17が行う座標変換の一例について説明する。
以下の説明は、簡単のため2次元座標系に基づくが、本実施形態では、座標変換部17は3次元座標系に基づいて座標変換を行ってもよい。
図5は、収音部11、距離検出部14と音源sとの位置関係を示す概念図である。
図5において、X方向は距離検出部14を基準として紙面に対して右側を示し、Y方向はX方向に垂直であって水平面に平行な方向を示す。
座標変換部17は、距離検出部14を基準とした収音部11の方向θmに基づいて、収音部11を基準とした音源sの方向ψを、距離検出部14を基準とした音源sの方向ψ’に変換する。
図5において、線分303は、距離検出部14を基準とした座標系(世界座標系)において基準となる方向(例えば、θm=0)を示す。線分304は、収音部11を基準とした座標系(音響座標系)において基準となる方向(例えば、ψ=0)を示す。
座標変換部17は、入力された音源方向情報と音源距離情報に基づいて、収音部11を基準とした音源sの座標(xs,ys)を算出する。ここで、xsはX方向の座標値、ysはY方向の座標値である。即ち、座標変換部17は、音源方向推定部13から入力された音源方向情報が示す音源方向と音源距離情報が示す音源距離を位置推定部16の座標系に変換する。
次に、本実施形態に係る音源方向推定処理について説明する。
図6は、本実施形態に係る音源方向推定処理を示すフローチャートである。
(ステップS101)周波数分析部131には、音響信号受信部12からMチャネルの音響信号が入力される。その後、ステップS102に進む。
(ステップS102)周波数分析部131は、各チャネルの音響信号についてフレーム毎に離散フーリエ変換(周波数分析)を行って、周波数領域の入力信号を生成する。周波数分析部131は、フレーム毎に生成した各チャネルの入力信号を第1相関行列算出部132及び第2相関行列算出部133に出力する。
その後、ステップS103に進む。
(ステップS104)第2相関行列算出部133は、周波数分析部131から入力された入力信号に基づく雑音信号を生成する。第2相関行列算出部133は、例えば式(2)を用いて、周波数ω、フレーム時刻f毎に雑音相関行列K(ω,f)(第2相関行列)を算出する。第2相関行列算出部133は、算出した雑音相関行列K(ω,f)を固有ベクトル算出部134に出力する。その後、ステップS105に進む。
固有ベクトル算出部134は、M個の固有ベクトルを算出する際、例えば、式(3)又は(4)を用いる。その後、ステップS106に進む。
空間スペクトル算出部135は、算出した平均化空間スペクトル<P(ψ,f)>を音源定位部136に出力する。その後、ステップS107に進む。
(ステップS108)音源分離部137は、入力された音源方向情報に基づいて、音響信号受信部12から入力されたMチャネルの音響信号から音源毎の音響信号を分離する。
音源分離部137は、生成した音響信号を外部に出力する。その後、処理を終了する。
これにより、雑音信号の特性が既知でなくとも、目的音の方向をより精度よく推定することができる。
次に、図面を参照しながら本発明の第2の実施形態について説明する。第1の実施形態と同一の構成、処理については同一の符号を付して、上述の説明を援用する。
本実施形態に係る音響処理システム2(図示せず)は、音響処理システム1(図1参照)において、音源方向推定部13の代わりに音源方向推定部23を含んで構成される。
音源方向推定部23は、音源方向推定部13(図2参照)が備える構成に、さらに雑音推定部231を含んで構成される。
雑音推定部231は、周波数分析部131から入力された入力信号について、予め定めた種類の目的音を含む目的音信号を推定し、推定した目的音信号を第1相関行列算出部132に出力する。目的音とは、利用者が受聴の目的とする音、例えば、人間の音声、音楽等である。雑音推定部231は、入力信号のうち目的音成分以外の成分、雑音成分を示す雑音信号を推定し、推定した雑音信号を第2相関行列算出部133に出力する。
<(1)音声区間検出による目的音信号の推定>
雑音推定部231は、周波数分析部131から入力された入力信号について音声区間検出(Voice Activity Detection;VAD)を行う。これにより、入力信号が音声を主に含むか否かが判別される。雑音推定部231は、入力信号について時間領域で音声区間検出を有音区間毎に行う。有音区間は、入力信号の振幅の立ち上がり(onset)から立ち下り(decay)に挟まれる区間である。立ち上がりとは、無音区間の後、入力信号のパワーが予め定めたパワーよりも大きくなる部分である。立ち下がりとは、無音区間の前に、入力信号のパワーが予め定めたパワーよりも小さくなる部分である。そして、雑音推定部231は、例えば、フレーム毎のパワー値が、その直前において予め定めたパワー閾値よりも小さく、現在においてそのパワー閾値を上回る場合に、立ち上がりと判定する。これに対して、雑音推定部231は、パワー値が、その直前において予め定めたパワー閾値よりも大きく、現在においてそのパワー閾値よりも小さい場合に、立ち下がりと判定する。
雑音推定部231は、音声区間に係る入力信号を目的音信号として第1相関行列算出部132に出力し、非音声区間に係る入力信号を第2相関行列算出部133に出力する。よって、第1相関行列算出部132では、雑音推定部231から入力された音声区間に係る入力信号に基づいて相関行列R(ω,f)が算出される。第2相関行列算出部133では、雑音推定部231から入力された非音声区間に係る入力信号である雑音信号に基づいて雑音相関行列K(ω,f)が算出される。従って、窓長TR、TN(図3参照)を、それぞれ発話時において音声区間と非音声区間が交替する周期、例えば0.3秒よりも大きくすれば、相関行列R(ω,f)又は雑音相関行列K(ω,f)のうち、少なくとも一方が零行列とならない。そのため、固有ベクトル算出部134において、ゼロ除算又はゼロベクトルの算出が回避されるので音源方向推定部23としての動作が安定する。
雑音推定部231は、周波数分析部131から入力された入力信号に基づいて、例えば、HRLE(Histogram−based Recursive Level Estimation)法を用いて定常雑音のパワーを算出する。HRLE法では、雑音推定部231は、周波数毎に対数領域におけるパワーのヒストグラム(頻度分布)を算出し、その累積分布に基づく累積頻度が予め定めた閾値(例えば、50%)に対応するパワーを定常雑音のパワーとして算出する。雑音推定部231は、HRLE法に限らず、他の方法、例えばMCRA(Minima−Controlled Recursive Average)法を用いて算出した定常雑音のパワーを算出してもよい。
なお、上述では、予め定めた目的音が人間の音声である場合を例にとって説明したが、本実施形態ではこれには限られない。雑音推定部231は、目的音又は雑音を逐次に判別もしくはこれらの成分を推定する処理を実行できれば、他の方法でも適用することができる。
次に、本実施形態に係る音源方向推定処理について説明する。
図8は、本実施形態に係る音源方向推定処理を示すフローチャートである。
本実施形態に係る音源方向推定処理は、図6に示す音源方向推定処理にステップS201が加わった処理である。本実施形態に係る音源方向推定処理では、ステップS102が終了した後に、ステップS201を実行する。
次に、音響処理システム1(図1参照)の動作例について説明する。
図9は、収音部11が備えるマイクロホン112−1が収録した音響信号の一例を示す図である。
図9において、横軸は時刻を示し、縦軸は周波数を示す。図9において、濃淡は音響信号のレベルの大きさを示す。明るく表示された部分ほど音響信号のレベルが高いことを示し、暗く表示された部分ほど音響信号のレベルが低いことを示す。
これらの3つの方式それぞれについて、次の項目(1)〜(3)について動作結果を示す。(1)音源方向毎の平均化空間スペクトル<P(ψ,f)>、(2)平均化空間スペクトル<P(ψ,f)>のヒストグラム、(3)音源方向を推定できた頻度に基づく指標値。
また、収音部11の位置について、(A)屋内において固定(屋内・固定)、(B)屋内において飛行(屋内・飛行)、(C)屋外において固定(屋外・固定)、のそれぞれの動作条件で動作させた。ここで、「固定」とは、空中を浮遊しながら位置を変化させないこと(ホバリング、空中停止、hovering)を指す。「飛行」とは、空中を浮遊しながら位置を変化させること(移動、moving)を指す。
以下では、特に断らない限り窓長TR、TN、遅延時間fsを、それぞれ50フレーム、100フレーム、25フレームとし、1フレームを10msとした
図10(a)〜(d)、図11(a)〜(d)、図12(a)〜(d)のそれぞれにおいて、横軸は時刻を示し、縦軸は音源方向を示す。図10(a)、図11(a)、図12(a)において、それぞれ分布している時刻方向にのびる実線及び破線は、現実の音源方向、つまり収音部11を基準とした2名の話者の方向を示す。
図10(b)〜(d)、図11(b)〜(d)、図12(b)〜(d)のそれぞれに分布し、時刻方向にのびる線分は、推定された音源方向を示す。図10(b)−(d)、図11(b)〜(d)、図12(b)〜(d)に、それぞれSEVD−MUSIC、GEVD−MUSIC、本実施形態において算出された平均化空間スペクトル<P(ψ,f)>を濃淡で示す。いずれも、明るい部分ほど値が大きいことを示し、暗い部分ほど値が小さいことを示す。
図10(a)は、一方の話者の方向が約3秒毎に45°ずつ変化し、他方の話者の方向が、0°のまま変化しないことを示す。図10(a)と(c)もしくは(d)を比較すると、話者の方向と推定された音源方向は、ほぼ一致する。このことから、図10は、本実施形態やGEVD−MUSICでは概ね2名の話者の方向を推定できることを示す。他方、図10(a)と(b)を比較すると、話者の方向と推定された音源方向が異なる。即ち、図10は、SEVD−MUSICでは、2名の話者の方向がほとんど推定できなかったことを示す。
図11(a)と(c)もしくは(d)を比較すると、図10に示す例ほどではないが話者の方向と推定された音源方向は類似している。これは、本実施形態又はGEVD−MUSICでは音源方向を推定できるが、騒音の周波数特性が動的に変化するために音源方向の推定精度が低下していることを示す。但し、図11(c)は、(d)よりも音源方向が160°付近に誤って推定する傾向がある点で、音源方向の推定精度が低下していることを示す。つまり、本実施形態は、GEVD−MUSICよりも騒音の周波数特性の動的変化に追従できることを示す。なお、図11(a)と(b)を比較すると、話者の方向と推定された音源方向が異なっている。即ち、図11は、SEVD−MUSICでは音源方向が推定できなかったことを示す。
図12(a)は、一方の話者の方向が約3秒毎に45°ずつ変化し、他方の話者の方向が、0°のまま変化しないことを示す。但し、一方の話者の方向が変化する方向は、図10(a)に示す例とは、逆方向である。
図12(a)と(d)を比較すると、図10、11に示す例ほどではないが話者の方向と推定された音源方向は類似している。これは、本実施形態では音源方向を推定できるが、騒音のレベルが屋内よりも高いために音源方向の推定精度が低下していることを示す。図12における動作条件では、図10における動作条件よりも騒音レベルが10〜15dB高い。また、図12(a)と(b)もしくは(c)を比較すると、話者の方向と推定された音源方向が異なる。つまり、図12は、GEVD−MUSICやSEVD−MUSICでは音源方向が推定できなかったことを示す。
これらの結果から、本実施形態では、従来技術よりも騒音の周波数特性の著しい場合や騒音レベルが高い場合でも、音源方向を推定できるようになったことを示す。
図13は、正規化空間スペクトルのヒストグラムの例を示す図である。
正規化空間スペクトルとは、平均化空間スペクトル<P(ψ,f)>を正規化した値である。図13(a)〜(c)は、それぞれSEVD−MUSIC、GEVD−MUSIC、本実施形態の例を示す。図13(a)〜(c)において、横軸は正規化空間スペクトル、縦軸は正規化度数を示す。正規化度数とは、正規化空間スペクトル毎の頻度(度数)を示す。横軸の正規化空間スペクトルは、最大値が1.0となるように正規化されている。縦軸の正規化度数は、正規化空間スペクトルがゼロから最大値までの累積頻度が1.0となるように正規化された頻度である。
図13は、(c)、(b)、(c)の順に正規化度数の分布が狭いことを示す。このことは、本実施形態、GEVD−MUSIC、SEVD−MUSICの順に雑音を効果的に抑圧できること、言い換えれば高い精度で音源方向を推定できたことを示す。
図14は、推定方式がSEVD−MUSIC、GEVD−MUSIC、本実施形態について正規化度数の標準偏差がそれぞれ、0.14、0.12、0.058であることを示す。このことも、本実施形態、GEVD−MUSIC、SEVD−MUSICの順に雑音を効果的に抑圧できることを示す。
指標値として、定位精度(LAR:Localization Accuracy Rate)と定位正解率(LCR:Localization Correct Rate)を用いる。LAR、LCRは、それぞれ次の式を用いて求めることができる。
LAR=(N−S−D−I)/N, LCR=(N−S−D)/N,
ここで、N、S、D、Iは、それぞれ総発話数、音源方向の推定を誤った発話の数、検出できなかった発話の数、余分に検出された発話数を示す。LARは、最大値は1であるが、負の値になりうる。LARでは、余分に検出された発話数も考慮されるためである。これに対し、LCRは、最大値は1であり、最小値が0である。LCRは、総発話数のうちの正解数の割合を示すためである。ここでは、音源方向の推定を誤ったとは、推定された音源方向と現実の音源方向との誤差が5°を越える場合をいう。
図15において、各行は動作条件(屋内・固定、屋内・飛行、屋外・固定)を示し、各列は推定方式と、定位精度ならびに定位正解率指標値の組を示す。
動作条件に関わらずLAR、LCRともに、本実施形態、GEVD−MUSIC、SEVD−MUSICの順で高い値をとる。動作条件が屋外・固定である場合でも、LARは14%と低下するがLCRは71%と、低下の度合いが少ない。つまり、本実施形態では、屋外の騒音レベルが高いことが、余分に発話が検出される原因となる可能性があるが、現実になされた発話において音源方向が誤って推定される可能性が比較的少ないことを示す。つまり、本実施形態が災害時における捜索のように、漏れなく音源の位置を推定する用途に適していることを示す。
図16(a)〜(c)は、動作条件がそれぞれ屋内・固定、屋内・飛行、屋外・固定の場合における差分値を示す。図16(a)〜(c)は、それぞれ2つの底辺が窓長TN、遅延時間fsを示し、縦軸が差分値を示す3次元プロットである。但し、いずれの動作条件でも窓長TRは50フレームである。図16(a)〜(c)それぞれにおいて、☆(星印)は差分値が最大となる窓長TN及び遅延時間fsを示す点である。
図16は、差分値の最大値は、屋内・固定、屋外・固定、屋内・飛行の順に大きいが、差分値の分布は、その順になだらかである。即ち、図16は、屋内・固定、屋外・固定、屋内・飛行の順で方向推定精度が確保され、窓長TN及び遅延時間fsの変化に対する影響が少ないことを裏付ける。屋内・飛行では、雑音の周波数特性が常に変動しているため、差分値の最大値を与える窓長TNや遅延時間fsが他の動作条件よりも小さい。図16に示す例では、差分値の最大値を与える窓長TNと遅延時間fsの組は、TN=130フレーム、fs=160フレーム(屋内・固定)、TN=90フレーム、fs=140フレーム(屋内・飛行)、TN=130フレーム、fs=160フレーム(屋外・固定)である。いずれも、TN>TRであり、かつ、fs>TRである。
また、上述した実施形態における音源方向推定部13,23の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。音源方向推定部13、23の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
111…移動体、112(112−1〜112−8)…マイクロホン、
113…信号処理部、114(114−1〜114−3)…反射体、
12…音響信号受信部、13、23…音源方向推定部、
131…周波数分析部、132…第1相関行列算出部、133…第2相関行列算出部、
134…固有ベクトル算出部、135…空間スペクトル算出部、136…音源定位部、
137…音源分離部、231…雑音推定部、
14…距離検出部、15…距離情報受信部、16…位置推定部、17…座標変換部、
18…音源方向出力部
Claims (9)
- 入力された複数の音響信号の相関行列を算出する第1相関行列算出部と、
前記複数の音響信号に基づく雑音信号の相関行列を算出する第2相関行列算出部と、
前記第1相関行列算出部が算出した相関行列と、前記第2相関行列算出部が算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位部と、
を備えることを特徴とする音源方向推定装置。 - 前記第2相関行列算出部における前記雑音信号は、前記複数の音響信号を遅延させた信号であって、前記遅延に係る遅延時間は、前記第1相関行列算出部が相関行列の算出に用いる前記複数の音響信号の時間よりも長いことを特徴とする請求項1に記載の音源方向推定装置。
- 前記第2相関行列算出部が相関行列の算出に用いる前記雑音信号の時間は、前記第1相関行列算出部が相関行列の算出に用いる前記複数のチャネルの音響信号の時間よりも長いことを特徴とする請求項1に記載の音源方向推定装置。
- 前記入力された複数の音響信号から、予め定めた種類の目的音を含む目的音信号と前記目的音とは異なる成分である雑音成分を示す雑音信号を生成する雑音推定部を備え、
前記第1相関行列算出部は、前記入力された複数の音響信号として前記雑音推定部が生成した目的音信号を用いて相関行列を算出し、
前記第2相関行列算出部は、前記雑音信号として前記雑音推定部が生成した雑音信号を用いて相関行列を算出する
ことを特徴とする請求項1に記載の音源方向推定装置。 - 前記第1相関行列算出部が算出した相関行列に、前記第2相関行列算出部が算出した相関行列の逆行列を乗算した行列について一般化固有値展開を行って固有ベクトルを算出する固有ベクトル算出部を備え、
前記音源定位部は、音源の方向毎の伝達関数ベクトルのノルムを、前記固有ベクトル算出部が算出した固有ベクトルのうち予め定めた個数の固有ベクトルのそれぞれと当該伝達関数ベクトルとの内積の和で除算して算出する
ことを特徴とする請求項1から4のいずれかに記載の音源方向推定装置。 - 前記音源定位部は、前記空間スペクトルの周波数間の平均値である平均化空間スペクトルが極大値をとる方向を前記複数のチャネルの音響信号に係る音源の方向と推定することを特徴とする請求項1から5のいずれかに記載の音源方向推定装置。
- 複数のチャネルの音響信号を収録する収音部、前記収音部の位置を推定する位置推定部、及び前記収音部が収録した複数のチャネルの音響信号に係る音源の方向を推定する音源方向推定部と、を備える音響処理システムであって、
前記音源方向推定部は、
入力された複数の音響信号の相関行列を算出する第1相関行列算出部と、
前記複数の音響信号に基づく雑音信号の相関行列を算出する第2相関行列算出部と、
前記第1相関行列算出部が算出した相関行列と、前記第2相関行列算出部が算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位部と、
を備えることを特徴とする音響処理システム。 - 音源方向推定装置における音源方向推定方法であって、
前記音源方向推定装置は、
入力された複数の音響信号の相関行列を算出する第1相関行列算出過程と、
前記複数の音響信号に基づく雑音信号の相関行列を算出する第2相関行列算出過程と、
前記第1相関行列算出過程で算出した相関行列と、前記第2相関行列算出過程で算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位過程と、
を有することを特徴とする音源方向推定方法。 - 音源方向推定装置のコンピュータに、
入力された複数の音響信号の相関行列を算出する第1相関行列算出手順、
前記複数の音響信号に基づく雑音信号の相関行列を算出する第2相関行列算出手順、
前記第1相関行列算出手順で算出した相関行列と、前記第2相関行列算出手順で算出した相関行列に基づいて空間スペクトルを算出し、前記空間スペクトルを用いて前記複数のチャネルの音響信号に係る音源の方向を推定する音源定位手順、
を実行させるための音源方向推定プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012201874A JP5952692B2 (ja) | 2012-09-13 | 2012-09-13 | 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム |
US14/023,600 US9247343B2 (en) | 2012-09-13 | 2013-09-11 | Sound direction estimation device, sound processing system, sound direction estimation method, and sound direction estimation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012201874A JP5952692B2 (ja) | 2012-09-13 | 2012-09-13 | 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014056181A true JP2014056181A (ja) | 2014-03-27 |
JP5952692B2 JP5952692B2 (ja) | 2016-07-13 |
Family
ID=50233298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012201874A Active JP5952692B2 (ja) | 2012-09-13 | 2012-09-13 | 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9247343B2 (ja) |
JP (1) | JP5952692B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016163071A (ja) * | 2015-02-26 | 2016-09-05 | 富士通株式会社 | 電子機器及び制御プログラム |
JP2017044916A (ja) * | 2015-08-27 | 2017-03-02 | 本田技研工業株式会社 | 音源同定装置および音源同定方法 |
JP2017151076A (ja) * | 2016-02-25 | 2017-08-31 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音源探査装置、音源探査方法およびそのプログラム |
US9812153B2 (en) | 2015-08-31 | 2017-11-07 | Fujitsu Limited | Image and audio reproduction device and method |
US9820043B2 (en) | 2016-02-25 | 2017-11-14 | Panasonic Intellectual Property Corporation Of America | Sound source detection apparatus, method for detecting sound source, and program |
WO2018037643A1 (ja) * | 2016-08-23 | 2018-03-01 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
EP3370232A1 (en) | 2017-03-03 | 2018-09-05 | Panasonic Intellectual Property Corporation of America | Sound source probing apparatus, sound source probing method, and storage medium storing program therefor |
JP2018141922A (ja) * | 2017-02-28 | 2018-09-13 | 日本電信電話株式会社 | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム |
JP2021036297A (ja) * | 2019-08-30 | 2021-03-04 | 株式会社東芝 | 信号処理装置、信号処理方法、及びプログラム |
US11594238B2 (en) | 2019-03-15 | 2023-02-28 | Honda Motor Co., Ltd. | Acoustic signal processing device, acoustic signal processing method, and program for determining a steering coefficient which depends on angle between sound source and microphone |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2519315B (en) * | 2013-10-16 | 2020-12-16 | Canon Kk | Method and apparatus for identifying actual signal sources among a plurality of signal sources with artefacts detection |
JP6311197B2 (ja) * | 2014-02-13 | 2018-04-18 | 本田技研工業株式会社 | 音響処理装置、及び音響処理方法 |
JP6221158B2 (ja) * | 2014-08-27 | 2017-11-01 | 本田技研工業株式会社 | 自律行動ロボット、及び自律行動ロボットの制御方法 |
HK1221372A2 (zh) * | 2016-03-29 | 2017-05-26 | 萬維數碼有限公司 | 種獲得空間音頻定向向量的方法、裝置及設備 |
TWI639154B (zh) * | 2017-06-28 | 2018-10-21 | 驊訊電子企業股份有限公司 | 具有噪音消除的語音裝置及雙麥克風語音系統 |
WO2019197002A1 (en) * | 2018-04-13 | 2019-10-17 | Aalborg Universitet | Generating sound zones using variable span filters |
CN113453980B (zh) * | 2019-05-15 | 2024-03-29 | 松下知识产权经营株式会社 | 信息处理方法、无人飞行体以及无人飞行体控制系统 |
TWI714303B (zh) * | 2019-10-09 | 2020-12-21 | 宇智網通股份有限公司 | 聲源定位方法及聲音系統 |
CN111968671B (zh) * | 2020-08-24 | 2024-03-01 | 中国电子科技集团公司第三研究所 | 基于多维特征空间的低空声目标综合识别方法及装置 |
CN116312602B (zh) * | 2022-12-07 | 2023-10-03 | 之江实验室 | 基于干扰噪声空间谱矩阵的语音信号波束成形方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008250516A (ja) * | 2007-03-29 | 2008-10-16 | Honda Motor Co Ltd | 射影変換収束演算処理方法 |
JP2009037032A (ja) * | 2007-08-02 | 2009-02-19 | Nippon Telegr & Teleph Corp <Ntt> | 信号抽出装置、その方法、およびそのプログラム |
JP2010281816A (ja) * | 2009-06-04 | 2010-12-16 | Honda Motor Co Ltd | 音源方向推定装置及び音源方向推定方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5702685B2 (ja) * | 2010-08-17 | 2015-04-15 | 本田技研工業株式会社 | 音源方向推定装置及び音源方向推定方法 |
-
2012
- 2012-09-13 JP JP2012201874A patent/JP5952692B2/ja active Active
-
2013
- 2013-09-11 US US14/023,600 patent/US9247343B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008250516A (ja) * | 2007-03-29 | 2008-10-16 | Honda Motor Co Ltd | 射影変換収束演算処理方法 |
JP2009037032A (ja) * | 2007-08-02 | 2009-02-19 | Nippon Telegr & Teleph Corp <Ntt> | 信号抽出装置、その方法、およびそのプログラム |
JP2010281816A (ja) * | 2009-06-04 | 2010-12-16 | Honda Motor Co Ltd | 音源方向推定装置及び音源方向推定方法 |
Non-Patent Citations (1)
Title |
---|
JPN6015044621; 浅野 太: 'ロボットにおける音響技術' 日本音響学会誌 第63巻 第1号 第63巻 第1号, 20061225, 41-46, 社団法人日本音響学会 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016163071A (ja) * | 2015-02-26 | 2016-09-05 | 富士通株式会社 | 電子機器及び制御プログラム |
JP2017044916A (ja) * | 2015-08-27 | 2017-03-02 | 本田技研工業株式会社 | 音源同定装置および音源同定方法 |
US9812153B2 (en) | 2015-08-31 | 2017-11-07 | Fujitsu Limited | Image and audio reproduction device and method |
JP2017151076A (ja) * | 2016-02-25 | 2017-08-31 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音源探査装置、音源探査方法およびそのプログラム |
EP3232219A1 (en) | 2016-02-25 | 2017-10-18 | Panasonic Intellectual Property Corporation of America | Sound source detection apparatus, method for detecting sound source, and program |
US9820043B2 (en) | 2016-02-25 | 2017-11-14 | Panasonic Intellectual Property Corporation Of America | Sound source detection apparatus, method for detecting sound source, and program |
WO2018037643A1 (ja) * | 2016-08-23 | 2018-03-01 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JPWO2018037643A1 (ja) * | 2016-08-23 | 2019-06-20 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
US11346917B2 (en) | 2016-08-23 | 2022-05-31 | Sony Corporation | Information processing apparatus and information processing method |
JP2018141922A (ja) * | 2017-02-28 | 2018-09-13 | 日本電信電話株式会社 | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム |
EP3370232A1 (en) | 2017-03-03 | 2018-09-05 | Panasonic Intellectual Property Corporation of America | Sound source probing apparatus, sound source probing method, and storage medium storing program therefor |
US10264350B2 (en) | 2017-03-03 | 2019-04-16 | Panasonic Intellectual Property Corporation Of America | Sound source probing apparatus, sound source probing method, and storage medium storing program therefor |
US11594238B2 (en) | 2019-03-15 | 2023-02-28 | Honda Motor Co., Ltd. | Acoustic signal processing device, acoustic signal processing method, and program for determining a steering coefficient which depends on angle between sound source and microphone |
JP2021036297A (ja) * | 2019-08-30 | 2021-03-04 | 株式会社東芝 | 信号処理装置、信号処理方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20140072142A1 (en) | 2014-03-13 |
US9247343B2 (en) | 2016-01-26 |
JP5952692B2 (ja) | 2016-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5952692B2 (ja) | 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム | |
JP7158806B2 (ja) | オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム | |
US10979805B2 (en) | Microphone array auto-directive adaptive wideband beamforming using orientation information from MEMS sensors | |
CN107976651B (zh) | 一种基于麦克风阵列的声源定位方法及装置 | |
EP3347894B1 (en) | Arbitration between voice-enabled devices | |
JP5070873B2 (ja) | 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム | |
RU2642353C2 (ru) | Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи | |
EP2748817B1 (en) | Processing signals | |
JP4248445B2 (ja) | マイクロホンアレイ方法及びシステム、並びにこれを用いた音声認識方法及び装置 | |
JP5595112B2 (ja) | ロボット | |
Ishi et al. | Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
EP2748816B1 (en) | Processing audio signals | |
EP2932731B1 (en) | Spatial interference suppression using dual- microphone arrays | |
CN113113034A (zh) | 用于平面麦克风阵列的多源跟踪和语音活动检测 | |
US10957338B2 (en) | 360-degree multi-source location detection, tracking and enhancement | |
JP2004289762A (ja) | 音声信号処理方法と装置及びプログラム | |
JP2019503107A (ja) | 音響信号を向上させるための音響信号処理装置および方法 | |
JP7194897B2 (ja) | 信号処理装置及び信号処理方法 | |
Wang et al. | {MAVL}: Multiresolution analysis of voice localization | |
JP2014098568A (ja) | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム | |
JP2018169473A (ja) | 音声処理装置、音声処理方法及びプログラム | |
KR101733231B1 (ko) | 음원의 3차원 위치 파악 방법 및 그 장치와, 음원의 3차원 위치를 이용한 음질 개선 방법 및 그 장치 | |
JP5660362B2 (ja) | 音源定位装置及びコンピュータプログラム | |
JPWO2018037643A1 (ja) | 情報処理装置、情報処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160610 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5952692 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |