JP4339929B2 - 音源方向検知装置 - Google Patents

音源方向検知装置 Download PDF

Info

Publication number
JP4339929B2
JP4339929B2 JP2008556982A JP2008556982A JP4339929B2 JP 4339929 B2 JP4339929 B2 JP 4339929B2 JP 2008556982 A JP2008556982 A JP 2008556982A JP 2008556982 A JP2008556982 A JP 2008556982A JP 4339929 B2 JP4339929 B2 JP 4339929B2
Authority
JP
Japan
Prior art keywords
time
frequency spectrum
sound
sound source
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008556982A
Other languages
English (en)
Other versions
JPWO2009044509A1 (ja
Inventor
伸一 芳澤
良久 中藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4339929B2 publication Critical patent/JP4339929B2/ja
Publication of JPWO2009044509A1 publication Critical patent/JPWO2009044509A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source

Description

本発明は、雑音下において音源の方向を特定する音源方向検知装置に関し、特に、雑音の影響を軽減して、さらに、雑音除去の副作用により誤った方向を出力してしまうことを回避できる音源方向検知装置に関する。
従来の雑音除去方法として、検知音と雑音を含む音響信号の周波数スペクトルから、雑音の影響が少ない検知音の周波数スペクトルの時刻部分を特定するものがある(例えば、非特許文献1参照)。
雑音の影響が少ない検知音の周波数スペクトルの時刻部分を、検知音(S)と雑音(N)との周波数スペクトルのパワーの比率であるSN比が0dB以上の時刻部分(検知音の周波数スペクトルのパワー≧雑音の周波数スペクトルのパワー)により特定する。ここでは、検知音が含まれない時間区間から雑音の周波数スペクトルのパワーを求めて、検知音と雑音とが混合された周波数スペクトルのパワーから雑音の周波数スペクトルのパワーを減算することで検知音の周波数スペクトルのパワーを求めている。この後の処理として、検知音(音声)の認識を行っている。また、検知音の周波数スペクトルの時刻部分を特定する別の方法として、学習用データから入力音が検知音である確率分布と雑音である確率分布を求めて、ベイズ推定により検知音の時刻部分を特定するものもある。ここでは、確率分布の1つの変数として検知音(S)と雑音(N)との周波数スペクトルの比率であるSN比や、周波数スペクトルの波形情報が用いられている。このため、SN比以外の情報も含めて精度良く検知音の周波数スペクトルの時刻部分を特定することができる。
従来の音源方向を検知する方法として、互いに離間して配置された2つのマイクロホンにて集音された音響信号の各々について周波数帯域別の信号に分解して(周波数スペクトルを求めて)、マイクロホン間での周波数帯域別の信号の相互相関(一致度合い)により各々のマイクロホンに到達する時間差を求めて、時間差とマイクロホンの距離とから音源方向を求めるものがある(例えば、特許文献1参照)。
"Missing-Feature Approaches in Speech Recognition", Bhiksha Raj and Richard M. Stern, IEEE SIGNAL PROCESSING MAGAZINE, pp.101-pp.116, 2005 特開2002−62348号公報(請求項1、図1)
しかしながら、非特許文献1に記載の方法を用いて求められた部分的に時刻部分が欠落した雑音除去後の検知音の周波数スペクトルから、検知音の音源方向を求めることを考える場合に、特許文献1に記載の方法において、相互相関の求め方で、雑音の影響により欠落した時刻部分の扱い方や、雑音の時刻部分を欠落させることで生じる音源方向の結果に与える影響についても新たに考える必要がでてくる。
このため、本発明は、雑音の影響を軽減して、さらに、雑音除去の副作用により誤った方向を出力してしまうことを回避できる音源方向検知装置を提供することを目的とする。
本発明に係る音源方向検知装置は、互いに離間して配置された2つ以上のマイクロホンにて集音された音響信号の各々について、当該音響信号の少なくとも1つの周波数帯域における周波数スペクトルを生成する生成手段と、前記周波数帯域における周波数スペクトルから、音源方向を求める検知音の周波数スペクトルの時刻部分を特定する検知音特定手段と、音源方向を検知する時間単位である時間区間の中で、前記検知音特定手段が特定した時刻部分における周波数スペクトルの前記マイクロホン間での一致度合いにより、前記検知音が前記マイクロホンに到達する時間差を求めて、前記時間差と前記マイクロホンの距離と音速とから音源方向を求めて出力する検知手段とを備え、前記検知手段は、前記時間差がゼロになるように前記2つ以上のマイクロホンからの周波数スペクトルの時間軸を調整したときに、前記音源方向を検知する時間単位である時間区間に占める、前記検知音特定手段により特定された時刻部分のうち前記マイクロホン間で共通の時刻に存在する部分の割合が、所定のしきい値より大きい場合に音源方向を出力することを特徴とする。
この構成によると、検知手段において、相互相関値の算出に用いる所定の時間区間に占める周波数スペクトルがマイクロホン間で共通に存在する時刻部分の割合が所定のしきい値よりも大きい部分のみにおいて音源方向を出力する。すなわち、検知音が2つ以上のマイクロホンに到達する時間差がゼロになるように周波数スペクトルの時間軸を調整したときに、2つ以上のマイクロホンの共通の時刻に存在する検知音の時刻部分における一致度合いにより音源方向を求めて、共通に存在する検知音の時刻部分が多い場合のみに音源方向を出力することで、雑音の影響により誤った方向を出力してしまうことを回避できる。誤った方向を求めてしてしまう原因としては、雑音により除去された時間区間が多くなると音源方向の信頼性がなくなり検知精度が悪くなるためである。
好ましくは、前記検知手段は、さらに、前記2つ以上のマイクロホンからの周波数スペクトルの時間軸を調整したときの、前記音源方向を検知する時間単位である時間区間に占める、前記検知音特定手段により特定された時刻部分のうち前記マイクロホン間で共通の時刻に存在する部分の割合が、すべての音源方向の候補について、前記所定のしきい値より大きい場合にのみ音源方向を出力することを特徴とする。
この構成によると、全ての方向の候補に対して、2つ以上のマイクロホンに共通に存在する時刻部分が多い場合にのみ音源方向を出力することで、上記で、共通に存在する時刻部分が少ないため音源方向を出力できなかった方向に音源が存在した場合でも、他の方向を音源方向として誤って方向を出力してしまうことを回避できる。
なお、本発明は、このような特徴的な手段を備える音源方向検知装置として実現することができるだけでなく、音源方向検知装置に含まれる特徴的な手段をステップとする音源方向検知方法として実現したり、音源方向検知方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc-Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明の音源方向検知装置によれば、検知音が2つ以上のマイクロホンに到達する時間差がゼロになるように周波数スペクトルの時間軸を調整したときに、2つ以上のマイクロホンの共通の時刻に存在する検知音の時刻部分における一致度合いにより音源方向を求めて、共通に存在する検知音の時刻部分が多い場合のみに音源方向を出力することで、雑音の影響により誤った方向を出力してしまうことを回避できる。誤った方向を求めてしまう原因としては、雑音により除去された時間区間が多くなると音源方向の信頼性がなくなり検知精度が悪くなるためである。さらに、−90度から+90度までの全ての方向に対して、2つ以上のマイクロホンに共通に存在する時刻部分が多い場合にのみ音源方向を出力することで、上記で、共通に存在する時刻部分が少ないため音源方向を出力できなかった方向に音源が存在した場合でも、他の方向を音源方向として誤って方向を出力してしまうことを回避できる。
以下本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図1は、本発明の実施の形態1における音源方向検知装置の外観図である。
音源方向検知装置は、3個のマイクロホン102(k)(k=1〜3)が接続されたコンピュータ101aより構成される。
図2〜図6は、本発明の実施の形態1における音源方向検知装置の構成を示すブロック図である。
図2において、音源方向検知装置101は、3個のマイクロホン102(k)(k=1〜3)と、各マイクロホンに対応した3個のFFT分析部103(k)(k=1〜3)(分析手段に対応)と、各マイクロホンに対応した3個の検知音特定部104(k)(k=1〜3)(検知音特定手段に対応)と、方向検知部105(検知手段に対応)とから構成される。FFT分析部103(k)(k=1〜3)と、検知音特定部104(k)(k=1〜3)と、方向検知部105は、コンピュータ101aのプロセッサ上で各処理部の機能を実現するためのプログラムを実行することにより実現される。また、各種データはコンピュータ101aのメモリに記憶される。
マイクロホン102(k)(k=1〜3)は、音響信号100を入力として受ける。
FFT分析部103(k)(k=1〜3)は、対応するマイクロホン(kの値が同じもの)が入力として受けた音響信号100に対して高速フーリエ変換処理を施し、音響信号100の位相成分を含む周波数スペクトル(周波数信号に対応)を求める。以下では、FFT分析部103(k)(k=1〜3)が求めた周波数スペクトルの周波数帯域の個数をMとして、それらの周波数帯域を指定する番号を記号j(j=1〜M)で表すこととする。
図3に示すように、検知音特定部104(k)(k=1〜3)は、M個の検知音特定部104(k,j)(j=1〜M)から構成される。検知音特定部104(k)(k=1〜3)は、対応するFFT分析部103(k)(kの値が同じもの)が求めた周波数スペクトルに対して、周波数帯域j(j=1〜M)ごとに検知音特定部104(k,j)(k=1〜3、j=1〜M)を用いて検知音の時刻部分を特定する。以下では、j番目の周波数帯域がf(例えば、中心周波数がf)である場合について説明を行う。
検知音特定部104(k,j)は、1/fの時間間隔の時刻から選択された複数の時刻における周波数スペクトルを用いて、上記複数の時刻のうち分析の対象とする時刻の周波数スペクトルと、上記複数の時刻のうち少なくとも前記時刻とは異なる複数の時刻における周波数スペクトルとの類似度の総和を求める。また、検知音特定部104(k,j)は、当該類似度の総和が第1のしきい値以上となる上記分析の対象とする時刻を特定することで、検知音の時刻部分を特定する。
方向検知部105は、音源方向を求める時間区間(この時間区間で時間的に平均化された音源の方向が求まる)を特定して、この特定された時間区間における検知音特定部104(k)(k=1〜3)が特定した時刻部分の周波数スペクトルを用いて、3個のマイクロホンから得られるマイクロホンの組(マイクロホン102(1)とマイクロホン102(2)、マイクロホン102(2)とマイクロホン102(3)、マイクロホン102(1)とマイクロホン102(3))において、それぞれのマイクロホンに対応した特定された周波数スペクトルが共通に存在する部分の周波数スペクトル同士の一致度合いを求める。ここでは一致度合いとして相互相関値を用いる。方向検知部105は、それぞれのマイクロホンの組み合わせにおいて、相互相関値の極大値から到達時間差を求める。方向検知部105は、求められた到達時間差とマイクロホン同士の間隔とから音源方向を求める。方向検知部105は、全てのマイクロホンの組合せにおいて、到達時間差がゼロになるように2つのマイクロホンからの周波数スペクトルの時間軸を調整したときに、音源方向を特定する時間区間に占める、検知音特定部により特定された時刻部分のうち前記マイクロホン間で共通の時刻に存在する部分の割合が所定のしきい値より大きい場合に、音源方向106を示す情報を出力する。
この例では、一致度合いとして相互相関値を用いたが、一致度合いとして周波数スペクトル間の差分誤差を用いてもよい。また、この例では、相互相関値の極大値から到達時間差を求めたが、相互相関値の最大値や、しきい値以上の相互相関値の極大値または最大値や、差分誤差の極小値や、差分誤差の最小値や、しきい値以下の差分誤差の極小値または最小値から到達時間差を求めてもよい。
図4は、検知音特定部104(k,j)(k=1〜3、j=1〜M)の構成を示すブロック図である。検知音特定部104(k,j)(k=1〜3、j=1〜M)は、周波数スペクトル特定部300(k,j)(k=1〜3、j=1〜M)と、類似度算出部301(k,j)(k=1〜3、j=1〜M)と、検知音特定部302(k,j)(k=1〜3、j=1〜M)とから構成される。
図7Aおよび図7Bは、この実施の形態における検知音の時刻部分を特定する方法のポイントを説明する概念図である。図7Aは、バイク音(検知音に対応)を周波数fで周波数分析した結果を模式的に示した図である。図7Bは、暗騒音(雑音に対応)を周波数fで周波数分析した結果を模式的に示した図である。両図ともに横軸は時間軸であり縦軸は周波数軸である。図7Aに示すように、バイク音の周波数変化などの影響により周波数波形の振幅の大きさは変化するものの、周波数波形の位相の時間変化は、分析した周波数fに対応する周期である1/fの間隔で等角速度で0度から360度まで変化し、このような変化が規則的に繰り返される。例えば、100Hzにおける周波数波形では位相が10ms間隔の間に360度回転して、200Hzにおける周波数波形では位相が5ms間隔の間に360度回転する。一方、図7Bに示すように、暗騒音などの白色雑音における周波数波形の位相の時間変化は不規則になる。また、混合音が原因で歪んだ雑音部分においても位相の時間変化は乱れて不規則になる。このように、周波数波形の位相の時間変化が規則的でない、時間と周波数とで定義された領域を除去することで雑音を除去することができる。この処理は、周波数分析をする前の時間波形において、抽出する音が周期的な音である否かに関わらず同様に扱うことができる。
周波数スペクトル特定部300(k,j)は、類似度を求めるときに用いる周波数スペクトルを特定する。類似度算出部301(k,j)は、周波数スペクトル特定部300(k,j)が特定した周波数スペクトルを用いて類似度の総和を算出する。検知音特定部302(k,j)は、類似度算出部301(k,j)が算出した類似度の総和が第1のしきい値以上になる周波数スペクトルの時刻部分を、検知音の時刻部分として特定する。
図5は、方向検知部105の構成を示すブロック図である。方向検知部105は、方向検知部400(1)と、方向検知部400(2)と、方向検知部400(3)と、方向検知部401とから構成される。
方向検知部400(1)は、検知音特定部104(1)が特定した時刻部分の周波数スペクトルと、検知音特定部104(2)が特定した時刻部分の周波数スペクトルとを用いて、マイクロホン102(1)とマイクロホン102(2)とに入力された音響信号の音源の方向を求める。
方向検知部400(2)は、検知音特定部104(2)が特定した時刻部分の周波数スペクトルと、検知音特定部104(3)が特定した時刻部分の周波数スペクトルとを用いて、マイクロホン102(2)とマイクロホン102(3)とに入力された音響信号の音源の方向を求める。
方向検知部400(3)は、検知音特定部104(1)が特定した時刻部分の周波数スペクトルと、検知音特定部104(3)が特定した時刻部分の周波数スペクトルとを用いて、マイクロホン102(1)とマイクロホン102(3)とに入力された音響信号の音源の方向を求める。
方向検知部401は、全てのマイクロホンの組合せにおいて、到達時間差がゼロになるように2つのマイクロホンからの周波数スペクトルの時間軸を調整したときに、音源方向を特定する時間区間に占める、検知音特定部により特定された時刻部分のうち前記マイクロホン間で共通の時刻に存在する部分の割合が所定のしきい値より大きい場合に、方向検知部400(1)と、方向検知部400(2)と、方向検知部400(3)とで求められた3つの音源の方向から音源の方向を求めて、音源方向106を出力する。
図6は、方向検知部400(1)の構成を示すブロック図である。方向検知部400(1)は、方向検知部400(1,j)(j=1〜M)から構成されている。方向検知部400(1,j)は、時間区間特定部503(1,j)と、割合判定部500(1,j)と、相関算出部501(1,j)と、方向特定部502(1,j)とから構成される。方向検知部400(2)と方向検知部400(3)とは、方向検知部400(1)と同じように構成されるため説明を繰り返さない。
時間区間特定部503(1,j)は、音源方向を求める時間区間(この時間区間で時間的に平均化された音源の方向が求まる)を特定する。
割合判定部500(1,j)は、検知音特定部104(1)が特定した時刻部分のj番目の周波数帯域の周波数スペクトルと、検知音特定部104(2)が特定した時刻部分のj番目の周波数帯域の周波数スペクトルとを用いて、相互相関値の算出に用いる時間区間特定部503(1,j)が特定した時間区間における、それぞれのマイクロホンに対応した特定された周波数スペクトルが共通に存在する部分の割合が第2のしきい値よりも小さいか否かを判定する。
相関算出部501(1,j)は、割合判定部500(1,j)が前記割合が第2のしきい値以上であると判定したときに、検知音特定部104(1)が特定した時刻部分のj番目の周波数帯域の周波数スペクトルと、時間区間特定部503(1,j)が特定した時間区間において検知音特定部104(2)が特定した時刻部分のj番目の周波数帯域の周波数スペクトルとが共通に存在する部分の、周波数スペクトル同士の相互相関値を算出する。
方向特定部502(1,j)は、相関算出部501(1,j)が算出した相互相関値の極大値から到達時間差を求め、求められた到達時間差とマイクロホン同士の間隔とから音源方向を求める。ただし、ここでは、割合判定部500(1,j)は、−90度から+90度までの全ての音源の方向に対応する相互相関値に対して、前記割合が前記第2のしきい値以上のときにのみ音源の方向を特定するように、方向特定部502(1,j)に方向特定信号を送る。方向特定部502(1,j)は、割合判定部500(1,j)からの方向特定信号を受信したときに音源の方向を求める。
次に、以上のように構成された音源方向検知装置101の動作について説明する。
図8〜図12は、音源方向検知装置101の動作手順を示すフローチャートである。
図13には、本実施の形態で用いる3個のマイクロホンの配置と音響信号100の方向とが示されている。ここでは、音響信号100として、音声1100(検知音に対応)と白色雑音(雑音に対応)(白色雑音1101、白色雑音1102、白色雑音1103)との混合音(コンピュータ上で混合して作成したもの)を用いた場合を一例として説明を行う。
3個のマイクロホンの配置は、マイクロホン102(1)とマイクロホン102(2)との間隔をL=10cmとし、マイクロホン102(2)とマイクロホン102(3)との間隔をL=10cmとし、マイクロホン102(1)とマイクロホン102(3)との間隔をL=14cmとしている。マイクロホン102(1)とマイクロホン102(2)とを結ぶ直線とマイクロホン102(2)とマイクロホン102(3)とを結ぶ直線とは垂直に交わっている。
音声1100(検知音)の音源方向は、マイクロホン102(1)とマイクロホン102(2)とを結ぶ直線と垂直に交わる直線から、マイクロホン102(1)側を正の角度として−30度の方向である。また、音声1100の音源方向は、マイクロホン102(2)とマイクロホン102(3)とを結ぶ直線と垂直に交わる直線から、マイクロホン102(2)側を正の角度として+60度の方向である。
白色雑音1101(雑音)の音源方向は、マイクロホン102(1)とマイクロホン102(2)とを結ぶ直線と垂直に交わる直線から、マイクロホン102(1)側を正の角度として−50度の方向である。白色雑音1102(雑音)の音源方向は、マイクロホン102(1)とマイクロホン102(2)とを結ぶ直線と垂直に交わる直線から、マイクロホン102(1)側を正の角度として+30度の方向である。白色雑音1103(雑音)の音源方向は、マイクロホン102(1)とマイクロホン102(2)とを結ぶ直線と垂直に交わる直線から、マイクロホン102(1)側を正の角度として+50度の方向である。
ここでは、音響信号100から白色雑音1101と白色雑音1102と白色雑音1103とを除去して音声1100の音源の方向を特定することを目的とする。
図14に、この例における、マイクロホン102(1)における音響信号100のスペクトログラムの一例を示す。横軸は時間軸(秒)であり縦軸は周波数軸(Hz)である。色の濃度は周波数スペクトルの大きさを表しており、濃い色ほど周波数スペクトルの大きさが大きいことを示している。ここでは、50Hz〜1000Hzの周波数範囲の0秒〜5秒のスペクトログラムが表示されている。ここでの表示には、周波数スペクトルの位相成分の表示は省略されている。
図15に、図14に示した音響信号100を作成するときに用いた音声1100のスペクトログラムを示す。表示の方法は図14と同様であるため説明を繰り返さない。
図14と図15とから、音響信号100において、音声1100の周波数スペクトルの大きさが大きい部分においてのみ音声1100を観測することができる。また、白色雑音(白色雑音1101と白色雑音1102と白色雑音1103とを加えたもの)の周波数スペクトルの大きさが音声1100の周波数スペクトルの大きさと比較して大きな値をもっていることがわかる。
初めに、FFT分析部103(k)(k=1〜3)は、対応するマイクロホン102(k)(kの値が同じもの)が入力した音響信号100に対して高速フーリエ変換処理を施し、音響信号100の位相成分を含む周波数スペクトルを求める(ステップS600(k)(k=1〜3))。この例では、高速フーリエ変換処理により複素空間上での周波数スペクトルを求めている。この例における高速フーリエ変換処理では、サンプリング周波数=16000Hzの音響信号100に時間窓の幅ΔT=64ms(1024pt)のハニング窓を掛け、高速フーリエ変換処理を行なっている。また、時間軸方向には1pt(0.0625ms)の時間シフトを行いながら各時刻における周波数スペクトルを求めている。この処理結果のマイクロホン102(1)における周波数スペクトルの大きさのみを表示したものが図14である。
次に、検知音特定部104(k)(k=1〜3)は、対応するFFT分析部103(k)(kの値が同じもの)が求めた周波数スペクトルに対して、周波数帯域j(j=1〜M)ごとに検知音特定部104(k,j)(k=1〜3、j=1〜M)を用いて検知音の時刻部分を特定する(ステップS601(k)、ステップS601(k,j)(k=1〜3、j=1〜M))。この後の説明にはj番目の周波数帯域に関してのみ行う。この例では、j番目の周波数帯域の周波数はfである。
検知音特定部104(k,j)は、1/fの時間間隔の時刻から選択された複数の時刻における周波数スペクトルを用いて、上記複数の時刻のうち分析の対象とする時刻の周波数スペクトルと、上記複数の時刻のうち少なくとも前記時刻とは異なる複数の時刻における周波数スペクトルとの類似度の総和が第1のしきい値以上となる分析の対象とする時刻を特定する(ステップS601(k,j)(j=1〜M))。ここでは、周波数f=500Hzの場合を一例として説明を行う。
図16(b)には、図16(a)に示された音響信号100における、周波数f=500Hzにおける位相成分を含む周波数スペクトルが模式的に示されている。図16(a)は、図14と同じものであり、図16(b)において、水平軸は時間軸(秒)であり垂直平面の2軸は周波数スペクトルの実部と虚部とを表している。この例では周波数f=500Hzであるので1/f=2msとなる。
初めに、周波数スペクトル特定部300(k,j)が、1/fの時間間隔の時刻から選択された複数の時刻の周波数スペクトルを特定する(ステップS800(k,j))。
図16(b)には、1/fの時間間隔の時刻から特定された複数の時刻の周波数スペクトルの位置が白丸印で示されている。ここでは、図16(b)に示すように、1/f=2msの時間間隔の時刻から選択された全ての時刻の周波数スペクトルが特定される。すなわち、1/f=2msの時間間隔の時刻の周波数スペクトルが特定される。
ここで、図17Aと図17Bとに、他の周波数スペクトルの特定方法を示す。表示の方法は図16(b)と同じであるため説明を繰り返さない。図17Aには、1/fの時間間隔の時刻から、1/f×N(N=2)の時間間隔の時刻の周波数スペクトルを特定する一例が示されている。また、図17Bには、1/fの時間間隔の時刻から、ランダムに選択した時刻の周波数スペクトルを特定する一例が示されている。
ここで、周波数スペクトル特定部300(k,j)は、類似度算出部301(k,j)が類似度の総和の算出に用いる周波数スペクトルの時間範囲も特定するが、時間範囲の特定方法の説明については、類似度算出部301(k,j)の説明と合わせて以下で行う。
次に、類似度算出部301(k,j)は、周波数スペクトル特定部300(k,j)が特定した周波数スペクトルを用いて類似度の総和を算出する(ステップS801(k,j))。ここでは、類似度として相関値を用いる。
図18に、類似度の総和の求め方の一例を示す。図18の表示の方法において、図16(b)と共通する部分の説明は繰り返さない。図18において、分析の対象とする時刻の周波数スペクトルを黒丸印で示して、分析の対象とする時刻とは異なる複数の時刻における特定された周波数スペクトルを白丸印で示す。
この例では、分析の対象とする時刻(黒丸印の時刻)から±10ms以内の時刻(時間幅は20ms)に存在する1/f(=2ms)の時間間隔の時刻から分析の対象とする時刻を除いた時刻(白丸印の時刻)の周波数スペクトルを、分析の対象の周波数スペクトルとの類似度を求める周波数スペクトルに特定する。ここでは、類似度の総和の算出に用いる周波数スペクトルの時間範囲を、分析の対象とする時刻から±10ms以内の時刻(時間幅は20ms)としたが、この値は、ここでの抽出したい音響信号である音声の特徴から実験的に求めた値である。
類似度の総和の算出方法を以下に説明する。以下では、周波数スペクトルの実部を
Figure 0004339929
と表すこととして、周波数スペクトルの虚部を
Figure 0004339929
と表すこととする。ここでの記号kは周波数スペクトルを指定する番号である。k=0の周波数スペクトルは、分析の対象とする時刻の周波数スペクトルを表している。ゼロ以外のk(k=−K,…,−2,−1,1,2,…K)の周波数スペクトルは、分析の対象とする時刻の周波数スペクトルとの類似度を求めるための周波数スペクトルを表している(図18を参照)。類似度の総和Sは、
Figure 0004339929
を用いて算出する。
ここで、他の類似度の総和Sの算出方法を以下に示す。相関値の計算において、総和した類似度の数で正規化する方法である
Figure 0004339929
や、分析の対象とする時刻の周波数スペクトルとの類似度も加える方法である
Figure 0004339929
や、周波数スペクトルの大きさで正規化された相関値を用いる方法である
Figure 0004339929
や、周波数スペクトルの距離の逆数を用いる方法である
Figure 0004339929
や、位相成分の距離の逆数を用いる方法である
Figure 0004339929
などがある。ここで
Figure 0004339929
はSが無限大に発散しないための予め定められた小さな値である。
最後に、検知音特定部302(k,j)が、類似度の総和Sが第1のしきい値以上となる分析の対象とする周波数スペクトルの時刻部分を、検知音の時刻部分として特定する(ステップS802(k,j))。
第1のしきい値をAと表すとすると、検知音特定部302(k,j)は、
Figure 0004339929
の条件を満たす時刻の周波数スペクトルを特定する。この例では、第1のしきい値Aの値を
Figure 0004339929
としている。この値は、音響信号100の音圧レベルなどに基づいて実験的に求めた値である。しきい値Aの設定方法として、抽出する音のダイナミックレンジと雑音のダイナミックレンジとに基づいて雑音だけが除去されるようにしきい値Aを設定する方法が挙げられる。また、アプリケーションに応じて、抽出したい音(少し歪んだもの)も多少は除去されてしまうことを許して、雑音を完全に除去できる値にしきい値Aを設定する方法や、逆に、雑音は完全に除去できないことを許して、抽出したい音(少し歪んだものも含む)は完全に抽出できる値にしきい値Aを設定する方法が挙げられる。この処理は、時間軸方向に1pt(0.0625ms)の時間シフトを行いながら求めた全ての時刻の周波数スペクトルに対して行う。
図19に、図14に示した音響信号100から抽出された音声1100のスペクトログラムを示す。表示の方法は図14と同様であるため説明を繰り返さない。図19と、図14及び図15とを比較すると、音響信号100から白色雑音(白色雑音1101、白色雑音1102、白色雑音1103)と混合音が原因で大きく歪んでいる雑音部分が除去されて、音声1100が抽出されていることがわかる。
ここで、雑音として除去される音響信号の周波数スペクトルの位相について考察を加える。図20A及び図20Bは、類似度の総和を求める時間範囲(所定の時間幅)における、音響信号の周波数スペクトルの位相を模式的に示したものである。横軸は時間であり縦軸は位相である。黒丸印は分析の対象とする周波数スペクトルの位相を示し、白丸印は分析の対象とする周波数スペクトルとの間で類似度を求める周波数スペクトルの位相を示す。ここでは1/fの時間間隔での周波数スペクトルの位相が示されている。図20Aに示すように、類似度の総和を求めることは、分析の対象とする周波数スペクトルの位相を通る時間に対して2πfの傾きをもつ直線(1/fの時間間隔では水平な値になる)との類似度の総和を求めることと同じになる。図20Aでは、この直線の近傍に類似度を求める周波数スペクトルの位相が集まっているため、類似度の総和はしきい値Aより大きくなり雑音として除去されることはない。また、図20Bのように、分析の対象とする周波数スペクトルの位相を通る時間に対して2πfの傾きをもつ直線の近傍に、類似度を求める周波数スペクトルがほとんど存在しない場合には、類似度の総和はしきい値A以下になり雑音として除去される。
かかる構成によれば、検知音特定部104(k)(k=1〜3)において位相成分が歪んだ雑音部分(暗騒音などの白色雑音の部分、または混合音が原因で歪んだ雑音の部分)を特定して、検知音の時刻部分を精度良く特定することができる。
また、時間ずれに起因する位相ずれが起こらない1/fの時間間隔の時刻の周波数スペクトルを用いて類似度の総和を求めるため、位相ずれを補正する必要がなく計算量を削減できるという効果もある。すなわち、ψ(t)−(2πft)で定義される空間での位相の類似度をψ(t)で定義される空間で求めることができる。このため、類似度の算出方法が簡単になり、位相の補正を行うための計算量を削減することができるという効果もある。ここで、「時間ずれに起因する位相ずれ」について説明する。図7Aを用いて説明したように抽出対象とされる音響信号の周波数fの周波数スペクトルは、位相が等速度かつ1/fの時間間隔の間に360度回転するとの仮定を設けている。このため、時間が変化すると位相も変化する。
図21Aに、周波数分析を行うときに音響信号に畳み込むDFT(Discrete Fourier Transform)の波形を示す。実部はコサイン波形で虚部はマイナスのサイン波形である。ここでは、周波数fの信号について分析を行う。音響信号が周波数fの正弦波であるとき、周波数分析を行ったときの周波数スペクトルの位相の時間変化は、図21Bに示すように反時計回りになる。このとき、横軸は実部であり縦軸は虚部である。反時計回りの位相を正とすると、位相は1/fの時間で2π(ラジアン)増加する。また、位相は時間変化に対して2πfの傾きで変化するとも言える。図22A〜図22Cを用いて、位相の時間変化が反時計回りになる仕組みについて説明する。図22Aに、音響信号(周波数fの正弦波)を示す。ここでは音響信号の振幅の大きさを1としている。図22Bに、周波数分析を行うときに音響信号に畳み込むDFTの波形(周波数f)を示す。実線は実部のコサイン波形を破線は虚部のマイナスのサイン波形を示している。図22Cに、図22Aの音響信号と図22BのDFTの波形を畳み込んだときの値の符号を示す。図22Cより、時刻が(t1〜t2)のとき図21Bの第1象限に、時刻が(t2〜t3)の時に図21Bの第2象限に、時刻が(t3〜t4)のとき図21Bの第3象限に、時刻が(t4〜t5)のとき図21Bの第4象限に位相が変化することがわかる。このことから、位相の時間変化が反時計回りになることがわかる。
ここで補足であるが、図23Aのように、横軸を虚部にして縦軸を実部にするという特殊なことをすると位相の増減が反転して、位相は時間変化に対して(−2πf)の傾きで変化することが起こるが、ここでは図21Bの軸の取り方に補正されているとして説明を行う。また、図23Bのように、周波数分析を行うときに畳み込む波形を、実部をコサイン波形に虚部をサイン波形にするという特殊なことをすると位相の増減が反転して、位相は時間変化に対して(−2πf)の傾きで変化することが起こるが、ここでは、図21Aの周波数分析の結果にあうように実部と虚部の符号が補正されていることを前提として説明を行う。
このような現象を「時間ずれに起因する位相ずれ」と呼んでいる。ただし、1/fの時間間隔の間に位相は一周するため、1/fの時間間隔の時刻の音響信号の周波数スペクトルは、同一の位相を有すると考えられるため、位相ずれを補正する必要がなくなる。
また、類似度として相関値を用いることにより、周波数スペクトルの大きさのずれには着目せずに位相のずれを判定することができる。このため、周波数スペクトルの大きさが小さい音響信号に対しても位相成分が歪んだ雑音部分を特定することができるという効果もある。
次に、方向検知部105は、検知音特定部104(k)(k=1〜3)が特定した時刻部分の雑音が除去された周波数スペクトルを用いて、3個のマイクロホンから得られるマイクロホンの組(マイクロホン102(1)とマイクロホン102(2)、マイクロホン102(2)とマイクロホン102(3)、マイクロホン102(1)とマイクロホン102(3))において、それぞれのマイクロホンに対応した特定された周波数スペクトルが共通に存在する部分の周波数スペクトル同士の相互相関値を算出する。方向検知部105は、それぞれのマイクロホンの組合せにおいて、相互相関値の極大値から到達時間差を求め、求められた到達時間差とマイクロホン同士の間隔とから音源方向を求めて、全てのマイクロホンの組合せにおいて、到達時間差がゼロになるように2つのマイクロホンからの周波数スペクトルの時間軸を調整したときに、音源方向を特定する時間区間に占める、検知音特定部により特定された時刻部分のうち前記マイクロホン間で共通の時刻に存在する部分の割合が所定のしきい値より大きい場合に、音源方向106を示す情報を出力する(ステップS602)。
初めに、方向検知部105は、3個のマイクロホンから得られるマイクロホンの組ごとに音源の方向を求める(ステップS900(1)、ステップS900(2)、ステップS900(3))。ここでは、マイクロホンの組として、マイクロホン102(1)とマイクロホン102(2)との組を選択した場合について説明を行う(ステップS900(1))。他の組(ステップS900(2)とステップS900(3)に対応する)については、同様な処理を行うため説明を繰り返さない。
初めに、時間区間特定部503(1,j)は、音源方向を求める時間区間(この時間区間で時間的に平均化された音源の方向が求まる)を特定する(ステップS1003(1,j))。この時間区間は、音源方向を特定する音源の移動速度により決定することができる。このとき、移動速度が速い場合は時間区間を短く設定する必要がある。また、時間区間を大きくすると音源方向を求めるための周波数スペクトルのデータ量が増えるため安定した音源方向を求めることができる。このため、許容される範囲で時間区間を長くすることが好ましい。
次に、割合判定部500(1,j)は、検知音特定部104(1)が特定した時刻部分のj番目の周波数帯域の周波数スペクトルと、検知音特定部104(2)が特定した時刻部分のj番目の周波数帯域の周波数スペクトルとを用いて、相互相関値の算出に用いる時間区間特定部503(1,j)が特定した時間区間における、それぞれのマイクロホンに対応した特定された周波数スペクトルが共通に存在する部分の割合が第2のしきい値よりも小さいか否かを判定する(ステップS1000(1,j))。
図24〜図26に、相互相関値の算出に用いる時間区間における、それぞれのマイクロホンに対応した特定された周波数スペクトルが共通に存在する部分の割合が第2のしきい値よりも小さいか否かを判定する方法の一例を示す。この例では、第2のしきい値=100%としている。
図24には、マイクロホン102(1)に対応する検知音特定部104(1)が特定した時刻部分のj番目の周波数帯域の周波数スペクトルと、マイクロホン102(2)に対応する検知音特定部104(2)が特定した時刻部分のj番目の周波数帯域の周波数スペクトルとが模式的に示されている。横軸は時間軸であり、縦軸には周波数スペクトルの実部又は虚部における振幅値が示されている。斜線が施された部分は、雑音部分を表している。ここでは、相互相関値の算出に用いる時間区間をΔTAとしている。また、マイクロホン同士の到達時間差をτとしている。
図25は、図24におけるマイクロホン102(1)に対応する周波数スペクトルの時間軸と、マイクロホン102(2)に対応する周波数スペクトルの時間軸とを到達時間差τだけずらして表示したものである。表示の方法は、図24と同様であるので説明を繰り返さない。
図26は、図25において、マイクロホン102(1)に対応する周波数スペクトルと、マイクロホン102(2)に対応する周波数スペクトルとが共通に存在する部分の時間区間の総和をΔTPとして表示したものである。図26における横線が施された部分の時間区間の総和がΔTPである。ΔTPは、到達時間差τだけずらして時間軸を調整したときに、周波数スペクトルが除去されずに、マイクロホン102(1)に対応する周波数スペクトルと、マイクロホン102(2)に対応する周波数スペクトルとが同じ時刻に共通に残っている部分の時間区間の総和である。
そして、割合判定部500(1,j)は、(ΔTP/ΔTA)×100%が第2のしきい値(=100%)よりも小さいか否かを判定する。
次に、相関算出部501(1,j)は、割合判定部500(1,j)が(ΔTP/ΔTA)×100%が第2のしきい値(=100%)以上であると判定したときに、検知音特定部104(1)が特定した時刻部分のj番目の周波数帯域の周波数スペクトルと、検知音特定部104(2)が特定した時刻部分のj番目の周波数帯域の周波数スペクトルとの、共通に存在する部分の周波数スペクトル同士の相互相関値を算出する(ステップS1001(1,j))。なお、相互相関値は、到達時間差τを変化させながら、到達時間差τ毎に算出される。
ここで、共通に存在する部分の、マイクロホン102(1)に対応する周波数スペクトルの実部を
Figure 0004339929
と表すこととして、マイクロホン102(1)に対応する周波数スペクトルの虚部を
Figure 0004339929
と表すこととして、共通に存在する部分の、マイクロホン102(2)に対応する周波数スペクトルの実部を
Figure 0004339929
と表すこととして、マイクロホン102(2)に対応する周波数スペクトルの虚部を
Figure 0004339929
と表すこととする。ここでの記号kは周波数スペクトルの時刻を指定する番号である。そして、相互相関値Hを以下の式で算出する。
Figure 0004339929
ここで、他の相互相関値Hの算出方法を以下に示す。総和した時刻の数Kで正規化する方法である
Figure 0004339929
や、周波数スペクトルの大きさで正規化する方法である
Figure 0004339929
などがある。
最後に、方向特定部502(1,j)は、相関算出部501(1,j)が算出した相互相関値に対応する音源の方向を音源方向の候補として、相互相関値の極大値から到達時間差を求め、求められた到達時間差とマイクロホン同士の間隔とから音源方向を求める。ただし、ここでは、割合判定部500(1,j)は、−90度から+90度までの全ての音源の方向に対応する相互相関値に対して、前記割合が前記第2のしきい値以上のときにのみ音源の方向を求めるように、方向特定部502(1,j)に方向特定信号を送る。方向特定部502(1,j)は、割合判定部500(1,j)からの方向特定信号を受信したときに音源の方向を求める(ステップS1002(1,j))。
図27には、音源の方向が−90度から+90度の範囲にあるとし、5度刻みで音源の方向を変化させた場合の相互相関値の一例が示されている。なお、上述したように、実際には、相互相関値は到達時間差τを変化させながら求められる。横軸は音源の方向(度)を示しており、縦軸は相互相関値の対数値が示されている。この例では、−30度の方向に極大値が存在する。すなわち、相互相関値の極大値に対応する到達時間差とマイクロホン同士の間隔とから求めた音源方向は−30度であることを意味している。このとき、−90度から+90度の範囲での5度刻みの全ての方向に対して、割合が第2のしきい値以上であり、相互相関値が算出できていることを意味する。
以下に、到達時間差τとマイクロホン同士の間隔Lとから音源方向Θを算出する方法を示す。図28は、音源方向を算出する方法を模式的に示した図である。ここで、音速をCと、音源方向をΘと表すこととすると、
Figure 0004339929
の関係式が成り立ち、この関係を用いて到達時間差から音源4100の方向を求めることができる。ここで、Lはマイクロホンの間隔(マイクロホン4101(1)とマイクロホン4101(2)との距離)であり、τはマイクロホン間での到達時間差である。
図29に、この例における音源の方向を特定した結果を示す。横軸は時間軸(秒)であり縦軸は周波数軸(Hz)である。色の濃度は音源の方向を表しており、薄い色は−90度の方向であり濃い色は+90度の方向である。空白の部分は音源の方向を特定していない部分である。図29の下方に音源の方向と濃度との関係を示す。ここでは、50Hz〜1000Hzの周波数範囲の0秒〜5秒の音源の方向が表示されている。
図30に、音声1100だけを音響信号100として入力して処理した場合での理想的な音源の方向を示す。表示の方法は図29と同じなので説明を繰り返さない。図30と図15とを比較すると、周波数スペクトルの大きさが小さい部分においても音源の方向が表示されていることがわかる。
図31に、方向検知部105において、割合判定部500(1,j)(j=1〜M)を用いずに、前記割合と第2のしきい値との関係を考慮しなかった場合の音源の方向を示す。表示の方法は図29と同じなので説明を繰り返さない。図31と図30とを比較すると、雑音部分の影響が非常に大きくでており音声1100の音源の方向とは異なる方向が特定されていることがわかる。
図29と図30と図31とから、割合判定部500(1,j)(j=1〜M)を用いて前記割合と第2のしきい値との関係を考慮することで、雑音部分の影響を大幅に低減して音声1100の音源の方向を求めることができることがわかる。
図32に、方向検知部105の割合判定部500(1,j)(j=1〜M)において、全ての音源の方向に対応する相互相関値に対して、前記割合が前記第2のしきい値以上のときにのみ音源の方向を求めるという条件を設けなかった場合の本発明による音源の方向を示す。表示の方法は図29と同じなので説明を繰り返さない。図32と図31とを比較すると、割合判定部500(1,j)(j=1〜M)を用いて前記割合と第2のしきい値との関係を考慮することで、雑音部分の影響を大幅に低減して音声1100の音源の方向を求めることができることがわかる。
ここで、図29と図31とを比較すると、割合判定部500(1,j)において、全ての音源の方向に対応する相互相関値に対して、前記割合が前記第2のしきい値以上のときにのみ音源の方向を求めるという条件を設けることで、雑音部分の影響をさらに低減して音声1100の音源の方向を求めることができることがわかる(図29と図31において丸印で囲まれた部分を参照)。
図33に、検知音特定部104(k)における検知音特定部302(k,j)が用いた第1のしきい値の値を最適化して、
Figure 0004339929
とした場合における音源の方向を示す。表示の方法は図29と同じなので説明を繰り返さない。図33より、第1のしきい値の値が最適化できた場合には、雑音部分の影響をさらに大幅に低減して音声1100の音源の方向を求めることができることがわかる。
最後に、方向検知部401は、方向検知部400(1)が求めた音源の方向と、方向検知部400(2)が求めた音源の方向と、方向検知部400(3)が求めた音源の方向とから音源の方向を求める(ステップS901)。このとき、方向検知部400(1)と方向検知部400(2)と方向検知部400(3)の全ての方向検知部において、音源方向が求められた場合に、方向検知部401は音源方向を求めて出力する。なお、別の方法として、方向検知部401は、一部の方向検知部により求められた音源方向を用いて音源方向を求めてもよい。また、方向検知部401は、全ての方向検知部において音源方向が求められなかった場合にも一部の方向検知部により求められた音源方向を用いて音源方向を求めてもよい。
図34には、方向検知部400(1)が求めた音源の方向と、方向検知部400(2)が求めた音源の方向と、方向検知部400(3)が求めた音源の方向とから音源の方向を求める方法の一例が示されている。特定した3個の音源の方向と、マイクロホン102(1)とマイクロホン102(2)とマイクロホン102(3)との配置とから音声1100の音源の方向を求めることができる。
かかる構成によれば、方向検知部105が、時間軸調整後の各々のマイクロホンに対応する周波数信号において、到達時間差を求める時間区間における、各々のマイクロホンに対応する検知音特定手段が特定した周波数信号同士が共通に存在する時刻部分の割合が、所定のしきい値より小さくなる音源位置を検知音の音源位置の候補から除外することで、雑音の影響により誤った音源位置を特定してしまうことを回避できる。
また、割合判定部500(1,j)が、全ての音源位置の候補について、一つでも前記割合が前記所定のしきい値より小さくなる場合、前記検知音の音源位置を特定しないことで、雑音の影響で到達時間差が求められない音源位置が検知音の音源位置であった場合でも、別の候補である誤った音源位置を特定してしまうことを回避できる。
また、検知音特定部104(k)が、位相成分が歪んだ雑音部分を除去して音源の方向を特定している。このことで、暗騒音などの白色雑音および混合音が原因で歪んだ雑音部分を除去してから、正確な音源の方向を特定することができる。
また、検知音の時刻部分を特定するときに、時間ずれに起因する位相ずれが起こらない1/fの時間間隔の時刻の周波数スペクトルを用いて類似度の総和を求める。このため、位相ずれを補正する必要がなく計算量を削減できるという効果もある。ここで、「時間ずれに起因する位相ずれ」について説明する。図7Aを用いて説明したように抽出対象とされる音響信号の周波数fの周波数スペクトルは、位相が等速度かつ1/fの時間間隔の間に360度回転するとの仮定を設けている。このため、時間が変化すると位相も変化する。このような現象を「時間ずれに起因する位相ずれ」と呼んでいる。ただし、1/fの時間間隔の間に位相は一周するため、1/fの時間間隔の時刻の音響信号の周波数スペクトルは、同一の位相を有すると考えられるため、位相ずれを補正する必要がなくなる。
また、検知音の時刻部分を特定するときに、類似度として相関値を用いる。このことで、周波数スペクトルの大きさのずれには着目せずに位相のずれを判定することができる。このため、周波数スペクトルの大きさが小さい音響信号に対しても位相成分が歪んだ雑音部分を特定することができるという効果がある。また、方向検知部における相互相関値との尺度における整合が取れる。
本発明の雑音部分の特定に関する考え方は、暗騒音などの白色雑音または混合音が原因で歪んだ雑音部分は、位相成分が歪んでおり、類似度の総和Sが第1のしきい値Aよりも小さくなるという考え方に基づいている。
なお、検知音特定部において、音源方向を求める検知音の周波数スペクトルの時刻部分を特定する方法として、検知音(S)と雑音(N)との周波数スペクトルのパワーの比率であるSN比が0dB以上の時刻部分(検知音の周波数スペクトルのパワー≧雑音の周波数スペクトルのパワー)を検知音の時刻部分に特定してもよい。また、学習用データから入力音が検知音である確率分布と雑音である確率分布を求めて、ベイズ推定により検知音の時刻部分を特定してもよい。
また、この例では、音源方向を求める検知音の周波数スペクトルの時刻部分を特定してから、音源方向を求める時間区間を特定したが、初めに音源方向を求める時間区間を特定して、この時間区間において音源方向を求める検知音の周波数スペクトルの時刻部分を特定してもよい。
また、本実施の形態において、3個のマイクロホンのそれぞれに対応した3個のFFT分析部と3個の検知音特定部とを設けたが、1つのFFT分析部と1つの検知音特定部とを共有して各マイクロホンが入力した音響信号を処理しても良い。
また、本実施の形態において、時間及び周波数ごとに音源の方向を特定したが、時間軸方向に音源の方向のヒストグラムをとり最大値をとる音源方向を音源の方向に特定しても良いし、時間軸方向に音源の方向を平均化して音源の方向を特定しても良い。
さらに、本実施の形態において、時間及び周波数ごとに音源の方向を特定したが、周波数軸方向に音源の方向のヒストグラムをとり最大値をとる音源方向を音源の方向に特定しても良いし、周波数方向に音源の方向を平均化して音源の方向を特定しても良い。
さらにまた、本実施の形態において、マイクロホンの数を3個としたが2個以上あれば良い。
また、FFT分析部におけるFFTの代わりに、DFT(Discrete Fourier Transform)、コサイン変換、ウェーブレット変換、又は、バンドパスフィルタを用いても良い。
なお、検知音特定部104(k,j)(周波数fに対応した処理)において1/fの時間間隔の時刻から全ての時刻の周波数スペクトルを特定したが、1/fの時間間隔の時刻から任意の時刻を特定することで周波数スペクトルを特定しても良い。また、分析の対象とする時刻ごとに周波数スペクトルの特定方法を変えてもよい。
なお、検知音特定部104(k)はFFT分析部103(k)が求めた全て(M個)の周波数帯域の周波数スペクトルに対して雑音の除去を行い音源の方向を特定したが、一部の周波数帯域を選択し、選択した周波数帯域において雑音の除去を行い音源の方向を特定しても良い。
また、FFT分析部は、ΔTの幅の時間窓を掛けた前記音響信号から前記周波数スペクトルを求めて、前記検知音特定部は、分析の対象とする時刻の前記周波数スペクトルと、分析の対象とする時刻をはさみΔTの時間間隔よりも離れた複数の時刻を含む複数の時刻の前記周波数スペクトルとの類似度の総和を用いて検知音の時刻部分を特定してもよい。本構成によって、分析の対象とする時刻をはさみΔTの時間間隔(周波数スペクトルを求めるときの時間窓の幅)よりも離れた時刻を含む複数の時刻の前記周波数スペクトルとの類似度の総和を用いることで、時間分解能(ΔT)を細かくしたときの影響による周辺の周波数からの周波数もれによる雑音(歪み)を除去することができる。
なお、この例では、2本のマイクロホンを組みにして3組の組合せから求めた3つの音源方向から音源位置を求めたが、3本のマイクロホンを組にして音源位置を求めても良い。図35に、3本のマイクロホンから音源位置を求める方法を示す。音源位置に依存して、音声1100(検知音)が、マイクロホン102(1)に到達する時間T(1)とマイクロホン102(2)に到達する時間T(2)とマイクロホン102(3)に到達する時間T(3)が異なってくる。このため、T(1)とT(2)とT(3)との時間差(到達時間差)とマイクロホンの位置の関係から音源位置を求めることができる。図36に、この例の場合での割合の求め方を示す。表示方法は図26と同様であるため説明を繰り返さない。ただし、3本のマイクロホンの到達時間差を同時に合わせた結果が示されている。また、周波数スペクトルの実部だけを表示している。図36に示すように、音源位置に対応した到達時間差だけ時間軸をずらして割合を求める。そして、割合(ΔTP/ΔTA)×100%が第2のしきい値より小さくなる音源位置を前記検知音の音源位置の候補から除外する。さらには、全ての音源位置の候補について、一つでも前記割合が前記所定のしきい値より小さくなる場合、前記検知音の音源位置を特定しないようにしても良い。
(実施の形態1の変形例)
次に、実施の形態1に示した音源方向検知装置の変形例について説明する。
本変形例に係る音源方向検知装置は、図2〜図6を参照して説明した実施の形態1に係る音源方向検知装置と同様の構成を有する。ただし、検知音特定部104(k)(k=1〜3)が実行する処理が異なる。
検知音特定部104(k)(k=1〜3)は、対応するFFT分析部103(k)(kの値が同じもの)が求めた周波数スペクトルに対して、周波数帯域j(j=1〜M)ごとに検知音特定部104(k,j)(k=1〜3、j=1〜M)を用いて検知音の時刻部分を特定する。以下では、j番目の周波数帯域がf(例えば、中心周波数がf)である場合について説明を行う。
検知音特定部104(k,j)は、1/fの時間間隔の時刻から選択された複数の時刻における周波数スペクトルを用いて、類似度の空間を、上記周波数スペクトルの位相成分のヒストグラムを作成することにより求める。検知音特定部104(k,j)は、類似度がしきい値以上となる周波数スペクトルのかたまりを、検知音の周波数スペクトルと特定する。
類似度算出部301(k,j)は、周波数スペクトル特定部300(k,j)が特定した周波数スペクトルの位相成分のヒストグラムを作成することにより類似度の空間を求める。検知音特定部302(k,j)は、類似度算出部301(k,j)が求めた類似度の空間から類似度がしきい値以上となる周波数スペクトルの時刻を、検知音の時刻部分と特定する。
次に、以上のように構成された音源方向検知装置101の動作について説明する。音源方向検知装置101の動作手順を示すフローチャートは、実施の形態1と同様であり、図8〜図12に示されている。
以下の説明では、音源方向検知装置101のうち検知音特定部104(k)(k=1〜3)が実行する処理についてのみ説明する。その他の処理部が実行する処理は実施の形態1と同様であるため、説明を繰り返さない。
検知音特定部104(k)(k=1〜3)は、対応するFFT分析部103(k)(kの値が同じもの)が求めた周波数スペクトルに対して、周波数帯域j(j=1〜M)ごとに検知音特定部104(k,j)(k=1〜3、j=1〜M)を用いて検知音の時刻部分を特定する(ステップS601(k)、ステップS601(k,j)(k=1〜3、j=1〜M))。この後の説明はj番目の周波数帯域に関してのみ行う。この例では、j番目の周波数帯域の周波数はfである。
検知音特定部104(k,j)は、1/fの時間間隔の時刻から選択された複数の時刻における周波数スペクトルを用いて、類似度の空間を、上記周波数スペクトルの位相成分のヒストグラムを作成することにより求める。検知音特定部104(k,j)は、類似度がしきい値以上となる周波数スペクトルのかたまりを、検知音の周波数スペクトルと特定する(ステップS601(k,j))。
類似度算出部301(k,j)は、周波数スペクトル特定部300(k,j)が特定した周波数スペクトルを用いて、上記周波数スペクトルの位相成分のヒストグラムを作成することにより類似度の空間を求める(ステップS801(k,j))。以下、類似度の空間を求める方法について説明する。
周波数スペクトル特定部300(k,j)が特定した周波数スペクトルを、数1、数2で表すこととする。ここで、以下の式を用いて位相成分を抽出する。
Figure 0004339929
図37に、周波数スペクトルの位相成分のヒストグラムを作成する方法の一例を示す。ここでは、位相区間がΔψ(i)(i=1〜4)で、位相が時間に対して2πfの傾きで変化する帯領域ごとの、所定の時間幅における周波数スペクトルの出現頻度を求めることでヒストグラムを作成する。図37の斜線で示されている部分はΔψ(1)の領域である。ここでは位相を0〜2πの間に制限して表現しているためにとびとびの領域になっている。ここで、Δψ(i)(i=1〜4)ごとにそれらの領域に含まれる周波数スペクトルの数をカウントすることでヒストグラムを作成することができる。
図38A及び図38Bに、周波数スペクトル特定部300(k,j)が特定した周波数スペクトルの一例と、上記特定された周波数スペクトルの位相成分のヒストグラムの一例とをそれぞれ示す。
図38Aに、特定された周波数スペクトルを示す。図38Aの表示の方法は、図16(b)と同じであるので説明を繰り返さない。この例では、特定された周波数スペクトルの中に音声A(検知音に対応)と音声B(検知音に対応)と暗騒音(雑音に対応)との周波数スペクトルが含まれている。
図38Bに、周波数スペクトルの位相成分のヒストグラムの一例を模式的に示す。音声Aの周波数スペクトルのかたまりは類似した位相(この例では100度の近傍)をもち、音声Bの周波数スペクトルのかたまりは類似した位相(この例では190度の近傍)をもつ。このため、ヒストグラムの100度の近傍と190度の近傍に山ができている。また、暗騒音の周波数スペクトルは異なる位相をもつため、ヒストグラムでは山ができていない。
最後に、検知音特定部302(k,j)は、類似度算出部301(k,j)が求めた類似度の空間(ヒストグラム)から、類似度がしきい値以上となる周波数スペクトルのかたまりを、検知音の周波数スペクトルと特定する(ステップS802(k,j))。
図39に、類似度の空間から類似度がしきい値以上となる周波数スペクトルのかたまりを、検知音の周波数スペクトルと特定する方法の一例を示す。図39の表示の方法は、図38Bと同じであるので説明を繰り返さない。図39のヒストグラムにおいて、類似度がしきい値以上の周波数スペクトルのかたまり(この例では位相差が30度以内の類似したもの)を、検知音の周波数スペクトルと特定する。この例では、100度近傍の周波数スペクトルのかたまりと、190度近傍の周波数スペクトルのかたまりとが、検知音の周波数スペクトルと特定される。これらはそれぞれ音声Aと音声Bに対応している。暗騒音の周波数スペクトルは異なる位相をもつため、類似度がしきい値より小さくなる。
このように、音声Aと音声Bというように異なる位相に対応する周波数スペクトルが複数含まれる場合でも、暗騒音を除去して音声Aと音声Bの周波数スペクトルを区別して抽出することができる。
かかる構成によれば、類似度の空間を、周波数スペクトルの位相成分のヒストグラムを作成することにより求めて、類似度がしきい値以上となる周波数スペクトルのかたまりを、検知音の周波数スペクトルと特定する。このことで、音声Aと音声Bというように異なる位相に対応するものが複数含まれる場合でも、暗騒音を除去して音声Aと音声Bの周波数スペクトルを区別して、検知音の周波数スペクトルと特定することができるという効果がある。つまり、実施の形態1で説明したように、例えば、図18に示すような分析対象とされる20msecの時間幅内に、音声Aと音声Bとの周波数スペクトルが混在するような場合には、類似度を計算すると類似度が低くなってしまい、雑音とみなされる場合がある。これは、局所的に雑音か否かの判断を行なっているからである。しかし、周波数スペクトルの位相成分のヒストグラムを用いる方法は、局所的に雑音か否かの判断を行なうものではない。このため、同じような状況においても音声Aと音声Bの周波数スペクトルを、検知音の周波数スペクトルと特定することができる。よって、音源の方向を正確に特定することができる。
(実施の形態2)
次に、実施の形態2に係る音源方向検知装置について説明する。実施の形態2に係る音源方向検知装置は、実施の形態1に係る音源方向検知装置と異なり、音響信号の周波数スペクトルの位相成分を補正し、補正後の周波数スペクトルを用いて音源の方向を特定する。
図40〜図42は、本発明の実施の形態2における音源方向検知装置の構成を示すブロック図である。図40において、図2と同じ構成要素については同じ符号を用い、説明を繰り返さない。
図40において、音源方向検知装置2800は、3個のマイクロホン102(k)(k=1〜3)と、各マイクロホンに対応した3個のFFT分析部103(k)(k=1〜3)(分析手段に対応)と、各マイクロホンに対応した3個の位相補正部2801(k)(k=1〜3)と、各マイクロホンに対応した3個の検知音特定部2802(k)(k=1〜3)(検知音特定手段に対応)と、方向検知部105(検知手段に対応)とから構成される。
マイクロホン102(k)(k=1〜3)は、音響信号100を入力として受ける。
FFT分析部103(k)(k=1〜3)は、対応するマイクロホン(kの値が同じもの)が入力として受けた音響信号100に対して高速フーリエ変換処理を施し、音響信号100の位相成分を含む周波数スペクトル(周波数信号に対応)を求める。以下では、FFT分析部103(k)(k=1〜3)が求めた周波数スペクトルの周波数帯域の個数をMとして、それらの周波数帯域を指定する番号を記号j(j=1〜M)で表すこととする。以下では、j番目の周波数帯域がf(例えば、中心周波数がf)である場合について説明を行う。ここでの処理は実施の形態1と同じである。
位相補正部2801(k)(k=1〜3)は、対応するFFT分析部103(k)(kの値が同じもの)が求めた周波数スペクトルに対して、周波数帯域j(j=1〜M)ごとに位相補正部2801(k,j)(k=1〜3、j=1〜M)を用いて、位相が等速度でかつ1/fの時間間隔の間に360度回転するという条件のもとで、複数の時刻における周波数スペクトルに対して、時間ずれに起因する位相ずれを補正する(図41を参照)。すなわち、時刻tの周波数スペクトルの位相ψ(t)(ラジアン)をψ(t)−(2πft)に補正を行う。
検知音特定部2802(k)(k=1〜3)は、対応するFFT分析部103(k)(kの値が同じもの)が求めた周波数スペクトルと、対応する位相補正部2801(k)(kの値が同じもの)が位相ずれを補正した周波数スペクトルとを用いて、周波数帯域j(j=1〜M)ごとに検知音特定部2802(k,j)(k=1〜3、j=1〜M)を用いて、位相ずれが補正された分析の対象とする時刻の周波数スペクトルと、位相ずれが補正された、少なくとも分析の対象とする時刻とは異なる複数の時刻における周波数スペクトルとの類似度の総和を求める。また、検知音特定部2802(k)(k=1〜3)は、類似度の総和が第1のしきい値以上となる分析の対象とする時刻を求める。検知音特定部2802(k)(k=1〜3)は、第1のしきい値以上となる時刻のFFT分析部103(k)が求めた周波数スペクトルを、検知音の周波数スペクトルと特定することにより雑音を除去する(図41を参照)。
方向検知部105は、検知音特定部2802(k)(k=1〜3)が特定した検知音の周波数スペクトルを用いて、3個のマイクロホンから得られるマイクロホンの組(マイクロホン102(1)とマイクロホン102(2)、マイクロホン102(2)とマイクロホン102(3)、マイクロホン102(1)とマイクロホン102(3))において、それぞれのマイクロホンに対応した特定された周波数スペクトルが共通に存在する部分の周波数スペクトル同士の一致度合い(相互相関値)を算出する。方向検知部105は、それぞれのマイクロホンの組合せにおいて、相互相関値の極大値から到達時間差を求め、求められた到達時間差とマイクロホン同士の間隔とから音源方向を求める。方向検知部105は、全てのマイクロホンの組合せにおいて、到達時間差がゼロになるように2つのマイクロホンからの周波数スペクトルの時間軸を調整したときに、音源方向を特定する時間区間に占める、検知音特定部により特定された時刻部分のうち前記マイクロホン間で共通の時刻に存在する部分の割合が所定のしきい値より大きい場合に、音源方向106を示す情報を出力する(ステップS602)。なお、別の方法として、方向検知部105は、一部の方向検知部により求められた音源方向を用いて音源方向を求めてもよい。また、方向検知部105は、全ての方向検知部において音源方向が求められなかった場合にも一部の方向検知部により求められた音源方向を用いて音源方向を求めてもよい。
この例では、一致度合いとして相互相関値を用いたが、一致度合いとして周波数スペクトル間の差分誤差を用いても良い。また、この例では、相互相関値の極大値から到達時間差を求めたが、相互相関値の最大値や、しきい値以上の相互相関値の極大値又は最大値や、差分誤差の最小値や、しきい値以下の差分誤差の極小値又は最小値から到達時間差を求めても良い。
図42は、検知音特定部2802(k,j)(k=1〜3,j=1〜M)の構成を示すブロック図である。検知音特定部2802(k,j)は、周波数スペクトル特定部3000(k,j)(k=1〜3、j=1〜M)と、類似度算出部3001(k,j)(k=1〜3,j=1〜M)と、検知音特定部3002(k,j)(k=1〜3,j=1〜M)とから構成される。
周波数スペクトル特定部3000(k,j)は、位相補正部2801(k,j)が位相ずれを補正した周波数スペクトルから、類似度算出部3001(k,j)が類似度の総和を算出するのに用いる周波数スペクトルを特定する。
類似度算出部3001(k,j)は、周波数スペクトル特定部3000(k,j)が特定した位相ずれが補正された周波数スペクトルを用いて類似度の総和を算出する。
検知音特定部3002(k,j)は、類似度算出部3001(k,j)が算出した、類似度の総和が第1のしきい値以上の時刻の周波数スペクトルを、FFT分析部103(k)が求めた周波数スペクトルから特定する。
次に、以上のように構成された音源方向検知装置2800の動作について説明する。
図43〜図45は、音源方向検知装置2800の動作手順を示すフローチャートである。
初めに、FFT分析部103(k)(k=1〜3)は、対応するマイクロホン102(k)(kの値が同じもの)が入力した音響信号100に対して高速フーリエ変換処理を施し、音響信号100の位相成分を含む周波数スペクトルを求める(ステップS600(k)(k=1〜3))。ここでは、実施の形態1と同様の方法に従い周波数スペクトルを求める。
次に、位相補正部2801(k)(k=1〜3)は、対応するFFT分析部103(k)(kの値が同じもの)が求めた周波数スペクトル(周波数はfである)に対して、位相が等速度でかつ1/fの時間間隔の間に360度回転するという条件のもとで、複数の時刻における周波数スペクトルに対して、時間ずれに起因する位相ずれを補正する(ステップS3100(k)、ステップS3100(k,j)(k=1〜3、j=1〜M))。
ここで、図46を用いて、位相が等速度でかつ1/fの時間間隔の間に360度回転するという条件を説明する。横軸は時間軸(秒)を示しており縦軸は位相(度)を表す。図46に示されているように、上記の条件とは、1/f(秒)の時間間隔の間に位相が0度から360度まで直線的に変化して、かつ、1/f(秒)の時間間隔ごとに上記の位相の変化(0度から360度までの直線的な変化)を繰り返すことである。ここでのfの単位はHzである。
図47〜図50を用いて、時間ずれに起因する位相ずれを補正する方法の一例について説明する。図47(a)には、FFT分析部103(k)が求めた周波数スペクトルが模式的に示されており、図47(b)には、図47(a)から分離された周波数スペクトルの位相成分が模式的に示されており、図47(c)には、図47(a)から分離された周波数スペクトルの大きさの成分が模式的に示されている。図47(a)、図47(b)、及び図47(c)の横軸は時間軸(秒)である。図47(a)の表示の方法は図16(b)と同様であるため説明を繰り返さない。図47(b)の縦軸は周波数スペクトルの位相を表しており0度から360度の間の値で示される。図47(c)の縦軸は周波数スペクトルの大きさを表している。周波数スペクトルの位相P及び大きさLは、周波数スペクトル実部を
Figure 0004339929
と表すこととして、周波数スペクトルの虚部を
Figure 0004339929
と表すこととすると、
Figure 0004339929
及び
Figure 0004339929
である。ここでの記号tは周波数スペクトルの時刻を表している。
ここで、図47(b)に示されている周波数スペクトルの位相成分を用いて、時間ずれに起因する位相ずれを補正する。
初めに、基準の時刻を決定する。図48(a)は、図47(b)と同じ内容のものであり、この例では、図48(a)の黒丸印の時刻t0を基準の時刻に決定している。
次に、位相を補正する周波数スペクトルの複数の時刻を決定する。この例では、図48(a)の5個の白丸印の時刻(t1、t2、t3、t4、t5)を、位相を補正する周波数スペクトルの時刻に決定している。
ここで、基準の時刻における周波数スペクトルの位相を
Figure 0004339929
と表すこととして、位相を補正する5個の時刻における周波数スペクトルの位相を
Figure 0004339929
と表すこととする。これらの補正する前の位相を図48(a)において×印で示してある。また、対応する時刻の周波数スペクトルの大きさLを
Figure 0004339929
とする。
次に、図49A及び図49Bに、時刻t2における周波数スペクトルの位相を補正する方法を示す。図49Aと図48(a)とは同じ内容のものである。また、図49Bと図46とは同じ内容のものであり、位相が等速度でかつ1/fの時間間隔の間に360度回転するという条件を示している。ここで、補正したあとの位相を
Figure 0004339929
と表すこととする。図49Bにおいて、上記条件における、基準の時刻である時刻t0と時刻t2との位相ずれを比較すると、時刻t2の位相は時刻t0の位相よりΔPだけ大きい。そこで、図49Aにおいて、基準の時刻である時刻t0の位相Pt0との時間ずれに起因する位相ずれを補正するために、時刻t2の位相Pt2からΔPを差し引いてP’t2を求める。これが補正後の時刻t2の位相である。また、時刻t0の位相は基準の時刻における位相であるので補正後も同じ値となる。具体的には、補正後の位相を
Figure 0004339929
Figure 0004339929
により求める。ただし、位相が0度から360度の範囲に入るように調整して求めている。補正前の位相が1/fの時間間隔の間に360度回転していると仮定すると、補正後の位相はすべてPt0になる。
補正したあとの周波数スペクトルの位相を図48(b)に×印で示す。図48(b)の表示の方法は図48(a)と同様であるため説明を繰り返さない。
最後に、補正された周波数スペクトルの位相P’と補正前の周波数スペクトルの大きさLとを用いて補正後の周波数スペクトルを求める。ここでは、補正後の周波数スペクトル実部を
Figure 0004339929
と表すこととして、補正後の周波数スペクトルの虚部を
Figure 0004339929
と表すこととする。
図50に、補正後の周波数スペクトルを求める方法の一例を示す。図50(a)は、図48(b)と同じ内容のものである。図50(b)は、図47(c)と同じ内容のものであり、時刻t0、t1、t2、t3、t4、t5における補正前の周波数スペクトルの大きさを×印で示している。補正された周波数スペクトルの位相P’と補正前の周波数スペクトルの大きさLを用いて
Figure 0004339929
Figure 0004339929
により補正後の周波数スペクトルを求める。
図50(c)に、補正後の周波数スペクトルを×印で示す。図50(c)の表示の方法は、図47(a)と同じであるので説明を繰り返さない。補正後の周波数スペクトルは、位相が等速度でかつ1/fの時間間隔の間に360度回転するという条件のもとで、時間ずれに起因する位相ずれが補正された周波数スペクトルである。
次に、検知音特定部2802(k)(k=1〜3)は、対応するFFT分析部103(k)(kの値が同じもの)が求めた周波数スペクトルと、対応する位相補正部2801(k)(kの値が同じもの)が位相ずれを補正した周波数スペクトルとを用いて、周波数帯域j(j=1〜M)ごとに検知音特定部2802(k,j)(k=1〜3、j=1〜M)を用いて、位相ずれが補正された分析の対象とする時刻の周波数スペクトルと、位相ずれが補正された、少なくとも分析の対象とする時刻とは異なる複数の時刻における周波数スペクトルとの類似度の総和を求める。検知音特定部2802(k)(k=1〜3)は、類似度の総和が第1のしきい値以上となる分析の対象とする時刻を求めて、第1のしきい値以上となる時刻のFFT分析部103(k)が求めた周波数スペクトルを、検知音の時刻部分の周波数スペクトルと特定することにより雑音を除去する(ステップS3101(k)、ステップS3101(k,j)(k=1〜3、j=1〜M))。
初めに周波数スペクトル特定部3000(k,j)(k=1〜3、j=1〜M)は、位相補正部2801(k,j)(k=1〜3、j=1〜M)が求めた位相ずれが補正された周波数スペクトルから、類似度算出部3001(k,j)(k=1〜3、j=1〜M)が類似度の総和の算出に用いる周波数スペクトルを特定する(ステップS3300(k,j)(k=1〜3、j=1〜M))。ここでは、分析の対象とする時刻をt0として、分析の対象とする時刻の補正後の周波数スペクトルとの類似度の総和を求める補正後の周波数スペクトルの時刻をt1、t2、t3、t4、t5とする。ここでの類似度の総和を求めるために用いる補正後の周波数スペクトルの時刻および時間幅は、抽出する音の特徴に基づいて決定する。
次に、類似度算出部3001(k,j)(k=1〜3、j=1〜M)が、周波数スペクトル特定部3000(k,j)(k=1〜3、j=1〜M)が特定した補正後の周波数スペクトルを用いて類似度の総和を算出する(ステップS3301(k,j)(k=1〜3、j=1〜M))。以下、類似度の総和の算出方法について説明する。この例では、分析の対象とする時刻をt0として、分析の対象とする時刻の補正後の周波数スペクトルとの類似度の総和を求める補正後の周波数スペクトルの時刻をt1、t2、t3、t4、t5としている。ここでは、類似度として相関値を用いることとする。類似度の総和Sは、
Figure 0004339929
を用いて算出される。
ここで、その他の類似度の総和Sの計算方法を以下に示す。相関値の計算において、総和した類似度の数で正規化する方法である
Figure 0004339929
や、分析の対象とする時刻の周波数スペクトルとの類似度も加える方法である
Figure 0004339929
や、周波数スペクトルの大きさで正規化された相関値を用いる方法である
Figure 0004339929
や、周波数スペクトルの距離の逆数を用いる方法である
Figure 0004339929
や、位相成分の距離の逆数を用いる方法である
Figure 0004339929
などがある。ここで
Figure 0004339929
はSが無限大に発散しないための予め定められた小さな値である。
また、分析の対象とする時刻をt2として、分析の対象とする時刻の補正後の周波数スペクトルとの類似度の総和を求める補正後の周波数スペクトルの時刻をt0、t1、t3、t4、t5としたときの類似度の総和の一例を以下に示す。
Figure 0004339929
この例では、周波数スペクトル特定部3000(k,j)が、位相補正部2801(k,j)が求めた位相ずれが補正された周波数スペクトルから、類似度算出部3001(k,j)が類似度の総和の算出に用いる周波数スペクトルを特定したが、他の方法として、位相補正部2801(k,j)が位相ずれを補正する周波数スペクトルを、あらかじめ周波数スペクトル特定部3000(k,j)が特定しておいて、位相補正部2801(k,j)によりすでに特定された位相ずれが補正された周波数スペクトルを用いて、類似度算出部3001(k,j)が類似度の総和を求めるようにしてもよい。
次に、検知音特定部3002(k,j)(k=1〜3、j=1〜M)は、類似度の総和Sが第1のしきい値以上となる時刻の、対応するFFT分析部103(k)(kの値が同じもの)が求めた周波数スペクトルを、検知音の時刻部分の周波数スペクトルと特定する(ステップS3302(k,j)(k=1〜3、j=1〜M))。
第1のしきい値をAと表すとすると、
Figure 0004339929
の条件を満たす時刻の周波数スペクトルを、対応するFFT分析部103(k)(kの値が同じもの)が求めた周波数スペクトルから特定する。
最後に、方向検知部105は、検知音特定部2802(k)(k=1〜3)が特定した検知音の周波数スペクトルを用いて、3個のマイクロホンから得られるマイクロホンの組(マイクロホン102(1)とマイクロホン102(2)、マイクロホン102(2)とマイクロホン102(3)、マイクロホン102(1)とマイクロホン102(3))において、それぞれのマイクロホンに対応した特定された周波数スペクトルが共通に存在する部分の周波数スペクトル同士の相互相関値を算出する。方向検知部105は、相互相関値の極大値から到達時間差を求め、求められた到達時間差とマイクロホン同士の間隔とから音源方向を特定して、音源方向106を示す情報を出力する(ステップS602)。この例では、相互相関値の極大値から到達時間差を求めたが、相互相関値の最大値や、しきい値以上の相互相関値の極大値や、差分誤差の極小値や、差分誤差の最小値や、しきい値以下の差分誤差の極小値から到達時間差を求めてもよい。
かかる構成によれば、割合判定部500(1,j)が、全ての音源の方向に対応する相互相関値に対して、前記割合が前記第2のしきい値以上のときにのみ音源方向を特定する。このため、雑音の影響により、実際の音源の方向に対応する相互相関値が算出できない場合においても、誤った音源の方向を特定することを回避することができる。
また、検知音特定部2802(k)が、位相成分が歪んだ雑音部分(暗騒音などの白色雑音の部分、または混合音が原因で歪んだ雑音の部分)を特定して、検知音の時刻部分を精度良く特定できる。
また、検知音の時刻部分を特定するときに、位相補正部2801(k)で時間ずれに起因する位相ずれを補正できる。このため、時間ずれに起因する位相ずれが起こらない1/fの時間間隔の時刻の周波数スペクトルを必ずしも用いる必要がない。このため、1/fの時間間隔よりも短い時間の音響信号に対しても雑音を特定できるという効果もある。
また、方向検知部が、相互相関値の算出に用いる時間区間における、それぞれのマイクロホンに対応した特定された時刻部分の周波数スペクトルが共通に存在する部分の割合が第2のしきい値よりも小さいときに、その相互相関値に対応する方向を音源方向の候補から除去する。このことで、誤差が大きくなる音源方向の候補を除去してから音源の方向を特定することができる。
また、検知音の時刻部分を特定するときに、類似度として相関値を用いる。このことで、周波数スペクトルの大きさのずれには着目せずに位相のずれを判定することができる。このため、周波数スペクトルの大きさが小さい音響信号に対しても位相成分が歪んだ雑音部分を特定することができるという効果がある。また、方向検知部における相互相関値との尺度における整合が取れる。
本発明の雑音部分の特定に関する考え方は、暗騒音などの白色雑音または混合音が原因で歪んだ雑音部分は、位相成分が歪んでおり、類似度の総和Sが第1のしきい値Aよりも小さくなるという考え方に基づいている。
なお、本実施の形態において、3個のマイクロホンのそれぞれに対応した3個のFFT分析部と3個の検知音特定部とを設けたが、1つのFFT分析部と1つの検知音特定部とを共有して各マイクロホンが入力した音響信号を処理しても良い。
なお、本実施の形態において、時間及び周波数ごとに音源の方向を特定したが、時間軸方向に音源の方向のヒストグラムをとり最大値をとる音源方向を音源の方向に特定しても良いし、時間軸方向に音源の方向を平均化して音源の方向を特定しても良い。
また、本実施の形態において、時間及び周波数ごとに音源の方向を特定したが、周波数軸方向に音源の方向のヒストグラムをとり最大値をとる音源方向を音源の方向に特定しても良いし、周波数方向に音源の方向を平均化して音源の方向を特定しても良い。
さらに、本実施の形態において、マイクロホンの数を3個としたが2個以上あれば良い。
さらにまた、FFT分析部におけるFFTの代わりに、DFT、コサイン変換、ウェーブレット変換、又は、バンドパスフィルタを用いても良い。
なお、本実施の形態において、位相補正部2801(k)と検知音特定部2802(k)を用いて、FFT分析部103(k)が求めた全て(M個)の周波数帯域の周波数スペクトルに対して雑音の除去を行い音源の方向を特定したが、一部の周波数帯域を選択し、選択した周波数帯域において雑音の除去を行い音源の方向を特定しても良い。
また、FFT分析部は、ΔTの幅の時間窓を掛けた前記音響信号から前記周波数スペクトルを求めて、前記検知音特定部は、分析の対象とする時刻の前記周波数スペクトルと、分析の対象とする時刻をはさみΔTの時間間隔よりも離れた複数の時刻を含む複数の時刻の前記周波数スペクトルとの類似度の総和を用いて検知音の時刻部分を特定してもよい。本構成によって、分析の対象とする時刻をはさみΔTの時間間隔(周波数スペクトルを求めるときの時間窓の幅)よりも離れた時刻を含む複数の時刻の前記周波数スペクトルとの類似度の総和を用いることで、時間分解能(ΔT)を細かくしたときの影響による周辺の周波数からの周波数もれによる雑音(歪み)を除去することができる。
(実施の形態2の変形例)
次に、実施の形態2に示した音源方向検知装置の変形例について説明する。
本変形例に係る音源方向検知装置は、図40〜図42を参照して説明した実施の形態2に係る音源方向検知装置と同様の構成を有する。ただし、検知音特定部2802(k)(k=1〜3)が実行する処理が異なる。
検知音特定部2802(k)(k=1〜3)は、対応するFFT分析部103(k)(kの値が同じもの)が求めた周波数スペクトルと、対応する位相補正部2801(k)(kの値が同じもの)が位相ずれを補正した周波数スペクトルとを用いて、周波数帯域j(j=1〜M)ごとに検知音特定部2802(k,j)(k=1〜3、j=1〜M)を用いて、位相ずれが補正された周波数スペクトルを用いて、類似度の空間を、上記周波数スペクトルの位相成分のヒストグラムを作成することにより求める。検知音特定部2802(k)(k=1〜3)は、類似度がしきい値以上となる周波数スペクトルのかたまりを、検知音の周波数スペクトルと特定する。
類似度算出部3001(k,j)は、周波数スペクトル特定部3000(k,j)が特定した位相ずれが補正された周波数スペクトルの位相成分のヒストグラムを作成することにより類似度の空間を求める。検知音特定部3002(k,j)は、類似度算出部3001(k,j)が求めた類似度の空間から類似度がしきい値以上となるFFT分析部103(k)が求めた周波数スペクトルのかたまりを、検知音の周波数スペクトルと特定する。
次に、以上のように構成された音源方向検知装置2800の動作について説明する。音源方向検知装置2800の処理手順を示すフローチャートは、実施の形態2と同様であり、図43〜図45に示されている。
以下の説明では、音源方向検知装置2800のうち検知音特定部2802(k)(k=1〜3)が実行する処理についてのみ説明する。その他の処理部が実行する処理は実施の形態2と同様であるため、説明を繰り返さない。
検知音特定部2802(k,j)は、位相補正部2801(k,j)が求めた位相ずれが補正された周波数スペクトルを用いて、類似度の空間を、上記周波数スペクトルの位相成分のヒストグラムを作成することにより求める。検知音特定部2802(k,j)は、類似度がしきい値以上となるFFT分析部103(k)が求めた周波数スペクトルのかたまりを、検知音の周波数スペクトルと特定することにより雑音を除去する(ステップS3101(k)、ステップS3101(k,j)(k=1〜3、j=1〜M))。
類似度算出部3001(k,j)(j=1〜M)は、周波数スペクトル特定部3000(k,j)が特定した位相が補正された後の周波数スペクトルを用いて、上記周波数スペクトルの位相成分のヒストグラムを作成することにより類似度の空間を求める(ステップS3301(k,j)(j=1〜M))。
補正後の周波数スペクトルの位相成分を、数26で表すこととする。
図51に、周波数スペクトルの位相成分のヒストグラムを作成する方法の一例を示す。ここでは、位相区間がΔψ(i)(i=1〜4)で、位相が時間に対して2πfの傾きで変化する帯領域ごとの所定の時間幅における周波数スペクトルの出現頻度を求めることでヒストグラムを作成する。図51の斜線で示されている部分はΔψ(1)の領域である。ここでは周波数スペクトルの位相は、時間に対して2πfの傾きがゼロになるように補正されているため横軸と平行な領域になっている。ここで、Δψ(i)(i=1〜4)ごとにそれらの領域に含まれる周波数スペクトルの数をカウントすることでヒストグラムを作成することができる。
以下の処理は、実施の形態1の変形例と同じであるので説明を繰り返さない(図38B、図39を参照)。
かかる構成によれば、類似度の空間を、周波数スペクトルの位相成分のヒストグラムを作成することにより求めて、類似度がしきい値以上となる周波数スペクトルのかたまりを、検知音の周波数スペクトルと特定することで、音声Aと音声Bというように異なる位相に対応するものが複数含まれる場合でも、暗騒音(雑音に対応)を除去して音声A(検知音に対応)と音声B(検知音に対応)の周波数スペクトルを区別して検知音の周波数スペクトルと特定することができるという効果がある。よって、音源の方向を正確に特定することができる。
なお、検知音特定手段(検知音特定部)として、以下に示す雑音除去装置を用いても良い。
雑音除去装置は、音響信号の、少なくとも1つの周波数fにおける、位相成分を含む周波数スペクトルを生成するスペクトル生成手段と、所定の時間幅に含まれる前記周波数スペクトルにおいて、分析の対象とする周波数スペクトルと、前記所定の時間幅に含まれる周波数スペクトルから任意に選択される一定の数以上から構成される周波数スペクトルの組との類似度が、いずれの組に対しても一定の値より大きくならない前記分析の対象とする周波数スペクトルを除去する検知音特定手段とを備え、前記類似度は、時刻tの周波数スペクトルの位相をψ(t)(ラジアン)とするときにψ(t)−(2πft)で定義される空間での位相の類似度であることを特徴とする。
この構成によると、位相成分が歪んだ雑音部分(暗騒音などの白色雑音の部分、または混合音が原因で歪んだ雑音の部分)を特定して、検知音の時刻部分を精度良く特定することができる。
好ましくは、前記スペクトル生成手段は、前記音響信号に所定の時間窓幅の窓関数を掛け合わせ、当該窓関数が掛け合わされた後の音響信号から前記周波数スペクトルを生成し、前記所定の時間窓幅は前記所定の時間幅より小さいことを特徴とする。
この構成によると、周波数スペクトルを求める際に用いられた所定の時間窓幅よりも離れた時刻を含む周波数スペクトルを用いて類似度を求めることができる。これにより、周波数スペクトルの時間分解能を細かくしたときの影響による周辺の周波数からの周波数もれによる雑音(歪み)を除去することができる。
このことについて説明を加える。ここでは、音響信号2401として、100Hzと200Hzと300Hzとの正弦波の混合音を用いた場合を一例として説明を行う。この例では、混合音中の200Hzの正弦波において、100Hzと300Hzとの正弦波からの周波数もれによる雑音(歪み)を除去することを目的とする。
図52は、この変形例に係る雑音除去装置の構成を示すブロック図である。
雑音除去装置110は、DFT分析部1106と、検知音特定部113とを含む。DFT分析部1106および検知音特定部113は、コンピュータ上で各処理部の機能を実現するためのプログラムを実行することにより実現される。
DFT分析部1106は、入力された音響信号2401に対して離散フーリエ変換処理を施し、音響信号2401の位相成分を含む周波数スペクトルを求める処理部である。以下では、DFT分析部1106で求められた周波数スペクトルの周波数帯域の個数をMとして、それらの周波数帯域を指定する番号を記号jで表すこととする。
検知音特定部113は、検知音特定部113(j)(j=1〜M)を含む。検知音特定部113は、DFT分析部1106が求めた周波数スペクトルに対して、周波数帯域j(j=1〜M)ごとに検知音特定部113(j)(j=1〜M)を用いて雑音の除去を行う処理部である。以下では、j番目の周波数帯域がf(例えば、中心周波数がf)である場合について説明を行う。検知音特定部113(j)は、1/fの時間間隔の時刻から選択される複数の時刻における周波数スペクトルを用いて、上記複数の時刻のうち分析の対象とする時刻の周波数スペクトルと、上記複数の時刻のうち少なくとも上記時刻とは異なる複数の時刻における周波数スペクトルとの類似度の総和を求める。また、検知音特定部113(j)は、当該類似度の総和が一定のしきい値以下となる上記分析の対象とする時刻の周波数スペクトルを特定して、特定した周波数スペクトルを除去することにより雑音を除去する。そして、検知音特定部113は、雑音が除去されたM個の周波数帯域における周波数スペクトルをまとめることで出力スペクトル2408を作成する。
検知音特定部113(j)(j=1〜M)は、図42に示した検知音特定部2802(k,j)と同様の構成を有する。
図53に、100Hzと200Hzと300Hzとの正弦波の混合音を用いた場合の、200Hzにおける周波数スペクトルの時間波形の一例を示す。図53(a)には200Hzにおける周波数スペクトルの実部の時間波形が、図53(b)には200Hzにおける周波数スペクトルの虚部の時間波形が示されている。横軸は時間軸(秒)であり縦軸は周波数スペクトルの振幅を表す。ここでは50msの時間長の時間波形が示されている。
図54に、図53に示した音響信号2401を作成するときに用いた200Hzの正弦波の、200Hzにおける周波数スペクトルの時間波形を示す。表示の方法は図53と同じであるため説明を繰り返さない。
図53と図54とから、音響信号2401において、200Hzの正弦波が、100Hzと300Hzとの正弦波からの周波数もれの影響により歪んでいる部分(雑音部分)が存在することがわかる。
図55は、雑音除去装置110の動作手順を示すフローチャートである。
初めに、DFT分析部1106は、音響信号2401を入力として受け、入力された音響信号2401に対して離散フーリエ変換処理を施し、音響信号2401の位相成分を含む周波数スペクトルを求める(ステップS300)。この例における離散フーリエ変換処理の条件としては、サンプリング周波数=16000Hzの音響信号2401に対して時間窓の幅ΔT=5ms(80pt)のハニング窓を用いることで処理している。また、時間軸方向には1pt(0.0625ms)の時間シフトを行いながら各時刻における周波数スペクトルを求めている。この処理結果における周波数スペクトルの時間波形を表示したものが図53である。
次に、検知音特定部113は、DFT分析部1106が求めた周波数スペクトルに対して、周波数帯域j(j=1〜M)ごとに検知音特定部113(j)(j=1〜M)を用いて雑音の除去を行う(ステップS301(j)(j=1〜M))。この例では、M=1であり、j=1番目の周波数帯域の周波数はf=200Hzである。
検知音特定部113(1)(j=1)では、1/fの時間間隔の時刻から選択された複数の時刻における周波数スペクトルを用いて、分析の対象とする時刻の周波数スペクトルと、少なくとも上記時刻とは異なる複数の時刻における周波数スペクトルとの類似度の総和が一定のしきい値以下となる分析の対象とする時刻の周波数スペクトルを特定して、特定した周波数スペクトルを除去することにより雑音を除去する(ステップS301(1)(j=1))。
初めに、検知音特定部113(1)(j=1)の周波数スペクトル特定部が、実施の形態1に示した例と同様にして、1/fの時間間隔の時刻から選択された複数の時刻における周波数スペクトルを特定する(ステップS400(1)(j=1))。
ここで、実施の形態1に示した例と異なる部分は、検知音特定部113(1)(j=1)の類似度算出部が類似度の総和の算出に用いる周波数スペクトルの時間範囲である。実施の形態1に示した例では、時間範囲は20msであり、周波数スペクトルを求めるときに用いた時間窓の幅ΔT(=64ms)よりも時間幅が短かった。この例では、時間範囲を100msとしており、周波数スペクトルを求めるときに用いた時間窓の幅ΔT(=5ms)よりも時間幅が長く設定されている。
次に、検知音特定部113(1)(j=1)の類似度算出部が、検知音特定部113(1)(j=1)の周波数スペクトル特定部が特定した全ての周波数スペクトルを用いて類似度の総和を算出する(ステップS401(1)(j=1))。ここでの処理は実施の形態1に示した例の処理と同じであるので説明を繰り返さない。
最後に、検知音特定部113(1)(j=1)の検知音特定部が、類似度の総和Sがしきい値以下となる分析の対象とする時刻の周波数スペクトルを特定して、特定した周波数スペクトルを除去することにより雑音を除去する(ステップS402(1)(j=1))。ここでの処理は実施の形態1に示した例の処理と同じであるので説明を繰り返さない。
図56に、図53に示した音響信号2401から抽出された200Hzにおける周波数スペクトルの時間波形を示す。表示方法において図53と共通する部分の説明は繰り返さない。図56において、斜線部分の領域は雑音部分として除去された領域である。図56と、図53及び図54とを比較すると、音響信号2401から100Hzと300Hzとの正弦波からの周波数もれによる雑音(歪み)を除去されて、200Hzの正弦波が抽出されていることがわかる。
実施の形態1および実施の形態1の変形例にかかる構成によれば、分析の対象とする時刻における周波数スペクトルと分析の対象とする時刻をはさみ、かつΔTの時間間隔(周波数スペクトルを求めるときの時間窓の幅)よりも離れた時刻を含む複数の時刻の周波数スペクトルとの類似度の総和を用いることで、時間分解能(ΔT)を細かくしたときの影響による周辺の周波数からの周波数もれによる雑音(歪み)を除去することができるという効果がある。
好ましくは、前記検知音特定手段は、前記所定の時間幅に含まれる周波数スペクトルから1/fの時間間隔の時刻における周波数スペクトルを特定し、前記特定された周波数スペクトルを用いて類似度を求めることを特徴とする。
この構成によると、ψ(t)−(2πft)で定義される空間での位相の類似度をψ(t)で定義される空間で求めることができるため、類似度の算出方法が簡単になり、位相の補正を行うための計算量を削減することができる。
好ましくは、雑音除去装置は、さらに、時刻tの周波数スペクトルの位相ψ(t)(ラジアン)をψ(t)−(2πft)に補正する位相補正手段を備え、前記検知音特定手段は、前記位相が補正された前記周波数スペクトルを用いて前記類似度を求めることを特徴とする。
この構成によると、1/fの時間間隔よりも細かい時間間隔で音響信号を詳細に分析できる。これにより、1/fの時間間隔よりも短い時間の音響信号に対しても雑音を除去できる。
好ましくは、前記類似度は、分析の対象とする周波数スペクトルと、前記周波数スペクトルの組を構成する各周波数スペクトルとの各々の類似度の総和であることを特徴とする。
この構成によると、周波数スペクトルの組を構成する各周波数スペクトルの1つ1つの類似度を詳細に求めることができる。
さらに好ましくは、前記類似度は時刻tの周波数スペクトルの位相ψ(t)(ラジアン)とするときにψ(t)−(2πft)で定義される空間での、位相区間ごとの前記所定の時間幅に含まれる周波数スペクトルの出現頻度であり、分析の対象とする周波数スペクトルと、前記出現頻度を求める全ての周波数スペクトルとの各々の類似度を、類似度を求める2つの周波数スペクトルが同一の位相区間に存在する場合は「1」、異なる位相区間に存在する場合は「0」として前記類似度の総和を求めることを特徴とする。
この構成によると、音響信号中の位相が異なる複数の音声(検知音)が含まれている場合でも、位相成分が歪んだ雑音部分を除去して複数の音声の周波数スペクトルを区別して抽出することができる。
ここで別の音響信号における分析結果についての考察を行う。図57に、f=200Hzの周波数を分析した結果を示す。図58に、f=150Hzの周波数を分析した結果を示す。図57、図58ともに、音響信号として200Hzの正弦波と白色雑音とを用いて分析した結果である。
図57(a)は、音響信号として200Hzの正弦波を用いて位相を分析した結果である。ここでは位相の補正は行っていない。この結果より、所定の時間幅において、位相は時刻に対して2π×200の傾きで変化している。ここでは、200Hzの周波数の分析を行っており、位相が時刻に対して2π×200の傾きで変化する直線と音響信号の位相との所定の時間幅における類似度は大きくなる。そして、一定の数以上の音響信号(所定の時間幅における全ての音響信号)との類似度は一定の値より大きくなる。このため、音響信号である200Hzの正弦波は除去されずに抽出することができる。ここでの類似度は、例えば、所定の時間幅においてこの直線と音響信号の位相との誤差(位相は0度と360度が同じでトーラス上になっていることを考慮した誤差)を求めて逆数をとれば求めることができる。
図57(b)は、音響信号として200Hzの正弦波を用いて位相を分析した結果である。ここでは位相の補正を行っている。この結果より、所定の時間幅において、位相は時刻に対してΔψの幅(この例ではπ/2)で一定の値を持つことがわかる。これより、位相が時刻に対して2π×200の傾きで変化する直線を位相補正した傾きゼロの直線と音響信号の位相補正した位相との所定の時間幅における類似度は大きくなる。そして、一定の数以上の音響信号(所定の時間幅における全ての音響信号)との類似度は一定の値より大きくなる。このため、音響信号である200Hzの正弦波は除去されずに抽出することができる。
図57(c)は、音響信号として白色雑音を用いて位相を分析した結果である。分析する時間幅や類似度を求める周波数スペクトルの数の下限値や類似度のしきい値などの分析条件は図57(a)と同じである。ここでは位相の補正は行っていない。この結果より、所定の時間幅において、位相は時刻に対して2π×200の傾きで変化していないことがわかる。ここでは、200Hzの周波数の分析を行っており、位相が時刻に対して2π×200の傾きで変化する直線と音響信号の位相との所定の時間幅における類似度は小さくなる。そして、一定の数以上の音響信号(所定の時間幅における全ての音響信号)との類似度は一定の値以下になる。このため、白色雑音を除去することができる。図57(a)の結果と合わせると、200Hzの正弦波を抽出して白色雑音を除去することができる。
図57(d)は、音響信号として白色雑音を用いて位相を分析した結果である。分析する時間幅や類似度を求める周波数スペクトルの数の下限値や類似度のしきい値などの分析条件は図57(b)と同じである。ここでは位相の補正を行っている。この結果より、所定の時間幅において、位相は時刻に対してΔψの幅(この例ではπ/2)で一定の値を持たないことがわかる。このため、一定の数以上の音響信号(所定の時間幅における全ての音響信号)との類似度は一定の値以下になり白色雑音を除去することができる。図57(b)の結果と合わせると、200Hzの正弦波を抽出して白色雑音を除去することができる。ただし、200Hzの正弦波を抽出する場合は、Δψの幅をπ/3やπ/4と小さくしても白色雑音を除去することができる。
図58(a)は、音響信号として200Hzの正弦波を用いて位相を分析した結果である。分析する時間幅や類似度を求める周波数スペクトルの数の下限値や類似度のしきい値などの分析条件は図57(a)と同じである。ここでは位相の補正は行っていない。この結果より、所定の時間幅において、位相は時刻に対して2π×200の傾きで変化している。ここでは、150Hzの周波数の分析を行っており、位相が時刻に対して2π×150の傾きで変化する直線と音響信号の位相との所定の時間幅における類似度は小さくなる。そして、一定の数以上の音響信号(所定の時間幅における全ての音響信号)との類似度は一定の値以下になる。このため、音響信号である200Hzの正弦波からの150Hzの周波数帯域への周波数もれを除去することができる。
また、別の効果として、ここでの分析は中心周波数を150Hzとして周波数分析を行っているが200Hzを含む周波数分析になっている。このとき、中心周波数150Hzの周波数スペクトルに対して、位相が時刻に対して2π×200の傾きで変化する直線と音響信号の位相との所定の時間幅における類似度を求め、類似度が一定の値より大きい周波数スペクトルを抽出すれば200Hzの周波数スペクトルを抽出することができる。また、中心周波数150Hzの周波数スペクトルから音響信号に200Hzの周波数スペクトルが存在するか否かも求めることができる。
図58(b)は、音響信号として200Hzの正弦波を用いて位相を分析した結果である。分析する時間幅や類似度を求める周波数スペクトルの数の下限値や類似度のしきい値などの分析条件は図57(b)と同じである。ここでは位相の補正を行っている。ここでは、150Hzの周波数の分析を行っている。この結果より、所定の時間幅において、位相は時刻に対してΔψの幅(この例ではπ/2)で一定の値を持たないことがわかる。このため、一定の数以上の音響信号(所定の時間幅における全ての音響信号)との類似度は一定の値以下になる。このため、音響信号である200Hzの正弦波からの150Hzの周波数帯域への周波数もれを除去することができる。
図58(c)は、音響信号として白色雑音を用いて位相を分析した結果である。分析する時間幅や類似度を求める周波数スペクトルの数の下限値や類似度のしきい値などの分析条件は図57(a)と同じである。ここでは位相の補正は行っていない。この結果より、所定の時間幅において、位相は時刻に対して2π×150の傾きで変化していないことがわかる。このため、音響信号の位相同士の類似度は一定の値以下になり白色雑音を除去することができる。
図58(d)は、音響信号として白色雑音を用いて位相を分析した結果である。ここでは位相の補正を行っている。この結果より、所定の時間幅において、位相は時間に対してΔψの幅(この例ではπ/2)で一定の値を持っていないことがわかる。このため、一定の数以上の音響信号(所定の時間幅における全ての音響信号)との類似度は一定の値以下になり白色雑音を除去することができる。
図59に、バイク音を分析した結果を示す。図59(a)は、バイク音のスペクトログラムを示しており黒い部分がバイク音の部分である。バイクが通過したときのドップラーシフトが現れている。図59(b)、図59(c)、図59(d)ともに、位相補正を行った場合の位相の時間変化を示している。分析する時間幅や類似度を求める周波数スペクトルの数の下限値や類似度のしきい値などの分析条件は図57(d)、図58(d)と同じである。
図59(b)は、バイク音の周波数スペクトルの部分である120Hzの周波数帯域を分析した結果であり、位相は時間に対してΔψの幅(この例ではπ/2)で一定の値を持つことがわかる。これより、位相が時刻に対して2π×120の傾きで変化する直線を位相補正した傾きゼロの直線と音響信号の位相補正した位相との所定の時間幅における類似度は大きくなる。図57(d)、図58(d)の結果と合わせると、バイク音の周波数スペクトルを特定して白色雑音を除去することができる。
図59(c)は、バイク音の別の周波数スペクトルの部分である140Hzの周波数帯域を分析した結果であり、位相は時間に対してΔψの幅(この例ではπ/2)で一定の値を持つことがわかる。これより、位相が時刻に対して2π×140の傾きで変化する直線を位相補正した傾きゼロの直線と音響信号の位相補正した位相との所定の時間幅における類似度は大きくなる。図57(d)、図58(d)の結果と合わせると、バイク音の周波数スペクトルを特定して白色雑音を除去することができる。
図59(d)は、雑音の周波数スペクトルの部分である80Hzの周波数帯域を分析した結果であり、位相は時間に対してΔψの幅(この例ではπ/2)で一定の値を持たないことがわかる。これより、位相が時刻に対して2π×80の傾きで変化する直線を位相補正した傾きゼロの直線と音響信号の位相補正した位相との所定の時間幅における類似度は小さくなる。このため、雑音の周波数スペクトルを除去することができる。
ここでのΔψの幅は、抽出するバイク音の位相の時間特性から実験的に求めている。このΔψの幅は、この例では、ドップラーシフトのバイク音と別の部分のバイク音とで同じ値を用いておりπ/2とした。また、図57(d)、図58(d)の結果より、このΔψの幅を2π/3と大きくしても、白色雑音の位相は一定の値とならないため白色雑音を除去できることがわかる。
ここで雑音として除去される周波数スペクトルと、除去されずに抽出される周波数スペクトルの典型的なパターンについて説明を加える。図60A及び図60Bは、所定の時間幅における音響信号の位相を模式的に示したものである。横軸は時間であり縦軸は位相である。丸印で位相補正された音響信号の周波数スペクトルの位相が示されている。実線で囲まれた周波数スペクトル同士は同じクラスタに属しており類似度が一定の値より大きくなる周波数スペクトルの集まりである。これらのクラスタは多変量解析を用いても求めることができる。同一のクラスタの中に一定の数以上の周波数スペクトルが存在するクラスタの周波数スペクトルは除去されずに抽出され、一定の数より少ない周波数スペクトルしか存在しないクラスタの周波数スペクトルは、一定の数以上の周波数スペクトルとの類似度が一定の値以下になるため雑音として除去される。図60Aに示すように、所定の時間幅に一部分だけ雑音部分が含まれる場合に、その一部分の雑音のみを除去することができる。例えば、図60Bに示すように、2つの抽出したい音が存在する場合にも、所定の時間幅に対して40%以上(ここでは、7個以上)の周波数スペクトルとの類似度が一定の値より大きい周波数スペクトルを特定する(一定の値以下の周波数スペクトルを除去する)ことで2つの音を抽出することができる。
なお、実施の形態1および実施の形態2において、検知音特定部として、従来の雑音除去部を用いてもよい。例えば、非特許文献1に開示されている雑音除去部を用いてもよい。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明にかかる音源方向検知装置は、雑音の影響により誤った方向を出力してしまうことを回避できる。このため、本発明の音源方向検知装置を、例えば、車載用の死角車両(例えば交差点死角に隠れたバイク)を音で検知する装置に組み込めば、実環境である雑音下で死角車両の方向を特定することができて運転者に危険なバイクの存在を知らせることができる。また、本発明の音源方向検知装置を、例えば、テレビ会議装置に組み込めば、雑音下で話者の方向を特定して話者の方向にマイクを向けて音声を収録したり、カメラを向けることができる。また、本発明の音源方向検知装置を、例えば、セキュリティカメラ装置に組み込めば、雑音下で悲鳴や異常音の発生方向を特定してカメラを向けることができる。
図1は、本発明の実施の形態1における音源方向検知装置の外観図である。 図2は、本発明の実施の形態1における音源方向検知装置の全体構成を示したブロック図である。 図3は、本発明の実施の形態1における音源方向検知装置の検知音特定部104(k)を示したブロック図である。 図4は、本発明の実施の形態1における音源方向検知装置の検知音特定部104(k,j)を示したブロック図である。 図5は、本発明の実施の形態1における音源方向検知装置の方向検知部105を示したブロック図である。 図6は、本発明の実施の形態1における音源方向検知装置の方向検知部105における方向検知部400(1)を示したブロック図である。 図7Aは、バイク音(検知音)を周波数fで周波数分析した結果を模式的に示した図である。 図7Bは、暗騒音(雑音)を周波数fで周波数分析した結果を模式的に示した図である。 図8は、本発明の実施の形態1における音源方向検知装置の動作手順を示すフローチャートである。 図9は、本発明の実施の形態1における音源方向検知装置の、検知音の時刻部分を特定するステップS601(k)の動作手順を示すフローチャートである。 図10は、本発明の実施の形態1における音源方向検知装置の、検知音の時刻部分を特定するステップS601(k)における、検知音の時刻部分を特定するステップS601(k,j)の動作手順を示すフローチャートである。 図11は、本発明の実施の形態1における音源方向検知装置の、音源の方向を特定するステップS602の動作手順を示すフローチャートである。 図12は、本発明の実施の形態1における音源方向検知装置の、音源の方向を特定するステップS900(1)における、音源の方向を特定するステップS900(1,j)の動作手順を示すフローチャートである。 図13は、本発明の実施の形態1における音源方向検知装置の、マイクロホンの配置と音響信号100との位置関係を示した図である。 図14は、音響信号100のスペクトログラムの一例を示した図である。 図15は、音響信号100を作成するときに用いた音声1100(検知音)のスペクトログラムの一例を示した図である。 図16は、周波数スペクトルを特定する方法の一例を説明する図である。 図17Aは、周波数スペクトルを特定する方法の他の一例を説明する図である。 図17Bは、周波数スペクトルを特定する方法の他の一例を説明する図である。 図18は、類似度の総和の求め方の一例を説明する図である。 図19は、音響信号100から抽出された音声のスペクトログラムの一例を示した図である。 図20Aは、類似度の総和を求める時間範囲(所定の時間幅)における、音響信号の周波数スペクトルの位相を模式的に示した図である。 図20Bは、類似度の総和を求める時間範囲(所定の時間幅)における、音響信号の周波数スペクトルの位相を模式的に示した図である。 図21Aは、「時間ずれに起因する位相ずれ」について説明するための図である。 図21Bは、「時間ずれに起因する位相ずれ」について説明するための図である。 図22Aは、位相の時間変化が反時計回りになる仕組みについて説明するための図である。 図22Bは、位相の時間変化が反時計回りになる仕組みについて説明するための図である。 図22Cは、位相の時間変化が反時計回りになる仕組みについて説明するための図である。 図23Aは、「時間ずれに起因する位相ずれ」について説明するための図である。 図23Bは、「時間ずれに起因する位相ずれ」について説明するための図である。 図24は、割合判定部500(1,j)の動作における割合を求める方法の一例を説明する図である。 図25は、割合判定部500(1,j)の動作における割合を求める方法の一例を説明する図である。 図26は、割合判定部500(1,j)の動作における割合を求める方法の一例を説明する図である。 図27は、音源の方向に対する相互相関値の関係の一例を示した図である。 図28は、音源方向を算出する方法を模式的に示した図である。 図29は、本発明の実施の形態1における音源方向検知装置の、音源の方向を特定した結果の一例を示した図である。 図30は、音声1100だけの理想的な音源の方向を示した図である。 図31は、割合判定部500(1,j)を用いない場合の、音源の方向を特定した結果の一例を示した図である。 図32は、割合判定部500(1,j)において、全ての方向に対して割合の条件を満たしていなくても音源の方向を特定した場合の結果の一例を示した図である。 図33は、検知音特定部302(k,j)が用いた第1のしきい値の値を最適化した場合の、音源の方向を特定した結果の一例を示した図である。 図34は、マイクロホンの各組が特定した音源の方向から、音源の方向を特定する方法の一例を説明する図である。 図35は、3本のマイクロホンから音源位置を求める方法の一例を示した図である。 図36は、3本のマイクロホンから割合を算出する方法の一例を示した図である。 図37は、周波数スペクトルの位相成分のヒストグラムを作成する方法の一例について説明するための図である。 図38Aは、周波数スペクトル特定部300(k,j)が特定した周波数スペクトルの一例を示す図である。 図38Bは、周波数スペクトル特定部300(k,j)が特定した周波数スペクトルの位相成分のヒストグラムの一例を示す図である。 図39は、類似度の空間から類似度がしきい値以上となる周波数スペクトルのかたまりを特定する方法の一例を示す図である。 図40は、本発明の実施の形態2における音源方向検知装置の全体構成を示したブロック図である。 図41は、本発明の実施の形態2における音源方向検知装置の、位相補正部2801(k)と検知音特定部2802(k)とを示したブロック図である。 図42は、本発明の実施の形態2における音源方向検知装置の検知音特定部2802(k,j)を示したブロック図である。 図43は、本発明の実施の形態2における音源方向検知装置の動作手順を示すフローチャートを示した図である。 図44は、本発明の実施の形態2における音源方向検知装置の、位相ずれを補正するステップS3100(k,j)と、検知音の時刻部分を特定するステップS3101(k,j)との動作手順を示すフローチャートである。 図45は、本発明の実施の形態2における音源方向検知装置の、検知音の時刻部分を特定するステップS3101(k,j)の動作手順を示すフローチャートである。 図46は、位相が等速度でかつ1/fの時間間隔の間に360度回転するという条件を説明する図である。 図47は、時間ずれに起因する位相ずれを補正する方法の一例について説明する図である。 図48は、時間ずれに起因する位相ずれを補正する方法の一例について説明する図である。 図49Aは、時間ずれに起因する位相ずれを補正する方法の一例について説明する図である。 図49Bは、時間ずれに起因する位相ずれを補正する方法の一例について説明する図である。 図50は、時間ずれに起因する位相ずれを補正する方法の一例について説明する図である。 図51は、周波数スペクトルの位相成分のヒストグラムを作成する方法の一例について説明するための図である。 図52は、本発明の実施の形態1における他の雑音除去装置の全体構成を示したブロック図である。 図53は、音響信号2401の200Hzにおける周波数スペクトルの時間波形を示した図である。 図54は、音響信号2401を作成するときに用いた200Hzの正弦波における周波数スペクトルの時間波形を示した図である。 図55は、本発明の実施の形態1における雑音除去装置の、雑音を除去するステップS301(j)の動作手順を示すフローチャートを示した図である。 図56は、音響信号2401から抽出された200Hzにおける周波数スペクトルの時間波形を示した図である。 図57は、音響信号における分析結果についての考察を行うための図である。 図58は、音響信号における分析結果についての考察を行うための図である。 図59は、バイク音を分析した結果を示す図である。 図60Aは、所定の時間幅における音響信号の位相を模式的に示した図である。 図60Bは、所定の時間幅における音響信号の位相を模式的に示した図である。
符号の説明
100、2401 音響信号
101a コンピュータ
101、2800 音源方向検知装置
102(k)(k=1〜3)、4101(1)、4101(2) マイクロホン
103(k)(k=1〜3) FFT分析部
104(k)(k=1〜3)、104(k,j)(k=1〜3、j=1〜M)、113(j)、302(k,j)(k=1〜3、j=1〜M)、3002(k,j)(k=1〜3、j=1〜M)、2802(k)(k=1〜3)、2802(k,j)(k=1〜3、j=1〜M) 検知音特定部
105、400(1)、400(2)、400(3)、401、400(1,j)(j=1〜M) 方向検知部
106 音源方向
110 雑音除去装置
300(k,j)(k=1〜3、j=1〜M)、3000(k,j)(k=1〜3、j=1〜M) 周波数スペクトル特定部
301(k,j)(k=1〜3、j=1〜M)、3001(k,j)(k=1〜3、j=1〜M) 類似度算出部
500(1,j)(j=1〜M) 割合判定部
501(1,j)(j=1〜M) 相関算出部
502(1,j)(j=1〜M) 方向特定部
503(1,j)(j=1〜M) 時間区間特定部
1100 音声
1101〜1103 白色雑音
1106 DFT分析部
2408 出力スペクトル
2801(k)(k=1〜3)、2801(k,j)(k=1〜3、j=1〜M) 位相補正部
4100 音源

Claims (6)

  1. 互いに離間して配置された2つ以上のマイクロホンにて集音された音響信号の各々について、当該音響信号の少なくとも1つの周波数帯域における周波数スペクトルを生成する生成手段と、
    前記周波数帯域における周波数スペクトルのうち前記周波数帯域の周波数に対応する周期の間隔で位相が等角速度で0度から360度まで変化する部分を、音源方向を求める検知音の周波数スペクトルの時刻部分として特定する検知音特定手段と、
    音源方向を検知する時間単位である時間区間の中で、前記検知音特定手段が特定した時刻部分における周波数スペクトルの前記マイクロホン間での一致度合いにより、前記検知音が前記マイクロホンに到達する時間差を求めて、前記時間差と前記マイクロホンの距離と音速とから音源方向を求めて出力する検知手段とを備え、
    前記検知手段は、前記時間差がゼロになるように前記2つ以上のマイクロホンからの周波数スペクトルの時間軸を調整したときに、前記音源方向を検知する時間単位である時間区間に占める、前記検知音特定手段により特定された時刻部分のうち前記マイクロホン間で共通の時刻に存在する部分の割合が、所定のしきい値より大きい場合に音源方向を出力する
    ことを特徴とする音源方向検知装置。
  2. 前記検知手段は、さらに、前記2つ以上のマイクロホンからの周波数スペクトルの時間軸を調整したときの、前記音源方向を検知する時間単位である時間区間に占める、前記検知音特定手段により特定された時刻部分のうち前記マイクロホン間で共通の時刻に存在する部分の割合が、すべての音源方向の候補について、前記所定のしきい値より大きい場合にのみ音源方向を出力する
    ことを特徴とする請求項1に記載の音源方向検知装置。
  3. 互いに離間して配置された2つ以上のマイクロホンにて集音された音響信号の各々について、当該音響信号の少なくとも1つの周波数帯域における周波数スペクトルを生成する生成ステップと、
    前記周波数帯域における周波数スペクトルのうち前記周波数帯域の周波数に対応する周期の間隔で位相が等角速度で0度から360度まで変化する部分を、音源方向を求める検知音の周波数スペクトルの時刻部分として特定する検知音特定ステップと、
    音源方向を検知する時間単位である時間区間の中で、前記検知音特定ステップにおいて特定された時刻部分における周波数スペクトルの前記マイクロホン間での一致度合いにより、前記検知音が前記マイクロホンに到達する時間差を求めて、前記時間差と前記マイクロホンの距離と音速とから音源方向を求めて出力する検知ステップとを含み、
    前記検知ステップでは、前記時間差がゼロになるように前記2つ以上のマイクロホンからの周波数スペクトルの時間軸を調整したときに、前記音源方向を検知する時間単位である時間区間に占める、前記検知音特定ステップにおいて特定された時刻部分のうち前記マイクロホン間で共通の時刻に存在する部分の割合が、所定のしきい値より大きい場合に音源方向を出力する
    ことを特徴とする音源方向検知方法。
  4. 前記検知ステップでは、さらに、前記2つ以上のマイクロホンからの周波数スペクトルの時間軸を調整したときの、前記音源方向を検知する時間単位である時間区間に占める、前記検知音特定ステップにおいて特定された時刻部分のうち前記マイクロホン間で共通の時刻に存在する部分の割合が、すべての音源方向の候補について、前記所定のしきい値より大きい場合にのみ音源方向を出力する
    ことを特徴とする請求項3に記載の音源方向検知方法。
  5. 互いに離間して配置された2つ以上のマイクロホンにて集音された音響信号の各々について、当該音響信号の少なくとも1つの周波数帯域における周波数スペクトルを生成する生成ステップと、
    前記周波数帯域における周波数スペクトルのうち前記周波数帯域の周波数に対応する周期の間隔で位相が等角速度で0度から360度まで変化する部分を、音源方向を求める検知音の周波数スペクトルの時刻部分として特定する検知音特定ステップと、
    音源方向を検知する時間単位である時間区間の中で、前記検知音特定ステップにおいて特定された時刻部分における周波数スペクトルの前記マイクロホン間での一致度合いにより、前記検知音が前記マイクロホンに到達する時間差を求めて、前記時間差と前記マイクロホンの距離と音速とから音源方向を求めて出力する検知ステップとをコンピュータに実行させるためのプログラムであって、
    前記検知ステップでは、前記時間差がゼロになるように前記2つ以上のマイクロホンからの周波数スペクトルの時間軸を調整したときに、前記音源方向を検知する時間単位である時間区間に占める、前記検知音特定ステップにおいて特定された時刻部分のうち前記マイクロホン間で共通の時刻に存在する部分の割合が、所定のしきい値より大きい場合に音源方向を出力する
    ことを特徴とするプログラム。
  6. 前記検知ステップでは、さらに、前記2つ以上のマイクロホンからの周波数スペクトルの時間軸を調整したときの、前記音源方向を検知する時間単位である時間区間に占める、前記検知音特定ステップにおいて特定された時刻部分のうち前記マイクロホン間で共通の時刻に存在する部分の割合が、すべての音源方向の候補について、前記所定のしきい値より大きい場合にのみ音源方向を出力する
    ことを特徴とする請求項5に記載のプログラム。
JP2008556982A 2007-10-01 2008-09-10 音源方向検知装置 Expired - Fee Related JP4339929B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007258084 2007-10-01
JP2007258084 2007-10-01
PCT/JP2008/002497 WO2009044509A1 (ja) 2007-10-01 2008-09-10 音源方向検知装置

Publications (2)

Publication Number Publication Date
JP4339929B2 true JP4339929B2 (ja) 2009-10-07
JPWO2009044509A1 JPWO2009044509A1 (ja) 2011-02-03

Family

ID=40525942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008556982A Expired - Fee Related JP4339929B2 (ja) 2007-10-01 2008-09-10 音源方向検知装置

Country Status (5)

Country Link
US (1) US8155346B2 (ja)
EP (1) EP2202531A4 (ja)
JP (1) JP4339929B2 (ja)
CN (1) CN101617245B (ja)
WO (1) WO2009044509A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013009722A3 (en) * 2011-07-14 2013-04-04 Microsoft Corporation Sound source localization using phase spectrum
US9473849B2 (en) 2014-02-26 2016-10-18 Kabushiki Kaisha Toshiba Sound source direction estimation apparatus, sound source direction estimation method and computer program product

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1805918B1 (en) 2004-09-27 2019-02-20 Nielsen Media Research, Inc. Methods and apparatus for using location information to manage spillover in an audience monitoring system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
ES2376209B1 (es) * 2009-06-09 2013-01-29 Universidad Miguel Hernández De Elche Cinemómetro sonoro.
DE102009030075A1 (de) * 2009-06-23 2010-12-30 Symeo Gmbh Vorrichtung und Abbildungsverfahren mit synthetischer Apertur zum Bestimmen eines Einfallwinkels und/oder einer Entfernung
KR101081752B1 (ko) 2009-11-30 2011-11-09 한국과학기술연구원 인공귀 및 이를 이용한 음원 방향 검지 방법
TWI471826B (zh) * 2010-01-06 2015-02-01 Fih Hong Kong Ltd 聲音偵測通報系統及方法
CN102473410A (zh) * 2010-02-08 2012-05-23 松下电器产业株式会社 声音识别装置以及声音识别方法
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8606571B1 (en) * 2010-04-19 2013-12-10 Audience, Inc. Spatial selectivity noise reduction tradeoff for multi-microphone systems
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US9277339B2 (en) 2011-11-24 2016-03-01 Toyota Jidosha Kabushiki Kaisha Sound source detection apparatus
CN104081334B (zh) * 2011-11-30 2018-10-26 诺基亚技术有限公司 用于音频反应ui信息的装置和方法以及显示器
JP2013135325A (ja) * 2011-12-26 2013-07-08 Fuji Xerox Co Ltd 音声解析装置
JP5867066B2 (ja) * 2011-12-26 2016-02-24 富士ゼロックス株式会社 音声解析装置
JP6031761B2 (ja) * 2011-12-28 2016-11-24 富士ゼロックス株式会社 音声解析装置および音声解析システム
JP5862349B2 (ja) * 2012-02-16 2016-02-16 株式会社Jvcケンウッド ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9021516B2 (en) 2013-03-01 2015-04-28 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by measuring a crest factor
US9118960B2 (en) 2013-03-08 2015-08-25 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by detecting signal distortion
US9191704B2 (en) 2013-03-14 2015-11-17 The Nielsen Company (Us), Llc Methods and systems for reducing crediting errors due to spillover using audio codes and/or signatures
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9197930B2 (en) * 2013-03-15 2015-11-24 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover in an audience monitoring system
GB2514184B (en) 2013-05-17 2016-05-04 Canon Kk Method for determining a direction of at least one sound source from an array of microphones
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10078006B2 (en) 2013-07-22 2018-09-18 Brüel & Kjær Sound & Vibration Measurement A/S Wide-band acoustic holography
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
CN104240606B (zh) * 2014-08-22 2017-06-16 京东方科技集团股份有限公司 显示装置及显示装置观看角度的调节方法
US9747367B2 (en) 2014-12-05 2017-08-29 Stages Llc Communication system for establishing and providing preferred audio
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
US9654868B2 (en) 2014-12-05 2017-05-16 Stages Llc Multi-channel multi-domain source identification and tracking
US9508335B2 (en) 2014-12-05 2016-11-29 Stages Pcs, Llc Active noise control and customized audio system
WO2016112113A1 (en) 2015-01-07 2016-07-14 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9924224B2 (en) 2015-04-03 2018-03-20 The Nielsen Company (Us), Llc Methods and apparatus to determine a state of a media presentation device
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US9848222B2 (en) 2015-07-15 2017-12-19 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US9800973B1 (en) * 2016-05-10 2017-10-24 X Development Llc Sound source estimation based on simulated sound sensor array responses
US10015592B2 (en) * 2016-05-20 2018-07-03 Ricoh Company, Ltd. Acoustic signal processing apparatus, method of processing acoustic signal, and storage medium
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
JPWO2018047805A1 (ja) * 2016-09-09 2019-06-24 日本電気株式会社 移動音源速度推定装置、速度監視システム、移動音源速度推定方法、および移動音源速度推定用プログラム
US9980042B1 (en) 2016-11-18 2018-05-22 Stages Llc Beamformer direction of arrival and orientation analysis system
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
US9980075B1 (en) 2016-11-18 2018-05-22 Stages Llc Audio source spatialization relative to orientation sensor and output
DE102016225204B4 (de) * 2016-12-15 2021-10-21 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörgerätes
CN106514676A (zh) * 2017-01-09 2017-03-22 广东大仓机器人科技有限公司 采用四个声音接收器确定声源方位的机器人
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10405202B2 (en) * 2017-05-05 2019-09-03 Telefonaktiebolaget Lm Ericsson (Publ) Systems and methods of determining a transmitter or receiver configuration
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336892A1 (en) * 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10847162B2 (en) * 2018-05-07 2020-11-24 Microsoft Technology Licensing, Llc Multi-modal speech localization
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
GB2573537A (en) * 2018-05-09 2019-11-13 Nokia Technologies Oy An apparatus, method and computer program for audio signal processing
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11795032B2 (en) 2018-11-13 2023-10-24 Otis Elevator Company Monitoring system
US10937418B1 (en) * 2019-01-04 2021-03-02 Amazon Technologies, Inc. Echo cancellation by acoustic playback estimation
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
KR102626924B1 (ko) * 2019-06-20 2024-01-19 삼성전자주식회사 지향성 음향 센서와, 이를 이용한 지향 특성의 조절 방법 및 특정 방향의 음향 신호 감쇄 방법
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN112327253A (zh) * 2020-10-28 2021-02-05 苏州触达信息技术有限公司 一种水中人员的定位方法和装置
US11450340B2 (en) 2020-12-07 2022-09-20 Honeywell International Inc. Methods and systems for human activity tracking
CN112770224B (zh) * 2020-12-30 2022-07-05 上海移远通信技术股份有限公司 车内音源采集系统及方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05273326A (ja) 1992-03-25 1993-10-22 Nec Corp ソーナー受信装置
JP3693264B2 (ja) * 1994-12-27 2005-09-07 東芝医用システムエンジニアリング株式会社 超音波診断装置
JP2776781B2 (ja) 1995-12-12 1998-07-16 防衛庁技術研究本部長 多目標信号自動分離方式
JP3541339B2 (ja) * 1997-06-26 2004-07-07 富士通株式会社 マイクロホンアレイ装置
EP0995190B1 (en) 1998-05-11 2005-08-03 Koninklijke Philips Electronics N.V. Audio coding based on determining a noise contribution from a phase change
JP3069663B1 (ja) 1999-03-18 2000-07-24 防衛庁技術研究本部長 音源方向測定方法及び装置
JP3484112B2 (ja) * 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
JP2002008189A (ja) 2000-06-22 2002-01-11 Matsushita Electric Ind Co Ltd 車両検出装置および車両検出方法
JP4815661B2 (ja) 2000-08-24 2011-11-16 ソニー株式会社 信号処理装置及び信号処理方法
US7123727B2 (en) * 2001-07-18 2006-10-17 Agere Systems Inc. Adaptive close-talking differential microphone array
JP2004012151A (ja) * 2002-06-03 2004-01-15 Matsushita Electric Ind Co Ltd 音源方向推定装置
US7809145B2 (en) * 2006-05-04 2010-10-05 Sony Computer Entertainment Inc. Ultra small microphone array
US7760248B2 (en) * 2002-07-27 2010-07-20 Sony Computer Entertainment Inc. Selective sound source listening in conjunction with computer interactive processing
DE10313331B4 (de) * 2003-03-25 2005-06-16 Siemens Audiologische Technik Gmbh Verfahren zur Bestimmung einer Einfallsrichtung eines Signals einer akustischen Signalquelle und Vorrichtung zur Durchführung des Verfahrens
DK176894B1 (da) * 2004-01-29 2010-03-08 Dpa Microphones As Mikrofonstruktur med retningsvirkning
JP4204541B2 (ja) * 2004-12-24 2009-01-07 株式会社東芝 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
US7817805B1 (en) * 2005-01-12 2010-10-19 Motion Computing, Inc. System and method for steering the directional response of a microphone to a moving acoustic source
JP3906230B2 (ja) * 2005-03-11 2007-04-18 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4234746B2 (ja) * 2006-09-25 2009-03-04 株式会社東芝 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム
JP4177452B2 (ja) * 2006-11-09 2008-11-05 松下電器産業株式会社 音源位置検知装置
US8767975B2 (en) * 2007-06-21 2014-07-01 Bose Corporation Sound discrimination method and apparatus

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013009722A3 (en) * 2011-07-14 2013-04-04 Microsoft Corporation Sound source localization using phase spectrum
US9435873B2 (en) 2011-07-14 2016-09-06 Microsoft Technology Licensing, Llc Sound source localization using phase spectrum
US9817100B2 (en) 2011-07-14 2017-11-14 Microsoft Technology Licensing, Llc Sound source localization using phase spectrum
US9473849B2 (en) 2014-02-26 2016-10-18 Kabushiki Kaisha Toshiba Sound source direction estimation apparatus, sound source direction estimation method and computer program product

Also Published As

Publication number Publication date
JPWO2009044509A1 (ja) 2011-02-03
EP2202531A1 (en) 2010-06-30
EP2202531A4 (en) 2012-12-26
CN101617245B (zh) 2012-10-10
WO2009044509A1 (ja) 2009-04-09
US20100303254A1 (en) 2010-12-02
US8155346B2 (en) 2012-04-10
CN101617245A (zh) 2009-12-30

Similar Documents

Publication Publication Date Title
JP4339929B2 (ja) 音源方向検知装置
JP4310371B2 (ja) 音判定装置、音検知装置及び音判定方法
JP4547042B2 (ja) 音判定装置、音検知装置及び音判定方法
JP4545233B2 (ja) 音判定装置、音判定方法、及び、音判定プログラム
JP4157581B2 (ja) 音声認識装置
KR102118411B1 (ko) 원신호 분리 시스템 및 방법
JP4177452B2 (ja) 音源位置検知装置
US9451379B2 (en) Sound field analysis system
US20080247274A1 (en) Sensor array post-filter for tracking spatial distributions of signals and noise
JP4812302B2 (ja) 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム
EP2765791A1 (en) Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
WO2011096156A1 (ja) 音識別装置及び音識別方法
US20180190311A1 (en) Signal processing apparatus, signal processing method, and signal processing program
JP6800995B2 (ja) スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法
US20200066295A1 (en) System and Method for Acoustic Speaker Localization
May et al. Computational speech segregation based on an auditory-inspired modulation analysis
CN113093106A (zh) 一种声源定位方法及系统
US11889260B2 (en) Determination of sound source direction
JP6520276B2 (ja) 雑音抑圧装置、雑音抑圧方法、及び、プログラム
WO2020031594A1 (ja) 音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム
Bentsen et al. The impact of exploiting spectro-temporal context in computational speech segregation
Llerena-Aguilar et al. A new mixing matrix estimation method based on the geometrical analysis of the sound separation problem
EP4350381A1 (en) Information processing device, information processing method, and program
Unnikrishnan AUDIO SCENE SEGEMENTATION USING A MICROPHONE ARRAY AND AUDITORY FEATURES
Cano et al. Selective Hearing: A Machine Listening Perspective

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090609

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090702

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4339929

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120710

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120710

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130710

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees