JP2008079255A - 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム - Google Patents
音響信号処理装置、音響信号処理方法及び音響信号処理プログラム Download PDFInfo
- Publication number
- JP2008079255A JP2008079255A JP2006259343A JP2006259343A JP2008079255A JP 2008079255 A JP2008079255 A JP 2008079255A JP 2006259343 A JP2006259343 A JP 2006259343A JP 2006259343 A JP2006259343 A JP 2006259343A JP 2008079255 A JP2008079255 A JP 2008079255A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- frequency
- phase difference
- information
- acoustic signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】2次元データを形成する前記点群に対してそれぞれハフ変換を行って、ハフ投票空間に、点群それぞれに対応する複数の軌跡を生成し、複数の軌跡が通過するハフ投票空間における位置に投票値を加算する際、2つの周波数分解情報がそれぞれ示す第1及び第2の信号レベルのレベル差に基づいて、投票値を変化させながら加算する投票手段を備える。
【選択図】図14
Description
浅野太、"音を分ける"、計測と制御、第43巻、第4号、pp.325-330、2004年4月号 中臺一博ほか、"視聴覚情報の階層的統合による実時間アクティブ人物追跡"、人工知能学会AIチャレンジ研究会、SIG-Challenge-0113-5、pp.35-42、June 2001
それぞれ異なる位置に配置された複数のマイクによって得られる複数の音響信号を入力する音響信号入力手段と、
前記各音響信号を複数の周波数成分にそれぞれ分解し、前記各周波数成分毎に、信号レベル及び位相が対応付けられた周波数分解情報を前記音響信号毎に生成する周波数分解手段と、
前記複数の周波数分解情報のうち、所望の2つの前記周波数分解情報を比較することにより、対応する前記周波数成分毎に、前記2つの周波数分解情報間の位相差をそれぞれ算出する位相差算出手段と、
前記周波数成分の関数を第1の軸とし、かつ前記位相差の関数を第2の軸とする、2次元座標系上に配置された点群からなる2次元データを生成する2次元データ化手段と、
前記点群に対してそれぞれハフ変換を行って、ハフ投票空間に、前記点群それぞれに対応する複数の軌跡を生成し、前記複数の軌跡が通過する前記ハフ投票空間における位置に投票値を加算する際、前記2つの周波数分解情報がそれぞれ示す第1及び第2の前記信号レベルのレベル差に基づいて、前記投票値を変化させながら加算する投票手段と、
前記投票値が最大となる位置を探索することにより、前記2次元データの中から、探索された位置に対応する図形であって、かつ前記周波数成分及び前記位相差の比例関係を示し、前記各音響信号の音源方向を推定するための前記図形を検出する図形検出手段と
を備える。
図1に本発明の1実施形態に係る音響信号処理装置の機能ブロック構成を示す。本実施形態装置は、3つ以上のn個のマイク1a〜1cと、音響信号入力部2と、周波数分解部3と、2次元データ化部4と、図形検出部5と、図形照合部6と、音源情報生成部7と、出力部8と、ユーザインタフェース部9とを有している。
マイク1a〜1cは、空気などの媒質中に所定の距離をあけて配置されたn個のマイクロホンであり、異なるn地点での媒質振動(音波)をそれぞれ電気信号(音響信号)に変換するための手段である。n個のマイクは異なる2つを対として、異なる組み合わせによる2つ以上のm組のマイクロホン対(あるいはマイク対)を成す。
さて、振幅データを周波数成分に分解する一般的な手法として高速フーリエ変換(FFT)がある。代表的なアルゴリズムとしては、Cooley-Turkey DFTアルゴリズムなどが知られている。
図5に示すように、2次元データ化部4は位相差算出部301と座標値決定部302とから成っており、図形検出部5は投票部303と直線検出部304とから成っている。
位相差算出部301は、周波数分解部3により得られた同時期の2つの周波数分解データaとbとを比較して、同じ周波数成分毎に両者の位相値の差を計算して得たab間位相差データを生成する手段である。図6に示すように、ある周波数成分fkの位相差ΔPh(fk)は、マイク1aにおける位相値Ph1(fk)とマイク1bにおける位相値Ph2(fk)の差を計算し、その値が{ΔPh(fk):−π<ΔPh(fk)≦π}に収まるように2πの剰余系として算定する。
座標値決定部302は、位相差算出部301により得られた位相差データを元に、各周波数成分に両者の位相値の差を計算して得た位相差データを所定の2次元のXY座標系上の点として扱うための座標値を決定する手段である。ある周波数成分fkの位相差ΔPh(fk)に対応するX座標値x(fk)とY座標値y(fk)は、図7に示す式によって決定される。X座標値は位相差ΔPh(fk)、Y座標値は周波数成分番号kである。
位相差算出部301によって、図6に示したように算出される周波数成分毎の位相差は、同一音源(同一方向)に由来するものどうしが同じ到達時間差を表しているはずである。このとき、FFTによって得られたある周波数の位相値及び両マイクロホン間の位相差はその周波数の周期を2πとして算出された値なので、同じ時間差であっても周波数が2倍になれば位相差も2倍となる比例関係にある。これを示すと図8のようになる。図8(a)に例示するように、同一時間Tに対して、周波数fk[Hz]の波130は1/2周期、すなわちπだけの位相区間を含むが、2倍の周波数2fk[Hz]の波131では1周期、すなわち2πの位相区間を含む。位相差についても同様であり、同一時間差ΔTに対する位相差は周波数に比例して大きくなる。これを模式的に示したものが図8(b)である。同一音源から発せられてΔTを共通にする各周波数成分の位相差を図7に示した座標値計算により2次元座標系上にプロットすると、各周波数成分の位相差を表す座標点132が直線133の上に並ぶことを示している。ΔTが大きいほど、すなわち音源までの距離が両マイク間で異なるほど、この直線の傾きは大きくなる。
但し、両マイクロホン間の位相差が図8(b)に示したように全域で周波数に比例するのは、解析対象となる最低周波数から最高周波数まで通して真の位相差が±πを逸脱しない場合に限られる。この条件はΔTが、最高周波数(サンプリング周波数の半分)Fr/2[Hz]の1/2周期分の時間、すなわち1/Fr[秒]以上とならないことである。もし、ΔTが1/Fr以上となる場合には、次に述べるように位相差が循環性を持つ値としてしか得られないことを考慮しなければならない。
一方、複数の音源から音波が発せられている場合、周波数と位相差のプロット図は図10に模式的に示すような様相となる。この図は2つの音源がマイクロホン対に対して異なる方向に存在している場合を示したものであり、図10(a)は2つの音源音が互いに同じ周波数成分を含んでいない場合、図10(b)は一部の周波数成分が双方に含まれている場合である。図10(a)では、各周波数成分の位相差はΔTを共通にする直線のいずれかに乗っており、傾きの小さい直線150では5点、傾きの大きい直線151(循環した直線152を含む)では6点が直線上に配置されている。図10(b)では、双方に含まれる2つの周波数成分153と154では波が混ざって位相差が正しく出ないため、いずれの直線にも乗ってこず、特に傾きの小さい直線155では3点しか直線上に配置されていない。
投票部303は、座標値決定部302によって(x,y)座標を与えられた各周波数成分に対して、後述するように直線ハフ変換を適用し、その軌跡をハフ投票空間に所定の方法で投票する手段である。ハフ変換については、参考文献2「岡崎彰夫、“はじめての画像処理”、工業調査会、2000年10月20日発行」の100〜102ページに解説されているが、ここでもう一度説明する。
図11に模式的に示すように、2次元座標上の点p(x,y)を通り得る直線は図中の160、161、162に例示するごとく無数に存在するが、原点Oから各直線に下ろした垂線163のX軸からの傾きをθ、この垂線163の長さをρとして表現すると、1つの直線についてθとρは一意に決まり、ある点(x,y)を通る直線の取り得るθとρの組は、θρ座標系上で(x,y)の値に固有の軌跡164(ρ=x cosθ+y sinθ)を描くことが知られている。このような、(x,y)座標値からそこを通り得る直線の(θ,ρ)の軌跡への変換を直線ハフ変換と云う。なお、直線が左に傾いているときθは正値、垂直のとき0、右に傾いているとき負値であるとし、また、θの定義域は{θ:‐π<θ≦π}を逸脱することはない。
点群から直線を検出するため、ハフ投票という工学的な手法が使われる。これはθとρを座標軸とする2次元のハフ投票空間に各軌跡の通過するθとρの組を投票することで、ハフ投票空間の得票の大きい位置に多数の軌跡の通過するθとρの組、すなわち直線の存在を示唆させるようにする手法である。一般的には、まずθとρについての必要な探索範囲分の大きさを持つ2次元の配列(ハフ投票空間)を用意して0で初期化しておく。次いで、点毎の軌跡をハフ変換によって求め、この軌跡が通過する配列上の値を1だけ加算する。これをハフ投票と云う。全ての点についてその軌跡を投票し終えると、得票0の位置(軌跡が1つも通過しなかった)には直線が存在せず、得票1の位置(軌跡が1つだけ通過した)には1つの点を通る直線が、得票2の位置(軌跡が2つだけ通過した)には2つの点を通る直線が、得票nの位置(軌跡がn個だけ通過した)にはn個の点を通る直線がそれぞれ存在することがわかる。ハフ投票空間の分解能を無限大にできれば、上述した通り、軌跡の通過する点のみが、そこを通過する軌跡の数だけの得票を得ることになるが、実際のハフ投票空間はθとρについて適当な分解能で量子化されているため、複数の軌跡が交差する位置の周辺にも高い得票分布が生じる。そのため、ハフ投票空間の得票分布から極大値を持つ位置を探すことで、軌跡の交差する位置をより正確に求める必要がある。
(投票条件1)周波数が所定範囲にあるもの(低域カットと高域カット)
(投票条件2)当該周波数成分fkのパワーP(fk)が所定閾値以上のもの
(平均値):Po1(fk)とPo2(fk)の平均値
両方のパワーがともに適度に強いことを必要とする条件。
(最小値):Po1(fk)とPo2(fk)の小さい方
両方のパワーが最低でも閾値以上あることを必要とする条件。
(最大値):Po1(fk)とPo2(fk)の大きい方
一方が閾値未満でも他方が十分強ければ投票するという条件。
(加算方式1)軌跡の通過位置に所定の固定値(例えば1)を加算する。
(加算方式2)軌跡の通過位置に当該周波数成分fkのパワーP(fk)の関数値を加算する。
ところで、音源方向推定処理を行う際,任意のフレームでマッピングした周波数−位相差空間に対してハフ変換を行い、投票空間に投票を行う段階において,例えば投票する値を一定値(最大値又は平均値)として投票を行うと、マイクロホン間における音声データの音量レベル差が大きい場合には、音源方向算出を誤るという問題が生じる。
ここでk=0とすると、
さらに、投票部303は、1回のFFT毎に投票を行うことも可能だが、一般的に連続するm回(m≧1)の時系列的なFFT結果についてまとめて投票を行なうこととする。長期的には音源の周波数成分は変動するものであるが、このようにすることで、周波数成分の安定している適度に短期間の複数時刻のFFT結果から得られるより多くのデータを用いて、より信頼性の高いハフ投票結果を得ることができるようになる。なお、このmは運用に合わせてパラメータとして設定可能とする。
直線検出部304は、投票部303によって生成されたハフ投票空間上の得票分布を解析して有力な直線を検出する手段である。但し、このとき、図9で述べた位相差の循環性など、本問題に特有の事情を考慮することで、より高精度な直線検出を実現する。
ところで、マイク1aとマイク1bの信号が音響信号入力部2によって同相でA/D変換される場合、検出されるべき直線は必ずρ=0、すなわちXY座標系の原点を通る。したがって、音源の推定問題は、ハフ投票空間上でρ=0となるθ軸上の得票分布S(θ,0)から極大値を探索する問題に帰着する。図17で例示したデータに対してθ軸上で極大値を探索した結果を図18に示す。
ところで、図18で例示した直線197は、(θ0,0)なる極大位置196によって定義されたXY座標原点を通る直線である。しかし、実際には位相差の循環性によって、図18の直線197がΔρ(図中の199)だけ平行移動してX軸上の反対側から循環してくる直線198もまた197と同じ到達時間差を示す直線である。この直線198のように直線197を延長してXの値域からはみ出した部分が反対側から循環的に現れる直線を、直線197の「循環延長線」、基準となった直線197を「基準直線」とそれぞれ呼ぶことにする。もし、基準直線197がさらに傾いておれば、循環延長線はさらに数を増すことになる。ここで係数aを0以上の整数とすると、到達時間差を同じくする直線は全て(θ0,0)で定義される基準直線197をΔρずつ平行移動させた直線群(θ0,aΔρ)となる。さらに、起点となるρについてρ=0の制約をはずしてρ=ρ0として一般化すると、直線群は(θ0,aΔρ+ρ0)として記述できることになる。このとき、Δρは直線の傾きθの関数Δρ(θ)として図19に示す式で定義される符号付きの値である。
位相差の循環性から、音源を表す直線は1つではなく基準直線と循環延長線から成る直線群として扱われるべきであることを述べた。このことは得票分布から極大位置を検出する際にも考慮されなければならない。通常、位相差の循環が起きないか、起きても小規模で収まるマイクロホン対の正面付近のみで音源を検出する場合に限れば、ρ=0(あるいはρ=ρ0)上の得票値(すなわち基準直線の得票値)のみで極大位置を探索する上述の方法は性能的に十分であるばかりか、探索時間の短縮と精度の向上に効果がある。しかし、より広い範囲に存在する音源を検出しようとする場合には、あるθについてΔρずつ離れた数箇所の得票値を合計して極大位置を探索する必要がある。この違いを以下で説明する。
さて、マイク1aとマイク1bの信号が音響信号入力部2によって同相でA/D変換されない場合、検出されるべき直線はρ=0、すなわちXY座標原点を通らない。この場合はρ=0の制約をはずして極大位置を探索する必要がある。
なお、検出された直線群はマイクロホン対毎に独立に推定された各時刻における音源の候補である。このとき、同一の音源を発した音声は複数のマイクロホン対で同時刻にそれぞれ直線群として検出される。したがって、複数のマイクロホン対で同一の音源に由来する直線群を対応付けることができれば、より信頼性の高い音源の情報を得ることができるはずである。図形照合部6はそのための対応付けを行なう手段である。このとき、図形照合部6で直線群毎に編集された情報を音源候補情報と呼ぶことにする。
方向推定部311は、以上で述べた直線検出部304による直線検出結果、すなわち直線群毎のθ値を受けて、各直線群に対応した音源の存在範囲を計算する手段である。このとき、検出された直線群の数が音源の候補数となる。マイクロホン対のベースラインに対して音源までの距離が十分遠い場合、音源の存在範囲はマイクロホン対のベースラインに対してある角度を持った円錐面となる。これを図24で説明する。
音源成分推定部312は、座標値決定部302により与えられた周波数成分毎の(x,y)座標値と、直線検出部304により検出された直線との距離を評価することで、直線近傍に位置する点(すなわち周波数成分)を当該直線群(すなわち音源)の周波数成分として検出し、この検出結果に基づいて音源毎の周波数成分を推定するための手段である。
図26に複数の音源が存在するときの音源成分推定の原理を模式的に示す。図中(a)は図9に示したものと同じ周波数と位相差のプロット図であり、2つの音源がマイクロホン対に対して異なる方向に存在している場合を示している。図中(a)の280は1つの直線群を、図中(a)の281と282は別の直線群を成している。図中(a)の黒丸は周波数成分毎の位相差位置を表している。
図27は、図26において多重帰属する周波数成分289について、どちらか最も近い方の直線群にのみ属させるようにした結果を示した図である。直線280と直線282に対する周波数成分289の水平距離を比較した結果、周波数成分289は直線282に最も近いことが判明する。このとき、周波数成分289は直線282近傍の領域288に入っている。よって、周波数成分289は、図中(b)に示すように直線群(281、282)に属する成分として検出される。このように、周波数成分毎に水平距離で最も近い直線(音源)を選択し、その水平距離が所定閾値内にある場合に当該周波数成分のパワーと位相をそのまま当該音源音の成分とする方式を「最近傍方式」と呼ぶことにする。なお、直流成分(原点)は特別扱いとして両方の直線群(音源)に帰属させるものとする。
上記2つの方式は、直線群を構成する直線に対して所定の水平距離閾値内に存在する周波数成分だけを選択し、そのパワーと位相をそのままにして直線群に対応する音源音の周波数成分と成していた。一方、次に述べる「距離係数方式」は、周波数成分と直線との水平距離dの増大に応じて単調減少する非負係数αを計算し、これを当該周波数成分のパワーに乗じることで、直線から水平距離で遠い成分ほど弱いパワーで音源音に寄与するようにした方式である。
既に述べたように、投票部303は1回のFFT毎に投票を行うことも、連続するm回(m≧1)のFFT結果をまとめて投票することも可能である。したがって、ハフ投票結果を処理する直線検出部304以降の機能ブロックは1回のハフ変換が実行される期間を単位として動作する。このとき、m≧2でハフ投票が行われるときは、複数時刻のFFT結果がそれぞれの音源音を構成する成分として分類されることになり、時刻の異なる同一周波数成分が別々の音源音に帰属させられることも起こり得る。これを扱うために、mの値に関わらず、座標値決定部302によって、各周波数成分(すなわち、図26に例示した黒丸)にはそれが取得されたフレームの開始時刻が取得時刻の情報として付与されており、どの時刻のどの周波数成分がどの音源に帰属するかを参照可能にする。すなわち、音源音がその周波数成分の時系列データとして分離抽出される。
なお、上述した各方式において、複数(N個)の直線群(音源)に属する周波数成分(最近傍方式では直流成分のみ、距離係数方式では全周波数成分が該当)では、各音源に配分される同一時刻の当該周波数成分のパワーを、その合計が配分前の当該時刻のパワー値Po(fk)に等しくなるように正規化してN分割することも可能である。このようにすることで、同一時刻の周波数成分毎に音源全体での合計パワーを入力と同じに保つことができる。これを「パワー保存オプション」と呼ぶことにする。配分の仕方には次の2つの考え方がある。
(1)N等分(距離閾値方式と最近傍方式に適用可能)
(2)各直線群との距離に応じた配分(距離閾値方式と距離係数方式に適用可能)
(1)はN等分することで自動的に正規化が達成される配分方法であり、距離に関係なく配分を決める距離閾値方式と最近傍方式に適用可能である。
(2)は距離係数方式と同様にして係数を決めた後、さらにそれらの合計が1になるように正規化することでパワーの合計を保存する配分方法であり、原点以外で多重帰属の発生する距離閾値方式と距離係数方式に適用可能である。
上述した通り、投票部303によるハフ投票毎に直線検出部304により直線群が求められる。ハフ投票は連続するm回(m≧1)のFFT結果についてまとめて行われる。この結果、直線群はmフレーム分の時間を周期(これを「図形検出周期」と呼ぶことにする)として時系列的に求められることになる。また、直線群のθは方向推定部311により計算される音源方向φと1対1に対応しているので、音源が静止していても移動していても、安定な音源に対応しているθ(あるいはφ)の時間軸上の軌跡は連続しているはずである。一方、直線検出部304により検出された直線群の中には、閾値の設定具合によって背景雑音に対応する直線群(これを「雑音直線群」と呼ぶことにする)が含まれていることがある。しかしながら、このような雑音直線群のθ(あるいはφ)の時間軸上の軌跡は連続していないか、連続していても短いことが期待できる。
(1)軌跡データバッファを用意する。軌跡データバッファは軌跡データの配列である。1つの軌跡データKdは、その開始時刻Tsと、終了時刻Teと、当該軌跡を構成する直線群データLdの配列(直線群リスト)と、ラベル番号Lnとを保持することができる。1つの直線群データLdは、当該軌跡を構成する1つの直線群のθ値とρ値(直線検出部304による)と、この直線群に対応した音源方向を表すφ値(方向推定部311による)と、この直線群に対応した周波数成分(音源成分推定部312による)と、それらが取得された時刻とから成る一群のデータである。なお、軌跡データバッファは最初空である。また、ラベル番号を発行するためのパラメータとして新規ラベル番号を用意し、初期値を0に設定する。
(2)ある時刻Tにおいて、新しく得られたφのそれぞれ(以後φnとし、図中では黒丸303と黒丸304で示される2つが得られたものとする)について、軌跡データバッファに保持されている軌跡データKd(図中の矩形301と302)の直線群データLd(図中の矩形内に配置された黒丸)を参照し、そのφ値とφnの差(図中の305と306)が所定角度閾値Δφ内にあり、かつその取得時刻の差(図中の307と308)が所定時間閾値Δt内にあるLdを持つ軌跡データを検出する。この結果、黒丸303については軌跡データ301が検出されたが、黒丸304については最も近い軌跡データ302も上記条件を満たさなかったとする。
(3)黒丸303のように、もし、(2)の条件を満たす軌跡データが見つかった場合は、φnはこの軌跡と同一の軌跡を成すものとして、このφnとそれに対応したθ値とρ値と周波数成分と現時刻Tとを当該軌跡Kdの新たな直線群データとして直線群リストに追加し、現時刻Tを当該軌跡の新たな終了時刻Teとする。このとき、複数の軌跡が見つかった場合には、それら全てが同一の軌跡を成すものとして、最も若いラベル番号を持つ軌跡データに統合して、残りを軌跡データバッファから削除する。統合された軌跡データの開始時刻Tsは統合前の各軌跡データの中で最も早い開始時刻であり、終了時刻Teは統合前の各軌跡データの中で最も遅い終了時刻であり、直線群リストは統合前の各軌跡データの直線群リストの和集合である。この結果、黒丸303は軌跡データ301に追加される。
(4)黒丸304のように、もし、(2)の条件を満たす軌跡データが見つからなかった場合は、新規の軌跡の始まりとし、軌跡データバッファの空き部分に新しい軌跡データを作成し、開始時刻Tsと終了時刻Teを共に現時刻Tとし、φnとそれに対応したθ値とρ値と周波数成分と現時刻Tとを直線群リストの最初の直線群データとし、新規ラベル番号の値をこの軌跡のラベル番号Lnとして与え、新規ラベル番号を1だけ増加させる。なお、新規ラベル番号が所定の最大値に達したときは、新規ラベル番号を0に戻す。この結果、黒丸304は新たな軌跡データとして軌跡データバッファに登録される。
(5)もし、軌跡データバッファに保持されている軌跡データで、最後に更新されてから(すなわちその終了時刻Teから)現時刻Tまでに前記所定時間Δtを経過したものがあれば、追加すべき新たなφnの見つからなかった、すなわち追跡の満了した軌跡として、この軌跡データを次段の継続時間評価部315に出力した後、当該軌跡データを軌跡データバッファから削除する。図の例では軌跡データ302がこれに該当する。
継続時間評価部314は、時系列追跡部313により出力された追跡の満了した軌跡データの開始時刻と終了時刻から当該軌跡の継続時間を計算し、この継続時間が所定閾値を越えるものを音源音に基づく軌跡データと認定し、それ以外を雑音に基づく軌跡データと認定する。音源音に基づく軌跡データを音源ストリーム情報と呼ぶことにする。音源ストリーム情報には、当該音源音の開始時刻Ts、終了時刻Te、当該音源方向を表すθとρとφの時系列的な軌跡データが含まれる。なお、図形検出部5による直線群の数が音源の数を与えるが、そこには雑音源も含まれている。継続時間評価部314による音源ストリーム情報の数は、雑音に基づくものを除いた信頼できる音源の数を与えてくれる。
音源成分照合部315は、時系列追跡部313と継続時間評価部314を経て異なるマイクロホン対に対してそれぞれ得られた音源ストリーム情報を、同一の音源に由来するもの同士で対応付けて音源候補対応情報を生成する。同一時刻において同一音源を発した音声は、その周波数成分において類似しているはずである。そこで、音源成分推定部312によって推定された直線群毎の各時刻の音源成分に基づいて、音源ストリーム間で同時刻の周波数成分のパタンを照合して類似度を計算し、所定閾値以上で最大の類似度を獲得した周波数成分のパタンを持つ音源ストリーム同士を対応付ける。このとき、音源ストリームの全域でパタン照合することも可能であるが、照合される音源ストリームが同時に存在する期間の数時刻の周波数成分パタンを照合して、その合計類似度、あるいは平均類似度が所定閾値以上で最大となるものを探索するようにすれば効率的である。この照合されるべき数時刻は、照合される両ストリームのパワーが共に所定閾値以上となる時刻とすることで、照合の信頼性はより向上することが期待できる。
図30に示すように、音源情報生成部7は、音源存在範囲推定部401と、対選択部402と、同相化部403と、適応アレイ処理部404と、音声認識部405とから成っている。音源情報生成部7は、図形照合部6によって対応付けられた音源候補情報から、音源に関するより精密で信頼できる情報を生成する手段である。
音源存在範囲推定部401は、図形照合部6により生成された音源候補対応情報に基づいて、音源の空間的存在範囲を算出する手段である。その算出方式には次の2つがあり、パラメータによって切り替え可能である。
(算出方式1)同一音源に由来するとして対応付けられた音源ストリーム情報のそれぞれが示す音源方向を、それぞれの音源ストリームを検出したマイクロホン対の中点を頂点とする円錐面(図21のd)とみなし、対応付けられた全ての音源ストリームからそれぞれ得られる円錐面の交差する曲線もしくは点の所定近傍を音源の空間的な存在範囲として計算する。
(算出方式2)同一音源に由来するとして対応付けられた音源ストリーム情報のそれぞれが示す音源方向を、最小二乗誤差で全て満たす空間中の点を算出し、音源の空間的な存在範囲として計算する。このとき、装置の原点を中心とする同心球面上の離散的な点について、各マイクロホン対への角度を計算したテーブルを用意することで、該角度と前記音源方向との誤差の2乗和が最小となる点を前記テーブル上で探索する。
対選択部402は、図形照合部6により生成された音源候補対応情報に基づいて、音源音声の分離抽出に最も適した対を選択する手段である。その選択方式には次の2つがあり、パラメータによって切り替え可能である。
(選択方式1)同一音源に由来するとして対応付けられた音源ストリーム情報のそれぞれが示す音源方向を比較して、最も正面寄りの音源ストリームを検出したマイクロホン対を選択する。この結果、最も正面から音源音声を捉えたマイクロホン対が音源音声の抽出に利用される。
(選択方式2)同一音源に由来するとして対応付けられた音源ストリーム情報のそれぞれが示す音源方向をそれぞれの音源ストリームを検出したマイクロホン対の中点を頂点とする円錐面(図24のd)とみなし、該円錐面から他の音源が最も遠い音源ストリームを検出したマイクロホン対を選択する。この結果、他の音源の影響の最も少ないマイクロホン対が音源音声の抽出に利用される。
同相化部403は、対選択部402によって選択された音源ストリーム情報から、当該ストリームの音源方向φの時間推移を得て、φの最大値φmaxと最小値φminから中間値φmid=(φmax+φmin)/2を計算して幅φw=φmax−φmidを求める。そして、当該音源ストリーム情報の元となった2つの周波数分解データaとbの時系列データを、当該ストリームの開始時刻Tsより所定時間遡った時刻から終了時刻Teより所定時間経過した時刻まで抽出して、中間値φmidで逆算される到達時間差をキャンセルするように補正することで同相化する。
適応アレイ処理部404は、抽出・同相化された2つの周波数分解データaとbの時系列データを、正面0°に中心指向性を向け、±φwに所定のマージンを加えた値を追従範囲とする適応アレイ処理に掛けることで、当該ストリームの音源音(周波数成分の時系列データ)を高精度に分離抽出する。なお、適応アレイ処理には、参考文献3「天田皇ほか“音声認識のためのマイクロホンアレー技術”,東芝レビュー2004,VOL.59,NO.9,2004」に開示されるように、それ自体がビームフォーマの構成方法として知られている「Griffith-Jim型一般化サイドローブキャンセラ」を主副2つ用いることで、設定された指向性範囲内の音声を明瞭に分離抽出する方法を用いることができる。
音声認識部405は、適応アレイ処理部404により抽出された音源音の周波数成分の時系列データを解析照合することで、当該ストリームの記号的な内容、すなわち、言語的な意味や音源の種別や話者の別を表す記号(列)を抽出する。
出力部8は、図形照合部6による音源候補情報として、図形検出部5による直線群の数として得られる音源候補の数、方向推定部311により推定された前記音響信号の発生源たる音源候補の空間的な存在範囲(円錐面を決定させる角度φ)、音源成分推定部312により推定された前記音源候補を発した音声の成分構成(周波数成分毎のパワーと位相の時系列データ)、時系列追跡部313と継続時間評価部314による雑音源を除く音源候補(音源ストリーム)の数、時系列追跡部313と継続時間評価部314による前記音源候補(音源ストリーム)を発した音声の時間的な存在期間、の少なくとも1つを含む情報、
もしくは、音源情報生成部7による音源情報として、図形照合部6による対応の付いた直線群(音源ストリーム)の数として得られる音源の数、音源存在範囲推定部401により推定された前記音響信号の発生源たる音源のより精密な空間的な存在範囲(円錐面の交差範囲やテーブル引きされた座標値)、対選択部402と正面化部403と適応アレイ部404による前記音源毎の分離音声(振幅値の時系列データ)、音声認識部405による前記音源音声の記号的内容、の少なくとも1つを含む情報、を出力する手段である。
ユーザインタフェース部9は、上述した音響信号処理に必要な各種設定内容の利用者への呈示、利用者からの設定入力受理、設定内容の外部記憶装置への保存と外部記憶装置からの読み出しを実行したり、図17や図19に示した(1)マイク毎の周波数成分の表示、(2)位相差(あるいは時間差)プロット図の表示(すなわち2次元データの表示)、(3)各種得票分布の表示、(4)極大位置の表示、(5)プロット図上の直線群の表示、図23や図24に示した(6)直線群に帰属する周波数成分の表示、図26に示した(7)軌跡データの表示、のように各種処理結果や中間結果を可視化して利用者に呈示したり、所望のデータを利用者に選択させてより詳細に可視化するための手段である。このようにすることで、利用者が本実施形態装置の働きを確認したり、所望の動作を行ない得るように調整したり、以後調整済みの状態で本実施形態装置を利用したりすることが可能になる。
また、図31に本実施形態装置における処理の流れを示す。本実施形態装置における処理は、初期設定処理ステップS1と、音響信号入力処理ステップS2と、周波数分解処理ステップS3と、2次元データ化処理ステップS4と、図形検出処理ステップS5と、図形照合処理ステップS6と、音源情報生成処理ステップS7と、出力処理ステップS8と、終了判断処理ステップS9と、確認判断処理ステップS10と、情報呈示・設定受理処理ステップS11と、終了処理ステップS12とから成る。
前述の非特許文献2による方法は、周波数分解データから調波構造を構成する基本周波数成分とその高調波成分を検出することで、音源の数、方向、成分の推定を行っている。調波構造を仮定することから、この方法は人間の声に特化したものであると云える。しかし、実際の環境では、ドアの開閉音など、調波構造を持たない音源も多く存在するため、この方法ではそのような音源音を扱うことができない。
1b・・・マイク
2・・・・音響信号入力部
3・・・・周波数分解部
4・・・・2次元データ化部
5・・・・図形検出部
6・・・・音源情報生成部
7・・・・出力部
8・・・・ユーザインタフェース部
Claims (12)
- それぞれ異なる位置に配置された複数のマイクによって得られる複数の音響信号を入力する音響信号入力手段と、
前記各音響信号を複数の周波数成分にそれぞれ分解し、前記各周波数成分毎に、信号レベル及び位相が対応付けられた周波数分解情報を前記音響信号毎に生成する周波数分解手段と、
前記複数の周波数分解情報のうち、所望の2つの前記周波数分解情報を比較することにより、対応する前記周波数成分毎に、前記2つの周波数分解情報間の位相差をそれぞれ算出する位相差算出手段と、
前記周波数成分の関数を第1の軸とし、かつ前記位相差の関数を第2の軸とする、2次元座標系上に配置された点群からなる2次元データを生成する2次元データ化手段と、
前記点群に対してそれぞれハフ変換を行って、ハフ投票空間に、前記点群それぞれに対応する複数の軌跡を生成し、前記複数の軌跡が通過する前記ハフ投票空間における位置に投票値を加算する際、前記2つの周波数分解情報がそれぞれ示す第1及び第2の前記信号レベルのレベル差に基づいて、前記投票値を変化させながら加算する投票手段と、
前記投票値が最大となる位置を探索することにより、前記2次元データの中から、探索された位置に対応する図形であって、かつ前記周波数成分及び前記位相差の比例関係を示し、前記各音響信号の音源方向を推定するための前記図形を検出する図形検出手段と
を備えることを特徴とする音響信号処理装置。 - 前記図形検出手段は、
前記音源方向の角度を検出する際の分解能が、前記音源方向の角度を検出可能な範囲にわたって略同一になるように、前記周波数成分及び前記位相差の比例関係を示す前記図形を検出するための分解能を変化させる
ことを特徴とする請求項1に記載の音響信号処理装置。 - 前記位相差算出手段によって比較された前記2つの周波数分解情報を単位として、異なる前記単位毎に前記検出された図形を用いて、音源の候補に関する複数の音源候補情報を生成し、前記生成された前記複数の音源候補情報を対応付ける図形照合手段
をさらに備えることを特徴とする請求項1に記載の音響信号処理装置。 - 前記対応付けられた前記複数の音源候補情報に基づいて音源情報を生成する音源情報生成手段と、
前記音源情報を出力する出力手段と
をさらに備えることを特徴とする請求項3に記載の音響信号処理装置。 - それぞれ異なる位置に配置された複数のマイクによって得られる複数の音響信号を入力する音響信号入力ステップと、
前記各音響信号を複数の周波数成分にそれぞれ分解し、前記各周波数成分毎に、信号レベル及び位相が対応付けられた周波数分解情報を前記音響信号毎に生成する周波数分解ステップと、
前記複数の周波数分解情報のうち、所望の2つの前記周波数分解情報を比較することにより、対応する前記周波数成分毎に、前記2つの周波数分解情報間の位相差をそれぞれ算出する位相差算出ステップと、
前記周波数成分の関数を第1の軸とし、かつ前記位相差の関数を第2の軸とする、2次元座標系上に配置された点群からなる2次元データを生成する2次元データ化ステップと、
前記点群に対してそれぞれハフ変換を行って、ハフ投票空間に、前記点群それぞれに対応する複数の軌跡を生成し、前記複数の軌跡が通過する前記ハフ投票空間における位置に投票値を加算する際、前記2つの周波数分解情報がそれぞれ示す第1及び第2の前記信号レベルのレベル差に基づいて、前記投票値を変化させながら加算する投票ステップと、
前記投票値が最大となる位置を探索することにより、前記2次元データの中から、探索された位置に対応する図形であって、かつ前記周波数成分及び前記位相差の比例関係を示し、前記各音響信号の音源方向を推定するための前記図形を検出する図形検出ステップと
を備えることを特徴とする音響信号処理方法。 - 前記図形検出ステップは、
前記音源方向の角度を検出する際の分解能が、前記音源方向の角度を検出可能な範囲にわたって略同一になるように、前記周波数成分及び前記位相差の比例関係を示す前記図形を検出するための分解能を変化させる
ことを特徴とする請求項5に記載の音響信号処理方法。 - 前記位相差算出手段によって比較された前記2つの周波数分解情報を単位として、異なる前記単位毎に前記検出された図形を用いて、音源の候補に関する複数の音源候補情報を生成し、前記生成された前記複数の音源候補情報を対応付ける図形照合ステップ
をさらに備えることを特徴とする請求項5に記載の音響信号処理方法。 - 前記対応付けられた前記複数の音源候補情報に基づいて音源情報を生成する音源情報生成ステップと、
前記音源情報を出力する出力ステップと
をさらに備えることを特徴とする請求項7に記載の音響信号処理方法。 - それぞれ異なる位置に配置された複数のマイクによって得られる複数の音響信号を入力する音響信号入力ステップと、
前記各音響信号を複数の周波数成分にそれぞれ分解し、前記各周波数成分毎に、信号レベル及び位相が対応付けられた周波数分解情報を前記音響信号毎に生成する周波数分解ステップと、
前記複数の周波数分解情報のうち、所望の2つの前記周波数分解情報を比較することにより、対応する前記周波数成分毎に、前記2つの周波数分解情報間の位相差をそれぞれ算出する位相差算出ステップと、
前記周波数成分の関数を第1の軸とし、かつ前記位相差の関数を第2の軸とする、2次元座標系上に配置された点群からなる2次元データを生成する2次元データ化ステップと、
前記点群に対してそれぞれハフ変換を行って、ハフ投票空間に、前記点群それぞれに対応する複数の軌跡を生成し、前記複数の軌跡が通過する前記ハフ投票空間における位置に投票値を加算する際、前記2つの周波数分解情報がそれぞれ示す第1及び第2の前記信号レベルのレベル差に基づいて、前記投票値を変化させながら加算する投票ステップと、
前記投票値が最大となる位置を探索することにより、前記2次元データの中から、探索された位置に対応する図形であって、かつ前記周波数成分及び前記位相差の比例関係を示し、前記各音響信号の音源方向を推定するための前記図形を検出する図形検出ステップと
を備えることを特徴とする音響信号処理プログラム。 - 前記図形検出ステップは、
前記音源方向の角度を検出する際の分解能が、前記音源方向の角度を検出可能な範囲にわたって略同一になるように、前記周波数成分及び前記位相差の比例関係を示す前記図形を検出するための分解能を変化させる
ことを特徴とする請求項9に記載の音響信号処理プログラム。 - 前記位相差算出手段によって比較された前記2つの周波数分解情報を単位として、異なる前記単位毎に前記検出された図形を用いて、音源の候補に関する複数の音源候補情報を生成し、前記生成された前記複数の音源候補情報を対応付ける図形照合ステップ
をさらに備えることを特徴とする請求項9に記載の音響信号処理プログラム。 - 前記対応付けられた前記複数の音源候補情報に基づいて音源情報を生成する音源情報生成ステップと、
前記音源情報を出力する出力ステップと
をさらに備えることを特徴とする請求項11に記載の音響信号処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006259343A JP4234746B2 (ja) | 2006-09-25 | 2006-09-25 | 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム |
US11/902,512 US8218786B2 (en) | 2006-09-25 | 2007-09-21 | Acoustic signal processing apparatus, acoustic signal processing method and computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006259343A JP4234746B2 (ja) | 2006-09-25 | 2006-09-25 | 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008079255A true JP2008079255A (ja) | 2008-04-03 |
JP4234746B2 JP4234746B2 (ja) | 2009-03-04 |
Family
ID=39303137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006259343A Expired - Fee Related JP4234746B2 (ja) | 2006-09-25 | 2006-09-25 | 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8218786B2 (ja) |
JP (1) | JP4234746B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014501064A (ja) * | 2010-10-25 | 2014-01-16 | クゥアルコム・インコーポレイテッド | マルチマイクロフォンを用いた3次元サウンド獲得及び再生 |
US9031256B2 (en) | 2010-10-25 | 2015-05-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control |
US9473849B2 (en) | 2014-02-26 | 2016-10-18 | Kabushiki Kaisha Toshiba | Sound source direction estimation apparatus, sound source direction estimation method and computer program product |
JP2016189570A (ja) * | 2015-03-30 | 2016-11-04 | アイホン株式会社 | インターホン装置 |
JP2019102904A (ja) * | 2017-11-30 | 2019-06-24 | 株式会社東芝 | システム、方法及びプログラム |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4873913B2 (ja) * | 2004-12-17 | 2012-02-08 | 学校法人早稲田大学 | 音源分離システムおよび音源分離方法、並びに音響信号取得装置 |
EP2202531A4 (en) * | 2007-10-01 | 2012-12-26 | Panasonic Corp | DETECTOR FOR SOUND SOUND ALIGNMENT |
US8532802B1 (en) * | 2008-01-18 | 2013-09-10 | Adobe Systems Incorporated | Graphic phase shifter |
EP2224425B1 (en) * | 2009-02-26 | 2012-02-08 | Honda Research Institute Europe GmbH | An audio signal processing system and autonomous robot having such system |
JP5663201B2 (ja) * | 2009-06-04 | 2015-02-04 | 本田技研工業株式会社 | 音源方向推定装置及び音源方向推定方法 |
EP2449795B1 (en) * | 2009-06-30 | 2017-05-17 | Nokia Technologies Oy | Positional disambiguation in spatial audio |
US8644517B2 (en) * | 2009-08-17 | 2014-02-04 | Broadcom Corporation | System and method for automatic disabling and enabling of an acoustic beamformer |
WO2011055410A1 (ja) | 2009-11-06 | 2011-05-12 | 株式会社 東芝 | 音声認識装置 |
US20110125497A1 (en) * | 2009-11-20 | 2011-05-26 | Takahiro Unno | Method and System for Voice Activity Detection |
JP5198530B2 (ja) | 2010-09-28 | 2013-05-15 | 株式会社東芝 | 音声付き動画像呈示装置、方法およびプログラム |
US9435873B2 (en) | 2011-07-14 | 2016-09-06 | Microsoft Technology Licensing, Llc | Sound source localization using phase spectrum |
US20130156204A1 (en) * | 2011-12-14 | 2013-06-20 | Mitel Networks Corporation | Visual feedback of audio input levels |
US8874266B1 (en) | 2012-01-19 | 2014-10-28 | Google Inc. | Enhancing sensor data by coordinating and/or correlating data attributes |
JP5660736B2 (ja) * | 2012-06-19 | 2015-01-28 | ビッグローブ株式会社 | グループ化システム |
US20140074469A1 (en) * | 2012-09-11 | 2014-03-13 | Sergey Zhidkov | Apparatus and Method for Generating Signatures of Acoustic Signal and Apparatus for Acoustic Signal Identification |
US10175335B1 (en) | 2012-09-26 | 2019-01-08 | Foundation For Research And Technology-Hellas (Forth) | Direction of arrival (DOA) estimation apparatuses, methods, and systems |
US10136239B1 (en) | 2012-09-26 | 2018-11-20 | Foundation For Research And Technology—Hellas (F.O.R.T.H.) | Capturing and reproducing spatial sound apparatuses, methods, and systems |
US10149048B1 (en) | 2012-09-26 | 2018-12-04 | Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) | Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems |
US9549253B2 (en) | 2012-09-26 | 2017-01-17 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source localization and isolation apparatuses, methods and systems |
US20160210957A1 (en) | 2015-01-16 | 2016-07-21 | Foundation For Research And Technology - Hellas (Forth) | Foreground Signal Suppression Apparatuses, Methods, and Systems |
US9554203B1 (en) * | 2012-09-26 | 2017-01-24 | Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source characterization apparatuses, methods and systems |
US9955277B1 (en) | 2012-09-26 | 2018-04-24 | Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) | Spatial sound characterization apparatuses, methods and systems |
JP6054142B2 (ja) * | 2012-10-31 | 2016-12-27 | 株式会社東芝 | 信号処理装置、方法およびプログラム |
US9319787B1 (en) * | 2013-12-19 | 2016-04-19 | Amazon Technologies, Inc. | Estimation of time delay of arrival for microphone arrays |
CN105611479B (zh) * | 2016-01-29 | 2020-12-08 | 上海航空电器有限公司 | 虚拟声源产生设备空间角度分辨率精度测量装置及方法 |
US9800973B1 (en) * | 2016-05-10 | 2017-10-24 | X Development Llc | Sound source estimation based on simulated sound sensor array responses |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
US10353060B2 (en) * | 2016-12-07 | 2019-07-16 | Raytheon Bbn Technologies Corp. | Detection and signal isolation of individual vehicle signatures |
US11408963B2 (en) * | 2018-06-25 | 2022-08-09 | Nec Corporation | Wave-source-direction estimation device, wave-source-direction estimation method, and program storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003337164A (ja) | 2002-03-13 | 2003-11-28 | Univ Nihon | 音到来方向検出方法及びその装置、音による空間監視方法及びその装置、並びに、音による複数物体位置検出方法及びその装置 |
JP3906230B2 (ja) | 2005-03-11 | 2007-04-18 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4247195B2 (ja) | 2005-03-23 | 2009-04-02 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 |
-
2006
- 2006-09-25 JP JP2006259343A patent/JP4234746B2/ja not_active Expired - Fee Related
-
2007
- 2007-09-21 US US11/902,512 patent/US8218786B2/en not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014501064A (ja) * | 2010-10-25 | 2014-01-16 | クゥアルコム・インコーポレイテッド | マルチマイクロフォンを用いた3次元サウンド獲得及び再生 |
US9031256B2 (en) | 2010-10-25 | 2015-05-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control |
KR101547035B1 (ko) * | 2010-10-25 | 2015-08-24 | 퀄컴 인코포레이티드 | 다중 마이크에 의한 3차원 사운드 포착 및 재생 |
US9552840B2 (en) | 2010-10-25 | 2017-01-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
US9473849B2 (en) | 2014-02-26 | 2016-10-18 | Kabushiki Kaisha Toshiba | Sound source direction estimation apparatus, sound source direction estimation method and computer program product |
JP2016189570A (ja) * | 2015-03-30 | 2016-11-04 | アイホン株式会社 | インターホン装置 |
JP2019102904A (ja) * | 2017-11-30 | 2019-06-24 | 株式会社東芝 | システム、方法及びプログラム |
JP7118626B2 (ja) | 2017-11-30 | 2022-08-16 | 株式会社東芝 | システム、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US8218786B2 (en) | 2012-07-10 |
JP4234746B2 (ja) | 2009-03-04 |
US20080089531A1 (en) | 2008-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4234746B2 (ja) | 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム | |
JP4247195B2 (ja) | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 | |
JP3906230B2 (ja) | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Perotin et al. | CRNN-based multiple DoA estimation using acoustic intensity features for Ambisonics recordings | |
JP4455551B2 (ja) | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Pak et al. | Sound localization based on phase difference enhancement using deep neural networks | |
US10901063B2 (en) | Localization algorithm for sound sources with known statistics | |
CN110503970A (zh) | 一种音频数据处理方法、装置及存储介质 | |
Schädler et al. | Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition | |
CN110875060A (zh) | 语音信号处理方法、装置、系统、设备和存储介质 | |
JP2009080309A (ja) | 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体 | |
Grondin et al. | Sound event localization and detection using CRNN on pairs of microphones | |
US10262678B2 (en) | Signal processing system, signal processing method and storage medium | |
Brutti et al. | Localization of multiple speakers based on a two step acoustic map analysis | |
Cho et al. | Sound source localization for robot auditory systems | |
Zheng et al. | Spectral mask estimation using deep neural networks for inter-sensor data ratio model based robust DOA estimation | |
Nakadai et al. | Footstep detection and classification using distributed microphones | |
Brutti et al. | Speaker localization based on oriented global coherence field | |
Zhang et al. | Sound event localization and classification using WASN in Outdoor Environment | |
Kanisha et al. | Speech recognition with advanced feature extraction methods using adaptive particle swarm optimization | |
Firoozabadi et al. | Combination of nested microphone array and subband processing for multiple simultaneous speaker localization | |
Bergh et al. | Multi-speaker voice activity detection using a camera-assisted microphone array | |
Cirillo et al. | Sound mapping in reverberant rooms by a robust direct method | |
JP5147012B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 | |
Nguyen et al. | Sound detection and localization in windy conditions for intelligent outdoor security cameras |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081205 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081211 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111219 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4234746 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121219 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121219 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131219 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |