JP4247195B2 - 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 - Google Patents
音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP4247195B2 JP4247195B2 JP2005084443A JP2005084443A JP4247195B2 JP 4247195 B2 JP4247195 B2 JP 4247195B2 JP 2005084443 A JP2005084443 A JP 2005084443A JP 2005084443 A JP2005084443 A JP 2005084443A JP 4247195 B2 JP4247195 B2 JP 4247195B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- straight line
- frequency
- sound
- acoustic signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims abstract description 109
- 238000003672 processing method Methods 0.000 title description 3
- 238000001514 detection method Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims description 84
- 238000009826 distribution Methods 0.000 claims description 49
- 238000000354 decomposition reaction Methods 0.000 claims description 24
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 35
- 238000004364 calculation method Methods 0.000 description 21
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 230000004807 localization Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- NCGICGYLBXGBGN-UHFFFAOYSA-N 3-morpholin-4-yl-1-oxa-3-azonia-2-azanidacyclopent-3-en-5-imine;hydrochloride Chemical compound Cl.[N-]1OC(=N)C=[N+]1N1CCOCC1 NCGICGYLBXGBGN-UHFFFAOYSA-N 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000016507 interphase Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/40—Visual indication of stereophonic sound image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
浅野太、"音を分ける"、計測と制御、第43巻、第4号、pp.325−330、2004年4月号 中臺一博ほか、"視聴覚情報の階層的統合による実時間アクティブ人物追跡"、人工知能学会AIチャレンジ研究会、SIG−Challenge−0113−5、pp.35−42、June 2001
マイク1a〜1cは、空気などの媒質中に所定の距離をあけて配置され、異なるn地点での媒質振動(音波)をそれぞれ電気信号(音響信号)に変換する。マイク1a〜1cは異なる2つの組み合わせによるm(mは2以上の数)個の対(マイクロホン対)を成す。
さて、振幅データを周波数成分に分解する一般的な手法として高速フーリエ変換(FFT)がある。代表的なアルゴリズムとしては、Cooley−Turkey DFTアルゴリズムなどが知られている。
図5に示すように、2次元データ化部4は位相差算出部301と座標値決定部302とを具備し、図形検出部5は投票部303と直線検出部304とを具備する。
位相差算出部301は、周波数分解部3により得られた同時期の2つの周波数分解データaとbとを比較して、同じ周波数成分毎に両者の位相値の差を計算して得たab間位相差データを生成する。図6に示すように、ある周波数成分fkの位相差ΔPh(fk)は、マイク1aにおける位相値Ph1(fk)とマイク1bにおける位相値Ph2(fk)の差を計算し、その値が{ΔPh(fk):−π<ΔPh(fk)≦π}に収まるように2πの剰余系として算定する。
座標値決定部302は、位相差算出部301により得られた位相差データを元に、各周波数成分に両者の位相値の差を計算して得た位相差データを所定の2次元のXY座標系上の点として扱うための座標値を決定する。ある周波数成分fkの位相差ΔPh(fk)に対応するX座標値x(fk)とY座標値y(fk)は、図7に示す式によって決定される。X座標値は位相差ΔPh(fk)、Y座標値は周波数成分番号kである。
位相差算出部301によって、図6に示したように算出される周波数成分毎の位相差は、同一音源(同一方向)に由来するものどうしが同じ到達時間差を表しているはずである。このとき、FFTによって得られたある周波数の位相値及び両マイクロホン間の位相差はその周波数の周期を2πとして算出された値なので、同じ時間差であっても周波数が2倍になれば位相差も2倍となる比例関係にある。これを示すと図8のようになる。図8(a)に例示するように、同一時間Tに対して、周波数fk[Hz]の波130は1/2周期、すなわちπだけの位相区間を含むが、2倍の周波数2fk[Hz]の波131では1周期、すなわち2πの位相区間を含む。位相差についても同様であり、同一時間差ΔTに対する位相差は周波数に比例して大きくなる。このような位相差と周波数との間の比例関係を図8(b)に示す。同一音源から発せられてΔTを共通にする各周波数成分の位相差を図7に示した座標値計算により2次元座標系上にプロットすると、各周波数成分の位相差を表す座標点132が直線133の上に並ぶことを示している。ΔTが大きいほど、すなわち音源までの距離が両マイク間で異なるほど、この直線の傾きは大きくなる。
但し、両マイクロホン間の位相差が図8(b)に示したように全域で周波数に比例するのは、解析対象となる最低周波数から最高周波数まで通して真の位相差が±πを逸脱しない場合に限られる。この条件はΔTが、最高周波数(サンプリング周波数の半分)Fr/2[Hz]の1/2周期分の時間、すなわち1/Fr[秒]以上とならないことである。もし、ΔTが1/Fr以上となる場合には、次に述べるように位相差が循環性を持つ値としてしか得られないことを考慮しなければならない。
一方、複数の音源から音波が発せられている場合、周波数と位相差のプロット図は図10に模式的に示すような様相となる。この図は2つの音源がマイクロホン対に対して異なる方向に存在している場合を示したものであり、図10(a)は2つの音源音が互いに同じ周波数成分を含んでいない場合、図10(b)は一部の周波数成分が双方に含まれている場合である。図10(a)では、各周波数成分の位相差はΔTを共通にする直線のいずれかに乗っており、傾きの小さい直線150では5点、傾きの大きい直線151(循環した直線152を含む)では6点が直線上に配置されている。図10(b)では、双方に含まれる2つの周波数成分153と154では波が混ざって位相差が正しく出ないため、いずれの直線にも乗らず、特に傾きの小さい直線155では3点しか直線上に乗っていない。
投票部303は、座標値決定部302によって(x,y)座標を与えられた各周波数成分に対して、後述するように直線ハフ変換を適用し、その軌跡をハフ投票空間に所定の方法で投票する。ハフ変換については、参考文献2「岡崎彰夫、“はじめての画像処理”、工業調査会、2000年10月20日発行」の100〜102ページに解説されているが、ここでもう一度説明する。
図11に模式的に示すように、2次元座標上の点p(x,y)を通り得る直線は図中の160、161、162に例示するごとく無数に存在するが、原点Oから各直線に下ろした垂線163のX軸からの傾きをθ、この垂線163の長さをρとして表現すると、一つの直線についてθとρは一意に決まり、ある点(x,y)を通る直線の取り得るθとρの組は、θρ座標系上で(x,y)の値に固有の軌跡164(ρ=x cosθ+y sinθ)を描くことが知られている。このような、(x,y)座標値からそこを通り得る直線の(θ,ρ)の軌跡への変換を直線ハフ変換と云う。なお、直線が左に傾いているときθは正値、垂直のとき0、右に傾いているとき負値であるとし、また、θの定義域は{θ:‐π<θ≦π}を逸脱することはない。
点群から直線を検出するため、ハフ投票という工学的な手法が使われる。これはθとρを座標軸とする2次元のハフ投票空間に各軌跡の通過するθとρの組を投票することで、ハフ投票空間の得票の大きい位置に多数の軌跡の通過するθとρの組、すなわち直線の存在を示唆させるようにする手法である。一般的には、まずθとρについての必要な探索範囲分の大きさを持つ2次元の配列(ハフ投票空間)を用意して0で初期化しておく。次いで、点毎の軌跡をハフ変換によって求め、この軌跡が通過する配列上の値を1だけ加算する。これをハフ投票と云う。全ての点についてその軌跡を投票し終えると、得票0の位置(軌跡が一つも通過しなかった)には直線が存在せず、得票1の位置(軌跡が一つだけ通過した)には一つの点を通る直線が、得票2の位置(軌跡が2つだけ通過した)には2つの点を通る直線が、得票nの位置(軌跡がn個だけ通過した)にはn個の点を通る直線がそれぞれ存在することがわかる。ハフ投票空間の分解能を無限大にできれば、上述した通り、軌跡の通過する点のみが、そこを通過する軌跡の数だけの得票を得ることになるが、実際のハフ投票空間はθとρについて適当な分解能で量子化されているため、複数の軌跡が交差する位置の周辺にも高い得票分布が生じる。そのため、ハフ投票空間の得票分布から極大値を持つ位置を探すことで、軌跡の交差する位置をより正確に求める必要がある。
(投票条件2):当該周波数成分fkのパワーP(fk)が所定閾値以上のもの
投票条件1は、一般に暗騒音が乗っている低域をカットしたり、FFTの精度の落ちる高域をカットしたりする目的で使われる。この低域カットと高域カットの範囲は運用に合わせて調整可能である。最も広く周波数帯域を使う場合、低域カットは直流成分のみ、高域カットは最大周波数のみとする設定が適している。
さらに、投票部303は、1回のFFT毎に投票を行うことも可能だが、一般的に連続するm回(m≧1)の時系列的なFFT結果についてまとめて投票を行なうこととする。長期的には音源の周波数成分は変動するものであるが、このようにすることで、周波数成分の安定している適度に短期間の複数時刻のFFT結果から得られるより多くのデータを用いて、より信頼性の高いハフ投票結果を得ることができるようになる。なお、このmは運用に合わせてパラメータとして設定可能とする。
直線検出部304は、投票部303によって生成されたハフ投票空間上の得票分布を解析して有力な直線を検出する。但し、このとき、図9で述べた位相差の循環性など、本問題に特有の事情を考慮することで、より高精度な直線検出を実現する。
ところで、マイク1aとマイク1bの信号が音響信号入力部2によって同相でA/D変換される場合、検出されるべき直線は必ずρ=0、すなわちXY座標系の原点を通る。したがって、音源の推定問題は、ハフ投票空間上でρ=0となるθ軸上の得票分布S(θ,0)から極大値を探索する問題に帰着する。図14で例示したデータに対してθ軸上で極大値を探索した結果を図15に示す。
ところで、図15で例示した直線197は、(θ0,0)なる極大位置196によって定義されたXY座標原点を通る直線である。しかし、実際には位相差の循環性によって、図15の直線197がΔρ(図中の199)だけ平行移動してX軸上の反対側から循環してくる直線198もまた197と同じ到達時間差を示す直線である。この直線198のように直線197を延長してXの値域からはみ出した部分が反対側から循環的に現れる直線を、直線197の「循環延長線」、基準となった直線197を「基準直線」とそれぞれ呼ぶことにする。もし、基準直線197がさらに傾いておれば、循環延長線はさらに数を増すことになる。ここで係数aを0以上の整数とすると、到達時間差を同じくする直線は全て(θ0,0)で定義される基準直線197をΔρずつ平行移動させた直線群(θ0,aΔρ)となる。さらに、起点となるρについてρ=0の制約をはずしてρ=ρ0として一般化すると、直線群は(θ0,aΔρ+ρ0)として記述できることになる。このとき、Δρは直線の傾きθの関数Δρ(θ)として図16に示す式で定義される符号付きの値である。
位相差の循環性から、音源を表す直線は一つではなく基準直線と循環延長線から成る直線群として扱われるべきであることを述べた。このことは得票分布から極大位置を検出する際にも考慮されなければならない。通常、位相差の循環が起きないか、起きても小規模で収まるマイクロホン対の正面付近のみで音源を検出する場合に限れば、ρ=0(あるいはρ=ρ0)上の得票値(すなわち基準直線の得票値)のみで極大位置を探索する上述の方法は性能的に十分であるばかりか、探索時間の短縮と精度の向上に効果がある。しかし、より広い範囲に存在する音源を検出しようとする場合には、あるθについてΔρずつ離れた数箇所の得票値を合計して極大位置を探索する必要がある。この違いを以下で説明する。
さて、マイク1aとマイク1bの信号が音響信号入力部2によって同相でA/D変換されない場合、検出されるべき直線はρ=0、すなわちXY座標原点を通らない。この場合はρ=0の制約をはずして極大位置を探索する必要がある。
なお、検出された直線群はマイクロホン対毎に独立に推定された各時刻における音源の候補である。このとき、同一の音源から発した音声は複数のマイクロホン対で同時刻にそれぞれ直線群として検出される。したがって、複数のマイクロホン対で同一の音源に由来する直線群を対応付けることができれば、より信頼性の高い音源の情報を得ることができるはずである。図形照合部6はそのための対応付けを行なう。このとき、図形照合部6で直線群毎に編集された情報を音源候補情報と呼ぶことにする。
方向推定部311は、以上で述べた直線検出部304による直線検出結果、すなわち直線群毎のθ値を受けて、各直線群に対応した音源の存在範囲を計算する。このとき、検出された直線群の数が音源の候補数となる。マイクロホン対のベースラインに対して音源までの距離が十分遠い場合、音源の存在範囲はマイクロホン対のベースラインに対してある角度を持った円錐面となる。これを図21を参照して説明する。
音源成分推定部312は、座標値決定部302により与えられた周波数成分毎の(x,y)座標値と、直線検出部304により検出された直線との距離を評価することで、直線近傍に位置する点(すなわち周波数成分)を当該直線群(すなわち音源)の周波数成分として検出し、この検出結果に基づいて音源毎の周波数成分を推定する。
図23に複数の音源が存在するときの音源成分推定の原理を模式的に示す。図中(a)は図9に示したものと同じ周波数と位相差のプロット図であり、2つの音源がマイクロホン対に対して異なる方向に存在している場合を示している。図中(a)の280は一つの直線群を、図中(a)の281と282は別の直線群を成している。図中(a)の黒丸は周波数成分毎の位相差位置を表している。
図24は、図23において多重帰属する周波数成分289について、どちらか最も近い方の直線群にのみ属させるようにした結果を示した図である。直線280と直線282に対する周波数成分289の水平距離を比較した結果、周波数成分289は直線282に最も近いことが判明する。このとき、周波数成分289は直線282近傍の領域288に入っている。よって、周波数成分289は、図中(b)に示すように直線群(281、282)に属する成分として検出される。このように、周波数成分毎に水平距離で最も近い直線(音源)を選択し、その水平距離が所定閾値内にある場合に当該周波数成分のパワーと位相をそのまま当該音源音の成分とする方式を「最近傍方式」と呼ぶことにする。なお、直流成分(原点)は特別扱いとして両方の直線群(音源)に帰属させるものとする。
上記2つの方式は、直線群を構成する直線に対して所定の水平距離閾値内に存在する周波数成分だけを選択し、そのパワーと位相をそのままにして直線群に対応する音源音の周波数成分と成していた。一方、次に述べる「距離係数方式」は、周波数成分と直線との水平距離dの増大に応じて単調減少する非負係数αを計算し、これを当該周波数成分のパワーに乗じることで、直線から水平距離で遠い成分ほど弱いパワーで音源音に寄与するようにした方式である。
既に述べたように、投票部303は1回のFFT毎に投票を行うことも、連続するm回(m≧1)のFFT結果をまとめて投票することも可能である。したがって、ハフ投票結果を処理する直線検出部304以降の機能ブロックは1回のハフ変換が実行される期間を単位として動作する。このとき、m≧2でハフ投票が行われるときは、複数時刻のFFT結果がそれぞれの音源音を構成する成分として分類されることになり、時刻の異なる同一周波数成分が別々の音源音に帰属させられることも起こり得る。これを扱うために、mの値に関わらず、座標値決定部302によって、各周波数成分(すなわち、図24に例示した黒丸)にはそれが取得されたフレームの開始時刻が取得時刻の情報として付与されており、どの時刻のどの周波数成分がどの音源に帰属するかを参照可能にする。すなわち、音源音がその周波数成分の時系列データとして分離抽出される。
なお、上述した各方式において、複数(N個)の直線群(音源)に属する周波数成分(最近傍方式では直流成分のみ、距離係数方式では全周波数成分が該当)では、各音源に配分される同一時刻の当該周波数成分のパワーを、その合計が配分前の当該時刻のパワー値Po(fk)に等しくなるように正規化してN分割することも可能である。このようにすることで、同一時刻の周波数成分毎に音源全体での合計パワーを入力と同じに保つことができる。これを「パワー保存オプション」と呼ぶことにする。配分の仕方には次の2つの考え方がある。すなわち、(1)N等分(距離閾値方式と最近傍方式に適用可能)と、(2)各直線群との距離に応じた配分(距離閾値方式と距離係数方式に適用可能)である。
上述した通り、投票部303によるハフ投票毎に直線検出部304により直線群が求められる。ハフ投票は連続するm回(m≧1)のFFT結果についてまとめて行われる。この結果、直線群はmフレーム分の時間を周期(これを「図形検出周期」と呼ぶことにする)として時系列的に求められることになる。また、直線群のθは方向推定部311により計算される音源方向φと1対1に対応しているので、音源が静止していても移動していても、安定な音源に対応しているθ(あるいはφ)の時間軸上の軌跡は連続しているはずである。一方、直線検出部304により検出された直線群の中には、閾値の設定具合によって背景雑音に対応する直線群(これを「雑音直線群」と呼ぶことにする)が含まれていることがある。しかしながら、このような雑音直線群のθ(あるいはφ)の時間軸上の軌跡は連続していないか、連続していても短いことが期待できる。
継続時間評価部314は、時系列追跡部313により出力された追跡の満了した軌跡データの開始時刻と終了時刻から当該軌跡の継続時間を計算し、この継続時間が所定閾値を越えるものを音源音に基づく軌跡データと認定し、それ以外を雑音に基づく軌跡データと認定する。音源音に基づく軌跡データを音源ストリーム情報と呼ぶことにする。音源ストリーム情報には、当該音源音の開始時刻Ts、終了時刻Te、当該音源方向を表すθとρとφの時系列的な軌跡データが含まれる。なお、図形検出部5による直線群の数が音源の数を与えるが、そこには雑音源も含まれている。継続時間評価部314による音源ストリーム情報の数は、雑音に基づくものを除いた信頼できる音源の数を与えてくれる。
音源成分照合部315は、時系列追跡部313と継続時間評価部314を経て異なるマイクロホン対に対してそれぞれ得られた音源ストリーム情報を、同一の音源に由来するもの同士で対応付けて音源候補対応情報を生成する。同一時刻において同一音源を発した音声は、その周波数成分において類似しているはずである。そこで、音源成分推定部312によって推定された直線群毎の各時刻の音源成分に基づいて、音源ストリーム間で同時刻の周波数成分のパタンを照合して類似度を計算し、所定閾値以上で最大の類似度を獲得した周波数成分のパタンを持つ音源ストリーム同士を対応付ける。このとき、音源ストリームの全域でパタン照合することも可能であるが、照合される音源ストリームが同時に存在する期間の数時刻の周波数成分パタンを照合して、その合計類似度、あるいは平均類似度が所定閾値以上で最大となるものを探索するようにすれば効率的である。この照合されるべき数時刻は、照合される両ストリームのパワーが共に所定閾値以上となる時刻とすることで、照合の信頼性はより向上することが期待できる。
図30に示すように音源情報生成部7は、音源存在範囲推定部401と、対選択部402と、同相化部403と、適応アレイ処理部404と、音声認識部405とを具備する。音源情報生成部7は、図形照合部6によって対応付けられた音源候補情報から、音源に関するより精密で信頼できる情報を生成する。
音源存在範囲推定部401は、図形照合部6により生成された音源候補対応情報に基づいて、音源の空間的存在範囲を算出する。その算出方式には次の2つがあり、パラメータによって切り替え可能である。
対選択部402は、図形照合部6により生成された音源候補対応情報に基づいて、音源音声の分離抽出に最も適した対を選択する。その選択方式には次の2つがあり、パラメータによって切り替え可能である。
同相化部403は、対選択部402によって選択された音源ストリーム情報から、当該ストリームの音源方向φの時間推移を得て、φの最大値φmaxと最小値φminから中間値φmid=(φmax+φmin)/2を計算して幅φw=φmax−φmidを求める。そして、当該音源ストリーム情報の元となった2つの周波数分解データaとbの時系列データを、当該ストリームの開始時刻Tsより所定時間遡った時刻から終了時刻Teより所定時間経過した時刻まで抽出して、中間値φmidで逆算される到達時間差をキャンセルするように補正することで同相化する。
適応アレイ処理部404は、抽出・同相化された2つの周波数分解データaとbの時系列データを、正面0°に中心指向性を向け、±φwに所定のマージンを加えた値を追従範囲とする適応アレイ処理に掛けることで、当該ストリームの音源音(周波数成分の時系列データ)を高精度に分離抽出する。なお、適応アレイ処理には、参考文献3「天田皇ほか“音声認識のためのマイクロホンアレー技術”,東芝レビュー2004,VOL.59,NO.9,2004」に開示されるように、それ自体がビームフォーマの構成方法として知られている「Griffith−Jim型一般化サイドローブキャンセラ」を主副2つ用いることで、設定された指向性範囲内の音声を明瞭に分離抽出する方法を用いることができる。
音声認識部405は、適応アレイ処理部404により抽出された音源音の周波数成分の時系列データを解析照合することで、当該ストリームの記号的な内容、すなわち、言語的な意味や音源の種別や話者の別を表す記号(列)を抽出する。
出力部8は、図形照合部6による音源候補情報として、図形検出部5による直線群の数として得られる音源候補の数、方向推定部311により推定された前記音響信号の発生源たる音源候補の空間的な存在範囲(円錐面を決定させる角度φ)、音源成分推定部312により推定された前記音源候補を発した音声の成分構成(周波数成分毎のパワーと位相の時系列データ)、時系列追跡部313と継続時間評価部314による雑音源を除く音源候補(音源ストリーム)の数、時系列追跡部313と継続時間評価部314による前記音源候補(音源ストリーム)を発した音声の時間的な存在期間、の少なくとも一つを含む情報、もしくは、音源情報生成部7による音源情報として、図形照合部6による対応の付いた直線群(音源ストリーム)の数として得られる音源の数、音源存在範囲推定部401により推定された前記音響信号の発生源たる音源のより精密な空間的な存在範囲(円錐面の交差範囲やテーブル引きされた座標値)、対選択部402と同相化部403と適応アレイ部404による前記音源毎の音源音(周波数成分の時系列データ)、音声認識部405による前記音源音声の記号的内容、の少なくとも一つを含む情報を出力する。
ユーザインタフェース部9は、上述した音響信号処理に必要な各種設定内容の利用者への呈示、利用者からの設定入力受理、設定内容の外部記憶装置への保存と外部記憶装置からの読み出しを実行したり、図17や図19に示した(1)マイク毎の周波数成分の表示、(2)位相差(あるいは時間差)プロット図の表示(すなわち2次元データの表示)、(3)各種得票分布の表示、(4)極大位置の表示、(5)プロット図上の直線群の表示、図23や図24に示した(6)直線群に帰属する周波数成分の表示、図26に示した(7)軌跡データの表示、のように各種処理結果や中間結果を可視化して利用者に呈示したり、所望のデータを利用者に選択させてより詳細に可視化する。このようにすることで、利用者が本実施例装置の働きを確認したり、所望の動作を行ない得るように調整したり、以後調整済みの状態で本実施例装置を利用したりすることが可能になる。
また、図27に本実施例装置における処理の流れを示す。本実施例装置における処理は、初期設定処理ステップS1と、音響信号入力処理ステップS2と、周波数分解処理ステップS3と、2次元データ化処理ステップS4と、図形検出処理ステップS5と、図形照合処理ステップS6と、音源情報生成処理ステップS7と、出力処理ステップS8と、終了判断処理ステップS9と、確認判断処理ステップS10と、情報呈示・設定受理処理ステップS11と、終了処理ステップS12とから成る。
2次元データ化部4は、その座標値決定部302によって、図7に示すようにX座標値を位相差ΔPh(fk)、Y座標値を周波数成分番号kとして点群を生成した。このとき、X座標値を位相差ΔPh(fk)からさらに計算される到達時間差の周波数毎の推定値ΔT(fk)=(ΔPh(fk)/2π)×(1/fk)とすることも可能である。位相差の代わりに到達時間差を使うと、同一の到達時間差を持つ、すなわち同一音源に由来する点は垂直な直線上に並ぶことになる。
また、本発明は図31に示すようにコンピュータを使って実施することも可能である。図中の31〜33はN個のマイクロホンである。図中の40はN個のマイクロホンによるN個の音響信号を入力するA/D変換手段であり、図中の41は入力されたN個の音響信号を処理するためのプログラム命令を実行するCPUである。図中の42〜47はコンピュータを構成する標準的なデバイスであり、それぞれRAM42、ROM43、HDD44、マウス/キーボード45、ディスプレイ46、LAN47である。また、図中の50〜52は外部から記憶メディアを介してプログラムやデータをコンピュータに供給するためのドライブ類であり、それぞれCDROM50、FDD51、CF/SDカード52である。図中の48は音響信号を出力するためのD/A変換手段であり、その出力にスピーカ49が繋がっている。このコンピュータ装置は、図27に示した処理ステップから成る音響信号処理プログラムをHDD44に記憶し、これをRAM42に読み出してCPU41で実行することで音響信号処理装置として機能する。また、外部記憶装置としてのHDD44、操作入力を受け付けるマウス/キーボード45、情報呈示手段としてのディスプレイ46とスピーカ49を使うことで、上述したユーザインタフェース部9の機能を実現する。また、音響信号処理によって得られた音源情報をRAM42やROM43やHDD44に保存出力したり、LAN47を介して通信出力する。
また、本発明は図32に示すようにコンピュータ読み取り可能な記録媒体として実施することも可能である。図中の61は本発明に係る信号処理プログラムを記録したCD−ROMやCFやSDカードやフロッピー(登録商標)ディスクなどで実現される記録媒体である。この記録媒体61をテレビやコンピュータなどの電子装置62や電子装置63やロボット64に挿入することで当該プログラムを実行可能としたり、あるいはプログラムを供給された電子装置63から通信によって別の電子装置65やロボット64に当該プログラムを供給することで電子装置65やロボット64上で当該プログラムを実行可能とする。
また、本発明は装置に外気温を測定するための温度センサを備え、該温度センサによって計測された気温データに基づいて図22における音速Vsを補正して、正確なTmaxを求めるように実施することも可能である。
また、本発明は直線群の傾きを得るためにハフ変換を実行する際にθを例えば1°刻みというように量子化を行うが、このようにθを等間隔に刻むと推定可能な音源方向φの値が不等間隔に量子化されてしまう。そこで、本発明はφを等間隔とするようにθの量子化を行うことで、音源方向の推定精度に粗密が生じにくいように実施することも可能である。
上述した音源成分照合部315は、異なる対による音源ストリーム(図形の時系列)をその同時刻の周波数成分の類似性に基づいて照合する手段であった。この照合方法は、検出すべき音源が複数同時に存在するときに、各音源音声の周波数成分の違いを手掛かりに分離抽出することを可能にする。
前記音源存在範囲推定部401において、前記(算出方式2)によって、前記同心球面上の離散的な点から最小二乗誤差の条件を満たす点を探索することで、最も誤差の少ない点の位置を音源の空間的存在範囲として求めた。このとき、最も誤差の少ない点以外に、2番目に誤差の少ない点、3番目に誤差の少ない点というように、誤差の少なさで上位k位までの点を求めることが可能である。装置がカメラなどの他のセンサを具備して、音源の方向に該カメラを向けるような用途に際して、前記求められた上位k位までの点に、誤差の少ない順でカメラを向けつつ、目標となる何らかの物体を視覚的に検出することが可能である。点の方位と距離が判っているので、カメラのアングルとズームを適切に制御することができる。このようにすることで、音源位置に存在するであろう視覚対象物を効率良く探索・検出することが可能になる。具体的には、声がした方向にカメラを向けて顔を見つけるという用途などに適用可能である。
2…音響信号入力部;
3…周波数分解部;
4…2次元データ化部;
5…図形検出部;
6…図形照合部;
7…音源情報生成部;
8…出力部;
9…ユーザインタフェース部
Claims (7)
- 異なるn(nは3以上の数)地点で捉えられた、音源からの音声を含むn個の音響信号を入力する音響信号入力手段と、
前記音響信号の各々を複数の周波数成分に分解し、周波数成分毎の位相情報を含むn個の周波数分解情報を得る周波数分解手段と、
前記n個の周波数分解情報を互いに異なるm(mは2以上の数)個の対と成し、前記m個の対毎に、該対を成す2つの前記周波数分解情報間の前記周波数成分毎の位相差を算出し、位相差のスカラ倍をX座標軸、周波数のスカラ倍をY座標軸とするX−Y座標系上に、前記周波数成分を点(x,y)として配置して成る2次元データを生成する2次元データ化手段と、
前記m個の2次元データのそれぞれについて、前記X−Y座標系の原点から前記点(x,y)を通る直線に下ろした垂線のX軸正方向からの角度をθ(以下、「直線の傾きθ」という。)とし、該垂線の長さをρとする直線ハフ変換
ρ=x・cosθ+y・sinθ {θ:−π<θ≦π}
により前記点(x,y)をθ−ρ座標系上の軌跡に変換し、θ−ρ座標系を持つ投票空間上で該軌跡が通過する位置に所定の投票値を投票することで第一の得票分布S(θ,ρ)を生成し、同一θについて、得票値S(θ,0)と、θが0でないとき、aを自然数として、
Δρ(θ)= 2(π・cosθ) :θ>0,
Δρ(θ)=−2(π・cosθ) :θ<0
ずつ離れた位置の得票値S(θ,aΔρ)とをaΔρが前記投票空間をはみ出さない限り合算して成る第二の得票分布
H(θ)=S(θ,0)+ΣS(θ,aΔρ) :θ≠0,
H(θ)=S(θ,0) :θ=0
を生成し、前記第二の得票分布H(θ)上の得票値が所定閾値以上となる極大位置を上位所定数まで検出することにより、該極大位置となるθを傾きとし、前記X−Y座標系の原点を通る直線を検出する図形検出手段と、
前記検出された直線をそれぞれ音源候補と成し、音源候補たる前記直線の傾きθから当該音源候補の前記音響信号入力手段に対する方位角φを算定し、また、前記X−Y座標系上での前記直線と前記点との距離によって当該音源候補の周波数成分を推定し、
前記対毎に、時系列で生成される前記音源候補について、時間軸方向に所定時間閾値Δt以内で近接する音源候補間の前記方位角φの差が所定角度閾値Δφ以内にある音源候補をグループ化し、その継続時間を求め、該継続時間が所定閾値以上の前記グループを音源音に基づく音源ストリームとし、
さらに、異なる対に属する前記音源ストリーム間で、同時刻の音源候補の前記推定された周波数成分からそれらの類似度を計算し、該類似度の関数が所定閾値以上で最大となる音源ストリーム同士を同一音源に由来する音源ストリームとして対応付ける音源候補情報生成手段と、
前記対応付けられた音源ストリームの一組を一つの検出された音源とし、該組の数を検出された音源の数とし、前記各組について、該組を構成する前記音源ストリームに属する音源候補の同時刻における前記方位角φの組に基づいて前記音源の空間的な存在範囲を算定する音源情報生成手段と、
を具備する音響信号処理装置。 - 前記周波数分解情報が前記周波数成分のパワー値を含み、前記所定の投票値が、前記周波数成分のパワー値の関数であることを特徴とする請求項1記載の音響信号処理装置。
- 前記音源情報生成手段が、前記音源として組を成す前記音源ストリームの一つを選択し、該音源ストリームに属する音源候補の前記方位角φの最大値と最小値から中間値φmidを求め、この中間値φmidに相当する到達時間差をキャンセルするように該音源ストリームに対応する2つの前記周波数分解情報を同相化し、この同相化された周波数分解データに対して正面0°方向に指向性を持つ適応アレイ処理を施すことにより、前記音源の周波数成分の時系列データを分離抽出することを特徴とする請求項1に記載の音響信号処理装置。
- 前記音源情報生成手段が、前記分離抽出された周波数成分の時系列データを解析照合処理することで、前記周波数成分の時系列データの言語的な意味、音源の種別、話者の別の少なくとも一つを含む記号的内容を表す記号もしくは記号列を生成することを特徴とする請求項3に記載の音響信号処理装置。
- 異なるn(nは3以上の数)地点で音響信号入力手段により捉えられた、音源からの音声を含むn個の音響信号を入力する音響信号入力ステップと、
前記音響信号の各々を複数の周波数成分に分解し、周波数成分毎の位相情報を含むn個の周波数分解情報を得る周波数分解ステップと、
前記n個の周波数分解情報を互いに異なるm(mは2以上の数)個の対と成し、前記m個の対毎に、該対を成す2つの前記周波数分解情報間の前記周波数成分毎の位相差を算出し、位相差のスカラ倍をX座標軸、周波数のスカラ倍をY座標軸とするX−Y座標系上に、前記周波数成分を点(x,y)として配置して成る2次元データを生成する2次元データ化ステップと、
前記m個の2次元データのそれぞれについて、前記X−Y座標系の原点から前記点(x,y)を通る直線に下ろした垂線のX軸正方向からの角度をθ(以下、「直線の傾きθ」という。)とし、該垂線の長さをρとする直線ハフ変換
ρ=x・cosθ+y・sinθ {θ:−π<θ≦π}
により前記点(x,y)をθ−ρ座標系上の軌跡に変換し、θ−ρ座標系を持つ投票空間上で該軌跡が通過する位置に所定の投票値を投票することで第一の得票分布S(θ,ρ)を生成し、同一θについて、得票値S(θ,0)と、θが0でないとき、aを自然数として、
Δρ(θ)= 2(π・cosθ) :θ>0,
Δρ(θ)=−2(π・cosθ) :θ<0
ずつ離れた位置の得票値S(θ,aΔρ)とをaΔρが前記投票空間をはみ出さない限り合算して成る第二の得票分布
H(θ)=S(θ,0)+ΣS(θ,aΔρ) :θ≠0,
H(θ)=S(θ,0) :θ=0
を生成し、前記第二の得票分布H(θ)上の得票値が所定閾値以上となる極大位置を上位所定数まで検出することにより、該極大位置となるθを傾きとし、前記X−Y座標系の原点を通る直線を検出する図形検出ステップと、
前記検出された直線をそれぞれ音源候補と成し、音源候補たる前記直線の傾きθから当該音源候補の前記音響信号入力手段に対する方位角φを算定し、また、前記X−Y座標系上での前記直線と前記点との距離によって当該音源候補の周波数成分を推定し、
前記対毎に、時系列で生成される前記音源候補について、時間軸方向に所定時間閾値Δt以内で近接する音源候補間の前記方位角φの差が所定角度閾値Δφ以内にある音源候補をグループ化し、その継続時間を求め、該継続時間が所定閾値以上の前記グループを音源音に基づく音源ストリームとし、
さらに、異なる対に属する前記音源ストリーム間で、同時刻の音源候補の前記推定された周波数成分からそれらの類似度を計算し、該類似度の関数が所定閾値以上で最大となる音源ストリーム同士を同一音源に由来する音源ストリームとして対応付ける音源候補情報生成ステップと、
前記対応付けられた音源ストリームの一組を一つの検出された音源とし、該組の数を検出された音源の数とし、前記各組について、該組を構成する前記音源ストリームに属する音源候補の同時刻における前記方位角φの組に基づいて前記音源の空間的な存在範囲を算定する音源情報生成ステップと、を具備する音響信号処理方法。 - 異なるn(nは3以上の数)地点で音響信号入力手段により捉えられた、音源からの音声を含むn個の音響信号を入力する音響信号入力手順と、
前記音響信号の各々を複数の周波数成分に分解し、周波数成分毎の位相情報を含むn個の周波数分解情報を得る周波数分解手順と、
前記n個の周波数分解情報を互いに異なるm(mは2以上の数)個の対と成し、前記m個の対毎に、該対を成す2つの前記周波数分解情報間の前記周波数成分毎の位相差を算出し、位相差のスカラ倍をX座標軸、周波数のスカラ倍をY座標軸とするX−Y座標系上に、前記周波数成分を点(x,y)として配置して成る2次元データを生成する2次元データ化手順と、
前記m個の2次元データのそれぞれについて、前記X−Y座標系の原点から前記点(x,y)を通る直線に下ろした垂線のX軸正方向からの角度をθ(以下、「直線の傾きθ」という。)とし、該垂線の長さをρとする直線ハフ変換
ρ=x・cosθ+y・sinθ {θ:−π<θ≦π}
により前記点(x,y)をθ−ρ座標系上の軌跡に変換し、θ−ρ座標系を持つ投票空間上で該軌跡が通過する位置に所定の投票値を投票することで第一の得票分布S(θ,ρ)を生成し、同一θについて、得票値S(θ,0)と、θが0でないとき、aを自然数として、
Δρ(θ)= 2(π・cosθ) :θ>0,
Δρ(θ)=−2(π・cosθ) :θ<0
ずつ離れた位置の得票値S(θ,aΔρ)とをaΔρが前記投票空間をはみ出さない限り合算して成る第二の得票分布
H(θ)=S(θ,0)+ΣS(θ,aΔρ) :θ≠0,
H(θ)=S(θ,0) :θ=0
を生成し、前記第二の得票分布H(θ)上の得票値が所定閾値以上となる極大位置を上位所定数まで検出することにより、該極大位置となるθを傾きとし、前記X−Y座標系の原点を通る直線を検出する図形検出手順と、
前記検出された直線をそれぞれ音源候補と成し、音源候補たる前記直線の傾きθから当該音源候補の前記音響信号入力手段に対する方位角φを算定し、また、前記X−Y座標系上での前記直線と前記点との距離によって当該音源候補の周波数成分を推定し、
前記対毎に、時系列で生成される前記音源候補について、時間軸方向に所定時間閾値Δt以内で近接する音源候補間の前記方位角φの差が所定角度閾値Δφ以内にある音源候補をグループ化し、その継続時間を求め、該継続時間が所定閾値以上の前記グループを音源音に基づく音源ストリームとし、
さらに、異なる対に属する前記音源ストリーム間で、同時刻の音源候補の前記推定された周波数成分からそれらの類似度を計算し、該類似度の関数が所定閾値以上で最大となる音源ストリーム同士を同一音源に由来する音源ストリームとして対応付ける音源候補情報生成手順と、
前記対応付けられた音源ストリームの一組を一つの検出された音源とし、該組の数を検出された音源の数とし、前記各組について、該組を構成する前記音源ストリームに属する音源候補の同時刻における前記方位角φの組に基づいて前記音源の空間的な存在範囲を算定する音源情報生成手順と、をコンピュータに実行させるための音響信号処理プログラム。 - 請求項6に記載の音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005084443A JP4247195B2 (ja) | 2005-03-23 | 2005-03-23 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 |
US11/235,244 US7711127B2 (en) | 2005-03-23 | 2005-09-27 | Apparatus, method and program for processing acoustic signal, and recording medium in which acoustic signal, processing program is recorded |
CNA2006100717804A CN1837846A (zh) | 2005-03-23 | 2006-03-23 | 用于处理声音信号的装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005084443A JP4247195B2 (ja) | 2005-03-23 | 2005-03-23 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006267444A JP2006267444A (ja) | 2006-10-05 |
JP4247195B2 true JP4247195B2 (ja) | 2009-04-02 |
Family
ID=37015300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005084443A Expired - Fee Related JP4247195B2 (ja) | 2005-03-23 | 2005-03-23 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7711127B2 (ja) |
JP (1) | JP4247195B2 (ja) |
CN (1) | CN1837846A (ja) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060073100A (ko) * | 2004-12-24 | 2006-06-28 | 삼성전자주식회사 | 특정 패턴 타입의 음원 미디어를 검색하는 음원 검색기 및그 동작방법 |
JP4234746B2 (ja) | 2006-09-25 | 2009-03-04 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム |
JP4177452B2 (ja) * | 2006-11-09 | 2008-11-05 | 松下電器産業株式会社 | 音源位置検知装置 |
JP5089198B2 (ja) * | 2007-03-09 | 2012-12-05 | 中部電力株式会社 | 音源位置推定システム |
US8767975B2 (en) | 2007-06-21 | 2014-07-01 | Bose Corporation | Sound discrimination method and apparatus |
JP4310371B2 (ja) * | 2007-09-11 | 2009-08-05 | パナソニック株式会社 | 音判定装置、音検知装置及び音判定方法 |
US8150054B2 (en) * | 2007-12-11 | 2012-04-03 | Andrea Electronics Corporation | Adaptive filter in a sensor array system |
US9392360B2 (en) | 2007-12-11 | 2016-07-12 | Andrea Electronics Corporation | Steerable sensor array system with video input |
WO2009076523A1 (en) | 2007-12-11 | 2009-06-18 | Andrea Electronics Corporation | Adaptive filtering in a sensor array system |
US8611554B2 (en) | 2008-04-22 | 2013-12-17 | Bose Corporation | Hearing assistance apparatus |
WO2010038386A1 (ja) * | 2008-09-30 | 2010-04-08 | パナソニック株式会社 | 音判定装置、音検知装置及び音判定方法 |
JP4545233B2 (ja) * | 2008-09-30 | 2010-09-15 | パナソニック株式会社 | 音判定装置、音判定方法、及び、音判定プログラム |
US8724829B2 (en) * | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
TWI389579B (zh) * | 2009-04-27 | 2013-03-11 | Univ Nat Chiao Tung | Acoustic camera |
US8620672B2 (en) * | 2009-06-09 | 2013-12-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal |
KR101600354B1 (ko) * | 2009-08-18 | 2016-03-07 | 삼성전자주식회사 | 사운드에서 오브젝트 분리 방법 및 장치 |
JP5397131B2 (ja) * | 2009-09-29 | 2014-01-22 | 沖電気工業株式会社 | 音源方向推定装置及びプログラム |
CN102483918B (zh) | 2009-11-06 | 2014-08-20 | 株式会社东芝 | 声音识别装置 |
US8897455B2 (en) * | 2010-02-18 | 2014-11-25 | Qualcomm Incorporated | Microphone array subset selection for robust noise reduction |
JP5530812B2 (ja) * | 2010-06-04 | 2014-06-25 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム |
JP5198530B2 (ja) | 2010-09-28 | 2013-05-15 | 株式会社東芝 | 音声付き動画像呈示装置、方法およびプログラム |
US9078077B2 (en) | 2010-10-21 | 2015-07-07 | Bose Corporation | Estimation of synthetic audio prototypes with frequency-based input signal decomposition |
US9111526B2 (en) | 2010-10-25 | 2015-08-18 | Qualcomm Incorporated | Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal |
CN102809742B (zh) | 2011-06-01 | 2015-03-18 | 杜比实验室特许公司 | 声源定位设备和方法 |
US8964992B2 (en) | 2011-09-26 | 2015-02-24 | Paul Bruney | Psychoacoustic interface |
JP5826582B2 (ja) * | 2011-10-13 | 2015-12-02 | 株式会社熊谷組 | 音源方向推定方法、音源方向推定装置、及び、音源推定用画像の作成装置 |
JP5685177B2 (ja) * | 2011-12-12 | 2015-03-18 | 本田技研工業株式会社 | 情報伝達システム |
US9560446B1 (en) * | 2012-06-27 | 2017-01-31 | Amazon Technologies, Inc. | Sound source locator with distributed microphone array |
CN104380063B (zh) * | 2012-07-25 | 2017-04-12 | 株式会社日立制作所 | 异常音检测系统 |
JP6107151B2 (ja) * | 2013-01-15 | 2017-04-05 | 富士通株式会社 | 雑音抑圧装置、方法、及びプログラム |
CN103558851A (zh) * | 2013-10-10 | 2014-02-05 | 杨松 | 精确感知室内活动的方法及装置 |
US9319787B1 (en) * | 2013-12-19 | 2016-04-19 | Amazon Technologies, Inc. | Estimation of time delay of arrival for microphone arrays |
JP6289936B2 (ja) | 2014-02-26 | 2018-03-07 | 株式会社東芝 | 音源方向推定装置、音源方向推定方法およびプログラム |
JP6217930B2 (ja) | 2014-07-15 | 2017-10-25 | パナソニックIpマネジメント株式会社 | 音速補正システム |
CN105590631B (zh) * | 2014-11-14 | 2020-04-07 | 中兴通讯股份有限公司 | 信号处理的方法及装置 |
JP6520276B2 (ja) | 2015-03-24 | 2019-05-29 | 富士通株式会社 | 雑音抑圧装置、雑音抑圧方法、及び、プログラム |
JP6636633B2 (ja) * | 2015-11-18 | 2020-01-29 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | 音響信号を向上させるための音響信号処理装置および方法 |
CN106057210B (zh) * | 2016-07-01 | 2017-05-10 | 山东大学 | 双耳间距下基于频点选择的快速语音盲源分离方法 |
US20180074163A1 (en) * | 2016-09-08 | 2018-03-15 | Nanjing Avatarmind Robot Technology Co., Ltd. | Method and system for positioning sound source by robot |
CN106469555B (zh) * | 2016-09-08 | 2021-01-19 | 深圳市金立通信设备有限公司 | 一种语音识别方法及终端 |
JP6686977B2 (ja) * | 2017-06-23 | 2020-04-22 | カシオ計算機株式会社 | 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム |
US10354632B2 (en) * | 2017-06-28 | 2019-07-16 | Abu Dhabi University | System and method for improving singing voice separation from monaural music recordings |
CN108170710A (zh) * | 2017-11-28 | 2018-06-15 | 苏州市东皓计算机系统工程有限公司 | 一种计算机声音识别系统 |
CN107863106B (zh) * | 2017-12-12 | 2021-07-13 | 长沙联远电子科技有限公司 | 语音识别控制方法及装置 |
CN108445451A (zh) * | 2018-05-11 | 2018-08-24 | 四川斐讯信息技术有限公司 | 一种智能音箱及其声源定位方法 |
WO2020194717A1 (ja) | 2019-03-28 | 2020-10-01 | 日本電気株式会社 | 音響認識装置、音響認識方法、及び、プログラムが格納された非一時的なコンピュータ可読媒体 |
CN110569879B (zh) * | 2019-08-09 | 2024-03-15 | 平安科技(深圳)有限公司 | 舌头图像提取方法、装置及计算机可读存储介质 |
CN113138367A (zh) * | 2020-01-20 | 2021-07-20 | 中国科学院上海微系统与信息技术研究所 | 一种目标定位方法、装置、电子设备及存储介质 |
CN111856402B (zh) * | 2020-07-23 | 2023-08-18 | 海尔优家智能科技(北京)有限公司 | 信号处理方法及装置、存储介质、电子装置 |
WO2022150950A1 (zh) * | 2021-01-12 | 2022-07-21 | 华为技术有限公司 | 评估传声器阵列一致性的方法和装置 |
CN116645973B (zh) * | 2023-07-20 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 定向音频增强方法、装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003337164A (ja) | 2002-03-13 | 2003-11-28 | Univ Nihon | 音到来方向検出方法及びその装置、音による空間監視方法及びその装置、並びに、音による複数物体位置検出方法及びその装置 |
-
2005
- 2005-03-23 JP JP2005084443A patent/JP4247195B2/ja not_active Expired - Fee Related
- 2005-09-27 US US11/235,244 patent/US7711127B2/en not_active Expired - Fee Related
-
2006
- 2006-03-23 CN CNA2006100717804A patent/CN1837846A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20060215854A1 (en) | 2006-09-28 |
JP2006267444A (ja) | 2006-10-05 |
CN1837846A (zh) | 2006-09-27 |
US7711127B2 (en) | 2010-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4247195B2 (ja) | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 | |
JP3906230B2 (ja) | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4234746B2 (ja) | 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム | |
JP4455551B2 (ja) | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Perotin et al. | CRNN-based multiple DoA estimation using acoustic intensity features for Ambisonics recordings | |
Pak et al. | Sound localization based on phase difference enhancement using deep neural networks | |
CN110503969A (zh) | 一种音频数据处理方法、装置及存储介质 | |
Schädler et al. | Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition | |
Grondin et al. | Sound event localization and detection using CRNN on pairs of microphones | |
Pianese et al. | Deepfake audio detection by speaker verification | |
Cho et al. | Sound source localization for robot auditory systems | |
Tourbabin et al. | Speaker localization by humanoid robots in reverberant environments | |
Brutti et al. | Speaker localization based on oriented global coherence field | |
Nakadai et al. | Footstep detection and classification using distributed microphones | |
Hansen et al. | Estimation of fundamental frequencies in stereophonic music mixtures | |
Xue et al. | Noise robust direction of arrival estimation for speech source with weighted bispectrum spatial correlation matrix | |
Bergh et al. | Multi-speaker voice activity detection using a camera-assisted microphone array | |
Pérez-López et al. | A hybrid parametric-deep learning approach for sound event localization and detection | |
Takeda et al. | Performance comparison of MUSIC-based sound localization methods on small humanoid under low SNR conditions | |
Dwivedi et al. | Spherical harmonics domain-based approach for source localization in presence of directional interference | |
Cirillo et al. | Sound mapping in reverberant rooms by a robust direct method | |
JP5147012B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 | |
Kwak | Sound source tracking of moving speaker using multi-channel microphones in robot environments | |
Wang et al. | IPDnet: A Universal Direct-Path IPD Estimation Network for Sound Source Localization | |
JP2018189985A (ja) | 電子機器および電子機器の制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080421 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090109 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4247195 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140116 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |