JP2006254226A - 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2006254226A JP2006254226A JP2005069824A JP2005069824A JP2006254226A JP 2006254226 A JP2006254226 A JP 2006254226A JP 2005069824 A JP2005069824 A JP 2005069824A JP 2005069824 A JP2005069824 A JP 2005069824A JP 2006254226 A JP2006254226 A JP 2006254226A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- straight line
- frequency
- sound
- acoustic signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000001514 detection method Methods 0.000 claims abstract description 54
- 230000002123 temporal effect Effects 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims description 49
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000000354 decomposition reaction Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 239000000203 mixture Substances 0.000 claims description 7
- 230000007423 decrease Effects 0.000 claims description 6
- 230000002093 peripheral effect Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 10
- 238000010606 normalization Methods 0.000 abstract description 2
- 238000002955 isolation Methods 0.000 abstract 1
- 230000002040 relaxant effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 37
- 238000003860 storage Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 230000037433 frameshift Effects 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- NCGICGYLBXGBGN-UHFFFAOYSA-N 3-morpholin-4-yl-1-oxa-3-azonia-2-azanidacyclopent-3-en-5-imine;hydrochloride Chemical compound Cl.[N-]1OC(=N)C=[N+]1N1CCOCC1 NCGICGYLBXGBGN-UHFFFAOYSA-N 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Stereophonic System (AREA)
Abstract
【解決手段】 音響信号入力部2に入力されたマイク1a及び1bの2つの振幅データは周波数分解部3により解析され、2次元データ化部4により両者の位相差が周波数毎に求められる。周波数毎の位相差は2次元の座標値を与えられて2次元データ化される。図形検出部5は生成されたXY平面上の2次元データを解析して図形を検出する。音源情報生成部6は検出された図形の情報を処理し、音響信号の発生源たる音源の数、各音源の空間的な存在範囲、各音源が発した音の時間的な存在期間、各音源音の成分構成、各音源毎の分離音声、各音源音声の記号的内容を含む音源情報を生成する。
【選択図】図1
Description
浅野太、"音を分ける"、計測と制御、第43巻、第4号、pp.325−330、2004年4月号 中臺一博ほか、"視聴覚情報の階層的統合による実時間アクティブ人物追跡"、人工知能学会AIチャレンジ研究会、SIG−Challenge−0113−5、pp.35−42、June 2001
マイク1aとマイク1bは、空気などの媒質中に所定の距離をあけて配置された2つのマイクロホンであり、異なる2地点での媒質振動(音波)をそれぞれ電気信号(音響信号)に変換するための手段である。以後、マイク1aとマイク1bとをひとまとめに扱う場合、これをマイクロホン対と呼ぶことにする。
さて、振幅データを周波数成分に分解する一般的な手法として高速フーリエ変換(FFT)がある。代表的なアルゴリズムとしては、Cooley−Turkey DFTアルゴリズムなどが知られている。
図5に示すように、2次元データ化部4は位相差算出部301と座標値決定部302とを具備する。図形検出部5は投票部303と直線検出部304とを具備する。
位相差算出部301は、周波数分解部3により得られた同時期の2つの周波数分解データセットaとbとを比較して、同じ周波数成分毎に両者の位相値の差を計算して得たab間位相差データを生成する手段である。例えば図6に示すように、ある周波数成分fkの位相差ΔPh(fk)は、マイク1aにおける位相値Ph1(fk)とマイク1bにおける位相値Ph2(fk)との差を計算し、その値が{ΔPh(fk):−π<ΔPh(fk)≦π}に収まるように、2πの剰余系として算定する。
座標値決定部302は、位相差算出部301により得られた位相差データを元に、各周波数成分に両者の位相値の差を計算して得た位相差データを所定の2次元のXY座標系上の点として扱うための座標値を決定する手段である。ある周波数成分fkの位相差ΔPh(fk)に対応するX座標値x(fk)とY座標値y(fk)は、図7に示す式によって決定される。X座標値は位相差ΔPh(fk)、Y座標値は周波数成分番号kである。
位相差算出部301によって、図6に示したように算出される周波数成分毎の位相差は、同一音源(同一方向)に由来するものどうしが同じ到達時間差を表しているはずである。FFTによって得られたある周波数の位相値及びマイクロホン間の位相差はその周波数の周期を2πとして算出された値である。ここで、同じ時間差であっても、周波数が2倍になれば位相差も2倍となるような比例関係の存在に着目する。これを図8に示す。図8(a)に示すように、同一時間Tについて、周波数fk[Hz]の波130は1/2周期、すなわちπだけの位相区間を含むが、2倍の周波数2fk[Hz]の波131は1周期、すなわち2πの位相区間を含む。これは、位相差についても同様である。すなわち、同一時間差ΔTについて、位相差は周波数に比例して大きくなる。このような位相差と周波数との間の比例関係を図8(b)に示す。同一音源から発せられてΔTを共通にする各周波数成分の位相差を図7に示した座標値計算により2次元座標系上にプロットすると、各周波数成分の位相差を表す座標点132が直線133の上に並ぶことがわかる。ΔTが大きいほど、すなわち音源までの距離がマイクロホン間で異なるほど、この直線の傾きは大きくなる。
但し、マイクロホン間の位相差が図8(b)に示したように全域で周波数に比例するのは、解析対象となる最低周波数から最高周波数まで通して真の位相差が±πを逸脱しない場合に限られる。この条件はΔTが、最高周波数(サンプリング周波数の半分)Fr/2[Hz]の1/2周期分の時間、すなわち1/Fr[秒]以上とならないことである。もし、ΔTが1/Fr以上となる場合には、次に述べるように位相差が循環性を持つ値としてしか得られないことを考慮しなければならない。
一方、複数の音源から音波が発せられている場合、周波数と位相差のプロット図は図10に模式的に示すような様相となる。この図は2つの音源がマイクロホン対に対して異なる方向に存在している場合を示したものであり、図10(a)は2つの音源音が互いに同じ周波数成分を含んでいない場合であり、図10(b)は一部の周波数成分が双方に含まれている場合である。図10(a)では、各周波数成分の位相差はΔTを共通にする直線のいずれかに乗っており、傾きの小さい直線150では5点、傾きの大きい直線151(循環した直線152を含む)では6点が直線上に配置されている。図10(b)では、双方に含まれる2つの周波数成分153と154では波が混ざって位相差が正しく出ないため、いずれの直線にも乗らず、特に傾きの小さい直線155では3点しか直線上に乗っていない。
投票部303は、座標値決定部302によって(x,y)座標を与えられた各周波数成分に対して、後述するように直線ハフ変換を適用し、その軌跡をハフ投票空間に所定の方法で投票する手段である。ハフ変換については、参考文献2「岡崎彰夫、“はじめての画像処理”、工業調査会、2000年10月20日発行」の第100頁〜第102頁に解説されているが、ここでもう一度説明する。
図11に模式的に示すように、2次元座標上の点p(x,y)を通り得る直線は160、161、162に例示するように無数に存在するが、原点Oから各直線に下ろした垂線163のX軸からの傾きをθとし、この垂線163の長さをρとして表現すると、1つの直線についてθとρは一意に決まる。ある点(x,y)を通る直線の取り得るθとρとの組は、θρ座標系上で(x,y)の値に固有の軌跡164(ρ=xcosθ+ysinθ)を描くことが知られている。このような、(x,y)座標値から、(x,y)を通り得る直線の(θ,ρ)の軌跡への変換を直線ハフ変換という。なお、直線が左に傾いているときθは正値、垂直のときは0、右に傾いているときは負値であるとし、また、θの定義域は{θ:‐π<θ≦π}を逸脱することはない。
点群から直線を検出するため、ハフ投票という工学的な手法が使われる。これはθとρを座標軸とする2次元のハフ投票空間に各軌跡の通過するθとρの組を投票することで、ハフ投票空間の得票の大きい位置に多数の軌跡の通過するθとρの組、すなわち直線の存在を示唆させるようにする手法である。一般的には、まずθとρについての必要な探索範囲分の大きさを持つ2次元の配列(ハフ投票空間)を用意して0で初期化しておく。次いで、点毎の軌跡をハフ変換によって求め、この軌跡が通過する配列上の値を1だけ加算する。これをハフ投票という。全ての点についてその軌跡を投票し終えると、得票0の位置(軌跡が1つも通過しなかった)には直線が存在せず、得票1の位置(軌跡が1つだけ通過した)には1つの点を通る直線が、得票2の位置(軌跡が2つだけ通過した)には2つの点を通る直線が、得票nの位置(軌跡がn個だけ通過した)にはn個の点を通る直線がそれぞれ存在することがわかる。ハフ投票空間の分解能を無限大にできれば、上述した通り、軌跡の通過する点のみが、そこを通過する軌跡の数だけの得票を得ることになるが、実際のハフ投票空間はθとρについて適当な分解能で量子化されているため、複数の軌跡が交差する位置の周辺にも高い得票分布が生じる。そのため、ハフ投票空間の得票分布から極大値を持つ位置を探すことで、軌跡の交差する位置をより正確に求める必要がある。
さらに、投票部303は、1回のFFT毎に投票を行うことも可能だが、一般的に連続するm回(m≧1)の時系列的なFFT結果についてまとめて投票を行なうこととする。長期的には音源の周波数成分は変動するものであるが、このようにすることで、周波数成分の安定している適度に短期間の複数時刻のFFT結果から得られるより多くのデータを用いて、より信頼性の高いハフ投票結果を得ることができるようになる。なお、このmは運用に合わせてパラメータとして設定可能とする。
直線検出部304は、投票部303によって生成されたハフ投票空間上の得票分布を解析して有力な直線を検出する手段である。但し、このとき、図9で述べた位相差の循環性など、本問題に特有の事情を考慮することで、より高精度な直線検出を実現する。
ところで、マイク1aとマイク1bの信号が音響信号入力部2によって同相でA/D変換される場合、検出されるべき直線は必ずρ=0、すなわちXY座標系の原点を通る。したがって、音源の推定問題は、ハフ投票空間上でρ=0となるθ軸上の得票分布S(θ,0)から極大値を探索する問題に帰着する。図14で例示したデータに対してθ軸上で極大値を探索した結果を図15に示す。
ところで、図15で例示した直線197は、(θ0,0)なる極大位置196によって定義されたXY座標原点を通る直線である。しかし、実際には位相差の循環性によって、図15の直線197がΔρ199だけ平行移動してX軸上の反対側から循環してくる直線198もまた197と同じ到達時間差を示す直線である。この直線198のように直線197を延長してXの値域からはみ出した部分が反対側から循環的に現れる直線を、直線197の「循環延長線」、基準となった直線197を「基準直線」とそれぞれ呼ぶことにする。もし、基準直線197がさらに傾いておれば、循環延長線はさらに数を増すことになる。ここで係数aを0以上の整数とすると、到達時間差を同じくする直線は全て(θ0,0)で定義される基準直線197をΔρずつ平行移動させた直線群(θ0,aΔρ)となる。さらに、起点となるρについてρ=0の制約をはずしてρ=ρ0として一般化すると、直線群は(θ0,aΔρ+ρ0)として記述できることになる。このとき、Δρは直線の傾きθの関数Δρ(θ)として図16に示す式で定義される符号付きの値である。
位相差の循環性から、音源を表す直線は1つではなく基準直線と循環延長線とからなる直線群として扱われるべきであることを述べた。このことは得票分布から極大位置を検出する際にも考慮されなければならない。通常、位相差の循環が起きないか、起きても小規模で収まるマイクロホン対の正面付近のみで音源を検出する場合に限れば、ρ=0(あるいはρ=ρ0)上の得票値(すなわち基準直線の得票値)のみで極大位置を探索する上述の方法は性能的に十分であるばかりか、探索時間の短縮と精度の向上に効果がある。しかし、より広い範囲に存在する音源を検出しようとする場合には、あるθについてΔρずつ離れた数箇所の得票値を合計して極大位置を探索する必要がある。この違いを以下で説明する。
さて、マイク1aとマイク1bの信号が音響信号入力部2によって同相でA/D変換されない場合、検出されるべき直線はρ=0、すなわちXY座標原点を通らない。この場合はρ=0の制約をはずして極大位置を探索する必要がある。
図20に示すように、音源情報生成部6は、方向推定部311と、音源成分推定部312と、音源音再合成部313と、時系列追跡部314と、継続時間評価部315と、同相化部316と、適応アレイ処理部317と、音声認識部318とを具備する。
方向推定部311は、以上で述べた直線検出部304による直線検出結果、すなわち直線群毎のθ値を受けて、各直線群に対応した音源の存在範囲を計算する手段である。このとき、検出された直線群の数が音源の数(全候補)となる。マイクロホン対のベースラインに対して音源までの距離が十分遠い場合、音源の存在範囲はマイクロホン対のベースラインに対してある角度を持った円錐面となる。これを図21を参照して説明する。
音源成分推定部312は、座標値決定部302により与えられた周波数成分毎の(x,y)座標値と、直線検出部304により検出された直線との距離を評価することで、直線近傍に位置する点(すなわち周波数成分)を当該直線(すなわち音源)の周波数成分として検出し、この検出結果に基づいて音源毎の周波数成分を推定するための手段である。
図23に複数の音源が存在するときの音源成分推定の原理を模式的に示す。図23(a)は図9に示したものと同じ周波数と位相差のプロット図であり、2つの音源がマイクロホン対に対して異なる方向に存在している場合を示している。図23(a)の280は1つの直線群をなし、図23(a)の281と282は別の直線群をなす。図23(a)の黒丸は周波数成分毎の位相差位置を表している。
図24は、図23において多重帰属する周波数成分289について、どちらか最も近い方の直線群にのみ属させるようにした結果を示した図である。直線280と直線282に対する周波数成分289の水平距離を比較した結果、周波数成分289は直線282に最も近いことが判明する。このとき、周波数成分289は直線282近傍の領域288に入っている。よって、周波数成分289は、図24(b)に示すように直線群(281、282)に属する成分として検出される。このように、周波数成分毎に水平距離で最も近い直線(音源)を選択し、その水平距離が所定閾値内にある場合に当該周波数成分のパワーと位相をそのまま当該音源音の成分とする方式を「最近傍方式」と呼ぶことにする。なお、直流成分(原点)は特別扱いとして両方の直線群(音源)に帰属させるものとする。
上記2つの方式は、直線群を構成する直線に対して所定の水平距離閾値内に存在する周波数成分だけを選択し、そのパワーと位相をそのままにして直線群に対応する音源音の周波数成分としていた。一方、次に述べる「距離係数方式」は、周波数成分と直線との水平距離dの増大に応じて単調減少する非負係数αを計算し、これを当該周波数成分のパワーに乗じることで、直線から水平距離で遠い成分ほど弱いパワーで音源音に寄与するようにした方式である。
既に述べたように、投票部303は1回のFFT毎に投票を行うことも、連続するm回(m≧1)のFFT結果をまとめて投票することも可能である。したがって、ハフ投票結果を処理する直線検出部304以降の機能ブロックは1回のハフ変換が実行される期間を単位として動作する。このとき、m≧2でハフ投票が行われるときは、複数時刻のFFT結果がそれぞれの音源音を構成する成分として分類されることになり、時刻の異なる同一周波数成分が別々の音源音に帰属させられることも起こり得る。これを扱うために、mの値に関わらず、座標値決定部302によって、各周波数成分(すなわち、図24に例示した黒丸)にはそれが取得されたフレームの開始時刻が取得時刻の情報として付与されており、どの時刻のどの周波数成分がどの音源に帰属するかを参照可能にする。すなわち、音源音がその周波数成分の時系列データとして分離抽出される。
なお、上述した各方式において、複数(N個)の直線群(音源)に属する周波数成分(最近傍方式では直流成分のみ、距離係数方式では全周波数成分が該当)では、各音源に配分される同一時刻の当該周波数成分のパワーを、その合計が配分前の当該時刻のパワー値Po(fk)に等しくなるように正規化してN分割することも可能である。このようにすることで、同一時刻の周波数成分毎に音源全体での合計パワーを入力と同じに保つことができる。これを「パワー保存オプション」と呼ぶことにする。配分の仕方には次の2つの考え方がある。
音源音再合成部313は、各音源音を構成する同一取得時刻の周波数成分を逆FFT処理することによって、当該時刻を開始時刻とするフレーム区間の当該音源音(振幅データ)を再合成する。図3に図示したように、1つのフレームは次のフレームとフレームシフト量だけの時間差をおいて重複している。このように複数のフレームで重複している区間では、重複する全てのフレームの振幅データを平均して最終的な振幅データと成すことができる。このような処理によって、音源音をその振幅データとして分離抽出することが可能になる。
上述した通り、投票部303によるハフ投票毎に直線検出部304により直線群が求められる。ハフ投票は連続するm回(m≧1)のFFT結果についてまとめて行われる。この結果、直線群はmフレーム分の時間を周期(これを「図形検出周期」と呼ぶことにする)として時系列的に求められることになる。また、直線群のθは方向推定部305により計算される音源方向φと1対1に対応しているので、音源が静止していても移動していても、安定な音源に対応しているθ(あるいはφ)の時間軸上の軌跡は連続しているはずである。一方、直線検出部304により検出された直線群の中には、閾値の設定具合によって背景雑音に対応する直線群(これを「雑音直線群」と呼ぶことにする)が含まれていることがある。しかしながら、このような雑音直線群のθ(あるいはφ)の時間軸上の軌跡は連続していないか、連続していても短いことが期待できる。
継続時間評価部315は、時系列追跡部314により出力された追跡の満了した軌跡データの開始時刻と終了時刻から当該軌跡の継続時間を計算し、この継続時間が所定閾値を越えるものを音源音に基づく軌跡データと認定し、それ以外を雑音に基づく軌跡データと認定する。音源音に基づく軌跡データを音源ストリーム情報と呼ぶことにする。音源ストリーム情報には、当該音源音の開始時刻Ts、終了時刻Te、当該音源方向を表すθとρとφの時系列的な軌跡データが含まれる。なお、図形検出部5による直線群の数が音源の数を与えるが、そこには雑音源も含まれている。継続時間評価部315による音源ストリーム情報の数は、雑音に基づくものを除いた信頼できる音源の数を与えてくれる。
同相化部316は、時系列追跡部314による音源ストリーム情報を参照することで、当該ストリームの音源方向φの時間推移を得て、φの最大値φmaxと最小値φminから中間値φmid=(φmax+φmin)/2を計算して幅φw=φmax−φmidを求める。そして、当該音源ストリーム情報の元となった2つの周波数分解データセットaとbの時系列データを、当該ストリームの開始時刻Tsより所定時間遡った時刻から終了時刻Teより所定時間経過した時刻まで抽出して、中間値φmidで逆算される到達時間差をキャンセルするように補正することで同相化する。
適応アレイ処理部317は、抽出・同相化された2つの周波数分解データセットaとbの時系列データを、正面0°に中心指向性を向け、±φwに所定のマージンを加えた値を追従範囲とする適応アレイ処理に掛けることで、当該ストリームの音源音の周波数成分の時系列データを高精度に分離抽出する。この処理は方法こそ異なるが、周波数成分の時系列データを分離抽出する点において音源成分推定部312と同様の働きをする。それ故、音源音再合成部313は、適応アレイ処理部317による音源音の周波数成分の時系列データからも、その音源音の振幅データを再合成することができる。
音声認識部318は、音源成分推定部312もしくは適応アレイ処理部317により抽出された音源音の周波数成分の時系列データを解析照合することで、当該ストリームの記号的な内容、すなわち、言語的な意味や音源の種別や話者の別を表す記号(列)を抽出する。
出力部7は、音源情報生成部6による音源情報として、図形検出部5による直線群の数として得られる音源の数、方向推定部311により推定される、音響信号の発生源たる各音源の空間的な存在範囲(円錐面を決定させる角度φ)、音源成分推定部312により推定される、各音源が発した音声の成分構成(周波数成分毎のパワーと位相の時系列データ)、音源音再合成部313により合成される、音源毎に分離された分離音声(振幅値の時系列データ)、時系列追跡部314と継続時間評価部315とに基づいて決定される、雑音源を除く音源の数、時系列追跡部314と継続時間評価部315とにより決定される、各音源が発した音声の時間的な存在期間、正面化部316と適応アレイ部317とにより求められる、音源毎の分離音声(振幅値の時系列データ)、音声認識部318により求められる、各音源音声の記号的内容、の少なくとも1つを含む情報を出力する手段である。
ユーザインタフェース部8は、上述した音響信号処理に必要な各種設定内容の利用者への呈示、利用者からの設定入力受理、設定内容の外部記憶装置への保存と外部記憶装置からの読み出しを実行したり、図17や図19に示した(1)マイク毎の周波数成分の表示、(2)位相差(あるいは時間差)プロット図の表示(すなわち2次元データの表示)、(3)各種得票分布の表示、(4)極大位置の表示、(5)プロット図上の直線群の表示、図23や図24に示した(6)直線群に帰属する周波数成分の表示、図26に示した(7)軌跡データの表示、のように各種処理結果や中間結果を可視化して利用者に呈示したり、所望のデータを利用者に選択させてより詳細に可視化するための手段である。このようにすることで、利用者が本実施形態に係る音響信号処理装置の働きを確認したり、所望の動作を行ない得るように調整したり、以後は調整済みの状態で本装置を利用したりすることが可能になる。
図27は本実施形態に係る音響信号処理装置が実行する処理の流れを示すフローチャートである。この処理は、初期設定処理ステップS1と、音響信号入力処理ステップS2と、周波数分解処理ステップS3と、2次元データ化処理ステップS4と、図形検出処理ステップS5と、音源情報生成処理ステップS6と、出力処理ステップS7と、終了判断処理ステップS8と、確認判断処理ステップS9と、情報呈示・設定受理処理ステップS10と、終了処理ステップS11とを有する。
2次元データ化部4は、その座標値決定部302によって、図7に示すようにX座標値を位相差ΔPh(fk)、Y座標値を周波数成分番号kとして点群を生成した。このとき、X座標値を位相差ΔPh(fk)からさらに計算される到達時間差の周波数毎の推定値ΔT(fk)=(ΔPh(fk)/2π)×(1/fk)とすることも可能である。位相差の代わりに到達時間差を使うと、同一の到達時間差を持つ、すなわち同一音源に由来する点は垂直な直線上に並ぶことになる。
また、以上の例はマイクロホンを2つ備えた最も単純な構成で説明したものであるが、図30に示すように、マイクロホンをN(N≧3)個備え、最大M(1≦M≦NC2)個のマイクロホン対を構成することも可能である。
また、本発明は、図31に示すように本発明に係る音響信号処理機能を実現するためのプログラムを実行可能な汎用コンピュータとして実施することも可能である。図中の31〜33はN個のマイクロホンである。図中の40はN個のマイクロホンによるN個の音響信号を入力するA/D変換手段であり、図中の41は入力されたN個の音響信号を処理するためのプログラム命令を実行するCPUである。図中の42〜47はコンピュータを構成する標準的なデバイスであり、それぞれRAM42、ROM43、HDD44、マウス/キーボード45、ディスプレイ46、LAN47である。また、図中の50〜52は外部から記憶メディアを介してプログラムやデータをコンピュータに供給するためのドライブ類であり、それぞれCDROM50、FDD51、CF/SDカード52である。図中の48は音響信号を出力するためのD/A変換手段であり、その出力にスピーカ49が繋がっている。このコンピュータ装置は、図27に示した処理ステップを実行するための音響信号処理プログラムをHDD44に記憶し、これをRAM42に読み出してCPU41で実行することで音響信号処理装置として機能する。また、外部記憶装置としてのHDD44、操作入力を受け付けるマウス/キーボード45、情報呈示手段としてのディスプレイ46とスピーカ49を使うことで、上述したユーザインタフェース部8の機能を実現する。また、音響信号処理によって得られた音源情報をRAM42やROM43やHDD44に保存出力したり、LAN47を介して通信出力する。
また、本発明は図32に示すようにコンピュータ読み取り可能な記録媒体として実施することも可能である。図中の61は本発明に係る音響信号処理プログラムを記録したCD−ROMやCFやSDカードやフロッピー(登録商標)ディスクなどで実現される記録媒体である。この記録媒体61をテレビやコンピュータなどの電子装置62や電子装置63やロボット64に挿入することで当該プログラムを実行可能としたり、あるいはプログラムを供給された電子装置63から通信によって別の電子装置65やロボット64に当該プログラムを供給することで、電子装置65やロボット64上で当該プログラムを実行可能とする。
また、本発明は装置に外気温を測定するための温度センサを備え、該温度センサによって計測された気温データに基づいて図22における音速Vsを補正して、正確なTmaxを求めるように実施することも可能である。
また、本発明は直線群の傾きを得るためにハフ変換を実行する際にθを例えば1°刻みというように量子化を行うが、このようにθを等間隔に刻むと推定可能な音源方向φの値が不等間隔に量子化されてしまう。そこで、本発明はφを等間隔とするようにθの量子化を行うことで、音源方向の推定精度に粗密が生じにくいように実施することも可能である。
2…音響信号入力部;
3…周波数分解部;
4…2次元データ化部;
5…図形検出部;
6…音源情報生成部;
7…出力部;
8…ユーザインタフェース部
Claims (24)
- 空間的に同一でない2以上の地点で捉えられた複数の音響信号を入力する音響信号入力手段と、
前記複数の音響信号の各々を分解し、周波数毎の位相値を表す複数の周波数分解データセットを求める周波数分解手段と、
前記複数の周波数分解データセットの異なる組において、周波数毎の位相差値を算出する位相差算出手段と、
前記組のそれぞれについて、周波数の関数を第1の軸とし、前記位相差算出手段により算出された位相差値の関数を第2の軸とする2次元座標系上の座標値を有する点群を表す2次元データを生成する2次元データ化手段と、
同一音源に由来する周波数と位相差との間の比例関係を反映した図形を前記2次元データから検出する図形検出手段と、
前記音響信号の発生源に相当する音源の数、各音源の空間的な存在範囲、各音源が発した音声の時間的な存在期間、各音源が発した音声の成分構成、音源毎に分離された分離音声、各音源が発した音声の記号的内容の少なくともいずれかを含み、区別された音源に関する音源情報を前記図形に基づいて生成する音源情報生成手段と、
前記音源情報を出力する出力手段とを具備する音響信号処理装置。 - 前記2次元データ化手段は、周波数のスカラ倍を前記第1の軸とし、位相差値のスカラ倍を前記第2の軸とする2次元座標系上の座標値を決定する座標値決定手段を具備する請求項1記載の音響信号処理装置。
- 前記2次元データ化手段は、周波数の関数を前記第1の軸とし、前記位相差算出手段により算出された位相差値から到達時間差を算出する関数を前記第2の軸とする2次元座標系上の座標値を決定する座標値決定手段を具備する請求項1記載の音響信号処理装置。
- 前記図形検出手段は、
前記座標値決定手段により決定された座標値を有する点を、直線ハフ変換により投票空間に投票することにより得票分布を生成する投票手段と、
前記投票手段により生成された得票分布から、得票が閾値以上となる上位所定数の極大位置を検出することにより、直線を検出する直線検出手段とを具備する請求項2又は3記載の音響信号処理装置。 - 前記図形検出手段は、
前記座標値決定手段により決定された座標値を有する点を所定方向に投影した投票空間に投票することにより、射影投票された周辺分布からなる得票分布を生成する投票手段と、
前記投票手段により生成された得票分布から、得票が所定閾値以上となる極大位置を、得票の上位で所定数まで検出することで直線を検出する直線検出手段とを具備する請求項3記載の音響信号処理装置。 - 前記投票手段は、前記投票空間に固定の値を投票し、
前記直線検出手段は前記2次元座標系において各周波数の点の多くを通る直線を検出する請求項4又は5記載の音響信号処理装置。 - 前記周波数分解手段は、前記周波数毎の位相値のみならず周波数毎のパワー値をも計算し、
前記投票手段は、前記パワー値に基づく数値を投票し、
前記直線検出手段は、前記2次元座標系において各周波数のパワーの大きい点を多く通る直線を検出する請求項4又は5記載の音響信号処理装置。 - 前記直線検出手段は、前記得票分布から所定閾値以上の得票を獲得した極大位置を検出するに際して、前記2次元座標系上の特定の位置を通過する直線に対応した前記投票空間上の位置についてのみ前記極大位置を求める請求項4又は5記載の音響信号処理装置。
- 前記直線検出手段は、前記得票分布から所定閾値以上の得票を獲得した極大位置を検出するに際して、前記直線と傾きを同じくし、該傾きに応じて算出される一定の距離だけ離れた平行な直線群の、各直線に対応した得票の合計値を算出し、該合計値が所定閾値以上となる極大位置を求める請求項4記載の音響信号処理装置。
- 前記音源情報生成手段は、
前記直線検出手段により検出された直線の傾き、又は前記直線検出手段により検出された直線と前記第2の軸との交点に基づいて、前記音源の空間的な存在範囲を、前記音響信号を捉えた2つの地点間を結ぶ線分に対する角度として算出する方向推定手段を具備する請求項4又は5記載の音響信号処理装置。 - 前記音源情報生成手段は、前記直線検出手段により検出された直線について、周波数毎に、前記座標値と前記直線との距離を算出し、該距離に基づいて前記直線に対応する音源が発する音の周波数成分を推定する音源成分推定手段を具備する請求項4又は5記載の音響信号処理装置。
- 前記音源情報生成手段は、
前記直線検出手段により検出された直線について、周波数毎に、前記座標値と前記直線との距離を算出し、該距離に基づいて前記直線に対応する音源が発する音の周波数成分を推定する音源成分推定手段と、
推定された前記音の周波数成分から当該音源が発する音響信号データを合成する分離音声抽出手段とを具備する請求項4又は5記載の音響信号処理装置。 - 前記音源成分推定手段は、前記座標値の前記直線に対する距離が所定閾値内である周波数を前記直線に対応する音源の発する音の周波数成分とする請求項11又は12記載の音響信号処理装置。
- 前記音源成分推定手段は、
前記座標値の前記直線に対する距離が所定閾値内である周波数を前記直線に対応する音源の発する音の周波数成分の候補とし、同一周波数成分について、最も近い方の直線に帰属させる請求項11又は12記載の音響信号処理装置。 - 前記周波数分解手段は、前記周波数毎の位相値のみならず周波数毎のパワー値をも計算し、
前記音源成分推定手段は、前記座標値の前記直線に対する距離の増加に応じて単調減少する非負係数を算出し、前記周波数のパワーに前記非負係数を乗じた値を前記直線に対応する音源の発する音の当該周波数成分のパワー値とする請求項11及び12に記載の音響信号処理装置。 - 前記音源情報生成手段は、
前記直線検出手段により検出された直線の傾き、又は前記直線検出手段により検出された直線と前記第2の軸との交点に基づいて、前記音源の空間的な存在範囲を、前記音響信号を捉えた2つの地点間を結ぶ線分に対する角度として算出する方向推定手段と、
前記角度に基づいて音源方向に関する追従範囲を設定し、該追従範囲内に存在する音源からの音声のみを通過させることで当該音源が発する音の音響信号のデータを抽出する適応アレイ処理手段とを具備する請求項4又は5記載の音響信号処理装置。 - 装置の動作に関する設定情報の確認と変更を利用者が行うためのユーザインタフェース手段を具備する請求項1記載の音響信号処理装置。
- 装置の動作に関する設定情報の保存と読み込みを利用者が行うためのユーザインタフェース手段を具備する請求項1記載の音響信号処理装置。
- 前記2次元データ、又は前記図形を利用者に呈示するためのユーザインタフェース手段を具備する請求項1記載の音響信号処理装置。
- 前記音源情報を利用者に呈示するためのユーザインタフェース手段を具備する請求項1記載の音響信号処理装置。
- 前記図形検出手段は、前記2次元データセットの時系列からなる3次元データセットから前記図形を検出する請求項1記載の音響信号処理装置。
- 空間的に同一でない2以上の地点で捉えられた複数の音響信号を入力する音響信号ステップと、
前記複数の音響信号の各々を分解し、周波数毎の位相値を表す複数の周波数分解データセットを求める周波数分解ステップと、
前記複数の周波数分解データセットの異なる組において、周波数毎の位相差値を算出する位相差算出ステップと、
前記組のそれぞれについて、周波数の関数を第1の軸とし、前記位相差算出ステップにより算出された位相差値の関数を第2の軸とする2次元座標系上の座標値を有する点群を表す2次元データを生成する2次元データ化ステップと、
同一音源に由来する周波数と位相差との間の比例関係を反映した図形を前記2次元データから検出する図形検出ステップと、
前記音響信号の発生源に相当する音源の数、各音源の空間的な存在範囲、各音源が発した音声の時間的な存在期間、各音源が発した音声の成分構成、音源毎に分離された分離音声、各音源が発した音声の記号的内容の少なくともいずれかを含み、区別された音源に関する音源情報を前記図形に基づいて生成する音源情報生成ステップと、
前記音源情報を出力する出力ステップとを有する音響信号処理方法。 - 空間的に同一でない2以上の地点で捉えられた複数の音響信号を入力する音響信号手順と、
前記複数の音響信号の各々を分解し、周波数毎の位相値を表す複数の周波数分解データセットを求める周波数分解手順と、
前記複数の周波数分解データセットの異なる組において、周波数毎の位相差値を算出する位相差算出手順と、
前記組のそれぞれについて、周波数の関数を第1の軸とし、前記位相差算出手順により算出された位相差値の関数を第2の軸とする2次元座標系上の座標値を有する点群を表す2次元データを生成する2次元データ化手順と、
同一音源に由来する周波数と位相差との間の比例関係を反映した図形を前記2次元データから検出する図形検出手順と、
前記音響信号の発生源に相当する音源の数、各音源の空間的な存在範囲、各音源が発した音声の時間的な存在期間、各音源が発した音声の成分構成、音源毎に分離された分離音声、各音源が発した音声の記号的内容の少なくともいずれかを含み、区別された音源に関する音源情報を前記図形に基づいて生成する音源情報生成手順と、
前記音源情報を出力する出力手順とをコンピュータに実行させるための音響信号処理プログラム。 - 請求項23に記載の音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005069824A JP3906230B2 (ja) | 2005-03-11 | 2005-03-11 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US11/235,307 US20060204019A1 (en) | 2005-03-11 | 2005-09-27 | Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and computer-readable recording medium recording acoustic signal processing program |
EP05256004A EP1701587A3 (en) | 2005-03-11 | 2005-09-27 | Acoustic signal processing |
CNA2006100594908A CN1831554A (zh) | 2005-03-11 | 2006-03-13 | 声音信号处理设备和声音信号处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005069824A JP3906230B2 (ja) | 2005-03-11 | 2005-03-11 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006209089A Division JP4455551B2 (ja) | 2006-07-31 | 2006-07-31 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006254226A true JP2006254226A (ja) | 2006-09-21 |
JP3906230B2 JP3906230B2 (ja) | 2007-04-18 |
Family
ID=36579432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005069824A Expired - Fee Related JP3906230B2 (ja) | 2005-03-11 | 2005-03-11 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20060204019A1 (ja) |
EP (1) | EP1701587A3 (ja) |
JP (1) | JP3906230B2 (ja) |
CN (1) | CN1831554A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102010055476A1 (de) | 2009-12-28 | 2011-07-07 | Fujitsu Ltd., Kanagawa | Signalverarbeitungsgerät, Mikrofonarrayvorrichtung und Speichermedium, das ein Signalverarbeitungsprogramm speichert |
JP2013511750A (ja) * | 2009-12-28 | 2013-04-04 | 歌尓声学股▲ふん▼有限公司 | マイクロホンアレイノイズ低減制御方法及び装置 |
US9473849B2 (en) | 2014-02-26 | 2016-10-18 | Kabushiki Kaisha Toshiba | Sound source direction estimation apparatus, sound source direction estimation method and computer program product |
JP2018189985A (ja) * | 2018-08-02 | 2018-11-29 | 株式会社東芝 | 電子機器および電子機器の制御方法 |
JP2020197565A (ja) * | 2019-05-31 | 2020-12-10 | 富士通株式会社 | 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置 |
KR20210073465A (ko) | 2019-12-10 | 2021-06-18 | 가부시키가이샤 에바라 세이사꾸쇼 | 연마 방법 및 연마 장치 |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7697024B2 (en) * | 2005-11-03 | 2010-04-13 | Broadcom Corp. | Method and system of tracking and stabilizing an image transmitted using video telephony |
US7728866B2 (en) * | 2005-11-03 | 2010-06-01 | Broadcom Corp. | Video telephony image processing |
JP4234746B2 (ja) | 2006-09-25 | 2009-03-04 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム |
JP4854533B2 (ja) | 2007-01-30 | 2012-01-18 | 富士通株式会社 | 音響判定方法、音響判定装置及びコンピュータプログラム |
JP4449987B2 (ja) * | 2007-02-15 | 2010-04-14 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
US20100098266A1 (en) * | 2007-06-01 | 2010-04-22 | Ikoa Corporation | Multi-channel audio device |
US8155346B2 (en) * | 2007-10-01 | 2012-04-10 | Panasonic Corpration | Audio source direction detecting device |
JP5141691B2 (ja) * | 2007-11-26 | 2013-02-13 | 富士通株式会社 | 音処理装置、補正装置、補正方法及びコンピュータプログラム |
KR101600354B1 (ko) * | 2009-08-18 | 2016-03-07 | 삼성전자주식회사 | 사운드에서 오브젝트 분리 방법 및 장치 |
US20110125497A1 (en) * | 2009-11-20 | 2011-05-26 | Takahiro Unno | Method and System for Voice Activity Detection |
US8309834B2 (en) * | 2010-04-12 | 2012-11-13 | Apple Inc. | Polyphonic note detection |
US9025782B2 (en) | 2010-07-26 | 2015-05-05 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for multi-microphone location-selective processing |
JP5198530B2 (ja) | 2010-09-28 | 2013-05-15 | 株式会社東芝 | 音声付き動画像呈示装置、方法およびプログラム |
US20120089392A1 (en) * | 2010-10-07 | 2012-04-12 | Microsoft Corporation | Speech recognition user interface |
US8805697B2 (en) * | 2010-10-25 | 2014-08-12 | Qualcomm Incorporated | Decomposition of music signals using basis functions with time-evolution information |
WO2012105386A1 (ja) * | 2011-02-01 | 2012-08-09 | 日本電気株式会社 | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム |
WO2012105385A1 (ja) * | 2011-02-01 | 2012-08-09 | 日本電気株式会社 | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム |
CN102809742B (zh) | 2011-06-01 | 2015-03-18 | 杜比实验室特许公司 | 声源定位设备和方法 |
US9435873B2 (en) * | 2011-07-14 | 2016-09-06 | Microsoft Technology Licensing, Llc | Sound source localization using phase spectrum |
US8818800B2 (en) | 2011-07-29 | 2014-08-26 | 2236008 Ontario Inc. | Off-axis audio suppressions in an automobile cabin |
EP2551849A1 (en) * | 2011-07-29 | 2013-01-30 | QNX Software Systems Limited | Off-axis audio suppression in an automobile cabin |
TWI459381B (zh) * | 2011-09-14 | 2014-11-01 | Ind Tech Res Inst | 語音增強方法 |
US9966088B2 (en) * | 2011-09-23 | 2018-05-08 | Adobe Systems Incorporated | Online source separation |
JP5810903B2 (ja) * | 2011-12-27 | 2015-11-11 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
EP2810453B1 (en) * | 2012-01-17 | 2018-03-14 | Koninklijke Philips N.V. | Audio source position estimation |
US9373320B1 (en) | 2013-08-21 | 2016-06-21 | Google Inc. | Systems and methods facilitating selective removal of content from a mixed audio recording |
CN104715753B (zh) * | 2013-12-12 | 2018-08-31 | 联想(北京)有限公司 | 一种数据处理的方法及电子设备 |
CN106170681A (zh) * | 2014-03-18 | 2016-11-30 | 罗伯特·博世有限公司 | 自适应声学强度分析仪 |
EP3507993B1 (en) * | 2016-08-31 | 2020-11-25 | Dolby Laboratories Licensing Corporation | Source separation for reverberant environment |
CN106842131B (zh) * | 2017-03-17 | 2019-10-18 | 浙江宇视科技有限公司 | 麦克风阵列声源定位方法及装置 |
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
US10354632B2 (en) * | 2017-06-28 | 2019-07-16 | Abu Dhabi University | System and method for improving singing voice separation from monaural music recordings |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
US10264354B1 (en) * | 2017-09-25 | 2019-04-16 | Cirrus Logic, Inc. | Spatial cues from broadside detection |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
CN108597508B (zh) * | 2018-03-28 | 2021-01-22 | 京东方科技集团股份有限公司 | 用户识别方法、用户识别装置和电子设备 |
US10529356B2 (en) | 2018-05-15 | 2020-01-07 | Cirrus Logic, Inc. | Detecting unwanted audio signal components by comparing signals processed with differing linearity |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
CN114900195B (zh) * | 2022-07-11 | 2022-09-20 | 山东嘉通专用汽车制造有限公司 | 一种用于粉罐车的安全状态监测系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196374A (ja) * | 1997-07-23 | 1999-04-09 | Sanyo Electric Co Ltd | 3次元モデリング装置、3次元モデリング方法および3次元モデリングプログラムを記録した媒体 |
JP2003111183A (ja) * | 2001-09-27 | 2003-04-11 | Chubu Electric Power Co Inc | 音源探査システム |
JP2003269937A (ja) * | 2002-03-15 | 2003-09-25 | Sony Corp | 障害物認識装置、障害物認識方法、及び障害物認識プログラム並びに移動型ロボット装置 |
JP2003337164A (ja) * | 2002-03-13 | 2003-11-28 | Univ Nihon | 音到来方向検出方法及びその装置、音による空間監視方法及びその装置、並びに、音による複数物体位置検出方法及びその装置 |
JP2004289762A (ja) * | 2003-01-29 | 2004-10-14 | Toshiba Corp | 音声信号処理方法と装置及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4333170A (en) * | 1977-11-21 | 1982-06-01 | Northrop Corporation | Acoustical detection and tracking system |
-
2005
- 2005-03-11 JP JP2005069824A patent/JP3906230B2/ja not_active Expired - Fee Related
- 2005-09-27 US US11/235,307 patent/US20060204019A1/en not_active Abandoned
- 2005-09-27 EP EP05256004A patent/EP1701587A3/en not_active Withdrawn
-
2006
- 2006-03-13 CN CNA2006100594908A patent/CN1831554A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196374A (ja) * | 1997-07-23 | 1999-04-09 | Sanyo Electric Co Ltd | 3次元モデリング装置、3次元モデリング方法および3次元モデリングプログラムを記録した媒体 |
JP2003111183A (ja) * | 2001-09-27 | 2003-04-11 | Chubu Electric Power Co Inc | 音源探査システム |
JP2003337164A (ja) * | 2002-03-13 | 2003-11-28 | Univ Nihon | 音到来方向検出方法及びその装置、音による空間監視方法及びその装置、並びに、音による複数物体位置検出方法及びその装置 |
JP2003269937A (ja) * | 2002-03-15 | 2003-09-25 | Sony Corp | 障害物認識装置、障害物認識方法、及び障害物認識プログラム並びに移動型ロボット装置 |
JP2004289762A (ja) * | 2003-01-29 | 2004-10-14 | Toshiba Corp | 音声信号処理方法と装置及びプログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102010055476A1 (de) | 2009-12-28 | 2011-07-07 | Fujitsu Ltd., Kanagawa | Signalverarbeitungsgerät, Mikrofonarrayvorrichtung und Speichermedium, das ein Signalverarbeitungsprogramm speichert |
JP2013511750A (ja) * | 2009-12-28 | 2013-04-04 | 歌尓声学股▲ふん▼有限公司 | マイクロホンアレイノイズ低減制御方法及び装置 |
DE102010055476B4 (de) * | 2009-12-28 | 2014-01-02 | Fujitsu Ltd. | Signalverarbeitungsgerät, Mikrofonarrayvorrichtung und Speichermedium, das ein Signalverarbeitungsprogramm speichert |
US9473849B2 (en) | 2014-02-26 | 2016-10-18 | Kabushiki Kaisha Toshiba | Sound source direction estimation apparatus, sound source direction estimation method and computer program product |
JP2018189985A (ja) * | 2018-08-02 | 2018-11-29 | 株式会社東芝 | 電子機器および電子機器の制御方法 |
JP2020197565A (ja) * | 2019-05-31 | 2020-12-10 | 富士通株式会社 | 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置 |
JP7226107B2 (ja) | 2019-05-31 | 2023-02-21 | 富士通株式会社 | 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置 |
KR20210073465A (ko) | 2019-12-10 | 2021-06-18 | 가부시키가이샤 에바라 세이사꾸쇼 | 연마 방법 및 연마 장치 |
US11759913B2 (en) | 2019-12-10 | 2023-09-19 | Ebara Corporation | Polishing method and polishing apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP3906230B2 (ja) | 2007-04-18 |
EP1701587A2 (en) | 2006-09-13 |
US20060204019A1 (en) | 2006-09-14 |
EP1701587A3 (en) | 2009-04-29 |
CN1831554A (zh) | 2006-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3906230B2 (ja) | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4247195B2 (ja) | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 | |
JP4234746B2 (ja) | 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム | |
JP4455551B2 (ja) | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US10901063B2 (en) | Localization algorithm for sound sources with known statistics | |
EP3707716B1 (en) | Multi-channel speech separation | |
CN108122563B (zh) | 提高语音唤醒率及修正doa的方法 | |
Pak et al. | Sound localization based on phase difference enhancement using deep neural networks | |
CN110503969A (zh) | 一种音频数据处理方法、装置及存储介质 | |
Schädler et al. | Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition | |
Madmoni et al. | Direction of arrival estimation for reverberant speech based on enhanced decomposition of the direct sound | |
Grondin et al. | Sound event localization and detection using CRNN on pairs of microphones | |
JP2008079256A (ja) | 音響信号処理装置、音響信号処理方法及びプログラム | |
US20220301575A1 (en) | Direction of arrival estimation apparatus, model learning apparatus, direction of arrival estimation method, model learning method, and program | |
KR101720514B1 (ko) | Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 | |
Ince et al. | Assessment of general applicability of ego noise estimation | |
Chakraborty et al. | Sound-model-based acoustic source localization using distributed microphone arrays | |
Ince et al. | Ego noise suppression of a robot using template subtraction | |
Cho et al. | Sound source localization for robot auditory systems | |
Tourbabin et al. | Speaker localization by humanoid robots in reverberant environments | |
Brutti et al. | Speaker localization based on oriented global coherence field | |
Zhang et al. | Sound event localization and classification using WASN in Outdoor Environment | |
Hansen et al. | Estimation of fundamental frequencies in stereophonic music mixtures | |
Asano et al. | Fusion of audio and video information for detecting speech events | |
Xue et al. | Noise robust direction of arrival estimation for speech source with weighted bispectrum spatial correlation matrix |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060731 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070115 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 3906230 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110119 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120119 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130119 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130119 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140119 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |