JP2008219458A - 音源分離装置,音源分離プログラム及び音源分離方法 - Google Patents
音源分離装置,音源分離プログラム及び音源分離方法 Download PDFInfo
- Publication number
- JP2008219458A JP2008219458A JP2007053791A JP2007053791A JP2008219458A JP 2008219458 A JP2008219458 A JP 2008219458A JP 2007053791 A JP2007053791 A JP 2007053791A JP 2007053791 A JP2007053791 A JP 2007053791A JP 2008219458 A JP2008219458 A JP 2008219458A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- signal
- sound
- processing
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 332
- 238000012545 processing Methods 0.000 claims abstract description 280
- 238000000034 method Methods 0.000 claims abstract description 211
- 230000005236 sound signal Effects 0.000 claims abstract description 115
- 239000011159 matrix material Substances 0.000 claims abstract description 50
- 241001168730 Simo Species 0.000 claims abstract 19
- 238000012880 independent component analysis Methods 0.000 claims description 99
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 26
- 230000000873 masking effect Effects 0.000 description 22
- 238000011156 evaluation Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/403—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】ICA法に基づくBSS方式の音源分離処理によりSIMO信号を分離生成するSIMO−ICA処理部10と,その学習計算によって算出される分離行列に基づいて,音源方向を推定する音源方向推定部4と,SIMO信号それぞれについて,周波数ビンごとに音源方向それぞれからの音声成分を強調するビームフォーマ処理を行うビームフォーマ処理部5と,ビームフォーマ処理後の音声信号のうち,特定の信号を除く他の信号について,周波数ビンごとに選択処理等を行うことを含む中間処理を行う中間処理部6と,特定SIMO信号における一の信号について,周波数ビンごとに,前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較によりノイズ信号成分を除去する目的外信号成分除去部7とを備える。
【選択図】図1
Description
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクを通じて入力される複数の前記混合音声信号(時系列の音声信号)において,前記音源信号どうしが統計的に独立であることを利用して所定の逆混合行列を最適化し,入力された複数の前記混合音声信号に対して最適化された逆混合行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献1や非特許文献2等に詳説されている。
一方,音源分離処理としては,バイナリーマスキング処理(バイノーラル信号処理の一例)による音源分離処理も知られている。バイナリーマスキング処理は,複数の指向性ステレオマイクロホンを通じて入力される混合音声信号相互間で,複数に区分された周波数成分(周波数ビン)ごとの音量レベルを比較することにより,混合音声信号それぞれについて主となる音源からの音声信号以外の信号成分を除去する処理であり,比較的低い演算負荷で実現できる音源分離処理である。これについては,例えば,非特許文献3や非特許文献4等に詳説されている。
また,ICA法に基づくBSS方式の音源分離処理においては,学習計算によって分離行列が得られるが,その分離行列に基づいて,音源の存在する方向(DOA:Direction of Arrivals)を推定する各種の技術が従来より知られている。例えば,非特許文献6や非特許文献7には,前記分離行列にステアリングベクトルを乗じることによってDOAを推定する技術が示されている。
猿渡洋「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告,vol.EA2001-7,pp.49-56,April 2001. 高谷智哉他「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告,vol.US2002-87,EA2002-108,January 2003. R.F.Lyon, "A computational model of binaural localization and separation," In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, vol.1, pp.43--55, 1993. N.Murata and S. Ikeda. A on-line algorithm for blind source separation on speech signals. In Proceedings of NOLTA'98, pp. 923-926,1998 西川剛樹他,「ICAとビームフォーミングを統合した高速収束アルゴリズムに基づく3音源以上のブラインド音源分離」,日本音響学会講演論文集,1-6-13,March 2005. Saruwatari Hiroshi他,"Blind source separation for speech based on fast-convergence algorithm with ICA and beamforming",EUROSPEECH 2001,pp2603-2606.
また,バイノーラル信号処理による音源分離処理は,複数に区分された周波数成分(周波数ビン)ごとの音量レベルの比較により音源分離処理を行うため,複数のマイクロホンに対する音源の位置に偏りがある場合の音源分離性能が悪いという問題点があった。例えば,複数の音源が指向性ステレオマイクロホンのいずれかの集音領域に集中したような場合には,正しい音源分離を行うことができなくなる。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,複数のマイクロホンに対する音源の位置に偏りが生じ得る環境下においても高い音源分離性能が得られる音源分離装置,音源分離プログラム及び音源分離方法を提供することにある。
(1)独立成分分析法に基づくブラインド音源分離方式の音源分離処理により,複数の前記混合音声信号から1以上の前記音源信号に対応するSIMO(single-input multiple-output)信号を分離生成(抽出)する工程。以下,この工程をSIMO−ICA処理工程といい,この工程で実行される処理をSIMO−ICA処理という。
(2)前記SIMO−ICA処理工程における前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記音源それぞれの存在する方向である音源方向を推定する工程。以下,この工程を音源方向推定工程という。
(3)前記SIMO−ICA処理工程で分離生成された前記SIMO信号それぞれについて,複数に区分された周波数成分ごとに,前記音源方向推定工程により推定された前記音源方向それぞれからの音声成分を強調する(相対的に信号強度を強める)ビームフォーマ処理を施してビームフォーマ処理後の音声信号を出力する工程。以下,この工程をビームフォーマ処理工程という。
(4)前記ビームフォーマ処理後の音声信号のうち,前記SIMO信号のいずれか(以下,特定SIMO信号という)について前記音源方向のいずれか(以下,特定音源方向という)からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他の前記ビームフォーマ処理後の音声信号について,前記複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い,これにより得られる信号(以下,中間処理後信号という)を出力する工程。以下,この工程を中間処理実行工程という。
(5)前記特定SIMO信号における一の信号について,前記複数に区分された周波数成分ごとに,前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較してその比較結果が所定条件を満たす場合にその周波数成分の信号を除去する処理を行い,これにより得られる信号を前記音源信号に対応する前記分離信号として生成する工程。以下,この工程を目的外信号成分除去工程といい,この工程で実行される処理を目的外信号成分除去処理という。
なお,前記目的外信号成分除去処理は,バイナリーマスキング処理と同様の処理,即ち,前記特定SIMO信号における一の信号について,複数に区分された周波数成分ごとの音量比較に基づいて主となる音源からの音声信号以外の信号成分を除去する処理である。但し,音量比較の対象となる信号は,SIMO信号そのものではなく,前記特定のビームフォーマ処理後の音声信号及び前記中間処理後信号(前記特定のビームフォーマ処理後の音声信号以外のビームフォーマ処理後の信号について前記中間処理を実行して得られた信号)である。
このように,独立成分分析に基づく音源分離処理(前記SIMO−ICA処理)と,周波数成分ごとの音量比較に基づく低音量の信号成分除去処理(前記目的外信号成分除去処理)との2段階の処理を実行することにより,後述するように,複数の前記音声入力手段(マイクロホン)に対する音源の位置に偏りが生じ得る環境下においても高い音源分離性能が得られることがわかった。また,前記中間処理の内容により,音源分離性能が特に高まるような音源分離処理を実現したり,或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。
なお,前記周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理とは,後述するように,時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換処理と,その周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した分離信号(第1の分離信号)を生成するFDICA音源分離処理と,前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づいて前記FDICA音源分離処理により分離された分離信号(前記第1の分離信号)を除く残りのものを減算した分離信号(第2の分離信号)を生成する減算処理と,前記第1の分離信号及び前記第2の分離信号に基づく所定の評価関数を用いた逐次計算を行うことによって前記FDICA音源分離処理で用いる前記分離行列を計算する分離行列計算処理とを行うものである。これにより,時間領域の混合音声信号を時間領域のままで処理する時間領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理に比べ,処理負荷を大幅に軽減できる。
また,前記中間処理としては,例えば,前記複数の特定信号を各々所定の重み付けにより補正し,その補正後の信号について所定の選択処理若しくは合成処理を行うものが考えられる。
より具体的な前記中間処理としては,前記複数の特定信号を各々所定の重み付けにより補正し,その補正後の信号の中から信号レベルが最大のものを選択する処理を行うものが考えられる。
このような構成によれば,前記重み付けの係数(前記中間処理に用いられるパラメータの一例)を調節することにより,音源分離性能が特に高まるような音源分離処理を実現したり,或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。
特に,前記中間処理に用いるパラメータを所定の操作入力に従って設定する手段(中間処理パラメータ設定手段)を備えた音源分離装置であれば,状況に応じた調節が容易となる。
さらに,本発明によれば,独立成分分析法に基づくブラインド音源分離方式の音源分離処理(前記SIMO−ICA処理)により得られたSIMO信号について,音源方向に応じた音声強調を行うビームフォーマ処理,及び目的に応じた前記中間処理を施した後に前記目的外信号成分除去処理を実行する。これにより,複数の音声入力手段(マイクロホン)に対する音源の位置に偏りが生じ得る環境下においても高い音源分離性能が得られる音源分離処理が可能となる。例えば,前記中間処理の内容により,音源分離性能が特に高まるような音源分離処理を実現したり,或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。また,SIMO−ICA処理として,周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理や,周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うことにより,時間領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理に比べ,処理負荷を大幅に軽減できる。
ここに,図1は本発明の第1実施形態に係る音源分離装置X1の概略構成を表すブロック図,図2は本発明の第2実施形態に係る音源分離装置X2の概略構成を表すブロック図,図3はTDICA法に基づくBSS方式の音源分離処理を行う従来の音源分離装置Z1の概略構成を表すブロック図,図4はTD−SIMO−ICA法に基づく音源分離処理を行う従来の音源分離装置Z2の概略構成を表すブロック図,図5はFDICA法に基づく音源分離処理を行う従来の音源分離装置Z3の概略構成を表すブロック図,図6はFD−SIMO−ICA法に基づく音源分離処理を行う音源分離装置Z4の概略構成を表すブロック図,図7はFDICA−PB法に基づく音源分離処理を行う従来の音源分離装置Z5の概略構成を表すブロック図,図8はSIMO信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第1の例(音源信号各々の周波数成分に重複がない場合)を模式的に表した図,図9はSIMO信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第2の例(音源信号各々の周波数成分に重複がある場合)を模式的に表した図,図10はSIMO信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第3の例(目的音源信号のレベルが比較的小さい場合)を模式的に表した図,図11はマイクロホンと音源との位置関係を模式的に表した図,図12は遅延和型ビームフォーマ処理の概念図,図13は音源分離装置X1を用いた音源分離性能評価の実験条件を表す図,図14は従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件の下で音源分離を行ったときの音源分離性能を表すグラフである。
なお,以下に示す音源分離処理或いはその処理を行う装置等は,いずれも所定の音響空間に複数の音源と複数のマイクロホン(音声入力手段)とが存在する状態で,そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号(以下,音源信号という)が重畳された複数の混合音声信号から,1以上の音源信号を分離(同定)した分離信号を生成する音源分離処理或いはその処理を行う装置等に関するものである。
音源分離装置Zは,分離フィルタ処理部11により,2つの音源1,2からの音源信号S1(t),S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)について,分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。
図3には,2つの音源1,2からの音源信号S1(t),S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)に基づいて音源分離を行う例について示しているが,2チャンネル以上であっても同様である。ICA法に基づくBSS方式による音源分離の場合,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であればよい。
複数のマイクロホン111,112各々で集音された各混合音声信号x1(t),x2(t)には,複数音源からの音源信号が重畳されている。以下,各混合音声信号x1(t),x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され,次の(1)式のように表される。
TDICAによる音源分離の理論は,この音源信号S(t)のそれぞれの音源同士が統計的に独立であることを利用すると,x(t)がわかればS(t)を推測することができ,従って,音源を分離することができるという発想に基づく理論である。
ここで,当該音源分離処理に用いる分離行列をW(z)とすれば,分離信号(即ち,同定信号)y(t)は,次の(2)式で表される。
なお,音源合成処理はこのW(z)に関する情報により,逆演算処理に相当する配列を形成し,これを用いて逆演算を行えばよい。
このようなICA法に基づくBSS方式による音源分離を行うことにより,例えば,人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から,歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで,(2)式は,次の(3)式のように書き換えて表現できる。
TD−SIMO−ICA法による音源分離の特徴は,図4中に示すFidelity Controller12により,マイクロホン入力信号である各混合音声信号xi(t)から,前記分離フィルタ処理部11による音源分離処理(TDICA法に基づく音源分離処理)によって分離(同定)された分離信号(同定信号)を減算し,その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタW(Z)の更新(逐次計算)を行う点である。ここで,混合音声信号xi(t)各々から減算する分離信号(同定信号)は,各々異なる1つの分離信号(当該混合音声信号に基づく音源分離処理により得られた分離信号)を除く残り全ての分離信号である。これにより,チャンネル(マイクロホン)ごとに2つの分離信号(同定信号)が得られることになり,また,音源信号Si(t)ごとに2つの分離信号が得られることになる。図4の例では,分離信号y11(t)とy12(t),分離信号y22(t)とy21(t)が,各々同一の音源信号に対応する分離信号(同定信号)である。なお,分離信号yの添字(数字)において,前段の数字は音源の識別番号を,後段の数字はマイクロホン(即ち,チャンネル)の識別番号を表している(以下同様)。
このように,ある音響空間に複数の音源と複数の音声入力手段(マイクロホン)とが存在する状態で,その音声入力手段各々を通じて入力される音源各々からの音源信号(個別音声信号)が重畳された複数の混合音声信号から,1以上の音源信号を分離(同定)した場合に,音源信号ごとに得られる複数の分離信号(同定信号)群をSIMO(single-input multiple-output)信号という。図4の例では,分離信号y11(t)とy12(t)の組合せ,分離信号y22(t)とy21(t) といった同一の音源信号に対応する各マイクロホンへの分離信号の組合せの各々がSIMO信号である。
ここで,分離フィルタ(分離行列)W(Z)を表現し直したW(n)の更新式は,次の(5)式で表される。
FDICA法では,まず,入力された混合音声信号x(t)について,ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform,以下,ST−DFT処理という)を行い,観測信号の短時間分析を行う。そして,そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(6)式のように表すことができる。
FD−SIMO−ICA法では,前述のTD−SIMO−ICA法(図4)と同様に,Fidelity Controller12により,各混合音声信号xi(t)に対してST−DFT処理を施した信号各々から,FDICA法(図5)に基づく音源分離処理によって分離(同定)された分離信号(同定信号)を減算し,その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタW(f)の更新(逐次計算)を行うものである。
このFD−SIMO−ICA法に基づく音源分離装置Z4では,時間領域における複数の前記混合音声信号x1(t),x2(t)に対して前記ST−DFT処理部13により短時間離散フーリエ変換処理を施して,周波数領域における複数の混合音声信号x1(f),x2(f)へ変換する(短時間離散フーリエ変換手段の一例)。
次に,変換後の周波数領域における複数の混合音声信号x1(f),x2(f)に対し,前記分離フィルタ処理部11fによって所定の分離行列W(f)に基づく分離処理(フィルタ処理)を施すことにより,前記混合音声信号ごとに前記音源信号S1(t),S2(t)のいずれかに対応した第1の分離信号y11(f),y22(f)を生成する(FDICA音源分離手段の一例)。
さらに,前記周波数領域における複数の混合音声信号x1(f),x2(f)各々から当該混合音声信号に基づき前記分離フィルタ処理部11fにより分離された前記第1の分離信号(x1(f)に基づき分離されたy11(f),x2(f)に基づき分離されたy22(f))を除く残りの前記第1の分離信号を,前記Fidelity Controller12(減算手段の一例)により減算した第2の分離信号y12(f),y21(f)を生成する。
一方,不図示の分離行列計算部により,前記第1の分離信号y11(f),y22(f)及び前記第2の分離信号y12(f),y21(f)の両方に基づく逐次計算を行い,前記分離フィルタ処理部11f(FDICA音源分離手段)で用いられる前記分離行列W(f)を計算する(分離行列計算手段の一例)。
これにより,チャンネル(マイクロホン)ごとに2つの分離信号(同定信号)が得られることになり,また,音源信号Si(t)ごとに2つ以上の分離信号(SIMO信号)が得られることになる。図6の例では,分離信号y11(f)とy12(f)の組合せ,及び分離信号y22(f)とy21(f)の組合せの各々がSIMO信号である。なお,実際は時間の経過に応じて順次新たに発生するフレームごとに新たな分離信号が生成されるので,各分離信号y11(f),y21(f),y22(f),y12(f)は,時間tの要素を加えてy11(f,t),y21(f,t),y22(f,t),y12(f,t)と表記することもできる。
ここで,前記分離行列計算部は,前記第1の分離信号及び前記第2の分離信号に基づいて,次の(8)式で表される分離フィルタ(分離行列)W(f)の更新式により前記分離行列W(f)を計算する。
FDICA−PB法では,各混合音声信号xi(t)から前述のFDICA法に基づく音源分離処理(図5)により得られた分離信号(同定信号)yi(f)各々について,逆行列演算部14によって分離行列W(f)の逆行列W-1(f)の演算処理を施すことにより,最終的な分離信号(音源信号の同定信号)を得るものである。ここで,逆行列W-1(f)による処理対象の信号のうち,各分離信号yi(f)以外の残りの信号成分は,0(ゼロ)入力として設定する。
これにより,音源信号Si(t)各々に対応したチャンネル数分(複数)の分離信号(同定信号)であるSIMO信号が得られる。図7において,分離信号y11(f)とy12(f),分離信号y22(f)とy21(f)が,各々同一の音源信号に対応する分離信号(同定信号)であり,各逆行列W-1(f)による処理後の信号である分離信号y11(f)とy12(f)の組合せ,分離信号y22(f)とy21(f)の組合せの各々がSIMO信号である。なお,実際は時間の経過に応じて順次新たに発生するフレームごとに新たな分離信号が生成されるので,各分離信号y11(f),y12(f),y22(f),y21(f)は,時間tの要素を加えてy11(f,t),y12(f,t),y22(f,t),y21(f,t)と表記することもできる。
音源分離装置X1は,ある音響空間に複数の音源1,2と複数のマイクロホン111,112(音声入力手段)とが存在する状態で,そのマイクロホン111,112各々を通じて入力される音源1,2各々からの音源信号(個別の音声信号)が重畳された複数の混合音声信号Xi(t)から,1以上の音源信号(個別音声信号)を分離(同定)した分離信号(同定信号)を生成して出力するものである。なお,図1における分離信号Y1(ICA1)(f,t),Y2(ICA1) (f,t),Y1(ICA2) (f,t),Y2(ICA2) (f,t)は,それぞれ図6及び図7における分離信号y11(f),y22(f),y21(f),y12(f)に相当する。ここで,複数のマイクロホン111,112は,指向性を有するマイクロホンであっても無指向性のマイクロホンであってもよい。
そして,音源分離装置X1の特徴は,SIMO−ICA処理部10,音源方向推定部4,ビームフォーマ処理部5,中間処理部6及び目的外信号成分除去部7の各構成要素を備える点にある。
なお,各構成要素10,4,5,6,7は,それぞれDSP(Digital Signal Processor)又はCPU及びその周辺装置(ROM,RAM等)と,そのDSP若しくはCPUにより実行されるプログラムとにより構成されたものや,或いは,1つのCPU及びその周辺装置を有するコンピュータにより,各構成要素10,4,5,6,7が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また,所定のコンピュータに各構成要素10,4,5,6,7の処理を実行させる音源分離プログラムとして提供することも考えられる。
この第1実施形態における前記SIMO−ICA処理部10(前記SIMO−ICA処理手段に相当)としては,図6に示したFD−SIMO−ICA法に基づく音源分離処理を行うFD−SIMO−ICA法に基づく音源分離処理を行う前記音源分離装置Z4,或いは図7に示したFDICA−PB法に基づく音源分離処理を行う前記音源分離装置Z5を採用することが考えられる。
前記音源方向推定部4は,前記SIMO−ICA処理部10におけるICA法に基づくBSS方式の音源分離処理において実行される分離行列Wの学習計算によって算出される分離行列Wを取得し,その分離行列Wに基づいて,音響空間に存在する複数の音源1,2の存在する方向(音源方向θ1,θ2という)それぞれを推定するDOA推定計算を実行するものである。
ここで,音源方向θ1,θ2は,図11に示すように,直線上に配列された複数のマイクロホンの中間位置O(複数のマイクロホンの配列範囲の中心位置)から,マイクロホンの配列方向Rxに直交する方向Ryに対する相対角度である。なお,図11において,Rx方向におけるK個のマイクロホンそれぞれの座標をd1〜dKと表記している。
前記音源方向推定部4は,例えば,前記非特許文献6や非特許文献7に示されるDOA推定処理を実行することにより,前記音源方向θ1,θ2を推定(算出)する。より具体的には,前記分離行列Wにステアリングベクトルを乗じることによって音源方向θ1,θ2(DOA)を推定する。
ICA法による音源分離処理は,空間的死角フィルタを表す行列(分離行列)を学習演算によって算出し,その分離行列を用いたフィルタ処理によってある方向からの音を除去する処理である。
前記死角特性に基づくDOA推定処理は,前記分離行列が表す空間的死角角度を周波数ビンごとに計算し,その周波数ビンごとの空間的死角角度の平均値を求めることによって音源の方向(角度)を推定する。
例えば,2つの音源の音を2つのマイクロホンで集音する音源分離装置において,前記死角特性に基づくDOA推定処理は,以下に示す計算を実行する。なお,以下の説明において,添字のkはマイクロホンの識別番号(k=1,2),添字のlは音源の識別番号(l=1,2),fは周波数ビン,fの添字mは周波数ビンの識別番号(m=1,2),Wlk(f)は前記FDICA法に基づくBSS方式の音源分離処理における学習計算により得られた分離行列,cは音速,dk(d1又はd2)は2つのマイクロホンの中間位置から各マイクロホンまでの距離(マイクロホン相互間の距離の二分の一,即ち,d1=d2),θ1及びθ2は2つの音源それぞれの音源方向(DOA)である。
まず,次の(9)式(前記非特許文献4における(12)式に相当)により,l=1の場合及びl=2の場合の音源角度情報Fl(f,θ)を,分離フィルタの各周波数ビンごとに算出する。
なお,図1に示す2つのビームフォーマ処理部5それぞれにおいて,「BF1θ1」との表記は,前記第1のSIMO信号について音源方向θ1からの音声成分を強調すること(YBF1(f,t)の出力)を表し,「BF1θ2」との表記は,前記第1のSIMO信号について音源方向θ2からの音声成分を強調すること(YBF2(f,t)の出力)を表し,「BF2θ1」との表記は,前記第2のSIMO信号について音源方向θ1からの音声成分を強調すること(YBF3(f,t)の出力)を表し,「BF2θ2」との表記は,前記第2のSIMO信号について音源方向θ2からの音声成分を強調すること(YBF4(f,t)の出力)を表す。
前記ビームフォーマ処理部5が実行するビームフォーマ処理としては,周知の遅延和型ビームフォーマ処理(Delay & Sum方式)や死角型ビームフォーマ処理などが考えられる。但し,いずれの種類のビームフォーマ処理を行う場合も,ある音源方向θlについて相対的に高い利得が得られ,その他の音源方向について相対的に低い利得が得られるようにする。
図12は,遅延和型ビームフォーマ処理の概念図である。θの方向から各マイクロホンに到来する音声の信号の時間のずれを,マイク間距離d及び方向θに応じて遅延器により修正し,修正後の信号それぞれに所定の重み係数を乗算した後に加算することにより,特定の方向θから到来した音声を強調した信号が生成される。
遅延和型ビームフォーマ処理では,ある周波数ビンfについて指向先(ビーム方向)を音源方向θlに設定したときのビームフォーマWBFl(f)(音源方向θlからの音声を強調するビームフォーマ(添字l(エル)は1〜Lの整数))は次の(12)式により求めることができる。なお,(12)式において,dkはk番目のマイクロホンの座標(図11におけるd1〜dK),cは音速,jは虚数単位である。
例えば,K=L=2である場合,前記ビームフォーマ処理部5は,次の(13)式の計算を行うことによってビームフォーマ処理後の音声信号YBF1(f,t)〜YBF4(f,t)を算出する。なお,K及びLが3以上であっても同様の式によりYBFl(f,t)を算出できる。
なお,図1に例示する2つの前記中間処理部6の一方(第1の中間処理部6a)は,2組のSIMO信号のうち,分離信号Y1(ICA1)及びY2(ICA2)からなるSIMO信号を前記特定SIMO信号とし,その特定SIMO信号について音源方向θ1からの音声成分を強調した特定のビームフォーマ処理後の音声信号Ya1(f,t)を除く他の3つのビームフォーマ処理後の音声信号Ya2(f,t),Ya3(f,t),Ya4(f,t)に基づいて前記中間処理を行い,1つの中間処理後信号Yb1(f,t)を出力するものである。また,もう一方の第2の中間処理部6bは,2組のSIMO信号のうち,分離信号Y2(ICA1)及びY1(ICA2)からなるSIMO信号を前記特定SIMO信号とし,その特定SIMO信号について音源方向θ2からの音声成分を強調した特定のビームフォーマ処理後の音声信号Ya4(f,t)を除く他の3つのビームフォーマ処理後の音声信号Ya1(f,t),Ya2(f,t),Ya3(f,t)に基づいて前記中間処理を行い,1つの中間処理後信号Yb2(f,t)を出力するものである。
また,前記第2の中間処理部6bは,まず,加重補正処理部61により,3つのビームフォーマ処理後の音声信号YBF1(f,t)〜YBF3を,周波数ビンfごとに,その周波数ビンfの信号(強度)に所定の重み係数c3,c2,c1を乗算することによって信号レベルを補正(即ち,重み付けにより補正)する。さらに,比較対象選択部62により,その補正後の信号の中から,周波数ビンfごとに信号レベルが最大のものを選択し,選択した信号を第2の中間処理後信号Yb2(f,t)として出力する。この中間処理は,Max[c3・YBF1(f,t),c2・YBF2(f,t),c3・YBF3(f,t)]と表される。
ここで,c1〜c3は,0以上1未満の重み係数であり,例えば,1≧c1>c3>c2≧0などに設定する。例えば,c1=1,c2=0,c3=0.7などとする。
図1に示す例では,2つの前記目的外信号成分除去部7の一方(第1の目的外信号成分除去部7a)において,比較部71が,前記第1のSIMO信号(前記特定SIMO信号の一例)における一の信号であるY1(ICA1)(f,t)について,周波数ビンfごとに,前記第1のSIMO信号にビームフォーマ処理を施した後の音声信号YBF1(f,t)と前記第1の中間処理部6aから出力される前記第1の中間処理後信号Yb1(f,t)との信号レベルの大小を比較する。そして,その比較結果がYBF1(f,t)>YB1(f,t)という条件を満たす場合に,前記第1の目的外信号成分除去部7aにおける信号除去部72が,信号Y1(ICA1)(f,t)からその周波数ビンfの信号を除去し,これによる得られる信号を出力する。
また,2つの前記目的外信号成分除去部7の他方(第2の目的外信号成分除去部7b)において,比較部71が,前記第2のSIMO信号(前記特定SIMO信号の一例)における一の信号であるY2(ICA1)(f,t)について,周波数ビンfごとに,前記第2のSIMO信号にビームフォーマ処理を施した後の音声信号YBF4(f,t)と前記第2の中間処理部6bから出力される前記第2の中間処理後信号Yb2(f,t)との信号レベルの大小を比較する。そして,その比較結果がYBF4(f,t)>YB2(f,t)という条件を満たす場合に,前記第2の目的外信号成分除去部7bにおける信号除去部72が,信号Y2(ICA1)(f,t)からその周波数ビンfの信号を除去し,これによる得られる信号を出力する。
例えば,前記第1の目的外信号成分除去部7aにおいて,前記比較部71が,周波数ビンfそれぞれについてYBF1(f,t)>YBF1(f,t)である場合に比較結果m1(f,t)を「1」,そうでない場合に比較結果m1(f,t)を「0」として出力し,さらに,前記信号除去部72が,信号Y1(ICA1)(f,t)に前記比較結果m1(f,t)を乗算する。前記第2の目的外信号成分除去部7bにおいても同様の処理を行う。
次の(14)式は,前記第1の中間処理部6a及び前記第1の目的外信号成分除去部7aにおける前記比較部71が実行する処理を表す式である。
前述したように,複数の音源信号それぞれの独立性に着目した音源分離処理を行う前記SIMO−ICA処理部10が出力する分離信号Y1(ICA1)(f,t),Y2(ICA2)(f,t),Y2(ICA1)(f,t),Y1(ICA2)(f,t)には,注目したい特定の音源(目的音源)以外の他の音源(非目的音源)からの音声信号(ノイズ信号)の成分が混入する場合がある。
そこで,特定の音源信号S1(t)に対応するはずの分離信号Y1(ICA1)(f,t)に,他の音源信号S2(t)に対応する分離信号Y2(ICA1)(f,t),Y1(ICA2)(f,t)において信号レベル(音量)の高い周波数成分と同じ周波数成分の信号が存在する場合,その周波数成分の信号をバイノーラル信号処理と同様の処理によって除去すれば,特定の音源以外の他の音源から混入したノイズ信号を除去できる。このことから,例えば,図1に示す前記音源分離装置X1において,前記第1の目的外信号成分除去部7aにより,特定の音源に対応する分離信号Y1(ICA1)(f,t)から,その他の音源に対応する分離信号Y2(ICA1)(f,t),Y1(ICA2)(f,t)と比較して信号レベルが低い周波数成分を除去すれば,ノイズ混入を抑え音源分離性能を高めることができる。
これに対し,前記音源分離装置X1では,前記ビームフォーマ処理部5によって各SIMO信号に音源方向θ1,θ2それぞれからの音声を強調するビームフォーマ処理を施し,ビームフォーマ処理後の音声信号YBF1(f,t)〜YBF4(f,t)に基づく信号について,前記目的外信号成分除去部7による処理を実行する。ここで,ビームフォーマ処理後の音声信号YBF1(f,t)〜YBF4(f,t)のスペクトルは,各音源が存在する方向を指向先とする指向性マイクロホンを通じて得られた音声信号のスペクトルと近似するものとなる。このため,複数のマイクロホンに対する音源の位置に偏りがある場合でも,前記目的外信号成分除去部7に入力される信号は,音源位置の偏りの影響が除かれた信号となる。従って,前記音源分離装置X1のように,特定の音源信号S1(t)に対応するビームフォーマ処理後の音声信号YBF1(f,t)に,他の音源信号S2(t)に対応するビームフォーマ処理後の音声信号YBF2(f,t),YBF3(f,t)において信号レベル(音量)の高い周波数成分と同じ周波数成分の信号が存在する場合,その周波数成分の信号を,前記目的外信号成分除去部7により分離信号Y1(ICA1)(f,t)から除去すれば,複数のマイクロホンに対する音源の位置に偏りがある場合でも,特定の音源以外の他の音源から混入したノイズ信号を除去できる。
通常,音源信号S1(t)を最もよく表す対応するビームフォーム処理後の音声信号はYBF1(f,t),音源信号S2(t)に対応するビームフォーム処理後の音声信号はYBF4(f,t)である。
以下,図8〜図10を参照しつつ,ビームフォーマ処理後の音声信号に対してバイナリーマスキング処理を実行する場合における,バイナリーマスキング処理に対する入力信号の組合せと,分離性能及び分離信号の音質との関係について説明する。なお,以下の説明において,バイナリーマスキング処理によって目的音源に対応するビームフォーマ処理後の音声信号Yb1(f,t)から,非目的音源に対応する信号成分が除去される過程は,前記目的外信号成分除去部7により,前記特定SIMO信号における目的音源に対応する分離信号Y1(ICA1)(f,t)から非目的音源に対応する信号成分が除去される過程と同視できる。
図8〜図10は,ビームフォーマ処理後の音声信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル(振幅)の分布の一例(第1〜第3の例)をバーグラフにより模式的に表したものである。
ところで,注目したい目的音源信号がS1(t)である場合,4つのビームフォーマ処理後の音声信号YBF1(f,t)〜YBF4(f,t)について,目的音源信号S1(t)に対応す音声信号YBF1(f,t)を含む2つの信号の組合せは3パターン考えられるが,YBF1(f,t)とYBF3(f,t)とは元々近似するスペクトルを有する。よって,図8〜図10は,YBF1(f,t)及びYBF2(f,t)の組合せと,YBF1(f,t)及びYBF4(f,t)の組合せとの各々について,バイナリーマスキング処理を行う場合の例について示している。
さらに,図8(a),図9(a)及び図10(a)は,バイノーラル信号処理に対する入力信号を,信号YBF1(f,t)及び信号YBF2(f,t)の組合せとした場合(以下,「パターンa」という)の例を表す。
一方,図8(b),図9(b)及び図10(b)は,バイノーラル信号処理に対する入力信号を,信号YBF1(f,t)及び信号YBF4(f,t)の組合せとした場合(以下,「パターンb」という)の例を表す。
また,図8〜図10において,目的音源信号S1(t)の周波数成分に対応する部分のバーグラフは網掛け模様により,非目的音源信号S1(t)の周波数成分に対応する部分のバーグラフは斜線模様により各々表している。
このようなノイズを含む入力信号に対してバイナリーマスキング処理を施した場合,図8(a),(b)の出力信号のレベル分布(右側のバーグラフ)に示すように,音源信号各々の周波数成分に重複がない場合には,入力信号の組合せにかかわらず,各音源信号に対応する良質な分離信号が得られる。
このように各音源信号の周波数成分に重複がない場合,バイノーラル信号処理に対する入力信号各々において,同定の対象となった音源信号の周波数成分における信号レベルが高く,その他の音源信号の周波数成分における信号レベルが低くなるというレベル差が明確となり,周波数成分ごとの信号レベルに応じて信号分離を行うバイナリーマスキング処理によって信号が確実に分離されやすい。その結果,入力信号の組合せにかかわらず,高い分離性能が得られる。
ここで,音源信号各々の周波数成分に重複がある場合であっても,図9(a)の出力信号のレベル分布(右側のバーグラフ)に示すように,前記「パターンa」では,音源信号各々で重複する周波数成分において若干のノイズ信号(同定対象以外の音源信号の成分)が残るものの,その他の周波数成分においてはノイズ信号が確実に分離される。
この図9(a)に示す「パターンa」では,バイノーラル信号処理に対する入力信号の信号レベルは,同定対象の音源からマイクロホンまでの距離に応じたレベル差を有している。そのため,バイナリーマスキング処理において,そのレベル差により信号が確実に分離されやすい。このことが,「パターンa」では,音源信号各々の周波数成分に重複があっても高い分離性能が得られる理由として考えられる。
一方,音源信号各々の周波数成分に重複がある場合,図9(b)に示すように,前記「パターンb」では,音源信号各々で重複する周波数成分において,本来出力されるべき信号成分(同定対象の音源信号の成分)が欠損するという不都合な現象が生じる(図9(b)における破線で囲んだ部分)。
このような欠損は,その周波数成分について,同定対象の目的音源信号S1(t)のマイクロホン112への入力レベルよりも,非目的音源信号S2(t)のマイクロホン112へのレベルの方が高いために生じる現象である。このような欠損が生じると音質が悪化する。
従って,一般的には,前記「パターンa」を採用すれば,良好な分離性能が得られる場合が多いと言える。
このような場合,SIMO−ICA処理部10で十分な音源分離がなされなかった結果,ビームフォーマ処理後の音声信号YBF1(f,t)及び音声信号YBF2(f,t)に残留する非目的音源信号S2(t)の成分が相対的に大きくなる。このため,図10(a)に示す「パターンa」を採用すると,図10(a)において矢印で示すように,目的音源信号S1(t)に対応するものとして出力される分離信号に,非目的音源信号S1(t)の成分(ノイズ成分)が残存するという不都合な減少が生じてしまう。この現象が発生すると,音源分離性能が悪化する。
これに対し,図10(b)に示す「パターンb」を採用すると,具体的な信号レベルにもよるが,図10(a)の矢印で示したようなノイズ成分の残存を回避できる可能性が高い。
従って,前記第1の中間処理部6aにおいて,信号YBF4(f,t)について信号YBF2(f,t)よりも低い重み係数(c1>c3)により音量補正を行い,信号YBF2(f,t)を補正した信号と信号YBF4(f,t)を補正した信号のうち音量(信号レベル)の大きな方を選択し,その選択した信号に基づいて前記第1の目的外信号成分除去部7aによるノイズ信号成分の除去を行えば,音響環境が変化しても高い音源分離性能を維持することが可能となる。
図13は,音源分離装置X1を用いた音源分離性能評価の実験条件を説明するための図である。
図13に示すように,音源分離性能評価の実験は,図13に示すサイズの居室内において,所定の2箇所に存在する2名の話者を音源とし,その音源(話者)各々からの音声信号(話者の声)を相互に反対方向に向けた2つのマイクロホン111,112で入力し,入力された2チャンネルの混合音声信号から,各話者の音声信号(音源信号)を分離する性能を評価する実験条件である。ここで,音源となる話者は,2名の男性及び2名の女性(計4名)の中から選択した2名の順列である12通りの条件下で実験を行い(同じ2名の話者を音源とする場合でも,その2名の配置が入れ替われば異なる条件であるとした),音源分離性能評価は各組合せの下での評価値の平均値により行った。
また,いずれの実験条件においても,残響時間は200ms,音源(話者)から最寄りのマイクロホンまでの距離は1.0mとし,2つのマイクロホン111,112は,5.8cmの間隔を隔てて配置した。
ここで,上方から見て,相互に反対方向に向けられた両マイクロホン111,112の向きに対する直角方向を基準方向R0(図11における方向Ryに相当)としたときに,この基準方向R0と一方の音源S1(話者)から両マイクロホン111,112の中間点Oに向かう方向R1とのなす角度をθ1とする。また,前記基準方向R0と他方の音源S2(話者)から前記中間点Oに向かう方向R2とのなす角度θ2とする。このとき,θ1とθ2との組合せは,偏角を50°に保った状態でθ1及びθ2をともに10°ずつ変化させた12パターンの条件(θ1,θ2)=(−80°,−30°),(−70°,−20°),(−60°,−10°),(−50°,0°),(−40°,+10°),(−30°,+20°),(−20°,+30°),(−10°,+40°),(0°,+50°),(+10°,+60°),(+20°,+70°),(+30°,+80°)となるように設定(機器配置)し,その各々の条件下で実験を行った。
ここで,図14に示す音源分離性能の評価値(グラフの縦軸)としては,NRR(Noise Reduction Rate)を用いた。このNRRは,雑音除去の程度を表す指標であり,単位は(dB)である。このNRR値が大きいほど音源分離性能が高いといえる。
また,図14に示すグラフにおけるグラフ線g1〜g4は,以下の場合の処理結果を表す。
グラフ線g1(ICA−BM−DS)は,前記音源分離装置X1による処理結果であり,前記ビームフォーマ処理部5において遅延和型ビームフォーマ処理を行った場合の結果を表す。なお,重み係数は(c1,c2,c3)=(1,0,0.7)である。
グラフ線g2(ICA−BM−NBF)は,前記音源分離装置X1による処理結果であり,前記ビームフォーマ処理部5において減算型ビームフォーマ処理を行った場合の結果を表す。なお,重み係数は(c1,c2,c3)=(1,0,0.7)である。
グラフ線g3(ICA−BM−DS)は,前記音源分離装置X1における前記SIMO−ICA処理部10の処理結果を表す。
グラフ線g4(Binary mask)は,バイナリーマスキング処理の結果を表す。
図14に示すグラフから,バイナリーマスキング処理を単独で行う場合(g4)よりも,本発明に係る音源分離処理(g1,g2)の方がNRR値が大きく,音源分離性能が優れていることがわかる。
また,ICA法に基づくBSS方式の音源分離処理を単独で行う場合(g3)と比べても,本発明に係る音源分離処理(g1,g2)の方が,ごく一部の条件を除き総じてNRR値が大きく,音源分離性能が優れていることがわかる。
従って,音源分離装置X1が,調節ツマミや,数値入力用操作キー等の操作入力部(中間処理パラメータ設定手段の一例)を備え,さらに,前記中間処理部6が,その操作入力部を通じて入力された情報に従って,前記中間処理に用いられるパラメータ(ここでは,重み係数c1〜c3)を設定(調節)する機能を備えたものであれば,音響環境が変化しても高い音源分離性能を維持することが可能となる。
音源分離装置X2も,前記音源分離装置X1と基本的には同じ構成を備えるが,以下,前記音源分離装置X1と異なる点についてのみ説明する。なお,図2において,図1と同じ構成要素については同じ符号を付している。
音源分離装置X2は,前記音源分離装置X1における前記SIMO−ICA処理部10(周波数領域でのSIMO−ICA処理を行う音源分離装置Z4又はZ5を採用するもの)を,TD−SIMO−ICA法に基づく音源分離処理(時間領域でのSIMO−ICA処理)を行う音源分離装置Z2を採用したSIMO−ICA処理部10’に置き換えたものである。
但し,前記音源分離装置Z2を採用したSIMO−ICA処理部10’により得られる分離信号は時間領域の信号である。また,前記音源分離装置Z2を採用したSIMO−ICA処理部10’により得られる分離行列W(t)は時間領域のものである。
従って,音源分離装置X2は,SIMO−ICA処理部10’により出力される時間領域の分離信号を周波数領域の分離信号Y1(ICA1)(f,t),Y2(ICA2)(f,t),Y1(ICA2)(f,t),Y2(ICA1)(f,t)に変換する第1の短時間離散フーリエ変換処理部41(図中,ST−DFTと表記)を備えている。この第1の短時間離散フーリエ変換処理部41から出力される分離信号Y1(ICA1)(f,t),Y2(ICA2)(f,t),Y1(ICA2)(f,t),Y2(ICA1)(f,t)が,前記ビームフォーマ処理部5に入力される。
さらに,音源分離装置X2は,SIMO−ICA処理部10’における学習計算により得られる時間領域の分離行列W(t)を周波数領域の分離行列W(f)に変換する第2の短時間離散フーリエ変換処理部42(図中,ST−DFTと表記)を備えている。この第2の短時間離散フーリエ変換処理部42から出力される分離行列W(f)が,前記音源方向推定部4に入力される。前記音源分離装置X2は,以上に示した相違点以外は,前記音源分離装置X1と同じ構成を備えている。
このような音源分離装置X2も,前記音源分離装置X1と同様の作用効果を奏する。
また,前記実施形態では,前記中間処理部6により,Max[c1・YBF2(f,t),c2・YBF3(f,t),c3・YBF4(f,t)]或いは,Max[c3・YBF1(f,t),c2・YBF2(f,t),c3・YBF3(f,t)]という中間処理を行う例を示した。
しかしながら,前記中間処理は,これに限るものではない。
前記中間処理部6により実行される前記中間処理としては,以下のような例も考えられる。
即ち,まず,前記第1の中間処理部6aが,3つのビームフォーマ処理後の音声信号YBF2(f,t),YBF3(f,t),YBF4(f,t)を,周波数ビンf(所定の周波数幅で均等に区分された周波数成分)ごとに,その周波数ビンfの信号に所定の重み係数a1,a2,a3を乗算することによって信号レベルを補正(即ち,重み付けして補正)する。さらに,その補正後の信号を,周波数ビンfごとに合成(加算)する。即ち,a1・YBF2(f,t)+a2・YBF3(f,t)+a3・YBF4(f,t)という中間処理を行う。
さらに,前記第1の中間処理部6aは,この中間処理により得られた中間処理後信号(周波数成分ごとに重み付け補正がなされた信号を合成した)を前記第1の目的外信号成分除去部7aに対して出力する。
なお,前記第2の中間処理部6bも同様である。
このような中間処理を採用しても,前述した実施形態と同様の作用効果が得られる。もちろん,このような2種類の中間処理に限られず,他の中間処理を採用することも考えられる。また,チャンネル数を,3チャンネル以上に拡張した構成も考えられる。
X2:本発明の第2実施形態に係る音源分離装置
1,2:音源
4 :音源方向推定部
5 :ビームフォーマ処理部
6 :中間処理部
7 :目的外信号成分除去部
10,10’:SIMO−ICA処理部
11,11f:分離フィルタ処理部
12:Fidelity Controller
13:ST−DFT処理部
14:逆行列演算部
31:バイナリーマスキング処理における比較部
32:バイナリーマスキング処理における分離部
41:第1の短時間離散フーリエ変換処理部
42:第2の短時間離散フーリエ変換処理部
111,112:マイクロホン
Claims (9)
- 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から,1以上の前記音源信号を分離した分離信号を生成する音源分離装置であって,
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から1以上の前記音源信号に対応するSIMO信号を分離生成するSIMO−ICA処理手段と,
前記SIMO−ICA処理手段における前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記音源それぞれの存在する方向である音源方向を推定する音源方向推定手段と,
前記SIMO−ICA処理手段で分離生成された前記SIMO信号それぞれについて,複数に区分された周波数成分ごとに,前記音源方向推定手段により推定された前記音源方向それぞれからの音声成分を強調するビームフォーマ処理を施してビームフォーマ処理後の音声信号を出力するビームフォーマ処理手段と,
前記ビームフォーマ処理後の音声信号のうち,前記SIMO信号のいずれかである特定SIMO信号について前記音源方向のいずれかである特定音源方向からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他の前記ビームフォーマ処理後の音声信号について,前記複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い,これにより得られる中間処理後信号を出力する中間処理実行手段と,
前記特定SIMO信号における一の信号について,前記複数に区分された周波数成分ごとに,前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較してその比較結果が所定条件を満たす場合にその周波数成分の信号を除去する処理を行い,これにより得られる信号を前記音源信号に対応する前記分離信号として生成する目的外信号成分除去手段と,
を具備してなることを特徴とする音源分離装置。 - 前記SIMO−ICA処理手段が,
時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換手段と,
前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した第1の分離信号を生成するFDICA音源分離手段と,
前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づき前記FDICA音源分離手段により分離された前記第1の分離信号を除く残りの前記第1の分離信号を減算した第2の分離信号を生成する減算手段と,
前記第1の分離信号及び前記第2の分離信号に基づく逐次計算により前記FDICA音源分離手段における前記分離行列を計算する分離行列計算手段と,を具備する周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離手段である請求項1に記載の音源分離装置。 - 前記SIMO−ICA処理手段が,周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うものである請求項1に記載の音源分離装置。
- 前記ビームフォーマ処理手段が,遅延和型ビームフォーマ処理,又は死角型ビームフォーマ処理を実行するものである請求項1〜3のいずれかに記載の音源分離装置。
- 前記中間処理実行手段が,前記複数の特定信号について,複数に区分された周波数成分ごとに信号レベルを各々所定の重み付けにより補正し,その補正後の信号について前記周波数成分ごとに選択処理若しくは合成処理を行うものである請求項1〜4のいずれかに記載の音源分離装置。
- 前記中間処理実行手段が,前記複数の特定信号について,複数に区分された周波数成分ごとに信号レベルを各々所定の重み付けにより補正し,その補正後の信号の中から前記周波数成分ごとに信号レベルが最大のものを選択する処理を行うものである請求項5に記載の音源分離装置。
- 前記中間処理実行手段における前記中間処理に用いるパラメータを所定の操作入力に従って設定する中間処理パラメータ設定手段を具備してなる請求項1〜6のいずれかに記載の音源分離装置。
- 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から,1以上の前記音源信号を分離した分離信号を生成する音源分離処理をコンピュータに実行させるための音源分離プログラムであって,
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から1以上の前記音源信号に対応するSIMO信号を分離生成するSIMO−ICA処理工程と,
前記SIMO−ICA処理工程における前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記音源それぞれの存在する方向である音源方向を推定する音源方向推定工程と,
前記SIMO−ICA処理工程で分離生成された前記SIMO信号それぞれについて,複数に区分された周波数成分ごとに,前記音源方向推定工程により推定された前記音源方向それぞれからの音声成分を強調するビームフォーマ処理を施してビームフォーマ処理後の音声信号を出力するビームフォーマ処理工程と,
前記ビームフォーマ処理後の音声信号のうち,前記SIMO信号のいずれかである特定SIMO信号について前記音源方向のいずれかである特定音源方向からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他の前記ビームフォーマ処理後の音声信号について,前記複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い,これにより得られる中間処理後信号を出力する中間処理実行工程と,
前記特定SIMO信号における一の信号について,前記複数に区分された周波数成分ごとに,前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較してその比較結果が所定条件を満たす場合にその周波数成分の信号を除去する処理を行い,これにより得られる信号を前記音源信号に対応する前記分離信号として生成する目的外信号成分除去工程と,
をコンピュータに実行させるための音源分離プログラム。 - 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から,1以上の前記音源信号を分離した分離信号を生成する音源分離方法であって,
コンピュータにより,
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から1以上の前記音源信号に対応するSIMO信号を分離生成するSIMO−ICA処理工程と,
前記SIMO−ICA処理工程における前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記音源それぞれの存在する方向である音源方向を推定する音源方向推定工程と,
前記SIMO−ICA処理工程で分離生成された前記SIMO信号それぞれについて,複数に区分された周波数成分ごとに,前記音源方向推定工程により推定された前記音源方向それぞれからの音声成分を強調するビームフォーマ処理を施してビームフォーマ処理後の音声信号を出力するビームフォーマ処理工程と,
前記ビームフォーマ処理後の音声信号のうち,前記SIMO信号のいずれかである特定SIMO信号について前記音源方向のいずれかである特定音源方向からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他の前記ビームフォーマ処理後の音声信号について,前記複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い,これにより得られる中間処理後信号を出力する中間処理実行工程と,
前記特定SIMO信号における一の信号について,前記複数に区分された周波数成分ごとに,前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較してその比較結果が所定条件を満たす場合にその周波数成分の信号を除去する処理を行い,これにより得られる信号を前記音源信号に対応する前記分離信号として生成する目的外信号成分除去工程と,
を実行してなることを特徴とする音源分離方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007053791A JP4897519B2 (ja) | 2007-03-05 | 2007-03-05 | 音源分離装置,音源分離プログラム及び音源分離方法 |
US12/073,336 US20090012779A1 (en) | 2007-03-05 | 2008-03-04 | Sound source separation apparatus and sound source separation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007053791A JP4897519B2 (ja) | 2007-03-05 | 2007-03-05 | 音源分離装置,音源分離プログラム及び音源分離方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008219458A true JP2008219458A (ja) | 2008-09-18 |
JP4897519B2 JP4897519B2 (ja) | 2012-03-14 |
Family
ID=39838967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007053791A Active JP4897519B2 (ja) | 2007-03-05 | 2007-03-05 | 音源分離装置,音源分離プログラム及び音源分離方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20090012779A1 (ja) |
JP (1) | JP4897519B2 (ja) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010079526A1 (ja) * | 2009-01-06 | 2010-07-15 | 三菱電機株式会社 | 雑音除去装置及び雑音除去プログラム |
JP2010233173A (ja) * | 2009-03-30 | 2010-10-14 | Sony Corp | 信号処理装置、および信号処理方法、並びにプログラム |
JP2011176535A (ja) * | 2010-02-24 | 2011-09-08 | Yamaha Corp | 信号処理装置 |
JP2011199474A (ja) * | 2010-03-18 | 2011-10-06 | Hitachi Ltd | 音源分離装置、音源分離方法およびそのためのプログラム、並びにそれを用いたビデオカメラ装置およびカメラ付き携帯電話装置 |
JP2011221087A (ja) * | 2010-04-05 | 2011-11-04 | Kobe Steel Ltd | 能動騒音制御装置 |
JP2012510090A (ja) * | 2008-11-25 | 2012-04-26 | クゥアルコム・インコーポレイテッド | 複数のオーディオ信号を使用して、周囲ノイズを抑制するための方法および装置 |
JP2013543987A (ja) * | 2010-10-22 | 2013-12-09 | クゥアルコム・インコーポレイテッド | 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 |
JP2014501064A (ja) * | 2010-10-25 | 2014-01-16 | クゥアルコム・インコーポレイテッド | マルチマイクロフォンを用いた3次元サウンド獲得及び再生 |
JP5543023B2 (ja) * | 2011-05-24 | 2014-07-09 | 三菱電機株式会社 | 目的音強調装置およびカーナビゲーションシステム |
US9031256B2 (en) | 2010-10-25 | 2015-05-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control |
KR101658001B1 (ko) * | 2015-03-18 | 2016-09-21 | 서강대학교산학협력단 | 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법 |
CN111009256A (zh) * | 2019-12-17 | 2020-04-14 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
US10657958B2 (en) | 2015-03-18 | 2020-05-19 | Sogang University Research Foundation | Online target-speech extraction method for robust automatic speech recognition |
US10991362B2 (en) | 2015-03-18 | 2021-04-27 | Industry-University Cooperation Foundation Sogang University | Online target-speech extraction method based on auxiliary function for robust automatic speech recognition |
JP2021135462A (ja) * | 2020-02-28 | 2021-09-13 | 日本電信電話株式会社 | ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム |
CN115497500A (zh) * | 2022-11-14 | 2022-12-20 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
US11694707B2 (en) | 2015-03-18 | 2023-07-04 | Industry-University Cooperation Foundation Sogang University | Online target-speech extraction method based on auxiliary function for robust automatic speech recognition |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2638157C (en) * | 2008-07-24 | 2013-05-28 | Sunopta Bioprocess Inc. | Method and apparatus for conveying a cellulosic feedstock |
CA2638150C (en) * | 2008-07-24 | 2012-03-27 | Sunopta Bioprocess Inc. | Method and apparatus for conveying a cellulosic feedstock |
EP2321978A4 (en) | 2008-08-29 | 2013-01-23 | Dev Audio Pty Ltd | MICROPHONE NETWORK SYSTEM AND METHOD FOR ACQUIRING SOUNDS |
KR101233271B1 (ko) * | 2008-12-12 | 2013-02-14 | 신호준 | 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템 |
JP5375400B2 (ja) * | 2009-07-22 | 2013-12-25 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
US9310503B2 (en) * | 2009-10-23 | 2016-04-12 | Westerngeco L.L.C. | Methods to process seismic data contaminated by coherent energy radiated from more than one source |
US8565446B1 (en) * | 2010-01-12 | 2013-10-22 | Acoustic Technologies, Inc. | Estimating direction of arrival from plural microphones |
US9313599B2 (en) | 2010-11-19 | 2016-04-12 | Nokia Technologies Oy | Apparatus and method for multi-channel signal playback |
US9456289B2 (en) | 2010-11-19 | 2016-09-27 | Nokia Technologies Oy | Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof |
US9055371B2 (en) | 2010-11-19 | 2015-06-09 | Nokia Technologies Oy | Controllable playback system offering hierarchical playback options |
JP2012234150A (ja) * | 2011-04-18 | 2012-11-29 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
WO2013150341A1 (en) | 2012-04-05 | 2013-10-10 | Nokia Corporation | Flexible spatial audio capture apparatus |
US10540992B2 (en) | 2012-06-29 | 2020-01-21 | Richard S. Goldhor | Deflation and decomposition of data signals using reference signals |
JP6216169B2 (ja) * | 2012-09-26 | 2017-10-18 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
CN105230044A (zh) | 2013-03-20 | 2016-01-06 | 诺基亚技术有限公司 | 空间音频装置 |
US10635383B2 (en) | 2013-04-04 | 2020-04-28 | Nokia Technologies Oy | Visual audio processing apparatus |
US9900686B2 (en) * | 2013-05-02 | 2018-02-20 | Nokia Technologies Oy | Mixing microphone signals based on distance between microphones |
WO2014184618A1 (en) | 2013-05-17 | 2014-11-20 | Nokia Corporation | Spatial object oriented audio apparatus |
CN103413555B (zh) * | 2013-08-16 | 2016-02-24 | 辽宁工业大学 | 一种小孔径阵列麦克风语音增强方法 |
CN106302974B (zh) * | 2015-06-12 | 2020-01-31 | 联想(北京)有限公司 | 一种信息处理的方法及电子设备 |
WO2017108085A1 (en) * | 2015-12-21 | 2017-06-29 | Huawei Technologies Co., Ltd. | A signal processing apparatus and method |
WO2018064296A1 (en) | 2016-09-29 | 2018-04-05 | Dolby Laboratories Licensing Corporation | Method, systems and apparatus for determining audio representation(s) of one or more audio sources |
US10349196B2 (en) * | 2016-10-03 | 2019-07-09 | Nokia Technologies Oy | Method of editing audio signals using separated objects and associated apparatus |
US10535361B2 (en) * | 2017-10-19 | 2020-01-14 | Kardome Technology Ltd. | Speech enhancement using clustering of cues |
CN110992977B (zh) * | 2019-12-03 | 2021-06-22 | 北京声智科技有限公司 | 一种目标声源的提取方法及装置 |
CN111429933B (zh) * | 2020-03-06 | 2022-09-30 | 北京小米松果电子有限公司 | 音频信号的处理方法及装置、存储介质 |
CN111505583B (zh) * | 2020-05-07 | 2022-07-01 | 北京百度网讯科技有限公司 | 声源定位方法、装置、设备和可读存储介质 |
CN112565119B (zh) * | 2020-11-30 | 2022-09-27 | 西北工业大学 | 一种基于时变混合信号盲分离的宽带doa估计方法 |
CN113362847B (zh) * | 2021-05-26 | 2024-09-24 | 北京小米移动软件有限公司 | 音频信号处理方法及装置、存储介质 |
CN113671471B (zh) * | 2021-08-18 | 2024-04-30 | 中国科学院声学研究所北海研究站 | 一种水声目标检测盲源分离方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001245382A (ja) * | 2000-01-13 | 2001-09-07 | Nokia Mobile Phones Ltd | スピーカをトラッキングする方法およびシステム |
JP2004145172A (ja) * | 2002-10-28 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体 |
WO2005024788A1 (ja) * | 2003-09-02 | 2005-03-17 | Nippon Telegraph And Telephone Corporation | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 |
JP2006100869A (ja) * | 2004-09-28 | 2006-04-13 | Sony Corp | 音声信号処理装置および音声信号処理方法 |
JP2006154314A (ja) * | 2004-11-29 | 2006-06-15 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
WO2007018293A1 (ja) * | 2005-08-11 | 2007-02-15 | Asahi Kasei Kabushiki Kaisha | 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1942932B (zh) * | 2005-02-08 | 2010-07-28 | 日本电信电话株式会社 | 信号分离装置和信号分离方法 |
JP4672611B2 (ja) * | 2006-07-28 | 2011-04-20 | 株式会社神戸製鋼所 | 音源分離装置、音源分離方法及び音源分離プログラム |
-
2007
- 2007-03-05 JP JP2007053791A patent/JP4897519B2/ja active Active
-
2008
- 2008-03-04 US US12/073,336 patent/US20090012779A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001245382A (ja) * | 2000-01-13 | 2001-09-07 | Nokia Mobile Phones Ltd | スピーカをトラッキングする方法およびシステム |
JP2004145172A (ja) * | 2002-10-28 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体 |
WO2005024788A1 (ja) * | 2003-09-02 | 2005-03-17 | Nippon Telegraph And Telephone Corporation | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 |
JP2006100869A (ja) * | 2004-09-28 | 2006-04-13 | Sony Corp | 音声信号処理装置および音声信号処理方法 |
JP2006154314A (ja) * | 2004-11-29 | 2006-06-15 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
WO2007018293A1 (ja) * | 2005-08-11 | 2007-02-15 | Asahi Kasei Kabushiki Kaisha | 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812309B2 (en) | 2008-03-18 | 2014-08-19 | Qualcomm Incorporated | Methods and apparatus for suppressing ambient noise using multiple audio signals |
JP2012510090A (ja) * | 2008-11-25 | 2012-04-26 | クゥアルコム・インコーポレイテッド | 複数のオーディオ信号を使用して、周囲ノイズを抑制するための方法および装置 |
WO2010079526A1 (ja) * | 2009-01-06 | 2010-07-15 | 三菱電機株式会社 | 雑音除去装置及び雑音除去プログラム |
JP5377518B2 (ja) * | 2009-01-06 | 2013-12-25 | 三菱電機株式会社 | 雑音除去装置及び雑音除去プログラム |
JP2010233173A (ja) * | 2009-03-30 | 2010-10-14 | Sony Corp | 信号処理装置、および信号処理方法、並びにプログラム |
JP2011176535A (ja) * | 2010-02-24 | 2011-09-08 | Yamaha Corp | 信号処理装置 |
JP2011199474A (ja) * | 2010-03-18 | 2011-10-06 | Hitachi Ltd | 音源分離装置、音源分離方法およびそのためのプログラム、並びにそれを用いたビデオカメラ装置およびカメラ付き携帯電話装置 |
JP2011221087A (ja) * | 2010-04-05 | 2011-11-04 | Kobe Steel Ltd | 能動騒音制御装置 |
JP2013543987A (ja) * | 2010-10-22 | 2013-12-09 | クゥアルコム・インコーポレイテッド | 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 |
US9100734B2 (en) | 2010-10-22 | 2015-08-04 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
JP2014501064A (ja) * | 2010-10-25 | 2014-01-16 | クゥアルコム・インコーポレイテッド | マルチマイクロフォンを用いた3次元サウンド獲得及び再生 |
US9552840B2 (en) | 2010-10-25 | 2017-01-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
US9031256B2 (en) | 2010-10-25 | 2015-05-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control |
JP5543023B2 (ja) * | 2011-05-24 | 2014-07-09 | 三菱電機株式会社 | 目的音強調装置およびカーナビゲーションシステム |
US11694707B2 (en) | 2015-03-18 | 2023-07-04 | Industry-University Cooperation Foundation Sogang University | Online target-speech extraction method based on auxiliary function for robust automatic speech recognition |
KR101658001B1 (ko) * | 2015-03-18 | 2016-09-21 | 서강대학교산학협력단 | 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법 |
US10657958B2 (en) | 2015-03-18 | 2020-05-19 | Sogang University Research Foundation | Online target-speech extraction method for robust automatic speech recognition |
US10991362B2 (en) | 2015-03-18 | 2021-04-27 | Industry-University Cooperation Foundation Sogang University | Online target-speech extraction method based on auxiliary function for robust automatic speech recognition |
CN111009256A (zh) * | 2019-12-17 | 2020-04-14 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN111009256B (zh) * | 2019-12-17 | 2022-12-27 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
JP2021135462A (ja) * | 2020-02-28 | 2021-09-13 | 日本電信電話株式会社 | ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム |
CN115497500A (zh) * | 2022-11-14 | 2022-12-20 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
Also Published As
Publication number | Publication date |
---|---|
US20090012779A1 (en) | 2009-01-08 |
JP4897519B2 (ja) | 2012-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4897519B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP4496186B2 (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
DK3253075T3 (en) | A HEARING EQUIPMENT INCLUDING A RADIO FORM FILTER UNIT CONTAINING AN EXCHANGE UNIT | |
CN101510426B (zh) | 一种噪声消除方法及系统 | |
JP5444472B2 (ja) | 音源分離装置、音源分離方法、及び、プログラム | |
JP6187626B1 (ja) | 収音装置及びプログラム | |
US11978471B2 (en) | Signal processing apparatus, learning apparatus, signal processing method, learning method and program | |
Marquardt et al. | Interaural coherence preservation for binaural noise reduction using partial noise estimation and spectral postfiltering | |
JP4462617B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP6540730B2 (ja) | 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法 | |
JP4493690B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
JP4519901B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
JP4336378B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 | |
JP6436180B2 (ja) | 収音装置、プログラム及び方法 | |
JP5240026B2 (ja) | マイクロホンアレイにおけるマイクロホンの感度を補正する装置、この装置を含んだマイクロホンアレイシステム、およびプログラム | |
WO2018167921A1 (ja) | 信号処理装置 | |
JP5387442B2 (ja) | 信号処理装置 | |
JP5233772B2 (ja) | 信号処理装置およびプログラム | |
JP6260666B1 (ja) | 収音装置、プログラム及び方法 | |
JP6241520B1 (ja) | 収音装置、プログラム及び方法 | |
JP5105336B2 (ja) | 音源分離装置、プログラム及び方法 | |
US11825264B2 (en) | Sound pick-up apparatus, storage medium, and sound pick-up method | |
JP2017181761A (ja) | 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム | |
JP2010152107A (ja) | 目的音抽出装置及び目的音抽出プログラム | |
JP4519900B2 (ja) | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091118 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111122 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111222 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150106 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |