JP2008219458A - 音源分離装置,音源分離プログラム及び音源分離方法 - Google Patents

音源分離装置,音源分離プログラム及び音源分離方法 Download PDF

Info

Publication number
JP2008219458A
JP2008219458A JP2007053791A JP2007053791A JP2008219458A JP 2008219458 A JP2008219458 A JP 2008219458A JP 2007053791 A JP2007053791 A JP 2007053791A JP 2007053791 A JP2007053791 A JP 2007053791A JP 2008219458 A JP2008219458 A JP 2008219458A
Authority
JP
Japan
Prior art keywords
sound source
signal
sound
processing
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007053791A
Other languages
English (en)
Other versions
JP4897519B2 (ja
Inventor
Yohei Ikeda
陽平 池田
Takayuki Hiekata
孝之 稗方
Koji Morita
孝司 森田
Hiroshi Saruwatari
洋 猿渡
Yasumitsu Mori
康充 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe Steel Ltd
Nara Institute of Science and Technology NUC
Original Assignee
Kobe Steel Ltd
Nara Institute of Science and Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe Steel Ltd, Nara Institute of Science and Technology NUC filed Critical Kobe Steel Ltd
Priority to JP2007053791A priority Critical patent/JP4897519B2/ja
Priority to US12/073,336 priority patent/US20090012779A1/en
Publication of JP2008219458A publication Critical patent/JP2008219458A/ja
Application granted granted Critical
Publication of JP4897519B2 publication Critical patent/JP4897519B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】複数のマイクロホンに対する音源の位置に偏りが生じ得る環境下においても高い音源分離性能が得られること。
【解決手段】ICA法に基づくBSS方式の音源分離処理によりSIMO信号を分離生成するSIMO−ICA処理部10と,その学習計算によって算出される分離行列に基づいて,音源方向を推定する音源方向推定部4と,SIMO信号それぞれについて,周波数ビンごとに音源方向それぞれからの音声成分を強調するビームフォーマ処理を行うビームフォーマ処理部5と,ビームフォーマ処理後の音声信号のうち,特定の信号を除く他の信号について,周波数ビンごとに選択処理等を行うことを含む中間処理を行う中間処理部6と,特定SIMO信号における一の信号について,周波数ビンごとに,前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較によりノイズ信号成分を除去する目的外信号成分除去部7とを備える。
【選択図】図1

Description

本発明は,所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で,その音声入力手段各々を通じて入力される前記音源各々からの個別音声信号が重畳された複数の混合音声信号から,1以上の前記個別音声信号を同定(分離)する音源分離装置,音源分離プログラム及び音源分離方法に関するものである。
所定の音響空間に複数の音源と複数のマイク(音声入力手段)とが存在する場合,その複数のマイクごとに,複数の音源各々からの個別音声信号(以下,音源信号という)が重畳された音声信号(以下,混合音声信号という)が取得される。このようにして取得(入力)された複数の前記混合音声信号のみに基づいて,前記音源信号各々を同定(分離)する音源分離処理の方式は,ブラインド音源分離方式(Blind Source Separation方式,以下,BSS方式という)と呼ばれる。
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクを通じて入力される複数の前記混合音声信号(時系列の音声信号)において,前記音源信号どうしが統計的に独立であることを利用して所定の逆混合行列を最適化し,入力された複数の前記混合音声信号に対して最適化された逆混合行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献1や非特許文献2等に詳説されている。
一方,音源分離処理としては,バイナリーマスキング処理(バイノーラル信号処理の一例)による音源分離処理も知られている。バイナリーマスキング処理は,複数の指向性ステレオマイクロホンを通じて入力される混合音声信号相互間で,複数に区分された周波数成分(周波数ビン)ごとの音量レベルを比較することにより,混合音声信号それぞれについて主となる音源からの音声信号以外の信号成分を除去する処理であり,比較的低い演算負荷で実現できる音源分離処理である。これについては,例えば,非特許文献3や非特許文献4等に詳説されている。
また,ICA法に基づくBSS方式の音源分離処理においては,学習計算によって分離行列が得られるが,その分離行列に基づいて,音源の存在する方向(DOA:Direction of Arrivals)を推定する各種の技術が従来より知られている。例えば,非特許文献6や非特許文献7には,前記分離行列にステアリングベクトルを乗じることによってDOAを推定する技術が示されている。
猿渡洋「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告,vol.EA2001-7,pp.49-56,April 2001. 高谷智哉他「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告,vol.US2002-87,EA2002-108,January 2003. R.F.Lyon, "A computational model of binaural localization and separation," In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, vol.1, pp.43--55, 1993. N.Murata and S. Ikeda. A on-line algorithm for blind source separation on speech signals. In Proceedings of NOLTA'98, pp. 923-926,1998 西川剛樹他,「ICAとビームフォーミングを統合した高速収束アルゴリズムに基づく3音源以上のブラインド音源分離」,日本音響学会講演論文集,1-6-13,March 2005. Saruwatari Hiroshi他,"Blind source separation for speech based on fast-convergence algorithm with ICA and beamforming",EUROSPEECH 2001,pp2603-2606.
しかしながら,前記音源信号(個別音声信号)の独立性に着目したICA法に基づくBSS方式による音源分離処理を実環境で用いた場合,音声信号の伝達特性等の影響により,分離信号に特定の音源以外の他の音源からの音声信号の成分が混入する場合があるという問題点があった。
また,バイノーラル信号処理による音源分離処理は,複数に区分された周波数成分(周波数ビン)ごとの音量レベルの比較により音源分離処理を行うため,複数のマイクロホンに対する音源の位置に偏りがある場合の音源分離性能が悪いという問題点があった。例えば,複数の音源が指向性ステレオマイクロホンのいずれかの集音領域に集中したような場合には,正しい音源分離を行うことができなくなる。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,複数のマイクロホンに対する音源の位置に偏りが生じ得る環境下においても高い音源分離性能が得られる音源分離装置,音源分離プログラム及び音源分離方法を提供することにある。
上記目的を達成するために本発明は,所定の音響空間に複数の音源と複数の音声入力手段(マイクロホン)とが存在する状態でその音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から,1以上の前記音源信号を分離(抽出)した分離信号を生成するために,以下の(1)〜(5)に示す各工程を実行する手段(例えば,所定のプロセッサ)を備える音源分離装置であること,又は以下の(1)〜(5)に示す各工程をコンピュータに実行させるプログラムであること,或いは以下の(1)〜(5)に示す各工程を有する音源分離方法であることを特徴とするものである。
(1)独立成分分析法に基づくブラインド音源分離方式の音源分離処理により,複数の前記混合音声信号から1以上の前記音源信号に対応するSIMO(single-input multiple-output)信号を分離生成(抽出)する工程。以下,この工程をSIMO−ICA処理工程といい,この工程で実行される処理をSIMO−ICA処理という。
(2)前記SIMO−ICA処理工程における前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記音源それぞれの存在する方向である音源方向を推定する工程。以下,この工程を音源方向推定工程という。
(3)前記SIMO−ICA処理工程で分離生成された前記SIMO信号それぞれについて,複数に区分された周波数成分ごとに,前記音源方向推定工程により推定された前記音源方向それぞれからの音声成分を強調する(相対的に信号強度を強める)ビームフォーマ処理を施してビームフォーマ処理後の音声信号を出力する工程。以下,この工程をビームフォーマ処理工程という。
(4)前記ビームフォーマ処理後の音声信号のうち,前記SIMO信号のいずれか(以下,特定SIMO信号という)について前記音源方向のいずれか(以下,特定音源方向という)からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他の前記ビームフォーマ処理後の音声信号について,前記複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い,これにより得られる信号(以下,中間処理後信号という)を出力する工程。以下,この工程を中間処理実行工程という。
(5)前記特定SIMO信号における一の信号について,前記複数に区分された周波数成分ごとに,前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較してその比較結果が所定条件を満たす場合にその周波数成分の信号を除去する処理を行い,これにより得られる信号を前記音源信号に対応する前記分離信号として生成する工程。以下,この工程を目的外信号成分除去工程といい,この工程で実行される処理を目的外信号成分除去処理という。
なお,前記目的外信号成分除去処理は,バイナリーマスキング処理と同様の処理,即ち,前記特定SIMO信号における一の信号について,複数に区分された周波数成分ごとの音量比較に基づいて主となる音源からの音声信号以外の信号成分を除去する処理である。但し,音量比較の対象となる信号は,SIMO信号そのものではなく,前記特定のビームフォーマ処理後の音声信号及び前記中間処理後信号(前記特定のビームフォーマ処理後の音声信号以外のビームフォーマ処理後の信号について前記中間処理を実行して得られた信号)である。
このように,独立成分分析に基づく音源分離処理(前記SIMO−ICA処理)と,周波数成分ごとの音量比較に基づく低音量の信号成分除去処理(前記目的外信号成分除去処理)との2段階の処理を実行することにより,後述するように,複数の前記音声入力手段(マイクロホン)に対する音源の位置に偏りが生じ得る環境下においても高い音源分離性能が得られることがわかった。また,前記中間処理の内容により,音源分離性能が特に高まるような音源分離処理を実現したり,或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。
また,前記SIMO−ICA処理としては,周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理や,周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うことが考えられる。
なお,前記周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理とは,後述するように,時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換処理と,その周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した分離信号(第1の分離信号)を生成するFDICA音源分離処理と,前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づいて前記FDICA音源分離処理により分離された分離信号(前記第1の分離信号)を除く残りのものを減算した分離信号(第2の分離信号)を生成する減算処理と,前記第1の分離信号及び前記第2の分離信号に基づく所定の評価関数を用いた逐次計算を行うことによって前記FDICA音源分離処理で用いる前記分離行列を計算する分離行列計算処理とを行うものである。これにより,時間領域の混合音声信号を時間領域のままで処理する時間領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理に比べ,処理負荷を大幅に軽減できる。
また,前記ビームフォーマ処理工程としては,例えば,周知の遅延和型ビームフォーマ処理,又は同じく周知の死角型ビームフォーマ処理(減算型ビームフォーマ処理ともいう)を実行する工程が考えられる。
また,前記中間処理としては,例えば,前記複数の特定信号を各々所定の重み付けにより補正し,その補正後の信号について所定の選択処理若しくは合成処理を行うものが考えられる。
より具体的な前記中間処理としては,前記複数の特定信号を各々所定の重み付けにより補正し,その補正後の信号の中から信号レベルが最大のものを選択する処理を行うものが考えられる。
このような構成によれば,前記重み付けの係数(前記中間処理に用いられるパラメータの一例)を調節することにより,音源分離性能が特に高まるような音源分離処理を実現したり,或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。
特に,前記中間処理に用いるパラメータを所定の操作入力に従って設定する手段(中間処理パラメータ設定手段)を備えた音源分離装置であれば,状況に応じた調節が容易となる。
本発明によれば,独立成分分析法に基づくブラインド音源分離方式の音源分離処理(前記SIMO−ICA処理)と,バイナリーマスキング処理と同様の音量比較による低音量の信号成分除去処理(前記目的外信号成分除去処理)との2段階処理を行うことにより,高い音源分離性能が得られる。
さらに,本発明によれば,独立成分分析法に基づくブラインド音源分離方式の音源分離処理(前記SIMO−ICA処理)により得られたSIMO信号について,音源方向に応じた音声強調を行うビームフォーマ処理,及び目的に応じた前記中間処理を施した後に前記目的外信号成分除去処理を実行する。これにより,複数の音声入力手段(マイクロホン)に対する音源の位置に偏りが生じ得る環境下においても高い音源分離性能が得られる音源分離処理が可能となる。例えば,前記中間処理の内容により,音源分離性能が特に高まるような音源分離処理を実現したり,或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。また,SIMO−ICA処理として,周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理や,周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うことにより,時間領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理に比べ,処理負荷を大幅に軽減できる。
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の第1実施形態に係る音源分離装置X1の概略構成を表すブロック図,図2は本発明の第2実施形態に係る音源分離装置X2の概略構成を表すブロック図,図3はTDICA法に基づくBSS方式の音源分離処理を行う従来の音源分離装置Z1の概略構成を表すブロック図,図4はTD−SIMO−ICA法に基づく音源分離処理を行う従来の音源分離装置Z2の概略構成を表すブロック図,図5はFDICA法に基づく音源分離処理を行う従来の音源分離装置Z3の概略構成を表すブロック図,図6はFD−SIMO−ICA法に基づく音源分離処理を行う音源分離装置Z4の概略構成を表すブロック図,図7はFDICA−PB法に基づく音源分離処理を行う従来の音源分離装置Z5の概略構成を表すブロック図,図8はSIMO信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第1の例(音源信号各々の周波数成分に重複がない場合)を模式的に表した図,図9はSIMO信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第2の例(音源信号各々の周波数成分に重複がある場合)を模式的に表した図,図10はSIMO信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第3の例(目的音源信号のレベルが比較的小さい場合)を模式的に表した図,図11はマイクロホンと音源との位置関係を模式的に表した図,図12は遅延和型ビームフォーマ処理の概念図,図13は音源分離装置X1を用いた音源分離性能評価の実験条件を表す図,図14は従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件の下で音源分離を行ったときの音源分離性能を表すグラフである。
まず,本発明の実施形態について説明する前に,図3〜図7に示すブロック図を用いて,各種のICA法に基づくブラインド音源分離方式(ICA法に基づくBSS方式)の音源分離装置について説明する。
なお,以下に示す音源分離処理或いはその処理を行う装置等は,いずれも所定の音響空間に複数の音源と複数のマイクロホン(音声入力手段)とが存在する状態で,そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号(以下,音源信号という)が重畳された複数の混合音声信号から,1以上の音源信号を分離(同定)した分離信号を生成する音源分離処理或いはその処理を行う装置等に関するものである。
図3は,ICA法の一種である時間領域独立成分分析法(time-domain independent component analysis法,以下,TDICA法という)に基づくBSS方式の音源分離処理を行う従来の音源分離装置Z1の概略構成を表すブロック図である。なお,本処理の詳細は,非特許文献1や非特許文献2等に示されている。
音源分離装置Zは,分離フィルタ処理部11により,2つの音源1,2からの音源信号S1(t),S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)について,分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。
図3には,2つの音源1,2からの音源信号S1(t),S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)に基づいて音源分離を行う例について示しているが,2チャンネル以上であっても同様である。ICA法に基づくBSS方式による音源分離の場合,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であればよい。
複数のマイクロホン111,112各々で集音された各混合音声信号x1(t),x2(t)には,複数音源からの音源信号が重畳されている。以下,各混合音声信号x1(t),x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され,次の(1)式のように表される。
Figure 2008219458
ここで,A(z)は,音源からの音声がマイクへ入力される際の空間行列である。
TDICAによる音源分離の理論は,この音源信号S(t)のそれぞれの音源同士が統計的に独立であることを利用すると,x(t)がわかればS(t)を推測することができ,従って,音源を分離することができるという発想に基づく理論である。
ここで,当該音源分離処理に用いる分離行列をW(z)とすれば,分離信号(即ち,同定信号)y(t)は,次の(2)式で表される。
Figure 2008219458
ここで,W(z)は,出力y(t)から逐次計算により求められる。また,分離信号は,チャンネルの数だけ得られる。
なお,音源合成処理はこのW(z)に関する情報により,逆演算処理に相当する配列を形成し,これを用いて逆演算を行えばよい。
このようなICA法に基づくBSS方式による音源分離を行うことにより,例えば,人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から,歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで,(2)式は,次の(3)式のように書き換えて表現できる。
Figure 2008219458
そして,(3)式における分離フィルタ(分離行列)W(n)は,次の(4)式により逐次計算される。即ち,前回(j)の出力y(t)を(4)式に逐次適用することより,今回(j+1)のW(n)を求める。
Figure 2008219458
次に,図4に示すブロック図を用いて,TDICA法の一種である時間領域SIMO独立成分分析法(Time-Domain single-input multiple-output ICA法,以下,TD−SIMO−ICA法という)に基づく音源分離処理を行う従来の音源分離装置Z2の構成について説明する。なお,図4は,2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)に基づいて音源分離を行う例について示しているが,3チャンネル以上であっても同様であり,その詳細は非特許文献2等に示されている。
TD−SIMO−ICA法による音源分離の特徴は,図4中に示すFidelity Controller12により,マイクロホン入力信号である各混合音声信号xi(t)から,前記分離フィルタ処理部11による音源分離処理(TDICA法に基づく音源分離処理)によって分離(同定)された分離信号(同定信号)を減算し,その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタW(Z)の更新(逐次計算)を行う点である。ここで,混合音声信号xi(t)各々から減算する分離信号(同定信号)は,各々異なる1つの分離信号(当該混合音声信号に基づく音源分離処理により得られた分離信号)を除く残り全ての分離信号である。これにより,チャンネル(マイクロホン)ごとに2つの分離信号(同定信号)が得られることになり,また,音源信号Si(t)ごとに2つの分離信号が得られることになる。図4の例では,分離信号y11(t)とy12(t),分離信号y22(t)とy21(t)が,各々同一の音源信号に対応する分離信号(同定信号)である。なお,分離信号yの添字(数字)において,前段の数字は音源の識別番号を,後段の数字はマイクロホン(即ち,チャンネル)の識別番号を表している(以下同様)。
このように,ある音響空間に複数の音源と複数の音声入力手段(マイクロホン)とが存在する状態で,その音声入力手段各々を通じて入力される音源各々からの音源信号(個別音声信号)が重畳された複数の混合音声信号から,1以上の音源信号を分離(同定)した場合に,音源信号ごとに得られる複数の分離信号(同定信号)群をSIMO(single-input multiple-output)信号という。図4の例では,分離信号y11(t)とy12(t)の組合せ,分離信号y22(t)とy21(t) といった同一の音源信号に対応する各マイクロホンへの分離信号の組合せの各々がSIMO信号である。
ここで,分離フィルタ(分離行列)W(Z)を表現し直したW(n)の更新式は,次の(5)式で表される。
Figure 2008219458
この(5)式は,前述の(4)式に対して第3項目が加わったものであり,この第3項は,Fidelity Controller12により生成される信号の成分の独立性を評価している部分である。
次に,図5に示すブロック図を用いて,ICA法の一種であるFDICA法(Frequency-Domain ICA)に基づく音源分離処理を行う従来の音源分離装置Z3について説明する。
FDICA法では,まず,入力された混合音声信号x(t)について,ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform,以下,ST−DFT処理という)を行い,観測信号の短時間分析を行う。そして,そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(6)式のように表すことができる。
Figure 2008219458
ここで,分離フィルタW(f)の更新式は,例えば次の(7)式のように表すことができる。
Figure 2008219458
このFDICA法によれば,音源分離処理が各狭帯域における瞬時混合問題として取り扱われ,比較的簡単かつ安定に分離フィルタ(分離行列)W(f)を更新することができる。
次に,図6に示すブロック図を用いて,FDICA法の一種である周波数領域SIMO独立成分分析法(Frequency-Domain single-input multiple-output ICA法,以下,FD−SIMO−ICA法という)に基づく音源分離処理を行う音源分離装置Z4について説明する。
FD−SIMO−ICA法では,前述のTD−SIMO−ICA法(図4)と同様に,Fidelity Controller12により,各混合音声信号xi(t)に対してST−DFT処理を施した信号各々から,FDICA法(図5)に基づく音源分離処理によって分離(同定)された分離信号(同定信号)を減算し,その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタW(f)の更新(逐次計算)を行うものである。
このFD−SIMO−ICA法に基づく音源分離装置Z4では,時間領域における複数の前記混合音声信号x1(t),x2(t)に対して前記ST−DFT処理部13により短時間離散フーリエ変換処理を施して,周波数領域における複数の混合音声信号x1(f),x2(f)へ変換する(短時間離散フーリエ変換手段の一例)。
次に,変換後の周波数領域における複数の混合音声信号x1(f),x2(f)に対し,前記分離フィルタ処理部11fによって所定の分離行列W(f)に基づく分離処理(フィルタ処理)を施すことにより,前記混合音声信号ごとに前記音源信号S1(t),S2(t)のいずれかに対応した第1の分離信号y11(f),y22(f)を生成する(FDICA音源分離手段の一例)。
さらに,前記周波数領域における複数の混合音声信号x1(f),x2(f)各々から当該混合音声信号に基づき前記分離フィルタ処理部11fにより分離された前記第1の分離信号(x1(f)に基づき分離されたy11(f),x2(f)に基づき分離されたy22(f))を除く残りの前記第1の分離信号を,前記Fidelity Controller12(減算手段の一例)により減算した第2の分離信号y12(f),y21(f)を生成する。
一方,不図示の分離行列計算部により,前記第1の分離信号y11(f),y22(f)及び前記第2の分離信号y12(f),y21(f)の両方に基づく逐次計算を行い,前記分離フィルタ処理部11f(FDICA音源分離手段)で用いられる前記分離行列W(f)を計算する(分離行列計算手段の一例)。
これにより,チャンネル(マイクロホン)ごとに2つの分離信号(同定信号)が得られることになり,また,音源信号Si(t)ごとに2つ以上の分離信号(SIMO信号)が得られることになる。図6の例では,分離信号y11(f)とy12(f)の組合せ,及び分離信号y22(f)とy21(f)の組合せの各々がSIMO信号である。なお,実際は時間の経過に応じて順次新たに発生するフレームごとに新たな分離信号が生成されるので,各分離信号y11(f),y21(f),y22(f),y12(f)は,時間tの要素を加えてy11(f,t),y21(f,t),y22(f,t),y12(f,t)と表記することもできる。
ここで,前記分離行列計算部は,前記第1の分離信号及び前記第2の分離信号に基づいて,次の(8)式で表される分離フィルタ(分離行列)W(f)の更新式により前記分離行列W(f)を計算する。
Figure 2008219458
次に,図7に示すブロック図を用いて,FDICA法の一種である周波数領域独立成分分析法と逆射影法との連結手法(Frequency-Domain ICA & Projection back法,以下,FDICA−PB法という)に基づく音源分離処理を行う従来の音源分離装置Z5について説明する。なお,PDICA−PB法の詳細については,特許文献5等に示されている。
FDICA−PB法では,各混合音声信号xi(t)から前述のFDICA法に基づく音源分離処理(図5)により得られた分離信号(同定信号)yi(f)各々について,逆行列演算部14によって分離行列W(f)の逆行列W-1(f)の演算処理を施すことにより,最終的な分離信号(音源信号の同定信号)を得るものである。ここで,逆行列W-1(f)による処理対象の信号のうち,各分離信号yi(f)以外の残りの信号成分は,0(ゼロ)入力として設定する。
これにより,音源信号Si(t)各々に対応したチャンネル数分(複数)の分離信号(同定信号)であるSIMO信号が得られる。図7において,分離信号y11(f)とy12(f),分離信号y22(f)とy21(f)が,各々同一の音源信号に対応する分離信号(同定信号)であり,各逆行列W-1(f)による処理後の信号である分離信号y11(f)とy12(f)の組合せ,分離信号y22(f)とy21(f)の組合せの各々がSIMO信号である。なお,実際は時間の経過に応じて順次新たに発生するフレームごとに新たな分離信号が生成されるので,各分離信号y11(f),y12(f),y22(f),y21(f)は,時間tの要素を加えてy11(f,t),y12(f,t),y22(f,t),y21(f,t)と表記することもできる。
以下,図1に示すブロック図を用いて,本発明の第1実施形態に係る音源分離装置X1について説明する。
音源分離装置X1は,ある音響空間に複数の音源1,2と複数のマイクロホン111,112(音声入力手段)とが存在する状態で,そのマイクロホン111,112各々を通じて入力される音源1,2各々からの音源信号(個別の音声信号)が重畳された複数の混合音声信号Xi(t)から,1以上の音源信号(個別音声信号)を分離(同定)した分離信号(同定信号)を生成して出力するものである。なお,図1における分離信号Y1(ICA1)(f,t),Y2(ICA1) (f,t),Y1(ICA2) (f,t),Y2(ICA2) (f,t)は,それぞれ図6及び図7における分離信号y11(f),y22(f),y21(f),y12(f)に相当する。ここで,複数のマイクロホン111,112は,指向性を有するマイクロホンであっても無指向性のマイクロホンであってもよい。
そして,音源分離装置X1の特徴は,SIMO−ICA処理部10,音源方向推定部4,ビームフォーマ処理部5,中間処理部6及び目的外信号成分除去部7の各構成要素を備える点にある。
なお,各構成要素10,4,5,6,7は,それぞれDSP(Digital Signal Processor)又はCPU及びその周辺装置(ROM,RAM等)と,そのDSP若しくはCPUにより実行されるプログラムとにより構成されたものや,或いは,1つのCPU及びその周辺装置を有するコンピュータにより,各構成要素10,4,5,6,7が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また,所定のコンピュータに各構成要素10,4,5,6,7の処理を実行させる音源分離プログラムとして提供することも考えられる。
前記SIMO−ICA処理部10は,複数の混合音声信号Xi(t)から独立成分分析(ICA)法に基づくブラインド音源分離(BSS)方式の音源分離処理により,1以上の音源信号Si(t)を分離(同定)したSIMO信号「Y1(ICA1)及びY2(ICA2)」と「Y2(ICA1)及びY1(ICA2)」(1つの音源信号に対応する複数の分離信号)を分離生成する処理の実行部である(前記SIMO−ICA処理工程を実行するコンピュータの一例)。
この第1実施形態における前記SIMO−ICA処理部10(前記SIMO−ICA処理手段に相当)としては,図6に示したFD−SIMO−ICA法に基づく音源分離処理を行うFD−SIMO−ICA法に基づく音源分離処理を行う前記音源分離装置Z4,或いは図7に示したFDICA−PB法に基づく音源分離処理を行う前記音源分離装置Z5を採用することが考えられる。
前記音源方向推定部4は,前記SIMO−ICA処理部10におけるICA法に基づくBSS方式の音源分離処理において実行される学習計算によって算出される分離行列Wに基づいて,前記音源1,2それぞれの存在する方向である音源方向θ1,θ2を推定する処理の実行部である(前記音源方向推定工程を実行するコンピュータの一例)。
前記音源方向推定部4は,前記SIMO−ICA処理部10におけるICA法に基づくBSS方式の音源分離処理において実行される分離行列Wの学習計算によって算出される分離行列Wを取得し,その分離行列Wに基づいて,音響空間に存在する複数の音源1,2の存在する方向(音源方向θ1,θ2という)それぞれを推定するDOA推定計算を実行するものである。
ここで,音源方向θ1,θ2は,図11に示すように,直線上に配列された複数のマイクロホンの中間位置O(複数のマイクロホンの配列範囲の中心位置)から,マイクロホンの配列方向Rxに直交する方向Ryに対する相対角度である。なお,図11において,Rx方向におけるK個のマイクロホンそれぞれの座標をd1〜dKと表記している。
前記音源方向推定部4は,例えば,前記非特許文献6や非特許文献7に示されるDOA推定処理を実行することにより,前記音源方向θ1,θ2を推定(算出)する。より具体的には,前記分離行列Wにステアリングベクトルを乗じることによって音源方向θ1,θ2(DOA)を推定する。
以下,前記非特許文献6や非特許文献7に示されるDOA推定処理(以下,死角特性に基づくDOA推定処理という)について説明する。
ICA法による音源分離処理は,空間的死角フィルタを表す行列(分離行列)を学習演算によって算出し,その分離行列を用いたフィルタ処理によってある方向からの音を除去する処理である。
前記死角特性に基づくDOA推定処理は,前記分離行列が表す空間的死角角度を周波数ビンごとに計算し,その周波数ビンごとの空間的死角角度の平均値を求めることによって音源の方向(角度)を推定する。
例えば,2つの音源の音を2つのマイクロホンで集音する音源分離装置において,前記死角特性に基づくDOA推定処理は,以下に示す計算を実行する。なお,以下の説明において,添字のkはマイクロホンの識別番号(k=1,2),添字のlは音源の識別番号(l=1,2),fは周波数ビン,fの添字mは周波数ビンの識別番号(m=1,2),Wlk(f)は前記FDICA法に基づくBSS方式の音源分離処理における学習計算により得られた分離行列,cは音速,dk(d1又はd2)は2つのマイクロホンの中間位置から各マイクロホンまでの距離(マイクロホン相互間の距離の二分の一,即ち,d1=d2),θ1及びθ2は2つの音源それぞれの音源方向(DOA)である。
まず,次の(9)式(前記非特許文献4における(12)式に相当)により,l=1の場合及びl=2の場合の音源角度情報Fl(f,θ)を,分離フィルタの各周波数ビンごとに算出する。
Figure 2008219458
さらに,次の(10)式及び(11)式(前記非特許文献4における(13)式及び(14)式に相当)により周波数ビンごとのDOA(角度)θ1(fm)及びθ2(fm)を求める。
Figure 2008219458
Figure 2008219458
そして,周波数ビンごとに計算されたθ1(fm)について,全周波数ビンの範囲で平均値を計算し,その平均値を一方の音源の方向θ1とする。同様に,周波数ビンごとに計算されたθ2(fm)について,全周波数ビンの範囲で平均値を計算し,その平均値を他方の音源の方向θ2とする。
前記ビームフォーマ処理部5は,前記SIMO−ICA処理部10において分離生成されたSIMO信号,即ち,分離信号Y1(ICA1)及びY2(ICA2)からなる第1のSIMO信号,及び分離信号Y2(ICA1)及びY1(ICA2)からなる第2のSIMO信号それぞれについて,周波数ビンf(複数に区分された周波数成分)ごとに,前記音源方向推定部4により推定された前記音源方向θ1,θ2それぞれからの音声成分を強調するビームフォーマ処理を施してビームフォーマ処理後の音声信号YBF1 (f,t)〜YBF4(f,t)を出力する処理の実行部である(前記ビームフォーマ処理工程を実行するコンピュータの一例)。ここで,周波数ビンf(周波数成分の区分)は,例えば,予め定められた周波数幅での均等な区分である。
なお,図1に示す2つのビームフォーマ処理部5それぞれにおいて,「BF1θ1」との表記は,前記第1のSIMO信号について音源方向θ1からの音声成分を強調すること(YBF1(f,t)の出力)を表し,「BF1θ2」との表記は,前記第1のSIMO信号について音源方向θ2からの音声成分を強調すること(YBF2(f,t)の出力)を表し,「BF2θ1」との表記は,前記第2のSIMO信号について音源方向θ1からの音声成分を強調すること(YBF3(f,t)の出力)を表し,「BF2θ2」との表記は,前記第2のSIMO信号について音源方向θ2からの音声成分を強調すること(YBF4(f,t)の出力)を表す。
以下,マイクロホンの数をK,音源の数をL,K=Lである場合に,前記ビームフォーマ処理部5が,前記音源方向推定部4により推定(算出)された音源方向(音声の到来方向)θl(添字l(エル)は1〜Lの整数)に基づいて,指向先(ビーム方向)を音源方向θlそれぞれに設定することにより各音源方向θlからの音声を強調するビームフォーマ処理について説明する。
前記ビームフォーマ処理部5が実行するビームフォーマ処理としては,周知の遅延和型ビームフォーマ処理(Delay & Sum方式)や死角型ビームフォーマ処理などが考えられる。但し,いずれの種類のビームフォーマ処理を行う場合も,ある音源方向θlについて相対的に高い利得が得られ,その他の音源方向について相対的に低い利得が得られるようにする。
図12は,遅延和型ビームフォーマ処理の概念図である。θの方向から各マイクロホンに到来する音声の信号の時間のずれを,マイク間距離d及び方向θに応じて遅延器により修正し,修正後の信号それぞれに所定の重み係数を乗算した後に加算することにより,特定の方向θから到来した音声を強調した信号が生成される。
遅延和型ビームフォーマ処理では,ある周波数ビンfについて指向先(ビーム方向)を音源方向θlに設定したときのビームフォーマWBFl(f)(音源方向θlからの音声を強調するビームフォーマ(添字l(エル)は1〜Lの整数))は次の(12)式により求めることができる。なお,(12)式において,dkはk番目のマイクロホンの座標(図11におけるd1〜dK),cは音速,jは虚数単位である。
Figure 2008219458
そして,前記ビームフォーマ処理部5は,(12)式に基づくビームフォーマを各SIMO信号に適用することにより,ビームフォーマ処理後の音声信号YBFl(f,t)を算出する。
例えば,K=L=2である場合,前記ビームフォーマ処理部5は,次の(13)式の計算を行うことによってビームフォーマ処理後の音声信号YBF1(f,t)〜YBF4(f,t)を算出する。なお,K及びLが3以上であっても同様の式によりYBFl(f,t)を算出できる。
Figure 2008219458
以上に示すビームフォーマ処理を実行することにより,SIMO信号それぞれについて,目的とする音源の方向θlからの音声を強調した(相対的に信号強度を強めた)音声信号YBFl(f,t)を算出できる。
前記中間処理部6は,前記ビームフォーマ処理後の音声信号(前記ビームフォーマ処理部5の出力信号)のうち,SIMO信号のいずれか(以下,特定SIMO信号という)について前記音源方向θ1,θ2のいずれか(以下,特定音源方向という)からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他のビームフォーマ処理後の音声信号について,周波数ビンfごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い,これにより得られる信号(以下,中間処理後信号という)を出力する処理の実行部である(前記中間処理実行工程を実行するコンピュータの一例)。
なお,図1に例示する2つの前記中間処理部6の一方(第1の中間処理部6a)は,2組のSIMO信号のうち,分離信号Y1(ICA1)及びY2(ICA2)からなるSIMO信号を前記特定SIMO信号とし,その特定SIMO信号について音源方向θ1からの音声成分を強調した特定のビームフォーマ処理後の音声信号Ya1(f,t)を除く他の3つのビームフォーマ処理後の音声信号Ya2(f,t),Ya3(f,t),Ya4(f,t)に基づいて前記中間処理を行い,1つの中間処理後信号Yb1(f,t)を出力するものである。また,もう一方の第2の中間処理部6bは,2組のSIMO信号のうち,分離信号Y2(ICA1)及びY1(ICA2)からなるSIMO信号を前記特定SIMO信号とし,その特定SIMO信号について音源方向θ2からの音声成分を強調した特定のビームフォーマ処理後の音声信号Ya4(f,t)を除く他の3つのビームフォーマ処理後の音声信号Ya1(f,t),Ya2(f,t),Ya3(f,t)に基づいて前記中間処理を行い,1つの中間処理後信号Yb2(f,t)を出力するものである。
図1に示す例では,前記第1の中間処理部6aは,まず,加重補正処理部61により,3つのビームフォーマ処理後の音声信号YBF2(f,t)〜YBF4を,周波数ビンfごと(所定の周波数幅で均等に区分された周波数成分ごと)に,その周波数ビンfの信号(強度)に所定の重み係数c1,c2,c3を乗算することによって信号レベルを補正(即ち,重み付けにより補正)する。さらに,比較対象選択部62により,その補正後の信号の中から,周波数ビンfごとに信号レベルが最大のものを選択選択し,選択した信号を第1の中間処理後信号Yb1(f,t)として出力する。この中間処理を,Max[c1・YBF2(f,t),c2・YBF3(f,t),c3・YBF4(f,t)]と表すものとする。
また,前記第2の中間処理部6bは,まず,加重補正処理部61により,3つのビームフォーマ処理後の音声信号YBF1(f,t)〜YBF3を,周波数ビンfごとに,その周波数ビンfの信号(強度)に所定の重み係数c3,c2,c1を乗算することによって信号レベルを補正(即ち,重み付けにより補正)する。さらに,比較対象選択部62により,その補正後の信号の中から,周波数ビンfごとに信号レベルが最大のものを選択し,選択した信号を第2の中間処理後信号Yb2(f,t)として出力する。この中間処理は,Max[c3・YBF1(f,t),c2・YBF2(f,t),c3・YBF3(f,t)]と表される。
ここで,c1〜c3は,0以上1未満の重み係数であり,例えば,1≧c1>c3>c2≧0などに設定する。例えば,c1=1,c2=0,c3=0.7などとする。
前記目的外信号成分除去部7は,前記特定SIMO信号(前記第1のSIMO信号又は前記第2のSIMO信号)における一の信号について,周波数ビンごと(複数に区分された周波数成分ごと)に,前記特定SIMO信号にビームフォーマ処理を施した後の音声信号と前記中間処理後信号との音量を比較し,その比較結果が所定条件を満たす場合にその周波数ビンの信号を除去する処理を行い,これにより得られる信号を音源信号に対応する分離信号として生成及び出力する処理の実行部である(前記目的外信号成分除去工程を実行するコンピュータの一例)。
図1に示す例では,2つの前記目的外信号成分除去部7の一方(第1の目的外信号成分除去部7a)において,比較部71が,前記第1のSIMO信号(前記特定SIMO信号の一例)における一の信号であるY1(ICA1)(f,t)について,周波数ビンfごとに,前記第1のSIMO信号にビームフォーマ処理を施した後の音声信号YBF1(f,t)と前記第1の中間処理部6aから出力される前記第1の中間処理後信号Yb1(f,t)との信号レベルの大小を比較する。そして,その比較結果がYBF1(f,t)>YB1(f,t)という条件を満たす場合に,前記第1の目的外信号成分除去部7aにおける信号除去部72が,信号Y1(ICA1)(f,t)からその周波数ビンfの信号を除去し,これによる得られる信号を出力する。
また,2つの前記目的外信号成分除去部7の他方(第2の目的外信号成分除去部7b)において,比較部71が,前記第2のSIMO信号(前記特定SIMO信号の一例)における一の信号であるY2(ICA1)(f,t)について,周波数ビンfごとに,前記第2のSIMO信号にビームフォーマ処理を施した後の音声信号YBF4(f,t)と前記第2の中間処理部6bから出力される前記第2の中間処理後信号Yb2(f,t)との信号レベルの大小を比較する。そして,その比較結果がYBF4(f,t)>YB2(f,t)という条件を満たす場合に,前記第2の目的外信号成分除去部7bにおける信号除去部72が,信号Y2(ICA1)(f,t)からその周波数ビンfの信号を除去し,これによる得られる信号を出力する。
例えば,前記第1の目的外信号成分除去部7aにおいて,前記比較部71が,周波数ビンfそれぞれについてYBF1(f,t)>YBF1(f,t)である場合に比較結果m1(f,t)を「1」,そうでない場合に比較結果m1(f,t)を「0」として出力し,さらに,前記信号除去部72が,信号Y1(ICA1)(f,t)に前記比較結果m1(f,t)を乗算する。前記第2の目的外信号成分除去部7bにおいても同様の処理を行う。
次の(14)式は,前記第1の中間処理部6a及び前記第1の目的外信号成分除去部7aにおける前記比較部71が実行する処理を表す式である。
Figure 2008219458
また,次の(15)式は,前記第1の目的外信号成分除去部7aにおける前記信号除去部72が実行する処理を表す式である。なお,(15)式における左辺が,音源信号に対応する分離信号として生成及び出力される信号を表す。
Figure 2008219458
以下,音源分離装置X1の作用効果について説明する。
前述したように,複数の音源信号それぞれの独立性に着目した音源分離処理を行う前記SIMO−ICA処理部10が出力する分離信号Y1(ICA1)(f,t),Y2(ICA2)(f,t),Y2(ICA1)(f,t),Y1(ICA2)(f,t)には,注目したい特定の音源(目的音源)以外の他の音源(非目的音源)からの音声信号(ノイズ信号)の成分が混入する場合がある。
そこで,特定の音源信号S1(t)に対応するはずの分離信号Y1(ICA1)(f,t)に,他の音源信号S2(t)に対応する分離信号Y2(ICA1)(f,t),Y1(ICA2)(f,t)において信号レベル(音量)の高い周波数成分と同じ周波数成分の信号が存在する場合,その周波数成分の信号をバイノーラル信号処理と同様の処理によって除去すれば,特定の音源以外の他の音源から混入したノイズ信号を除去できる。このことから,例えば,図1に示す前記音源分離装置X1において,前記第1の目的外信号成分除去部7aにより,特定の音源に対応する分離信号Y1(ICA1)(f,t)から,その他の音源に対応する分離信号Y2(ICA1)(f,t),Y1(ICA2)(f,t)と比較して信号レベルが低い周波数成分を除去すれば,ノイズ混入を抑え音源分離性能を高めることができる。
しかしながら,前記目的外信号成分除去部7は,音量(信号レベル)に基づきノイズ信号か否かを判別するため,複数のマイクロホンに対する音源の位置に偏りがある場合,注目したい特定の音源(目的音源)からの信号とその他の音源(非目的音源)からの信号(ノイズ信号)との区別がつかなくなる。
これに対し,前記音源分離装置X1では,前記ビームフォーマ処理部5によって各SIMO信号に音源方向θ1,θ2それぞれからの音声を強調するビームフォーマ処理を施し,ビームフォーマ処理後の音声信号YBF1(f,t)〜YBF4(f,t)に基づく信号について,前記目的外信号成分除去部7による処理を実行する。ここで,ビームフォーマ処理後の音声信号YBF1(f,t)〜YBF4(f,t)のスペクトルは,各音源が存在する方向を指向先とする指向性マイクロホンを通じて得られた音声信号のスペクトルと近似するものとなる。このため,複数のマイクロホンに対する音源の位置に偏りがある場合でも,前記目的外信号成分除去部7に入力される信号は,音源位置の偏りの影響が除かれた信号となる。従って,前記音源分離装置X1のように,特定の音源信号S1(t)に対応するビームフォーマ処理後の音声信号YBF1(f,t)に,他の音源信号S2(t)に対応するビームフォーマ処理後の音声信号YBF2(f,t),YBF3(f,t)において信号レベル(音量)の高い周波数成分と同じ周波数成分の信号が存在する場合,その周波数成分の信号を,前記目的外信号成分除去部7により分離信号Y1(ICA1)(f,t)から除去すれば,複数のマイクロホンに対する音源の位置に偏りがある場合でも,特定の音源以外の他の音源から混入したノイズ信号を除去できる。
また,前記音源分離装置X1における前記目的外信号成分除去部7は,注目したい特定の音源(目的音源)以外の音源(非目的音源)に対応するビームフォーマ処理後の音声信号(例えば,YBF2(f,t)〜YBF4(f,t))については,その信号自体を特定の音源に対応するビームフォーマ処理後の音声信号(例えば,YBF1(f,t))との比較対象にするのではなく,それらの信号に前記中間処理を施した後の信号(例えば,Yb1(f,t))を比較対象としている。このため,音響環境が変化しても高い音源分離性能を維持することが可能となる。
通常,音源信号S1(t)を最もよく表す対応するビームフォーム処理後の音声信号はYBF1(f,t),音源信号S2(t)に対応するビームフォーム処理後の音声信号はYBF4(f,t)である。
以下,図8〜図10を参照しつつ,ビームフォーマ処理後の音声信号に対してバイナリーマスキング処理を実行する場合における,バイナリーマスキング処理に対する入力信号の組合せと,分離性能及び分離信号の音質との関係について説明する。なお,以下の説明において,バイナリーマスキング処理によって目的音源に対応するビームフォーマ処理後の音声信号Yb1(f,t)から,非目的音源に対応する信号成分が除去される過程は,前記目的外信号成分除去部7により,前記特定SIMO信号における目的音源に対応する分離信号Y1(ICA1)(f,t)から非目的音源に対応する信号成分が除去される過程と同視できる。
図8〜図10は,ビームフォーマ処理後の音声信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル(振幅)の分布の一例(第1〜第3の例)をバーグラフにより模式的に表したものである。
ところで,注目したい目的音源信号がS1(t)である場合,4つのビームフォーマ処理後の音声信号YBF1(f,t)〜YBF4(f,t)について,目的音源信号S1(t)に対応す音声信号YBF1(f,t)を含む2つの信号の組合せは3パターン考えられるが,YBF1(f,t)とYBF3(f,t)とは元々近似するスペクトルを有する。よって,図8〜図10は,YBF1(f,t)及びYBF2(f,t)の組合せと,YBF1(f,t)及びYBF4(f,t)の組合せとの各々について,バイナリーマスキング処理を行う場合の例について示している。
また,図8は音源信号各々の周波数成分に重複がない場合,図9は同周波数成分に重複がある場合の例を表す。一方,図10は,音源信号各々の周波数成分に重複がなく,かつ,目的音源信号S1(t)の信号レベルが非目的音源信号S2(t)の信号レベルに対して相対的に低い(振幅が小さい)場合の例を表す。
さらに,図8(a),図9(a)及び図10(a)は,バイノーラル信号処理に対する入力信号を,信号YBF1(f,t)及び信号YBF2(f,t)の組合せとした場合(以下,「パターンa」という)の例を表す。
一方,図8(b),図9(b)及び図10(b)は,バイノーラル信号処理に対する入力信号を,信号YBF1(f,t)及び信号YBF4(f,t)の組合せとした場合(以下,「パターンb」という)の例を表す。
また,図8〜図10において,目的音源信号S1(t)の周波数成分に対応する部分のバーグラフは網掛け模様により,非目的音源信号S1(t)の周波数成分に対応する部分のバーグラフは斜線模様により各々表している。
図8及び図9に示すように,バイノーラル信号処理に対する入力信号には,その同定の対象となった音源信号の成分が支配的ではあるものの,それ以外に,ノイズとして他の音源信号の成分も若干混在している。
このようなノイズを含む入力信号に対してバイナリーマスキング処理を施した場合,図8(a),(b)の出力信号のレベル分布(右側のバーグラフ)に示すように,音源信号各々の周波数成分に重複がない場合には,入力信号の組合せにかかわらず,各音源信号に対応する良質な分離信号が得られる。
このように各音源信号の周波数成分に重複がない場合,バイノーラル信号処理に対する入力信号各々において,同定の対象となった音源信号の周波数成分における信号レベルが高く,その他の音源信号の周波数成分における信号レベルが低くなるというレベル差が明確となり,周波数成分ごとの信号レベルに応じて信号分離を行うバイナリーマスキング処理によって信号が確実に分離されやすい。その結果,入力信号の組合せにかかわらず,高い分離性能が得られる。
しかしながら,一般に,現実の音響空間(音環境)では,同定対象とする目的音源信号とその他の非目的音源信号との間で,周波数成分(周波数帯域)が全く重ならないということはほとんどなく,複数の音源信号間で多少なりとも周波数成分が重複する。
ここで,音源信号各々の周波数成分に重複がある場合であっても,図9(a)の出力信号のレベル分布(右側のバーグラフ)に示すように,前記「パターンa」では,音源信号各々で重複する周波数成分において若干のノイズ信号(同定対象以外の音源信号の成分)が残るものの,その他の周波数成分においてはノイズ信号が確実に分離される。
この図9(a)に示す「パターンa」では,バイノーラル信号処理に対する入力信号の信号レベルは,同定対象の音源からマイクロホンまでの距離に応じたレベル差を有している。そのため,バイナリーマスキング処理において,そのレベル差により信号が確実に分離されやすい。このことが,「パターンa」では,音源信号各々の周波数成分に重複があっても高い分離性能が得られる理由として考えられる。
一方,音源信号各々の周波数成分に重複がある場合,図9(b)に示すように,前記「パターンb」では,音源信号各々で重複する周波数成分において,本来出力されるべき信号成分(同定対象の音源信号の成分)が欠損するという不都合な現象が生じる(図9(b)における破線で囲んだ部分)。
このような欠損は,その周波数成分について,同定対象の目的音源信号S1(t)のマイクロホン112への入力レベルよりも,非目的音源信号S2(t)のマイクロホン112へのレベルの方が高いために生じる現象である。このような欠損が生じると音質が悪化する。
従って,一般的には,前記「パターンa」を採用すれば,良好な分離性能が得られる場合が多いと言える。
しかしながら,実際の音響環境では,各音源信号の信号レベルは変化し,状況によっては,図10に示すように,目的音源信号S1(t)の信号レベルが非目的音源信号S2(t)の信号レベルに対して相対的に低くなることもある。
このような場合,SIMO−ICA処理部10で十分な音源分離がなされなかった結果,ビームフォーマ処理後の音声信号YBF1(f,t)及び音声信号YBF2(f,t)に残留する非目的音源信号S2(t)の成分が相対的に大きくなる。このため,図10(a)に示す「パターンa」を採用すると,図10(a)において矢印で示すように,目的音源信号S1(t)に対応するものとして出力される分離信号に,非目的音源信号S1(t)の成分(ノイズ成分)が残存するという不都合な減少が生じてしまう。この現象が発生すると,音源分離性能が悪化する。
これに対し,図10(b)に示す「パターンb」を採用すると,具体的な信号レベルにもよるが,図10(a)の矢印で示したようなノイズ成分の残存を回避できる可能性が高い。
従って,前記第1の中間処理部6aにおいて,信号YBF4(f,t)について信号YBF2(f,t)よりも低い重み係数(c1>c3)により音量補正を行い,信号YBF2(f,t)を補正した信号と信号YBF4(f,t)を補正した信号のうち音量(信号レベル)の大きな方を選択し,その選択した信号に基づいて前記第1の目的外信号成分除去部7aによるノイズ信号成分の除去を行えば,音響環境が変化しても高い音源分離性能を維持することが可能となる。
次に,前記音源分離装置X1を用いた音源分離性能評価の実験結果について説明する。
図13は,音源分離装置X1を用いた音源分離性能評価の実験条件を説明するための図である。
図13に示すように,音源分離性能評価の実験は,図13に示すサイズの居室内において,所定の2箇所に存在する2名の話者を音源とし,その音源(話者)各々からの音声信号(話者の声)を相互に反対方向に向けた2つのマイクロホン111,112で入力し,入力された2チャンネルの混合音声信号から,各話者の音声信号(音源信号)を分離する性能を評価する実験条件である。ここで,音源となる話者は,2名の男性及び2名の女性(計4名)の中から選択した2名の順列である12通りの条件下で実験を行い(同じ2名の話者を音源とする場合でも,その2名の配置が入れ替われば異なる条件であるとした),音源分離性能評価は各組合せの下での評価値の平均値により行った。
また,いずれの実験条件においても,残響時間は200ms,音源(話者)から最寄りのマイクロホンまでの距離は1.0mとし,2つのマイクロホン111,112は,5.8cmの間隔を隔てて配置した。
ここで,上方から見て,相互に反対方向に向けられた両マイクロホン111,112の向きに対する直角方向を基準方向R0(図11における方向Ryに相当)としたときに,この基準方向R0と一方の音源S1(話者)から両マイクロホン111,112の中間点Oに向かう方向R1とのなす角度をθ1とする。また,前記基準方向R0と他方の音源S2(話者)から前記中間点Oに向かう方向R2とのなす角度θ2とする。このとき,θ1とθ2との組合せは,偏角を50°に保った状態でθ1及びθ2をともに10°ずつ変化させた12パターンの条件(θ1,θ2)=(−80°,−30°),(−70°,−20°),(−60°,−10°),(−50°,0°),(−40°,+10°),(−30°,+20°),(−20°,+30°),(−10°,+40°),(0°,+50°),(+10°,+60°),(+20°,+70°),(+30°,+80°)となるように設定(機器配置)し,その各々の条件下で実験を行った。
図14は,従来の音源分離装置と本発明に係る音源分離装置との各々により,前述の実験条件の下で音源分離を行ったときの音源分離性能の評価結果を表すグラフである。
ここで,図14に示す音源分離性能の評価値(グラフの縦軸)としては,NRR(Noise Reduction Rate)を用いた。このNRRは,雑音除去の程度を表す指標であり,単位は(dB)である。このNRR値が大きいほど音源分離性能が高いといえる。
また,図14に示すグラフにおけるグラフ線g1〜g4は,以下の場合の処理結果を表す。
グラフ線g1(ICA−BM−DS)は,前記音源分離装置X1による処理結果であり,前記ビームフォーマ処理部5において遅延和型ビームフォーマ処理を行った場合の結果を表す。なお,重み係数は(c1,c2,c3)=(1,0,0.7)である。
グラフ線g2(ICA−BM−NBF)は,前記音源分離装置X1による処理結果であり,前記ビームフォーマ処理部5において減算型ビームフォーマ処理を行った場合の結果を表す。なお,重み係数は(c1,c2,c3)=(1,0,0.7)である。
グラフ線g3(ICA−BM−DS)は,前記音源分離装置X1における前記SIMO−ICA処理部10の処理結果を表す。
グラフ線g4(Binary mask)は,バイナリーマスキング処理の結果を表す。
図14に示すグラフから,バイナリーマスキング処理を単独で行う場合(g4)よりも,本発明に係る音源分離処理(g1,g2)の方がNRR値が大きく,音源分離性能が優れていることがわかる。
また,ICA法に基づくBSS方式の音源分離処理を単独で行う場合(g3)と比べても,本発明に係る音源分離処理(g1,g2)の方が,ごく一部の条件を除き総じてNRR値が大きく,音源分離性能が優れていることがわかる。
以上に示したように,音源分離装置X1では,前記中間処理部6における前記中間処理に用いられるパラメータ(重み係数c1〜c3)を調節するだけで,音響環境が変化しても高い音源分離性能を維持することが可能となる。
従って,音源分離装置X1が,調節ツマミや,数値入力用操作キー等の操作入力部(中間処理パラメータ設定手段の一例)を備え,さらに,前記中間処理部6が,その操作入力部を通じて入力された情報に従って,前記中間処理に用いられるパラメータ(ここでは,重み係数c1〜c3)を設定(調節)する機能を備えたものであれば,音響環境が変化しても高い音源分離性能を維持することが可能となる。
次に,図2に示すブロック図を参照しつつ,本発明の第2実施形態に係る音源分離装置X2について説明する。
音源分離装置X2も,前記音源分離装置X1と基本的には同じ構成を備えるが,以下,前記音源分離装置X1と異なる点についてのみ説明する。なお,図2において,図1と同じ構成要素については同じ符号を付している。
音源分離装置X2は,前記音源分離装置X1における前記SIMO−ICA処理部10(周波数領域でのSIMO−ICA処理を行う音源分離装置Z4又はZ5を採用するもの)を,TD−SIMO−ICA法に基づく音源分離処理(時間領域でのSIMO−ICA処理)を行う音源分離装置Z2を採用したSIMO−ICA処理部10’に置き換えたものである。
但し,前記音源分離装置Z2を採用したSIMO−ICA処理部10’により得られる分離信号は時間領域の信号である。また,前記音源分離装置Z2を採用したSIMO−ICA処理部10’により得られる分離行列W(t)は時間領域のものである。
従って,音源分離装置X2は,SIMO−ICA処理部10’により出力される時間領域の分離信号を周波数領域の分離信号Y1(ICA1)(f,t),Y2(ICA2)(f,t),Y1(ICA2)(f,t),Y2(ICA1)(f,t)に変換する第1の短時間離散フーリエ変換処理部41(図中,ST−DFTと表記)を備えている。この第1の短時間離散フーリエ変換処理部41から出力される分離信号Y1(ICA1)(f,t),Y2(ICA2)(f,t),Y1(ICA2)(f,t),Y2(ICA1)(f,t)が,前記ビームフォーマ処理部5に入力される。
さらに,音源分離装置X2は,SIMO−ICA処理部10’における学習計算により得られる時間領域の分離行列W(t)を周波数領域の分離行列W(f)に変換する第2の短時間離散フーリエ変換処理部42(図中,ST−DFTと表記)を備えている。この第2の短時間離散フーリエ変換処理部42から出力される分離行列W(f)が,前記音源方向推定部4に入力される。前記音源分離装置X2は,以上に示した相違点以外は,前記音源分離装置X1と同じ構成を備えている。
このような音源分離装置X2も,前記音源分離装置X1と同様の作用効果を奏する。
以上に示した実施形態では,図1又は図2に示すように,チャンネル数が2つ(マイクロホンの数が2つ)である例について示したが,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であれば,3チャンネル以上であっても同様の構成により実現できる。
また,前記実施形態では,前記中間処理部6により,Max[c1・YBF2(f,t),c2・YBF3(f,t),c3・YBF4(f,t)]或いは,Max[c3・YBF1(f,t),c2・YBF2(f,t),c3・YBF3(f,t)]という中間処理を行う例を示した。
しかしながら,前記中間処理は,これに限るものではない。
前記中間処理部6により実行される前記中間処理としては,以下のような例も考えられる。
即ち,まず,前記第1の中間処理部6aが,3つのビームフォーマ処理後の音声信号YBF2(f,t),YBF3(f,t),YBF4(f,t)を,周波数ビンf(所定の周波数幅で均等に区分された周波数成分)ごとに,その周波数ビンfの信号に所定の重み係数a1,a2,a3を乗算することによって信号レベルを補正(即ち,重み付けして補正)する。さらに,その補正後の信号を,周波数ビンfごとに合成(加算)する。即ち,a1・YBF2(f,t)+a2・YBF3(f,t)+a3・YBF4(f,t)という中間処理を行う。
さらに,前記第1の中間処理部6aは,この中間処理により得られた中間処理後信号(周波数成分ごとに重み付け補正がなされた信号を合成した)を前記第1の目的外信号成分除去部7aに対して出力する。
なお,前記第2の中間処理部6bも同様である。
このような中間処理を採用しても,前述した実施形態と同様の作用効果が得られる。もちろん,このような2種類の中間処理に限られず,他の中間処理を採用することも考えられる。また,チャンネル数を,3チャンネル以上に拡張した構成も考えられる。
本発明は,音源分離装置への利用が可能である。
本発明の第1実施形態に係る音源分離装置X1の概略構成を表すブロック図。 本発明の第2実施形態に係る音源分離装置X2の概略構成を表すブロック図。 TDICA法に基づくBSS方式の音源分離処理を行う従来の音源分離装置Z1の概略構成を表すブロック図。 TD−SIMO−ICA法に基づく音源分離処理を行う従来の音源分離装置Z2の概略構成を表すブロック図。 FDICA法に基づく音源分離処理を行う従来の音源分離装置Z3の概略構成を表すブロック図。 FD−SIMO−ICA法に基づく音源分離処理を行う音源分離装置Z4の概略構成を表すブロック図。 FDICA−PB法に基づく音源分離処理を行う従来の音源分離装置Z5の概略構成を表すブロック図。 SIMO信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第1の例(音源信号各々の周波数成分に重複がない場合)を模式的に表した図。 SIMO信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第2の例(音源信号各々の周波数成分に重複がある場合)を模式的に表した図。 SIMO信号に対するビームフォーマ処理後の信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第3の例(目的音源信号のレベルが比較的小さい場合)を模式的に表した図。 マイクロホンと音源との位置関係を模式的に表した図。 遅延和型ビームフォーマ処理の概念図。 音源分離装置X1を用いた音源分離性能評価の実験条件を表す図。 従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件の下で音源分離を行ったときの音源分離性能を表すグラフ。
符号の説明
X1:本発明の第1実施形態に係る音源分離装置
X2:本発明の第2実施形態に係る音源分離装置
1,2:音源
4 :音源方向推定部
5 :ビームフォーマ処理部
6 :中間処理部
7 :目的外信号成分除去部
10,10’:SIMO−ICA処理部
11,11f:分離フィルタ処理部
12:Fidelity Controller
13:ST−DFT処理部
14:逆行列演算部
31:バイナリーマスキング処理における比較部
32:バイナリーマスキング処理における分離部
41:第1の短時間離散フーリエ変換処理部
42:第2の短時間離散フーリエ変換処理部
111,112:マイクロホン

Claims (9)

  1. 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から,1以上の前記音源信号を分離した分離信号を生成する音源分離装置であって,
    独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から1以上の前記音源信号に対応するSIMO信号を分離生成するSIMO−ICA処理手段と,
    前記SIMO−ICA処理手段における前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記音源それぞれの存在する方向である音源方向を推定する音源方向推定手段と,
    前記SIMO−ICA処理手段で分離生成された前記SIMO信号それぞれについて,複数に区分された周波数成分ごとに,前記音源方向推定手段により推定された前記音源方向それぞれからの音声成分を強調するビームフォーマ処理を施してビームフォーマ処理後の音声信号を出力するビームフォーマ処理手段と,
    前記ビームフォーマ処理後の音声信号のうち,前記SIMO信号のいずれかである特定SIMO信号について前記音源方向のいずれかである特定音源方向からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他の前記ビームフォーマ処理後の音声信号について,前記複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い,これにより得られる中間処理後信号を出力する中間処理実行手段と,
    前記特定SIMO信号における一の信号について,前記複数に区分された周波数成分ごとに,前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較してその比較結果が所定条件を満たす場合にその周波数成分の信号を除去する処理を行い,これにより得られる信号を前記音源信号に対応する前記分離信号として生成する目的外信号成分除去手段と,
    を具備してなることを特徴とする音源分離装置。
  2. 前記SIMO−ICA処理手段が,
    時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換手段と,
    前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した第1の分離信号を生成するFDICA音源分離手段と,
    前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づき前記FDICA音源分離手段により分離された前記第1の分離信号を除く残りの前記第1の分離信号を減算した第2の分離信号を生成する減算手段と,
    前記第1の分離信号及び前記第2の分離信号に基づく逐次計算により前記FDICA音源分離手段における前記分離行列を計算する分離行列計算手段と,を具備する周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離手段である請求項1に記載の音源分離装置。
  3. 前記SIMO−ICA処理手段が,周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うものである請求項1に記載の音源分離装置。
  4. 前記ビームフォーマ処理手段が,遅延和型ビームフォーマ処理,又は死角型ビームフォーマ処理を実行するものである請求項1〜3のいずれかに記載の音源分離装置。
  5. 前記中間処理実行手段が,前記複数の特定信号について,複数に区分された周波数成分ごとに信号レベルを各々所定の重み付けにより補正し,その補正後の信号について前記周波数成分ごとに選択処理若しくは合成処理を行うものである請求項1〜4のいずれかに記載の音源分離装置。
  6. 前記中間処理実行手段が,前記複数の特定信号について,複数に区分された周波数成分ごとに信号レベルを各々所定の重み付けにより補正し,その補正後の信号の中から前記周波数成分ごとに信号レベルが最大のものを選択する処理を行うものである請求項5に記載の音源分離装置。
  7. 前記中間処理実行手段における前記中間処理に用いるパラメータを所定の操作入力に従って設定する中間処理パラメータ設定手段を具備してなる請求項1〜6のいずれかに記載の音源分離装置。
  8. 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から,1以上の前記音源信号を分離した分離信号を生成する音源分離処理をコンピュータに実行させるための音源分離プログラムであって,
    独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から1以上の前記音源信号に対応するSIMO信号を分離生成するSIMO−ICA処理工程と,
    前記SIMO−ICA処理工程における前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記音源それぞれの存在する方向である音源方向を推定する音源方向推定工程と,
    前記SIMO−ICA処理工程で分離生成された前記SIMO信号それぞれについて,複数に区分された周波数成分ごとに,前記音源方向推定工程により推定された前記音源方向それぞれからの音声成分を強調するビームフォーマ処理を施してビームフォーマ処理後の音声信号を出力するビームフォーマ処理工程と,
    前記ビームフォーマ処理後の音声信号のうち,前記SIMO信号のいずれかである特定SIMO信号について前記音源方向のいずれかである特定音源方向からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他の前記ビームフォーマ処理後の音声信号について,前記複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い,これにより得られる中間処理後信号を出力する中間処理実行工程と,
    前記特定SIMO信号における一の信号について,前記複数に区分された周波数成分ごとに,前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較してその比較結果が所定条件を満たす場合にその周波数成分の信号を除去する処理を行い,これにより得られる信号を前記音源信号に対応する前記分離信号として生成する目的外信号成分除去工程と,
    をコンピュータに実行させるための音源分離プログラム。
  9. 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から,1以上の前記音源信号を分離した分離信号を生成する音源分離方法であって,
    コンピュータにより,
    独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から1以上の前記音源信号に対応するSIMO信号を分離生成するSIMO−ICA処理工程と,
    前記SIMO−ICA処理工程における前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記音源それぞれの存在する方向である音源方向を推定する音源方向推定工程と,
    前記SIMO−ICA処理工程で分離生成された前記SIMO信号それぞれについて,複数に区分された周波数成分ごとに,前記音源方向推定工程により推定された前記音源方向それぞれからの音声成分を強調するビームフォーマ処理を施してビームフォーマ処理後の音声信号を出力するビームフォーマ処理工程と,
    前記ビームフォーマ処理後の音声信号のうち,前記SIMO信号のいずれかである特定SIMO信号について前記音源方向のいずれかである特定音源方向からの音声成分を強調した特定のビームフォーマ処理後の音声信号を除く他の前記ビームフォーマ処理後の音声信号について,前記複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い,これにより得られる中間処理後信号を出力する中間処理実行工程と,
    前記特定SIMO信号における一の信号について,前記複数に区分された周波数成分ごとに,前記特定のビームフォーマ処理後の音声信号と前記中間処理後信号との音量を比較してその比較結果が所定条件を満たす場合にその周波数成分の信号を除去する処理を行い,これにより得られる信号を前記音源信号に対応する前記分離信号として生成する目的外信号成分除去工程と,
    を実行してなることを特徴とする音源分離方法。
JP2007053791A 2007-03-05 2007-03-05 音源分離装置,音源分離プログラム及び音源分離方法 Active JP4897519B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007053791A JP4897519B2 (ja) 2007-03-05 2007-03-05 音源分離装置,音源分離プログラム及び音源分離方法
US12/073,336 US20090012779A1 (en) 2007-03-05 2008-03-04 Sound source separation apparatus and sound source separation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007053791A JP4897519B2 (ja) 2007-03-05 2007-03-05 音源分離装置,音源分離プログラム及び音源分離方法

Publications (2)

Publication Number Publication Date
JP2008219458A true JP2008219458A (ja) 2008-09-18
JP4897519B2 JP4897519B2 (ja) 2012-03-14

Family

ID=39838967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007053791A Active JP4897519B2 (ja) 2007-03-05 2007-03-05 音源分離装置,音源分離プログラム及び音源分離方法

Country Status (2)

Country Link
US (1) US20090012779A1 (ja)
JP (1) JP4897519B2 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010079526A1 (ja) * 2009-01-06 2010-07-15 三菱電機株式会社 雑音除去装置及び雑音除去プログラム
JP2010233173A (ja) * 2009-03-30 2010-10-14 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
JP2011176535A (ja) * 2010-02-24 2011-09-08 Yamaha Corp 信号処理装置
JP2011199474A (ja) * 2010-03-18 2011-10-06 Hitachi Ltd 音源分離装置、音源分離方法およびそのためのプログラム、並びにそれを用いたビデオカメラ装置およびカメラ付き携帯電話装置
JP2011221087A (ja) * 2010-04-05 2011-11-04 Kobe Steel Ltd 能動騒音制御装置
JP2012510090A (ja) * 2008-11-25 2012-04-26 クゥアルコム・インコーポレイテッド 複数のオーディオ信号を使用して、周囲ノイズを抑制するための方法および装置
JP2013543987A (ja) * 2010-10-22 2013-12-09 クゥアルコム・インコーポレイテッド 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体
JP2014501064A (ja) * 2010-10-25 2014-01-16 クゥアルコム・インコーポレイテッド マルチマイクロフォンを用いた3次元サウンド獲得及び再生
JP5543023B2 (ja) * 2011-05-24 2014-07-09 三菱電機株式会社 目的音強調装置およびカーナビゲーションシステム
US9031256B2 (en) 2010-10-25 2015-05-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
KR101658001B1 (ko) * 2015-03-18 2016-09-21 서강대학교산학협력단 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
CN111009256A (zh) * 2019-12-17 2020-04-14 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质
US10657958B2 (en) 2015-03-18 2020-05-19 Sogang University Research Foundation Online target-speech extraction method for robust automatic speech recognition
US10991362B2 (en) 2015-03-18 2021-04-27 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
JP2021135462A (ja) * 2020-02-28 2021-09-13 日本電信電話株式会社 ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム
CN115497500A (zh) * 2022-11-14 2022-12-20 北京探境科技有限公司 音频处理方法、装置、存储介质及智能眼镜
US11694707B2 (en) 2015-03-18 2023-07-04 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2638157C (en) * 2008-07-24 2013-05-28 Sunopta Bioprocess Inc. Method and apparatus for conveying a cellulosic feedstock
CA2638150C (en) * 2008-07-24 2012-03-27 Sunopta Bioprocess Inc. Method and apparatus for conveying a cellulosic feedstock
EP2321978A4 (en) 2008-08-29 2013-01-23 Dev Audio Pty Ltd MICROPHONE NETWORK SYSTEM AND METHOD FOR ACQUIRING SOUNDS
KR101233271B1 (ko) * 2008-12-12 2013-02-14 신호준 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US9310503B2 (en) * 2009-10-23 2016-04-12 Westerngeco L.L.C. Methods to process seismic data contaminated by coherent energy radiated from more than one source
US8565446B1 (en) * 2010-01-12 2013-10-22 Acoustic Technologies, Inc. Estimating direction of arrival from plural microphones
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
JP2012234150A (ja) * 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
WO2013150341A1 (en) 2012-04-05 2013-10-10 Nokia Corporation Flexible spatial audio capture apparatus
US10540992B2 (en) 2012-06-29 2020-01-21 Richard S. Goldhor Deflation and decomposition of data signals using reference signals
JP6216169B2 (ja) * 2012-09-26 2017-10-18 キヤノン株式会社 情報処理装置、情報処理方法
CN105230044A (zh) 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
US10635383B2 (en) 2013-04-04 2020-04-28 Nokia Technologies Oy Visual audio processing apparatus
US9900686B2 (en) * 2013-05-02 2018-02-20 Nokia Technologies Oy Mixing microphone signals based on distance between microphones
WO2014184618A1 (en) 2013-05-17 2014-11-20 Nokia Corporation Spatial object oriented audio apparatus
CN103413555B (zh) * 2013-08-16 2016-02-24 辽宁工业大学 一种小孔径阵列麦克风语音增强方法
CN106302974B (zh) * 2015-06-12 2020-01-31 联想(北京)有限公司 一种信息处理的方法及电子设备
WO2017108085A1 (en) * 2015-12-21 2017-06-29 Huawei Technologies Co., Ltd. A signal processing apparatus and method
WO2018064296A1 (en) 2016-09-29 2018-04-05 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
US10349196B2 (en) * 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10535361B2 (en) * 2017-10-19 2020-01-14 Kardome Technology Ltd. Speech enhancement using clustering of cues
CN110992977B (zh) * 2019-12-03 2021-06-22 北京声智科技有限公司 一种目标声源的提取方法及装置
CN111429933B (zh) * 2020-03-06 2022-09-30 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
CN111505583B (zh) * 2020-05-07 2022-07-01 北京百度网讯科技有限公司 声源定位方法、装置、设备和可读存储介质
CN112565119B (zh) * 2020-11-30 2022-09-27 西北工业大学 一种基于时变混合信号盲分离的宽带doa估计方法
CN113362847B (zh) * 2021-05-26 2024-09-24 北京小米移动软件有限公司 音频信号处理方法及装置、存储介质
CN113671471B (zh) * 2021-08-18 2024-04-30 中国科学院声学研究所北海研究站 一种水声目标检测盲源分离方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001245382A (ja) * 2000-01-13 2001-09-07 Nokia Mobile Phones Ltd スピーカをトラッキングする方法およびシステム
JP2004145172A (ja) * 2002-10-28 2004-05-20 Nippon Telegr & Teleph Corp <Ntt> ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2006100869A (ja) * 2004-09-28 2006-04-13 Sony Corp 音声信号処理装置および音声信号処理方法
JP2006154314A (ja) * 2004-11-29 2006-06-15 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
WO2007018293A1 (ja) * 2005-08-11 2007-02-15 Asahi Kasei Kabushiki Kaisha 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1942932B (zh) * 2005-02-08 2010-07-28 日本电信电话株式会社 信号分离装置和信号分离方法
JP4672611B2 (ja) * 2006-07-28 2011-04-20 株式会社神戸製鋼所 音源分離装置、音源分離方法及び音源分離プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001245382A (ja) * 2000-01-13 2001-09-07 Nokia Mobile Phones Ltd スピーカをトラッキングする方法およびシステム
JP2004145172A (ja) * 2002-10-28 2004-05-20 Nippon Telegr & Teleph Corp <Ntt> ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2006100869A (ja) * 2004-09-28 2006-04-13 Sony Corp 音声信号処理装置および音声信号処理方法
JP2006154314A (ja) * 2004-11-29 2006-06-15 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
WO2007018293A1 (ja) * 2005-08-11 2007-02-15 Asahi Kasei Kabushiki Kaisha 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812309B2 (en) 2008-03-18 2014-08-19 Qualcomm Incorporated Methods and apparatus for suppressing ambient noise using multiple audio signals
JP2012510090A (ja) * 2008-11-25 2012-04-26 クゥアルコム・インコーポレイテッド 複数のオーディオ信号を使用して、周囲ノイズを抑制するための方法および装置
WO2010079526A1 (ja) * 2009-01-06 2010-07-15 三菱電機株式会社 雑音除去装置及び雑音除去プログラム
JP5377518B2 (ja) * 2009-01-06 2013-12-25 三菱電機株式会社 雑音除去装置及び雑音除去プログラム
JP2010233173A (ja) * 2009-03-30 2010-10-14 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
JP2011176535A (ja) * 2010-02-24 2011-09-08 Yamaha Corp 信号処理装置
JP2011199474A (ja) * 2010-03-18 2011-10-06 Hitachi Ltd 音源分離装置、音源分離方法およびそのためのプログラム、並びにそれを用いたビデオカメラ装置およびカメラ付き携帯電話装置
JP2011221087A (ja) * 2010-04-05 2011-11-04 Kobe Steel Ltd 能動騒音制御装置
JP2013543987A (ja) * 2010-10-22 2013-12-09 クゥアルコム・インコーポレイテッド 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体
US9100734B2 (en) 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
JP2014501064A (ja) * 2010-10-25 2014-01-16 クゥアルコム・インコーポレイテッド マルチマイクロフォンを用いた3次元サウンド獲得及び再生
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
US9031256B2 (en) 2010-10-25 2015-05-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
JP5543023B2 (ja) * 2011-05-24 2014-07-09 三菱電機株式会社 目的音強調装置およびカーナビゲーションシステム
US11694707B2 (en) 2015-03-18 2023-07-04 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
KR101658001B1 (ko) * 2015-03-18 2016-09-21 서강대학교산학협력단 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
US10657958B2 (en) 2015-03-18 2020-05-19 Sogang University Research Foundation Online target-speech extraction method for robust automatic speech recognition
US10991362B2 (en) 2015-03-18 2021-04-27 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
CN111009256A (zh) * 2019-12-17 2020-04-14 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质
CN111009256B (zh) * 2019-12-17 2022-12-27 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质
JP2021135462A (ja) * 2020-02-28 2021-09-13 日本電信電話株式会社 ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム
CN115497500A (zh) * 2022-11-14 2022-12-20 北京探境科技有限公司 音频处理方法、装置、存储介质及智能眼镜

Also Published As

Publication number Publication date
US20090012779A1 (en) 2009-01-08
JP4897519B2 (ja) 2012-03-14

Similar Documents

Publication Publication Date Title
JP4897519B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP4496186B2 (ja) 音源分離装置、音源分離プログラム及び音源分離方法
DK3253075T3 (en) A HEARING EQUIPMENT INCLUDING A RADIO FORM FILTER UNIT CONTAINING AN EXCHANGE UNIT
CN101510426B (zh) 一种噪声消除方法及系统
JP5444472B2 (ja) 音源分離装置、音源分離方法、及び、プログラム
JP6187626B1 (ja) 収音装置及びプログラム
US11978471B2 (en) Signal processing apparatus, learning apparatus, signal processing method, learning method and program
Marquardt et al. Interaural coherence preservation for binaural noise reduction using partial noise estimation and spectral postfiltering
JP4462617B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP6540730B2 (ja) 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法
JP4493690B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP4519901B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP4336378B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP6436180B2 (ja) 収音装置、プログラム及び方法
JP5240026B2 (ja) マイクロホンアレイにおけるマイクロホンの感度を補正する装置、この装置を含んだマイクロホンアレイシステム、およびプログラム
WO2018167921A1 (ja) 信号処理装置
JP5387442B2 (ja) 信号処理装置
JP5233772B2 (ja) 信号処理装置およびプログラム
JP6260666B1 (ja) 収音装置、プログラム及び方法
JP6241520B1 (ja) 収音装置、プログラム及び方法
JP5105336B2 (ja) 音源分離装置、プログラム及び方法
US11825264B2 (en) Sound pick-up apparatus, storage medium, and sound pick-up method
JP2017181761A (ja) 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム
JP2010152107A (ja) 目的音抽出装置及び目的音抽出プログラム
JP4519900B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091118

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111222

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350