JP2007219479A - 音源分離装置、音源分離プログラム及び音源分離方法 - Google Patents

音源分離装置、音源分離プログラム及び音源分離方法 Download PDF

Info

Publication number
JP2007219479A
JP2007219479A JP2006241861A JP2006241861A JP2007219479A JP 2007219479 A JP2007219479 A JP 2007219479A JP 2006241861 A JP2006241861 A JP 2006241861A JP 2006241861 A JP2006241861 A JP 2006241861A JP 2007219479 A JP2007219479 A JP 2007219479A
Authority
JP
Japan
Prior art keywords
sound source
signal
signals
source separation
separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006241861A
Other languages
English (en)
Other versions
JP4496186B2 (ja
Inventor
Takayuki Hiekata
孝之 稗方
Koji Morita
孝司 森田
Hiroshi Saruwatari
洋 猿渡
Yasumitsu Mori
康充 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe Steel Ltd
Nara Institute of Science and Technology NUC
Original Assignee
Kobe Steel Ltd
Nara Institute of Science and Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe Steel Ltd, Nara Institute of Science and Technology NUC filed Critical Kobe Steel Ltd
Priority to JP2006241861A priority Critical patent/JP4496186B2/ja
Priority to US12/223,069 priority patent/US20090306973A1/en
Priority to PCT/JP2007/051009 priority patent/WO2007083814A1/ja
Publication of JP2007219479A publication Critical patent/JP2007219479A/ja
Application granted granted Critical
Publication of JP4496186B2 publication Critical patent/JP4496186B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られるとともに、重視する目的(音源分離性能又は音質)に応じた音源分離処理が可能なこと。
【解決手段】複数の混合音声信号Xi(t)からICA法に基づくBSS方式の音源分離処理により、1以上の音源信号Si(t)を分離(同定)したSIMO信号を分離生成するSIMO−ICA処理部10と、これにより生成されたSIMO信号について、複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い、この中間処理により得られる中間処理後信号を出力する中間処理実行部41、42と、その中間処理後信号及びSIMO信号に対してバイナリーマスキング処理を施すことによって1以上の音源信号について分離(同定)した分離信号を生成するバイノーラル信号処理部21、22とを備えた音源分離装置X。
【選択図】図1

Description

本発明は、所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で、その音声入力手段各々を通じて入力される前記音源各々からの個別音声信号が重畳された複数の混合音声信号から、1以上の前記個別音声信号を同定(分離)する音源分離装置、音源分離プログラム及び音源分離方法に関するものである。
所定の音響空間に複数の音源と複数のマイク(音声入力手段)とが存在する場合、その複数のマイクごとに、複数の音源各々からの個別音声信号(以下、音源信号という)が重畳された音声信号(以下、混合音声信号という)が取得される。このようにして取得(入力)された複数の前記混合音声信号のみに基づいて、前記音源信号各々を同定(分離)する音源分離処理の方式は、ブラインド音源分離方式(Blind Source Separation方式、以下、BSS方式という)と呼ばれる。
さらに、BSS方式の音源分離処理の1つに、独立成分分析法(Independent Component Analysis、以下、ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は、複数のマイクを通じて入力される複数の前記混合音声信号(時系列の音声信号)において、前記音源信号どうしが統計的に独立であることを利用して所定の逆混合行列を最適化し、入力された複数の前記混合音声信号に対して最適化された逆混合行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。このようなICA法に基づくBSS方式の音源分離処理は、例えば、非特許文献1や非特許文献2、及び非特許文献6や非特許文献7等に詳説されている。
一方、音源分離処理としては、バイノーラル信号処理(分解)による音源分離処理も知られている。これは、人間の聴覚モデルに基づいて複数の入力音声信号に時変のゲイン調節を施して音源分離を行うものであり、比較的低い演算負荷で実現できる音源分離処理である。これについては、例えば、非特許文献3や非特許文献4等に詳説されている。
猿渡洋「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告、vol.EA2001-7、pp.49-56、April 2001. 高谷智哉他「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告、vol.US2002-87、EA2002-108、January 2003. R.F.Lyon, "A computational model of binaural localization and separation," In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, vol.1, pp.43--55, 1993. N.Murata and S. Ikeda. A on-line algorithm for blind source separation on speech signals. In Proceedings of NOLTA'98, pp. 923-926,1998 梶田、小林、武田、板倉、「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」、日本音響学会誌、53巻5号、pp.337-345 (1997) 鵜飼訓史他、「周波数領域ICAと時間領域ICAを統合したSIMOモデル信号のブラインド抽出法の評価」、電子情報通信学会技術報告、vol.EA2004-23, pp.37-42,June 2004
しかしながら、前記音源信号(個別音声信号)の独立性に着目したICA法に基づくBSS方式による音源分離処理は、これを実環境で用いた場合、音声信号の伝達特性や背景ノイズ等の影響により、統計量を高精度で推定できず(即ち、前記逆混合行列が十分に最適化されず)、十分な音源分離性能(前記音源信号の同定性能)が得られない場合があるという問題点があった。
また、バイノーラル信号処理による音源分離処理は、処理が簡易で演算負荷が低い反面、音源の位置に対しての頑健性が悪い等、一般に音源分離性能は劣るという問題点があった。
一方、音源分離処理は、その適用対象によっては、分離後の音声信号に特定の音源以外の他の音源からの音声信号が極力含まれていないこと(音源分離性能が高いこと)が特に重視される場合や、また、分離後の音声信号の音質が良い(スペクトル歪みが小さい)ことが特に重視される場合がある。しかしながら、従来の音源分離装置は、そのように重視される目的に応じた音源分離を行うことができないという問題点もあった。
従って、本発明は上記事情に鑑みてなされたものであり、その目的とするところは、ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られるとともに、重視される目的(音源分離性能又は音質)に応じた音源分離処理が可能な音源分離装置、音源分離プログラム及び音源分離方法を提供することにある。
上記目的を達成するために本発明は、所定の音響空間に複数の音源と複数の音声入力手段(マイクロホン)とが存在する状態でその音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から、1以上の前記音源信号を分離(抽出)した分離信号を生成するものであり、以下の各工程を実行する手段を備える音源分離装置であること、又は以下の各工程をコンピュータに実行させるプログラムであること、或いは以下の(1)〜(3)の各工程を有する音源分離方法であることを特徴とするものである。
(1)独立成分分析法に基づくブラインド音源分離方式の音源分離処理により、複数の前記混合音声信号から1以上の前記音源信号に対応するSIMO(single-input multiple-output)信号を分離生成(抽出)する工程。以下、この工程を第1の音源分離工程といい、この工程で実行される処理を第1の音源分離処理という。
(2)第1の音源分離工程により分離生成された前記SIMO信号の全部若しくは一部である複数の信号(以下、特定信号という)について、複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の処理(以下、中間処理という)を行うことによりその中間処理が施された信号(以下、中間処理後信号という)を得る工程。以下、この工程を中間処理実行工程という。
(3)中間処理実行工程により得られた複数の前記中間処理後信号に、又はその中間処理後信号及び前記第1の音源分離工程により分離生成された前記SIMO信号の一部の信号に、バイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する前記分離信号とする工程。以下、この工程を第2の音源分離工程といい、この工程で実行される処理を第2の音源分離処理という。
本発明に係る音源分離装置(又は音源分離方法)は、2段階の音源分離処理(前記第1の音源分離処理及び前記第2の音源分離処理)を行う。その結果、後述するように、ノイズの影響がある等の多様な音響環境の下においても、高い音源分離性能が得られることがわかった。また、前記中間処理の内容により、音源分離性能が特に高まるような音源分離処理を実現したり、或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。
特に、前記音源分離装置が、前記中間処理に用いるパラメータを所定の操作入力に従って設定する手段(中間処理パラメータ設定手段)を備えている場合、重視する目的に応じた音源分離処理が行われるように調節することがより容易となる。
ここで、前記中間処理としては、例えば、前記複数の特定信号を各々所定の重み付けにより補正し、その補正後の信号について所定の選択処理若しくは合成処理を行うものが考えられる。
より具体的な前記中間処理としては、前記複数の特定信号を各々所定の重み付けにより補正し、その補正後の信号の中から信号レベルが最大のものを選択する処理を行うものが考えられる。
このような構成によれば、前記重み付けの係数(前記中間処理に用いられるパラメータの一例)を調節することにより、音源分離性能が特に高まるような音源分離処理を実現したり、或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。
また、前記第1の音源分離処理としては、周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理や、周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うことが考えられる。
なお、前記周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理とは、後述するように、次の(1−1)〜(1−4)に示す各処理を実行する処理である。
(1−1)時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して、周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換処理。
(1−2)前記周波数領域における複数の混合音声信号に対し、所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した分離信号(第1の分離信号)を生成するFDICA音源分離処理。
(1−3)前記周波数領域における複数の混合音声信号各々から、当該混合音声信号に基づいて前記FDICA音源分離処理により分離された分離信号(前記第1の分離信号)を除く残りのものを減算した分離信号(第2の分離信号)を生成する減算処理。
(1−4)前記第1の分離信号及び前記第2の分離信号に基づく所定の評価関数を用いた逐次計算を行うことによって、前記FDICA音源分離処理で用いる前記分離行列を計算する分離行列計算処理。
前記周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理は、時間領域の混合音声信号を時間領域のままで処理する時間領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理(前記非特許文献2等を参照)に比べ、処理負荷を大幅に軽減できる。
ところで、一般に、前記ICA法に基づくBSS方式による音源分離処理は、十分な音源分離性能を得るためには、分離処理(フィルタ処理)に用いる分離行列を求めるための逐次計算(学習計算)の回数が増えるので演算負荷が高くなる。その逐次計算(学習計算)は、製品組み込み用として実用的なプロセッサで実行された場合、入力される混合音声信号の時間長に対して数倍の時間を要し、リアルタイム処理には適さない。また、前記逐次計算(学習計算)の回数を制限することは、音響環境の変化(音源の移動や音源の追加・変更等)が大きい場合に、十分な音源分離性能が得られなくなるという結果を招く。
一方、前記バイナリーマスキング処理は、製品組み込み用として実用的なプロセッサによってリアルタイム処理が可能であるとともに、音響環境が変化しても比較的安定した音源分離性能を発揮するが、前記分離行列の学習が十分なされた前記ICA法に基づくBSS方式による音源分離処理に比べて音源分離性能がはるかに劣る。
しかしながら、以上示した本発明に係る音源分離処理によれば、以下のような構成により、音源分離性能を確保しつつリアルタイム処理が可能となる。
例えば、第1の音源分離処理における分離行列の逐次計算回数を制限することが考えられる。
即ち、前記第1の音源分離処理(前記第1の音源分離手段の処理)において、時系列で入力される前記混合音声信号が予め定められた周期で区分された区間信号それぞれに対し、所定の分離行列に基づく分離処理を順次実行することによって前記SIMO信号を生成するとともに、その分離処理により生成した前記区間信号の時間帯に対応する全ての時間帯の前記SIMO信号に基づいて、その後に(以降に)用いる前記分離行列を求める逐次計算(学習計算)を行うものであって、その逐次計算の回数を前記予め定められた周期の時間内で実行可能な回数に制限することが考えられる。
このように、前記第1の音源分離処理(第1段階目の前記ICA法に基づくBSS方式による音源分離処理)において、前記分離行列を求める逐次計算(学習計算)の回数を、リアルタイム処理が可能な範囲に制限すると学習が不十分となるため、得られる前記SIMO信号は、十分な音源分離(同定)がなされた信号にならないことが多い。
しかしながら、それによって得られた前記SIMO信号に基づく前記中間処理によって得られる信号に、リアルタイム処理が可能な第2段階目の前記バイナリーマスキング処理をさらに施すことによって音源分離性能が向上するので、音源分離性能を確保しつつリアルタイム処理が可能となる。
また、前記第1の音源分離処理における前記分離行列の逐次計算に用いるSIMO信号のサンプル数を減らすことも考えられる。
即ち、前記第1の音源分離処理(前記第1の音源分離手段の処理)において、時系列に入力される前記混合音声信号が予め定められた周期で区分された区間信号ごとに、その区間信号に対し所定の分離行列に基づく分離処理を順次実行して前記SIMO信号を生成するとともに、その分離処理により生成した前記区間信号の時間帯のうちの先頭側の一部の時間帯に対応する前記SIMO信号に基づいて、以降に用いる前記分離行列を求める逐次計算を前記予め定められた周期の時間内で実行することが考えられる。
このように、前記第1の音源分離処理(前記ICA法に基づくBSS方式による音源分離処理)において、前記分離行列を求める逐次計算(学習計算)に用いる前記SIMO信号を先頭側の一部の時間帯の信号に限定することにより、十分な回数の前記逐次計算(学習)を行ってもリアルタイム処理が可能にはなる(前記予め定められた周期の時間内で十分な学習が可能となる)が、学習に用いるサンプル数が少ないため、やはり得られる前記SIMO信号は、音源が十分に分離(同定)された信号にならないことが多い。しかしながら、本発明に係る音源分離処理装置(又は音源分離方法)は、それによって得られた前記SIMO信号にリアルタイム処理が可能な第2段階目の前記バイナリーマスキング処理をさらに施す。これにより、音源分離性能が向上し、高い音源分離性能を確保しつつリアルタイム処理が可能となる。
本発明によれば、前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理に、比較的簡易な前記バイナリーマスキング処理による音源分離処理を加えた2段階処理を行うことにより、ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られる。
さらに、本発明では、前記独立成分分析法に基づくブラインド音源分離方式の音源分離処理によって得られる前記SIMO信号に基づく前記中間処理を実行し、その中間処理後の信号について前記バイナリーマスキング処理を施す。これにより、前記中間処理の内容に応じて、音源分離性能が特に高まるような音源分離処理を実現したり、或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現したりすることができる。その結果、重視する目的(音源分離性能又は音質)に応じて柔軟に対応できる音源分離処理が可能となる。
また、前記第1の音源分離処理として、前記周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理や、前記周波数領域独立成分分析法と前記逆射影法との連結手法に基づく前記ブラインド音源分離方式の音源分離処理を行うことにより、前記時間領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離処理に比べ、処理負荷を大幅に軽減できる。
また、前記第1の音源分離処理における前記分離行列の逐次計算回数を制限したり、その逐次計算に用いる前記SIMO信号のサンプル数を減らすことにより、音源分離性能を確保しつつリアルタイム処理が可能となる。
以下添付図面を参照しながら、本発明の実施の形態について説明し、本発明の理解に供する。尚、以下の実施の形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格のものではない。
ここに、図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図、図2は本発明の第1実施例に係る音源分離装置X1の概略構成を表すブロック図、図3はTDICA法に基づくBSS方式の音源分離処理を行う従来の音源分離装置Z1の概略構成を表すブロック図、図4はTD−SIMO−ICA法に基づく音源分離処理を行う従来の音源分離装置Z2の概略構成を表すブロック図、図5はFDICA法に基づく音源分離処理を行う従来の音源分離装置Z3の概略構成を表すブロック図、図6はFD−SIMO−ICA法に基づく音源分離処理を行う音源分離装置Z4の概略構成を表すブロック図、図7はFDICA−PB法に基づく音源分離処理を行う従来の音源分離装置Z5の概略構成を表すブロック図、図8はバイナリーマスキング処理を説明するための図、図9はSIMO信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第1例(音源信号各々の周波数成分に重複がない場合)を模式的に表した図、図10はSIMO信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第2例(音源信号各々の周波数成分に重複がある場合)を模式的に表した図、図11はSIMO信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第3例(目的音源信号のレベルが比較的小さい場合)を模式的に表した図、図12は音源分離装置X1におけるSIMO信号に対する音源分離処理の第1例の内容を模式的に表した図、図13は音源分離装置X1におけるSIMO信号に対する音源分離処理の第2例の内容を模式的に表した図、図14は音源分離装置X1を用いた音源分離性能評価の実験条件を表す図、図15は従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件の下で音源分離を行ったときの音源分離性能及び音質の評価値を表すグラフ、図16は音源分離装置Xにおける分離行列計算の第1例を説明するためのタイムチャート、図17は音源分離装置Xにおける分離行列計算の第2例を説明するためのタイムチャート、図18は音源分離装置X1におけるSIMO信号に対する音源分離処理の第3例の内容を模式的に表した図である。
まず、本発明の実施形態について説明する前に、図3〜図7に示すブロック図を参照しつつ、各種のICA法に基づくブラインド音源分離方式(ICA法に基づくBSS方式)の音源分離装置について説明する。
なお、以下に示す音源分離処理或いはその処理を行う装置等は、いずれも所定の音響空間に複数の音源と複数のマイクロホン(音声入力手段)とが存在する状態で、そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号(以下、音源信号という)が重畳された複数の混合音声信号から、1以上の音源信号を分離(同定)した分離信号を生成する音源分離処理或いはその処理を行う装置等に関するものである。
図3は、ICA法の一種である時間領域独立成分分析法(time-domain independent component analysis法、以下、TDICA法という)に基づくBSS方式の音源分離処理を行う従来の音源分離装置Z1の概略構成を表すブロック図である。なお、本処理の詳細は、非特許文献1や非特許文献2等に示されている。
前記音源分離装置Zは、分離フィルタ処理部11により、2つの音源1、2からの音源信号S1(t)、S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111、112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t)、x2(t)について、分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。
図3には、2つの音源1、2からの音源信号S1(t)、S2(t)(個別音声信号)を2つの前記マイクロホン111、112で入力した2チャンネル(マイクロホンの数)の前記混合音声信号x1(t)、x2(t)に基づいて音源分離を行う例について示しているが、2チャンネル以上であっても同様である。前記ICA法に基づくBSS方式による音源分離の場合、(入力される混合音声信号のチャンネル数n(即ち、マイクロホンの数))≧(音源の数m)であればよい。
複数の前記マイクロホン111、112各々で集音された前記混合音声信号x1(t)、x2(t)それぞれには、複数音源からの前記音源信号が重畳されている。以下、前記混合音声信号x1(t)、x2(t)を総称してx(t)と表す。この混合音声信号x(t)は前記音源信号S(t)の時間的空間的な畳み込み信号として表現され、次の(1)式のように表される。
Figure 2007219479
前記TDICA法による音源分離の理論は、前記音源信号S(t)のそれぞれの音源同士が統計的に独立であることを利用すると、x(t)がわかればS(t)を推測することができ、従って、音源を分離することができるという発想に基づく理論である。
ここで、当該音源分離処理に用いる前記分離行列をW(z)とすれば、前記分離信号(即ち、同定信号)y(t)は、次の(2)式で表される。
Figure 2007219479
ここで、W(z)は、出力y(t)から逐次計算により求められる。また、前記分離信号は、チャンネルの数だけ得られる。
なお、音源合成処理はこのW(z)に関する情報により、逆演算処理に相当する行列を形成し、これを用いて逆演算を行えばよい。
このようなICA法に基づくBSS方式による音源分離を行うことにより、例えば、人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から、歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで、(2)式は、次の(3)式のように書き換えて表現できる。
Figure 2007219479
そして、(3)式における分離フィルタ(分離行列)W(n)は、次の(4)式により逐次計算される。即ち、前回(j)の出力y(t)を(4)式に逐次適用することより、今回(j+1)のW(n)を求める。
Figure 2007219479
次に、図4に示すブロック図を用いて、TDICA法の一種である時間領域SIMO独立成分分析法(Time-Domain single-input multiple-output ICA法、以下、TD−SIMO−ICA法という)に基づく音源分離処理を行う従来の音源分離装置Z2の構成について説明する。なお、図4は、2チャンネル(マイクロホンの数)の混合音声信号x1(t)、x2(t)に基づいて音源分離を行う例について示しているが、3チャンネル以上であっても同様であり、その詳細は非特許文献2等に示されている。
TD−SIMO−ICA法による音源分離の特徴は、図4中に示すFidelity Controller12により、マイクロホン入力信号である各混合音声信号xi(t)から、前記分離フィルタ処理部11による音源分離処理(TDICA法に基づく音源分離処理)によって分離(同定)された分離信号(同定信号)を減算し、その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタW(Z)の更新(逐次計算)を行う点である。ここで、混合音声信号xi(t)各々から減算する分離信号(同定信号)は、各々異なる1つの分離信号(当該混合音声信号に基づく音源分離処理により得られた分離信号)を除く残り全ての分離信号である。これにより、チャンネル(マイクロホン)ごとに2つの分離信号(同定信号)が得られることになり、また、音源信号Si(t)ごとに2つの分離信号が得られることになる。図4の例では、分離信号y11(t)とy12(t)、分離信号y22(t)とy21(t)が、各々同一の音源信号に対応する分離信号(同定信号)である。なお、分離信号yの添字(数字)において、前段の数字は音源の識別番号を、後段の数字はマイクロホン(即ち、チャンネル)の識別番号を表している(以下同様)。
このように、ある音響空間に複数の音源と複数の音声入力手段(マイクロホン)とが存在する状態で、その音声入力手段各々を通じて入力される音源各々からの音源信号(個別音声信号)が重畳された複数の混合音声信号から、1以上の音源信号を分離(同定)した場合に、音源信号ごとに得られる複数の分離信号(同定信号)群をSIMO(single-input multiple-output)信号という。図4の例では、分離信号y11(t)とy12(t)の組合せ、分離信号y22(t)とy21(t)の組合せの各々がSIMO信号である。
ここで、分離フィルタ(分離行列)W(Z)を表現し直したW(n)の更新式は、次の(5)式で表される。
Figure 2007219479
この(5)式は、前述の(4)式に対して第3項目が加わったものであり、この第3項は、Fidelity Controller12により生成される信号の成分の独立性を評価している部分である。
次に、図5に示すブロック図を用いて、ICA法の一種であるFDICA法(Frequency-Domain ICA)に基づく音源分離処理を行う従来の音源分離装置Z3について説明する。
FDICA法では、まず、入力された混合音声信号x(t)について、ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform、以下、ST−DFT処理という)を行い、観測信号の短時間分析を行う。そして、そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について、分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン、mを分析フレーム番号とすると、分離信号(同定信号)y(f、m)は、次の(6)式のように表すことができる。
Figure 2007219479
ここで、分離フィルタW(f)の更新式は、例えば次の(7)式のように表すことができる。
Figure 2007219479
このFDICA法によれば、音源分離処理が各狭帯域における瞬時混合問題として取り扱われ、比較的簡単かつ安定に分離フィルタ(分離行列)W(f)を更新することができる。
次に、図6に示すブロック図を用いて、FDICA法の一種である周波数領域SIMO独立成分分析法(Frequency-Domain single-input multiple-output ICA法、以下、FD−SIMO−ICA法という)に基づく音源分離処理を行う音源分離装置Z4について説明する。
FD−SIMO−ICA法では、前述のTD−SIMO−ICA法(図4)と同様に、Fidelity Controller12により、各混合音声信号xi(t)に対してST−DFT処理を施した信号各々から、FDICA法(図5)に基づく音源分離処理によって分離(同定)された分離信号(同定信号)を減算し、その減算により得られる信号成分の統計的独立性も評価することによって分離フィルタW(f)の更新(逐次計算)を行うものである。
このFD−SIMO−ICA法に基づく音源分離装置Z4では、時間領域における複数の前記混合音声信号x1(t)、x2(t)に対して前記ST−DFT処理部13により短時間離散フーリエ変換処理を施して、周波数領域における複数の混合音声信号x1(f)、x2(f)へ変換する(短時間離散フーリエ変換手段の一例)。
次に、変換後の周波数領域における複数の混合音声信号x1(f)、x2(f)に対し、前記分離フィルタ処理部11fによって所定の分離行列W(f)に基づく分離処理(フィルタ処理)を施すことにより、前記混合音声信号ごとに前記音源信号S1(t)、S2(t)のいずれかに対応した第1の分離信号y11(f)、y22(f)を生成する(FDICA音源分離手段の一例)。
さらに、前記周波数領域における複数の混合音声信号x1(f)、x2(f)各々から当該混合音声信号に基づき前記分離フィルタ処理部11fにより分離された前記第1の分離信号(x1(f)に基づき分離されたy11(f)、x2(f)に基づき分離されたy22(f))を除く残りの前記第1の分離信号を、前記Fidelity Controller12(減算手段の一例)により減算した第2の分離信号y12(f)、y21(f)を生成する。
一方、不図示の分離行列計算部により、前記第1の分離信号y11(f)、x2(f)及び前記第2の分離信号y12(f)、y21(f)の両方に基づく逐次計算を行い、前記分離フィルタ処理部11f(FDICA音源分離手段)で用いられる前記分離行列W(f)を計算する(分離行列計算手段の一例)。
これにより、チャンネル(マイクロホン)ごとに2つの分離信号(同定信号)が得られることになり、また、音源信号Si(t)ごとに2つ以上の分離信号(SIMO信号)が得られることになる。図6の例では、分離信号y11(f)とy12(f)の組合せ、及び分離信号y22(f)とy21(f)の組合せの各々がSIMO信号である。
ここで、前記分離行列計算部は、前記第1の分離信号及び前記第2の分離信号に基づいて、次の(8)式で表される分離フィルタ(分離行列)W(f)の更新式により前記分離行列W(f)を計算する。
Figure 2007219479
次に、図7に示すブロック図を用いて、FDICA法の一種である周波数領域独立成分分析法と逆射影法との連結手法(Frequency-Domain ICA & Projection back法、以下、FDICA−PB法という)に基づく音源分離処理を行う従来の音源分離装置Z5について説明する。なお、PDICA−PB法の詳細については、特許文献5等に示されている。
FDICA−PB法では、各混合音声信号xi(t)から前述のFDICA法に基づく音源分離処理(図5)により得られた分離信号(同定信号)yi(f)各々について、逆行列演算部14によって分離行列W(f)の逆行列W-1(f)の演算処理を施すことにより、最終的な分離信号(音源信号の同定信号)を得るものである。ここで、逆行列W-1(f)による処理対象の信号のうち、各分離信号yi(f)以外の残りの信号成分は、0(ゼロ)入力として設定する。
これにより、音源信号Si(t)各々に対応したチャンネル数分(複数)の分離信号(同定信号)であるSIMO信号が得られる。図7において、分離信号y11(f)とy12(f)、分離信号y21(f)とy22(f)が、各々同一の音源信号に対応する分離信号(同定信号)であり、各逆行列W-1(f)による処理後の信号である分離信号y11(f)とy12(f)の組合せ、分離信号y21(f)とy22(f)の組合せの各々がSIMO信号である。
以下、図1に示すブロック図を用いて、本発明の実施形態に係る音源分離装置Xについて説明する。
音源分離装置Xは、ある音響空間に複数の音源1、2と複数のマイクロホン111、112(音声入力手段)とが存在する状態で、そのマイクロホン111、112各々を通じて入力される音源1、2各々からの音源信号(個別の音声信号)が重畳された複数の混合音声信号Xi(t)から、1以上の音源信号(個別音声信号)を分離(同定)した分離信号(同定信号)yを生成するものである。
そして、音源分離装置Xの特徴は、以下の(1)〜(3)の構成要素を備える点にある。
(1)複数の混合音声信号Xi(t)から独立成分分析(ICA)法に基づくブラインド音源分離(BSS)方式の音源分離処理により、1以上の音源信号Si(t)を分離(同定)したSIMO信号(1つの音源信号に対応する複数の分離信号)を分離生成するSIMO−ICA処理部10(第1の音源分離手段の一例)。
(2)SIMO−ICA処理部10により生成されたSIMO信号のうちの一部である複数の信号について、複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行い、この中間処理により得られる中間処理後信号yd1(f)、yd2(f)を出力する2つの中間処理実行部41、42(中間処理実行手段の一例)。ここで、周波数成分の区分は、例えば、予め定められた周波数幅での均等な区分とすることが考えられる。
なお、図1に例示した中間処理実行部41、42各々は、4つの分離信号からなるSIMO信号のうち、3つの分離信号(特定信号の一例)に基づいて前記中間処理を行い、それぞれ1つの中間処理後信号yd1(f)、yd2(f)を出力するものである。
(3)中間処理実行部41、42により得られた(出力された)前記中間処理後信号yd1(f)、yd2(f)と、SIMO−ICA処理部10により分離生成されたSIMO信号の一部の信号との各々を入力信号とし、その入力信号にバイナリーマスキング処理を施して得られる信号を、1以上の音源信号について分離(同定)した分離信号として生成する2つのバイノーラル信号処理部21、22(第2の音源分離手段の一例)。
なお、SIMO−ICA処理部10が音源分離処理を行う工程が、第1の音源分離工程の一例であり、中間処理実行部41、42が前記中間処理を行う工程が、中間処理実行工程の一例であり、さらに、バイノーラル信号処理部21、22がバイナリーマスキング処理を行う工程が、第2の音源分離工程の一例である。
図2に示す例では、一方のバイノーラル信号処理部21に入力されるSIMO信号は、これに対応する中間処理実行部41が中間処理の対象としていないSIMO信号である。同様に、他方のバイノーラル信号処理部22に入力されるSIMO信号も、これに対応する中間処理実行部42が中間処理の対象としていないSIMO信号である。但し、図2に示す例はあくまで一例であり、前記中間処理実行部41、42が、前記バイノーラル信号処理部21、22に入力される前記SIMO信号(図2におけるy11(f)やy22(f)など)を前記中間処理の対象として入力する構成も考えられる。
ここで、SIMO−ICA処理部10(第1の音源分離手段)としては、図4に示したTD−SIMO−ICA法に基づく音源分離処理を行う前記音源分離装置Z2や、図6に示したFD−SIMO−ICA法に基づく音源分離処理を行うFD−SIMO−ICA法に基づく音源分離処理を行う前記音源分離装置Z4、或いは図7に示したFDICA−PB法に基づく音源分離処理を行う前記音源分離装置Z5等を採用することが考えられる。
但し、SIMO−ICA処理部10として、前記TD−SIMO−ICA法に基づく前記音源分離装置Z2を採用する場合や、FD−SIMO−ICA法若しくはFDICA−PB法に基づく音源分離処理後の信号がIDFT処理(逆離散フーリエ変換処理)により時間領域の信号に変換されている場合には、そのSIMO−ICA処理部10(音源分離装置Z2等)により得られる分離信号(同定信号)について、バイナリーマスキング処理を施す前に、離散フーリエ変換処理(DFT処理)を施す手段を設ける。これにより、前記バイノーラル信号処理部21、22や中間処理実行部41、42への入力信号を、時間領域の離散信号から周波数領域の離散信号へ変換する。
さらに、図1には示されていないが、音源分離装置Xは、前記バイノーラル信号処理部21の出力信号(周波数領域の分離信号)を時間領域の信号に変換する(逆離散フーリエ変換処理を施す)IDFT処理部も備えている。
また、図1には、チャンネル数(マイクロホンの数)の分だけ生成されるSIMO信号各々について、バイナリーマスキング処理による音源分離処理を施す構成例を示しているが、一部の音源信号の分離(同定)を行うことを目的とする場合は、一部のチャンネルに対応するSIMO信号(或いは、一部のマイクロホン若しくは一部の復号音声信号xi(t)に対応するSIMO信号ともいえる)についてのみ、バイナリーマスキング処理を施す構成も考えられる。
さらに、図1には、チャンネル数が2つ(マイクロホンの数が2つ)である例について示したが、(入力される混合音声信号のチャンネル数n(即ち、マイクロホンの数))≧(音源の数m)であれば、3チャンネル以上であっても同様の構成により実現できる。
ここで、各構成要素10、21、22、41、42は、それぞれDSP(Digital Signal Processor)又はCPU及びその周辺装置(ROM、RAM等)と、そのDSP若しくはCPUにより実行されるプログラムとにより構成されたものや、或いは、1つのCPU及びその周辺装置を有するコンピュータにより、各構成要素10、21、22、41、42が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また、所定のコンピュータに各構成要素10、21、22、41、42の処理を実行させる音源分離プログラムとして提供することも考えられる。
一方、前記バイノーラル信号処理部21、22における信号分離処理は、前述したように、人間の聴覚モデルに基づいて前記混合音声信号に時変のゲイン調節を施して音源分離を行うものであり、例えば、非特許文献3や非特許文献4等に詳説されている。
図8は、バイノーラル信号処理の考え方を起源とする信号処理の一例であって、比較的処理がシンプルなバイナリーマスキング処理を説明するための図である。
バイナリーマスキング処理を実行する装置やプログラムは、複数の入力信号(本発明においてはSIMO信号を構成する複数の音声信号)の比較処理を行う比較部31と、その比較部31による比較処理の結果に基づいて入力信号にゲイン調節を施して信号分離(音源分離)を行う分離部32とを有している。
バイナリーマスキング処理では、まず、前記比較部31において、入力信号(本発明においてはSIMO信号)各々について周波数成分ごとの信号レベル(振幅)分布AL、ARを検出し、同じ周波数成分における信号レベルの大小関係を判別する。
図8において、BL、BRは、入力信号各々における周波数成分ごとの信号レベル分布と、その信号レベルごとに他方の対応する信号レベルに対する大小関係(○、×)とを表した図である。図中、「○」印は、前記比較部31による判別の結果、他方の対応する信号レベルよりも当該信号の信号レベルの方が大きかったことを表し、「×」印は同じく当該信号レベルの方が小さかったことを表している。
次に、前記分離部32により、前記比較部31による信号比較の結果(大小判別の結果)に基づいて、入力信号各々にゲイン乗算(ゲイン調節)を施すことにより分離信号(同定信号)を生成する。この分離部32における最も簡単な処理の例としては、入力信号について、周波数成分ごとに、信号レベルが最も大きいと判別された入力信号の周波数成分にゲイン1を乗算し、その他の入力信号全ての同じ周波数成分にゲイン0(ゼロ)を乗算すること等が考えられる。
これにより、入力信号と同数の分離信号(同定信号)CL、CRが得られる。この分離信号CL、CRのうち、一方は、入力信号(前記SIMO−ICA処理部10による分離信号(同定信号))の同定の対象となった音源信号に相当するものとなり、他方は入力信号に混在するノイズ(同定対象の音源信号以外の音源信号)に相当するものとなる。従って、前記SIMO−ICA処理部10と前記バイノーラル信号処理部21、22とによる2段処理(直列的処理)によって、ノイズの影響がある等の多様な環境下においても高い音源分離性能が得られる。
なお、図8には、2つの入力信号に基づくバイナリーマスキング処理の例を示すが、3つ以上の入力信号に基づく処理であっても同様である。
例えば、まず、複数チャンネル分の入力信号各々について、複数に区分された周波数成分ごとに信号レベルを比較し、最大のものにゲイン1を乗算するとともに、その他のものにゲイン0を乗算し、その乗算により得られた信号を全てのチャンネルについて加算する。そして、この加算により得られる周波数成分ごとの信号を、全ての周波数成分について算出し、それらを組合せた信号を出力信号とすればよい。これにより、3チャンネル分以上の入力信号に対しても、図8に示したのと同様にバイナリーマスキング処理を行うことができる。
(第1実施例)
前記音源分離装置Xにおける前記SIMO−ICA処理部10として、図6に示したFD−SIMO−ICA法に基づく音源分離処理を行うFD−SIMO−ICA法に基づく音源分離処理を行う前記音源分離装置Z4、或いは図7に示したFDICA−PB法に基づく音源分離処理を行う前記音源分離装置Z5を採用したものを、以下、第1実施例とする。なお、図2は、そのような本発明の第1実施例に係る音源分離装置X1の概略構成を表すブロック図であり、前記音源分離装置Xにおける前記SIMO−ICA処理部10として、図6に示したFD−SIMO−ICA法に基づく音源分離処理を行う前記音源分離装置Z4を採用した場合の例を示している。
この音源分離装置X1の構成により、畳み込み演算が必要なために演算負荷が高いTD−SIMO−ICA法に基づく音源分離処理(図4)を採用した構成よりも、比較的演算負荷が抑えられる。
また、本第1実施例に係る音源分離装置X1では、前記SIMO−ICA処理部10で用いる分離行列W(f)の初期値は、予め定められた値が設定される。
また、音源分離装置X1のバイノーラル信号処理部21、22は、バイナリーマスキング処理を行う。
図2に示す音源分離装置X1では、前記SIMO−ICA処理部10により、2つの入力チャンネル(マイクロホン)ごとに2つの分離信号、即ち、合計4つの分離信号が得られ、この4つの分離信号がSIMO信号である。
また、一方の中間処理実行部41は、SIMO信号の一部である分離信号y12(f)、y21(f)、y22(f)(特定信号の一例)を入力し、これらの信号に基づいて前記中間処理を実行する。同様に、他方の中間処理実行部42は、SIMO信号の一部である分離信号y11(f)、y12(f)、y21(f)(特定信号の一例)を入力し、これらの信号に基づいて前記中間処理を実行する。中間処理の具体的内容については後述する。
また、一方のバイノーラル信号処理部21は、これに対応する中間処理実行部41により出力される前記中間処理後信号yd1(f)と、その中間処理実行部41が中間処理の対象としていない分離信号y11(f)(SIMO信号の一部)とを入力し、その入力信号に対してバイナリーマスキング処理を行い、最終的な分離信号Y11(f)及びY12(f)を出力する。また、これら周波数領域の分離信号Y11(f)及びY12(f)は、逆離散フーリエ変換処理を実行するIDFT処理部15によって時間小域の分離信号y11(t)、y12(t)に変換される。
同様に、他方のバイノーラル信号処理部22は、これに対応する中間処理実行部42により出力される前記中間処理後信号yd2(f)と、その中間処理実行部42が中間処理の対象としていない分離信号y22(f)(SIMO信号の一部)とを入力し、その入力信号に対してバイナリーマスキング処理を行い、最終的な分離信号Y21(f)及びY22(f)を出力する。また、これら周波数領域の分離信号Y21(f)及びY22(f)は、前記IDFT処理部15によって時間小域の分離信号y21(t)、y22(t)に変換される。
なお、バイノーラル信号処理部21、22は、必ずしも2チャンネル分の信号分離処理を行うものに限らず、3チャンネル分以上のバイナリーマスキング処理を行うものを採用することも考えられる。
次に、図9〜図11を参照しつつ、SIMO−ICA処理部10により得られるSIMO信号をバイノーラル信号処理部21or22への入力信号とする場合における、バイノーラル信号処理部21or22への入力信号の組合せと、バイノーラル信号処理部21or22による信号分離性能及び分離信号の音質との関係について説明する。ここで、図9〜図11は、SIMO信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル(振幅)の分布の一例(第1例〜第3例)をバーグラフにより模式的に表したものである。なお、バイノーラル処理部21or22は、バイナリーマスキング処理を行うものであるとする。
また、以下に示す例では、一方のマイクロホン111に近い方の音源1の音声信号S1(t)を、最終的に分離信号として得たい信号であるものとし、その音源信号S1(t)及びその音を、目的音源信号及び目的音と称する。そして、その他の音源2の音声信号S2(t)及びその音を、非目的音源信号及び非目的音と称する。
ところで、4つの分離信号y11(f)、y12(f)、y21(f)、y22(f)からなるSIMO信号を2入力のバイナリーマスク処理の入力信号とする場合、バイナリーマスク処理への入力信号の組合せは6パターン考えられる。その中で、主として目的音源信号S1(t)に対応する分離信号y11(f)を含む組合せは3パターン考えられるが、SIMO−ICA法に基づく音源分離処理の性質上、y11(f)及びy22(f)との組合せと、y11(f)及びy21(f)との組合せとは、定性的には同じ傾向の性質を有する。よって、図9〜図11は、y11(f)及びy12(f)との組合せと、y11(f)及びy22(f)との組合せとの各々について、バイナリーマスキング処理を行う場合の例について示している。
また、図9は音源信号各々の周波数成分に重複がない場合、図10は同周波数成分に重複がある場合の例を表す。一方、図11は、音源信号各々の周波数成分に重複がなく、かつ、目的音源信号S1(t)の信号レベルが非目的音源信号S2(t)の信号レベルに対して相対的に低い(振幅が小さい)場合の例を表す。
さらに、図9(a)、図10(a)及び図11(a)は、バイノーラル信号処理部21or22への入力信号を、分離信号y11(f)とy12(f)の組合せ(SIMO信号)とした場合(以下、「パターンa」という)の例を表す。
一方、図9(b)、図10(b)及び図11(b)は、バイノーラル信号処理部21or22への入力信号を、分離信号y11(f)とy22(f)の組合せとした場合(以下、「パターンb」という)の例を表す。
また、図9〜図11において、目的音源信号S1(t)の周波数成分に対応する部分のバーグラフは網掛け模様により、非目的音源信号S1(t)の周波数成分に対応する部分のバーグラフは斜線模様により各々表している。
図9及び図10に示すように、バイノーラル信号処理部21or22への入力信号には、その同定の対象となった音源信号の成分が支配的ではあるものの、それ以外に、ノイズとして他の音源信号の成分も若干混在している。
このようなノイズを含む入力信号(分離信号)に対してバイナリーマスキング処理を施した場合、図9(a)、(b)の出力信号のレベル分布(右側のバーグラフ)に示すように、音源信号各々の周波数成分に重複がない場合には、入力信号の組合せにかかわらず、前記第1音源信号と前記第2音源信号とが良好に分離された分離信号(Y11(f)とY12(f)、及びY11(f)とY22(f))が得られる。
このように各音源信号の周波数成分に重複がない場合、バイノーラル信号処理部21or22への両入力信号各々において、同定の対象となった音源信号の周波数成分における信号レベルが高く、その他の音源信号の周波数成分における信号レベルが低くなるというレベル差が明確となり、周波数成分ごとの信号レベルに応じて信号分離を行うバイナリーマスキング処理によって信号が確実に分離されやすい。その結果、入力信号の組合せにかかわらず、高い分離性能が得られる。
しかしながら、一般に、現実の音響空間(音環境)では、同定対象とする目的音源信号とその他の非目的音源信号との間で、周波数成分(周波数帯域)が全く重ならないということはほとんどなく、複数の音源信号間で多少なりとも周波数成分が重複する。
ここで、音源信号各々の周波数成分に重複がある場合であっても、図10(a)の出力信号Y11(f)、Y12(f)のレベル分布(右側のバーグラフ)に示すように、前記「パターンa」では、音源信号各々で重複する周波数成分において若干のノイズ信号(同定対象以外の音源信号の成分)が残るものの、その他の周波数成分においてはノイズ信号が確実に分離される。
この図10(a)に示す「パターンa」では、バイノーラル信号処理部21or22への両入力信号は、同一の音源信号を、各々異なるマイクロホンにより収録された音声信号に基づいて分離(同定)した信号であり、それらの信号レベルは、同定対象の音源からマイクロホンまでの距離に応じたレベル差を有している。そのため、バイナリーマスキング処理において、そのレベル差により信号が確実に分離されやすい。このことが、「パターンa」では、音源信号各々の周波数成分に重複があっても高い分離性能が得られる理由として考えられる。
さらに、図10(a)に示す「パターンa」では、両入力信号ともに同一の音源信号(目的音源信号S1(t))の成分が支配的である(即ち、混在する他の音源信号の成分のレベルは小さい)ため、比較的信号レベルの低い同定対象外の音源信号の成分(ノイズ成分)が信号分離に悪影響を及ぼしにくいことも、高い分離性能が得られる理由の1つと考えられる。
一方、音源信号各々の周波数成分に重複がある場合、図10(b)に示すように、前記「パターンb」では、音源信号各々で重複する周波数成分において、出力信号(分離信号)Y11(f)において本来出力されるべき信号成分(同定対象の音源信号の成分)が欠損するという不都合な現象が生じる(図10(b)における破線で囲んだ部分)。
このような欠損は、その周波数成分について、同定対象の目的音源信号S1(t)のマイクロホン112への入力レベルよりも、非目的音源信号S2(t)のマイクロホン112へのレベルの方が高いために生じる現象である。このような欠損が生じると音質が悪化する。
従って、一般的には、前記「パターンa」を採用すれば、良好な分離性能が得られる場合が多いと言える。
しかしながら、実際の音響環境では、各音源信号の信号レベルは変化し、状況によっては、図11に示すように、目的音源信号S1(t)の信号レベルが非目的音源信号S2(t)の信号レベルに対して相対的に低くなることもある。
このような場合、SIMO−ICA処理部10で十分な音源分離がなされなかった結果、マイクロホン111に対応する分離信号y11(f)及びy12(f)に残留する非目的音源信号S2(t)の成分が相対的に大きくなる。このため、図11(a)に示す「パターンa」を採用すると、図11(a)において矢印で示すように、目的音源信号S1(t)に対応するものとして出力される分離信号Y11(f)に、非目的音源信号S1(t)の成分が残存するという不都合な減少が生じてしまう。この現象が発生すると、音源分離性能が悪化する。
これに対し、図11(b)に示す「パターンb」を採用すると、具体的な信号レベルにもよるが、出力信号Y11(f)に図11(a)の矢印で示したような非目的音源信号S1(t)の成分が残存することを回避できる可能性が高い。
次に、図12及び図13を参照しつつ、音源分離装置X1により音源分離処理を行った場合の効果について説明する。
図12は、音源分離装置X1におけるSIMO信号に対する音源分離処理の第1例の内容(SIMO信号及びバイナリーマスキング処理後の信号についての周波数成分ごとの信号レベル分布を含む)を模式的に表した図である。なお、図12には、バイノーラル信号処理部21及びこれに対応する中間処理実行部41のみをピックアップして表記している。
図12に示す例では、中間処理実行部41は、まず、3つの分離信号y12(f)、y21(f)、y22(f)(特定信号の一例)を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波数成分の信号に所定の重み係数a1、a2、a3を乗算することによって信号レベルを補正(即ち、重み付けにより補正)し、さらに、その補正後の信号の中から、前記周波数成分ごとに信号レベルが最大のものを選択する中間処理を行う。この中間処理を、Max[a1・y12(f),a2・y21(f),a3・y22(f)]と表すものとする。
さらに、中間処理実行部41は、この中間処理により得られた中間処理後信号yd1(f)(周波数成分ごとに信号レベルが最大のものが組み合わされた信号)をバイノーラル信号処理部21へ出力する。ここで、a2=0かつ1≧a1>a3である。例えば、a1=1.0、a3=0.5である。なお、a2=0であるため、分離信号y21(f)の周波数分布の表記は省略している。また、図12に示すSIMO信号は、図10に示したSIMO信号と同じである。
このように、a1>a3となるように重み付け補正をした後の信号のうち、周波数成分ごとに信号レベルが最大のものをバイナリーマスキング処理の入力信号とすることにより、音源分離装置X1は、以下のように動作する。
即ち、分離信号y12(f)が、分離信号y22(f)に対してa1・y12(f)≧a3・y22(f)となる範囲の信号レベルで出力されている周波数成分については、バイノーラル信号処理部21には分離信号y11(f)と分離信号y12(f)とが入力され、図9(a)や図10(a)に示したような良好な信号分離状況が得られると考えられる。
一方、分離信号y12(f)が、分離信号y22(f)に対してa1・y12(f)<a3・y22(f)となる範囲の信号レベルまで低下している周波数成分については、バイノーラル信号処理部21には、分離信号y11(f)と、分離信号y22(f)が(a3)倍に減縮補正された信号とが入力され、図9(a)や図11(b)に示したような良好な信号分離状況が得られると考えられる。
図13は、音源分離装置X1におけるSIMO信号に対する音源分離処理の第2例の内容(SIMO信号及びバイナリーマスキング処理後の信号についての周波数成分ごとの信号レベル分布を含む)を模式的に表した図である。
図13に示す例も、図12に示した例と同様に、中間処理実行部41は、まず、3つの分離信号y12(f)、y21(f)、y22(f)(特定信号の一例)を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波数成分の信号に所定の重み係数a1、a2、a3を乗算することによって信号レベルを補正(即ち、重み付けして補正)し、さらに、その補正後の信号の中から、前記周波数成分ごとに信号レベルが最大のものを選択する中間処理(図中、Max[a1・y12(f),a2・y21(f),a3・y22(f)]と表記)を行う。さらに、中間処理実行部41は、この中間処理により得られた中間処理後信号yd1(f)(周波数成分ごとに信号レベルが最大のものが組み合わされた信号)をバイノーラル信号処理部21へ出力する。例えば、1≧a1>a2>a3≧0である。
同様に、中間処理実行部42は、まず、3つの分離信号y11(f)、y12(f)、y21(f)(特定信号の一例)を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波数成分の信号に所定の重み係数b1、b2、b3を乗算することによって信号レベルを補正し、さらに、その補正後の信号の中から、前記周波数成分ごとに信号レベルが最大のものを選択する中間処理(図中、Max[b1・y11(f),b2・y12(f),b3・y21(f)]と表記)を行う。さらに、中間処理実行部42は、この中間処理により得られた中間処理後信号yd2(f)(周波数成分ごとに信号レベルが最大のものが組み合わされた信号)をバイノーラル信号処理部22へ出力する。例えば、1≧b1>b2>b3≧0である。なお、図13に示すSIMO信号は、図10に示したSIMO信号と同じである。
このような第2例においても、前記第1例(図12参照)で説明したのと同様の作用効果を奏する。
図18は、音源分離装置X1におけるSIMO信号に対する音源分離処理の第3例の内容(SIMO信号及びバイナリーマスキング処理後の信号についての周波数成分ごとの信号レベル分布を含む)を模式的に表した図である。
図18に示す第3例は、図13に示した前記第2例に対して前記中間処理実行部41、42が実行する処理と、前記バイノーラル信号処理部21、22が実行する処理とが若干異なるが、全体として前記第2例(図13参照)と実質的に同じ処理を実行する音源分離装置X1を表す。
即ち、図18に示す第3例においては、前記中間処理実行部41は、まず、4つの分離信号y11(f)、y12(f)、y21(f)、y22(f)(特定信号の一例)を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波数成分の信号に所定の重み係数(1、a1、a2、a3)を乗算することによって信号レベルを補正(即ち、重み付けして補正)し、さらに、その補正後の信号の中から、前記周波数成分ごとに信号レベルが最大のものを選択する中間処理(図中、Max[y11,a1・y12(f),a2・y21(f),a3・y22(f)]と表記)を行う。さらに、前記中間処理実行部41は、この中間処理により得られた前記中間処理後信号yd1 (f)(周波数成分ごとに信号レベルが最大のものが組み合わされた信号)を前記バイノーラル信号処理部21へ出力する。例えば、1≧a1>a2>a3≧0である。
同様に、前記中間処理実行部42は、まず、4つの分離信号y11(f)、y12(f)、y21(f)、y22(f)(特定信号の一例)を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波数成分の信号に所定の重み係数(b1、b2、b3、1)を乗算することによって信号レベルを補正し、さらに、その補正後の信号の中から、前記周波数成分ごとに信号レベルが最大のものを選択する中間処理(図中、Max[b1・y11(f),b2・y12(f),b3・y21(f),y22(f)]と表記)を行う。さらに、前記中間処理実行部42は、この中間処理により得られた前記中間処理後信号yd2(f)(周波数成分ごとに信号レベルが最大のものが組み合わされた信号)をバイノーラル信号処理部22へ出力する。例えば、1≧b1>b2>b3≧0である。なお、図18に示すSIMO信号は、図10に示したSIMO信号と同じである。
ここで、この第3例における前記バイノーラル信号処理部21は、これに入力される信号(分離信号y11(f)及び前記中間処理後信号yd1(f))について、周波数成分ごとに以下の処理を実行する。
即ち、前記バイノーラル信号処理部21は、周波数成分ごとに、前記中間処理後信号yd1(f)の信号レベルが前記分離信号y11(f)の信号レベルと等しい場合(同じ信号である場合)にはその中間処理後信号yd1(f)又は分離信号y11(f)の成分を出力信号Y11(f)の信号成分として採用し、そうでない場合には予め定められた定数値(ここでは、0値)を出力信号Y11(f)の信号成分として採用する。
同様に、この第3例における前記バイノーラル信号処理部22は、これに入力される信号(分離信号y22(f)及び前記中間処理後信号yd2(f))について、周波数成分ごとに、前記分離信号y22(f)の信号レベルと前記中間処理後信号yd2(f)の信号レベルとが等しい場合(同じ信号である場合)には、その分離信号y22(f)又はその中間処理後信号yd2(f)の成分を出力信号Y22(f)の信号成分として採用し、そうでない場合には予め定められた定数値(ここでは、0値)を出力信号Y22(f)の信号成分として採用する。
ここで、前記バイノーラル信号処理部21は、一般的なバイナリーマスキング処理を実行する場合、周波数成分ごとに、前記分離信号y11(f)の信号レベルが前記中間処理後信号yd1(f)の信号レベル以上である場合(y11(f)≧yd1(f))には、その分離信号y11(f)の成分を出力信号Y11(f)の信号成分として採用し、そうでない場合には予め定められた定数値(ここでは、0値)を出力信号Y11(f)の信号成分として採用する。
しかしながら、前記中間処理実行部41において、バイナリーマスキング処理の対象となる(重み係数「1」が乗算される)前記分離信号y11(f)と、重み係数a1〜a3が乗算されるその他の前記分離信号y12(f)、y21(f)、y22(f)とについて、周波数成分ごとにレベルが最大のものが選択された信号が前記中間処理後信号yd1(f)とされる。このため、前述したように、前記バイノーラル信号処理部21が、「y11(f)=yd1(f)」である場合に、前記分離信号y11(f)又は前記中間処理後信号yd1(f)の成分を出力信号Y11(f)の信号成分として採用するものであっても、そのバイノーラル信号処理部21は、実質的に一般的なバイナリーマスキング処理を実行するものと実質的に同じ(等価)である。このことは、前記バイノーラル信号処理部22についても同様である。
ここで、一般的なバイナリーマスキング処理とは、「y11(f)≧yd1(f)」であるか否かにより、出力信号Y11(f)の信号成分として前記分離信号y11(f)又は前記中間処理後信号yd1(f)の成分を採用するか、定数値(0値)を採用するかを切り替える処理である。
従って、図18に示すこれら中間処理実行部41、42及びバイノーラル信号処理部21、22も、本発明に係る音源分離装置を構成する前記中間処理実行手段及び前記第2の音源分離手段の実施形態の一例である。
以上に示した第3例においても、前記第1例(図12参照)で説明したのと同様の作用効果を奏する。
次に、前記音源分離装置X1を用いた音源分離性能評価の実験結果について説明する。
図14は、音源分離装置X1を用いた音源分離性能評価の実験条件を説明するための図である。
図14に示すように、音源分離性能評価の実験は、4.8m(幅)×5.0m(奥行き)の広さの居室内において、所定の2箇所に存在する2名の話者を音源とし、その音源(話者)各々からの音声信号(話者の声)を相互に反対方向に向けた2つのマイクロホン111、112で入力し、入力された2チャンネルの混合音声信号から、各話者の音声信号(音源信号)を分離する性能を評価する実験条件である。ここで、音源となる話者は、2名の男性及び2名の女性(計4名)の中から選択した2名の順列である12通りの条件下で実験を行い(同じ2名の話者を音源とする場合でも、その2名の配置が入れ替われば異なる条件であるとした)、音源分離性能評価は各組合せの下での評価値の平均値により行った。
また、いずれの実験条件においても、残響時間は200ms、音源(話者)から最寄りのマイクロホンまでの距離は1.0mとし、2つのマイクロホン111、112は、5.8cmの間隔を隔てて配置した。なお、マイクロホンの機種は、SONY社製のECM−DS70Pである。
ここで、上方から見て、相互に反対方向に向けられた両マイクロホン111、112の向きに対する直角方向を基準方向R0としたときに、この基準方向R0と一方の音源S1(話者)から両マイクロホン111、112の中間点Oに向かう方向R1とのなす角度をθ1とする。また、前記基準方向R0と他方の音源S2(話者)から前記中間点Oに向かう方向R2とのなす角度θ2とする。このとき、θ1とθ2との組合せを、3パターンの条件(θ1、θ2)=(−40°、30°)、(−40°、10°)、(−10°、10°)となるように設定(機器配置)し、その各々の条件下で実験を行った。
図15(a)、(b)は、従来の音源分離装置と本発明に係る音源分離装置との各々により、前述の実験条件の下で音源分離を行ったときの音源分離性能及び分離後の音声の音質の評価結果を表すグラフである。
ここで、図15(a)に示す音源分離性能の評価値(グラフの縦軸)としては、NRR(Noise Reduction Rate)を用いた。このNRRは、雑音除去の程度を表す指標であり、単位は(dB)である。NRRの定義は、例えば非特許文献2の(21)式等に示されている。このNRR値が大きいほど音源分離性能が高いといえる。
また、図15(b)に示す音質の評価値(グラフの縦軸)としては、CD(Cepstral distortion)を用いた。このCDは、音質の程度を表す指標であり単位は(dB)である。このCDは、音声信号のスペクトル歪みを表し、分離対象となる元の音源信号と、その音源信号を混合音声信号から分離した分離信号とのスペクトル包絡の距離を表す。CD値が小さいほど音質が良いといえる。なお、図15(b)に示す音質評価の結果は、(θ1、θ2)=(−40°、30°)である場合のもののみである。
また、各バーグラフに対応する図中の表記P1〜P6は、以下の場合の処理結果を表す。
P1(BM)と表記しているものは、バイナリーマスキング処理を行った場合の結果を表す。
P2(ICA)と表記しているものは、図6に示したFD−SIMO−ICA法に基づく音源分離処理を行った場合の結果を表す。
P3(ICA+BM)と表記しているものは、図6に示したFD−SIMO−ICA法に基づく音源分離処理(音源分離処理装置Z4)により得られたSIMO信号にバイナリーマスキング処理を施した場合の結果を表す。即ち、図9〜図11に示した構成により音源分離処理を行った結果に相当する。
P4〜P6(SIMO−ICA+SIMO−BM)と表記しているものは、図2に示した音源分離処理装置X1により音源分離処理を行った結果を表す。ここで、P4は、補正係数[a1,a2,a3]=[1.0,0,0]である場合、P5は補正係数[a1,a2,a3]=[1,0,0.1]である場合、P6は補正係数[a1,a2,a3]=[1.0,0,0.7]である場合を表す。以下、P4、P5、P6の各補正係数の条件を、補正パターンP4、補正パターンP5、補正パターンP6という。
図15に示すグラフから、バイナリーマスキング処理やICA法に基づくBSS方式の音源分離処理を単独で行う場合(P1、P2)や、これにより得られるSIMO信号にバイナリーマスキング処理を施す場合(P3)よりも、ICA法に基づくBSS方式の音源分離処理で得られるSIMO信号に基づいて前記中間処理を行い、その中間処理後の信号を用いてバイナリーマスキング処理を施す音源分離処理である本発明に係る音源分離処理(P4〜P6)の方が、NRR値が大きく、音源分離性能が優れていることがわかる。
同様に、P1〜P3の音源分離処理よりも、本発明に係る音源分離処理(P4〜P6)の方が、CD値が小さく、分離後の音声信号が高音質であることがわかる。
また、本発明に係る音源分離処理(P4〜P6)の中では、補正パターンP4及びP5に設定した場合、音源分離性能向上と音質性能向上とのバランスがとれている。これは、図10及び図11を用いて説明した不都合な現象の発生が少ないため、音源分離性能及び音質性能が高まったものと考えられる。
一方、補正パターンP6では、補正パターンP4及びP5よりも、さらに高い音源分離性能が得られている(NRR値が高い)反面、音質性能が若干犠牲になっている(CD値がやや高い)。これは、補正パターンP4及びP5の場合よりも、図11を用いて説明した不都合な現象の発生頻度がより抑えられたことにより、音源分離性能がさらに向上する一方、図10を用いて説明した不都合な現象の発生頻度が若干増え、その結果、音質性能がやや犠牲になっているものと考えられる。
以上に示したように、音源分離装置X1では、中間処理実行部41、42における前記中間処理に用いられるパラメータ(重み係数a1〜a3、b1〜b3)を調節するだけで、重視する目的(音源分離性能又は音質性能)に応じた音源分離処理が可能となる。
従って、音源分離装置X1が、調節ツマミや、数値入力用操作キー等の操作入力部(中間処理パラメータ設定手段の一例)を備え、さらに、前記中間処理実行部41、42が、その操作入力部を通じて入力された情報に従って、中間処理実行部41、42(中間処理実行手段の一例)における前記中間処理に用いられるパラメータ(ここでは、重み係数a1〜a3、b1〜b3)を設定(調節)する機能を備えたものであれば、重視する目的に応じた装置の調整が容易となる。
例えば、音源分離装置X1が、ロボットやカーナビゲーションシステム等で用いられる音声認識装置に適用される場合、雑音除去を優先するために、NRR値が高くなる方向に、重み係数a1〜a3、b1〜b3を設定すればよい。
一方、音源分離装置X1が、携帯電話機やハンズフリー電話機等の音声通話装置に適用される場合、音質が良くなるように、CD値が高くなる方向に、重み係数a1〜a3、b1〜b3を設定すればよい。
より具体的には、重み係数a1、b1の値に対する重み係数a2、a3、b2、b3の値の比が、より大きくなるように設定すれば、音源分離性能を重視するという目的に沿い、その比が、より小さくなるように設定すれば、音質性能を重視するという目的に沿うことになる。
また、以上に示した実施例では、中間処理実行部41、42により、Max[a1・y12(f),a2・y21(f),a3・y22(f)]或いは、Max[b1・y11(f),b2・y12(f),b3・y21(f)]という中間処理を行う例を示した。
しかしながら、前記中間処理は、これに限るものではない。
中間処理実行部41、42により実行される前記中間処理としては、以下のような例も考えられる。
即ち、まず、中間処理実行部41が、3つの分離信号y12(f)、y21(f)、y22(f)(特定信号の一例)を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波数成分の信号に所定の重み係数a1、a2、a3を乗算することによって信号レベルを補正(即ち、重み付けして補正)する。さらに、その補正後の信号を、前記周波数成分ごとに合成(加算)する。即ち、a1・y12(f)+a2・y21(f)+a3・y22(f)という中間処理を行う。
さらに、中間処理実行部41は、この中間処理により得られた中間処理後信号yd1(f)(周波数成分ごとに重み付け補正がなされた信号を合成した)をバイノーラル信号処理部21へ出力する。
このような中間処理を採用しても、前述した実施例と同様の作用効果が得られる。もちろん、このような2種類の中間処理に限られず、他の中間処理を採用することも考えられる。また、チャンネル数を、3チャンネル以上に拡張した構成も考えられる。
前述したように、ICA法に基づくBSS方式による音源分離処理は、音源分離性能を向上させるためには多大な演算が必要となり、リアルタイム処理には適さない。
一方、バイノーラル信号処理による音源分離は、一般に演算量は少なくリアルタイム処理に適している反面、音源分離性能はICA法に基づくBSS方式による音源分離処理に比べて劣る。
これに対し、SIMO−ICA処理部10が、例えば以下に示す要領で分離行列W(f)の学習を行うように構成すれば、音源信号の分離性能を確保しつつリアルタイム処理が可能な音源分離処理装置を実現できる。
次に、図16及び図17に示すタイムチャートを用いて、分離行列W(f)の学習に用いられる混合音声信号と、その学習により得られる分離行列W(f)を用いて音源分離処理が施される混合音声信号との対応関係の第1例(図16)及び第2例(図17)について説明する。
ここで、図16は、分離行列W(f)の計算と、音源分離処理との各々に用いる混合音声信号の区分の第1例をタイムチャート的に表したものである。
この第1例は、SIMO−ICA処理部10の音源分離処理において、逐次入力される混合音声信号を、所定時間長(例えば3秒)分のフレーム信号(以下、Frameという)ごとにその全てを用いて学習計算を行う。その一方で、SIMO−ICA処理部10の音源分離処理における分離行列の逐次計算回数を制限するものである。また、図1に示す例では、SIMO−ICA処理部10は、分離行列の学習計算と、その分離行列に基づくフィルタ処理(行列演算)により分離信号を生成(同定)する処理とを、異なるFrameを用いて実行する。
図16に示すように、SIMO−ICA処理部10は、時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算(学習)を行い、それにより求められた分離行列を用いて時刻(Ti+1+Td)〜(Ti+2+Td)の期間に入力された前記混合音声信号全てに相当するFrame(i+1)’について分離処理(フィルタ処理)を実行する。ここで、Tdは1つのFrameを用いた分離行列の学習に要する時間である。即ち、ある1期間の混合音声信号に基づき計算された分離行列を用いて、Frame時間長+学習時間だけずれた次の1期間の混合音声信号の分離処理(同定処理)を行う。このとき、ある1期間のFrame(i)を用いて計算(学習)された分離行列を、次の1期間のFrame(i+1)’を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いる。さらに、SIMO−ICA処理部10は、分離行列の逐次計算(学習計算)の繰り返し回数を、1フレーム分の時間長(周期)の範囲内の時間Tdで実行可能な回数に制限する。
以上示したように,図16(第1例)に示すタイムチャートに従って分離行列の計算を行うSIMO−ICA処理部10は、時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame(区間信号の一例)ごとに、そのFrameに対し所定の分離行列に基づく分離処理を順次実行して前記SIMO信号を生成するものであり、また、その分離処理により生成した全ての時間帯(Frame(区間信号)の時間帯に対応する全ての時間帯)の前記SIMO信号に基づいて、以降に用いる前記分離行列を求めるための逐次計算(学習計算)を行うものである。
このように、1つのFrameの時間長以内に、1つのFrame全体に基づく分離行列の学習計算を完了させることができれば、全ての混合音声信号を学習計算に反映させながらリアルタイムでの音源分離処理が可能となる。
しかしながら、学習計算を複数のプロセッサで分担して並行処理した場合でも、1つのFrameの時間範囲内(Ti〜Ti+1)に、十分な音源分離性能を確保できるだけの十分な学習計算(逐次計算処理)を常には完了させられないことも考え得る。
そこで、この第1例におけるSIMO−ICA処理部10は、分離行列の逐次計算の回数を、Frame(区間信号)の時間(予め定められた周期)の範囲に収まる時間Tdで実行可能な回数に制限する。これにより、学習計算の収束が早まり、リアルタイム処理が可能となる。
一方、図17に示す第2例は、逐次入力される混合音声信号を所定時間長(例えば3秒)分のフレーム信号(Frame)ごとに、そのフレーム信号の先頭側の一部を用いて学習計算を行う例、即ち、分離行列の逐次計算に用いる混合音声信号のサンプル数を通常よりも減らす(間引く)例である。
これにより、学習計算の演算量が抑えられるので、より短周期で分離行列の学習を行うことが可能となる。
図17も、図16と同様に、分離行列W(f)の計算と、音源分離処理との各々に用いる混合音声信号の区分の第2例をタイムチャート的に表したものである。
また、図17に示す第2例も、分離行列の学習計算と、その分離行列に基づくフィルタ処理(行列演算)により分離信号を生成(同定)する処理とを、異なるFrameを用いて実行する例である。
この第2例では、図17に示すように、時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記混合音声信号(Frame)であるFrame(i)のうち、先頭側の一部(例えば、先頭から所定時間分)の信号(以下、Sub-Frame(i)という)を用いて分離行列の計算(学習)を行い、それにより求められた分離行列を用いて時刻Ti+1〜Ti+2の期間に入力された前記混合音声信号全てに相当するFrame(i+1)について分離処理(フィルタ処理)を実行する。即ち、ある1期間の混合音声信号の先頭側の一部に基づき計算された分離行列を用いて次の1期間の混合音声信号の分離処理(同定処理)を行う。このとき、ある1期間のFrame(i)の先頭側の一部を用いて計算(学習)された分離行列を、次の1期間のFrame(i+1)を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いる。これにより、逐次計算(学習)の収束が早まり好適である。
以上示したように,図17(第2例)に示すタイムチャートに従って分離行列の計算を行うSIMO−ICA処理部10も、時系列に入力される前記混合音声信号を予め定められた周期で区分されたFrame(区間信号の一例)ごとに、そのFrameに対し所定の分離行列に基づく分離処理を順次実行して前記SIMO信号を生成するものであり、また、その分離処理により生成した全ての時間帯(Frame(区間信号)の時間帯に対応する全ての時間帯)の前記SIMO信号に基づいて、以降に用いる前記分離行列を求める逐次計算(学習計算)を行うものである。
さらに、この第2例に対応するSIMO−ICA処理部10は、分離行列を求める学習計算に用いる混合音声信号を、フレーム信号ごとにその先頭側の一部の時間帯の信号に限定する。これにより、より短周期での学習計算が可能となり、その結果、リアルタイム処理が可能となる。
本発明は、音源分離装置への利用が可能である。
本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図。 本発明の第1実施例に係る音源分離装置X1の概略構成を表すブロック図。 TDICA法に基づくBSS方式の音源分離処理を行う従来の音源分離装置Z1の概略構成を表すブロック図。 TD−SIMO−ICA法に基づく音源分離処理を行う従来の音源分離装置Z2の概略構成を表すブロック図。 FDICA法に基づく音源分離処理を行う従来の音源分離装置Z3の概略構成を表すブロック図。 FD−SIMO−ICA法に基づく音源分離処理を行う音源分離装置Z4の概略構成を表すブロック図。 FDICA−PB法に基づく音源分離処理を行う従来の音源分離装置Z5の概略構成を表すブロック図。 バイナリーマスキング処理を説明するための図。 SIMO信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第1例(音源信号各々の周波数成分に重複がない場合)を模式的に表した図。 SIMO信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第2例(音源信号各々の周波数成分に重複がある場合)を模式的に表した図。 SIMO信号にバイナリーマスキング処理を施す前後の信号における周波数成分ごとの信号レベル分布の第3例(目的音源信号のレベルが比較的小さい場合)を模式的に表した図。 音源分離装置X1におけるSIMO信号に対する音源分離処理の第1例の内容を模式的に表した図。 音源分離装置X1におけるSIMO信号に対する音源分離処理の第2例の内容を模式的に表した図。 音源分離装置X1を用いた音源分離性能評価の実験条件を表す図。 従来の音源分離装置と本発明に係る音源分離装置との各々により所定の実験条件の下で音源分離を行ったときの音源分離性能及び音質の評価値を表すグラフ。 音源分離装置Xにおける分離行列計算の第1例を説明するためのタイムチャート。 音源分離装置Xにおける分離行列計算の第2例を説明するためのタイムチャート。 音源分離装置X1におけるSIMO信号に対する音源分離処理の第3例の内容を模式的に表した図。
符号の説明
X…本発明の実施形態に係る音源分離装置
X1…本発明の第1実施例に係る音源分離装置
1、2…音源
10…SIMO−ICA処理部
11、11f…分離フィルタ処理部
12…Fidelity Controller
13…ST−DFT処理部
14…逆行列演算部
15…IDFT処理部
21、22…バイノーラル信号処理部
31…バイナリーマスキング処理における比較部
32…バイナリーマスキング処理における分離部
41、42…中間処理実行部
111、112…マイクロホン

Claims (10)

  1. 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から、1以上の前記音源信号を分離した分離信号を生成する音源分離装置であって、
    独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から1以上の前記音源信号に対応するSIMO信号を分離生成する第1の音源分離手段と、
    前記第1の音源分離手段で分離生成された前記SIMO信号の全部若しくは一部である複数の特定信号について、複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行うことにより中間処理後信号を得る中間処理実行手段と、
    前記中間処理実行手段により得られた複数の前記中間処理後信号に、又は該中間処理後信号及び前記第1の音源分離手段で分離生成された前記SIMO信号の一部の信号に、バイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する前記分離信号とする第2の音源分離手段と、
    を具備してなることを特徴とする音源分離装置。
  2. 前記中間処理実行手段における前記中間処理に用いるパラメータを所定の操作入力に従って設定する中間処理パラメータ設定手段を具備してなる請求項1に記載の音源分離装置。
  3. 前記中間処理実行手段が、前記複数の特定信号について、複数に区分された周波数成分ごとに信号レベルを各々所定の重み付けにより補正し、その補正後の信号について前記周波数成分ごとに選択処理若しくは合成処理を行うものである請求項1又は2のいずれかに記載の音源分離装置。
  4. 前記中間処理実行手段が、前記複数の特定信号について、複数に区分された周波数成分ごとに信号レベルを各々所定の重み付けにより補正し、その補正後の信号の中から前記周波数成分ごとに信号レベルが最大のものを選択する処理を行うものである請求項3に記載の音源分離装置。
  5. 前記第1の音源分離手段が、
    時間領域における複数の前記混合音声信号に短時間離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換手段と、
    前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応した第1の分離信号を生成するFDICA音源分離手段と、
    前記周波数領域における複数の混合音声信号各々から当該混合音声信号に基づき前記FDICA音源分離手段により分離された前記第1の分離信号を除く残りの前記第1の分離信号を減算した第2の分離信号を生成する減算手段と、
    前記第1の分離信号及び前記第2の分離信号に基づく逐次計算により前記FDICA音源分離手段における前記分離行列を計算する分離行列計算手段と、を具備する周波数領域SIMO独立成分分析法に基づくブラインド音源分離方式の音源分離手段である請求項1〜4のいずれかに記載の音源分離装置。
  6. 前記第1の音源分離手段が、周波数領域独立成分分析法と逆射影法との連結手法に基づくブラインド音源分離方式の音源分離処理を行うものである請求項1〜4のいずれかに記載の音源分離装置。
  7. 前記第1の音源分離手段が、時系列に入力される前記混合音声信号が予め定められた周期で区分された区間信号ごとに、該区間信号に対し所定の分離行列に基づく分離処理を順次実行して前記SIMO信号を生成するとともに、該分離処理により生成した前記区間信号の時間帯に対応する全ての時間帯の前記SIMO信号に基づいて以降に用いる前記分離行列を求める逐次計算を行うものであって、該逐次計算の回数を前記予め定められた周期の時間内で実行可能な回数に制限してなる請求項1〜6のいずれかに記載の音源分離装置。
  8. 前記第1の音源分離手段が、時系列に入力される前記混合音声信号が予め定められた周期で区分された区間信号ごとに、該区間信号に対し所定の分離行列に基づく分離処理を順次実行して前記SIMO信号を生成するとともに、該分離処理により生成した前記区間信号の時間帯のうちの先頭側の一部の時間帯に対応する前記SIMO信号に基づいて以降に用いる前記分離行列を求める逐次計算を前記予め定められた周期の時間内で実行してなる請求項1〜6のいずれかに記載の音源分離装置。
  9. 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から、1以上の前記音源信号を分離した分離信号を生成する音源分離処理をコンピュータに実行させるための音源分離プログラムであって、
    独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から1以上の前記音源信号に対応するSIMO信号を分離生成する第1の音源分離工程と、
    前記第1の音源分離工程で分離生成された前記SIMO信号の全部若しくは一部である複数の特定信号について、複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行うことにより中間処理後信号を得る中間処理実行工程と、
    前記中間処理実行工程により得られた複数の前記中間処理後信号に、又は該中間処理後信号及び前記第1の音源分離工程により分離生成された前記SIMO信号の一部の信号に、バイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する前記分離信号とする第2の音源分離工程と、
    をコンピュータに実行させるための音源分離プログラム。
  10. 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて入力される前記音源各々からの音源信号が重畳された複数の混合音声信号から、1以上の前記音源信号を分離した分離信号を生成する音源分離方法であって、
    独立成分分析法に基づくブラインド音源分離方式の音源分離処理により複数の前記混合音声信号から1以上の前記音源信号に対応するSIMO信号を分離生成する第1の音源分離工程と、
    前記第1の音源分離工程で分離生成された前記SIMO信号の全部若しくは一部である複数の特定信号について、複数に区分された周波数成分ごとに選択処理若しくは合成処理を行うことを含む所定の中間処理を行うことにより中間処理後信号を得る中間処理実行工程と、
    前記中間処理実行工程により得られた複数の前記中間処理後信号に、又は該中間処理後信号及び前記第1の音源分離工程により分離生成された前記SIMO信号の一部の信号に、バイナリーマスキング処理を施すことにより得られる信号を前記音源信号に対応する前記分離信号とする第2の音源分離工程と、
    を有してなることを特徴とする音源分離方法。
JP2006241861A 2006-01-23 2006-09-06 音源分離装置、音源分離プログラム及び音源分離方法 Active JP4496186B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006241861A JP4496186B2 (ja) 2006-01-23 2006-09-06 音源分離装置、音源分離プログラム及び音源分離方法
US12/223,069 US20090306973A1 (en) 2006-01-23 2007-01-23 Sound Source Separation Apparatus and Sound Source Separation Method
PCT/JP2007/051009 WO2007083814A1 (ja) 2006-01-23 2007-01-23 音源分離装置及び音源分離方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006014419 2006-01-23
JP2006241861A JP4496186B2 (ja) 2006-01-23 2006-09-06 音源分離装置、音源分離プログラム及び音源分離方法

Publications (2)

Publication Number Publication Date
JP2007219479A true JP2007219479A (ja) 2007-08-30
JP4496186B2 JP4496186B2 (ja) 2010-07-07

Family

ID=38287756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006241861A Active JP4496186B2 (ja) 2006-01-23 2006-09-06 音源分離装置、音源分離プログラム及び音源分離方法

Country Status (3)

Country Link
US (1) US20090306973A1 (ja)
JP (1) JP4496186B2 (ja)
WO (1) WO2007083814A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2104374A1 (en) * 2008-03-20 2009-09-23 Dirac Research AB Spatially robust audio precompensation
EP2133707A2 (en) 2008-06-11 2009-12-16 Sony Corporation Signal processing apparatus, signal processing method, and program
KR100942143B1 (ko) * 2007-09-07 2010-02-16 한국전자통신연구원 기존 오디오 포맷의 오디오 장면 정보를 유지하는 wfs재생 방법 및 그 장치
US8194885B2 (en) 2008-03-20 2012-06-05 Dirac Research Ab Spatially robust audio precompensation
CN101996639B (zh) * 2009-08-12 2012-06-06 财团法人交大思源基金会 音频信号分离装置及其操作方法
EP2237272A3 (en) * 2009-03-30 2013-12-04 Sony Corporation Signal processing apparatus, signal processing method, and program
CN108769874A (zh) * 2018-06-13 2018-11-06 广州国音科技有限公司 一种实时分离音频的方法和装置
US10276182B2 (en) 2016-08-30 2019-04-30 Fujitsu Limited Sound processing device and non-transitory computer-readable storage medium

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
JP6005443B2 (ja) * 2012-08-23 2016-10-12 株式会社東芝 信号処理装置、方法及びプログラム
US9544687B2 (en) * 2014-01-09 2017-01-10 Qualcomm Technologies International, Ltd. Audio distortion compensation method and acoustic channel estimation method for use with same
DE102014214052A1 (de) * 2014-07-18 2016-01-21 Bayerische Motoren Werke Aktiengesellschaft Virtuelle Verdeckungsmethoden
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
US10410641B2 (en) 2016-04-08 2019-09-10 Dolby Laboratories Licensing Corporation Audio source separation
ES2713685T3 (es) * 2016-04-26 2019-05-23 Nokia Technologies Oy Métodos, aparatos y programas informáticos relativos a la modificación de una característica asociada a una señal de audio separada
CN106024005B (zh) * 2016-07-01 2018-09-25 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
US10349196B2 (en) 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
CN111128221B (zh) * 2019-12-17 2022-09-02 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质
EP3849202B1 (en) 2020-01-10 2023-02-08 Nokia Technologies Oy Audio and video processing
KR20220061467A (ko) * 2020-11-06 2022-05-13 삼성전자주식회사 전자 장치 및 이의 오디오 신호 처리 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051689A (ja) * 1999-07-02 2001-02-23 Mitsubishi Electric Inf Technol Center America Inc 信号の混合物からの特徴抽出方法およびその装置
JP2005031169A (ja) * 2003-07-08 2005-02-03 Kobe Steel Ltd 音声信号処理装置,その方法,そのプログラム
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2005091560A (ja) * 2003-09-16 2005-04-07 Nissan Motor Co Ltd 信号分離方法および信号分離装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6343268B1 (en) * 1998-12-01 2002-01-29 Siemens Corporation Research, Inc. Estimator of independent sources from degenerate mixtures
US6424960B1 (en) * 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
AU2002248164A1 (en) * 2000-11-09 2002-08-06 Hrl Laboratories, Llc Blind decomposition using fourier and wavelet transforms
US6622117B2 (en) * 2001-05-14 2003-09-16 International Business Machines Corporation EM algorithm for convolutive independent component analysis (CICA)
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
FR2862173B1 (fr) * 2003-11-07 2006-01-06 Thales Sa Procede de demodulation aveugle aux ordres superieurs d'un emetteur de forme d'onde lineaire
JP4157581B2 (ja) * 2004-12-03 2008-10-01 本田技研工業株式会社 音声認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051689A (ja) * 1999-07-02 2001-02-23 Mitsubishi Electric Inf Technol Center America Inc 信号の混合物からの特徴抽出方法およびその装置
JP2005031169A (ja) * 2003-07-08 2005-02-03 Kobe Steel Ltd 音声信号処理装置,その方法,そのプログラム
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2005091560A (ja) * 2003-09-16 2005-04-07 Nissan Motor Co Ltd 信号分離方法および信号分離装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100942143B1 (ko) * 2007-09-07 2010-02-16 한국전자통신연구원 기존 오디오 포맷의 오디오 장면 정보를 유지하는 wfs재생 방법 및 그 장치
EP2104374A1 (en) * 2008-03-20 2009-09-23 Dirac Research AB Spatially robust audio precompensation
US8194885B2 (en) 2008-03-20 2012-06-05 Dirac Research Ab Spatially robust audio precompensation
EP2133707A2 (en) 2008-06-11 2009-12-16 Sony Corporation Signal processing apparatus, signal processing method, and program
EP2237272A3 (en) * 2009-03-30 2013-12-04 Sony Corporation Signal processing apparatus, signal processing method, and program
CN101996639B (zh) * 2009-08-12 2012-06-06 财团法人交大思源基金会 音频信号分离装置及其操作方法
US10276182B2 (en) 2016-08-30 2019-04-30 Fujitsu Limited Sound processing device and non-transitory computer-readable storage medium
CN108769874A (zh) * 2018-06-13 2018-11-06 广州国音科技有限公司 一种实时分离音频的方法和装置

Also Published As

Publication number Publication date
US20090306973A1 (en) 2009-12-10
JP4496186B2 (ja) 2010-07-07
WO2007083814A1 (ja) 2007-07-26

Similar Documents

Publication Publication Date Title
JP4496186B2 (ja) 音源分離装置、音源分離プログラム及び音源分離方法
JP4897519B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP5444472B2 (ja) 音源分離装置、音源分離方法、及び、プログラム
JP4675177B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
EP1993320B1 (en) Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
TWI426502B (zh) 用於獲得提取環境信號的加權係數的裝置和方法中的用於提取環境信號的裝置和方法以及電腦程式
JP5666023B2 (ja) 残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法
EP3175445B1 (en) Apparatus and method for enhancing an audio signal, sound enhancing system
JP4462617B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
CN113574597B (zh) 用于使用声音质量的估计和控制的源分离的装置和方法
CN104637491A (zh) 用于内部mmse计算的基于外部估计的snr的修改器
KR20140021055A (ko) 스펙트럼 무게 발생기를 사용하는 주파수-영역 처리를 이용하는 스테레오 레코딩 분해를 위한 방법 및 장치
CN104637493A (zh) 改进噪声抑制性能的语音概率存在修改器
JP4493690B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
Pandey et al. Multichannel speech enhancement without beamforming
Song et al. An integrated multi-channel approach for joint noise reduction and dereverberation
Fan et al. A regression approach to binaural speech segregation via deep neural network
Westhausen et al. Low bit rate binaural link for improved ultra low-latency low-complexity multichannel speech enhancement in Hearing Aids
JP2020012980A (ja) 信号処理装置、信号処理プログラム、信号処理方法、及び収音装置
Miyazaki et al. Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction
Tammen et al. Combining binaural LCMP beamforming and deep multi-frame filtering for joint dereverberation and interferer reduction in the Clarity-2021 challenge
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
RU2788939C1 (ru) Способ и устройство для определения глубокого фильтра

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100330

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100412

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140416

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350