JP2007034184A - 音源分離装置,音源分離プログラム及び音源分離方法 - Google Patents
音源分離装置,音源分離プログラム及び音源分離方法 Download PDFInfo
- Publication number
- JP2007034184A JP2007034184A JP2005220972A JP2005220972A JP2007034184A JP 2007034184 A JP2007034184 A JP 2007034184A JP 2005220972 A JP2005220972 A JP 2005220972A JP 2005220972 A JP2005220972 A JP 2005220972A JP 2007034184 A JP2007034184 A JP 2007034184A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- separation
- signals
- signal
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/02—Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
- H04H60/04—Studio equipment; Interconnection of studios
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Abstract
【課題】 音源分離性能を確保しつつ,実用的なプロセッサを用いても音響環境の変化に対して即応性の高い音源分離を行うこと。
【解決手段】 時間領域における所定時間長分の複数の混合音声信号ごとに,これに離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ順次変換し,その変換後の信号が周波数帯域によって複数に分割された信号ごとに,これを用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を,複数のDSP105に分担させて並行処理することにより分離行列を順次算出し,これにより算出された分離行列を用いて行列演算を行うことにより,周波数領域における混合音声信号から各音源に対応する分離信号を生成し,その分離信号に逆離散フーリエ変換を施す。
【選択図】図1
【解決手段】 時間領域における所定時間長分の複数の混合音声信号ごとに,これに離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ順次変換し,その変換後の信号が周波数帯域によって複数に分割された信号ごとに,これを用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を,複数のDSP105に分担させて並行処理することにより分離行列を順次算出し,これにより算出された分離行列を用いて行列演算を行うことにより,周波数領域における混合音声信号から各音源に対応する分離信号を生成し,その分離信号に逆離散フーリエ変換を施す。
【選択図】図1
Description
本発明は,所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で,その音声入力手段各々を通じて入力される前記音源各々からの個別音声信号が重畳された複数の混合音声信号から前記個別音声信号を分離(同定)する音源分離装置,音源分離プログラム及び音源分離方法に関するものである。
所定の音響空間に複数の音源と複数のマイク(音声入力手段)とが存在する場合,その複数のマイクごとに,複数の音源各々からの個別音声信号(以下,音源信号という)が重畳された音声信号(以下,混合音声信号という)が取得される。このようにして取得(入力)された複数の前記混合音声信号のみに基づいて,前記音源信号各々を同定(分離)する音源分離処理の方式は,ブラインド音源分離方式(Blind Source Separation方式,以下,BSS方式という)と呼ばれる。
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクを通じて入力される複数の前記混合音声信号(時系列の音声信号)において,前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し,入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際,分離行列の最適化は,ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて,逐次計算(学習計算)により以降に用いる分離行列を計算することによって行われる。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献1〜5等に詳説されている。さらに,非特許文献6には,多段階のICA法に基づくBSS方式の音源分離処理について示されている。
また,特許文献1には,周波数領域におけるブラインド音源分離処理において,permutation(周波数解析窓ごとに分離音源の入れ替わりが発生する現象)の問題を分離信号の類似度計算によって解決する技術が示されている。
特開2004−145172号公報
猿渡洋,「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告,vol.EA2001-7,pp.49-56,April 2001.
高谷智哉他,「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告,vol.US2002-87,EA2002-108,January 2003.
N.Murata and S. Ikeda. A on-line algorithm for blind source separation on speech signals. In Proceedings of NOLTA'98, pp. 923-926,1998
梶田,小林,武田,板倉,「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」,日本音響学会誌,53巻5号,pp.337-345 (1997)
鵜飼訓史他,「周波数領域ICAと時間領域ICAを統合したSIMOモデル信号のブラインド抽出法の評価」,電子情報通信学会技術報告,vol.EA2004-23, pp.37-42,June 2004
T.Nishikawa, H.Saruwatari, and K.Shikano,"Comparison of blind source separation methods based on time-domain ICA using nonstationarity and multistage ICA",IEICE Technical Report, vol.EA2001-112, pp49-56, April 2001.
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクを通じて入力される複数の前記混合音声信号(時系列の音声信号)において,前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し,入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際,分離行列の最適化は,ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて,逐次計算(学習計算)により以降に用いる分離行列を計算することによって行われる。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献1〜5等に詳説されている。さらに,非特許文献6には,多段階のICA法に基づくBSS方式の音源分離処理について示されている。
また,特許文献1には,周波数領域におけるブラインド音源分離処理において,permutation(周波数解析窓ごとに分離音源の入れ替わりが発生する現象)の問題を分離信号の類似度計算によって解決する技術が示されている。
しかしながら,前記音源信号の独立性に着目したICA法に基づくBSS方式による音源分離処理は,分離行列を求める逐次計算(学習計算)を十分に行えば高い音源分離性能(前記音源信号の同定性能)が得られるものの,十分な音源分離性能を得るためには,分離処理(フィルタ処理)に用いる分離行列を求めるための逐次計算(学習計算)の回数が増えるので演算負荷が高くなり,その計算を実用的なプロセッサで行うと入力される混合音声信号の時間長に対して数倍の時間を要する。その結果,音源分離処理自体はリアルタイム処理が可能であっても,その音源分離処理に用いる分離行列の更新周期(学習周期)が長くなり,音響環境の変化に即応できないという問題点があった。このことは,例えば,2ch,8KHzの混合音声信号についての音源分離処理においてもいえることであり,ましてやチャンネル数(マイク数)の増加(2個→3個等)や,混合音声信号のサンプリングレート向上(8KHz→16KHz等)がなされた場合には,益々学習計算の処理量増大による実用性低下の問題が顕著となる。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,音源分離性能を確保しつつ,実用的なプロセッサ(コンピュータ)を用いても音響環境の変化に対して即応性の高い音源分離装置,音源分離プログラム及び音源分離方法を提供することにある。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,音源分離性能を確保しつつ,実用的なプロセッサ(コンピュータ)を用いても音響環境の変化に対して即応性の高い音源分離装置,音源分離プログラム及び音源分離方法を提供することにある。
上記目的を達成するために本発明は,複数の音声入力手段(マイクロホン)を通じて逐次入力される複数の音源からの音源信号が重畳された複数の混合音声信号から,前記音源信号に対応する分離信号を逐次生成する音源分離装置,或いはそのプログラム若しくはその方法に適用されるものであり,時間領域における所定時間長分の複数の前記混合音声信号ごとに,これに離散フーリエ変換処理を施して周波数領域における複数の混合音声信号(以下,周波数領域単位混合音声信号という)へ順次変換する処理と,その周波数領域単位混合音声信号が周波数帯域によって複数に分割された信号(以下,周波数領域分割混合音声信号という)ごとに,これを用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を,複数のプロセッサ(コンピュータ)に分担させて並行処理することにより前記分離行列を順次算出する処理と,これにより算出された前記分離行列を用いて行列演算を行うことにより,前記周波数領域単位混合音声信号から前記音源信号に対応する前記分離信号を生成する処理を順次行う処理(以下,音源分離処理という)と,これにより生成された前記分離信号の1又は複数に逆離散フーリエ変換を施す(時間領域へ戻す)処理とを実行する或いはコンピュータに実行させるものである。
これにより,複数のプロセッサ(コンピュータ)個々は実用的・一般的なものであっても,それらの並列処理により比較的短周期で分離行列の学習計算を行うことができるので,音源分離性能を確保しつつ,音響環境の変化に対して即応性の高い音源分離が可能となる。
これにより,複数のプロセッサ(コンピュータ)個々は実用的・一般的なものであっても,それらの並列処理により比較的短周期で分離行列の学習計算を行うことができるので,音源分離性能を確保しつつ,音響環境の変化に対して即応性の高い音源分離が可能となる。
また,前記複数のプロセッサ(コンピュータ)各々の負荷状況に基づいて,その複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を設定するものであれば,各プロセッサが音源分離以外の他の処理に兼用されるものである場合に,一部のプロセッサが音源分離以外の他の処理によって一時的に高負荷となったときでも,その高負荷のプロセッサが行う学習計算の処理がボトルネックとなって分離行列の学習計算全体の完了が遅延することを防止できる。
例えば,前記複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を,予め定められた複数の候補の中から前記複数のプロセッサ各々の負荷状況に応じて選択することにより設定することが考えられる。
これにより,各プロセッサの負荷変動のパターンが予め想定される場合には,簡易に適切な負荷配分を行うことができる。
その他,前記複数のプロセッサ各々における前記分離行列の学習に要した実績時間を検出し,その検出結果に基づいて複数のプロセッサ各々による前記分離行列の学習計算が同時或いはほぼ同時に終了するよう複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を計算して設定することも考えられる。
これにより,各プロセッサの負荷配分を最適化できる。また,各プロセッサの負荷変動を予め想定できないような場合であっても適用できる。
例えば,前記複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を,予め定められた複数の候補の中から前記複数のプロセッサ各々の負荷状況に応じて選択することにより設定することが考えられる。
これにより,各プロセッサの負荷変動のパターンが予め想定される場合には,簡易に適切な負荷配分を行うことができる。
その他,前記複数のプロセッサ各々における前記分離行列の学習に要した実績時間を検出し,その検出結果に基づいて複数のプロセッサ各々による前記分離行列の学習計算が同時或いはほぼ同時に終了するよう複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を計算して設定することも考えられる。
これにより,各プロセッサの負荷配分を最適化できる。また,各プロセッサの負荷変動を予め想定できないような場合であっても適用できる。
本発明によれば,複数のプロセッサ(コンピュータ)個々は実用的・一般的なものであっても,それらの並列処理により比較的短周期で分離行列の学習計算を行うことができるので,音源分離性能を確保しつつ,音響環境の変化に対して即応性の高い音源分離が可能となる。
また,複数のプロセッサ(コンピュータ)各々の負荷状況に基づいて,その複数のプロセッサ各々に分担させる混合音声信号各々の配分を設定することにより,各プロセッサが音源分離以外の他の処理に兼用されるものである場合に,一部のプロセッサが他の処理によって一時的に高負荷となったときでも,その高負荷のプロセッサが行う学習計算の処理がボトルネックとなって分離行列の学習計算全体の完了が遅延することを防止できる。
また,複数のプロセッサ(コンピュータ)各々の負荷状況に基づいて,その複数のプロセッサ各々に分担させる混合音声信号各々の配分を設定することにより,各プロセッサが音源分離以外の他の処理に兼用されるものである場合に,一部のプロセッサが他の処理によって一時的に高負荷となったときでも,その高負荷のプロセッサが行う学習計算の処理がボトルネックとなって分離行列の学習計算全体の完了が遅延することを防止できる。
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図,図2は音源分離装置Xの音源分離処理の手順を表すフローチャート,図3は音源分離装置Xにおける分離行列計算の第1例を説明するためのタイムチャート,図4は音源分離装置Xにおける分離行列計算の第2例を説明するためのタイムチャート,図5はTDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Z1の概略構成を表すブロック図,図6はFDICA法に基づく音源分離処理を行う音源分離装置Z2の概略構成を表すブロック図である。
ここに,図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図,図2は音源分離装置Xの音源分離処理の手順を表すフローチャート,図3は音源分離装置Xにおける分離行列計算の第1例を説明するためのタイムチャート,図4は音源分離装置Xにおける分離行列計算の第2例を説明するためのタイムチャート,図5はTDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Z1の概略構成を表すブロック図,図6はFDICA法に基づく音源分離処理を行う音源分離装置Z2の概略構成を表すブロック図である。
まず,本発明の実施形態について説明する前に,図5及び図6に示すブロック図を用いて,本発明の構成要素として適用可能な各種のICA法に基づくブラインド音源分離方式(以下,ICA−BSS方式という)の音源分離装置の例について説明する。
なお,以下に示す音源分離処理或いはその処理を行う装置等は,いずれも所定の音響空間に複数の音源と複数のマイクロホン(音声入力手段)とが存在する状態で,そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号(以下,音源信号という)が重畳された複数の混合音声信号から,1以上の音源信号を分離(同定)した分離信号を生成して出力信号とする音源分離処理或いはその処理を行う装置等に関するものである。
なお,以下に示す音源分離処理或いはその処理を行う装置等は,いずれも所定の音響空間に複数の音源と複数のマイクロホン(音声入力手段)とが存在する状態で,そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号(以下,音源信号という)が重畳された複数の混合音声信号から,1以上の音源信号を分離(同定)した分離信号を生成して出力信号とする音源分離処理或いはその処理を行う装置等に関するものである。
図5は,ICA法の一種である時間領域独立成分分析法(time-domain independent component analysis法,以下,TDICA法という)に基づくBSS方式の音源分離処理を行う従来の音源分離装置Z1の概略構成を表すブロック図である。なお,本処理の詳細は,非特許文献1や非特許文献2等に示されている。
音源分離装置Zは,分離フィルタ処理部11により,2つの音源1,2からの音源信号S1(t),S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)について,分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。
図5には,2つの音源1,2からの音源信号S1(t),S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)に基づいて音源分離を行う例について示しているが,2チャンネル以上であっても同様である。ICA法に基づくBSS方式による音源分離の場合,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であればよい。
複数のマイクロホン111,112各々で集音された各混合音声信号x1(t),x2(t)には,複数音源からの音源信号が重畳されている。以下,各混合音声信号x1(t),x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され,次の(1)式のように表される。
TDICAによる音源分離の理論は,この音源信号S(t)のそれぞれの音源同士が統計的に独立であることを利用すると,x(t)がわかればS(t)を推測することができ,従って,音源を分離することができるという発想に基づく理論である。
ここで,当該音源分離処理に用いる分離行列をW(z)とすれば,分離信号(即ち,同定信号)y(t)は,次の(2)式で表される。
ここで,W(z)は,出力y(t)から逐次計算(学習計算)により求められる。また,分離信号は,チャンネルの数だけ得られる。
なお,音源合成処理はこのW(z)に関する情報により,逆演算処理に相当する配列を形成し,これを用いて逆演算を行えばよい。また,分離行列W(z)の逐次計算を行う際の分離行列の初期値(初期行列)は,予め定められたものが設定される。
このようなICA法に基づくBSS方式による音源分離を行うことにより,例えば,人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から,歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで,(2)式は,次の(3)式のように書き換えて表現できる。
そして,(3)式における分離フィルタ(分離行列)W(n)は,次の(4)式により逐次計算される。即ち,前回(j)の出力y(t)を(4)式に逐次適用することより,今回(j+1)のW(n)を求める。
音源分離装置Zは,分離フィルタ処理部11により,2つの音源1,2からの音源信号S1(t),S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)について,分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。
図5には,2つの音源1,2からの音源信号S1(t),S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)に基づいて音源分離を行う例について示しているが,2チャンネル以上であっても同様である。ICA法に基づくBSS方式による音源分離の場合,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であればよい。
複数のマイクロホン111,112各々で集音された各混合音声信号x1(t),x2(t)には,複数音源からの音源信号が重畳されている。以下,各混合音声信号x1(t),x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され,次の(1)式のように表される。
ここで,当該音源分離処理に用いる分離行列をW(z)とすれば,分離信号(即ち,同定信号)y(t)は,次の(2)式で表される。
なお,音源合成処理はこのW(z)に関する情報により,逆演算処理に相当する配列を形成し,これを用いて逆演算を行えばよい。また,分離行列W(z)の逐次計算を行う際の分離行列の初期値(初期行列)は,予め定められたものが設定される。
このようなICA法に基づくBSS方式による音源分離を行うことにより,例えば,人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から,歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで,(2)式は,次の(3)式のように書き換えて表現できる。
次に,図6に示すブロック図を用いて,ICA法の一種であるFDICA法(Frequency-Domain ICA)に基づく音源分離処理を行う従来の音源分離装置Z2について説明する。
FDICA法では,まず,入力された混合音声信号x(t)について,ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform,以下,ST−DFT処理という)を行い,観測信号の短時間分析を行う。そして,そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(5)式のように表すことができる。
ここで,分離フィルタW(f)の更新式は,例えば次の(6)式のように表すことができる。
このFDICA法によれば,音源分離処理が各狭帯域における瞬時混合問題として取り扱われ,比較的簡単かつ安定に分離フィルタ(分離行列)W(f)を更新することができる。
ここで,FDICA法における分離行列W(f)の学習計算では,周波数ビンごとに独立して学習が可能である(相互に演算結果が干渉しない)。従って,全周波数帯域を周波数ビンの単位で複数に区分すれば,その区分した周波数帯域各々について学習計算を並行処理(並列処理)することができる。
このFDICA法(FDICA方式)が,本発明における,独立成分分析法に基づくブラインド音源分離方式における分離行列W(f)の学習計算する処理,及びその分離行列W(f)を用いて行列演算を行うことにより複数の前記混合音声信号から音源信号に対応する分離信号を逐次生成する処理に適用されるものである。
FDICA法では,まず,入力された混合音声信号x(t)について,ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform,以下,ST−DFT処理という)を行い,観測信号の短時間分析を行う。そして,そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(5)式のように表すことができる。
ここで,FDICA法における分離行列W(f)の学習計算では,周波数ビンごとに独立して学習が可能である(相互に演算結果が干渉しない)。従って,全周波数帯域を周波数ビンの単位で複数に区分すれば,その区分した周波数帯域各々について学習計算を並行処理(並列処理)することができる。
このFDICA法(FDICA方式)が,本発明における,独立成分分析法に基づくブラインド音源分離方式における分離行列W(f)の学習計算する処理,及びその分離行列W(f)を用いて行列演算を行うことにより複数の前記混合音声信号から音源信号に対応する分離信号を逐次生成する処理に適用されるものである。
以下,図1に示すブロック図を用いて,本発明の実施形態に係る音源分離装置Xについて説明する。
音源分離装置Xは,複数(n個以下)の音源が存在する音響空間において用いられるものであり,複数のマイクロホン101(音声入力手段)を通じて逐次入力される複数の音源からの音源信号が各々重畳された複数の混合音声信号から,各音源信号に対応する分離信号を逐次生成するものである。
図1に示すように,音源分離装置Xは,上記音響空間に配置された複数(n個)のマイクロホン101各々が接続される複数(n個)のマイク入力端子102と,そのマイク入力端子102各々を通じて入力される混合音声信号(複数の音源信号が重畳された信号)各々について,信号を増幅するアンプ103及び信号をデジタル信号に変換するA/Dコンバータ104と,デジタル信号化された複数(n個)の混合音声信号各々に対応し,その各々を入力して信号処理を行う複数(n個)のDSP105(Digital Signal Processor,プロセッサの一例,以下,個々のDSPをDSP1〜DSPnという)と,その1つ(DSP1)から逐次出力される音源分離処理後の複数(n個)の分離信号各々をアナログ信号に変換するD/Aコンバータ106と,アナログ信号化された複数(n個)の分離信号各々を増幅するアンプ107と,外部の複数(n個)のスピーカ109に対する接続端子として増幅後の分離信号の信号ライン各々に設けられたスピーカ出力端子108と,各DSP105によって各種のデータが読み書きされる不揮発性のフラッシュメモリ等であるメモリ112と,DSP105相互間及び各DSP105とメモリ112間のデータ伝送経路となるバス111と,当該音源分離装置Xの各構成要素に電力を供給するバッテリー110とを具備している。
音源分離装置Xは,複数(n個以下)の音源が存在する音響空間において用いられるものであり,複数のマイクロホン101(音声入力手段)を通じて逐次入力される複数の音源からの音源信号が各々重畳された複数の混合音声信号から,各音源信号に対応する分離信号を逐次生成するものである。
図1に示すように,音源分離装置Xは,上記音響空間に配置された複数(n個)のマイクロホン101各々が接続される複数(n個)のマイク入力端子102と,そのマイク入力端子102各々を通じて入力される混合音声信号(複数の音源信号が重畳された信号)各々について,信号を増幅するアンプ103及び信号をデジタル信号に変換するA/Dコンバータ104と,デジタル信号化された複数(n個)の混合音声信号各々に対応し,その各々を入力して信号処理を行う複数(n個)のDSP105(Digital Signal Processor,プロセッサの一例,以下,個々のDSPをDSP1〜DSPnという)と,その1つ(DSP1)から逐次出力される音源分離処理後の複数(n個)の分離信号各々をアナログ信号に変換するD/Aコンバータ106と,アナログ信号化された複数(n個)の分離信号各々を増幅するアンプ107と,外部の複数(n個)のスピーカ109に対する接続端子として増幅後の分離信号の信号ライン各々に設けられたスピーカ出力端子108と,各DSP105によって各種のデータが読み書きされる不揮発性のフラッシュメモリ等であるメモリ112と,DSP105相互間及び各DSP105とメモリ112間のデータ伝送経路となるバス111と,当該音源分離装置Xの各構成要素に電力を供給するバッテリー110とを具備している。
本実施形態では,全てのDSP1〜DSPn各々により,前述のFDICA方式における分離行列W(f)の学習計算を分担して並行処理し,そのうちの1つのDSP1により,全てのDSP1〜DSPnで分担して学習された分離行列W(f)を用いた行列演算を逐次行うことによって混合音声信号に対して音源分離処理を施す。これにより,複数のマイクロホン101(音声入力手段)を通じて逐次入力される複数の音源からの音源信号が各々重畳された複数の混合音声信号から,各音源信号に対応する分離信号が逐次生成され,スピーカ109するものである。
これにより,n個以下の音源各々の個別の信号(音源信号)に相当する分離信号,n個のスピーカ109のいずれかから個別に出力される。この音源分離装置Xは,例えば,ハンズフリー電話機やテレビ会議の収音装置等への利用が可能なものである。
各DSP1〜DSPnは,内蔵ROMに予め記憶された音声処理プログラムを内蔵MPU(演算部)で実行することにより,音源分離に関する処理(学習計算及び分離行列を用いた行列計算(分離信号出力処理))及びその他の処理を行う。
なお,本発明は,前記DSP105等のプロセッサ(コンピュータ)により実行される音源分離プログラム或いは前記DSP105が実行する処理を行う音源分離方法として捉えることもできる。
これにより,n個以下の音源各々の個別の信号(音源信号)に相当する分離信号,n個のスピーカ109のいずれかから個別に出力される。この音源分離装置Xは,例えば,ハンズフリー電話機やテレビ会議の収音装置等への利用が可能なものである。
各DSP1〜DSPnは,内蔵ROMに予め記憶された音声処理プログラムを内蔵MPU(演算部)で実行することにより,音源分離に関する処理(学習計算及び分離行列を用いた行列計算(分離信号出力処理))及びその他の処理を行う。
なお,本発明は,前記DSP105等のプロセッサ(コンピュータ)により実行される音源分離プログラム或いは前記DSP105が実行する処理を行う音源分離方法として捉えることもできる。
次に,図2に示すフローチャートを参照しつつ,各DSP1〜DSPnにより実行される音源分離処理の手順について説明する。本実施形態では,音源分離処理に関しては,DSP2〜DSPn(以下,DSP2-nとする)は同等の内容の処理を行うものとして,DSP1とその他のDSP2-nとに分けて処理を説明する。以下に示す処理は,音源分離装置Xが備える操作ボタン等の操作部(不図示)から所定の処理開始操作がなされたことが検知された場合に開始し,所定の終了操作がなされたことが検知された場合に終了する。なお,以下に示すS11,S12,…は,処理手順(ステップ)の識別符号を表す。
まず,処理開始操作が検知されると,DSP1,DSP2-n各々において,各種初期設定処理が行われる(S11,S30)。
例えば,分離行列W(f)の初期値設定や,後述するように各DSP1〜DSP2-nが分担して分離行列W(f)の学習計算を実行する際の処理の分担度合い(配分)の初期値設定等である。
まず,処理開始操作が検知されると,DSP1,DSP2-n各々において,各種初期設定処理が行われる(S11,S30)。
例えば,分離行列W(f)の初期値設定や,後述するように各DSP1〜DSP2-nが分担して分離行列W(f)の学習計算を実行する際の処理の分担度合い(配分)の初期値設定等である。
次に,DSP1,DSP2-n各々は,逐次入力される時間領域における混合音声信号x(t)を前記A/Dコンバータ104から逐次取得し(S12,S31),その混合音声信号x(t)における所定時間長分(例えば,3秒分)のフレーム信号ごとに,短時間離散フーリエ変換処理(ST−DFT処理)を施すことによって周波数領域の信号へ変換する(S13,S32)とともに,その周波数領域に変換されたフレーム信号を,内蔵する主記憶メモリ(RAM)内にバッファリングする(S14,S33)。これにより,時間領域における複数のフレーム信号が,周波数領域における複数のフレーム信号(周波数領域単位混合音声信号の一例)へ変換され(周波数領域変換処理の一例),主記憶メモリに一時記憶される。
以後,1つのフレーム信号が入力されるごとに(フレーム信号の時間長の周期で),そのフレーム信号に対してST−DFT処理を施して,周波数領域における複数の混合音声信号(周波数領域単位混合音声信号)へ順次変換しつつバッファリングする処理(S12〜S14,S31〜S33)が,終了操作がなされるまで周期的に繰り返される。
なお,ここでは,各DSP各々においてST−DFT処理を行っているが,本処理は低負荷の処理であるため特に負荷増大の弊害は生じないが,いずれか1つのDSPのみでST−DFT処理を行い,その結果を他のDSPに転送して用いる構成としてもよい。
以後,1つのフレーム信号が入力されるごとに(フレーム信号の時間長の周期で),そのフレーム信号に対してST−DFT処理を施して,周波数領域における複数の混合音声信号(周波数領域単位混合音声信号)へ順次変換しつつバッファリングする処理(S12〜S14,S31〜S33)が,終了操作がなされるまで周期的に繰り返される。
なお,ここでは,各DSP各々においてST−DFT処理を行っているが,本処理は低負荷の処理であるため特に負荷増大の弊害は生じないが,いずれか1つのDSPのみでST−DFT処理を行い,その結果を他のDSPに転送して用いる構成としてもよい。
次に,DSP1においては,その処理が,前述のステップS12〜S14の処理と,分離行列W(f)の学習計算に関する処理(S21〜S26)と,分離行列W(f)を用いた行列演算(フィルタ演算)を行うことによる分離信号の生成に関する処理(音源分離処理,S15〜S20)との3つに分岐し,それらが並行処理される。
一方,他のDSP2-nにおいては,前述のステップS31〜S33の処理と,DSP1とともに分担して行う分離行列W(f)の学習計算に関する処理(S34〜S39)との2つに分岐し,それらが並行処理される。
ここで,各DSP1〜DSPnに対し,周波数領域におけるフレーム信号(周波数領域単位混合音声信号)が周波数帯域によって複数に分割された各信号(以下,分割フレーム信号という,周波数領域分割混合音声信号の一例)の分担(即ち,学習計算する周波数帯の分担)が予め設定されており,その初期値は前述したステップS11,S31の初期設定の際に設定され,その後,後述する配分設定処理(S26)によって随時変更される。
一方,他のDSP2-nにおいては,前述のステップS31〜S33の処理と,DSP1とともに分担して行う分離行列W(f)の学習計算に関する処理(S34〜S39)との2つに分岐し,それらが並行処理される。
ここで,各DSP1〜DSPnに対し,周波数領域におけるフレーム信号(周波数領域単位混合音声信号)が周波数帯域によって複数に分割された各信号(以下,分割フレーム信号という,周波数領域分割混合音声信号の一例)の分担(即ち,学習計算する周波数帯の分担)が予め設定されており,その初期値は前述したステップS11,S31の初期設定の際に設定され,その後,後述する配分設定処理(S26)によって随時変更される。
以下,各DSPにおける学習計算処理について説明する。
まず,各DSP1〜DSPnは,バッファリングされた周波数領域に変換後のフレーム信号(混合音声信号)から,自身が分担するよう設定された周波数帯の分割フレーム信号を抽出する(S21,S34)。
さらに,各DSP1〜DSPnは,抽出した分割フレーム信号,即ち,周波数領域のフレーム信号(所定時間長分の混合音声信号)が周波数帯域によって複数に分割された信号ごとに,これを用いたFDICA方式(独立成分分析法に基づくブラインド音源分離方式)における分離行列W(f)の学習計算を,複数のDSP1〜DSPnにより分担して並行処理する(S22,S35)。加えて,DSP2-nが,各々担当分の学習計算終了時にDSP1に対して学習終了通知を行う(S36)。一方,これを受けたDSP1が,自己の担当分の学習計算を含め,全てのDSPでの学習計算が終了することを監視する(S23)。これら一連の分離行列算出に関する処理は,フレーム信号ごとに順次繰り返される。
なお,学習計算中に参照及び逐次更新される分離行列は,後述する音源分離処理(S16)に用いられる分離行列とは別個にワーク変数として設定されたワーク行列である。
ここで,学習終了通知の際,学習計算を分担した各DSP2-nは,今回の学習計算を行った際の演算負荷の状況を表す指標を検知してDSP1に通知する。同様に,DSP1も同じ指標を検知する。その詳細については後述する。
まず,各DSP1〜DSPnは,バッファリングされた周波数領域に変換後のフレーム信号(混合音声信号)から,自身が分担するよう設定された周波数帯の分割フレーム信号を抽出する(S21,S34)。
さらに,各DSP1〜DSPnは,抽出した分割フレーム信号,即ち,周波数領域のフレーム信号(所定時間長分の混合音声信号)が周波数帯域によって複数に分割された信号ごとに,これを用いたFDICA方式(独立成分分析法に基づくブラインド音源分離方式)における分離行列W(f)の学習計算を,複数のDSP1〜DSPnにより分担して並行処理する(S22,S35)。加えて,DSP2-nが,各々担当分の学習計算終了時にDSP1に対して学習終了通知を行う(S36)。一方,これを受けたDSP1が,自己の担当分の学習計算を含め,全てのDSPでの学習計算が終了することを監視する(S23)。これら一連の分離行列算出に関する処理は,フレーム信号ごとに順次繰り返される。
なお,学習計算中に参照及び逐次更新される分離行列は,後述する音源分離処理(S16)に用いられる分離行列とは別個にワーク変数として設定されたワーク行列である。
ここで,学習終了通知の際,学習計算を分担した各DSP2-nは,今回の学習計算を行った際の演算負荷の状況を表す指標を検知してDSP1に通知する。同様に,DSP1も同じ指標を検知する。その詳細については後述する。
そして,DSP1は,全てのDSPでの学習計算が終了したと判別すると,学習後の分離行列W(f)について,分担処理した各周波数帯ごとの係数交差修正(一般に,permutation問題の解決といわれる)や,ゲイン調整等を行う後処理を実行し(S24),さらに,音源分離に用いられる分離行列W(f)を,その後処理後の分離行列W(f)に更新する(S25)。即ち,学習のために設けたワーク行列の内容を分離処理に用いる分離行列W(f)の内容に反映させる。
これにより,以後の音源分離処理(後述するステップS16)は,更新後の分離行列W(f)を用いた行列演算(フィルタ処理)により行われる。
さらに,DSP1は,学習計算を分担した複数のDSP1〜DSPn各々における,今回の学習計算を行った際の負荷状況(ステップS36で検知及び通知された演算負荷の状況を表す指標)に基づいて,次回の(後続するフレーム信号についての)学習計算を行う際にDSP1〜DSPn各々に分担させる前記分割フレーム信号(周波数領域分割混合音声信号)各々の配分を設定し,その設定結果である配分情報を各DSP2-nに通知する(S26,信号配分設定処理の一例)。一方,他のDSP2-nは,その配分情報を取得する(S37)。
分割フレーム信号の配分情報は,例えば,フレーム信号(混合音声信号)について,処理対象とする全周波数帯域を予め設定し,その全周波数帯域を均等に分割した個々の周波数ビン(分割周波数帯域)の番号を0〜Mとしたときに,DSP1には0〜m1,DSP2にはm1+1〜m2,DSP3にはm2+1〜m3,…,DSPnにはmn〜Mの各周波数ビン(帯域)を分担させる(配分する),といった情報である。
これにより,DSP1〜DSPn各々が,後続する次のフレーム信号の処理の際のステップS21,S34において,そのフレーム信号からいずれの周波数帯域の信号を分割フレーム信号として抽出するかが定まる。
なお,前記配分情報とその情報に基づく分割フレーム信号の配分の具体例については後述する。
これにより,以後の音源分離処理(後述するステップS16)は,更新後の分離行列W(f)を用いた行列演算(フィルタ処理)により行われる。
さらに,DSP1は,学習計算を分担した複数のDSP1〜DSPn各々における,今回の学習計算を行った際の負荷状況(ステップS36で検知及び通知された演算負荷の状況を表す指標)に基づいて,次回の(後続するフレーム信号についての)学習計算を行う際にDSP1〜DSPn各々に分担させる前記分割フレーム信号(周波数領域分割混合音声信号)各々の配分を設定し,その設定結果である配分情報を各DSP2-nに通知する(S26,信号配分設定処理の一例)。一方,他のDSP2-nは,その配分情報を取得する(S37)。
分割フレーム信号の配分情報は,例えば,フレーム信号(混合音声信号)について,処理対象とする全周波数帯域を予め設定し,その全周波数帯域を均等に分割した個々の周波数ビン(分割周波数帯域)の番号を0〜Mとしたときに,DSP1には0〜m1,DSP2にはm1+1〜m2,DSP3にはm2+1〜m3,…,DSPnにはmn〜Mの各周波数ビン(帯域)を分担させる(配分する),といった情報である。
これにより,DSP1〜DSPn各々が,後続する次のフレーム信号の処理の際のステップS21,S34において,そのフレーム信号からいずれの周波数帯域の信号を分割フレーム信号として抽出するかが定まる。
なお,前記配分情報とその情報に基づく分割フレーム信号の配分の具体例については後述する。
以上のようにして,DSP1においては,分離行列W(f)の学習計算に関する処理(S21〜S26)が,終了操作がなされるまで順次繰り返される。
一方,DSP2-nは,前記配分情報の取得(S37)の後,状況に応じてその他の処理を実行(S38)した後,終了操作がなされたことが検知(S39)されるまで,ステップS34〜S39の処理を繰り返す。これにより,後述する音源分離に用いられる分離行列W(f)が,学習計算によって定期的に更新される。
なお,ここでは,DSP1において,学習計算終了の監視から更新に至る処理(S23〜S25)や,配分設定・通知処理(S26)を行う例を示したが,DSP1以外の他のDSP2-nのいずれか1つで行う或いは複数で分担して行うよう構成してもよい。
一方,DSP2-nは,前記配分情報の取得(S37)の後,状況に応じてその他の処理を実行(S38)した後,終了操作がなされたことが検知(S39)されるまで,ステップS34〜S39の処理を繰り返す。これにより,後述する音源分離に用いられる分離行列W(f)が,学習計算によって定期的に更新される。
なお,ここでは,DSP1において,学習計算終了の監視から更新に至る処理(S23〜S25)や,配分設定・通知処理(S26)を行う例を示したが,DSP1以外の他のDSP2-nのいずれか1つで行う或いは複数で分担して行うよう構成してもよい。
一方,DSP1においては,以上示したDSP1〜DSPnによる分離行列W(f)の学習計算処理と並行して,以下に示す分離信号の生成に関する処理(S15〜S20)が行われる。
即ち,まず,DSP1は,分離行列W(f)が前述した学習計算により少なくとも初期行列から既に更新されたものとなったか否かを監視し(S15),更新されているときは,その分離行列W(f)を用いて,バッファリングされた複数(n個)のフレーム信号に対してその先頭信号から順に行列演算(フィルタ処理)を順次行うことによって音源分離処理を行う(S16)。これにより,複数のフレーム信号から各音源信号に対応する分離信号が生成される。
さらに,DSP1は,ステップS16の処理で生成された分離信号各々に逆離散フーリエ変換(IDFT処理)を施す(S17,時間領域変換処理)。これにより,分離信号が周波数領域の信号から時間領域の信号(時系列信号)に変換される。
即ち,まず,DSP1は,分離行列W(f)が前述した学習計算により少なくとも初期行列から既に更新されたものとなったか否かを監視し(S15),更新されているときは,その分離行列W(f)を用いて,バッファリングされた複数(n個)のフレーム信号に対してその先頭信号から順に行列演算(フィルタ処理)を順次行うことによって音源分離処理を行う(S16)。これにより,複数のフレーム信号から各音源信号に対応する分離信号が生成される。
さらに,DSP1は,ステップS16の処理で生成された分離信号各々に逆離散フーリエ変換(IDFT処理)を施す(S17,時間領域変換処理)。これにより,分離信号が周波数領域の信号から時間領域の信号(時系列信号)に変換される。
さらに,DSP1は,不図示の操作部を通じて入力された指令により,ノイズ除去処理(スペクトルサブトラクション等)やイコライザ処理,MP3圧縮処理等のオプションの音声処理を行うべきことが指定されている場合には,時間領域に変換された分離信号各々に対し,その指令に従った音声処理(オプション処理)を施し,そのオプション処理後の分離信号が後段に接続された前記D/Aコンバータ106へ出力する(S18)。なお,オプション処理が指定されていない場合は,ステップS17で時間領域に変換された分離信号をそのままD/Aコンバータ106へ出力する。
さらに,DSP1は,操作部からの操作入力の受け付け等,その他の処理を実行(S19)した後,所定の終了操作がなされたか否かを判別する(S20)。そして,終了操作がなされるまで,前述したステップS11〜S14,ステップS16〜S20,及びステップS21〜S26各々の処理が順次繰り返される。
これにより,逐次入力される混合音声信号に基づき各音源に対応する分離信号が生成(分離)され,その分離信号がリアルタイムでスピーカ109から逐次出力されるとともに,その音源分離に用いられる分離行列W(f)が,学習計算によって定期的に更新される。
このような構成及び処理により,複数のプロセッサ(DSP1〜DSPn)個々は実用的・一般的なものであっても,それらの並列処理によって比較的短周期で分離行列W(f)の学習計算を行うことができるので,音源分離性能を確保しつつ,音響環境の変化に対して即応性の高い音源分離が可能となる。
さらに,DSP1は,操作部からの操作入力の受け付け等,その他の処理を実行(S19)した後,所定の終了操作がなされたか否かを判別する(S20)。そして,終了操作がなされるまで,前述したステップS11〜S14,ステップS16〜S20,及びステップS21〜S26各々の処理が順次繰り返される。
これにより,逐次入力される混合音声信号に基づき各音源に対応する分離信号が生成(分離)され,その分離信号がリアルタイムでスピーカ109から逐次出力されるとともに,その音源分離に用いられる分離行列W(f)が,学習計算によって定期的に更新される。
このような構成及び処理により,複数のプロセッサ(DSP1〜DSPn)個々は実用的・一般的なものであっても,それらの並列処理によって比較的短周期で分離行列W(f)の学習計算を行うことができるので,音源分離性能を確保しつつ,音響環境の変化に対して即応性の高い音源分離が可能となる。
ところで,本発明のように,複数のプロセッサで学習計算を分担して処理する場合,全体の学習時間が,最も処理が遅い(同じプロセッサを複数用いる場合は最も演算負荷が高い)プロセッサ(DSP)の学習時間に左右される。ここで,各DSPの演算負荷の変動が少ない場合には,各DSPにおける学習計算に要する時間がほぼ等しくなるように,予め各DSPが分担する周波数帯域(分割フレーム信号)の配分を固定的に定めておけばよい。これにより,全体の学習時間が最短となり,逐次入力される混合音声信号に基づいて短周期で分離行列W(f)を学習及び更新できるので,音響環境の変化に対して高い即応性を確保できる。
しかしながら,前述したDSP1におけるオプション処理(S18)の実行有無等が状況によって変化する場合のように,各プロセッサの演算負荷の変動が大きい場合,複数のプロセッサ全体としての処理能力に余裕があっても,その一部のプロセッサにおいて一時的に演算負荷が高くなり,他よりも学習計算に時間がかかると,全体の学習時間が長くなる。
そこで,前述したように,音源分離装置Xにおいては,DSP1が,各DSPの負荷状況を表す指標に基づいて,その複数のDSP各々に分担させる分割フレーム信号(周波数領域分割混合音声信号)各々の配分を設定する。
しかしながら,前述したDSP1におけるオプション処理(S18)の実行有無等が状況によって変化する場合のように,各プロセッサの演算負荷の変動が大きい場合,複数のプロセッサ全体としての処理能力に余裕があっても,その一部のプロセッサにおいて一時的に演算負荷が高くなり,他よりも学習計算に時間がかかると,全体の学習時間が長くなる。
そこで,前述したように,音源分離装置Xにおいては,DSP1が,各DSPの負荷状況を表す指標に基づいて,その複数のDSP各々に分担させる分割フレーム信号(周波数領域分割混合音声信号)各々の配分を設定する。
以下,ステップS26における分割フレーム信号の配分の具体例について説明する。
まず,分割フレーム信号の配分の第1の例について説明する。
この第1の例では,各DSP1〜DSPn各々が,分離行列W(f)の学習計算を行った際に,その学習計算に要した実績時間を前記演算負荷の状況の指標として検出し,その検出結果に基づいて,各DSPによる分離行列W(f)の学習計算が同時或いはほぼ同時に終了するように,各DSPに分担させる分割フレーム信号の配分(周波数ビンの配分)を計算して設定する。
ここで,DSPm(m=1〜n)における分離行列W(f)のi回目の学習計算に要した時間(実績時間)をtm(i),そのときの周波数ビン(分割周波数帯域)の分担数をkm(i),全周波数帯域の分割数(周波数ビンの数)をNとし,i回目の学習時とi+1回目の学習時とにおいて,各DSPにおける学習計算以外の演算負荷がほぼ同等であると仮定した場合,i+1回目の学習時に各DSPによる学習計算を同時に終了させる(学習時間を等しくする)ためには,例えば,次の(7)式及び(8)式からなる連立方程式を適用すればよい。
kp(i+1)・tp(i)/kp(i)=kj(i+1)・tj(i)/kj(i) …(7)
k1(i+1)+k2(i+1)+…+kn(i+1)=N …(8)
ここで,pは1〜nのうちの任意の1つの番号,jは1〜nのうちのpを除く残りの全ての番号を表す。即ち,(7)式は(n−1)個の式を表す。この連立方程式を解いて求めたk1(i+1)〜kn(i+1)に従って学習計算を分担すれば,各DSPの演算負荷が変化した際の1回の学習計算については遅延が生じ得るものの,その後は速やかにDSPの負荷状況の変化に追従して均等に負荷分散させることが可能となる。
例えば,全周波数帯域が1024分割(N=1024)され,3個(n=3)のDSP1〜DSP3で学習計算を分担する場合において,k1(i)=256,k2(i)=384,k3(i)=384,t1(i)=2(sec),t2(i)=1(sec),t3(i)=1(sec)であった場合,上記連立方程式を解くと,k1(i+1)=146.29≒146,k2(i+1)=438.86≒439,k3(i)=438.86≒439となり,予想されるi+1回目の学習計算時間は約1.15(sec)となる。即ち,配分を固定した場合の学習時間(2(sec))に比べて大幅な時間短縮となる。
これにより,各プロセッサの負荷配分を最適化できる。また,各プロセッサの負荷変動を予め想定できないような場合であっても適用できる。
なお,上記連立方程式を適用する手法は一例であり,線形計画法等の他の手法により各DSPにおける学習時間を均一化するよう周波数帯域の配分を設定することも考えられる。
まず,分割フレーム信号の配分の第1の例について説明する。
この第1の例では,各DSP1〜DSPn各々が,分離行列W(f)の学習計算を行った際に,その学習計算に要した実績時間を前記演算負荷の状況の指標として検出し,その検出結果に基づいて,各DSPによる分離行列W(f)の学習計算が同時或いはほぼ同時に終了するように,各DSPに分担させる分割フレーム信号の配分(周波数ビンの配分)を計算して設定する。
ここで,DSPm(m=1〜n)における分離行列W(f)のi回目の学習計算に要した時間(実績時間)をtm(i),そのときの周波数ビン(分割周波数帯域)の分担数をkm(i),全周波数帯域の分割数(周波数ビンの数)をNとし,i回目の学習時とi+1回目の学習時とにおいて,各DSPにおける学習計算以外の演算負荷がほぼ同等であると仮定した場合,i+1回目の学習時に各DSPによる学習計算を同時に終了させる(学習時間を等しくする)ためには,例えば,次の(7)式及び(8)式からなる連立方程式を適用すればよい。
kp(i+1)・tp(i)/kp(i)=kj(i+1)・tj(i)/kj(i) …(7)
k1(i+1)+k2(i+1)+…+kn(i+1)=N …(8)
ここで,pは1〜nのうちの任意の1つの番号,jは1〜nのうちのpを除く残りの全ての番号を表す。即ち,(7)式は(n−1)個の式を表す。この連立方程式を解いて求めたk1(i+1)〜kn(i+1)に従って学習計算を分担すれば,各DSPの演算負荷が変化した際の1回の学習計算については遅延が生じ得るものの,その後は速やかにDSPの負荷状況の変化に追従して均等に負荷分散させることが可能となる。
例えば,全周波数帯域が1024分割(N=1024)され,3個(n=3)のDSP1〜DSP3で学習計算を分担する場合において,k1(i)=256,k2(i)=384,k3(i)=384,t1(i)=2(sec),t2(i)=1(sec),t3(i)=1(sec)であった場合,上記連立方程式を解くと,k1(i+1)=146.29≒146,k2(i+1)=438.86≒439,k3(i)=438.86≒439となり,予想されるi+1回目の学習計算時間は約1.15(sec)となる。即ち,配分を固定した場合の学習時間(2(sec))に比べて大幅な時間短縮となる。
これにより,各プロセッサの負荷配分を最適化できる。また,各プロセッサの負荷変動を予め想定できないような場合であっても適用できる。
なお,上記連立方程式を適用する手法は一例であり,線形計画法等の他の手法により各DSPにおける学習時間を均一化するよう周波数帯域の配分を設定することも考えられる。
分割フレーム信号の配分の第2の例は,複数のDSP各々の負荷状況と,そのDSP各々に分担させる前記分割フレーム信号(周波数領域分割混合音声信号)各々の配分情報との関係を,予め前記メモリ112等に記憶しておき,その記憶情報に従って,それら各DSPに分担させる分割フレーム信号の配分,即ち,いずれの周波数帯域のフレーム信号(の学習計算)をいずれのDSPに分担させるかの配分を,各DSPの演算負荷の状況に応じて設定するものである。
即ち,DSP1により,複数のDSP各々に分担させる分割フレーム信号各々の配分を,予め定められた複数の候補の中からDSP各々の負荷状況に応じて選択することにより設定するものである。
例えば,各DSPにおいて並行処理がなされ得る全ての処理パターン(処理の組み合わせ)と,その処理パターン各々に対応する各DSPへの分割フレーム信号の配分パターン(配分の候補)とを関連付けて記憶しておき,現在の処理パターンに対応する配分パターンを選択して設定することが考えられる。
その他,各DSPの演算部の稼働率(0〜100%)を数段階に区分したときに,前回の学習計算時の稼働率がいずれの区分に属するかを表す稼働率ランクを負荷状況の指標とし,各DSPの稼働率ランクの全ての組み合わせ各々に対応する各DSPへの分割フレーム信号の配分パターン(配分の候補)とを関連付けて記憶しておき,現在の各DSPの稼働率ランクの組み合わせに対応する配分パターンを選択して設定すること等も考えられる。
これらの処理により,各DSPの負荷変動のパターンが予め想定される場合には,簡易に適切な負荷配分を行うことができる。
即ち,DSP1により,複数のDSP各々に分担させる分割フレーム信号各々の配分を,予め定められた複数の候補の中からDSP各々の負荷状況に応じて選択することにより設定するものである。
例えば,各DSPにおいて並行処理がなされ得る全ての処理パターン(処理の組み合わせ)と,その処理パターン各々に対応する各DSPへの分割フレーム信号の配分パターン(配分の候補)とを関連付けて記憶しておき,現在の処理パターンに対応する配分パターンを選択して設定することが考えられる。
その他,各DSPの演算部の稼働率(0〜100%)を数段階に区分したときに,前回の学習計算時の稼働率がいずれの区分に属するかを表す稼働率ランクを負荷状況の指標とし,各DSPの稼働率ランクの全ての組み合わせ各々に対応する各DSPへの分割フレーム信号の配分パターン(配分の候補)とを関連付けて記憶しておき,現在の各DSPの稼働率ランクの組み合わせに対応する配分パターンを選択して設定すること等も考えられる。
これらの処理により,各DSPの負荷変動のパターンが予め想定される場合には,簡易に適切な負荷配分を行うことができる。
次に,図3及び図4に示すタイムチャートを用いて,分離行列W(f)の学習に用いられる混合音声信号と,その学習により得られる分離行列W(f)を用いて音源分離処理が施される混合音声信号との対応関係の第1例(図3)及び第2例(図4)について説明する。
ここで,図3は,分離行列W(f)の計算(S22,S35)と音源分離処理(S16)との各々に用いる混合音声信号の区分の第1例をタイムチャート的に表したものである。
この第1例は,逐次入力される混合音声信号を所定時間長(例えば3秒)分のフレーム信号(以下,Frameという)ごとに,その全てを用いて学習計算を行う例である。
また,図3(a−1)は,分離行列の学習計算と,その分離行列に基づくフィルタ処理(行列演算)により分離信号を生成(同定)する処理とを,異なるFrameを用いて実行する場合(以下,処理(a−1)という)を表し,図3(b−1)は,それらを同一のFrameを用いて実行する場合(以下,処理(b−1)という)を表す。
前記処理(a−1)では,図3(a−1)に示すように,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算(学習)を行い,それにより求められた分離行列を用いて時刻(Ti+1+Td)〜(Ti+2+Td)の期間に入力された前記混合音声信号全てに相当するFrame(i+1)’について分離処理(フィルタ処理)を実行する。ここで,Tdは1つのFrameを用いた分離行列の学習に要する時間である。即ち,ある1期間の混合音声信号に基づき計算された分離行列を用いて,Frame時間長+学習時間だけずれた次の1期間の混合音声信号の分離処理(同定処理)を行う。このとき,ある1期間のFrame(i)を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)’を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いれば,学習計算の収束が早まり好適である。
この処理(a−1)は,図2に示したステップS15の処理を省略した場合の実施例に該当する。
ここで,図3は,分離行列W(f)の計算(S22,S35)と音源分離処理(S16)との各々に用いる混合音声信号の区分の第1例をタイムチャート的に表したものである。
この第1例は,逐次入力される混合音声信号を所定時間長(例えば3秒)分のフレーム信号(以下,Frameという)ごとに,その全てを用いて学習計算を行う例である。
また,図3(a−1)は,分離行列の学習計算と,その分離行列に基づくフィルタ処理(行列演算)により分離信号を生成(同定)する処理とを,異なるFrameを用いて実行する場合(以下,処理(a−1)という)を表し,図3(b−1)は,それらを同一のFrameを用いて実行する場合(以下,処理(b−1)という)を表す。
前記処理(a−1)では,図3(a−1)に示すように,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算(学習)を行い,それにより求められた分離行列を用いて時刻(Ti+1+Td)〜(Ti+2+Td)の期間に入力された前記混合音声信号全てに相当するFrame(i+1)’について分離処理(フィルタ処理)を実行する。ここで,Tdは1つのFrameを用いた分離行列の学習に要する時間である。即ち,ある1期間の混合音声信号に基づき計算された分離行列を用いて,Frame時間長+学習時間だけずれた次の1期間の混合音声信号の分離処理(同定処理)を行う。このとき,ある1期間のFrame(i)を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)’を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いれば,学習計算の収束が早まり好適である。
この処理(a−1)は,図2に示したステップS15の処理を省略した場合の実施例に該当する。
一方,前記処理(b−1)では,図3(b−1)に示すように,時刻Ti〜Ti+1の期間に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算(学習)を行いつつそのFrame(i)全てを保持し,Frame(i)に基づき求められた分離行列を用いて,保持されたFrame(i)について分離処理(フィルタ処理)を実行する。即ち,順次1期間+学習時間Td分の混合音声信号を記憶手段(メモリ)に保持しつつ,その記憶された1期間分の混合音声信号全てに基づき分離行列を計算(学習)し,計算された分離行列を用いて記憶手段に保持された1期間分の混合音声信号の分離処理(同定処理)を行う。この場合も,ある1期間のFrame(i)を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)を用いて分離行列を学習計算する際の初期値(初期分離行列)として用いることが好ましい。
この処理(b−1)は,図2に示した処理に該当し,ステップS15における監視時間が,図3(b−1)におけるdelay時間に相当する。
以上示したように,前記処理(a−1)も,前記処理(b−1)も,時系列に入力される混合音声信号を予め定められた周期で区分されたFrameが入力されるごとに,その入力信号全体を用いて分離行列W(f)の学習計算を行うとともに,その学習計算により得られた分離行列を用いた行列演算である分離処理を順次実行して分離信号を生成するものである。
この処理(b−1)は,図2に示した処理に該当し,ステップS15における監視時間が,図3(b−1)におけるdelay時間に相当する。
以上示したように,前記処理(a−1)も,前記処理(b−1)も,時系列に入力される混合音声信号を予め定められた周期で区分されたFrameが入力されるごとに,その入力信号全体を用いて分離行列W(f)の学習計算を行うとともに,その学習計算により得られた分離行列を用いた行列演算である分離処理を順次実行して分離信号を生成するものである。
ところで,1つのFrameの時間長以内に,1つのFrame全体に基づく分離行列の学習計算を完了させることができれば,全ての混合音声信号を学習計算に反映させながらリアルタイムでの音源分離処理が可能となる。
しかしながら,学習計算を複数のプロセッサで分担して並行処理した場合でも,1つのFrameの時間範囲内(Ti〜Ti+1)に,十分な音源分離性能を確保できるだけの十分な学習計算(逐次計算処理)を常には完了させられないことも考え得る。
そこで,図4に示す第1例は,逐次入力される混合音声信号を所定時間長(例えば3秒)分のフレーム信号(Frame)ごとに,そのフレーム信号の先頭側の一部を用いて学習計算を行う例,即ち,分離行列の逐次計算に用いる混合音声信号のサンプル数を通常よりも減らす(間引く)例である。
これにより,学習計算の演算量が抑えられるので,より短周期で分離行列の学習を行うことが可能となる。
図4も,図3と同様に,分離行列W(f)の計算(S22,S35)と音源分離処理(S16)との各々に用いる混合音声信号の区分の第2例をタイムチャート的に表したものである。
図4(a−2)は,分離行列の学習計算と,その分離行列に基づくフィルタ処理(行列演算)により分離信号を生成(同定)する処理とを,異なるFrameを用いて実行する場合(以下,処理(a−2)という)を表し,図4(b−2)は,それらを同一のFrameを用いて実行する場合(以下,処理(b−2)という)を表す。
前記処理(a−2)では,図4(a−2)に示すように,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記混合音声信号(Frame)であるFrame(i)のうち,先頭側の一部(例えば,先頭から所定時間分)の信号(以下,Sub-Frame(i)という)を用いて分離行列の計算(学習)を行い,それにより求められた分離行列を用いて時刻Ti+1〜Ti+2の期間に入力された前記混合音声信号全てに相当するFrame(i+1)について分離処理(フィルタ処理)を実行する。即ち,ある1期間の混合音声信号の先頭側の一部に基づき計算された分離行列を用いて次の1期間の混合音声信号の分離処理(同定処理)を行う。このとき,ある1期間のFrame(i)の先頭側の一部を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いれば,逐次計算(学習)の収束が早まり好適である。
この処理(a−2)は,図2に示したステップS15の処理を省略した場合の実施例に該当する。
しかしながら,学習計算を複数のプロセッサで分担して並行処理した場合でも,1つのFrameの時間範囲内(Ti〜Ti+1)に,十分な音源分離性能を確保できるだけの十分な学習計算(逐次計算処理)を常には完了させられないことも考え得る。
そこで,図4に示す第1例は,逐次入力される混合音声信号を所定時間長(例えば3秒)分のフレーム信号(Frame)ごとに,そのフレーム信号の先頭側の一部を用いて学習計算を行う例,即ち,分離行列の逐次計算に用いる混合音声信号のサンプル数を通常よりも減らす(間引く)例である。
これにより,学習計算の演算量が抑えられるので,より短周期で分離行列の学習を行うことが可能となる。
図4も,図3と同様に,分離行列W(f)の計算(S22,S35)と音源分離処理(S16)との各々に用いる混合音声信号の区分の第2例をタイムチャート的に表したものである。
図4(a−2)は,分離行列の学習計算と,その分離行列に基づくフィルタ処理(行列演算)により分離信号を生成(同定)する処理とを,異なるFrameを用いて実行する場合(以下,処理(a−2)という)を表し,図4(b−2)は,それらを同一のFrameを用いて実行する場合(以下,処理(b−2)という)を表す。
前記処理(a−2)では,図4(a−2)に示すように,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記混合音声信号(Frame)であるFrame(i)のうち,先頭側の一部(例えば,先頭から所定時間分)の信号(以下,Sub-Frame(i)という)を用いて分離行列の計算(学習)を行い,それにより求められた分離行列を用いて時刻Ti+1〜Ti+2の期間に入力された前記混合音声信号全てに相当するFrame(i+1)について分離処理(フィルタ処理)を実行する。即ち,ある1期間の混合音声信号の先頭側の一部に基づき計算された分離行列を用いて次の1期間の混合音声信号の分離処理(同定処理)を行う。このとき,ある1期間のFrame(i)の先頭側の一部を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)を用いて分離行列を計算(逐次計算)する際の初期値(初期分離行列)として用いれば,逐次計算(学習)の収束が早まり好適である。
この処理(a−2)は,図2に示したステップS15の処理を省略した場合の実施例に該当する。
一方,前記処理(b−2)では,図4(b−2)に示すように,時刻Ti〜Ti+1の期間に入力された前記混合音声信号全てに相当するFrame(i)のうち,先頭側の一部(例えば,先頭から所定時間分)のSub-Frame(i)を用いて分離行列の計算(学習)を行いつつそのFrame(i)全てを保持し,Sub-Frame(i)に基づき求められた分離行列を用いて,保持されたFrame(i)について分離処理(フィルタ処理)を実行する。この場合も,ある1期間のFrame(i)の一部であるSub-Frame(i)を用いて計算(学習)された分離行列を,次の1期間のFrame(i+1)の一部であるSub-Frame(i+1)を用いて分離行列を学習計算する際の初期値(初期分離行列)として用いることが好ましい。
このように,分離行列を求める学習計算に用いる混合音声信号を,フレーム信号ごとにその先頭側の一部の時間帯の信号に限定することにより,より短周期での学習計算が可能になる。
このように,分離行列を求める学習計算に用いる混合音声信号を,フレーム信号ごとにその先頭側の一部の時間帯の信号に限定することにより,より短周期での学習計算が可能になる。
本発明は,音源分離装置への利用が可能である。
X…本発明の実施形態に係る音源分離装置
101…マイクロホン
103,107…アンプ
104…A/Dコンバータ
105…DSP
106…D/Aコンバータ
109…スピーカ
112…メモリ
S11,S12,,,…処理手順(ステップ)
101…マイクロホン
103,107…アンプ
104…A/Dコンバータ
105…DSP
106…D/Aコンバータ
109…スピーカ
112…メモリ
S11,S12,,,…処理手順(ステップ)
Claims (6)
- 複数の音声入力手段を通じて逐次入力される複数の音源からの音源信号が重畳された複数の混合音声信号から,前記音源信号に対応する分離信号を逐次生成する音源分離装置であって,
時間領域における所定時間長分の複数の前記混合音声信号ごとに離散フーリエ変換処理を施して周波数領域における複数の混合音声信号である周波数領域単位混合音声信号へ順次変換する周波数領域変換手段と,
前記周波数領域単位混合音声信号が周波数帯域によって複数に分割された信号である周波数領域分割混合音声信号ごとに,これを用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を複数のプロセッサに分担させて並行処理することにより前記分離行列を順次算出する分離行列算出手段と,
前記分離行列算出手段により算出された前記分離行列を用いて行列演算を行うことにより前記周波数領域単位混合音声信号から前記音源信号に対応する前記分離信号を生成する処理を順次行う音源分離手段と,
前記音源分離手段により生成された前記分離信号の1又は複数に逆離散フーリエ変換を施す時間領域変換手段と,
を具備してなることを特徴とする音源分離装置。 - 前記複数のプロセッサ各々の負荷状況に基づいて該複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を設定する信号配分設定手段を具備してなる請求項1に記載の音源分離装置。
- 前記信号配分設定手段が,前記複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を,予め定められた複数の候補の中から前記複数のプロセッサ各々の負荷状況に応じて選択することにより設定してなる請求項2に記載の音源分離装置。
- 前記信号配分設定手段が,前記複数のプロセッサ各々における前記分離行列の学習に要した実績時間に基づいて該複数のプロセッサ各々に分担させる前記周波数領域分割混合音声信号各々の配分を計算して設定してなる請求項2に記載の音源分離装置。
- 複数の音声入力手段を通じて逐次入力される複数の音源からの音源信号が重畳された複数の混合音声信号から,前記音源信号に対応する分離信号を逐次生成する音源分離処理をコンピュータに実行させるための音源分離プログラムであって,
時間領域における所定時間長分の複数の前記混合音声信号ごとに離散フーリエ変換処理を施して周波数領域における複数の混合音声信号である周波数領域単位混合音声信号へ順次変換する周波数領域変換処理と,
前記周波数領域単位混合音声信号が周波数帯域によって複数に分割された信号である周波数領域分割混合音声信号ごとに,これを用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を複数のコンピュータで分担して並行処理させることにより前記分離行列を順次算出する分離行列算出処理と,
前記分離行列算出処理により算出された前記分離行列を用いて行列演算を行うことにより前記周波数領域単位混合音声信号から前記音源信号に対応する前記分離信号を生成する処理を順次行う音源分離処理と,
前記音源分離処理により生成された前記分離信号の1又は複数に逆離散フーリエ変換を施す時間領域変換処理と,
をコンピュータに実行させるための音源分離プログラム。 - 複数の音声入力手段を通じて逐次入力される複数の音源からの音源信号が重畳された複数の混合音声信号から,前記音源信号に対応する分離信号を逐次生成する音源分離方法であって,
時間領域における所定時間長分の複数の前記混合音声信号ごとに離散フーリエ変換処理を施して周波数領域における複数の混合音声信号である周波数領域単位混合音声信号へ順次変換する周波数領域変換工程と,
前記周波数領域単位混合音声信号が周波数帯域によって複数に分割された信号である周波数領域分割混合音声信号ごとに,これを用いた独立成分分析法に基づくブラインド音源分離方式における分離行列の学習計算を複数のプロセッサに分担させて並行処理することにより前記分離行列を順次算出する分離行列算出工程と,
前記分離行列算出工程により算出された前記分離行列を用いて行列演算を行うことにより前記周波数領域単位混合音声信号から前記音源信号に対応する前記分離信号を生成する処理を順次行う音源分離工程と,
前記音源分離工程により生成された前記分離信号の1又は複数に逆離散フーリエ変換を施す時間領域変換工程と,
を有してなることを特徴とする音源分離方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005220972A JP2007034184A (ja) | 2005-07-29 | 2005-07-29 | 音源分離装置,音源分離プログラム及び音源分離方法 |
US11/490,147 US20070025564A1 (en) | 2005-07-29 | 2006-07-21 | Sound source separation apparatus and sound source separation method |
EP06117794A EP1748588A3 (en) | 2005-07-29 | 2006-07-25 | Apparatus and method for sound source separation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005220972A JP2007034184A (ja) | 2005-07-29 | 2005-07-29 | 音源分離装置,音源分離プログラム及び音源分離方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007034184A true JP2007034184A (ja) | 2007-02-08 |
Family
ID=37308913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005220972A Pending JP2007034184A (ja) | 2005-07-29 | 2005-07-29 | 音源分離装置,音源分離プログラム及び音源分離方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20070025564A1 (ja) |
EP (1) | EP1748588A3 (ja) |
JP (1) | JP2007034184A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008147920A (ja) * | 2006-12-08 | 2008-06-26 | Sony Corp | 情報処理装置および情報処理方法、並びに、プログラム |
JP2008241991A (ja) * | 2007-03-27 | 2008-10-09 | Megachips System Solutions Inc | 監視システム |
US8644346B2 (en) | 2009-12-18 | 2014-02-04 | Nec Corporation | Signal demultiplexing device, signal demultiplexing method and non-transitory computer readable medium storing a signal demultiplexing program |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006120829A1 (ja) * | 2005-05-13 | 2006-11-16 | Matsushita Electric Industrial Co., Ltd. | 混合音分離装置 |
JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
DE102007033877B3 (de) * | 2007-07-20 | 2009-02-05 | Siemens Audiologische Technik Gmbh | Verfahren zur Signalverarbeitung in einer Hörhilfe |
EP2180624B1 (en) | 2007-08-13 | 2020-08-05 | Sharp Kabushiki Kaisha | Radio base station |
EP2249498A1 (en) | 2008-03-05 | 2010-11-10 | Sharp Kabushiki Kaisha | Communication system, communication device and communication method |
JP5195652B2 (ja) * | 2008-06-11 | 2013-05-08 | ソニー株式会社 | 信号処理装置、および信号処理方法、並びにプログラム |
US8392185B2 (en) * | 2008-08-20 | 2013-03-05 | Honda Motor Co., Ltd. | Speech recognition system and method for generating a mask of the system |
JP5277887B2 (ja) * | 2008-11-14 | 2013-08-28 | ヤマハ株式会社 | 信号処理装置およびプログラム |
JP5375400B2 (ja) * | 2009-07-22 | 2013-12-25 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
TWI456516B (zh) * | 2010-12-17 | 2014-10-11 | Univ Nat Chiao Tung | 獨立成分分析處理器 |
US20180306890A1 (en) * | 2015-10-30 | 2018-10-25 | Hornet Industries, Llc | System and method to locate and identify sound sources in a noisy environment |
US20220139368A1 (en) * | 2019-02-28 | 2022-05-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Concurrent multi-path processing of audio signals for automatic speech recognition systems |
CN110992977B (zh) * | 2019-12-03 | 2021-06-22 | 北京声智科技有限公司 | 一种目标声源的提取方法及装置 |
CN112116917B (zh) * | 2020-09-15 | 2023-02-07 | 国网吉林省电力有限公司超高压公司 | 基于相位跃变度的电抗器本体与风机声信号分离方法 |
CN113593600B (zh) * | 2021-01-26 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 混合语音分离方法和装置、存储介质及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003090127A1 (en) * | 2002-04-22 | 2003-10-30 | Harris Corporation | Blind source separation utilizing a spatial fourth order cumulant matrix pencil |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6925641B1 (en) * | 2000-02-04 | 2005-08-02 | Xronix Communications, Inc. | Real time DSP load management system |
EP1662485B1 (en) * | 2003-09-02 | 2009-07-22 | Nippon Telegraph and Telephone Corporation | Signal separation method, signal separation device, signal separation program, and recording medium |
-
2005
- 2005-07-29 JP JP2005220972A patent/JP2007034184A/ja active Pending
-
2006
- 2006-07-21 US US11/490,147 patent/US20070025564A1/en not_active Abandoned
- 2006-07-25 EP EP06117794A patent/EP1748588A3/en not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003090127A1 (en) * | 2002-04-22 | 2003-10-30 | Harris Corporation | Blind source separation utilizing a spatial fourth order cumulant matrix pencil |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008147920A (ja) * | 2006-12-08 | 2008-06-26 | Sony Corp | 情報処理装置および情報処理方法、並びに、プログラム |
JP2008241991A (ja) * | 2007-03-27 | 2008-10-09 | Megachips System Solutions Inc | 監視システム |
US8644346B2 (en) | 2009-12-18 | 2014-02-04 | Nec Corporation | Signal demultiplexing device, signal demultiplexing method and non-transitory computer readable medium storing a signal demultiplexing program |
Also Published As
Publication number | Publication date |
---|---|
US20070025564A1 (en) | 2007-02-01 |
EP1748588A2 (en) | 2007-01-31 |
EP1748588A3 (en) | 2008-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007034184A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP4675177B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
EP3511937B1 (en) | Device and method for sound source separation, and program | |
CN111133511B (zh) | 声源分离系统 | |
Grais et al. | Raw multi-channel audio source separation using multi-resolution convolutional auto-encoders | |
US20070133811A1 (en) | Sound source separation apparatus and sound source separation method | |
JP4672611B2 (ja) | 音源分離装置、音源分離方法及び音源分離プログラム | |
JP2007295085A (ja) | 音源分離装置及び音源分離方法 | |
KR101280253B1 (ko) | 음원 분리 방법 및 그 장치 | |
JP5375400B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
JP2012163918A (ja) | 音声信号処理装置、および音声信号処理方法、並びにプログラム | |
JP2008158035A (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
JP4462617B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP2015069063A (ja) | 音声認識システム、音声認識方法、及び音声認識プログラム | |
JP2007279517A (ja) | 音源分離装置、音源分離装置用のプログラム及び音源分離方法 | |
CN105719640B (zh) | 声音合成装置及声音合成方法 | |
JP2011199474A (ja) | 音源分離装置、音源分離方法およびそのためのプログラム、並びにそれを用いたビデオカメラ装置およびカメラ付き携帯電話装置 | |
JP2014199445A (ja) | サウンドマスキング装置、方法及びプログラム | |
CN114863944B (zh) | 一种低时延音频信号超定盲源分离方法及分离装置 | |
JP2007282177A (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
US10887709B1 (en) | Aligned beam merger | |
JP2007033804A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP4849404B2 (ja) | 信号処理装置、信号処理方法およびプログラム | |
JP2008278406A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP2018036523A (ja) | 信号処理装置、信号処理方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070928 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100608 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101109 |