JP2007215163A - 音源分離装置,音源分離装置用のプログラム及び音源分離方法 - Google Patents
音源分離装置,音源分離装置用のプログラム及び音源分離方法 Download PDFInfo
- Publication number
- JP2007215163A JP2007215163A JP2006354613A JP2006354613A JP2007215163A JP 2007215163 A JP2007215163 A JP 2007215163A JP 2006354613 A JP2006354613 A JP 2006354613A JP 2006354613 A JP2006354613 A JP 2006354613A JP 2007215163 A JP2007215163 A JP 2007215163A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- output
- sound
- separation
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】周波数解析部24により、第1出力チャンネルOp1i各々について、これを通じて出力される所定時間長分ごとの分離信号y1iに対して周波数解析計算を行い、これにより各分離信号y1iの周波数の特徴量を算出し、さらにその特徴量の変遷の自動評価により、分離信号y1iの入れ替わり状態を判別する。さらに、出力バッファ22により、分離信号y1iの入れ替わり判別の結果に基づいて、第1出力チャンネルOp1iを通じて出力されるいずれの分離信号y1iを、第2出力チャンネルOp2iのいずれを通じて出力するかを切り替える。
【選択図】図1
Description
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクロホンを通じて入力される複数の前記混合音声信号(時系列の音声信号)において,前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し,入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際,分離行列の最適化は,ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて,逐次計算(学習計算)により以降に用いる分離行列を計算することによって行われる。
ここで,ICA法に基づくBSS方式の音源分離処理によれば,分離信号各々は,混合音声信号の入力数(=マイクロホンの数)と同じ数の出力端(出力チャンネルといってもよい)各々を通じて出力される。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献1や非特許文献2等に詳説されている。
一方,ICA法に基づくBSS方式の音源分離処理においては,学習計算によって分離行列が得られるが,その分離行列に基づいて,音源の存在する方向(DOA:Direction of Arrivals)を推定する各種の技術が従来より知られている。例えば,非特許文献3や非特許文献4には,前記分離行列にステアリングベクトルを乗じることによってDOAを推定する技術が示されている。
しかしながら,従来のICA法に基づくBSS方式の音源分離処理においては,マイクロホンに対する音源の位置が移動する場合,特定の音源を追跡すること,即ち,特定の音源に対応する分離信号が必ず特定の出力端を通じて出力されるようにすることができないという問題点があった。
また,音源の存在方向の入れ替わりが生じる過程において,隣り合う2つのマイクロホンの集音範囲の一方に,元々それぞれの集音範囲に1つずつ存在していた2つの音源が偏って存在する状態(以下,音源の偏在状態という)が発生することが多い。ICA法に基づくBSS音源分離方式による音源分離処理において,複数のマイクロホンの集音範囲それぞれと複数の音源の位置とが1対1に対応している場合には高い音源分離性能が得られるが,前記音源の偏在状態が発生すると,適正な音源分離ができなくなるという問題が生じることが知られている。前記音源の偏在状態において,ICA法におけるパーミュテーション問題を実用的な演算負荷で解く手法が実現されていないためである。なお,パーミュテーション問題については,特許文献1の段落0008等に示されている。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,ICA法に基づくBSS方式による音源分離処理を行うに当たり,マイクロホンに対する音源の位置が移動する場合でも,特定の音源に対応する分離信号を特定の出力端を通じて出力させることができ(音源の追跡ができる),さらに,複数の音源が1つのマイクロホンの集音範囲に偏在して適正な音源分離が行えなくなる状況を極力回避できる音源分離装置,音源分離装置用のプログラム及び音源分離方法を提供することにある。
その特徴は,前記第1の出力端各々について,所定時間長分ごとの前記分離信号の特徴量を算出して所定の記憶手段に一時記憶させる特徴量算出・記録手順と,その特徴量算出・記録手順により一時記憶された前記第1の出力端各々についての前記特徴量の変遷を自動的に評価することにより,前記第1の出力端各々を通じて出力される前記分離信号の入れ替わり状態を判別する信号入れ替わり判別手順と,その信号入れ替わり判別手順による判別結果に基づいて,前記第1の出力端を通じて出力されるいずれの前記分離信号を,前記第1の出力端とは異なる1又は複数の他の出力端(以下,第2の出力端という)のいずれを通じて出力するかを切り替える出力切替手順と,を実行する各手段を具備する装置,又はこれら各手順を前記プロセッサに実行させる音源分離装置用のプログラム,或いはこれら各手順を有する音源分離方法として構成されることである。
なお,ここに示す所定時間長分ごとの前記分離信号は,必ずしも逐次生成される全ての分離信号を所定時間長分ごとに区分したものとは限らない。例えば,前記所定時間長よりも長い所定の周期ごとに,或いは特徴量の計算が終わるごとに,その時点から生成される前記所定時間長分の分離信号等,任意の時点からの所定時間長分の分離信号を含む概念である。
ここで,前記特徴量算出・記録手順としては,例えば,所定時間長分ごとの前記分離信号の周波数解析計算に基づいて周波数の特徴量を算出するものが考えられる。
また,前記特徴量算出・記録手順のより具体的な例としては,所定時間長分ごとの前記分離信号のパワースペクトルにおけるピーク周波数を前記特徴量として算出することが考えられ,この場合,前記信号入れ替わり判別手順において,過去の前記ピーク周波数と現在の前記ピーク周波数との比較により前記分離信号の入れ替わり状態を判別することが考えられる。
(1)前記独立成分分析法に基づくブラインド音源分離方式(前記ICA−BSS音源分離方式)による音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記複数の音声入力手段のうち予め定められた隣り合う2つの音声入力手段(以下,特定音声入力手段という)の集音範囲それぞれに存在する2つの前記音源(以下,特定音源という)それぞれの存在する方向を推定する特定音源方向推定手段。
(2)前記複数の音声入力手段全体の向きを調節する音声入力手段向き調節機構。
(3)前記音声入力手段向き調節機構を制御することにより,前記特定音声入力手段それぞれの向きの中間方向を,前記特定音源方向推定手段により推定された前記特定音源それぞれの存在する方向の中間の方向に向ける音声入力手段向き制御手段。
本発明に係る音源分離装置が,前記(1)〜(3)に示す各構成要素をさらに備えていれば,音源が移動し得る状況においてある1つの音源を追跡したい場合に,追跡対象となる音源及びその隣の音源(2つの前記特定音源)が近接して前記音源の偏在状態が発生することを極力回避できる。
なお,前記分離行列に基づいて音源の方向(DOA)を推定する手法は,従来周知の手法を採用すればよい。
一方,前記特定音源の方向を所定の基準方向に固定した状態(以下,基準状態という)で前記ICA−BSS音源分離方式)による音源分離処理を実行し,前記学習計算を十分に行うことにより,そのときの前記特定音源の方向について十分に収束した前記分離行列(以下,基準分離行列という)が得られる。そして,前記基準状態或いはそれに近い状態である場合に,前記基準分離行列が前記学習計算に用いる前記分離行列の初期値(初期行列)として用いられると,前記学習計算の所要時間が比較的短くても(逐次計算の回数が少なくても)分離性能の高い新たな分離行列が得られる。
そこで,本発明に係る音源分離装置が,前記(1)〜(3)に示す各構成要素に加え,次の(4)及び(5)に示す各構成要素をさらに備えていればなお好適である。
ここで,前記特定音源の存在する方向を表す複数の基準方向と前記分離行列の初期値である初期行列の複数の候補との組合せを表す初期行列候補情報が予め所定の記憶手段に記憶されているものとする。なお,この初期行列候補情報における前記初期行列の複数の候補は,複数種類の前記基準状態それぞれにおいて前記学習計算によって得られる前記基準分離行列に相当する。
(4)前記特定音源方向推定手段による推定結果と前記音声入力手段向き制御手段の制御による前記複数の音声入力手段の向きの調節量とに基づいて,前記音声入力手段向き制御手段による制御後の前記特定音声入力手段の向きに対する前記特定音源の存在する方向を算出する制御後特定音源方向算出手段。
(5)前記制御後特定音源方向算出手段の算出結果に基づいて,前記初期行列候補情報における前記初期行列の複数の候補の中から次の前記学習計算に用いる前記初期行列を選択する初期行列選択手段。
より具体的には,前記初期行列選択手段は,前記初期行列候補情報の中から,前記音声入力手段向き制御手段による制御後における前記特定音源の存在する方向(以下,向き制御後特定音源方向という)に最も近い前記基準方向を特定し,特定したその基準方向に対応する前記初期行列の候補を選択して次の前記学習計算に用いる前記初期行列として設定する。例えば,前記向き制御後特定音源方向の変化(例えば,前回の算出値と今回の算出値の差)が予め設定された角度以上変化した場合等に,前記初期行列選択手段による前記初期行列の選択を行うこと等が考えられる。
これにより,前記特定音声入力手段に対する前記特定音源の存在方向が大きく変化した場合でも,その変化に応じて適切な前記初期行列が選択(設定)されるため,前記学習計算における前記分離行列の収束に長時間を要したり,音源分離性能が悪化したりする問題を回避できる。
また,2つの前記特定音声入力手段それぞれの向きの中間方向を,前記特定音源それぞれの存在する方向(推定方向)の中間の方向に向ける制御を行うことにより,前記音源の偏在状態が発生して適正な音源分離が行えなくなる状況を極力回避できる。さらに,前記音声入力手段の向き制御を行った後の前記特定音源の存在する方向に応じて,次の前記学習計算に用いる前記初期行列を選択することにより,前記特定音声入力手段に対する前記特定音源の存在方向が大きく変化した場合でも,前記学習計算における前記分離行列の収束に長時間を要したり,音源分離性能が悪化したりする問題を回避でき,高い音源分離性能を維持できる。
ここに,図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図,図2は音源分離装置Xが備える出力バッファの動作を説明する図,図3は音源分離装置Xが実行する出力チャンネル切り替え処理の手順を表すフローチャート,図4はTDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ1の概略構成を表すブロック図,図5はFDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ2の概略構成を表すブロック図,図6は音源分離装置Xの応用例である音源分離装置X’の概略構成を表すブロック図,図7は音源分離装置X’によりマイクロホンの向きが調節される様子を模式的に表した図,図8は音源分離装置X’によるマイクロホンの向き制御及び初期行列設定処理の手順を表すフローチャートである。
なお,以下に示す音源分離ユニットZ1,Z2は,いずれも所定の音響空間に複数の音源と複数のマイクロホン(音声入力手段)とが存在する状態で,そのマイクロホン各々を通じて,前記音源各々からの個別の音声信号(以下,音源信号という)が重畳された信号である複数の混合音声信号が逐次入力される場合に,その混合音声信号に対してICA−BSS方式の音源分離処理を施すことにより,前記音源信号に対応する複数の分離信号(音源信号を同定した信号)を逐次生成する処理(逐次音源分離処理)を行うものである。
音源分離ユニットZ1は,分離フィルタ処理部11tにより,2つの音源1,2からの音源信号S1(t),S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)について,分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。なお,混合音声信号x1(t),x2(t)は,所定のサンプリング周期でデジタル化された信号であるが,図4,図5においては,A/D変換手段の記載を省略している。
図4には,2つの音源1,2からの音源信号S1(t),S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)に基づいて音源分離を行う例について示しているが,2チャンネル以上であっても同様である。ICA−BSS方式による音源分離の場合,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であればよい。
複数のマイクロホン111,112各々で集音された各混合音声信号x1(t),x2(t)には,複数音源からの音源信号が重畳されている。以下,各混合音声信号x1(t),x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され,次の(1)式のように表される。
ここで,当該音源分離処理に用いる分離行列をW(z)とすれば,分離信号(即ち,同定信号)y(t)は,次の(2)式で表される。
なお,音源合成処理はこのW(z)に関する情報により,逆演算処理に相当する配列を形成し,これを用いて逆演算を行えばよい。また,分離行列W(z)の逐次計算を行う際の分離行列の初期値(初期行列)は,予め定められたものが設定される。
このようなICA−BSS方式による音源分離を行うことにより,例えば,人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から,歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで,(2)式は,次の(3)式のように書き換えて表現できる。
FDICA方式では,まず,入力された混合音声信号x(t)について,ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform,以下,ST−DFT処理という)を行い,観測信号の短時間分析を行う。そして,そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(5)式のように表すことができる。
音源分離装置Xは,複数の音源1,2が存在する音響空間に配置される複数のマイクロホン111,112(音声入力手段)を備え,そのマイクロホン111,112各々を通じて逐次入力される音源1,2各々からの音源信号(個別の音声信号)が重畳された複数の混合音声信号xi(t)から,音源信号(個別音声信号)を分離(同定)した分離信号(即ち,音源信号に対応した同定信号)y1i(tIを逐次生成してスピーカ(音声出力手段)に対してリアルタイム出力するものである。
ここで,図1には,入力される混合音声信号xi(t)のチャンネル数(即ち,マイクロホンの数)が2つである例について示しているが,(チャンネル数n)≧(音源の数m)であれば,3チャンネル以上であっても同様の構成により実現できる。
分離演算処理部11は,マイクロホン111,112各々を通じて逐次入力される各混合音声信号xi(t)に対し,分離行列Wを用いた行列演算を施すことにより音源信号Si(t)各々に対応する複数の分離信号yi(t)を逐次生成するとともに,その複数の分離信号y1i(t)各々を複数の出力端Op1i(以下,第1出力チャンネルという)各々を通じて出力する音源分離処理(逐次音源分離手順)を実行するものである(逐次音源分離手段の一例)。マイクロホン111,112は,いずれも複数の音源1,2が存在する所定の音響空間に配置される。ここで,分離信号y1i(t)各々は,混合音声信号の入力数(=マイクロホンの数)と同じ数の第1出力チャンネルOp1iを有している。図1に示す例では,iは1又は2(2チャンネル分)を表す。
学習演算部12は,予め定められた時間長分の複数の混合音声信号xi(t)を用いて,ICA−BSS音源分離処理における分離行列Wの学習計算を行うことにより,分離演算処理部11で用いられる分離行列Wを順次算出するものである。なお,混合音声信号xi(t)は,所定周期でサンプリングされてデジタル化されているので,混合音声信号xi(t)の時間長を規定することは,デジタル化された混合音声信号xi(t)のサンプル数を規定することと同義である。
ここで,学習演算部12による分離行列算出(学習計算),及びその分離行列に基づいて分離演算処理部11により実行される音源分離の処理(行列演算処理)は,例えば,図4に示した音源分離ユニットZ1(TDICA方式)や,図5に示したFDICA方式に基づく分離行列(分離フィルタ)の更新処理及び分離フィルタ処理等が採用される。なお,図4,図5に示した分離フィルタ処理部11t,11fが,分離演算処理部11に相当する。
周波数解析部24は,周波数解析計算(自動計算)と,その計算結果に基づく各種の処理を行うものである。その内容については後述する。
DAC23(D/Aコンバータ)は,出力バッファ22からその出力端である第2出力チャンネルOp21,Op22(これについては後述)を通じて出力される音声のデジタル信号y21,y22(y2iと総称する)をアナログ信号に変換するものである。変換後のアナログ信号は,所定のスピーカを通じて音声出力される。
以下,図2を参照しつつ,出力バッファ22の動作について説明する。
出力バッファ22は,入力チャンネルごとに2つのFIFO方式のバッファ(M1aとM1b,M2aとM2b)を備えている。図2に示す各バッファは,図に向かって右側が先頭アドレス側を表すものとする。以下,入力チャンネルIp1に対応する2つのバッファをバッファM1a,M1b,入力チャンネルIp2に対応する2つのバッファをバッファM2a,M2bと称する。
ここで,出力バッファ22の入力チャンネルIpiとその前段の音源分離ユニット10の第1出力チャンネルOp1iとは,一対一で固定的に接続されているため,一方の入力チャンネルIp1と第1出力チャンネルOp11とは等価であり,他方の入力チャンネルIp2と第1出力チャンネルOp12とは等価である。
次に,そのa側バッファMiaに信号が満たされる(メモリフルになる)と,続いて入力される分離信号y1iが,他方のバッファM1b,M2b(以下,b側バッファという)に,それがメモリフルとなるまで先頭アドレスから順次蓄積される。ここで,b側バッファM1b,M2bへの信号蓄積と並行して,a側バッファM1a,M2aに蓄積された信号が,先頭アドレスに蓄積されたものから順次第2出力チャンネルOp2iを通じて出力される。
図2(a)は,b側バッファM1b,M2bに信号が順次蓄積されるとともに,これと並行して,a側バッファM1a,M2aに蓄積された信号が第2出力チャンネルOp2iを通じて出力されている状況を表す。なお,図中,CH1Pt,CH2Ptの各符号を付した矢印は,第2出力チャンネルOp2iに出力する信号を指定するポインタの指示位置を表す。CH1Ptが一方の第2出力チャンネルOp21用のポインタの指示位置,CH2Ptが他方の第2出力チャンネルOp22用のポインタの指示位置を表す。この第2出力チャンネルOp2i各々に対応するポインタCH1Pt,CH2Ptの指示位置が,a側バッファM1a,M2a若しくはb側バッファM1b,M2bの先頭アドレス側から後尾アドレス側へ一定速度(信号のサンプリング周期に相当する速度)で順次移動することにより,指示された信号が第2出力チャンネルOp2i各々を通じて出力される。
図2(b)は,a側バッファM1a,M2aに信号が順次蓄積されるとともに,これと並行して,b側バッファM1b,M2bに蓄積された信号が第2出力チャンネルOp2iを通じて出力されている状況を表す。
以上の動作が繰り返されることにより,分離信号y1iが,所定の遅延時間をおいて,第2出力チャンネルOp2iを通じてリアルタイムで出力される。
ここで,出力チャンネルの対応関係の設定とは,第2出力チャンネルOp21,Op22各々に対応するポインタCH1Pt,CH2Pt各々を,入力チャンネルIp1側(即ち,第1出力チャンネルOp11側)のバッファM1a,M1bを指示するようにするか,或いは入力チャンネルIp2側(即ち,第1出力チャンネルOp12側)のバッファM2a,M2bを指示するようにするかの設定を表す。
本実施形態では,この出力チャンネルの対応関係は,周波数解析部24により設定されるものとする。以下,第1出力チャンネルOp1x(入力チャンネルIpx)と第2出力チャンネルOp2yとを対応させる設定(x,yはチャンネル番号)のことを,「(x=>y)」のように表現するものとする。
一方,図2(c)は,出力チャンネルの対応関係が,「(1=>2)かつ(2=>1)」である場合の一例を表す。この図2(c)に示す例は,ポインタCH1PtがバッファM2bを指示し,ポインタCH2PtがバッファM1bを指示するよう設定された状態を表す。
これにより,b側バッファM1bに蓄積された信号(即ち,入力チャンネルIp1を通じて入力された信号)が,第2出力チャンネルOp22を通じて出力され,b側バッファM2bに蓄積された信号(即ち,入力チャンネルIp2を通じて入力された信号)が,第2出力チャンネルOp21を通じて出力される。
この図2(c)に示す状態と図2(a),(b)に示す状態とは,第1出力チャンネルOp1i(入力チャンネルIpi)と第2出力チャンネルOp2iとの対応関係が入れ替わっている。
まず,周波数解析部24により,前記出力チャンネルの対応関係が初期設定され,設定結果がデータ記憶部25に記録される(S1)。この初期設定は,例えば,予め定められた対応関係に設定することや,利用者が所定の操作入力手段を通じて入力する情報に従った対応関係に設定すること等が考えられる。
例えば,前記出力チャンネルの対応関係が「(1=>1)かつ(2=>2)」に設定される。
次に,周波数解析部24により,第1出力チャンネルOp1i各々を通じて出力される分離信号y1i各々が,所定の時間長分(最新のもの)だけ取得される(取り込まれる)(S2)。例えば,8MHzのサンプリング周期でサンプル(デジタル化)された分離信号y1iを1024サンプル分(即ち,1/8(sec)分)取得される。取得された分離信号y1iは,周波数解析部24が備える主記憶メモリに一時記憶される。ここで取得される所定時間長分の分離信号y1iを,以下,1フレーム分の分離信号y1iという。
より具体的には,まず,ステップS2で取得された分離信号y1i各々に窓関数処理が行われ(S3),その窓関数が掛けられた分離信号に対してFFT解析計算が行われる(S4)。さらに,FFT解析計算により得られる1フレーム分の分離信号y1i各々のパワースペクトルに基づいて,そのパワースペクトルにおけるピーク周波数が分離信号y1i各々の特徴量として導出される(S4)。
ここで,パワースペクトルにおけるピーク周波数としては,例えば,パワーのピークを示す周波数のうち,そのピーク値が最大のものや,そのピーク値が最大のものから所定の順位以内に入るもの等が考えられる。
また,周波数解析計算としては,FFT(高速フーリエ変換:Fast Fourier Transform)解析計算の他,自己回帰型のMEM(最大エントロピー法:Maximum Entropy Method)に基づく解析計算,AR(自己回帰:AutoRegressive)モデルに基づく解析計算等,周知の周波数解析計算の手法を採用することが考えられる。
また,分離信号y1iの特徴量としては,パワースペクトルにおけるピーク周波数の他,パワースペクトルの分布範囲(例えば,所定レベル以上のパワーを有する周波数の範囲)等も考えられる。
このステップS5において,過去mフレーム分の前記特徴量が未だ蓄積されていないと判別された場合は,ステップS4で算出された前記特徴量(ピーク周波数等)が,第2出力チャンネルOp2iごとにデータ記憶部25に追加的に記録(一時記憶)され(S11),処理が前述したステップS2へ戻される。
これにより,過去mフレーム分の前記特徴量がデータ記憶部25に蓄積されるまで前述したステップS2〜S4の処理が繰り返される。
その結果,例えば,分離信号y1iのサンプリング周期(=混合音声信号xi(t)のサンプリング周期)が8kHz,1フレームが1024サンプル分の信号,m=24である場合,3秒分の分離信号y1iに基づく前記特徴量が,データ記憶部25に蓄積されることになる。サンプリング周期,1フレームのサンプル数,蓄積フレーム数mは,適用対象に応じて適当な値が設定される。
例えば,第2出力チャンネルOp21,Op22各々に対応するメモリ領域をMem1,Mem2と表すものとすると,前記出力チャンネルの対応関係が「(1=>1)かつ(2=>2)」である場合は,第1出力チャンネルOp11を通じて出力される分離信号y11に基づく前記特徴量はMem1に記録され,第1出力チャンネルOp12を通じて出力される分離信号y12に基づく前記特徴量はMem2に記録される。一方,前記出力チャンネルの対応関係が「(1=>2)かつ(2=>1)」である場合は,第1出力チャンネルOp11を通じて出力される分離信号y11に基づく前記特徴量はMem2に記録され,第1出力チャンネルOp12を通じて出力される分離信号y12に基づく前記特徴量はMem1に記録される。
これにより,音源の追跡(出力バッファ22における出力チャンネルの切り替え)が正しく行われる限り,各メモリ領域Mem1,Mem2各々には,常に同じ音源に対応する分離信号の特徴量が蓄積されることになる。
この入れ替わり状態の判別は,周波数解析部24により,データ記憶部25に記憶された過去の前記特徴量とステップS4で算出された最新の前記特徴量とに基づいて,第1出力チャンネルOp1i各々についての前記特徴量の変遷(時間の経過により変化する状態)が自動的に評価されることにより行われる。
より具体的には,データ記憶部25に記憶された過去mフレーム分の前記ピーク周波数各々と,ステップ4で算出された現在の(最新の)前記ピーク周波数との比較により,前記分離信号y1iの入れ替わり状態を判別することが考えられる。
例えば,現在の前記出力チャンネルの対応関係が「(1=>1)かつ(2=>2)」である場合を考える。この場合,第2出力チャンネルOp21に対応する過去mフレーム分の前記ピーク周波数のいずれかと,第1出力チャンネルOp12の分離信号y12について算出された現在の前記ピーク周波数とが一致している若しくは近似しているとき,或いは第2出力チャンネルOp22に対応する過去mフレーム分の前記ピーク周波数のいずれかと,第1出力チャンネルOp11の分離信号y11について算出された現在の前記ピーク周波数とが一致している若しくは近似しているときに,分離信号y1iの入れ替わりがあったと判別すること等が考えられる。なお,近似しているとは,例えば,ピーク周波数に差がある場合であっても,その差が予め定められた誤差範囲内であること等を指す。
さらに,周波数解析部24から出力バッファ22に対して変更後の前記出力チャンネルの対応関係の設定情報が通知され,これに応じて出力バッファ22により,分離信号の出力先(第2出力チャンネルOp2i)の切り替えが行われる(S9)。
以上示した周波数解析部24及び出力バッファ22によるステップS7〜S9の処理により,ステップS6での信号入れ替わり判別の判別結果に基づいて,第1出力チャンネルOp1iを通じて出力されるいずれの分離信号y1iを,第2出力チャンネルOp2iのいずれを通じて出力するかが切り替えられる(出力切替手順の一例)。但し,出力チャンネルの切り替えは,入れ替わりが生じたと判別された分離信号y1iが,第2出力チャンネルOp2iを通じて出力されるタイミングに合わせて行われる。
以上の処理により,音源分離装置Xは,以下のように動作する。
即ち,マイクロホン111,112に対する音源1,2の位置が移動することにより,マイクロホン111,112に対する複数の音源1,2の存在方向(左右方向)が入れ替わると,第1出力チャンネルOp1i各々から出力される分離信号y1i各々の前記特徴量に入れ替わりが生じ,ステップS6においてその入れ替わりの状態が判別される。そして,その入れ替わり状態の判別結果に応じて,ステップS7〜S9の処理により,第1出力チャンネルOp1i各々から第2出力チャンネルOp2i各々への分離信号の伝送経路が切り替えられる。その結果,分離信号y1iの入れ替わり判別(S6)が正しく行われる限り,第2出力チャンネルOp2i各々は,常に同じ音源に対応する分離信号y2iを出力することになる。即ち,音源の追跡が可能となる。
なお,周波数解析部24により実行されるステップS4及びS10の処理は,第1出力チャンネルOp1i(第1の出力端)各々について,所定時間長分ごとの分離信号y1iの特徴量を算出してデータ記憶部25に一時記憶させる特徴量算出・記録手順の一例である。
まず,図6に示すブロック図を参照しつつ,音源分離装置X’の構成について説明する。
図6に示すように,音源分離装置X’は,前記音源分離装置Xと同じ構成要素に加え,さらに,DOA推定部31,回転制御部40及びマイク回転機構50をを備えている。
前記DOA推定部31は,前記学習演算部12による前記学習計算(即ち,ICA−BSS音源分離処理において実行される分離行列Wの学習計算)によって算出される分離行列Wを取得し,その分離行列Wに基づいて,予め定められた隣り合う2つのマイクロホン111,112(以下,特定マイクロホンという)の集音範囲それぞれに存在する2つの音源1,2(以下,特定音源という)の存在する方向(以下,特定音源方向θa,θbという)それぞれを推定するDOA推定計算を実行するものである(前記特定音源方向推定手段の一例)。このDOA推定部31も,前記学習演算部12等と同様に,例えばDSP等の演算用のプロセッサ及びそのプロセッサにより実行されるプログラムが記憶されたROM等の記憶手段により実現される。
ここで,前記特定音源方向θa,θbは,相互の相対的な向きが固定された全てのマイクロホンについてそのマイクロホン全体の向き(全体を代表する向き)を表すマイク正面方向に対する相対角度である。図6に示す例では,前記特定マイクロホン111,112それぞれの向きの中間方向R0が前記マイク正面方向であり,前記特定音源1,2の方向は,そのマイク正面方向R0に対する相対角度である。
図6に示す例では,マイクロホンの総数が2個であるため,その両方(全て)が前記特定マイクロホンとなるが,マイクロホンの総数が3個以上である場合には,その中から予め指定された2つのマイクロホンが前記特定マイクロホンとなる。具体的には,移動し得る音源の中でその音を追跡したい1つの音源及びその隣の音源(2つの音源)を前記特定音源とした場合に,その特定音源それぞれの位置を主な集音範囲とする2つのマイクロホンを,前記特定マイクロホンとして指定する。いずれのマイクロホンを前記特定マイクロホンとするかについての情報は,予め前記データ記憶部25に記憶され,その情報を前記DOA推定部31が読み出して取得する。
前記DOA推定部31は,例えば,前記非特許文献3や非特許文献4に示されるDOA推定処理を実行することにより,前記特定音源方向θa,θbを推定(算出)する。より具体的には,前記学習演算部12から得られた前記分離行列Wにステアリングベクトルを乗じることによって前記特定音源方向θa,θb(DOA)を推定する。前記非特許文献3や非特許文献4に示されるDOA推定処理を行う場合,音源分離処理は,図5に示したFDICA法に基づくBSS方式の音源分離処理(音源分離ユニットZ2)が採用される。
ICA法による音源分離処理は,空間的死角フィルタを表す行列(分離行列)を学習演算によって算出し,その分離行列を用いたフィルタ処理によってある方向からの音を除去する処理である。
前記死角特性に基づくDOA推定処理は,前記分離行列が表す空間的死角角度を周波数ビンごとに計算し,その周波数ビンごとの空間的死角角度の平均値を求めることによって音源の方向(角度)を推定する。
例えば,2つの音源の音を2つのマイクロホンで集音する音源分離装置において,前記死角特性に基づくDOA推定処理は,以下に示す計算を実行する。なお,以下の説明において,添え字のkはマイクロホンの識別番号(k=1,2),添え字のlは音源の識別番号(l=1,2),fは周波数ビン,fの添え字mは周波数ビンの識別番号(m=1,2),Wlk(f)は前記FDICA法に基づくBSS方式の音源分離処理における学習計算により得られた分離行列,cは音速,dk(d1又はd2)は2つのマイクロホンの中間位置から各マイクロホンまでの距離(マイクロホン相互間の距離の二分の一,即ち,d1=d2),θ1及びθ2は2つの音源それぞれのDOAである。
まず,次の(7)式(前記非特許文献4における(12)式に相当)により,l=1の場合及びl=2の場合の音源角度情報Fl(f,θ)を,分離フィルタの各周波数ビンごとに算出する。
なお,前記DOA推定部31は,その他の処理も実行するが,それについては後述する。
前記マイク回転機構50は,マイク保持部51とサーボモータ52とを備えている。
前記マイク保持部51は,全てのマイクロホン111,112をそれら相互の相対的な向きを固定した状態で保持(支持)する部材である。
また,前記サーボモータ52は,前記マイク保持部51を所定の回転軸の周りに回転させて任意の向き(回転角度)で保持する駆動源であり,例えばステッピングモータ等である。
前記サーボモータ52が,前記マイク保持部51を所定の回転軸を中心に回転させて所望の向きで保持することにより,前記マイク正面方向R0を所望の方向に向けることができる。
具体的には,前記回転制御部40は,前記DOA推定部31から前記特定音源方向θa,θbの情報を取得し,その情報に基づいて前記マイク回転機構50に対して制御指令を出力することにより,前記マイク正面方向R0が,前記DOA推定部31によって推定された前記特定音源1,2それぞれの存在する方向(前記特定音源方向θa,θb)の中間の方向に向くように制御する(前記音声入力手段向き制御手段の一例)。即ち,前記回転制御部40は,前記サーボモータ52の回転軸が(θa+θb)/2だけ回転して停止するよう制御する。
例えば,初期状態において,図7(a)に示すように,2つの前記特定音源1,2が,相互に十分に離間した状態(前記特定音源方向の差|θa−θb|が大きい状態)で,前記特定マイクロホン111,112それぞれの集音範囲に存在しているものとする。また,図7(a)に示す状態において,前記学習演算部12により十分に学習された前記分離行列Wが得られているものとする。なお,図7(a)に示す状態は,概ね,(θa,θb)=(60°,−60°)の状態(後述する第2パターン)である。
そして,その初期状態から2つの前記特定音源1,2の一方又は両方が,そのそれぞれに対応する前記特定マイクロホン111,112の集音範囲内において移動することにより,図7(b)に示すように,2つの前記特定音源1,2が の位置が近接した状態(前記特定音源方向の差|θa−θb|が小さい状態)に変化したとする。なお,図7(b)に示す例は,図7(a)に示す初期状態から,一方の前記特定音源2のみが位置P1から位置P2へ移動した例である。
ここで,図7(b)に示す状態において,前記特定マイクロホン111,112の向き(前記マイク正面方向R0)を変えないまま保持すると,図7(b)に太い破線矢印で示すように,前記マイク正面方向R0に近い方向に存在する前記特定音源2がわずかに移動するだけで,2つの前記特定音源1,2が一方の前記特定マイクロホン112の集音範囲に偏在する状態となり,前記学習演算部12及び前記分離演算処理部11による音源分離ができない状態に陥ってしまう。
そこで,前記回転制御部40は,前記マイク正面方向R0が,前記DOA推定部31により推定された前記特定音源方向θa,θbの中間方向に向くように,即ち,図7(c)に示すように,向きが制御された後の前記特定音源1,2の方向θa’,θb’(前記向き制御後特定音源方向)が前記マイク正面方向R0に対して左右対称となる状態(θa’=−θb’)となるように,マイクロホン全体の向きを所定角度Δψだけ調節(制御)する。これにより,図7(c)に太い破線矢印で示すように,前記マイク正面方向R0に近い方向に存在する前記特定音源2が多少移動しても,2つの前記特定音源1,2がそれぞれに対応する前記特定マイクロホン112の集音範囲に存在する状態が維持され,前記学習演算部12及び前記分離演算処理部11による音源分離ができなくなる状態に陥るこをを回避できる。
そこで,前記DOA推定部31は,前記向き制御後特定音源方向θa’,θb’に基づいて,その方向又はそれに近い方向に前記特定音源1,2が存在する状態で十分に前記学習計算を行うことによって予め得られた分離行列Wを,次の学習計算に用いる初期行列W0(前記分離行列Wの初期値)として設定する。なお,その詳細については後述する。
例えば,前記特定音源方向(θa,θb)の基準方向として,(30°,−30°),(60°,−60°),(90°,−90°),(120°,−120°),(150°,−150°)の5つのパターン(以下,第1パターン乃至第5パターンという)が規定されている場合,前記初期行列候補情報は,それら5つのパターンそれぞれの識別情報と,各パターンに適した初期行列W0とが関連付けられた情報である。
ここで,前記初期行列候補情報に含められる前記初期行列W0は,前記特定音源方向θa,θbを前記5つのパターンそれぞれの前記基準方向に固定した状態(前記基準状態)で,前記学習演算部12及び前記分離演算処理部11によってICA−BSS音源分離方式による音源分離処理を実行し,前記学習計算を十分に行なうことによって得られた分離行列(前記基準分離行列)である。即ち,前記特定音源1,2が前記基準方向に配置された条件下において,十分に収束した前記分離行列Wが前記初期行列W0として設定される。このように設定された初期行列W0は,前述したように,前記基準状態或いはそれに近い状態である場合に前記学習計算において用いられると,その学習計算の所要時間が比較的短くても(逐次計算の回数が少なくても)分離性能の高い新たな分離行列Wが得られる。
音源分離装置X’は,前記初期行列候補情報の中から前記学習演算部12が用いる初期行列W0を選択及び設定する処理(後述する初期行列設定処理)を実行するが,その内容については後述する。
なお,前記初期行列候補情報は,前記DOA推定部31が所定の通信インターフェースやメモリインターフェースを介してアクセス可能な外部メモリ(例えば,フラッシュメモリ等)に記憶されていてもよい。
図8に示す処理は,前記分離演算処理部11によるリアルタイムでの音源分離処理,及び図3に示した出力チャンネル切り替え処理と並行して実行され,また,前記学習演算部12によって学習済みの新たな分離行列Wが得られるごとに実行される。なお,以下に示すS21,S22,…は,処理手順(ステップ)の識別符号を表す。
まず,前記DOA推定部31が,前記学習演算部12によって学習済みの新たな分離行列Wが得られたか否か(学習計算が終了したか否か)を監視する(S21)。
そして,前記DOA推定部31は,前記学習演算部12によって学習済みの新たな分離行列Wが得られたことを検知すると,その新たな分離行列Wを前記学習演算部12から取得する(S22)。
さらに,前記DOA推定部31から前記回転制御部40に対して前記特定音源方向θa,θbの推定結果が引き渡され,前記回転制御部40が,前記DOA推定部31から取得した前記特定音源方向θa,θbの推定結果に基づいて,マイクロホンの向きの調節角度Δψ(=(θa+θb)/2)を算出する(S24)。
次に,前記回転制御部40が,前記マイク回転機構50を制御することにより,マイクロホン全体の向きを前記調節角度Δψ分だけ調節する(S25)。これにより,前記マイク正面方向R0が,前記DOA推定部31によって推定された前記特定音源方向θa,θbの中間の方向に向く。このステップS25の処理により,前記特定マイクロホン111,112と前記特定音源1,2との位置関係が,例えば図7(b)に示す状態から,図7(c)に示す状態に変化する。これにより,2つの前記特定音源1,2が前記特定マイクロホン111,112の一方の集音範囲に偏在して適正な音源分離が行えなくなる状況を極力回避できる。
なお,ステップS24又はステップS25において,マイクロホンの向きの調節角度Δψが,前記回転制御部40から前記DOA推定部31に引き渡される。
次に,前記DOA推定部31は,前記向き制御後特定音源方向θa’,θb’の変化(例えば,前回の算出値と今回の算出値の差)が,予め定められた設定値(例えば,30°)以上であるか否かを判別する(S27)。
ここで,前記DOA推定部31は,前記向き制御後特定音源方向θa’,θb’の変化が前記設定値以上であると判別した場合,ステップS26(前記制御後特定音源方向算出手段の処理に相当)で算出した前記向き制御後特定音源方向θa’,θb’に基づいて,前記初期行列候補情報における前記初期行列の複数の候補の中から,前記学習演算部12による次の前記学習計算に用いる前記初期行列W0を選択し,選択した所期行列W0を前記学習演算部12に引き渡す(S28,前記初期行列選択手段の一例)。より具体的には,前記DOA推定部31は,前記初期行列候補情報の中から,ステップS26で算出した前記向き制御後特定音源方向θa’,θb’に最も近い前記基準方向を特定し,特定したその基準方向に対応する前記初期行列W0の候補を選択して次の前記学習計算に用いる前記初期行列W0として設定する。これにより,前記学習演算部12による次回の学習計算に用いられる初期行列W0が,前記DOA推定部31から引き渡されたものに更新される。これにより,前記特定音源1,2の方向が大きく変化した場合でも,その変化に応じて適切な前記初期行列W0が選択(設定)されるため,次回の前記学習計算における前記分離行列Wの収束に長時間を要したり,音源分離性能が悪化したりする問題を回避できる。
一方,前記DOA推定部31は,ステップS27において,前記向き制御後特定音源方向θa’,θ’bの変化が前記設定値未満であると判別した場合,ステップS28の処理をスキップさせる。これにより,その時点で最新の学習済みの前記分離行列Wが,前記学習演算部12による次回の学習計算に用いられる初期行列W0として引き継がれる。
以後,ステップS22〜S28の処理が,前記学習演算部12による学習計算が行われて学習済みの新たな分離行列Wが得られるごとに繰り返される。
また,音源分離装置X’は,マイクロホンの向き制御を行った後の前記特定音源1,2の存在する方向θa’,θb’に応じて,次の前記学習計算に用いる前記初期行列W0を選択する(S28)。これにより,前記特定音源1,2の存在方向が大きく変化した場合でも,前記学習計算における前記分離行列Wの収束に長時間を要したり,音源分離性能が悪化したりする問題を回避でき,高い音源分離性能を維持できる。
1,2…音源
10…音源分離ユニット
11…分離演算処理部
12…学習演算部
21…ADC(A/Dコンバータ)
22…出力バッファ
23…DAC(D/Aコンバータ)
24…周波数解析部
25…データ記憶部
31…DOA推定部
40…回転制御部
50…マイク回転機構
51…マイク保持部
52…サーボモータ
111,112…マイクロホン
S1,S2,〜…処理手順(ステップ)
Ip1,Ip2…出力バッファの入力チャンネル
Op11,Op12…第1出力チャンネル(第1出力端)
Op21,Op22…第2出力チャンネル(第2出力端)
M1a,M1b,M2a,M2b…バッファ
Claims (7)
- 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力され,前記音源各々からの音源信号が重畳された複数の混合音声信号に対し,独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記音源信号に対応する複数の分離信号を逐次生成するとともに,該複数の分離信号各々を複数の第1の出力端各々を通じて出力する手段を備えた音源分離装置であって,
前記第1の出力端各々について,所定時間長分ごとの前記分離信号の特徴量を算出して所定の記憶手段に一時記憶させる特徴量算出・記録手段と,
前記特徴量算出・記録手段により一時記憶された前記第1の出力端各々についての前記特徴量の変遷を自動的に評価することにより前記第1の出力端各々を通じて出力される前記分離信号の入れ替わり状態を判別する信号入れ替わり判別手段と,
前記信号入れ替わり判別手段による判別結果に基づいて,前記第1の出力端を通じて出力されるいずれの前記分離信号を,1又は複数の第2の出力端のいずれを通じて出力するかを切り替える出力切替手段と,
を具備してなることを特徴とする音源分離装置。 - 前記特徴量算出・記録手段が,所定時間長分ごとの前記分離信号の周波数解析計算に基づいて周波数の特徴量を算出してなる請求項1に記載の音源分離装置。
- 前記特徴量算出・記録手段が,所定時間長分ごとの前記分離信号のパワースペクトルにおけるピーク周波数を前記特徴量として算出し,
前記信号入れ替わり判別手段が,過去の前記ピーク周波数と現在の前記ピーク周波数との比較により前記分離信号の入れ替わり状態を判別してなる請求項2に記載の音源分離装置。 - 前記独立成分分析法に基づくブラインド音源分離方式による音源分離処理において実行される学習計算によって算出される分離行列に基づいて,前記複数の音声入力手段のうち予め定められた隣り合う2つの音声入力手段である特定音声入力手段の集音範囲それぞれに存在する2つの前記音源である特定音源の存在する方向を推定する特定音源方向推定手段と,
前記複数の音声入力手段全体の向きを調節する音声入力手段向き調節機構と,
前記音声入力手段向き調節機構を制御することにより,前記特定音声入力手段それぞれの向きの中間方向を,前記特定音源方向推定手段により推定された前記特定音源それぞれの存在する方向の中間の方向に向ける音声入力手段向き制御手段と,
を具備してなる請求項1〜3のいずれかに記載の音源分離装置。 - 前記特定音源の存在する方向を表す複数の基準方向と前記分離行列の初期値である初期行列の複数の候補との組合せを表す初期行列候補情報が予め所定の記憶手段に記憶されており,
前記特定音源方向推定手段による推定結果と前記音声入力手段向き制御手段の制御による前記複数の音声入力手段の向きの調節量とに基づいて,前記音声入力手段向き制御手段による制御後における前記特定音源の存在する方向を算出する制御後特定音源方向算出手段と,
前記制御後特定音源方向算出手段の算出結果に基づいて,前記初期行列候補情報における前記初期行列の複数の候補の中から次の前記学習計算に用いる前記初期行列を選択する初期行列選択手段と,
を具備してなる請求項4に記載の音源分離装置。 - 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力され,前記音源各々からの音源信号が重畳された複数の混合音声信号に対し,独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記音源信号に対応する複数の分離信号を逐次生成するとともに,該複数の分離信号各々を複数の第1の出力端各々を通じて出力する手段を備えた音源分離装置が有するプロセッサに,
前記第1の出力端各々について,所定時間長分ごとの前記分離信号の特徴量を算出して所定の記憶手段に一時記憶させる特徴量算出・記録手順と,
前記特徴量算出・記録手順により一時記憶された前記第1の出力端各々についての前記特徴量の変遷を自動的に評価することにより前記第1の出力端各々を通じて出力される前記分離信号の入れ替わり状態を判別する信号入れ替わり判別手順と,
前記信号入れ替わり判別手順による判別結果に基づいて,前記第1の出力端を通じて出力されるいずれの前記分離信号を,1又は複数の第2の出力端のいずれを通じて出力するかを切り替える出力切替手順と,
を実行させることを特徴とする音源分離装置用のプログラム。 - 所定の音響空間に複数の音源と複数の音声入力手段とが存在する状態で該音声入力手段各々を通じて逐次入力され,前記音源各々からの音源信号が重畳された複数の混合音声信号に対し,独立成分分析法に基づくブラインド音源分離方式による音源分離処理を施すことによって前記音源信号に対応する複数の分離信号を逐次生成するとともに,該複数の分離信号各々を複数の第1の出力端各々を通じて出力する手順を有する音源分離方法であって,
前記第1の出力端各々について,所定時間長分ごとの前記分離信号の特徴量を算出して所定の記憶手段に一時記憶させる特徴量算出・記録手順と,
前記特徴量算出・記録手順により一時記憶された前記第1の出力端各々についての前記特徴量の変遷を自動的に評価することにより前記第1の出力端各々を通じて出力される前記分離信号の入れ替わり状態を判別する信号入れ替わり判別手順と,
前記信号入れ替わり判別手順による判別結果に基づいて,前記第1の出力端を通じて出力されるいずれの前記分離信号を,1又は複数の第2の出力端のいずれを通じて出力するかを切り替える出力切替手順と,
を有してなることを特徴とする音源分離方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006354613A JP2007215163A (ja) | 2006-01-12 | 2006-12-28 | 音源分離装置,音源分離装置用のプログラム及び音源分離方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006005254 | 2006-01-12 | ||
JP2006354613A JP2007215163A (ja) | 2006-01-12 | 2006-12-28 | 音源分離装置,音源分離装置用のプログラム及び音源分離方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007215163A true JP2007215163A (ja) | 2007-08-23 |
Family
ID=38493151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006354613A Pending JP2007215163A (ja) | 2006-01-12 | 2006-12-28 | 音源分離装置,音源分離装置用のプログラム及び音源分離方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007215163A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010020294A (ja) * | 2008-06-11 | 2010-01-28 | Sony Corp | 信号処理装置、および信号処理方法、並びにプログラム |
JP2010093717A (ja) * | 2008-10-10 | 2010-04-22 | Nippon Telegr & Teleph Corp <Ntt> | 光アクセスシステム |
JP2011071686A (ja) * | 2009-09-25 | 2011-04-07 | Nec Corp | 映像音響処理装置、映像音響処理方法及びプログラム |
JP2012042953A (ja) * | 2010-08-17 | 2012-03-01 | Honda Motor Co Ltd | 音源分離装置及び音源分離方法 |
CN101996639B (zh) * | 2009-08-12 | 2012-06-06 | 财团法人交大思源基金会 | 音频信号分离装置及其操作方法 |
CN102592607A (zh) * | 2012-03-30 | 2012-07-18 | 北京交通大学 | 一种使用盲语音分离的语音转换系统和方法 |
US10262678B2 (en) | 2017-03-21 | 2019-04-16 | Kabushiki Kaisha Toshiba | Signal processing system, signal processing method and storage medium |
CN109874096A (zh) * | 2019-01-17 | 2019-06-11 | 天津大学 | 一种基于智能终端选择输出的双耳麦克风助听器降噪算法 |
US10366706B2 (en) | 2017-03-21 | 2019-07-30 | Kabushiki Kaisha Toshiba | Signal processing apparatus, signal processing method and labeling apparatus |
CN111435598A (zh) * | 2019-01-15 | 2020-07-21 | 北京地平线机器人技术研发有限公司 | 语音信号处理方法、装置、计算机可读介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04191885A (ja) * | 1990-11-27 | 1992-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 音像制御処理方法 |
JP2000047699A (ja) * | 1998-07-31 | 2000-02-18 | Toshiba Corp | 雑音抑圧処理装置および雑音抑圧処理方法 |
WO2001095314A1 (fr) * | 2000-06-09 | 2001-12-13 | Japan Science And Technology Corporation | Dispositif et systeme acoustiques robotises |
JP2004145172A (ja) * | 2002-10-28 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体 |
JP2006510069A (ja) * | 2002-12-11 | 2006-03-23 | ソフトマックス,インク | 改良型独立成分分析を使用する音声処理ためのシステムおよび方法 |
JP2007156300A (ja) * | 2005-12-08 | 2007-06-21 | Kobe Steel Ltd | 音源分離装置、音源分離プログラム及び音源分離方法 |
-
2006
- 2006-12-28 JP JP2006354613A patent/JP2007215163A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04191885A (ja) * | 1990-11-27 | 1992-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 音像制御処理方法 |
JP2000047699A (ja) * | 1998-07-31 | 2000-02-18 | Toshiba Corp | 雑音抑圧処理装置および雑音抑圧処理方法 |
WO2001095314A1 (fr) * | 2000-06-09 | 2001-12-13 | Japan Science And Technology Corporation | Dispositif et systeme acoustiques robotises |
JP2004145172A (ja) * | 2002-10-28 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体 |
JP2006510069A (ja) * | 2002-12-11 | 2006-03-23 | ソフトマックス,インク | 改良型独立成分分析を使用する音声処理ためのシステムおよび方法 |
JP2007156300A (ja) * | 2005-12-08 | 2007-06-21 | Kobe Steel Ltd | 音源分離装置、音源分離プログラム及び音源分離方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010020294A (ja) * | 2008-06-11 | 2010-01-28 | Sony Corp | 信号処理装置、および信号処理方法、並びにプログラム |
JP2010093717A (ja) * | 2008-10-10 | 2010-04-22 | Nippon Telegr & Teleph Corp <Ntt> | 光アクセスシステム |
CN101996639B (zh) * | 2009-08-12 | 2012-06-06 | 财团法人交大思源基金会 | 音频信号分离装置及其操作方法 |
JP2011071686A (ja) * | 2009-09-25 | 2011-04-07 | Nec Corp | 映像音響処理装置、映像音響処理方法及びプログラム |
US8867755B2 (en) | 2010-08-17 | 2014-10-21 | Honda Motor Co., Ltd. | Sound source separation apparatus and sound source separation method |
JP2012042953A (ja) * | 2010-08-17 | 2012-03-01 | Honda Motor Co Ltd | 音源分離装置及び音源分離方法 |
CN102592607A (zh) * | 2012-03-30 | 2012-07-18 | 北京交通大学 | 一种使用盲语音分离的语音转换系统和方法 |
US10262678B2 (en) | 2017-03-21 | 2019-04-16 | Kabushiki Kaisha Toshiba | Signal processing system, signal processing method and storage medium |
US10366706B2 (en) | 2017-03-21 | 2019-07-30 | Kabushiki Kaisha Toshiba | Signal processing apparatus, signal processing method and labeling apparatus |
CN111435598A (zh) * | 2019-01-15 | 2020-07-21 | 北京地平线机器人技术研发有限公司 | 语音信号处理方法、装置、计算机可读介质及电子设备 |
US20210312936A1 (en) * | 2019-01-15 | 2021-10-07 | Beijing Horizon Robotics Technology Research And Development Co., Ltd. | Method, Device, Computer Readable Storage Medium and Electronic Apparatus for Speech Signal Processing |
CN111435598B (zh) * | 2019-01-15 | 2023-08-18 | 北京地平线机器人技术研发有限公司 | 语音信号处理方法、装置、计算机可读介质及电子设备 |
US11817112B2 (en) * | 2019-01-15 | 2023-11-14 | Beijing Horizon Robotics Technology Research And Development Co., Ltd. | Method, device, computer readable storage medium and electronic apparatus for speech signal processing |
CN109874096A (zh) * | 2019-01-17 | 2019-06-11 | 天津大学 | 一种基于智能终端选择输出的双耳麦克风助听器降噪算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007215163A (ja) | 音源分離装置,音源分離装置用のプログラム及び音源分離方法 | |
EP2237272B1 (en) | Signal processing apparatus, signal processing method, and program | |
JP4675177B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
Erdogan et al. | Improved MVDR beamforming using single-channel mask prediction networks. | |
US20070133811A1 (en) | Sound source separation apparatus and sound source separation method | |
JP4195267B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
US9584235B2 (en) | Multi-channel audio processing | |
US7650279B2 (en) | Sound source separation apparatus and sound source separation method | |
US9288576B2 (en) | Dereverberation parameter estimation device and method, dereverberation/echo-cancellation parameter estimation device, dereverberation device, dereverberation/echo-cancellation device, and dereverberation device online conferencing system | |
CN101060316B (zh) | 信号处理装置、信号处理方法及声场校正系统 | |
US20070025564A1 (en) | Sound source separation apparatus and sound source separation method | |
US7171007B2 (en) | Signal processing system | |
EP1357536B1 (en) | Creating reverberation by estimation of impulse response | |
CN109979476A (zh) | 一种语音去混响的方法及装置 | |
JP2007279517A (ja) | 音源分離装置、音源分離装置用のプログラム及び音源分離方法 | |
JP4462617B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP3918315B2 (ja) | インパルス応答測定方法 | |
US7039194B1 (en) | Audio effects synthesizer with or without analyzer | |
JP2007033804A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP2016149612A (ja) | マイクロホン間隔制御装置及びプログラム | |
EP4199368A1 (en) | Adaptive delay diversity filter, and echo cancelling device and method using same | |
JP2007282177A (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
JP2010152107A (ja) | 目的音抽出装置及び目的音抽出プログラム | |
CN110265048A (zh) | 回声消除方法、装置、设备及存储介质 | |
JP7484118B2 (ja) | 音響処理方法、音響処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080926 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110318 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110317 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110510 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111101 |