JP2011215649A - 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム - Google Patents

信号分離装置、および信号分離方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2011215649A
JP2011215649A JP2011167935A JP2011167935A JP2011215649A JP 2011215649 A JP2011215649 A JP 2011215649A JP 2011167935 A JP2011167935 A JP 2011167935A JP 2011167935 A JP2011167935 A JP 2011167935A JP 2011215649 A JP2011215649 A JP 2011215649A
Authority
JP
Japan
Prior art keywords
signal
separation
spectrogram
time
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011167935A
Other languages
English (en)
Other versions
JP5195979B2 (ja
Inventor
Atsuo Hiroe
厚夫 廣江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2011167935A priority Critical patent/JP5195979B2/ja
Publication of JP2011215649A publication Critical patent/JP2011215649A/ja
Application granted granted Critical
Publication of JP5195979B2 publication Critical patent/JP5195979B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】様々な遅延量を持つ混合音信号について遅延量を考慮した高精度な分離処理を可能とする構成を提供する。
【解決手段】入力音信号を時間周波数領域に変換して生成した観測信号スペクトログラムを時間周波数領域において畳み込み混合された観測信号として解釈し、畳み込み混合を解く独立成分分析により信号分離を行なう、または観測信号スペクトログラムに対する短時間フーリエ変換(STFT)により生成したモジュレーション・スペクトログラムを瞬時混合として解釈し、瞬時混合を解く独立成分分析によって信号分離結果を生成する。本構成により直接波、反射波など様々な遅延量を持つ混合音信号について遅延量を考慮した高精度な分離処理が実現される。
【選択図】図15

Description

本発明は、信号分離装置、および信号分離方法、並びにコンピュータ・プログラムに関する。さらに、詳細には、本発明は、複数の信号が混合された信号を独立成分分析(Independent Component Analysis;ICA)を用いて信号毎に分離する信号分離装置、および信号分離方法、並びにコンピュータ・プログラムに関する。
複数の原信号が未知の係数によって線形に混合されているときに、統計的独立性のみを用いて原信号を分離・復元するという独立成分分析(Independent Component Analysis;ICA)の手法が信号処理の分野で注目されている。この独立成分分析を応用することで、例えば話者とマイクロホンとが離れた場所にあり、マイクロホンで話者の音声以外の音を拾ってしまうような状況でも、音声信号を分離・復元することが可能となる。
ICAとは、多変量分析の一種であり、信号の統計的な性質を利用して多次元信号を分離する手法のことである。ICA自体の詳細については、例えば非特許文献1(「入門・独立成分分析」(村田昇著、東京電機大学出版局))などを参照されたい。
まず、時間周波数領域の独立成分分析を用いて、複数の信号(特に音信号)が混合された信号を時間周波数領域で分離する方法について説明し、次にその方法が持つ問題点について述べる。図1に示すように、N個の音源(信号源)から異なる音が鳴っていて、それらをn個のマイク(センサー)で観測するという状況を考える。複数の音源が発した音(原信号)がマイクに届く場合、マイクの取得する音は直接波、反射波が含まれ、各音源との距離に基づく時間遅れなどがあるため、ある1つのマイクj(ただし1≦j≦n)で観測される信号(観測信号)は以下に示す式[1.1]のように、原信号と伝達関数との畳み込み演算を全音源について総和した式として表わせる(以下では「畳み込み混合」と呼ぶ)。さらに、全てのマイク1〜nについての観測信号を一つの式で表わすと、式[1.2]のように表わせる。ただし、x(t),s(t)はそれぞれx(t),s(t)を要素とする列ベクトルであり、A[l]はakjを要素とするn×Nの行列である。(以降では、n=Nとする。)
このような畳み混合を解く手法として、以下の2つの方法が知られている。
(1)時間領域で畳み込み混合を直接解く。(時間領域逆畳み込み)
(2)観測信号を時間周波数領域に変換し、瞬時混合問題として解く。
以下では、それぞれの方法について説明する。
(1)時間領域で畳み込み混合を直接解く(時間領域逆畳み込み)手法について
上記した式[1.2]の畳み込みを解くために、以下に示す式[2.1]のような、観測信号の畳み込み混合の式を用意する。
上記の式[2.1]のような、観測信号の畳み込み混合の式を用意し、そして、分離結果y(t)の成分であるy(t)〜y(t)が全てのtについて最も独立となるように、分離行列W[0]〜W[L']を決める(以降、W[0]〜W[L']をまとめて分離フィルターと呼ぶ)。そのためには、式[2.1]〜式[2.4]を、分離行列および分離結果が収束するまで繰り返す(以降、このような繰り返しを「学習」と呼ぶ。また、分離行列を更新する式やΔWを算出する式などを「学習規則」と呼ぶ)。なお、式[2.3]のE[]はtについての平均を表わす。同式のφはスコア関数または活性化関数と呼ばれる関数である。なお、時間領域での畳み込み混合を解く式の詳細については、例えば、非特許文献2(「詳解独立成分分析」(Aapo Hyvarinenn ほか著。東京電機大学出版局)19.2畳み込み混合の暗中分離,19.2.3 自然勾配法)を参照されたい。
(2)観測信号を時間周波数領域に変換し、瞬時混合問題として解く手法について
時間領域の畳み込み混合は、時間周波数領域では瞬時混合で表わされることが知られており、その特徴を利用したのが時間周波数領域のICA(Independent Component Analysis)である。時間周波数領域ICA自体については、上述の非特許文献2(「詳解独立成分分析」(Aapo Hyvarinenn ほか著。東京電機大学出版局「19.2.4フーリエ変換法」)や、特許文献1(特開2006−238409「音声信号分離装置・雑音除去装置および方法」)などを参照されたい。
時間周波数領域の独立成分分析では、上記式[1.2]のx(t)からAおよびs(t)を直接推定するのではなく、x(t)を時間周波数領域の信号に変換し、Aおよびs(t)に対応する信号を時間周波数領域で推定する。以下では、主に本発明と関係ある点を説明する。上記式[1.2]の両辺を短時間フーリエ変換すると、以下に示す式[3.1]が近似的に得られる。すなわち、信号ベクトルx(t)、s(t)を長さLの窓で短時間フーリエ変換したものをそれぞれX(ω,t),S(ω,t)とし、行列A(t)を同様に短時間フーリエ変換したものをA(ω)とすると、時間領域の上記式[1.2]は時間周波数領域の下記式[3.1]で表すことができる。但し、ωは周波数ビンの番号を示し(1≦ω≦M)、tはフレーム番号を示す(1≦t≦T)。時間周波数領域の独立成分分析では、式[3.1]のS(ω,t)、A(ω)を時間周波数領域で推定することになる。
上記式[3.1]において、ωは周波数ビンの番号、tはフレームの番号である。ωを固定すると、この式は瞬時混合と見なせる。そこで、観測信号を分離するには、式[3.5]のような式を用意し、Y(ω,t)の各成分が最も独立になるように分離行列W(ω)を決める。
なお、周波数ビンの個数は、本来は窓の長さLと同一であり、各周波数ビンは、−R/2からR/2まで(Rはサンプリング周波数)をL等分したそれぞれの周波数成分を表す。但し、負の周波数成分は正の周波数成分の共役複素数であり、X(−ω)=conj(X(ω))(conj(・)は共役複素数)として求めることができる。
時間周波数領域でS(ω,t)、A(ω)を推定するには、先ず、下記式(4)のような式を考える。式[3.5]において、Y(ω,t)はyk(t)を長さLの窓で短時間フーリエ変換したYk(ω,t)を要素とする列ベクトルを表し、W(ω)はwij(ω)を要素とするn行n列の行列(分離行列)を表す。
従来の時間周波数領域ICAでは、パーミュテーション問題と呼ばれる、「どの成分がどのチャンネルに分離されるか」が周波数ビンごとに異なるという問題が発生していたが、この問題については、発明者自身の特許出願である上述の特許文献1(特開2006−238409「音声信号分離装置・雑音除去装置および方法」)によって、ほぼ解決した。
本発明は、この公開されている特許出願である特開2006−238409の理論的発展版であるため、以下では特開2006−238409の特徴についても説明する。
従来、すなわち、上述の特許文献1(特開2006−238409)で示される手法が開示される以前は、時間周波数領域の分離の式として、周波数ビンごとの式である[3.5]を用い、さらに周波数ビンごとに独立性を最大にするような分離行列W(ω)求めていた。
すなわち、ωを固定してtを変化させたときにY1(ω,t)〜Yn(ω,t)が統計的に独立となる(実際には、独立性が最大となる)ようなW(ω)を求める。なお、後述するが時間周波数領域の独立成分分析ではパーミュテーション(permutation)及びスケーリングの不定性があるため、W(ω)=A(ω)−1以外にも解が存在する。統計的に独立となるY1(ω,t)〜Yn(ω,t)が全てのωについて得られたら、それらを逆フーリエ変換することで、時間領域の分離信号y(t)を得ることができる。
時間周波数領域における従来の独立成分分析の概略について説明する。n個の音源が発するお互いに独立な原信号をs1〜snとし、それらを要素とするベクトルをsとする。マイクロホンで観測される観測信号xは、原信号sに上記式[1.2]の畳み込み・混合演算を施したものである。次に、観測信号xに対して短時間フーリエ変換を施し、時間周波数領域の信号Xを得る。Xの要素をXk(ω,t)とすると、Xk(ω,t)は複素数値をとる。Xk(ω,t)の絶対値である|Xk(ω,t)|を色の濃淡で表現した図をスペクトログラムという。スペクトログラムは、例えば、横軸をt(フレーム番号)、縦軸をω(周波数ビン番号)としてXk(ω,t)の絶対値である|Xk(ω,t)|を色の濃淡で表現した図である。続いて、信号Xの各周波数ビンにW(ω)を乗算することで分離信号Yを得る。そして、分離信号Yを逆フーリエ変換することで時間領域の分離信号yを得る。
しかし、上述した時間周波数領域の独立成分分析では、信号の分離処理を周波数ビン毎に行っており、周波数ビンの間の関係は考慮していない。そのため、分離自体は成功しても、周波数ビンの間でスケーリング及び分離先の不統一が発生する可能性がある。このうち、スケーリングの不統一については、音源毎に観測信号を推定する方法により解決できる。一方、分離先の不統一とは、例えばω=1ではY1にS1由来の信号が現れるのに対してω=2ではY1にS2由来の信号が現れる、というような現象のことであり、パーミュテーション(置換)の問題と呼ばれている。
これに対し、特許文献1(特開2006−238409)では、スペクトログラム全体での分離を表わす式である以下に示す数式[4.4]を用い、スペクトログラム全体での独立性を最大にする分離行列Wを求めるという手法を採用している。
具体的には、スペクトログラム全体での独立性として、式[4.5]で表わされるKullback−Leiblar情報量I(Y)を導入し、I(Y)を最小にする分離行列Wを求めている。独立成分分析において、独立性をどのような尺度で表現するか、また、どのようなアルゴリズムで独立性を最大化するかについては、種々のバリエーションが存在する。その1つの手法として、独立性をKullback−Leibler情報量(KL情報量)がある。Kullback−Leiblar情報量I(Y)は、スペクトログラムごとのエントロピーの総和から、スペクトログラム全体の同時エントロピーを引いたものであり、全てのスペクトログラムがお互いに独立となった場合に最小(理想的には0)となる。
KL情報量I(Y)は前述したように上記式[4.5]のように定義される。この式[4.5]において、H(Y)は各チャンネルについてのスペクトログラム1枚分のエントロピーを表し、H(Y)は全チャンネルについてのスペクトログラム1枚分の同時エントロピーを表す。n=2のときのH(Y)とH(Y)との関係を図2に示す。図2において、P(Y(t))は、Y(t)の確率密度関数であり、H(Y)は各チャンネルについてのスペクトログラム1枚分のエントロピーである。Kullback−Leiblar情報量I(Y)は、スペクトログラムごとのエントロピー11,12の総和から、スペクトログラム全体の同時エントロピー13を引いたものであり、全てのスペクトログラムがお互いに独立となった場合に最小(理想的には0)となる。
スペクトログラム全体でのKL情報量I(Y)を最小にするためには、式[5.1]〜[5.3]をWおよびYが収束するまで繰り返す。
なお、式[5.3]に出てくるΔW(ω),W(ω),Y(ω,t)は、それぞれΔW,W,Y(t)からω番目の周波数ビンに対応する要素を抽出した部分行列である。こうすることで、パーミュテーション問題のない分離結果を得ることが可能となった。
しかし、上記の2つの畳み混合を解く手法、すなわち、
(1)時間領域で畳み込み混合を直接解く。(時間領域逆畳み込み)
(2)観測信号を時間周波数領域に変換し、瞬時混合問題として解く。
この2つの手法には、課題がある。すなわち、
(1)時間領域で畳み込み混合を直接解く。(時間領域逆畳み込み)
この方法については、収束が遅いという問題がある。遅収束の理由は、分離フィルターの係数が変化すると波形全体が変化することや、分離フィルターの更新式の計算量がタップ数L'の2乗に比例することなどが挙げられる。そのため、フィルターのタップ数L'が大きい場合は、分離フィルターの初期値として、収束値にできる限り近い値を事前に求めておかないと、実用的な時間で分離することは難しい。実環境の残響に対応させるためには、少なくとも数千のオーダーのタップ数が必要であるため、(1)の方法では数千の2乗の計算量が必要である。
一方、(2)観測信号を時間周波数領域に変換し、瞬時混合問題として解く。この方法は、短時間フーリエ変換(STFT)の窓長と分離精度との間にトレードオフが存在することが課題である。観測信号が長い残響、すなわち大きなタップ数の畳み込み混同である場合、それを時間周波数領域の瞬時混合で表わすためには、STFTの窓の長さ(=タップ数)も大きくする必要がある。(窓長<残響長の場合は、残響が複数のフレームにまたがるため、瞬時混合では表現できない。)しかし、窓長を長くしすぎると、かえって分離精度が落ちることが知られている。なお、このトレードオフについては、例えば、以下の文献を参照されたい。
特許文献2(特開2003−271168「信号抽出方法および信号抽出装置、信号抽出プログラムとそのプログラムを記録した記録媒体」)
非特許文献3(「サブバンド処理によるブラインド音源分離に関する検討」荒木章子・Robert Aichner・牧野昭二・西川剛樹・猿渡洋 日本音響学会講演論文集2002年3月 pp.619−−620)
非特許文献4(「帯域分割型ICAを用いたBlind Source Separationにおける帯域分割数の最適化」西川剛樹・荒木章子・牧野昭二・猿渡洋 日本音響学会講演論文集2001年3月 pp.569−−570)
窓長を長くすると分離精度が落ちる原因は、窓長を長くする(=タップ数を大きくする)ほど、生成されたスペクトログラムの時間方向の変化、すなわち時間方向エンベロープの変化がなだらかになることである。時間周波数領域ICAは、エンベロープ同士の独立性に着目して観測信号を分離するが、なだらかなエンベロープ同士の独立性は急激に変化するエンベロープ同士の独立性に比べて低めに算出される傾向がある。つまり、異なる音源に由来するエンベロープ同士であっても「相関がある」と判定される可能性があるため、結果として分離精度が悪くなる。
上述したように、(2)観測信号を時間周波数領域に変換し、瞬時混合問題として解く手法における問題点は、短時間フーリエ変換(STFT)の窓長と分離精度との間にトレードオフが存在することである。以下、窓長と分離精度とのトレードオフに関して発明者本人が行なった実験結果を示す。図3は、STFTの窓長と時間周波数領域ICAの分離精度の関係をプロットしたグラフである。
図3において、横軸はSTFTの窓長(64,128,256,512,1024,2048,4096)、縦軸は分離精度の尺度であるsignal−interference−ratio(SIR)であり、実線は、(2)観測信号を時間周波数領域に変換し、瞬時混合問題として解く手法として、特開2006−238409の方法で分離した結果のSIRである(実験の詳細は後述する)。また、図3上段のグラフは波形ベースのSIRであり、下段は周波数ビンベースのSIRである。また、図4は、横軸の窓長を実際の秒数で表わしたグラフである。どちらのグラフも、中間に分離精度のピークがあることが分かる。(波形ベースでは窓長=1024がピーク。周波数ビンベースでは窓長=512がピーク。)
すなわち、時間周波数領域のICAでは、長い残響に対応させようとしてSTFTの窓を長くしても、ある程度を超えるとかえって分離性能が落ちるという問題がある。
以上をまとめると、独立成分分析(Independent Component Analysis;ICA)の手法の方式である以下の2つの方式、すなわち、
(1)時間領域で畳み込み混合を直接解く。(時間領域逆畳み込み)
(2)観測信号を時間周波数領域に変換し、瞬時混合問題として解く。
この2つの方式のいずれも、タップ数の大きい畳み込み混合に対しては分離精度が不十分であるという問題が存在する。
なお、「残響長よりも短い窓を用いてSTFTした場合は、スペクトログラム上でも依然として畳み込みが残る」との想定に対応した処理を開示した技術して非特許文献5(Serviere,C. Separation of speech signals under reverberant conditions.In Proc.EUSIPCO04,pp.1693-1696(2004))がある。
上記非特許文献5では、観測信号を時間周波数領域上の畳み込み混合であると考え、それを解く方法として、時間周波数領域での逆畳み込みのアルゴリズムを提案している。すなわち、「時間周波数領域において畳み込み混合を直接解く」方式に近い処理である。しかし、この非特許文献5において開示しているアルゴリズムは、2入力・2出力、すなわち、音声信号の出力音源が2つ、入力部としてのマイクを2つとした場合に限られたものである。また、本文献では、分離および逆畳み込みを周波数ビンごとに個別に行なう構成であり、パーミュテーション(permutation)問題と呼ばれる、「どの成分がどのチャンネルに分離されるか」が周波数ビンごとに異なるという問題が発生する。
上述したように、複数の信号が混合された音信号の分離処理について開示した従来技術はいくつか存在するが、独立成分分析(Independent Component Analysis;ICA)を用いて信号毎の高精度な分離処理を実現する信号分離処理においては、
(1)窓長(=分析フレームの長さ)を超える残響に対する対処、
(2)パーミュテーション(permutation)問題に対する対処、
(3)2つの入出力を超える入出力構成に対する対処、
これらの様々な問題に対する十分な解決策が提示されていないのが現状である。
特開2006−238409 特開2003−271168
「入門・独立成分分析」(村田昇著、東京電機大学出版局)特開2002−342198 「詳解独立成分分析」(Aapo Hyvarinenn ほか著。東京電機大学出版局) 「サブバンド処理によるブラインド音源分離に関する検討」荒木章子・Robert Aichner・牧野昭二・西川剛樹・猿渡洋 日本音響学会講演論文集2002年3月 pp.619−−620 「帯域分割型ICAを用いたBlind Source Separationにおける帯域分割数の最適化」西川剛樹・荒木章子・牧野昭二・猿渡洋 日本音響学会講演論文集2001年3月 pp.569−−570 Serviere,C. Separation of speech signals under reverberant conditions.In Proc.EUSIPCO04,pp.1693-1696(2004)
本発明は、このような状況に鑑みてなされたものであり、複数の信号が混合された音信号を独立成分分析(Independent Component Analysis;ICA)を用いて信号毎の高精度な分離処理を実現する信号分離装置、および信号分離方法、並びにコンピュータ・プログラムを提供することを目的とするものであり、特に、タップ数の大きい畳み込み混合に対する分離精度を向上させた信号分離装置、および信号分離方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
複数の信号が混合した信号を入力して個別の信号に分離する信号分離装置であり、
入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成する信号変換手段と、
前記信号変換手段の生成した観測信号スペクトログラムから信号分離結果を生成する信号分離手段を有し、
前記信号分離手段は、
前記観測信号スペクトログラムをフレーム方向へシフトさせて、各々が異なるシフト量を持つデータを積み重ねた観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により、信号分離結果を生成する構成であることを特徴とする信号分離装置にある。
さらに、本発明の信号分離装置の一実施態様において、前記瞬時混合ICAを適用した処理は、時間周波数領域の観測信号と分離行列から時間周波数領域の分離信号を生成し、生成した時間周波数領域の分離信号と、多次元確率密度関数から導出される多次元スコア関数によって計算される分離行列とがほぼ収束するまで分離行列を修正し、修正した分離行列を適用して時間周波数領域の分離信号を生成する処理であることを特徴とする。
さらに、本発明の信号分離装置の一実施態様において、前記信号分離手段は、複数の信号入力源の観測信号各々に対応して生成される複数の観測信号スペクトログラムシフトセットを積み重ねた複数チャンネル対応の観測信号スペクトログラムシフトセットに対して、瞬時混合ICAを適用して信号分離結果を生成することを特徴とする。
さらに、本発明の信号分離装置の一実施態様において、前記信号分離手段は、前記シフトの際に生じた隙間をゼロまたはゼロに近い値、または前記観測信号スペクトログラムの両端の値をコピーして設定して、前記観測信号スペクトログラムシフトセットを生成することを特徴とする。
さらに、本発明の信号分離装置の一実施態様において、前記信号分離手段は、前記シフトをシフトではみ出した一端のデータを他端にコピーする巡回シフト処理を実行することを特徴とする。
さらに、本発明の信号分離装置の一実施態様において、前記信号分離手段は、最小シフト量を0、最大シフト量を観測信号から分離結果を生成する際のフレームタップ数[L']として設定した複数のシフトデータを生成し、生成した異なるシフト量を持つデータを積み重ねた観測信号スペクトログラムシフトセットを生成することを特徴とする。
さらに、本発明の信号分離装置の一実施態様において、前記信号分離手段は、周波数に応じて前記フレームタップ数[L']を変更して前記観測信号スペクトログラムシフトセットを生成することを特徴とする。
さらに、本発明の信号分離装置の一実施態様において、前記信号分離手段は、前記観測信号スペクトログラムに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により第1の信号分離結果を生成し、該第1の信号分離結果から、どの音源にも対応しないと判定される不要チャンネル除去処理を実行し、該除去処理後に残存する観測信号スペクトログラムをフレーム方向へシフトさせて観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、瞬時混合ICAを適用して信号分離結果を生成する構成であることを特徴とする。
さらに、本発明の第2の側面は、
複数の信号が混合した信号を入力して個別の信号に分離する信号分離装置であり、
入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成する信号変換手段と、
前記信号変換手段の生成した観測信号スペクトログラムから信号分離結果を生成する信号分離手段を有し、
前記信号分離手段は、
前記観測信号スペクトログラムに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により信号分離結果Y1〜Ynを生成し、
信号分離結果Y1〜Ynの各々に対応する信号スペクトログラムをフレーム方向へシフトさせて、各々が異なるシフト量を持つデータを積み重ねた観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により残響除去処理を実行し、残響除去済みスペクトログラムの統合処理によって、残響を除去した信号分離結果を生成する構成であることを特徴とする信号分離装置にある。
さらに、本発明の信号分離装置の一実施態様において、前記瞬時混合ICAを適用した処理は、時間周波数領域の観測信号と分離行列から時間周波数領域の分離信号を生成し、生成した時間周波数領域の分離信号と、多次元確率密度関数から導出される多次元スコア関数によって計算される分離行列とがほぼ収束するまで分離行列を修正し、修正した分離行列を適用して時間周波数領域の分離信号を生成する処理であることを特徴とする。
さらに、本発明の第3の側面は、
信号分離装置において、複数の信号が混合した信号を入力して個別の信号に分離する信号分離方法であり、
信号変換手段が、入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成する信号変換ステップと、
信号分離手段が、前記信号変換ステップにおいて生成した観測信号スペクトログラムから信号分離結果を生成する信号分離ステップを有し、
前記信号分離ステップは、
前記観測信号スペクトログラムをフレーム方向へシフトさせて、各々が異なるシフト量を持つデータを積み重ねた観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により、信号分離結果を生成するステップであることを特徴とする信号分離方法にある。
さらに、本発明の第4の側面は、
信号分離装置において、複数の信号が混合した信号を入力して個別の信号に分離する信号分離方法であり、
信号変換手段が、入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成する信号変換ステップと、
信号分離手段が、前記信号変換ステップにおいて生成した観測信号スペクトログラムから信号分離結果を生成する信号分離ステップを有し、
前記信号分離ステップは、
前記観測信号スペクトログラムに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により信号分離結果Y1〜Ynを生成し、
信号分離結果Y1〜Ynの各々に対応する信号スペクトログラムをフレーム方向へシフトさせて、各々が異なるシフト量を持つデータを積み重ねた観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により残響除去処理を実行し、残響除去済みスペクトログラムの統合処理によって、残響を除去した信号分離結果を生成するステップであることを特徴とする信号分離方法にある。
さらに、本発明の第5の側面は、
信号分離装置において、複数の信号が混合した信号を入力して個別の信号に分離する信号分離処理を実行させるコンピュータ・プログラムであり、
信号変換手段に、入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成させる信号変換ステップと、
信号分離手段に、前記信号変換ステップにおいて生成した観測信号スペクトログラムから信号分離結果を生成させる信号分離ステップを有し、
前記信号分離ステップは、
前記観測信号スペクトログラムをフレーム方向へシフトさせて、各々が異なるシフト量を持つデータを積み重ねた観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により、信号分離結果を生成させるステップであることを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の一実施例の構成によれば、複数の信号が混合した入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成し、観測信号スペクトログラムから信号分離結果を生成する信号分離処理において、観測信号スペクトログラムを時間周波数領域において畳み込み混合された観測信号として解釈し、時間周波数領域の畳み込み混合を解く処理により信号分離結果を生成する、あるいは、観測信号スペクトログラムに対する時間方向の短時間フーリエ変換(STFT)によりモジュレーション・スペクトログラムを生成してモジュレーション・スペクトログラムを瞬時混合として解釈して信号分離結果を生成する構成としたので、直接波、反射波など様々な遅延量を持つ混合された音信号について、遅延量を考慮した高精度な分離処理が実現される。
複数の信号が混合された音信号の分離処理に適用する音情報の取得構成例について説明する図である。 各チャンネルについてのスペクトログラム1枚分のエントロピーH(Y)と、全チャンネルについてのスペクトログラム1枚分の同時エントロピーH(Y)の関係を示す図である。 STFTの窓長と時間周波数領域ICAの分離精度の関係をプロットしたグラフを示す図である。 横軸の窓長を実際の秒数として、時間周波数領域ICAの分離精度を表わしたグラフを示す図である。 複数の信号が混合された音信号の分離処理に適用する音情報の取得構成例について説明する図である。 時間領域の畳み混合が時間周波数領域において瞬時混合でなく畳み込み混合であると考える概念について説明する図である。 短時間フーリエ変換(STFT)について説明する図である。 スペクトログラムXから、時間方向に再び短時間フーリエ変換(STFT)したX'(モジュレーション・スペクトログラム)への変換について説明する図である。 スペクトログラムXから、時間方向に再び短時間フーリエ変換(STFT)したX'(モジュレーション・スペクトログラム)への変換について説明する図である。 エントロピーH(Y'k)の計算方法について説明する図である。 観測信号スペクトログラムに対して、フレーム番号をずらしながら縦に積み重ねたベクトルを生成する処理について説明する図である。 観測信号スペクトログラムXについて、t−l(エル)番目からt−l(エル)+L'番目のフレームを畳み込むことで分離結果を生成する操作について説明する図である。 シフト積み重ねと瞬時混合ICAを組み合わせた処理について説明する図である。 シフト積み重ねと瞬時混合ICAを組み合わせた処理のシーケンスについて説明するフローチャートを示す図である。 本発明の信号分離装置の構成例をについて説明する図である。 本発明の信号分離装置の構成例をについて説明する図である。 本発明の信号分離装置の処理シーケンスを説明するフローチャートを示す図である。 本発明の信号分離装置の実行する分離処理の詳細シーケンスについて説明するフローチャートを示す図である。 本発明の信号分離装置の実行する分離処理の詳細シーケンスについて説明するフローチャートを示す図である。 周波数ごとにフレームタップ数[L']の値を異ならせる処理について説明する図である。 2段階分離によるチャンネル数削減を行なって信号分離を行なう処理についてのフローチャートを示す図である。 残響除去処理について説明するフローチャートを示す図である。 本発明の信号分離装置の効果の確認のための実験装置の構成について説明する図である。 本発明の信号分離装置の効果の確認のための実験結果の評価データを示す図である。 本発明の信号分離装置の効果の確認のための実験結果の評価データを示す図である。 本発明の信号分離装置の効果の確認のための実験結果の評価データを示す図である。 本発明の信号分離装置の効果の確認のための実験結果の評価データを示す図である。 信号分離処理の評価実験を行なった環境について説明する図である。 信号分離処理の評価実験に適用した音源について説明する図である。 信号分離処理の評価実験に適用した音源の入出力パターンについて説明する図である。 信号分離処理の評価実験における観測信号の例について説明する図である。 信号分離処理の評価実験において得られたシフト&積み重ね(図11参照)を行なった結果について説明する図である。 信号分離処理の評価実験において得られた分離結果およびSIRについて説明する図である。 信号分離処理の評価実験において得られた評価結果について説明する図である。 信号分離処理の評価実験において得られた評価結果について説明する図である。
以下、図面を参照しながら本発明の信号分離装置、および信号分離方法、並びにコンピュータ・プログラムの詳細について説明する。本発明は、前述したように複数の原信号が混合されて取得された混合信号の信号解析によって原信号を分離・復元する処理を実行する信号分離処理を行なうものであり、独立成分分析(ICA:Independent Component Analysis)による信号分離処理を行なう構成である。
具体的には、図5に示すように、N個の音源111−1〜111−Nから異なる音が鳴っていて、それらをn個のマイク121−1〜121−nで観測するような状況において、マイク121−1〜121−nによって取得された混合信号に基づいて独立成分分析(ICA)による信号分離処理を行なう。
先に説明したように、ある1つのマイクj(ただし1≦j≦n)で観測される信号(観測信号)は前述した式[1.1]のように、原信号と伝達関数との畳み込み演算を全音源について総和した式として表わせる(「畳み込み混合」)。さらに、全てのマイク1〜nについての観測信号を一つの式で表わすと、前述した式[1.2]のように表わせ、この畳み混合を解く手法として2つの方法、すなわち、
(1)時間領域で畳み込み混合を直接解く。(時間領域逆畳み込み)
(2)観測信号を時間周波数領域に変換し、瞬時混合問題として解く。
これらの手法があったが、
(2)観測信号を時間周波数領域に変換し瞬時混合問題として解くという処理を行なう前提として、従来の時間周波数領域ICAの枠組みでは、時間領域の畳み混合が時間周波数領域では瞬時混合で表わされると考えていた。それに対し本発明では、時間周波数領域でも依然として畳み込み混合であると考える。この概念について図6を参照して説明する。
図6に示す図6(a)は、原信号、すなわち、図5に示す各音源111−1〜111−Nの出力する原信号のスペクトログラムを縦に積み重ねたものである。それぞれの音源のスペクトログラムをS,S、両者を縦に積み上げたものをSとする。なお、スペクトログラムは、前述したように、横軸をt(フレーム番号)、縦軸をω(周波数ビン番号)としてXk(ω,t)の絶対値である|Xk(ω,t)|を色の濃淡で表現した図である。
図6(a)に示す原信号のスペクトログラムにおいて、t番目のフレームの信号をベクトルで表現したものをS(t)とおく。なお、スペクトログラムの1フレーム分をスペクトルと呼ぶ。
従来は、S(t)がフレーム遅延なしでマイクに届くと考えていたが、本発明ではフレーム遅延があると考える。すなわち、図5を参照して説明すると、それぞれの音源111−1〜111−Nでスペクトルという名のベクトルが独立に発生し、それらが0以上の遅延を伴ってセンサーとしてのマイク121−1〜121−nに届く。これらには直接波と反射波が含まれる。
異なる音源からの直接波、また直接波と反射波、さらには単純な反射と複雑な反射など、様々な信号がマイクによって取得されることになり、その信号には様々な遅延量が存在すると推定される。ここで遅延の最大値をL+1とすると、図6(a)に示す原信号のスペクトログラムにおけるt番目のフレーム信号のベクトル表現であるスペクトルS(t)の影響は観測信号のt番目からt+L番目のフレームに及ぶことになる。
図6(b)は、観測信号のスペクトログラムであり、各マイク121−1〜121−nによって取得された観測信号について、短時間フーリエ変換(STFT)を実行して生成した観測信号のスペクトログラムXである。
短時間フーリエ変換(STFT)について、図7を用いて説明する。例えば図5に示すような環境においてk番目のマイクによって収録された観測信号xを図7(a)に示す。この観測信号xから一定長を切り出した切り出しデータであるフレーム171〜173にハニング窓やサイン窓等の窓関数を作用させる。なお、切り出した単位をフレームと呼ぶ。切り出す長さ(サンプルポイント数)は、従来法の時間周波数領域ICAにおいて最も高精度の分離結果が得られる長さ(図3によれば、512ポイントまたは1024ポイント付近)と同じ値でよい。
1フレーム分のデータに対して、離散フーリエ変換(有限区間のフーリエ変換のこと。略称DFT)または高速フーリエ変換(FFT)を施すことにより、周波数領域のデータであるスペクトルXk(t)を得る(tはフレーム番号)。
切り出すフレームの間には、図に示すフレーム171〜173のように重複があってもよく、そうすることで連続するフレームのスペクトルXk(t−1)〜Xk(t+1)を滑らかに変化させることができる。また、スペクトルをフレーム番号に従って並べたものをスペクトログラムと呼ぶ。図7(b)がスペクトログラムの例である。
なお、短時間フーリエ変換(STFT)において切り出すフレーム間に重複がある場合は、逆フーリエ変換(FT)においてもフレームごとの逆変換結果(波形)波形を重複つきで重ね合わせる。これをオーバラップ加算(overlap add)という。逆変換結果は、オーバラップ加算(overlap add)の前にサイン窓等の窓関数を再び作用させても良く、これを、weighted overlap add(WOLA)という。WOLAにより、フレーム間の不連続性に由来するノイズを低減することができる。
図6(b)は、図7を参照して処理によって得られる観測信号のスペクトログラムであり、スペクトログラムを縦に積み重ねたものである。それぞれのセンサー(マイク)のスペクトログラムをX,X、両者を縦に積み上げたものをXとする。観測信号のスペクトログラムをXとすると、X(t)からX(t+L)のL+1個のフレームは原信号スペクトルS(t)の影響を受けている。逆にいうと、図6(b)の観測信号中のt番目のフレームの観測信号X(t)は、それより前のL+1フレーム分の原信号の影響を受けている。
このように、観測信号中のt番目のフレームの観測信号X(t)が、それより前のL+1フレーム分の原信号の影響を受けていることを考慮すると、観測信号X(t)は、以下に示す式[6.1]のような畳み込み混合で表わすことができる。
上記式[6.1]は、先に説明した式[1.2]と似ているが、式[6.1]は時間周波数領域の式であることに注意されたい。L=0の場合は、従来の瞬時混合と等価となる。すなわち、観測信号X(t)が原信号スペクトルS(t)のみによって影響されている場合はL=0となり、従来の瞬時混合と等価となる。
両者の畳み込みを区別するため、
式[1.2]のLを「時間タップ数」、
式[6.1]のLを「フレームタップ数」、
と定義する。
なお、上記式[6.1]は、STFTにおいてフレームのシフト幅を1とした場合には厳密に成立する。また、フレームのシフト幅を2以上に設定した場合でも、近似的に成立する。この点についての詳細は、発明者自身の論文である以下の文献を参照されたい。
[Hiroe,A.Blind Vector Deconvolution:Convolutive Mixture Models in Short−Time Fourier Transform Domain.In M.E. Davies et al.(Eds.):ICA 2007,LNCS 4666,pp.471-479,2007.]
短時間フーリエ変換(STFT)の窓長よりも残響の時間の方が長い場合、残響の影響は1フレームでは完結せず、複数のフレームに及ぶ。複数のフレームに跨がる残響は、時間周波数領域での畳み込みとして表現できるため、本発明で導入する「時間周波数領域での畳み込み混合」という考え方によって、STFTの窓長を越える残響も除去することが可能である。
すなわち、先に説明した図3のSTFTの窓長と時間周波数領域ICAの分離精度の関係をプロットしたグラフを例にして説明すると、長い窓(2048や4096など)の代わりに、短めの窓(512や1024)と複数のフレームタップ(16や32)との組み合わせが可能となり、長い窓のトレードオフを回避しつつ長い窓と同等のタイムスパン(時間タップ数とフレーム方向へのシフト幅とフレームタップ数とから算出される時間)を確保することが可能となる。
また、時間領域逆畳み込みと比べ、ずっと少ないタップ数の畳み込みで済む(数十のオーダー)ため、時間領域逆畳み込みの課題も回避できる。なお、以降では、
原信号から観測信号が生成される際のフレームタップ数をLという文字で表わし、
一方、
観測信号から分離結果を生成する際のフレームタップ数をL'と表わす。
Lはその環境の残響時間およびSTFTの窓長とシフト幅から決まる値である。一方、L'はLとは異なる値に設定することができる。(L'=0とすると、従来法と等価になる。)
観測信号のフレームタップ数Lは、以下の式で計算することができる。
L=Tr×Fs/S
ただし、
Tr:環境の残響時間
Fs:サンプリング周波数
S:STFTのシフト幅
である。
例えば、
残響時間Tr=0.3秒、
サンプリング周波数Fs=16000Hz、
シフト幅S=256、
とすると、
原信号から観測信号が生成される際のフレームタップ数Lは、
L=18.75である。
すなわち、残響の影響は19フレームに及ぶ(端数切り上げ)ことが分かる。
観測信号Xから分離結果Y、すなわち、図6(b)の観測信号Xから図6(c)の分離結果Yを生成するためのフレームタップ数L'については、Lが既知であれば(すなわち、残響時間が既知であれば)、
L'=αL
とすればよい(αは適切な正の実数)。
Lが未知である場合、L'は例えば以下のいずれかの方法で決定することができる。
第一の方法は、L'=64やL'=100といった一定の値に決め打つことである。基本的に、L'が大きくなるほど計算量も増えるため、計算量と分離性能との兼ね合いからL'を決定しても良い。
第二の方法は、何らかの方法で残響時間を測定し、その残響時間から上記の式で求めたLの値の定数倍をL'、すなわちL'=αLとする方法である。残響時間の測定方法としては、例えば装置自体に装備されたスピーカーからインパルス性の音を発し、その音が十分減衰するまでの時間を計測する。
第三の方法は、既知の原信号から生成された観測信号に対してさまざまなL'の下で分離を行ない、最も良い分離結果をもたらすL'の値を採用することである。そのためには、例えば装置の周辺にスピーカーを複数設置し、それぞれから既知の音を鳴らし、それらの音を複数のマイクで観測する。その観測結果に対して、異なるL'(例えばL'=0〜100のそれぞれの値)で分離結果を生成する。分離結果と原信号とから、後述のSIR(signal−interference ratio)という分離性能尺度を計算し、最高のSIRをもたらすL'を採用する。環境が同じであれば、原信号が未知の場合でも、そのL'が最高の分離信号をもたらす可能性が高い。
例えば上記いずれかの方法によって、L'、すなわち、観測信号Xから分離結果Yを生成するためのフレームタップ数L'、具体的には、例えば、図6(b)の観測信号Xから図6(c)の分離結果Yを生成するためのフレームタップ数L'を決定し、このフレームタップ数L'を用いて、観測信号の複数の連続フレームから分離結果を生成する。
時間周波数領域において畳み込み混合された観測信号を分離する処理方式としては、たとえば以下の手法のいずれかを適用することが可能である。
(1)時間周波数領域において、畳み込み混合を直接解く。
(2)スペクトログラムを時間方向へもう一度短時間フーリエ変換(STFT)し、瞬時混合として解く。
(3)シフト積み重ねと瞬時混合ICAを組み合わせた処理によって解く。
以下では、それぞれの方法について説明する。
なお、上記の「(3)シフト積み重ねと瞬時混合ICAを組み合わせた処理」は、「(1)時間周波数領域において、畳み込み混合を直接解く」と同等の分離処理を実現する方式であり、観測信号スペクトログラムをシフトしながら積み重ねた後、その結果に対して従来の時間周波数領域の瞬時混合ICAを適用する手法である。詳細については後段で説明する。
(1)時間周波数領域において、畳み込み混合を直接解く
まず、時間周波数領域において、畳み込み混合を直接解くことで、時間周波数領域において畳み込み混合された観測信号を分離する処理について説明する。
再び図6を参照して説明する。前述の通り、原信号スペクトログラムのt番目のフレームS(t)は、観測信号のt番目からt+L番目のフレームに影響を与える。従って、原信号の1フレーム分を推定するためには、観測信号がLフレーム分かそれ以上必要である。その値をL'とする。
分離信号中のt番目のフレームを基準にした場合、例えば、図6(c)の分離信号中のY(t)を基準として考えると、S(t)を推定するためには少なくとも以降のL+1フレーム分のデータが必要である。そこで、原信号の推定結果(=分離結果)であるY(t)を、先に示した式[6.3]のように、観測信号X(t)からX(t+L')までの畳み込み混合として表わす。
一方、分離信号中のt+L'番目のフレームを基準にした場合、例えば、図6(c)の分離信号中のY(t+L')を基準として考えると、S(t)を推定するためには直前のL+1フレーム分のデータが必要である。そこで、分離信号Y(t)は式[6.2]のようにX(t−L')からX(t)までの畳み込み混合として表わす。
両者の式は、S(t)とのフレームのずれが異なるが、本質的には等価であるため、以下では式[6.2]からY(t)を推定する方法について説明する。
混合は同じ周波数ビンでのみ起こると仮定する(すなわち、伝播の途中で周波数の変調が起こることはないと仮定する)と、全周波数ビンの混合の式である式[6.1]は、周波数ビンごとの混合の式である式[6.4]のように書き表すことができる。その仮定の下では、式[6.2]の分離行列W[l]は、式[6.5]のように、対角行列から構成される行列として表わせるため、W[l]を推定するためには式[6.5]の非零の成分のみを推定すればよい。
式[6.2]から学習規則(ΔWの式)を求める処理は以下のように行なう。スペクトログラム全体での独立性を表わす尺度として、式[4.5]で計算されるKullback−Leiblar情報量I(Y)を考える。なお、この手法は、特開2006−238409に記載したと同様の処理である。
Y(t)の成分であるY1(t)〜Yn(t)を互いに独立にするためには、式[4.5]のKullback−Leiblar情報量I(Y)を最小にする分離行列W[0]〜W[L']を求めれば良いわけである。なお、特開2006−238409において示した方法は瞬時混合だったため、分離行列は1つだけ推定すればよかったが、本発明では、L'+1個のフレームの畳み込み混合であるため、分離行列もL'+1個推定する必要がある。
ここで「Y1(t)〜Yn(t)は互いに独立」という仮定(チャンネル間の独立性)の他に、「Yk(t−L')〜Yk(t)も互いに独立」という仮定(フレーム間の独立性)を設けると、最終的に、以下に示す式[7.1]の学習規則が導出される。
すなわち、分離行列W[0]〜W[L']を求めるためには、式[6.2],[7,1],[7.8]をW[0]〜W[L']が収束するまで(または一定回数)繰り返す。ただし、式[7,1]のΔW[l](ω),W[l](ω)は、それぞれΔW[l]とW[l]から周波数ビンωに対応する要素を抽出した部分行列(式[6.6])であり、Rω[l]は式[7.2]で計算されるクロス項である。式[7.2]のφω(Y(t))は、スコア関数からなるベクトルであり(式[7.4])、これは本出願人の先の出願(特開2006−238409)において示したスコア関数からなるベクトルと同一である。スコア関数は確率密度関数の対数微分として定義され(式[7.5])、特開2006−238409において開示したと同様に多変量のスコア関数を使用することで、パーミュテーションの発生を阻止できる。
スコア関数の具体例は特開2006−238409において説明したと同一でよく、例えば式[7.6]を用いる。この式において、αk(ω),m,γk(ω)は正の実数、βk(ω)は非負の実数である。簡単な例として、式[7.7]を適用してもよい。
式[7.8]において、ηは学習率と呼ばれる正の実数である。ηは例えば0.1といった定数でも良いが、式[7.9]のように適用的に算出しても良い。ただし、この式において‖W(ω)‖はW[0](ω)〜W[L](ω)の全要素の2乗和(式[7.10])、‖ΔW(ω)‖も同様にΔW[0](ω)〜ΔW[L'](ω)の全要素の2乗和、ηはηの上限値を表わす正の実数である。式[7.8]を用いると、学習の始めはηが比較的小さな値となり(‖ΔW(ω)‖が大きいため)、W(ω)がオーバーフローするのを回避できる。一方で学習の終わりではηが比較的大きな値となり(‖ΔW(ω)‖がゼロ行列に近いため)、W(ω)が目的の値に早く収束する。
なお、式[6.2]の代わりに式[6.3]を用いる場合は、学習において式[6.3],[7,1],[7.8]を繰り返す。ただし、式[7.1]のRω[l]として、式[7.2]の代わりに式[7.3]を用いる。
上記で式[7.1]を導出する際に、「Yk(t−L')〜Yk(t)も互いに独立」という仮定を置いていたが、代わりに「Yk(t−L')〜Yk(t)は互いに依存」という仮定を置くと、別の学習規則である以下に示す式[8.1]が得られる(式[7.1]は共通)。
式[7.2]と式[8.1]との違いはスコア関数の引数にあり、式[7.2]はY(t)のみを引数としているのに対して式[8.1]はY(t−L')〜Y(t)を全て引数としている。このスコア関数は式[8.4] で定義され、この式に現われるP(Yk(t),...,Yk(t−L'))は、隣接するL'+1個のフレームのデータが同時に発生する確率を表わしている。そのため、式[8.1]を用いると、隣り合ったフレーム間での依存関係が分離行列に一層反映され得る。スコア関数の例としては、式[8.5](式[8.6]はさらにその具体例)が挙げられる。
なお、式[8.1]は式[6.2]に対応した式である。式[6.2]の代わりに式[6.3]を用いる場合は、式[8.2]が対応する。
なお、上記の説明では、独立性の尺度としてKullback-Leiblar情報量を採用していたが、他の尺度を用いても良い。Kullback-Leiblar情報量以外で独立性を表す尺度としては、非正規性や尖度(kurtosis)などがあり、それらの量を最大または最小とするように分離行列を更新してもよい。
(2)スペクトログラムを時間方向へもう一度STFTし、瞬時混合として解く
次に、スペクトログラムを時間方向へもう一度短時間フーリエ変換(STFT)し、瞬時混合として解くことで、時間周波数領域において畳み込み混合された観測信号を分離する処理について説明する。
畳み込みをタップ数よりも長い窓長で短時間フーリエ変換(STFT)すると、畳み込みはただの積に変換される。これは、時間周波数領域の畳み込み混合についても同様である。すなわち、時間周波数領域の畳み込み混合である上述した式[6.4]を時間方向に再び短時間フーリエ変換(STFT)すると、以下に示す式[9.1]が得られる。ただし、X',A',S'は式[6.4]のX,A,Sの各要素を短時間フーリエ変換(STFT)した結果である。
上記式[9.1]は瞬時混合の式であり、観測信号を独立な成分へ分離するためには式[9.2]を考えればよい。
ここで、図8、図9を用いて、スペクトログラムXから、時間方向に再び短時間フーリエ変換(STFT)したX'(モジュレーション・スペクトログラム)への変換について説明する。比較のため、波形xからスペクトログラムXへの変換についても説明する。
図8(a)は、観測信号の波形である(この図ではチャンネル数=2としてあるが、
チャンネル数は任意である)。
図8(b)は、観測信号の波形(図8(a))を短時間フーリエ変換(STFT)することで生成されたスペクトログラムである(チャンネルごとにSTFTを行ない、それぞれの結果を縦に並べて表示してある)。窓長=Nでフーリエ変換するとN個の周波数成分が得られるが、実数データの変換においては負の周波数成分は正の周波数成分の共役複素数の関係にある(共役対称と呼ぶ)ため、直流成分と正の周波数成分とのN/2+1=M本の周波数ビンだけ考慮すればよい。図8(b)に示す周波数ビン201は、周波数ビンの1本を示している。なお、通常、スペクトログラムはXの絶対値をプロットしたものを指すが、ここではX自体もスペクトログラムと呼ぶ。原信号Sや分離結果Yについても同様である。
ここでさらに、図8(b)に示すスペクトログラムXについて、周波数ビンごとに短時間フーリエ変換(STFT)を行なう。スペクトログラムをもう一度STFTして生成されたデータをモジュレーション・スペクトログラムと呼ぶ。2度目の短時間フーリエ変換(STFT)の窓長をL'とすると、1本の周波数ビン、例えば図8(b)のビン201からL'本のビンが生成されるため、それを奥行き方向で表現する。これが、図9(c)に示すビン202であり、これらを集積した結果が、図9(c)に示すデータとなる。
すなわち、図9(c)は、図8(b)に示すスペクトログラムXについて、周波数ビンごとに短時間フーリエ変換(STFT)を行なって生成したモジュレーション・スペクトログラムであり、図9(c)に示すような直方体の構造のモジュレーション・スペクトログラムX'で表わされる。奥行き方向も周波数成分であるが、波形の周波数成分ではなくてエンベロープの周波数成分である。2度目の短時間フーリエ変換(STFT)では変換前データも複素数であるため、変換結果は共役対称にはならない。従って、L'本のビンは全て考慮しなければならない。
新たに生成されたビンを、奥行き方向の代わりに縦方向に配置する。すなわち、図9(c)に示すビン202を図9(d)に示すビン203のように配置すると、モジュレーション・スペクトログラムは図9(d)に示すように平面でも表現可能である。図9(d)に示すモジュレーション・スペクトログラムX'は、図8(b)に示すスペクトログラムXと一見似ているが、周波数ビンの意味合いが異なることに注意されたい。(1チャンネル辺りのビンの本数は、図8(b)に示すスペクトログラムXがL'本、図9(d)に示すモジュレーション・スペクトログラムX'がM×L'本である。
ここで先に示した数式[9.n]に戻ると、式[9.1],[9.2]のX'に相当するのが、図9(c)に示す立体版モジュレーション・スペクトログラムX'であり、ωが縦方向の周波数ビンを、ωが奥行き方向のビンを表わしている。式[9.2]において、(ω,ω)というペアをまとめてω'というインデックスで表わすと、式[9.3]が得られる。式[9.3]は、図9(d)に示す平面版モジュレーション・スペクトログラムX'に対応している。
式[9.2]または式[9.3]から学習規則(ΔWの式)を求めるためには、以下のように考える。モジュレーション・スペクトログラム全体での独立性を表わす尺度として、式[9.5]で計算されるKullback−Leiblar情報量を考える。この式は式[4.5]とほぼ同一だが、H(Yk')は1チャンネル分のモジュレーション・スペクトログラムから算出されるエントロピー、H(Y')はモジュレーション・スペクトログラム全体から算出される同時エントロピーである。H(Y'k)の計算方法について、図10を参照して説明する。
図10は、図9(c)に示す立体版モジュレーション・スペクトログラムX'に相当する。すなわち、例えば、観測信号の波形(図8(a))を短時間フーリエ変換(STFT)することで生成された図8(b)に示すスペクトログラムXに対して、さらに周波数ビンごとに短時間フーリエ変換(STFT)を行なって生成したモジュレーション・スペクトログラムに相当する。この図10に示す立体版モジュレーション・スペクトログラムX'において、例えば、1番目のチャンネルのエントロピー計算においては、図10における1番目のフレームのモジュレーション・スペクトログラムY1'(t)221は、平面を表わし、それを引数とする多変量確率密度関数P(Y1'(t))222にY1'(t)を代入することで、エントロピーH(Y1')223を求める。
式[9.3]は、変数名の違いを除くと式[3.5]と同一である。従って、学習規則を導出するためには、式[5.2]の変数名を付け替えればよく、結果として式[9.5]を得る。すなわち、式[9.3],[9.5],[9.6]をW'が収束するまで繰り返せば、Y1'(t)〜Yn'(t)が互いに独立になる。
互いに独立になったモジュレーション・スペクトログラムY1'〜Yn'それぞれに対して逆フーリエ変換とoverlap addを作用させると、互いに独立なスペクトログラムY1〜Ynが得られる。
上記の説明では、独立性の尺度としてKullback-Leiblar情報量を採用していたが、(1)と同様に他の尺度を用いても良い。
また、分離行列更新の式として自然勾配法に基づく式を導出したが、代わりに他のアルゴリズムを用いてもよい。他のアルゴリズムとしては、正規直交制約つき勾配法や不動点法やニュートン法などがあるが、この点は従来の瞬時混合ICAと同様である。
(3)シフト積み重ねと瞬時混合ICAを組み合わせた処理によって解く。
次に、シフト積み重ねと瞬時混合ICAを組み合わせた処理によって、時間周波数領域において畳み込み混合された観測信号を分離する処理について説明する。
この3番目の処理方式は、先に説明した[(1)時間周波数領域において、畳み込み混合を直接解く方式]とほぼ同等の分離処理を実現する方式であり、本出願人の先の特許出願である特開2006−238409において開示した瞬時混合ICA処理を利用して実現される。
本方式は、例えば観測信号スペクトログラムをシフトしながら積み重ねた後、その結果に対して時間周波数領域の瞬時混合ICA、すなわち、本出願人の先の特許出願である特開2006−238409において開示した瞬時混合ICAを適用することで実現される。この3番目の手法の適用により、パーミュテーション(置換)問題が解決され、かつ直接波、反射波など様々な遅延量を持つ混合された音信号について、遅延量を考慮した高精度な分離処理が実現される。
まず、この3番目の手法について説明する前に、観測信号の分離処理において発生するパーミュテーション(置換)問題と、この問題を解決した本出願人の先の特許出願である特開2006−238409の瞬時混合ICAの概要について、再度、簡潔に説明する。
n個の音源が発するお互いに独立な原信号をs1〜snとし、それらを要素とするベクトルをsとしたとき、マイクロホンで観測される観測信号xは、原信号sに前述した式[1.2]の畳み込み・混合演算を施したものとなる。次に、観測信号xに対して短時間フーリエ変換を施し、時間周波数領域の信号Xを得る。Xの要素をXk(ω,t)とすると、Xk(ω,t)は複素数値をとる。Xk(ω,t)の絶対値である|Xk(ω,t)|を色の濃淡で表現した図が例えば、図6(b)に示す観測信号のスペクトログラムである。このスペクトログラムは、例えば図5に示すマイク121−1〜121−nによって取得された観測信号について、短時間フーリエ変換(STFT)を実行して生成した観測信号のスペクトログラムXである。
スペクトログラムは、例えば、横軸をt(フレーム番号)、縦軸をω(周波数ビン番号)としてXk(ω,t)の絶対値である|Xk(ω,t)|を色の濃淡で表現した図である。続いて、信号Xの各周波数ビンに、分離行列W(ω)を乗算することで分離信号Yを得る。そして、分離信号Yを逆フーリエ変換することで時間領域の分離信号yを得ることができる。
しかし、前述したように、従来の時間周波数領域の独立成分分析では、信号の分離処理を周波数ビン毎に行っており、周波数ビンの間の関係は考慮していない。そのため、分離自体は成功しても、周波数ビンの間でスケーリング及び分離先の不統一が発生する可能性がある。スケーリングの不統一については、音源毎に観測信号を推定する方法により解決できるが、分離先の不統一、例えばω=1ではY1にS1由来の信号が現れるのに対してω=2ではY1にS2由来の信号が現れるといったパーミュテーション(置換)問題は解決できない。
本出願人の先の特許出願である特開2006−238409は、このパーミュテーション(置換)問題を解決する手法を開示した。すなわち、スペクトログラム全体での分離を表わす式については、先に説明した以下に示す数式[4.4]を用い、スペクトログラム全体での独立性を最大にする分離行列Wを求めるという手法を採用した。
具体的には、スペクトログラム全体での独立性として、式[4.5]で表わされるKL(Kullback−Leiblar)情報量I(Y)を導入し、I(Y)を最小にする分離行列Wを求める。KL情報量I(Y)は、スペクトログラムごとのエントロピーの総和から、スペクトログラム全体の同時エントロピーを引いたものであり、全てのスペクトログラムがお互いに独立となった場合に最小(理想的には0)となる。
KL情報量I(Y)の定義式[4.5]において、H(Y)は各チャンネルについてのスペクトログラム1枚分のエントロピーを表し、H(Y)は全チャンネルについてのスペクトログラム1枚分の同時エントロピーを表す。
例えば、n=2のときのH(Y)とH(Y)との関係は、先に図2を参照して説明したとおりである。図2において、P(Y(t))は、Y(t)の確率密度関数であり、H(Y)は各チャンネルについてのスペクトログラム1枚分のエントロピーである。Kullback−Leiblar情報量I(Y)は、スペクトログラムごとのエントロピー11,12の総和から、スペクトログラム全体の同時エントロピー13を引いたものであり、全てのスペクトログラムがお互いに独立となった場合に最小(理想的には0)となる。
スペクトログラム全体でのKL情報量I(Y)を最小にするためには、先に説明したように以下に示す式[5.1]〜[5.3]をWおよびYが収束するまで繰り返す。
なお、式[5.3]に出てくるΔW(ω),W(ω),Y(ω,t)は、それぞれΔW,W,Y(t)からω番目の周波数ビンに対応する要素を抽出した部分行列である。こうすることで、パーミュテーション問題のない分離結果を得ることが可能となった。
3番目の処理方式は、この特開2006−238409において開示した時間周波数領域の瞬時混合ICAを適用する手法である。特開2006−238409において示されている時間周波数領域の瞬時混合ICAを適用した処理は、具体的には、信号分離処理として、時間周波数領域の観測信号と初期値が代入された分離行列から時間周波数領域の分離信号を生成し、生成した時間周波数領域の分離信号と、多次元確率密度関数から導出される多次元スコア関数によって計算される分離行列とがほぼ収束するまで分離行列の修正を行い、この修正された分離行列を適用して時間周波数領域の分離信号を生成する処理として実行される。詳細については、特開2006−238409に開示された通りである。
以下説明する3番目の処理方式、すなわち、[(3)シフト積み重ねと瞬時混合ICAを組み合わせた処理によって時間周波数領域において畳み込み混合された観測信号を分離する処理では、この特開2006−238409において開示した時間周波数領域の瞬時混合ICAを適用する。具体的には、例えば観測信号スペクトログラムをシフトしながら積み重ねた後、その結果に対して時間周波数領域の瞬時混合ICAを適用する。以下、この3番目の手法について説明する。
本手法では、音声入力部である複数のマイクの各々の観測信号スペクトログラムに対して、フレーム番号をずらしながら縦に積み重ねたベクトルを生成する。例えばk番目のマイクに相当するkチャンネル目の観測信号スペクトログラム、すなわち、上記の式[4.1]の観測信号スペクトログラムX(t)に対して、フレーム番号をずらしながら縦に積み重ねたベクトルを考える。さらに、それを全チャンネル分積み重ねたベクトルを考える。以下に示す式[11.1]のベクトルX''(t)である。式[11.1]のベクトルX''(t)は、nチャンネル分のベクトルを含む。なお、チャンネルごとのベクトルをX''(t)と示している。
上記数式[11.1]に示すベクトルX''(t)の作成手順について、図11以下を参照して説明する。図11は、各マイクの入力信号に基づいて生成されるチャンネルごとの観測信号スペクトログラムX(t)から、チャンネルごとのベクトルX''(t)を生成する処理について説明する図である。図11(a)に示すデータ301、すなわちXは観測信号1チャンネル分のスペクトログラム、すなわちk番目のマイクに相当するkチャンネル目の観測信号スペクトログラムXであり、先に説明した図6(b)のX1やX2に相当する。
このXを、左にl(小文字のエル)フレームずつシフトした結果をX [l]とする。図11(b)には、観測信号スペクトログラムXを、シフト量lをl=0〜L'まで、順次、変化させながら縦に複数積み重ねた構造を示している。
データ311−0が、シフト量l=0、
データ311−1が、シフト量l=l(エル)フレーム

データ311−L'が、シフト量l=L'フレーム
である。
なお、L'は前述したように、観測信号から分離結果を生成する際のフレームタップ数である。
1つの観測信号スペクトログラムから、これらの複数の異なるフレーム方向へのシフト量を持つ観測信号スペクトログラムシフトセットを生成し、これを観測信号スペクトログラムシフトセット[X'']とする。観測信号スペクトログラムシフトセット[X'']から1フレーム分を切り出すと、図11(b)に示す数式312となる。この数式は、上述した式[11.1]に含まれる1つのチャンネル対応のベクトル[X(t)]に対応する。
式[11.1]は、先に説明したように、1つのチャンネル対応の観測信号スペクトログラムX(t)を、フレーム番号をずらしながら縦に積み重ねて生成される観測信号スペクトログラムシフトセットからなるベクトルを、さらに全チャンネル分積み重ねて生成される複数チャンネル対応観測信号スペクトログラムシフトセットからなるベクトルである。
なお、図11(b)に示すように、シフトの際に生じた隙間、すなわち、図11(b)に示すデータ311−0〜311−L'の斜線部分には、ゼロに近い値を代入しておくか、両端の値(X(1)やX(T)など)をコピーして設定する。または、後述のゼロ除算対策が施されている場合には、ゼロを代入しても構わない。または、両端の隙間を取り除き、中間のT−L'フレーム分のデータを用いるようにしても構わない。さらには、通常のシフト処理ではなく、長さTの巡回シフト(シフトではみ出した左端のデータを右端にコピーする)を適用する設定としてもよい。以下において説明する処理例は、巡回シフトによって生成した観測信号スペクトログラムシフトセット[X'']を適用した処理例について説明する。
図11(b)に示すような、シフト処理と積み重ね処理で生成された観測信号スペクトログラムシフトセット[X'']を元の観測信号スペクトログラム[X]と比較すると、
観測信号スペクトログラム[X]はnチャンネル分のスペクトログラム、
であるのに対して、
観測信号スペクトログラムシフトセット[X'']は見かけ上、n×(L'+1)チャンネル分のスペクトログラムを含む。nがマイク数に相当するチャンネル数、(L'+1)が1つのチャンネルに対応して設定されるシフトデータ数である。
この観測信号スペクトログラムシフトセット[X'']を、n×(L'+1)チャンネルの観測信号スペクトログラムとして、本出願人の先の特許出願である特開2006−238409において開示した瞬時混合ICAを適用した方法で分離処理を行なう。この処理によって、先に説明した「(1)時間周波数領域において、畳み込み混合を直接解く」方式と同等な分離を行なうことができる。以降では、その原理について説明する。
観測信号スペクトログラムXについて、t−l(エル)番目からt−l(エル)+L'番目のフレームを畳み込むことで分離結果を生成する操作について考察する。すなわち、図12に示すように、X(t−l(エル))からX(t−l(エル)+L')までのL'+1フレームから1フレーム分の分離結果を生成する操作であり、この処理によって分離信号Y[l](t)を得るための算出式は式[11.2]で表わされる。
分離結果をY[l](t)とおく。分離信号Y[l](t)はL'+1フレームの間の畳み込みであるため、係数の行列はL'+1個必要となるが、さらに、シフトフレーム数[l(エル)]によっても異なる値をとるため、分離行列[W]については、2種類の添字をつけて、
[l,0]〜W[l,L']
と表わす。すなわち、分離行列[W]は、シフトフレーム数[l(エル)]と、各々のシフトスペクトログラムに応じて設定する。
式[11.3]および式[11.4]は、式[11.2]に現れる部分行列の詳細であり、式[11.5]は、式[11.4]に現れる部分行列の詳細を示している。
分離信号[Y[l](t)]と分離行列[W[l,τ]]は、それぞれ、各チャンネルの成分に対応したベクトルや行列からなる。なお、Wに対する添字τはτ=0〜L'である、
ここで、式[11.6]で示される、
分離結果:Y[0](t)〜Y[L'](t)
をすべて包含したベクトル
分離結果ベクトルY''(t)と、
式[11.7]で示される複数の分離行列、
[0,0]〜W[L'+1,L']
をすべて包含した行列
W''
これらのベクトル[Y''(t)]と、行列[W'']とを用いると、分離処理を示す式は、単純に式[11.8]、すなわち、
Y''(t)=W''X''(t)・・・[11.8]
このように示すことができる。
従来法として先に説明した、特許文献1(特開2006−238409)では、スペクトログラム全体での分離を表わす式として、先に説明した数式[4.4]、すなわち、
Y(t)=WX(t)・・・[4.4]
上記式を用いた処理としているが、式[11.8]と式[4.4]と比較すると、式[11.8]は単にチャンネル数がnからn×(L'+1)に増えたものとして、式[4.4]を適用したとみなすことができる。
すなわち、図13に示すように、複数チャンネル分の観測信号スペクトログラムシフトセット[X'']は、X''〜X''によって構成され、これらをn×(L'+1)の個別のチャンネルに対応する観測信号スペクトログラムとして考えれば、式[11.8]は単にチャンネル数がnからn×(L'+1)に増えたものとして、式[4.4]を適用したとみなすことができる。
従って、nチャンネル分の観測信号スペクトログラムXを、図11を参照して説明した方法によってn×(L'+1)チャンネルに拡張し、その結果である観測信号スペクトログラムシフトセット[X'']に対して、特開2006−238409の学習式である式[5.1]〜[5.3]を繰り返し適用すると、分離結果であるY''と分離行列W''とが得られるのである。
ただし、式[5.1]〜[5.3]の変数の詳細である式[5.4]〜[5.7]において、nはn×(L'+1)に読み替えること。また、kは1≦k≦nではなく、1≦k≦n×(L'+1)を表わすインデックスとなる。
分離結果であるY''はn×(L'+1)チャンネル分のスペクトログラムを含んでいるが、所望のものはnチャンネル分(またはn未満)であるため、必要に応じてスペクトログラムの選択を行なう。選択の方法としては、分離結果Y''の中からY [0],Y [0],…,Y [0]のように特定のシフト量[l(エル)]に該当する成分のみを残すといった方法が適用可能である。
または、観測信号から分離結果を生成する際のフレームタップ数をL'の値の決定方法と同様に、既知の信号を用いて最適なフレーム方向へのシフト量[l(エル)]を求めても良い。すなわち、既知の信号をスピーカー等から鳴らして本発明の手法で集音および分離を行なった後、分離結果のY [0]〜Y [L']それぞれについて分離精度の尺度であるSIR(signal−interference−ratio)を計算する。そして最も高い分離精度(SIR)をもたらすシフト数:l(エル)に対応した分離結果[Y [l]]を選択するといった処理が可能である。
この(3)シフト積み重ねと瞬時混合ICAを組み合わせた処理によって、時間周波数領域において畳み込み混合された観測信号を分離する処理のシーケンスを説明するフローチャートを図14に示す。図14のフローにおける各ステップの処理について説明する。
まず、ステップS11において、観測信号スペクトログラムをシフトしながら積み重ねる。この処理は、図11を参照して説明した処理であり、各マイクによって取得される観測信号から生成される観測信号スペクトログラムに対して、シフトフレーム(l(エル))単位で順次シフトとして、フレームタップ数をL'に相当するシフト量になるまでシフトデータを生成して積み重ねて、観測信号スペクトログラムシフトセット[X'']を生成する。
次にステップS12において、瞬時混合ICA(または、変更したスコア関数)を用いて分離結果Y''を求める。すなわち、観測信号スペクトログラムシフトセット[X'']に対して、特開2006−238409の学習式である式[5.1]〜[5.3]を繰り返し適用して、分離結果であるY''と分離行列W''とを算出する。ただし、式[5.1]〜[5.3]の変数の詳細である式[5.4]〜[5.7]において、nはn×(L'+1)に読み替えること。また、kは1≦k≦nではなく、1≦k≦n×(L'+1)を表わすインデックスとなる。
なお、スコア関数は確率密度関数の対数微分として定義され、式[5.7]によって定義される。先の[(1)時間周波数領域において、畳み込み混合を直接解く]方式に式[7.5]について説明したように、特開2006−238409において開示したと同様、多変量のスコア関数を使用することで、パーミュテーションの発生を阻止できる。このスコア関数を用いた処理については後述する。
次に、ステップS13において、必要に応じて分離結果Y''の中から所望のスペクトログラムを選択する。すなわち、上述したように、分離結果であるY''はn×(L'+1)チャンネル分のスペクトログラムを含んでいるが、所望のものはnチャンネル分(またはn未満)であるため、必要に応じてスペクトログラムの選択を行なう。
選択方法としては、分離結果Y''の中からY [0],Y [0],…,Y [0]のように特定のシフト量[l(エル)]に該当する成分のみを残すといった方法が適用可能である。この際、最も高い分離精度(SIR)をもたらすシフト数:l(エル)に対応した分離結果[Y [l]]を選択するといった処理が可能である。
上記で説明した方法は、先に、[(1)時間周波数領域において、畳み込み混合を直接解く]方式において説明した式[7.2]〜式[7.5]を用いた方法とほぼ同等の処理を実行していることに相当する。すなわち、本処理例では、n×(L'+1)チャンネルの信号をお互いに独立となるように分離する処理であり、例えば、図13を参照して説明すると、複数チャンネル分の観測信号スペクトログラムシフトセット[X'']を適用した結果として得られる分離結果である信号Y''331の中のスペクトログラム1枚分である信号Y [0]341は、他音源に由来する信号Y [0]343やY [L']344と独立となるだけでなく、同一音源に由来するはずのY [L']342とも独立になる。
一方、上記で使用するスコア関数(式[5.7]ほか)を変更することで、先に、[(1)時間周波数領域において、畳み込み混合を直接解く]方式において説明した式[8.1]〜式[8.4]を用いた方式と同等の処理も行なうことが可能である。
[(1)時間周波数領域において、畳み込み混合を直接解く]方式において説明した式[8.1]〜式[8.4]を用いた方式は、「Yk(t−L')〜Yk(t)は互いに依存」という仮定に基づく処理である。本処理例[(3)シフト積み重ねと瞬時混合ICAを組み合わせた処理]においても、分離結果の依存を考慮した処理が可能である。すなわち、図13を参照して説明すると、Y [0]341は、Y [0]343やY [L']344とは独立で、Y [L']342とは依存関係があるという分離を行なうことができる。以下では、その方法について説明する。
同一の音源に由来する分離結果Y [0],…,Y [L']の間で依存関係を持たせるには、先に説明したΔW(ω)の算出式[5.2]の代わりに、以下に示す式[12.1]を用いる。
ただし、式[12.1]中のY''(ω,t)およびW''(ω)は、それぞれY''およびW''からω番目の周波数ビンの成分を抽出したベクトルおよび行列であり、式[12.3]および式[12.4]のように表わされる。φω(Y''(t))は、式[12.5]で表わされる通り、n×(L'+1)個のスコア関数を要素に持つベクトルである。(スコア関数の具体例は後述する。)
式[12.5]と式[5.6]との違いは、スコア関数の引数にある。すなわち、式[5.6]をn×(L'+1)チャンネルに拡張した場合は、n×(L'+1)個のスコア関数が全て異なる引数をとるのに対し、式[12.5]ではφkω [0](Y''(t))〜φkω [L'](Y''(t))は同一の引数Y''(t)をとるため、引数はn種類である。
スコア関数φkω [l](Y''(t))は、Y''(t)(すなわちY [0],…,Y [L'])を引数とする多次元(多変量)確率密度関数の対数微分として定義される(式[12.5])。このように、一つの確率密度関数に複数の引数を含め、そこから導出されるスコア関数を用いてICAの学習を行なうと、引数となっている要素同士は依存関係を持つ(独立にはならない)ことが理論的に示されている。すなわち、再び図13を参照して説明すると、Y [0],…,Y [L']の組である信号Y''351は、組の内部の各要素は依存関係を持つが、別の組の信号、例えばY''352とは独立になる。
ここで、多次元確率密度関数とスコア関数の具体例について説明する。多次元確率密度関数の一種に、球状分布と呼ばれるものがある。これは、以下に示す式[13.1]の通り、スカラーを引数にとる関数にベクトルのL2ノルムを代入することで生成される(「∝」は比例を表わす)。
L2ノルムは、各要素の(絶対値の)2乗和の平方根であり、式[13.2]のmに2を代入することで得られる。球状分布の例として、式[13.3]のような指数分布に基づくもの(γは正の実数)を用いると、対応するスコア関数として式[13.4]が導出される。この式を[12.5]に代入すればよい。
なお、先に、[(1)時間周波数領域において、畳み込み混合を直接解く]方式において説明した式[7.6]と同様に、式[13.4]に対しても変更を及ぼして構わない。その例を式[13.5]に示す。変更の例としては、
1)ゼロ除算を防ぐために分母に正の値β [l](ω)を加える。さらに、その値として、kやl(エル)やωごとに異なるものを用いる。
2)L2ノルムの代わりにL−mノルム(式[13.2])を用いる。
3)スコア関数の係数Kの代わりに、kやl(エル)やωごとに異なる正値γ [l](ω)を用いる
このようなことを行なう。
式[12.1]は自然勾配法に基づく更新式であるが、それ以外のアルゴリズムも使用可能である。例えば、「独立性による等分散適用的分離」(Equivariant Adaptive Separation via Independence: EASI)と呼ばれる、信号の無相関化と分離とを同時に行なうアルゴリズムに基づく更新式は、式[12.2]の通りである。このアルゴリズムを用いると、自然勾配法に比べて少ないループ回数で学習を収束させることができる。
なお、式[12.1]および式[12.2]において行列の要素の対称性に注目すると、計算量を削減することが可能である。その点について説明する。
式[12.1]のEt[・]の内部は、式[12.7]のような(L'+1)n×(L'+1)nの行列に展開される(上線は共役複素数を表わす)。この式の各要素について平均を取る際に、各要素の1番目の項であるφkω [α](Y''(t))と2番目の要素であるY [β](ω,t)との間(α,βは0≦α,β≦L'を満たす整数)で相対的なシフト量が同じであれば、平均後の値はほぼ同じ値となる。すなわち、式[12.8]の関係が成り立つ。特に、シフトとして前述の巡回シフトを用いた場合は、全く同一の値となる。
この性質を用いると、式[12.7]の{(L'+1)n}個の要素のうち、実際に値を計算する必要のあるのは2(L'+1)n個だけでよく、残りの要素については、式[12.8]に従って値を再利用すればよい。
同様に、式[12.2]についても、計算量の削減が可能である。Et[・]の内部の3項のうち、1番目は式[12.1]と同様の計算が行なえる。また、2番目については1番目の項を求めた後、単にエルミート転置を計算すればよい(式[12.9])。3番目の項については、式[12.10]の変形を行なうことで、計算量削減が可能となる。ただし、式[12.10]のX''(ω,t)は式[11.1]からω番目の周波数ビンに対応した要素を抽出したベクトルであり、式[12.11]のように表わせる。
17あるEt[X''(ω,t)X''(ω,t)]は学習のあいだ常に一定である。従って、Et[X''(ω,t)X''(ω,t)]については、学習前に一度だけ計算しておけばよく、学習中に毎回平均操作を行なう必要はない。すなわち、式[12.10]の左辺よりも右辺の方が計算量を削減できるのである。
さらに、Et[X''(ω,t)X''(ω,t)]の計算においては、式[12.8]と同様の対称性である式[12.12]および、対角線に対する対称性である式[12.13]が成り立つ。そのため、{(L'+1)n}個の要素のうち、実際に値を計算する必要があるのは(L'+1)n個だけでよい。
[具体的構成例および処理例]
本発明の信号分離装置の構成例を図15および図16に示す。図15は時間周波数領域で畳み込み混合を解く方式を実行する信号分離装置、図16はモジュレーション・スペクトログラムに変換してから瞬時混合を解く方式を実行する信号分離装置に対応する構成例である。
(1)時間周波数領域で畳み込み混合を解く方式を実行する構成
先に、図15に示す時間周波数領域で畳み込み混合を解く方式を実行する信号分離装置の構成および処理について説明する。なお、以下に説明する処理の統括的な制御は制御部409において実行される。制御部409は、例えば、装置の記憶部(図示せず)に予め記憶された以下に説明する処理を実行するプログラムに従って処理を制御する。以下、各構成部の処理について説明する。複数の音源が発する独立な音を複数のマイク401で観測し、AD変換部402において入力アナログ信号をデジタル信号に変換してデジタル観測信号を得る。
デジタル観測信号は短時間フーリエ変換(STFT)部403に入力され短時間フーリエ変換処理が行なわれ、観測信号のスペクトログラムを得る。ここまでの処理は、例えば、図6(b)に示す観測信号のスペクトログラムXを得る処理に相当する。
信号分離部404は、短時間フーリエ変換(STFT)部403で生成した観測信号のスペクトログラムXを独立な成分に分離する。この図15に示す信号分離装置は、時間周波数領域において畳み込み混合された観測信号の分離処理として時間周波数領域において畳み込み混合を直接解く方式を適用しており、式[6.2]および[7.2]・[7.1]・[7.8]の演算を分離行列および分離結果が十分収束するまで(または一定回数)繰り返し行なうことで観測信号の分離処理を実行する。この分離処理によって、図6(c)に示す分離結果Yを得る。
なお、畳み込み演算部408で行なう処理は、先に、図6を参照して説明した処理に従った処理である。すなわち、観測信号中のt番目のフレームの観測信号X(t)が、遅延の最大値をL+1として、前のL+1フレーム分の原信号の影響を受けていることを考慮した処理である。すなわち、観測信号X(t)を前述したフレームタップ数Lを適用した式[6.1]の畳み込み混合で表し、さらに、図6(c)の分離信号中のY(t+L')を基準とし、S(t)を推定するため、直前のL+1フレーム分のデータを考慮して、分離信号Y(t)を式[6.2]のようにX(t−L')からX(t)までの畳み込み混合として表わして、式[6.2]と式[7.2]を適用して行なう畳み込み演算である。
観測信号Xから分離結果Y、すなわち、図6(b)の観測信号Xから図6(c)の分離結果Yを生成するためのフレームタップ数L'は、前述したように、Lが既知であれば(すなわち、残響時間が既知であれば)、L'=αLとすればよく(αは適切な正の実数)、Lが未知である場合、L'は、例えば、以下のいずれかの方法で決定する。
(a)L'=64やL'=100といった一定の値に決め打つ。
(b)残響時間を測定し、その残響時間から求めたLの値をL'とする。
(c)さまざまなL'の下で分離を行ない、最も良い分離結果をもたらすL'の値を採用する。例えばSIR(signal−interference ratio)という分離性能尺度を計算し、最高のSIRをもたらすL'を採用する。
上記いずれかの方法によって、L'、すなわち、観測信号Xから分離結果Yを生成するためのフレームタップ数L'、具体的には、例えば、図6(b)の観測信号Xから図6(c)の分離結果Yを生成するためのフレームタップ数L'を決定し、このフレームタップ数L'を用いて、観測信号の複数の連続フレームから分離結果を生成する。
リスケーリング部405では、分離信号の各周波数ビンに対してスケールを揃えるリスケーリング処理を行なう。リスケーリングとは、周波数ビンごとのスケールを調整する処理である。また、分離処理前に観測信号に正規化(平均や分散の調整)を行なっていた場合は、ここで元に戻す。
逆フーリエ変換部406は、逆フーリエ変換によって分離信号のスペクトログラムを時間領域の信号へと変換する。変換された信号は、必要に応じて後段処理実行部407へ送られる。後段の処理とは、スピーカーからの再生や音声認識などである。なお、後段の処理によっては、逆フーリエ変換部を省略することも可能である。
このように、図15に示す信号分離装置は、複数の音信号が混合した信号を入力して個別の音信号に分離する信号分離装置であり、入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成する信号変換手段(STFT部403)と、信号変換手段(STFT部403)の生成した観測信号スペクトログラムから信号分離結果を生成する信号分離手段(信号分離部404)を有し、信号分離手段(信号分離部404)は、観測信号スペクトログラムを時間周波数領域において畳み込み混合された観測信号として解釈して、畳み込み演算部408における畳み込み演算の実行により信号分離結果を生成する。
なお、信号変換手段(STFT部403)は、入力信号に対して短時間フーリエ変換(STFT)を実行して時間周波数領域に変換し観測信号スペクトログラムを生成する処理を実行する。
また、信号分離手段(信号分離部404)は、フレーム番号(t)の分離信号Y(t)を、観測信号X(t−L')〜X(t)の畳み込み混合として設定し、分離信号Y(t)に含まれる個別の音声信号成分であるY1(t)〜Yn(t)各々の独立性を高める処理により信号分離結果を生成する。具体的には、分離信号Y(t)に含まれる個別の音信号成分であるY1(t)〜Yn(t)各々の独立性を高める処理として、独立性算出尺度であるKullback−Leiblar情報量I(Y)を適用し、Kullback−Leiblar情報量I(Y)を最小にする分離行列の更新処理により信号分離結果を生成する。
なお、(3)シフト積み重ねと瞬時混合ICAを組み合わせた処理によって時間周波数領域において畳み込み混合された観測信号を分離する処理を実行する装置構成としては、例えば、図15に示す構成から畳み込み演算部408を省いた構成が適用できる。なお、信号分離部において実行する処理は異なる。
(3)シフト積み重ねと瞬時混合ICAを組み合わせた処理を行なう装置では、STFT部403が、入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成する信号変換手段として機能し、信号分離部404は、信号変換手段の生成した観測信号スペクトログラムから信号分離結果を生成する処理を行なう構成であり、信号分離部404では、先に図11〜図14を参照して説明したように、観測信号スペクトログラムをフレーム方向へシフトさせて、各々が異なるシフト量を持つデータを積み重ねた観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により、信号分離結果を生成する。なお、瞬時混合ICAを適用した処理は、特開2006−238409に開示された手法、すなわち、時間周波数領域の観測信号と分離行列から時間周波数領域の分離信号を生成し、生成した時間周波数領域の分離信号と、多次元確率密度関数から導出される多次元スコア関数によって計算される分離行列とがほぼ収束するまで分離行列を修正し、修正した分離行列を適用して時間周波数領域の分離信号を生成する処理として実行される。
(2)モジュレーション・スペクトログラムに変換してから瞬時混合を解く方式を実行する構成
次に、図16に示すモジュレーション・スペクトログラムに変換してから瞬時混合を解く方式を実行する信号分離装置の構成、および処理について説明する。なお、以下に説明する処理の統括的な制御は制御部461において実行される。制御部461は、例えば、装置の記憶部(図示せず)に予め記憶された以下に説明する処理を実行するプログラムに従って処理を制御する。以下、各構成部の処理について説明する。複数の音源が発する独立な音を複数のマイク451で観測し、AD変換部452において入力アナログ信号をデジタル信号に変換してデジタル観測信号を得る。
デジタル観測信号は、第1短時間フーリエ変換(STFT)部453に入力され、短時間フーリエ変換(STFT)処理が行なわれ、観測信号のスペクトログラムを得る。この段階で得られる信号は、例えば、図8(b)に示すスペクトログラムXである。さらに、第1段階の短時間フーリエ変換(STFT)処理によって得られた観測信号のスペクトログラムを第2短時間フーリエ変換(STFT)部454に入力して、周波数ビンごとに再び短時間フーリエ変換(STFT)を実行し、モジュレーション・スペクトログラムを得る。
この第2短時間フーリエ変換(STFT)部454における短時間フーリエ変換(STFT)によって得られるモジュレーション・スペクトログラムが例えば図9(c),(d)に示すモジュレーション・スペクトログラムX'である。
信号分離部455は、モジュレーション・スペクトログラムX'を入力して、このモジュレーション・スペクトログラムX'を独立な成分に分離する。この分離処理は、先に図10を参照して説明した処理である。すなわち、図10は、図9(c)に示す立体版モジュレーション・スペクトログラムX'に相当し、この図10に示す立体版モジュレーション・スペクトログラムX'において、例えば、1番目のチャンネルのエントロピー計算においては、図10における1番目のフレームのモジュレーション・スペクトログラムY1'(t)221は、平面を表わし、それを引数とする多変量確率密度関数P(Y1'(t))222にY1'(t)を代入することで、エントロピーH(Y1')223を求める。式[9.3]は、変数名の違いを除くと式[3.5]と同一である。従って、学習規則を導出するためには、式[5.2]の変数名を付け替えればよく、結果として式[9.5]を得る。すなわち、式[9.3],[9.5],[9.6]をW'が収束するまで繰り返せば、Y1'(t)〜Yn'(t)が互いに独立になる。
次に、第1リスケーリング部456でモジュレーション・スペクトログラムに対してリスケーリングを行なう。リスケーリングとは、周波数ビンごとのスケールを調整する処理である。さらに、第1逆フーリエ変換(FT)部457で、リスケーリングされたモジュレーション・スペクトログラムに対して逆フーリエ変換(FT)処理を実行して、モジュレーション・スペクトログラムをスペクトログラムへ変換する。その後、再び第2リスケーリング部458でリスケーリングを行なった後、第2逆フーリエ変換(FT)部459で、リスケーリングされたスペクトログラムに対して逆フーリエ変換(FT)処理を実行して、スペクトログラムを波形に変換する。波形に変換された信号は、必要に応じて後段処理実行部461へ送られ、必要に応じた後段処理を実行する。後段の処理とは、スピーカーからの再生や音声認識などである。
このように、図16に示す信号分離装置は、複数の信号が混合した信号を入力して個別の信号に分離する信号分離装置であり、入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成する第1信号変換手段(第1STFT部453)と、第1信号変換手段(第1STFT部453)の生成した観測信号スペクトログラムに対するデータ変換を実行しモジュレーション・スペクトログラムを生成する第2信号変換手段(第2STFT部454)と、第2信号変換手段(第2STFT部454)の生成した前記モジュレーション・スペクトログラムから信号分離結果を生成する信号分離手段(信号分離部455)を有し、信号分離手段(信号分離部455)は、モジュレーション・スペクトログラムを瞬時混合として解釈し信号分離結果を生成する。
第1信号変換手段(第1STFT部453)は、入力信号に対して短時間フーリエ変換(STFT)を実行して時間周波数領域に変換し観測信号スペクトログラムを生成する。さらに、第2信号変換手段(第2STFT部454)は、観測信号スペクトログラムに対して時間方向の短時間フーリエ変換(STFT)を実行しモジュレーション・スペクトログラムを生成する。
信号分離手段(信号分離部455)は、モジュレーション・スペクトログラムに含まれる分離信号対応の信号成分Y1'〜Yn'各々の独立性を高める処理により信号分離結果を生成する。具体的には、分離信号対応の信号成分Y1'〜Yn'各々の独立性を高める処理として、独立性算出尺度であるKullback−Leiblar情報量を適用し、Kullback−Leiblar情報量を最小にする分離行列の更新処理により信号分離結果を生成する。
なお、逆フーリエ変換手段(第1逆FT部457)は、信号分離手段(信号分離部455)において得られた分離信号対応の信号成分Y1'〜Yn'各々に対して逆フーリエ変換を実行して分離信号対応のスペクトログラムY1〜Ynを生成する。
本発明の信号分離装置の実行する処理のシーケンスの一例について図17に示すフローチャートを参照して説明する。ステップS101において、マイクで音を観測する。例えば先に図5を参照して説明したように、複数の音源から出力される音の混合信号をマイクで取得する。次に、ステップS102において、観測信号に対する短時間フーリエ変換(STFT)処理を実行しスペクトログラムを得る。短時間フーリエ変換は、先に図7を参照して説明した処理であり、この処理によって、スペクトログラムを得る。このスペクトログラムは、例えば図6(b)に示すスペクトログラムである。
次に、ステップS103において、観測信号のスペクトログラムに対し、ICAによる分離処理を行なう。分離処理の処理シーケンスの詳細については後述する。分離結果に対し、ステップS104において、必要に応じて逆フーリエ変換(IFT)を実行し、その後、必要に応じてステップS105において後段処理を実行する。
ステップS103において実行する分離処理の詳細シーケンスについて、図18と図19に示すフローチャートを参照して説明する。
図18、図19に示す分離処理シーケンスは、それぞれ、先に、図15、図16を参照して説明した信号分離装置において実行する分離処理の具体的シーケンであり、
図18は、図15の信号分離装置の実行する時間周波数領域で畳み込み混合を解く方式における分離処理、
図19は、図16の信号分離装置の実行するモジュレーション・スペクトログラムに変換してから瞬時混合を解く方式における分離処理、
これらの詳細シーケンスである。
まず、図18を参照して、図15の信号分離装置の実行する時間周波数領域で畳み込み混合を解く方式における分離処理、すなわち時間周波数領域での逆畳み込みを行なう分離処理シーケンスについて説明する。
最初に、ステップS201において、観測信号スペクトログラムに対して正規化を行なう。本処理における正規化処理は、スペクトログラムの各周波数ビンに対して、平均を0に設定し分散を1とする処理、または以降の処理に都合のよい値に調整する処理である。次に、ステップS202において、分離行列の初期化処理、すなわち、分離行列W[τ]に初期値を代入する。初期値は、W[0]に対しては単位行列を、τ>0の分離行列W[τ]に対してはゼロ行列を代入すればよい。または、前回の学習で求まった分離行列が存在している場合は、それを初期値として用いても良い。
ステップS203〜S210は学習のループであり、分離行列および分離結果が収束するまでこのループを繰り返す。すなわち、
ステップS203:分離行列が収束したか否かの判定、
ステップS204:分離信号Yの計算、
ステップS205:周波数ビンループの開始(ω=1,...,M)、
ステップS206:フレームタップループの開始(τ=0,...,L)、
ステップS207:τ番目のフレームタップに対応する増分ΔW[τ]の計算、
ステップS208:フレームタップループの終了、
ステップS209:ΔW[0](ω)〜W[L'](ω)の更新、
ステップS210:周波数ビンループの終了、
これらのステップからなるループを繰り返し実行する。
ステップS204の分離結果Yの計算には、先に説明した式[6.2]、または式[6.3]を用いる。(Y=[Y(1),...,Y(T)]とする。)ステップS205〜S210は周波数ビンについてのループであり、Mを周波数ビンの本数として、1≦ω≦Mを満たす各周波数(ω)について、ステップS206〜S209を繰り返す。なお、ループの代わりに、周波数ビンごとの並列処理を行なう構成としてもよい。なお、本出願と同一出願人の先の特許出願であり公開された特開2006−238409において示した手法法では、推定する分離行列は1つ(または周波数ビンごとに1つ)だけであったが、本発明ではフレームタップの個数だけ分離行列を推定する必要がある。そこで、フレームタップの個数分だけループを回す(ステップS206〜S208)。
ステップS207では、τ番目のフレームタップに対応する増分ΔW[τ](ω)を求める。ΔW[τ](ω)の計算には、式[7.1]を用いる。前述の通り、この式[7.1]のRω[l]は、分離結果Yの計算に式[6,2]、または式[6.3]のいずれの式を用いたかによって異なる。
分離結果Yの計算に式[6.2]を用いた場合はRω[l]の計算に式[7.2]または式[8.1]を用い、分離結果Yの計算に式[6.3]を用いた場合はRω[l]の計算に式[7.3]または式[8.2]を用いる。
ステップS206〜S208のフレームタップのループを抜けた後、ステップS209において、式[7.8]を用いて分離行列ΔW[0](ω)〜W[L'](ω)を更新する。なお、この処理は、ステップS210の後で全周波数ビンの分をまとめて行なっても構わない。(一方、フレームタップの内部には入れられないことに注意。)
ステップS205〜S210の周波数ビンのループを抜けた後、再び、ステップS203の収束チェックに戻る。ステップS204において、で分離行列が収束した(または、所定の回数だけループした)と判定された場合は、分岐を右に進みステップS211に移行する。
なお、ステップS203における分離行列が収束したか否かの判定は、例えばΔWのノルム‖ΔW‖(行列のノルムは、例えば前記した式[7.10]で計算する)がある値を下回ったかどうか(または‖ΔW‖/‖W‖がある値を下回ったかどうか)で判断してもよいし、または、単純に一定回数のループ数を予め設定し、そのループ数を実行してもよい。
ステップS203において、分離行列がまだ収束していないと判定された場合は、ステップS204〜S210の処理を繰り返し実行する。ステップS204において、で分離行列が収束した(または、所定の回数だけループした)と判定された場合は、分岐を右に進みステップS211に移行し、ステップS211において、リスケーリングを行なう。リスケーリングとは、周波数ビンごとのスケールを調整する処理である。また、正規化処理ステップ(S201)で周波数ビンの平均や分散を変更した場合は、ここで必要に応じて元に戻す。
なお、ステップS211において実行するリスケーリングの係数は、以下のようにして求める。先に示した式[7.11]を用いて、ある周波数ビンにおいて観測信号と分離結果との2乗誤差が最小となるようなスケールを求める(具体的には、最小二乗法などを用いる)。そして分離結果を、そのスケールを乗じた値に更新する(式[7.12])。また、必要に応じて、分離行列自体も同様に更新する(式[7.13])。
または、以下のように行なっても良い。式[7.14]を用いて、観測信号を分離結果と定数との線形和で表現する。スケールαk1(ω)〜αkn(ω)および定数項βk(ω)は、式[7.15]で求める(具体的には、最小二乗法などを用いる)。スケールが求まったら、式[7.16]を用いて分離結果を更新する。(必要に応じて、分離行列も更新する。)
なお、式[7.14]に出てくるαkj(ω)Y(ω,t)を全て出力すると、single input multiple output (SIMO)形式の出力が得られる。ICAのSIMO出力とは、「観測信号を、それぞれの音源に由来する成分に分解する」ことであり、例えばαkj(ω)Y(ω,t)は、Yをi番目の音源の推定結果とすると、「k番目のマイクで観測される信号の内、i番目の音源に由来する成分」を表わしている。以上で、時間周波数領域で畳み込み混合を解く場合についてのフローチャートの解説を終わる。
次に、モジュレーション・スペクトログラム領域で瞬時混合を解く場合の処理について、図19に示すフローチャートを参照して説明する。図19は、図16の信号分離装置の実行するモジュレーション・スペクトログラムに変換してから瞬時混合を解く方式における分離処理の詳細シーケンスである。
ステップS301は、観測信号スペクトログラムに対して正規化を行なう。この処理は、図18のフローにおけるステップS201の正規化処理と同様の処理であり、スペクトログラムの各周波数ビンに対して、平均を0に設定し分散を1とする処理、または以降の処理に都合のよい値に調整する処理である。ステップS302では、周波数ビンごとに短時間フーリエ変換(STFT)を行ない、モジュレーション・スペクトログラム、すなわち、図9(c),(d)に示すモジュレーション・スペクトログラムX'を生成する。
なお、このモジュレーション・スペクトログラムの生成には、先に図16を参照して説明したように、デジタル観測信号に対する第1短時間フーリエ変換(STFT)部453における短時間フーリエ変換(STFT)処理を行なって観測信号のスペクトログラム(例えば、図8(b)に示すスペクトログラムX)を得て、さらに、第1段階の短時間フーリエ変換(STFT)処理によって得られた観測信号のスペクトログラムを第2短時間フーリエ変換(STFT)部454に入力して、周波数ビンごとに再び短時間フーリエ変換(STFT)を実行することが必要となる。この第2短時間フーリエ変換(STFT)部454における短時間フーリエ変換(STFT)によって得られるモジュレーション・スペクトログラムが例えば図9(c),(d)に示すモジュレーション・スペクトログラムX'である。
モジュレーション・スペクトログラムは、図9(c),(d)に示すように、立方体形式(式[9.2]に相当)と、平面形式(式[9.3]に相当)とがあるが、以降の説明では平面形式を用いる。すなわち、図9(c)に示す縦方向と奥行き方向の両方のビンをまとめてω'というインデックスで表現する。
ステップS303では、モジュレーション・スペクトログラムの各ビンω'に対して、再び正規化を行なう。学習のループの前に、ステップS304では、分離行列W'に初期値を代入しておく。初期値は、単位行列でよいが、前回の学習で求まった分離行列でも良い。
ステップS305〜ステップS310は学習のループであり、分離行列W'が収束するまで(または一定回数)繰り返す。ステップS305における収束性判定は、図18を参照して説明したステップS203における処理と同様の判定であり、分離行列が収束したか否かの判定は、例えばΔW'のノルム‖ΔW'‖(行列のノルムは、例えば前記した式[7.10]で計算する)がある値を下回ったかどうか(または‖ΔW'‖/‖W'‖がある値を下回ったかどうか)で判断してもよいし、または、単純に一定回数のループ数を予め設定し、そのループ数を実行してもよい。
ステップS306で、分離結果モジュレーション・スペクトログラムであるY'を計算する。この計算は、式[9.3]を全てのω'とtに対して行なえばよい。
ステップS307〜S310は、図9(c)に示すモジュレーション・スペクトログラムの各ビンω'、すなわち縦方向と奥行き方向の両方のビンω'についてのループである。なお、各ビンについての繰り返し処理とするループの代わりに、各ビンについての処理を並列処理として実行してもよい。ステップS308では、分離行列の増分を計算し(式[9.5])、ステップS309においてで分離行列を更新する(式[9.6])。
ステップS310において、ループを抜けた後、再びステップS305の収束性判定に戻る。ステップS305において、分離行列が収束した(または所定の回数ループした)と判定された場合は、条件分岐を右に進む。ステップS311において、リスケーリングを行なう。リスケーリングは、各ビンのスケールを調整する処理である。分離結果のモジュレーション・スペクトログラムに対してリスケーリングを行なう。リスケーリングの方法は、先に図18を参照して説明したステップS211の処理とほぼ同様であり、式[7.11]〜[7.16]の式のY,X,Wを適宜Y', X',W'に置き換えた式に基づいて行なう。また、必要に応じて、ステップS301の正規化を元に戻す処理も行なう。
次に、ステップS312において、モジュレーション・スペクトログラムをスペクトログラムへ変換する逆フーリエ変換(FT)を実行する。その際、必要に応じてWOLAなどを行なう。すなわち、逆フーリエ変換(FT)においてもフレームごとの逆変換結果(波形)波形を重複つきで重ね合わせる。これをオーバラップ加算(overlap add)という。逆変換結果は、オーバラップ加算(overlap add)の前にサイン窓等の窓関数を再び作用させても良く、これを、weighted overlap add(WOLA)という。WOLAにより、フレーム間の不連続性に由来するノイズを低減することができる。
さらに、ステップS313において、スペクトログラムに対してリスケーリングを行なう。これは、ステップS311のリスケーリングと同様の処理である。
なお、図17のフローにおけるステップS104と、図19に示すフローにおけるステップS312において実行する逆フーリエ変換(FT)においては、分離結果のスペクトログラムやモジュレーション・スペクトログラムの他に、分離行列自体も、必要に応じて逆フーリエ変換(FT)を施す。
[変形例]
次に、上述した実施例を変形した実施例について説明する。上記の実施例では、分離結果を生成する際に適用するフレームタップL'は、すなわち観測信号から分離結果を生成する際のフレームタップL'は、全ての周波数で一定値を用いていた。これを、周波数毎で一律とするのではなく周波数ごとにフレームタップL'の値を変えても良い。
例えば、高い周波数の成分は、低い周波数の成分と比べて急激に減衰するため、残響時間は短い。そこで、高い周波数に対応する周波数ビンでは、フレームタップL'の値を低い周波数ビンよりも少なくしても良い。こうすることで、分離性能を保ったまま計算量を削減することができる。
また、図16の信号分離装置、および図19に示すフローチャートを参照して説明した方法、すなわち、モジュレーション・スペクトログラムに変換してから瞬時混合を解く方式における分離処理においては、2度目の短時間フーリエ変換(STFT)において、周波数ビンごとにフレームタップ数L'を異ならせる他に、シフト幅を異ならせることも可能である。ただし、周波数ビンごとにフレームタップ数やシフト幅を異ならせると、モジュレーション・スペクトログラムにおいて1フレームあたりの時間長が異なる可能性が出てくる。
例えば、2度目の短時間フーリエ変換(STFT)において、
低い周波数はタップ数=32・シフト幅=16を用い、
高い周波数はタップ数=16・シフト幅=8を用いると、
変換後のモジュレーション・スペクトログラムにおける1フレームあたりの時間長は、低い周波数が高い周波数の倍となる。すなわち、低い周波数の方が単位時間当たりのフレーム数が少ない(半分である)。
1フレーム当たりの時間長が一定である場合は、図10に示すように、モジュレーション・スペクトログラムからYk'(t)221を切り出して独立性を計算することができるが、一定でない場合はそれが難しい。そういう場合は、以下に説明する方法(方法1〜3)のいずれかを用いることで、フレームの不一致に対処する。
(方法1)フレームデータの間引き
生成されたモジュレーション・スペクトログラムにおいて、単位時間当たりのフレーム数が多い方のビンからデータを間引くことで、フレーム数が少ない方のビンとデータの個数を合わせる。上記の32タップ・16シフトと16タップ・8シフトの例では、16タップ・8シフトの短時間フーリエ変換(STFT)を行なったビンに対して、一つ置きにデータを間引くと、両者で単位時間当たりのフレーム数が一致する(=1フレーム当たりの時間が同じ)ようになる。
(方法2)フレームデータの補間
上述の(方法1)とは逆に、個数が少ない方を多い方に合わせる方法。上記の32タップ・16シフトと16タップ・8シフトの例では、32タップ・16シフトを行なったビンに対して、データの補間を行なう。例えば、前後のフレームデータの平均を取ることで、中間に新しいデータを挿入する。
(方法3)フレームデータの重複
上述の(方法2)と同様に、個数が少ない方を多い方に合わせる方法。上記の32タップ・16シフトと16タップ・8シフトの例では、32タップ・16シフトを行なったビンに対して、データを2回ずつ重複させることで、16タップ・8シフトのビンとデータ数を合わせる。
次に、図11〜図14を参照して説明した(3)シフト積み重ねと瞬時混合ICAを組み合わせた処理による方法、すなわち、観測信号スペクトログラムをシフトしながら積み重ね、それを瞬時混合ICA(例えば、特開2006−238409に記載の手法)によって、時間周波数領域において畳み込み混合された観測信号を分離する処理において、
「周波数ごとに[L']の値、すなわち、観測信号から分離結果を生成する際のフレームタップ数[L']の値を異ならせる」という変形例について説明する。
この変形例、すなわち、「周波数ごとにフレームタップ数[L']の値を異ならせる」という変形例を実現するためには、以下のようにすればよい。周波数ビンごとに異なるL'をL'(ω)と表記する。図11を参照して説明したシフト処理において、シフト量が[L'(ω)]を超えたら、その周波数ビンのデータを[0]に置き換える。その方法について、図20を参照して説明する。
周波数ビンごとに異なるフレームタップ数[L'(ω)]の値を、周波数ビン番号ωに応じて以下のように変更したいとする。(Mはスペクトログラム1枚あたりの周波数ビン数)
1≦ω<M/4では、L'(ω)=2
M/4≦ω<M/2では、L'(ω)=1
M/2≦ω<Mでは、L'(ω)=0
これを実現するためには、先に、図11を参照して説明したシフト処理によって生成されるデータX [0],X [1],X [2]に対して以下の操作を行なう。
[0]は、Xそのまま。(全ての周波数ビンで、シフト=0は必要)、
[1]は、M/2≦ωの周波数ビンを0でマスク。(M/2≦ωでは、1以上のシフトは不要)
[2]は、M/4≦ωの周波数ビンを0でマスク。(M/4≦ωでは、2以上のシフトは不要)
具体的には、図20(b)に示すように、黒く塗りつぶされているデータ部分5112が、0でマスクされる箇所である。なお、実際の処理においては、マスクされた部分のメモリを確保する必要はなく、スペクトログラムへのアクセスの際にマスク該当箇所をスキップすれば、処理時間やメモリ量の増加を防ぐことができる。
なお、本発明の前処理として、従来の時間周波数領域の瞬時混合ICA(例えば特開2006−238409)を組み合わせると、処理時間の増加をある程度抑えることができる。以降では、両者の組み合わせについて説明する。以下の各処理例について、順次説明する。
(1)基本的な2段階分離
(2)チャンネル数の削減
(3)残響除去として利用
(1)基本的な2段階分離
従来の時間周波数領域の瞬時混合ICAにおいて、残響よりも短い分析フレーム(または分析窓)を用いた場合、複数のフレームにまたがる妨害音は除去しきれない。その反面、本発明よりも(1回目のSTFTにおける分析フレーム長が同じであれば)計算量は少ない。そこで、最初に従来の時間周波数領域ICAで分離を行い、その結果のスペクトログラムを本発明の方法でさらに分離すれば、最初から本発明だけを用いる場合と比べて少ない時間で同等の分離精度を達成することができる。
特に、本発明における「(1)時間周波数領域において、畳み込み混合を直接解く」方式を用いる場合は、従来法と本発明とをシームレスに動作させることが可能である。すなわち、式[7.2]および式[8.1](または、式[7.3]および式[8.2])においてL'=0とすると従来法と等価になるという特徴を利用することができ、図18に示したフローにおけるステップS203〜S210の学習ループにおいて、ループ回数が少ないうちはL'=0、ループ回数がある値を超えたらL'を本来の値とすればよい。または、ループ回数の増加にともなって、L'を少しずつ増加させても構わない。
(2)チャンネル数の削減
一般に、ICAの計算量は、チャンネル数の2乗に比例する。そのため、チャンネル数を削減することができれば、計算量を大幅に削減することができる。2段階分離を用いると、本発明のステップのチャンネル数を削減することもできる。その方法について説明する。
時間周波数領域のICAにおいて、音源数よりもマイク数の方が多い場合、出力チャンネルのうちのいくつかは、どの音源にも対応しないと判定される信号が出力される。例えば、マイク数=4・音源数=3の場合、出力チャンネルのうち3つは音源に対応しているが、残りの1つはどの音源にも対応しない、背景雑音と残響音とが混ざったような信号が出力される。このような出力は、他のチャンネルと比べてパワーが極端に小さかったり、他のどのチャンネルとも相関があったりするため、容易に検出できる。
そこで、2段階分離においては、図21に示すフローチャートに従って、まず、ステップS501で時間周波数領域の瞬時混合ICAによる分離処理を行なう。この処理は、特開2006−238409において開示した処理として実行可能である。その後、ステップS502において、例えば「どの音源にも対応しないと判定される出力」(不要チャンネル)を除去した後、上述した本発明に従った処理、すなわち、
(1)時間周波数領域において、畳み込み混合を直接解く。
(2)スペクトログラムを時間方向へもう一度短時間フーリエ変換(STFT)し、瞬時混合として解く。
(3)シフト積み重ねと瞬時混合ICAを組み合わせた処理によって解く。
これらのいずれかの処理によって、時間周波数領域において畳み込み混合された観測信号を分離する処理を実行すれば、分離処理における計算量を削減することができる。なお、入力チャンネル数=音源数であれば分離は可能であるため、ステップS502においてチャンネル数を削減しても分離精度には影響しない。
例えば、上記の(1)時間周波数領域において、畳み込み混合を直接解く方式に、この2段階処理を適用した場合は、信号分離手段が、観測信号スペクトログラムに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により第1の信号分離結果を生成し、該第1の信号分離結果から、どの音源にも対応しないと判定される不要チャンネル除去処理を実行して、除去処理後に残存する観測信号スペクトログラムに対して時間周波数領域の畳み込み混合を解く処理を実行して信号分離結果を生成する。
また、(2)スペクトログラムを時間方向へもう一度短時間フーリエ変換(STFT)し、瞬時混合として解く方式にこの2段階処理を適用した場合は、
第1信号変換手段が、入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成し、不要チャンネル除去手段が、第1信号変換手段の生成した観測信号スペクトログラムに対して、瞬時混合ICAを適用した処理により第1の信号分離結果を生成し、この信号分離結果から、どの音源にも対応しないと判定される不要チャンネル除去処理を実行し、さらに、第2信号変換手段が、不要チャンネルが除去された観測信号スペクトログラムに対してデータ変換を実行してモジュレーション・スペクトログラムを生成し、信号分離手段が、モジュレーション・スペクトログラムから信号分離結果を生成するといった処理となる。
また、(3)シフト積み重ねと瞬時混合ICAを組み合わせた処理にこの2段階処理を適用した場合は、
観測信号スペクトログラムに対して、瞬時混合ICAを適用した処理により第1の信号分離結果を生成し、生成した第1の信号分離結果から、どの音源にも対応しないと判定される不要チャンネル除去処理を実行し、除去処理後に残存する観測信号スペクトログラムをフレーム方向へシフトさせて観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、再度、瞬時混合ICAを適用して信号分離結果を生成する構成となる。
(3)残響除去として利用
本発明の分離処理、すなわち、
(1)時間周波数領域において、畳み込み混合を直接解く。
(2)スペクトログラムを時間方向へもう一度短時間フーリエ変換(STFT)し、瞬時混合として解く。
(3)シフト積み重ねと瞬時混合ICAを組み合わせた処理によって解く。
これらの処理のうち、3番目の「シフト積み重ね+従来法」を用いた場合、分離自体は前処理の従来法で行ない、本発明は残響除去のみを行なうという役割分担も可能である。こうすることで、計算量はO({n×(L'+1)})からO(n×n×(L'+1))に削減される。以下はその方法について説明する。
先に図11を参照して説明した「スペクトログラムのシフト+積み重ね」を行なうと、1チャンネル分のスペクトログラムが見かけ上はL'+1チャンネルに拡張される。その結果に対して、従来の時間周波数領域の瞬時混合ICAを用いてL'+1チャンネルの入力として処理すると、結果としてL'+1チャンネル分のスペクトログラムが生成される。このような処理を行なっても、音源ごとの成分に分離されるわけではないが、複数のフレームにまたがった成分を取り除く効果、すなわち残響除去の効果はある。そこで、従来の時間周波数領域の瞬時混合ICAで分離を行い、nチャンネル分の分離結果スペクトログラムを生成した後、各チャンネルに対して前述の「残響除去」を行なうという組み合わせが考えられる。そのような処理について、図22に示すフローチャートを参照して説明する。
まず、ステップS601において、時間周波数領域の瞬時混合ICAによる分離処理を行なう。この処理は、特開2006−238409において開示した処理として実行可能である。分離結果としてnチャンネル分のスペクトログラムY〜Yが生成される。以降の処理は、nチャンネル分のスペクトログラムY〜Yに対して別個に行なう。第1チャンネル対応のスペクトログラムYに対する処理がステップS611〜S613、第nチャンネル対応のスペクトログラムYに対する処理がステップS621〜S623である。なお、ステップS601の瞬時混合ICAによる分離処理が終了した時点で、先に図20を参照して説明したと同様、不要チャンネル(どの音源にも対応しないと判定される出力)を除去する処理を行なう構成としてもよい。
ステップS611〜S613の処理は、先に説明した[(3)シフト積み重ねと瞬時混合ICAを組み合わせた処理によって解く]方式の処理シーケンスである図14に示すフローのステップS11〜S13の処理に対応する処理である。ただし、図14に示すフローのステップS11の処理はnチャンネル分のスペクトログラムをn×(L'+1)に拡張する処理だったのに対し、図21に示すフローのステップS611の処理は、1チャンネル分をL'+1チャンネル分に拡張する処理である。また、ステップS612の残響除去処理は、処理自体は、図14に示すフローにおけるステップS12の処理と同一の処理となるが、前述の理由により、このステップS612の処理の効果は音源の分離ではなくて残響除去として実行される。ステップS613の処理は、L'+1チャンネル分の残響除去済みスペクトログラムから所望の一つを選択する処理であり、図14のステップS13の処理と同様の処理である。
ステップS621〜S623の処理は、処理対象が異なるチャンネル対応の信号Yである点を除いてはステップS611〜S613の処理と同様である。
全ての出力チャンネル(ただし不要チャンネルは削除して構わない)に対して残響除去と選択とが完了したら、ステップS631において、残ったスペクトログラムを統合する。例えば縦に積み重ねる処理を実行する。この処理によって、複数のフレームにまたがった成分を取り除く処理、すなわち残響除去処理が実現される。
[本発明に従った信号分離処理における効果の検証]
上述した本発明の方法により、従来の時間周波数領域ICAを超える分離性能が出ることを実験で確かめた。以下、この実験結果に基づいて本発明に従った信号分離処理による効果について説明する。
最初に、実験の条件について説明する。
音データの収録を、図23に示す環境(オフィスの部屋)で行なった。
マイク数=4(間隔=7.5cm)、音源数=3であり、音源として以下のWebページで公開されているものを用いた。
原信号:
ICA'99 SYNTHETIC BENCHMARKS
http://sound.media.mit.edu/ica−bench/sources/
src1:beet.wav
src2:beet9.wav
src3: mike.wav
なお、収録はそれぞれの音源を単独に鳴らした状態で行ない、後で計算機上で混合している。
実験は以下の条件で行なった。
サンプリング周波数:16kHz
STFTの窓長:64,128,256,512,1024,(2048,4096)
STFTのシフト幅:窓長の1/2
窓:短時間フーリエ変換(STFT)時にサイン窓、逆フーリエ変換(FT)時に再びサイン窓
η0=0.5(式)
ループ回数=200 or 400
方式:
(方式1)式[5.2] (従来法に相当)
(方式2)式[7.1]&式[7.2](以降「逆方向畳み込み」)
(方式3)式[9.5](以降「再STFT」)
スコア関数:式[7.7]を使用
スコア関数のγの値:
(方式1&2)γ=sqrt(M) M:周波数ビンの本数
(方式3) γ=sqrt(L'M)
フレームタップ:
(方式2)L'=4,5,8,10,15,16,20,25,30,32
(方式3)L'=4,8,16,32
評価尺度として、波形ベースのsignal−interference−ratio(SIR)と周波数ビンベースのSIRとを用いている。以下で、SIRの計算方法について説明する。
k番目のチャンネルに対応した分離結果(波形)をyk(t)とし、原信号s(t)〜s(t)の線形結合でyk(t)を近似することを考える(以下に示す式[10.1])。
(t)〜s(t)の係数λ〜λは、式[10.2]の二乗誤差を最小にすることで求まる。
yk(t)をi番目の音源s(t)の推定結果と見なした場合、SIRはs(t)とそれ以外の音源とのパワー比として定義される(式[10.3])。
出力チャンネル数(=マイク数)をnとすると、1つの音源に対してSIRはn通り計算されるが、その内の最大値を音源iのSIRと定義する(式[10.4])。以降の実験結果では、3つの音源のからそれぞれ求めたSIRを、さらに平均している。
周波数ビンベースのSIRは、周波数ビンごとにSIRを計算した後、全ての周波数ビンについて平均を取ることで計算する(式[10.6])。
以下では、実験結果について説明する。以下、実験結果を表として示す。
各表において、
窓長:STFTの窓長、
frm−tapはフレームタップ数、
SIR(wave)は波形ベースのSIR、
SIR(bin)は周波数ビンベースのSIR、
を表わす。
以下、各表において、
(1)方式1(従来法)、200回ループ
(2)方式2(式[6.1],[7.1],[7.2])、200回ループ
(3)方式3(式[9.2],[9.5])、200回ループ
(4)方式1(従来法)、400回ループ
(5)方式2(式[6.1],[7.1],[7.2])、400回ループ
(6)方式3(式[9.2],[9.5])、400回ループ
これらの実験結果を示す。
図24は、以下の3方式による分離結果についての評価データである。
(1)方式1(従来法)、200回ループ
(2)方式2(式[6.1],[7.1],[7.2])、200回ループ
(3)方式3(式[9.2],[9.5])、200回ループ
これらの3方式を実行した場合の結果データに基づくSIRデータをプロットしたものであり、
(a)波形ベースのSIR(signal−interference−ratio)
(b)周波数ビンベースのSIR
これらのSIRデータをプロットしたものである。横軸がSTFTの窓長、縦軸がSIRである。各グラフにおいて、
*(実線):方式1、
◆:が方式2、
+:が方式3、
である。
いくつかの設定において、方式2と方式3は、従来法を上回っているのが確認できる。
次に、横軸として以下の式で計算されるタイムスパンを用いてプロットした評価データを図25に示す。
time_span={(frame_tap−1)×frame_shift+window_len}/srate
なお、
frame_tap:フレームタップ数(=L')
window_len:窓長(一度目のSTFTの切り出し区間長)
frame_shift:窓シフト幅(今回は窓長の1/2)
srate:サンプリング周波数(16kHz)
図25も、以下の3方式による分離結果についての評価データである。
(1)方式1(従来法)、200回ループ
(2)方式2(式[6.1],[7.1],[7.2])、200回ループ
(3)方式3(式[9.2],[9.5])、200回ループ
これらの3方式を実行した場合の結果データに基づくSIRデータをプロットしたものであり、
(a)波形ベースのSIR(signal−interference−ratio)
(b)周波数ビンベースのSIR
これらのSIRデータをプロットしたものである。横軸が上述したタイムスパン(Time_span)の窓長、縦軸がSIRである。各グラフにおいて、
*(実線):方式1、
◆:が方式2、
+:が方式3、
である。
従来は、長いタイムスパンをカバーするためには短時間フーリエ変換(STFT)の窓長を長くするしかなく、それがSIRの低下を招いていた。それに対し本発明では、短めの窓と複数のフレームタップという組み合わせを用いることで、SIRを低下させずに同等のタイムスパンをカバーすることができる。
図26は、以下の3方式による分離結果についての評価データである。
(4)方式1(従来法)、400回ループ
(5)方式2(式[6.1],[7.1],[7.2])、400回ループ
(6)方式3(式[9.2],[9.5])、400回ループ
これらの3方式を実行した場合の結果データに基づくSIRデータをプロットしたものであり、
(a)波形ベースのSIR(signal−interference−ratio)
(b)周波数ビンベースのSIR
これらのSIRデータをプロットしたものである。横軸がSTFTの窓長、縦軸がSIRである。各グラフにおいて、
*(実線):方式1、
◆:が方式2、
+:が方式3、
である。
次に、分離処理のループ回数を400回に増やして同様の評価実験を行なった。
図26に示すデータに対応するデータとして、横軸としてタイムスパンを用いてプロットした評価データを図27に示す。以下の3方式による分離結果についての評価データである。
(4)方式1(従来法)、400回ループ
(5)方式2(式[6.1],[7.1],[7.2])、400回ループ
(6)方式3(式[9.2],[9.5])、400回ループ
これらの3方式を実行した場合の結果データに基づくSIRデータをプロットしたものであり、
(a)波形ベースのSIR(signal−interference−ratio)
(b)周波数ビンベースのSIR
これらのSIRデータをプロットしたものである。横軸が上述したタイムスパン(Time_span)の窓長、縦軸がSIRである。各グラフにおいて、
*(実線):方式1、
◆:が方式2、
+:が方式3、
である。
図26、図27においても、方式2,方式3は、従来法を上回る設定が存在する。このように、本発明によって、従来の時間周波数領域ICAが持っていた「窓長と分離性能とのトレードオフ」という課題を回避することが可能である。
次に、別種のデータについての評価実験について説明する。図28は、収録環境であるオフィス環境の見取り図である。図に示すようにほぼ750cm×375cmの長方形の室内で実験を行なった。なお、図に示すように完全な長方形ではなく、一方は高さ153cmのパーティションによって区切られた空間である。部屋の残響時間は0.3秒よりやや短い値である。(以降では、0.275秒としてプロットしてある。)
音源として、以下の3種類の音を用意した。(各信号のスペクトログラムを図29に示す。)
音源1(src1):女性1名の発話(以降、女声またはF)
音源2(src2):男性1名の発話(以降、男声またはM)
音源3(src3):以下のURLで公開されているストリートノイズ(以降、雑踏またはS)http://sound.media.mit.edu/ica−bench/sources/street.wav
図中のsp1〜sp4の各スピーカーから上記の音をそれぞれ再生し、5cm間隔で並べた4本のマイク(mic1〜mic4)で収録した。次に、図30に示す8通りの組み合わせで、スビーカsp1〜sp4からの音声出力を行なって4本のマイク(mic1〜mic4)によって入力するデータの解析を行なった。女性1名の発話を[F]、男性1名の発話を[M]、ストリートノイズを[S]、音声出力なしを[0]として、
(1)sp1=S,sp2=0、sp3=F、sp4=M
(2)sp1=S,sp2=0、sp3=M、sp4=F
(3)sp1=F,sp2=S、sp3=0、sp4=M
(4)sp1=M,sp2=S、sp3=0、sp4=M
(5)sp1=0,sp2=0、sp3=F、sp4=M
(6)sp1=0,sp2=0、sp3=M、sp4=F
(7)sp1=F,sp2=0、sp3=0、sp4=M
(8)sp1=M,sp2=0、sp3=0、sp4=M
これらの8つのパターンである。
なお、実験では、(1)〜(8)の各パターンについて、観測信号が4秒の場合と8秒の場合とについて実験しているため、観測信号のバリエーションは合計で8×2=16通り存在する。
観測信号の例を図31に示す。これは、図30に示すパターン中の[Take No.=3]に該当する。すなわち、以下の出力パターンである。
(3)sp1=F,sp2=S、sp3=0、sp4=M
図31(a)に示すX〜Xの4枚のスペクトログラムは、図28に示す4本のマイク(mic1〜mic4)で観測された観測信号である。図31(b)は周波数ビンごとのSIRである。4枚のスペクトログラムの間で、4つの音源の混ざり具合はほぼ同じであることが分かる。
音源分離実験は以下の3つの方式について行なった。すなわち、前述の実験から(方式2)を省き、代わりに前述の「(3)シフト積み重ね+瞬時混合ICA」(の中の1番目の方法)を方式4として行なった。
(方式1)式[5.2] (従来法に相当)
(方式3)式[9.5](以降「再STFT」)
(方式4)式[11.1]&式[5.2](以降「シフト積み重ね」)
実験の条件は以下とおりである。
共通:
サンプリング周波数=16kHz
サンプルビット数=16
観測信号の長さ:4秒および8秒
(方式1)
STFTの窓長:256,512,1024,2048,4096,8192
STFTのシフト幅:窓長の1/4
窓:短時間フーリエ変換(STFT)時にハニング窓、逆フーリエ変換(FT)時には窓なし。
η0=0.3
ループ回数=400
スコア関数のγの値:γ=sqrt(M) M:周波数ビンの本数
ただし、観測信号=4秒、STFTの窓長=8192 の場合のみ、シフト幅は1/8の1024を使用した。(1/4シフトではフレーム数が少なくなりすぎるため。)
(方式3)
STFT(1回目)の窓長:512
STFT(1回目)のシフト幅:窓長の1/4
窓(1回目):短時間フーリエ変換(STFT)時にハニング窓、逆フーリエ変換(FT)時には窓なし。
η0=0.3
ループ回数=400
スコア関数のγの値:γ=sqrt(M(L'+1)) M:周波数ビンの本数
STFT(2回目)の窓長:L'+1=4,8,16,32
STFT(2回目)のシフト幅:窓長の1/8(端数切り上げ)
窓(2回目):短時間フーリエ変換(STFT)時にハミング窓、逆フーリエ変換(FT)時には窓なし。
2回目のSTFTでハニング窓ではなくてハミング窓を使った理由は、タップ数が小さい場合でも両端のサンプルを有効に使用するためである。(ハニング窓は両端が0なので、有効なサンプル数が2個少なくなってしまう。)
(方式4)
STFT(1回目)の窓長:512
STFT(1回目)のシフト幅:窓長の1/4
窓(1回目):短時間フーリエ変換(STFT)時にハニング窓、逆フーリエ変換(FT)時には窓なし。
η0=0.3
ループ回数=400
スコア関数のγの値:γ=sqrt(M(L'+1)) M:周波数ビンの本数
フレームタップ:L'+1=2,4,8,12
図32と図33は、図31の観測信号に対して方式4で処理をした結果である。L'=1(すなわち2タップ分)でシフト&積み重ね(図11参照)を行なった結果が図32であり、それを8チャンネルの観測信号として分離をした結果が図33である。図33(a)が分離結果のスペクトログラム、図33(b)が周波数ビンごとのSIRである。図33(a)の分離結果のスペクトログラムを見ると、原信号と以下のように対応している。
[1],Y [0]:音源1
[0],Y [1]:音源2
[0],Y [1]:音源3
[0],Y [1]:対応なし
分離度合いを表わす尺度として、周波数ビンごとの改善SIRの平均を計算した。図33を例にとると、図33(a)に示す分離結果スペクトログラムの各チャンネル(Y [0],〜Y [1])について、最も強く現れている音源に対してSIRを計算し、さらに全周波数ビンで平均をとった。例えばY [1]では音源1が最も強く現れているので、音源1へのSIRを計算する。Y [0]に対しても同様に計算し、両者で値が大きい方を音源1の分離度合いとする。音源2・3についても同様に計算してから3つの間で平均を取ることで、全体の分離度合いとする。この値から観測信号の平均SIR、すなわち図33(b)に示す周波数ビンごとのSIRのプロットを全周波数で平均したものを引くと、改善SIRが計算される。
最後に、8回のテイクの間で平均を取ることで、1つの実験パラメーターについての分離度合いを計算する。なお、観測信号が4秒の場合と8秒の場合とは、別々に集計した。集計結果は、図34と図35に示す通りである。図34が観測信号=4秒の場合、図35が8秒の場合であり、いずれも縦軸が改善SIR、横軸がタイムスパン(対数表示)である。両図の縦の破線は部屋の残響時間であり、0.275秒としている。3本の折れ線は、それぞれ従来法(方式1)・再STFT(方式3)・シフト積み重ね(方式4)に対応する。
図34、図35に示すように、従来法では、STFTの窓長(分析フレーム長)を長くしていっても、ある値(観測信号=4秒で1024、8秒で2048)で分離精度がピークに達し、それより長くするとかえって分離精度が悪化する。これは、窓を長くし過ぎると、STFT結果の時間分解能が落ちるためである。時間分解能の低下は、観測信号が短い場合ほど強く影響するため、観測信号=4秒の場合の方が8秒の場合よりも短い窓長でピークに達する。一方で、窓が短い場合は、時間分解能は高いものの、フレームをまたがった成分が多くなる(残響が1フレームに収まらなくなる)ため、十分な分離精度が出ない。
それに対し、本発明である方法3・方法4では、短い窓(この実験では512)でSTFTした結果に対してさらに複数フレーム用いて分離を行なうため、時間分解能の低下を抑える一方で複数フレームにまたがった成分に対しても対応できる。そのため、従来法と同一のタイムスパンで比較した場合はいっそう高い分離精度を達成でき、また、ピークの分離精度で比較した場合は、より長いタイムスパンでより高い分離精度を達成できる。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の一実施例の構成によれば、複数の音信号が混合した入力信号を時間周波数領域に変換して観測信号スペクトログラムを生成し、観測信号スペクトログラムから信号分離結果を生成する信号分離処理において、観測信号スペクトログラムを時間周波数領域において畳み込み混合された観測信号として解釈し、畳み込み混合を解く独立性分析の実行により信号分離結果を生成する、あるいは、観測信号スペクトログラムに対する時間方向の短時間フーリエ変換(STFT)によりモジュレーション・スペクトログラムを生成してモジュレーション・スペクトログラムを瞬時混合として解釈し、瞬時混合を解く独立性分析の実行により信号分離結果を生成する構成としている。そのため、直接波、反射波など様々な遅延量を持つ混合された音信号について、遅延量を考慮した高精度な分離処理が実現される。
11,12 エントロピー
13 同時エントロピー
111 音源
121 マイク
201 周波数ビン
202 ビン
203 ビン
221 モジュレーション・スペクトログラム
222 多変量確率密度関数
223,224 エントロピー
401 マイク
402 AD変換部
403 STFT部
404 信号分離部
405 リスケーリング部
406 逆FT部
407 後段処理実行部
408 畳み込み演算部
409 制御部
451 マイク
452 AD変換部
453 第1STFT部
454 第2STFT部
455 信号分離部
456 第1リスケーリング部
457 第1逆FT部
458 第2リスケーリング部
459 第2逆FT部
460 後段処理実行部
461 制御部

Claims (13)

  1. 複数の信号が混合した信号を入力して個別の信号に分離する信号分離装置であり、
    入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成する信号変換手段と、
    前記信号変換手段の生成した観測信号スペクトログラムから信号分離結果を生成する信号分離手段を有し、
    前記信号分離手段は、
    前記観測信号スペクトログラムをフレーム方向へシフトさせて、各々が異なるシフト量を持つデータを積み重ねた観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により、信号分離結果を生成する構成であることを特徴とする信号分離装置。
  2. 前記瞬時混合ICAを適用した処理は、時間周波数領域の観測信号と分離行列から時間周波数領域の分離信号を生成し、生成した時間周波数領域の分離信号と、多次元確率密度関数から導出される多次元スコア関数によって計算される分離行列とがほぼ収束するまで分離行列を修正し、修正した分離行列を適用して時間周波数領域の分離信号を生成する処理であることを特徴とする請求項1に記載の信号分離装置。
  3. 前記信号分離手段は、
    複数の信号入力源の観測信号各々に対応して生成される複数の観測信号スペクトログラムシフトセットを積み重ねた複数チャンネル対応の観測信号スペクトログラムシフトセットに対して、瞬時混合ICAを適用して信号分離結果を生成することを特徴とする請求項1に記載の信号分離装置。
  4. 前記信号分離手段は、
    前記シフトの際に生じた隙間をゼロまたはゼロに近い値、または前記観測信号スペクトログラムの両端の値をコピーして設定して、前記観測信号スペクトログラムシフトセットを生成することを特徴とする請求項1に記載の信号分離装置。
  5. 前記信号分離手段は、
    前記シフトをシフトではみ出した一端のデータを他端にコピーする巡回シフト処理を実行することを特徴とする請求項1に記載の信号分離装置。
  6. 前記信号分離手段は、
    最小シフト量を0、最大シフト量を観測信号から分離結果を生成する際のフレームタップ数[L']として設定した複数のシフトデータを生成し、生成した異なるシフト量を持つデータを積み重ねた観測信号スペクトログラムシフトセットを生成することを特徴とする請求項1に記載の信号分離装置。
  7. 前記信号分離手段は、
    周波数に応じて前記フレームタップ数[L']を変更して前記観測信号スペクトログラムシフトセットを生成することを特徴とする請求項1に記載の信号分離装置。
  8. 前記信号分離手段は、
    前記観測信号スペクトログラムに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により第1の信号分離結果を生成し、該第1の信号分離結果から、どの音源にも対応しないと判定される不要チャンネル除去処理を実行し、該除去処理後に残存する観測信号スペクトログラムをフレーム方向へシフトさせて観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、瞬時混合ICAを適用して信号分離結果を生成する構成であることを特徴とする請求項1に記載の信号分離装置。
  9. 複数の信号が混合した信号を入力して個別の信号に分離する信号分離装置であり、
    入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成する信号変換手段と、
    前記信号変換手段の生成した観測信号スペクトログラムから信号分離結果を生成する信号分離手段を有し、
    前記信号分離手段は、
    前記観測信号スペクトログラムに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により信号分離結果Y1〜Ynを生成し、
    信号分離結果Y1〜Ynの各々に対応する信号スペクトログラムをフレーム方向へシフトさせて、各々が異なるシフト量を持つデータを積み重ねた観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により残響除去処理を実行し、残響除去済みスペクトログラムの統合処理によって、残響を除去した信号分離結果を生成する構成であることを特徴とする信号分離装置。
  10. 前記瞬時混合ICAを適用した処理は、時間周波数領域の観測信号と分離行列から時間周波数領域の分離信号を生成し、生成した時間周波数領域の分離信号と、多次元確率密度関数から導出される多次元スコア関数によって計算される分離行列とがほぼ収束するまで分離行列を修正し、修正した分離行列を適用して時間周波数領域の分離信号を生成する処理であることを特徴とする請求項9に記載の信号分離装置。
  11. 信号分離装置において、複数の信号が混合した信号を入力して個別の信号に分離する信号分離方法であり、
    信号変換手段が、入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成する信号変換ステップと、
    信号分離手段が、前記信号変換ステップにおいて生成した観測信号スペクトログラムから信号分離結果を生成する信号分離ステップを有し、
    前記信号分離ステップは、
    前記観測信号スペクトログラムをフレーム方向へシフトさせて、各々が異なるシフト量を持つデータを積み重ねた観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により、信号分離結果を生成するステップであることを特徴とする信号分離方法。
  12. 信号分離装置において、複数の信号が混合した信号を入力して個別の信号に分離する信号分離方法であり、
    信号変換手段が、入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成する信号変換ステップと、
    信号分離手段が、前記信号変換ステップにおいて生成した観測信号スペクトログラムから信号分離結果を生成する信号分離ステップを有し、
    前記信号分離ステップは、
    前記観測信号スペクトログラムに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により信号分離結果Y1〜Ynを生成し、
    信号分離結果Y1〜Ynの各々に対応する信号スペクトログラムをフレーム方向へシフトさせて、各々が異なるシフト量を持つデータを積み重ねた観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により残響除去処理を実行し、残響除去済みスペクトログラムの統合処理によって、残響を除去した信号分離結果を生成するステップであることを特徴とする信号分離方法。
  13. 信号分離装置において、複数の信号が混合した信号を入力して個別の信号に分離する信号分離処理を実行させるコンピュータ・プログラムであり、
    信号変換手段に、入力信号を時間周波数領域に変換し観測信号スペクトログラムを生成させる信号変換ステップと、
    信号分離手段に、前記信号変換ステップにおいて生成した観測信号スペクトログラムから信号分離結果を生成させる信号分離ステップを有し、
    前記信号分離ステップは、
    前記観測信号スペクトログラムをフレーム方向へシフトさせて、各々が異なるシフト量を持つデータを積み重ねた観測信号スペクトログラムシフトセットを生成し、生成した観測信号スペクトログラムシフトセットに対して、瞬時混合ICA(Independent Component Analysis)を適用した処理により、信号分離結果を生成させるステップであることを特徴とするコンピュータ・プログラム。
JP2011167935A 2007-02-21 2011-08-01 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム Expired - Fee Related JP5195979B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011167935A JP5195979B2 (ja) 2007-02-21 2011-08-01 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007041455 2007-02-21
JP2007041455 2007-02-21
JP2011167935A JP5195979B2 (ja) 2007-02-21 2011-08-01 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009111773A Division JP5233827B2 (ja) 2007-02-21 2009-05-01 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2011215649A true JP2011215649A (ja) 2011-10-27
JP5195979B2 JP5195979B2 (ja) 2013-05-15

Family

ID=39906670

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2007328516A Expired - Fee Related JP4403436B2 (ja) 2007-02-21 2007-12-20 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
JP2009111773A Expired - Fee Related JP5233827B2 (ja) 2007-02-21 2009-05-01 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
JP2011167935A Expired - Fee Related JP5195979B2 (ja) 2007-02-21 2011-08-01 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2007328516A Expired - Fee Related JP4403436B2 (ja) 2007-02-21 2007-12-20 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
JP2009111773A Expired - Fee Related JP5233827B2 (ja) 2007-02-21 2009-05-01 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (3) JP4403436B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4403436B2 (ja) * 2007-02-21 2010-01-27 ソニー株式会社 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
JP5229053B2 (ja) * 2009-03-30 2013-07-03 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
EP2499504B1 (en) 2009-11-12 2021-07-21 Digital Harmonic LLC A precision measurement of waveforms using deconvolution and windowing
US8620976B2 (en) 2009-11-12 2013-12-31 Paul Reed Smith Guitars Limited Partnership Precision measurement of waveforms
US9279839B2 (en) 2009-11-12 2016-03-08 Digital Harmonic Llc Domain identification and separation for precision measurement of waveforms
CN102708860B (zh) * 2012-06-27 2014-04-23 昆明信诺莱伯科技有限公司 一种基于声信号识别鸟类种类的判断标准建立方法
JP6559427B2 (ja) * 2015-01-22 2019-08-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
WO2018199721A1 (ko) 2017-04-28 2018-11-01 서울대학교 산학협력단 뉴럴네트워크에서 데이터 처리를 가속화하는 방법 및 장치
KR102415214B1 (ko) * 2017-12-22 2022-06-30 서울대학교산학협력단 이상치를 고려한 뉴럴네트워크 가속 방법 및 장치
US20240155290A1 (en) * 2021-03-10 2024-05-09 Sony Group Corporation Signal processing apparatus, signal processing method, and program
CN113804981B (zh) * 2021-09-15 2022-06-24 电子科技大学 一种时频联合最优化多源多信道信号分离方法
CN114399996A (zh) * 2022-03-16 2022-04-26 阿里巴巴达摩院(杭州)科技有限公司 处理语音信号的方法、装置、存储介质及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006238409A (ja) * 2005-01-26 2006-09-07 Sony Corp 音声信号分離装置及び方法
JP2006243664A (ja) * 2005-03-07 2006-09-14 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
JP2006308955A (ja) * 2005-04-28 2006-11-09 Univ Kinki 耐高残響ブラインド信号分離装置及び方法
JP2006337851A (ja) * 2005-06-03 2006-12-14 Sony Corp 音声信号分離装置及び方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
JP4403436B2 (ja) * 2007-02-21 2010-01-27 ソニー株式会社 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006238409A (ja) * 2005-01-26 2006-09-07 Sony Corp 音声信号分離装置及び方法
JP2006243664A (ja) * 2005-03-07 2006-09-14 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
JP2006308955A (ja) * 2005-04-28 2006-11-09 Univ Kinki 耐高残響ブラインド信号分離装置及び方法
JP2006337851A (ja) * 2005-06-03 2006-12-14 Sony Corp 音声信号分離装置及び方法

Also Published As

Publication number Publication date
JP4403436B2 (ja) 2010-01-27
JP5233827B2 (ja) 2013-07-10
JP2009169439A (ja) 2009-07-30
JP5195979B2 (ja) 2013-05-15
JP2008233866A (ja) 2008-10-02

Similar Documents

Publication Publication Date Title
JP5195979B2 (ja) 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
US9668066B1 (en) Blind source separation systems
US20210089967A1 (en) Data training in multi-sensor setups
US20080228470A1 (en) Signal separating device, signal separating method, and computer program
US8874439B2 (en) Systems and methods for blind source signal separation
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
Grais et al. Raw multi-channel audio source separation using multi-resolution convolutional auto-encoders
JP4556875B2 (ja) 音声信号分離装置及び方法
JP2011215317A (ja) 信号処理装置、および信号処理方法、並びにプログラム
JP2014219467A (ja) 音信号処理装置、および音信号処理方法、並びにプログラム
KR20060086303A (ko) 음성 신호 분리 장치 및 방법
CN102075831A (zh) 信号处理设备、信号处理方法及其程序
JP5965487B2 (ja) 直接−拡散分解方法
JP6987075B2 (ja) オーディオ源分離
BRPI0621733A2 (pt) método adaptável para extrair pelo menos um sinal, e, aparelho para extrair adaptavelmente pelo menos um sinal
JP5911101B2 (ja) 音響信号解析装置、方法、及びプログラム
Moorer A note on the implementation of audio processing by short-term fourier transform
TWI767696B (zh) 自我語音抑制裝置及方法
JP4946330B2 (ja) 信号分離装置及び方法
JP6644356B2 (ja) 音源分離システム、方法及びプログラム
JP2014048398A (ja) 音響信号解析装置、方法、及びプログラム
JP2008134298A (ja) 信号処理装置、信号処理方法およびプログラム
Bagchi et al. Extending instantaneous de-mixing algorithms to anechoic mixtures
Jiang et al. A Complex Neural Network Adaptive Beamforming for Multi-channel Speech Enhancement in Time Domain
JP4714892B2 (ja) 耐高残響ブラインド信号分離装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees