JP2006337851A - 音声信号分離装置及び方法 - Google Patents

音声信号分離装置及び方法 Download PDF

Info

Publication number
JP2006337851A
JP2006337851A JP2005164463A JP2005164463A JP2006337851A JP 2006337851 A JP2006337851 A JP 2006337851A JP 2005164463 A JP2005164463 A JP 2005164463A JP 2005164463 A JP2005164463 A JP 2005164463A JP 2006337851 A JP2006337851 A JP 2006337851A
Authority
JP
Japan
Prior art keywords
signal
permutation
spectrogram
frequency bin
separated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005164463A
Other languages
English (en)
Inventor
Atsuo Hiroe
厚夫 廣江
Keiichi Yamada
敬一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005164463A priority Critical patent/JP2006337851A/ja
Priority to US11/421,619 priority patent/US7809146B2/en
Priority to KR1020060049780A priority patent/KR101241683B1/ko
Priority to CN2006100887415A priority patent/CN1897113B/zh
Publication of JP2006337851A publication Critical patent/JP2006337851A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 複数の信号が混合された音声信号を独立成分分析を用いて信号毎に分離する際に、原信号についての知識やマイクロホンの位置等についての情報を利用することなく高い精度でパーミュテーション問題を解消する。
【解決手段】 短時間フーリエ変換部12は、時間領域の観測信号から観測信号のスペクトログラムを生成し、信号分離部13は、観測信号のスペクトログラムを信号毎に分離し、分離信号のスペクトログラムを生成する。パーミュテーション問題解消部15は、パーミュテーションの程度に対応した尺度、具体的には多次元確率密度関数を用いて計算されるKullback-Leiblar情報量、又は多次元の尖度を分離信号のスペクトログラムの略々全体から計算し、当該尺度に基づいて分離信号のスペクトログラムの各周波数binの信号をチャンネル間で入れ替えることでパーミュテーション問題を解消する。
【選択図】 図13

Description

本発明は、複数の信号が混合された音声信号を独立成分分析(Independent Component Analysis;ICA)を用いて信号毎に分離する音声信号分離装置及びその方法に関する。
複数の原信号が未知の係数によって線形に混合されているときに、信号の統計的な性質を利用して原信号を分離・復元するという独立成分分析の手法が信号処理の分野で注目されている。この独立成分分析を音声信号に応用することで、例えば複数の話者が同時に発声した音声を複数のマイクロホンで観測し、観測された音声を話者毎に分離したり、話者の音声とノイズとに分離したりすることが可能となる。
ここで、時間周波数領域の独立成分分析を用いて、複数の信号が混合された音声信号を信号毎に分離する場合について、図38を用いて説明する。なお、時間周波数領域の独立成分分析とは、複数のマイクロホンで観測された時間領域の信号を、短時間フーリエ変換によって時間周波数領域の信号(スペクトログラム)に変換し、時間周波数領域で分離を行う方式のことである(非特許文献1を参照)。
n個の音源が発するお互いに独立な原信号をs〜sとし、それらを要素とするベクトルをsとする。マイクロホンで観測される観測信号は、複数の原信号が混合されたものである。n個のマイクロホンで観測された信号をx〜xとし、それらを要素とするベクトルをxとする。マイクロホンの数nが2であるとき、すなわちチャンネル数が2であるときの観測信号xの例を図39(A)に示す。次に、観測信号xに対して短時間フーリエ変換を施し、時間周波数領域の観測信号Xを得る。Xの要素をX(ω,t)とすると、X(ω,t)は複素数値をとる。X(ω,t)の絶対値である|X(ω,t)|を色の濃淡で表現した図をスペクトログラムという。観測信号Xのスペクトログラムの例を図39(B)に示す。この図において、tはフレーム番号(1≦t≦T)を示し、ωは周波数bin番号(1≦ω≦M)を示す。続いて、信号Xの各周波数binに分離行列W(ω)を乗算することで分離信号Y’を得る。分離信号Y’のスペクトログラムの例を図39(C)に示す。
ところで、上述した時間周波数領域の独立成分分析では、信号の分離処理を周波数bin毎に行っており、周波数binの間の関係は考慮していない。そのため、分離自体は成功しても、周波数binの間で分離先の不統一が発生することが多い。この分離先の不統一とは、例えばω=1ではYにs由来の信号が現れるのに対してω=2ではYにs由来の信号が現れる、というような現象のことであり、パーミュテーション(permutation)問題と呼ばれている。
そこで、後処理として周波数bin毎に信号を入れ替え、分離先を揃えることにより、パーミュテーション問題を解消する。パーミュテーション問題が解消された分離信号Yのスペクトログラムの例を図39(D)に示す。最後に、分離信号Yに逆フーリエ変換を施すことにより、図39(E)に示すような時間領域の分離信号yを得る。
村田昇著,「入門・独立成分分析」,東京電気大学出版局 特開2004−145172号公報 特開2004−126198号公報
上述のように、パーミュテーション問題を解消するためには、後処理による入れ替えが行われる。この後処理では、先ず周波数bin毎の分離によって図39(C)のようなスペクトログラムを得て、その後、何らかの基準に従ってチャンネル間で分離信号の入れ替えを行うことで図39(D)のようなスペクトログラムを得る。入れ替えの基準としては、(a)エンベロープの類似性(非特許文献1を参照)を利用するもの、(b)推定された音源方向を利用するもの(特許文献1の[従来の技術]を参照)、(c)aとbとの組合せ(特許文献1を参照)、(d)ニューラルネットワークを利用するもの(特許文献2を参照)が挙げられる。
しかしながら、上記(a)は、周波数binによってはエンベロープの違いが不明瞭なことがあり、そのような場合には入れ替え間違いが発生してしまう。また、入れ替えを1度間違えると、それ以降の周波数binでは全て分離先を間違えてしまうことになる。また、上記(b)は、方向推定の精度に問題があり、さらにマイクロホンの位置・方向・間隔等の情報が必要である。また、両者を組み合わせた上記(c)は、入れ替えの精度は向上しているものの、上記(b)と同様にマイクロホンの位置情報等が必要である。また、上記(d)は、事前にニューラルネットワークを構築しておく必要があり、原信号についての何らかの知識を必要とする。
このように、従来は、原信号についての知識やマイクロホンの位置等についての情報を利用することなく高い精度でパーミュテーション問題を解消する方法が存在しないのが現状であった。
本発明は、このような従来の実情に鑑みて提案されたものであり、複数の信号が混合された音声信号を独立成分分析を用いて信号毎に分離する際に、原信号についての知識やマイクロホンの位置等についての情報を利用することなく高い精度でパーミュテーション問題を解消することが可能な音声信号分離装置及びその方法を提供することを目的とする。
上述した目的を達成するために、本発明に係る音声信号分離装置は、音声信号を含む複数の信号が混合された複数チャンネルの時間領域の観測信号を独立成分分析を用いて信号毎に分離し、分離信号を生成する音声信号分離装置において、上記時間領域の観測信号を時間周波数領域に変換し、観測信号のスペクトログラムを生成する変換手段と、上記観測信号のスペクトログラムから分離信号のスペクトログラムを生成する分離手段と、上記分離信号のスペクトログラムのパーミュテーション問題を解消するパーミュテーション問題解消手段とを備え、上記パーミュテーション問題解消手段は、パーミュテーションの程度に対応した尺度を上記分離信号のスペクトログラムの略々全体から計算し、当該尺度に基づいて上記分離信号のスペクトログラムの各周波数binの信号をチャンネル間で入れ替えることでパーミュテーション問題を解消することを特徴とする。
また、上述した目的を達成するために、本発明に係る音声信号分離方法は、音声信号含む複数の信号が混合された複数チャンネルの時間領域の観測信号を独立成分分析を用いて信号毎に分離し、分離信号を生成する音声信号分離方法において、上記時間領域の観測信号を時間周波数領域に変換し、観測信号のスペクトログラムを生成する変換工程と、上記観測信号のスペクトログラムから分離信号のスペクトログラムを生成する分離工程と、上記分離信号のスペクトログラムのパーミュテーション問題を解消するパーミュテーション問題解消工程とを有し、上記パーミュテーション問題解消工程では、パーミュテーションの程度に対応した尺度を上記分離信号のスペクトログラムの略々全体から計算し、当該尺度に基づいて上記分離信号のスペクトログラムの各周波数binの信号をチャンネル間で入れ替えることでパーミュテーション問題を解消することを特徴とする。
本発明に係る音声信号分離装置及びその方法によれば、複数の信号が混合された音声信号を独立成分分析を用いて信号毎に分離する際に、原信号についての知識やマイクロホンの位置等についての情報を利用することなく高い精度でパーミュテーション問題を解消することが可能とされる。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、複数の信号が混合された音声信号を独立成分分析を用いて信号毎に分離する音声信号分離装置に適用したものである。特に、本実施の形態における音声信号分離装置は、パーミュテーションの程度を測る尺度として、多次元確率密度関数を用いて計算されるKullback-Leiblar情報量(以下、「KL情報量」という。)、又は多次元の尖度をスペクトログラム全体(あるいは略々全体)から計算し、パーミュテーションの程度が最小となるように周波数bin毎の信号を入れ替える。
ここで、本実施の形態におけるスペクトログラムの一例を図1に示す。この図1は、チャンネルk(1≦k≦n)のスペクトログラムYを示したものである。本明細書では、このスペクトログラムYからフレーム番号t(1≦t≦T)の部分を切り出したベクトルをY(t)と記し、周波数bin番号ω(1≦ω≦M)の部分を切り出したベクトルをY(ω)と記す。また、スペクトログラムYの各要素をY(ω,t)と記す。また、Y(ω)〜Y(ω)を要素とするベクトルをY(ω)と記し、Y〜Yを要素とするベクトルをYと記す。これらのベクトルY、Y(ω)、Y(t)、Y(ω)を下記式(1)〜(4)に示す。
Figure 2006337851
以下では先ず、多次元確率密度関数を用いて計算されるKL情報量と多次元の尖度とがパーミュテーションの程度を測る尺度として利用できる点について説明し、次いで、本実施の形態における音声信号分離装置の具体的構成について説明する。
(多次元確率密度関数を用いて計算されるKL情報量)
KL情報量とは、複数の信号間の独立性を表す尺度であり、下記式(5)のように定義される。この式(5)において、H(Y)はチャンネルkのスペクトログラムYから計算されるエントロピーであり、H(Y)は全チャンネルのスペクトログラムYから計算される同時エントロピーである。チャンネル数=2のときのH(Y)とH(Y)との関係を図2に示す。
Figure 2006337851
式(5)で定義されるKL情報量はスペクトログラム全体から計算される量であるため、スペクトログラムにパーミュテーションが発生しているか否かで値が異なる。以下、説明する。
分離直後のパーミュテーションが発生しているスペクトログラムをY'、パーミュテーション問題の解消後のスペクトログラムをYとし、パーミュテーション問題を解消する操作(同じ周波数binのチャンネル間で信号を入れ替える操作)を表す行列をPとすると、Y=PY’と書くことができる。したがって、上記式(5)は上記式(6)のように変形できる。式(6)の1項目はエントロピーの定義式に基づくものであり、2項目及び3項目はY=PY’からH(Y)=log|det(P)|+H(Y’)という関係が導出されることに基づく。行列Pは単位行列の行を入れ替えたものなのでdet(P)=±1であり、H(Y’)はパーミュテーション問題を解消するにあたっては定数と見なせるため、上記式(6)は上記式(7)のように変形できる。つまり、KL情報量の大小は、各チャンネルのエントロピーH(Y)の総和で決まり、全チャンネルの同時エントロピーH(Y)に依存しない。
チャンネルkのエントロピーH(Y)を求める際には、スペクトログラムYからフレーム番号tの部分を切り出したベクトルY(t)を、Yの確率密度関数(PDF)であるPYk()に代入することでベクトルの発生確率を求める。H(Y)は、その発生確率の対数値にマイナスをつけ、それを全時刻で平均したものとして計算される。E[]は時間方向の平均を表す。
なお、Y(t)をPYk()に代入して発生確率を求める際、必ずしもY(t)の全要素を使用する必要はない。例えば、周波数bin毎(ω毎)のパワーD(ω)を下記式(8)に従って計算し、パワーの上位L本の周波数binに該当する要素のみを使用するようにしても構わない。
Figure 2006337851
ここで、KL情報量の大小とパーミュテーションの程度とには関係があり、確率密度関数PYk()の設定次第で、パーミュテーションが発生していない場合をKL情報量の最大値又は最小値とすることができる。
一例として、スペクトログラムYの確率密度関数を下記式(9)で定義する。すなわち、スカラー値を引数とする任意の非負関数f()に対してY(t)のL−Nノルムを代入したものを確率密度関数として用いる。なお、L−Nノルムとは、下記式(10)に示すように、ベクトルの要素の絶対値をN乗してから総和し、最後にN乗根をとったものである。また、式(9)におけるhは、PYk(Y(t))の全引数について−∞〜+∞の範囲で積分した値を1に調整するため、すなわち発生確率の総和を1に調整するための定数である。但し、パーミュテーション問題を解消するにあたってはKL情報量の大小のみが重要であるため、正の値であればどのような値でも構わない。以下ではh=1とする。
Figure 2006337851
上記式(9)における関数f()としては様々なものが使用可能である。f()の例と、そのときのlogPYk(Y(t))とを下記式(11)〜(20)に示す。なお、式(15)におけるf(x)=1/|x|を用いたPYk(Y(t))は積分値が発散するため確率密度関数の性質を満たさないが、エントロピー自体は計算可能であるため、本明細書では確率密度関数の一例として挙げている。
Figure 2006337851
Figure 2006337851
Figure 2006337851
Figure 2006337851
Figure 2006337851
以下、KL情報量が最大値又は最小値をとるのはパーミュテーションが発生していない場合に限られることを検証した実験について説明する。この実験では、パーミュテーションが発生していない2枚のスペクトログラムに対して人工的にパーミュテーションを発生させ、パーミュテーションの程度とKL情報量との関係をプロットして、KL情報量が最大値又は最小値をとるのはパーミュテーションが発生していない場合に限られることを検証した。
先ず、チャンネル数=2の場合について説明する。
この実験では、先ず、ウェブページ(http://www.kecl.ntt.co.jp/icl/signal/mukai/demo/hscma2005/)で公開されている「s1.wav」及び「s2.wav」というファイル(サンプリング周波数16kHz)からそれぞれ先頭の4万サンプルを取り出し、この時間領域の信号に対して短時間フーリエ変換(窓長=512,シフト幅=128)を施して、パーミュテーションが発生していない2枚のスペクトログラム(周波数bin数=257,フレーム数=497)を生成した。そして、この2枚のスペクトログラムに対して、ある基準に従って周波数binを1本選択し、その周波数binの信号を入れ替えて人工的にパーミュテーションを発生させた。なお、周波数binの選択基準としては、(a)パワーの大きな周波数binから選択、(b)ω=1から選択、(c)(d)ランダムに選択、の4通りを試し、いずれも既に選択された周波数binは選択しないものとした。
周波数binをランダムに選択して入れ替えた場合のスペクトログラムの様子を図3に示す。図3(A)〜(D)は、元のスペクトログラムの周波数binをそれぞれ0%(0本)、33%(85本)、67%(171本)、100%(257本)入れ替えたものである。なお、周波数binを100%入れ替えたものはスペクトログラム自体を入れ替えたものと等しいため、パーミュテーションは発生していない。
周波数binの信号を入れ替える毎にKL情報量を計算し、入れ替えの本数(横軸)とKL情報量(縦軸)との関係をプロットした結果を図4〜図6に示す。グラフが上に凸となるか下に凸となるかは、f()及びNの値によって異なるが、いずれの場合もグラフの両端、すなわちパーミュテーションが発生していない状態で、KL情報量が最小値(グラフが上に凸の場合)又は最大値(グラフが下に凸の場合)となっている。つまり、KL情報量はパーミュテーションの程度を測る尺度になり得ることが実験的に確かめられた。
図4〜図6に示していない関数についての結果を以下の表1に示す。この表1において、「∩」は上に凸のグラフ(両端が最小値)を表し、「∪」は下に凸のグラフ(両端が最大値)を表し、「一定」はパーミュテーションの程度に関わらず一定値となることを表している。なお、空欄は計算が発散して値が計算できないことを表す。
Figure 2006337851
上に凸となる関数を用いた場合には、KL情報量が減少するように周波数binの信号を入れ替えることでパーミュテーション問題を解消することができ、下に凸となる関数を用いた場合には、KL情報量が増大するように周波数binの信号を入れ替えることでパーミュテーション問題を解消することができる。
なお、KL情報量のグラフが上に凸となるか下に凸となるかは、f()を1次元の確率密度関数と見なしたときに、分布がスーパーガウシアン(super-gaussian)であるかサブガウシアン(sub-gaussian)であるかに依存する。スーパーガウシアンとは、正規分布(gaussian)と比べて平均値付近の分布が鋭く尖っている一方で周辺の分布がなだらか(裾野が広い)なものを表す。一方、サブガウシアンとは、平均値付近の分布は広いが周辺の分布は少ないものを表す。
次に、チャンネル数=3の場合について説明する。
この実験においても、先ず、ウェブページ(http://www.kecl.ntt.co.jp/icl/signal/mukai/demo/hscma2005/)で公開されている「s1.wav」、「s2.wav」及び「s3.wav」というファイル(サンプリング周波数16kHz)からそれぞれ先頭の4万サンプルを取り出し、この時間領域の信号に対して短時間フーリエ変換(窓長=512,シフト幅=128)を施して、パーミュテーションが発生していない3枚のスペクトログラム(周波数bin数=257,フレーム数=497)を生成した。そして、この3枚のスペクトログラムに対して、上述した(a)〜(d)の基準に従って周波数binを1本選択し、その周波数binの信号を入れ替えて人工的にパーミュテーションを発生させた。
周波数binをランダムに選択して入れ替えた場合のスペクトログラムの様子を図7に示す。図7(A)〜(D)は、元のスペクトログラムの周波数binをそれぞれ0%(0本)、33%(85本)、67%(171本)、100%(257本)入れ替えたものである。なお、チャンネル数=3であるため、周波数binを100%入れ替えた場合であってもパーミュテーションは発生している。
周波数binの信号を入れ替える毎にKL情報量を計算し、入れ替えの本数(横軸)とKL情報量(縦軸)との関係をプロットした結果を図8〜図10に示す。グラフが上に凸となるか下に凸となるかは、f()及びNの値によって異なるが、いずれの場合もグラフの左端、すなわちパーミュテーションが発生していない状態で、KL情報量が最小値(グラフが上に凸の場合)又は最大値(グラフが下に凸の場合)となっている。つまり、KL情報量はパーミュテーションの程度を測る尺度になり得ることが実験的に確かめられた。
以上、一例としてL−Nノルムに基づく多次元確率密度関数を用いた場合について説明したが、他の多次元確率密度関数も使用可能である。
例えば、上記式(9)においてf()に代入している値をL−Nノルムからマハラノビス距離(Y(t)Σ −1(t)の平方根)に置き換えると、下記式(21)が得られる。この式(21)で与えられる確率密度関数は楕円分布と呼ばれる。本実施の形態では、この楕円分布に基づく確率密度関数も使用可能である。この式(21)において、Y(t) はY(t)のエルミート転置(要素を共役複素数に置き換えると共に、ベクトルや行列を転置する)である。また、ΣはY(t)の分散共分散行列であり、下記式(22)に従って計算される。
Figure 2006337851
チャンネル数=2、f(x)=exp(−|x|)である場合に、周波数binの入れ替えの本数(横軸)とKL情報量(縦軸)との関係をプロットした結果を図11(A)に示す。グラフが上に凸となるか下に凸となるかはf()によって決まり、その傾向は、L−Nノルムを用いた場合のN=2と同様である。但し、分散共分散行列Σの逆行列を乗じることで、周波数bin毎のパワーには依存せず、略々中間で極大(又は極小)となる滑らかなグラフが得られる。上述した図4〜図6に示すように、L−Nノルムを用いて計算したKL情報量のグラフには局所的な逆転、例えば、基本的には上に凸のグラフであるが、パーミュテーションの程度が増大するにも拘わらずKL情報量が減少するような個所が含まれる場合があり、パーミュテーション問題の解消が失敗する原因ともなり得るが、楕円分布を用いてKL情報量を計算した場合にはその可能性が少ない。
なお、周波数binの信号を入れ替える毎に分散共分散行列を計算するのは時間がかかるため、分散共分散行列の対角要素のみを使用するようにしてもよい。その場合にも図11(B)に示すように略々同じ特性を持ったグラフが得られる。
本実施の形態では、さらに他の多次元確率密度関数として、コピュラ(Copula)モデルに基づく確率密度関数も使用可能である。コピュラモデルに基づく多次元確率密度関数については、本件出願人が先に提案した特願2005−18822の明細書及び図面に記載されている。
(多次元の尖度)
尖度(kurtosis)とは、4次のキュムラントとも称され、信号の分布が正規分布からどの程度離れているかを測る尺度として用いられる。
多次元量(周波数bin数=Mのスペクトログラムを用いるため、次元数はM)の尖度は、下記式(23)で定義される。尖度は、ベクトルY(t)の分布が正規分布(多変量正規分布)のときに0、スーパーガウシアンのときに正の値、サブガウシアンのときに負の値をとる。
Figure 2006337851
ここで、パーミュテーションが発生していない状態のスペクトログラムが正規分布以外の分布であると仮定する。一般に、断続的に発生する音(音声など)は分布がスーパーガウシアンになり易く、連続的に発生する音(音楽など)は分布がサブガウシアンになり易い。一方で、パーミュテーションが発生すると、複数の信号を混合することになるため、分布が正規分布に近付く。つまり、各チャンネルの尖度を計算したとき、パーミュテーションの程度が大きいほど0に近い値をとる。したがって、下記式(24)のような各チャンネルの尖度の絶対値を総和したもの(以下、「全体の尖度」という。)を、パーミュテーションの程度を測る尺度として利用することができる。因みに、パーミュテーションの程度が小さいほど全体の尖度は大きくなる。
Figure 2006337851
上述した「s1.wav」及び「s2.wav」というファイルから得られた2枚のスペクトログラムに対して、上述した(a)〜(d)の基準に従って周波数binを1本選択し、その周波数binの信号を入れ替える毎に全体の尖度を計算したときの、入れ替えの本数(横軸)と全体の尖度(縦軸)との関係をプロットした結果を図12(A)に示す。また、上述した「s1.wav」、「s2.wav」及び「s3.wav」というファイルから得られた3枚のスペクトログラムに対して、上述した(a)〜(d)の基準に従って周波数binを1本選択し、その周波数binの信号を入れ替える毎に全体の尖度を計算したときの、入れ替えの本数(横軸)と全体の尖度(縦軸)との関係をプロットした結果を図12(B)に示す。何れも場合も、パーミュテーションが発生していない状態(図12(A)では両端、図12(B)では左端)で全体の尖度が最大値となっている。したがって、パーミュテーションの程度を測る尺度として全体の尖度を用いた場合には、全体の尖度が増大するように周波数binの信号をチャンネル間で入れ替えることで、パーミュテーション問題を解消することができる。
なお、尖度を利用する場合にも、楕円分布の場合と同様に、分散共分散行列の全要素を計算する代わりに、分散共分散行列の対角要素のみを使用するようにしても構わない。
また、必ずしもY(t)の全要素を使用する必要はない。例えば、周波数bin毎(ω毎)のパワーD(ω)を上記式(8)に従って計算し、パワーの上位L本の周波数binに該当する要素のみを使用するようにしても構わない。
(音声信号分離装置の具体的な構成)
以上、多次元確率密度関数を用いて計算されるKL情報量と多次元の尖度とがパーミュテーションの程度を測る尺度として利用できる点について説明したが、以下では本実施の形態における音声信号分離装置の具体的な構成について説明する。
本実施の形態における音声信号分離装置の概略構成を図13に示す。この音声信号分離装置1において、n個のマイクロホン10〜10は、n個の音源が発する独立な音を観測し、A/D(Analogue/Digital)変換部11は、この信号をA/D変換して観測信号を得る。短時間フーリエ変換部12は、観測信号に対して短時間フーリエ変換を施して観測信号のスペクトログラムを生成する。信号分離部13は、観測信号のスペクトログラムに対して周波数bin毎に分離処理を行い、分離信号のスペクトログラムを生成する。
リスケーリング部14は、分離信号のスペクトログラムの各周波数binに対してスケールを揃える処理を行う。また、分離処理前に観測信号に対して標準化処理(平均や分散の調整)を施していた場合には元に戻す処理を行う。パーミュテーション問題解消部15は、パーミュテーションが発生している分離信号のスペクトログラムについて、多次元確率密度関数を用いて計算されるKL情報量又は多次元の尖度に基づいて周波数bin毎の信号を入れ替え、パーミュテーション問題を解消する。逆フーリエ変換部16は、パーミュテーション問題が解消された分離信号のスペクトログラムに対して逆フーリエ変換を施し、時間領域の分離信号を生成する。D/A変換部17は、時間領域の分離信号をD/A変換し、n個のスピーカ18〜18は、それぞれ独立の音を再生する。
なお、この音声信号分離装置1では、n個のスピーカ18〜18を介して音を再生するものとしたが、分離信号を出力し、音声認識等に用いるようにすることも可能である。この場合には、逆フーリエ変換処理を適宜省略しても構わない。
この音声信号分離装置の処理の概略を図14のフローチャートを用いて説明する。先ずステップS1において、マイクロホンを介して音声信号を観測し、ステップS2において、観測信号に対して短時間フーリエ変換を施してスペクトログラムを生成する。次にステップS3において、観測信号のスペクトログラムに対して周波数bin毎に分離処理を行い、分離信号のスペクトログラムを生成する。この分離処理には、extended infomax法、Fast ICA、JADEなど、既存の独立成分分析の手法を用いることができる。
このステップS3で得られた分離信号は、パーミュテーションが発生しており、且つ、周波数bin毎にスケールが異なっている。そこでステップS4では、リスケーリング処理を行い、周波数binの間のスケールを揃える。ここでは、標準化処理で変更した平均と標準偏差とを元に戻す処理も行う。続いてステップS5において、パーミュテーションが発生している分離信号のスペクトログラムについて、多次元確率密度関数を用いて計算されるKL情報量又は多次元の尖度に基づいて周波数bin毎の信号を入れ替え、パーミュテーション問題を解消する。なお、このステップS5における処理の詳細は後述する。続いてステップS6において、パーミュテーション問題が解消された分離信号のスペクトログラムに対して逆フーリエ変換を施して時間領域の分離信号を生成し、ステップS7において、この分離信号をスピーカから再生する。
上述したステップS5におけるパーミュテーション問題解消処理の詳細を図15を用いて説明する。なお、チャンネル数をnとすれば、入れ替えの組合せは周波数bin毎にn!通りあるため、周波数binの本数をMとすれば、全体の組合せは(n!)という莫大な数になる。したがって、全ての組合せを検証することは実質的に不可能であるため、図15のフローチャートでは、以下のアルゴリズムによって、n!×Mのオーダで最適に近い組合せを検索している。
先ずステップS11において、周波数binの番号からなる順列を生成する。つまり、周波数binの本数をMとしたとき、1からMまでの数字が1回ずつ出現する数列を生成する。以降の処理では、この順列に従って周波数binが選ばれていく。順列としては、例えば、(a)ω=1からω=Mの順に並んだ順列、(b)ω=Mからω=1の順に並んだ順列、(c)パワーの大きな周波数binから並んだ順列、(d)ランダムに並んだ順列、の何れかを用いる。(c)の順列については、上記式(8)に従って周波数bin毎のパワーを求め、それを降順にソートすることで生成することができる。以下、このようにして生成された順列を[bin(1),・・・,bin(M)]と表す。
次にステップS12において、チャンネル番号からなる順列を全て生成する。これは、周波数bin毎の信号をチャンネル間で入れ替える際のチャンネル間の組合せを示したものであり、チャンネル数をnとするとn!通りの組合せがある。生成された順列を[a,・・・,a,・・・,a]と表すと、aは「入れ替え後のチャンネルkの信号は、入れ替え前のチャンネルaと同じ」ということを意味している。例えばn=2の場合、順列は[1,2]と[2,1]との2通りであり、それぞれ「何も置換しない」こと、「チャンネル1と2とを入れ替える」ことを意味している。n=3の場合、順列は[1,2,3]から[3,2,1]までの6通りあり、例えばそのうちの[2,1,3]は、「チャンネル1と2とを入れ替え、チャンネル3はそのまま」であることを意味している。以降では、これらの順列をp(1),p(2),・・・,p(n!)という変数で表す。また、p(1)は [1,2,…,n]、すなわち「どのチャンネルも置換しない」ことを意味しているものとする。
続いてステップS13において、YにY’を代入する。このYは、周波数binの信号を入れ替えた後のスペクトログラムを格納する変数であり、Y’は、分離直後のパーミュテーションが発生しているスペクトログラムである。
ステップS14〜S24は外側のループを構成しており、後述する回数だけ繰り返される。なお、この外側のループの意味については後述する。また、ステップS15〜S23は周波数binについてのループを構成している。このループでは、ステップS11で生成した順列([bin(1),・・・,bin(M)])に従って周波数binを選択し、その周波数binの信号をチャンネル間で入れ替える。以降ではω番目の周波数binの信号を何度も使うため、ステップS16では、ω番目の周波数binの信号をYtmpという変数に格納しておく。YtmpはY(ω)と同次元、すなわちn本の行ベクトルYtmp1〜Ytmpnからなる行列である。また、ステップS17〜S20はチャンネル番号の順列についてのループを構成している。このループでは、ステップS12で生成したn!通りの順列(p(1),p(2),・・・,p(n!))についてループを回し、各順列に従って周波数binの信号をチャンネル間で入れ替える。
具体的に、ステップS18では、Ytmpに対してp(j)に従った入れ替えを行ったものをY(ω)に代入する。例えば、n=3且つp(j)=[2,1,3]の場合、Y(ω)=Ytmp2,Y(ω)=Ytmp1,Y(ω)=Ytmp3となる。
続いてステップS19では、Y全体のKL情報量又は多次元の尖度を計算する。ここで、Y(ω)だけでなくY全体(或いは、略々全体)を使用しているため、仮に特定の周波数binで入れ替え間違いが発生しても、以降の周波数binで全て入れ替え間違えが発生するといった危険性はない。
ステップS18、S19の処理をチャンネル番号の全ての順列について行い、KL情報量又は多次元の尖度を計算すると、ステップS21では、それらの最大値又は最小値に対応したインデックスを求める。求めたインデックスをj’とすると、j’に対応した入れ替えの組合せp(j’)こそが、ω番目の周波数binのパーミュテーション問題を解消する入れ替え方法である可能性が高い。そこで、ステップS22では、Ytmpに対してp(j’)に従った入れ替えを行ったものをY(ω)に代入する。このステップS16〜S22の処理を全ての周波数binに対して行う。
ここで、ステップS15〜S23の処理は、1周だけではなく 2周・3周と繰り返すことでパーミュテーション問題の解消の度合いが増すことがある。すなわち、1周目ではパーミュテーション問題が解消しない周波数binが残っていても、2周目以降で解消する場合がある。そこで、ステップS15〜S23の外側でもループを回す。外側のループの繰り返し回数としては、固定した回数(例えば3回)としてもよく、ステップS22においてパーミュテーションが発生した、すなわちj’≠1となった周波数binの本数が一定数(例えば10本)以下、或いは一定割合(例えば5%)以下になるまでとしてもよい。
この外側ループを抜けた段階で、変数Yにはパーミュテーション問題が解消したスペクトログラムが格納されている。
なお、上述したフローチャートでは、ステップS11で生成された周波数binの番号からなる順列を使い続けるものとして説明したが、このステップS11を外側のループの内部に移動し、外側のループを繰り返す毎に異なる順列を使用するようにしても構わない。例えば、1周目は「パワーの大きな周波数binから並んだ順列」を使用し、2周目は「ω=1からω=Mの順に並んだ順列」を使用するようにしても構わない。
(パーミュテーション問題の解消結果の具体例)
以下、パーミュテーション問題の解消結果の具体例を示す。以下では、上記式(9)のL−Nノルムに基づく多次元確率密度関数においてf(x)=1/|x|、且つL=1としてKL情報量を計算し、このKL情報量に基づいてパーミュテーション問題を解消した。また、使用した観測信号のサンプリング周波数は16kHzであり、短時間フーリエ変換では、窓長512(周波数binの本数は257)のハニング窓をシフト幅128で使用した。さらに、図15のフローチャートにおける外側ループは3回繰り返し、図15のステップS11で生成される周波数binの番号からなる順列は、パワーの大きな周波数binから並んだ順列とした。
先ず、ウェブページ(http://www.ism.ac.jp/~shiro/research/blindsep.html)で公開されている「X_rsm2.wav」というファイル(サンプリング周波数16kHz)の先頭4万サンプルに対して、既存の独立成分分析の手法、具体的にはpre-whiteningありのextended infomax法で分離処理を施した結果(Y’に相当)を図16に示す。図16から分かるように、矢印を付した周波数binにおいて帯状にパーミュテーションが発生している。
このスペクトログラムに対して本実施の形態の手法でパーミュテーション問題解消処理を行った結果(Yに相当)を図17に示す。図17から分かるように、パーミュテーション問題がほぼ解消している。なお、Yは“ワン、ツー、スリー、フォー”という音声に対応したスペクトログラムであり、Yは音楽に対応したスペクトログラムである。
次に、人工的に発生させたパーミュテーションに対して本実施の形態の手法でパーミュテーション問題解消処理を行った結果について説明する。
先ず、チャンネル数=2の場合について2例示す。
図3(A)のスペクトログラムの約33%の周波数binに対してパーミュテーションを発生させたものを図18(A)に示す。図18(A)のうち、パーミュテーションが発生している周波数binを黒線で表すと図18(B)のようになる。全体で514本(257×2)ある周波数binのうちパーミュテーションが発生している周波数binの本数は、Y、Y共に84本、全体で168本(32.68%)である。この図18(A)のスペクトログラムに対して本実施の形態の手法でパーミュテーション問題解消処理を行った結果を図19に示す。この図19に示すスペクトログラムにおいてパーミュテーションが発生している周波数binの本数は0本であり、パーミュテーション問題が完全に解消されている。
同様に、2枚のスペクトログラムの約50%の周波数binに対してパーミュテーションを発生させたものを図20(A)、(B)に示す。全体で514本ある周波数binのうちパーミュテーションが発生している周波数binの本数は、Y、Y共に128本、全体で256本(49.81%)である。この図20(A)のスペクトログラムに対して本実施の形態の手法でパーミュテーション問題解消処理を行った結果を図21に示す。この図21に示すスペクトログラムにおいてパーミュテーションが発生している周波数binの本数は0本であり、パーミュテーション問題が完全に解消されている。
次に、チャンネル数=3の場合について2例示す。
図7(A)のスペクトログラムの約33%の周波数binに対してパーミュテーションを発生させたものを図22(A)、(B)に示す。全体で711本(257×3)ある周波数binのうちパーミュテーションが発生している周波数binの本数は、Yが71本、Yが72本、Yが71本、全体で214本(27.76%)である。この図22(A)のスペクトログラムに対して本実施の形態の手法でパーミュテーション問題解消処理を行った結果を図23に示す。この図23に示すスペクトログラムにおいてパーミュテーションが発生している周波数binの本数は0本であり、パーミュテーション問題が完全に解消されている。
同様に、3枚のスペクトログラムの全ての周波数binに対してパーミュテーションを発生させたものを図24(A)、(B)に示す。全体で711本ある周波数binのうちパーミュテーションが発生している周波数binの本数は、Yが134本、Yが154本、Yが149本、全体で437本(56.68%)である。この図24(A)のスペクトログラムに対して本実施の形態の手法でパーミュテーション問題解消処理を行った結果を図25に示す。この図25に示すスペクトログラムにおいてパーミュテーションが発生している周波数binの本数は0本であり、パーミュテーション問題が完全に解消されている。
最後に、チャンネル数=4の場合について示す。
図7(A)のスペクトログラムに、同じウェブページで公開されている「s4.wav」というファイルから得られたスペクトログラムを追加し、約66%の周波数binに対してパーミュテーションを発生させたものを図26(A)、(B)に示す。全体で1028本(257×4)ある周波数binのうちパーミュテーションが発生している周波数binの本数は、Yが132本、Yが136本、Yが134本、Yが144本、全体で546本(53.11%)である。この図26(A)のスペクトログラムに対して本実施の形態の手法でパーミュテーション問題解消処理を行った結果を図27(A)に示す。図27(A)のうち、パーミュテーションが発生している周波数binを黒線で表すと図27(B)のようになる。この図27(A)に示すスペクトログラムにおいてパーミュテーションが発生している周波数binの本数は、Yが1本、Yが1本、Yが2本、全体で4本(0.39%)であり、パーミュテーション問題が大幅に解消されている。
同様に、4枚のスペクトログラムの全ての周波数binに対してパーミュテーションを発生させたものを図28(A)、(B)に示す。全体で1028本ある周波数binのうちパーミュテーションが発生している周波数binの本数は、Yが171本、Yが187本、Yが177本、Yが178本、全体で713本(69.36%)である。この図28(A)のスペクトログラムに対して本実施の形態の手法でパーミュテーション問題解消処理を行った結果を図29(A)、(B)に示す。この図28(A)に示すスペクトログラムにおいてパーミュテーションが発生している周波数binの本数は、Yが1本、Yが2本、Yが1本、全体で4本(0.39%)であり、パーミュテーション問題が大幅に解消されている。
以上のように、本実施の形態における音声信号分離装置1によれば、複数の信号が混合された音声信号を独立成分分析を用いて信号毎に分離することができ、また、多次元確率密度関数を用いて計算されるKL情報量又は多次元の尖度をパーミュテーションの程度を測る尺度として利用することにより、原信号の特徴やマイクロホンの位置等の情報を用いることなく、高い精度で分離信号のパーミュテーション問題を解消することができる。
(第1の変形例)
ところで、図15にアルゴリズムを示すパーミュテーション問題解消処理では、n!Mのオーダの計算量が必要とされるため、チャンネル数nが大きくなると処理時間が長くなってしまう。そこで、以下に説明するように、チャンネル毎に周波数binの信号の入れ替え方法を決定することで、計算量をnMのオーダに抑えることができる。このパーミュテーション問題解消処理の詳細を図30を用いて説明する。
先ずステップS31において、周波数binの番号からなる順列[bin(1),・・・,bin(M)]を生成し、ステップS32において、YにY’を代入する。このYは、周波数binの信号を入れ替えた後のスペクトログラムを格納する変数であり、Y’は、分離直後のパーミュテーションが発生しているスペクトログラムである。
ステップS33〜S47は第1の外側のループを構成している。このループは、繰り返すことでパーミュテーション問題の解消の度合いを上げるためのものである。また、ステップS34〜S46は第1のチャンネルループを構成しており、ステップS35〜S45ではk番目のチャンネルのスペクトログラムについて、周波数binの信号の入れ替え方法が決定される。なお、n−1個のチャンネルに対して周波数binの信号の入れ替え方法が決定すれば残りの1チャンネルの入れ替え方法も自動的に決定するため、ループはチャンネル1からチャンネル(n−1)までで構わない。
ステップS35〜S45は第1の外側のループを構成している。このループも、繰り返すことでパーミュテーション問題の解消の度合いを上げるためのものである。ステップS36〜S44では、k番目のチャンネルについて、周波数binの信号の入れ替え方法を決定する。この目的のため、処理結果を格納する変数をYtmpとし、初期値としてYを代入しておく。ステップS37〜S44は周波数binについてのループを構成している。このループでは、ステップS31で生成した順列([bin(1),・・・,bin(M)])に従って周波数binを選択し、選択したω番目の周波数binの信号をチャンネルj(j=k,k+1,・・・n)との間で入れ替え、チャンネルkのエントロピーH(Y)が最大又は最小となり、又は尖度が最大となる(以下、「エントロピー又は尖度が最適になる」という。)入れ替え方法を見つけ出す。なお、チャンネル1からチャンネル(k−1)までについては、既にパーミュテーション問題が解消しているため、周波数binの信号を入れ替える必要はない。
ステップS38〜S41は第2のチャンネルループを構成している。このループでは、kからnの順に選択されたチャンネルjの周波数binの信号とチャンネルkの周波数binの信号とが入れ替えられ、入れ替え後のエントロピー又は尖度が計算される。具体的にステップS39では、チャンネルjのω番目の周波数binの信号Y(ω)とYtmpのω番目の周波数binの信号Ytmp(ω)とが入れ替えられ、ステップS40では、Ytmpのエントロピー又は尖度がScore(j)に代入される。チャンネルkからチャンネルnまでのScore(j)が得られると、ステップS42では、それらの最大値又は最小値に対応したインデックスを求める。求めたインデックスをj’とすると、j’に対応した入れ替えこそが、ω番目の周波数binのパーミュテーション問題を解消する入れ替え方法である可能性が高い。そこで、ステップS43では、チャンネルkのω番目の周波数binの信号Y(ω)とチャンネルj’のω番目の周波数binの信号Yj’(ω)とを入れ替えると共に、チャンネルj’のω番目の周波数binの信号Yj’(ω)をYtmpのω番目の周波数binの信号Ytmp(ω)として代入する。このステップS38〜S43の処理を全ての周波数binに対して行えば、チャンネルkのエントロピー又は尖度は最適となり、パーミュテーション問題が解消している。そして、この処理を全チャンネルに対して行えば、全チャンネルのパーミュテーション問題が解消する。
(第2の変形例)
上述したように、図15にアルゴリズムを示すパーミュテーション問題解消処理では、n!Mのオーダの計算量が必要とされるため、チャンネル数nが大きくなると処理時間が長くなってしまう。そこで、以下に説明するように遺伝的アルゴリズムを用いることによっても、計算量を削減することができる。この方法では、遺伝子として置換列([1, 3, 2] など)を、染色体(遺伝子の列。「個体」とも呼ぶ)として置換列からなる列を用い、各染色体の優劣を測る尺度として多次元確率密度関数を用いて計算されるKL情報量や多次元の尖度を用いる。このパーミュテーション問題解消処理の詳細を図31を用いて説明する。
先ずステップS51において、初期個体群として、ランダムに生成した置換列からなる染色体を任意の個数だけ生成する。染色体の形式を図32に示す。このように、周波数bin毎の置換列を周波数binの個数だけ縦に並べたものを染色体として用いる。
次にステップS52において、終了条件を満たすか否かを判別する。終了条件としては、ステップS53〜S55の処理を所定回数だけ繰り返したことや、個体群が収束した、すなわち最適解が変化しないことなどが挙げられる。終了条件を満たしていない場合にはステップS53に進む。
続いてステップS53において、個体群に対して交叉を適用する。交叉とは、個体群の中から染色体を2本以上選び出し、それらの間で遺伝子(置換列)を交換することである。これを任意の回数繰り返す。なお、交叉には、図33(A)に示す1点交叉や、図33(B)に示す2点交叉や、図33(C)に示す多点交叉など様々なバリエーションがあるが、どれを用いても構わない。また、ランダムにωを選び、ω番目の置換列だけを交換してもよい。さらに、ωをランダムに選ぶ代わりに、図15のステップS11と同様の基準でωを決めてもよい。
続いてステップS54では、このようにして生成された新しい染色体及び以前の染色体に対して、ある確率に基づいて突然変異又は染色体内入れ替えを適用する。突然変異とは、図34に示すように、染色体を任意に1本抽出し、任意の個所の遺伝子(置換列)を別の遺伝子と取り替えることである。一方、染色体内入れ替えとは、図35に示すように、1本の染色体内で置換列を交換することである。このように突然変異又は染色体内入れ替えを適用することで、交叉だけでは生成できない染色体を生成することができる。
続いてステップS55では、このようにして生成された各染色体に対して、選択(淘汰)を適用して、次世代の個体群を決定する。なお、この選択処理の詳細については後述する。選択処理が終了するとステップS52に戻る。そして、終了条件が満たされるまでステップS53〜S55の処理を繰り返す。
上述したステップS55における選択処理の詳細について、図36のフローチャートを用いて説明する。
先ずステップS61において、変数Sを次の世代に残す個体(染色体)からなる集合とし、初期値として空集合を代入しておく。
ステップS62〜S69は個体についてのループを構成している。このループでは、交叉・突然変異・染色体内入れ替えといった操作によって生成された新しい染色体(及び、必要に応じて操作前の染色体)それぞれに対してステップS63〜S68の処理を行う。
ステップS63では、k番目の染色体に対応したスペクトログラムを求める。すなわち、分離処理後のスペクトログラムY’の各周波数binに対して、k番目の染色体が表す入れ替え方法を適用することで、新しいスペクトログラムを生成する。ステップS64では、生成したスペクトログラムに対して、KL情報量又は尖度を計算する。
続いてステップS65において、KL情報量又は尖度の値に応じて、その個体の生存確率を計算する。尖度を用いる場合、尖度は値が大きいほどパーミュテーションの度合いが小さいため、値が大きいほど生存確率が高くなるように、図37(A)に示すような下に凸の関数を用いて生存確率を計算する。一方、KL情報量を用いる場合、上述した表1で「∪」となっている確率密度関数では図37(A)に示すような関数を用いて生存確率を計算し、「∩」となっている確率密度関数では図37(B)に示すような関数を用いて生存確率を計算する。
生存確率を計算したら、ステップS66〜S68では、その値に基づいて各遺伝子を残すか否かを決定する。具体的に、ステップS66では、乱数で0〜1の間の値を発生させ、ステップS67では、生存確率の値がその乱数値よりも大きいか否かを判別する。そして、生存確率の値が乱数値以下である場合にはその個体を消滅させ、生存確率の値が乱数値よりも大きい場合には、その個体を次世代に残すため、ステップS68においてその個体を集合Sに追加する。
ステップS63〜S68の処理を全ての個体に対して行うことで、次世代の個体が生成される。その後、ステップS70では、個数による制限を行う。すなわち、生存確率が大きい順に上位L個の個体のみを残す。
以上、本発明を実施するための最良の形態について説明したが、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
本実施の形態におけるスペクトログラムの一例を示す図である。 チャンネル数=2のときの、各チャンネルのエントロピーH(Y)と全チャンネルの同時エントロピーH(Y)との関係を示す図である。 チャンネル数=2のときに周波数binをランダムに選択して入れ替えた場合のスペクトログラムの様子を示す図である。 チャンネル数=2のときの、周波数binの入れ替えの本数(横軸)とKL情報量(縦軸)との関係を示す図である。 チャンネル数=2のときの、周波数binの入れ替えの本数(横軸)とKL情報量(縦軸)との関係を示す図である。 チャンネル数=2のときの、周波数binの入れ替えの本数(横軸)とKL情報量(縦軸)との関係を示す図である。 チャンネル数=3のときに周波数binをランダムに選択して入れ替えた場合のスペクトログラムの様子を示す図である。 チャンネル数=3のときの、周波数binの入れ替えの本数(横軸)とKL情報量(縦軸)との関係を示す図である。 チャンネル数=3のときの、周波数binの入れ替えの本数(横軸)とKL情報量(縦軸)との関係を示す図である。 チャンネル数=3のときの、周波数binの入れ替えの本数(横軸)とKL情報量(縦軸)との関係を示す図である。 チャンネル数=2、f(x)=exp(−|x|)のときの、周波数binの入れ替えの本数(横軸)とKL情報量(縦軸)との関係を示す図である。 チャンネル数=2,3のときの、周波数binの入れ替えの本数(横軸)と全体の尖度(縦軸)との関係を示す図である。 本実施の形態における音声信号分離装置の概略構成を示す図である。 同音声信号分離装置の処理の概略を説明するフローチャートである。 パーミュテーション問題解消処理の一例を詳細に説明するフローチャートである。 既存の手法で分離処理を行った結果を示す図である。 図16のスペクトログラムに対して、本実施の形態の手法でパーミュテーション問題を解消した結果を示す図である。 チャンネル数=2のときに約33%の周波数binの信号を入れ替えた場合のスペクトログラムを示す図である。 図18のスペクトログラムに対して、本実施の形態の手法でパーミュテーション問題を解消した結果を示す図である。 チャンネル数=2のときに約50%の周波数binの信号を入れ替えた場合のスペクトログラムを示す図である。 図20のスペクトログラムに対して、本実施の形態の手法でパーミュテーション問題を解消した結果を示す図である。 チャンネル数=3のときに約33%の周波数binの信号を入れ替えた場合のスペクトログラムを示す図である。 図22のスペクトログラムに対して、本実施の形態の手法でパーミュテーション問題を解消した結果を示す図である。 チャンネル数=3のときに全ての周波数binの信号を入れ替えた場合のスペクトログラムを示す図である。 図24のスペクトログラムに対して、本実施の形態の手法でパーミュテーション問題を解消した結果を示す図である。 チャンネル数=4のときに約66%の周波数binの信号を入れ替えた場合のスペクトログラムを示す図である。 図26のスペクトログラムに対して、本実施の形態の手法でパーミュテーション問題を解消した結果を示す図である。 チャンネル数=4のときに全ての周波数binの信号を入れ替えた場合のスペクトログラムを示す図である。 図28のスペクトログラムに対して、本実施の形態の手法でパーミュテーション問題を解消した結果を示す図である。 パーミュテーション問題解消処理の他の例を詳細に説明するフローチャートである。 遺伝的アルゴリズムを用いたパーミュテーション問題解消処理の例を詳細に説明するフローチャートである。 遺伝的アルゴリズムにおける染色体の例を示す図である。 遺伝的アルゴリズムにおける交叉の例を示す図である。 遺伝的アルゴリズムにおける突然変異の例を示す図である。 遺伝的アルゴリズムにおける染色体内入れ替えの例を示す図である。 選択操作の一例を詳細に説明するフローチャートである。 選択操作で用いる生存確率の関数の一例を示す図である。 時間周波数領域における従来の独立成分分析の概略を説明する図である。 観測信号及びそのスペクトログラムと、分離信号、そのスペクトログラム、及びパーミュテーション問題解消後のスペクトログラムとを示す図である。
符号の説明
1 音声信号分離装置、10〜10 マイクロホン、11 A/D変換部、12 短時間フーリエ変換部、13 信号分離部、14 リスケーリング部、15 パーミュテーション問題解消部、16 逆フーリエ変換部、17 D/A変換部、18〜18 スピーカ

Claims (4)

  1. 音声信号を含む複数の信号が混合された複数チャンネルの時間領域の観測信号を独立成分分析を用いて信号毎に分離し、分離信号を生成する音声信号分離装置において、
    上記時間領域の観測信号を時間周波数領域に変換し、観測信号のスペクトログラムを生成する変換手段と、
    上記観測信号のスペクトログラムから分離信号のスペクトログラムを生成する分離手段と、
    上記分離信号のスペクトログラムのパーミュテーション問題を解消するパーミュテーション問題解消手段とを備え、
    上記パーミュテーション問題解消手段は、パーミュテーションの程度に対応した尺度を上記分離信号のスペクトログラムの略々全体から計算し、当該尺度に基づいて上記分離信号のスペクトログラムの各周波数binの信号をチャンネル間で入れ替えることでパーミュテーション問題を解消する
    ことを特徴とする音声信号分離装置。
  2. 上記パーミュテーションの程度に対応した尺度は、多次元確率密度関数を用いて計算されるKullback-Leiblar情報量、又は多次元の尖度であることを特徴とする請求項1記載の音声信号分離装置。
  3. 上記多次元確率密度関数は、L−Nノルム又は楕円分布に基づくものであることを特徴とする請求項2記載の音声信号分離装置。
  4. 音声信号含む複数の信号が混合された複数チャンネルの時間領域の観測信号を独立成分分析を用いて信号毎に分離し、分離信号を生成する音声信号分離方法において、
    上記時間領域の観測信号を時間周波数領域に変換し、観測信号のスペクトログラムを生成する変換工程と、
    上記観測信号のスペクトログラムから分離信号のスペクトログラムを生成する分離工程と、
    上記分離信号のスペクトログラムのパーミュテーション問題を解消するパーミュテーション問題解消工程とを有し、
    上記パーミュテーション問題解消工程では、パーミュテーションの程度に対応した尺度を上記分離信号のスペクトログラムの略々全体から計算し、当該尺度に基づいて上記分離信号のスペクトログラムの各周波数binの信号をチャンネル間で入れ替えることでパーミュテーション問題を解消する
    ことを特徴とする音声信号分離方法。
JP2005164463A 2005-06-03 2005-06-03 音声信号分離装置及び方法 Withdrawn JP2006337851A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2005164463A JP2006337851A (ja) 2005-06-03 2005-06-03 音声信号分離装置及び方法
US11/421,619 US7809146B2 (en) 2005-06-03 2006-06-01 Audio signal separation device and method thereof
KR1020060049780A KR101241683B1 (ko) 2005-06-03 2006-06-02 음성 신호 분리 장치 및 방법
CN2006100887415A CN1897113B (zh) 2005-06-03 2006-06-05 音频信号分离设备及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005164463A JP2006337851A (ja) 2005-06-03 2005-06-03 音声信号分離装置及び方法

Publications (1)

Publication Number Publication Date
JP2006337851A true JP2006337851A (ja) 2006-12-14

Family

ID=37495245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005164463A Withdrawn JP2006337851A (ja) 2005-06-03 2005-06-03 音声信号分離装置及び方法

Country Status (4)

Country Link
US (1) US7809146B2 (ja)
JP (1) JP2006337851A (ja)
KR (1) KR101241683B1 (ja)
CN (1) CN1897113B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215649A (ja) * 2007-02-21 2011-10-27 Sony Corp 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
WO2013168848A1 (ko) * 2012-05-08 2013-11-14 한국과학기술원 하모닉 주파수 사이의 종속관계를 이용한 암묵 신호 분리 방법 및 이를 위한 디믹싱 시스템
WO2017141542A1 (ja) * 2016-02-16 2017-08-24 日本電信電話株式会社 マスク推定装置、マスク推定方法及びマスク推定プログラム
WO2019171457A1 (ja) * 2018-03-06 2019-09-12 日本電気株式会社 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4239109B2 (ja) * 2006-10-20 2009-03-18 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
KR100922897B1 (ko) * 2007-12-11 2009-10-20 한국전자통신연구원 Mdct 영역에서 음질 향상을 위한 후처리 필터장치 및필터방법
JP5294300B2 (ja) * 2008-03-05 2013-09-18 国立大学法人 東京大学 音信号の分離方法
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
US20110078224A1 (en) * 2009-09-30 2011-03-31 Wilson Kevin W Nonlinear Dimensionality Reduction of Spectrograms
US9111526B2 (en) 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
CN102081928B (zh) * 2010-11-24 2013-03-06 南京邮电大学 基于压缩感知和k-svd的单通道混合语音分离方法
US20130294611A1 (en) * 2012-05-04 2013-11-07 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation
US8886526B2 (en) * 2012-05-04 2014-11-11 Sony Computer Entertainment Inc. Source separation using independent component analysis with mixed multi-variate probability density function
US9460732B2 (en) 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US9420368B2 (en) * 2013-09-24 2016-08-16 Analog Devices, Inc. Time-frequency directional processing of audio signals
WO2017094862A1 (ja) * 2015-12-02 2017-06-08 日本電信電話株式会社 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
US10529349B2 (en) * 2018-04-16 2020-01-07 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
KR101939344B1 (ko) 2018-06-14 2019-01-16 전길자 환자용 휠체어
JP7245669B2 (ja) * 2019-02-27 2023-03-24 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム
CN111326143B (zh) * 2020-02-28 2022-09-06 科大讯飞股份有限公司 语音处理方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2418722C (en) * 2000-08-16 2012-02-07 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
JP4364493B2 (ja) 2002-10-02 2009-11-18 独立行政法人理化学研究所 信号抽出システム、信号抽出方法および信号抽出プログラム
JP3975153B2 (ja) 2002-10-28 2007-09-12 日本電信電話株式会社 ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体
JP4496378B2 (ja) * 2003-09-05 2010-07-07 財団法人北九州産業学術推進機構 定常雑音下における音声区間検出に基づく目的音声の復元方法
KR100600313B1 (ko) * 2004-02-26 2006-07-14 남승현 다중경로 다채널 혼합신호의 주파수 영역 블라인드 분리를 위한 방법 및 그 장치
JP4406428B2 (ja) * 2005-02-08 2010-01-27 日本電信電話株式会社 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
WO2007100330A1 (en) * 2006-03-01 2007-09-07 The Regents Of The University Of California Systems and methods for blind source signal separation

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215649A (ja) * 2007-02-21 2011-10-27 Sony Corp 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
WO2013168848A1 (ko) * 2012-05-08 2013-11-14 한국과학기술원 하모닉 주파수 사이의 종속관계를 이용한 암묵 신호 분리 방법 및 이를 위한 디믹싱 시스템
WO2017141542A1 (ja) * 2016-02-16 2017-08-24 日本電信電話株式会社 マスク推定装置、マスク推定方法及びマスク推定プログラム
JPWO2017141542A1 (ja) * 2016-02-16 2018-07-12 日本電信電話株式会社 マスク推定装置、マスク推定方法及びマスク推定プログラム
US10878832B2 (en) 2016-02-16 2020-12-29 Nippon Telegraph And Telephone Corporation Mask estimation apparatus, mask estimation method, and mask estimation program
WO2019171457A1 (ja) * 2018-03-06 2019-09-12 日本電気株式会社 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体
JPWO2019171457A1 (ja) * 2018-03-06 2021-01-07 日本電気株式会社 音源分離装置、音源分離方法およびプログラム
JP6992873B2 (ja) 2018-03-06 2022-01-13 日本電気株式会社 音源分離装置、音源分離方法およびプログラム

Also Published As

Publication number Publication date
KR101241683B1 (ko) 2013-03-08
US20060277035A1 (en) 2006-12-07
KR20060126391A (ko) 2006-12-07
US7809146B2 (en) 2010-10-05
CN1897113B (zh) 2011-03-16
CN1897113A (zh) 2007-01-17

Similar Documents

Publication Publication Date Title
JP2006337851A (ja) 音声信号分離装置及び方法
Vincent et al. From blind to guided audio source separation: How models and side information can improve the separation of sound
KR101197407B1 (ko) 음성 신호 분리 장치 및 방법
WO2018159612A1 (ja) 声質変換装置、声質変換方法およびプログラム
JP2007193035A (ja) 音声信号分離装置及び方法
CN109416911B (zh) 声音合成装置及声音合成方法
JP2023542431A (ja) 階層的音源分離のためのシステムおよび方法
JP2016045221A (ja) 信号解析装置、方法、及びプログラム
JP7387565B2 (ja) 信号処理装置、学習済みニューラルネットワーク、信号処理方法及び信号処理プログラム
JPWO2017146073A1 (ja) 声質変換装置、声質変換方法およびプログラム
JP6099032B2 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
JPH0883098A (ja) パラメータ変換方法及び音声合成方法
JP2020140244A (ja) データ変換学習装置、データ変換装置、方法、及びプログラム
US11842720B2 (en) Audio processing method and audio processing system
Asaei et al. Binary sparse coding of convolutive mixtures for sound localization and separation via spatialization
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
Kim et al. Monaural music source separation: Nonnegativity, sparseness, and shift-invariance
Mysore A non-negative framework for joint modeling of spectral structure and temporal dynamics in sound mixtures
Mysore et al. A non-negative approach to language informed speech separation
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
JP2020034870A (ja) 信号解析装置、方法、及びプログラム
US10839823B2 (en) Sound source separating device, sound source separating method, and program
Asakawa et al. Automatic recognition of connected vowels only using speaker-invariant representation of speech dynamics
Ichita et al. Audio source separation based on nonnegative matrix factorization with graph harmonic structure
Murata et al. Reverberation-robust underdetermined source separation with non-negative tensor double deconvolution

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080805