JP2014157261A

JP2014157261A - 音源分離装置、音源分離方法、およびプログラム

Info

Publication number: JP2014157261A
Application number: JP2013028074A
Authority: JP
Inventors: Soden Meretsu; ソウデンメレツ; Keisuke Kinoshita; 慶介木下; Tomohiro Nakatani; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-02-15
Filing date: 2013-02-15
Publication date: 2014-08-28
Anticipated expiration: 2033-02-15
Also published as: JP6114053B2

Abstract

【課題】入力信号の各チャネルのサンプリング周波数が異なる場合でも適切に目的音声を推定する。
【解決手段】音源分離装置は、複数の目的信号が重なり合った混合信号を１以上のマイクを含む２以上のノードからなるマイクアレイを用いて収音した観測信号からノードごとのエネルギーを表すエネルギー特徴ベクトルを計算するエネルギー特徴ベクトル計算部２と、エネルギー特徴ベクトルに基づいて目的信号ごとの音声が存在する確率を示す音声存在確率を計算する音声存在確率計算部４と、観測信号に音声存在確率を乗じて目的信号の推定値を求めるフィルタリング部６とを含む。
【選択図】図２

Description

この発明は、複数の目的信号が含まれている入力信号から各目的信号を精度良く抽出する音源分離技術に関する。

複数の音源が存在する環境で音響信号を収音すると、目的信号同士が互いに重なり合った混合信号が観測されることがある。この時、注目している目的信号が音声信号である場合、その他の音源の信号がその目的信号に重畳した影響により、目的音声の明瞭性は大きく低下してしまい、本来の目的音声の性質を抽出することが困難となる。例えば、目的音声に対して自動音声認識システムにより音声認識を行う場合などには認識率が著しく低下する。このような場合に、それぞれの目的信号を分離する音源分離処理により、目的音声の明瞭性を回復したり、音声認識率を改善したりすることができる。

音源分離処理を他の様々な音響信号処理システムの要素技術として用いることで、そのシステム全体の性能向上に繋げることができる。音源分離処理が要素技術として性能向上に寄与できるようなシステムには、例えば、以下のようなものが列挙できる。実環境で収録された音声にはしばしば他話者の音や雑音などの目的音声以外の音源の音が含まれるが、以下に列挙するシステムはそのような状況で用いられることを想定した例である。
１．実環境下で収音された音から目的信号を抽出し聞き取り易さを向上させる補聴器。
２．目的信号を抽出し音声の明瞭度を向上させるTV会議システムなどの通信システム。
３．実環境で用いられる音声認識システム。
４．人が発した音に反応して機械にコマンドをわたす機械制御インターフェース、および機械と人間との対話装置。
５．人が歌ったり、楽器で演奏したり、スピーカで演奏されたりした音楽に含まれる目的信号を抽出し、楽曲を検索したり、採譜したりする音楽情報処理システム。

このような音源分離技術には、例えば非特許文献１に記載された技術がある。図１を参照して非特許文献１の音源分離技術を説明する。

非特許文献１の音源分離装置は、図１に示すように、複素特徴ベクトル計算部１、音声存在確率計算部３、フィルタリング部６を含む。

複数の音源が存在する環境において複数のマイクＭ₁,…,Ｍ_N（N>1）により収音された観測信号y(t)が音源分離装置へ入力される。ここで、tは時間フレームの番号である。この観測信号y(t)は複数の目的信号が重なり合った混合信号であり、短時間フーリエ変換などにより周波数領域に変換されていることを前提とする。入力された観測信号y(t)は複素特徴ベクトル計算部１へ入力される。

複素特徴ベクトル計算部１は、観測信号y(t)に基づいて、各時間周波数ビンを特徴づける複素特徴ベクトルψ(t)を計算する。複素特徴ベクトルψ(t)は複素領域の観測信号をそのノルムで正規化した特徴ベクトルである。観測信号をノルムで正規化することで音声信号による変動を正規化し、複素単位球面に射影することができる。複素特徴ベクトルψ(t)は式(1)で表される。

計算した複素特徴ベクトルψ(t)は音声存在確率計算部３へ入力される。音声存在確率計算部３は複素特徴ベクトルψ(t)に基づいて各時間周波数ビンで複数の目的信号の各々の存在確率である音声存在確率を計算する。音声存在確率は混合数Lの混合モデルのパラメータを最尤推定することで計算される。ここで、Lは観測信号に含まれる目的信号の数である。音声信号はスパース性を有するため、複素特徴ベクトルψ(t)は多峰性の分布で精度よくモデル化することができる。つまり、多峰性の各山はL個の目的信号のいずれかのみから計算される正規化ベクトルの平均を中心として広がる。そのため、音源分離のタスクは多峰性分布の各山を表す隠れ変数Hを時間周波数ビンごとに定める作業に帰着されることになる。隠れ変数HはL個の離散値をとり、各離散値をH₁,…,H_Lとする。仮にH=H_λ（λは1以上L以下の整数）であれば、λ番目の目的信号が観測信号の中で支配的であると言える。言い換えれば、各時間周波数ビンにおいてL個の事後確率p(H_λ|ψ(t))を計算することができれば観測信号のクラスタリングによる音源分離を行うことが可能となる。具体的には、式(2)に示すような混合モデルを用いて複素特徴ベクトルψ(t)をクラスタリングすることで音源分離を行う。

ここで、θはモデルパラメータを表し、w_λは式(3)の関係を満たす。

複素特徴ベクトルの確率分布を用いたモデル化には、非特許文献１に記載されているガウス分布に類似した分布や、非特許文献２に記載されているワトソン混合分布が用いられている。ワトソン混合分布は式(4)で表される確率分布である。

ここで、a_λは集中母数（concentration parameter）であり、к_λは分布の重心（centroid）である。Cは観測信号を収音したマイクの数である。Γ(・)はガンマ関数である。M(・,・,・)はKummerの合流型超幾何関数（confluent hypergeometric function）である。Hは複素転置、すなわち転置行列または転置ベクトルの成分をすべて共役複素数にしたものを表す。

式(5)に示すパラメータθの推定にはEMアルゴリズムを用い、その中のEステップで各音源の存在確率に相当する、L個のクラスタに関する事後確率を求める。式(5)において、・^Tはベクトルまたは行列の転置を表す。

計算した音声存在確率はフィルタリング部６へ入力される。フィルタリング部６は観測信号y(t)の各時間周波数ビンの値に各目的信号に対する音声存在確率を乗算することで所望の目的信号の推定値を算出する。この方法を用いることで観測信号に含まれる複数の目的信号を精度よく回復することができる。

H. Sawada, S. Araki, and S. Makino, "Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment", IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, pp. 516-527, March 2011. D.H. Tran and R. Haeb-Umbach, "Blind separation employing directional statistics in an expectation maximization framework", IEEE ICASSP 2010, pp. 241-244.

しかしながら、非特許文献１に記載された音源分離技術では、入力信号の各チャネルのサンプリング周波数が異なる場合は、精度の良い信号回復を行うことができなかった。入力信号の各チャネルのサンプリング周波数が異なる状況は、例えばマイクアレイが複数の独立した録音デバイス（ICレコーダなど）で構成される場合にしばしば生じる。以降の説明では、このように複数の独立した録音デバイスで構成されたマイクアレイを分散型マイクアレイと呼ぶ。

この発明の目的は、入力信号の各チャネルのサンプリング周波数が異なる場合でも、適切に目的音声を推定することができる音源分離技術を提供することである。

上記の課題を解決するために、この発明の音源分離装置は、複数の目的信号が重なり合った混合信号を１以上のマイクを含む２以上のノードからなるマイクアレイを用いて収音した観測信号からノードごとのエネルギーを表すエネルギー特徴ベクトルを計算するエネルギー特徴ベクトル計算部と、エネルギー特徴ベクトルに基づいて目的信号ごとの音声が存在する確率を示す音声存在確率を計算する音声存在確率計算部と、観測信号に音声存在確率を乗じて目的信号の推定値を求めるフィルタリング部とを含む。

この発明の音源分離技術によれば、入力信号の各チャネルのサンプリング周波数が異なる場合でも、適切に目的音声を推定することができる。

従来の音源分離装置の機能構成を例示する図。第一実施形態の音源分離装置の機能構成を例示する図。第一実施形態の音声存在確率計算部の機能構成を例示する図。第一実施形態の音源分離装置の処理フローを例示する図。第二実施形態の音源分離装置の機能構成を例示する図。第二実施形態の音声存在確率計算部の機能構成を例示する図。第二実施形態の音源分離装置の処理フローを例示する図。実験条件を説明する図。実験結果を説明する図。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
第一実施形態の音源分離装置及び方法は、L個の音源が存在する環境で、少なくとも1個のマイクを含むN個のノードからなる分散型マイクアレイを用いて収音した観測信号から、特定の音源からの目的信号を推定する。

＜観測信号＞
この実施形態では、L個の音源を基点とする音響信号を、少なくとも1個のマイクを含むN個のノードからなる分散型マイクアレイを用いて収音した観測信号が入力されるものとする。ここで、Lは2以上の整数であり、Nは2以上の整数である。すなわち、1個のマイクを含む2個のノードからなる分散型マイクアレイを構成することにより、観測信号は少なくとも2個のチャネルを含む。各ノードに含まれるマイクの数は統一されている必要はなく、ここではN個のノードそれぞれに対応するマイクの数をC₁,…,C_Nとする。すなわち、nを1以上N以下の整数として、n番目のノードにはC_n個のマイクが含まれる。つまり、Cを観測信号を収音したマイクの数として、C=Σ_n=1 ^NC_nが成り立つ。

n番目のノードが収音した観測信号y_n(k,t)は式(6)のように表される。

ここで、t（1≦t）を時間フレームの番号、Kを周波数ビンの数として、k（1≦k≦K）は周波数ビンの番号、Nを分散型マイクアレイのノードの数として、n（1≦n≦N）はノードの番号である。

n番目のノードが収音した観測信号y_n(k,t)はC_nチャネル分の音声信号を含んでいる。そのため、観測信号y_n(k,t)は式(7)により定義される。

また、分散型マイクアレイ全体の観測信号y(k,t)は式(8)により定義される。

λ番目の目的信号S_λ(k,t)をn番目のノードが収音した観測信号x_n,λ(k,t)は式(9)により定義されるように、チャネル歪みとも呼ばれる短い残響h_n,λ(k)が重畳している。

式(9)において、h_n,λ(k)はλ番目の音源とn番目のノードとの間の伝達関数である。h_n,λ(k)は式(10)により定義される。

なお、この発明ではすべての処理を周波数ビンごとに独立に行うため、以降の説明では周波数ビンの番号kは省略して記載している。

＜エネルギー特徴ベクトル＞
音のエネルギーは、例えば自由音場では距離の二乗の逆数に比例し減衰するなど、音源とマイクとの間の距離に依存して大きく異なることが知られている。この発明ではこの距離による違いを利用して音源分離を行うために、式(11)により定義されるエネルギー特徴ベクトルρ(t)を計算する。

ここで、n番目のノードの観測信号に対するエネルギー特徴ベクトルρ_n(t)は式(12)により定義される。

つまり、エネルギー特徴ベクトルρ_n(t)はn番目のノードの観測信号のエネルギーを正規化した値である。式(12)に示すエネルギー特徴ベクトルρ_n(t)の分母は、n番目のノードが||y_n||²のみを他のノードと共有すれば、それらを総和することで求めることができる。

非特許文献１の音源分離技術で用いられている式(1)に示す複素特徴ベクトルψ(t)は位相情報を含んでいる。各チャネルにおいてサンプリング周波数が異なると位相情報は大きくその影響を受けるため、位相情報を含む特徴ベクトルに基づいてクラスタリングを行なっても効果的な音源分離は実現できない。一方、式(11)に示すエネルギー特徴ベクトルρ(t)は位相情報を含んでおらず振幅情報のみが表されている。振幅情報はサンプリング周波数のずれがあっても、そのずれがフレーム長を大きく超えなければ音源分離への影響は大きくならない。したがって、エネルギー特徴ベクトルをクラスタリングに用いることで、各チャネルにおいてサンプリング周波数が異なる場合でも頑健かつ効果的なクラスタリングが実現されることが期待できる。

なお、エネルギー特徴ベクトルρ(t)は各ノードの観測信号のエネルギーをすべてのノードについて並べた特徴ベクトルであるため、ノード間での観測信号の特徴量（ノード間特徴量）である。一方、複素特徴ベクトルψ(t)は各ノードの観測信号の特徴量（ノード内特徴量）である。

＜エネルギー特徴ベクトルのモデル化＞
エネルギー特徴ベクトルはディリクレ混合分布モデル（Dirichlet Mixture Model: DMM）を用いてモデル化することができる。式(13)に示すようにすべての音源の音がすべてのマイクに到来していると仮定すると、ディリクレ混合分布モデルはエネルギー特徴ベクトルをモデル化するために妥当な確率分布である。

ディリクレ混合分布モデルは式(14)により定義される。

式(14)の各要素は式(15)により定義される。

式(15)においてパラメータαは式(16)により定義される。

ディリクレ混合分布モデルの詳細は、「T.P. Minka, “Estimating a Dirichlet distribution,” Technical report, Microsoft Research, Cambridge, 2003.（参考文献１）」および「N. Bouguila, D. Ziou, and J. Vaillancourt, “Unsupervised learning of a finite mixture model based on the Dirichlet distribution and its application,” IEEE Trans. Image Process., vol. 13, pp. 1533-1543, Nov. 2004.（参考文献２）」を参照されたい。

＜ディリクレ混合分布のパラメータ推定＞
ディリクレ混合分布のパラメータは尤度最大化などの基準で推定することが可能である。その一例としてEMアルゴリズムが挙げられる。以下に、EMアルゴリズムを用いたディリクレ混合分布のパラメータ推定の詳細な手順を説明する。

はじめに、ベイズの定理に従い、エネルギー特徴ベクトルを用いて計算される各目的信号の音声存在事後確率P(t,λ,^θ)を式(17)により定義する。

ここで、^θは未知のディリクレ混合分布のパラメータαを表しており、式(14)を最大化することで求めることができる。なお、式(14)を効率的に最大化する方法として、式(14)を直接最大化するのではなく、式(14)の補助関数を式(18)のように定義し、それを最大化するパラメータを繰り返し推定してもよい。

式(18)において^θ’はパラメータ^θの事前推定値である。また、Q₁関数は式(19)により定義され、Q₂関数は式(20)により定義される。

式(18)に示す補助関数の最大化においては式(21)の制約を満たす必要がある。

その結果、式(19)を最大化するw_λは式(22)により求めることができる。

式(18)のQ(^θ,^θ')を最大化するディリクレ混合分布のパラメータ推定には閉形式解がないが、Newton-Raphsonアルゴリズムにより精度の良いパラメータ推定が可能であることが知られている（詳しくは参考文献１参照）。

推定されたパラメータα_n,λが正の値となることを保障するために、ある実数値β_n,λに対してα_n,λ=exp(β_n,λ)のように変形する必要がある（詳しくは参考文献２参照）。β_λをβ_λ=[β_1,λ…β_N,λ]^Tとすれば、式(23)の操作を数回繰り返せば精度良くα_n,λ=exp(β_n,λ)を求めることができる。

式(23)において、jは繰り返し回数を表す。Δ(β_λ)はβに関するQ(^θ,^θ')の勾配を表す。∇(β_λ)はQ(^θ,^θ')のヘッセ行列であり、逆行列を求めることが可能である。以下、Δ(β_λ)および∇(β_λ)に関して詳述する。

はじめに、変数γ_n,λを式(24)により定義する。

また、変数τ_n,λを式(25)により定義する。

変数γ_n,λ,τ_n,λを用いるとΔ(β_λ)のn番目の要素は式(26)のように表される。

ここで、ψ(・)はdigamma関数である。∇(β_λ)の対角要素は式(27)のように表され、非対角要素は式(28)のように表される。

ここで、ψ'(・)はtrigamma関数である。結果、∇(β_λ)は式(29)のような平易な形式で表わされることがわかる。

ここで＊は要素ごとの掛け算を表し、diag[・]は入力ベクトルを対角要素に持つ対角行列を表す。この行列の逆行列計算はSherman-Morrisonの公式を用いることで容易に計算することができる。

digamma関数およびtrigamma関数の詳細は「I.S. Gradshteyn and I.M. Ryzhik, “Table of integrals, series, and products, seventh edition”, Academic Press, MA, USA, 2007.（参考文献３）」を参照されたい。Sherman-Morrisonの公式の詳細は「J. Sherman and J. W. Morrison, “Adjustment of an inverse matrix corresponding to a change in one element of a given matrix,” Annals of Mathematical Statistics, vol. 21, pp. 124-127, 1950.（参考文献４）」を参照されたい。

以上説明した通り、ディリクレ混合分布のパラメータ推定をEMアルゴリズムで行う場合、Eステップとして式(15)(17)を、Mステップとして式(22)(23)を、所定の基準を満たすまで繰り返し実行する。所定の基準としては、例えばディリクレ混合分布のパラメータおよび目的信号の音声存在事後確率から計算されるQ関数の値が、更新前の値と更新後の値とでその差が所定の閾値未満となったときに所定の基準を満たしたと判定する方法が考えられる。また、予め定めた繰り返し回数に到達した場合に所定の基準を満たしたと判定する方法なども考えられる。繰り返し処理を行うことで式(18)のQ関数の値を最大化することができる。

なお上述の通り、これらの事後確率の計算は各周波数ビンで独立に行われるため、パーミュテーションの問題が生じるが、非特許文献１に記載されたパーミュテーション解決の方法を適用すればよい。

＜構成＞
第一実施形態の音源分離装置は、図２に示す通り、エネルギー特徴ベクトル計算部２、音声存在確率計算部４、フィルタリング部６を有する。音源分離装置は、例えば、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声存在確率計算部４は、図３に示す通り、事後確率計算手段４１、パラメータ推定手段４２、反復処理手段４３を有する。

＜動作＞
図４を参照して、第一実施形態の音源分離装置の動作例を説明する。

C個のマイクＭ_1,1,…,Ｍ_1,C1,…,Ｍ_N,1,…,Ｍ_N,CNからなる分散型マイクアレイで収音した観測信号y(t)はエネルギー特徴ベクトル計算部２へ入力される。エネルギー特徴ベクトル計算部２は観測信号y(t)に基づいて各ノードのエネルギーを表すエネルギー特徴ベクトルρ(t)を計算する（ステップＳ２）。エネルギー特徴ベクトルρ(t)は式(11)(12)により計算できる。詳しくは上述の＜エネルギー特徴ベクトル＞を参照されたい。計算したエネルギー特徴ベクトルρ(t)は音声存在確率計算部４へ入力される。

音声存在確率計算部４は、事後確率計算手段４１により、エネルギー特徴ベクトルρ(t)に基づいて目的信号ごとの音声が存在する確率を示す音声存在確率P(t,λ,^θ)を求める（ステップＳ４１）。音声存在確率P(t,λ,^θ)は式(15)(17)により計算できる。詳しくは上述の＜ディリクレ混合分布のパラメータ推定＞を参照されたい。

音声存在確率計算部４は、パラメータ推定手段４２により、エネルギー特徴ベクトルρ(t)と音声存在確率P(t,λ,^θ)に基づいてディリクレ混合分布のパラメータα_λを更新する（ステップＳ４２）。パラメータα_λは式(22)(23)により求めることができる。詳しくは上述の＜ディリクレ混合分布のパラメータ推定＞を参照されたい。

音声存在確率計算部４は、反復処理手段４３により、所定の基準を満たすかどうかを判断する（ステップＳ４３）。所定の基準を満たさない場合には、ステップＳ４１へ戻る。所定の基準を満たす場合には、最終的に得られた音声存在確率P(t,λ,^θ)をフィルタリング部６へ出力する。所定の基準については上述の＜ディリクレ混合分布のパラメータ推定＞で詳述したためここでは説明を省略する。

フィルタリング部６は、観測信号y(t)の各時間周波数ビンの値に各目的信号に対する音声存在確率P(t,λ,^θ)を乗じて目的信号の推定値を求める（ステップＳ６）。

推定した目的信号は出力端子Ｓから出力される。

［第二実施形態］
第二実施形態の音源分離装置及び方法は、L個の音源が存在する環境で、少なくとも2個のマイクを含むN個のノードからなる分散型マイクアレイを用いて収音した観測信号から、特定の音源の目的信号を推定する。したがって、第一実施形態の音源分離装置及び方法との相違点は分散型マイクアレイの各ノードが複数のマイクを含む点である。

＜複素特徴ベクトル＞
この実施形態の複素特徴ベクトルψ_n(t)は式(30)のように表される。

この複素特徴ベクトルψ_n(t)は非特許文献１に記載の複素特徴ベクトルψ(t)を各ノードで計算した特徴ベクトルである。これはノードごとの観測信号を正規化した特徴量、すなわちノード内特徴量とも言える。

＜複素特徴ベクトルのモデル化＞
複素特徴ベクトルψ_n(t)はノード内特徴量であるため、非特許文献１と同様にワトソン混合分布でモデル化することが可能である。ワトソン混合分布の未知のパラメータ~θは式(31)で表される。

パラメータ~θの推定は非特許文献１と同様にノードごとに独立に最適化すればよいが、より精度良く推定を行うためにノード間情報の共有を行なってもよい。ここでは、各ノードの観測信号において式(32)の独立性を仮定する。

ここで、~ψ(t)は式(33)により定義される。

式(32)の仮定のもとベイズ則を用いると、λ番目の目的信号に対する事後確率~P(t,λ,~θ)は式(34)のように表すことができる。

ここで、χ(t,~θ)は正規化項であり、ζ(t,λ,~θ)は式(35)により定義される。

式(35)の詳細は「J. Kittler, M. Hatef, R.P.W. Duin, and J. Matas, “On combining classifiers”, IEEE Transactions Pattern Analysis and Machine Intelligence, vol. 20, pp. 226-239, March 1998.（参考文献５）」を参照されたい。

式(34)(35)によれば全体のパラメータ推定の中では、事後確率p(H_λ|ψ_n(t);~θ)のみがノード間で共有され、その他のパラメータは各ノードで独立して推定を行うことになる。なお、実際の音響空間では式(29)に示すような乗算に基づく仮説統合ではなく、式(36)に示すように加算に基づく仮説統合を行う方が効果的である。

＜モデルパラメータ推定＞
エネルギー特徴ベクトルρ(t)と複素特徴ベクトルψ₁(t),…,ψ_N(t)とは相補的な情報を捉えているため、互いに統計的に独立と仮定することができる。したがって、これらの特徴ベクトルを用いた各目的信号の音声存在事後確率P^(ρ,~ψ)(t,λ,^θ)は式(37)のように表される。

式(37)の音声存在事後確率P^(ρ,~ψ)(t,λ,^θ)は式(38)により計算できる。

また、全確率の定理を用いると、式(39)を得ることができる。

ここで、^θはすべてのモデルパラメータを表しており、式(39)を最大化することで求めることができる。なお、式(39)を効率的に最大化する方法として、式(39)を直接最大化するのではなく、式(39)の補助関数を式(40)のように定義し、それを最大化するパラメータを繰り返し推定してもよい。

式(40)において^θ’は^θの事前推定値である。また、Q₁は式(41)により定義され、Q₂は式(42)により定義され、Q₃は式(43)により定義される。

式(40)に示す補助関数の最大化においては上記式(21)の制約を満たす必要がある。その結果、式(41)を最大化するw_λは式(44)により求めることができる。

同様に、式(43)のa_n,λ,к_n,λに関する偏微分値を0とすることで、a_n,λは式(45)に示す行列R_n,λの最大固有値r_n,λに対応する固有ベクトルとして与えられる。

ここで、к_n,λは式(46)を充足する必要がある。

式(46)からк_n,λに関する閉形式解を導出することはできないが、к_n,λに関して式(47)の近似を用いることが効果的であることが知られている。

この近似の詳細は「A.S. Bijral, M. Breitenbach, and G. Grudic, “Mixture of Watson distributions: a generative model for hyperspherical embedding”, J. Machine Learning Research, pp. 35-42, 2007.（参考文献６）」および「S. Sra and D. Karp, “The multivariate Watson distribution: maximum-likelihood estimation and other aspects”, preprint: arXiv:1104.4422v2, May 2012.（参考文献７）」を参照されたい。

式(40)のQ(^θ,^θ')を最大化するディリクレ混合分布のパラメータ推定には閉形式解がないが、Newton-Raphsonアルゴリズムにより精度の良いパラメータ推定が可能であることが知られている（詳しくは参考文献１参照）。

以上説明した通り、この実施形態のパラメータ推定をEMアルゴリズムで行う場合、所定の基準を満たすまで繰り返し、Eステップとして式(34)(36)(15)(38)を実行し、Mステップとして式(44)(45)(47)(23)を実行する。所定の基準は第一実施形態と同様であるので詳細な説明は省略する。

なお、この実施形態においてもパーミュテーションの問題が生じるが、第一実施形態と同様に非特許文献１に記載されたパーミュテーション解決の方法を適用すればよい。

＜構成＞
第二実施形態の音源分離装置は、図５に示す通り、N個の複素特徴ベクトル計算部１₁,…,１_N、エネルギー特徴ベクトル計算部２、音声存在確率計算部５、フィルタリング部６を有する。音源分離装置は、例えば、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声存在確率計算部５は、図６に示す通り、第一存在確率計算手段５１、第二存在確率計算手段５２、事後確率計算手段５３、パラメータ推定手段５４、反復処理手段５５を有する。

＜動作＞
図７を参照して、第二実施形態の音源分離装置の動作例を説明する。

分散型マイクアレイのN個のノードとN個の複素特徴ベクトル計算部１₁,…,１_Nとはそれぞれ１対１で対応している。n番目のノードに含まれるC_n個のマイクＭ_n,1,…,Ｍ_n,Cnで収音したC_nチャネルの観測信号y_n(t)は複素特徴ベクトル計算部１_nへ入力される。複素特徴ベクトル計算部１_nは、n番目のノードで収音した観測信号y_n(t)に基づいて、各時間周波数ビンを特徴づける複素特徴ベクトルψ_n(t)を計算する。（ステップＳ１）。複素特徴ベクトルψ_n(t)は式(30)により計算できる。詳しくは上述の＜複素特徴ベクトル＞を参照されたい。複素特徴ベクトル計算部１₁,…,１_Nが計算した複素特徴ベクトルψ₁(t),…,ψ_N(t)は音声存在確率計算部５へ入力される。

分散型マイクアレイ全体で収音したCチャネルの観測信号y(t)はエネルギー特徴ベクトル計算部２へ入力される。エネルギー特徴ベクトル計算部２は、観測信号y(t)に基づいて、ノードごとのエネルギーを表すエネルギー特徴ベクトルρ(t)を計算する（ステップＳ２）。エネルギー特徴ベクトル計算部２の処理は第一実施形態と同様であるので詳細な説明は省略する。計算したエネルギー特徴ベクトルρ(t)は音声存在確率計算部５へ入力される。

音声存在確率計算部５は、第一存在確率計算手段５１により、エネルギー特徴ベクトルρ(t)に基づいて目的信号ごとの音声が存在する確率を示す第一音声存在確率を求める（ステップＳ５１）。第一音声存在確率は式(15)により計算できる。詳しくは上述の＜ディリクレ混合分布のパラメータ推定＞を参照されたい。

音声存在確率計算部５は、第二存在確率計算手段５２により、複素特徴ベクトルψ₁(t),…,ψ_N(t)に基づいて目的信号ごとの音声が存在する確率を示す第二音声存在確率を求める（ステップＳ５２）。第二音声存在確率は式(34)(36)により計算できる。詳しくは上述の＜モデルパラメータ推定＞を参照されたい。

音声存在確率計算部５は、事後確率計算手段５３により、第一音声存在確率と第二音声存在確率を統合して目的信号ごとの音声が存在する確率を示す音声存在確率P^(ρ,~ψ)(t,λ,^θ)を求める（ステップＳ５３）。音声存在確率P^(ρ,~ψ)(t,λ,^θ)は式(38)により求めることができる。詳しくは上述の＜モデルパラメータ推定＞を参照されたい。

音声存在確率計算部５は、パラメータ推定手段５４により、エネルギー特徴ベクトルρ(t)と複素特徴ベクトルψ₁(t),…,ψ_N(t)と音声存在確率P^(ρ,~ψ)(t,λ,^θ)に基づいてディリクレ混合分布のパラメータα_λとワトソン混合分布のパラメータк_λを更新する（ステップＳ５４）。パラメータα_λは式(22)(23)により求めることができる。詳しくは上述の＜ディリクレ混合分布のパラメータ推定＞を参照されたい。パラメータк_λは式(44)(45)(47)により求めることができる。詳しくは上述の＜モデルパラメータ推定＞を参照されたい。

音声存在確率計算部５は、反復処理手段５５により、所定の基準を満たすかどうかを判断する（ステップＳ５５）。所定の基準を満たさない場合には、ステップＳ５１へ戻る。所定の基準を満たす場合には、最終的に得られた音声存在確率P^(ρ,~ψ)(t,λ,^θ)をフィルタリング部６へ出力する。所定の基準については上述の＜ディリクレ混合分布のパラメータ推定＞で詳述したためここでは説明を省略する。

フィルタリング部６は、観測信号y(t)の各時間周波数ビンの値に各目的信号に対する音声存在確率P^(ρ,~ψ)(t,λ,^θ)を乗じて目的信号の推定値を求める（ステップＳ６）。

推定した目的信号は出力端子Ｓから出力される。

［実験結果］
この発明によれば、例えば分散型マイクアレイ環境で収音した場合のように、入力信号の各チャネルのサンプリング周波数が異なる場合でも、精度の良い音源分離を安定的に行うことができる。

この発明の効果を確認するためにシミュレーション実験を行った。図８に実験環境を図示する。この実験では、目的信号を3つ（L=3）、ノード数を3（N=3）、各ノード内のマイク数を2（C₁=2、C₂=2、C₃=2）とした。各話者の音源は、TIMITデータベースからランダムに抽出した男女各12名の話者のデータを用いた。各話者は分散型マイクアレイの中心から同心円上に3m離れた位置に等間隔に配置し、各マイクノードは分散型マイクアレイの中心から0.3m離れた位置に等間隔に配置した。実験を実施した部屋の残響時間は240msであった。

実験の評価指標としては目的音源とその他の音源のエネルギー比を示すSIR（Signal-to- Interference Ratio）を用いた。SIRが高ければより精度の高い音源分離を達成できていることが示される。各ノードのサンプリング周波数のずれによる性能変化を確認するため、3つの条件を用意した。条件(0,0,0)は、3つのノードすべてのサンプリング周波数が合致している条件に相当する。条件(0,4,8)は、2つ目のノードが1つ目のノードに対して+4サンプル/秒だけサンプリング周波数がずれており、3つ目のノードが1つ目のノードに対して+8サンプル/秒だけサンプリング周波数がずれている条件に相当する。条件(0,16,32)は、2つ目、3つ目のノードがそれぞれ+16、+32サンプル/秒だけサンプリング周波数がずれている条件に相当する。上記すべての条件において、1つ目のノードのサンプリング周波数は16kHzサンプリングとした。なお、事前実験では、同じ製造メーカから発売されている同じ機種の2つのICレコーダ間には1サンプル/秒以下のずれしかなかったのに対し、異なる製造メーカから発売されている2つのICレコーダ間には約30サンプル/秒ものずれがあることを確認している。上記のサンプリング周波数のずれ幅はこれらの事前実験に基づき定めた。

図９に実験結果を示す。「従来法（全体）」は、非特許文献１に記載された従来の音源分離技術を用いて、すべてのノードのすべてのマイクを用いて式(1)に示した複素特徴ベクトルを抽出し音源分離処理を行った結果である。「従来法（ノードごと）」では、非特許文献１に記載された従来の音源分離技術を用いて、ノードごとに式(1)に示した複素特徴ベクトルを抽出し音源分離処理を行い、各話者の分離音は話者に一番近いノードから生成した結果である。「提案法（第二実施形態）」は、上述の第二実施形態の音源分離技術を用いた結果である。

「従来法（全体）」はサンプリング周波数ずれの影響を大きく受け、ずれが大きくなるほど性能が低下していることが分かる。「従来法（ノードごと）」は、ノードごとの処理であるためサンプリング周波数ずれの影響は受けなかった。しかし、マイク数が2に留まっていることにも起因するが、全体的にSIRが低く、高い分離性能を達成することができていない。「提案法」は、サンプリング周波数ずれがない条件では「従来法（全体）」に劣るものの、サンプリング周波数ずれがある条件では従来法のいずれをも大きく上回っており、安定的に精度の良い音源分離を達成できていることがわかる。これらの結果よりこの発明の音源分離技術は様々な分散型マイクアレイ環境において精度の良い音源分離を安定的に行うことができることが確認された。

［プログラム、記録媒体］
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１複素特徴ベクトル計算部
２エネルギー特徴ベクトル計算部
３，４，５音声存在確率計算部
６フィルタリング部
４１事後確率計算手段
４２パラメータ推定手段
４３反復処理手段
５１第一存在確率計算手段
５２第二存在確率計算手段
５３事後確率計算手段
５４パラメータ推定手段
５５反復処理手段

Claims

複数の目的信号が重なり合った混合信号を１以上のマイクを含む２以上のノードからなるマイクアレイを用いて収音した観測信号から前記ノードごとのエネルギーを表すエネルギー特徴ベクトルを計算するエネルギー特徴ベクトル計算部と、
前記エネルギー特徴ベクトルに基づいて前記目的信号ごとの音声が存在する確率を示す音声存在確率を計算する音声存在確率計算部と、
前記観測信号に前記音声存在確率を乗じて前記目的信号の推定値を求めるフィルタリング部と、
を含む音源分離装置。
請求項１に記載の音源分離装置であって、
||・||は・のノルムであり、nは前記ノードの番号であり、tは時間フレームの番号であり、y(t)はt番目の時間フレームにおける前記マイクアレイの観測信号であり、y_n(t)はt番目の時間フレームにおけるn番目のノードの観測信号であり、
前記エネルギー特徴ベクトル計算部は、n=1,…,Nについて、次式によりエネルギー特徴ベクトルを計算し、

前記音声存在確率計算部は、前記エネルギー特徴ベクトルをディリクレ混合分布でモデル化して前記音声存在確率を求める
ことを特徴とする音源分離装置。
請求項１または２に記載の音源分離装置であって、
前記ノードごとに前記観測信号を正規化して複素特徴ベクトルを計算する複素特徴ベクトル計算部を含み、
前記音声存在確率計算部は、前記エネルギー特徴ベクトルに基づいて前記目的信号ごとの音声が存在する確率を示す第一音声存在確率を計算し、前記複素特徴ベクトルに基づいて前記目的信号ごとの音声が存在する確率を示す第二音声存在確率を計算し、前記第一音声存在確率と前記第二音声存在確率を統合して前記音声存在確率を求める、
ことを特徴とする音源分離装置。
請求項３に記載の音源分離装置であって、
||・||は・のノルムであり、nは前記ノードの番号であり、tは時間フレームの番号であり、y_n(t)はt番目の時間フレームにおけるn番目のノードの観測信号であり、
前記複素特徴ベクトル計算部は、次式により複素特徴ベクトルを計算し、

前記音声存在確率計算部は、前記エネルギー特徴ベクトルをディリクレ混合分布でモデル化して前記第一音声存在確率を計算し、前記複素特徴ベクトルをワトソン混合分布でモデル化して前記第二音声存在確率を計算する
ことを特徴とする音源分離装置。
エネルギー特徴ベクトル計算部が、複数の目的信号が重なり合った混合信号を１以上のマイクを含む２以上のノードからなるマイクアレイを用いて収音した観測信号から前記ノードごとのエネルギーを表すエネルギー特徴ベクトルを計算するエネルギー特徴ベクトル計算ステップと、
音声存在確率計算部が、前記エネルギー特徴ベクトルを用いて前記目的信号ごとの音声が存在する確率を示す音声存在確率を計算する音声存在確率計算ステップと、
フィルタリング部が、前記観測信号に前記音声存在確率を乗じて前記目的信号の推定値を求めるフィルタリングステップと、
を含む音源分離方法。
請求項１から４のいずれかに記載の音源分離装置としてコンピュータを機能させるためのプログラム。