JP2007264432A

JP2007264432A - 音源分離システム、エンコーダおよびデコーダ

Info

Publication number: JP2007264432A
Application number: JP2006091328A
Authority: JP
Inventors: Fumitada Itakura; 文忠板倉; Hideki Sakano; 秀樹坂野; Akiyoshi Sato; 明善佐藤; Fukuji Kawakami; 福司川上; Takao Nakatani; 隆雄中谷
Original assignee: Yamaha Corp; Meijo University
Current assignee: Yamaha Corp; Meijo University
Priority date: 2006-03-29
Filing date: 2006-03-29
Publication date: 2007-10-11

Abstract

【課題】複数の音源の音が混在している１つの音響信号から、各音源の信号を精度良く分離することを可能にする。
【解決手段】Ｎ（Ｎは自然数）個の音響信号と前記Ｎ個の音響信号の何れとも異なるＮ＋１個目の音響信号とが同一の重みで混合された第１の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析によりＮ＋１個のグループに分類し、これらＮ＋１個のグループのうちから、１のグループを選択しそのグループに属するスペクトルの振幅に１の近傍の所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を選択するグループを変えつつＮ回実行してＮ種類の擬似混合信号を生成し、第１の混合信号とＮ種類の擬似混合信号とからＮ個の音響信号を分離するデコーダを提供する。
【選択図】図３

Description

本発明は、複数の音源から出力された音が混在している音響信号から各音源の音を分離する音源分離技術に関する。

楽曲の音響信号からその楽曲の楽譜を作り出す自動採譜や、音声認識や音声認証の事前処理として雑音・残響音が混ざった音声信号からそれら雑音や残響音を除去して音声のみを抽出する際、カラオケやＭＭＯ、自動議事録作成を実用化する際の中核となる技術として音源分離技術が挙げられる。音源分離技術の中には、分離対象である音源に関する情報（例えば、音源の位置や音源の種類等、以下、音源情報）を全く必要としない手法があり、その一例としては、非特許文献１に開示された独立成分分析や、非特許文献２に開示された聴覚情景分析が挙げられる。

非特許文献１に開示された独立成分分析においては、複数のマイクロホン（マイクロホンアレイ）で収音（混合過程）（ステップ１）→各マイクロホンからの出力を分離行列（初期値はランダム）に掛けて分離信号の独立性を評価（ステップ２）→分離行列に変形を加えて分離信号間の独立性が十分になるまでステップ２を繰り返す（ステップ２´）→分離信号の中から目的信号を選出する（ステップ３）、という手順で音源分離が行われる。

一方、非特許文献２に開示された聴覚情景分析においては、同一の音源から発せられた音のシヌソイド成分については、（１）それぞれの成分は倍音関係にあること、（２）それぞれの成分は時間変化の始点が略同一であること、（３）それぞれの成分は、振幅や位相の時間変化が略同一であり、略同時に時間変化が開始すること、が非常に多くの場合に成り立っているということに着目して、音響信号のスペクトルの時間変化を分析し、それらスペクトルをグループ分けすることによって、音源分離が行われる。
［ｏｎｌｉｎｅ］、インターネット＜URL:http://www.murata.elec.waseda.ac.jp/ ~mura/lecture/ica/note＞［ｏｎｌｉｎｅ］、インターネット＜URL:http://www.kyushu-id,.ac.jp/ ~ynhome/JPN/Audutory/Book.asa.html＞

しかしながら、独立成分分析は線形演算であるため、観測信号の数が、分離対象である信号の数と同じか、それ以上でなければならない。例えば、ボーカル音と伴奏音とが所定の比率で混合されている音楽信号からボーカル音を分離する場合には、その音楽信号とは別に、上記ボーカル音と上記伴奏音とが上記音楽信号とは異なる比率で混合された信号をもう一つ用意しておく必要がある。このように、独立成分分析によれば、充分な数の観測信号を用意することができるならば音源分離を行うことが可能であるものの、観測信号の数が不充分である場合には、音源分離が極めて困難になってしまい、実用化の際には大きな問題になってしまう。一方、聴覚情景分析によれば、１つの観測信号から幾つもの音源を分離することができる可能性があるが、重なり合ってしまった信号については、それらの信号を完全に分離することは極めて難しくなってしまう。
本発明は、上記課題に鑑みて為されたものであり、複数の音源の音が混合されてなる１つの信号から、各音源の音を精度良く分離することを可能にする技術を提供することを目的としている。

上記課題を解決するために、本発明は、互いに異なるＮ（Ｎは自然数）個の音響信号と前記Ｎ個の音響信号の何れとも異なるＮ＋１個目の音響信号とを各音響信号の重みを１にして混合することにより得られる第１の混合信号を生成し出力するエンコーダと、前記Ｎ個の音響信号を前記第１の混合信号から分離して出力するデコーダと、を含む音源分離システムにおいて、前記エンコーダは、前記Ｎ個の音響信号と前記Ｎ＋１個目の音響信号とから、前記Ｎ＋１個の音響信号のうちの何れか１つの重みを１の近傍の所定の値にする一方、他のＮ個の音響信号の重みを１にして混合してなるＮ種類の混合信号とを生成する混合信号生成手段と、前記第１の混合信号と前記Ｎ種類の混合信号とに対して独立成分分析を試み、前記Ｎ個の音響信号の分離が可能であるか否か判定する判定手段と、前記判定手段により分離可能と判定された場合に、前記第１の混合信号と前記所定の値とを出力する出力手段とを有し、前記デコーダは、前記エンコーダから出力される前記第１の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析により解析してＮ＋１個のグループに分類する分類手段と、前記分類手段によりＮ＋１個に分類されたグループのうちから、１のグループを選択し前記選択したグループに属するスペクトルの振幅に前記所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を前記選択するグループを変えつつＮ回実行してＮ種類の擬似混合信号を生成する擬似混合信号生成手段と、前記第１の混合信号と前記Ｎ種類の擬似混合信号とから前記Ｎ個の音響信号を分離する分離手段とを有することを特徴とする音源分離システム、を提供する。

より好ましい態様においては、前記分離手段は、前記第１の混合信号と前記Ｎ種類の擬似混合信号とに対して独立成分分析を施して前記Ｎ個の音響信号を分離することを特徴としている。

また、別の好ましい態様においては、前記分離手段は、（Ｎ＋１）次元の正方行列であって、Ｎ＋１個の対角成分のうちのＮ個の値が前記所定の値であり、残りの１つの対角成分と対角成分以外の成分の値が１である正方行列の逆行列を分離行列として、前記第１の混合信号と前記Ｎ種類の擬似混合信号とから前記Ｎ個の音響信号を分離することを特徴としている。

また、上記課題を解決するために、本発明は、互いに異なるＮ（Ｎは自然数）個の音響信号と前記Ｎ個の音響信号の何れとも異なるＮ＋１個目の音響信号とから、前記Ｎ＋１個の音響信号の全てについて重みを１にして混合し第１の混合信号を生成する一方、前記Ｎ＋１個の音響信号のうちの何れか１つの重みを１の近傍の所定の値にし、他のＮ個の音響信号の重みを１にして混合することにより得られるＮ種類の混合信号とを生成する混合信号生成手段と、前記第１の混合信号と前記Ｎ種類の混合信号とに対して独立成分分析を試み、前記Ｎ個の音響信号の分離が可能であるか否か判定する判定手段と、前記判定手段により分離可能と判定された場合に、前記第１の混合信号と前記所定の値とを出力する出力手段とを有することを特徴とするエンコーダを提供する。
なお、本発明の別の態様においては、コンピュータ装置を、互いに異なるＮ（Ｎは自然数）個の音響信号と前記Ｎ個の音響信号の何れとも異なるＮ＋１個目の音響信号とから、前記Ｎ＋１個の音響信号の全てについて重みを１にして混合し第１の混合信号を生成する一方、前記Ｎ＋１個の音響信号のうちの何れか１つの重みを１の近傍の所定の値にし、他のＮ個の音響信号の重みを１にして混合することにより得られるＮ種類の混合信号とを生成する混合信号生成手段と、前記第１の混合信号と前記Ｎ種類の混合信号とに対して独立成分分析を試み、前記Ｎ個の音響信号の分離が可能であるか否か判定する判定手段と、前記判定手段により分離可能と判定された場合に、前記第１の混合信号と前記所定の値とを出力する出力手段として機能させるプログラムを提供するとしても良い。

また、上記課題を解決するために、本発明は、互いに異なるＮ（Ｎは自然数）個の音響信号と前記Ｎ個の音響信号の何れとも異なるＮ＋１個目の音響信号とを各音響信号の重みを１にして混合することにより得られる第１の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析により解析してＮ＋１個のグループに分類する分類手段と、前記分類手段によりＮ＋１個に分類されたグループのうちから、１のグループを選択し前記選択したグループに属するスペクトルの振幅に１の近傍の所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を前記選択するグループを変えつつＮ回実行してＮ種類の擬似混合信号を生成する擬似混合信号生成手段と、前記第１の混合信号と前記Ｎ種類の擬似混合信号とから前記Ｎ個の音響信号を分離する分離手段と、を有することを特徴とするデコーダ、を提供する。
なお、本発明の別の態様においては、コンピュータ装置を、互いに異なるＮ（Ｎは自然数）個の音響信号と前記Ｎ個の音響信号の何れとも異なるＮ＋１個目の音響信号とを各音響信号の重みを１にして混合することにより得られる第１の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析により解析してＮ＋１個のグループに分類する分類手段と、前記分類手段によりＮ＋１個に分類されたグループのうちから、１のグループを選択し前記選択したグループに属するスペクトルの振幅に１の近傍の所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を前記選択するグループを変えつつＮ回実行してＮ種類の擬似混合信号を生成する擬似混合信号生成手段と、前記第１の混合信号と前記Ｎ種類の擬似混合信号とから前記Ｎ個の音響信号を分離する分離手段として機能させるプログラムを提供するとしても良い。

本発明によれば、複数の音源の音が混合されてなる１つの信号から、各音源の音を精度良く分離することが可能になる、といった効果を奏する。

以下、図面を参照しつつ本発明の１実施形態について説明する。
（Ａ：構成）
（Ａ−１：音源分離システム１０の構成）
図１は、本発明の１実施形態に係る音源分離システム１０の構成例を示すブロック図である。図１に示すように、この音源分離システム１０は、例えばインターネットなどの通信網１３０に接続されているエンコーダ１１０と、同じく通信網１３０に接続されているデコーダ１２０とを含んでいる。エンコーダ１１０とデコーダ１２０は、通信網１３０を介して通信することができるように構成されている。なお、本実施形態では、通信網１３０がインターネットである場合について説明するが、エンコーダ１１０とデコーダ１２０との通信を仲介することが可能な通信網であればどのような通信網であっても良い。

図１に示す音源分離システム１０においては、エンコーダ１１０には、互いに異なる２種類の音源ＡおよびＢ（何れも、図示省略）の各々から音響信号が供給される。なお、以下では、音源Ａからは音響信号Ａ(t)が供給され、音源Ｂからは音響信号Ｂ(t)が供給されるものとする。図１のエンコーダ１１０は、この両者を１対１の音量比率で混合して混合信号Ｘ₁(t)を生成することができるように構成されている。

このため、例えば、上記音響信号Ａ(t)が、ある楽曲の伴奏音であり、上記音響信号Ｂ(t)がその楽曲の歌唱音である場合には、エンコーダ１１０から出力される混合信号Ｘ₁(t)は、その楽曲の伴奏付きの歌唱音を表すことになる。このエンコーダ１１０は、混合信号Ｘ_１(t)と、この混合信号Ｘ_１(t)から音響信号Ａ(t)や音響信号Ｂ(t)を分離する際に使用される分離パラメータαと、を通信網１３０を介してデコーダ１２０へ伝送する。

一方、デコーダ１２０は、通信網１３０を介してエンコーダ１１０から伝送されてくる混合信号Ｘ_１(t)と分離パラメータαとを受信し、この分離パラメータαを用いて混合信号Ｘ_１(t)から音響信号Ａ(t)や音響信号Ｂ(t)を分離して出力することができるように構成されている。以下、本発明に特徴的なエンコーダ１１０およびデコーダ１２０を中心に説明する。

（Ａ−２：エンコーダ１１０の構成）
図２は、エンコーダ１１０のハードウェア構成を示すブロック図である。
図２に示すように、エンコーダ１１０は、独立性評価器１１０ａと、混合器１１０ｂと、分離器１１０ｃと、信号比較器１１０ｄと、を有している。

独立性評価器１１０ａは、エンコーダ１１０へ入力される音響信号Ａ(t)とＢ(t)とが「独立成分分析（以下、ＩＣＡ）での独立性」を満たしているか否かを判定するためのものである。ここで「ＩＣＡでの独立性」（以下、単に「独立性」と呼ぶ）を満たしているとは、音響信号Ａ(t)とＢ(t)とを重ね合わせて得られる信号について、例えば、予め定められた複数の周波数帯域の各々の帯域成分の出現頻度を所定の期間に渡って所定の時間間隔で計測してヒストグラム化した場合に、そのヒストグラムについて４次のキュムラントを算出することによって判定することが可能である。独立性が満たされない場合は4次以降のキュムラントが“０”になるからである。

混合器１１０ｂは、分離パラメータαに所定の初期値（本実施形態では、０．９）を設定し、以下の数１に示す混合行列Ｍを生成する。そして、独立性評価器１１０ａから引き渡された音響信号Ａ(t)と音響信号Ｂ(t)に混合行列Ｍを作用させ、音響信号Ａ(t)と音響信号Ｂ(t)とを１対１の音量比率で合成した混合信号Ｘ₁(t)と、１対αの音量比率で合成した混合信号Ｘ_２(t)を生成するものである。この混合器１１０ｂは、生成した２つの混合信号を分離器１１０ｃへ引き渡す。

なお、本実施形態では、分離パラメータαの初期値が“０．９”である場合について説明するが、“１”以外の値であれば、どのような値であっても良い。但し、分離パラメータαの値が“１”に近すぎると（例えば、０．９９９９…など）、後述する独立成分分析を失敗する可能性が高くなる。逆に、分離パラメータαの値が大きすぎたり（例えば、１０００）、小さすぎたり（例えば、０．０００１）することも好ましくない。何故ならば、αの値が１に比較して大きすぎたり、小さすぎたりすると、計算装置で演算させる時に二つの信号間の振幅差が大きすぎて、演算誤差が入りやすくなり、結果として信号自体に変形が生じてしまう事になりやすいからである。

このため、上記分離パラメータαの値は、独立成分分析ができる範囲で１になるべく近い値である０．１〜０．９、または、１．１〜１．９程度の値であることが望ましい。この混合器１１０ｂは、独立成分分析に失敗したことを示す制御信号を、後述する分離器１１０ｃや信号比較器１１０ｄから受け取ると、分離パラメータαを予め定められた値（例えば、０．１や０．０５など）分だけ更新して再度、混合信号Ｘ_１(t)および混合信号Ｘ_２(t)を生成し、分離器１１０ｃへ引き渡す。

分離器１１０ｃは、混合器１１０ｂから引き渡された混合信号Ｘ_１(t)とＸ_２(t)とに対してＩＣＡ（Independent Component Analysis）を施し、両信号から音響信号Ａ(t)とＢ(t)とを分離することを試みるものである。この分離器１１０ｃは、ＩＣＡによる両信号の分離に成功すると、ＩＣＡの結果得られた復元信号Ａ^´(t)およびＢ^´(t)を信号比較器１１０ｄへ引き渡す。逆に、独立成分分析に失敗すると上記所定の制御信号を混合器１１０ｂへ送る。

信号比較器１１０ｄは、分離器１１０ｃから引き渡された復元信号Ａ^´(t)およびＢ^´(t)の各々を、オリジナルの音響信号Ａ(t)およびオリジナルの音響信号Ｂ(t)の各々と比較し、「Ａ^´(t)とＡ(t)とが一致し、かつ、Ｂ^´(t)とＢ(t)とが一致する」場合、または、「Ａ^´(t)とＢ(t)とが一致し、かつ、Ｂ´(t)とＡ(t)とが一致する」場合に、分離に成功したと判定する。この信号比較器１１０ｄは、分離に成功したと判定した場合には、混合信号Ｘ_１(t)と分離パラメータαとを通信網１３０経由でデコーダ１２０へ出力し、逆に、分離に成功しなかったと判定した場合には、上記制御信号を混合器１１０ｂへ送る。
以上がエンコーダ１１０の構成である。次に、デコーダ１２０の構成について説明する。

（Ａ−３：デコーダ１２０の構成）
図３は、デコーダ１２０の構成例を示すブロック図である。
図３に示すように、デコーダ１２０は、周波数分析器１２０ａと、分離器１２０ｂと、独立性評価器１２０ｃとを有している。
周波数分析器１２０ａは、エンコーダ１１０から出力された混合信号Ｘ_１(t)と分離パラメータαとを受取り、分離パラメータαを用いて混合行列Ｍの逆行列である分離行列Ｍ^−１を生成する一方、混合信号Ｘ_１(t)に対して高速フーリエ変換（以下、「ＦＦＴ」と表記）などの周波数解析を施す。そして、周波数分析器１２０ａは、混合信号Ｘ_１(t)についての周波数解析の結果に対して聴覚情景分析を行うことによって、混合信号Ｘ_１(t)に混在している各音響信号のスペクトルを上記時間周波数平面内で音源毎にグループ分けする。周波数分析器１２０ａは、それらグループのうちの１つに属するスペクトルのみについて振幅値をα倍した後に、混合信号Ｘ_１(t)に混在している各音響信号のスペクトルに逆フーリエ変換を施すことによって、擬似混合信号Ｘ₂ ^´(t)を生成する。そして、周波数分析器１２０ａは、分離行列Ｍ^−１、混合信号Ｘ_１(t)および擬似混合信号Ｘ₂ ^´(t)を分離器１２０ｂへ引き渡す。

分離器１２０ｂは、混合信号Ｘ_１(t)および擬似混合信号Ｘ_２(t)に対して分離行列Ｍ^−１による行列演算を行い、復元信号Ａ^´(t)と復元信号Ｂ^´(t)とを生成するものである。この分離器１２０ｂは、上記のようにして生成した復元信号Ａ´(t)とＢ´(t)とを独立性評価器１２０ｃへ引き渡し、両者の独立性を評価させる。なお、復元信号Ａ^´(t)とＢ^´(t)について独立性を評価する理由は、擬似混合信号Ｘ₂´(t)が混合信号Ｘ_２(t)に一致するとは限らず、復元信号Ａ^´(t)と復元信号Ｂ^´(t)とが独立性を満たしているとは限らないからである。

独立性評価器１２０ｃは、分離器１２０ｂから引き渡された復元信号Ａ^´(t)とＢ^´(t)の独立性を、前述した独立性評価器１１０ａと同一の手法で評価するものである。この独立性評価器１２０ｃは、復元信号Ａ^´(t)とＢ^´(t)とが独立である旨の評価結果が得られた場合には、復元信号Ａ^´(t)を音響信号Ａ(t)として出力するとともに、復元信号Ｂ´(t)を音響信号Ｂ(t)として出力する。逆に、復元信号Ａ´(t)とＢ´(t)とが独立ではない旨の評価結果が得られた場合には、独立性評価器１２０ｃは、所定の制御信号を周波数分析器１２０ａへ出力する。この制御信号を受け取ると、周波数分析器１２０ａは、擬似混合信号Ｘ₂ ^´(t)を生成する際に選択したグループとは異なるグループを選択し、そのグループに属するスペクトルの振幅値をα倍して、新たな擬似混合信号を生成する。
以上がデコーダ１２０の構成である。

（Ｂ：動作）
次いで、エンコーダ１１０およびデコーダ１２０が行う動作のうち、その特徴を顕著に示している動作についてのみ図面を参照しつつ説明する。
図４は、エンコーダ１１０が実行する混合信号出力処理の流れを示すフローチャートである。エンコーダ１１０の外部から音響信号Ａ(t)とＢ(t)とが独立性評価器１１０ａへ入力されると、独立性評価器１１０ａは、音響信号Ａ(t)とＢ(t)が互いに独立性であるか否かを判定する（ステップＳＡ１００）。具体的には、独立性評価器１１０ａは、音響信号Ａ(t)とＢ(t)について前述したヒストグラムを作成し、そのヒストグラムについて４次のキュムラントを算出する。そして、このキュムラントの値を所定の閾値と比較し、その閾値よりも大きい場合に、音響信号Ａ(t)とＢ(t)は独立であると判定する。以下に説明する動作例では、上記キュムラントの値が上記閾値に比較して充分大きくなる場合について説明する。

ステップＳＡ１００の判定結果が“Ｎｏ”である場合には、独立性評価器１１０ａは、独立性を確保するために、音響信号Ｂ(t)に対して位相回転処理（ステップＳＡ１７０）を施し、再度、ステップＳＡ１００の処理を再度実行する。なお、本実施形態では、ステップＳＡ１００の判定結果が“Ｎｏ”である場合には、音響信号Ｂ(t)に対して位相回転処理を施し、再度、ステップＳＡ１００以降の処理を実行する場合について説明した。しかしながら、混合対象である音響信号を選び直させるようにしても勿論良い。
逆に、ステップＳＡ１００の判定結果が“Ｙｅｓ”である場合には、独立性評価器１１０ａは、音響信号Ａ(t)とＢ(t)を混合器１１０ｂへ供給する。

独立性評価器１１０ａから音響信号Ａ(t)とＢ(t)を供給された混合器１１０ｂは、まず、分離パラメータαに所定の初期値（本実施形態では、“０．９”）を設定する（ステップＳＡ１１０）。次いで、混合器１１０ｂは、分離パラメータαを用いて（数１）に示す混合行列Ｍを生成し、この混合行列Ｍを用いて混合信号Ｘ_１(t)とＸ_２(t)を生成する（ステップＳＡ１２０）。そして、混合器１１０ｂは、ステップＳＡ１２０にて生成した混合行列Ｍ、混合信号Ｘ_１(t)およびＸ_２(t)を分離器１１０ｃへ入力する。

ステップＳＡ１２０に後続して実行されるステップＳＡ１３０においては、分離器１１０ｃは、ステップＳＡ１２０にて生成した混合信号Ｘ₁(t)および混合信号Ｘ_２(t)に対して独立成分分析を行い、これら２つの混合信号Ｘ_１(t)およびＸ_２(t)から音響信号Ａ(t)およびＢ(t)を分離することができるか否かを判定する。具体的には、分離器１１０ｃは、ＩＣＡにより混合信号Ｘ_１(t)およびＸ_２(t)から分離行列Ｍ^-1（すなわち、混合行列Ｍの逆行列）を求め、分離行列が求まったらＩＣＡにより分離可能と判定する。なお、以下に説明する動作例では、ＩＣＡにより分離行列Ｍ^-1が求まった場合について説明する。

ステップＳＡ１３０の判定結果が“Ｎｏ”である場合には、分離器１１０ｃは、前述した制御信号を混合器１１０ｂへ送る。混合器１１０ｂは、この制御信号を受信すると、分離パラメータαを所定の値だけ小さい値に更新し（ステップＳＡ１６０）、ステップＳＡ１２０の処理を再度実行する。また、αの初期値に１．１など１よりも大きい値を用いた場合には、αの更新は所定の値大きくすることになる。
逆に、ステップＳＡ１３０の判定結果が“Ｙｅｓ”である場合には、分離器１１０ｃは、ＩＣＡにより求まった分離行列Ｍ^-1を混合信号Ｘ_１(t)およびＸ_２(t)に作用させ、その結果得られる復元信号Ａ^´(t)とＢ^´(t)を信号比較器１１０ｄへ入力する。本動作例では、ＩＣＡにより分離行列Ｍ^-1が求まるのであるから、ステップＳＡ１３０の判定結果は“Ｙｅｓ”になり、復元信号Ａ^´(t)とＢ^´(t)が分離器１１０ｃから信号比較器１１０ｄへ引き渡される。

分離器１１０ｃから引き渡された復元信号Ａ^´(t)およびＢ^´(t)を受け取ると、信号比較器１１０ｄは、復元信号Ａ^´(t)およびＢ^´(t)がオリジナルの音響信号Ａ(t)およびＢ(t)と一致するか否かを判定し（ステップＳＡ１４０）、その判定結果が“Ｎｏ”であれば、所定の制御信号を混合器１１０ｂへ送り、逆に、その判定結果が“Ｙｅｓ”であれば、混合信号Ｘ_１(t)とその時点の分離パラメータαとを通信網１３０へ出力して（ステップＳＡ１５０）、本混合信号出力処理を終了する。

以上に説明した混合信号出力処理が実行される結果、エンコーダ１１０から混合信号Ｘ_１(t)と分離パラメーラαとがデコーダ１２０へ送信される。このようにして送信された混合信号Ｘ_１(t)と分離パラメータαとは通信網１３０経由でデコーダ１２０へ到達し、このデコーダ１２０によって受信される。以下、混合信号Ｘ１(t)から音響信号Ａ(t)や音響信号Ｂ(t)を分離する際にデコーダ１２０が行う動作について説明する。

図５は、混合信号Ｘ１(t)から音響信号Ａ(t)や音響信号Ｂ(t)を分離する際にデコーダ１２０が行う信号分離処理の流れを示すフローチャートである。
周波数分析器１２０ａは、混合信号Ｘ_１(t)と分離パラメータαとを受け取ると、分離パラメータαから分離行列Ｍ^-1を生成するとともに、混合信号Ｘ_１(t)にＦＦＴを施す（ステップＳＢ１００）。周波数分析器１２０ａは、ステップＳＢ１００にてＦＦＴを行うことによって得られる各スペクトルの時間変化を以下の手順で時間周波数平面にプロットする。
（１）各時刻で周波数の頂点データ（周波数、振幅値、位相）を抽出する。
（２）頂点データの時間的な関係から、１つの線（シヌソイド成分）に属していると推測されるものを線データとしてまとめる。

次いで、周波数分析器１２０ａは、時間周波数平面へ展開した分析結果（すなわち、時間周波数平面にプロットされる各シヌソイド成分）を聴覚情景分析の手法により音源毎にグループ分けする（ステップＳＢ１１０）。より詳細に説明すると、聴覚情景分析の考え方によれば、例えば１つの発音体（楽器など）から発せられる音のシヌソイド成分に関しては、非常に多くの場合に以下に述べる３つの事項が成り立っている。
（ａ）それぞれの成分は、倍音関係にある。
（ｂ）それぞれの成分は、略同時刻に開始する。
（ｃ）それぞれの成分は、同じような振幅変化、位相変化する。
つまり、上記（ａ）〜（ｃ）の法則にしたがう成分は１つの発音体から発せられた成分である可能性が非常に高い。そこで、周波数分析器１２０は、倍音関係にあり、かつ、開始時刻の差が所定の閾値より小さく、かつ、振幅変化の乖離度や位相変化の乖離度が所定の閾値よりも小さいシヌソイド成分同士を１つのグループに分類することによって、各シヌソイド成分は音源毎にグループ分けされることになる。例えば、図５に示すように、６本のシヌソイド成分が時間周波数平面にプロットされる場合には、聴覚情景分析の上記各法則にしたがって分類すると、これら６本のシヌソイド成分は、２つのグループ（“ａ”、“ｂ”および“ｃ”からなる第１のグループと、“ｄ”、“ｅ”および“ｆ”からなる第２のグループと）とに分類されることになる。

次いで、周波数分析器１２０ａは、擬似混合信号Ｘ₂ ^´(t)を生成する（ステップＳＢ１２０）。具体的には、周波数分析器１２０ａは、ステップＳＢ１１０にてグループ分けしたうちの何れか１つのグループのスペクトルについて振幅値をα倍した後に、逆フーリエ変換を施す。これにより、擬似混合信号Ｘ₂ ^´(t)が得られることになる。周波数分析器１２０ａは、このようにして生成された擬似混合信号Ｘ₂ ^´(t)、混合信号Ｘ_１(t)および分離行列Ｍ^-1を分離器１２０ｂへ引き渡す。

擬似混合信号Ｘ₂ ^´(t)、混合信号Ｘ_１(t)および分離行列Ｍ^-1ｗを引き渡された分離器１２０ｂは、擬似混合信号Ｘ₂ ^´(t)および混合信号Ｘ_１(t)に分離行列Ｍ^-1を作用させ、復元信号Ａ´(t)とＢ´(t)を生成する（ステップＳＢ１３０）。そして、分離器１２０ｂは、このようにして得られた復元信号Ａ´(t)とＢ´(t)を独立性評価器１２０ｃへ引き渡す。

復元信号Ａ´(t)とＢ´(t)を引き渡された独立性評価器１２０ｃは、その復元信号Ａ´(t)とＢ´(t)が独立であるか否かを判定し（ステップＳＢ１４０）、その判定結果が“Ｎｏ”である場合には、周波数分析器１２０ａに前述した制御信号を送る。この制御信号を受け取った周波数分析器１２０ａは、擬似混合信号を生成し直して（ステップＳＢ１２０）、ステップＳＢ１３０以降の処理を実行する。なお、復元信号Ａ´(t)とＢ´(t)について独立性評価器１２０ｃが独立性の評価を行う理由は、擬似混合信号を生成する際に振幅値をα倍にするグループについては、その選択の際に任意性があり、この任意性に起因して復元信号Ａ´(t)とＢ´(t)が独立性を満たさないことが起こり得るからである。

ステップＳＡ１４０の判定結果が“Ｙｅｓ”である場合には、独立性評価器１２０ｃは。復元信号Ａ´(t)を音響信号Ａ(t)として出力する一方、復元信号Ａ´(t)を音響信号Ａ(t)として出力し（ステップＳＢ１５０）、本信号分離処理を終了する。
以上に説明したように、本実施形態に係る音源分離システム１０においては、２つの音源の音が１対１の比率で混合されている１つの音響信号から、各音源の信号を精度良く分離することが可能になる、といった効果を奏する。

（Ｃ：変形）
以上、本発明の１実施形態について説明したが、係る実施形態に以下に述べるような変形を加えても良いことは勿論である。
（１）上述した実施形態では、デコーダから引き渡された分離パラメータを用いて分離行列を生成し、この分離行列を混合信号Ｘ_１(t)と擬似混合信号Ｘ₂ ^´(t)とに作用させることによって復元信号を分離する場合について説明した。しかしながら、混合信号Ｘ_１(t)と擬似混合信号Ｘ₂ ^´(t)とに独立成分分析を施すことによって復元信号を分離するとしても良いことは勿論である。

（２）上述した実施形態では、混合信号Ｘ_１(t)と分離パラメータαとを通信網１３０経由でエンコーダ１１０からデコーダ１２０へ伝送する場合について説明した。しかしながら、エンコーダ１１０にＣＤ（Compact Disk）などの記録媒体へのデータ書き込み手段（例えば、ＣＤ−Ｒドライブ）を設ける一方、デコーダ１２０には、記録媒体に記録されているデータを読み取る読み取り手段（例えば、ＣＤドライブ）を設け、混合信号Ｘ_１(t)と分離パラメータαと上記データ書き込み手段によって上記記録媒体へ書き込む一方、そのような記録媒体に記録されている混合信号Ｘ_１(t)や分離パラメータαを上記データ読み取り手段によって読み取らせることによって、混合信号Ｘ_１(t)と分離パラメータαとがエンコーダ１１０からデコーダ１２０へ伝達されるようにしても良い。

（３）上述した実施形態では、２種類の音響信号の混合および分離を行う場合について説明したが、３種類以上の音響信号の混合および分離を行うことも勿論可能である。例えば、互いに独立なＮ（３以上の自然数）個の音響信号Ａ_ｉ(t)とこれらＮ個の音響信号の何れとも独立な音響信号Ｂ(t)とについて混合および分離を行う場合には、以下の数２に示すように、（Ｎ＋１）行（Ｎ＋１）列の混合行列（および、その逆行列である分離行列）を用いるようにすれば良く、処理手順は２種類の音響信号の混合および分離を行う場合の処理手順と同一である。

（４）上述した実施形態では、エンコーダ側では、音響信号Ａ(t)とＢ(t)の独立性の検証、および、混合信号Ｘ_１(t)と混合信号Ｘ_２(t)とから音響信号Ａ(t)とＢ(t)とを分離可能であるかの検証のみが行われ、実際の分離処理は全てデコーダ側で行われる。混合対象である音響信号の独立性の検証や分離可能であることの検証をエンコード側で行う理由は、オリジナルの音響信号をデコード側で確実に分離できることを担保するためである。換言すれば、混合対象の独立性が担保されている状況下では、エンコード側の処理は必ずしも必要な訳ではない。このことに着目して、本発明の係るデコーダを利用して、ピアノやギター、フルートなどの複数種類の楽器で合奏された楽曲の音響信号から、上記各楽器の何れかの演奏音を消去して再生する演奏装置を構成することも可能である。

このようなことは、上記楽曲の音響信号にフーリエ解析を施した後に、聴覚情景分析を行って、フーリエ解析により得られた各スペクトルを音源（楽器）毎に分類し、演奏音を消去すべきことを指定された楽器のスペクトルの振幅値に“０”を乗算した後に各楽器のスペクトルに逆フーリエ変換を施して擬似混合信号を生成することにより実現される。なお、時間周波数平面において、何れのグループが、演奏音を消去すべきことを指定された楽器に対応しているのかを特定することを容易にするため、各楽器の演奏開始タイミングとその楽器の名称などその楽器を一意に識別する識別子とを対応付けて上記デコーダに記憶させておけば、演奏音を消去すべき楽器が名称で指定された場合であっても、上記データを参照することによってその楽器の演奏開始タイミングを把握することができるので、その演奏開始タイミングに該当するタイミングで演奏が開始されたグループを時間周波数平面上で特定するようすれば良い。

（５）上述した実施形態では、各々固有の機能を担っているハードウェアモジュール（独立性評価器１１０ａ、混合器１１０ｂ、分離器１１０ｃおよび信号比較器１１０ｄ）を組み合わせて本発明に係るエンコーダを実現する場合について説明した。しかしながら、ＣＰＵ（Central Processing Unit）を図２に示すフローチャートにしたがって作動させるプログラム（以下、エンコードプログラム）を一般的なコンピュータ装置へインストールし、そのエンコードプログラムにしたがって上記ＣＰＵを作動させることによって、そのコンピュータ装置にエンコーダ１１０と同一の機能を付与するようにしても勿論良い。同様に、ＣＰＵを図３に示すフローチャートにしたがって作動させるプログラム（以下、デコードプログラム）を一般的なコンピュータ装置へインストールし、そのデコードプログラムにしたがって上記ＣＰＵを作動させることによって、そのコンピュータ装置にデコーダ１２０と同一の機能を付与するようにしても勿論良い。なお、上記エンコードプログラムやデコードプログラムを配布する際には、例えば、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory）などのコンピュータ装置読み取り可能な記録媒体にそれらプログラムを書き込んで配布するとしても良く、また、インターネットなどの電気通信回線を介したダウンロードにより配布するとしても良い。

本発明の１実施形態に係る音源分離システム１０の構成例を示すブロック図である。同エンコーダ１１０の構成例を示すブロック図である。同デコーダ１２０の構成例を示すブロック図である。同エンコーダ１１０にて実行される混合処理の流れを示すフローチャートである。同デコーダ１２０にて実行される分離処理の流れを示すフローチャートである。聴覚情景分析を説明するための図である。

符号の説明

１１０…エンコーダ、１１０ａ…独立性評価器、１１０ｂ…混合器、１１０ｃ…分離器、１１０ｄ…信号比較器、１２０…デコーダ、１２０ａ…周波数分析器、１２０ｂ…分離器、１２０ｃ…独立性評価器。

Claims

互いに異なるＮ（Ｎは自然数）個の音響信号と前記Ｎ個の音響信号の何れとも異なるＮ＋１個目の音響信号とを各音響信号の重みを１にして混合することにより得られる第１の混合信号を生成し出力するエンコーダと、前記Ｎ個の音響信号を前記第１の混合信号から分離して出力するデコーダと、を含む音源分離システムにおいて、
前記エンコーダは、
前記Ｎ個の音響信号と前記Ｎ＋１個目の音響信号とから、前記Ｎ＋１個の音響信号のうちの何れか１つの重みを１の近傍の所定の値にする一方、他のＮ個の音響信号の重みを１にして混合することにより得られるＮ種類の混合信号とを生成する混合信号生成手段と、
前記第１の混合信号と前記Ｎ種類の混合信号とに対して独立成分分析を試み、前記Ｎ個の音響信号の分離が可能であるか否か判定する判定手段と、
前記判定手段により分離可能と判定された場合に、前記第１の混合信号と前記所定の値とを出力する出力手段と、を有し
前記デコーダは、
前記エンコーダから出力される前記第１の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析により解析してＮ＋１個のグループに分類する分類手段と、
前記分類手段によりＮ＋１個に分類されたグループのうちから、１のグループを選択し前記選択したグループに属するスペクトルの振幅に前記所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を前記選択するグループを変えつつＮ回実行してＮ種類の擬似混合信号を生成する擬似混合信号生成手段と、
前記第１の混合信号と前記Ｎ種類の擬似混合信号とから前記Ｎ個の音響信号を分離する分離手段と、を有する
ことを特徴とする音源分離システム。
前記分離手段は、
前記第１の混合信号と前記Ｎ種類の擬似混合信号とに対して独立成分分析を施して前記Ｎ個の音響信号を分離する
ことを特徴とする請求項１に記載の音源分離システム。
前記分離手段は、
（Ｎ＋１）次元の正方行列であって、Ｎ＋１個の対角成分のうちのＮ個の値が前記所定の値であり、残りの１つの対角成分と対角成分以外の成分の値が１である正方行列の逆行列を分離行列として、前記第１の混合信号と前記Ｎ種類の擬似混合信号とから前記Ｎ個の音響信号を分離する
ことを特徴とする請求項１に記載の音源分離システム。
互いに異なるＮ（Ｎは自然数）個の音響信号と前記Ｎ個の音響信号の何れとも異なるＮ＋１個目の音響信号とから、前記Ｎ＋１個の音響信号の全てについて重みを１にして混合し第１の混合信号を生成する一方、前記Ｎ＋１個の音響信号のうちの何れか１つの重みを１の近傍の所定の値にし、他のＮ個の音響信号の重みを１にして混合することにより得られるＮ種類の混合信号とを生成する混合信号生成手段と、
前記第１の混合信号と前記Ｎ種類の混合信号とに対して独立成分分析を試み、前記Ｎ個の音響信号の分離が可能であるか否か判定する判定手段と、
前記判定手段により分離可能と判定された場合に、前記第１の混合信号と前記所定の値とを出力する出力手段と
を有することを特徴とするエンコーダ。
互いに異なるＮ（Ｎは自然数）個の音響信号と前記Ｎ個の音響信号の何れとも異なるＮ＋１個目の音響信号とを各音響信号の重みを１にして混合することにより得られる第１の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析により解析してＮ＋１個のグループに分類する分類手段と、
前記分類手段によりＮ＋１個に分類されたグループのうちから、１のグループを選択し前記選択したグループに属するスペクトルの振幅に１の近傍の所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を前記選択するグループを変えつつＮ回実行してＮ種類の擬似混合信号を生成する擬似混合信号生成手段と、
前記第１の混合信号と前記Ｎ種類の擬似混合信号とから前記Ｎ個の音響信号を分離する分離手段と、
を有することを特徴とするデコーダ。