JP2007264432A - 音源分離システム、エンコーダおよびデコーダ - Google Patents
音源分離システム、エンコーダおよびデコーダ Download PDFInfo
- Publication number
- JP2007264432A JP2007264432A JP2006091328A JP2006091328A JP2007264432A JP 2007264432 A JP2007264432 A JP 2007264432A JP 2006091328 A JP2006091328 A JP 2006091328A JP 2006091328 A JP2006091328 A JP 2006091328A JP 2007264432 A JP2007264432 A JP 2007264432A
- Authority
- JP
- Japan
- Prior art keywords
- mixed
- signal
- signals
- acoustic signals
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
Abstract
【課題】複数の音源の音が混在している1つの音響信号から、各音源の信号を精度良く分離することを可能にする。
【解決手段】N(Nは自然数)個の音響信号と前記N個の音響信号の何れとも異なるN+1個目の音響信号とが同一の重みで混合された第1の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析によりN+1個のグループに分類し、これらN+1個のグループのうちから、1のグループを選択しそのグループに属するスペクトルの振幅に1の近傍の所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を選択するグループを変えつつN回実行してN種類の擬似混合信号を生成し、第1の混合信号とN種類の擬似混合信号とからN個の音響信号を分離するデコーダを提供する。
【選択図】図3
【解決手段】N(Nは自然数)個の音響信号と前記N個の音響信号の何れとも異なるN+1個目の音響信号とが同一の重みで混合された第1の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析によりN+1個のグループに分類し、これらN+1個のグループのうちから、1のグループを選択しそのグループに属するスペクトルの振幅に1の近傍の所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を選択するグループを変えつつN回実行してN種類の擬似混合信号を生成し、第1の混合信号とN種類の擬似混合信号とからN個の音響信号を分離するデコーダを提供する。
【選択図】図3
Description
本発明は、複数の音源から出力された音が混在している音響信号から各音源の音を分離する音源分離技術に関する。
楽曲の音響信号からその楽曲の楽譜を作り出す自動採譜や、音声認識や音声認証の事前処理として雑音・残響音が混ざった音声信号からそれら雑音や残響音を除去して音声のみを抽出する際、カラオケやMMO、自動議事録作成を実用化する際の中核となる技術として音源分離技術が挙げられる。音源分離技術の中には、分離対象である音源に関する情報(例えば、音源の位置や音源の種類等、以下、音源情報)を全く必要としない手法があり、その一例としては、非特許文献1に開示された独立成分分析や、非特許文献2に開示された聴覚情景分析が挙げられる。
非特許文献1に開示された独立成分分析においては、複数のマイクロホン(マイクロホンアレイ)で収音(混合過程)(ステップ1)→各マイクロホンからの出力を分離行列(初期値はランダム)に掛けて分離信号の独立性を評価 (ステップ2)→分離行列に変形を加えて分離信号間の独立性が十分になるまでステップ2を繰り返す(ステップ2´)→分離信号の中から目的信号を選出する(ステップ3)、という手順で音源分離が行われる。
一方、非特許文献2に開示された聴覚情景分析においては、同一の音源から発せられた音のシヌソイド成分については、(1)それぞれの成分は倍音関係にあること、(2)それぞれの成分は時間変化の始点が略同一であること、(3)それぞれの成分は、振幅や位相の時間変化が略同一であり、略同時に時間変化が開始すること、が非常に多くの場合に成り立っているということに着目して、音響信号のスペクトルの時間変化を分析し、それらスペクトルをグループ分けすることによって、音源分離が行われる。
[online]、 インターネット<URL:http://www.murata.elec.waseda.ac.jp/ ~mura/lecture/ica/note> [online]、 インターネット<URL:http://www.kyushu-id,.ac.jp/ ~ynhome/JPN/Audutory/Book.asa.html>
[online]、 インターネット<URL:http://www.murata.elec.waseda.ac.jp/ ~mura/lecture/ica/note> [online]、 インターネット<URL:http://www.kyushu-id,.ac.jp/ ~ynhome/JPN/Audutory/Book.asa.html>
しかしながら、独立成分分析は線形演算であるため、観測信号の数が、分離対象である信号の数と同じか、それ以上でなければならない。例えば、ボーカル音と伴奏音とが所定の比率で混合されている音楽信号からボーカル音を分離する場合には、その音楽信号とは別に、上記ボーカル音と上記伴奏音とが上記音楽信号とは異なる比率で混合された信号をもう一つ用意しておく必要がある。このように、独立成分分析によれば、充分な数の観測信号を用意することができるならば音源分離を行うことが可能であるものの、観測信号の数が不充分である場合には、音源分離が極めて困難になってしまい、実用化の際には大きな問題になってしまう。一方、聴覚情景分析によれば、1つの観測信号から幾つもの音源を分離することができる可能性があるが、重なり合ってしまった信号については、それらの信号を完全に分離することは極めて難しくなってしまう。
本発明は、上記課題に鑑みて為されたものであり、複数の音源の音が混合されてなる1つの信号から、各音源の音を精度良く分離することを可能にする技術を提供することを目的としている。
本発明は、上記課題に鑑みて為されたものであり、複数の音源の音が混合されてなる1つの信号から、各音源の音を精度良く分離することを可能にする技術を提供することを目的としている。
上記課題を解決するために、本発明は、互いに異なるN(Nは自然数)個の音響信号と前記N個の音響信号の何れとも異なるN+1個目の音響信号とを各音響信号の重みを1にして混合することにより得られる第1の混合信号を生成し出力するエンコーダと、前記N個の音響信号を前記第1の混合信号から分離して出力するデコーダと、を含む音源分離システムにおいて、前記エンコーダは、前記N個の音響信号と前記N+1個目の音響信号とから、前記N+1個の音響信号のうちの何れか1つの重みを1の近傍の所定の値にする一方、他のN個の音響信号の重みを1にして混合してなるN種類の混合信号とを生成する混合信号生成手段と、前記第1の混合信号と前記N種類の混合信号とに対して独立成分分析を試み、前記N個の音響信号の分離が可能であるか否か判定する判定手段と、前記判定手段により分離可能と判定された場合に、前記第1の混合信号と前記所定の値とを出力する出力手段とを有し、前記デコーダは、前記エンコーダから出力される前記第1の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析により解析してN+1個のグループに分類する分類手段と、前記分類手段によりN+1個に分類されたグループのうちから、1のグループを選択し前記選択したグループに属するスペクトルの振幅に前記所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を前記選択するグループを変えつつN回実行してN種類の擬似混合信号を生成する擬似混合信号生成手段と、前記第1の混合信号と前記N種類の擬似混合信号とから前記N個の音響信号を分離する分離手段とを有することを特徴とする音源分離システム、を提供する。
より好ましい態様においては、前記分離手段は、前記第1の混合信号と前記N種類の擬似混合信号とに対して独立成分分析を施して前記N個の音響信号を分離することを特徴としている。
また、別の好ましい態様においては、前記分離手段は、(N+1)次元の正方行列であって、N+1個の対角成分のうちのN個の値が前記所定の値であり、残りの1つの対角成分と対角成分以外の成分の値が1である正方行列の逆行列を分離行列として、前記第1の混合信号と前記N種類の擬似混合信号とから前記N個の音響信号を分離することを特徴としている。
また、上記課題を解決するために、本発明は、互いに異なるN(Nは自然数)個の音響信号と前記N個の音響信号の何れとも異なるN+1個目の音響信号とから、前記N+1個の音響信号の全てについて重みを1にして混合し第1の混合信号を生成する一方、前記N+1個の音響信号のうちの何れか1つの重みを1の近傍の所定の値にし、他のN個の音響信号の重みを1にして混合することにより得られるN種類の混合信号とを生成する混合信号生成手段と、前記第1の混合信号と前記N種類の混合信号とに対して独立成分分析を試み、前記N個の音響信号の分離が可能であるか否か判定する判定手段と、前記判定手段により分離可能と判定された場合に、前記第1の混合信号と前記所定の値とを出力する出力手段とを有することを特徴とするエンコーダを提供する。
なお、本発明の別の態様においては、コンピュータ装置を、互いに異なるN(Nは自然数)個の音響信号と前記N個の音響信号の何れとも異なるN+1個目の音響信号とから、前記N+1個の音響信号の全てについて重みを1にして混合し第1の混合信号を生成する一方、前記N+1個の音響信号のうちの何れか1つの重みを1の近傍の所定の値にし、他のN個の音響信号の重みを1にして混合することにより得られるN種類の混合信号とを生成する混合信号生成手段と、前記第1の混合信号と前記N種類の混合信号とに対して独立成分分析を試み、前記N個の音響信号の分離が可能であるか否か判定する判定手段と、前記判定手段により分離可能と判定された場合に、前記第1の混合信号と前記所定の値とを出力する出力手段として機能させるプログラムを提供するとしても良い。
なお、本発明の別の態様においては、コンピュータ装置を、互いに異なるN(Nは自然数)個の音響信号と前記N個の音響信号の何れとも異なるN+1個目の音響信号とから、前記N+1個の音響信号の全てについて重みを1にして混合し第1の混合信号を生成する一方、前記N+1個の音響信号のうちの何れか1つの重みを1の近傍の所定の値にし、他のN個の音響信号の重みを1にして混合することにより得られるN種類の混合信号とを生成する混合信号生成手段と、前記第1の混合信号と前記N種類の混合信号とに対して独立成分分析を試み、前記N個の音響信号の分離が可能であるか否か判定する判定手段と、前記判定手段により分離可能と判定された場合に、前記第1の混合信号と前記所定の値とを出力する出力手段として機能させるプログラムを提供するとしても良い。
また、上記課題を解決するために、本発明は、互いに異なるN(Nは自然数)個の音響信号と前記N個の音響信号の何れとも異なるN+1個目の音響信号とを各音響信号の重みを1にして混合することにより得られる第1の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析により解析してN+1個のグループに分類する分類手段と、前記分類手段によりN+1個に分類されたグループのうちから、1のグループを選択し前記選択したグループに属するスペクトルの振幅に1の近傍の所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を前記選択するグループを変えつつN回実行してN種類の擬似混合信号を生成する擬似混合信号生成手段と、前記第1の混合信号と前記N種類の擬似混合信号とから前記N個の音響信号を分離する分離手段と、を有することを特徴とするデコーダ、を提供する。
なお、本発明の別の態様においては、コンピュータ装置を、互いに異なるN(Nは自然数)個の音響信号と前記N個の音響信号の何れとも異なるN+1個目の音響信号とを各音響信号の重みを1にして混合することにより得られる第1の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析により解析してN+1個のグループに分類する分類手段と、前記分類手段によりN+1個に分類されたグループのうちから、1のグループを選択し前記選択したグループに属するスペクトルの振幅に1の近傍の所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を前記選択するグループを変えつつN回実行してN種類の擬似混合信号を生成する擬似混合信号生成手段と、前記第1の混合信号と前記N種類の擬似混合信号とから前記N個の音響信号を分離する分離手段として機能させるプログラムを提供するとしても良い。
なお、本発明の別の態様においては、コンピュータ装置を、互いに異なるN(Nは自然数)個の音響信号と前記N個の音響信号の何れとも異なるN+1個目の音響信号とを各音響信号の重みを1にして混合することにより得られる第1の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析により解析してN+1個のグループに分類する分類手段と、前記分類手段によりN+1個に分類されたグループのうちから、1のグループを選択し前記選択したグループに属するスペクトルの振幅に1の近傍の所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を前記選択するグループを変えつつN回実行してN種類の擬似混合信号を生成する擬似混合信号生成手段と、前記第1の混合信号と前記N種類の擬似混合信号とから前記N個の音響信号を分離する分離手段として機能させるプログラムを提供するとしても良い。
本発明によれば、複数の音源の音が混合されてなる1つの信号から、各音源の音を精度良く分離することが可能になる、といった効果を奏する。
以下、図面を参照しつつ本発明の1実施形態について説明する。
(A:構成)
(A−1:音源分離システム10の構成)
図1は、本発明の1実施形態に係る音源分離システム10の構成例を示すブロック図である。図1に示すように、この音源分離システム10は、例えばインターネットなどの通信網130に接続されているエンコーダ110と、同じく通信網130に接続されているデコーダ120とを含んでいる。エンコーダ110とデコーダ120は、通信網130を介して通信することができるように構成されている。なお、本実施形態では、通信網130がインターネットである場合について説明するが、エンコーダ110とデコーダ120との通信を仲介することが可能な通信網であればどのような通信網であっても良い。
(A:構成)
(A−1:音源分離システム10の構成)
図1は、本発明の1実施形態に係る音源分離システム10の構成例を示すブロック図である。図1に示すように、この音源分離システム10は、例えばインターネットなどの通信網130に接続されているエンコーダ110と、同じく通信網130に接続されているデコーダ120とを含んでいる。エンコーダ110とデコーダ120は、通信網130を介して通信することができるように構成されている。なお、本実施形態では、通信網130がインターネットである場合について説明するが、エンコーダ110とデコーダ120との通信を仲介することが可能な通信網であればどのような通信網であっても良い。
図1に示す音源分離システム10においては、エンコーダ110には、互いに異なる2種類の音源AおよびB(何れも、図示省略)の各々から音響信号が供給される。なお、以下では、音源Aからは音響信号A(t)が供給され、音源Bからは音響信号B(t)が供給されるものとする。図1のエンコーダ110は、この両者を1対1の音量比率で混合して混合信号X1(t)を生成することができるように構成されている。
このため、例えば、上記音響信号A(t)が、ある楽曲の伴奏音であり、上記音響信号B(t)がその楽曲の歌唱音である場合には、エンコーダ110から出力される混合信号X1(t)は、その楽曲の伴奏付きの歌唱音を表すことになる。このエンコーダ110は、混合信号X1(t)と、この混合信号X1(t)から音響信号A(t)や音響信号B(t)を分離する際に使用される分離パラメータαと、を通信網130を介してデコーダ120へ伝送する。
一方、デコーダ120は、通信網130を介してエンコーダ110から伝送されてくる混合信号X1(t)と分離パラメータαとを受信し、この分離パラメータαを用いて混合信号X1(t)から音響信号A(t)や音響信号B(t)を分離して出力することができるように構成されている。以下、本発明に特徴的なエンコーダ110およびデコーダ120を中心に説明する。
(A−2:エンコーダ110の構成)
図2は、エンコーダ110のハードウェア構成を示すブロック図である。
図2に示すように、エンコーダ110は、独立性評価器110aと、混合器110bと、分離器110cと、信号比較器110dと、を有している。
図2は、エンコーダ110のハードウェア構成を示すブロック図である。
図2に示すように、エンコーダ110は、独立性評価器110aと、混合器110bと、分離器110cと、信号比較器110dと、を有している。
独立性評価器110aは、エンコーダ110へ入力される音響信号A(t)とB(t)とが「独立成分分析(以下、ICA)での独立性」を満たしているか否かを判定するためのものである。ここで「ICAでの独立性」(以下、単に「独立性」と呼ぶ)を満たしているとは、音響信号A(t)とB(t)とを重ね合わせて得られる信号について、例えば、予め定められた複数の周波数帯域の各々の帯域成分の出現頻度を所定の期間に渡って所定の時間間隔で計測してヒストグラム化した場合に、そのヒストグラムについて4次のキュムラントを算出することによって判定することが可能である。独立性が満たされない場合は4次以降のキュムラントが“0”になるからである。
混合器110bは、分離パラメータαに所定の初期値(本実施形態では、0.9)を設定し、以下の数1に示す混合行列Mを生成する。そして、独立性評価器110aから引き渡された音響信号A(t)と音響信号B(t)に混合行列Mを作用させ、音響信号A(t)と音響信号B(t)とを1対1の音量比率で合成した混合信号X1(t)と、1対αの音量比率で合成した混合信号X2(t)を生成するものである。この混合器110bは、生成した2つの混合信号を分離器110cへ引き渡す。
なお、本実施形態では、分離パラメータαの初期値が“0.9”である場合について説明するが、“1”以外の値であれば、どのような値であっても良い。但し、分離パラメータαの値が“1”に近すぎると(例えば、0.9999…など)、後述する独立成分分析を失敗する可能性が高くなる。逆に、分離パラメータαの値が大きすぎたり(例えば、1000)、小さすぎたり(例えば、0.0001)することも好ましくない。何故ならば、αの値が1に比較して大きすぎたり、小さすぎたりすると、計算装置で演算させる時に二つの信号間の振幅差が大きすぎて、演算誤差が入りやすくなり、結果として信号自体に変形が生じてしまう事になりやすいからである。
このため、上記分離パラメータαの値は、独立成分分析ができる範囲で1になるべく近い値である0.1〜0.9、または、1.1〜1.9程度の値であることが望ましい。この混合器110bは、独立成分分析に失敗したことを示す制御信号を、後述する分離器110cや信号比較器110dから受け取ると、分離パラメータαを予め定められた値(例えば、0.1や0.05など)分だけ更新して再度、混合信号X1(t)および混合信号X2(t)を生成し、分離器110cへ引き渡す。
分離器110cは、混合器110bから引き渡された混合信号X1(t)とX2(t)とに対してICA(Independent Component Analysis)を施し、両信号から音響信号A(t)とB(t)とを分離することを試みるものである。この分離器110cは、ICAによる両信号の分離に成功すると、ICAの結果得られた復元信号A´(t)およびB´(t)を信号比較器110dへ引き渡す。逆に、独立成分分析に失敗すると上記所定の制御信号を混合器110bへ送る。
信号比較器110dは、分離器110cから引き渡された復元信号A´(t)およびB´(t)の各々を、オリジナルの音響信号A(t)およびオリジナルの音響信号B(t)の各々と比較し、「A´(t)とA(t)とが一致し、かつ、B´(t)とB(t)とが一致する」場合、または、「A´(t)とB(t)とが一致し、かつ、B´(t)とA(t)とが一致する」場合に、分離に成功したと判定する。この信号比較器110dは、分離に成功したと判定した場合には、混合信号X1(t)と分離パラメータαとを通信網130経由でデコーダ120へ出力し、逆に、分離に成功しなかったと判定した場合には、上記制御信号を混合器110bへ送る。
以上がエンコーダ110の構成である。次に、デコーダ120の構成について説明する。
以上がエンコーダ110の構成である。次に、デコーダ120の構成について説明する。
(A−3:デコーダ120の構成)
図3は、デコーダ120の構成例を示すブロック図である。
図3に示すように、デコーダ120は、周波数分析器120aと、分離器120bと、独立性評価器120cとを有している。
周波数分析器120aは、エンコーダ110から出力された混合信号X1(t)と分離パラメータαとを受取り、分離パラメータαを用いて混合行列Mの逆行列である分離行列M−1を生成する一方、混合信号X1(t)に対して高速フーリエ変換(以下、「FFT」と表記)などの周波数解析を施す。そして、周波数分析器120aは、混合信号X1(t)についての周波数解析の結果に対して聴覚情景分析を行うことによって、混合信号X1(t)に混在している各音響信号のスペクトルを上記時間周波数平面内で音源毎にグループ分けする。周波数分析器120aは、それらグループのうちの1つに属するスペクトルのみについて振幅値をα倍した後に、混合信号X1(t)に混在している各音響信号のスペクトルに逆フーリエ変換を施すことによって、擬似混合信号X2 ´(t)を生成する。そして、周波数分析器120aは、分離行列M−1、混合信号X1(t)および擬似混合信号X2 ´(t)を分離器120bへ引き渡す。
図3は、デコーダ120の構成例を示すブロック図である。
図3に示すように、デコーダ120は、周波数分析器120aと、分離器120bと、独立性評価器120cとを有している。
周波数分析器120aは、エンコーダ110から出力された混合信号X1(t)と分離パラメータαとを受取り、分離パラメータαを用いて混合行列Mの逆行列である分離行列M−1を生成する一方、混合信号X1(t)に対して高速フーリエ変換(以下、「FFT」と表記)などの周波数解析を施す。そして、周波数分析器120aは、混合信号X1(t)についての周波数解析の結果に対して聴覚情景分析を行うことによって、混合信号X1(t)に混在している各音響信号のスペクトルを上記時間周波数平面内で音源毎にグループ分けする。周波数分析器120aは、それらグループのうちの1つに属するスペクトルのみについて振幅値をα倍した後に、混合信号X1(t)に混在している各音響信号のスペクトルに逆フーリエ変換を施すことによって、擬似混合信号X2 ´(t)を生成する。そして、周波数分析器120aは、分離行列M−1、混合信号X1(t)および擬似混合信号X2 ´(t)を分離器120bへ引き渡す。
分離器120bは、混合信号X1(t)および擬似混合信号X2(t)に対して分離行列M−1による行列演算を行い、復元信号A´(t)と復元信号B´(t)とを生成するものである。この分離器120bは、上記のようにして生成した復元信号A´(t)とB´(t)とを独立性評価器120cへ引き渡し、両者の独立性を評価させる。なお、復元信号A´(t)とB´(t)について独立性を評価する理由は、擬似混合信号X2´(t)が混合信号X2(t)に一致するとは限らず、復元信号A´(t)と復元信号B´(t)とが独立性を満たしているとは限らないからである。
独立性評価器120cは、分離器120bから引き渡された復元信号A´(t)とB´(t)の独立性を、前述した独立性評価器110aと同一の手法で評価するものである。この独立性評価器120cは、復元信号A´(t)とB´(t)とが独立である旨の評価結果が得られた場合には、復元信号A´(t)を音響信号A(t)として出力するとともに、復元信号B´(t)を音響信号B(t)として出力する。逆に、復元信号A´(t)とB´(t)とが独立ではない旨の評価結果が得られた場合には、独立性評価器120cは、所定の制御信号を周波数分析器120aへ出力する。この制御信号を受け取ると、周波数分析器120aは、擬似混合信号X2 ´(t)を生成する際に選択したグループとは異なるグループを選択し、そのグループに属するスペクトルの振幅値をα倍して、新たな擬似混合信号を生成する。
以上がデコーダ120の構成である。
以上がデコーダ120の構成である。
(B:動作)
次いで、エンコーダ110およびデコーダ120が行う動作のうち、その特徴を顕著に示している動作についてのみ図面を参照しつつ説明する。
図4は、エンコーダ110が実行する混合信号出力処理の流れを示すフローチャートである。エンコーダ110の外部から音響信号A(t)とB(t)とが独立性評価器110aへ入力されると、独立性評価器110aは、音響信号A(t)とB(t)が互いに独立性であるか否かを判定する(ステップSA100)。具体的には、独立性評価器110aは、音響信号A(t)とB(t)について前述したヒストグラムを作成し、そのヒストグラムについて4次のキュムラントを算出する。そして、このキュムラントの値を所定の閾値と比較し、その閾値よりも大きい場合に、音響信号A(t)とB(t)は独立であると判定する。以下に説明する動作例では、上記キュムラントの値が上記閾値に比較して充分大きくなる場合について説明する。
次いで、エンコーダ110およびデコーダ120が行う動作のうち、その特徴を顕著に示している動作についてのみ図面を参照しつつ説明する。
図4は、エンコーダ110が実行する混合信号出力処理の流れを示すフローチャートである。エンコーダ110の外部から音響信号A(t)とB(t)とが独立性評価器110aへ入力されると、独立性評価器110aは、音響信号A(t)とB(t)が互いに独立性であるか否かを判定する(ステップSA100)。具体的には、独立性評価器110aは、音響信号A(t)とB(t)について前述したヒストグラムを作成し、そのヒストグラムについて4次のキュムラントを算出する。そして、このキュムラントの値を所定の閾値と比較し、その閾値よりも大きい場合に、音響信号A(t)とB(t)は独立であると判定する。以下に説明する動作例では、上記キュムラントの値が上記閾値に比較して充分大きくなる場合について説明する。
ステップSA100の判定結果が“No”である場合には、独立性評価器110aは、独立性を確保するために、音響信号B(t)に対して位相回転処理(ステップSA170)を施し、再度、ステップSA100の処理を再度実行する。なお、本実施形態では、ステップSA100の判定結果が“No”である場合には、音響信号B(t)に対して位相回転処理を施し、再度、ステップSA100以降の処理を実行する場合について説明した。しかしながら、混合対象である音響信号を選び直させるようにしても勿論良い。
逆に、ステップSA100の判定結果が“Yes”である場合には、独立性評価器110aは、音響信号A(t)とB(t)を混合器110bへ供給する。
逆に、ステップSA100の判定結果が“Yes”である場合には、独立性評価器110aは、音響信号A(t)とB(t)を混合器110bへ供給する。
独立性評価器110aから音響信号A(t)とB(t)を供給された混合器110bは、まず、分離パラメータαに所定の初期値(本実施形態では、“0.9”)を設定する(ステップSA110)。次いで、混合器110bは、分離パラメータαを用いて(数1)に示す混合行列Mを生成し、この混合行列Mを用いて混合信号X1(t)とX2(t)を生成する(ステップSA120)。そして、混合器110bは、ステップSA120にて生成した混合行列M、混合信号X1(t)およびX2(t)を分離器110cへ入力する。
ステップSA120に後続して実行されるステップSA130においては、分離器110cは、ステップSA120にて生成した混合信号X1(t)および混合信号X2(t)に対して独立成分分析を行い、これら2つの混合信号X1(t)およびX2(t)から音響信号A(t)およびB(t)を分離することができるか否かを判定する。具体的には、分離器110cは、ICAにより混合信号X1(t)およびX2(t)から分離行列M-1(すなわち、混合行列Mの逆行列)を求め、分離行列が求まったらICAにより分離可能と判定する。なお、以下に説明する動作例では、ICAにより分離行列M-1が求まった場合について説明する。
ステップSA130の判定結果が“No”である場合には、分離器110cは、前述した制御信号を混合器110bへ送る。混合器110bは、この制御信号を受信すると、分離パラメータαを所定の値だけ小さい値に更新し(ステップSA160)、ステップSA120の処理を再度実行する。また、αの初期値に1.1など1よりも大きい値を用いた場合には、αの更新は所定の値大きくすることになる。
逆に、ステップSA130の判定結果が“Yes”である場合には、分離器110cは、ICAにより求まった分離行列M-1を混合信号X1(t)およびX2(t)に作用させ、その結果得られる復元信号A´(t)とB´(t)を信号比較器110dへ入力する。本動作例では、ICAにより分離行列M-1が求まるのであるから、ステップSA130の判定結果は“Yes”になり、復元信号A´(t)とB´(t)が分離器110cから信号比較器110dへ引き渡される。
逆に、ステップSA130の判定結果が“Yes”である場合には、分離器110cは、ICAにより求まった分離行列M-1を混合信号X1(t)およびX2(t)に作用させ、その結果得られる復元信号A´(t)とB´(t)を信号比較器110dへ入力する。本動作例では、ICAにより分離行列M-1が求まるのであるから、ステップSA130の判定結果は“Yes”になり、復元信号A´(t)とB´(t)が分離器110cから信号比較器110dへ引き渡される。
分離器110cから引き渡された復元信号A´(t)およびB´(t)を受け取ると、信号比較器110dは、復元信号A´(t)およびB´(t)がオリジナルの音響信号A(t)およびB(t)と一致するか否かを判定し(ステップSA140)、その判定結果が“No”であれば、所定の制御信号を混合器110bへ送り、逆に、その判定結果が“Yes”であれば、混合信号X1(t)とその時点の分離パラメータαとを通信網130へ出力して(ステップSA150)、本混合信号出力処理を終了する。
以上に説明した混合信号出力処理が実行される結果、エンコーダ110から混合信号X1(t)と分離パラメーラαとがデコーダ120へ送信される。このようにして送信された混合信号X1(t)と分離パラメータαとは通信網130経由でデコーダ120へ到達し、このデコーダ120によって受信される。以下、混合信号X1(t)から音響信号A(t)や音響信号B(t)を分離する際にデコーダ120が行う動作について説明する。
図5は、混合信号X1(t)から音響信号A(t)や音響信号B(t)を分離する際にデコーダ120が行う信号分離処理の流れを示すフローチャートである。
周波数分析器120aは、混合信号X1(t)と分離パラメータαとを受け取ると、分離パラメータαから分離行列M-1を生成するとともに、混合信号X1(t)にFFTを施す(ステップSB100)。周波数分析器120aは、ステップSB100にてFFTを行うことによって得られる各スペクトルの時間変化を以下の手順で時間周波数平面にプロットする。
(1)各時刻で周波数の頂点データ(周波数、振幅値、位相)を抽出する。
(2)頂点データの時間的な関係から、1つの線(シヌソイド成分)に属していると推測されるものを線データとしてまとめる。
周波数分析器120aは、混合信号X1(t)と分離パラメータαとを受け取ると、分離パラメータαから分離行列M-1を生成するとともに、混合信号X1(t)にFFTを施す(ステップSB100)。周波数分析器120aは、ステップSB100にてFFTを行うことによって得られる各スペクトルの時間変化を以下の手順で時間周波数平面にプロットする。
(1)各時刻で周波数の頂点データ(周波数、振幅値、位相)を抽出する。
(2)頂点データの時間的な関係から、1つの線(シヌソイド成分)に属していると推測されるものを線データとしてまとめる。
次いで、周波数分析器120aは、時間周波数平面へ展開した分析結果(すなわち、時間周波数平面にプロットされる各シヌソイド成分)を聴覚情景分析の手法により音源毎にグループ分けする(ステップSB110)。より詳細に説明すると、聴覚情景分析の考え方によれば、例えば1つの発音体(楽器など)から発せられる音のシヌソイド成分に関しては、非常に多くの場合に以下に述べる3つの事項が成り立っている。
(a)それぞれの成分は、倍音関係にある。
(b)それぞれの成分は、略同時刻に開始する。
(c)それぞれの成分は、同じような振幅変化、位相変化する。
つまり、上記(a)〜(c)の法則にしたがう成分は1つの発音体から発せられた成分である可能性が非常に高い。そこで、周波数分析器120は、倍音関係にあり、かつ、開始時刻の差が所定の閾値より小さく、かつ、振幅変化の乖離度や位相変化の乖離度が所定の閾値よりも小さいシヌソイド成分同士を1つのグループに分類することによって、各シヌソイド成分は音源毎にグループ分けされることになる。例えば、図5に示すように、6本のシヌソイド成分が時間周波数平面にプロットされる場合には、聴覚情景分析の上記各法則にしたがって分類すると、これら6本のシヌソイド成分は、2つのグループ(“a”、“b”および“c”からなる第1のグループと、“d”、“e”および“f”からなる第2のグループと)とに分類されることになる。
(a)それぞれの成分は、倍音関係にある。
(b)それぞれの成分は、略同時刻に開始する。
(c)それぞれの成分は、同じような振幅変化、位相変化する。
つまり、上記(a)〜(c)の法則にしたがう成分は1つの発音体から発せられた成分である可能性が非常に高い。そこで、周波数分析器120は、倍音関係にあり、かつ、開始時刻の差が所定の閾値より小さく、かつ、振幅変化の乖離度や位相変化の乖離度が所定の閾値よりも小さいシヌソイド成分同士を1つのグループに分類することによって、各シヌソイド成分は音源毎にグループ分けされることになる。例えば、図5に示すように、6本のシヌソイド成分が時間周波数平面にプロットされる場合には、聴覚情景分析の上記各法則にしたがって分類すると、これら6本のシヌソイド成分は、2つのグループ(“a”、“b”および“c”からなる第1のグループと、“d”、“e”および“f”からなる第2のグループと)とに分類されることになる。
次いで、周波数分析器120aは、擬似混合信号X2 ´(t)を生成する(ステップSB120)。具体的には、周波数分析器120aは、ステップSB110にてグループ分けしたうちの何れか1つのグループのスペクトルについて振幅値をα倍した後に、逆フーリエ変換を施す。これにより、擬似混合信号X2 ´(t)が得られることになる。周波数分析器120aは、このようにして生成された擬似混合信号X2 ´(t)、混合信号X1(t)および分離行列M-1を分離器120bへ引き渡す。
擬似混合信号X2 ´(t)、混合信号X1(t)および分離行列M-1wを引き渡された分離器120bは、擬似混合信号X2 ´(t)および混合信号X1(t)に分離行列M-1を作用させ、復元信号A´(t)とB´(t)を生成する(ステップSB130)。そして、分離器120bは、このようにして得られた復元信号A´(t)とB´(t)を独立性評価器120cへ引き渡す。
復元信号A´(t)とB´(t)を引き渡された独立性評価器120cは、その復元信号A´(t)とB´(t)が独立であるか否かを判定し(ステップSB140)、その判定結果が“No”である場合には、周波数分析器120aに前述した制御信号を送る。この制御信号を受け取った周波数分析器120aは、擬似混合信号を生成し直して(ステップSB120)、ステップSB130以降の処理を実行する。なお、復元信号A´(t)とB´(t)について独立性評価器120cが独立性の評価を行う理由は、擬似混合信号を生成する際に振幅値をα倍にするグループについては、その選択の際に任意性があり、この任意性に起因して復元信号A´(t)とB´(t)が独立性を満たさないことが起こり得るからである。
ステップSA140の判定結果が“Yes”である場合には、独立性評価器120cは。復元信号A´(t)を音響信号A(t)として出力する一方、復元信号A´(t)を音響信号A(t)として出力し(ステップSB150)、本信号分離処理を終了する。
以上に説明したように、本実施形態に係る音源分離システム10においては、2つの音源の音が1対1の比率で混合されている1つの音響信号から、各音源の信号を精度良く分離することが可能になる、といった効果を奏する。
以上に説明したように、本実施形態に係る音源分離システム10においては、2つの音源の音が1対1の比率で混合されている1つの音響信号から、各音源の信号を精度良く分離することが可能になる、といった効果を奏する。
(C:変形)
以上、本発明の1実施形態について説明したが、係る実施形態に以下に述べるような変形を加えても良いことは勿論である。
(1)上述した実施形態では、デコーダから引き渡された分離パラメータを用いて分離行列を生成し、この分離行列を混合信号X1(t)と擬似混合信号X2 ´(t)とに作用させることによって復元信号を分離する場合について説明した。しかしながら、混合信号X1(t)と擬似混合信号X2 ´(t)とに独立成分分析を施すことによって復元信号を分離するとしても良いことは勿論である。
以上、本発明の1実施形態について説明したが、係る実施形態に以下に述べるような変形を加えても良いことは勿論である。
(1)上述した実施形態では、デコーダから引き渡された分離パラメータを用いて分離行列を生成し、この分離行列を混合信号X1(t)と擬似混合信号X2 ´(t)とに作用させることによって復元信号を分離する場合について説明した。しかしながら、混合信号X1(t)と擬似混合信号X2 ´(t)とに独立成分分析を施すことによって復元信号を分離するとしても良いことは勿論である。
(2)上述した実施形態では、混合信号X1(t)と分離パラメータαとを通信網130経由でエンコーダ110からデコーダ120へ伝送する場合について説明した。しかしながら、エンコーダ110にCD(Compact Disk)などの記録媒体へのデータ書き込み手段(例えば、CD−Rドライブ)を設ける一方、デコーダ120には、記録媒体に記録されているデータを読み取る読み取り手段(例えば、CDドライブ)を設け、混合信号X1(t)と分離パラメータαと上記データ書き込み手段によって上記記録媒体へ書き込む一方、そのような記録媒体に記録されている混合信号X1(t)や分離パラメータαを上記データ読み取り手段によって読み取らせることによって、混合信号X1(t)と分離パラメータαとがエンコーダ110からデコーダ120へ伝達されるようにしても良い。
(3)上述した実施形態では、2種類の音響信号の混合および分離を行う場合について説明したが、3種類以上の音響信号の混合および分離を行うことも勿論可能である。例えば、互いに独立なN(3以上の自然数)個の音響信号Ai(t)とこれらN個の音響信号の何れとも独立な音響信号B(t)とについて混合および分離を行う場合には、以下の数2に示すように、(N+1)行(N+1)列の混合行列(および、その逆行列である分離行列)を用いるようにすれば良く、処理手順は2種類の音響信号の混合および分離を行う場合の処理手順と同一である。
(4)上述した実施形態では、エンコーダ側では、音響信号A(t)とB(t)の独立性の検証、および、混合信号X1(t)と混合信号X2(t)とから音響信号A(t)とB(t)とを分離可能であるかの検証のみが行われ、実際の分離処理は全てデコーダ側で行われる。混合対象である音響信号の独立性の検証や分離可能であることの検証をエンコード側で行う理由は、オリジナルの音響信号をデコード側で確実に分離できることを担保するためである。換言すれば、混合対象の独立性が担保されている状況下では、エンコード側の処理は必ずしも必要な訳ではない。このことに着目して、本発明の係るデコーダを利用して、ピアノやギター、フルートなどの複数種類の楽器で合奏された楽曲の音響信号から、上記各楽器の何れかの演奏音を消去して再生する演奏装置を構成することも可能である。
このようなことは、上記楽曲の音響信号にフーリエ解析を施した後に、聴覚情景分析を行って、フーリエ解析により得られた各スペクトルを音源(楽器)毎に分類し、演奏音を消去すべきことを指定された楽器のスペクトルの振幅値に“0”を乗算した後に各楽器のスペクトルに逆フーリエ変換を施して擬似混合信号を生成することにより実現される。なお、時間周波数平面において、何れのグループが、演奏音を消去すべきことを指定された楽器に対応しているのかを特定することを容易にするため、各楽器の演奏開始タイミングとその楽器の名称などその楽器を一意に識別する識別子とを対応付けて上記デコーダに記憶させておけば、演奏音を消去すべき楽器が名称で指定された場合であっても、上記データを参照することによってその楽器の演奏開始タイミングを把握することができるので、その演奏開始タイミングに該当するタイミングで演奏が開始されたグループを時間周波数平面上で特定するようすれば良い。
(5)上述した実施形態では、各々固有の機能を担っているハードウェアモジュール(独立性評価器110a、混合器110b、分離器110cおよび信号比較器110d)を組み合わせて本発明に係るエンコーダを実現する場合について説明した。しかしながら、CPU(Central Processing Unit)を図2に示すフローチャートにしたがって作動させるプログラム(以下、エンコードプログラム)を一般的なコンピュータ装置へインストールし、そのエンコードプログラムにしたがって上記CPUを作動させることによって、そのコンピュータ装置にエンコーダ110と同一の機能を付与するようにしても勿論良い。同様に、CPUを図3に示すフローチャートにしたがって作動させるプログラム(以下、デコードプログラム)を一般的なコンピュータ装置へインストールし、そのデコードプログラムにしたがって上記CPUを作動させることによって、そのコンピュータ装置にデコーダ120と同一の機能を付与するようにしても勿論良い。なお、上記エンコードプログラムやデコードプログラムを配布する際には、例えば、CD−ROM(Compact Disk Read Only Memory)などのコンピュータ装置読み取り可能な記録媒体にそれらプログラムを書き込んで配布するとしても良く、また、インターネットなどの電気通信回線を介したダウンロードにより配布するとしても良い。
110…エンコーダ、110a…独立性評価器、110b…混合器、110c…分離器、110d…信号比較器、120…デコーダ、120a…周波数分析器、120b…分離器、120c…独立性評価器。
Claims (5)
- 互いに異なるN(Nは自然数)個の音響信号と前記N個の音響信号の何れとも異なるN+1個目の音響信号とを各音響信号の重みを1にして混合することにより得られる第1の混合信号を生成し出力するエンコーダと、前記N個の音響信号を前記第1の混合信号から分離して出力するデコーダと、を含む音源分離システムにおいて、
前記エンコーダは、
前記N個の音響信号と前記N+1個目の音響信号とから、前記N+1個の音響信号のうちの何れか1つの重みを1の近傍の所定の値にする一方、他のN個の音響信号の重みを1にして混合することにより得られるN種類の混合信号とを生成する混合信号生成手段と、
前記第1の混合信号と前記N種類の混合信号とに対して独立成分分析を試み、前記N個の音響信号の分離が可能であるか否か判定する判定手段と、
前記判定手段により分離可能と判定された場合に、前記第1の混合信号と前記所定の値とを出力する出力手段と、を有し
前記デコーダは、
前記エンコーダから出力される前記第1の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析により解析してN+1個のグループに分類する分類手段と、
前記分類手段によりN+1個に分類されたグループのうちから、1のグループを選択し前記選択したグループに属するスペクトルの振幅に前記所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を前記選択するグループを変えつつN回実行してN種類の擬似混合信号を生成する擬似混合信号生成手段と、
前記第1の混合信号と前記N種類の擬似混合信号とから前記N個の音響信号を分離する分離手段と、を有する
ことを特徴とする音源分離システム。 - 前記分離手段は、
前記第1の混合信号と前記N種類の擬似混合信号とに対して独立成分分析を施して前記N個の音響信号を分離する
ことを特徴とする請求項1に記載の音源分離システム。 - 前記分離手段は、
(N+1)次元の正方行列であって、N+1個の対角成分のうちのN個の値が前記所定の値であり、残りの1つの対角成分と対角成分以外の成分の値が1である正方行列の逆行列を分離行列として、前記第1の混合信号と前記N種類の擬似混合信号とから前記N個の音響信号を分離する
ことを特徴とする請求項1に記載の音源分離システム。 - 互いに異なるN(Nは自然数)個の音響信号と前記N個の音響信号の何れとも異なるN+1個目の音響信号とから、前記N+1個の音響信号の全てについて重みを1にして混合し第1の混合信号を生成する一方、前記N+1個の音響信号のうちの何れか1つの重みを1の近傍の所定の値にし、他のN個の音響信号の重みを1にして混合することにより得られるN種類の混合信号とを生成する混合信号生成手段と、
前記第1の混合信号と前記N種類の混合信号とに対して独立成分分析を試み、前記N個の音響信号の分離が可能であるか否か判定する判定手段と、
前記判定手段により分離可能と判定された場合に、前記第1の混合信号と前記所定の値とを出力する出力手段と
を有することを特徴とするエンコーダ。 - 互いに異なるN(Nは自然数)個の音響信号と前記N個の音響信号の何れとも異なるN+1個目の音響信号とを各音響信号の重みを1にして混合することにより得られる第1の混合信号にフーリエ変換を施して得られるスペクトルの時間変化を聴覚情景分析により解析してN+1個のグループに分類する分類手段と、
前記分類手段によりN+1個に分類されたグループのうちから、1のグループを選択し前記選択したグループに属するスペクトルの振幅に1の近傍の所定の値を乗算した後に前記各グループに属するスペクトルに逆フーリエ変換を施して擬似混合信号を生成する処理を前記選択するグループを変えつつN回実行してN種類の擬似混合信号を生成する擬似混合信号生成手段と、
前記第1の混合信号と前記N種類の擬似混合信号とから前記N個の音響信号を分離する分離手段と、
を有することを特徴とするデコーダ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006091328A JP2007264432A (ja) | 2006-03-29 | 2006-03-29 | 音源分離システム、エンコーダおよびデコーダ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006091328A JP2007264432A (ja) | 2006-03-29 | 2006-03-29 | 音源分離システム、エンコーダおよびデコーダ |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007264432A true JP2007264432A (ja) | 2007-10-11 |
Family
ID=38637463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006091328A Pending JP2007264432A (ja) | 2006-03-29 | 2006-03-29 | 音源分離システム、エンコーダおよびデコーダ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007264432A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012503212A (ja) * | 2008-09-19 | 2012-02-02 | ニューサウス イノベーションズ ピーティーワイ リミテッド | オーディオ信号分析方法 |
-
2006
- 2006-03-29 JP JP2006091328A patent/JP2007264432A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012503212A (ja) * | 2008-09-19 | 2012-02-02 | ニューサウス イノベーションズ ピーティーワイ リミテッド | オーディオ信号分析方法 |
US8990081B2 (en) | 2008-09-19 | 2015-03-24 | Newsouth Innovations Pty Limited | Method of analysing an audio signal |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cano et al. | Musical source separation: An introduction | |
Uhlich et al. | Deep neural network based instrument extraction from music | |
JP7243052B2 (ja) | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム | |
Ewert et al. | Score-informed source separation for musical audio recordings: An overview | |
KR20110129883A (ko) | 음악 음향 신호 생성 시스템 | |
US11146907B2 (en) | Audio contribution identification system and method | |
Taenzer et al. | Investigating CNN-based Instrument Family Recognition for Western Classical Music Recordings. | |
Miron et al. | Generating data to train convolutional neural networks for classical music source separation | |
Rodriguez-Serrano et al. | Tempo driven audio-to-score alignment using spectral decomposition and online dynamic time warping | |
US11875777B2 (en) | Information processing method, estimation model construction method, information processing device, and estimation model constructing device | |
Comunità et al. | Guitar effects recognition and parameter estimation with convolutional neural networks | |
Halpern123 et al. | Residual networks for resisting noise: analysis of an embeddings-based spoofing countermeasure | |
CN115699160A (zh) | 电子设备、方法和计算机程序 | |
Barry et al. | Single channel source separation using short-time independent component analysis | |
Maximos et al. | Real-time drums transcription with characteristic bandpass filtering | |
JP2007264432A (ja) | 音源分離システム、エンコーダおよびデコーダ | |
Siedenburg et al. | Modeling the onset advantage in musical instrument recognition | |
US20210097964A1 (en) | Modal Reverb Effects For An Acoustic Space | |
CN116189636B (zh) | 基于电子乐器的伴奏生成方法、装置、设备及存储介质 | |
US20240134459A1 (en) | Haptic feedback method, system and related device for matching split-track music to vibration | |
Bognár | Audio Effect Modeling with Deep Learning Methods | |
Barry | Real-time sound source separation for music applications | |
US20210383816A1 (en) | Sound signal generation method, generative model training method, sound signal generation system, and recording medium | |
Ma | Monaural source separation in the wild | |
Nag et al. | Automation in Audio Enhancement using Unsupervised Learning for Ubiquitous Computational Environment |