JP6623376B2

JP6623376B2 - 音源強調装置、その方法、及びプログラム

Info

Publication number: JP6623376B2
Application number: JP2016165789A
Authority: JP
Inventors: 健太丹羽; 一哉武田; 健登大谷
Original assignee: Nagoya University NUC; Nippon Telegraph and Telephone Corp; Tokai National Higher Education and Research System NUC
Current assignee: Nagoya University NUC; Nippon Telegraph and Telephone Corp; Tokai National Higher Education and Research System NUC
Priority date: 2016-08-26
Filing date: 2016-08-26
Publication date: 2019-12-25
Anticipated expiration: 2036-08-26
Also published as: JP2018031967A

Description

本発明は、様々な音源の音を含む音響信号から特定の音源の音を強調する技術に関する。例えば、楽曲信号(1chにMIXされたものを想定する)から各楽器音(e.g.ギター、ベース、ドラム、キーボード)、歌声(ボーカル)を強調し、抽出する技術に関する。なお、抽出した音は、そのまま出力してもよいし、楽曲定位操作系において使用しユーザの好みに応じてリミックスして出力してもよい。

1chにMIXされた音響信号から特定の音源の音を強調し、抽出する従来技術として、非特許文献１が知られている。

図１は、非特許文献１の機能ブロック図を示す。特定の音源の音信号（強調したい音響信号）をs(t)、強調したい音源以外の雑音の音信号(以下、雑音信号ともいう)をn(t)と表す。例えば、楽曲信号からギターの音だけを抽出したい場合には、ギターの音響信号をs(t)、雑音信号（その他の音源(ベース、ドラム、キーボード、ボーカルなど)が混合された音信号）をn(t)として扱うことを意味する。tは時間のインデックスを表す。s(t)、n(t)の周波数領域に展開された信号をS(τ,ω)、N(τ,ω)と表す。ここで、τ,ωは、時間フレーム、周波数のインデックスを表す。この時、強調前の音響信号（混合信号）X(τ,ω)は、以下のように表現される。
X(τ,ω) = S(τ,ω) + N(τ,ω) (1)
なお、混合信号X(τ,ω)の時間領域表現は、x(t)である。

楽曲の場合にはステレオ信号であることが多いので、その場合、加算したり、重み付け加算してシングルチャネル化されたモノラル信号を利用する。

周波数領域変換部部９３は、時間領域の混合信号x(t)を入力として、周波数領域の混合信号X(τ,ω)に変換し、出力する。

バイナリマスク推定部９４では、混合信号X(τ,ω)を入力として、バイナリマスクI(τ,ω)を出力する。なお、バイナリマスクI(τ,ω)の推定方法については、例えば、DNN(Deep Neural Networks、CNN(Convolutional Neural Networks)、RNN(Recurrent Neural Networks)といった機械学習を利用することを前提としている。事前に教師あり学習を実施し、各音源ごとに最適化されたパラメータpをDNN、CNN、RNN等の機会学習において用いる。なお、ギターの音以外に、ベース、ドラム、キーボード、ボーカルなどをそれぞれ抽出し、強調する場合には、パラメータpは各音源(ベース、ドラム、キーボード、ボーカルなど)に対して、異なるものを用いる。つまり、各楽器についてパラメータpは最適化されているとする。

音源強調部９５は、混合信号X(τ,ω)とバイナリマスクI(τ,ω)とを入力として、次式により、特定の音源を強調した音響信号(強調信号)^S(τ,ω)を求め、出力する。
^S(τ,ω)=I(τ,ω)X(τ,ω) (2)
時間領域変換部９６は、強調信号^S(τ,ω)を入力とし、時間領域の強調信号^s(t)に変換し、出力する。

データベース部９０には、学習用の混合信号X_L(τ,ω)と、それを構成する強調したい学習用の音響信号S_L(τ,ω)と、学習用の雑音信号N_L(τ,ω)とが格納されている。なお、例えば、ギターの音を強調するようなバイナリマスクを推定する場合、学習用の音響信号S_L(τ,ω)がギターの音のみが入った音響信号であり、学習用の雑音信号N_L(τ,ω)はその他楽器/ボーカルの音響信号を加算した信号である。

ここで、SNRは観測時点のSN比であり、θはバイナリマスクの値(0 or 1)を決定する際に用いる閾値である。ラベル[0,1]は周波数ωごと、あるいは周波数帯域ごとに書かれることになる。閾値は例えばθ=0dBのように選択することが多い。これは、該当する周波数−時間フレームτで、目的とする音源(e.g. ギター)が最も主要な音源か否かを判断することに対応する。また、フロア値は、式(3)では0を利用したが、0<α<1を満たす値αを用いることが多い(例えば0.1〜0.3 程度の値)。なお、SNRは、以下のように計算される。

事前学習部９２は、特徴量とラベル（例えばパワースペクトル|S_L(τ,ω)|²、|N_L(τ,ω)|²とバイナリマスクI_L(τ,ω)）とを入力とし、DNN、CNN、RNN用のパラメータpを学習し、出力する。なお、パラメータpは、バイナリマスク推定部９４で使用するためのパラメータであり、強調したい音源ごと(例えば、ギター、ベース、ドラム等)に事前に学習する。一実装として、DNNであれば、重み行列やバイアスを表すベクトルが格納される。

Y. Wang, A. Narayanan and D.L.Wang, "On training targets for supervised speech separation", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, pp. 1849-1858, 2014.

しかしながら、従来技術には、以下の2つの問題がある。

1.出力される強調信号の歪が大きくなってしまう。バイナリマスクを利用して音源の強調を行う場合、特定の時間周波数チャネルにおいて、音が存在するか(1)、または、存在しないか(0)の二択しか行うことができない。楽曲信号では、一つ時間周波数チャネルに、多くの音が混合していることが想定される。その場合、バイナリマスクでは、所望の音源だけを強調するために、十分な性能を得ることができない可能性が高い。

2.強調信号群を再合成する際に、元の信号とかけ離れた音源になってしまうことがある。楽曲定位操作系のように、分離した後で再合成して受聴するような使い方をする場合、分離性能とともに、再合成した際の元の信号との歪が大きくないほうが好ましいと考えられる。個々の音源を独立に分離した場合、再合成した際の歪については考慮されていないため、合成後の信号が歪んでしまう可能性がある。

本発明は、従来よりも適切に所望の音源だけを強調し、強調信号群を再合成したときに合成後の信号の歪みを低減することができる音源強調装置、その方法、及びプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、音源強調装置は、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号S_nを含む混合信号Xを入力とし、混合信号Xと、N種類の音響信号S_nの総和と、の差分が小さくなるように、各音響信号S_nに対する雑音抑圧量を推定する雑音抑圧量推定部と、混合信号Xと雑音抑圧量の推定値W_nとを用いて、混合信号Xに含まれる音響信号S_nを強調した強調信号^S_nを求める音源強調部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、音源強調方法は、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、雑音抑圧量推定部が、N種類の、楽器の演奏または歌唱それぞれに係る音響信号S_nを含む混合信号Xを入力とし、混合信号Xと、N種類の音響信号S_nの総和と、の差分が小さくなるように、各音響信号S_nに対する雑音抑圧量を推定する雑音抑圧量推定ステップと、音源強調部が、混合信号Xと雑音抑圧量の推定値W_nとを用いて、混合信号Xに含まれる音響信号S_nを強調した強調信号^S_nを求める音源強調ステップとを含む。

本発明によれば、従来よりも適切に所望の音源だけを強調し、強調信号群を再合成したときに合成後の信号の歪みを低減することができるという効果を奏する。

従来技術を説明するための図。第一実施形態に係る音源強調装置の機能ブロック図。第一実施形態に係る音源強調装置の処理フローの例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
第一実施形態では、以下2点において、従来技術と異なる。

1.バイナリマスクではなく、雑音抑圧量を連続値で表現する。例えば、4段階程度に離散化された雑音抑圧量に対して重みづけ加算することで連続値を表現する。このような構成により、複数の音源が時間周波数チャネルに混在している場合でも、より高精度に目的音を雑音から分離し、強調できることが期待される。

2.再合成時の信号(ギター、ベース、ドラム等の強調信号群を単純に加算した信号であり、以下、再合成信号とも言う)と、元の混合信号との二乗誤差を最小化するように雑音抑圧量を表現することで、再合成時の再現性を保つことが期待される。つまり、合成時の信号を受聴した際に、歪が少ないと考えられる。

このような構成により、楽曲信号などといった、より一般的かつ多数の音が混合しているような音に対して特定の音源の強調精度が高まることが期待される。

＜第一実施形態＞
図２は第一実施形態に係る音源強調装置の機能ブロック図を、図３はその処理フローを示す。

音源強調装置１００は、N種類の、楽器の演奏または歌唱それぞれに係る音源の音響信号s_n(t)を含む混合信号x(t)を入力とし、N種類の音響信号s_n(t)に対応するN個の強調信号^s_n(t)を出力する。ただし、n=1,2,…,Nであり、Nは1以上の整数の何れかである。混合信号x(t)は、背景技術で説明した通りである。

音源強調装置１００は、周波数領域変換部１０２、雑音抑圧量推定部１０３、音源強調部１０４、時間領域変換部１０５、データベース部１９０、特徴量−ラベル生成部１９１及び事前学習部１９２を含む。

＜周波数領域変換部１０２＞
周波数領域変換部１０２は、時間領域の混合信号x(t)を入力とし、時間領域の混合信号x(t)を周波数領域の混合信号X(τ,ω)に変換し（Ｓ１０２）、出力する。時間領域の信号を周波数領域の信号に変換する方法として、例えば、短時間フーリエ変換等を用いる。

＜データベース部１９０＞
データベース部１９０には、学習用の混合信号X_L(τ,ω)と、それを構成する強調したい学習用の音響信号S_L,n(τ,ω)と、学習用の雑音信号N_L,n(τ,ω)とが格納されている。なお、例えば、ギターの音を強調するような雑音抑圧量を推定する場合、学習用の音響信号S_L,n(τ,ω)がギターの音のみが入った音響信号であり、学習用の雑音信号N_L,n(τ,ω)はその他楽器/ボーカルの音響信号を加算した信号である。n=1,2,…,Nであり、N種類全ての、楽器の演奏または歌唱それぞれに係る音源に対して、学習用の音響信号S_L,n(τ,ω)と学習用の雑音信号N_L,n(τ,ω)とが用意され、格納されている。なお、X_L(τ,ω)=S_L,n(τ,ω)+N_L,n(τ,ω)であり、データベース部１９０には、X_L(τ,ω),S_L,n(τ,ω),N_L,n(τ,ω)のうちの何れか二つを記憶しておき、残りの1つをデータベース部１９０または特徴量−ラベル生成部１９１で計算により求めてもよい。

＜特徴量−ラベル生成部１９１＞
特徴量−ラベル生成部１９１は、背景技術の特徴量−ラベル生成部９１と同様の処理を行うが、以下の2点において異なる。

(差異1)
従来方式では、周波数ごとに特徴量-ラベルを用意していた。本実施形態では、複数の周波数を集約化した周波数バンドごとに特徴量-ラベルを用意するような実装を行う。なお、Ω_O個のバンドで構成されるとし、そのインデックス集合をΩ={1,…,Ω_O}と表す。従来方式ではラベルを2値化しているため、周波数ごとにラベルを用意している。一方、本実施形態では、ラベルを2値以上のパターン(例えば4段階[1,0.5,0.3,0.1])となるように実装している。ラベルの値は、どの程度雑音を抑圧したらよいかを表している。2値以上のパターンでラベルの値を表すことになるので、以後、この値のことをマスクではなく雑音抑圧量と表現することにする。なお、ラベルの値を雑音抑圧量参照値ともいう。雑音抑圧量参照値のパターン数は、実験では4程度で利用しているが、これはパターン数が多くし過ぎると、どのパターンに属するかについての推定精度が悪くなる、または、学習データの量が膨大になることが想定されるためである。

(差異2)
分離後の強調信号群(ギター、ベース、ドラム等)を再合成した際に、元の混合信号との歪を計算し、できるだけその歪を小さくなるようにしたい。よって、特徴量-ラベルのセットは、全ての音源分計算する必要がある。例えば、ボーカル、ギター、ベース、ドラム、キーボードの5つの音源に分類する場合には、音源数N=5であり、N=5組の特徴量-ラベルを用意する。

ここで、SNR_L,nは観測時点のSN比であり、θ₁、θ₂、…、θ_C-1は学習用雑音抑圧量W_L,nの値(q₁、q₂、…、q_C)を決定する際に用いる閾値であり、θ₁<θ₂<…<θ_C-1であり、0≦q₁<q₂<…<q_C-1≦1である。ラベル[q₁,q₂,…,q_C]は周波数ωごとに書かれる。閾値θ₁、θ₂、…、θ_C-1は実験等により適切な値を求めておく。これは、該当する周波数−時間フレームτで、目的とする音源(e.g. ギター)がどの程度の割合を示す音源かを示す。また、フロア値q₁は、背景技術で示したように、0を利用してもよいし、0<q₁<q₂<…<q_C-1≦1を満たす値q₁を用いてもよい。例えばq₁を0.1〜0.3 程度の値とする。フロア値q₁を0より大きな値とすることで、「プッ」っと音が途切れるような音響信号が再生されるのを防ぐことができる。なお、SNR_L,nは、以下のように計算される。

このようにして、特徴量−ラベル生成部１９１は、特徴量(例えば、パワースペクトル|S_L,n(τ,ω)|²、|N_L,n(τ,ω)|²やそれを平滑化した値)とラベル(学習用雑音抑圧量W_L,n(τ,ω))とを求め、出力する。

＜事前学習部１９２＞
事前学習部１９２は、特徴量(例えば、パワースペクトル|S_L,n(τ,ω)|²、|N_L,n(τ,ω)|²やそれを平滑化した値)とラベル(学習用雑音抑圧量W_L,n(τ,ω))とを入力とし、雑音抑圧量推定部１０３で雑音抑圧量を推定するために必要となるパラメータpを求め、出力する。(i)2値以上の値を利用して連続的な雑音抑圧量を表す点と、(ii)N個の強調信号群を再合成した際に、元の混合信号との歪が小さくなるように雑音抑圧量の最適設定できるという2点において、従来方式との差分がある。

まず、(i)の連続的な雑音抑圧量を表す方式について簡潔に説明する。例えば、C段階の雑音抑圧量参照値(q=[q₁,q₂,…,q_C]^T)とn番目の音響信号S_n(τ,ω)(時間フレームτ、周波数ω)のC段階の雑音抑圧量参照値に対する出力確率をo_n(τ,ω)=[o_n,1(τ,ω),…,o_n,C(τ,ω)]^Tとするとき、n番目の音響信号S_n(τ,ω)(時間フレームτ、周波数ω)に対する連続量で表した雑音抑圧量の推定値W_n(τ,ω)は、以下で書くことができる。
W_n(τ,ω)=q^To_n(τ,ω) (5)
よって、雑音抑圧量の推定値W_n(τ,ω)は、出力確率o_n(τ,ω)を重みとする2個以上の離散値(雑音抑圧量参照値(q=[q₁,q₂,…,q_C]^T))の重み付け加算により連続値で表現される。なお、出力確率o_n(τ,ω)は、雑音抑圧量推定部１０３を構成するニューラルネットワークの出力値であり、以下の関係が成立するように正規化されて出力される。

次に、(ii)の再合成時の元の信号の再現性を保証するためのパラメータpを最適化する提案方式について説明する。まず、n番目の音源を強調した信号(以下、強調信号ともいう)を^S_n(τ,ω)と表す。強調信号^S_n(τ,ω)は、
^S_n(τ,ω)=W_n(τ,ω)X(τ,ω)=q^To_n(τ,ω)X(τ,ω) (7)
となる。

N個の強調信号を単純加算した信号と、元の混合信号X(τ,ω)との二乗誤差E(τ)を以下で定義する。

以下のように、二乗誤差E(τ)をニューラルネットの出力層の値o_n(τ,ω)で微分することで、再合成信号の再現性を考慮して、パラメータpを最適化できるのではないかと考えた。

誤差逆伝搬法(参考文献１参照)に則って、ニューラルネットのパラメータを最適化する方法について簡略的に説明する。
（参考文献１）岡谷貴之, “深層学習,” 講談社, 2015, p.7-54.

一つの例として、全結合型DNNをNN構築に用いた場合についてのみ説明する。なお、この部分は、従来のCNN、RNN等で置き換え可能である。まず、順方向のニューラルネットの計算について説明する。なお、この順方向のニューラルネットの計算は、最適化されたパラメータpと入力信号(上述の混合信号に相当)X(τ,ω)を入力として、雑音抑圧量推定部１０３にて行う演算に対応する。入力信号X(τ,ω)をΩ_O個の周波数バンドに分割し、式(10)のように特徴量化する。
q⁽¹⁾=[|X(τ,1)|²,…,|X(τ,Ω_O)|²]^T (10)

ここで、|X(τ,Ω)|²は、Ω番目の周波数バンド、時間フレームτにおける入力信号のバンドパワーを表す。Ω={1,…,Ω_O}とする。ψ層目のノード数をJ_ψと表すとき、J₁=Ω_Oである。つまり、1層目のノード数と周波数バンドの総数Ω_Oとが一致する。また、層の総数をΨとし、ψ=1,2,…,Ψとする。パラメータpは、ニューラルネットで用いられるパラメータであり、重み行列{P⁽²⁾,…,P^(Ψ)}とバイアス{b⁽²⁾,…,b^(Ψ)}とが含まれる。以下の計算をΨ-1回繰り返すことでパラメータpが得られる。
u^(ψ)=P^(ψ)q^(ψ-1)+b^(ψ) (11)
q^(ψ)=f^(ψ)(u^(ψ)) (12)
ここで、各変数の次元は、u^(ψ)∈R^J_ψ×1、q^(ψ)∈R^J_ψ×1、P^(ψ)∈R^{J_ψ×J_(ψ-1)}、b^(ψ)∈R^J_ψ×1である。なお、上付き添え字X_YはX_Yを意味する。また、f^(ψ)(・)はψ層目の活性化関数である。例えばΨ-1層目までの計算では、ランプ関数(ReLU)を用いることが多い。
f^(ψ)(u^(ψ))=max(0,u^(ψ)) (ψ=2,…,Ψ-1) (13)
最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。周波数バンドΩに対応するノード(C種類の雑音抑圧量参照値に対する出現確率値)のインデックスをV_i,1,…,V_i,Cとする。そして、u^(ψ)の対応する要素をu_{V_i,1},…,u_{V_i,C}とする。ただし、下付き添え字X_YはX_Yを意味する。その場合、最終層の出力値はソフトマックス関数で表すことができる。

なお、
o_n(τ,ω)=q^(Ψ) (15)
である。また、J_Ψ=C×Ω_Oである。

次に、誤差逆伝搬法に則って、パラメータpを最適化する計算について説明する。学習用のサンプル総数をDとする。つまり、Dフレーム分のデータを使用する。D個のサンプルに対して、式(11)、(12)の処理を実施する場合、以下のような行列形式で表される。
U^(ψ)=P^(ψ)Q^(ψ-1)+b^(ψ)1^T _D (16)
Q^(ψ)=f^(ψ)(U^(ψ)) (17)
ここで、U^(ψ)∈R^J_ψ×D、Q^(ψ)∈R^J_ψ×Dである。ネットワークパラメータの勾配は、出力層から入力層の順に計算される。正解値に最も近いC種類の雑音抑圧量参照値にのみ1を立てたベクトルをΞとするとき、ψ層目の勾配Δ^(ψ)は以下で計算される。

ネットワークパラメータの勾配は、

となるので、以下のように逐次的に更新される。
P^(ψ)←P^(ψ)+ΔP^(ψ) (21)
b^(ψ)←b^(ψ)+Δb^(ψ) (22)
ここで、
ΔP^(ψ)=μΔP^(ψ)*-γ(∂P^(ψ)+λP^(ψ)) (23)
Δb^(ψ)=μΔb^(ψ)*-γ∂b^(ψ) (24)
であり、ΔP^(ψ)*とΔb^(ψ)*は前回の更新における摂動であり、γは学習係数、μはモメンタム、λは重み減衰である。

よって、パラメータpは、(i)N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号S_L,n(τ,ω)と、(ii)N種類の学習用音響信号S_L,nを含む学習用混合信号X_L(τ,ω)と、(iii)N種類の学習用音響信号S_L,n(τ,ω)に対して付与される雑音抑圧量参照値(q=[q₁,q₂,…,q_C]^T))とを用いて、事前に学習されたものと言える。なお、雑音抑圧量参照値(q=[q₁,q₂,…,q_C]^T))は、学習用混合信号X_L(τ,ω)に含まれる雑音を抑圧する量を示すものである。

＜雑音抑圧量推定部１０３＞
雑音抑圧量推定部１０３は、混合信号X(τ,ω)とパラメータpとを入力とし、混合信号X(τ,ω)と、N種類の音響信号S_n(τ,ω)の総和と、の差分が小さくなるように、各音響信号S_n(τ,ω)に対する雑音抑圧量を推定し（Ｓ１０３）、推定値W_n(τ,ω)を出力する。なお、式(10)-(15)の計算と、式(5)を行うことで、推定値W_n(τ,ω)を得る。つまり、混合信号X(τ,ω)を用いて、
q⁽¹⁾=[|X(τ,1)|²,…,|X(τ,Ω_O)|²]^T (10)
を求める。パラメータpに含まれる重み行列{P⁽²⁾,…,P^(Ψ)}とバイアス{b⁽²⁾,…,b^(Ψ)}とを用いて、
u^(ψ)=P^(ψ)q^(ψ-1)+b^(ψ) (11)
q^(ψ)=f^(ψ)(u^(ψ)) (12)
を計算する。前述の通り、f^(ψ)(・)はψ層目の活性化関数であり、例えば、Ψ-1層目までの計算では、ランプ関数(ReLU)を用いる。
f^(ψ)(u^(ψ))=max(0,u^(ψ)) (ψ=2,…,Ψ-1) (13)
このようにして、q⁽²⁾,q⁽³⁾,…,q^(Ψ-1)を求める。最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。その場合、最終層の出力値はソフトマックス関数で表すことができる。よって、

なお、
o_n(τ,ω)=q^(Ψ) (15)
である。以上の処理により、o_n(τ,ω)を求め、次式により、雑音抑圧量の推定値W_ψ(τ,ω)を求め、音源強調部１０４に出力する。
W_n(τ,ω)=q^To_n(τ,ω) (5)
q=[q₁,q₂,…,q_C]^T
o_n(τ,ω)=[o_n,1(τ,ω),o_n,2(τ,ω),…,o_n,C(τ,ω)]^T
なお、この演算はN個の音源nそれぞれに対して行う。

よって、雑音抑圧量の推定値W_n(τ,ω)は、(i)C個の雑音抑圧量参照値q=[q₁,q₂,…,q_C]^Tと、(ii)音響信号S_n(τ,ω)の雑音抑圧量参照値qに対する出力確率o_n(τ,ω)と、の重み付け加算により表現されるものと言える。出力確率o_n(τ,ω)は、前述の通り、混合信号X(τ,ω)とパラメータpとに基づき得られる値である。

＜音源強調部１０４＞
音源強調部１０４は、混合信号X(τ,ω)とN個の推定値W_n(τ,ω)とを入力とし、次式により、混合信号X(τ,ω)に含まれる音響信号S_n(τ,ω)を強調した強調信号^S_n(τ,ω)を求め（Ｓ１０４）、出力する。
^S_n(τ,ω)=W_n(τ,ω)X(τ,ω)
なお、この演算はN個の音源nそれぞれに対して行う。

＜時間領域変換部１０５＞
時間領域変換部１０５は、強調信号^S_n(τ,ω)を入力とし、周波数領域の強調信号^S_n(τ,ω)を時間領域の強調信号^s_n(t)に変換し（Ｓ１０５）、出力する。周波数領域の信号を時間領域の信号に変換する方法として、周波数領域変換部１０２に対応する方法を用いればよい。例えば、逆短時間フーリエ変換等を用いる。

＜効果＞
以上の構成により、従来よりも適切に所望の音源だけを強調し、強調信号群を再合成したときに合成後の信号の歪みを低減することができる。楽曲信号に対して適用することで、楽器音を強調して抽出することができる。例えば、楽曲のリミックスやリマスタリングなどに応用することができる。また、特定の楽器音を強調することができるため、逆に特定の楽器音を抑圧することも可能であり、カラオケや楽器の練習といった応用も考えられる。

＜変形例＞
本実施形態では、式(5),(6)-(9),(15)を周波数ωで行っているが、周波数バンドΩで同様の処理を行ってもよい。

本実施形態では、パラメータpを求める際に用いるモデルとしてニューラルネットワークを利用しているが、他のモデル(例えば、混合ガウス分布(GMM))を利用してもよい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Nを複数の音源の種類数とし、n=1,2,…,Nとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号S_nを含む混合信号Xを入力とし、N種類の音響信号S _n をそれぞれ強調したN個の強調信号^S _n の総和と、前記混合信号Xと、の差分が小さくなるように、各音響信号S_nに対する雑音抑圧量を推定する雑音抑圧量推定部と、
前記混合信号Xと雑音抑圧量の推定値W_nとを用いて、前記混合信号Xに含まれる音響信号S_nを強調した強調信号^S_nを求める音源強調部とを含む、
音源強調装置。
請求項１の音源強調装置であって、
前記雑音抑圧量推定部において前記雑音抑圧量の推定値W_nを推定する際に用いるモデルのパラメータは、(i)N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号S_L,nと、(ii)N種類の前記学習用音響信号S_L,nを含む学習用混合信号X_Lと、(iii)前記学習用混合信号X_Lに含まれる雑音を抑圧する量を示す、N種類の前記学習用音響信号S_L,nに対して付与される雑音抑圧量参照値とを用いて、事前に学習されたものである、
音源強調装置。
請求項２の音源強調装置であって、
Cを2以上の整数の何れかとし、前記雑音抑圧量の推定値は、(i)C個の雑音抑圧量参照値と、(ii)前記混合信号Xと前記パラメータとに基づき得られる、前記音響信号S_nの雑音抑圧量参照値に対する出力確率o_nと、の重み付け加算により表現される、
音源強調装置。
請求項２または請求項３の音源強調装置であって、
前記モデルはニューラルネットワークにより表現されるものであり、
前記混合信号Xと、N種類の強調信号^S_nの総和との二乗誤差を、ニューラルネットワークの出力層の値で微分することで、前記パラメータを最適化する、
音源強調装置。
Nを複数の音源の種類数とし、n=1,2,…,Nとし、雑音抑圧量推定部が、N種類の、楽器の演奏または歌唱それぞれに係る音響信号S_nを含む混合信号Xを入力とし、N種類の音響信号S _n をそれぞれ強調したN個の強調信号^S _n の総和と、前記混合信号Xと、の差分が小さくなるように、各音響信号S_nに対する雑音抑圧量を推定する雑音抑圧量推定ステップと、
音源強調部が、前記混合信号Xと雑音抑圧量の推定値W_nとを用いて、前記混合信号Xに含まれる音響信号S_nを強調した強調信号^S_nを求める音源強調ステップとを含む、
音源強調方法。
請求項５の音源強調方法であって、
前記雑音抑圧量推定ステップにおいて前記雑音抑圧量の推定値W_nを推定する際に用いるモデルのパラメータは、(i)N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号S_L,nと、(ii)N種類の前記学習用音響信号S_L,nを含む学習用混合信号X_Lと、(iii)前記学習用混合信号X_Lに含まれる雑音を抑圧する量を示す、N種類の前記学習用音響信号S_L,nに対して付与される雑音抑圧量参照値とを用いて、事前に学習されたものである、
音源強調方法。
請求項６の音源強調方法であって、
Cを2以上の整数の何れかとし、前記雑音抑圧量の推定値は、(i)C個の雑音抑圧量参照値と、(ii)前記混合信号Xと前記パラメータとに基づき得られる、前記音響信号S_nの雑音抑圧量参照値に対する出力確率o_nと、の重み付け加算により表現される、
音源強調方法。
請求項１から請求項４の何れかの音源強調装置としてコンピュータを機能させるためのプログラム。