JP6623376B2 - 音源強調装置、その方法、及びプログラム - Google Patents

音源強調装置、その方法、及びプログラム Download PDF

Info

Publication number
JP6623376B2
JP6623376B2 JP2016165789A JP2016165789A JP6623376B2 JP 6623376 B2 JP6623376 B2 JP 6623376B2 JP 2016165789 A JP2016165789 A JP 2016165789A JP 2016165789 A JP2016165789 A JP 2016165789A JP 6623376 B2 JP6623376 B2 JP 6623376B2
Authority
JP
Japan
Prior art keywords
signal
noise suppression
sound source
sound
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016165789A
Other languages
English (en)
Other versions
JP2018031967A (ja
Inventor
健太 丹羽
健太 丹羽
一哉 武田
一哉 武田
健登 大谷
健登 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya University NUC
Nippon Telegraph and Telephone Corp
Tokai National Higher Education and Research System NUC
Original Assignee
Nagoya University NUC
Nippon Telegraph and Telephone Corp
Tokai National Higher Education and Research System NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya University NUC, Nippon Telegraph and Telephone Corp, Tokai National Higher Education and Research System NUC filed Critical Nagoya University NUC
Priority to JP2016165789A priority Critical patent/JP6623376B2/ja
Publication of JP2018031967A publication Critical patent/JP2018031967A/ja
Application granted granted Critical
Publication of JP6623376B2 publication Critical patent/JP6623376B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、様々な音源の音を含む音響信号から特定の音源の音を強調する技術に関する。例えば、楽曲信号(1chにMIXされたものを想定する)から各楽器音(e.g.ギター、ベース、ドラム、キーボード)、歌声(ボーカル)を強調し、抽出する技術に関する。なお、抽出した音は、そのまま出力してもよいし、楽曲定位操作系において使用しユーザの好みに応じてリミックスして出力してもよい。
1chにMIXされた音響信号から特定の音源の音を強調し、抽出する従来技術として、非特許文献1が知られている。
図1は、非特許文献1の機能ブロック図を示す。特定の音源の音信号(強調したい音響信号)をs(t)、強調したい音源以外の雑音の音信号(以下、雑音信号ともいう)をn(t)と表す。例えば、楽曲信号からギターの音だけを抽出したい場合には、ギターの音響信号をs(t)、雑音信号(その他の音源(ベース、ドラム、キーボード、ボーカルなど)が混合された音信号)をn(t)として扱うことを意味する。tは時間のインデックスを表す。s(t)、n(t)の周波数領域に展開された信号をS(τ,ω)、N(τ,ω)と表す。ここで、τ,ωは、時間フレーム、周波数のインデックスを表す。この時、強調前の音響信号(混合信号)X(τ,ω)は、以下のように表現される。
X(τ,ω) = S(τ,ω) + N(τ,ω) (1)
なお、混合信号X(τ,ω)の時間領域表現は、x(t)である。
楽曲の場合にはステレオ信号であることが多いので、その場合、加算したり、重み付け加算してシングルチャネル化されたモノラル信号を利用する。
周波数領域変換部部93は、時間領域の混合信号x(t)を入力として、周波数領域の混合信号X(τ,ω)に変換し、出力する。
バイナリマスク推定部94では、混合信号X(τ,ω)を入力として、バイナリマスクI(τ,ω)を出力する。なお、バイナリマスクI(τ,ω)の推定方法については、例えば、DNN(Deep Neural Networks、CNN(Convolutional Neural Networks)、RNN(Recurrent Neural Networks)といった機械学習を利用することを前提としている。事前に教師あり学習を実施し、各音源ごとに最適化されたパラメータpをDNN、CNN、RNN等の機会学習において用いる。なお、ギターの音以外に、ベース、ドラム、キーボード、ボーカルなどをそれぞれ抽出し、強調する場合には、パラメータpは各音源(ベース、ドラム、キーボード、ボーカルなど)に対して、異なるものを用いる。つまり、各楽器についてパラメータpは最適化されているとする。
音源強調部95は、混合信号X(τ,ω)とバイナリマスクI(τ,ω)とを入力として、次式により、特定の音源を強調した音響信号(強調信号)^S(τ,ω)を求め、出力する。
^S(τ,ω)=I(τ,ω)X(τ,ω) (2)
時間領域変換部96は、強調信号^S(τ,ω)を入力とし、時間領域の強調信号^s(t)に変換し、出力する。
データベース部90には、学習用の混合信号XL(τ,ω)と、それを構成する強調したい学習用の音響信号SL(τ,ω)と、学習用の雑音信号NL(τ,ω)とが格納されている。なお、例えば、ギターの音を強調するようなバイナリマスクを推定する場合、学習用の音響信号SL(τ,ω)がギターの音のみが入った音響信号であり、学習用の雑音信号NL(τ,ω)はその他楽器/ボーカルの音響信号を加算した信号である。
特徴量−ラベル生成部91では、学習用の音響信号SL(τ,ω)、学習用の雑音信号NL(τ,ω)を入力として、特徴量とラベルとを出力する。特徴量の設計方法は様々あるが、最も単純な例として、学習用の音響信号SL(τ,ω)のパワースペクトル|SL(τ,ω)|2、学習用の雑音信号NL(τ,ω)のパワースペクトル|NL(τ,ω)|2やそれを平滑化した値を利用する。また、ラベルの設計方法も様々あるが、最も単純な例として、バイナリマスクIL(τ,ω)を用意する。パワースペクトル|SL(τ,ω)|2、|NL(τ,ω)|2やバイナリマスクIL(τ,ω)は、各フレーム時間、各周波数ごとに用意する。バイナリマスクIL(τ,ω)は、以下のように計算する。
Figure 0006623376
ここで、SNRは観測時点のSN比であり、θはバイナリマスクの値(0 or 1)を決定する際に用いる閾値である。ラベル[0,1]は周波数ωごと、あるいは周波数帯域ごとに書かれることになる。閾値は例えばθ=0dBのように選択することが多い。これは、該当する周波数−時間フレームτで、目的とする音源(e.g. ギター)が最も主要な音源か否かを判断することに対応する。また、フロア値は、式(3)では0を利用したが、0<α<1を満たす値αを用いることが多い(例えば0.1〜0.3 程度の値)。なお、SNRは、以下のように計算される。
Figure 0006623376
事前学習部92は、特徴量とラベル(例えばパワースペクトル|SL(τ,ω)|2、|NL(τ,ω)|2とバイナリマスクIL(τ,ω))とを入力とし、DNN、CNN、RNN用のパラメータpを学習し、出力する。なお、パラメータpは、バイナリマスク推定部94で使用するためのパラメータであり、強調したい音源ごと(例えば、ギター、ベース、ドラム等)に事前に学習する。一実装として、DNNであれば、重み行列やバイアスを表すベクトルが格納される。
Y. Wang, A. Narayanan and D.L.Wang, "On training targets for supervised speech separation", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, pp. 1849-1858, 2014.
しかしながら、従来技術には、以下の2つの問題がある。
1.出力される強調信号の歪が大きくなってしまう。バイナリマスクを利用して音源の強調を行う場合、特定の時間周波数チャネルにおいて、音が存在するか(1)、または、存在しないか(0)の二択しか行うことができない。楽曲信号では、一つ時間周波数チャネルに、多くの音が混合していることが想定される。その場合、バイナリマスクでは、所望の音源だけを強調するために、十分な性能を得ることができない可能性が高い。
2.強調信号群を再合成する際に、元の信号とかけ離れた音源になってしまうことがある。楽曲定位操作系のように、分離した後で再合成して受聴するような使い方をする場合、分離性能とともに、再合成した際の元の信号との歪が大きくないほうが好ましいと考えられる。個々の音源を独立に分離した場合、再合成した際の歪については考慮されていないため、合成後の信号が歪んでしまう可能性がある。
本発明は、従来よりも適切に所望の音源だけを強調し、強調信号群を再合成したときに合成後の信号の歪みを低減することができる音源強調装置、その方法、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、音源強調装置は、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号Snを含む混合信号Xを入力とし、混合信号Xと、N種類の音響信号Snの総和と、の差分が小さくなるように、各音響信号Snに対する雑音抑圧量を推定する雑音抑圧量推定部と、混合信号Xと雑音抑圧量の推定値Wnとを用いて、混合信号Xに含まれる音響信号Snを強調した強調信号^Snを求める音源強調部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、音源強調方法は、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、雑音抑圧量推定部が、N種類の、楽器の演奏または歌唱それぞれに係る音響信号Snを含む混合信号Xを入力とし、混合信号Xと、N種類の音響信号Snの総和と、の差分が小さくなるように、各音響信号Snに対する雑音抑圧量を推定する雑音抑圧量推定ステップと、音源強調部が、混合信号Xと雑音抑圧量の推定値Wnとを用いて、混合信号Xに含まれる音響信号Snを強調した強調信号^Snを求める音源強調ステップとを含む。
本発明によれば、従来よりも適切に所望の音源だけを強調し、強調信号群を再合成したときに合成後の信号の歪みを低減することができるという効果を奏する。
従来技術を説明するための図。 第一実施形態に係る音源強調装置の機能ブロック図。 第一実施形態に係る音源強調装置の処理フローの例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
第一実施形態では、以下2点において、従来技術と異なる。
1.バイナリマスクではなく、雑音抑圧量を連続値で表現する。例えば、4段階程度に離散化された雑音抑圧量に対して重みづけ加算することで連続値を表現する。このような構成により、複数の音源が時間周波数チャネルに混在している場合でも、より高精度に目的音を雑音から分離し、強調できることが期待される。
2.再合成時の信号(ギター、ベース、ドラム等の強調信号群を単純に加算した信号であり、以下、再合成信号とも言う)と、元の混合信号との二乗誤差を最小化するように雑音抑圧量を表現することで、再合成時の再現性を保つことが期待される。つまり、合成時の信号を受聴した際に、歪が少ないと考えられる。
このような構成により、楽曲信号などといった、より一般的かつ多数の音が混合しているような音に対して特定の音源の強調精度が高まることが期待される。
<第一実施形態>
図2は第一実施形態に係る音源強調装置の機能ブロック図を、図3はその処理フローを示す。
音源強調装置100は、N種類の、楽器の演奏または歌唱それぞれに係る音源の音響信号sn(t)を含む混合信号x(t)を入力とし、N種類の音響信号sn(t)に対応するN個の強調信号^sn(t)を出力する。ただし、n=1,2,…,Nであり、Nは1以上の整数の何れかである。混合信号x(t)は、背景技術で説明した通りである。
音源強調装置100は、周波数領域変換部102、雑音抑圧量推定部103、音源強調部104、時間領域変換部105、データベース部190、特徴量−ラベル生成部191及び事前学習部192を含む。
<周波数領域変換部102>
周波数領域変換部102は、時間領域の混合信号x(t)を入力とし、時間領域の混合信号x(t)を周波数領域の混合信号X(τ,ω)に変換し(S102)、出力する。時間領域の信号を周波数領域の信号に変換する方法として、例えば、短時間フーリエ変換等を用いる。
<データベース部190>
データベース部190には、学習用の混合信号XL(τ,ω)と、それを構成する強調したい学習用の音響信号SL,n(τ,ω)と、学習用の雑音信号NL,n(τ,ω)とが格納されている。なお、例えば、ギターの音を強調するような雑音抑圧量を推定する場合、学習用の音響信号SL,n(τ,ω)がギターの音のみが入った音響信号であり、学習用の雑音信号NL,n(τ,ω)はその他楽器/ボーカルの音響信号を加算した信号である。n=1,2,…,Nであり、N種類全ての、楽器の演奏または歌唱それぞれに係る音源に対して、学習用の音響信号SL,n(τ,ω)と学習用の雑音信号NL,n(τ,ω)とが用意され、格納されている。なお、XL(τ,ω)=SL,n(τ,ω)+NL,n(τ,ω)であり、データベース部190には、XL(τ,ω),SL,n(τ,ω),NL,n(τ,ω)のうちの何れか二つを記憶しておき、残りの1つをデータベース部190または特徴量−ラベル生成部191で計算により求めてもよい。
<特徴量−ラベル生成部191>
特徴量−ラベル生成部191は、背景技術の特徴量−ラベル生成部91と同様の処理を行うが、以下の2点において異なる。
(差異1)
従来方式では、周波数ごとに特徴量-ラベルを用意していた。本実施形態では、複数の周波数を集約化した周波数バンドごとに特徴量-ラベルを用意するような実装を行う。なお、ΩO個のバンドで構成されるとし、そのインデックス集合をΩ={1,…,ΩO}と表す。従来方式ではラベルを2値化しているため、周波数ごとにラベルを用意している。一方、本実施形態では、ラベルを2値以上のパターン(例えば4段階[1,0.5,0.3,0.1])となるように実装している。ラベルの値は、どの程度雑音を抑圧したらよいかを表している。2値以上のパターンでラベルの値を表すことになるので、以後、この値のことをマスクではなく雑音抑圧量と表現することにする。なお、ラベルの値を雑音抑圧量参照値ともいう。雑音抑圧量参照値のパターン数は、実験では4程度で利用しているが、これはパターン数が多くし過ぎると、どのパターンに属するかについての推定精度が悪くなる、または、学習データの量が膨大になることが想定されるためである。
(差異2)
分離後の強調信号群(ギター、ベース、ドラム等)を再合成した際に、元の混合信号との歪を計算し、できるだけその歪を小さくなるようにしたい。よって、特徴量-ラベルのセットは、全ての音源分計算する必要がある。例えば、ボーカル、ギター、ベース、ドラム、キーボードの5つの音源に分類する場合には、音源数N=5であり、N=5組の特徴量-ラベルを用意する。
特徴量−ラベル生成部191では、学習用の音響信号SL,n(τ,ω)、学習用の雑音信号NL,n(τ,ω)を入力として、特徴量とラベルとを出力する。特徴量の設計方法は様々あるが、最も単純な例として、学習用の音響信号SL,n(τ,ω)のパワースペクトル|SL,n(τ,ω)|2、学習用の雑音信号NL,n(τ,ω)のパワースペクトル|NL,n(τ,ω)|2やそれを平滑化した値を利用する。また、ラベルの設計方法も様々あるが、最も単純な例として、複数の離散値からなる学習用雑音抑圧量WL,n(τ,ω)を設定する方法がある。パワースペクトル|SL,n(τ,ω)|2、|NL,n(τ,ω)|2や学習用雑音抑圧量WL,n(τ,ω)は、各フレーム時間、各周波数ごとに用意する。学習用雑音抑圧量WL,n(τ,ω)は、以下のように計算する。
Figure 0006623376
ここで、SNRL,nは観測時点のSN比であり、θ1、θ2、…、θC-1は学習用雑音抑圧量WL,nの値(q1、q2、…、qC)を決定する際に用いる閾値であり、θ12<…<θC-1であり、0≦q1<q2<…<qC-1≦1である。ラベル[q1,q2,…,qC]は周波数ωごとに書かれる。閾値θ1、θ2、…、θC-1は実験等により適切な値を求めておく。これは、該当する周波数−時間フレームτで、目的とする音源(e.g. ギター)がどの程度の割合を示す音源かを示す。また、フロア値q1は、背景技術で示したように、0を利用してもよいし、0<q1<q2<…<qC-1≦1を満たす値q1を用いてもよい。例えばq1を0.1〜0.3 程度の値とする。フロア値q1を0より大きな値とすることで、「プッ」っと音が途切れるような音響信号が再生されるのを防ぐことができる。なお、SNRL,nは、以下のように計算される。
Figure 0006623376
このようにして、特徴量−ラベル生成部191は、特徴量(例えば、パワースペクトル|SL,n(τ,ω)|2、|NL,n(τ,ω)|2やそれを平滑化した値)とラベル(学習用雑音抑圧量WL,n(τ,ω))とを求め、出力する。
<事前学習部192>
事前学習部192は、特徴量(例えば、パワースペクトル|SL,n(τ,ω)|2、|NL,n(τ,ω)|2やそれを平滑化した値)とラベル(学習用雑音抑圧量WL,n(τ,ω))とを入力とし、雑音抑圧量推定部103で雑音抑圧量を推定するために必要となるパラメータpを求め、出力する。(i)2値以上の値を利用して連続的な雑音抑圧量を表す点と、(ii)N個の強調信号群を再合成した際に、元の混合信号との歪が小さくなるように雑音抑圧量の最適設定できるという2点において、従来方式との差分がある。
まず、(i)の連続的な雑音抑圧量を表す方式について簡潔に説明する。例えば、C段階の雑音抑圧量参照値(q=[q1,q2,…,qC]T)とn番目の音響信号Sn(τ,ω)(時間フレームτ、周波数ω)のC段階の雑音抑圧量参照値に対する出力確率をon(τ,ω)=[on,1(τ,ω),…,on,C(τ,ω)]Tとするとき、n番目の音響信号Sn(τ,ω)(時間フレームτ、周波数ω)に対する連続量で表した雑音抑圧量の推定値Wn(τ,ω)は、以下で書くことができる。
Wn(τ,ω)=qTon(τ,ω) (5)
よって、雑音抑圧量の推定値Wn(τ,ω)は、出力確率on(τ,ω)を重みとする2個以上の離散値(雑音抑圧量参照値(q=[q1,q2,…,qC]T))の重み付け加算により連続値で表現される。なお、出力確率on(τ,ω)は、雑音抑圧量推定部103を構成するニューラルネットワークの出力値であり、以下の関係が成立するように正規化されて出力される。
Figure 0006623376
次に、(ii)の再合成時の元の信号の再現性を保証するためのパラメータpを最適化する提案方式について説明する。まず、n番目の音源を強調した信号(以下、強調信号ともいう)を^Sn(τ,ω)と表す。強調信号^Sn(τ,ω)は、
^Sn(τ,ω)=Wn(τ,ω)X(τ,ω)=qTon(τ,ω)X(τ,ω) (7)
となる。
N個の強調信号を単純加算した信号と、元の混合信号X(τ,ω)との二乗誤差E(τ)を以下で定義する。
Figure 0006623376
以下のように、二乗誤差E(τ)をニューラルネットの出力層の値on(τ,ω)で微分することで、再合成信号の再現性を考慮して、パラメータpを最適化できるのではないかと考えた。
Figure 0006623376
誤差逆伝搬法(参考文献1参照)に則って、ニューラルネットのパラメータを最適化する方法について簡略的に説明する。
(参考文献1)岡谷貴之, “深層学習,” 講談社, 2015, p.7-54.
一つの例として、全結合型DNNをNN構築に用いた場合についてのみ説明する。なお、この部分は、従来のCNN、RNN等で置き換え可能である。まず、順方向のニューラルネットの計算について説明する。なお、この順方向のニューラルネットの計算は、最適化されたパラメータpと入力信号(上述の混合信号に相当)X(τ,ω)を入力として、雑音抑圧量推定部103にて行う演算に対応する。入力信号X(τ,ω)をΩO個の周波数バンドに分割し、式(10)のように特徴量化する。
q(1)=[|X(τ,1)|2,…,|X(τ,ΩO)|2]T (10)
ここで、|X(τ,Ω)|2は、Ω番目の周波数バンド、時間フレームτにおける入力信号のバンドパワーを表す。Ω={1,…,ΩO}とする。ψ層目のノード数をJψと表すとき、J1Oである。つまり、1層目のノード数と周波数バンドの総数ΩOとが一致する。また、層の総数をΨとし、ψ=1,2,…,Ψとする。パラメータpは、ニューラルネットで用いられるパラメータであり、重み行列{P(2),…,P(Ψ)}とバイアス{b(2),…,b(Ψ)}とが含まれる。以下の計算をΨ-1回繰り返すことでパラメータpが得られる。
u(ψ)=P(ψ)q(ψ-1)+b(ψ) (11)
q(ψ)=f(ψ)(u(ψ)) (12)
ここで、各変数の次元は、u(ψ)∈RJ_ψ×1、q(ψ)∈RJ_ψ×1、P(ψ)∈RJ_ψ×J_(ψ-1)、b(ψ)∈RJ_ψ×1である。なお、上付き添え字X_YはXYを意味する。また、f(ψ)(・)はψ層目の活性化関数である。例えばΨ-1層目までの計算では、ランプ関数(ReLU)を用いることが多い。
f(ψ)(u(ψ))=max(0,u(ψ)) (ψ=2,…,Ψ-1) (13)
最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。周波数バンドΩに対応するノード(C種類の雑音抑圧量参照値に対する出現確率値)のインデックスをVi,1,…,Vi,Cとする。そして、u(ψ)の対応する要素をuV_i,1,…,uV_i,Cとする。ただし、下付き添え字X_YはXYを意味する。その場合、最終層の出力値はソフトマックス関数で表すことができる。
Figure 0006623376
なお、
on(τ,ω)=q(Ψ) (15)
である。また、JΨ=C×ΩOである。
次に、誤差逆伝搬法に則って、パラメータpを最適化する計算について説明する。学習用のサンプル総数をDとする。つまり、Dフレーム分のデータを使用する。D個のサンプルに対して、式(11)、(12)の処理を実施する場合、以下のような行列形式で表される。
U(ψ)=P(ψ)Q(ψ-1)+b(ψ)1T D (16)
Q(ψ)=f(ψ)(U(ψ)) (17)
ここで、U(ψ)∈RJ_ψ×D、Q(ψ)∈RJ_ψ×Dである。ネットワークパラメータの勾配は、出力層から入力層の順に計算される。正解値に最も近いC種類の雑音抑圧量参照値にのみ1を立てたベクトルをΞとするとき、ψ層目の勾配Δ(ψ)は以下で計算される。
Figure 0006623376
ネットワークパラメータの勾配は、
Figure 0006623376
となるので、以下のように逐次的に更新される。
P(ψ)←P(ψ)+ΔP(ψ) (21)
b(ψ)←b(ψ)+Δb(ψ) (22)
ここで、
ΔP(ψ)=μΔP(ψ)*-γ(∂P(ψ)+λP(ψ)) (23)
Δb(ψ)=μΔb(ψ)*-γ∂b(ψ) (24)
であり、ΔP(ψ)*とΔb(ψ)*は前回の更新における摂動であり、γは学習係数、μはモメンタム、λは重み減衰である。
よって、パラメータpは、(i)N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号SL,n(τ,ω)と、(ii)N種類の学習用音響信号SL,nを含む学習用混合信号XL(τ,ω)と、(iii)N種類の学習用音響信号SL,n(τ,ω)に対して付与される雑音抑圧量参照値(q=[q1,q2,…,qC]T))とを用いて、事前に学習されたものと言える。なお、雑音抑圧量参照値(q=[q1,q2,…,qC]T))は、学習用混合信号XL(τ,ω)に含まれる雑音を抑圧する量を示すものである。
<雑音抑圧量推定部103>
雑音抑圧量推定部103は、混合信号X(τ,ω)とパラメータpとを入力とし、混合信号X(τ,ω)と、N種類の音響信号Sn(τ,ω)の総和と、の差分が小さくなるように、各音響信号Sn(τ,ω)に対する雑音抑圧量を推定し(S103)、推定値Wn(τ,ω)を出力する。なお、式(10)-(15)の計算と、式(5)を行うことで、推定値Wn(τ,ω)を得る。つまり、混合信号X(τ,ω)を用いて、
q(1)=[|X(τ,1)|2,…,|X(τ,ΩO)|2]T (10)
を求める。パラメータpに含まれる重み行列{P(2),…,P(Ψ)}とバイアス{b(2),…,b(Ψ)}とを用いて、
u(ψ)=P(ψ)q(ψ-1)+b(ψ) (11)
q(ψ)=f(ψ)(u(ψ)) (12)
を計算する。前述の通り、f(ψ)(・)はψ層目の活性化関数であり、例えば、Ψ-1層目までの計算では、ランプ関数(ReLU)を用いる。
f(ψ)(u(ψ))=max(0,u(ψ)) (ψ=2,…,Ψ-1) (13)
このようにして、q(2),q(3),…,q(Ψ-1)を求める。最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。その場合、最終層の出力値はソフトマックス関数で表すことができる。よって、
Figure 0006623376
なお、
on(τ,ω)=q(Ψ) (15)
である。以上の処理により、on(τ,ω)を求め、次式により、雑音抑圧量の推定値Wψ(τ,ω)を求め、音源強調部104に出力する。
Wn(τ,ω)=qTon(τ,ω) (5)
q=[q1,q2,…,qC]T
on(τ,ω)=[on,1(τ,ω),on,2(τ,ω),…,on,C(τ,ω)]T
なお、この演算はN個の音源nそれぞれに対して行う。
よって、雑音抑圧量の推定値Wn(τ,ω)は、(i)C個の雑音抑圧量参照値q=[q1,q2,…,qC]Tと、(ii)音響信号Sn(τ,ω)の雑音抑圧量参照値qに対する出力確率on(τ,ω)と、の重み付け加算により表現されるものと言える。出力確率on(τ,ω)は、前述の通り、混合信号X(τ,ω)とパラメータpとに基づき得られる値である。
<音源強調部104>
音源強調部104は、混合信号X(τ,ω)とN個の推定値Wn(τ,ω)とを入力とし、次式により、混合信号X(τ,ω)に含まれる音響信号Sn(τ,ω)を強調した強調信号^Sn(τ,ω)を求め(S104)、出力する。
^Sn(τ,ω)=Wn(τ,ω)X(τ,ω)
なお、この演算はN個の音源nそれぞれに対して行う。
<時間領域変換部105>
時間領域変換部105は、強調信号^Sn(τ,ω)を入力とし、周波数領域の強調信号^Sn(τ,ω)を時間領域の強調信号^sn(t)に変換し(S105)、出力する。周波数領域の信号を時間領域の信号に変換する方法として、周波数領域変換部102に対応する方法を用いればよい。例えば、逆短時間フーリエ変換等を用いる。
<効果>
以上の構成により、従来よりも適切に所望の音源だけを強調し、強調信号群を再合成したときに合成後の信号の歪みを低減することができる。楽曲信号に対して適用することで、楽器音を強調して抽出することができる。例えば、楽曲のリミックスやリマスタリングなどに応用することができる。また、特定の楽器音を強調することができるため、逆に特定の楽器音を抑圧することも可能であり、カラオケや楽器の練習といった応用も考えられる。
<変形例>
本実施形態では、式(5),(6)-(9),(15)を周波数ωで行っているが、周波数バンドΩで同様の処理を行ってもよい。
本実施形態では、パラメータpを求める際に用いるモデルとしてニューラルネットワークを利用しているが、他のモデル(例えば、混合ガウス分布(GMM))を利用してもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. Nを複数の音源の種類数とし、n=1,2,…,Nとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号Snを含む混合信号Xを入力とし、N種類の音響信号S n をそれぞれ強調したN個の強調信号^S n の総和と、前記混合信号Xと、の差分が小さくなるように、各音響信号Snに対する雑音抑圧量を推定する雑音抑圧量推定部と、
    前記混合信号Xと雑音抑圧量の推定値Wnとを用いて、前記混合信号Xに含まれる音響信号Snを強調した強調信号^Snを求める音源強調部とを含む、
    音源強調装置。
  2. 請求項1の音源強調装置であって、
    前記雑音抑圧量推定部において前記雑音抑圧量の推定値Wnを推定する際に用いるモデルのパラメータは、(i)N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号SL,nと、(ii)N種類の前記学習用音響信号SL,nを含む学習用混合信号XLと、(iii)前記学習用混合信号XLに含まれる雑音を抑圧する量を示す、N種類の前記学習用音響信号SL,nに対して付与される雑音抑圧量参照値とを用いて、事前に学習されたものである、
    音源強調装置。
  3. 請求項2の音源強調装置であって、
    Cを2以上の整数の何れかとし、前記雑音抑圧量の推定値は、(i)C個の雑音抑圧量参照値と、(ii)前記混合信号Xと前記パラメータとに基づき得られる、前記音響信号Snの雑音抑圧量参照値に対する出力確率onと、の重み付け加算により表現される、
    音源強調装置。
  4. 請求項2または請求項3の音源強調装置であって、
    前記モデルはニューラルネットワークにより表現されるものであり、
    前記混合信号Xと、N種類の強調信号^Snの総和との二乗誤差を、ニューラルネットワークの出力層の値で微分することで、前記パラメータを最適化する、
    音源強調装置。
  5. Nを複数の音源の種類数とし、n=1,2,…,Nとし、雑音抑圧量推定部が、N種類の、楽器の演奏または歌唱それぞれに係る音響信号Snを含む混合信号Xを入力とし、N種類の音響信号S n をそれぞれ強調したN個の強調信号^S n の総和と、前記混合信号Xと、の差分が小さくなるように、各音響信号Snに対する雑音抑圧量を推定する雑音抑圧量推定ステップと、
    音源強調部が、前記混合信号Xと雑音抑圧量の推定値Wnとを用いて、前記混合信号Xに含まれる音響信号Snを強調した強調信号^Snを求める音源強調ステップとを含む、
    音源強調方法。
  6. 請求項5の音源強調方法であって、
    前記雑音抑圧量推定ステップにおいて前記雑音抑圧量の推定値Wnを推定する際に用いるモデルのパラメータは、(i)N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号SL,nと、(ii)N種類の前記学習用音響信号SL,nを含む学習用混合信号XLと、(iii)前記学習用混合信号XLに含まれる雑音を抑圧する量を示す、N種類の前記学習用音響信号SL,nに対して付与される雑音抑圧量参照値とを用いて、事前に学習されたものである、
    音源強調方法。
  7. 請求項6の音源強調方法であって、
    Cを2以上の整数の何れかとし、前記雑音抑圧量の推定値は、(i)C個の雑音抑圧量参照値と、(ii)前記混合信号Xと前記パラメータとに基づき得られる、前記音響信号Snの雑音抑圧量参照値に対する出力確率onと、の重み付け加算により表現される、
    音源強調方法。
  8. 請求項1から請求項4の何れかの音源強調装置としてコンピュータを機能させるためのプログラム。
JP2016165789A 2016-08-26 2016-08-26 音源強調装置、その方法、及びプログラム Active JP6623376B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016165789A JP6623376B2 (ja) 2016-08-26 2016-08-26 音源強調装置、その方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016165789A JP6623376B2 (ja) 2016-08-26 2016-08-26 音源強調装置、その方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018031967A JP2018031967A (ja) 2018-03-01
JP6623376B2 true JP6623376B2 (ja) 2019-12-25

Family

ID=61304134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016165789A Active JP6623376B2 (ja) 2016-08-26 2016-08-26 音源強調装置、その方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6623376B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147804A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 一种基于深度学习的音质特性处理方法及系统
WO2019235633A1 (ja) * 2018-06-07 2019-12-12 ヤマハ株式会社 機械学習方法および機械学習装置
JP6721010B2 (ja) * 2018-06-07 2020-07-08 ヤマハ株式会社 機械学習方法および機械学習装置
CN108806707B (zh) * 2018-06-11 2020-05-12 百度在线网络技术(北京)有限公司 语音处理方法、装置、设备及存储介质
JP6912780B2 (ja) * 2018-08-24 2021-08-04 日本電信電話株式会社 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP7026357B2 (ja) * 2019-01-31 2022-02-28 日本電信電話株式会社 時間周波数マスク推定器学習装置、時間周波数マスク推定器学習方法、プログラム
JP7026358B2 (ja) * 2019-01-31 2022-02-28 日本電信電話株式会社 回帰関数学習装置、回帰関数学習方法、プログラム
WO2023162508A1 (ja) * 2022-02-25 2023-08-31 ソニーグループ株式会社 信号処理装置および信号処理方法
CN115810364B (zh) * 2023-02-07 2023-04-28 海纳科德(湖北)科技有限公司 混音环境中的端到端目标声信号提取方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239052B2 (en) * 2007-04-13 2012-08-07 National Institute Of Advanced Industrial Science And Technology Sound source separation system, sound source separation method, and computer program for sound source separation
JP5294300B2 (ja) * 2008-03-05 2013-09-18 国立大学法人 東京大学 音信号の分離方法
WO2013145578A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP6644356B2 (ja) * 2015-08-05 2020-02-12 沖電気工業株式会社 音源分離システム、方法及びプログラム

Also Published As

Publication number Publication date
JP2018031967A (ja) 2018-03-01

Similar Documents

Publication Publication Date Title
JP6623376B2 (ja) 音源強調装置、その方法、及びプログラム
US11966660B2 (en) Method, system and artificial neural network
Kim et al. KUIELab-MDX-Net: A two-stream neural network for music demixing
Tachibana et al. Harmonic/percussive sound separation based on anisotropic smoothness of spectrograms
JP2019078864A (ja) 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム
Rodriguez-Serrano et al. Online score-informed source separation with adaptive instrument models
Nakano et al. Nonnegative matrix factorization with Markov-chained bases for modeling time-varying patterns in music spectrograms
Itoyama et al. Integration and adaptation of harmonic and inharmonic models for separating polyphonic musical signals
Hayes et al. A review of differentiable digital signal processing for music and speech synthesis
JP6567478B2 (ja) 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置
Tachibana et al. A real-time audio-to-audio karaoke generation system for monaural recordings based on singing voice suppression and key conversion techniques
JP7331588B2 (ja) 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム
CN116798405A (zh) 语音合成方法、装置、存储介质和电子设备
US20230260531A1 (en) Intelligent audio procesing
JP6925995B2 (ja) 信号処理装置、音声強調装置、信号処理方法およびプログラム
Hamadicharef et al. Intelligent and perceptual-based approach to musical instruments sound design
Lee et al. Discriminative training of complex-valued deep recurrent neural network for singing voice separation
JP2020194558A (ja) 情報処理方法
Sustek et al. Dealing with Unknowns in Continual Learning for End-to-end Automatic Speech Recognition.
JP2018138936A (ja) 音源強調装置、その方法、及びプログラム
Liu et al. Teacher-student learning and post-processing for robust BiLSTM mask-based acoustic beamforming
Tanabe et al. Music source separation with generative adversarial network and waveform averaging
JP2020030373A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP2011053565A (ja) 信号分析装置、信号分析方法、プログラム、及び記録媒体
JP2019090930A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160826

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180410

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190305

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191024

R150 Certificate of patent or registration of utility model

Ref document number: 6623376

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250