JP2014089249A - 音源分離装置 - Google Patents

音源分離装置 Download PDF

Info

Publication number
JP2014089249A
JP2014089249A JP2012237835A JP2012237835A JP2014089249A JP 2014089249 A JP2014089249 A JP 2014089249A JP 2012237835 A JP2012237835 A JP 2012237835A JP 2012237835 A JP2012237835 A JP 2012237835A JP 2014089249 A JP2014089249 A JP 2014089249A
Authority
JP
Japan
Prior art keywords
mask
unit
speech
signal spectrum
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012237835A
Other languages
English (en)
Other versions
JP6253226B2 (ja
Inventor
Yuki Tachioka
勇気 太刀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2012237835A priority Critical patent/JP6253226B2/ja
Publication of JP2014089249A publication Critical patent/JP2014089249A/ja
Application granted granted Critical
Publication of JP6253226B2 publication Critical patent/JP6253226B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】TDOAから観測音の到来方向を算出して作成したマスクを音声らしさを用いて修正し、マスクのパーミュテーションを解決する。
【解決手段】各音源から出力された音声の到来方向を算出する到来方向算出部1と、到来方向算出部1が算出した各到来方向の時間周波数平面において、観測信号スペクトルから複数の音源のうち対応する音源から出力された目的音声以外の観測音の観測信号スペクトルをマスキングするマスクを作成するマスク作成部2と、音声の特徴に基づいて、各マスクについて目的音声と当該目的音声以外の観測音との分離性能を検証し、検証結果に基づいてマスクを再推定するマスク再推定部3と、マスク再推定部3が再推定した各マスクを用いて、観測信号スペクトルから目的音声以外の観測音の観測信号スペクトルをマスキングし、目的音声の観測信号スペクトルを取得するマスク部4とを備える。
【選択図】図2

Description

この発明は、複数の音源からの音声信号が混在した観測信号から、それぞれの音源に対応する分離信号を得る音源分離装置に関するものである。
複数人の音声が混ざった音声信号を分離して、各人の音声信号を取り出す技術は音声認識技術の適用範囲拡大に寄与する。音源毎の音声信号の分離方法としては、マイクの死角を対象外の話者に向けるビームフォーミング(以下、BFと称する)による方法や、独立成分分析(ICA:independent Component analysis)により混合行列を推定する方法が用いられている。また近年は、時間周波数平面上のスペクトルで音声がスパースなことを利用して、対象話者以外の成分をマスクするバイナリマスクによる分離方法が用いられている。
一方で、BFはノイズの抑圧には優れているが、混成音声の分離にはあまり有効でない。また、ICAは残響や騒音の影響で性能が低下する。さらに、BFやICAによる分離方法では、マイクの数が音源数以上でなければならないという制約がある。これに対して、バイナリマスクにはこのような制限がないため、適用先が広く、有望であると言える。
バイナリマスクにもいくつかの手法があるが、ここでは時間・周波数binにおける音声の到来時間差(TDOA)に着目して分類を行う方法について述べる。
2つのマイクで観測された音声信号の短時間フーリエ変換後の時間周波数平面(t,f)におけるスペクトルをp, pとすると、各スペクトルの位相差αは以下の式(1)で表される。
Figure 2014089249
さらに、式(1)から各スペクトルの成分の時間差τと音波の到来方向θが、以下の式(2)により求められる。
τ= 1/2πfα
θsin-1(τc/lm) ・・・(2)
cは音速、lはマイク間隔である。音波の到来方向を別手法で推定する、もしくはθをクラスタリングすることにより、音源の方向別に(t,f)領域でのマスクを作成する。
例えば到来角がθ1の第1の信号に対するマスクがM(t,f)であった場合、以下の式(3)のように推定される。
Figure 2014089249
θtは許容誤差、εは十分小さい数である。
推定されたマスクを用いてマスクされた以下の式(4)で示すスペクトルを、逆フーリエ変換してマスク後の信号を得る。
p'1(f,t) = M1(t,f) p1(f,t) ・・・(4)
TDOAによるバイナリマスクを用いた従来の音源分離装置は、例えば上述した式(2)に基づいて到来方向θを算出する手段、上述した式(3)に基づいてマスクを作成する手段、および上述した式(4)に基づいて音声スペクトルをマスクすることにより音声分離スペクトルを得る手段によって構成される。
しかし、バイナリマスクによる分離方法では、バイナリマスクの推定において、マスクを時間および周波数binといった少ない情報から推定するため、推定の精度が誤差の影響を受けやすいという問題があった。特にTDOAから観測音の到来方向を算出してマスクを作成する方法では、マイクの間隔に比して、波長の長い低周波成分の場合には位相差が付きにくいことから、波長の短い高周波成分の場合には空間的エイリアシングの影響でマスクの推定精度が低下するという問題があった。
そこで、バイナリマスクを用いた音源分離方法において、音声の特徴を生かしてマスクの誤判定を抑制する技術として、例えば特許文献1および特許文献2に開示されているものがある。特許文献1には、ある周波数binに隣接する複数の周波数binのスペクトル成分に対する時間変化を連結する手法が開示されている。特許文献2には、音源分離のためのバイナリマスキングにおいて、パワースペクトルからマスクパターンを生成する手法が開示されている。
また、バイナリマスクの妥当性を、音声モデルを用いて検証する技術として、例えば特許文献3から特許文献5に開示されているものがある。
特許文献3には、ブラインド音声分離にEMアルゴリズムを適用し、最大尤度を与える音源方向と、各時間周波数成分への各音源の寄与率をEMアルゴリズムによって推定する手法が開示されている。特許文献4には、信号分離において、事後確率の類似度を指標として観測信号のクラスタリングを行う手法が開示されている。特許文献5には、音源分離装置において、確率モデルのモデルパラメタと各音源の存在確率を用いて有効音源を抽出する手法が開示されている。
特開2008−026625号公報 特開2010−239424号公報 特開2008−145610号公報 特開2009−053349号公報 特開2011−164467号公報
しかしながら、上述した特許文献1および特許文献2に開示された技術では、マスクのスパース性を利用していないため、滑らかではあるが分離性能の低い非合理的なマスクを生じるという課題があった。また特許文献3に開示された技術では、マスクがスパースになるような基準が設けられておらず、分離性能の低い非合理的なマスクを生じるという課題があった。また、特許文献4および特許文献5に開示された技術では、音声らしさを基準として用いていないため、分離音に聴感上や音声認識にとって悪影響を及ぼすひずみが入りやすいという課題があった。
この発明は、上記のような課題を解決するためになされたもので、TDOAから観測音の到来方向を算出して作成したマスクを音声らしさを用いて修正し、マスクのパーミュテーションを解決する音源分離装置を提供することを目的とする。
この発明に係る音源分離装置は、複数の音源からの音声が混合した観測音を時間周波数領域に変換した観測信号スペクトルから、各音源から出力された音声の到来方向を算出する到来方向算出部と、到来方向算出部が算出した各到来方向の時間周波数平面において、観測信号スペクトルから複数の音源のうち対応する音源から出力された目的音声以外の観測音の観測信号スペクトルをマスキングするマスクを作成するマスク作成部と、音声の特徴に基づいて、マスク作成部が作成した各マスクについて、目的音声と当該目的音声以外の観測音との分離性能を検証し、検証結果に基づいてマスクを再推定するマスク再推定部と、マスク再推定部が再推定した各マスクを用いて、観測信号スペクトルから目的音声以外の観測音の観測信号スペクトルをマスキングし、目的音声の観測信号スペクトルを取得するマスク部とを備えるものである。
この発明によれば、分離性能の高いマスクを作成することができ、明瞭な目的音声を取得することができる。
実施の形態1による音源分離装置のマスク再推定処理を示す説明図である。 実施の形態1による音源分離装置の構成を示すブロック図である。 実施の形態2による音源分離装置の構成を示すブロック図である。 実施の形態3による音源分離装置の構成を示すブロック図である。 実施の形態4による音源分離装置の構成を示すブロック図である。 16kHzサンプリングでの波形とスペクトログラムを示す図である。 実施の形態5による音源分離装置の構成を示すブロック図である。
実施の形態1.
混合前の音声を用いて、それぞれの音源に対応する分離信号を得るためのマスク(理想マスク)を作成して観察すると、M1(t,f)=1となる(t,f)は、ある程度まとまっている傾向にある。すなわち時間・周波数方向にはスペクトルは局所的にはある程度の連続性がある。ところがTDOAにより作成したマスクは孤立点が多い。これはTDOAの推定誤差の影響で、1つの音源からの音が異なるマスクに分類されてしまうためである。そこで、この実施の形態1では、M1(t,f)=1となる(t,f)を近い範囲にまとめることで、より分離性能の高いマスクを作成する。
なお以下では、説明の簡単化のため上述した式(3)においてεを0とする。また、2つの音源から出力されて混合された音声信号を分離する場合を例に説明する。なお、本発明の構成は、3つ以上の音源から出力されて混合された音声信号を分離する場合にも適用可能である。
ここである(t,f)においてM1(t,f)=1,M2(t,f)=0であったとする。この時、時間周波数平面でのスペクトルの局所的な連続性を考慮すると、M2(t,f)の周囲の点に1が多く、M1(t,f)の周囲の点に0が多い場合は、推定誤りであって実はM1(t,f)=0,M2(t,f)=1である可能性が高い。ここでは例えば、密集度の指標として以下の式(5)を用いることとする。
Figure 2014089249
Δt,Δfはそれぞれ時間・周波数領域での近接範囲を示す。σ1(t,f)<σ2(t,f)であった場合にはM1(t,f)=0,M2(t,f)=1とする。この操作を時間周波数平面に対して行う。さらにそれを繰り返すことで、2つのマスクのうち正しいマスクに集約させることができる。言い換えると、マスクの密集度を高め凝縮させることができる。
時間周波数平面上でマスクが分散している場合、スパース性が低くなり音声らしさが失われる。そのため、近接範囲のマスクの状況を参考にして、対象マスクの{0,1}を切り替えることによりできるだけ小さい範囲にマスクをまとめることができる。この処理を繰り返すことにより、時間周波数平面上でマスクが局所的に分布するようになり、マスクの密集度を高める前と比較してマスクのスパース性を向上させることができる。
次に、マスクの密集度を高める処理を具体的に説明する。
図1は、この発明の実施の形態1による音源分離装置のマスク再推定処理を示す説明図である。図1(a)はマスクの初期状態を示し、図1(b)はマスク再推定処理を1回行った状態を示し、図1(c)はマスク再推定処理を2回行った状態を示している。
図1で示す表の列方向は時間を変化させた領域であり、行方向は周波数を変化させた領域である。
図1(a)の初期状態において、マスクMの領域AはM1(t,f)=1であり、領域BはM1(t+1,f)=1である。一方、マスクMの領域A´はM2(t,f)=0であり、領域B´はM2(t+1,f)=0である。領域A,A´では密集度がσ<σであることから、M1(t,f)=0,M2(t,f)=1と再推定される。一方、領域B,B´では密集度がσ>σであることから、M1(t,f)=1,M2(t,f)=0と再推定される。
図1(b)の再推定処理1回目の状態において、マスクMの領域AはM1(t,f)=0であり、領域BはM1(t+1,f)=1である。一方、マスクMの領域A´はM2(t,f)=1であり、領域B´はM2(t+1,f)=0である。領域A,A´では密集度がσ<σであることから、M1(t,f)=0,M2(t,f)=1と再推定される。同様に、領域B,B´においても密集度がσ<σであることから、M1(t+1,f)=0,M2(t+1,f)=1と再推定される。
図1(c)の2回目の状態において、マスクMの領域AはM1(t,f)=0であり、領域BはM1(t+1,f)=0である。一方、マスクMの領域A´はM2(t,f)=1であり、領域B´はM2(t+1,f)=1である。領域A,A´および領域B,B´では共に密集度がσ1<σ2であり、上述した再推定結果であるM1(t,f)=0,M2(t,f)=1と変化はない。
図1(a)で示した初期状態と、図1(c)で示した2回の再推定処理を行った状態との密度σにより、マスクM,Mの密集度が高まったと判定される。図1の例では、再推定処理を2回行う構成を示したが、再推定処理を行う回数はあらかじめ設定しておいてもよいし、密集度σの変化が閾値以下になった時に処理を終了するように構成してもよい。
また、図1の例では領域A,A´,B,B´に対して再推定処理を行う構成を示したが、図1で示したその他全ての領域を構成する全ての要素に対して近接要素の影響を勘案して再推定処理を行う。
図2は、この発明の実施の形態1による音源分離装置の構成を示すブロック図である。
音源分離装置10は、到来方向算出部1、マスク作成部2、マスク再推定部3およびマスク部4で構成されている。
到来方向算出部1は、第1のマイク20および第2のマイク30でそれぞれ観測された2つの混合音声信号の時間周波数領域(t,f)におけるスペクトルから、第1のマイク20および第2のマイク30からの音波の到来角θ、θを算出する。到来方向θの算出は、上述した式(1)および式(2)を用いて行われる。
マスク作成部2は、到来方向算出部1が算出した音波の到来方向θをクラスタリングする、または音波の到来方向を異なる手法で推定した結果を取得することにより、第1のマイク20の時間周波数領域(t,f)のマスクMおよび第2のマイク30の時間周波数領域(t,f)のマスクMを作成する。例えば、到来角θの第1のマイク20からの第1の音声信号に対するマスクMの時間周波数領域M(t,f)は、上述した式(3)で示したように推定される。
マスク再推定部3のマスク集約処理部3aは、上述した式(5)の基準に従って、マスク間で推定誤りを解消するため、例えばM1(t,f)=1となる時間周波数(t,f)領域を所定の範囲内にまとめるようにマスクM,Mの再推定処理を行い、マスクの集約を行う。マスクM,Mの再推定処理として、図1で示した再推定処理を適用する。再推定されたマスクM´,M´は、マスク部4に出力される。
マスク部4は、マスク再推定部3から入力されたマスクM,Mを用いて上述した式(4)に基づいて、第1のマイク20および第2のマイク30で観測された音声スペクトルp,pをマスクし、分離音声スペクトルp´,p´を得る。
以上のように、この実施の形態1によれば、マスク間での推定誤りを解消するために時間周波数平面でのスペクトルの局所的な連続性を考慮してマスクの密集度を高めて適切なマスクへの集約を行うマスク集約処理部3aを備えたマスク再推定部3を備えるように構成したので、1つの音源に寄与すべきマスクが分散していた場合に、1つのマスクの集約することができ、分離音声に他の音源の音声が漏れ出すことが抑制され、対象話者の音声を明瞭化することができる。
実施の形態2.
この実施の形態2では、複数の音源に寄与するマスクが、1つの分離音声スペクトルに寄与する1つのマスクにまとめられている場合に、適切なマスクに分離する構成を示す。
図3は、この発明の実施の形態2による音源分離装置の構成を示すブロック図である。
なお、以下では、実施の形態1による音源分離装置10の構成要素と同一または相当する部分には実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
この実施の形態2では、マスク再推定部3をマスク分離処理部3bで構成している。マスク分離処理部3bには、例えば異なる周波数binでのマスクの共起確率を用いる方法を適用する。ある周波数fとf[Hz]の共起する確率を、学習データによりあらかじめ求めておく。共起確率pとしては、ps(f1,f2)=N(f1,f2)/Ntを用いることができる。ここでNtは総フレーム数、N(f,f)はM(t,f1)=M(t,f2)=1であったフレーム数である。これにより、共起しやすい周波数の組み合わせを知ることができる。例えば、音声は倍音構造を持つのでfとn*fは共起しやすい。fは任意の周波数[Hz]、nは自然数である。ここで、fとfが共起する確率は低いとする (fはfでない任意の周波数[Hz])。ここでマスクMにおいてM1(t,f)=M1(t,f1)=1であり、マスクMにおいてM2(t,f1)=0且つM2(t,n*f1)=1であった場合M1(t,f1)=0 M2(t,f1)=1である確率が高いと考えられる。このように倍音構造の利用では、F0に対してその倍音成分のマスクを確認して音声らしさを推定することによりマスクを再度推定する。
以上のようにこの実施の形態2によれば、マスク分離処理部3bが共起しやすい周波数の組み合わせに注目して音声らしさを推定するように構成したので、複数の音源に寄与するマスクを適切なマスクに分離することができる。これにより、本来複数の音源に寄与すべきマスクが1つにまとめられていた場合に、適切なマスクに分離されるため、分離音声の雑音が抑制され、対象話者の音声を明瞭化することができる。
実施の形態3.
この実施の形態3では、実施の形態2で再推定されたマスクが、再推定前のマスクよりも妥当であるか否か音声モデルを用いて検証する構成を示す。
図4は、この発明の実施の形態3による音源分離装置の構成を示すブロック図である。なお、以下では、実施の形態2による音源分離装置10の構成要素と同一または相当する部分には実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
実施の形態2で示した音源分離装置10に対して、マスク部4の後段に尤度算出部5、音声モデル記憶部6およびマスク選択部7を追加して設けている。
上述した実施の形態2の処理を行うことにより、マスク作成部2が作成した元のマスクM,Mと、マスク再推定部3のマスク分離処理部3bにより再推定されたマスクM´,M´の2通りのマスクが得られる。
マスク部4は、マスク再推定部3から入力されたマスクM´,M´を用いて上述した式(4)に基づいて、第1のマイク20および第2のマイク30で観測された音声スペクトルp,pをマスキングし、分離音声スペクトルp´,p´を得る。さらにマスク部4は、マスク作成部2が作成した元のマスクM,Mを用いて、第1のマイク20および第2のマイク30で観測された音声スペクトルp,pをマスキングし、音声スペクトルp´´,p´´を得る。
これら全ての分離音声スペクトルp´,p´,p´´,p´´について、尤度算出部5が音声モデル記憶部6に記憶された音声モデルに対する尤度をフレーム単位で計算する。通常、複数の話者のそれぞれの発話内容は異なると仮定できるので、異なる話者の音声が混在した場合には、異なる話者の音声が混在したスペクトルよりも、単一の話者による音声のスペクトルの方が音声モデルに対する尤度が高くなり音声らしいと判断されることになる。例えば、以下の式(6)のGMM(Gaussian Mixture Model)によりモデル化された音声のモデル中の最大尤度を求めることで、音声らしさを判断することができる。
Figure 2014089249
式(6)において、Nは平均μ、共分散Σ、混合率πの正規分布である。
マスク選択部7は、尤度算出部5が算出した尤度を参照し、分離音声スペクトルp´,p´,p´´,p´´のうち最も音声らしい組み合わせを選択し、選択した分離音声スペクトルに対応したマスクを選択する。これにより、音声らしさの高い分離音声を出力するマスクを選択することができる。マスク選択部7が選択したマスクを用いて、再度音声スペクトルp,pをマスキングしてもよいが、マスク部4の処理により分離音声スペクトルp´,p´,p´´,p´´が既に得られているので、対応するマスクの分離音声スペクトルを選択して最終的な分離音声スペクトルを得ることができる。
尤度算出部5およびマスク選択部7を備えたことにより、元のマスクM,Mと再推定されたマスクM´,M´のうち音声らしさの高いマスクを選択することができる。
以上のように、この実施の形態3によれば、マスク分離処理部3bが再推定したマスクおよびマスク作成部2が作成したマスクを用いてマスキングされた分離音声スペクトルp´,p´,p´´,p´´の尤度を計算する尤度算出部5と、算出された尤度に基づいて音声らしい組み合わせとなる分離音声スペクトルに対応したマスクを選択するマスク選択部7とを備えるように構成したので、マスク分離処理部3bによるマスクの分離の誤りを検出し、適切なマスクの選択を行うことができる。
実施の形態4.
上述したように、TDOAによって作られたマスクは低周波数域と高周波数域において性能が低い。低周波数域では位相の変化が小さいため、誤差が生じるためである。また高周波数域でもマイクの間隔よりも短い波長の音波が到来した場合には、位相が2π回転したものと区別がつかない空間的エイリアシングの影響で推定精度が低くなる。この実施の形態4では、信頼性の低い周波数域の分離結果を、音声モデルを用いて補正する構成を示す。
図5は、この発明の実施の形態4による音源分離装置の構成を示すブロック図である。なお、以下では、実施の形態3による音源分離装置10の構成要素と同一または相当する部分には実施の形態3で使用した符号と同一の符号を付して説明を省略または簡略化する。
この実施の形態4では、マスク再推定部3をマスク交叉部3cで構成している。マスク交叉部3cは、マスクの性能が低い領域(以下、低信頼領域と称する)においてパーミュテーションが起こっているものとして、マスク作成部2が作成したマスクをそれぞれ交叉させて得られるマスクの組み合わせを生成する。マスク部4は、マスク交叉部3cが生成したマスクの組み合わせを用いて、上述した式(4)に基づいて、第1のマイク20および第2のマイク30で観測された音声スペクトルp,pをマスキングし、分離音声スペクトルを得る。
次に、具体例を挙げながら実施の形態4の音源分離装置10の処理内容を説明する。以下では、高周波数域での場合を例に説明を行うが、低周波数域であっても同様に適用することができる。
マイクアレイを用いたTDOAの精度は、音波の半波長がマイク間隔以下になると低下する。例えば6cmの間隔のアレイを用いた場合、3kHz以上で空間的エイリアシングが起こることになる。図6は、16kHzサンプリングでの波形とスペクトログラムを示す図である。図6において0Hz〜4kHzを高信頼領域、4kHz〜8kHzを低信頼領域とする。まず低信頼領域をいくつかの帯域に分割する。例えば、低信頼領域である4kHz〜8kHzを、4kHz〜6kHzと6kHz〜8kHzの2つの領域に分割した場合を想定する。
ここで、マスク作成部2はマスクM,Mを作成する。低信頼領域ではパーミュテーションが起こっているものとして、マスク交叉部3cは以下に示す(a)から(d)に示す4通りのマスクのかけ方の組み合わせを生成する。
(a) (M−M−M, M−M−M
(b) (M−M−M, M−M−M
(c) (M−M−M, M−M−M
(d) (M−M−M, M−M−M
マスク部4は、上述の(a)〜(d)の4通りのマスクのかけ方を用いて8つの分離音声スペクトルを作成する。
そこで、この4通りのマスクのかけ方を用いて8つの分離音声スペクトルを作成する。例えば(a)のマスクのかけ方により2つの分離音声スペクトルが生成されるので、それぞれpa−1,pa−2と呼ぶ。上述した実施の形態3と比較して分離音声スペクトルの生成数が増加する。これは、低信頼領域を2つの領域に分割しているためである。
尤度算出部5は、マスク部4が作成した8つの分離音声スペクトルに対して、音声モデル記憶部6に記憶された音声モデルに対する尤度をフレーム単位で計算する。実施の形態3と同様に、異なる話者の音声が混在した分離音声スペクトルよりも、単一の話者による音声スペクトルの方が音声らしいと判断されることになる。
音声モデルとしては、例えばモノフォンやトライフォンといった単位での音声のGMMが考えられる。上述した式(6)で示したGMMによりモデル化された音声のモデル中の最大尤度を求めることで、音声らしさを判断することができる。
その他にもLPC係数などスペクトル包絡の滑らかさなどを基準とすることもできる。分離音声スペクトルpa−1に対するモデル中の最大尤度と、分離音声スペクトルpa−2に対するモデル中の最大尤度を加算したものをL(1)とする。同様に(b)から(d)のマスクに対する分離音声スペクトルに対するL(2),(3),(4)を算出し、最も尤度の高いマスクの組み合わせを選択することで高信頼領域と接続のよい分離音声信号を選び出すことができる。
マスク選択部7は、尤度算出部5が算出した尤度を参照し、最も音声らしい組み合わせの分離音声スペクトルを選択し、選択した分離音声スペクトルに対応したマスクを選択する。これにより、高信頼領域の情報を活用すると共に、低信頼領域のパーミュテーションを解決することができる。
以上のように、この実施の形態4によれば、低信頼領域において、マスク作成部2が作成したマスクをそれぞれ交叉させて得られるマスクの組み合わせを生成するマスク交叉部3cと、マスク交叉部3cが生成したマスクの組み合わせに基づいて音声スペクトルをマスキングして分離音声スペクトルを生成するマスク部4と、生成された全ての分離音声スペクトルの尤度を計算する尤度算出部5と、算出された尤度に基づいて最も音声らしい組み合わせとなる分離音声スペクトルに対応したマスクを選択するマスク選択部7とを備えるように構成したので、音声らしさの高いマスクを選択することができる。また、高信頼領域と接続のよい分離音声信号を選び出すことができると共に、低信頼領域のパーミュテーションを解決することができる。さらにマスク作成部2が作成したマスクの分離の誤りを検証することができ、適切なマスクを選択することができる。
実施の形態5.
マスクの再推定処理には、様々な方法が適用可能であり、パラメータの調整の余地もある。また、音素や話者によって分離性能の高いマスク推定方法が異なる場合も存在する。そこで、この実施の形態5では、マスク再推定部3がマスクの再推定を行う複数の構成を備える例を示す。
図7は、この発明の実施の形態6の音源分離装置の構成を示すブロック図である。図7の例では、実施の形態1で示したマスク集約処理部3aおよび実施の形態2で示したマスク分離処理部3bを用いてマスク再推定部3を構成している。マスク部4は、マスク集約処理部3aおよびマスク分離処理部3bにより再推定されたマスクを用いて、音声スペクトルp、pをマスキングする。なお、尤度算出部5、音声モデル記憶部6およびマスク選択部7の動作は上述した実施の形態3および実施の形態4と同一であるため、説明を省略する。
以上のように、この実施の形態5によれば、マスク作成部2が作成したマスクの再推定処理を行うマスク集約処理部3aおよびマスク分離処理部3bを備えるように構成したので、複数のマスク再推定方法により、密集度が高められたマスク、あるいは適切な分離が行われたマスクから、最も音声らしい分離スペクトルが得られるマスクを選択することができ、最適なマスクの再推定処理を選択することができる。
なお、上述した実施の形態1から実施の形態5では、TDOAに着目した構成を示したが、TDOA以外のその他の手法に関しても、マスクを作成可能であれば、本願発明の構成を適用することができる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
1 到来方向算出部、2 マスク作成部、3 マスク再推定部、3a マスク集約処理部、3b マスク分離処理部、3c マスク交叉部、4 マスク部、5 尤度算出部、6 音声モデル記憶部、7 マスク選択部、10 音源分離装置、20 第1のマイク、30 第2のマイク。

Claims (5)

  1. 複数の音源からの音声が混合した観測音を時間周波数領域に変換した観測信号スペクトルから、前記各音源から出力された音声の到来方向を算出する到来方向算出部と、
    前記到来方向算出部が算出した各到来方向の時間周波数平面において、前記観測信号スペクトルから前記複数の音源のうち対応する音源から出力された目的音声以外の観測音の観測信号スペクトルをマスキングするマスクを作成するマスク作成部と、
    前記音声の特徴に基づいて、前記マスク作成部が作成した各マスクについて、前記目的音声と当該目的音声以外の観測音との分離性能を検証し、検証結果に基づいて前記マスクを再推定するマスク再推定部と、
    前記マスク再推定部が再推定した各マスクを用いて、前記観測信号スペクトルから前記目的音声以外の観測音の観測信号スペクトルをマスキングし、前記目的音声の観測信号スペクトルを取得するマスク部とを備えた音源分離装置。
  2. 前記マスク部は、前記マスク作成部が作成した各マスクを用いて、前記観測信号スペクトルから前記目的音声以外の観測音の観測信号スペクトルをマスキングし、前記目的音声の観測信号スペクトルを取得し、
    前記マスク部において前記マスク再推定部が再推定したマスクを用いて取得した前記目的音声の観測信号スペクトル、および前記マスク部において前記マスク作成部が作成したマスクを用いて取得した前記目的音声の観測信号スペクトルについて、音声モデルに対するそれぞれの尤度を算出する尤度算出部と、
    前記尤度算出部が算出した尤度に基づいて、前記マスク再推定部が再推定したマスク、または前記マスク作成部が作成したマスクのいずれか一方を選択し、選択したマスクを用いてマスキングした前記目的音声の観測信号スペクトルを取得するマスク選択部とを備えたことを特徴とする請求項1記載の音源分離装置。
  3. 前記マスク再推定部は、前記音声の時間的連続性、前記音声の倍音構造、または前記音声の話者特性に基づいて、前記マスク作成部が作成した各マスクについて、前記目的音声と当該目的音声以外の観測音との分離性能を検証し、検証結果に基づいて同一の音源から出力された前記目的音声の観測信号スペクトルは同一のマスクのマスキングによって取得されるよう前記マスク作成部が作成した各マスクを再推定するマスク集約処理部を備えることを特徴とする請求項2記載の音源分離装置。
  4. 前記マスク再推定部は、前記音声の時間的連続性、前記音声の倍音構造、または前記音声の話者特性に基づいて、前記マスク作成部が作成した各マスクについて、前記目的音声と当該目的音声以外の観測音との分離性能を検証し、検証結果に基づいて異なる音源から出力された前記目的音声の観測信号スペクトルはそれぞれ異なるマスクのマスキングによって取得されるように、前記マスク作成部が作成したマスクを再推定するマスク分離処理部を備えることを特徴とする請求項2または請求項3記載の音源分離装置。
  5. 前記マスク再推定部は、前記マスク作成部が作成した各マスクの信頼度が低い音声帯域において、前記マスク作成部が作成した複数のマスクを組み合わせてなるマスクの組み合わせを生成するマスク交叉部を備え、
    前記マスク部は、前記マスク交叉部が生成したマスクの組み合わせで指定されたマスクを用いて前記観測信号スペクトルから前記目的音声以外の観測音の観測信号スペクトルをマスキングし、前記目的音声の観測信号スペクトルを取得し、
    前記尤度算出部は、前記マスク部が取得した各マスクの組み合わせによって取得された前記目的音声の観測信号スペクトルについて、前記音声モデルに対するそれぞれの尤度を算出し、
    前記マスク選択部は、前記尤度算出部が算出した尤度に基づいて、前記マスク交叉部が生成したマスクの組み合わせのうち最も尤度の高いマスクの組み合わせを選択し、選択した組み合わせのマスクを用いてマスキングした前記目的音声の観測信号スペクトルを取得することを特徴とする請求項2記載の音源分離装置。
JP2012237835A 2012-10-29 2012-10-29 音源分離装置 Active JP6253226B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012237835A JP6253226B2 (ja) 2012-10-29 2012-10-29 音源分離装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012237835A JP6253226B2 (ja) 2012-10-29 2012-10-29 音源分離装置

Publications (2)

Publication Number Publication Date
JP2014089249A true JP2014089249A (ja) 2014-05-15
JP6253226B2 JP6253226B2 (ja) 2017-12-27

Family

ID=50791208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012237835A Active JP6253226B2 (ja) 2012-10-29 2012-10-29 音源分離装置

Country Status (1)

Country Link
JP (1) JP6253226B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法
US20160005394A1 (en) * 2013-02-14 2016-01-07 Sony Corporation Voice recognition apparatus, voice recognition method and program
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
WO2017061023A1 (ja) * 2015-10-09 2017-04-13 株式会社日立製作所 音声信号処理方法および装置
CN108701468A (zh) * 2016-02-16 2018-10-23 日本电信电话株式会社 掩码估计装置、掩码估计方法以及掩码估计程序
JP2019075622A (ja) * 2017-10-12 2019-05-16 株式会社デンソーアイティーラボラトリ 騒音抑圧装置、騒音抑圧方法、プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2006243664A (ja) * 2005-03-07 2006-09-14 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2006243664A (ja) * 2005-03-07 2006-09-14 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160005394A1 (en) * 2013-02-14 2016-01-07 Sony Corporation Voice recognition apparatus, voice recognition method and program
US10475440B2 (en) * 2013-02-14 2019-11-12 Sony Corporation Voice segment detection for extraction of sound source
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法
WO2017061023A1 (ja) * 2015-10-09 2017-04-13 株式会社日立製作所 音声信号処理方法および装置
US20190035418A1 (en) * 2015-10-09 2019-01-31 Hitachi, Ltd. Sound signal processing method and device
US10629222B2 (en) 2015-10-09 2020-04-21 Hitachi, Ltd. Sound signal procession method and device
CN108701468A (zh) * 2016-02-16 2018-10-23 日本电信电话株式会社 掩码估计装置、掩码估计方法以及掩码估计程序
CN108701468B (zh) * 2016-02-16 2023-06-02 日本电信电话株式会社 掩码估计装置、掩码估计方法以及记录介质
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
JP2019075622A (ja) * 2017-10-12 2019-05-16 株式会社デンソーアイティーラボラトリ 騒音抑圧装置、騒音抑圧方法、プログラム

Also Published As

Publication number Publication date
JP6253226B2 (ja) 2017-12-27

Similar Documents

Publication Publication Date Title
Zhang et al. DeepMMSE: A deep learning approach to MMSE-based noise power spectral density estimation
Yan et al. The catcher in the field: A fieldprint based spoofing detection for text-independent speaker verification
Ko et al. Audio augmentation for speech recognition.
Du et al. A regression approach to single-channel speech separation via high-resolution deep neural networks
JP6253226B2 (ja) 音源分離装置
Han et al. Learning spectral mapping for speech dereverberation and denoising
CN109584903B (zh) 一种基于深度学习的多人语音分离方法
Yu et al. Time-domain multi-modal bone/air conducted speech enhancement
WO2015125567A1 (ja) 音信号処理装置、および音信号処理方法、並びにプログラム
Eskimez et al. Adversarial training for speech super-resolution
JP2008546012A (ja) オーディオ信号の分解および修正のためのシステムおよび方法
Saito et al. Voice conversion using input-to-output highway networks
Ganapathy Multivariate autoregressive spectrogram modeling for noisy speech recognition
Moritz et al. Noise robust distant automatic speech recognition utilizing NMF based source separation and auditory feature extraction
JP2005077731A (ja) 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
Xu et al. Deep noise suppression with non-intrusive pesqnet supervision enabling the use of real training data
Lee et al. Sequential deep neural networks ensemble for speech bandwidth extension
de-La-Calle-Silos et al. Synchrony-based feature extraction for robust automatic speech recognition
Tajiri et al. Non-audible murmur enhancement based on statistical conversion using air-and body-conductive microphones in noisy environments.
Kim et al. Sound source separation algorithm using phase difference and angle distribution modeling near the target.
Nustede et al. Single-channel speech enhancement with deep complex u-networks and probabilistic latent space models
Li et al. A Two-Stage Approach to Quality Restoration of Bone-Conducted Speech
Ivry et al. Evaluation of deep-learning-based voice activity detectors and room impulse response models in reverberant environments
Kim et al. Sound source separation using phase difference and reliable mask selection selection
Ai et al. Denoising-and-dereverberation hierarchical neural vocoder for statistical parametric speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150918

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161025

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170425

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171128

R150 Certificate of patent or registration of utility model

Ref document number: 6253226

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250