JP2013167698A - 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム - Google Patents
音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム Download PDFInfo
- Publication number
- JP2013167698A JP2013167698A JP2012029791A JP2012029791A JP2013167698A JP 2013167698 A JP2013167698 A JP 2013167698A JP 2012029791 A JP2012029791 A JP 2012029791A JP 2012029791 A JP2012029791 A JP 2012029791A JP 2013167698 A JP2013167698 A JP 2013167698A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- spectral
- spectrum
- spectral shape
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】各音源に対応する、スペクトル形状特徴量の事前確率密度関数(スペクトル形状モデル)と、スペクトル形状特徴量が与えられた下でのスペクトル特徴量の条件付き確率密度関数(スペクトル観測モデル)とを用いる。各時間周波数点において最大のエネルギーを持つ音響信号の音源を表す占有的音源番号を潜在変数に持ち、全音源のスペクトル形状特徴量が与えられたもとでの観測信号のスペクトル特徴量の条件付き確率密度関数と、音源ごとに定められるスペクトル形状特徴量の事前確率密度関数の積とで表される最適化関数を、スペクトル形状モデルとスペクトル観測モデルを用いて最大化し、音源ごとのスペクトル形状特徴量および音源占有度を推定する。
【選択図】図2
Description
〈1〉
各時間周波数点(n,k)において、観測信号のスペクトル特徴量xn,kは、各音源mのスペクトル特徴量sn,k (m)のうち、値が大きいものに一致する。すなわち、
xn,k=max{sn,k (1),・・・,sn,k (N(m))} (1)
〈2〉
各音源信号のスペクトル特徴量sn (m)は、離散状態番号q(m)が与えられたもとで、周波数ごとに独立である。すなわち、スペクトル特徴量の条件付き確率密度関数p(sn (m)|q(m))は、以下のように分解できる。ただし、sn (m)=[sn,1 (m),・・・,sn,N(k) (m)]Tである。
まず本技術の概略を説明してから、本技術の詳細を説明する。
図2にスペクトル形状特徴量推定装置/目的信号スペクトル特徴量推定装置の構成例を示す。この目的信号スペクトル特徴量推定装置100は、観測信号に含まれる複数の音源のうち、m番目の音源ごとに、当該音源に関連付けられたスペクトル形状モデル記憶部101−mとスペクトル観測モデル記憶部102−mとスペクトル形状推定部103−mを具備し、さらに、特徴抽出部104、音源占有度更新部105、および目的音スペクトル推定部106を具備している。スペクトル形状特徴量推定装置100pは、目的音スペクトル推定部106を具備しない点で、目的信号スペクトル特徴量推定装置100と異なる。図2では、簡単のため音源数が2の場合を例示しているが、3個以上の音源を考慮する場合は、スペクトル形状モデル記憶部101−mとスペクトル観測モデル記憶部102−mとスペクトル形状推定部103−mは、音源数だけ別々のものが用意されているものとする。
ただし、スペクトル形状特徴量推定装置が、単体独立の構成要素として存在すること、目的信号スペクトル特徴量推定装置とは容易に分離可能に目的信号スペクトル特徴量推定装置を構成する構成要素であることを排除する趣旨ではない。例えば各音源のスペクトル形状特徴量を推定すること自体を目的とするならば、スペクトル形状特徴量推定装置を単体独立の構成要素として実現することに何らの妨げは無い。
ここでは、目的信号スペクトル特徴量推定装置/スペクトル形状特徴量推定装置は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現されるとし、スペクトル形状特徴量推定装置は、目的信号スペクトル特徴量推定装置を構成する構成要素として説明する。
目的信号スペクトル特徴量推定装置/スペクトル形状特徴量推定装置を単体単独の構成要素として、これをコンピュータで実現する場合のハードウェア構成例は後述する。
<1>
各時間周波数点(n,k)において、観測信号のスペクトル特徴量xn,kは、音源mのスペクトル特徴量sn,k (m)のうち、値が大きいものに一致する。すなわち、式(3)が成立する。以下、この仮定をLogMaxモデルと呼ぶ。
xn,k=max{sn,k (1),・・・,sn,k (N(m))} (3)
〈2〉
各音源信号のスペクトル特徴量sn (m)は、各音源のスペクトル形状特徴量cn (m)が与えられたもとで、周波数ごとに独立である。すなわち、スペクトル特徴量の条件付き確率密度関数p(sn (m)|cn (m))は、以下のように分解できる。ただし、sn (m)=[sn,1 (m),・・・,sn,N(k) (m)]Tである。
cn=H(sn)を、信号のスペクトル特徴量snからスペクトル形状特徴量cnを抽出する特徴量変換関数とする。ここで、nは短時間フレームの番号を表し、スペクトル特徴量snは各周波数に対応する連続スカラー値sn,kを要素にもつベクトルsn=[sn,1,sn,2,・・・,sn,N(k)]Tと定義され、スペクトル形状特徴量cnは形状パラメータの各次元に対応する連続スカラー値cn,hを要素に持つベクトルcn=[cn,1,cn,2,・・・,cn,N(h)]Tと定義され、H(・)は、スペクトルの形状に関する特徴量を抽出する任意の関数とする。例えば、snを音声認識などでしばしば用いられる対数メルフィルタバンクの出力、cnをそのMFCCとすると、H(sn)はsnの離散コサイン変換D(sn)に対応する。すなわち、H(sn)=D(sn)となる。また、snを対数パワースペクトルとし、cnを対応するMFCCとすると、H(sn)は、snに対数関数の逆変換、すなわち指数関数(exp(・)と表記)を適用したのち、メルフィルタバンク処理(mfb(・)と表記)を施し、再度、対数変換(log(・))を適用することに対応する。すなわち、H(sn)=log(mfb(exp(sn)))である。
いま、sn (m)を音源mの短時間フレームnにおけるスペクトル特徴量とする。また、すべての音源mに関するスペクトル特徴量およびスペクトル形状特徴量をひとまとめにして、以下のように記述することにする。ここで、N(m)は音源数を表す。
Sn={sn (1),・・・,sn (N(m))} (5)
Sn,k={sn,k (1),・・・,sn,k (N(m))} (6)
Cn={cn (1),・・・,cn (N(m))} ただし、cn (m)=H(sn (m)) (7)
p(sn (m)|cn (m))=Nd(sn (m);G(sn (m)),Ξ) (9)
1.占有的音源番号に一致する音源のスペクトル観測モデルにおいて、当該音源のスペクトル特徴量が観測信号のスペクトル特徴量と同一の値をとると規定された場合の確率関数(右辺の第一要素)
2.占有的音源番号に一致する音源以外の音源のスペクトル観測モデルにおいて、当該音源のスペクトル特徴量が観測信号のスペクトル特徴量の値以下の値をとると規定された場合の確率関数(右辺の第二要素中の各積分項)
観測信号スペクトル観測モデルは、式(14)の右辺にあるように以下の特徴を持つ。
1.観測信号スペクトル観測モデルは、各周波数に対応する条件付き確率密度関数の積に分解可能(すなわち、p(xn|Cn)=Πk p(xn,k|Cn))。
2.各周波数に対応する条件付き確率密度関数は、当該周波数において、どの音源が最も占有的な音源であるかを示す占有的音源番号を潜在変数として持つ。(すなわち、p(xn,k|Cn)=Σd p(xn,k,dn,k|Cn))
3.各周波数に対応する条件付き確率密度関数は、音源ごとに定められるスペクトル観測モデルとLogMaxモデルに基づき、式(13)のように定められる。
式(14)を最大化するアルゴリズムとしては、共役勾配法、準ニュートン法などの一般の非線形最適化アルゴリズムを適用することができる。これらの方法は、各非線形最適化アルゴリズムに基づき、一般的な方法で導出できるので、ここでは説明を省略する。
目的音スペクトル推定部106は、観測信号のスペクトル特徴量xn,kと、目的信号の音源占有度の推定値M^n,k (1)と、スペクトル形状特徴量の推定値c^n (1)と、スペクトル観測モデルp(sn (1)|cn (1))と、を入力として、目的信号のスペクトルの推定値s^n,k (1)を最小自乗誤差推定により求める。推定の方法は次式によって行う。
上記の説明に基づき、本技術では、以下の手順で目的音スペクトルの推定が行える。
ステップ1.各短時間フレームnに対して、特徴抽出部104が、観測信号のスペクトル特徴量xnを抽出する。
ステップ2.各音源mに対応するスペクトル形状推定部103−mが、スペクトル形状特徴量の推定値c^n (1)を初期化する。例えば、観測信号のスペクトル特徴量xnと特徴量変換関数H(・)を用いて、c^n (1)=H(xn)とする。
ステップ3.(a)(b)を収束するまで繰り返す。
(a)音源占有度更新部105は、各周波数ごとに独立に、式(18)を計算することで、各音源mの音源占有度の推定値M^n,k (m)を更新する(E-step)。
(b)各音源mについて、スペクトル形状推定部103−mが、式(20)を最大化するcn (m)を求めることで、スペクトル形状特徴量の推定値c^n (m)を更新する(M-step)。このとき、式(20)は、一般には、非線形関数となるため、その最大化は、共役勾配法、準ニュートン法、ニュートン法などの一般的な非線形最適化法により実現される。
ステップ4.目的音スペクトル推定部106は、式(21)により、目的信号のスペクトル特徴量の推定値s^n,k (1)を求める。
実施形態1より、さらに具体的な実施形態について説明する。まず、観測信号のスペクトル徴量としてメルフィルタバンクの出力を用い、スペクトル形状特徴量としてMFCCを用い、スペクトル形状モデルとしてMFCCの混合ガウス分布を用いるとする。
ステップ1.各短時間フレームnに対して、特徴抽出部104が、観測信号に関するメルフィルタバンク出力xnを抽出する。
ステップ2.各音源mに対応するスペクトル形状推定部103−mが、MFCCの推定値c^n (m)を初期化する。例えば、H(xn)を離散コサイン変換とし、c^n (m)=H(xn)とする。
ステップ3.(a)(b)(c)を収束するまで繰り返す。
(a)音源占有度更新部105は、各周波数ごとに独立に、式(18)を計算することで、各音源mの音源占有度の推定値M^n,k (m)を更新する(E-step1)。
(b)各音源mについて、スペクトル形状推定部103−mが、式(28)に基づき、Z^n,i (m)を更新する(E-step2)。
(c)各音源mについて、スペクトル形状推定部103−mが、式(27)を最大化するMFCC cn (m)を求めることで、MFCCの推定値c^n (m)を更新する。このとき、式(27)は、一般には、非線形関数となるため、その最大化は、共役勾配法、準ニュートン法、ニュートン法などの一般的な非線形最適化法により実現される(M-step)。
ステップ4.目的音スペクトル推定部106は、式(21)により、目的信号のフィルタバンク出力(=スペクトル特徴量)の推定値s^n,k (m)を求める。
G(c)=Ac+b (29)
実施形態2において、観測信号や各音源のスペクトル特徴量として対数パワースペクトルを用いる場合について説明する。これは、上記のアルゴリズムにおいて、メルフィルタバンク出力に関する処理を対数パワースペクトルに関する処理に、単純に置き換えるだけで実現できる。上記のアルゴリズムに基づき、変更点をまとめると以下の通りである。
=1=
ステップ1.において、特徴抽出部104は、メルフィルタバンク出力のかわりに対数パワースペクトルを観測信号のスペクトル特徴量xnとして抽出する。
=2=
ステップ2.の初期化においては、特徴量変換関数として、一例として挙げた、対数パワースペクトルからMFCCに変換する関数H(xn)=log(mfb(exp(xn)))を用いる。
=3=
ステップ3.(a), 3.(c)において用いる、各音源mに対するスペクトル観測モデルは、MFCCから対数パワースペクトルを求める逆変換G(c)に基づき定められるとする。
=4=
ステップ4.においては、目的信号のスペクトル推定値として、対数パワースペクトルを推定する。このため、観測信号のスペクトル特徴量xnとして、観測信号の対数パワースペクトを用い、ステップ3.(a), ステップ3.(c)と同様に、スペクトル観測モデルは、MFCCから対数パワースペクトルを求める逆変換G(c)に基づき定められるものを用いる。
実施形態2において、スペクトル形状モデルとしてMFCCに関する混合ガウス分布を用いる代わりに、MFCCに関する隠れマルコフモデルを用いる場合を構成する。本実施形態では、簡単のためすべての観測信号が与えられてからすべての推定処理を行うバッチ処理を前提として説明する。ただし、隠れマルコフモデルを逐次処理で動作させることは周知の技術を用いれば可能であり、それらの技術を用いて本実施形態を逐次的に動作させることも可能である。
ステップ3.(b)各音源mごとに、スペクトル形状推定部103−mが、forward-backwardアルゴリズムなどを用いて、Z^n,i (m)=p(in|{c^n (m)})を求める。
これまでの実施形態では、すべての音源に関して、スペクトル形状モデルが事前に与えられていると仮定しているが、実際の環境では、必ずしもそのような状況は期待できない。例えば、目的信号のスペクトル形状モデルは事前に学習しておくことは可能だが、背景雑音のスペクトル形状モデルは事前に学習しておくことができない場合などがある。この場合、観測信号から得られる情報のみで、事前学習されていない音源のスペクトル形状モデルを学習する必要がある。そのような状況に対応するための方法として、実施形態4を説明する。
ステップ3.(b)-1:初期化処理、もしくはM-stepにおいて更新されたc^n (m)を用いて、まず、スペクトル形状モデルのパラメータを推定する。すなわち、スペクトル形状特徴量としてc^n (m)が生成される尤度が最大になるように、スペクトル形状モデルのパラメータを推定する。パラメータの推定には、スペクトル形状モデルが採用している確率分布に適したアルゴリズムを用いればよい。例えば、混合ガウス分布や隠れマルコフモデルの場合は、EMアルゴリズムを用いて効率的に、パラメータ推定が行えることが知られている。
ステップ3.(b)-2:スペクトル形状モデルのパラメータ推定後に、実施形態2や実施形態3と同様の手続きにより、Z^n,k (m)を求める。
本技術は、非特許文献1−3に示された従来例と同じく、音源占有度をEMアルゴリズムのE-stepで更新しながら繰り返し推定する構成をとる。したがって、観測信号が複数のマイクロホンから同時に収録されている場合には、従来例と同じ方法に基づき、観測信号から各音源の位置情報に基づく特徴量を抽出しつつ、E-stepで、音源位置の情報を考慮して音源占有度の更新を行うような構成が可能である。本実施形態では、この構成について説明する。
an,k=Xn,k/|Xn,k| (37)
w^n,k (m)=p(an,k;φ(m)) (38)
(参考文献1)Hiroshi Sawada, Shoko Araki, and Shoji Makino, ”Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment,” IEEE Trans. Audio, Speech, and Language Processing, vol. 19, No.3, pp.516-527, 2011.
ステップ1.(a)(b)の処理によって特徴抽出する。
(a)各短時間フレームnに対して、特徴抽出部104が、観測信号に関する対数パワースペクトルxnを抽出する。
(b)音源位置特徴抽出部111が観測信号に関する音源位置特徴量を式(37)により抽出する。
ステップ2.(a)(b)の処理によって初期化を行う。
(a)各音源mに対応するスペクトル形状推定部103−mが、MFCCの推定値c^n (m)を初期化する。例えば、H(xn)=log(mfb(exp(xn)))とし、c^n (m)=H(xn)とする。
(b)各音源mごとに、音源位置状態推定部112−mが、式(38)により、音源位置状態の推定値w^n,k (m)を求める。
ステップ3.(a)-(c)を収束するまで繰り返す。
(a)音源占有度更新部105は、各周波数ごとに独立に、式(39)を計算することで、各音源mの音源占有度の推定値M^n,k (m)を更新する(E-step1)。
(b)各音源mについて、スペクトル形状推定部103−mが、式(28)に基づき、Z^n,i (m)を更新する(E-step2)。
(c)各音源mについて、スペクトル形状推定部103−mが、式(27)を最大化するMFCC cn (m)を求めることで、MFCCの推定値c^n (m)を更新する。このとき、式(27)は、一般には、非線形関数となるため、その最大化は、共役勾配法、準ニュートン法、ニュートン法などの一般的な非線形最適化法により実現される(M-step)。
ステップ4.目的音スペクトル推定部106は、式(21)により、対数パワースペクトル(=スペクトル特徴量)の推定値s^n,k (m)を求める。
目的信号スペクトル推定技術を評価する目的で確認実験を行った。実験条件を説明する。残響のある部屋で、二本のマイクロホンを用いて、マイクロホンの正面にいる話者の音声が様々な周囲の背景音と同時に収録された音を、観測信号として用いた。この観測信号を用いて、非特許文献3(従来例)および実施形態5(本技術)に示された目的信号スペクトル推定法の比較実験を行った。従来例と本技術はともに、対数パワースペクトルを観測信号のスペクトル特徴量とし、本技術では、MFCCをスペクトル形状特徴量とし、スペクトル形状モデルとしてガウス混合モデルを採用した。また、従来例と本技術はともに、非特許文献3と同じ音源位置特徴量のモデルを用いて、そのパラメータを事前学習により用意した。
上述の実施形態に関わるスペクトル形状特徴量推定装置/目的信号スペクトル特徴量推定装置(以下、単に推定装置という)は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、推定装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
Claims (11)
- 複数の音源それぞれからの音響信号が混ざって収音された観測信号から、各音響信号のスペクトル特徴量に対応するスペクトル形状特徴量を推定するスペクトル形状特徴量推定装置であって、
上記各音源に対応する、スペクトル形状特徴量の事前確率密度関数(スペクトル形状モデル)と、スペクトル形状特徴量が与えられたもとでのスペクトル特徴量の条件付き確率密度関数(スペクトル観測モデル)とを記憶している記憶部と、
各時間周波数点において最大のエネルギーを持つ音響信号の音源を表す占有的音源番号を潜在変数に持つ最適化関数を、上記スペクトル形状モデルと上記スペクトル観測モデルを用いて最大化し、音源ごとのスペクトル形状特徴量、および、全ての上記音源のスペクトル形状特徴量が与えられたもとで上記各音源が上記占有的音源番号で表される音源である事後確率(音源占有度)、を推定する推定手段とを含み、
上記最適化関数は、全ての上記音源のスペクトル形状特徴量が与えられたもとでの観測信号のスペクトル特徴量の条件付き確率密度関数と、上記音源ごとに定められるスペクトル形状特徴量の事前確率密度関数の積とで表される
スペクトル形状特徴量推定装置。 - 請求項1に記載のスペクトル形状特徴量推定装置であって、
上記推定手段は、
音源ごとのスペクトル形状特徴量に基づいて、上記音源占有度を更新する音源占有度更新部と、
上記音源占有度に基づいて、上記音源ごとのスペクトル形状特徴量を更新するスペクトル形状推定部とを含む
ことを特徴とするスペクトル形状特徴量推定装置。 - 請求項2に記載のスペクトル形状特徴量推定装置であって、
上記スペクトル形状特徴量はメル周波数ケプストラム係数であり、
上記スペクトル形状モデルはメル周波数ケプストラム係数の混合ガウス分布である
ことを特徴とするスペクトル形状特徴量推定装置。 - 請求項2または請求項3に記載のスペクトル形状特徴量推定装置であって、
複数のマイクロホンによって得られた上記観測信号から上記各音源の位置に関する特徴量である音源位置特徴量を抽出する音源位置特徴抽出部と、
上記音源ごとに、上記音源位置特徴量に関する確率密度関数で表される音源位置状態の推定値を求める音源位置状態推定部とを含み、
上記音源占有度更新部は、上記各音源の上記音源位置状態の推定値をも用いて上記音源占有度を更新する
ことを特徴とするスペクトル形状特徴量推定装置。 - 請求項1から請求項4のいずれかに記載のスペクトル形状特徴量推定装置によって推定された、音源ごとのスペクトル形状特徴量および音源占有度のうち、目的信号の音源に対応するスペクトル形状特徴量と、目的信号の音源の音源占有度と、目的信号の音源に対応するスペクトル観測モデルと、観測信号のスペクトル特徴量とから、目的信号のスペクトル特徴量を推定する目的音スペクトル推定部を含む
目的信号スペクトル特徴量推定装置。 - 複数の音源それぞれからの音響信号が混ざって収音された観測信号から、各音響信号のスペクトル特徴量に対応するスペクトル形状特徴量を推定するスペクトル形状特徴量推定方法であって、
記憶部には、上記各音源に対応する、スペクトル形状特徴量の事前確率密度関数(スペクトル形状モデル)と、スペクトル形状特徴量が与えられたもとでのスペクトル特徴量の条件付き確率密度関数(スペクトル観測モデル)とが記憶されており、
各時間周波数点において最大のエネルギーを持つ音響信号の音源を表す占有的音源番号を潜在変数に持つ最適化関数を、上記スペクトル形状モデルと上記スペクトル観測モデルを用いて最大化し、音源ごとのスペクトル形状特徴量、および、全ての上記音源のスペクトル形状特徴量が与えられたもとで上記各音源が上記占有的音源番号で表される音源である事後確率(音源占有度)、を推定する推定ステップを含み、
上記最適化関数は、全ての上記音源のスペクトル形状特徴量が与えられたもとでの観測信号のスペクトル特徴量の条件付き確率密度関数と、上記音源ごとに定められるスペクトル形状特徴量の事前確率密度関数の積とで表される
スペクトル形状特徴量推定方法。 - 請求項6に記載のスペクトル形状特徴量推定方法であって、
上記推定ステップは、
音源ごとのスペクトル形状特徴量に基づいて、上記音源占有度を更新する音源占有度更新ステップと、
上記音源占有度に基づいて、上記音源ごとのスペクトル形状特徴量を更新するスペクトル形状推定ステップとを含む
ことを特徴とするスペクトル形状特徴量推定方法。 - 請求項7に記載のスペクトル形状特徴量推定方法であって、
上記スペクトル形状特徴量はメル周波数ケプストラム係数であり、
上記スペクトル形状モデルはメル周波数ケプストラム係数の混合ガウス分布である
ことを特徴とするスペクトル形状特徴量推定方法。 - 請求項7または請求項8に記載のスペクトル形状特徴量推定方法であって、
複数のマイクロホンによって得られた上記観測信号から上記各音源の位置に関する特徴量である音源位置特徴量を抽出する音源位置特徴抽出ステップと、
上記音源ごとに、上記音源位置特徴量に関する確率密度関数で表される音源位置状態の推定値を求める音源位置状態推定ステップとを含み、
上記音源占有度更新ステップは、上記各音源の上記音源位置状態の推定値をも用いて上記音源占有度を更新する
ことを特徴とするスペクトル形状特徴量推定方法。 - 請求項6から請求項9のいずれかに記載のスペクトル形状特徴量推定方法によって推定された、音源ごとのスペクトル形状特徴量および音源占有度のうち、目的信号の音源に対応するスペクトル形状特徴量と、目的信号の音源の音源占有度と、目的信号の音源に対応するスペクトル観測モデルと、観測信号のスペクトル特徴量とから、目的信号のスペクトル特徴量を推定する目的音スペクトル推定ステップを含む
目的信号スペクトル特徴量推定方法。 - コンピュータを、請求項1から請求項4のいずれかに記載のスペクトル形状特徴量推定装置として、あるいは、請求項5に記載の目的信号スペクトル特徴量推定装置として、機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012029791A JP5881454B2 (ja) | 2012-02-14 | 2012-02-14 | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012029791A JP5881454B2 (ja) | 2012-02-14 | 2012-02-14 | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013167698A true JP2013167698A (ja) | 2013-08-29 |
JP5881454B2 JP5881454B2 (ja) | 2016-03-09 |
Family
ID=49178158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012029791A Active JP5881454B2 (ja) | 2012-02-14 | 2012-02-14 | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5881454B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015143805A (ja) * | 2014-01-31 | 2015-08-06 | ブラザー工業株式会社 | 雑音抑圧装置、雑音抑圧方法、及びプログラム |
KR101621827B1 (ko) | 2015-03-18 | 2016-05-17 | 동국대학교 산학협력단 | 음원 방향 추정 시스템 및 방법 |
WO2016092837A1 (ja) * | 2014-12-10 | 2016-06-16 | 日本電気株式会社 | 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 |
CN110602494A (zh) * | 2019-08-01 | 2019-12-20 | 杭州皮克皮克科技有限公司 | 基于深度学习的图像编码、解码系统及编码、解码方法 |
WO2021033296A1 (ja) * | 2019-08-21 | 2021-02-25 | 日本電信電話株式会社 | 推定装置、推定方法及び推定プログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008216659A (ja) * | 2007-03-05 | 2008-09-18 | Nippon Hoso Kyokai <Nhk> | 音声認識装置および音声認識プログラム |
JP2009145895A (ja) * | 2007-12-14 | 2009-07-02 | Ind Technol Res Inst | ケプストラムノイズ減算を用いた音声認識システム及び方法 |
JP2011191423A (ja) * | 2010-03-12 | 2011-09-29 | Honda Motor Co Ltd | 発話認識装置、発話認識方法 |
JP2011215357A (ja) * | 2010-03-31 | 2011-10-27 | Sony Corp | 信号処理装置、信号処理方法及びプログラム |
JP2012042664A (ja) * | 2010-08-18 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体 |
JP2012173592A (ja) * | 2011-02-23 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム |
-
2012
- 2012-02-14 JP JP2012029791A patent/JP5881454B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008216659A (ja) * | 2007-03-05 | 2008-09-18 | Nippon Hoso Kyokai <Nhk> | 音声認識装置および音声認識プログラム |
JP2009145895A (ja) * | 2007-12-14 | 2009-07-02 | Ind Technol Res Inst | ケプストラムノイズ減算を用いた音声認識システム及び方法 |
JP2011191423A (ja) * | 2010-03-12 | 2011-09-29 | Honda Motor Co Ltd | 発話認識装置、発話認識方法 |
JP2011215357A (ja) * | 2010-03-31 | 2011-10-27 | Sony Corp | 信号処理装置、信号処理方法及びプログラム |
JP2012042664A (ja) * | 2010-08-18 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体 |
JP2012173592A (ja) * | 2011-02-23 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム |
Non-Patent Citations (2)
Title |
---|
CSNJ201110018331; 中谷 智広,他: 'DOAクラスタリングと音声の対数スペクトルHMMに基づく音源分離' 日本音響学会2010年秋季研究発表会講演論文集CD-ROM , 201009, pp.577-580, 日本音響学会 * |
JPN6014051298; 中谷 智広,他: 'DOAクラスタリングと音声の対数スペクトルHMMに基づく音源分離' 日本音響学会2010年秋季研究発表会講演論文集CD-ROM , 201009, pp.577-580, 日本音響学会 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015143805A (ja) * | 2014-01-31 | 2015-08-06 | ブラザー工業株式会社 | 雑音抑圧装置、雑音抑圧方法、及びプログラム |
WO2016092837A1 (ja) * | 2014-12-10 | 2016-06-16 | 日本電気株式会社 | 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 |
US10347273B2 (en) | 2014-12-10 | 2019-07-09 | Nec Corporation | Speech processing apparatus, speech processing method, and recording medium |
KR101621827B1 (ko) | 2015-03-18 | 2016-05-17 | 동국대학교 산학협력단 | 음원 방향 추정 시스템 및 방법 |
WO2016148379A1 (ko) * | 2015-03-18 | 2016-09-22 | 동국대학교 산학협력단 | 음원 방향 추정 시스템 및 방법 |
CN110602494A (zh) * | 2019-08-01 | 2019-12-20 | 杭州皮克皮克科技有限公司 | 基于深度学习的图像编码、解码系统及编码、解码方法 |
WO2021033296A1 (ja) * | 2019-08-21 | 2021-02-25 | 日本電信電話株式会社 | 推定装置、推定方法及び推定プログラム |
JPWO2021033296A1 (ja) * | 2019-08-21 | 2021-02-25 | ||
JP7243840B2 (ja) | 2019-08-21 | 2023-03-22 | 日本電信電話株式会社 | 推定装置、推定方法及び推定プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5881454B2 (ja) | 2016-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
CN101416237B (zh) | 基于源和室内声学的概率模型的语音去混响方法和设备 | |
CN110914899A (zh) | 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法 | |
JP6234060B2 (ja) | ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム | |
JP6976804B2 (ja) | 音源分離方法および音源分離装置 | |
JP6927419B2 (ja) | 推定装置、学習装置、推定方法、学習方法及びプログラム | |
JP7124427B2 (ja) | マルチビューベクトルの処理方法及び装置 | |
JP5881454B2 (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
JP2008158035A (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
CN110998723B (zh) | 使用神经网络的信号处理装置及信号处理方法、记录介质 | |
JP5351856B2 (ja) | 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体 | |
JP2016143042A (ja) | 雑音除去装置及び雑音除去プログラム | |
JP6721165B2 (ja) | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム | |
Chung et al. | Training and compensation of class-conditioned NMF bases for speech enhancement | |
JP5438704B2 (ja) | 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム | |
JP6973254B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
EP3557576B1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
Baby et al. | Speech dereverberation using variational autoencoders | |
JP6912780B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
CN116935879A (zh) | 一种基于深度学习的两阶段网络降噪和去混响方法 | |
Wu et al. | An environment-compensated minimum classification error training approach based on stochastic vector mapping | |
JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP5498452B2 (ja) | 背景音抑圧装置、背景音抑圧方法、およびプログラム | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141209 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150811 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151201 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5881454 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |