JP6636969B2 - 信号推定装置、方法、及びプログラム - Google Patents

信号推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP6636969B2
JP6636969B2 JP2017030173A JP2017030173A JP6636969B2 JP 6636969 B2 JP6636969 B2 JP 6636969B2 JP 2017030173 A JP2017030173 A JP 2017030173A JP 2017030173 A JP2017030173 A JP 2017030173A JP 6636969 B2 JP6636969 B2 JP 6636969B2
Authority
JP
Japan
Prior art keywords
time
signal
spectrogram
product
domain signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017030173A
Other languages
English (en)
Other versions
JP2018136419A (ja
Inventor
弘和 亀岡
弘和 亀岡
翔悟 関
翔悟 関
戸田 智基
智基 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017030173A priority Critical patent/JP6636969B2/ja
Publication of JP2018136419A publication Critical patent/JP2018136419A/ja
Application granted granted Critical
Publication of JP6636969B2 publication Critical patent/JP6636969B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、信号推定装置、方法、及びプログラムに係り、特に、観測スペクトログラムから、時間領域信号を推定する信号推定装置、方法、及びプログラムに関する。
音源分離は音声信号や音響信号が重畳した混合音から所望の目的音を抽出し分離する技術であり、雑音下での音声認識精度向上や他の音響信号処理の前処理として利用され、これまでに様々な音源分離手法が提案されてきた。
音源分離の有効な手法の一つに時間周波数マスクに基づく手法がある。この手法では、混合音のスペクトログラムの各時間周波数点においてどの音源が最も優勢であるかを識別することで、同一音源に属すると見なされた時間周波数点の成分のみを通過させるような時間周波数マスクを構成することが目的となる。近年深層ニューラルネットワークに基づくアプローチにより高い信号対歪比での音源分離が可能となってきているが、この手法により得られる各音源のスペクトログラムは他音源が優勢であると見なされた時間周波数点の成分が欠損したものになるため、音声認識など後段に用いられる様々な音響信号処理の性能劣化を招く。従って、このように欠損があるスペクトログラムからいかにして欠損した成分を復元するかが重要課題となる。
スペクトログラムの欠損成分を復元する手法として非負値行列因子分解(Non-negative Matrix Factorization; NMF) に基づく方法が提案されている(非特許文献1)。この方法は、非負値行列と見なしたスペクトログラムを、二つの非負値行列の積で非欠損箇所において近似することにより欠損箇所の成分を補完しようというものである。これは、スペクトログラムが低ランクな行列となっているという仮定を手がかりとしていることに相当する。
Paris Smaragdis, Bhiksha Raj, and Madhusudana Shashanka, "Missing data imputation for time-frequency representations of audio signals," Journal of Signal Processing Systems, Volume 65, Issue 3, pp. 361-370, 2011. 李莉, 亀岡弘和, 樋口卓哉, 猿渡洋, "ケプストラム距離正則化半教師ありNMF による音声強調," 日本音響学会2016 年春季研究発表会講演論文集, 1-P-27, pp. 721-724, Mar. 2016.
上記の従来技術の方法では欠損箇所における振幅成分しか推定されないため、信号を構成するためには別手法で位相成分も推定する必要がある。
短時間Fourier 変換やウェーブレット変換(定Q 変換)などに代表される時間周波数表現は時間領域信号の冗長表現であるため、各時間周波数点の振幅成分および位相成分は(局所的に)互いに依存関係にある。これは、非欠損箇所の振幅成分だけでなく位相成分にも欠損箇所の振幅・位相成分を推定する手がかりがあることを示唆している。また、音響特徴量の事前情報が得られる場合にはその統計分布も欠損成分を補完するための手がかりとなりうる。そこで、従来考慮されていなかったこれらの手がかりを用いることが考えられる。
本発明は、上記事情を鑑みてなされたものであり、一部欠損した観測スペクトログラムから時間領域信号を精度良く推定することができる信号推定装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る信号推定装置は、一部が欠損した、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを入力として、時間領域信号を推定する信号推定装置であって、欠損していない部分における、前記観測スペクトログラムと、前記時間領域信号から求められるスペクトログラムとの誤差と、基底スペクトル、及び各時刻における音量を表すアクティベーションパラメータの積と、前記時間領域信号から求められるスペクトログラムの絶対値との誤差、欠損していない部分における、基底スペクトル、及び各時刻におけるアクティベーションパラメータの積と、観測スペクトログラムの絶対値との誤差、及び基底スペクトル及び各時刻におけるアクティベーションパラメータの積のケプストラム特徴量の事前確率の少なくとも一つとを用いて表される規準を最適化するように、前記時間領域信号、基底スペクトル、及び各時刻におけるアクティベーションパラメータを推定する信号推定部を含んで構成されている。
本発明に係る信号推定方法は、一部が欠損した、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを入力として、時間領域信号を推定する信号推定装置における信号推定方法であって、信号推定部が、欠損していない部分における、前記観測スペクトログラムと、前記時間領域信号から求められるスペクトログラムとの誤差と、基底スペクトル、及び各時刻における音量を表すアクティベーションパラメータの積と、前記時間領域信号から求められるスペクトログラムの絶対値との誤差、欠損していない部分における、基底スペクトル、及び各時刻におけるアクティベーションパラメータの積と、観測スペクトログラムの絶対値との誤差、及び基底スペクトル及び各時刻におけるアクティベーションパラメータの積のケプストラム特徴量の事前確率の少なくとも一つとを用いて表される規準を最適化するように、前記時間領域信号、基底スペクトル、及び各時刻におけるアクティベーションパラメータを推定する。
本発明に係るプログラムは、上記の信号推定装置の各部としてコンピュータを機能させるためのプログラムである。
以上説明したように、本発明の信号推定装置、方法、及びプログラムによれば、欠損していない部分における、前記観測スペクトログラムと、前記時間領域信号から求められるスペクトログラムとの誤差と、前記時間領域信号の基底スペクトル、及びアクティベーションパラメータの積と、前記時間領域信号から求められるスペクトログラムの絶対値との誤差、欠損していない部分における、基底スペクトル、及びアクティベーションパラメータの積と、観測スペクトログラムの絶対値との誤差、及び基底スペクトル及び各時刻におけるアクティベーションパラメータの積のケプストラム特徴量の事前確率の少なくとも一つとを用いて表される規準を最適化するように、前記時間領域信号、基底スペクトル、及び各時刻におけるアクティベーションパラメータを推定することにより、一部欠損した観測スペクトログラムから時間領域信号を精度良く推定することができる、という効果が得られる。
巡回行列となるように選択する方法を説明するための図である。 本発明の実施の形態に係る信号推定装置の構成を示す概略図である。 本発明の実施の形態に係る信号推定装置の学習部の構成を示す概略図である。 本発明の実施の形態に係る信号推定装置の信号推定部の構成を示す概略図である。 本発明の実施の形態に係る信号推定装置における信号推定処理ルーチンの内容を示すフローチャートである。 実験結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、音源分離などにより一部欠損したスペクトログラムから時間領域信号を構成する技術である。
<本発明の実施の形態の概要>
本発明の実施の形態は、上記非特許文献1で用いられる振幅スペクトログラムの低ランク構造の仮定とともに短時間Fourier変換やウェーブレット変換(定Q変換)などの時間周波数表現が時間領域信号の冗長表現であることより導かれる各時間周波数点の振幅成分および位相成分の局所的な制約条件、及び目的音源のケプストラム特徴量の事前情報(統計分布)のいずれかまたは両方を手がかりとして一部の時間周波数成分が欠損したスペクトログラムから直接時間領域信号を構成する。
<問題の定式化>
一部の時間周波数点の成分が欠損した複素スペクトログラムを

とし、その各要素をYk,mと表す。ただし、k∈{1,...,K}及びm∈{1,...,M}はそれぞれ周波数ビン、時刻を表すインデックスである。非欠損箇所の集合を

とすると、

は欠損箇所において
となっているものとする。この複素スペクトログラムに対応する時間領域信号

(全サンプル点数がN)を推定することが目的で、

の時間周波数表現(短時間Fourier 変換やウェーブレット変換など)は一般に

と表される。ただし

は時刻tmに局在する中心周波数がωの窓掛けされた複素正弦波である。上記非特許文献1では、振幅スペクトログラムを二つの非負値行列の積(低ランクな非負値行列)で近似できると仮定し、|Yk,m|を非欠損箇所

において
で近似することで、Xk,mを欠損成分の推定値とする方法が提案されている。
振幅スペクトログラムを式(2)で表現することを非負値行列因子分解(Non-negative Matrix Fac-torization, NMF) といい、各時刻の振幅スペクトルXk,mをL個の基底スペクトルの非負係数U1,m,...,UL,mによる線形和で表現することに相当する。
NMFに基づく上記の手法は、対象とする振幅スペクトログラム全体が低ランクな行列で近似できるという、振幅スペクトログラムの大域的な構造に関する仮定を手がかりに欠損成分を補完しようとするものである。一方で、

の複素スペクトログラムは

と表され、N < KMの場合には

の冗長表現になることから、非欠損箇所のYk,mの振幅成分だけでなく位相成分も周辺の欠損箇所の振幅・位相成分を推定する手がかりとすることができる。また、対象スペクトログラムのケプストラム特徴量の事前情報が得られる場合にはその統計分布も欠損成分を補完するための手がかりとなりうる。以上の3種類の手がかりを用いて、一部欠損したスペクトログラムから時間領域信号を直接構成する問題は
を最小化する最適化問題として定式化することができる。ただし、λ1、λ2、λ3は正則化パラメータ、

は推定したい未知パラメータの集合であり、

である。また、

は観測スペクトログラムで欠損していない時間周波数点の集合(非欠損領域)である。

は誤差の大きさを表す関数であり、ここではEuclid 距離(二乗誤差)
またはKullback-Leibler (KL) ダイバージェンス
を用いる。式(3) の第一項は観測複素スペクトログラムと

の複素スペクトログラムの非欠損領域における二乗誤差、第二項は式(2) と

の振幅スペクトログラムの誤差の大きさ、第三項は式(2) と観測振幅スペクトログラムの誤差の大きさを表す。第四項は以下で与えられるケプストラム距離規準の正則化項である。
ただし

はメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients: MFCC)であり、fr,kはr番目のメルフィルタバンク係数、

は離散コサイン変換係数である。式(6) はパラメータ

の混合正規分布から生成される確率の対数を表す。ただし、

はp番目の正規分布の重み、平均及び分散を表す。
<パラメータ推定アルゴリズム>

を最小化するパラメータ

を解析的に得ることは難しいが、補助関数法と呼ぶ原理に基づき、

の停留点への収束が保証された反復更新アルゴリズムを導くことができる。
<補助関数法>
F(θ)をθに関して最小化したい目的関数とすると、

を満たす関数F+(θ,α)を補助関数、αを補助変数と呼ぶ。このような補助関数を設計できれば、



を交互に繰り返すことで、目的関数F(θ)の停留点を得ることができる。この最適化手法を補助関数法と呼ぶ。以下では各パラメータに対する更新式を得るための式(3)の補助関数を設計し、更新式を導出する。
<sの更新式>
式(3) の中で

に関係する項は第一項と第二項である。まず、第二項の補助関数を設計する。

がEuclid 距離(二乗誤差)のとき式(3)の第二項は
となる。この関数は

に関して微分不可能な点をもつが、以下の補題を用いることで微分可能な補助関数を設計することができる。
(補題1.)複素数z及び|a|=1を満たす複素数aに対して、以下が成立する。
ただし等号成立はa=z/|z|である。
補題1より
が成り立つ。この不等式の右辺は補助変数

をもつ

の補助関数であり、等号は

のとき成立する。一方、

がKLダイバージェンスのとき式(3)の第二項は
となる。この関数も

に関して微分不可能な点をもつが、以下に従い微分可能な補助関数を設計することができる。まず、対数関数は凹関数であり、凹関数は任意の点の接線より大きくなることはないため、
が成り立つ。ただし、
である。また、等号は

のとき成立する。次に、

に関して
が成り立つことを利用し、Dk,mの符号に応じていずれかを用いることで
が言える。ただし、Fk,m、Gk,m
である。式(16)の不等式の右辺は補助変数

をもつ

の補助関数であり、等号は

のとき成立する。
いずれの補助関数も

に関して微分可能かつ凸なので、勾配法などを用いて大域最適となる点を探索することができる。

がEuclid距離の場合の式(3)の補助関数は
となる。よって、

に関する偏微分は
となる。ただし、rk,m
である。一方、

がKLダイバージェンスの場合の式(3)の補助関数は
となる。よって、

に関する偏微分は
となる。なお、

の形になっている項は高速Fourier変換(Fast Fourier Trans-form, FFT) を用いて効率的に計算することができる。
また、

がEuclid 距離の場合は

が巡回行列となることを利用してさらに以下の補助関数を設計することでアルゴリズムの効率化を図ることができる。今、

と定義すると、

より
が成り立つ。よって、この不等式の右辺は式(3)の第一項の補助関数として用いることができる(補助変数は

)。等号は

のとき成立する。従って、式(10) と合わせて


の補助関数とすることができる。



に関する偏微分
を0と置くことにより、大域最適解
を得る。式(28) は

の逆行列を含むが、



が巡回行列となるように選ぶことができる(図1)ため、その場合は離散Fourier変換行列



のように対角化することが可能である。これにより、

となり、

は対角行列より効率的に計算することができる。なお、



が単位行列となるように

を選ぶこともできる。
例えば、

がHanning関数の平方根を窓関数とするSTFTに相当するように

を選べば

は単位行列となることが示せる。
以上より、

の更新方法は以下のようにまとめられる。

がEuclid距離の場合、以下の方法1又は方法2により、更新する。
(方法1)
1.

を以下に従い更新する。
2. 式(20) を用いて

を勾配法により更新する。
(方法2:

が巡回行列の場合)
1.

を以下に従い更新する。
2.

を式(28) に従い更新する。

がKLダイバージェンスの場合、以下の方法1により、更新する。
(方法1)
1.

を以下に従い更新する。
2. 式(23) を用いて

を勾配法により更新する。
<HとUの更新式>
式(3) の中で



に関係する項は第二、第三、第四項であるが、



は式(3) の第三項を規準として

のみから推定することもできる。以下では第三項だけでなく第二、第四項を含めた場合の



の更新方法について述べる。
まずλ3=0の場合(第二項と第三項のみ)を考える。第二、第三項の補助関数は従来のNMF と同様Jensenの不等式を用いて導くことができる。

がEuclid距離(二乗誤差)のとき、二次関数は凸関数のためJensenの不等式

が成り立つ。ただし、βk,l,m

を満たす非負の変数であり、等号は

のとき成立する。よって、式(35)の右辺は式(3) の第二項の補助関数として用いることができる。このとき、

が補助変数となる。また、式(3)の第三項についても同様に
が成り立ち、右辺を補助関数とすることができる。式(35)、(36)より、式(3)の補助関数は
と書ける。

に関する偏微分
を0と置くことにより、

を最小とするHk,l,Ul,m

を得る。

がKLダイバージェンスのとき、負の対数関数は凸関数のためJensenの不等式

が成り立つ。
ただし、γk,l,m

を満たす非負の変数であり、等号は

のとき成立する。よって、式(42)の右辺は式(3)の第二項の補助関数として用いることができる。このとき、

が補助変数となる。また、式(3)の第三項についても同様に
が成り立ち、右辺を補助関数とすることができる。式(42)、(43)より、式(3)の補助関数は
と書ける。

のHk,l、Ul,mに関する偏微分
を0 と置くことにより

を最小とする
を得る。
次にλ≠0の場合を考える。上記非特許文献2より
が成り立つため、右辺を式(3) の第四項の補助関数とすることができる。ただし、
である。また、

で定義され、δxは条件xを満たす場合に1、それ以外の場合に0となる指示関数である。式(49)の等号は
のとき成立する。ただしωp,p,r,m

を満たす任意の正の定数である。
以上より、式(42)、(43) および式(49) より、各不等式の右辺の和
は、HとUの更新式を得るための補助関数として用いることができる。ただし、

はすべての補助変数の集合とする。式(59) を

に関して偏微分し、0と置くことにより



の更新式
を得る。ただし、

は以下で定義される。
以上より、

の更新方法は以下のようにまとめられる。
(方法1)

がEuclid 距離の場合
1.

を以下に従い更新する。
2. 式(40)、 (41) にλ1= 0 を代入した式により

を更新する。

がKLダイバージェンスの場合
1.

を以下に従い更新する。
2. 式(47)、(48)にλ1=0を代入した式により

を更新する。
(方法2)

がEuclid 距離の場合
1.

を以下に従い更新する。
2. 式(40)、 (41) により

を更新する。

がKLダイバージェンスの場合
1.

を以下に従い更新する。
2. 式(47)、 (48) により

を更新する。
(方法3)
1.

を以下に従い更新する。
2. 式(60)、 (61) により

を更新する。
<システム構成>
次に、一部欠損したスペクトログラムから時間領域信号を推定する信号推定装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図2に示すように、本発明の実施の形態に係る信号推定装置は、CPUと、RAMと、後述する信号推定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図2に示すように、信号推定装置100は、入力部10と、演算部20と、出力部90とを備えている。
入力部10は、学習サンプルの目的音響信号の時系列データを受け付ける。また、入力部10は、目的音響信号について、一部欠損した観測スペクトログラムを受け付ける。
演算部20は、学習部30と、パラメータ記憶部40と、信号推定部50とを備えている。
図3に示すように、学習部30は、特徴量抽出部32と、パラメータ学習部36とを備えている。
特徴量抽出部32は、入力部10によって受け付けた学習サンプルの目的音響信号の時系列データから、目的音響信号のメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients: MFCC)を抽出する。
パラメータ学習部36は、特徴量抽出部32によって抽出された目的音響信号のメル周波数ケプストラム係数に基づいて、メル周波数ケプストラム係数のパラメータ

を学習し、パラメータ記憶部40に格納する。
信号推定部50は、目的音響信号についての、一部欠損し、かつ、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを入力として、パラメータ記憶部40に格納された、メル周波数ケプストラム係数のパラメータを用いて、欠損していない部分における、観測スペクトログラムと、時間領域信号から求められるスペクトログラムとの誤差と、時間領域信号の各周波数における振幅スペクトルを表わす基底スペクトル、及び各時刻における音量を表すアクティベーションパラメータの積と、時間領域信号から求められるスペクトログラムの絶対値との誤差と、欠損していない部分における、基底スペクトル、及び各時刻における音量を表すアクティベーションパラメータの積と、観測スペクトログラムの絶対値との誤差と、基底スペクトル及び各時刻におけるアクティベーションパラメータの積のケプストラム特徴量の事前確率を用いて表される、上記(3)式に示す規準を最適化するように、時間領域信号、基底スペクトル、及び各時刻におけるアクティベーションパラメータを推定する。
本実施の形態では、図4に示すように、信号推定部50は、初期値設定部52、補助変数更新部54、パラメータ更新部58、及び収束判定部60を備えている。
初期値設定部52は、基底スペクトル、及び各時刻におけるアクティベーションパラメータの各々の初期値を設定する。例えば、上記式(2)における第三項から、

を推定し、これを固定したのち、上記式(2)における第一項及び第二項から時間領域信号

を推定して初期値とする。
補助変数更新部54は、時間領域信号

に基づいて、上記式(29)又は上記式(30)、(31)に従って、補助変数

又は

を更新する。あるいは、上記式(32)〜(34)に従って、補助変数

を更新する。
また、補助変数更新部54は、

に基づいて、上記式(68)又は上記式(69)に従って、補助変数

又は

を更新する。あるいは、上記式(70)又は上記式(71)に従って、補助変数

又は

を更新する。あるいは、

と、パラメータ記憶部40に格納されているメル周波数ケプストラム係数のパラメータ

と、時間領域信号

から抽出されるメル周波数ケプストラム係数

とに基づいて、上記式(72)〜式(78)に従って、補助変数

を更新する。
パラメータ更新部58は、上記式(3)に示す規準の上界関数である、上記式(19)又は(22)に示す補助関数を小さくするように、時間領域信号

、基底スペクトル

、及び各時刻におけるアクティベーションパラメータ

を更新する。
具体的には、パラメータ更新部58は、補助変数

と、観測スペクトログラム

と、

とに基づいて、上記式(20)を用いて、勾配法により、時間領域信号

を更新する。あるいは、補助変数

と、観測スペクトログラム

と、

とに基づいて、上記式(28)に従って、時間領域信号

を更新する。あるいは、補助変数

と、観測スペクトログラム

と、

とに基づいて、上記式(23)を用いて、勾配法により、時間領域信号

を更新する。
また、パラメータ更新部58は、補助変数

と、観測スペクトログラム

と、時間領域信号

とに基づいて、上記式(40)、式(41)に従って、

を更新する。あるいは、補助変数

と、観測スペクトログラム

と、時間領域信号

とに基づいて、上記式(47)、式(48)に従って、

を更新する。あるいは、補助変数

と、観測スペクトログラム

と、時間領域信号

と、パラメータ記憶部40に格納されているメル周波数ケプストラム係数のパラメータ

とに基づいて、上記式(60)、式(61)に従って、

を更新する。
収束判定部60は、予め定められた収束判定条件を満たすまで、補助変数更新部54及びパラメータ更新部58による各処理を繰り返させる。収束判定条件としては、例えば、予め定められた繰り返し回数に到達することである。
収束判定条件を満たしたときに、最終的に得られた時間領域信号

を、観測スペクトログラムに対して欠損成分を補完して構成された時間領域信号の推定結果として、出力部90により出力する。
<信号推定装置の作用>
次に、本実施の形態に係る信号推定装置100の作用について説明する。まず、学習サンプルの目的音響信号の時系列データが、信号推定装置100に入力されると、信号推定装置100において、目的音響信号のメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients: MFCC)が抽出され、抽出された目的音響信号のメル周波数ケプストラム係数に基づいて、メル周波数ケプストラム係数のパラメータ

が学習され、パラメータ記憶部40に格納される。
そして、目的音響信号について、一部欠損した観測スペクトログラムが、信号推定装置100に入力されると、信号推定装置100において、図5に示す信号推定処理ルーチンが実行される。
まず、ステップS100において、基底スペクトル、及び各時刻におけるアクティベーションパラメータの各々の初期値を設定する。例えば、上記式(2)における第三項から、

を推定し、これを固定したのち、上記式(2)における第一項及び第二項から時間領域信号

を推定して初期値とする。
そして、ステップS102において、時間領域信号

に基づいて、上記式(29)又は上記式(30)、(31)に従って、補助変数

又は

を更新する。あるいは、上記式(32)〜(34)に従って、補助変数

を更新する。
また、

に基づいて、上記式(68)又は上記式(69)に従って、補助変数

又は

を更新する。あるいは、上記式(70)又は上記式(71)に従って、補助変数

又は

を更新する。あるいは、

と、パラメータ記憶部40に格納されているメル周波数ケプストラム係数のパラメータ

と、

の積のメル周波数ケプストラム係数

とに基づいて、上記式(72)〜式(78)に従って、補助変数

を更新する。
そして、ステップS104において、補助変数

と、観測スペクトログラム

と、

とに基づいて、上記式(20)を用いて、勾配法により、時間領域信号

を更新する。あるいは、補助変数

と、観測スペクトログラム

と、

とに基づいて、上記式(28)に従って、時間領域信号

を更新する。あるいは、補助変数

と、観測スペクトログラム

と、

とに基づいて、上記式(23)を用いて、勾配法により、時間領域信号

を更新する。
そして、ステップS106において、補助変数

と、観測スペクトログラム

と、時間領域信号

とに基づいて、上記式(40)、式(41)に従って、

を更新する。あるいは、補助変数

と、観測スペクトログラム

と、時間領域信号

とに基づいて、上記式(47)、式(48)に従って、

を更新する。あるいは、補助変数

と、観測スペクトログラム

と、時間領域信号

と、パラメータ記憶部40に格納されているメル周波数ケプストラム係数のパラメータ

とに基づいて、上記式(60)、式(61)に従って、

を更新する。
ステップS108において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS102へ戻る。一方、収束判定条件を満たした場合には、ステップS110へ進む。
ステップS110では、上記ステップS104で最終的に得られた時間領域信号

を、出力部90により出力し、信号推定処理ルーチンを終了する。
<実験>
ATR音声データベース503文の音声データと雑音データ(babble noise)を用いて上述した実施の形態の手法による雑音抑圧効果を検証する評価実験を行った。比較対象は従来のNMF法に加えて位相復元アルゴリズムを併用したものとし、信号対雑音比(SNR)およびケプストラム歪みを評価したテストデータは全て音響信号はサンプリング周波数16kHzのモノラル信号で、フレーム長32 ms、シフト長16msで短時間Fourier変換を行い、これに対して理想バイナリマスクによりマスキングを行うことで欠損成分の存在する観測スペクトログラムYk,mを算出した。学習においては男性1名の話者の計100文の音声を用いてMFCCのGMMパラメータの学習を行った。学習で得られたGMMのパラメータを固定し、正則化パラメータを各項が同等の大きさを持つよう逐次更新し、パラメータ

の推定を行った。提案法アルゴリズムの初期段階では式(2)における第三項からパラメータ

を推定し、これを固定したのち、第一項及び第二項からパラメータ

を推定して初期値とした。
以上の条件下で未処理(理想バイナリマスク)、正則化の有無を含めた提案法及び従来法によって得られたSNR及びケプストラム歪みを図6(A)、(B)に示す。横軸は理想バイナリマスク作成の際の音声データと雑音データのSNRを示す。いずれの評価尺度においても提案法の方が高い性能が得られることが確認できた。
以上説明したように、本発明の実施の形態に係る信号推定装置によれば、欠損していない部分における、観測スペクトログラムと、時間領域信号から求められるスペクトログラムとの誤差と、時間領域信号の基底スペクトル、及びアクティベーションパラメータの積と、時間領域信号から求められるスペクトログラムの絶対値との誤差、欠損していない部分における、基底スペクトル、及びアクティベーションパラメータの積と、観測スペクトログラムの絶対値との誤差、及び基底スペクトル及び各時刻におけるアクティベーションパラメータの積のケプストラム特徴量の事前確率とを用いて表される規準を最適化するように、時間領域信号、基底スペクトル、及び各時刻におけるアクティベーションパラメータを推定することにより、一部欠損した観測スペクトログラムから時間領域信号を精度良く推定することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述の信号推定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
30 学習部
32 特徴量抽出部
36 パラメータ学習部
40 パラメータ記憶部
50 信号推定部
52 初期値設定部
54 補助変数更新部
58 パラメータ更新部
60 収束判定部
90 出力部
100 信号推定装置

Claims (8)

  1. 一部が欠損した、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを入力として、時間領域信号を推定する信号推定装置であって、
    欠損していない部分における、前記観測スペクトログラムと、前記時間領域信号から求められるスペクトログラムとの誤差と、
    基底スペクトル、及び各時刻における音量を表すアクティベーションパラメータの積と、前記時間領域信号から求められるスペクトログラムの絶対値との誤差、
    欠損していない部分における、基底スペクトル、及び各時刻におけるアクティベーションパラメータの積と、観測スペクトログラムの絶対値との誤差、及び
    基底スペクトル及び各時刻におけるアクティベーションパラメータの積のケプストラム特徴量の事前確率の少なくとも一つとを用いて表される規準を最適化するように、前記時間領域信号、基底スペクトル、及び各時刻におけるアクティベーションパラメータを推定する信号推定部
    を含む信号推定装置。
  2. 前記基底スペクトル、及び前記アクティベーションパラメータの積と、前記時間領域信号から求められるスペクトログラムの絶対値との誤差、又は前記基底スペクトル、及び前記アクティベーションパラメータの積と、観測スペクトログラムの絶対値との誤差は、ユークリッド距離又はKLダイバージェンスで表される請求項1記載の信号推定装置。
  3. 前記ケプストラム特徴量の事前確率は、予め定められたケプストラム特徴量の混合正規分布における、基底スペクトル及び各時刻におけるアクティベーションパラメータの積のケプストラム特徴量の確率である請求項1又は2記載の信号推定装置。
  4. 前記信号推定部は、
    前記規準の上界関数である補助関数を小さくするように、前記時間領域信号、基底スペクトル、及び各時刻におけるアクティベーションパラメータを更新するパラメータ更新部と、
    予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、
    を含む請求項1〜請求項3の何れか1項記載の信号推定装置。
  5. 一部が欠損した、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを入力として、時間領域信号を推定する信号推定装置における信号推定方法であって、
    信号推定部が、欠損していない部分における、前記観測スペクトログラムと、前記時間領域信号から求められるスペクトログラムとの誤差と、
    基底スペクトル、及び各時刻における音量を表すアクティベーションパラメータの積と、前記時間領域信号から求められるスペクトログラムの絶対値との誤差、
    欠損していない部分における、基底スペクトル、及び各時刻におけるアクティベーションパラメータの積と、観測スペクトログラムの絶対値との誤差、及び
    基底スペクトル及び各時刻におけるアクティベーションパラメータの積のケプストラム特徴量の事前確率の少なくとも一つとを用いて表される規準を最適化するように、前記時間領域信号、基底スペクトル、及び各時刻におけるアクティベーションパラメータを推定する
    信号推定方法。
  6. 前記基底スペクトル、及び前記アクティベーションパラメータの積と、前記時間領域信号から求められるスペクトログラムの絶対値との誤差、又は前記基底スペクトル、及び前記アクティベーションパラメータの積と、観測スペクトログラムの絶対値との誤差は、ユークリッド距離又はKLダイバージェンスで表される請求項5記載の信号推定方法。
  7. 前記ケプストラム特徴量の事前確率は、予め定められたケプストラム特徴量の混合正規分布における、基底スペクトル及び各時刻におけるアクティベーションパラメータの積のケプストラム特徴量の確率である請求項5又は6記載の信号推定方法。
  8. 請求項1〜請求項4の何れか1項に記載の信号推定装置の各部としてコンピュータを機能させるためのプログラム。
JP2017030173A 2017-02-21 2017-02-21 信号推定装置、方法、及びプログラム Active JP6636969B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017030173A JP6636969B2 (ja) 2017-02-21 2017-02-21 信号推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017030173A JP6636969B2 (ja) 2017-02-21 2017-02-21 信号推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018136419A JP2018136419A (ja) 2018-08-30
JP6636969B2 true JP6636969B2 (ja) 2020-01-29

Family

ID=63364864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017030173A Active JP6636969B2 (ja) 2017-02-21 2017-02-21 信号推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6636969B2 (ja)

Also Published As

Publication number Publication date
JP2018136419A (ja) 2018-08-30

Similar Documents

Publication Publication Date Title
EP2189976B1 (en) Method for adapting a codebook for speech recognition
US10235126B2 (en) Method and system of on-the-fly audio source separation
Bandela et al. Unsupervised feature selection and NMF de-noising for robust Speech Emotion Recognition
US20080167862A1 (en) Pitch Dependent Speech Recognition Engine
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
Yücesoy et al. Gender identification of a speaker using MFCC and GMM
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Mohammadiha et al. Joint acoustic and spectral modeling for speech dereverberation using non-negative representations
Soe Naing et al. Discrete Wavelet Denoising into MFCC for Noise Suppressive in Automatic Speech Recognition System.
Nakano et al. Nonnegative matrix factorization with Markov-chained bases for modeling time-varying patterns in music spectrograms
JP6142402B2 (ja) 音響信号解析装置、方法、及びプログラム
JP2017134321A (ja) 信号処理方法、信号処理装置及び信号処理プログラム
Hoffmann et al. Using information theoretic distance measures for solving the permutation problem of blind source separation of speech signals
JP5807914B2 (ja) 音響信号解析装置、方法、及びプログラム
JP6636969B2 (ja) 信号推定装置、方法、及びプログラム
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2012027196A (ja) 信号分析装置、方法、及びプログラム
Ming et al. An iterative longest matching segment approach to speech enhancement with additive noise and channel distortion
Grais et al. Initialization of nonnegative matrix factorization dictionaries for single channel source separation
Płonkowski Using bands of frequencies for vowel recognition for Polish language
Zeremdini et al. Multi-pitch estimation based on multi-scale product analysis, improved comb filter and dynamic programming
Goodarzi et al. Model-based clustered sparse imputation for noise robust speech recognition
JP6564744B2 (ja) 信号解析装置、方法、及びプログラム
Sprechmann et al. Supervised non-negative matrix factorization for audio source separation
JP6618493B2 (ja) 信号解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170222

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190131

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20190131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190131

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191219

R150 Certificate of patent or registration of utility model

Ref document number: 6636969

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150