JP6564744B2 - 信号解析装置、方法、及びプログラム - Google Patents

信号解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP6564744B2
JP6564744B2 JP2016168309A JP2016168309A JP6564744B2 JP 6564744 B2 JP6564744 B2 JP 6564744B2 JP 2016168309 A JP2016168309 A JP 2016168309A JP 2016168309 A JP2016168309 A JP 2016168309A JP 6564744 B2 JP6564744 B2 JP 6564744B2
Authority
JP
Japan
Prior art keywords
spectrum
time
signal
sequence
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016168309A
Other languages
English (en)
Other versions
JP2018036406A (ja
Inventor
弘和 亀岡
弘和 亀岡
岸田 拓也
拓也 岸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu University NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Kyushu University NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu University NUC, Nippon Telegraph and Telephone Corp filed Critical Kyushu University NUC
Priority to JP2016168309A priority Critical patent/JP6564744B2/ja
Publication of JP2018036406A publication Critical patent/JP2018036406A/ja
Application granted granted Critical
Publication of JP6564744B2 publication Critical patent/JP6564744B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、信号解析装置、方法、及びプログラムに係り、特に、パラメータを推定する信号解析装置、方法、及びプログラムに関する。
本発明は音声信号から雑音を抑圧する問題を扱う。音声信号に混入する雑音を抑制する技術は音声強調技術と呼ばれている。音声強調技術は、高品質な音声通信や音声認識の前処理などで用いられる。
音声強調手法は主に3つのアプローチがある。教師なしアプローチは、対象とする音声および雑音ともに、その音響的特性について事前に情報が得られない状況を、半教師ありアプローチでは、対象音声について、同じ話者の別の音声が事前に得ることができる状況を、教師ありアプローチは、音声に加えて、対象雑音と同じ特性の雑音が事前に得ることができる状況をそれぞれ想定した音声強調手法である。本発明が解決しようとする課題は半教師ありアプローチに類される。半教師ありアプローチの一つとして、非負値行列因子分解(Semi-supervised Non-negative Matrix Factorization: SSNMF)に基づく手法が提案されている(非特許文献1)。この手法では、各時刻の観測スペクトルを事前学習した音声の基底スペクトルと雑音の基底スペクトルの非負結合でフィッティングすることで音声と雑音のパワースペクトルを推定することが可能となる。
P. Smaragdis, B. Raj, and M. Shashanka, "Supervised and semi-supervised separation of sounds from single-channel mixtures," in Proc. Independent Component Analysis and Signal Separation, pp. 414-421, 2007.
上記非特許文献1の手法は未知雑音環境下においても高い信号対雑音比の強調音声を得られる一方で、残留雑音成分からなるミュージカルノイズ(時間周波数平面に点在する雑音成分)が原因で必ずしも聴感的に品質の良い音声とならない場合が多い。また、この手法では音声のスペクトルの時間変化の自然さを保証しないため、強調音声のスペクトルが不連続になりがちであり、これもまた強調音声の聴感上の品質を下げる原因となっている。
本発明では、上記事情を鑑みて成されたものであり、雑音を抑制し、高品質な音声信号を強調することができる信号解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る信号解析装置は、音声信号と雑音信号とが混合された観測信号の時系列データを入力として、各時刻及び各周波数の観測スペクトルを表す観測スペクトログラムを出力する時間周波数展開部と、前記時間周波数展開部により出力された前記観測スペクトログラム、及び予め学習された音声信号の隠れマルコフモデルのパラメータに基づいて、各時刻及び各周波数の観測スペクトルと、前記音声信号の声道スペクトル系列及び音源スペクトル系列から求められる各時刻及び各周波数のスペクトル、並びに前記雑音信号の各基底及び各周波数におけるパワースペクトルを表す基底スペクトル及び各時刻におけるパワーを表すアクティベーションパラメータから求められる各時刻及び各周波数のスペクトルの和との距離、前記音声信号の声道スペクトル系列と、前記声道スペクトル系列に対応した前記隠れマルコフモデルの状態系列が与えられた下での最尤スペクトル系列との距離、前記音声信号の音源スペクトル系列と、前記音源スペクトル系列に対応した前記隠れマルコフモデルの状態系列が与えられた下での最尤スペクトル系列との距離、及び前記雑音信号の各時刻及び各周波数の観測スペクトルと、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められる各時刻及び各周波数のスペクトルとの距離、を用いて表される規準を小さくするように、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、前記音声信号の声道スペクトル系列と、前記音声信号の音源スペクトル系列と、前記雑音信号の各時刻及び各周波数の観測スペクトルとを推定するパラメータ推定部と、を含んで構成されている。
本発明に係る信号解析方法は、時間周波数展開部と、パラメータ推定部とを含む信号解析装置における信号解析方法であって、前記時間周波数展開部が、音声信号と雑音信号とが混合された観測信号の時系列データを入力として、各時刻及び各周波数の観測スペクトルを表す観測スペクトログラムを出力し、前記パラメータ推定部が、前記時間周波数展開部により出力された前記観測スペクトログラム、及び予め学習された音声信号の隠れマルコフモデルのパラメータに基づいて、各時刻及び各周波数の観測スペクトルと、前記音声信号の声道スペクトル系列及び音源スペクトル系列から求められる各時刻及び各周波数のスペクトル、並びに前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められる各時刻及び各周波数のスペクトルの和との距離、前記音声信号の声道スペクトル系列と、前記声道スペクトル系列に対応した前記隠れマルコフモデルの状態系列が与えられた下での最尤スペクトル系列との距離、前記音声信号の音源スペクトル系列と、前記音源スペクトル系列に対応した前記隠れマルコフモデルの状態系列が与えられた下での最尤スペクトル系列との距離、及び前記雑音信号の各時刻及び各周波数の観測スペクトルと、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められる各時刻及び各周波数のスペクトルとの距離、を用いて表される規準を小さくするように、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、前記音声信号の声道スペクトル系列と、前記音声信号の音源スペクトル系列と、前記雑音信号の各時刻及び各周波数の観測スペクトルとを推定する。
また、本発明のプログラムは、コンピュータを、上記の信号解析装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の信号解析装置、方法、及びプログラムによれば、観測スペクトルと、声道スペクトル系列及び音源スペクトル系列から求められるスペクトル、並びに雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められるスペクトルの和との距離、声道スペクトル系列と、声道スペクトル系列に対応した前記隠れマルコフモデルの状態系列が与えられた下での最尤スペクトル系列との距離、音源スペクトル系列と、音源スペクトル系列に対応した前記隠れマルコフモデルの状態系列が与えられた下での最尤スペクトル系列との距離、及び雑音信号の各時刻及び各周波数の観測スペクトルと、雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められる各時刻及び各周波数のスペクトルとの距離を用いて表される規準を小さくするように、雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、声道スペクトル系列と、音源スペクトル系列と、前記雑音信号の観測スペクトルとを推定することにより、雑音を抑制し、高品質な音声信号を強調することができる。
本発明の実施の形態に係る信号解析装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る信号解析装置における学習処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係る信号解析装置におけるパラメータ推定処理ルーチンを示すフローチャート図である。 実験結果を示す図である。 実験結果を示す図である。 実験結果を示す図である。 実験結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<発明の概要>
まず、本実施の形態における概要について説明する。音声合成では聴感的に高品質な音声を合成することが目的であり、特にスペクトルだけでなく知覚に大きな影響を与えるスペクトルの時間微分量の統計分布を用いて最適な音声スペクトル系列を生成する方式がとられる。音声通信のための音声強調においても、いかに聴感的に高品質な音声にできるかが重要となるため、音声合成のモデルや手法が有用となる可能性がある。本発明では、未知雑音環境下における半教師あり音声強調の問題に対し、SSNMF法の音声強調方式にパラメトリック音声合成モデルとして提案されたトラジェクトリ隠れマルコフモデルを利用した手法を提案する。
<本実施の形態の原理>
次に、本実施の形態の原理について説明する。
<問題の定式化>
観測信号の振幅スペクトログラムまたはパワースペクトログラム(以後、観測スペクトログラム)をYω,tとする。ただし、ωとtは周波数、時刻のインデックスである。スペクトルの加法性を仮定し、各時刻の音声スペクトルX(s) ω,tおよび雑音スペクトルX(n) ω,tをそれぞれLS個の基底スペクトル

とLN個の基底スペクトル

の非負結合
で表せるものとする。
SSNMF法は、クリーン音声の学習サンプルから事前学習した

を用いて、観測スペクトルYω,t

をフィッティングすることで観測スペクトログラムに含まれる音声の成分と雑音の成分を推定する方法である(非特許文献1)。このようにして求まる音声スペクトルと雑音スペクトルの推定値からWienerフィルタなどにより観測信号から音声信号を得ることができる。このアプローチでは事前学習した音声の基底スペクトルが音声と雑音の分離の手がかりとなるが、音声の基底スペクトルで雑音スペクトルを説明できてしまう場合やその逆の場合がありえるため、Yω,tとXω,tの誤差を小さくできたとしてもX(S) ω,tとX(N) ω,tが実際の音声スペクトルと雑音スペクトルに対応するとは限らない。また、この方式では、音声スペクトルの推定において音声スペクトルの時間変化量の統計を活用できる仕組みになっておらず、このことがミュージカルノイズの発生や不連続なスペクトル変化を許す一因になっていたと考えられる。そこでより高品質な音声強調を実現するためには音声スペクトルの時間変化の傾向を考慮し、同じXω,tを与えるX(S) ω,tとX(N) ω,tの不定性を解消するより強い制約が必要である。
音声の知覚において、音声の対数スペクトルおよびその時間微分量が大きな影響を与えることが知られており、音声合成では聴感的に高品質な音声を合成することが目的として対数スペクトルだけでなく対数スペクトルの時間微分量の統計分布を用いて最適な音声スペクトル系列を生成する方式がとられる(非特許文献2、3参照)。
[非特許文献2]:T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi, T. Kitamura,"Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis," in Proc. European Conference on Speech Communication and Technology (EUSIPCO 1999), vol. 5. pp. 2347-2350, 1999.
[非特許文献3]:H. Zen, K. Tokuda, T. Kitamura, "Reformulating the HMM as a trajectory model by imposing explicit relationships between static and dynamic feature vector sequences," Computer Speech and Language, vol. 21, pp. 153-173, 2007.
この方式を隠れマルコフモデル(Hidden Markov Model; HMM)音声合成という。音声通信のための音声強調においても、いかに聴感的に高品質な音声にできるかが重要となるため、音声合成のモデルや手法が有用となる可能性がある。そこで本発明では、音声の対数スペクトルを声道スペクトルと声帯振動スペクトルの成分に分解し、各成分および各成分の時間微分量の確率分布に基づいて X(S) ω,tに対する正則化項を設計し、雑音の対数スペクトルに対しては、従来型のNMFによる正則化項を与え、これらの正則化項とY(S) ω,tとX(S) ω,tの誤差規準の和を最適化規準とするパラメータ最適化アルゴリズムを提案する。
Yω,tとXω,tの誤差はSSNMF法においては二乗誤差、Iダイバージェンス、板倉齋藤擬距離などで測ることが多いが、本発明では対数スペクトル距離
を用いる。ただし、ω、tは周波数と時刻のインデックスを表す。次に、音声信号のスペクトルX(S) ω,tを、音声のソースフィルタ理論に基づき、
のように声道スペクトルFω,tと音源スペクトルEω,tの積として表す。そして、これらに対してそれぞれ
のような規準を考える。ここで、

および

はそれぞれ声道スペクトル系列と音源スペクトル系列に対応した異なるHMMの状態系列を表し、

および

は状態系列が与えられた下での最尤スペクトル系列
に対応する。これはHMM音声合成におけるパラメータ生成方式(上記非特許文献2、3参照)と同形で、
で与えられる。ただし、

は状態系列

が与えられた下での各々のHMMの状態出力分布の平均系列、

は状態系列

が与えられた下での各々のHMMの状態出力分布の分散を対角成分に並べた対角行列である。また、

は、パラメータの時系列が格納されたベクトルをそれ自身とその時間数値微分系列を結合したベクトルに変換する行列である。また、

は平均がμ、分散共分散行列がΣの正規分布を表す。従って式(7)、(8)は所与の状態系列と状態出力分布によって決まるスペクトル系列とその時間微分系列の両確率分布を規準とした最尤スペクトル系列を意味していることが分かる。ここで、それぞれのHMMの各状態の出力分布の平均と分散はクリーンな音声の声道スペクトル系列と音源スペクトル系列から事前学習した定数とする。
さらに、X(N) ω,t に対し、
のような規準を考える。提案法では、式(3)、(5)、(6)、(11)の4つの規準の重みつき和
を最小化することが目的である。ただし、α1、α2、α3は重みづけ係数である。
以上のようにこの最適化問題は、観測スペクトル系列の中に埋もれた音声スペクトル系列を、HMM音声合成の生成モデルと同形のモデル(式(9)、(10))でどれだけ良く説明できるかを手がかりにしながら推定する問題となっている。
<パラメータ推定アルゴリズム>

を最小化するF、E、H(N)、U(N)を解析的に得ることはできないが、当該最適化問題の局所最適解を探索する反復アルゴリズムを補助関数法に基づき導くことができる。
補助関数法による、目的関数F(θ)の最小化問題の最適化アルゴリズムでは、まず補助変数ξを導入し、

を満たす補助関数

を設計する。このような補助関数が設計できれば、

を交互に繰り返すことで、目的関数F(θ)を局所最小化するθを得ることができる。以下で、

の補助関数とそれに基づく更新式を導く。

については、

のように展開し、式(14)右辺の各項に対し、補助関数を設計する。まず第一項に関して、以下の不等式が成り立つことを利用する。
x>0、ξ>0において
が成り立ち、等号はx=ξのときのみ成立する。
以上の不等式から、任意のξω,t>0について
が言え、さらに逆関数が凸関数であることを利用して、Jensenの不等式により
が成り立つ。ただし、λ(S) ω,t、λ(N) ω,t
を満たす補助変数である。これらをまとめると、
を得る。なお、式(21)の等号成立条件は
である。
次に、式(14)の第二項の補助関数を設計する。LogYω,tは正と負の符号をとりうるので、logYω,tの符号に応じてlogXω,tに対し別の不等式を立てる。負の対数関数は凸関数なのでJensenの不等式により
を得る。ただし、θ(S) ω,t、θ(N) ω,t
を満たす非負の変数である。また、正の対数関数は凹関数なので
が成り立つ。ただし、φω,tは任意の実数である。これらの不等式は、
のときに等号成立する。以上をまとめると、
が言える。ただし、δxは条件xを満たす場合に1、満たさない場合に0となる指示関数である。
次に、

の補助関数を設計する。まず、
と展開し、式(31)の右辺第一項については、式(15)、(16)、(17)を用いると任意のηω,t>0について
が成り立ち、等号は
のとき成り立つ。以上から、
が成り立つ。同様にして、

の補助関数は任意のζω,t>0を用いて

により設計できる。なお、等号は
のとき成り立つ。
最後に、

については
と書くことができ、式(37)の右辺第一項を式(15)、(16)、(17)を用いると任意のνω,t>0について
が成り立ち、等号は
のとき成り立つ。次に、第二項の補助関数を設計する。logX(N) ω,tは正と負の符号をとりうるので、logX(N) ω,tの符号に応じてlogΣlH(N) ω,tU(N) ω,tに対し別の不等式を立てる。負の対数関数は凸関数なのでJensenの不等式により
を得る。ただし、ψω,l,t
を満たす非負の変数である。また、正の対数関数は凹関数なので
が成り立つ。ただし、πω,tは任意の実数である。これらの不等式は、
のときに等号成立する。
第三項については、式(15)、(16)、(17)を用いると任意のεω,t> 0について
が成り立ち、さらに、Jensenの不等式により
となる。ただし、σω,tは任意の実変数、τω,l,t
を満たす任意の非負変数である。これらをまとめると、
を得る。なお、式(51)の等号は
のとき成り立つ。
以上をまとめると、

が成り立ち、右辺を

の補助関数とすることができる。以上の補助関数を足し合わせることで

の補助関数が得られる。この補助関数を最小にする各パラメータの更新式は
のように閉形式で得られる。ただし、

である。
Fω,1,…,Fω,Tの更新後、Fω,1,…,F ω,Tの時間微分系列ΔFω,1,…,ΔF ω,Tを算出し、Fω,tとΔFω,tとの結合ベクトルを

とする。

をHMMの出力系列と見なし、その生成確率が最大となる状態系列

をViterbiアルゴリズムにより探索する。求まった

を用いて式(7)により

を更新する。以上と同様の手続きをEω,1,…, E ω,Tにも適用し、

を更新する。
<本発明の実施の形態に係る信号解析装置の構成>
次に、本発明の実施の形態に係る信号解析装置の構成について説明する。図1に示すように、本発明の実施の形態に係る信号解析装置100は、CPUと、RAMと、後述する学習処理ルーチン及びパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
入力部10は、雑音が混じっていないクリーンな音声信号(以後、クリーン音声信号)の時系列データを受け付ける。また、入力部10は、音声信号と雑音信号とが混じっている音響信号(以後、観測信号)の時系列データを受け付ける。
演算部20は、時間周波数展開部24と、HMMパラメータ学習部32と、HMMパラメータ記憶部34と、パラメータ推定部36と、音声信号生成部38と、を含んで構成されている。
時間周波数展開部24は、クリーン音声信号の時系列データに基づいて、各時刻における各周波数のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムを計算する。なお、第1の実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。
また、時間周波数展開部24は、観測信号の時系列データに基づいて、各時刻tにおける各周波数ωの観測スペクトルYω,tを表す振幅スペクトログラム又はパワースペクトログラムである観測スペクトログラムYを計算する。
HMMパラメータ学習部32は、時間周波数展開部24によって計算された、クリーン音声信号の各時刻における各周波数のスペクトルに基づいて、音声の声道スペクトルと声帯振動スペクトルに対して、その対数スペクトル系列および対数スペクトルの一次時間数値微分系列のHMMパラメータを学習する。具体的には、HMMの状態出力分布の平均系列

、HMMの状態出力分布の分散を対角成分に並べた対角行列

、及び状態間の状態遷移確率を学習する。
HMMパラメータ記憶部34は、HMMパラメータ学習部32によって学習された、HMMの状態出力分布の平均系列

、HMMの状態出力分布の分散を対角成分に並べた対角行列

、及び状態間の状態遷移確率を記憶している。
パラメータ推定部36は、時間周波数展開部24により出力された観測スペクトログラムY、及びHMMパラメータ記憶部34に記憶されているHMMパラメータに基づいて、各時刻及び各周波数の観測スペクトルYと、音声信号の声道スペクトル系列F及び音源スペクトル系列Eから求められる各時刻及び各周波数のスペクトルX(S)、並びに前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められる各時刻及び各周波数のスペクトルX(N)の和Xとの距離

、音声信号の声道スペクトル系列Fと、声道スペクトル系列に対応した隠れマルコフモデルの状態系列が与えられた下での最尤スペクトル系列との距離

、音声信号の音源スペクトル系列Eと、音源スペクトル系列Eに対応した前記隠れマルコフモデルの状態系列が与えられた下での最尤スペクトル系列との距離

、及び雑音信号の各時刻及び各周波数の観測スペクトルX(N)と、雑音信号の基底スペクトルH(N)及びアクティベーションパラメータU(N)から求められる各時刻及び各周波数のスペクトルとの距離

、を用いて表される上記(12)式に示す規準を小さくするように、雑音信号の基底スペクトルH(N)及びアクティベーションパラメータU(N)と、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)とを推定する。
具体的には、パラメータ推定部36は、初期値設定部40、補助変数更新部42、パラメータ更新部44、状態系列更新部45、及び収束判定部46を備えている。
初期値設定部40は、音声信号のアクティベーションパラメータU(S)と、雑音信号の基底スペクトルH(N)及びアクティベーションパラメータU(N)と、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)とに初期値を設定する。また、状態系列

、最尤スペクトル系列

に初期値を設定する。
補助変数更新部42は、初期値である、又は前回更新した、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)とに基づいて、上記(22)式、(23)式、(27)式、(28)式、(33)式、(36)式、(39)式、(43)式、(44)式、(49)式、(50)式に従って、各周波数ω及び各時刻tに対するζω,t、λ(S) ω,t、λ(N) ω,t、θ(S) ω,t、θ(N) ω,t、φω,t、ηω,t、ζω,t、νω,t、πω,t、σω,t、各基底l、各周波数ω、及び各時刻tに対するψl,ω,t、τω,l,t、雑音信号の各基底l及び各周波数ωの基底スペクトルH(N) ω,l及び各基底l及び各時刻tのアクティベーションパラメータU(N) l,tを更新する。
パラメータ更新部44は、時間周波数展開部24により出力された観測スペクトログラムYと、補助変数更新部42によって更新された各周波数ω及び各時刻tに対するζω,t、λ(S) ω,t、λ(N) ω,t、θ(S) ω,t、θ(N) ω,t、φω,t、ηω,t、ζω,t、νω,t、πω,t、σω,t、各基底l、各周波数ω、及び各時刻tに対するψl,ω,t、τω,l,tと、初期値である、又は前回更新した、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)と、雑音信号の基底スペクトルH(N)及びアクティベーションパラメータU(N)と、状態系列

、最尤スペクトル系列

とに基づいて、上記(52)式〜(56)式に従って、雑音信号の各基底l及び各周波数ωの基底スペクトルH(N) ω,l及び各基底l及び各時刻tのアクティベーションパラメータU(N) l,t、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻t及び各周波数ωの観測スペクトルX(N) ω,tとを推定する。
状態系列更新部45は、パラメータ更新部44によって更新された各周波数ωの声道スペクトル系列Fω,1,…,F ω,Tに基づいて、各周波数ωの声道スペクトル系列Fω,1,…,F ω,Tの時間微分系列ΔFω,1,…,ΔF ω,Tを算出し、Fω,tとΔFω,tとの結合ベクトル

をHMMの出力系列と見なし、その生成確率が最大となる状態系列

をViterbiアルゴリズムにより探索する。求まった

を用いて上記式(7)により

を更新する。また、パラメータ更新部44によって更新された各周波数ωの音源スペクトル系列Eω,1,…,E ω,Tに基づいて、各周波数ωの音源スペクトル系列Eω,1,…,E ω,Tの時間微分系列ΔEω,1,…,ΔE ω,Tを算出し、Eω,tとΔEω,tとの結合ベクトルをHMMの出力系列と見なし、その生成確率が最大となる状態系列

をViterbiアルゴリズムにより探索する。求まった

を用いて上記式(8)により

を更新する。
収束判定部46は、収束条件を満たすか否かを判定し、収束条件を満たすまで、補助変数更新部42における更新処理と、パラメータ更新部44における更新処理と、状態系列更新部45における更新処理とを繰り返させる。
収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記(12)式の規準の値と前回の規準の値との差分が、予め定められた閾値以下であることを用いることができる。
音声信号生成部38は、パラメータ推定部36において取得した音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻t及び各周波数ωの観測スペクトルX(N) ω,tと、観測スペクトログラムYとに基づいて、Wienerフィルタに従って、音声信号を生成し、出力部90から出力する。例えば、パラメータ推定部36において取得した音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eとから求められる、音声信号の各時刻t及び各周波数ωの観測スペクトルX(S) ω,tと、パラメータ推定部36において取得した雑音信号の各時刻t及び各周波数ωの観測スペクトルX(N) ω,tと、観測スペクトログラムYとから、Wienerフィルタにより、音声信号を生成する。
<本発明の実施の形態に係る信号解析装置の作用>
次に、本発明の実施の形態に係る信号解析装置100の作用について説明する。まず、入力部10においてクリーン音声信号の時系列データを受け付けると、信号解析装置100は、図2に示す学習処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けたクリーン音声信号の時系列データに基づいて、クリーン音声信号の各時刻における各周波数のスペクトルを計算する。
ステップS106では、上記ステップS100において取得したクリーン音声信号の各時刻における各周波数のスペクトルに基づいて、音声の声道スペクトルと声帯振動スペクトルに対して、その対数スペクトル系列および対数スペクトルの一次時間数値微分系列のHMMパラメータを学習する。具体的には、HMMの状態出力分布の平均系列

、HMMの状態出力分布の分散を対角成分に並べた対角行列

、及び状態間の状態遷移確率を学習し、HMMパラメータ記憶部34に格納して、学習処理ルーチンを終了する。
次に、入力部10において、音声信号と雑音信号とが混在した観測信号の時系列データを受け付けると、信号解析装置100は、図3に示すパラメータ推定処理ルーチンを実行する。
まず、ステップS120では、入力部10において受け付けた観測信号の時系列データに基づいて、観測スペクトログラムYを計算する。
ステップS122では、音声信号のアクティベーションパラメータU(S)と、雑音信号の基底スペクトルH(N)及びアクティベーションパラメータU(N)と、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)とに初期値を設定する。
ステップS124では、初期値である、又は後述するステップS125で前回更新した、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)とに基づいて、上記(22)式、(23)式、(27)式、(28)式、(33)式、(36)式、(39)式、(43)式、(44)式、(49)式、(50)式に従って、各周波数ω及び各時刻tに対するζω,t、λ(S) ω,t、λ(N) ω,t、θ(S) ω,t、θ(N) ω,t、φω,t、ηω,t、ζω,t、νω,t、πω,t、σω,t、各基底l、各周波数ω、及び各時刻tに対するψl,ω,t、τω,l,t、雑音信号の各基底l及び各周波数ωの基底スペクトルH(N) ω,l及び各基底l及び各時刻tのアクティベーションパラメータU(N) l,tを更新する。
次に、ステップS125では、上記ステップS120で得られた観測スペクトログラムYと、上記ステップS124で更新された各周波数ω及び各時刻tに対するζω,t、λ(S) ω,t、λ(N) ω,t、θ(S) ω,t、θ(N) ω,t、φω,t、ηω,t、ζω,t、νω,t、πω,t、σω,t、各基底l、各周波数ω、及び各時刻tに対するψl,ω,t、τω,l,tと、初期値である、又は前回更新した、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)と、雑音信号の基底スペクトルH(N)及びアクティベーションパラメータU(N)と、状態系列

、最尤スペクトル系列

とに基づいて、上記(52)式〜(56)式に従って、雑音信号の各基底l及び各周波数ωの基底スペクトルH(N) ω,l及び各基底l及び各時刻tのアクティベーションパラメータU(N) l,t、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻t及び各周波数ωの観測スペクトルX(N) ω,tとを推定する。
ステップS126では、上記ステップS125で更新された各周波数ωの声道スペクトル系列Fω,1,…,F ω,Tに基づいて、各周波数ωの声道スペクトル系列Fω,1,…,F ω,Tの時間微分系列ΔFω,1,…,ΔF ω,Tを算出し、Fω,tとΔFω,tとの結合ベクトル

をHMMの出力系列と見なし、その生成確率が最大となる状態系列

をViterbiアルゴリズムにより探索する。また、上記ステップS125で更新された各周波数ωの音源スペクトル系列Eω,1,…,E ω,Tに基づいて、各周波数ωの音源スペクトル系列Eω,1,…,E ω,Tの時間微分系列ΔEω,1,…,ΔE ω,Tを算出し、Eω,tとΔEω,tとの結合ベクトルをHMMの出力系列と見なし、その生成確率が最大となる状態系列

をViterbiアルゴリズムにより探索する。
ステップS127では、上記ステップS126で求まった

を用いて上記式(7)により

を更新する。また、上記ステップS126で求まった

を用いて上記式(8)により

を更新する。
次に、ステップS128では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップS130へ移行し、収束条件を満たしていない場合には、ステップS124へ移行し、ステップS124〜ステップS128の処理を繰り返す。
ステップS130では、上記ステップS125で最終的に更新された音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻t及び各周波数ωの観測スペクトルX(N) ω,tと、観測スペクトログラムYとに基づいて、Wienerフィルタに従って、音声信号を生成し、出力部90から出力して、パラメータ推定処理ルーチンを終了する。
<実験例>
NTT-AT多言語音声データベース2002の音声データとRWCPの雑音データ(white noise, museum noise, babble noise, background music noiseの 4種類)を用いて上述の手法による雑音抑圧効果を検証する評価実験を行った。比較対象は従来のSSNMF法とし、強調前と強調後の音声のスペクトログラムを観察した。テストデータはクリーン音声に各雑音をさまざまなSNRで重畳させて作成した。テストデータはすべてサンプリング周波数16kHzのモノラル信号で、フレーム長32ms、フレームシフト16msで短時間Fourier変換を行い、観測スペクトログラムYω,tを算出した。学習においては10名(うち女性5名、男性5名)の話者の計500文の音声を用いてH(S) ω,lを学習し、音声の声道スペクトルと声帯振動スペクトルに対して、その対数スペクトル系列および対数スペクトルの一次時間数値微分系列のHMMパラメータの学習を行った。なお、本実験では簡単のため、HMMの各状態から各状態への遷移確率は一様とした。事前学習したH(S) ω,lの基底数は6とし、HMMの状態数は32とした。テストにおいては、学習で得られたH(S) ω,lとHMMパラメータを固定し、α1=1、α2=10、α3=1としてFω,t、Eω,t、H(N) ω,l、U(N) l,tの推定を行った。推定後、X(S) ω,tとX(N) ω,tを用いてWienerフィルタにより音声信号の推定値を算出した。提案法アルゴリズムの初期値は従来のSSNMFにより得た。
以上の条件下での提案法と従来法によって得られた強調前と強調後の音声のスペクトログラムを図4〜7に示す。
図4の左上は、音声のスペクトログラムを示し、右上は、その音声に白色雑音を重畳したスペクトログラムを示し、左下は、従来法によって得られた強調後のスペクトログラムを示し、右下は、提案法によって得られた強調後のスペクトログラムを示す。
図5の左上は、音声のスペクトログラムを示し、右上は、その音声に実環境雑音を重畳したスペクトログラムを示し、左下は、従来法によって得られた強調後のスペクトログラムを示し、右下は、提案法によって得られた強調後のスペクトログラムを示す。
図6の左上は、音声のスペクトログラムを示し、右上は、その音声にバブル雑音を重畳したスペクトログラムを示し、左下は、従来法によって得られた強調後のスペクトログラムを示し、右下は、提案法によって得られた強調後のスペクトログラムを示す。
図7の左上は、音声のスペクトログラムを示し、右上は、その音声に背景音楽雑音を重畳したスペクトログラムを示し、左下は、従来法によって得られた強調後のスペクトログラムを示し、右下は、提案法によって得られた強調後のスペクトログラムを示す。
いずれのほとんどの場合においても、強調後のスペクトログラムは提案法の方が元の音声のスペクトログラムにより近づいていることが確認できる。
以上説明したように、本発明の実施の形態に係る信号解析装置によれば、観測スペクトルと、声道スペクトル系列及び音源スペクトル系列から求められるスペクトル、並びに雑音信号の基底スペクトル及びアクティベーションパラメータから求められるスペクトルの和との距離、声道スペクトル系列と、声道スペクトル系列に対応したHMMの状態系列が与えられた下での最尤スペクトル系列との距離、音源スペクトル系列と、音源スペクトル系列に対応したHMMの状態系列が与えられた下での最尤スペクトル系列との距離、及び雑音信号の各時刻及び各周波数の観測スペクトルと、雑音信号の基底スペクトル及びアクティベーションパラメータから求められる各時刻及び各周波数のスペクトルとの距離を用いて表される規準を小さくするように、雑音信号の基底スペクトル及びアクティベーションパラメータと、声道スペクトル系列と、音源スペクトル系列と、雑音信号の観測スペクトルとを推定することにより、雑音を抑制し、高品質な音声信号を強調することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、HMMパラメータを学習する処理と、観測信号から音声信号を推定するパラメータ推定とを別々の装置で行うように構成してもよい。
また、更新するパラメータの順番には任意性があるため、上記の実施の形態の順番に限定されない。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20 演算部
24 時間周波数展開部
32 HMMパラメータ学習部
34 HMMパラメータ記憶部
36 パラメータ推定部
38 音声信号生成部
40 初期値設定部
42 補助変数更新部
44 パラメータ更新部
45 状態系列更新部
46 収束判定部
90 出力部
100 信号解析装置

Claims (7)

  1. 音声信号と雑音信号とが混合された観測信号の時系列データを入力として、各時刻及び各周波数の観測スペクトルを表す観測スペクトログラムを出力する時間周波数展開部と、
    前記時間周波数展開部により出力された前記観測スペクトログラム、及び予め学習された音声信号の隠れマルコフモデルのパラメータに基づいて、
    各時刻及び各周波数の観測スペクトルと、前記音声信号の声道スペクトル系列及び音源スペクトル系列から求められる各時刻及び各周波数のスペクトル、並びに前記雑音信号の各基底及び各周波数におけるパワースペクトルを表す基底スペクトル及び各時刻におけるパワーを表すアクティベーションパラメータから求められる各時刻及び各周波数のスペクトルの和との距離、
    前記音声信号の声道スペクトル系列と、前記声道スペクトル系列に対応した前記隠れマルコフモデルの状態系列が与えられた下での最尤スペクトル系列との距離、
    前記音声信号の音源スペクトル系列と、前記音源スペクトル系列に対応した前記隠れマルコフモデルの状態系列が与えられた下での最尤スペクトル系列との距離、及び
    前記雑音信号の各時刻及び各周波数の観測スペクトルと、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められる各時刻及び各周波数のスペクトルとの距離、
    を用いて表される規準を小さくするように、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、前記音声信号の声道スペクトル系列と、前記音声信号の音源スペクトル系列と、前記雑音信号の各時刻及び各周波数の観測スペクトルとを推定するパラメータ推定部と、
    を含む信号解析装置。
  2. 前記規準は、以下の式で表わされる請求項1記載の信号解析装置。

    ただし、α1、α2、α3は予め定められた重み係数を表し、

    は、前記観測スペクトログラムYと前記和Xとの距離を表し、

    は、前記音声信号の声道スペクトル系列Fと、前記声道スペクトル系列に対応した前記隠れマルコフモデルの状態系列sが与えられた下での最尤スペクトル系列との距離を表し、

    は、前記音声信号の音源スペクトル系列Eと、前記音源スペクトル系列に対応した前記隠れマルコフモデルの状態系列qが与えられた下での最尤スペクトル系列との距離を表し、

    は、前記雑音信号の各時刻及び各周波数の観測スペクトルX(N)と、前記雑音信号の前記基底スペクトルH(N)及び前記アクティベーションパラメータU(N)から求められる各時刻及び各周波数のスペクトルとの距離を表す。
  3. 前記パラメータ推定部は、
    前記規準の上界関数である補助関数を小さくするように、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、前記音声信号の声道スペクトル系列と、前記音声信号の音源スペクトル系列と、前記雑音信号の各時刻及び各周波数の観測スペクトルとを更新するパラメータ更新部と、
    予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、
    を含む請求項1又は2記載の信号解析装置。
  4. 時間周波数展開部と、パラメータ推定部とを含む信号解析装置における信号解析方法であって、
    前記時間周波数展開部が、音声信号と雑音信号とが混合された観測信号の時系列データを入力として、各時刻及び各周波数の観測スペクトルを表す観測スペクトログラムを出力し、
    前記パラメータ推定部が、前記時間周波数展開部により出力された前記観測スペクトログラム、及び予め学習された音声信号の隠れマルコフモデルのパラメータに基づいて、
    各時刻及び各周波数の観測スペクトルと、前記音声信号の声道スペクトル系列及び音源スペクトル系列から求められる各時刻及び各周波数のスペクトル、並びに前記雑音信号の各基底及び各周波数におけるパワースペクトルを表す基底スペクトル及び各時刻におけるパワーを表すアクティベーションパラメータから求められる各時刻及び各周波数のスペクトルの和との距離、
    前記音声信号の声道スペクトル系列と、前記声道スペクトル系列に対応した前記隠れマルコフモデルの状態系列が与えられた下での最尤スペクトル系列との距離、
    前記音声信号の音源スペクトル系列と、前記音源スペクトル系列に対応した前記隠れマルコフモデルの状態系列が与えられた下での最尤スペクトル系列との距離、及び
    前記雑音信号の各時刻及び各周波数の観測スペクトルと、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められる各時刻及び各周波数のスペクトルとの距離、
    を用いて表される規準を小さくするように、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、前記音声信号の声道スペクトル系列と、前記音声信号の音源スペクトル系列と、前記雑音信号の各時刻及び各周波数の観測スペクトルとを推定する
    信号解析方法。
  5. 前記規準は、以下の式で表わされる請求項4記載の信号解析方法。

    ただし、α1、α2、α3は予め定められた重み係数を表し、

    は、前記観測スペクトログラムYと前記和Xとの距離を表し、

    は、前記音声信号の声道スペクトル系列Fと、前記声道スペクトル系列に対応した前記隠れマルコフモデルの状態系列sが与えられた下での最尤スペクトル系列との距離を表し、

    は、前記音声信号の音源スペクトル系列Eと、前記音源スペクトル系列に対応した前記隠れマルコフモデルの状態系列qが与えられた下での最尤スペクトル系列との距離を表し、

    は、前記雑音信号の各時刻及び各周波数の観測スペクトルX(N)と、前記雑音信号の前記基底スペクトルH(N)及び前記アクティベーションパラメータU(N)から求められる各時刻及び各周波数のスペクトルとの距離を表す。
  6. 前記パラメータ推定部が推定することでは、
    パラメータ更新部が、前記規準の上界関数である補助関数を小さくするように、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、前記音声信号の声道スペクトル系列と、前記音声信号の音源スペクトル系列と、前記雑音信号の各時刻及び各周波数の観測スペクトルとを更新し、
    収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させることを含む請求項4又は5記載の信号解析方法。
  7. 請求項1〜請求項3の何れか1項に記載の信号解析装置の各部としてコンピュータを機能させるためのプログラム。
JP2016168309A 2016-08-30 2016-08-30 信号解析装置、方法、及びプログラム Active JP6564744B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016168309A JP6564744B2 (ja) 2016-08-30 2016-08-30 信号解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016168309A JP6564744B2 (ja) 2016-08-30 2016-08-30 信号解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018036406A JP2018036406A (ja) 2018-03-08
JP6564744B2 true JP6564744B2 (ja) 2019-08-21

Family

ID=61567372

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016168309A Active JP6564744B2 (ja) 2016-08-30 2016-08-30 信号解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6564744B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024032306A (ja) 2022-08-29 2024-03-12 株式会社ディスコ 加工装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8015003B2 (en) * 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization

Also Published As

Publication number Publication date
JP2018036406A (ja) 2018-03-08

Similar Documents

Publication Publication Date Title
Zhao et al. Perceptually guided speech enhancement using deep neural networks
US7664643B2 (en) System and method for speech separation and multi-talker speech recognition
US8930183B2 (en) Voice conversion method and system
CN107924686B (zh) 语音处理装置、语音处理方法以及存储介质
WO2018159403A1 (ja) 学習装置、音声合成システムおよび音声合成方法
Sprechmann et al. Supervised non-euclidean sparse NMF via bilevel optimization with applications to speech enhancement
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
Pilkington et al. Gaussian Process Experts for Voice Conversion.
Hwang et al. LP-WaveNet: Linear prediction-based WaveNet speech synthesis
WO2017146073A1 (ja) 声質変換装置、声質変換方法およびプログラム
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
JP4512848B2 (ja) 雑音抑圧装置及び音声認識システム
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
Parmar et al. Effectiveness of cross-domain architectures for whisper-to-normal speech conversion
JP2016143042A (ja) 雑音除去装置及び雑音除去プログラム
JP2006521576A (ja) 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム
Saleem et al. Spectral phase estimation based on deep neural networks for single channel speech enhancement
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
JP6564744B2 (ja) 信号解析装置、方法、及びプログラム
EP3242295B1 (en) A signal processor
JP6142402B2 (ja) 音響信号解析装置、方法、及びプログラム
Nisa et al. The speech signal enhancement approach with multiple sub-frames analysis for complex magnitude and phase spectrum recompense
JP6553561B2 (ja) 信号解析装置、方法、及びプログラム
Prabhu et al. EMOCONV-Diff: Diffusion-Based Speech Emotion Conversion for Non-Parallel and in-the-Wild Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180724

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190729

R150 Certificate of patent or registration of utility model

Ref document number: 6564744

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250