JP2009216733A - フィルタ推定装置、信号強調装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体 - Google Patents

フィルタ推定装置、信号強調装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体 Download PDF

Info

Publication number
JP2009216733A
JP2009216733A JP2008057055A JP2008057055A JP2009216733A JP 2009216733 A JP2009216733 A JP 2009216733A JP 2008057055 A JP2008057055 A JP 2008057055A JP 2008057055 A JP2008057055 A JP 2008057055A JP 2009216733 A JP2009216733 A JP 2009216733A
Authority
JP
Japan
Prior art keywords
target
signal
noise
prediction coefficient
error variance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008057055A
Other languages
English (en)
Inventor
Kimitaka Tsutsumi
公孝 堤
Takeshi Mori
岳至 森
Akitoshi Kataoka
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008057055A priority Critical patent/JP2009216733A/ja
Publication of JP2009216733A publication Critical patent/JP2009216733A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】正確に音声強調フィルタを推定する。
【解決手段】モデル目的予測係数からなる目的予測係数コードブックAと、モデル雑音予測係数からなる雑音予測係数コードブックDと、第1モデル目的誤差分散からなる目的誤差分散コードブックCと、モデル雑音誤差分散からなる雑音誤差分散コードブックGと、を備え、入力分割信号の予測係数および誤差分散を求め、入力分割信号パワースペクトルを求め、A、C、D、Gを用いて、入力分割信号パワースペクトルと尺度距離が最も近いと推定されるパワースペクトルについての最適目的予測係数a i*m、最適目的誤差分散ck*m i*m、最適雑音予測係数d j*m、最適雑音誤差分散gq*m、を求め、a i*m、ck*m i*m、から目的信号の、d j*m、gq*mから雑音信号の、パワースペクトルを求め、これらのパワースペクトルからフィルタを求める。
【選択図】図3

Description

この発明は、目的信号を強調する信号強調装置、フィルタを推定するフィルタ推定装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体に関する。
図1に従来の信号強調装置100の機能構成例を示し、図2に信号強調装置100で用いられるフィルタ推定装置200の機能構成例を示す。以下の説明では、入力信号としてディジタル信号を想定する。ディジタル信号は、センサ(図示せず)に入力したアナログ信号を一定の時間間隔(サンプリング周期)毎に観測することで得られる。1秒間当たりのサンプリング回数をサンプリング周波数という。原信号に雑音信号が重畳された信号を入力信号z(t)とする。そして、フィルタ推定装置200を信号強調装置100に適用し、信号強調装置100により強調を行った後に得られる信号を目的信号z^(t)とする。tは連続する離散時刻のインデックスである。信号強調装置100は、分割部102、周波数領域変換部104、フィルタ演算部106、時間領域変換部108、窓掛け処理部112、重畳加算部114フィルタ推定装置200により構成される。以下、分割部102、周波数領域変換部104、フィルタ演算部106、時間領域変換部108、窓掛け処理部112、重畳加算部114の処理を簡単に説明するが、処理の詳細は、以下の「実施例2」で説明する。
入力信号が分割部102に入力されると、分割部102は、例えば、30msec分程度の固定長の時間区間(以下、「フレーム」という。)に対応するLサンプルだけディジタル信号を取り出し、入力分割信号z(m)を求める(ここで、Lはフレーム長に対応するディジタル信号のサンプル数である)。ただし、mはフレーム内での離散時刻のインデックス、fはフレーム番号のインデックス(つまり、f=1,...,F)とし、Fは、フレーム数とする。
周波数領域変換部104は、入力分割信号を周波数領域に変換することで、周波数領域入力分割信号Z(k)を求める。kは離散的周波数を表すインデックスとする。
フィルタ演算部106は、後述するフィルタ推定装置200で求められたフィルタH(k)を周波数領域入力分割信号Z(k)に畳み込むことで周波数領域分割目的信号Y(k)を求める。
時間領域変換部108は、周波数領域分割目的信号Y(k)を時間領域に変換することで、時間領域分割目的信号y(m)を求める。
窓掛け処理部112は、時間領域分割目的信号y(m)に例えば、ハニング窓やハミング窓などの窓関数をw(m)をかけ、窓掛け時間領域分割目的信号y (m)を求める。
重畳加算部114は、窓掛け時間領域分割目的信号y (m)を、直前フレームの窓掛け時間領域分割目的信号y f−1(m)と、フレーム時間長の半分の時間長(L/2サンプル)づつ重ね合わせて足し合わせていくことにより、目的信号z^(t)を求める(つまり、フレーム分割前の原信号を推定する。)。
次に、図2を用いて、フィルタ推定装置200について説明する。フィルタ推定装置200は、線形予測演算部202、入力信号パワースペクトル演算部204、探索部206、誤差分散演算部207、目的信号パワースペクトル演算部208、雑音信号パワースペクトル演算部210、フィルタ生成部212、第1記憶部214、第2記憶部216、により構成される。また、以下の説明では、信号は全て自己回帰モデルに従うと仮定する。自己回帰モデルに従うと仮定すると、入力分割信号、目的信号、雑音信号(式(1)中ではまとめて「信号」という。)のパワースペクトルP(k)は以下の式で表すことができることが知られている(非特許文献1参照)。
P(k)=(信号の誤差分散)/(信号の予測係数のフーリエ級数の絶対値の2乗) (1)
誤差分散とは予測残差の分散である。
線形予測演算部202は、分割部102から得られた入力分割信号z(m)に線形予測分析を行うことで、入力分割信号の予測係数α および誤差分散βを求める。pは線形予測係数のインデックスを示す。線形予測係数および誤差分散の計算には、レビンソンダービンアルゴリズム(非特許文献2参照)を用いれば良い。
入力信号パワースペクトル演算部204は、予測係数α および誤差分散βから、上記式(1)を用いて、入力分割信号のパワースペクトルPz(k)(以下、「入力分割信号パワースペクトル」という。)を求める。
また、第1記憶部214には目的予測係数コードブックAが記憶されており、第2記憶部216には雑音予測係数コードブックDが記憶されている。
目的予測係数コードブックAとは、目的信号の予測係数を予め学習して、生成されたものであり、以下の式で定義される。
A={A} (i=1,...,I)
={a ,...,a
ここで、a が、予め学習された目的信号の予測係数を示す(以下、「モデル目的予測係数a 」という。)。IはコードブックA中のコードベクトルの数(以下、「エントリ数」という。)である。また、Vは目的信号に関する線形予測の次数である。
雑音予測係数コードブックDとは、雑音信号の予測係数を予め学習して、生成されたものである。以下の式で定義される。
D={D} (j=1,...,J)
={d ,...,d
ここで、d が雑音信号の予測係数を示し(以下、「モデル雑音予測係数d 」という。)、Jは雑音予測係数コードブックDのエントリ数であり、Hは雑音信号に関する線形予測係数の次数である。それぞれのコードブックの生成(学習)手法は[発明を実施するための最良の形態]で述べる。
探索部206は、目的予測係数コードブックAおよび雑音予測係数コードブックDを用いて、フレーム毎に最適目的予測係数a ^および最適雑音予測係数d^を求める。代表的な距離尺度として、板倉齊藤歪尺度を用いればよい。板倉齊藤歪尺度については、非特許文献2に記載されている。コードブック探索の手法および板倉齊藤歪尺度の詳細については、[発明を実施するための最良の形態]で述べる。
そして、誤差分散演算部207は、求められた最適目的予測係数a^および最適雑音予測係数d^を用いて、フレーム毎に目的信号の誤差分散の推定値c^および雑音信号の誤差分散の推定値g^を求める。これらの推定値は、例えば、以下の式により求められる(非特許文献3参照)。
Figure 2009216733
つまり、従来では、最適目的予測係数a ^および最適雑音予測係数d^をコードブックA、Dから探索する処理において、目的信号の誤差分散の推定値c^および雑音信号の誤差分散の推定値g^を解析的に求めていた。
目的信号パワースペクトル演算部208が、上記式(1)に基づく以下の式(3)により、a^、c^から目的信号のパワースペクトルPs(k)を求める。また、雑音信号パワースペクトル演算部210が、上記式(1)に基づく以下の式(4)により、d^、g^から目的信号のパワースペクトルPω(k)を求める。
Ps(k)=c^/│Ws(k)│ (3)
Pω(k)=g^/│Wω(k)│ (4)
上述の式(1)のように、Ws(k)、Wω(k)はそれぞれ、a^、d^のフーリエ級数である。そして、フィルタ生成部212は、以下の式によりフィルタを生成する。
(k)=Ps(k)/(Ps(k)+Pω(k)) (5)
フィルタ推定装置200の構成は非特許文献3に記載されており、信号強調装置の構成の詳細は非特許文献4に記載されている。
竹村彰通、谷口正信著"統計科学のフロンティアI 統計学の基礎I"岩波書店 守谷健弘著 "音声符号化"電子情報通信学会 Sriram Srinivasan 他著"Codebook Driven Short−Term Predictor Parameter Estimation for Speech Enhancement" IEEE Trans,vol.14 No.1,January 2006 pp163−176 Y.Ephraim,et al,"Speech Enhancement using a minimum−mean square error log−spectral amplitude estimator" IEEE Trans.Aconst.Speed Signal Process.vol.ASSP−33 No.2,pp443−445、April
従来のフィルタ推定装置200の構成であれば、目的信号、雑音信号の予測係数のみをモデル化している。そして、目的信号の誤差分散および雑音信号の誤差分散に制約をつけずに誤差分散演算部207が、解析的に計算する。従って、雑音信号、目的信号のパワースペクトルを正確に推定できず、結果としてフィルタの推定を正確に行えないという問題があった。
この発明のフィルタ推定装置は、線形予測演算部と、入力信号パワースペクトル演算部と、第1記憶部と、第2記憶部と、第3記憶部と、第4記憶部と、探索部と、目的信号パワースペクトル演算部と、雑音信号パワースペクトル演算部と、フィルタ生成部と、を備える。線形予測演算部は、フレーム分割により得られた入力分割信号に線形予測分析を行うことで、予測係数および誤差分散を求める。入力信号パワースペクトル演算部は、予測係数および誤差分散から入力分割信号パワースペクトルを求める。第1記憶部は、モデル目的予測係数と第2モデル目的誤差分散からなるベクトルの集合である目的予測係数コードブックを記憶している。なお、第2モデル目的誤差分散は目的予測係数コードブックに含ませない構成とすることも出来る。第2記憶部は、モデル雑音予測係数からなるベクトルの集合である雑音予測係数コードブックを記憶している。第3記憶部は、第1モデル目的誤差分散からなるベクトルの集合である目的誤差分散コードブックを記憶している。第4記憶部は、モデル雑音誤差分散からなるベクトルの集合である雑音誤差分散コードブックを記憶している。探索部は、目的予測係数コードブック、目的誤差分散コードブック、雑音予測係数コードブック、雑音誤差分散コードブックからそれぞれ最適なコードベクトルを選択する。各コードブックから1つずつコードベクトルを選択し、例えば、以下で述べる式(25)によりパワースペクトルの推定値を求め、当該推定値と入力分割信号パワースペクトルとの間の距離尺度、例えば板倉齊藤歪尺度を計算する。板倉齊藤歪尺度が最小となるようなコードベクトルの組み合わせを探索し、これを最適目的予測係数、最適目的誤差分散、最適雑音予測係数、最適雑音誤差分散、とする。目的信号パワースペクトル演算部は、最適目的予測係数および最適目的誤差分散から目的信号のパワースペクトルとする。雑音信号パワースペクトル演算部は、最適雑音予測係数および最適雑音誤差分散から雑音信号のパワースペクトルを求める。フィルタ生成部は、目的信号のパワースペクトルおよび雑音信号のパワースペクトルからフィルタを求める。また、目的予測係数コードブックと目的誤差分散コードブックとは、対応付けられている
この発明のフィルタ推定装置は、目的信号および雑音信号の予測係数をモデル化したコードブックに加え、目的信号の誤差分散の分布をモデル化したコードブックCおよび雑音信号の誤差分散の分布をモデル化したコードブックGも備えた。従って、コードブックC、Gにより、目的信号の誤差分散および雑音信号の誤差分散の推定値に制約を付けることができる。これにより、雑音信号、目的信号のパワースペクトルの推定精度が向上し、フィルタの推定性能を向上させることができる。
以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。
図3に実施例1のフィルタ推定装置400の機能構成例を示し、図4に主な処理の流れを示す。また、信号強調装置100の構成のうちフィルタ推定装置200に代えてフィルタ推定装置400を適用した構成(以下、「信号強調装置300」という。)は図1と同様である。フィルタ推定装置400の適用は信号強調処理に限られない。実施例1および実施例2では目的信号を音声信号とし、入力信号は音声信号に雑音信号が重畳した信号とし、信号強調装置300は、当該音声信号を強調して出力するものとする。
実施例1のフィルタ推定装置400は、線形予測演算部202、入力信号パワースペクトル演算部204、探索部406、目的信号パワースペクトル演算部208、雑音信号パワースペクトル演算部210、フィルタ生成部212、第1記憶部414、第2記憶部416、第3記憶部420、第2記憶部422、により構成される。
線形予測演算部202は、分割部102から得られた入力分割信号z(m)に線形予測分析を行うことで、入力分割信号の予測係数α および誤差分散βを求める(ステップS2)。[背景技術]において述べたように、線形予測分析には例えば、レビンソンダービンアルゴリズムなどを用いることができる。
入力信号パワースペクトル演算部204は、予測係数α および誤差分散βから入力分割信号パワースペクトルPz(k)を求める(ステップS4)。入力分割信号は自己回帰モデルに従うと仮定しているので、[背景技術]の式(1)に従い、パワースペクトルを計算できる。具体的には次式(20)により求めることが出来る。
Pz(k)=β/│Wz(k)│ (20)
ただし、Wz(k)は予測係数α のフーリエ級数であり、以下の式で表すことができる。ここでRはフーリエ変換長を表す。
Wz(k)=Σp=0 R−1α exp{−j(2πpk)/R} (21)
探索部406の説明の前に、目的予測係数コードブックA、雑音予測係数コードブックD、目的誤差分散コードブックC、雑音推定誤差数コードブックGの生成手法について説明し、次に、探索部406、目的信号パワースペクトル演算部208、雑音信号パワースペクトル演算部210、フィルタ生成部212、の動作を説明する。
[目的予測係数コードブックAの生成手法]
図5に目的予測係数コードブックを生成するための目的予測係数コードブック生成装置500の機能構成例を示す。目的予測係数コードブック生成装置500は、分割部102、線形予測演算部202、第1変換部502、学習ベクトル記憶部504、セントロイド演算部506、第2変換部508により構成される。音声データベース501には、大量の学習用の音声ファイルが格納されている。分割部102は、音声データベース501からの音声ファイルに対して、フレーム分割処理を行い、フレーム分割信号s(m)を求める。線形予測演算部202は、線形予測演算を行い、予測係数αs、v 、誤差分散β を求める。ここで、予測係数の次数vには雑音重畳音声ならびに音声は10次、自動車の走行雑音には4次、オフィス環境下の雑音には10次といったように信号の性質により異なる値を用いる。また、添え字「s」は、目的信号を示す記号として用いる。
次に、第1変換部502により、予測係数αs、v からLSP係数(Line Spectral Pair)へ変換する。当該変換の手法は、例えば、チェビシェフ多項式の求解法による。チェビシェフ多項式の求解法は例えば、非特許文献2に記載されている。当該変換によりLSP係数Ls、1 ,...,Ls、v ,...,Ls、V を求める。そして、誤差分散βとLSP係数を組み合わせて以下の学習ベクトルQ を生成して、学習ベクトル記憶部504に記憶させる。
=[Ls、1 ,...,Ls、v ,...,Ls、V 、β
全ての学習用音声ファイルについて、分割部102、線形予測演算部202、第1変換部502、それぞれの処理を行い、生成された学習ベクトルを逐次、学習ベクトル記憶部504に記憶させる。そして得られたΦ個の学習ベクトルの集合{Q ,...,Q Φ}が求められる。
セントロイド演算部506は、学習ベクトル集合{Q ,...,Q Φ}に対して、LBGアルゴリズムを適用し、I個のセントロイド集合{c ,...c }を得る。LBGアルゴリズムについては上記非特許文献2に記載されている。
セントロイド集合中のコードベクトルCのうち、LSP係数に対応する要素を予測係数a ,...,a に変換する(変換手法は例えば、非特許文献2に記載)。添え字iはコードベクトルのインデックスを表す(i=1,...,I)。予測係数a ,...,a とセントロイドc の誤差分散に対応する要素bを合わせて、コードベクトルA={a ,...,a ,b}を作成する。
セントロイドからコードベクトルへの変換を全てのセントロイドについて行い、目的予測係数コードブックA={A,...,A,...,A}を求め、第1記憶部214に記憶させる。以下の説明では、a (v=1,...,V)をモデル目的予測係数といい、bを第2モデル目的誤差分散といい、Aを目的予測係数コードベクトルという。
[雑音予測係数コードブックDの生成手法]
雑音予測係数コードブックDの生成に用いる装置は、目的予測係数コードブック生成装置500と同様である。目的予測係数コードブックAの生成手法と違う点は、音声データベース501が雑音のデータベースとなる点、および学習ベクトルとして予測係数のみを用いる点である。従って、説明を省略する。雑音予測係数コードブックD={D,...,D,...,D}(j=1,...,J)、雑音予測係数コードベクトルD={d ,...,d ,...,d }(h=1,...,H)とする。また、モデル雑音予測係数d をモデル雑音予測係数とする。Jは予め定められたエントリ数であり、Hは予測係数の次数である。
[目的誤差分散コードブックCの生成手法]
図6に、目的誤差分散コードブック生成装置600の機能構成例を示す。目的誤差分散コードブック生成装置600は、分割部102、誤差分散演算部602、最小誤差分散判定部604、セントロイド演算部506により構成される。また、
第1記憶部414に記憶された目的予測係数コードブックAを用いる。
分割部102は、音声データベース501の中の音声ファイルに対して、フレーム分割処理を行い、フレーム分割信号s(m)を求める。誤差分散演算部602は、フレーム分割信号s(m)に対して、目的予測係数コードブックA中のコードベクトルAの予測係数に対応するa を用いて、次式に基づき予測誤差ε(m)を求める。
ε(m)=Σv=0 (m−v) (22)
そして、誤差分散Ωは次式で求める。
Figure 2009216733
誤差分散演算部602は全てのiに対して{i=1,...,I}、予測誤差ε(m)およびこれに基づく誤差分散Ωを求める。
そして、最小誤差分散判定部604は、Aと1対1対応するI個のバッファ(図示せず)を持つ。まず、Ωを最小とするようなAを選択し、Ωを対応するバッファに格納する。格納された誤差分散Ωの集合を最小誤差集合μとする。
最小誤差集合μを学習サンプルとして、LBGアルゴリズムを適用し、目的誤差分散コードベクトルCを得る。これを全てのiについて実行し、以下に示す目的誤差分散コードブックCを求める。
C={C,...,C,...,C
各目的誤差分散コードベクトルCは次式により定義される。
={c ,...,c ,...,c
を第1モデル目的誤差分散とし、Kは予め定められるエントリ数である。
[雑音誤差分散コードブックGの生成手法]
雑音誤差分散コードブックGを生成するための雑音誤差分散コードブック生成装置700の機能構成例を図7に示す。雑音誤差分散コードブック生成装置700は、分割部102、線形予測演算部202、誤差分散記憶部702、セントロイド演算部506とで構成されている。
まず、分割部102は、観測信号の最初の非発話区間(例えば、5秒程度の雑音信号)に対して、フレーム分割処置を行うことで、フレーム雑音信号を求める。そして、線形予測演算部202は、フレーム雑音信号毎に線形予測演算を行うことで、誤差分散を求める。求められた誤差分散は逐次、誤差分散記憶部に格納される。そして、全てのフレーム雑音信号について誤差分散を格納した後、全ての誤差分散に対してLBGアルゴリズムを適用し、以下に示す雑音誤差分散コードブックGを求める。
G=g{q=1,...,Q}
ただし、gをモデル雑音誤差分散とし、Qは予め定められたエントリ数とする。
以下に、目的予測係数コードブックA、雑音予測係数コードブックD、目的誤差分散コードブックC、雑音誤差分散コードブックGをまとめて示す。

目的予測係数コードブック A={A} (i=1,...,I)
目的予測係数コードベクトル A={a ,...,a ,...,a ,b

目的誤差分散コードブック C={C} (i=1,...,I)
目的誤差分散コードベクトル C={c ,...,c ,...,c

雑音予測係数コードブック D={D} (j=1,...,J)
雑音予測係数コードベクトル D={d ,...,d ,...,d

雑音予測係数コードブック G={g} (q=1,...,Q)
上記目的予測係数コードベクトルAの添え字「i」と上記目的誤差分散コードベクトルCの添え字「i」は対応している。このように、目的予測係数コードベクトルAと目的誤差分散コードベクトルCとを1対1に対応させていることが好ましい。当該対応させることで、パワースペクトルの包絡の形状と、誤差分散がとる分布の間の対応付けを行い、前後の音韻による影響や個人差などによる誤差分散の変動に対する頑健性を向上させることが出来る。これによりパワースペクトル推定精度が向上し、強調後の音声の高品質化を期待できる。
また、目的予測係数コードベクトルAのように、コードベクトルに予測係数のみならず、誤差分散bを含ませることが好ましい。誤差分散bを含ませることで、目的信号パワースペクトル演算部408はより正確に目的信号のパワースペクトルを求めることができる。何故なら、目的信号の予測係数と目的信号の誤差分散の間の相関をモデル化することになり、音声の特徴(例えば、母音の包絡が現れたときには誤差分散を大きめに見積もるといった制約)を目的信号のパワースペクトル推定の際の制約とすることができるからである。
次に、第1記憶部414、第2記憶部416、第3記憶部420、第4記憶部422を用いた探索部406の動作を説明する。探索部406は、第1記憶部414に記憶されている目的予測係数コードブックA、第3記憶部420に記憶されている目的誤差分散コードブックC、第2記憶部416に記憶されている雑音予測係数コードブックD、第4記憶部422に記憶されている雑音誤差分散コードブックG、入力分割信号パワースペクトルPz(k)を用いて、最適目的予測係数、最適目的誤差分散、最適雑音予測係数、最適雑音誤差分散、を求める。具体的には、探索部406は、コードブックA、C、D、G、からそれぞれ最適なコードベクトルを選択する。各コードブックから1つずつコードベクトルを選択し、例えば以下で述べる式(25)によりパワースペクトルの推定値を求め、当該推定値と入力分割信号パワースペクトルとの間の距離尺度を計算する。以下の説明では当該距離尺度を板倉齊藤歪尺度とする。探索部406は、コードベクトルの組み合わせを変えながら、板倉齊藤歪尺度を評価し、板倉齊藤歪尺度が最小となるようなコードベクトル(以下、「最適コードベクトル」という。)の組み合わせ(Ai*m、Dj*m、ck*m i*m、gq*m)を求める。「im」「jm」「km」「qm」は、最適コードベクトルのインデックスである。Ai*mに含まれる目的予測係数を最適目的予測係数a^とし、ck*m i*mに含まれる目的誤差分散を最適目的誤差分散c^とし、Dj*mに含まれる雑音予測係数を最適雑音予測係数d^とし、gq*mに含まれる雑音誤差分散を最適雑音誤差分散g^として、探索部406は出力する(ステップS6)。音声のパワースペクトルの包絡形状は同じ音韻の音声の間では類似したものとなるため、コードブックなどを利用して有限個のパワースペクトルをモデル化することにより、音声全体のパワースペクトルを近似することが可能である。
板倉齊藤歪尺度は、ある2つのパワースペクトルをP、Pとすると以下の式(24)で定義される(従来技術2のP62参照)。
Figure 2009216733
探索部406の動作として例えば次の2つの手法が考えられる。1つは全てのコードベクトルの組み合わせについて板倉齊藤歪尺度の評価を行い最適コードベクトルの組を決定する全探索方式である。
もう1つは他のコードベクトルを固定して1つのコードベクトルのみを変化させて評価を行い、最適コードベクトルを求め、今度は別の1つのコードベクトルを変化させ、他を固定するといった処理を板倉齊藤歪尺度が収束するまで繰り返す反復方式である。以下、「全探索方式」と「反復方式」の2つの方式の詳細を説明する。
[全探索方式]
目的予測係数コードブックAからA、雑音予測係数コードブックDからD、目的誤差分散コードブックC中のコードベクトルCのうちc を選択し、雑音誤差分散Gからgを選択したとすると、推定したパワースペクトルPijkq(k)は以下の式で定義される。
Figure 2009216733
[反復方式]
反復方式は、ある一つのコードベクトルのみを変化させ、他のコードベクトルを固定して、コードベクトルの組を求める。簡略化して一例を説明すると、直前フレームの雑音信号のパワースペクトルPω f−1を用いてAを求め、当該Aを用いてDを求める。そして、A、Dを用いてC、gを求める。以下、詳細にこの一例について説明する。
(1)直前フレームの雑音信号のパワースペクトルPω f−1を利用して、例えば以下の式によりAi*mを求める。なお、Xはdが最小になる組み合わせを選択した際のdの値である。
Figure 2009216733
(4)上記(1)から(3)を順に行い、Dの値が収束したときの最適コードベクトルの組み合わせ(Ai*m、Dj*m、ck*m i*m、gq*m)を求める。そして、Ai*mおよびck*m i*mは目的信号パワースペクトル演算部208に入力され、Dj*mおよびgq*mは雑音信号パワースペクトル演算部210に入力される。また、板倉齊藤歪尺度の代わりにパワースペクトル間のユークリッド距離などの距離尺度を用いても、上記探索処理を行うことが出来る。
目的信号パワースペクトル演算部208は、Ai*m中の目的予測係数「a i*m,...,a i*m」(以下、「最適目的予測係数」という。)および目的誤差分散ck*m i*m(以下、「最適目的誤差分散」という。)からフレーム毎に目的信号のパワースペクトルPs(k)を求める(ステップS8)。具体的には上記式(1)に基づいて以下の式のように求める。
Ps(k)=ck*m i*m/│A i*m(k)│ (30)
ただし、A i*m(k)は、目的予測係数a i*m(v=1,...,V)のフーリエ級数とする。
一方、雑音信号パワースペクトル演算部210は、フレーム毎にDi*m中の雑音予測係数「d j*m,...,d j*m」(以下、「最適雑音予測係数」という。)および雑音誤差分散gq*m(以下、「最適雑音誤差分散」という。)から雑音信号のパワースペクトルPω(k)を求める(ステップS8)。具体的には上記式(1)に基づいて以下の式のように求める。
Pω(k)=gq*m/│A ω j*m(k)│ (31) ただし、A ω j*m(k)は、雑音予測係数d j*m(h=1,...,H)のフーリエ級数とする。
フィルタ生成部212は、目的信号のパワースペクトルPs(k)および雑音信号のパワースペクトルPω(k)からフィルタH(k)を求める。具体的には、以下の式により求める(ステップS12)。
(k)=(Ps(k))/(Ps(k)+Pω(k)) (32)
説明の便宜上、第1〜4記憶部の4つに分けたが、物理的には1つの記憶部に4つのコードブックA、D、C、Gを混在させて記憶する構成も可能である。
このフィルタ推定装置400は、従来から存在していた目的予測係数コードブックAおよび雑音予測係数コードブックDのみならず、目的誤差分散コードブックCおよび雑音誤差分散コードブックBを備える。B、Dにより誤差分散について制約を付けることが出来、結果として雑音信号のパワースペクトル、目的信号のパワースペクトルを過大推定、または過小推定することなく、正確な推定を行うことが出来る。
また、目的予測係数コードブック中の各コードベクトルは要素として、モデル目的予測係数a ,...,a だけでなく、第2モデル目的誤差分散bを含ませることが好ましい。何故なら、上述したように目的信号の予測係数と目的信号の誤差分散の間の相関をモデル化することで、音声の特徴(例えば、母音の包絡が現れたときには誤差分散を大きめに見積もるといった制約)を目的信号パワースペクトル演算部208による目的信号のパワースペクトル推定の際の制約とすることができ、強調後の音声の高品質化を期待できるからである。そして、式(27)に示すように、第2モデル目的誤差分散bを用いることで、探索部406は、より高精度な探索処理を行うことが出来るからである。第2モデル目的誤差分散bを含ませない場合の探索部406の探索処理は、上記式(27)中の右辺のbをc中の何れかの要素に置き換えて計算することで可能となる。
また、上記式(27)および式(29)の関係からも理解されるように、目的予測係数コードベクトルAと目的予測誤差コードベクトルCとは対応付けられていることが必要である。そして、AとCとは1対1に対応付けられていることが好ましい。AとCを1対1に対応させることで、上述したようにパワースペクトルの包絡の形状と、誤差分散がとる分布の間の対応付けを行い、前後の音韻による影響や個人差などによる誤差分散の変動に対する頑健性を向上させることが出来る。これによりパワースペクトル推定精度が向上し、強調後の音声の高品質化を期待できる。更に、AとCを1対1対応させることで、上記式(27)で求まった「i*m」をそのまま式(29)に適用できる点で、計算コストを削減できる。
また、AとCの対応付けは1対1に限定されない。Aのエントリ数とCのエントリ数とが異なる場合には、最尤推定などを用いてコードベクトル間の対応付けを行うことが出来る。
次にフィルタ推定装置400を用いた信号強調装置300について、図1を用いて簡単に説明する。また、主な処理の流れを図8に示す。
外部から入力したディジタル信号を分割部102に入力する。そして、分割部102は、入力信号のうち1フレーム分(Lサンプル分)ずつ取り出すことにより入力信号をフレーム分割する(ステップS102)。フレーム分割により得られた入力信号全体のフレーム数をFとする。フレーム分割により得られた入力信号を入力分割信号z(m)とする。ただし、mはフレーム内での離散時刻のインデックス(m=1,...,L)、fはフレーム番号のインデックス(f=1,...,F)とする。
図9にフレーム分割処理の概要を示す。図9に示すように、入力信号がフレーム分割される際に、各フレームは、直前のフレームとフレーム長Lの半分の時間長だけ重なりをもって切り出される。入力分割信号z(m)は、周波数領域変換部104に入力される。
周波数領域変換部104は、入力分割信号を周波数領域に変換することで、周波数領域入力分割信号Z(k)を求める(ステップS104)。周波数領域の変換は、例えば以下の式に示すフーリエ変換により行われる。
z’(m)=z(m) (m=1,...,L) (40)
z’(m)=0(m=L+1,L+2,...,R)
(k)=Σm=0 R−1 z’(m)exp{−j(2πmk)/R}
ただし、Rは、フーリエ変換長であり、R>Lとする。
フィルタ演算部106は、フィルタ推定装置400でフィルタH(k)が求められると(ステップS106)、当該フィルタH(k)を周波数領域入力分割信号Z(k)に畳み込むことで周波数領域分割目的信号Y(k)を求める(ステップS108)。以下の式によるフィルタ演算を行うことで、周波数領域における音声強調を行う。
│Y(k)│=H(k)・│Z(k)│ (41)
時間領域変換部108は、周波数領域分割目的信号Y(k)を時間領域に変換することで、時間領域分割目的信号y(m)を求める(ステップS110)。ここで、Y(k)の位相成分にはZ(k)の位相成分を与える。例えば、以下の式(42)に示す逆フーリエ変換により行われる。なお、逆フーリエ変換により得られる信号のうち、式(43)に示すように、最初のLサンプルのみを取り出して、y(m)とする。
(m)=Σk=0 R−1(k)exp{j(2πmk)/R} (42)
(m)←y(m’) (m’=1,...,L)(43)
図10に、窓掛け処理部112、重畳加算部114の処理の概要を示す。
図10Aに示すように、窓掛け処理部112は、時間領域分割目的信号y(m)に例えば、ハニング窓やハミング窓などの窓関数をw(m)をかけ、窓掛け時間領域分割目的信号y (m)を求める(ステップS112)。窓関数の長さはフレーム長と同じLである。窓関数は例えば、以下の式のように行われる。
(m)=w(m)・y(m) (44)
図4Bに示すように、重畳加算部114は、窓掛け時間領域分割目的信号y (m)を、直前フレームの窓掛け時間領域分割目的信号y (m−1)と、フレーム時間長の半分の時間長(L/2サンプルづつ)重ね合わせて足し合わせていくことにより、目的信号z^(t)を求める(つまり、フレーム分割前の原信号を推定する。)(ステップS114)。
フィルタ推定装置400により推定されたフィルタを目的信号の強調に用いることで、従来と比べてより正確な目的信号(音声信号)の強調を行うことが出来る。目的信号は音声信号に限られず、フィルタ推定装置で推定されたフィルタは信号強調のためだけに用いられるものではない。
<ハードウェア構成>
本実施例で説明したフィルタ推定装置、信号強調装置は、CPU(Central Processing Unit)、入力部、出力部、補助記憶装置、RAM(Random Access Memory)、ROM(Read Only Memory)及びバスを有している(何れも図示せず)。
CPUは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、RAMは、SRAM(Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等である。また、バスは、CPU、入力部、出力部、補助記憶装置、RAM及びROMを通信可能に接続している。
<ハードウェアとソフトウェアとの協働>
本実施例のフィルタ推定装置、信号強調装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、CPUがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。
フィルタ推定装置、信号強調装置の入力部、出力部は、所定のプログラムが読み込まれたCPUの制御のもと駆動するLANカード、モデム等の通信装置である。フィルタ推定装置400中の線形予測演算部、入力信号パワースペクトル演算部、目的信号パワースペクトル演算部、雑音信号パワースペクトル演算部、探索部、フィルタ生成部、信号強調装置300中の分割部、周波数領域変換部、フィルタ演算部、時間領域変換部、窓掛け処理部、重畳加算部は所定のプログラムがCPUに読み込まれ、実行されることによって構築される演算部である。第1記憶部、第2記憶部、第3記憶部は上記補助記憶装置として機能する。
信号強調装置の機能構成例を示したブロック図。 従来技術のフィルタ推定装置の機能構成例を示したブロック図。 実施例1のフィルタ推定装置の機能構成例を示したブロック図。 実施例1のフィルタ推定装置の主な処理を示したフローチャート。 目的予測係数コードブック生成装置の機能構成例を示したブロック図。 目的誤差分散コードブック推定装置の機能構成例を示したブロック図。 雑音誤差分散コードブック推定装置の機能構成例を示したブロック図。 実施例2の信号強調装置の主な処理の流れを示したフローチャート。 フレーム分割処理を模式的に示した図。 図10Aが窓掛け処理を模式的に示した図であり、図10bが重畳加算を模式的に示した図である。

Claims (10)

  1. フレーム分割により得られた入力分割信号に線形予測分析を行うことで、予測係数および誤差分散を求める線形予測演算部と、
    前記予測係数および前記誤差分散から入力分割信号パワースペクトルを求める入力信号パワースペクトル演算部と、
    モデル目的予測係数からなるベクトルの集合である目的予測係数コードブックを記憶している第1記憶部と、
    モデル雑音予測係数からなるベクトルの集合である雑音予測係数コードブックを記憶している第2記憶部と、
    第1モデル目的誤差分散からなるベクトルの集合である目的誤差分散コードブックを記憶している第3記憶部と、
    モデル雑音誤差分散からなるベクトルの集合である雑音誤差分散コードブックを記憶している第4記憶部と、
    前記目的予測係数コードブック、前記目的誤差分散コードブック、前記雑音予測係数コードブック、前記雑音誤差分散コードブック、前記入力分割信号パワースペクトルを用いて、最適目的予測係数、最適目的誤差分散、最適雑音予測係数、最適雑音誤差分散、を求める探索部と、
    前記最適目的予測係数および前記最適目的誤差分散から目的信号のパワースペクトルを求める目的信号パワースペクトル演算部と、
    前記最適雑音予測係数および前記最適雑音誤差分散から雑音信号のパワースペクトルを求める雑音信号パワースペクトル演算部と、
    前記目的信号のパワースペクトルおよび前記雑音信号のパワースペクトルからフィルタを求めるフィルタ生成部と、を備え、
    前記目的予測係数コードブックと前記目的誤差分散コードブックとは、対応付けられているフィルタ推定装置。
  2. 請求項1に記載のフィルタ推定装置であって、
    前記第1記憶部における前記目的予測係数コードブック中の各ベクトルは、モデル目的予測係数および第2モデル目的誤差分散からなることを特徴とするフィルタ推定装置。
  3. 請求項1または2に記載のフィルタ推定装置であって、
    前記目的予測係数コードブックと前記目的誤差分散コードブックとが、1対1に対応付けられていることを特徴とするフィルタ推定装置。
  4. 入力信号をフレーム分割することで入力分割信号を求める分割部と、
    前記入力分割信号を周波数領域に変換することで、周波数領域入力分割信号を求める周波数領域変換部と、
    請求項1から3いずれかに記載のフィルタ推定装置と、
    前記フィルタ推定装置で求められたフィルタを前記周波数領域入力分割信号に畳み込むことで周波数領域分割目的信号を求めるフィルタ演算部と、
    前記周波数領域分割目的信号を時間領域に変換することで、時間領域分割目的信号を求める時間領域変換部と、
    前記時間領域分割目的信号に窓関数をかける窓掛け処理部と、
    前記窓関数がかけられた前記時間領域分割目的信号を重畳加算することで、目的信号を求める重畳加算部と、を備える信号強調装置。
  5. フレーム分割により得られた入力分割信号に線形予測分析を行うことで、予測係数および誤差分散を求める過程と、
    前記予測係数および前記誤差分散から入力分割信号パワースペクトルを求める過程と、
    目的予測係数コードブック、目的誤差分散コードブック、雑音予測係数コードブック、雑音誤差分散コードブック、前記入力分割信号パワースペクトルを用いて、最適目的予測係数、最適目的誤差分散、最適雑音予測係数、最適雑音誤差分散、を求める過程と、
    前記最適目的予測係数および前記最適目的誤差分散から目的信号のパワースペクトルを求める過程と、
    前記最適雑音予測係数および前記最適雑音誤差分散から雑音信号のパワースペクトルを求める過程と、
    前記目的信号のパワースペクトルおよび前記雑音信号のパワースペクトルからフィルタを求める過程と、を有し、
    前記目的予測係数コードブックは、モデル目的予測係数からなるベクトルの集合であり、
    前記雑音予測係数コードブックは、モデル雑音予測係数からなるベクトルの集合であり、
    前記目的誤差分散コードブックは、第1モデル目的誤差分散からなるベクトルの集合であり、
    前記雑音誤差分散コードブックモデルは、雑音誤差分散からなるベクトルの集合であり、
    前記目的予測係数コードブックと前記目的誤差分散コードブックとは、対応付けられているフィルタ推定方法。
  6. 請求項5に記載のフィルタ推定方法であって、
    前記目的予測係数コードブック中の各ベクトルは、モデル目的予測係数および第2モデル目的誤差分散からなることを特徴とするフィルタ推定方法。
  7. 請求項5または6に記載のフィルタ推定方法であって、
    前記目的予測係数コードブックと前記目的誤差分散コードブックとが、1対1に対応付けられていることを特徴とするフィルタ推定方法。
  8. 入力信号をフレーム分割することで入力分割信号を求める過程と、
    前記入力分割信号を周波数領域に変換することで、周波数領域入力分割信号を求める過程と、
    請求項5から7いずれかに記載のフィルタ推定方法によりフィルタを推定する過程と、
    前記フィルタ推定方法で求められたフィルタを前記周波数領域入力分割信号に畳み込むことで周波数領域分割目的信号を求める過程と、
    前記周波数領域分割目的信号を時間領域に変換することで、時間領域分割目的信号を求める過程と、
    前記時間領域分割目的信号に窓関数をかける過程と、
    前記窓関数がかけられた前記時間領域分割目的信号を重畳加算することで、目的信号を求める過程と、を有する信号強調方法。
  9. 請求項1から3何れかに記載のフィルタ推定装置または、請求項4記載の信号強調装置としてコンピュータを動作させるプログラム。
  10. 請求項9記載のプログラムをコンピュータに実現させるために記録したコンピュータ読み取り可能な記録媒体。
JP2008057055A 2008-03-06 2008-03-06 フィルタ推定装置、信号強調装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体 Pending JP2009216733A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008057055A JP2009216733A (ja) 2008-03-06 2008-03-06 フィルタ推定装置、信号強調装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008057055A JP2009216733A (ja) 2008-03-06 2008-03-06 フィルタ推定装置、信号強調装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体

Publications (1)

Publication Number Publication Date
JP2009216733A true JP2009216733A (ja) 2009-09-24

Family

ID=41188713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008057055A Pending JP2009216733A (ja) 2008-03-06 2008-03-06 フィルタ推定装置、信号強調装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP2009216733A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017063516A1 (zh) * 2015-10-13 2017-04-20 阿里巴巴集团控股有限公司 噪音信号确定方法、语音去噪方法及装置
JP2018028580A (ja) * 2016-08-16 2018-02-22 日本電信電話株式会社 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017063516A1 (zh) * 2015-10-13 2017-04-20 阿里巴巴集团控股有限公司 噪音信号确定方法、语音去噪方法及装置
US10796713B2 (en) 2015-10-13 2020-10-06 Alibaba Group Holding Limited Identification of noise signal for voice denoising device
JP2018028580A (ja) * 2016-08-16 2018-02-22 日本電信電話株式会社 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム

Similar Documents

Publication Publication Date Title
Giacobello et al. Sparse linear prediction and its applications to speech processing
JP6234060B2 (ja) ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
WO2019163849A1 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JP5949553B2 (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JP5717097B2 (ja) 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
KR101103734B1 (ko) 가우시안 혼합 모델 기반 변환에서의 소프트 정렬
JP2004347761A (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
JP2019008206A (ja) 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
CN107851442B (zh) 匹配装置、判定装置、它们的方法、程序及记录介质
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
US20140200889A1 (en) System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters
JP6449331B2 (ja) パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法
JP2009216733A (ja) フィルタ推定装置、信号強調装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体
JP2017520016A5 (ja) パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法
JP5191500B2 (ja) 雑音抑圧フィルタ算出方法と、その装置と、プログラム
Srivastava Fundamentals of linear prediction
JP5375612B2 (ja) 周波数軸伸縮係数推定装置とシステム方法並びにプログラム
JP2010044150A (ja) 残響除去装置、残響除去方法、そのプログラムおよび記録媒体
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
Li et al. Robust Non‐negative matrix factorization with β‐divergence for speech separation