JP4348393B2 - 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体 - Google Patents

信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP4348393B2
JP4348393B2 JP2007522320A JP2007522320A JP4348393B2 JP 4348393 B2 JP4348393 B2 JP 4348393B2 JP 2007522320 A JP2007522320 A JP 2007522320A JP 2007522320 A JP2007522320 A JP 2007522320A JP 4348393 B2 JP4348393 B2 JP 4348393B2
Authority
JP
Japan
Prior art keywords
signal
filter
inverse filter
prediction error
innovation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007522320A
Other languages
English (en)
Other versions
JPWO2007094463A1 (ja
Inventor
拓也 吉岡
孝文 引地
正人 三好
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007522320A priority Critical patent/JP4348393B2/ja
Publication of JPWO2007094463A1 publication Critical patent/JPWO2007094463A1/ja
Application granted granted Critical
Publication of JP4348393B2 publication Critical patent/JP4348393B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Description

この発明は、信号の歪み(ひずみ:distortion)を除去する技術に関する。
信号は反射や残響などが存在する環境で観測されると、本来の信号に反射や残響などが重畳された信号として観測される。以下、本来の信号を「原信号」と云い、観測された信号を「観測信号」と云うことにする。また、反射や残響などに代表される、原信号に重畳された歪みを「伝達特性」と云うことにする。このため、観測信号から原信号固有の特徴を抽出することが困難になる。この不都合を解消すべく、かねてより信号歪み除去処理技術が各種試みられてきた。信号歪み除去処理は、原信号に重畳した伝達特性を観測信号から取り除く処理である。
従来の信号歪み除去方法の一例として非特許文献1に開示されている信号歪み除去処理を図15を用いて説明する。予測誤差フィルタ計算部(901)は、観測信号をフレーム化処理して、各フレームに含まれる観測信号に対して線形予測分析を行い、予測誤差フィルタを計算する。この明細書では、フィルタはディジタルフィルタであり、信号のサンプル値に対して作用するいわゆるフィルタ係数を求める意味で単にフィルタを計算するなどということがある。予測誤差フィルタ適用部(902)は、各フレームごとに上記計算された予測誤差フィルタを当該フレームの観測信号に適用する。逆フィルタ計算部(903)は、予測誤差フィルタ適用後の信号に対して逆フィルタを適用して得られる信号の正規化尖度が最大となるような逆フィルタを計算する。逆フィルタ適用部(904)は、上記計算された逆フィルタを観測信号に適用することで信号歪み除去後の信号(復元信号)を得る。
B.W.Gillespie, , H.S.Malvar, ,and D.A.F.Florencio, ,"Speech dereverberation via maximum-kurtosis subband adaptive filtering," IEEE International Conference on Acoustics, Speech, and Signal Processing, pp.3701-3704, 2001.
上記の従来的な信号歪み除去方法は、観測信号の各フレーム内ではショートラグ(short−lag)自己相関は原信号固有の特性の寄与が大きく、フレームを跨ぐロングラグ(long-lag)自己相関は伝達特性による寄与が大きいことを仮定している。上記従来方法は、この仮定に基づいて、フレーム化処理されたフレーム単位の観測信号に予測誤差フィルタを適用して観測信号中の原信号固有の特性の寄与を低減している。
しかし、この仮定は粗い近似であるため、推定された逆フィルタの精度は不十分である。つまり、観測信号から求まる予測誤差フィルタは伝達特性の影響を受けているので、原信号固有の特性のみを正しく取り除くことができない。このため、予測誤差フィルタ適用後の信号から求める逆フィルタの精度は劣化する。結果として、観測信号に逆フィルタを適用して得る信号は、本来の原信号の正確な推定値ではない
そこで本発明は、伝達特性に由来する歪みを観測信号から除去して精度の良い復元信号を得ることを目的とする。
上記課題を解決するため、本発明の信号歪み除去装置は、所定の繰り返し終了条件を満たした場合には、観測信号に適用するためのフィルタ(以下、逆フィルタという。)を、観測信号に適用して、この結果を復元信号として出力し、繰り返し終了条件を満たさない場合には、観測信号に逆フィルタを適用して、この結果をアドホック信号として出力する逆フィルタ適用手段と、アドホック信号をフレーム化して、各フレームのアドホック信号を線形予測分析して得た各フレームごとの予測誤差フィルタを出力する予測誤差フィルタ計算手段と、各フレームのアドホック信号に対して当該フレームに対応する予測誤差フィルタを適用して得る各信号(以下、イノベーション推定値という。)を結合した全フレームでのイノベーション推定値(以下、イノベーション推定値系列という。)が、その全サンプル間で独立となる逆フィルタを求め、この逆フィルタを出力する逆フィルタ計算手段と、繰り返し終了条件を満たすまで逆フィルタ適用手段、予測誤差フィルタ計算手段、逆フィルタ計算手段を繰り返し実行させる制御手段と、を備える。
この発明では、観測信号に伝達特性を除去するための逆フィルタを適用して得るアドホック信号に対して、このアドホック信号に基づいて求めた予測誤差フィルタを適用して得る信号(イノベーション推定値系列)が、その全サンプル間で独立となるような逆フィルタを求める。そして、所定の繰り返し終了条件を満たしたときの逆フィルタを観測信号に
適用することで復元信号を得る。
上記の信号歪み除去装置では、予測誤差フィルタ計算手段は、各イノベーション推定値の分散の全フレームでの総和が最小となるときの予測誤差フィルタ、または、各イノベーション推定値の分散の対数値の全フレームでの総和が最小となるときの予測誤差フィルタ、を求めるとして、各フレームのアドホック信号の線形予測分析を行ない、各フレームごとの予測誤差フィルタを出力するものであり、逆フィルタ計算手段は、上記イノベーション推定値系列がその全サンプル間で独立となる上記逆フィルタとして、各イノベーション推定値の正規化尖度の全フレームでの総和が最大となるときの逆フィルタ求め、この逆フィルタを出力するものであるとしてもよい。
この構成は、イノベーション系列のサンプル間の独立性の尺度として相互情報量を規定し、これを最小化する予測誤差フィルタと逆フィルタを交代変数法で求めるものである。この詳細は後述する。
あるいは、上記の信号歪み除去装置では、予測誤差フィルタ計算手段は、各イノベーション推定値の分散の全フレームでの総和が最小となるときの予測誤差フィルタ、または、各イノベーション推定値の分散の対数値の全フレームでの総和が最小となるときの予測誤差フィルタ、を求めるとして、各フレームのアドホック信号の線形予測分析を行ない、各フレームごとの予測誤差フィルタを出力するものであり、逆フィルタ計算手段は、上記イノベーション推定値系列がその全サンプル間で独立となる上記逆フィルタとして、各イノベーション推定値の分散の全フレームでの総和が最小となるときの逆フィルタ、または、各イノベーション推定値の分散の対数値の全フレームでの総和が最小となるときの逆フィルタ求め、この逆フィルタを出力するものであるとしてもよい。
この構成は、イノベーション系列のサンプル間の独立性の尺度として相互情報量を規定し、これを最小化する予測誤差フィルタと逆フィルタを交代変数法で求めるものであるが、信号の高次統計量を用いることなく予測誤差フィルタと逆フィルタを交代変数法で求めることができる。
上記の信号歪み除去装置では、プリ・ホワイトニング処理を前置させ、プリ・ホワイトニング処理で得られた白色化信号に対して、上記同様の処理を行う装置構成とすることができる。具体的には、観測信号を線形予測分析して得た白色化フィルタを出力する白色化フィルタ計算手段と、白色化フィルタを観測信号に適用して白色化信号を出力する白色化フィルタ適用手段と、所定の繰り返し終了条件を満たした場合には、白色化信号に適用するためのフィルタ(以下、逆フィルタという。)を、白色化信号に適用して、この結果を復元信号として出力し、繰り返し終了条件を満たさない場合には、白色化信号に逆フィルタを適用して、この結果をアドホック信号として出力する逆フィルタ適用手段と、アドホック信号をフレーム化して、各フレームのアドホック信号を線形予測分析して得た各フレームごとの予測誤差フィルタを出力する予測誤差フィルタ計算手段と、各フレームのアドホック信号に対して当該フレームに対応する予測誤差フィルタを適用して得る各信号(以下、イノベーション推定値という。)を結合した全フレームでのイノベーション推定値(以下、イノベーション推定値系列という。)が、その全サンプル間で独立となる逆フィルタを求め、この逆フィルタを出力する逆フィルタ計算手段と、繰り返し終了条件を満たすまで逆フィルタ適用手段、予測誤差フィルタ計算手段、逆フィルタ計算手段を繰り返し実行させる制御手段と、を備えた信号歪み除去装置とすることができる。
上記課題を解決するため、本発明の方法は、逆フィルタ適用手段が、所定の繰り返し終了条件を満たした場合には、観測信号に適用するためのフィルタ(以下、逆フィルタという。)を、観測信号に適用して、この結果を復元信号として出力し、繰り返し終了条件を満たさない場合には、観測信号に逆フィルタを適用して、この結果をアドホック信号として出力する逆フィルタ適用ステップと、予測誤差フィルタ計算手段が、アドホック信号を
フレーム化して、各フレームのアドホック信号を線形予測分析して得た各フレームごとの予測誤差フィルタを出力する予測誤差フィルタ計算ステップと、逆フィルタ計算手段が、各フレームのアドホック信号に対して当該フレームに対応する予測誤差フィルタを適用して得る各信号(以下、イノベーション推定値という。)を結合した全フレームでのイノベーション推定値(以下、イノベーション推定値系列という。)が、その全サンプル間で独立となる逆フィルタを求め、この逆フィルタを出力する逆フィルタ計算ステップと、制御手段が、繰り返し終了条件を満たすまで逆フィルタ適用ステップ、予測誤差フィルタ計算ステップ、逆フィルタ計算ステップを繰り返し実行させる制御ステップと、を有する信号歪み除去方法とする。
また、上記の信号歪み除去方法では、プリ・ホワイトニング処理を前置させ、プリ・ホワイトニング処理で得られた白色化信号に対して、上記同様の処理を行う方法とすることができる。具体的には、白色化フィルタ計算手段が、観測信号を線形予測分析して得た白色化フィルタを出力する白色化フィルタ計算ステップと、白色化フィルタ適用手段が、白色化フィルタを観測信号に適用して白色化信号を出力する白色化フィルタ適用ステップと、逆フィルタ適用手段が、所定の繰り返し終了条件を満たした場合には、白色化信号に適用するためのフィルタ(以下、逆フィルタという。)を、白色化信号に適用して、この結果を復元信号として出力し、繰り返し終了条件を満たさない場合には、白色化信号に逆フィルタを適用して、この結果をアドホック信号として出力する逆フィルタ適用ステップと、予測誤差フィルタ計算手段が、アドホック信号をフレーム化して、各フレームのアドホック信号を線形予測分析して得た各フレームごとの予測誤差フィルタを出力する予測誤差フィルタ計算ステップと、逆フィルタ計算手段が、各フレームのアドホック信号に対して当該フレームに対応する予測誤差フィルタを適用して得る各信号(以下、イノベーション推定値系列という。)を結合した全フレームでのイノベーション推定値(以下、イノベーション推定値系列という。)が、その全サンプル間で独立となる逆フィルタを求め、この逆フィルタを出力する逆フィルタ計算ステップと、制御手段が、繰り返し終了条件を満たすまで逆フィルタ適用ステップ、予測誤差フィルタ計算ステップ、逆フィルタ計算ステップを繰り返し実行させる制御ステップと、を有する信号歪み除去方法とする。
本発明の信号歪み除去装置としてコンピュータを機能させる信号歪み除去プログラムによって、コンピュータを信号歪み除去装置として作動処理させることができる。そして、この信号歪み除去プログラムを記録した、コンピュータに読み取り可能なプログラム記録媒体によって、他のコンピュータを信号歪み除去装置として機能させることや、信号歪み除去プログラムを流通させることなどが可能になる。
本発明では、観測信号から求まる予測誤差フィルタを用いて観測信号中の原信号固有の特性の寄与を低減するのではなく、観測信号に(仮の)逆フィルタを適用して得られるアドホック信号(仮の復元信号)から求まる予測誤差フィルタを用いて観測信号中の原信号固有の特性を低減する。アドホック信号から求まる予測誤差フィルタは、伝達特性の影響を受けにくいので、原信号固有の特性をより正確に取り除くことが可能である。このような予測誤差フィルタをアドホック信号に適用して得る信号(イノベーション推定値系列)が全サンプル間で独立となるように求められた逆フィルタは精度良く伝達特性を除去可能なものであるから、このような逆フィルタを観測信号に適用することで、伝達特性に由来する歪みが除去された精度の良い復元信号を得ることができる。
§1 本発明の理論
以下、実施形態の説明に先立ち、本発明の理論を説明する。
以下の説明では、特に断りのない限り、信号源は1つとする。
1.1 信号
本発明の対象となる信号は、人の音声、音楽、生体信号、測定対象物の物理量をセンサで観測した電気信号などの信号を広く包含する。より好ましくは、自己回帰(Autoregressive:AR)過程として表現することができる、あるいは表現することが好ましい信号であればよい。例えば音声信号は、通常、区分定常な自己回帰過程として表現される信号、すなわち独立同一分布(i.i.d. : Independent and Identically Distributed)信号に音韻性を表すAR系を作用させた信号として看做される(参考文献1参照)。
以下、信号の代表例として音声信号を挙げて本発明の理論を説明する。
(参考文献1) L.R.Rabiner, R.W.Schafer, "Digital Processing of Speech Signals", Bell Laboratories, Incorporated, 1978.
1.2 音声信号のモデル化
まず、原信号である音声信号s(t)を、以下の3つの条件を満足する信号としてモデル化する。
[条件1]音声信号s(t)は、区分定常なAR過程で生成される。
この[条件1]から、AR過程の次数をP、定常とみなせる区間長をWサンプルとして音声信号s(t)をフレーム化すると、第iフレームの音声信号s(n)は、式(1)のように表される。式(2)は、第iフレームの音声信号s(n)のサンプルと、フレーム化前の音声信号s(t)のサンプルとの対応を示している。つまり、第iフレームのn番目のサンプルは、フレーム化前の音声信号s(t)において、(i−1)W+n番目のサンプルに相当する。式(1)および式(2)において、b(k)は線形予測係数、e(n)はイノベーションを表す。但し、1≦n≦W、1≦t≦N、Nは全サンプル数である。以下、特に断りの無い限り、パラメータnは1フレームのサンプル番号を表し、パラメータtは全てのサンプル番号を表す。また、全フレーム数はFとする。
Figure 0004348393
なお、第iフレームにおけるn番目のイノベーションe(n)についても、第iフレームのn番目のイノベーションe(n)と、フレーム化前の音声信号s(t)に対するイノベーションe(t)との対応を示すことができる。この場合、第iフレームのn番目のイノベーションe(n)は、フレーム化前のイノベーションe(t)において(i−1)W+n番目のイノベーションに相当し、e(n)=e((i−1)W+n)が成り立つ。
式(1)をz変換する。左辺のz変換をS(Z)とし、右辺第二項のz変換をE(Z)とし、B(z)=Σk=1 (k)z−kとすれば、右辺第一項は、B(z)S(Z)となる。従って、式(1)のz変換は、(1−B(z))S(Z)=E(Z)である。なお、z−1は時間領域では1タップ遅延素子に相当する。以降、時間領域信号(タップ重み係数)を小文字で、z領域信号(伝達関数)を大文字でそれぞれ表す。1−B(z)は最小位相性を満足しなければならず、『1−B(z)は、複素平面上で単位円の内部に全ての零点をもつ』ことが要求される。
[条件2]第iフレームに属するイノベーションe (1),…,e(W)は独立且つ
同一分布に属する。イノベーションe (1),…,e(W)の確率分布の平均及び歪度(3次キュムラント)は0、尖度(4次キュムラント)は正である。さらに、異なるフレームi、j〔i≠j〕に属するイノベーションe(n)とe(n′)同士も独立である。ただし、これらは必ずしも同一分布に属するとは限らない。
[条件3]予測誤差フィルタ1−B(z)は、相異なるフレーム間で共通する零点をもたない。
式(1)および式(2)から、音声信号s(t)は、式(3)のように表される。[・]は床関数を表す
Figure 0004348393
このとき、[条件2]は、『イノベーション過程e(t)は時間的に独立な信号である。また、その統計的性質(あるいは統計量)はフレーム内では定常である。』と表現できる。また、[条件3]は、『線形予測係数{b(k)}k=1 で表されるAR系は、時不変な極を持たない』と表現できる。
1.3 観測信号のモデル化
次に、M個のマイクロホンで音声信号を観測して観測信号を得たときの観測信号をモデル化する。但しMは、M≧1の整数である。
m番目(1≦m≦M)のマイクロホンで観測される残響信号x(t)を、音源からm番目のマイクロホンに至る経路の伝達関数H(z)のタップ重み係数{h(k);0≦k≦K;Kはインパルス応答の持続時間とする。}を用いて式(4)のようにモデル化する。ここでは、音声信号の場合の伝達特性の代表例として残響を挙げて、伝達特性を残響に言い換えて説明する。但し、伝達特性を残響に限定する趣旨ではない。
Figure 0004348393
M個の観測信号についてまとめて表現すれば、式(5)のように表すことができる。但し、式(5)において、x(t)=[x(t),…,x(t)]、h(k)=[h(k),…,h(k)]である。
Figure 0004348393
1.4 信号歪み除去の原理
信号歪み除去後の復元信号y(t)は、多チャネル逆フィルタ{G(z);1≦m≦M}のタップ重み係数{g(k);1≦m≦M,0≦k≦L;Lは逆フィルタの次数}を用いて式(6)により計算される。本発明においては、逆フィルタ係数であるg(k)を観測信号x(t),…,x(t)のみから推定する。
Figure 0004348393
1.5 本発明の基本原理
本発明の基本原理は、伝達関数{H(z);1≦m≦M}の逆フィルタ{G(z);1≦m≦M}とARフィルタ{1/(1−B(z));1≦i≦F}の逆フィルタである予測誤差フィルタ{1−A(z);1≦i≦F}とを並行して推定することを主な特徴とする。
この基本原理を説明するため、上述のモデル機構を組み込んだ系全体の構成線図を図1に示す。上述のモデル化に拠れば、原信号s(t)は、フレームごとのイノベーション系列e(1),…,e(W)に対してARフィルタ1/(1−B(z))を適用して得られる信号 (n),…,s (n)のフレーム結合と看做すことができ、観測信号x(t)は、原信号s(t)に対して伝達関数H(z)が作用したものと言える。そして、信号歪み除去処理は、観測信号x(t)に対して逆フィルタG(z)を作用させて復元信号y(t)を得る処理となる。このとき、信号歪み除去処理で得られた復元信号y(t)をフレーム分割して、それぞれに対して、それぞれの信号に基づいて求めた予測誤差フィルタ1−A(z)を適用して得られるイノベーション推定値d(1),…,d(W)はイノベーション系列e(1),…,e(W)に一致することが望ましい。もし、予測誤差フィルタ1−A(z)の出力信号d(n)がd(n)=e(n)〔1≦i≦F,1≦n≦W〕を満たすならば、[条件3]の条件下でΣm=1 (z)G(z)=1となることが示せる(数学的証明については、参考文献Aを参照されたい。)。つまり、s(t)=y(t)が言える。このとき、1−A(z)は1−B(z)に等しくなる。
(参考文献A) Takuya Yoshioka, Takafumi Hikichi, Masato Miyoshi, Hiroshi G. Okuno: Robust Decomposition of Inverse Filter of Channel and Prediction Error Filter of Speech Signal for Dereverberation, Proceedings of the 14th European Signal
Processing Conference (EUSIPCO 2006), CD-ROM Proceedings, Florence, 2006.
しかし、実際には、イノベーションe(n)〔1≦i≦F,1≦n≦W〕を信号歪み除去装置への入力信号として利用できない。図1に示す系において、各イノベーション系列e(n)から観測信号x(t)を得る一連の過程は、モデル過程であって、実際には各イノベーション系列e(n)、ARフィルタ1/(1−B(z))や伝達関数 (z)を知ることはできないか知ることが困難であり、利用できる情報は観測信号x(t)のみである。そこで、上記[条件2]に基づいて、第iフレームそれぞれにおけるイノベーション推定値d(1),…,d(W)を結合して得る全フレームでのイノベーション推定値系列が、その全サンプル間で独立になるように、つまりイノベーション推定値系列d(1),…,d(W),…,d(1),…,d(W),…,d(1),…,d(W)が独立となるように逆フィルタG(z)と予測誤差フィルタ1−A(z)を推定する。
ここに述べた本願の着想は、下記の点で従来手法と区別される。従来手法は、逆フィルタを、「観測信号に基づいて求めた予測誤差フィルタを観測信号に適用し、予測誤差フィルタ適用後の信号に対して逆フィルタを適用して得られる信号の正規化尖度が最大となる逆フィルタを求めよ」という問題の解として得ていた。これに対して、本発明は、逆フィルタを、「観測信号に逆フィルタを適用して得る信号に対して、当該信号に基づいて求めた予測誤差フィルタを適用して得る信号が、全サンプル間で独立となる逆フィルタを求め
よ」という問題の解として得る。この問題で留意しなければならないことは、予測誤差フィルタが、観測信号に逆フィルタを適用して得る信号に基づいて求められるため、逆フィルタだけでなく予測誤差フィルタも一緒に求めることになるということである。
この問題は、ICA(Independent Component Analysis)と同様の考え方によって定式化することができる。ここでは相互情報量を最小化する観点から説明を行うが、例えば最尤推定法に基づいて定式化することも可能である。いずれにしても問題の定式化の違いに過ぎない。
独立性の尺度として相互情報量(Kullback-Leibler情報量)を用いると、解くべき問題は式(7)のように定式化される。ただし、g=[g ,…,g ,g=[g(0),…,g(L)],a=[a ,…,a ,a=[a(1),…,a(P)]とし、a(k)は予測誤差フィルタ係数を表す。I(U,…,U)は確率変数U間の相互情報量を表す。またgおよびaに記号^を付したものは、得るべき最適解である。Tは転置を表す。
Figure 0004348393
拘束条件
[1] ‖g‖=1 (但し‖・‖はノルムを表す。)
[2] 1−A(z)は、複素平面上で単位円の内部に全ての零点をもつ〔1≦i≦F〕。
相互情報量Iは、イノベーション推定値系列d(1),…,d(W),…,d(1),…,d(W),…,d(1),…,d(W)の振幅が定数倍されても変化しない。式(7)の拘束条件[1]は、この振幅の不定性を排除するための条件である。式(7)の拘束条件[2]は、上記[条件1]に対応して、予測誤差フィルタを最小位相系に制限するための条件である。以下、Iを、イノベーション推定値系列を入力としそれらの間の相互情報量を出力する関数と看做して、損失関数と呼称することにする。
1.6 損失関数の導出
式(7)の最適化を実行するためには、損失関数I(d(1),…,d(W))を有限長の信号系列{d(n);1≦i≦F,1≦n≦W}から推定しなければならない。(多変量)確率変数Uの微分エントロピーをD(U)と表記すると、I(d(1),…,d(W))は式(8)で定義される。ただし、d=[d ,…,d 、d=[d(W),…,d(1)]である。
Figure 0004348393
y=[y ,…,y ,y=[y(W),…,y(1)]とおくと、dはyを用いて、d=Ayと表される。ただし、行列Aは、式(9)および式(10)で表される。
Figure 0004348393
よって、D(d)は式(11)のように表される。
Figure 0004348393
多変量確率変数Uの共分散行列をΣ(U)と表記すると、式(11)右辺第二項について、Σ(d)=E{dd}=AE{yy}A=AΣ(y)Aが成立するから、式(12)が成り立つ。
Figure 0004348393
式(11)、式(12)を式(8)に代入すると、式(13)を得る。ただし、σ(U)は確率変数Uの分散を表す。
Figure 0004348393
式(13)でJ(U)は(多変量)確率変数Uのネゲントロピー(negentropy)である。ネゲントロピーはUの非ガウス性の度合いを表す非負の値をとり、Uがガウス分布に従う場合に限り0をとる。C(U,…,U)は式(14)で定義される。C(U,…,U)は確率変数U間の相関の度合いを表す非負の値をとり、これらが無相関の場合に限り0をとる。
Figure 0004348393
ところで、s=[s ,…,s ,s=[s(W),…,s(1)]とおくとJ(y)=J(s)=constantとなるため(証明略)、式(13)は更に式(15)のように簡単化できる。
Figure 0004348393
以上から、式(7)の最適化問題は式(16)の最適化問題に等価である
Figure 0004348393
拘束条件
[1] ‖g‖=1 (但し‖・‖はノルムを表す。)
[2] 1−A(z)は、複素平面上で単位円の内部に全ての零点をもつ〔1≦i≦F〕。
1.7 交代変数法による最適化
式(16)について、交代変数の方法により、gとaを最適化する。すなわち、r回目の繰り返しにおけるg及びaの推定値をそれぞれg^(r)、a^(r)と表せば、式(17)および式(18)の交互の最適化により更新された推定値g^(r+1),a^(r+1)を得る。なお、g^およびa^は、記号^がg、aのそれぞれの上に付されたものを表す。例えば繰り返し回数の上限をRとすれば、R回目で得られるg^(R1+1)、a^(R1+1)が式(16)の最適解である。上付き文字のR1は、Rである。
Figure 0004348393
拘束条件
[1] g=g^(r)
[2] 1−A(z)は、複素平面上で単位円の内部に全ての零点をもつ〔1≦i≦F〕。
Figure 0004348393
拘束条件
[1] a=a^(r+1)
[2] ‖g‖=1
式(17)の意図するところは、伝達特性を打ち消すための逆フィルタの現在の推定値に基づいて原信号に固有の特性を打ち消すための予測誤差フィルタを推定することである。他方、式(18)の意図するところは、予測誤差フィルタの現在の推定値に基づいて逆フィルタを推定することである。イノベーション推定値系列d(1),…,d(W),…,d(1),…,d(W),…,d(1),…,d(W)が互いにより独立になるようにこれら2種類の最適化を繰り返すことで、逆フィルタと予測誤差フィルタを並行して推定することが可能になっている。したがって、ここでの繰り返しは逆フィルタの高精度な推定のために重要である。但し、図8から明らかなように処理する観測信号長が長くなる程、繰り返し回数は1回でも或る程度の信号歪み除去が達成されることが見て取れる。従って、この発明では、繰り返し回数は1回でもよい。
1.8 aの最適化
本発明では、式(17)の最適化を以下のように行う。
まず注意すべきことは、C(d(1),…,d(W))はd(n)の2次の統計量に関連するのに対して、J(d(n))はd(n)の高次の統計量に関連する値である。2次の統計量は信号の振幅情報のみ提供するが、高次の統計量は位相情報も提供する。したがって、一般に、高次統計量を含む最適化は、非最小位相系を導く可能性がある。そこで、1−A(z)が最小位相系であるという拘束条件から、aの最適化においては式(19)の最適化問題を解く。
Figure 0004348393
拘束条件
[1] g=g^(r)
[2] 1−A(z)は、複素平面上で単位円の内部に全ての零点をもつ〔1≦i≦F〕。
C(d(1),…,d(W))は式(20)で与えられる。
Figure 0004348393
ここで、行列Aは式(9)および式(10)に示すように上三角行列でその対角成分がすべて1であるから、log det A=0である。式(20)を式(12)に代入することで式(21)の関係を得る。
Figure 0004348393
よって、式(19)は、式(22)の最適化問題と等価である。式(22)は、第iフレームそれぞれにおけるイノベーション推定値d(1),…,d(W)の分散の対数値を全フレームで加算した値が最小となるaを求めよ、と云っている。
Figure 0004348393
拘束条件
[1] g=g^(r)
[2] 1−A(z)は、複素平面上で単位円の内部に全ての零点をもつ〔1≦i≦F〕。
式(22)で表される最適化問題を解くことは、観測信号にg^(r)で与えられる逆フィルタを適用して得られるアドホック信号に対して、各フレームにおいて線形予測分析を行うことと等価であり、必ず最小位相予測誤差フィルタを得ることができる。線形予測分析に関しては、上記参考文献1を参照されたい。
なお、式(22)では、第iフレームそれぞれにおけるイノベーション推定値d(1),…,d(W)の分散の対数値の全フレームでの総和が最小となるときのaをa^(r+1)として求めるが、これに限定する趣旨ではない。上記各式では対数関数の底(base)を明記していないが、一般的には底を10ないしネイピア数とするのが慣例であり、いずれにしても底は1よりも大きい。この場合、対数関数は単調増加関数であるから、第iフレームそれぞれにおけるイノベーション推定値d(1),…,d(W)の分散の全フレームでの総和が最小となるときのaをa^(r+1)として求めることができる。
1.9 gの最適化
本発明では、式(18)の最適化を以下のように行う。
前述したとおり、C(d(1),…,d(W))は{d(n);1≦i≦F,1≦n≦W}の相関の度合いに関わる指標であるが、(r+1)回目のaの最適化において最小化されているため、Σi=1 Σn=1 J(d(n))に比べて無視できる。そこでgの最適化においては、式(23)の最適化問題を解く。
Figure 0004348393
拘束条件
[1] a=a^(r+1)
[2] ‖g‖=1
J(d(n))は、[条件2]に基づいて、式(24)によって近似できる。この詳細は参考文献2を参照されたい。ただし、確率変数Uについて、κ(U)はUの尖度(4次キュムラント)を表す。式(24)の右辺を第iフレームにおける正規化尖度という。
(参考文献2) A.Hyvarinen, J.Karhunen, E.Oja, "INDEPENDENT COMPONENT ANALYSIS", John Wiley & Sons, Inc. 2001.
Figure 0004348393
[条件2]から音声信号のイノベーションの尖度は正であるため、κ(d(n))/σ(d(n))は正である。従って、式(23)の最適化問題は、式(25)の最適化問題に帰着する。σ(d(n)),κ(d(n))は、[条件1]で述べた音声信号の局所的な定常性に基づいて、各フレーム内のサンプルから計算される。式(26)では、1/Wを付加しているが、これは後の計算の便宜に過ぎず、式(25)でgの最適解を求めるにあたり影響を及ぼすものではない。式(25)および式(26)から、正規化尖度の全フレームでの総和が最大となるときのgが、g^(r+1)となる。これらは、第iフレームにおける正規化尖度を全フレームで加算した値が最大となるgを求めよ、と云っている。
Figure 0004348393
拘束条件
[1] a=a^(r+1)
[2] ‖g‖=1
式(25)に従ってgの最適解を求めるには、Qをgで微分してこれをゼロとしたときの解を求めればよい。この解は、一般的には、式(27)で表される更新則に従って求められる。g′をg′のノルムで除しているのは上記拘束条件[2]を課すためである。η(u)は学習率を表す。uは、gの最適化における更新回数を表す。
Figure 0004348393
式(27)において、∇Qは式(28)および式(29)で与えられる。
Figure 0004348393
式(29)において、d(n)は式(30)で、vmi(n)は式(31)および式(32)で与えられる。xmi(n)は、m番目のマイクロホンで観測された観測信号のi番目のフレームの信号である。
Figure 0004348393
§2 二次統計量に基づく信号歪み除去
上述の従来的手法の信号歪み除去方法は、比較的長時間の観測信号(例えば20秒程度である。)を要する。これは、一般に、正規化尖度のような高次統計量を計算するためには大量の観測信号のサンプルが必要となるからである。しかし、実際にはそうした長時間の観測信号を利用できない場合が多い。このため、従来的手法の信号歪み除去方法の適用
分野は極めて限られていた。
また高次統計量の計算は比較的複雑であるため、従来的手法の信号歪み除去方法では装置の構成が複雑になりやすい。
そこで、観測信号がより短時間(例えば3秒から5秒程度である。)の場合にも有効であり、かつ計算が従来に比して容易な信号歪み除去の原理を説明する。この原理は、信号の二次統計量のみを用いるものであり、§1で説明した本発明の基本原理より派生する。
2.1 二次統計量に基づく信号歪み除去の原理
二次統計量に基づく信号歪み除去では、上述の3つの条件に、次の2つの条件を設定する。
[条件4] M≧2である。すなわち、複数本のマイクロホンを用いる。
[条件5] H={h(k)}k=0 は相異なるマイクロホンの間で共通の零点を持たない。
上記の式(16)の最適化問題では、高次の統計量に関する値であるネゲントロピーJおよび確率変数間の相関の度合いを示す指標Cを含む値を最小化するgおよびaを求めた。
確率変数間の相関の度合いを示す指標Cは、二次の統計量で規定される。そこで、解くべき最適化問題を式(33)で定式化する。
Figure 0004348393
式(21)を参酌すれば、式(33)の最適化問題は、式(34)の最適化問題に転化される。式(34)は、第iフレームそれぞれにおけるイノベーション推定値d(1),…,d(W)の分散の対数値を全フレームで加算した値が最小となるgおよびaを求めよ、と云っている。
Figure 0004348393
ところで、上記の[条件4]および[条件5]が成立する場合、多チャンネルの観測信号は、音源からの原信号によって駆動されるAR系として捉えることができる(参考文献3参照)。このことは、逆フィルタGの先頭タップを式(35)のように固定できることを意味する。但し、m=1に相当するマイクロホンは、最も音源に近いマイクロホンである。(参考文献3) K. Aded-Meraim, E. Moulines, and P. Loubaton. Prediction error method for second-order blind identification. IEEE Trans. Signal Processing, Vol.
45, No.3, pp. 694-705, 1997.
Figure 0004348393
式(34)および式(35)で規定されるgを係数とする逆フィルタGを、式(6)に従って観測信号x(t)に適用することで伝達特性が除去された復元信号y(t)を得る。
2.2 aの最適化
式(34)について、交代変数の方法により、gとaを最適化する。
逆フィルタの係数g(k)を固定した状態で予測誤差フィルタの係数a(k)に関して式(34)の損失関数を最小化する。
このとき、次の2点に注意する。1点目は、g=[g ,…,g は固定されているので、逆フィルタGの出力である復元信号y(t)は予測誤差フィルタの最適化において不変であるということである。2点目は、i番目のフレームにおける予測誤差フィルタの係数a(1),…,a(P)は、d(1),…,d(W)にのみ寄与するということである。
従って、各々のフレームにおいて、Σn=1 logσ(d(n))を最小化するように、予測誤差フィルタの係数a(1),…,a(P)を推定すればよい。[条件2]から第iフレームのイノベーション推定値d(1),…,d(W)の分散はフレーム内で定常であるから、Σn=1 logσ(d(n))の最小化は、W*σ(d(n))の最小化と等価である。記号*は乗算を表す。分散σ(d(n))は、<d(n)n=1 として計算できる。但し、<d(n)n=1 は、1フレーム分のイノベーション推定値d(1),…,d(W)を使って計算したd(n)の2乗平均を表す。結局、係数a(k)は、W*<d(n)n=1 、つまりd(n)の2乗総和が最小になるときのa(k)として推定される。このような係数a(k)は、線形予測分析の手法によって計算される。
なお、ここでは、第iフレームそれぞれにおけるイノベーション推定値d(1),…,d(W)の分散の対数値の全フレームでの総和が最小となるときのaをa^(r+1)として求めるとして説明したが、これに限定する趣旨ではない。既述のとおり、第iフレームそれぞれにおけるイノベーション推定値d(1),…,d(W)の分散の全フレームでの総和が最小となるときのaをa^(r+1)として求めることができる。
2.3 gの最適化
予測誤差フィルタの係数a(k)を固定した状態で逆フィルタの係数g(k)に関して式(34)の損失関数を最小化する。
逆フィルタの係数g(k)に関する損失関数の最小化には、勾配法を用いる。[条件2]を用いると、式(34)の最適化問題は、式(36)の最適化問題に転化される。
Figure 0004348393
式(36)に従ってgの最適解を求めるには、Σi=1 log<d(n)n=1
をgで微分してこれをゼロとしたときの解を求めればよい。この解は、一般的には、式(37)で表される更新則に従って求められる。δは学習率を表す。1≦m≦M、1≦k≦Lである。なお、式(37)では、式(35)の条件から‖g‖=1なる拘束条件が課されないことに留意しなければならない。同様に式(35)の条件からkが取る値の範囲は1≦k≦Lである。
Figure 0004348393
上記式(29)あるいは上記非特許文献1に記載された式(3)と比べて明らかなように、式(37)の右辺第二項は、二次の統計量で表されており、この計算に高次の統計量を必要としない。このため、高次統計量を計算するには短い時間の観測信号の場合にも有効であり、計算自体も容易である。
なお、式(36)では、第iフレームそれぞれにおけるイノベーション推定値d(1),…,d(W)の分散の対数値の全フレームでの総和が最小となるときのgをg^として求めるが、これに限定する趣旨ではない。上記各式では対数関数の底(base)を明記していないが、一般的には底を10ないしネイピア数とするのが慣例であり、いずれにしても底は1よりも大である。この場合、対数関数は単調増加関数であるから、第iフレームそれぞれにおけるイノベーション推定値d(1),…,d(W)の分散の全フレームでの総和が最小となるときのgをg^として求めることができる。なお、この場合には式(37)で示した更新則は適用できなくなり、改めてΣi=1 <d(n)n=1 をgで微分してこれをゼロとしたときの解を求めればよい。この結果得られる更新則はICAと同様の考え方で定式化できるから略する。
§3 プリ・ホワイトニング
本発明の信号歪み除去には、プリ・ホワイトニングを適用することができる。観測信号をプリ・ホワイトニングすることで、最適化計算の安定化、とくにフィルタ係数の推定値の高速な収束が可能となる。
各マイクロホンで得られた観測信号系列全体{x(t);1≦t≦N}を白色化するフィルタ(白色化フィルタ)の係数{f(k);0≦k≦X}をX次の線形予測分析によって計算する。
式(39)に従って、上記白色化フィルタを各マイクロホンで得られた観測信号x(t)に適用する。w(t)は、m番目のマイクロホンで得た観測信号x(t)を白色化した信号を表す。
Figure 0004348393
このとき、式(31)および式(38)は式(40)に、式(32)は式(41)に、変更すればよい。
Figure 0004348393
§4 実施形態
以下、本発明の実施形態を図面を参照して説明する。本発明の実施形態として、後述の各実施形態に限定するものではなく、各セクションで説明した原理を実現する実施形態であればよい。
<第1実施形態>
本発明の第1実施形態を実施する場合、以下の手順に従ってセンサで得た観測信号を処理する。ここでは、実施形態を具体的に説明する観点から信号として音声信号を例に挙げて説明する。
なお、第1実施形態の説明に先立ち、観測信号およびフレーム化処理について概説する。
((観測信号))
図示しないセンサ(例えばマイクロホン)によって得られたアナログ信号(このアナログ信号には伝達特性に由来する歪みが重畳されている。)は、例えば8,000Hzのサンプリングレートでサンプリングされ、適宜量子化された離散信号に変換される。以下、この離散信号を観測信号ということにする。アナログ信号から観測信号へのA/D変換などを実行するために必要となる構成要素(手段)は、いずれも公知技術の常套手段によって達成されるから、説明および図示を略する。
((フレーム化処理))
図示しない信号フレーム化手段が、離散信号から、時間軸方向に一定時間幅でフレームの始点を移動させながら、所定時間長の離散信号を切り出す。例えば200サンプル点(8,000Hz×25ms)長の離散信号を、80サンプル点(8,000Hz×10ms)ずつ始点を移動させながら切り出す。切り出された信号は、離散信号に公知の窓関数(例えば、ハミング窓、ガウス窓、方形窓など)が適用される。窓関数の適用によるフレームは公知の常套手段によって達成される。
本発明の第1実施形態である信号歪み除去装置(1)をコンピュータ(汎用機)で実現する場合のハードウェア構成例を説明する。
図2に例示するように、信号歪み除去装置(1)は、キーボード、ポインティングデバイスなどが接続可能な入力部(11)、液晶ディスプレイ、CRT(Cathode Ray Tube)ディスプレイなどが接続可能な出力部(12)、信号歪み除去装置(1)外部に通信可能な通信装置(例えば通信ケーブル、LANカード、ルータ、モデムなど)が接続可能な通信部(13)、DSP(Digital Signal Processor)(14)〔CPU(Central Processing Unit)でも良い。またキャッシュメモリやレジスタ(19)などを備えていてもよい。〕、メモリであるRAM(15)、ROM(16)やハードディスク、光ディスク、半導体メモリなどである外部記憶装置(17)並びにこれらの入力部(11)、出力部(12)、通信部(13)、DSP(14)、RAM(15)、ROM(16)、外部記憶装置(17)間のデータのやり取りが可能なように接続するバス(18)を有している。
また必要に応じて、信号歪み除去装置(1)に、CD−ROM(Compact Disc Read Only
Memory)、DVD(Digital Versatile Disc)などの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
信号歪み除去装置(1)の外部記憶装置(17)には、信号歪み除去のためのプログラムおよびこのプログラムの処理において必要となるデータ(観測信号)などが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶され、他のプログラムの処理に供されるときに、RAMや外部記憶装置などから読み込まれる。
より具体的には、信号歪み除去装置(1)の外部記憶装置(17)〔あるいはROMなど〕には、観測信号に逆フィルタを適用する処理のためのプログラム、観測信号に逆フィルタを適用して得られた信号から予測誤差フィルタを求める処理のためのプログラム、予測誤差フィルタから逆フィルタを求める処理のためのプログラム、およびこれらのプログラムの処理において必要となるデータ(フレーム単位の観測信号など)が記憶されている。その他、これらのプログラムに基づく処理を制御するための制御プログラムも適宜に保存しておく。
第1実施形態に係る信号歪み除去装置(1)では、外部記憶装置(17)〔あるいはROMなど〕に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(15)に読み込まれて、DSP(14)で解釈実行・処理される。その結果、DSP(14)が所定の機能(逆フィルタ適用部、予測誤差フィルタ計算部、逆フィルタ計算部、制御部)を実現することで、信号歪み除去が実現される。
そこで次に、図3〜図5を参照して、信号歪み除去装置(1)における信号歪み除去処理の流れを順次説明する。
大まかな処理の手順は、(a)観測信号x(t)に対して逆フィルタを適用した信号(以下、アドホック信号という。)を求め、(b)アドホック信号から予測誤差フィルタを求め、(c)この予測誤差フィルタから逆フィルタを求め、(d)前記(a)、(b)、(c)の処理を繰り返して最適な逆フィルタを求め、(e)最適化された逆フィルタを観測信号に対して適用した信号を復元信号y(t)として得る。
(b)は上述のaの最適化に相当し、(c)は上述のgの最適化に相当し、(d)は、式(17)および式(18)に相当する。(d)の処理の繰り返し回数は予め定めた回数Rとする。つまり、1≦r≦Rとする。また、(c)の処理でgを最適化する更新則の更新回数は予め定めた回数Rとする。つまり、1≦u≦Rとする。(d)の処理、つまり(a)、(b)、(c)の一連の処理を1回行うたびに、更新則によるR回の更新が行なわれる。実施形態では、回数Rは、予め定めた回数とするが、これに限定されず、例えば、r回目のgを算出したときの式(26)のQの値とr+1回目のgを算出したときの式(26)のQの値との差の絶対値が所定の正の微小値ε以下(あるいはε未満)になったときに繰り返しを中止するようにしてもよい。同様に、回数Rは、予め定めた回数とするが、これに限定されず、例えば、u回目のgを算出したときの式(26)のQの値とu+1回目のgを算出したときの式(26)のQの値との差の絶対値が所定の正の微小値ε以下(あるいはε未満)になったときに繰り返しを中止するようにしてもよい。
(ステップS100)
逆フィルタ適用部(14)は、式(42)に従って逆フィルタを観測信号x(t)=[x(t),…,x(t),…,x(t)]に適用することで、アドホック信号y(t)を求める。アドホック信号y(t)は、計算上は復元信号と全く同じであるが、こ
こでは後述のR回の処理を経て求められた復元信号ではないことを明示するためアドホック信号と呼称する。ここでtは、全てのサンプル番号を示し、1≦t≦Nとする。Nは全サンプル数である。第1実施形態では、マイクロホンの個数Mは1以上であればよい。
Figure 0004348393
逆フィルタの係数列{g(k);0≦k≦L}として、繰り返し回数Rの初回には予め定められた初期値を、2回目以降には後述する逆フィルタ計算部(13)によって求められた逆フィルタg^(r+1)を用いる。
(ステップS101)
予測誤差フィルタ計算部(15)は、フレーム化処理を行うフレーム化処理部(151)とフレーム予測誤差フィルタ計算部(152)によって構成される。そして、フレーム予測誤差フィルタ計算部(152)は、第iフレームのアドホック信号から予測誤差フィルタを求める第iフレーム用予測誤差フィルタ計算部(152i)からなる。ただし、iは、1≦i≦Fを満たす整数である。
フレーム化処理部(151)は、逆フィルタ適用部(14)で求められたアドホック信号{y(t);1≦t≦N}をフレーム化処理する。フレーム化処理は、例えば式(43)のように、W点分を切り出す窓関数をW点ずつシフトさせて適用することにより行う。{y(n);1≦n≦W}はi番目のフレームに含まれるアドホック信号列を表す。
Figure 0004348393
そして、第iフレーム用予測誤差フィルタ計算部(152i)は、式(22)に従って、第iフレームのアドホック信号列{y(n);1≦n≦W}に対してP次の線形予測分析を行い、予測誤差フィルタの係数列{a(k);1≦k≦P}を計算する。この算出方法は、上記参考文献1を参照されたい。ここで得られたa(1),…,a(P),…,a(1),…,a(P),…,a(1),…,a(P)は、式(22)のa^(r+1)を与える。
(ステップS102)
逆フィルタ計算部(13)の機能構成例を、図4を参照して説明する。逆フィルタ計算部(13)は勾配計算部(131)、逆フィルタ更新部(132)および更新用逆フィルタ適用部(133)によって構成される。更に、勾配計算部(131)は、観測信号への予測誤差フィルタ適用部として機能する第1の予測誤差フィルタ適用部(1311)と、観測信号に更新用逆フィルタを適用して得られる信号(更新用逆フィルタ適用後信号)への予測誤差フィルタ適用部として機能する第2の予測誤差フィルタ適用部(1312)と、勾配ベクトル計算部(1313)とを備えて構成される。ここで更新用逆フィルタは、式(27)のg〈u〉に相当する。
第1の予測誤差フィルタ適用部(1311)は、m番目〔1≦m≦M〕のマイクロホンで観測された観測信号x(t)をフレーム化して、各フレームにつき、i番目のフレームの信号xmi(n)に対してステップS101の処理で得られたi番目の予測誤差フィルタa(k)を適用して予測誤差フィルタ適用後の信号vmi(n)を計算する(式(
31)を参照)。ここで述べた処理の詳細の一例は、後述の第3実施形態の説明に譲る。
第2の予測誤差フィルタ適用部(1312)は、更新用逆フィルタ適用後信号y(t)をフレーム化して、各フレームにつき、i番目のフレームの信号y(n)に対してステップS101の処理で得られたi番目の予測誤差フィルタa(k)を適用してイノベーション推定値d(1),…,d(W)を計算する(式(30)を参照)。なお、更新用逆フィルタ適用後信号y(t)の初期値は、ステップS100の処理で得られた信号とすればよい。爾後、第2の予測誤差フィルタ適用部(1312)は、後述する更新用逆フィルタ適用部(133)が出力した更新用逆フィルタ適用後信号y(t)を入力とする。ここで述べた処理の詳細の一例は、後述の第3実施形態の説明に譲る。
勾配ベクトル計算部(1313)は、信号vmi(n)とイノベーション推定値d(n)とを用いて現在の更新用逆フィルタg〈u〉の勾配ベクトル∇Qを計算する(式(28)および式(29)を参照)。有限個のサンプルvmi(n)およびd(n)を用いて式(29)を演算するときは、期待値Eをサンプルから求めればよい。ここで述べた処理の詳細の一例は、後述の第3実施形態の説明に譲る。
逆フィルタ更新部(132)は、現在の更新用逆フィルタg〈u〉、学習率η(u)、勾配ベクトル∇Q用いて、式(27)に従って、u+1回目の更新用逆フィルタg〈u+1〉を求める。式(27)は、求められたg〈u+1〉を新たなg〈u〉と見立てて更新を行なうことを意味する。
更新用逆フィルタ適用部(133)は、逆フィルタ更新部(132)によって得られたg〈u+1〉、つまり新たなg〈u〉および観測信号x(t)を用いて、式(42)に従って、更新用逆フィルタ適用後信号y(t)を求める。つまり、式(42)のg(k)としてu+1回目の更新で得られたgを用いて計算する。この計算で得られた更新用逆フィルタ適用後信号y(t)は、第2の予測誤差フィルタ適用部(1312)の入力となる。なお、更新用逆フィルタ適用後信号y(t)は、計算上は復元信号と全く同じであるが、ここでは後述のR回の処理を経て求められた復元信号ではなく、更新則を行なうために算出される信号であることを明示するため更新用逆フィルタ適用後信号と呼称する。
制御部(600)の制御によってR回の更新が行なわれた結果として得られたg〈R2+1〉は、式(25)のg^(r+1)に相当する。上付き文字のR2は、Rである。逆フィルタ計算部(13)は、g^(r+1)を出力する。
制御部(500)の制御によって、上述の一連の処理を1回行うごとにrに1を加算してrがRに等しくなるまで、つまり上述の一連の処理をR回繰り返すことで(ステップS103)、g^(R1+1)を得る。上付き文字のR1は、Rである。このg^(R1+1)が、式(16)の最適解とされる。そこで、g^(R1+1)を得た段階で、逆フィルタ適用部(14)は、式(42)に従って逆フィルタg^(R1+1)を観測信号x(t)=[x(t),…,x(t)]に適用することで、復元信号y(t)を得ることができる(ステップS104)。
<第2実施形態>
第2実施形態は、第1実施形態の変形例に相当する。具体的には、§3で述べたプリ・ホワイトニングを行なう形態である。そこで、第1実施形態と異なる部分について図6および図7を参照して説明を加える。なお、プリ・ホワイトニングは観測信号に対して行なうプリ・プロセスであるから、ここで説明するプリ・ホワイトニングを行なう形態は、後述の第3実施形態にも適用可能である。
第2実施形態では、信号歪み除去装置(1)の外部記憶装置(17)〔あるいはROM
など〕に、白色化フィルタを求める処理のためのプログラム、白色化フィルタを観測信号に適用する処理のためのプログラムも記憶されている。
第2実施形態に係る信号歪み除去装置(1)では、外部記憶装置(17)〔あるいはROMなど〕に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(15)に読み込まれて、DSP(14)で解釈実行・処理される。その結果、DSP(14)が所定の機能(逆フィルタ適用部、予測誤差フィルタ計算部、逆フィルタ計算部、白色化フィルタ計算部、白色化フィルタ適用部)を実現することで、信号歪み除去が実現される。
(ステップS100a)
白色化フィルタ計算部(11)は、各マイクロホンで得られた観測信号全体{x(t);1≦t≦N}を白色化するフィルタ(白色化フィルタ)の係数{f(k);0≦k≦X}をX次の線形予測分析によって計算する。この計算は線形予測分析と同じであり上記参考文献1を参照されたい。白色化フィルタの係数は、白色化フィルタ適用部(12)の入力となる。
(ステップS100b)
白色化フィルタ適用部(12)は、式(39)に従って、上記白色化フィルタを各マイクロホンで得られた観測信号に適用して、白色化信号w(t)を得る。既述のとおり、式(31)は式(40)に変更すればよいので、第1実施形態において、逆フィルタ計算部(13)、とくに第1の予測誤差フィルタ適用部(1311)による処理を式(31)ではなく式(40)による計算処理に改めればよい。また、第1実施形態において、逆フィルタ適用部(14)による処理を、式(42)ではなく式(44)による計算処理に改めればよい。ステップS100bの処理の後、第1実施形態のステップS100〜S104の処理を行うが、これらの処理では第1実施形態の各処理における観測信号をステップS100bの処理で得られた白色化信号に読み替えて第1実施形態と同様の処理を行う。このことを明示するため、図7では、第1実施形態のステップS100〜S104の各処理に相当する処理を示す符号に記号′を付している。
Figure 0004348393
<実施例1>
発明者らは第2実施形態の実証実験を行ったので、その実験結果を示す。実験条件として、マイクロホンの数M=4、白色化フィルタの次数X=500、逆フィルタの次数L=1000、窓関数の切出しサンプル数(1フレームのサンプル数)W=200、予測誤差フィルタの次数P=16、繰り返し回数R=10、逆フィルタ計算部の更新回数R=20とした。学習率η(u)は、初期値を0.05に設定し、もし式(27)によって式(26)の値が減少するならば、式(26)の値が増大するまでη(u)の値を再帰的に半減した。図6に示した逆フィルタ適用部(14)へ入力する初期逆フィルタは、式(45)のように設定した。
Figure 0004348393
本発明の第2実施形態の効果を、信号歪み除去の指標としてD50値(インパルス応答
の全エネルギーに対する初期の50msecまでのエネルギーの比)を用いて評価した。連続発話データベースから男女各一名の発話を取り出し、残響時間0.5秒の残響室で測定したインパルス応答を畳み込むことで観測信号を合成した。
図8は、男声および女声について観測信号長Nを5秒、10秒、20秒、1分、3分に変化させたときの、繰り返し回数R (図6に示す逆フィルタ適用部(14)と、予測誤差フィルタ計算部(15)と、逆フィルタ計算部(13)を一巡する処理を実行して逆フィルタを求める回数)とD50値の関係を示している。いずれの場合においても、繰り返し回数を増加させるとD50値が向上しており、繰り返し処理の効果が顕著に見て取れる。特に観測信号長が5〜10秒程度の比較的短い長さであっても、繰り返し処理によってD50値が大きく向上したことが分かる。
また、本発明の第2実施形態の効果を、音声スペクトグラムの比較から検証した。
図9Aは1分間の観測信号を用いて得られた残響を含まない音声(原音声)のスペクトログラムの抜粋、図9Bは1分間の観測信号を用いて得られた残響を含む音声(観測音声)のスペクトログラムの抜粋、図9Cは1分間の観測信号を用いて得られた残響除去後の音声(復元音声)のスペクトログラムの抜粋を示している。図9Aと図9Cとの対比および図9Bと図9Cとの対比から、観測信号に含まれる残響が抑制され、原音声固有の特徴である調波構造やフォルマント構造が回復されたことが分かる。
また、本発明の第2実施形態の効果を、LPCスペクトル歪みを用いて検証した。
図10Bは原音声の波形、図10Aは原音声と観測音声とのLPCスペクトル歪みの時系列(図中の点線)および原音声と復元音声とのLPCスペクトル歪みの時系列(図中の実線)を示している。図10Aおよび図10Bの各横軸は秒単位の時間を表し、両図でタイムスケールを揃えている。図10Bの縦軸は振幅値を表している。但し、原信号の相対的な大きさが分かればよいので、この趣旨から図10Bの縦軸では単位を明示していない。図10Aの縦軸は、LPCスペクトル歪みSD(dB)を表している。
図10Aから、原音声と復元音声とのLPCスペクトル歪みの時系列(図中の実線)は、原音声と観測音声とのLPCスペクトル歪みの時系列(図中の点線)よりも常に小さいことがわかる。なお、観測音声ではLPCスペクトル歪みの平均が5.39dB、分散が4.20dBであったのに対して、復元音声では平均が2.38dB、分散が2.00dBであった。
また、図10Aと図10Bとの対比から、原音声と復元音声とのLPCスペクトル歪みの時系列(図中の実線)が大きな値を示す区間(例えば約1.0秒〜約1.2秒の区間を参照)は、原音声の波形の振幅値がほぼ0であることがわかる。実際、この区間では発声がなく無音区間である。このため、実際に知覚される歪みはかなり小さくなっていた。つまり、発声区間における原音声と復元音声とのLPCスペクトル歪みの時系列(図中の実線)は、原音声と観測音声とのLPCスペクトル歪みの時系列(図中の点線)よりもかなり小さく、このため原音声のスペクトルを高い精度で復元できたことが結論付けられる。
<第3実施形態>
第3実施形態は、第1実施形態の変形例に相当する。具体的には、§2で述べた二次統計量に基づく信号歪み除去処理を行なう形態である。そこで、第1実施形態と異なる部分について図11および図12を参照して説明を加える。但し、第3実施形態では、マイクロホンの個数Mは2以上とする。
ステップS100の処理およびステップS101の処理は、第1実施形態と同じである。
ステップS101の処理に続いて、ステップS102aの処理を行う。
第3実施形態に係る逆フィルタ計算部(13)の機能構成例を、図11を参照して説明
する。
逆フィルタ計算部(13)は、観測信号への予測誤差フィルタ適用部として機能する第1の予測誤差フィルタ適用部(1311)と、観測信号に更新用逆フィルタを適用して得られる信号(更新用逆フィルタ適用後信号)への予測誤差フィルタ適用部として機能する第2の予測誤差フィルタ適用部(1312)と、勾配ベクトル計算部(1313)と、逆フィルタ更新部(132)および更新用逆フィルタ適用部(133)によって構成される。ここで更新用逆フィルタは、式(37)のg(k)に相当する。
第1の予測誤差フィルタ適用部(1311)は、m番目〔1≦m≦M〕のマイクロホンで観測された観測信号x(t)をフレーム化して、各フレームにつき、i番目のフレームの信号xmi(n)に対してステップS101の処理で得られたi番目の予測誤差フィルタa(k)を適用して予測誤差フィルタ適用後の信号vmi(n)を計算する(式(38)を参照)。具体的には、フレーム化処理部(402B)が、入力された観測信号x(t)に対してフレーム化処理を行い、観測信号x(t)のi番目のフレームの信号xmi(n)を出力する。そして、予測誤差フィルタ適用部(404i)が信号xmi(n)を入力として、式(38)に従って信号vmi(n)を出力する。但し、1≦i≦Fである。
第2の予測誤差フィルタ適用部(1312)は、更新用逆フィルタ適用後信号y(t)をフレーム化して、各フレームにつき、i番目のフレームの信号y (n)に対してステップS101の処理で得られたi番目の予測誤差フィルタa(k)を適用してイノベーション推定値d(1),…,d(W)を計算する(式(30)を参照)。なお、更新用逆フィルタ適用後信号y(t)の初期値は、ステップS100の処理で得られた信号とすればよい。具体的には、フレーム化処理部(402A)が、初期値の場合を除き、後述する更新用逆フィルタ適用部(133)が出力した更新用逆フィルタ適用後信号y(t)に対してフレーム化処理を行い、i番目のフレームの信号y(n)を出力する。そして、予測誤差フィルタ適用部(403i)が信号y(n)を入力として、式(30)に従ってイノベーション推定値d(1),…,d(W)を出力する。但し、1≦i≦Fである。
勾配ベクトル計算部(1313)は、信号vmi(n)とイノベーション推定値d(n)とを用いて現在の更新用逆フィルタg(k)の勾配ベクトルを計算する(式(37)の右辺第二項を参照)。具体的には、各フレーム番号i(1≦i≦F)に関して、相互相関計算部(405i)は信号vmi(n)とイノベーション推定値 (n)との相互相関〈d(n)vmi(n−k)〉n=1 を計算する。また、各フレーム番号i(1≦i≦F)に関して、分散計算部(406i)は、イノベーション推定値d(1),…,d(W)の分散〈d(n)n=1 を求める。各フレーム番号i(1≦i≦F)に関して、除算部(407i)は、〈d(n)vmi(n−k)〉n=1 /〈d(n)n=1 を求める。加算部(408)は、除算部(4071)〜(407F)の出力の全フレームに亘る総和、つまり式(37)の右辺第二項を求める。
逆フィルタ更新部(132)は、現在の更新用逆フィルタg(k)、学習率δ、勾配ベクトルを用いて、式(37)に従って、u+1回目の更新用逆フィルタg(k)′を求める。式(37)は、求められたg(k)′を新たなg(k)と見立てて更新を行なうことを意味する。
更新用逆フィルタ適用部(133)は、逆フィルタ更新部(132)によって得られたg(k)′、つまり新たなg(k)および観測信号x(t)を用いて、式(42)に従って、更新用逆フィルタ適用後信号y(t)を求める。具体的には、式(42)のg(k)としてu+1回目の更新で得られたgを用いて計算する。この計算で得られた更新
用逆フィルタ適用後信号y(t)は、第2の予測誤差フィルタ適用部(1312)の入力となる。
ステップS102aの処理に続いて、ステップS103およびステップS104の処理を行うが、第1実施形態と同じであるから説明を略する。
<実施例2>
発明者らは第3実施形態の実証実験を行ったので、その実験結果を示す。実験条件として、M=4,L=1000,W=200,P=16,R=6,R=50とした。学習率δは、初期値を0.05に設定し、Σi=1 log<d(n)n=1 の値が増加するならば、Σ i=1 log<d (n) n=1 が減少するまで、学習率δの値を順次半減させた。逆フィルタの初期推定値は、g(k)=0,1≦m≦M,1≦k≦Lとして設定した。
本発明の第3実施形態の効果を、音声明瞭度を表すRASTI(参考文献5を参照)を残響除去の指標として評価した。連続発話データベースから男女各五名の発話を取り出し、残響時間0.5秒の残響室で測定したインパルス応答を畳み込むことで観測信号を合成した。
(参考文献5) H. kuttruff. Room acoustics. Elsevier Applied Science, third edition, P.237 1991.
図13は、Nを3秒、4秒、5秒、10秒とする各観測信号のRASTI値を表示したものである。図13に示すように、観測信号が3〜5秒のように短時間の場合でも、高い残響除去性能を示していることが分かる。
図14は、残響除去前後におけるエネルギー減衰曲線の例である。直接音が到達してから50ミリ秒後の反射音のエネルギーが15dB低減されていることが分かる。
本発明は、様々な信号処理システムの性能向上に寄与する要素技術であるところ、例えば音声認識システム、テレビ会議システム、補聴器、音楽情報処理システム等に利用することができる。
本発明の原理を説明するためのモデル機構を表したブロック線図。 第1実施形態に係る信号歪み除去装置(1)のハードウェア構成例を示す図。 第1実施形態に係る信号歪み除去装置(1)の機能構成例を示す機能ブロック図。 信号歪み除去装置(1)の逆フィルタ計算部(13)の機能構成例を示す機能ブロック図。 第1実施形態における信号歪み除去処理の流れを示す処理フロー図。 第2実施形態に係る信号歪み除去装置(1)の機能構成例を示す機能ブロック図。 第2実施形態における信号歪み除去処理の流れを示す処理フロー図。 観測信号長Nを5秒、10秒、20秒、1分、3分に変化させたときの、繰り返し回数RとD50値の関係を示す図。 Aは残響を含まない音声のスペクトログラム、Bは残響を含む音声のスペクトログラム、Cは残響除去後の音声のスペクトログラム。 Aは残響除去音声のLPCスペクトル歪みの時間変動を説明するためのグラフ、Bは対応する区間における原音声信号の抜粋。 第3実施形態に係る信号歪み除去装置(1)の逆フィルタ計算部(13)の機能構成例を示す機能ブロック図。 第3実施形態における信号歪み除去処理の流れを示す処理フロー図。 秒、4秒、5秒、10秒の各観測信号のRASTI値を表示した図。 残響除去前後におけるエネルギー減衰曲線の例を示した図。 従来技術を説明するための機能ブロック図。

Claims (14)

  1. 観測信号の信号歪みを除去して復元信号を得る信号歪み除去装置であって、
    所定の繰り返し終了条件を満たした場合には、上記観測信号に適用するためのフィルタ(以下、逆フィルタという。)を、上記観測信号に適用して、この結果を上記復元信号として出力し、上記繰り返し終了条件を満たさない場合には、上記観測信号に上記逆フィルタを適用して、この結果をアドホック信号として出力する逆フィルタ適用手段と、
    上記アドホック信号をフレーム化して、各フレームのアドホック信号を線形予測分析して得た各フレームごとの予測誤差フィルタを出力する予測誤差フィルタ計算手段と、
    上記各フレームのアドホック信号に対して当該フレームに対応する上記予測誤差フィルタを適用して得る各信号(以下、イノベーション推定値という。)を結合した全フレームでのイノベーション推定値(以下、イノベーション推定値系列という。)が、その全サンプル間で独立となる上記逆フィルタを求め、この逆フィルタを出力する逆フィルタ計算手段と、
    上記繰り返し終了条件を満たすまで上記逆フィルタ適用手段、上記予測誤差フィルタ計算手段、上記逆フィルタ計算手段を繰り返し実行させる制御手段と、
    を備えた信号歪み除去装置。
  2. 上記予測誤差フィルタ計算手段は、
    上記各イノベーション推定値の分散の全フレームでの総和が最小となるときの予測誤差フィルタ、または、上記各イノベーション推定値の分散の対数値の全フレームでの総和が最小となるときの予測誤差フィルタ、を求めるとして、各フレームのアドホック信号の線形予測分析を行ない、各フレームごとの上記予測誤差フィルタを出力するものであり、
    上記逆フィルタ計算手段は、
    上記イノベーション推定値系列がその全サンプル間で独立となる上記逆フィルタとして、上記各イノベーション推定値の正規化尖度の全フレームでの総和が最大となるときの逆フィルタ求め、この逆フィルタを出力するものである
    ことを特徴とする請求項1に記載の信号歪み除去装置。
  3. 上記予測誤差フィルタ計算手段は、
    上記各イノベーション推定値の分散の全フレームでの総和が最小となるときの予測誤差フィルタ、または、上記各イノベーション推定値の分散の対数値の全フレームでの総和が最小となるときの予測誤差フィルタ、を求めるとして、各フレームのアドホック信号の線形予測分析を行ない、各フレームごとの上記予測誤差フィルタを出力するものであり、
    上記逆フィルタ計算手段は、
    上記イノベーション推定値系列がその全サンプル間で独立となる上記逆フィルタとして、上記各イノベーション推定値の分散の全フレームでの総和が最小となるときの逆フィルタ、または、上記各イノベーション推定値の分散の対数値の全フレームでの総和が最小となるときの逆フィルタ求め、この逆フィルタを出力するものである
    ことを特徴とする請求項1に記載の信号歪み除去装置。
  4. 観測信号の信号歪みを除去して復元信号を得る信号歪み除去装置であって、
    上記観測信号を線形予測分析して得た白色化フィルタを出力する白色化フィルタ計算手段と、
    上記白色化フィルタを上記観測信号に適用して白色化信号を出力する白色化フィルタ適用手段と、
    所定の繰り返し終了条件を満たした場合には、上記白色化信号に適用するためのフィルタ(以下、逆フィルタという。)を、上記白色化信号に適用して、この結果を上記復元信号として出力し、上記繰り返し終了条件を満たさない場合には、上記白色化信号に上記逆フィルタを適用して、この結果をアドホック信号として出力する逆フィルタ適用手段と、
    上記アドホック信号をフレーム化して、各フレームのアドホック信号を線形予測分析して得た各フレームごとの予測誤差フィルタを出力する予測誤差フィルタ計算手段と、
    上記各フレームのアドホック信号に対して当該フレームに対応する上記予測誤差フィルタを適用して得る各信号(以下、イノベーション推定値という。)を結合した全フレームでのイノベーション推定値(以下、イノベーション推定値系列という。)が、その全サンプル間で独立となる上記逆フィルタを求め、この逆フィルタを出力する逆フィルタ計算手段と、
    上記繰り返し終了条件を満たすまで上記逆フィルタ適用手段、上記予測誤差フィルタ計算手段、上記逆フィルタ計算手段を繰り返し実行させる制御手段と、
    を備えた信号歪み除去装置。
  5. 上記繰り返し終了条件は、
    繰り返し回数がR回(但しRは、R≧1を満たす整数である。)となることである
    ことを特徴とする請求項1から請求項4のいずれかに記載の信号歪み除去装置。
  6. 上記観測信号は、信号歪みを含む音声信号である
    ことを特徴とする請求項1から請求項5のいずれかに記載の信号歪み除去装置。
  7. 観測信号の信号歪みを除去して復元信号を得る信号歪み除去方法であって、
    逆フィルタ適用手段が、所定の繰り返し終了条件を満たした場合には、上記観測信号に適用するためのフィルタ(以下、逆フィルタという。)を、上記観測信号に適用して、この結果を上記復元信号として出力し、上記繰り返し終了条件を満たさない場合には、上記観測信号に上記逆フィルタを適用して、この結果をアドホック信号として出力する逆フィルタ適用ステップと、
    予測誤差フィルタ計算手段が、上記アドホック信号をフレーム化して、各フレームのアドホック信号を線形予測分析して得た各フレームごとの予測誤差フィルタを出力する予測誤差フィルタ計算ステップと、
    逆フィルタ計算手段が、上記各フレームのアドホック信号に対して当該フレームに対応する上記予測誤差フィルタを適用して得る各信号(以下、イノベーション推定値という。)を結合した全フレームでのイノベーション推定値(以下、イノベーション推定値系列という。)が、その全サンプル間で独立となる上記逆フィルタを求め、この逆フィルタを出力する逆フィルタ計算ステップと、
    制御手段が、上記繰り返し終了条件を満たすまで上記逆フィルタ適用ステップ、上記予測誤差フィルタ計算ステップ、上記逆フィルタ計算ステップを繰り返し実行させる制御ステップと、
    を有する信号歪み除去方法。
  8. 上記予測誤差フィルタ計算ステップは、
    上記各イノベーション推定値の分散の全フレームでの総和が最小となるときの予測誤差フィルタ、または、上記各イノベーション推定値の分散の対数値の全フレームでの総和が最小となるときの予測誤差フィルタ、を求めるとして、各フレームのアドホック信号の線形予測分析を行ない、各フレームごとの上記予測誤差フィルタを出力するものであり、
    上記逆フィルタ計算ステップは、
    上記イノベーション推定値系列がその全サンプル間で独立となる上記逆フィルタとして、上記各イノベーション推定値の正規化尖度の全フレームでの総和が最大となるときの逆フィルタ求め、この逆フィルタを出力するものである
    ことを特徴とする請求項7に記載の信号歪み除去方法。
  9. 上記予測誤差フィルタ計算ステップは、
    上記各イノベーション推定値の分散の全フレームでの総和が最小となるときの予測誤差フィルタ、または、上記各イノベーション推定値の分散の対数値の全フレームでの総和が最小となるときの予測誤差フィルタ、を求めるとして、各フレームのアドホック信号の線形予測分析を行ない、各フレームごとの上記予測誤差フィルタを出力するものであり、
    上記逆フィルタ計算ステップは、
    上記イノベーション推定値系列がその全サンプル間で独立となる上記逆フィルタとして、上記各イノベーション推定値の分散の全フレームでの総和が最小となるときの逆フィルタ、または、上記各イノベーション推定値の分散の対数値の全フレームでの総和が最小となるときの逆フィルタ求め、この逆フィルタを出力するものである
    ことを特徴とする請求項7に記載の信号歪み除去方法。
  10. 観測信号の信号歪みを除去して復元信号を得る信号歪み除去方法であって、
    白色化フィルタ計算手段が、上記観測信号を線形予測分析して得た白色化フィルタを出力する白色化フィルタ計算ステップと、
    白色化フィルタ適用手段が、上記白色化フィルタを上記観測信号に適用して白色化信号を出力する白色化フィルタ適用ステップと、
    逆フィルタ適用手段が、所定の繰り返し終了条件を満たした場合には、上記白色化信号に適用するためのフィルタ(以下、逆フィルタという。)を、上記白色化信号に適用して、この結果を上記復元信号として出力し、上記繰り返し終了条件を満たさない場合には、上記白色化信号に上記逆フィルタを適用して、この結果をアドホック信号として出力する逆フィルタ適用ステップと、
    予測誤差フィルタ計算手段が、上記アドホック信号をフレーム化して、各フレームのアドホック信号を線形予測分析して得た各フレームごとの予測誤差フィルタを出力する予測誤差フィルタ計算ステップと、
    逆フィルタ計算手段が、上記各フレームのアドホック信号に対して当該フレームに対応する上記予測誤差フィルタを適用して得る各信号(以下、イノベーション推定値という。)を結合した全フレームでのイノベーション推定値(以下、イノベーション推定値系列という。)が、その全サンプル間で独立となる上記逆フィルタを求め、この逆フィルタを出力する逆フィルタ計算ステップと、
    制御手段が、上記繰り返し終了条件を満たすまで上記逆フィルタ適用ステップ、上記予測誤差フィルタ計算ステップ、上記逆フィルタ計算ステップを繰り返し実行させる制御ステップと、
    を有する信号歪み除去方法。
  11. 上記繰り返し終了条件は、
    繰り返し回数がR回(但しRは、R≧1を満たす整数である。)となることである
    ことを特徴とする請求項7から請求項10のいずれかに記載の信号歪み除去方法。
  12. 上記観測信号は、信号歪みを含む音声信号である
    ことを特徴とする請求項7から請求項11のいずれかに記載の信号歪み除去方法。
  13. 請求項1から請求項6のいずれかに記載された信号歪み除去装置としてコンピュータを機能させるための信号歪み除去プログラム。
  14. 請求項13に記載の信号歪み除去プログラムを記録した、コンピュータに読み取り可能な記録媒体。
JP2007522320A 2006-02-16 2007-02-16 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体 Expired - Fee Related JP4348393B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007522320A JP4348393B2 (ja) 2006-02-16 2007-02-16 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2006039326 2006-02-16
JP2006039326 2006-02-16
JP2006241364 2006-09-06
JP2006241364 2006-09-06
JP2007522320A JP4348393B2 (ja) 2006-02-16 2007-02-16 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体
PCT/JP2007/052874 WO2007094463A1 (ja) 2006-02-16 2007-02-16 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JPWO2007094463A1 JPWO2007094463A1 (ja) 2009-07-09
JP4348393B2 true JP4348393B2 (ja) 2009-10-21

Family

ID=38371639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007522320A Expired - Fee Related JP4348393B2 (ja) 2006-02-16 2007-02-16 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体

Country Status (5)

Country Link
US (1) US8494845B2 (ja)
EP (1) EP1883068B1 (ja)
JP (1) JP4348393B2 (ja)
CN (1) CN101322183B (ja)
WO (1) WO2007094463A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747238B (zh) * 2013-02-20 2015-07-08 华为技术有限公司 视频静止失真程度评估方法和装置
JP2014219607A (ja) * 2013-05-09 2014-11-20 ソニー株式会社 音楽信号処理装置および方法、並びに、プログラム
JP6293314B2 (ja) * 2014-07-08 2018-03-14 ヴェーデクス・アクティーセルスカプ 補聴器システムのパラメータ最適化方法および補聴器システム
FR3055727B1 (fr) * 2016-09-06 2019-10-11 Centre National D'etudes Spatiales Procede et dispositif de caracterisation des aberrations d'un systeme optique
JP6728250B2 (ja) * 2018-01-09 2020-07-22 株式会社東芝 音響処理装置、音響処理方法およびプログラム
CN110660405B (zh) * 2019-09-24 2022-09-23 度小满科技(北京)有限公司 一种语音信号的提纯方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4672665A (en) * 1984-07-27 1987-06-09 Matsushita Electric Industrial Co. Ltd. Echo canceller
WO1995015550A1 (en) * 1993-11-30 1995-06-08 At & T Corp. Transmitted noise reduction in communications systems
US5574824A (en) * 1994-04-11 1996-11-12 The United States Of America As Represented By The Secretary Of The Air Force Analysis/synthesis-based microphone array speech enhancer with variable signal distortion
EP0766446B1 (en) * 1995-09-26 2003-06-11 Nippon Telegraph And Telephone Corporation Method and apparatus for multi-channel acoustic echo cancellation
US5774562A (en) * 1996-03-25 1998-06-30 Nippon Telegraph And Telephone Corp. Method and apparatus for dereverberation
JP2001175298A (ja) * 1999-12-13 2001-06-29 Fujitsu Ltd 騒音抑圧装置
JP2002258897A (ja) * 2001-02-27 2002-09-11 Fujitsu Ltd 雑音抑圧装置
JP3506138B2 (ja) * 2001-07-11 2004-03-15 ヤマハ株式会社 複数チャンネルエコーキャンセル方法、複数チャンネル音声伝送方法、ステレオエコーキャンセラ、ステレオ音声伝送装置および伝達関数演算装置
JP3568922B2 (ja) * 2001-09-20 2004-09-22 三菱電機株式会社 エコー処理装置
US7167568B2 (en) * 2002-05-02 2007-01-23 Microsoft Corporation Microphone array signal enhancement
US7555434B2 (en) * 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
JP2004064584A (ja) * 2002-07-31 2004-02-26 Kanda Tsushin Kogyo Co Ltd 信号分離抽出装置
JP4496379B2 (ja) * 2003-09-17 2010-07-07 財団法人北九州産業学術推進機構 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法
US7533017B2 (en) * 2004-08-31 2009-05-12 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Method for recovering target speech based on speech segment detection under a stationary noise
US7844059B2 (en) * 2005-03-16 2010-11-30 Microsoft Corporation Dereverberation of multi-channel audio streams

Also Published As

Publication number Publication date
EP1883068A1 (en) 2008-01-30
EP1883068A4 (en) 2009-08-12
US20080189103A1 (en) 2008-08-07
EP1883068B1 (en) 2013-09-04
CN101322183B (zh) 2011-09-28
US8494845B2 (en) 2013-07-23
CN101322183A (zh) 2008-12-10
JPWO2007094463A1 (ja) 2009-07-09
WO2007094463A1 (ja) 2007-08-23

Similar Documents

Publication Publication Date Title
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
KR100549133B1 (ko) 노이즈 감소 방법 및 장치
Tsao et al. Generalized maximum a posteriori spectral amplitude estimation for speech enhancement
JP2010282193A (ja) 残響抑圧装置、及び残響抑圧方法
JP4348393B2 (ja) 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
Habets et al. Dereverberation
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
Nelke Wind noise reduction: signal processing concepts
JP6142402B2 (ja) 音響信号解析装置、方法、及びプログラム
Yoshioka et al. Dereverberation by using time-variant nature of speech production system
Astudillo et al. Uncertainty propagation
Nower et al. Restoration scheme of instantaneous amplitude and phase using Kalman filter with efficient linear prediction for speech enhancement
Raikar et al. Single channel joint speech dereverberation and denoising using deep priors
JP4977100B2 (ja) 残響除去装置、残響除去方法、そのプログラムおよび記録媒体
Liu et al. Speech enhancement of instantaneous amplitude and phase for applications in noisy reverberant environments
Roy et al. Deep residual network-based augmented Kalman filter for speech enhancement
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
Hirsch et al. A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms
Krueger et al. Bayesian Feature Enhancement for ASR of Noisy Reverberant Real-World Data.
JPWO2017204226A1 (ja) 目的音響信号復元システム及び方法
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体
Wichern et al. Removing lavalier microphone rustle with recurrent neural networks
Joorabchi et al. Simultaneous Suppression of Noise and Reverberation by Applying a Two Stage Process
Raikar et al. Multi-channel joint dereverberation and denoising using deep priors

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090707

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090717

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4348393

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130724

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees