JP2003509730A - 信号場における妨害雑音の低減方法 - Google Patents

信号場における妨害雑音の低減方法

Info

Publication number
JP2003509730A
JP2003509730A JP2001524096A JP2001524096A JP2003509730A JP 2003509730 A JP2003509730 A JP 2003509730A JP 2001524096 A JP2001524096 A JP 2001524096A JP 2001524096 A JP2001524096 A JP 2001524096A JP 2003509730 A JP2003509730 A JP 2003509730A
Authority
JP
Japan
Prior art keywords
signal
level
distribution function
value
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001524096A
Other languages
English (en)
Inventor
チルク、ヴォルフガング
Original Assignee
ジーメンス アーゲー オーストリッヒ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジーメンス アーゲー オーストリッヒ filed Critical ジーメンス アーゲー オーストリッヒ
Publication of JP2003509730A publication Critical patent/JP2003509730A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Abstract

(57)【要約】 それぞれ一つの信号レベル値をとり、一つの座標領域(T,F)に表わすことのできる多数の信号成分を含んだ信号場(S2)たとえば音声信号のスペクトルにおける妨害雑音を低減するために、先ず信号場の分布関数(P2(E))が決定される。これは信号レベルの関数として、パラメータ値(E)よりもその信号レベルが低い信号成分の割合を表わす。次いで分布関数(P2(E))と一組の基準パターンについて決定された分布関数から得られた基準分布関数との比較に基づいて信号場の信号レベル値が修正され、その際、エネルギーレベルに関する信号成分の順序は不変のままであると同時に本来の信号レベルが等しい信号成分に同一の修正信号レベルが割当てられる。

Description

【発明の詳細な説明】
【0001】
【技術分野】
本発明は、それぞれ一つの信号レベル値をとり、一つの座標領域に表わすこと
のできる多数の信号成分を含んだ信号場における妨害雑音を低減するための方法
であって、信号レベルの関数として、可能な信号レベル−パラメータ値の各々に
対して、パラメータ値よりもその信号レベルが低い信号成分の割合を表わす分布
関数が信号場から決定される方法に関する。
【0002】
【背景技術】
本発明による方法が関係する信号場はたとえばパターン認識システムにおいて
認識さるべきパターンを記述するために使用される。パターン認識の経過プロセ
スは通例大まかに次のようなステップに区分することができる。すなわち、パタ
ーンの観測、前処理および識別である。
【0003】 第一のステップであるパターン観測はオリジナルパターンたとえばユーザの発
声音声あるいはテキストで記述された文書を処理に適したフォーマットたとえば
アナログないしデジタルコード化されたエレクトロニクス信号または所定のフォ
ーマットのデータファイルの形に変換するために行われる。たとえばラスタパタ
ーンの信号/データファイルフォーマットを事後の処理に適したフォーマットに
変換することもこれに該当する。音声認識の場合にはたとえばユーザによって発
された音声は音響入力たとえばマイクロホンを経て記録され、場合により予増幅
されて、アナログないしデジタル化された形の電気音声信号に変換される。
【0004】 前記のようにして観測されたパターンは前処理に付され、これにより処理さる
べきデータの減少ならびに決定さるべきパターンの識別性の向上が達成される。
前処理の結果は信号場であり、音声認識を例に取れば、識別システムに供給する
ことのできる発声音声スペクトルである。前処理の一つの重要なステップはしば
しばパターン信号の信号解析であり、たとえばユーザ発声の電気音声信号につい
ていえば、信号解析は時間枠への区分(離散化)とそれに続いてそれぞれ一つの
時間枠の内部で実施されるフーリエ変換と周波数帯への分解の形で行うことがで
き、これから時間−周波数−スペクトルが得られる。これは同時に―一般的に言
って相当程度の―データ減少と結びついている。前処理の、場合によって重要な
もう一つのステップはパターン信号ないしそれから得られる信号場における妨害
雑音の低減である。
【0005】 信号場はそれぞれ一つの固有な、この場合信号レベルと称される同一タイプの
値をとる多数の信号成分を含んでいる。これらの信号成分は当然のことながら信
号場内に配列されており、この配列は一つもしくは複数の座標パラメータによっ
て表わされている。たとえば時間−周波数−スペクトルとして実現された信号場
はそれぞれ一つの固有なエネルギーレベルをとる多数のスペクトル成分から成り
、これらのスペクトル成分は時間枠と周波数帯とに応じて配列されている。した
がって各々の信号成分に信号場がカバーする座標領域において座標領域の一つの
固有な領域エレメントを割当てることができ、その結果、領域エレメントは全体
として信号場の座標領域をカバーする。座標領域は座標パラメータの数に応じ一
次元、二次元または多次元的となり、これに応じて領域エレメントは線形エレメ
ント、面エレメントまたは(n次元)ボリュームエレメントとなる。
【0006】 前処理によって得られた信号場は識別システムに供給される。該システムはど
の認識クラス―つまり音声認識の場合にあっては所定の語彙の単語または単語連
鎖―との間に一致が存在するかを調査する。かくて認識結果はたとえば表示装置
上の出力に供給されるかまたはたとえば音声対応装置の命令入力に際するさらな
る処理に利用される。
【0007】 パターン認識の実施は認識さるべきパターンに重畳した妨害雑音によってしば
しば困難とされる。たとえば音声認識システムの性能はバックグラウンド騒音に
よって大幅に減退されあるいは全く無効化されることがある。
【0008】 公知の雑音低減方法にあっては前処理において信号のベースにある雑音パラメ
ータの評価が実施され、この評価に基づいて基準雑音信号が引き去られる。音声
信号に関するこの種のスペクトル減算法はS. V. VaseghiとB. P. Milnerにより
“Noise Compensation Models for Hidden Markov Model Speech Recognition i
n Adverse Environments[不利な環境における隠れマルコフモデル音声認識のた
めの雑音補償モデル]”、IEEE Transaction on Speech and Audio Processing,
Vol. 5, No. 1, 1997年1月, p. 11〜21に述べられている。この場合、スペクト
ルのそれぞれ一つのスペクトル成分のエネルギーレベルEから基準雑音信号Er
の当該成分が以下の式 E'=ss(E,Er)=(Eb−αEr b1/b にしたがって“減算”される。基準雑音信号Erは所定のまたは評価された雑音
パラメータに基づいてシミュレートされる。この場合、エネルギーレベルの減算
はたとえば線形エネルギーレベルに関して実施するかまたは対数領域において“
コンボリューション”によって実施することができ、つまり前記の式中において
エネルギーレベルE、Er、E'は当該対数logE等によって置き換えられる。
【0009】 ただし減算方式には雑音の記述に不可欠なパラメータが所要の精度で且つ完全
に判明していることはあり得ないという欠陥がある。たとえば正しい雑音補償に
は雑音振幅が既知であるだけでなく、位相関係も既知であることが必要であるが
、これは―そもそも可能であるとしても―非常に多大なコストを以ってしか実現
することはできない。加法的重畳もコンボリューション重畳も表わしていない雑
音、たとえば加法的雑音とコンボリューション雑音とから成る混合形態の処理は
さらにいっそう困難である。
【0010】 欧州特許公開EP 0 062 519 A1はレーダー信号における雑音の
除去を記載しているが、この場合、レイリーまたはワイブル分布雑音を要求する
前記公知の方法とは異なり、たとえ任意であれ雑音分布は既知である。分布が既
知であることまたはそれから分布を導出することのできる少なくとも当該確率密
度が既知であることが該明細書の方法を適用するための不可欠な前提条件であり
、したがってそうした分布が既知でなければこの方法に基づく雑音除去は実施不
能である。
【0011】 欧州特許公開EP 0 548 527 A2はデジタル放射線撮影画像たと
えばX線画像のレベルスケール変換を算出するために画像のレベル分布を修正し
それが当該領域において基本的に線形になるようにするため画像の累積分布関数
を使用する方法を記載している。この方法の根底にある目的、つまり画像の観察
による爾後の検査に適した形態で画像を表現するということは本発明の目的とは
言うまでもなく本質的に異なっている。
【0012】 欧州特許公開EP 0 720 358 A2はビデオ信号データの圧縮に関
係している。この場合、画像のレベル分布は一方の領域に該当する入力レベルが
多ければ多いほどますます大きな出力レベル領域が各々の入力レベル領域に割当
てられるように修正され且つ出力レベル領域全体は制限されている。この場合に
もその目的、つまりより均等に信号を圧縮するということは本発明の目的とは本
質的に異なっている。したがって、該明細書に基づく圧縮に際しては、ターゲッ
ト分布は志向されず、むしろ圧縮命令は単に入力信号から導出されたパラメータ
を使用するにすぎない。
【0013】 前記のいずれの明細書からもトレーニングデータまたは基準データから得られ
た基準分布関数の使用を看取することはできない。そこで本発明の目的は爾後の
解析評価とりわけ識別の点から見た妨害雑音による信号場の毀損を確実に低減さ
せる雑音低減方法を提示することであり、さらに雑音低減を雑音特性の詳細な知
識もバックグラウンドノイズのシミュレーションもなしで実施可能とすることで
ある。
【0014】
【発明の開示】
前記課題は、信号レベルの関数として、可能な信号レベル−パラメータ値の各
々に対して、パラメータ値よりもその信号レベルが低い信号成分の割合を表わす
分布関数が本発明によって信号場から決定され、次いで分布関数と前もって決定
された基準分布関数との比較に基づいて信号場の信号レベル値が修正され、その
際、エネルギーレベルに関する信号成分の順序は不変のままであると同時に本来
の信号レベルが等しい信号成分に同一の修正信号レベルが割当てられ、一組の基
準パターンについて決定された分布関数から得られた関数が基準分布関数として
使用される冒頭に述べた類の方法によって解決される。
【0015】 この解決法は加法的ないしコンボリューション雑音バックグラウンドについて
も混合形態またはもっと複雑な雑音についても共に雑音低減を可能とする。本発
明による方法により雑音が信号場の信号パラメータにおよぼす効果を、雑音パラ
メータの知識が得られていなくとも、著しく低減させることが可能である。
【0016】 エネルギーレベルに関する信号成分の順序が不変に保たれるという要求は、第
一の成分の本来のレベルが第二の成分のそれよりも小さい各々の(任意の)対の
信号成分につき、修正されたレベルを信号成分に割当てた後も、第一の成分の修
正されたレベルが第二の成分の修正されたレベルより大きくない(したがって等
しいかまたは小さい)ということを意味している。
【0017】 ここで前記の諸明細書からは妨害雑音の種類を顧慮しない基準分布関数に依拠
した修正が成果をもたらすものとなり得る旨の指摘をなんら看取することはでき
ないとのことを指摘しておくこととする。
【0018】 本発明による方法にとって重要なパラメータである基準分布関数はあらかじめ
たとえば実験によって決定することが可能である。一組のトレーニングパターン
または比較パターンが存在すれば、それらまたはセレクトされたそれらのパター
ンの一部を基準分布関数の算出に利用することができる。この場合好適なことに
一組の基準パターンについて決定された分布関数から得られた関数を基準分布関
数として使用することができる。その際、基準パターンの組みの分布関数自体を
基準分布関数として利用するかあるいはそれからたとえば曲線推移の単純化によ
って得られたレベル関数をそうしたものとして利用することが可能である。
【0019】 信号レベル値の修正は信号レベルの値領域をいくつかのレベル領域に区分する
ことから出発して各レベル領域につき ―当該レベル領域を代表する第一のレベルに対して、分布関数と第一のレベルに
おける基準分布関数の値とを適用して、分布関数の値が基準分布関数の当該値に
できるだけ接近する第二のレベルがセレクトされ、 ―信号レベルが第一と第二のレベルの間に該当する信号成分に第一のレベルの値
が割当てられる ようにして行われるのが好適である。これにより信号をできるだけ広範に基準分
布関数に適合させることが可能となる。信号レベル−値領域をいくつかのレベル
領域に区分する最も単純なケースにあっては、発生する各々の信号レベルに対し
て一つの固有な領域が割当てられる結果各々のレベル領域は当該信号レベルと同
一に扱うことができる。
【0020】 さらに本発明の特に好適な実現は音響信号の時間依存および/または周波数依
存スペクトルとして実現された信号場に関して実施される。
【0021】
【発明を実施するための最良の形態】
以下、自動車車内で発声された単語の音声認識に関する一実施例に基づいて本
発明を説明する。説明にあたっては添付図面を利用する。
【0022】 騒音バックグラウンド下たとえば運転中の自動車車内の騒音バックグラウンド
下で発される音声信号は騒音によって毀損されるが、こうした騒音はさまざまな
騒音源たとえば自動車エンジン、他車両、風などに由来すると共にしばしばそれ
らの時間的経過と周波数に関して統計的に予測不能な高エネルギー音響成分の混
合体を表わしている。したがって音声認識システムの性能はたとえば自動車速度
が引き上げられて騒音バックグラウンドが増大すると急速に低下する。以下に述
べる本発明の実施例は小型の自動車車内における音声認識システムによる数字0
から9に対応する‘ゼロ’、‘ワン’、‘ツー’……‘ナイン’までの英単語の
認識に関するものである。
【0023】 図1は騒音のない条件下の車両内で男性話者によって発された英単語‘sev
en’の発声音声に関するスペクトルのスペクトログラムS1を示したものであ
る。
【0024】 本実施例で扱われたスペクトルにおいて時間軸は0.992sの時間長を表わ
しており、これは同一時間幅の31の枠T(いわゆる‘フレーム’)に区分され
ている。周波数範囲はf=200Hz〜3.4kHzに及び、ほぼ対数区分され
た帯域幅/帯域間隔を有した9帯域Fに区分されている。スペクトルエネルギー
はすべての図において対数により、全ての図に共通の一つのベースレベルを基準
として、dB単位のエネルギーレベルEとして表わされている。
【0025】 この種のスペクトルは前記語彙の発声に関する本出願人の音声認識実験で使用
された。使用された音声認識システムでは認識さるべき発声音声が雑音低減によ
って前処理された後、さらに以下に詳しく説明するように、識別が行われ、識別
にあたってはトレーニング語彙でトレーニングされた層状ニューラルネットワー
クがパターン認識システムとして使用される。トレーニング語彙は―好ましくは
男性、女性双方の―何人かの話者により車両内の音声環境に相当した環境内で、
しかも各単語につき複数回、雑音バックグラウンドの無雑音条件下(車両停止時
)で発声された。
【0026】 図2は図1に示したスペクトルS1に対するエネルギー分布関数P1(E)を
示している。一つのスペクトルSに対応した一つのエネルギー分布関数P(E)
はエネルギーレベルEの関数として、当該スペクトルSのどれだけのスペクトル
成分S(T,F)が図示エネルギーレベルEよりも低いエネルギーレベルを有し
ているかを表わしており、その数はスペクトル成分の総数を基礎として0と1と
の間の値として表わされている。たとえばエネルギー分布関数P1は48dBで
値0.6を有しているが、これはスペクトルS1の60%のエネルギーレベルが
48dB以下だからである。エネルギー分布関数P(E)の大きな(小さな)勾
配は当該スペクトルSの多数(少数)の成分にその値が現われるエネルギーレベ
ルに対応している。エネルギー分布関数は多数のスペクトルについても決定する
ことができ、その場合、該関数は図示レベルE以下のエネルギーレベルを有した
成分がスペクトル全体に占める割合を―それらすべてのスペクトルの成分の総数
で除した値として―表わしている。
【0027】 図3は車両速度が113km/h(70mph)時における同一話者による単
語の発声に関するスペクトログラムS2を示したものである。スペクトログラム
S1とS2(図1ないし3)の比較から判明するように、高エネルギーの音声部
はわずかに毀損されているにすぎない一方でその他の部分は騒音によってマスキ
ングされている。バックグラウンド−エネルギーレベルは約25dBからほぼ6
5dBに高まり、音声のピークは85dBにあり、70dB以下の音声部は騒音
バックグラウンドに埋没している。図4は当該エネルギー分布関数P2(E)を
示したものである。
【0028】 エネルギー分布関数P1とP2(図2ないし4)は、無雑音信号S1のスペク
トル分布は騒音をまとった信号S2のスペクトル分布とは著しく異なっており、
信号S2においてバックグラウンドエネルギーは無雑音信号の場合よりおよそ4
0dB高まっていることを示している。
【0029】 冒頭で触れたS. V. VaseghiとB. P. Milnerのスペクトル減算により雑音をま
とった信号の雑音低減を達成することができる。先述したようにスペクトルSは
基準雑音信号Srを使用し、各々のスペクトル成分S(T,F)において基準雑
音のそれぞれの当該成分Sr(T,F)が以下の式にしたがって“減算される”
ことによって変換される。 S'(T,F)=E0=ss(E,Er)=(Eb−αEr b1/b ここで、 E=S(T,F)であり、 Er=Sr(T,F)である。 スペクトル減算による雑音低減は以下に詳しく述べるスペクトルS2に関する本
出願人の実験の一環として実施された。図5および6はスペクトログラムS2に
スペクトル減算を適用して生じたスペクトルS3=ss(S2,Sr)と当該エネ
ルギー分布関数P3を示したものである。この場合、実施された音声認識テスト
が種々のパラメータbとαにつき最良の結果を示したパラメータbとαならびに
発声音声S2の測定から得られた基準雑音Srが使用された。図5および6から
判明するように、バックグラウンド雑音は雑音低減処理されなかった信号S2の
場合よりも約10dBだけ低いが、低エネルギー音声部のかなりの部分は依然と
して残余の雑音によって蔽われている。したがって音声認識の成功率はわずかに
向上しているにすぎない。
【0030】 基準雑音信号Srとして使用された信号は雑音をまとった信号S2のバックグ
ラウンドとして存在する雑音と統計的に一致するにすぎないことから、スペクト
ル減算によっては生じたスペクトルS3の個々の成分についてしか雑音レベルの
低減を達成することができない。というのも基準雑音と実際のバックグラウンド
との相対的な位相位置次第でスペクトル成分の一部について当該成分の雑音部分
が抹消されるにすぎず、その他の成分にあっては雑音レベルはほぼ同じままであ
り、かなりの成分において(たとえその効果がエネルギーレベルの対数表示によ
って緩和されているとはいえ)増幅さえも生ずるからである。このことは図5に
おいて特におおよそ時間枠20以降の低レベル部分に認めることができる。
【0031】 本発明によれば前記音声信号S2の雑音低減は所定の“前置関数”すなわち基
準として利用されるエネルギー分布関数を使用して行われる。これは音声信号ス
ペクトルS2のスペクトル成分のレベルが前置関数に適合させられるようにして
行われるのが好適である。これにより、生じたスペクトルのエネルギー分布関数
は基本的に前置関数に一致する。
【0032】 前置関数としては当該単語(ここでは‘seven’)に関する音声認識シス
テムのトレーニングに使用されるスペクトルの和のエネルギー分布関数を使用す
るのが理想的であろうが、認識さるべき単語は言うまでもなく前以って音声認識
システムに知られているわけではないことからそれは不可能である。その代わり
に認識さるべき語彙の単語の全体に関して有効なエネルギー分布関数が前置関数
として選択される。たとえばトレーニング語彙全体のスペクトルから導出された
エネルギー分布関数を前置関数P0として使用することができる。
【0033】 レベルを前置関数に適合させることによる本発明に基づく雑音低減は本来のレ
ベルE=S(T,F)の等しいスペクトル成分が適合後にも一つの共通のレベル
E0=S'(T,F)を有するようにして行われ、つまりすべてのスペクトル成
分に以下の適合条件が当てはまる。 S(T1,F1)=S(T2,F2)であれば、 S'(T1,F1)=S'(T2,F2) (1) さらにエネルギーレベルに関する成分の順序はそのままとされる。つまり、 S(T1,F1)<S(T2,F2)であれば、 S'(T1,F1)≦S'(T2,F2) (2) この単調条件は修正されたスペクトルS'へのスペクトルSの雑音低減に際し少
なくとも質的な面でスペクトルの構造を保全する。
【0034】 雑音低減は適合条件(1)の結果として、本来の各レベルEにもともとレベル
Eを有するスペクトル成分がそこに引き下げ(または引き上げ)られる修正され
たレベルE0=R(E)を割当てる適合関数R(E)によって完全に記述するこ
とができる。適合関数は単調条件(2)により単調であり、つまりE1<E2であ
ればR(E1)≦R(E2)である。本発明によりこうしたスペクトルの適合化は
割当てられたエネルギー分布関数にP0(E0)=P(E)が当てはまるように
して行われる。したがって適合関数R(E)は当該の信号のエネルギー分布関数
P2を前置関数P0と比較することにより一義的に決定されている。エネルギー
分布関数P,P0は同じく単調非減少関数であることから、これから前置関数P
0を逆変換することにより適合関数を正式に求めることができる。
【0035】 表1はそれによって本発明によるスペクトルの適合化が行われるプログラム−
擬似コードの例を示したものである。この場合、適合さるべきスペクトルSはフ
ィールド変数Sに蓄積されており、区間Tmin…Tmaxならびに時間−周波
数−空間のFmin…Fmaxに対して定義されている。スペクトルのエネルギ
ーレベルはエネルギーレベルEminとEmaxとの間の値域の離散値を取り得
る。フィールド変数P0では基準エネルギー分布関数が前置関数として所与であ
る。エネルギー分布関数は前記区間Emin…Emaxに対するフィールドとし
て定義されている。
【0036】
【表1】
【0037】 先ず(マークPS/Sから)当該エネルギー分布関数が求められ、フィールド
変数PSにファイルされる。このためスペクトルの各成分S[T,F]につきレ
ベル値が求められ、割当てられたエネルギーレベルがこのレベル値以上のエネル
ギー分布関数PSの全成分が増分される。この場合incは増分関数と称される
【0038】 次いで(マークRED/Sから)forループで離散値E0の各々につき、こ
のレベルにおいてエネルギー分布関数PS[E0]が前置関数P0[E0]より
小さい限り、以下のステップが実施される:先ずレベル値E0に割当てられたエ
ネルギーレベルE0+dEが決定される。これはこれらのレベルの間隔dEが値
0から出発して―割当てられたレベルPS[E0+dE]におけるエネルギー分
布関数の値が所与のレベル値P0[E0]における前置関数の値に最も接近する
まで―増分される(whileループ)ことによって行われる。このために関数
absが絶対値の算出に使用される。whileループの後に行われる減分ステ
ップdec(dE)は前記条件が実際に該当する値への修正に利用される。かく
てレベル値E0はエネルギーレベルE0+dEに対する修正されたレベルを表わ
すこととなる。続いてレベル間隔dEが正(0より大)であるか否かが吟味され
る;この場合、そのエネルギーレベルがE0とE0+dEとの間の区間に該当す
るスペクトルの全成分S[T,F]がエネルギーレベルE0に設定される。外部
forループの最終終了後、フィールドSは本発明による雑音低減されたスペク
トルS'を含んでいる。
【0039】 図7は本実施例で使用された前置関数P0(E0)、すなわち前記のトレーニ
ング語彙つまり英語の数詞‘zero’〜‘nine’に関するエネルギー分布
関数を示したものである。雑音をまとった発声音声S2につき本発明による雑音
低減は前記の前置関数P0を利用して、図8にスペクトログラムS4として示し
たスペクトルを結果する。図9は当該エネルギー分布関数P4を表わしている。
【0040】 本発明による方法の実施コストを低減するため本来のスペクトルのそれぞれの
レベル領域は―当該スペクトル成分に修正された統一レベルが割当てられるよう
にして―共通処理することが可能である。この修正されたレベルは当該レベル領
域の代表的なレベル値たとえば該レベル領域の平均値または該レベル領域に該当
する全成分のレベルのメジアンに関して前述したようにたとえば適合関数を使用
して決定される。
【0041】 本出願人によって実施された前述した音声認識システムによる第一の音声認識
実験にあたって本発明による方法がテストされ、同時にスペクトル減算法と比較
された。認識さるべき発声音声は異なった雑音バックグラウンド条件下、すなわ
ち80km/h(50mph)および113km/h(70mph)での走行中
に発声された。同実験にあたって音声認識システムが発声音声を誤認識した事象
がカウントされ、その際、代入エラーのみが考慮された。信号が雑音低減なしで
パターン認識に供給されたテストシリーズでは発声音声の30%が誤認識された
。雑音低減方法としてスペクトル減算を使用した場合には誤認識の割合は23.
3%に低下したが、本発明による方法を実施する場合にはエラー率は13.3%
に減少し、したがって公知の方法に比較してエラー率はほぼ半減した。
【0042】 本発明による方法は発声音声スペクトル成分の単調関係を妨げないかもしくは
わずかに妨げるにすぎない重畳雑音の低減に特に適している。この種の雑音に属
するものはたとえば白色雑音、全スペクトルの線形または非線形増幅ないし減衰
ならびに周知のように話者の心理状態たとえばストレスに応じた音声および発音
の変化を記述するさまざまなロンバード効果現象である。
【0043】 図8のスペクトログラムS4には時間枠16の辺りの上側周波数帯に本来の発
声音声(図1)には含まれていず且つ本発明による方法によって除去されなかっ
たアーティファクトが認められる。この種のアーティファクトはほとんどの場合
にたとえば雑音低減に後置されたメディアンフィルタリングによって除去するこ
とができる。
【0044】 本発明による雑音低減方法は処理さるべき信号を雑音が欠如している場合にも
変化させるが、これは前置関数が一般に無雑音発声音声のエネルギー分布関数と
は相違しているからである。これによって場合により無雑音ケースにおいて認識
エラー源が発生することがある。これを回避するため、たとえば音声認識システ
ムのトレーニングを、使用された前置関数にすでに本発明による方法を用いて適
合されたスペクトルを利用して実施することが可能である。トレーニング語彙は
このスペクトルを本来のスペクトルに代えてまたは本来のスペクトルと共に含ん
でいてよい。
【0045】 もう一つの方式は本発明による方法を雑音の存在が―たとえば発声直前の期間
に―確認される場合にのみ使用することである。さもない場合には音声信号は雑
音低減なしで音声認識に供給されることとなる。この方式は雑音の単なる検知の
範囲を超える雑音の評価を不要とする。
【0046】 本発明による方法を単純化した変法では、前置関数の一定数のパラメータのみ
を使用し、これらのパラメータを顧慮して適合化が行われることによってスペク
トルの適合化を著しく単純化することができる。たとえば前置関数の分布の平均
値とばらつきとを使用することができよう。適合化を行うには、同じくエネルギ
ー分布関数の平均値とばらつきが求められ、これらのパラメータと前置関数のパ
ラメータとの比較からスペクトルのエネルギーレベルの線形変換が決定される。
この線形変換の適用によりバックグラウンド雑音の擾乱効果の著しく減少した修
正されたスペクトルが得られる。線形変換の適用では十分でないかぎり、たとえ
ば、エネルギー分布関数と前置関数との相当数のパラメータの比較たとえば高次
の分布モーメントの比較から決定される高次の変換を使用することが可能である
【0047】 本発明による方法は音響信号たとえば音声信号の雑音減少に適しているだけで
なく、一次元または多次元場に表わされた特徴量によって記述することのできる
その他の種類のパターンにも同じく使用することができる。したがって本発明の
適用が可能な領域はたとえば書かれたテキスト等の記号認識、画像の再構成およ
び/または解析等である。
【図面の簡単な説明】
【図1】 騒音のない条件下における発声音声のスペクトログラムを示す図である。
【図2】 図1に示したスペクトログラムのエネルギー分布関数を示す図である。
【図3】 騒音バックグラウンド下の発声音声のスペクトログラムである。
【図4】 騒音バックグラウンド下の発声音声のエネルギー分布関数を示す図である。
【図5】 図3に示したスペクトログラムからスペクトル減算によって生じたスペクトロ
グラムである。
【図6】 図3に示したスペクトログラムからスペクトル減算によって生じたエネルギー
分布関数を示す図である。
【図7】 本発明を適用するための基準分布関数を示す図である。
【図8】 図3に示したスペクトログラムから図7に示した基準分布関数に依拠した本発
明による雑音低減によって生じたスペクトログラムである。
【図9】 図3に示したスペクトログラムから図7に示した基準分布関数に依拠した本発
明による雑音低減によって生じたエネルギー分布関数を示す図である。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成13年11月12日(2001.11.12)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正の内容】
【特許請求の範囲】
───────────────────────────────────────────────────── 【要約の続き】

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 それぞれ一つの信号レベル値をとり、一つの座標領域(T,
    F)に表わすことのできる多数の信号成分を含んだ信号場(S2)における妨害
    雑音を低減するための方法であって、 信号レベルの関数として、可能な信号レベル−パラメータ値(E)の各々に対
    して、パラメータ値(E)よりもその信号レベルが低い信号成分の割合を表わす
    分布関数(P2(E))が信号場(S2)から決定され、 分布関数(P2(E))と前もって決定された基準分布関数(P0(E))と
    の比較に基づいて信号場の信号レベル値が修正され、その際、エネルギーレベル
    に関する信号成分の順序は不変のままであると同時に本来の信号レベルが等しい
    信号成分に同一の修正信号レベルが割当てられ、 一組の基準パターンについて決定された分布関数から得られた関数が基準分布
    関数(P0)として使用されることを特徴とする方法。
  2. 【請求項2】 信号レベル値の修正のため、信号レベルの値領域をいくつか
    のレベル領域に区分することから出発して、各レベル領域につき ―当該レベル領域を代表する第一のレベル(E0)に対して、分布関数(P2)
    と第一のレベル(P0(E0))における基準分布関数の値とを適用して、分布
    関数(P2(E))の値が基準分布関数(P0(E0))の前記値にできるだけ
    接近する第二のレベルがセレクトされ、 ―信号レベルが第一と第二のレベルとの間に該当する信号成分に第一のレベル(
    E0)の値が割当てられる ことを特徴とする請求項1に記載の方法。
  3. 【請求項3】 音響信号の時間依存および/または周波数依存スペクトルと
    して実現された信号場に関して実施されることを特徴とする請求項1または2に
    記載の方法。
JP2001524096A 1999-09-10 2000-08-28 信号場における妨害雑音の低減方法 Pending JP2003509730A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AT1559/99 1999-09-10
AT0155999A AT408286B (de) 1999-09-10 1999-09-10 Verfahren zur unterdrückung von störrauschen in einem signalfeld
PCT/AT2000/000230 WO2001020598A1 (de) 1999-09-10 2000-08-28 Verfahren zur unterdrückung von störrauschen in einem signalfeld

Publications (1)

Publication Number Publication Date
JP2003509730A true JP2003509730A (ja) 2003-03-11

Family

ID=3516023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001524096A Pending JP2003509730A (ja) 1999-09-10 2000-08-28 信号場における妨害雑音の低減方法

Country Status (6)

Country Link
US (1) US20020173276A1 (ja)
EP (1) EP1212751B1 (ja)
JP (1) JP2003509730A (ja)
AT (1) AT408286B (ja)
DE (1) DE50008440D1 (ja)
WO (1) WO2001020598A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6718316B1 (en) * 2000-10-04 2004-04-06 The United States Of America As Represented By The Secretary Of The Navy Neural network noise anomaly recognition system and method
US7492814B1 (en) 2005-06-09 2009-02-17 The U.S. Government As Represented By The Director Of The National Security Agency Method of removing noise and interference from signal using peak picking
US7676046B1 (en) 2005-06-09 2010-03-09 The United States Of America As Represented By The Director Of The National Security Agency Method of removing noise and interference from signal
KR100745977B1 (ko) * 2005-09-26 2007-08-06 삼성전자주식회사 음성 구간 검출 장치 및 방법
CN111344966B (zh) * 2017-11-13 2022-03-22 软银股份有限公司 用于发送器和接收器信道校准的方法及系统
US11176642B2 (en) * 2019-07-09 2021-11-16 GE Precision Healthcare LLC System and method for processing data acquired utilizing multi-energy computed tomography imaging

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4102301A (en) * 1971-03-26 1978-07-25 Imperial Chemical Industries Limited Apparatus for coating plastic film
US3718117A (en) * 1971-04-26 1973-02-27 Armstrong Cork Co Grooved rod coater
US4354449A (en) * 1978-07-03 1982-10-19 The Black Clawson Company Two sided coater
US4490691A (en) * 1980-06-30 1984-12-25 Dolby Ray Milton Compressor-expander circuits and, circuit arrangements for modifying dynamic range, for suppressing mid-frequency modulation effects and for reducing media overload
JPS57165774A (en) * 1981-04-03 1982-10-12 Nec Corp General purpose control device for rate of erroneously issued alarm
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
US5164993A (en) * 1991-11-25 1992-11-17 Eastman Kodak Company Method and apparatus for automatic tonescale generation in digital radiographic images
JP3444449B2 (ja) * 1994-12-26 2003-09-08 ソニー株式会社 映像信号処理装置

Also Published As

Publication number Publication date
AT408286B (de) 2001-10-25
EP1212751B1 (de) 2004-10-27
ATA155999A (de) 2001-02-15
EP1212751A1 (de) 2002-06-12
DE50008440D1 (de) 2004-12-02
WO2001020598A1 (de) 2001-03-22
US20020173276A1 (en) 2002-11-21

Similar Documents

Publication Publication Date Title
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
JP4440937B2 (ja) 暗騒音存在時の音声を改善するための方法および装置
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE602004001694T2 (de) Vorrichtung zur Unterdrückung von Windgeräuschen
Ghanbari et al. A new approach for speech enhancement based on the adaptive thresholding of the wavelet packets
US7620546B2 (en) Isolating speech signals utilizing neural networks
US20020049587A1 (en) Speech recognition method, storage medium storing speech recognition program, and speech recognition apparatus
US7596495B2 (en) Current noise spectrum estimation method and apparatus with correlation between previous noise and current noise signal
JP2002513479A (ja) ノイズを含む音声信号内のノイズモデルを探索する方法
KR101402805B1 (ko) 음성분석장치, 음성합성장치, 및 음성분석합성시스템
Hansen et al. Stress compensation and noise reduction algorithms for robust speech recognition
JP2003509730A (ja) 信号場における妨害雑音の低減方法
Prasad et al. Speech features extraction techniques for robust emotional speech analysis/recognition
Chi et al. Lombard effect compensation and noise suppression for noisy Lombard speech recognition
JP3587966B2 (ja) 音声認識方法、装置そよびその記憶媒体
US20170323656A1 (en) Signal processor
CN109741761B (zh) 声音处理方法和装置
Milner et al. Comparison of some noise-compensation methods for speech recognition in adverse environments
JP4276781B2 (ja) 音声信号処理方法および音声信号処理装置
JP2006505814A (ja) コードブックによるスペクトグラムの復元
Macho et al. SNR-dependent waveform processing for improving the robustness of ASR front-end
JP2002244695A (ja) 音声スペクトル改善方法、音声スペクトル改善装置、音声スペクトル改善プログラム、プログラムを記憶した記憶媒体
Wada et al. Direct control on modulation spectrum for noise-robust speech recognition and spectral subtraction
CN111383652B (zh) 一种基于双层字典学习的单通道语音增强方法
Upadhyay et al. Auditory driven subband speech enhancement for automatic recognition of noisy speech