JPH1074099A

JPH1074099A - 連続する入力音声フレームの観測されたシーケンスによって構成される音声信号を等化するための方法および装置

Info

Publication number: JPH1074099A
Application number: JP9115442A
Authority: JP
Inventors: Chafic Mokbel; シャフィ・モクベル; Denis Jouvet; ドゥニ・ジュベ; Jean Monne; ジャン・モネ
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 1996-05-06
Filing date: 1997-05-06
Publication date: 1998-03-17
Anticipated expiration: 2017-05-06
Also published as: US5864806A; EP0806760A1; EP0806760B1; JP3919287B2; DE69705891T2; FR2748342B1; FR2748342A1; DE69705891D1

Abstract

(57)【要約】【課題】連続する入力音声フレームの観測されたシー
ケンスによって構成される、外乱によって影響を受けや
すい音声信号を等化する。【解決手段】音声信号は隠れマルコフモデルによって
モデル化され、各瞬間ｔにおいて、等化フィルタは瞬間
ｔにおいてマルコフ概念における経路に関連して構成さ
れ、少なくとも前記複数個の等化フィルタはフレームに
与えられて、瞬間ｔにおいて複数個のフィルタ処理され
た音声フレームシーケンスおよび与えられた等化フィル
タにそれぞれ関連して各経路に対する発声確率を得る。
マルコフ概念において最も可能性のある経路に対応する
等化フィルタが選択される。選択された等化フィルタに
よって与えられるフィルタ処理されたフレームが等化フ
レームとして選択される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は信号の統計的モデル
を実行することにより、音声信号の等化フィルタ処理の
ための方法および装置に関する。

【０００２】以降において、「等化」の用語は「外乱の
減衰」に対して同期する広い意味で用いられている。

【０００３】より特定的に、フィルタ処理するための本
発明の方法および装置は、外乱を受けやすいデジタル音
声信号、および処理するべき信号または「クリーンな」
信号を構成する信号に適用され、これはクリーンな信号
の隠れマルコフモデル（ＨＭＭ）、または等化外乱によ
るフィルタ処理のための関数とともに、実際のデータか
ら推定されるクリーンな信号のモデルの近似を行なうこ
とにより実施する。

【０００４】本発明の方法および装置は、特に切換電話
網（ＳＴＮ）または移動通信のための広域システム（Ｇ
ＳＭ）において、電話網による自動音声認識（ＡＳＲ）
の方法を向上させるために適用できる。本発明の別の応
用は、音声信号からノイズを取除くことにある。

【０００５】

【従来技術】ＡＳＲシステムにおいて、「ハンドフリ
ー」の電話、コンピュータ、データ端末などの音声制御
のために認識が局所的に行なわれる場合、付加的ノイズ
によって導入された外乱を減らす技術が求められる。こ
れらの技術は、特に、スペクトル減算によるフィルタ処
理、アンテナフィルタ処理、マルコフモデル状態フィル
タ処理、または基準モデルに対する部屋のノイズが加わ
るインラインを含む。

【０００６】マルコフ状態フィルタ処理は、音声のマル
コフモデルおよびある瞬間ｔにおけるシステムの最も可
能性のある状態を既知として、スペクトル減算フィルタ
（ウィーナフィルタ）を適用することを含む。クリーン
な信号のモデルはマルコフモデルの状態によって与えら
れ、ノイズモデルはノイズが取除かれるべきワードの前
にある無音から推定される。

【０００７】集中認識のため、既知の技術の目的は、十
分に広い水平線にわたって推定されるケプストラムベク
トルからＤＣ成分を減算することにより、電話回線の影
響を減らすことである。ウィンドウに分けられるデジタ
ル電話信号では、「水平」の表示は連続するウィンドウ
の所与の整数を示す。この種のアプローチのより詳細な
説明として、Ｃ．モクベル（Mokbel）、Ｊ．モネ（Monn
e ）、およびＤ．ジュベ（Jouvet）による「電話回線状
態の変化に対する音声レコグナイザのオンライン適
合」、ユーロスピーチ（Eurospeech）、ページ１２４７
−１２５０、ベルリン１９９３年が参照できる。十分に
広い水平線では、ケプストラムベクトルの平均値は電話
回線の影響を表わすことが観測され、この観測はチャネ
ル特性がゆっくりと変わる場合に特に当てはまる。

【０００８】一般に、ノイズを取除くまたは等化するた
めのシステムは、クリーンな信号の特性およびノイズま
たは外乱の特性を知った上で行なわれる。残念ながら、
クリーンシステムのモデルまたはそのパラメータが未知
であるのならシステムはより複雑となる。

【０００９】たとえば、クリーンな音声のセグメント
が、パラメータが未知である自己回帰システムの出力で
あるとされるのなら、ノイズを取除くために「推定−最
大化」（ＥＭ）型方法を用いて、自己回帰モデルのパラ
メータの推定値を得る、および外乱をフィルタ処理によ
りなくす（たとえば、Ｇ．セリュ（Celeux）およびＪ．
ディボル（Diebolt ）による「ＥＭアルゴリズムのシミ
ュレートされたアニール型バージョン」（Une version
de type recuit simule de l'algorithme EM）、Rappor
ts de Recherche No. 1123, Programme 5, INRIA, １９
８９年１１月参照）。

【００１０】さらに、等化を行なうイコライザの係数を
適用するための基準を決定するために、デジタル信号に
特有の統計に基づくブラインド等化を用いることができ
る。特に、文献ＦＲ−Ａ−２７２２６３１はデジタ
ル電話信号のブラインド等化を用いる適応型フィルタ方
法およびシステム、ならびに電話伝送および／またはＡ
ＳＲへの応用を記載している。この文献に記載されてい
る方法では、音声信号に関連する一般的統計および電話
チャネルは、ほとんど一定である畳み込み効果を有する
という仮定に基づいている。

【００１１】このようなアプローチは、クリーンな信号
について単純な仮定、すなわち自己回帰するおよび／ま
たはガウス型である、および／または安定していると仮
定できるのなら満足のいく結果を得ることができるが、
これは常に可能ではない。

【００１２】最近の他の研究としては、音声信号の外乱
および／または変わりやすさを減じるために統計的語彙
モデルを用いて、それにより認識をより強固（ロバス
ト）なものにすることが行なわれている。

【００１３】上記のすべては、音声フレームに同期する
ような態様でインラインアプリケーションを提供するこ
とができないという欠点を持っている。提案される方法
は認識される信号が終わるまで待ち、その後ノイズ取出
しまたは等化の後の信号を識別する前にバイアスを推定
するために反復を行なう。さらに、減算するべきバイア
スの推定量はマルコフモデルの最良の経路において「推
定−最大化」方法において直接または間接的に従属し、
マルコフ概念における経路またはアライメントは、モデ
ルの確率密度が対応する、音声フレームの流れと状態
（または遷移）の流れとの組合せである。この従属性は
最初の観測が大きな外乱を受けているのならその処理法
を偏らせる危険がある。なぜなら、このような外乱は誤
ったアライメントを生成し得るからである。

【００１４】本発明が提案するアプローチは上記のアプ
ローチと根本的に異なり、より普遍的であり、音声フレ
ームと同期するという点で上記の欠点を補う。

【００１５】このために、本発明は連続する入力音声フ
レームの観測されたシーケンスからなる音声信号を等化
するための方法を提供する。音声信号は外乱によって影
響を受けやすく、この方法では音声信号はＨＭＭによっ
てモデル化される。この方法は各瞬間ｔにおいて以下の
点で特徴付けられる。

【００１６】・複数個のより前の音声フレームに基づい
て、かつマルコフモデルの複数個のパラメータに基づい
て、等化フィルタは瞬間ｔでマルコフ概念における経路
と関連して構成される。

【００１７】・少なくとも前記複数個の等化フィルタが
与えられて、瞬間ｔにおいて複数個のフィルタ処理され
た音声フレームシーケンスおよび与えられた等化フィル
タにそれぞれ関連する各経路に対する発声確率を得る。

【００１８】・マルコフ概念において最も確率が高い経
路すなわち、対応する与えられた等化フィルタによって
フィルタ処理された音声フレームのシーケンスに対して
最も高い発声確率を有する経路、に対応する等化フィル
タが選択されるまたは「保持」される。

【００１９】・保持された等化フィルタによって与えら
れるフィルタ処理されたフレームは、等化されたフレー
ムとして保持される。

【００２０】本発明はさらに上記の方法を実現する等化
装置を提供する。この装置は外乱によって影響を受けた
音声信号を入力に受取り、減じられた外乱を有する音声
信号を出力から送る等化フィルタモジュールを含む。

【００２１】本発明の他の特徴および利点は、以下の記
載を読みかつ添付されている図面を見ることにより明ら
かとなる。

【００２２】

【発明の実施の形態】以下の記載では、入力音声フレー
ムと呼ばれる連続する音声フレームの観測されたシーケ
ンスｘ ₁、…、ｘ _t、…、ｘ _Tfによって構成される音声
信号が対象となる。ｘ ₁の添数の１は予め定められた最
初の観測瞬間を表わし、ｘ _tの添字ｔは現在の瞬間を表
わし、ｘ _Tfの添字Ｔｆは観測されたシーケンスの最後の
瞬間を表わす。この音声信号は外乱によって影響を受け
やすい。

【００２３】この音声信号は、パラメータが既知である
または学習サンプルに基づいて推定できる１つ以上の混
合によって生成されると仮定する。したがって、信号は
λと書かれるＨＭＭを実現すると見られる。所与の瞬間
において、観測はマルコフオートマトンに関連する混合
の一成分によって生成される。しかし、信号を観測して
もこの成分が何であるのか、または対応する混合は何で
あるのか知ることはできない。観測は不完全であると言
われる。既知であるのは、混合のパラメータ、マルコフ
オートマトンのパラメータ、および観測された信号に影
響する外乱の性質のみである。

【００２４】ＨＭＭは当業者、特にＡＳＲの分野の人に
とって周知である。この議題については、Ｌ．ラビナー
（Rabiner ）およびＢ．Ｈ．ジュアン（Juang ）による
「音声認識の基本」、プレンティスホールシグナルプロ
セシングシリーズ、Ａ．Ｖ．オッペンハイムシリーズ編
集、１９９３年、またはＤ．ジュベの博士論文「統計的
方法による接続語のスピーカ別認識」（Reconnaissance
de mots connectes independamment du locuteur par
des methodes satistiques）E.N.S T., １９８８年を参
照することができる。

【００２５】前述のように、ＨＭＭは特定の数のパラメ
ータによって定義されるマルコフオートマトンによって
構成される。そのパラメータとは、その状態または遷移
ｑ₁、…、ｑ_N（Ｎはモデルの状態の数である）、これ
らの状態間の遷移、および所与の状態（または所与の遷
移）にある観測ベクトルの発声密度である。したがっ
て、３つのパラメータの組がＨＭＭ λを記述する。

【００２６】・状態ｑ_iが最初の瞬間ｔ₀で占める確率
の組。π（ｑ_i）と書かれる。・状態ｑ_iから状態ｑ_jへの遷移の確率の組。ａ_qi,qj
と書かれ、かつ時間と独立していると仮定される。

【００２７】・所与の状態ｑ_iにある観測ベクトルｘに
対する発声確率の組。ｂ_qi（ｘ）と書かれ、これらの確
率は平均ベクトルｍ _qiおよび共分散行列Ｒ _qiを有する、
ガウス確率関係に従うとする。

【００２８】この場合、発声確率はマルコフオートマト
ンの状態に関連する。しかし、これらは遷移と等しく関
連付けることができる。これは本発明の本質的特性をど
のようにも変えない。

【００２９】表記として、λ＝（π，ａ，ｂ，）が用い
られる。このモデルにおいて、および上記で述べたよう
に、マルコフ概念における長さｔの経路は、モデルの確
率密度が対応する、ｔ個のフレームの流れおよびｔ個の
状態の流れの組合せである。より簡単にするためには、
経路はｔ個の状態または遷移の流れｓのｑ₁，…，ｑ_t
であるとする。表記としてｓ＝［ｑ₁，…，ｑ_t］が用
いられる。

【００３０】観測された信号の外乱は等化関数を各フレ
ームｘ _tに与えることにより減じられ、その関数は等化
フィルタまたはイコライザと関連する。

【００３１】本発明の方法において、各瞬間ｔにおい
て、以下で詳細に説明するように、瞬間ｔにおいてマル
コフオートマトンにある経路に関連してイコライザが構
成される。したがって、オートマトンにおける経路また
はアライメントの変動は所与の瞬間における観測された
信号だけでなく、経路で運ばれるイコライザの状態に依
存し、前記イコライザは各瞬間において観測されたフレ
ームに与えられる。

【００３２】表記Ｆθ（ｓ）（θ（ｓ）は下つき）
（・）は経路ｓによって運ばれるイコライザと関連する
関数を指示するために以下で用いられる。これはベクト
ルθ（ｓ）によってパラメータ化される。

【００３３】所与の瞬間ｔにおいて、所与の経路ｓに対
して、かつＨＭＭ λのパラメータが既知として、等化
関数の最良のパラメータベクトルの推定値が求められ
る。この最良パラメータベクトルは以下のように書かれ
る。

【００３４】

【数１０】

【００３５】モデルλが既知でありかつ最尤度法を適用
することにより、このベクトルは経路ｓによって運ばれ
るイコライザによってフィルタ処理された入力音声フレ
ームシーケンスである以下の音声フレームシーケンスに
対する最大発声確率を有するパラメータベクトルによっ
て推定される。

【００３６】

【数１１】

【００３７】マルコフモデルのパラメータに対して前述
の定義が与えられると以下が得られる。

【００３８】

【数１２】

【００３９】ｔ₀は所定の最初の瞬間である。

【００４０】ｍ _qτ（τは下つき）およびＲ _qτ（τは
下つき）は状態または遷移ｑτ（τは下つき）で発声さ
れるベクトルｘτ（τは下つき）の確率関係に関連す
る、平均を表わすベクトルおよび共分散行列である。

【００４１】（・）^Tは転置された行列を示す。（・）
^-1は逆行列を示す。

【００４２】表記のｑ（τ−１）＝ｑτ（τは下つき）
_-1はより明確にするために用いられている。

【００４３】ｐは観測空間の次元である。

【００４４】

【数１３】

【００４５】は最初の状態ｑ_t0を占める確率を表わし、
さらにＪ（ｘτ（τは下つき））はヤコビ行列であり、
ｋおよびｌが整数である、ｋ番目の行およびｌ番目の列
にある要素が、ベクトルＦθ（ｓ）（ｘτ）（左におい
てθ（ｓ）およびτは下つき）のｌ番目の要素に対して
ベクトルｘτ（τは下つき）のｋ番目の要素の導関数で
ある。

【００４６】対数関数が厳密に増加する関数であるとし
たら、

【００４７】

【数１４】

【００４８】この式を最小化することはθに相対して微
分することであり、その導関数がゼロであるθの値を求
めることになる。関数ｆθ（ｓ）（θ（ｓ）は下つき）
（・）はθ（ｓ）に相対して微分できるものとする。導
関数がゼロであるという条件とともに微分することによ
り、以下の式（２）が得られる。

【００４９】

【数１５】

【００５０】式（２）は関数ｆθ（ｓ）（θ（ｓ）は下
つき）（・）を有しかつ経路ｓによって運ばれるイコラ
イザのパラメータを推定するのを可能にする。唯一の仮
定は、等化関数が微分であるということがわかる。もた
らされる式は特に外乱の性質と無関係に、かつ観測され
たシーケンスｘ ₁，…，ｘ _tの性質と無関係に、イコラ
イザを完全に決定するのを可能にする。

【００５１】本発明の等化方法は２つの基本的なモード
で行なうことができる。すなわち、フィルタ処理に適用
することができ、かつロバスト認識に用いることができ
る。

【００５２】最初のモード、すなわちフィルタ処理にお
いて、所与の瞬間での等化のフレームを生成するため
に、最も可能性のある経路によって運ばれるイコライザ
のみが考慮される。

【００５３】したがって、音声フレームｘ _t+1に影響を
与える外乱をフィルタ処理するために、以下の関数を有
するイコライザのみが与えられる。

【００５４】

【数１６】

【００５５】第２のモード、すなわちロバスト認識で
は、発声された言葉の終了を待って、認識される言葉は
ＨＭＭにおける最も可能性のある経路から識別され、種
々の経路におけるイコライザは音声復号化の間、すなわ
ち新しい観測値の到着を備えて経路または整列に沿って
進行している間、動作中である。

【００５６】したがって、ロバスト認識において、音声
フレームｘ _t+1（事前フィルタ処理）または音声フレー
ムｘ _t（事後フィルタ処理）に影響を与える外乱をフィ
ルタ処理するために、マルコフオートマトンの各経路ｓ
に対して以下の関数を有してイコライザが与えられる。

【００５７】

【数１７】

【００５８】連続する入力音声フレームの観測されたシ
ーケンスの最後の瞬間Ｔ_fにおいて認識の決定がとられ
る。すなわち、瞬間Ｔ_fでの最も可能性のある経路は以
下を満足させる経路として選択される。

【００５９】

【数１８】

【００６０】理論において、式（３）は最初の瞬間か
ら、モデルのすべての経路に対して各瞬間ｔにおいて確
率が計算されることを必要とする。対応する実行は非常
に複雑となり、さらに等化関数が複雑であるのなら演算
時間もかかってしまう。

【００６１】実際には、この障害を避けるために、演算
は適応型プロシージャを実現することによって減らされ
る。これは、経路によって運ばれるイコライザに対し
て、ｉが１からｔの範囲の整数である以下の最良のパラ
メータベクトル

【００６２】

【数１９】

【００６３】を推定するために、経路ｓの最初のｉ点の
みを考慮に入れる。

【００６４】したがって、最初の実現モードでは、最も
可能性があるとして選択される経路は以下の近似式を満
たす経路である。

【００６５】

【数２０】

【００６６】同様に、第２の実現モードにおいて、最も
可能性のある経路として選択されるのは以下の近似式を
満たす経路である。

【００６７】

【数２１】

【００６８】この構成は種々の経路によって運ばれるイ
コライザのパラメータを推定するための関数を変更しな
いことは明らかである。しかし、その確率の関数とし
て、経路の順序付けに影響を与え得る。この近似の影響
を減じながら妥当な計算量を保つためには、最新のｍ個
のフレームについての確率を調整することができる。こ
こでｍは所定の整数である。このような調整は計算量を
増加させないと示すことができる。

【００６９】演算量を減らす同じ目的のために、実際に
はさらに他の近似を行なう。もし、各瞬間ｔにおいてＮ
状態のＨＭＭにおいてすべての可能な経路に対してフィ
ルタをストアする必要があるのなら、Ｎ^Tf個のフィルタ
となる。これは実際には不可能である。最もよい経路を
Ｋ個しか保つことができない。ここでＫは所定の整数で
ある。ビタビアルゴリズムを用いるＡＳＲシステムに関
連する特定の実施例では、所与の状態をもたらす最良の
経路のみが各瞬間で保持され、その結果、フィルタの数
はＮ個に減らされ、ここでＮは上記の指定された状態の
数である。

【００７０】さらに演算量を減らす目的のために、パラ
メータベクトルθ（ｓ）の量を限定することができる。
さらに、等化関数を音素のようなそれぞれの共通の音単
位に関連するグループにまとめることができる。

【００７１】受ける外乱は畳み込み、および／または加
法的性質を持ち得る。付加的外乱の例としては、音声に
エンジンのノイズまたはクラクションのノイズを含むこ
とが挙げられる。これは、運転手が車の中から電話をか
けている場合、または歩行者が道路交通のある環境、ま
たは一般的に騒音のある環境で電話をかけている場合に
起こり得る。

【００７２】さらに、時間を経てもあまり変化しない外
乱がある。この場合、忘却係数を推定値に含めることが
できる。

【００７３】外乱はさらにバイアスを中心に変動する一
定のバイアスを含み得る。本発明の方法によって実現さ
れる２種類の等化関数の種類を以下に記載する。これら
２つの特定の等化関数はそれぞれ外乱の２つの基本的な
種類に与えられる。

【００７４】最初の等化関数はバイアスを音声フレーム
から減算する。この関数では、伝達チャネルによる大き
な畳み込みの影響およびスピーカの影響があり、減じら
れるべきであると仮定する。

【００７５】第２の等化関数は多重線形回帰を用いる純
化された関数である。これは大量の付加的ノイズからな
る外乱に有利に適用できる。

【００７６】第１の等化関数、すなわちバイアスを抑制
する場合、イコライザパラメータを推定するための一般
的式（２）から、イコライザは各経路に対して以下の関
数を有することがわかる。

【００７７】

【数２２】

【００７８】この場合、式（２）において、和の第２項
は消える。

【００７９】（ここでは示されていない）中間の計算に
よって上記の推定式（４）を以下のように解釈すること
ができる。所与の経路のバイアスは経路の対応する平均
値のベクトル間の差異の和であり、その差異は平均値に
ついて分散の逆射によって重み付けられ（分散が大きけ
れば大きいほど、和における差の重み付けは減る）、和
は考慮されている経路の分散の逆射の和によって重み付
られる（推定されるバイアスは従って音声ベクトルの次
元を有する）。

【００８０】第２の等化関数、すなわち重線形回帰を用
いる場合、イコライザのパラメータを推定するための一
般式（２）から、外乱は各経路に対して以下の純化関数
を有するイコライザによって多重線形回帰によってフィ
ルタ処理されることが示される。

【００８１】

【数２３】

【００８２】ここでθ＝（Ａ，ｂ）であり、Ａは正方行
列であり、ｂは列ベクトルである。

【００８３】特定の実施例では、行列Ａは対角行列であ
る。回帰は平均値のベクトルおよび考慮されている経路
に沿った重み付けられた音声フレームのベクトルの比で
あることが示される。

【００８４】本発明の装置の種々の特定の実施例を以下
に記載する。上記で記載した方法を実現する等化装置は
等化フィルタリングモジュールを含む。このモジュール
は外乱によって影響を受けた音声信号を受取る入力を有
し、前記信号に対して上記の方法に従ってフィルタ動作
を施し、外乱が減じられた出力音声信号を送る。

【００８５】音声フレームｘ ₁，…，ｘ _t，…，ｘ _Tfは
信号に含まれる最も関連する可能な情報を表わすよう選
択される。

【００８６】ＡＳＲのアプリケーションでは、ケプスト
ラムベクトルは適切な音声フレームの非限定例をなす。
一般には、最初の１０個ほどのケプストラム係数のみが
考慮される。かなり満足のいく態様で音域のインパルス
応答をモデル化し、認識のために適する情報を運ぶ。さ
らに、これらの係数は入力信号のエネルギに対して不感
応であり、ＡＳＲにおいての品質基準をなす。

【００８７】ケプストラムベクトルは部分的に重なる時
間ウィンドウの音声信号から計算することができる。ウ
ィンドウは固定時間長、たとえば１０ｍｓから４０ｍｓ
の範囲にあってもよい。

【００８８】ＡＳＲのアプリケーションにおいて、図１
は等化フィルタリングモジュールに含まれるケプストラ
ム演算のためのモジュール１の特定の実施例を示す。

【００８９】ＡＳＲシステムの入力において、従来のデ
ジタル化モジュール（図示されていない）はアナログ音
声信号をデジタル音声信号ｓ（ｎ）に変換する。信号ｓ
（ｎ）はモジュール１の入力に与えられる。

【００９０】入力において、モジュール１はモジュール
１０を有する。モジュール１０は音声信号のスペクトル
エネルギを演算する。モジュール１０は信号のスペクト
ルを出力する高速フーリエ変換モジュール１２を有す
る。

【００９１】モジュール１２の出力はフィルタバンク１
４の入力に接続される。フィルタバンク１４はスペクト
ル包絡線推定のためにスペクトルを平滑化する。フィル
タバンク１４の臨界帯域は非線形スケール、メルスケー
ル、またはバークスケールで分布され、それによって高
い周波数より低い周波数においてより大きなベクトル分
解を与える。したがって、人間の聴覚系にもっと整合す
る。聴覚システムは高い周波数より低い周波数において
より高い分解で分析することが示されている。典型的に
は、フィルタバンク１４は２４個の周波数帯を有する。

【００９２】信号の各ウィンドウに対して、フィルタバ
ンク１４からの出力は平滑化されたベクトルＳ（ｆ）を
なす、２４個の周波数域におけるスペクトルエネルギに
よって構成されるベクトルを与える。

【００９３】スペクトルエネルギを演算するためのモジ
ュール１０の出力でもある、フィルタバンク１４の出力
は、モジュール１６の入力に接続されて、音声信号のス
ペクトルエネルギの対数を計算する。モジュール１６の
出力はモジュール１８の入力に接続されて逆高速フーリ
エ変換を行ない、この逆フーリエ変換は逆余弦変換によ
って行なわれる。モジュール１８は音声信号ｓ（ｎ）の
ケプストラムＣ（ｎ）を、メル周波数ベースのケプスト
ラム係数（ＭＦＣＣ）として知られているケプストラム
ベクトルの組の形で出力する。

【００９４】本発明の方法および装置はどの信号事前処
理方法および装置にも容易に組合せることができるとい
う利点を有する。

【００９５】本発明の方法および装置を用いて得られる
結果は非常に満足のいくものである。特に、ＡＳＲにお
いて、特定の条件下ではエラーレートを３０％も下げる
ことができる。

【図面の簡単な説明】

【図１】本発明の装置の等化フィルタ文字に含まれる、
特定の実施例における音声信号のケプストラムを演算す
るためのモジュールを示す図である。

【符号の説明】

１ケプストラム演算のためのモジュール１２高速フーリエ変換モジュール１４フィルタバンク１６モジュール１８モジュール

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジャン・モネフランス国、22700 ペロ−ギレ、リュ・サン・ギレ、109

Claims

【特許請求の範囲】

【請求項１】連続する入力音声フレームの観測された
シーケンスによって構成される音声信号を等化するため
の方法であって、前記音声信号は外乱によって影響を受
けやすく、前記方法は隠れマルコフモデルによって前記
音声信号をモデル化する予備的ステップを含み、各瞬間
ｔにおいて、（ａ）複数個の前の音声フレームに基づいて、かつ前
記マルコフモデルの複数個のパラメータに基づいて、瞬
間ｔにおいてマルコフ概念の経路に関連する複数個の等
化フィルタを形成するステップと、（ｂ）前記フレームに対して少なくとも前記複数個の
等化フィルタを与えて、瞬間ｔにおいて、複数個のフィ
ルタ処理された音声フレームシーケンスおよび前記与え
られた等化フィルタにそれぞれ関連する各経路の発声確
率を得るステップと、（ｃ）対応する与えられた等化フィルタによってフィ
ルタ処理された音声フレームのシーケンスに対して最も
高い発声確率を有する経路である、マルコフ概念におい
て最も可能性のある経路に対応する前記等化フィルタの
うちの１つを選択するステップと、（ｄ）前記選択された等化フィルタによって与えられ
るフィルタ処理されたフレームを等化されたフレームと
して選択するステップとを含む、方法。
【請求項２】各音声フレームはベクトルｘ _tによって
表わされ、マルコフ概念において長さｔを有する経路は、ｔ個の状
態または遷移のシーケンスｓ＝｛ｑ₁、…、ｑ_t｝であ
り、経路ｓに関連する前記等化フィルタは、θ（ｓ）が経路
ｓに関連する等化フィルタのパラメータを含むベクトル
である、以下の関数によって定義され、【数１】ステップ（ａ）では、経路ｓに関連する等化フィルタは
以下の関数によって定義され、【数２】この関数のパラメータは各経路ｓに対して以下の式【数３】請求項１に記載の方法。
【請求項３】前記隠れマルコフモデルはλであり、ス
テップ（ｂ）の際に、音声フレームｘ _t+1（事前フィル
タ処理）または音声フレームｘ _t（事後フィルタ処理）
に影響する外乱をフィルタ処理するために、以下の等化
関数を有するフィルタのみを与えるステップを含み、【数４】請求項１に記載の方法。
【請求項４】ロバスト音声認識に与えられ、最も可能
性のある経路は以下を満足させ、【数５】請求項３に記載の方法。
【請求項５】前記最も可能性のある経路は以下の近似
式を満たす前記経路として選択され、【数６】請求項３に記載の方法。
【請求項６】前記最も可能性のある経路は以下の近似
式を満たす前記経路として選択され、【数７】請求項４に記載の方法。
【請求項７】前記等化フィルタは各経路に対して以下
の関数を有し、【数８】請求項１に記載の方法。
【請求項８】前記外乱は線形多重回帰を用いてフィル
タ処理され、このフィルタ処理は各経路に対して、以下
の純化関数を有する等化フィルタによって行なわれ、【数９】ここでθ＝（Ａ，ｂ）、ここでＡは正方行列であり、ｂ
は列ベクトルである、請求項１に記載の方法。
【請求項９】連続する入力音声フレームの観測された
シーケンスによって構成される音声信号を等化するため
の装置であって、音声信号は外乱によって影響を受けや
すく、前記装置は隠れマルコフモデルによって音声信号
をモデル化するための手段と、複数個の前の音声フレームに基づいて、かつ前記マルコ
フモデルの複数個のパラメータに基づいて、瞬間ｔにお
いてマルコフ概念の経路に関連する複数個の等化フィル
タを形成するための手段と、前記フレームに少なくとも前記複数個の等化フィルタを
与えて、瞬間ｔにおいて、複数個のフィルタ処理された
音声フレームシーケンスおよび前記与えられた等化フィ
ルタにそれぞれ関連する各経路に対する発声確率を得る
ための手段と、対応する与えられた等化フィルタによってフィルタ処理
された音声フレームのシーケンスの最も高い発声確率を
有する経路である、マルコフ概念において最も可能性の
ある経路に対応する前記等化フィルタのうちの１つを選
択するための手段と、前記選択された等化フィルタによって与えられるフィル
タ処理されたフレームを等化されたフレームとして選択
するための手段とを含み、前記装置は外乱によって影響を受けた音声信号を入力で
受取り、減じられた外乱を有する音声信号を出力から送
る、装置。