JPH1115491A

JPH1115491A - 環境的に補償されたスピーチ処理方法

Info

Publication number: JPH1115491A
Application number: JP10163354A
Authority: JP
Inventors: Brian S Eberman; エスエイバーマンブライアン; Pedro J Moreno; ジェイモレノーペドロ
Original assignee: Digital Equipment Corp
Current assignee: Digital Equipment Corp
Priority date: 1997-06-16
Filing date: 1998-06-11
Publication date: 1999-01-22
Also published as: DE69831288D1; EP0886263A2; EP0886263B1; US5924065A; CA2239357A1; DE69831288T2; EP0886263A3

Abstract

(57)【要約】【課題】スピーチ信号が発生されて伝達される音響環
境から導出したデータでデジタルスピーチ信号を補償す
る方法を提供する。【解決手段】スピーチ信号を処理するコンピュータ化
された方法において、クリーンスピーチ信号を表す第１
ベクトルがベクトルコードブックに記憶される。第２ベ
クトルは、ダーティスピーチ信号から決定される。第２
ベクトルからノイズ及び歪パラメータが推定される。第
３ベクトルは、その推定されたノイズ及び歪パラメータ
に基づいて予想される。第３ベクトルを用いて、第１ベ
クトルが修正される。次いで、第３ベクトルを第２ベク
トルに適用し、修正されたベクトルを発生することがで
きる。修正されたベクトルと第１ベクトルとを比較し、
修正されたベクトルに類似する第１ベクトルを識別する
ことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、スピーチ
処理に係り、より詳細には、スピーチ信号が発生されて
伝達される音響環境から導出したデータでデジタル化さ
れたスピーチ信号を補償することに係る。

【０００２】

【従来の技術】来る数年間に、スピーチは、コンピュー
タシステムと対話するための最も使用される入力方式の
１つになることが予想される。キーストローク、マウス
クリック及び目に見える身体の身振りに加えて、スピー
チは、ユーザがコンピュータ化システムと対話する方法
を改善することができる。処理されたスピーチは、我々
が何と言ったかを聞き分けそして我々が誰であるかも見
出すように認識することができる。スピーチ信号は、コ
ンピュータシステムへのアクセスを得そして音声コマン
ド及び情報を用いてシステムを動作するように益々利用
される。

【０００３】スピーチ信号が「クリーン」であって、音
響的に素朴な環境で発生される場合には、良好な結果を
生じるための信号の処理作業は、比較的単純である。し
かしながら、我々は、システムと対話するための種々様
々な異なる環境、例えば、オフィスや、家庭や、道路際
の電話や、或いはこれについてはセルラー電話を携帯で
きるどこの場所でも、スピーチを使用するので、効率的
で健全なスピーチ処理を与えるためには、これらの環境
における音響的な相違を補償することが重要な問題とな
る。

【０００４】一般に、２つの形式の作用がクリーンスピ
ーチを「ダーティ」にさせる。第１の作用は、スピーチ
信号自体の歪である。音響環境は、数えきれないほどの
多数の仕方で音声信号を歪ませる。信号は、予想不能に
遅延され、進まされ、複製されて、エコーを発生し、周
波数及び振幅を変化し、等々である。更に、異なる形式
の電話、マイクロホン及び通信ラインは、更に別の異な
る歪を導入し得る。

【０００５】第２の汚染作用は「ノイズ」である。ノイ
ズは、元々のスピーチの部分ではない付加的な信号がス
ピーチ周波数スペクトルに生じることによるものであ
る。ノイズは、背後で話をしている他の人、オフィスの
装置、自動車、飛行機、風等により導入され得る。通信
チャンネルにおける熱的なノイズもスピーチ信号に付加
され得る。「ダーティ」スピーチを処理する問題は、歪
及びノイズが時間と共に動的に変化することにより更に
複雑になる。

【０００６】一般に、効率的又は健全なスピーチ処理
は、次の段階を含む。第１段階では、デジタル化された
スピーチ信号が時間整列された部分（フレーム）に仕切
られ、この場合、直線的予想係数（ＬＰＣ）「特徴」ベ
クトルにより音響的特徴を一般に表すことができる。第
２段階では、環境的音響データを使用して、ベクトルを
クリーンアップすることができる。即ち、ダーティスピ
ーチ信号を表すベクトルに処理を適用し、相当量のノイ
ズ及び歪が除去される。クリーンアップされたベクトル
は、統計学的な比較方法を使用して、クリーンな環境で
発生された同様にスピーチに厳密に類持される。次い
で、第３段階では、クリーンな状態にされた特徴ベクト
ルは、スピーチがいかに使用されようとしているかを決
定するスピーチ処理エンジンに送られる。典型的に、こ
の処理は、統計学的モデル又はニューラルネットワーク
を用いてスピーチ信号パターンを分析及び識別すること
に依存する。

【０００７】別の解決策においては、特徴ベクトルがダ
ーティのままにされる。むしろ、スピーチを処理するの
に使用される予め記憶された統計学的モデル又はネット
ワークは、ダーティスピーチの特徴ベクトルの特性に類
似するように変更される。このように、クリーンスピー
チとダーティスピーチとの間、又はそれらの代表的な特
徴ベクトルの間の不一致を減少することができる。

【０００８】データ、即ち特徴ベクトルではなく、プロ
セス（又はスピーチ処理エンジン）それ自体に補償を適
用することにより、最大化がスピーチ信号及び環境パラ
メータの両方に及ぶような一般化された最大見込みの問
題を解決するためのスピーチ分析を構成することができ
る。このような一般化されたプロセスは性能を改善する
が、計算という点で甚だしいものになる傾向がある。従
って、「ダーティ」スピーチ信号のリアルタイム処理を
必要とする公知の用途は、プロセスではなくて信号をコ
ンディショニングする傾向が強く、満足な結果をほとん
ど生じない。

【０００９】補償型のスピーチ処理は、近年益々精巧に
なってきている。初期の処理の幾つかは、ケプストラム
平均正規化（ＣＭＮ）及び相対的スペクトル（ＲＡＳＴ
Ａ）方法を使用している。これら方法は、同じ平均減算
方法の２つの変形をである。従って、その考え方は、到
来するスピーチフレームから、測定されたスピーチの推
定値を減算することである。古典的なＣＭＮは、測定さ
れた全てのスピーチを表す平均値を各スピーチフレーム
から減算するが、ＲＡＳＴＡは、平均値の「遅れ」推定
値を各フレームから減算する。ＣＭＮ及びＲＡＳＴＡの
両方の方法は、チャンネル特性の相違を直接的に補償
し、改善された性能を生じる。両方の方法は、比較的簡
単な実施手段を使用するので、多くのスピーチ処理シス
テムに頻繁に使用される。

【００１０】第２の種類の効率的な補償方法は、ステレ
オ記録に依存している。一方の記録は、スピーチ処理シ
ステムが既にトレーニングされたところの高性能マイク
ロホンで行われ、他方の記録は、システムに適応される
べきターゲットマイクロホンで行われる。この解決策
は、再トレーニングのためのスピーチ統計情報のブート
ストラップ推定値を与えるように使用できる。クリーン
及びダーティの両スピーチの同時記録をベースとするス
テレオ対方法は、この問題に対して非常に有用である。

【００１１】確率的に最適なフィルタ（ＰＯＦ）方法で
は、ベクトルコードブック（ＶＱ）が使用される。ＶＱ
は、コードワード依存の多次元横断フィルタに組み合わ
されたクリーンスピーチのメル周波数ケプストラム係数
（ＭＦＣＣ）の分布を示す。このフィルタの目的は、時
間的にずらされたスピーチのフレーム間の時間的相関を
得ることである。ＰＯＦは、予想されるスピーチと測定
されたスピーチとの間の最小平方エラー基準の最小化を
使用して各フレーム依存ＶＱフィルタ（マトリクス）及
び各環境のパラメータを「学習」する。

【００１２】ＰＯＦ方法と同様の別の既知の方法である
固定コードワード依存ケプストラム正規化（ＦＣＤＣ
Ｎ）も、クリーンスピーチのケプストラムベクトルの分
布に対するＶＱ表示を使用する。この方法は、同時に記
録されたスピーチに基づいてコードワード依存修正ベク
トルを計算する。この方法は、その効果として、クリー
ンスピーチからダーティスピーチへの変換のモデリング
を必要としない。しかしながら、この効果を得るため
に、ステレオ記録が必要とされる。一般に、これらのス
ピーチ補償方法は、ケプストラムベクトルに対する環境
の作用がステレオ記録を用いて直接的にモデリングされ
るので、環境について何らの仮定も行わない。

【００１３】１つの方法であるコードワード依存ケプス
トラム正規化（ＣＤＣＮ）では、クリーンスピーチ信号
のケプストラムは、各ガウスをその平均及び共変量で表
すことのできるガウス分布の混合体を用いてモデリング
される。ＣＤＣＮ方法は、クリーンスピーチケプストラ
ムの分布に対する環境の作用を分析的にモデリングす
る。この方法の第１段階では、観察されるダーティケプ
ストラムベクトルの見込みを最大にするための環境パラ
メータ（ノイズ及び歪）の値が推定される。第２段階で
は、ダーティスピーチのケプストラムベクトルが与えら
れたときに、クリーンスピーチの観察されないケプスト
ラムベクトルを発見するために、最小平均平方推定（Ｍ
ＭＳＥ）が適用される。

【００１４】この方法は、通常、センテンスごとに即ち
バッチベースで機能し、それ故、環境パラメータを推定
するのに非常に長いスピーチサンプル（例えば、２、３
秒）を必要とする。バッチ処理により待ち時間が導入さ
れるので、この方法は、連続的なスピーチ信号のリアル
タイム処理にはあまり適していない。並列組合せ方法
（ＰＭＣ）は、ＣＤＣＮ方法に使用されたものと同じ環
境モデルを仮定する。ノイズ及びチャンネル歪ベクトル
が完全に分かっていると仮定すれば、この方法は、隠れ
たマルコフモデル（ＨＨＭ）の音響分布の平均ベクトル
及び共変量マトリクスを変換して、ＨＨＭをダーティス
ピーチのケプストラムの理想的な分布に類似させるよう
に試みる。

【００１５】平均ベクトル及び共変量マトリクスを変換
するための多数の種々の技術が知られている。しかしな
がら、ＰＭＣのこれら全ての変形は、ノイズ及びチャン
ネル歪ベクトルを前もって知ることが必要である。推定
は、一般に、異なる近似を用いて前もって行われる。通
常、分離されたノイズのサンプルは、ＰＭＣのパラメー
タを充分に推定することが必要とされる。これらの方法
は、チャンネルの歪が測定されたスピーチ統計情報の平
均に影響し、そして特定の周波数における有効なＳＮＲ
が測定されるスピーチの共変量を制御することを示して
いる。

【００１６】スピーチ補償のためのベクトルテイラー級
数（ＶＳＴ）方法を用いると、このことを利用して、ク
リーンスピーチの統計情報が与えられたときにダーティ
スピーチの統計情報を推定することができる。ＶＴＳ方
法の精度は、テイラー級数近似の上位項のサイズに依存
する。上位項は、スピーチ統計情報の共変量のサイズに
より制御される。ＶＴＳでは、スピーチは、ガウス分布
の混合体を用いてモデリングされる。スピーチを混合体
としてモデリングすることにより、各個々のガウスの共
変量は、スピーチ全体の共変量より小さくなる。ＶＴＳ
が機能するためには、最大化段階を解決するために混合
体のモデルが必要であると示すことができる。これは、
パラメータ推定のための充分な潤沢さの概念に関連して
いる。

【００１７】

【発明が解決しようとする課題】要約すれば、既知の最
良の補償方法は、ガウス分布の混合体におけるクリーン
スピーチ特徴ベクトルの確率密度関数ｐ（ｘ）について
のそれらの表示をベースとする。これらの方法は、バッ
チモードで機能し、即ち処理を行う前に実質的な量の信
号を「聞く」必要がある。これらの方法は、通常、環境
パラメータが決定論的であり、それ故、確率密度関数で
は表されないと仮定する。最後に、これらの方法は、ノ
イズの共変量を推定するための容易な仕方を与えるもの
ではない。これは、常に収斂することが保証されない発
見的な方法により共変量を学習しなければならないこと
を意味する。

【００１８】そこで、クリーンスピーチ信号を自然に表
すことのできるスピーチ処理システムを提供することが
要望される。更に、このシステムは、連続的なスピーチ
を、それが受け取られたときに、不当な遅延を伴うこと
なく処理できるように、フィルタとして機能しなければ
ならない。更に、このフィルタは、クリーンスピーチを
ターンさせる環境パラメータが時間と共にダーティ変化
するときにそれ自身を適応させねばならない。

【００１９】

【課題を解決するための手段】本発明は、その広い形態
において、請求項１に記載するように、歪のないクリー
ンなスピーチ信号を基準として使用することにより、歪
のあるスピーチ信号を処理するためのコンピュータ化さ
れた方法に係る。環境ノイズ及び歪パラメータＱ、Ｈ及
びΣ_nの推定値を使用して連続的なダーティスピーチ信
号を補償するためのコンピュータ化された方法が提供さ
れる。この方法において、クリーンスピーチ信号を表す
第１の特徴ベクトルがベクトルコードブックに記憶され
る。Ｑ、Ｈ及びΣ_nによりパラメータ化されたノイズ及
び歪を含むダーティスピーチ信号に対して第２のベクト
ルが決定される。

【００２０】ノイズ及び歪パラメータは、第２ベクトル
から推定される。推定されたパラメータを使用して、第
３のベクトルが推定される。第３のベクトルは、第２ベ
クトルに適用されて、修正されたベクトルを形成し、こ
の修正されたベクトルを第１ベクトルと統計学的に比較
して、その修正されたベクトルに最も類似する第１ベク
トルを識別することができる。好ましくは、第３のベク
トルは、ベクトルコードブックに記憶することができ
る。比較の間に、特定の修正されたベクトルと、それに
対応する第１ベクトルとの間の距離を決定することがで
きる。この距離は、第１ベクトルが上記修正されたベク
トルに類似する見込みを表す。更に、特定の修正された
ベクトルがそれに対応する第１ベクトルに類似する見込
みが最大にされる。

【００２１】スピーチ認識システムにおいては、修正さ
れたベクトルを使用して、ダーティスピーチの発音内容
を決定し、スピーチ認識を行うことができる。話し手識
別システムにおいては、修正されたベクトルを使用し
て、ダーティスピーチ信号を発する未知の話し手の認識
を決定することができる。本発明の実施形態において
は、ノイズ及び歪パラメータが時間と共にダーティスピ
ーチを変化させるときに、第３ベクトルが動的に適応さ
れる。

【００２２】

【発明の実施の形態】以下、添付図面を参照し、本発明
の好ましい実施形態を詳細に説明する。図１は、本発明
の好ましい実施形態による適応補償型スピーチ処理シス
テム１００の概要を示す。トレーニング段階中に、クリ
ーンスピーチ信号１０１がマイクロホン（図示せず）に
より測定される。以下、クリーンスピーチとは、ノイズ
及び歪のないスピーチを意味する。

【００２３】クリーンスピーチ１０１は、デジタル化さ
れ（１０２）、測定され（１０３）そして統計学的にモ
デリングされる（１０４）。クリーンスピーチ１０１を
表すモデリング統計情報ｐ（ｘ）１０５は、スピーチ処
理エンジン１１０により使用するためにベクトルコード
ブック（ＶＱ）１０６のエントリーとしてメモリに記憶
される。トレーニング後に、システム１００は、ダーテ
ィスピーチ信号を処理するのに使用できる。

【００２４】この段階中に、スピーチ信号ｘ（ｔ）１２
１は、上記トレーニング段階中に使用されたマイクロホ
ンに対して電力スペクトルＱ（・）１２２を有するマイ
クロホンを用いて測定される。実際の使用中に存在する
環境条件により、スピーチｘ（ｔ）１２１は、未知の加
算的な静的ノイズ及び未知の直線的なフィルタ作用、例
えば、歪ｎ（ｔ）１２３によりダーティ状態にされる。
これらの加算的な信号は、電力スペクトルＨ（ω）１２
４をもつフィルタを通過するホワイトノイズとしてモデ
リングすることができる。

【００２５】ノイズ及び歪がここで（１２５）加算され
ること、又は信号ｘ（ｔ）１２５がマイクロホンで測定
される前に加算されることは、構造的に同等であること
に注意されたい。いずれの場合にも、実世界の環境条件
は、ダーティスピーチ信号ｚ（ｔ）１２６を生じさせ
る。ダーティスピーチ信号１２６は、デジタル信号プロ
セッサ（ＤＳＰ）２００により処理される。

【００２６】図２は、ＤＳＰ２００を詳細に示す。ＤＳ
Ｐ２００は、ダーティ信号ｚ（ｔ）１２６の時間整列さ
れた部分を選択し（２１０）、そしてその部分に良く知
られた窓関数、例えば、ハミング窓を乗算する。段階２
３０において、窓処理された部分２２０に高速フーリエ
変換（ＦＦＴ）が適用され、「フレーム」２３１が形成
される。好ましい実施形態では、選択されたデジタル化
部分は、４１０個のサンプルを含み、これに４１０ポイ
ントのハミング窓が適用されて、５１２ポイントのＦＦ
Ｔフレーム２３１が形成される。

【００２７】次いで、段階２４０において、ＦＦＴ結果
の平方の大きさを得ることにより、フレーム２３１に対
する周波数電力スペクトル統計情報が決定される。ＦＦ
Ｔ項の半分は、冗長なものであるから、落とすことがで
き、２５６ポイントの電力スペクトル推定値が残され
る。段階２５０において、スペクトル推定値は、これに
メル周波数の回転マトリクスを乗算することによりメル
周波数ドメインへと回転される。段階２６０は、回転さ
れた推定値の対数をとり、各フレーム２３１に対する特
徴ベクトル表示２６１が得られる。

【００２８】段階２７０の更に別の考えられる処理は、
メル周波数の対数スペクトルに離散的コサイン変換（Ｄ
ＣＴ）を適用してメルケプストラムを決定することを含
む。メル周波数変換は任意であり、これを伴わないＤＣ
Ｔの結果は、単にケプストラムと称する。処理中に、窓
関数は、測定されたダーティ信号ｚ（ｔ）１２６に沿っ
て移動する。ＤＳＰの段階２００は、ハミング窓の各新
たな位置において信号に適用される。その正味の結果
は、特徴ベクトルｚ（ω、Ｔ）１２８のシーケンスであ
る。このベクトル１２８は、図１のエンジン１１０によ
り処理することができる。このベクトル１２８は、ＶＱ
１０７のエントリーと統計学的に比較され、結果１９９
が得られる。

【００２９】ノイズ及びチャンネル歪は、ベクトル１２
８に次のように作用することが示される。ｚ（ω、Ｔ）＝log (exp（Ｑ（ω）＋ｘ（ω、Ｔ））＋ exp（Ｈ（ω）＋ｎ（ω、Ｔ））式１但し、ｘ（ω、Ｔ）は、ノイズ及びチャンネル歪を伴わ
ずに測定された基礎となるクリーンベクトルであり、そ
してｎ（ω、Ｔ）は、ノイズ及び歪のみが存在した場合
の統計情報である。

【００３０】ノイズのない状態では、チャンネルの電力
スペクトルＱ（ω）１２２が、測定信号ｘ（ｔ）１２１
に直線的な歪を発生する。ノイズｎ（ｔ）１２３は、電
力スペクトルドメインにおいて直線的に歪まされるが、
対数スペクトルドメインでは非直線的である。更に、エ
ンジン１１０は、ｘ（ω、Ｔ）の統計学的表示、例え
ば、ＶＱ１０７にアクセスすることに注意されたい。本
発明は、この情報を用いて、ノイズ及び歪を推定する。

【００３１】スピーチ統計情報に対するノイズ及び歪の
作用は、次の一次テイラー級数拡張Ｅ〔ｚ〕＝Ｑ＋Ｅ〔ｘ〕＋ log（１＋１／ｂ）を用いて、クリーンスピーチベクトルの平均値に対して
式１を拡張し、 Σ_z＝diag（ｂ／ｂ＋１))Σ_xdiag（ｂ／ｂ＋１))＋diag（１／ｂ＋１)) Σ_Ndiag（１／ｂ＋１)) 式２を発生することにより、決定することができる。ここ
で、周波数及び時間に対する項の依存性は明瞭化のため
に落としてある。これは、歪の作用が信号対雑音比に依
存し、これは、次のように表すことができる。ｂ＝ exp（Ｑ＋Ｅ〔ｘ〕−Ｈ−Ｅ〔ｎ〕）式３

【００３２】式２及び３は、チャンネルが、測定された
統計学的情報の平均を直線的にシフトし、信号対雑音比
を減少し、そしてノイズの共変量がスピーチの共変量よ
り小さいので測定されたスピーチの共変量を減少するこ
とを示している。この分析に基づき、本発明は、上記し
たＶＴＳ及びＰＭＣの公知方法を独特に結合して、ダー
ティスピーチの動的に変化する環境パラメータに適応す
る補償型スピーチ処理方法を可能にする。

【００３３】本発明は、トレーニングスピーチを環境補
償の目的でベクトルｐ（ｘ）としてそれ自体で自然に表
すことができるという考え方を使用する。従って、全て
のスピーチは、トレーニングスピーチベクトルコードブ
ック（ＶＱ）１０７により表される。加えて、クリーン
なトレーニングスピーチと、実際のダーティスピーチと
の間の差は、予想最大化（ＥＭ）プロセスを用いて決定
される。以下に述べるＥＭプロセスでは、予想段階と最
大化段階が繰り返し実行されて、勾配上昇中に最適な結
果に向かって収斂させる。記憶されたトレーニングスピ
ーチｐ（ｘ）１０５は、数１のように表すことができ
る。

【００３４】

【数１】

【００３５】但し、集合｛Ｖ_i｝は、全ての考えられる
スピーチベクトルに対するコードブックを表し、そして
Ｐ_iは、対応するベクトルによりスピーチが発生された
以前の確率である。

【００３６】この表示は、コードブックのサイズが非常
に大きなものでない限り、スピーチの認識には適当でな
いが、健全なパラメータの推定及び補償のための優れた
表示である。これが真である理由は、健全なスピーチ処
理システムは、ＥＭプロセスを用いて分布から推定でき
るある全体的なパラメータ的統計情報を推定するだけで
よいからである。

【００３７】図３に示すように、補償プロセス３００
は、３つの主たる段階を含む。ＥＭプロセスを用いる第
１段階３１０において、ノイズ及び（チャンネル）歪の
パラメータが決定され、これらパラメータがベクトルコ
ードブック１０７に送られたときに、コードブックは、
変換されたコードブックがダーティスピーチを最良に表
す見込みを最大にする。ＥＭプロセスが収斂した後の第
２段階３２０において、推定された環境パラメータが与
えられると、コードブックベクトル１０７の変換を予想
する。この変換は、１組の修正ベクトルとして表すこと
ができる。

【００３８】第３段階３３０の間に、修正されたベクト
ルが、到来するダーティスピーチの特徴ベクトル１２８
に付与され、それらを、最小平均平方エラー（ＭＭＳ
Ｅ）という意味で、ＶＱ１０７に記憶されたクリーンベ
クトルに類似させる。１つの効果として、本発明の補償
プロセス３００は、処理エンジン１１０とは独立してお
り、即ち補償プロセスは、ダーティ特徴ベクトルに対し
て動作して、ベクトルを修正し、環境におけるノイズ及
び歪により汚染されていないクリーンスピーチから導出
されたベクトルにそれらが密接に類似するようにする。

【００３９】これら段階の細部を詳細に説明する。図４
に示すように、ＥＭ段階は、環境を特定する３つのパラ
メータ｛Ｑ、Ｈ、Σ_n｝を繰り返し決定する。第１段階
４１０は、予想段階である。｛Ｑ、Ｈ、Σ_n｝の現在値
は、コードブック１０７の各ベクトルを、各々式１を用
いて予想された修正ベクトルＶ’_iへとマップするのに
使用される。Ｖ’_i← log (exp（Ｑ＋Ｖ_i）＋ exp（Ｈ））式４ここで、値Ｅ〔ｎ〕は、Ｈの値に吸収されている。ノイ
ズに対するこの関係の第１導関数は、数２の通りであ
る。

【００４０】

【数２】

【００４１】但し、δ（ｉ−ｊ）は、クロンカーデルタ
である。

【００４２】各予想されたコードワードベクトルＶ’_i
は、次いで、数３のように変換される以前のものにより
拡張される（４２０）。

【００４３】

【数３】

【００４４】又、各ダーティスピーチベクトルは、ゼロ
により増大される（４３０）。このように、増大された
ダーティベクトルと、増大されたＶ’_iコードワードを
直接比較することができる。完全に拡張されたベクトル
Ｖ’_iは、数４で表される。

【００４５】

【数４】

【００４６】そして増大されたダーティベクトルは、数
５の式を有する。

【００４７】

【数５】

【００４８】これにより得られる１組の拡張された修正
ベクトルは、次いで、ベクトルコードブックＶＱに記憶
することができる（４４０）。例えば、コードブックの
各エントリーは、音響環境の現在状態を反映する現在関
連する拡張された修正ベクトルを有することができる。
この拡張された修正ベクトルは、コードブックベクトル
と、対応するダーティスピーチベクトル１２８との間の
距離の−１／２倍を、ダーティベクトルｚ_tがコードワ
ードベクトルｖ_iで表される見込みとして使用できると
いう特性を有する。

【００４９】図５は、予想段階５００を詳細に示す。こ
の段階中に、到来するダーティベクトル１２８の１つ
と、（修正された）コードブックベクトルとの間の最良
の一致が決定され、そして最大化段階に必要な統計情報
が累積される。プロセスは、段階５０１において、変数
Ｌ、Ｎ、ｎ、Ｑ、Ａ及びＢを０に初期化することにより
始まる。図５に示すように、各到来ダーティベクトル１
２８について、次の段階が実行される。先ず、段階５０
２において、変換されたベクトルに最も類似する新たな
ベクトルコードブックのエントリーＶＱ（ｚ^e）を決定
する。クリーンベクトルに関連したコードブックの初期
修正ベクトルは、０にすることもできるし、推定するこ
ともできる点に注意されたい。このエントリーへのイン
デックスは、次のように表される。

【００５０】ｊ（ｉ）− arg min〔ｋ〕｜ＶＱ
（ｚ^e _k）、〔ｚ’_t、０〕｜²

【００５１】更に、最良のコードブックベクトルと到来
するベクトルとの間の平方距離（ｄ（ｚ’_i））は、段
階５０３において戻される。この距離、即ち選択された
コードブックベクトルとダーティベクトルとの間の統計
学的な差は、測定されたベクトルの見込みを次のように
決定するのに使用される。ｌ（ｚ_i） ← 1/2 ｄ（ｚ’_i）上記のように、これにより得られる見込みは、測定され
たダーティベクトルが実際にコードブックベクトルによ
り表されるその後の確率であることに注意されたい。次
いで、見込みｌ（ｚ_i）は、Ｌ＝Ｌ＋ｌ（ｚ_i）のよう
に累積され（５０４）、残留するｖ_iが段階５０５にお
いて決定される。段階５０６では、その残留物がガウス
分布でホワイト化される。

【００５２】次いで、残留物と、ノイズに対する第１導
関数との積α←Ｆ（ｊ（ｉ））ｖを計算する（５０
７）。この演算は、Ｆ（ｊ（ｉ））が対角マトリクスで
あるのでポイントごとの乗算を用いて行うことができ
る。これに続いて、平均の比を決定する（５０８）。但
し、ｒ_i＝ｎ／（ｎ＋１）及びｒ₂＝１／（ｎ＋１）で
ある。ここで、ｎは、繰り返し中にそれまで使用された
測定されたベクトルの全数である。段階５０７で決定さ
れた積は、段階５０９で累積される。段階５０９の積と
残留物との間の差は、段階５１０において、次のように
累積される。Ｑｓ ← ｒ_iＱｓ＋ｒ₂（Ｖ^* _i−・）次いで、段階５１１において、ノイズの共変量が推定し
直される。最後に、段階５１２において、変数Ａが次の
ように累積される。

【００５３】Ａ ← ｒ₁Ａ＋ｒ₂（Ｆ₁（ｊ（ｉ）^T
Σ_n ^-1 Ｆ₁（ｊ（ｉ）））そして変数Ｂは、次のようにされる。Ｂ ← ｒ₁Ｂ＋ｒ₂Σ_n ^-1 Ｆ₁（ｊ（ｉ））

【００５４】現在推定繰り返しの累積された変数は、次
いで、最大化段階に使用される。この最大化は、数６の
線型方程式の組を解くことを含む。

【００５５】

【数６】

【００５６】但し、Σ_Q及びΣ_Nは、Ｑ及びＮパラメー
タに指定された以前の共変量を表す。これにより得られ
た値は、次いで、環境パラメータの現在の推定値に加え
られる。ＥＭプロセスが収斂した後に（これは見込みを
監視することにより決定できる）、所望のスピーチ処理
用途に基づいて最終的な２つの段階を行うことができ
る。第１段階は、ＥＭプロセスからの環境の推定パラメ
ータが与えられたときにダーティスピーチの統計学的情
報を予想する。これは、ＥＭプロセスの予想段階と同等
である。第２段階は、その予想された統計学的情報を使
用して、ＭＭＳＥ修正ファクタを推定する。

【００５７】スピーチ認識図６に示すように、環境的に補償されたスピーチを使用
できる第１の用途は、スピーチ認識エンジンである。こ
こでは、何が言われたかを決定することが所望される。
この用途は、平易な古い電話サービス（ＰＯＴＳ）の場
合よりもノイズ及び歪が大きくなる傾向のあるセルラー
電話ネットワークにわたって収集されたスピーチを認識
するのに有用である。又、この用途は、多数の異なる形
式のハードウェアシステム及び通信ラインを用いて全世
界中の環境においてスピーチを発生することのできるワ
ールドワイドウェブにわたって収集されたスピーチに使
用することもできる。

【００５８】図６に示すように、ダーティスピーチ信号
６０１は、デジタル化処理され（６１０）、ダーティ特
徴ベクトルの時間的シーケンス６０２を発生する。各ベ
クトルは、連続スピーチ信号のセグメントに見られる１
組の音響特徴を統計学的に表す。段階６２０において、
ダーティベクトルは、上記のようにクリーンな状態にさ
れ、「クリーン」ベクトル６０３を発生する。即ち、本
発明を使用し、環境がダーティベクトルに及ぼす影響を
取り去る。ここで処理されるべきスピーチ信号は、連続
的であることに注意されたい。スピーチの短いバースト
に対して動作するバッチ式のスピーチ処理とは異なり、
ここでは、補償プロセスは、フィルタとして振る舞う必
要がある。

【００５９】スピーチ認識エンジン６３０は、既知の音
素６０５を表す一連の考えられる統計学的パラメータに
対しクリーンなベクトル６０３を一致させる。この一致
は、音素シーケンスの多数の考えられる仮説を探査する
ビタビデコーダのような最適なサーチアルゴリズムを用
いて効率的に行うことができる。観察されたベクトルの
シーケンスに統計学的な意味で最も近い音素の仮説シー
ケンスが、発音されたスピーチとして選択される。

【００６０】図７に示すように、スピーチ認識について
ここに述べる補償を使用すると、音声分類作業として背
景ノイズに対する健全さが高められる。図７において、
ｙ軸７０１は、正しいスピーチと仮説するときの精度％
を示し、ｘ軸７０２は、相対的なノイズレベル（ＳＮ
Ｒ）を示す。破線の曲線７１０は、補償されないスピー
チ認識の場合であり、そして実線の曲線７２０は、補償
されたスピーチ認識の場合である。明らかなように、オ
フィス環境について典型的である約２５ｄＢより低い全
てのＳＮＲにおいて著しい改善が得られる。

【００６１】話し手の確認図８に示す用途では、話し手が何を話すかとは独立し
て、話し手が誰であるかを決定することが望まれる。こ
こでは、未知の話し手のダーティスピーチ信号８０１が
処理されて、ベクトル８１０が抽出される。このベクト
ル８１０は、補償されて（８２０）、クリーンなベクト
ル８０３を発生する。このベクトル８０３は、既知の話
し手のモデル８０５に対して比較され、識別（ＩＤ）８
０４が発生される。モデル８０５は、トレーニングセッ
ションの間に収集できる。

【００６２】ここでも、上記と同様に、予想最大化段階
で推定された環境パラメータの値が与えられたときに、
ノイズのあるスピーチの統計学的情報が最初に予想され
る。次いで、その予想された統計学的情報が最終的な統
計学的情報へとマップされ、スピーチに対して必要な処
理が行われる。多数の考えられる技術を使用することが
できる。１つの技術においては、予想される統計学的情
報に対して平均値及び共変量が決定される。次いで、特
定の話し手により任意の発音が発せられた見込みを、演
算高調波球状度（ＡＨＳ）又は最大見込み（ＭＬ）距離
として測定することができる。

【００６３】別の考えられる技術は、ＥＭプロセスによ
り決定された見込みを使用する。この場合には、ＥＭプ
ロセスの収斂後に、それ以上の計算は不要である。図９
に示すように、ＥＭプロセスは、ＭＬ距離を使用するよ
りも良好な結果を与えることが実験により示唆される。
図９において、ｙ軸９０１は、話し手を正しく識別する
精度％であり、そしてｘ軸は、ＳＮＲの異なるレベルを
示す。曲線９１０は、クリーンスピーチでトレーニング
されたモデルと、ＭＬ距離計測とを使用する補償されな
いスピーチの場合である。曲線９２０は、所与の測定さ
れたＳＮＲにおける補償されたスピーチの場合である。
家庭やオフィスにおいて通常見られるＳＮＲが２５ｄＢ
未満の環境では、著しい改善が得られる。

【００６４】以上、本発明の特定の実施形態を詳細に説
明した。しかしながら、上記実施形態を変更しても、本
発明の効果の幾つか又は全部が達成され得ることは当業
者に明らかであろう。従って、このような変更は、全
て、本発明の範囲内の包含されるものとする。

【図面の簡単な説明】

【図１】本発明の実施形態によるスピーチ処理システム
の流れ線図である。

【図２】連続的なスピーチ信号から特徴ベクトルを抽出
するプロセスを示す流れ線図である。

【図３】推定値最大化プロセスの流れ線図である。

【図４】ベクトルを予想するための流れ線図である。

【図５】ベクトル間の差を決定するための流れ線図であ
る。

【図６】スピーチを認識するプロセスの流れ線図であ
る。

【図７】スピーチ認識方法の精度を比較するグラフであ
る。

【図８】話し手を確認するプロセスの流れ線図である。

【図９】話し手を確認する方法の精度を比較するグラフ
である。

【符号の説明】

１００適応補償型スピーチ処理システム１０１クリーンスピーチ１０２デジタル化１０３測定１０４モデリング１０６ベクトルコードブック１１０スピーチ処理エンジン１２１スピーチ信号１２２電力スペクトル１２３歪１２４電力スペクトル１２６ダーティスピーチ信号２００デジタル信号プロセッサ２３１フレーム

フロントページの続き (72)発明者ペドロジェイモレノーアメリカ合衆国マサチューセッツ州 02139ケンブリッジフランクリンストリート 345−505

Claims

【特許請求の範囲】

【請求項１】歪のある「ダーティ」信号と称するスピ
ーチ信号を処理するためのコンピュータ化された方法で
あって、歪のないスピーチ信号は、「クリーン」スピー
チ信号と称し、上記方法は、クリーンスピーチ信号を表す第１ベクトルをベクトルコ
ードブックに記憶し、ダーティスピーチ信号から第２ベクトルを決定し、第２ベクトルから環境パラメータを推定し、第１ベクトルを修正するために上記推定された環境パラ
メータに基づいて第３ベクトルを予想し、第３ベクトルを第２ベクトルに適用して、修正されたベ
クトルを発生し、そして上記修正されたベクトルと第１
ベクトルとを比較して、上記修正されたベクトルに類似
した第１ベクトルを識別する、という段階を備えたこと
を特徴とする方法。
【請求項２】特定の修正されたベクトルと、それに対
応する第１ベクトルとの間の距離を決定し、この距離
は、第１ベクトルが上記修正されたベクトルに類似する
見込みを表し、更に、特定の修正されたベクトルがそれ
に対応する第１ベクトルに類似する見込みを最大にする
段階を含む請求項１に記載の方法。
【請求項３】上記比較段階は、統計学的な比較を使用
し、この統計学的な比較は、最小平均平方エラーに基づ
く請求項１に記載の方法。
【請求項４】上記第１ベクトルは、クリーンスピーチ
の音素を表し、上記比較段階は、スピーチ認識を行うた
めにダーティスピーチの内容を決定する請求項１に記載
の方法。
【請求項５】上記第１ベクトルは、既知の話し手のク
リーンスピーチのモデルを表し、上記比較段階は、ダー
ティスピーチ信号を発生する未知の話し手の認識を決定
する請求項１に記載の方法。