JPH1069290A

JPH1069290A - 音声処理装置

Info

Publication number: JPH1069290A
Application number: JP9117121A
Authority: JP
Inventors: Mustafa Kemal Sonmez; ケマルソンメズムスタファ; Periagaram K Rajasekaran; ケイ．ラジャセカランペリアガラム
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1996-05-07
Filing date: 1997-05-07
Publication date: 1998-03-10
Also published as: EP0806761B1; DE69716159D1; KR19980082408A; EP0806761A3; KR100447558B1; DE69716159T2; US5745872A; EP0806761A2

Abstract

(57)【要約】【課題】環境に対する音声認識の適応化を図る。【解決手段】音声処理装置、基準環境を記述する基準
ベクトル量子化コードブックを発生すると共に、少なく
とも１つの二次環境を記述する少なくとも１つの二次ベ
クトル量子化コードブックを発生するコードブック発生
器２６を含む。二次ベクトル量子化コードブックは、基
準ベクトル量子化コードブックを使って発生される。基
準ベクトル量子化コードブックを使って訓練された音声
認識装置３８も含まれる。前処理モジュール３２が、未
知の環境から収集された入力音声を受取って、音声認識
装置３８に入力する前に、基準ベクトル量子化コードブ
ック及び二次ベクトル量子化コードブックの適応を使っ
て、この音声を前処理する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声処理の分野に
関し、更に具体的に云えば、ベクトル量子化コードブッ
ク適応を用いて音声信号を補償する方法と装置に関す
る。

【０００２】

【従来の技術及び課題】従来の音声認識装置は、訓練環
境及び試験環境の不整合に特に敏感である。この敏感さ
によって、電話を介しての指令及びディジット認識や音
声ダイヤルのような多くのタスクに於ける性能が劣化す
る。訓練環境及び試験環境の間の音響的な環境の不整合
の結果としてのこの性能の劣化は、音声認識に於ける最
も重要な実際的な問題の１つである。特に、絶えず音響
的な条件が問題になるセルラー電話のような携帯用通信
装置が広く使われるようになったことに伴って、電気通
信回線を介しての用途では、この問題は一層重要度を増
している。

【０００３】雑音のある環境での音声認識は、実際的な
重要な問題であり、相当量の研究を引き付けて来た。問
題の色々な形に対する種々の方式があり、これがスピー
チ・コミュニケーション誌、１６、１９５５年、２６１
〜２９１頁所載のＹ．ゴングの論文「雑音のある環境で
の音声認識」にかなり詳しくまとめられている。更に、
種々の環境の直接的な比較を使う一群の方式もある［例
えば、１９９３年にマサチューセッツ州ボストンのクル
ワー・アカデミック・パブリッシャーズから出版された
Ａ．アセロの著書「自動音声認識に於ける音響及び環境
の頑丈さ」（以下“アセロ”と引用する）、ＩＣＡＳＳ
Ｐ−９４、６１〜６４頁、１９９４年４月号所載のＦ．
Ｈ．リュー、Ｒ．Ｈ．スターン、Ａ．アセロ、Ｐ．Ｊ．
モレノの論文「直接セプストラル比較を用いた頑丈な音
声認識の為の環境の正規化」（以下“リュー他”と引用
する）、及びＰｒｏｃ．ＡＲＰＡヒューマン・ラングイ
ッジ・テクノロジー・ワークショップから１９９３年３
月に出版されたＲ．シュバルツ、Ｔ．アナスタコス、
Ｆ．クバラ、Ｊ．マクホール、Ｌ．ヌグエン、Ｇ．ザバ
リアグコスの論文「多語彙音声認識の比較実験」（以下
“シュバルツ他”と引用する）］。

【０００４】カーネギー−メロン大学（ＣＭＵ）のアセ
ロのコードワード依存セプストラル正規化（ＣＤＣＮ）
方式は、音声モデルを訓練した基準環境と未知の試験環
境の両方に対してガウス密度を想定している。次に、こ
れは逐次期待値最大化アルゴリズムによって、未知の密
度パラメータ及び補償ベクトルの両方を計算する。この
方式は環境に無関係であり、即ち、試験環境からの何ら
の訓練データも必要としないが、これは計算コストがか
かる。大抵の実用的な用途では、特に実時間の応答を必
要とする時、計算負担は禁止的である。

【０００５】従って、ＣＭＵグループは固定ＣＤＣＮ
（ＦＣＤＣＮ）を導入した（リュー他参照）。これは、
同時に記録されたステレオ音声データが利用出来る既知
の試験環境に対する同様な形式の補正を行なう。この方
式を未知の試験マイクロフォンの場合に拡張する為、多
重ＦＣＤＣＮ（ＭＦＣＤＣＮ）方式が提案された。ＭＦ
ＣＤＣＮは、全ての環境に対して、同時に記録されたス
テレオ音声データがその全てに対して要求される既知の
マイクロフォンの集合を使う。この非常に重要な制約の
為、この両方の方式は、スタジオの環境で成されたステ
レオ記録が利用し得るような異なる種類のマイクロフォ
ンにしか使うことが出来ない。こういう方式は、動く車
両のセルラー電話のように、実用的に重要性のある種々
の環境に対して同時に記録されたデータを収集すること
は出来ないので、一般的な環境補償というよりも、マイ
クロフォン補償であるということが出来る。

【０００６】上に論じた両方の従来の方式のコードブッ
クは、認識過程全体を通じて固定されており、一旦環境
の利用し得る集合の中のある環境が選ばれると、補償ベ
クトルは変えない。従って、必要とされているのは、音
響的に同様な環境に関する先験的な情報を使うと共に、
音声認識を改善する為に、試験環境に適応させる補償方
式である。

【０００７】

【課題を解決するための手段及び作用】本発明は、既知
の基準環境及び既知の二次環境に対するベクトル量子化
コードブックを計算するコードブック発生器と、既知の
環境に対して発生されたベクトル量子化コードブックを
使って、未知の環境から収集された音声を補償する前処
理装置とを含む音声認識方法及び装置である。補償され
た音声が、更に処理する為、音声認識装置に入力され
る。この音声認識装置は、基準ベクトル量子化コードブ
ックを使って訓練されている。

【０００８】本発明の目的は、基準ベクトル量子化コー
ドブックを二次環境に適応させることにより、同時のス
テレオ記録の必要を避けることである。本発明の別の目
的は、環境の間の整合を連続的に改善する為に、利用し
得る環境コードブックを試験環境に動的に適応させるこ
とである。本発明の上記並びに当業者に明らかなその他
の特徴は、以下図面に付いて本発明を詳しく説明すると
ころから理解されよう。

【０００９】

【発明の実施の形態】本発明の方法及び装置は、モデル
を訓練するのに使った音声データが得られた環境とは異
なる種々の音響的な環境から音声入力を受取るタスクに
対し、音声認識の性能を改善する方式を含む。隠れマル
コフ・モデル（ＨＭＭ）に基づく認識装置が、訓練環境
及び試験環境の不整合に敏感であることは良く知られて
いる。この敏感さの為、電話を介しての指示及びディジ
ット認識や音声ダイヤルのような多くのタスクに於ける
性能が劣化する。本発明で用いる方式は、到来音声特徴
ベクトルを前処理し、音響的に同様な環境に関する先験
的な情報並びに実際の試験環境に関するオンラインの適
応の両方を使って、モデル環境に一層良くあてはまるよ
うに、到来する音声ベクトルを変換する。

【００１０】マッコーのセルラー集合では、本発明の装
置及び方法に使われる方式は、セルラー集合の連続１０
ディジット認識でワード誤りを減少する。特に、この方
式は、地上通信線で訓練したモデルを用いたセルラー手
空きマイクロフォン音声の連続１０ディジット認識でワ
ード誤りを２３．８％から１３．６％に減少すると共
に、話者に依存する音声呼出の文章の誤りを１６．５％
から１０．６％に減少する。

【００１１】本発明による一実施例の装置を示すブロッ
ク図が図１に示されている。本発明で使われるＨＭＭ音
声認識装置３８では、フレーム・エネルギー、有声音、
スペクトル及びその微分のような広い範囲の特徴が連結
されて、高次元特徴ベクトルを形成する。主成分解析が
この高次元ベクトル音声に適用され、統計的な変動が最
も大きい軸の部分集合を選ぶことにより、次元を下げ
る。この手順が、図１に示す音声特徴ベクトル発生器２
２によって実施される。

【００１２】コードブック発生器２６が、Φで表わす主
成分空間内の音声特徴ベクトルに対するベクトル量子化
コードブックを発生する。従って、クラスのメンバは、
他の多くの方式に於けるようにそのスペクトルの点で関
係づけられているだけでなく、音声認識の性能の点で環
境の影響を受ける受け方を決定する静的及び動的な両方
の特徴によっても関係づけられている。図２に示すよう
に、コードブック発生器２６は、コードブック設計モジ
ュール４２及びコードブック・アダプタ・モジュール４
４を含むが、その各々をこれから詳しく説明する。音響
的な環境ｈは、次式で表わされるベクトル量子化コード
ブックＸ^hによって記述される。

【００１３】

【数１】ここで、各々のコードベクトル

【００１４】

【外１】は、主成分空間Φに於ける特徴ベクトルのクラスを表わ
す。次式で表わされる基準環境Ｘ^refに対するベクトル
量子化コードブックが、コードブック設計モジュール４
２で、一般化ロイド・アルゴリズムを使って設計される
［ＩＥＥＥＴｒａｎｓ．Ｃｏｍｍｕｎ．，ｖｏｌ．Ｃ
ＯＭ−２８、８４〜９５頁、１９８０年１月号所載の
Ｙ．リンデ、Ａ．ブゾー、Ｒ．Ｍ．グレイの論文「ベク
トル量子化器の設計のアルゴリズム」参照（以下“リン
デ他”と引用する）］。

【００１５】

【数２】 χ＝｛Ｘ^h，ｈ＝１，．．．，Ｈ｝で表わされる二次環
境χに対するベクトル量子化コードブックでは、

【００１６】

【外２】と

【外３】は、同一の音響的なクラスに対応しなければならない。
同時に記録されるステレオ・データベースでは、全ての
フレームにラベルが付けられ、クラスの混同は起らない
ので、これは自動的に満たされる。電話を介しての音声
ダイヤルのような用途では、ステレオ・データベースを
収集するのは実際に不可能である。

【００１７】本発明のコードブック・アダプタ・モジュ
ール４４の１つの構成例では、リュー他に述べられてい
るインクリメンタル更新方式を使って、二次環境コード
ブックを適応させる。しかし、基準環境に対するコード
ブックを初期コードブックとして使って、一般化ロイド
・アルゴリズムを使うことにより、コードブック・アダ
プタ・モジュール４４を構成することも考えられる。本
発明のコードブック発生器２６の２番目の構成は、最初
の構成例のインクリメンタル更新方式のバッチ形と見な
すことが出来る。実際的には、両者は比肩し得る性能を
もたらした。本発明の現在の実施例では、２番目の構成
例を使って、コードブック・アダプタ・モジュール４４
を構成する。

【００１８】図３は図１に示したコードブック発生器２
６の動作を示すフローチャートである。判定ブロック９
０で、音声特徴ベクトル発生器２２から受取った到来す
る音声特徴ベクトルが基準環境からのものであると、そ
の後の処理はブロック９２に続き、そこで音声特徴ベク
トルを使って基準ベクトル量子化コードブックを設計す
る。その後、ブロック９４で、その結果得られた基準ベ
クトル量子化コードブックをデータ記憶装置３０に記憶
し、コードブック発生器２６に於ける処理が終る。判定
ブロック９０で、到来する音声特徴ベクトルが既知の二
次環境の１つを表わす場合、処理はブロック９６で続け
られ、そこでデータ記憶装置３０から基準ベクトル量子
化コードブックを再生する。その後、ブロック９８で、
既知の二次環境からの音声特徴ベクトルを使って、基準
ベクトル量子化コードブックを適応させ、二次ベクトル
量子化コードブックを発生する。ブロック１００で、二
次ベクトル量子化コードブックをデータ記憶装置３０に
記憶し、コードブック発生器２６に於ける処理が終る。

【００１９】図４は、前処理モジュール３２を詳しく示
すブロック図である。図４に示すように、前処理モジュ
ール３２は、補償モジュール１０２と計算モジュール１
０４と更新コードブック・モジュール１０６とを含む。
未知の試験環境から到来する音声特徴ベクトル（発声の
ｎ番目のフレーム）をｘ（ｎ）で表わす。その時、図１
及び図４に参照符号３２で示した補償済み特徴ベクトル

【００２０】

【外４】は、次式に従って補償モジュール１０２で計算される。

【００２１】

【数３】ここで、ｎ番目のフレームがコードブックｈ内のボロノ
イ領域ｋに属する確率

【００２２】

【外５】が、次式に従って計算モジュール１０４で計算される。

【００２３】

【数４】発声が環境ｈに属する確率Ｐｈは、次式に従って計算モ
ジュール１０４で計算される。

【００２４】

【数５】ここで、

【００２５】

【数６】補償モジュール１０２及び音声認識装置３８によって行
なわれる補償及び認識の際、コードブックのオンライン
適応が、次式に従って更新コードブック・モジュール１
０６によって行なわれる。

【００２６】

【数７】ここで、

【００２７】

【数８】

【００２８】次に、マッコー・セルラー集合に於ける連
続ディジット認識及び音声呼出に関する実験結果を示
す。この集合は、手持ち（ハンドヘルド）の近くで話す
マイクロフォンと、手空き（ハンズフリー）のバイザー
に取付けたマイクロフォンの２種類のマイクロフォンを
使って、セルラー回線を介して収集されたデータと地上
通信線で収集した音声データとで構成される。この集合
の地上通信線で手持ちのマイクロフォンで収集された部
分は、ＶＡＡ集合に品質が比肩し得るような大部分明瞭
な電話音声である。しかし、この集合の手空きのマイク
ロフォンの部分は、他よりもかなり雑音が多い。

【００２９】次に、マッコー・データベースの話者に無
関係な部分に関する２つの実験を説明する。１番目の実
験は、手持ちのマイクロフォンで訓練されたモデルが使
われている時、手空きのマイクロフォンによってもたら
された効果を正規化する時の補償アルゴリズムの有効性
を解明する。２番目の実験は、更に一般的であって、完
全なマッコー・連続ディジット・データに対する正規化
された並びに正規化されていない性能を比較する時に、
ＶＡＡ集合で訓練したモデルを使う。

【００３０】最初の実験では、種子としてＶＡＡモデル
を使って作られた、マッコー集合の手持ち部分を用いて
更新されたモデルを使った。従って、結果表の手持ちの
行は、厳密には閉集合の結果である。２番目の実験で
は、ＶＡＡ１集合で訓練した有限持続時間ディジット・
モデルを使った。

【００３１】使われた集合は、本書で開示された方式に
よって正規化された。ここに、その結果を報告するコー
ドブック寸法は１６である。コードブックは、認識結果
が得られたモデル訓練集合から分解したマッコー及びＶ
ＡＡ集合内のデータ集合で訓練した。

【００３２】１番目の実験（手持ちのデータで更新した
モデルを使う）の結果が、表１に示されている。

【表１】手持ち（基準）の環境に於ける誤りは殆ど同じであり、
手空きの時の誤りが目立って減少する。

【００３３】２番目の実験（ＶＡＡだけで訓練したモデ
ルを使う）の結果を表２に示す。

【表２】表２で、基準環境がＶＡＡである。正規化は目立って基
準環境に乱れを生ぜず、ＶＡＡに近い地上通信線及び手
持ちの環境にも乱れがない。やはり、手空き（ハンドフ
リー）の時の誤りがかなり減少する。

【００３４】マッコー・データベースの話者に依存する
部分で、同様な実験を繰返した。表３及び表４は、音声
呼出の用途で夫々が１０人の名前を発声する３０人の話
者に対する平均結果を示すものである。表３は、地上通
信線を基準環境として使った場合の結果を示す。表４
は、手持ちを基準環境とした場合の結果を示す。

【表３】

【表４】

【００３５】本発明で使われた方式を、ベクトル量子化
コードブックでなく、連続的な混合に一般化することは
明瞭であり、その場合、計算が増加し、凡らく若干の改
善が達成されよう。本発明で使われた方式は、不所望の
歪みのパラメトリックな取扱いが困難で、歪みの原因と
なった種々の同じような状態でのデータが利用出来る場
合、任意の問題に応用し得る。

【００３６】本発明並びにその利点を詳しく説明した
が、特許請求の範囲によって定められた本発明の範囲を
逸脱することなく、この実施例に種々の変更、置換を加
えることが出来ることは云う迄もない。

【００３７】以上の説明に関し、更に以下の項目を開示
する。（１）基準環境及び少なくとも１つの二次環境を含む
複数個の環境から音声信号を収集する収集手段と、該収
集手段に結合された、収集された音声から音声特徴ベク
トルを発生する音声特徴ベクトル発生器と、該音声特徴
ベクトル発生器に結合された、前記音声特徴ベクトルを
使って、前記基準環境から収集された音声を記述する基
準ベクトル量子化コードブックを発生すると共に、前記
少なくとも１つの二次環境から収集された音声を記述す
る少なくとも１つの二次ベクトル量子化コードブックを
発生するコードブック発生器と、該コードブック発生器
に結合された、前記基準ベクトル量子化コードブック及
び前記少なくとも１つの二次ベクトル量子化コードブッ
クを記憶する記憶手段と、該記憶手段に結合された、前
記音声特徴ベクトル発生器に結合されて、前記基準ベク
トル量子化コードブック及び前記少なくとも１つの二次
ベクトル量子化コードブックを使ってコードブック適応
を作成すると共に、前記コードブック適応を使って未知
の環境から収集された音声特徴ベクトルを変換して補償
済み音声特徴ベクトルを発生する前処理装置と、前記基
準ベクトル量子化コードブックを使って訓練された音声
モデルを含む、前記補償済み音声特徴ベクトルを処理す
る音声認識装置と、を含む音声処理装置。

【００３８】（２）第１項記載の音声処理装置に於い
て、前記音声認識装置が、隠れマルコフ・モデルを基本
とした認識装置である音声処理装置。（３）第１項記載の音声処理装置に於いて、前記コー
ドブック発生器が、一般化ロイド・アルゴリズムを使っ
て前記基準ベクトル量子化コードブックを発生するよう
に作用し得る音声処理装置。（４）第１項記載の音声処理装置に於いて、前記前処
理装置が、インクリメンタル更新を使って前記コードブ
ック適応を作成するように作用し得る音声処理装置。（５）第１項記載の音声処理装置に於いて、前記前処
理装置が、初期コードブックを含む一般化ロイド・アル
ゴリズムを使って、前記コードブック適応を作成するよ
うに作用し得る音声処理装置。

【００３９】（６）第５項記載の音声処理装置に於い
て、前記初期コードブックが前記基準ベクトル量子化コ
ードブックである音声処理装置。（７）第１項記載の音声処理装置に於いて、前記コー
ドブック発生器が、前記少なくとも１つの二次ベクトル
量子化コードブックを発生するように前記基準ベクトル
量子化コードブックを適応させるように作用し得る音声
処理装置。（８）第１項記載の音声処理装置に於いて、確率

【００４０】

【外６】をｎ番目のフレームがコードブックｈ内のボロノイ領域
ｋに属する確率であるとして、前記前処理装置が、

【００４１】

【数９】に従って前記補償済み特徴ベクトル

【００４２】

【外７】を発生する補償モジュールを含む音声処理装置。（９）第８項記載の音声処理装置に於いて、前記計算
モジュールが、確率Ｐｈが発声が環境ｈに属する確率で
あるとして、

【００４３】

【数１０】に従って前記確率

【００４４】

【外８】を発生するように作用し得る音声処理装置。（１０）第９項記載の音声処理装置に於いて、前記計
算モジュールが、

【００４５】

【数１１】ここで、

【００４６】

【数１２】に従って前記確率Ｐｈを発生するように作用し得る音声
処理装置。（１１）第８項記載の音声処理装置に於いて、前記前
処理装置が更に更新コードブック・モジュールを含む音
声処理装置。

【００４７】（１２）第１１項記載の音声処理装置に
於いて、前記更新コードブック・モジュールが、

【００４８】

【数１３】ここで、

【００４９】

【数１４】に従って前記二次ベクトル量子化コードブックを動的に
適応させるように作用し得る音声処理装置。

【００５０】（１３）未知の環境から収集された音声
を処理する方法に於いて、基準環境から収集された音声
を記述する基準ベクトル量子化コードブックを発生し、
前記基準ベクトル量子化コードブックを使って、音声認
識装置に含まれている音声モデルを訓練し、前記基準ベ
クトル量子化コードブックを使って少なくとも１つの既
知の二次環境から収集された音声を記述する少なくとも
１つの二次ベクトル量子化コードブックを発生し、前記
少なくとも１つのベクトル量子化コードブックを使って
コードブック適応を作成し、未知の環境から収集された
音声を記述する音声特徴ベクトルを発生し、前記基準ベ
クトル量子化コードブック及び前記コードブック適応を
使って前記音声特徴ベクトルを変換して補償済み音声特
徴ベクトルを発生し、更に処理する為に、前記補償済み
音声特徴ベクトルを前記音声認識装置に対する入力とし
て供給する、工程を含む方法。

【００５１】（１４）本発明は、基準環境を記述する
基準ベクトル量子化コードブックを発生すると共に、少
なくとも１つの二次環境を記述する少なくとも１つの二
次ベクトル量子化コードブックを発生するコードブック
発生器２６を含む音声処理装置及び方法である。二次ベ
クトル量子化コードブックは、基準ベクトル量子化コー
ドブックを使って発生される。基準ベクトル量子化コー
ドブックを使って訓練された音声認識装置３８も含まれ
る。前処理装置３２が、未知の環境から収集された入力
音声を受取って、音声認識装置３８に入力する前に、基
準ベクトル量子化コードブック及び二次ベクトル量子化
コードブックの適応を使って、この音声を前処理する。

【図面の簡単な説明】

【図１】本発明を例示するブロック図。

【図２】本発明によるコードブック発生器のブロック
図。

【図３】本発明によるコードブック発生器の動作を示す
フローチャート。

【図４】本発明による前処理装置のブロック図。

【符号の説明】

２６コードブック発生器３２前処理装置３８音声認識装置

Claims

【特許請求の範囲】

【請求項１】基準環境及び少なくとも１つの二次環境
を含む複数個の環境から音声信号を収集する収集手段
と、該収集手段に結合された、収集された音声から音声特徴
ベクトルを発生する音声特徴ベクトル発生器と、該音声特徴ベクトル発生器に結合された、前記音声特徴
ベクトルを使って、前記基準環境から収集された音声を
記述する基準ベクトル量子化コードブックを発生すると
共に、前記少なくとも１つの二次環境から収集された音
声を記述する少なくとも１つの二次ベクトル量子化コー
ドブックを発生するコードブック発生器と、該コードブック発生器に結合された、前記基準ベクトル
量子化コードブック及び前記少なくとも１つの二次ベク
トル量子化コードブックを記憶する記憶手段と、該記憶手段に結合された、前記音声特徴ベクトル発生器
に結合されて、前記基準ベクトル量子化コードブック及
び前記少なくとも１つの二次ベクトル量子化コードブッ
クを使ってコードブック適応を作成すると共に、前記コ
ードブック適応を使って未知の環境から収集された音声
特徴ベクトルを変換して補償済み音声特徴ベクトルを発
生する前処理装置と、前記基準ベクトル量子化コードブックを使って訓練され
た音声モデルを含む、前記補償済み音声特徴ベクトルを
処理する音声認識装置と、を含む音声処理装置。
【請求項２】未知の環境から収集された音声を処理す
る方法に於いて、基準環境から収集された音声を記述する基準ベクトル量
子化コードブックを発生し、前記基準ベクトル量子化コードブックを使って、音声認
識装置に含まれている音声モデルを訓練し、前記基準ベクトル量子化コードブックを使って少なくと
も１つの既知の二次環境から収集された音声を記述する
少なくとも１つの二次ベクトル量子化コードブックを発
生し、前記少なくとも１つのベクトル量子化コードブックを使
ってコードブック適応を作成し、未知の環境から収集された音声を記述する音声特徴ベク
トルを発生し、前記基準ベクトル量子化コードブック及び前記コードブ
ック適応を使って前記音声特徴ベクトルを変換して補償
済み音声特徴ベクトルを発生し、更に処理する為に、前記補償済み音声特徴ベクトルを前
記音声認識装置に対する入力として供給する、工程を含む方法。