JPH1069290A - 音声処理装置 - Google Patents

音声処理装置

Info

Publication number
JPH1069290A
JPH1069290A JP9117121A JP11712197A JPH1069290A JP H1069290 A JPH1069290 A JP H1069290A JP 9117121 A JP9117121 A JP 9117121A JP 11712197 A JP11712197 A JP 11712197A JP H1069290 A JPH1069290 A JP H1069290A
Authority
JP
Japan
Prior art keywords
speech
codebook
vector quantization
environment
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9117121A
Other languages
English (en)
Inventor
Mustafa Kemal Sonmez
ケマル ソンメズ ムスタファ
Periagaram K Rajasekaran
ケイ.ラジャセカラン ペリアガラム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPH1069290A publication Critical patent/JPH1069290A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 環境に対する音声認識の適応化を図る。 【解決手段】 音声処理装置、基準環境を記述する基準
ベクトル量子化コードブックを発生すると共に、少なく
とも1つの二次環境を記述する少なくとも1つの二次ベ
クトル量子化コードブックを発生するコードブック発生
器26を含む。二次ベクトル量子化コードブックは、基
準ベクトル量子化コードブックを使って発生される。基
準ベクトル量子化コードブックを使って訓練された音声
認識装置38も含まれる。前処理モジュール32が、未
知の環境から収集された入力音声を受取って、音声認識
装置38に入力する前に、基準ベクトル量子化コードブ
ック及び二次ベクトル量子化コードブックの適応を使っ
て、この音声を前処理する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声処理の分野に
関し、更に具体的に云えば、ベクトル量子化コードブッ
ク適応を用いて音声信号を補償する方法と装置に関す
る。
【0002】
【従来の技術及び課題】従来の音声認識装置は、訓練環
境及び試験環境の不整合に特に敏感である。この敏感さ
によって、電話を介しての指令及びディジット認識や音
声ダイヤルのような多くのタスクに於ける性能が劣化す
る。訓練環境及び試験環境の間の音響的な環境の不整合
の結果としてのこの性能の劣化は、音声認識に於ける最
も重要な実際的な問題の1つである。特に、絶えず音響
的な条件が問題になるセルラー電話のような携帯用通信
装置が広く使われるようになったことに伴って、電気通
信回線を介しての用途では、この問題は一層重要度を増
している。
【0003】雑音のある環境での音声認識は、実際的な
重要な問題であり、相当量の研究を引き付けて来た。問
題の色々な形に対する種々の方式があり、これがスピー
チ・コミュニケーション誌、16、1955年、261
〜291頁所載のY.ゴングの論文「雑音のある環境で
の音声認識」にかなり詳しくまとめられている。更に、
種々の環境の直接的な比較を使う一群の方式もある[例
えば、1993年にマサチューセッツ州ボストンのクル
ワー・アカデミック・パブリッシャーズから出版された
A.アセロの著書「自動音声認識に於ける音響及び環境
の頑丈さ」(以下“アセロ”と引用する)、ICASS
P−94、61〜64頁、1994年4月号所載のF.
H.リュー、R.H.スターン、A.アセロ、P.J.
モレノの論文「直接セプストラル比較を用いた頑丈な音
声認識の為の環境の正規化」(以下“リュー他”と引用
する)、及びProc.ARPAヒューマン・ラングイ
ッジ・テクノロジー・ワークショップから1993年3
月に出版されたR.シュバルツ、T.アナスタコス、
F.クバラ、J.マクホール、L.ヌグエン、G.ザバ
リアグコスの論文「多語彙音声認識の比較実験」(以下
“シュバルツ他”と引用する)]。
【0004】カーネギー−メロン大学(CMU)のアセ
ロのコードワード依存セプストラル正規化(CDCN)
方式は、音声モデルを訓練した基準環境と未知の試験環
境の両方に対してガウス密度を想定している。次に、こ
れは逐次期待値最大化アルゴリズムによって、未知の密
度パラメータ及び補償ベクトルの両方を計算する。この
方式は環境に無関係であり、即ち、試験環境からの何ら
の訓練データも必要としないが、これは計算コストがか
かる。大抵の実用的な用途では、特に実時間の応答を必
要とする時、計算負担は禁止的である。
【0005】従って、CMUグループは固定CDCN
(FCDCN)を導入した(リュー他参照)。これは、
同時に記録されたステレオ音声データが利用出来る既知
の試験環境に対する同様な形式の補正を行なう。この方
式を未知の試験マイクロフォンの場合に拡張する為、多
重FCDCN(MFCDCN)方式が提案された。MF
CDCNは、全ての環境に対して、同時に記録されたス
テレオ音声データがその全てに対して要求される既知の
マイクロフォンの集合を使う。この非常に重要な制約の
為、この両方の方式は、スタジオの環境で成されたステ
レオ記録が利用し得るような異なる種類のマイクロフォ
ンにしか使うことが出来ない。こういう方式は、動く車
両のセルラー電話のように、実用的に重要性のある種々
の環境に対して同時に記録されたデータを収集すること
は出来ないので、一般的な環境補償というよりも、マイ
クロフォン補償であるということが出来る。
【0006】上に論じた両方の従来の方式のコードブッ
クは、認識過程全体を通じて固定されており、一旦環境
の利用し得る集合の中のある環境が選ばれると、補償ベ
クトルは変えない。従って、必要とされているのは、音
響的に同様な環境に関する先験的な情報を使うと共に、
音声認識を改善する為に、試験環境に適応させる補償方
式である。
【0007】
【課題を解決するための手段及び作用】本発明は、既知
の基準環境及び既知の二次環境に対するベクトル量子化
コードブックを計算するコードブック発生器と、既知の
環境に対して発生されたベクトル量子化コードブックを
使って、未知の環境から収集された音声を補償する前処
理装置とを含む音声認識方法及び装置である。補償され
た音声が、更に処理する為、音声認識装置に入力され
る。この音声認識装置は、基準ベクトル量子化コードブ
ックを使って訓練されている。
【0008】本発明の目的は、基準ベクトル量子化コー
ドブックを二次環境に適応させることにより、同時のス
テレオ記録の必要を避けることである。本発明の別の目
的は、環境の間の整合を連続的に改善する為に、利用し
得る環境コードブックを試験環境に動的に適応させるこ
とである。本発明の上記並びに当業者に明らかなその他
の特徴は、以下図面に付いて本発明を詳しく説明すると
ころから理解されよう。
【0009】
【発明の実施の形態】本発明の方法及び装置は、モデル
を訓練するのに使った音声データが得られた環境とは異
なる種々の音響的な環境から音声入力を受取るタスクに
対し、音声認識の性能を改善する方式を含む。隠れマル
コフ・モデル(HMM)に基づく認識装置が、訓練環境
及び試験環境の不整合に敏感であることは良く知られて
いる。この敏感さの為、電話を介しての指示及びディジ
ット認識や音声ダイヤルのような多くのタスクに於ける
性能が劣化する。本発明で用いる方式は、到来音声特徴
ベクトルを前処理し、音響的に同様な環境に関する先験
的な情報並びに実際の試験環境に関するオンラインの適
応の両方を使って、モデル環境に一層良くあてはまるよ
うに、到来する音声ベクトルを変換する。
【0010】マッコーのセルラー集合では、本発明の装
置及び方法に使われる方式は、セルラー集合の連続10
ディジット認識でワード誤りを減少する。特に、この方
式は、地上通信線で訓練したモデルを用いたセルラー手
空きマイクロフォン音声の連続10ディジット認識でワ
ード誤りを23.8%から13.6%に減少すると共
に、話者に依存する音声呼出の文章の誤りを16.5%
から10.6%に減少する。
【0011】本発明による一実施例の装置を示すブロッ
ク図が図1に示されている。本発明で使われるHMM音
声認識装置38では、フレーム・エネルギー、有声音、
スペクトル及びその微分のような広い範囲の特徴が連結
されて、高次元特徴ベクトルを形成する。主成分解析が
この高次元ベクトル音声に適用され、統計的な変動が最
も大きい軸の部分集合を選ぶことにより、次元を下げ
る。この手順が、図1に示す音声特徴ベクトル発生器2
2によって実施される。
【0012】コードブック発生器26が、Φで表わす主
成分空間内の音声特徴ベクトルに対するベクトル量子化
コードブックを発生する。従って、クラスのメンバは、
他の多くの方式に於けるようにそのスペクトルの点で関
係づけられているだけでなく、音声認識の性能の点で環
境の影響を受ける受け方を決定する静的及び動的な両方
の特徴によっても関係づけられている。図2に示すよう
に、コードブック発生器26は、コードブック設計モジ
ュール42及びコードブック・アダプタ・モジュール4
4を含むが、その各々をこれから詳しく説明する。音響
的な環境hは、次式で表わされるベクトル量子化コード
ブックXh によって記述される。
【0013】
【数1】 ここで、各々のコードベクトル
【0014】
【外1】 は、主成分空間Φに於ける特徴ベクトルのクラスを表わ
す。次式で表わされる基準環境Xref に対するベクトル
量子化コードブックが、コードブック設計モジュール4
2で、一般化ロイド・アルゴリズムを使って設計される
[IEEE Trans.Commun.,vol.C
OM−28、84〜95頁、1980年1月号所載の
Y.リンデ、A.ブゾー、R.M.グレイの論文「ベク
トル量子化器の設計のアルゴリズム」参照(以下“リン
デ他”と引用する)]。
【0015】
【数2】 χ={Xh ,h=1,...,H}で表わされる二次環
境χに対するベクトル量子化コードブックでは、
【0016】
【外2】
【外3】 は、同一の音響的なクラスに対応しなければならない。
同時に記録されるステレオ・データベースでは、全ての
フレームにラベルが付けられ、クラスの混同は起らない
ので、これは自動的に満たされる。電話を介しての音声
ダイヤルのような用途では、ステレオ・データベースを
収集するのは実際に不可能である。
【0017】本発明のコードブック・アダプタ・モジュ
ール44の1つの構成例では、リュー他に述べられてい
るインクリメンタル更新方式を使って、二次環境コード
ブックを適応させる。しかし、基準環境に対するコード
ブックを初期コードブックとして使って、一般化ロイド
・アルゴリズムを使うことにより、コードブック・アダ
プタ・モジュール44を構成することも考えられる。本
発明のコードブック発生器26の2番目の構成は、最初
の構成例のインクリメンタル更新方式のバッチ形と見な
すことが出来る。実際的には、両者は比肩し得る性能を
もたらした。本発明の現在の実施例では、2番目の構成
例を使って、コードブック・アダプタ・モジュール44
を構成する。
【0018】図3は図1に示したコードブック発生器2
6の動作を示すフローチャートである。判定ブロック9
0で、音声特徴ベクトル発生器22から受取った到来す
る音声特徴ベクトルが基準環境からのものであると、そ
の後の処理はブロック92に続き、そこで音声特徴ベク
トルを使って基準ベクトル量子化コードブックを設計す
る。その後、ブロック94で、その結果得られた基準ベ
クトル量子化コードブックをデータ記憶装置30に記憶
し、コードブック発生器26に於ける処理が終る。判定
ブロック90で、到来する音声特徴ベクトルが既知の二
次環境の1つを表わす場合、処理はブロック96で続け
られ、そこでデータ記憶装置30から基準ベクトル量子
化コードブックを再生する。その後、ブロック98で、
既知の二次環境からの音声特徴ベクトルを使って、基準
ベクトル量子化コードブックを適応させ、二次ベクトル
量子化コードブックを発生する。ブロック100で、二
次ベクトル量子化コードブックをデータ記憶装置30に
記憶し、コードブック発生器26に於ける処理が終る。
【0019】図4は、前処理モジュール32を詳しく示
すブロック図である。図4に示すように、前処理モジュ
ール32は、補償モジュール102と計算モジュール1
04と更新コードブック・モジュール106とを含む。
未知の試験環境から到来する音声特徴ベクトル(発声の
n番目のフレーム)をx(n)で表わす。その時、図1
及び図4に参照符号32で示した補償済み特徴ベクトル
【0020】
【外4】 は、次式に従って補償モジュール102で計算される。
【0021】
【数3】 ここで、n番目のフレームがコードブックh内のボロノ
イ領域kに属する確率
【0022】
【外5】 が、次式に従って計算モジュール104で計算される。
【0023】
【数4】 発声が環境hに属する確率Phは、次式に従って計算モ
ジュール104で計算される。
【0024】
【数5】 ここで、
【0025】
【数6】 補償モジュール102及び音声認識装置38によって行
なわれる補償及び認識の際、コードブックのオンライン
適応が、次式に従って更新コードブック・モジュール1
06によって行なわれる。
【0026】
【数7】 ここで、
【0027】
【数8】
【0028】次に、マッコー・セルラー集合に於ける連
続ディジット認識及び音声呼出に関する実験結果を示
す。この集合は、手持ち(ハンドヘルド)の近くで話す
マイクロフォンと、手空き(ハンズフリー)のバイザー
に取付けたマイクロフォンの2種類のマイクロフォンを
使って、セルラー回線を介して収集されたデータと地上
通信線で収集した音声データとで構成される。この集合
の地上通信線で手持ちのマイクロフォンで収集された部
分は、VAA集合に品質が比肩し得るような大部分明瞭
な電話音声である。しかし、この集合の手空きのマイク
ロフォンの部分は、他よりもかなり雑音が多い。
【0029】次に、マッコー・データベースの話者に無
関係な部分に関する2つの実験を説明する。1番目の実
験は、手持ちのマイクロフォンで訓練されたモデルが使
われている時、手空きのマイクロフォンによってもたら
された効果を正規化する時の補償アルゴリズムの有効性
を解明する。2番目の実験は、更に一般的であって、完
全なマッコー・連続ディジット・データに対する正規化
された並びに正規化されていない性能を比較する時に、
VAA集合で訓練したモデルを使う。
【0030】最初の実験では、種子としてVAAモデル
を使って作られた、マッコー集合の手持ち部分を用いて
更新されたモデルを使った。従って、結果表の手持ちの
行は、厳密には閉集合の結果である。2番目の実験で
は、VAA1集合で訓練した有限持続時間ディジット・
モデルを使った。
【0031】使われた集合は、本書で開示された方式に
よって正規化された。ここに、その結果を報告するコー
ドブック寸法は16である。コードブックは、認識結果
が得られたモデル訓練集合から分解したマッコー及びV
AA集合内のデータ集合で訓練した。
【0032】1番目の実験(手持ちのデータで更新した
モデルを使う)の結果が、表1に示されている。
【表1】 手持ち(基準)の環境に於ける誤りは殆ど同じであり、
手空きの時の誤りが目立って減少する。
【0033】2番目の実験(VAAだけで訓練したモデ
ルを使う)の結果を表2に示す。
【表2】 表2で、基準環境がVAAである。正規化は目立って基
準環境に乱れを生ぜず、VAAに近い地上通信線及び手
持ちの環境にも乱れがない。やはり、手空き(ハンドフ
リー)の時の誤りがかなり減少する。
【0034】マッコー・データベースの話者に依存する
部分で、同様な実験を繰返した。表3及び表4は、音声
呼出の用途で夫々が10人の名前を発声する30人の話
者に対する平均結果を示すものである。表3は、地上通
信線を基準環境として使った場合の結果を示す。表4
は、手持ちを基準環境とした場合の結果を示す。
【表3】
【表4】
【0035】本発明で使われた方式を、ベクトル量子化
コードブックでなく、連続的な混合に一般化することは
明瞭であり、その場合、計算が増加し、凡らく若干の改
善が達成されよう。本発明で使われた方式は、不所望の
歪みのパラメトリックな取扱いが困難で、歪みの原因と
なった種々の同じような状態でのデータが利用出来る場
合、任意の問題に応用し得る。
【0036】本発明並びにその利点を詳しく説明した
が、特許請求の範囲によって定められた本発明の範囲を
逸脱することなく、この実施例に種々の変更、置換を加
えることが出来ることは云う迄もない。
【0037】以上の説明に関し、更に以下の項目を開示
する。 (1) 基準環境及び少なくとも1つの二次環境を含む
複数個の環境から音声信号を収集する収集手段と、該収
集手段に結合された、収集された音声から音声特徴ベク
トルを発生する音声特徴ベクトル発生器と、該音声特徴
ベクトル発生器に結合された、前記音声特徴ベクトルを
使って、前記基準環境から収集された音声を記述する基
準ベクトル量子化コードブックを発生すると共に、前記
少なくとも1つの二次環境から収集された音声を記述す
る少なくとも1つの二次ベクトル量子化コードブックを
発生するコードブック発生器と、該コードブック発生器
に結合された、前記基準ベクトル量子化コードブック及
び前記少なくとも1つの二次ベクトル量子化コードブッ
クを記憶する記憶手段と、該記憶手段に結合された、前
記音声特徴ベクトル発生器に結合されて、前記基準ベク
トル量子化コードブック及び前記少なくとも1つの二次
ベクトル量子化コードブックを使ってコードブック適応
を作成すると共に、前記コードブック適応を使って未知
の環境から収集された音声特徴ベクトルを変換して補償
済み音声特徴ベクトルを発生する前処理装置と、前記基
準ベクトル量子化コードブックを使って訓練された音声
モデルを含む、前記補償済み音声特徴ベクトルを処理す
る音声認識装置と、を含む音声処理装置。
【0038】(2) 第1項記載の音声処理装置に於い
て、前記音声認識装置が、隠れマルコフ・モデルを基本
とした認識装置である音声処理装置。 (3) 第1項記載の音声処理装置に於いて、前記コー
ドブック発生器が、一般化ロイド・アルゴリズムを使っ
て前記基準ベクトル量子化コードブックを発生するよう
に作用し得る音声処理装置。 (4) 第1項記載の音声処理装置に於いて、前記前処
理装置が、インクリメンタル更新を使って前記コードブ
ック適応を作成するように作用し得る音声処理装置。 (5) 第1項記載の音声処理装置に於いて、前記前処
理装置が、初期コードブックを含む一般化ロイド・アル
ゴリズムを使って、前記コードブック適応を作成するよ
うに作用し得る音声処理装置。
【0039】(6) 第5項記載の音声処理装置に於い
て、前記初期コードブックが前記基準ベクトル量子化コ
ードブックである音声処理装置。 (7) 第1項記載の音声処理装置に於いて、前記コー
ドブック発生器が、前記少なくとも1つの二次ベクトル
量子化コードブックを発生するように前記基準ベクトル
量子化コードブックを適応させるように作用し得る音声
処理装置。 (8) 第1項記載の音声処理装置に於いて、確率
【0040】
【外6】 をn番目のフレームがコードブックh内のボロノイ領域
kに属する確率であるとして、前記前処理装置が、
【0041】
【数9】 に従って前記補償済み特徴ベクトル
【0042】
【外7】 を発生する補償モジュールを含む音声処理装置。 (9) 第8項記載の音声処理装置に於いて、前記計算
モジュールが、確率Phが発声が環境hに属する確率で
あるとして、
【0043】
【数10】 に従って前記確率
【0044】
【外8】 を発生するように作用し得る音声処理装置。 (10) 第9項記載の音声処理装置に於いて、前記計
算モジュールが、
【0045】
【数11】 ここで、
【0046】
【数12】 に従って前記確率Phを発生するように作用し得る音声
処理装置。 (11) 第8項記載の音声処理装置に於いて、前記前
処理装置が更に更新コードブック・モジュールを含む音
声処理装置。
【0047】(12) 第11項記載の音声処理装置に
於いて、前記更新コードブック・モジュールが、
【0048】
【数13】 ここで、
【0049】
【数14】 に従って前記二次ベクトル量子化コードブックを動的に
適応させるように作用し得る音声処理装置。
【0050】(13) 未知の環境から収集された音声
を処理する方法に於いて、基準環境から収集された音声
を記述する基準ベクトル量子化コードブックを発生し、
前記基準ベクトル量子化コードブックを使って、音声認
識装置に含まれている音声モデルを訓練し、前記基準ベ
クトル量子化コードブックを使って少なくとも1つの既
知の二次環境から収集された音声を記述する少なくとも
1つの二次ベクトル量子化コードブックを発生し、前記
少なくとも1つのベクトル量子化コードブックを使って
コードブック適応を作成し、未知の環境から収集された
音声を記述する音声特徴ベクトルを発生し、前記基準ベ
クトル量子化コードブック及び前記コードブック適応を
使って前記音声特徴ベクトルを変換して補償済み音声特
徴ベクトルを発生し、更に処理する為に、前記補償済み
音声特徴ベクトルを前記音声認識装置に対する入力とし
て供給する、工程を含む方法。
【0051】(14) 本発明は、基準環境を記述する
基準ベクトル量子化コードブックを発生すると共に、少
なくとも1つの二次環境を記述する少なくとも1つの二
次ベクトル量子化コードブックを発生するコードブック
発生器26を含む音声処理装置及び方法である。二次ベ
クトル量子化コードブックは、基準ベクトル量子化コー
ドブックを使って発生される。基準ベクトル量子化コー
ドブックを使って訓練された音声認識装置38も含まれ
る。前処理装置32が、未知の環境から収集された入力
音声を受取って、音声認識装置38に入力する前に、基
準ベクトル量子化コードブック及び二次ベクトル量子化
コードブックの適応を使って、この音声を前処理する。
【図面の簡単な説明】
【図1】本発明を例示するブロック図。
【図2】本発明によるコードブック発生器のブロック
図。
【図3】本発明によるコードブック発生器の動作を示す
フローチャート。
【図4】本発明による前処理装置のブロック図。
【符号の説明】
26 コードブック発生器 32 前処理装置 38 音声認識装置

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 基準環境及び少なくとも1つの二次環境
    を含む複数個の環境から音声信号を収集する収集手段
    と、 該収集手段に結合された、収集された音声から音声特徴
    ベクトルを発生する音声特徴ベクトル発生器と、 該音声特徴ベクトル発生器に結合された、前記音声特徴
    ベクトルを使って、前記基準環境から収集された音声を
    記述する基準ベクトル量子化コードブックを発生すると
    共に、前記少なくとも1つの二次環境から収集された音
    声を記述する少なくとも1つの二次ベクトル量子化コー
    ドブックを発生するコードブック発生器と、 該コードブック発生器に結合された、前記基準ベクトル
    量子化コードブック及び前記少なくとも1つの二次ベク
    トル量子化コードブックを記憶する記憶手段と、 該記憶手段に結合された、前記音声特徴ベクトル発生器
    に結合されて、前記基準ベクトル量子化コードブック及
    び前記少なくとも1つの二次ベクトル量子化コードブッ
    クを使ってコードブック適応を作成すると共に、前記コ
    ードブック適応を使って未知の環境から収集された音声
    特徴ベクトルを変換して補償済み音声特徴ベクトルを発
    生する前処理装置と、 前記基準ベクトル量子化コードブックを使って訓練され
    た音声モデルを含む、前記補償済み音声特徴ベクトルを
    処理する音声認識装置と、 を含む音声処理装置。
  2. 【請求項2】 未知の環境から収集された音声を処理す
    る方法に於いて、 基準環境から収集された音声を記述する基準ベクトル量
    子化コードブックを発生し、 前記基準ベクトル量子化コードブックを使って、音声認
    識装置に含まれている音声モデルを訓練し、 前記基準ベクトル量子化コードブックを使って少なくと
    も1つの既知の二次環境から収集された音声を記述する
    少なくとも1つの二次ベクトル量子化コードブックを発
    生し、 前記少なくとも1つのベクトル量子化コードブックを使
    ってコードブック適応を作成し、 未知の環境から収集された音声を記述する音声特徴ベク
    トルを発生し、 前記基準ベクトル量子化コードブック及び前記コードブ
    ック適応を使って前記音声特徴ベクトルを変換して補償
    済み音声特徴ベクトルを発生し、 更に処理する為に、前記補償済み音声特徴ベクトルを前
    記音声認識装置に対する入力として供給する、 工程を含む方法。
JP9117121A 1996-05-07 1997-05-07 音声処理装置 Pending JPH1069290A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/646,192 US5745872A (en) 1996-05-07 1996-05-07 Method and system for compensating speech signals using vector quantization codebook adaptation
US646192 1996-05-07

Publications (1)

Publication Number Publication Date
JPH1069290A true JPH1069290A (ja) 1998-03-10

Family

ID=24592138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9117121A Pending JPH1069290A (ja) 1996-05-07 1997-05-07 音声処理装置

Country Status (5)

Country Link
US (1) US5745872A (ja)
EP (1) EP0806761B1 (ja)
JP (1) JPH1069290A (ja)
KR (1) KR100447558B1 (ja)
DE (1) DE69716159T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019125351A (ja) * 2017-11-28 2019-07-25 南京地平綫机器人技術有限公司 畳み込みニューラルネットワークの畳み込み層における演算を実行する方法及び装置

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US7319954B2 (en) * 2001-03-14 2008-01-15 International Business Machines Corporation Multi-channel codebook dependent compensation
KR100435441B1 (ko) * 2002-03-18 2004-06-10 정희석 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법
USH2172H1 (en) 2002-07-02 2006-09-05 The United States Of America As Represented By The Secretary Of The Air Force Pitch-synchronous speech processing
US7751483B1 (en) 2004-04-16 2010-07-06 Majesco Entertainment Company Video codec for embedded handheld devices
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US8775179B2 (en) * 2010-05-06 2014-07-08 Senam Consulting, Inc. Speech-based speaker recognition systems and methods
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) * 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
CN110648690B (zh) * 2019-09-26 2020-12-15 广州三人行壹佰教育科技有限公司 一种音频评测方法及服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US5487129A (en) * 1991-08-01 1996-01-23 The Dsp Group Speech pattern matching in non-white noise
JP2979943B2 (ja) * 1993-12-14 1999-11-22 日本電気株式会社 音声符号化装置
US5598505A (en) * 1994-09-30 1997-01-28 Apple Computer, Inc. Cepstral correction vector quantizer for speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019125351A (ja) * 2017-11-28 2019-07-25 南京地平綫机器人技術有限公司 畳み込みニューラルネットワークの畳み込み層における演算を実行する方法及び装置

Also Published As

Publication number Publication date
KR19980082408A (ko) 1998-12-05
EP0806761B1 (en) 2002-10-09
EP0806761A3 (en) 1998-09-23
DE69716159D1 (de) 2002-11-14
US5745872A (en) 1998-04-28
EP0806761A2 (en) 1997-11-12
DE69716159T2 (de) 2009-09-17
KR100447558B1 (ko) 2005-01-31

Similar Documents

Publication Publication Date Title
Liu et al. Efficient cepstral normalization for robust speech recognition
Acero et al. Robust speech recognition by normalization of the acoustic space.
Anastasakos et al. Speaker adaptive training: A maximum likelihood approach to speaker normalization
JP2733955B2 (ja) 適応型音声認識装置
US5806029A (en) Signal conditioned minimum error rate training for continuous speech recognition
JPH1069290A (ja) 音声処理装置
JP4218982B2 (ja) 音声処理
EP0545083A2 (en) A speech coding apparatus having speaker dependent prototypes generated from nonuser reference data
US5794192A (en) Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech
JPH08234788A (ja) 音声認識のバイアス等化方法および装置
KR19990043998A (ko) 패턴인식시스템
US6868381B1 (en) Method and apparatus providing hypothesis driven speech modelling for use in speech recognition
Mokbel et al. Towards improving ASR robustness for PSN and GSM telephone applications
Liu et al. Environment normalization for robust speech recognition using direct cepstral comparison
US5943647A (en) Speech recognition based on HMMs
Rahim et al. Signal bias removal for robust telephone based speech recognition in adverse environments
Surendran et al. Nonlinear compensation for stochastic matching
Purohit et al. Intelligibility improvement of dysarthric speech using mmse discogan
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP2973805B2 (ja) 標準パターン作成装置
Nguyen et al. Bone-conducted speech enhancement using vector-quantized variational autoencoder and gammachirp filterbank cepstral coefficients
Ivanov et al. Anthropomorphic feature extraction algorithm for speech recognition in adverse environments
Raghavan Speaker and environment adaptation in continuous speech recognition
Takagi et al. Rapid environment adaptation for robust speech recognition
JP3036706B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040407

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060623

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060928

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070601