JPH1069290A - 音声処理装置 - Google Patents
音声処理装置Info
- Publication number
- JPH1069290A JPH1069290A JP9117121A JP11712197A JPH1069290A JP H1069290 A JPH1069290 A JP H1069290A JP 9117121 A JP9117121 A JP 9117121A JP 11712197 A JP11712197 A JP 11712197A JP H1069290 A JPH1069290 A JP H1069290A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- codebook
- vector quantization
- environment
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims abstract description 104
- 238000013139 quantization Methods 0.000 claims abstract description 61
- 230000006978 adaptation Effects 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 10
- 230000001413 cellular effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241000747049 Aceros Species 0.000 description 1
- 241000287531 Psittacidae Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
ベクトル量子化コードブックを発生すると共に、少なく
とも1つの二次環境を記述する少なくとも1つの二次ベ
クトル量子化コードブックを発生するコードブック発生
器26を含む。二次ベクトル量子化コードブックは、基
準ベクトル量子化コードブックを使って発生される。基
準ベクトル量子化コードブックを使って訓練された音声
認識装置38も含まれる。前処理モジュール32が、未
知の環境から収集された入力音声を受取って、音声認識
装置38に入力する前に、基準ベクトル量子化コードブ
ック及び二次ベクトル量子化コードブックの適応を使っ
て、この音声を前処理する。
Description
関し、更に具体的に云えば、ベクトル量子化コードブッ
ク適応を用いて音声信号を補償する方法と装置に関す
る。
境及び試験環境の不整合に特に敏感である。この敏感さ
によって、電話を介しての指令及びディジット認識や音
声ダイヤルのような多くのタスクに於ける性能が劣化す
る。訓練環境及び試験環境の間の音響的な環境の不整合
の結果としてのこの性能の劣化は、音声認識に於ける最
も重要な実際的な問題の1つである。特に、絶えず音響
的な条件が問題になるセルラー電話のような携帯用通信
装置が広く使われるようになったことに伴って、電気通
信回線を介しての用途では、この問題は一層重要度を増
している。
重要な問題であり、相当量の研究を引き付けて来た。問
題の色々な形に対する種々の方式があり、これがスピー
チ・コミュニケーション誌、16、1955年、261
〜291頁所載のY.ゴングの論文「雑音のある環境で
の音声認識」にかなり詳しくまとめられている。更に、
種々の環境の直接的な比較を使う一群の方式もある[例
えば、1993年にマサチューセッツ州ボストンのクル
ワー・アカデミック・パブリッシャーズから出版された
A.アセロの著書「自動音声認識に於ける音響及び環境
の頑丈さ」(以下“アセロ”と引用する)、ICASS
P−94、61〜64頁、1994年4月号所載のF.
H.リュー、R.H.スターン、A.アセロ、P.J.
モレノの論文「直接セプストラル比較を用いた頑丈な音
声認識の為の環境の正規化」(以下“リュー他”と引用
する)、及びProc.ARPAヒューマン・ラングイ
ッジ・テクノロジー・ワークショップから1993年3
月に出版されたR.シュバルツ、T.アナスタコス、
F.クバラ、J.マクホール、L.ヌグエン、G.ザバ
リアグコスの論文「多語彙音声認識の比較実験」(以下
“シュバルツ他”と引用する)]。
ロのコードワード依存セプストラル正規化(CDCN)
方式は、音声モデルを訓練した基準環境と未知の試験環
境の両方に対してガウス密度を想定している。次に、こ
れは逐次期待値最大化アルゴリズムによって、未知の密
度パラメータ及び補償ベクトルの両方を計算する。この
方式は環境に無関係であり、即ち、試験環境からの何ら
の訓練データも必要としないが、これは計算コストがか
かる。大抵の実用的な用途では、特に実時間の応答を必
要とする時、計算負担は禁止的である。
(FCDCN)を導入した(リュー他参照)。これは、
同時に記録されたステレオ音声データが利用出来る既知
の試験環境に対する同様な形式の補正を行なう。この方
式を未知の試験マイクロフォンの場合に拡張する為、多
重FCDCN(MFCDCN)方式が提案された。MF
CDCNは、全ての環境に対して、同時に記録されたス
テレオ音声データがその全てに対して要求される既知の
マイクロフォンの集合を使う。この非常に重要な制約の
為、この両方の方式は、スタジオの環境で成されたステ
レオ記録が利用し得るような異なる種類のマイクロフォ
ンにしか使うことが出来ない。こういう方式は、動く車
両のセルラー電話のように、実用的に重要性のある種々
の環境に対して同時に記録されたデータを収集すること
は出来ないので、一般的な環境補償というよりも、マイ
クロフォン補償であるということが出来る。
クは、認識過程全体を通じて固定されており、一旦環境
の利用し得る集合の中のある環境が選ばれると、補償ベ
クトルは変えない。従って、必要とされているのは、音
響的に同様な環境に関する先験的な情報を使うと共に、
音声認識を改善する為に、試験環境に適応させる補償方
式である。
の基準環境及び既知の二次環境に対するベクトル量子化
コードブックを計算するコードブック発生器と、既知の
環境に対して発生されたベクトル量子化コードブックを
使って、未知の環境から収集された音声を補償する前処
理装置とを含む音声認識方法及び装置である。補償され
た音声が、更に処理する為、音声認識装置に入力され
る。この音声認識装置は、基準ベクトル量子化コードブ
ックを使って訓練されている。
ドブックを二次環境に適応させることにより、同時のス
テレオ記録の必要を避けることである。本発明の別の目
的は、環境の間の整合を連続的に改善する為に、利用し
得る環境コードブックを試験環境に動的に適応させるこ
とである。本発明の上記並びに当業者に明らかなその他
の特徴は、以下図面に付いて本発明を詳しく説明すると
ころから理解されよう。
を訓練するのに使った音声データが得られた環境とは異
なる種々の音響的な環境から音声入力を受取るタスクに
対し、音声認識の性能を改善する方式を含む。隠れマル
コフ・モデル(HMM)に基づく認識装置が、訓練環境
及び試験環境の不整合に敏感であることは良く知られて
いる。この敏感さの為、電話を介しての指示及びディジ
ット認識や音声ダイヤルのような多くのタスクに於ける
性能が劣化する。本発明で用いる方式は、到来音声特徴
ベクトルを前処理し、音響的に同様な環境に関する先験
的な情報並びに実際の試験環境に関するオンラインの適
応の両方を使って、モデル環境に一層良くあてはまるよ
うに、到来する音声ベクトルを変換する。
置及び方法に使われる方式は、セルラー集合の連続10
ディジット認識でワード誤りを減少する。特に、この方
式は、地上通信線で訓練したモデルを用いたセルラー手
空きマイクロフォン音声の連続10ディジット認識でワ
ード誤りを23.8%から13.6%に減少すると共
に、話者に依存する音声呼出の文章の誤りを16.5%
から10.6%に減少する。
ク図が図1に示されている。本発明で使われるHMM音
声認識装置38では、フレーム・エネルギー、有声音、
スペクトル及びその微分のような広い範囲の特徴が連結
されて、高次元特徴ベクトルを形成する。主成分解析が
この高次元ベクトル音声に適用され、統計的な変動が最
も大きい軸の部分集合を選ぶことにより、次元を下げ
る。この手順が、図1に示す音声特徴ベクトル発生器2
2によって実施される。
成分空間内の音声特徴ベクトルに対するベクトル量子化
コードブックを発生する。従って、クラスのメンバは、
他の多くの方式に於けるようにそのスペクトルの点で関
係づけられているだけでなく、音声認識の性能の点で環
境の影響を受ける受け方を決定する静的及び動的な両方
の特徴によっても関係づけられている。図2に示すよう
に、コードブック発生器26は、コードブック設計モジ
ュール42及びコードブック・アダプタ・モジュール4
4を含むが、その各々をこれから詳しく説明する。音響
的な環境hは、次式で表わされるベクトル量子化コード
ブックXh によって記述される。
す。次式で表わされる基準環境Xref に対するベクトル
量子化コードブックが、コードブック設計モジュール4
2で、一般化ロイド・アルゴリズムを使って設計される
[IEEE Trans.Commun.,vol.C
OM−28、84〜95頁、1980年1月号所載の
Y.リンデ、A.ブゾー、R.M.グレイの論文「ベク
トル量子化器の設計のアルゴリズム」参照(以下“リン
デ他”と引用する)]。
境χに対するベクトル量子化コードブックでは、
同時に記録されるステレオ・データベースでは、全ての
フレームにラベルが付けられ、クラスの混同は起らない
ので、これは自動的に満たされる。電話を介しての音声
ダイヤルのような用途では、ステレオ・データベースを
収集するのは実際に不可能である。
ール44の1つの構成例では、リュー他に述べられてい
るインクリメンタル更新方式を使って、二次環境コード
ブックを適応させる。しかし、基準環境に対するコード
ブックを初期コードブックとして使って、一般化ロイド
・アルゴリズムを使うことにより、コードブック・アダ
プタ・モジュール44を構成することも考えられる。本
発明のコードブック発生器26の2番目の構成は、最初
の構成例のインクリメンタル更新方式のバッチ形と見な
すことが出来る。実際的には、両者は比肩し得る性能を
もたらした。本発明の現在の実施例では、2番目の構成
例を使って、コードブック・アダプタ・モジュール44
を構成する。
6の動作を示すフローチャートである。判定ブロック9
0で、音声特徴ベクトル発生器22から受取った到来す
る音声特徴ベクトルが基準環境からのものであると、そ
の後の処理はブロック92に続き、そこで音声特徴ベク
トルを使って基準ベクトル量子化コードブックを設計す
る。その後、ブロック94で、その結果得られた基準ベ
クトル量子化コードブックをデータ記憶装置30に記憶
し、コードブック発生器26に於ける処理が終る。判定
ブロック90で、到来する音声特徴ベクトルが既知の二
次環境の1つを表わす場合、処理はブロック96で続け
られ、そこでデータ記憶装置30から基準ベクトル量子
化コードブックを再生する。その後、ブロック98で、
既知の二次環境からの音声特徴ベクトルを使って、基準
ベクトル量子化コードブックを適応させ、二次ベクトル
量子化コードブックを発生する。ブロック100で、二
次ベクトル量子化コードブックをデータ記憶装置30に
記憶し、コードブック発生器26に於ける処理が終る。
すブロック図である。図4に示すように、前処理モジュ
ール32は、補償モジュール102と計算モジュール1
04と更新コードブック・モジュール106とを含む。
未知の試験環境から到来する音声特徴ベクトル(発声の
n番目のフレーム)をx(n)で表わす。その時、図1
及び図4に参照符号32で示した補償済み特徴ベクトル
イ領域kに属する確率
ジュール104で計算される。
なわれる補償及び認識の際、コードブックのオンライン
適応が、次式に従って更新コードブック・モジュール1
06によって行なわれる。
続ディジット認識及び音声呼出に関する実験結果を示
す。この集合は、手持ち(ハンドヘルド)の近くで話す
マイクロフォンと、手空き(ハンズフリー)のバイザー
に取付けたマイクロフォンの2種類のマイクロフォンを
使って、セルラー回線を介して収集されたデータと地上
通信線で収集した音声データとで構成される。この集合
の地上通信線で手持ちのマイクロフォンで収集された部
分は、VAA集合に品質が比肩し得るような大部分明瞭
な電話音声である。しかし、この集合の手空きのマイク
ロフォンの部分は、他よりもかなり雑音が多い。
関係な部分に関する2つの実験を説明する。1番目の実
験は、手持ちのマイクロフォンで訓練されたモデルが使
われている時、手空きのマイクロフォンによってもたら
された効果を正規化する時の補償アルゴリズムの有効性
を解明する。2番目の実験は、更に一般的であって、完
全なマッコー・連続ディジット・データに対する正規化
された並びに正規化されていない性能を比較する時に、
VAA集合で訓練したモデルを使う。
を使って作られた、マッコー集合の手持ち部分を用いて
更新されたモデルを使った。従って、結果表の手持ちの
行は、厳密には閉集合の結果である。2番目の実験で
は、VAA1集合で訓練した有限持続時間ディジット・
モデルを使った。
よって正規化された。ここに、その結果を報告するコー
ドブック寸法は16である。コードブックは、認識結果
が得られたモデル訓練集合から分解したマッコー及びV
AA集合内のデータ集合で訓練した。
モデルを使う)の結果が、表1に示されている。
手空きの時の誤りが目立って減少する。
ルを使う)の結果を表2に示す。
準環境に乱れを生ぜず、VAAに近い地上通信線及び手
持ちの環境にも乱れがない。やはり、手空き(ハンドフ
リー)の時の誤りがかなり減少する。
部分で、同様な実験を繰返した。表3及び表4は、音声
呼出の用途で夫々が10人の名前を発声する30人の話
者に対する平均結果を示すものである。表3は、地上通
信線を基準環境として使った場合の結果を示す。表4
は、手持ちを基準環境とした場合の結果を示す。
コードブックでなく、連続的な混合に一般化することは
明瞭であり、その場合、計算が増加し、凡らく若干の改
善が達成されよう。本発明で使われた方式は、不所望の
歪みのパラメトリックな取扱いが困難で、歪みの原因と
なった種々の同じような状態でのデータが利用出来る場
合、任意の問題に応用し得る。
が、特許請求の範囲によって定められた本発明の範囲を
逸脱することなく、この実施例に種々の変更、置換を加
えることが出来ることは云う迄もない。
する。 (1) 基準環境及び少なくとも1つの二次環境を含む
複数個の環境から音声信号を収集する収集手段と、該収
集手段に結合された、収集された音声から音声特徴ベク
トルを発生する音声特徴ベクトル発生器と、該音声特徴
ベクトル発生器に結合された、前記音声特徴ベクトルを
使って、前記基準環境から収集された音声を記述する基
準ベクトル量子化コードブックを発生すると共に、前記
少なくとも1つの二次環境から収集された音声を記述す
る少なくとも1つの二次ベクトル量子化コードブックを
発生するコードブック発生器と、該コードブック発生器
に結合された、前記基準ベクトル量子化コードブック及
び前記少なくとも1つの二次ベクトル量子化コードブッ
クを記憶する記憶手段と、該記憶手段に結合された、前
記音声特徴ベクトル発生器に結合されて、前記基準ベク
トル量子化コードブック及び前記少なくとも1つの二次
ベクトル量子化コードブックを使ってコードブック適応
を作成すると共に、前記コードブック適応を使って未知
の環境から収集された音声特徴ベクトルを変換して補償
済み音声特徴ベクトルを発生する前処理装置と、前記基
準ベクトル量子化コードブックを使って訓練された音声
モデルを含む、前記補償済み音声特徴ベクトルを処理す
る音声認識装置と、を含む音声処理装置。
て、前記音声認識装置が、隠れマルコフ・モデルを基本
とした認識装置である音声処理装置。 (3) 第1項記載の音声処理装置に於いて、前記コー
ドブック発生器が、一般化ロイド・アルゴリズムを使っ
て前記基準ベクトル量子化コードブックを発生するよう
に作用し得る音声処理装置。 (4) 第1項記載の音声処理装置に於いて、前記前処
理装置が、インクリメンタル更新を使って前記コードブ
ック適応を作成するように作用し得る音声処理装置。 (5) 第1項記載の音声処理装置に於いて、前記前処
理装置が、初期コードブックを含む一般化ロイド・アル
ゴリズムを使って、前記コードブック適応を作成するよ
うに作用し得る音声処理装置。
て、前記初期コードブックが前記基準ベクトル量子化コ
ードブックである音声処理装置。 (7) 第1項記載の音声処理装置に於いて、前記コー
ドブック発生器が、前記少なくとも1つの二次ベクトル
量子化コードブックを発生するように前記基準ベクトル
量子化コードブックを適応させるように作用し得る音声
処理装置。 (8) 第1項記載の音声処理装置に於いて、確率
kに属する確率であるとして、前記前処理装置が、
モジュールが、確率Phが発声が環境hに属する確率で
あるとして、
算モジュールが、
処理装置。 (11) 第8項記載の音声処理装置に於いて、前記前
処理装置が更に更新コードブック・モジュールを含む音
声処理装置。
於いて、前記更新コードブック・モジュールが、
適応させるように作用し得る音声処理装置。
を処理する方法に於いて、基準環境から収集された音声
を記述する基準ベクトル量子化コードブックを発生し、
前記基準ベクトル量子化コードブックを使って、音声認
識装置に含まれている音声モデルを訓練し、前記基準ベ
クトル量子化コードブックを使って少なくとも1つの既
知の二次環境から収集された音声を記述する少なくとも
1つの二次ベクトル量子化コードブックを発生し、前記
少なくとも1つのベクトル量子化コードブックを使って
コードブック適応を作成し、未知の環境から収集された
音声を記述する音声特徴ベクトルを発生し、前記基準ベ
クトル量子化コードブック及び前記コードブック適応を
使って前記音声特徴ベクトルを変換して補償済み音声特
徴ベクトルを発生し、更に処理する為に、前記補償済み
音声特徴ベクトルを前記音声認識装置に対する入力とし
て供給する、工程を含む方法。
基準ベクトル量子化コードブックを発生すると共に、少
なくとも1つの二次環境を記述する少なくとも1つの二
次ベクトル量子化コードブックを発生するコードブック
発生器26を含む音声処理装置及び方法である。二次ベ
クトル量子化コードブックは、基準ベクトル量子化コー
ドブックを使って発生される。基準ベクトル量子化コー
ドブックを使って訓練された音声認識装置38も含まれ
る。前処理装置32が、未知の環境から収集された入力
音声を受取って、音声認識装置38に入力する前に、基
準ベクトル量子化コードブック及び二次ベクトル量子化
コードブックの適応を使って、この音声を前処理する。
図。
フローチャート。
Claims (2)
- 【請求項1】 基準環境及び少なくとも1つの二次環境
を含む複数個の環境から音声信号を収集する収集手段
と、 該収集手段に結合された、収集された音声から音声特徴
ベクトルを発生する音声特徴ベクトル発生器と、 該音声特徴ベクトル発生器に結合された、前記音声特徴
ベクトルを使って、前記基準環境から収集された音声を
記述する基準ベクトル量子化コードブックを発生すると
共に、前記少なくとも1つの二次環境から収集された音
声を記述する少なくとも1つの二次ベクトル量子化コー
ドブックを発生するコードブック発生器と、 該コードブック発生器に結合された、前記基準ベクトル
量子化コードブック及び前記少なくとも1つの二次ベク
トル量子化コードブックを記憶する記憶手段と、 該記憶手段に結合された、前記音声特徴ベクトル発生器
に結合されて、前記基準ベクトル量子化コードブック及
び前記少なくとも1つの二次ベクトル量子化コードブッ
クを使ってコードブック適応を作成すると共に、前記コ
ードブック適応を使って未知の環境から収集された音声
特徴ベクトルを変換して補償済み音声特徴ベクトルを発
生する前処理装置と、 前記基準ベクトル量子化コードブックを使って訓練され
た音声モデルを含む、前記補償済み音声特徴ベクトルを
処理する音声認識装置と、 を含む音声処理装置。 - 【請求項2】 未知の環境から収集された音声を処理す
る方法に於いて、 基準環境から収集された音声を記述する基準ベクトル量
子化コードブックを発生し、 前記基準ベクトル量子化コードブックを使って、音声認
識装置に含まれている音声モデルを訓練し、 前記基準ベクトル量子化コードブックを使って少なくと
も1つの既知の二次環境から収集された音声を記述する
少なくとも1つの二次ベクトル量子化コードブックを発
生し、 前記少なくとも1つのベクトル量子化コードブックを使
ってコードブック適応を作成し、 未知の環境から収集された音声を記述する音声特徴ベク
トルを発生し、 前記基準ベクトル量子化コードブック及び前記コードブ
ック適応を使って前記音声特徴ベクトルを変換して補償
済み音声特徴ベクトルを発生し、 更に処理する為に、前記補償済み音声特徴ベクトルを前
記音声認識装置に対する入力として供給する、 工程を含む方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US646192 | 1996-05-07 | ||
US08/646,192 US5745872A (en) | 1996-05-07 | 1996-05-07 | Method and system for compensating speech signals using vector quantization codebook adaptation |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1069290A true JPH1069290A (ja) | 1998-03-10 |
Family
ID=24592138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9117121A Pending JPH1069290A (ja) | 1996-05-07 | 1997-05-07 | 音声処理装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5745872A (ja) |
EP (1) | EP0806761B1 (ja) |
JP (1) | JPH1069290A (ja) |
KR (1) | KR100447558B1 (ja) |
DE (1) | DE69716159T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019125351A (ja) * | 2017-11-28 | 2019-07-25 | 南京地平綫机器人技術有限公司 | 畳み込みニューラルネットワークの畳み込み層における演算を実行する方法及び装置 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5924065A (en) * | 1997-06-16 | 1999-07-13 | Digital Equipment Corporation | Environmently compensated speech processing |
US7219058B1 (en) * | 2000-10-13 | 2007-05-15 | At&T Corp. | System and method for processing speech recognition results |
US7319954B2 (en) * | 2001-03-14 | 2008-01-15 | International Business Machines Corporation | Multi-channel codebook dependent compensation |
KR100435441B1 (ko) * | 2002-03-18 | 2004-06-10 | 정희석 | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 |
USH2172H1 (en) | 2002-07-02 | 2006-09-05 | The United States Of America As Represented By The Secretary Of The Air Force | Pitch-synchronous speech processing |
US7751483B1 (en) | 2004-04-16 | 2010-07-06 | Majesco Entertainment Company | Video codec for embedded handheld devices |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US20090018826A1 (en) * | 2007-07-13 | 2009-01-15 | Berlin Andrew A | Methods, Systems and Devices for Speech Transduction |
US8775179B2 (en) * | 2010-05-06 | 2014-07-08 | Senam Consulting, Inc. | Speech-based speaker recognition systems and methods |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
CN110648690B (zh) * | 2019-09-26 | 2020-12-15 | 广州三人行壹佰教育科技有限公司 | 一种音频评测方法及服务器 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
JPH0636156B2 (ja) * | 1989-03-13 | 1994-05-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置 |
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
US5487129A (en) * | 1991-08-01 | 1996-01-23 | The Dsp Group | Speech pattern matching in non-white noise |
JP2979943B2 (ja) * | 1993-12-14 | 1999-11-22 | 日本電気株式会社 | 音声符号化装置 |
US5598505A (en) * | 1994-09-30 | 1997-01-28 | Apple Computer, Inc. | Cepstral correction vector quantizer for speech recognition |
-
1996
- 1996-05-07 US US08/646,192 patent/US5745872A/en not_active Expired - Lifetime
-
1997
- 1997-05-06 KR KR1019970017307A patent/KR100447558B1/ko not_active IP Right Cessation
- 1997-05-07 EP EP97303087A patent/EP0806761B1/en not_active Expired - Lifetime
- 1997-05-07 JP JP9117121A patent/JPH1069290A/ja active Pending
- 1997-05-07 DE DE69716159T patent/DE69716159T2/de not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019125351A (ja) * | 2017-11-28 | 2019-07-25 | 南京地平綫机器人技術有限公司 | 畳み込みニューラルネットワークの畳み込み層における演算を実行する方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
EP0806761B1 (en) | 2002-10-09 |
DE69716159D1 (de) | 2002-11-14 |
KR19980082408A (ko) | 1998-12-05 |
EP0806761A3 (en) | 1998-09-23 |
KR100447558B1 (ko) | 2005-01-31 |
DE69716159T2 (de) | 2009-09-17 |
US5745872A (en) | 1998-04-28 |
EP0806761A2 (en) | 1997-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Efficient cepstral normalization for robust speech recognition | |
Acero et al. | Robust speech recognition by normalization of the acoustic space. | |
Anastasakos et al. | Speaker adaptive training: A maximum likelihood approach to speaker normalization | |
JP2733955B2 (ja) | 適応型音声認識装置 | |
US5806029A (en) | Signal conditioned minimum error rate training for continuous speech recognition | |
JPH1069290A (ja) | 音声処理装置 | |
JP4218982B2 (ja) | 音声処理 | |
US5732187A (en) | Speaker-dependent speech recognition using speaker independent models | |
EP0545083A2 (en) | A speech coding apparatus having speaker dependent prototypes generated from nonuser reference data | |
US5794192A (en) | Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech | |
JPH08234788A (ja) | 音声認識のバイアス等化方法および装置 | |
KR19990043998A (ko) | 패턴인식시스템 | |
Mokbel et al. | Towards improving ASR robustness for PSN and GSM telephone applications | |
US6868381B1 (en) | Method and apparatus providing hypothesis driven speech modelling for use in speech recognition | |
Liu et al. | Environment normalization for robust speech recognition using direct cepstral comparison | |
Surendran et al. | Nonlinear compensation for stochastic matching | |
US5943647A (en) | Speech recognition based on HMMs | |
Rahim et al. | Signal bias removal for robust telephone based speech recognition in adverse environments | |
Purohit et al. | Intelligibility improvement of dysarthric speech using mmse discogan | |
Nguyen et al. | Bone-conducted speech enhancement using vector-quantized variational autoencoder and gammachirp filterbank cepstral coefficients | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
JP2973805B2 (ja) | 標準パターン作成装置 | |
Ivanov et al. | Anthropomorphic feature extraction algorithm for speech recognition in adverse environments | |
Raghavan | Speaker and environment adaptation in continuous speech recognition | |
Takagi et al. | Rapid environment adaptation for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040407 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060623 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060925 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060928 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070601 |