JP2001356792A - 自動音声認識実行方法および装置 - Google Patents
自動音声認識実行方法および装置Info
- Publication number
- JP2001356792A JP2001356792A JP2001117647A JP2001117647A JP2001356792A JP 2001356792 A JP2001356792 A JP 2001356792A JP 2001117647 A JP2001117647 A JP 2001117647A JP 2001117647 A JP2001117647 A JP 2001117647A JP 2001356792 A JP2001356792 A JP 2001356792A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- features
- decoded
- speech features
- coded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000005540 biological transmission Effects 0.000 claims description 24
- 238000004891 communication Methods 0.000 claims description 12
- 230000001413 cellular effect Effects 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims 1
- 108091006146 Channels Proteins 0.000 description 62
- 230000008569 process Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000013139 quantization Methods 0.000 description 13
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000013459 approach Methods 0.000 description 9
- 101100036896 Schizosaccharomyces pombe (strain 972 / ATCC 24843) uep1 gene Proteins 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005562 fading Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- OTMSDBZUPAUEDD-UHFFFAOYSA-N Ethane Chemical compound CC OTMSDBZUPAUEDD-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101001062854 Rattus norvegicus Fatty acid-binding protein 5 Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
ASR(自動音声認識)システムにおいて、復号ビット
についての確率論的な精度情報を利用した自動音声認識
を実行する方法および装置を実現する。 【解決手段】 与えられたASR特徴(例えば、線形予
測符号化分析に基づくケプストラム係数と信号エネルギ
ー成分であって、不均一誤り保護方式を用いて符号化さ
れる)を符号化するのに用いられる各ビットに対するビ
ット誤り確率を用いて、その特徴の復号値に関してシス
テムが有する信頼度を(例えば、最大事後確率アルゴリ
ズムを用いて)計算する。破損した確率が高い特徴は、
使用されないか、または、より一般的には、音声認識器
18により実行される音響距離計算で低く重み付けされ
る。これは、悪いチャネル条件下でASR性能を大幅に
改善する。
Description
野に関し、特に、ワイヤレスチャネルを通じて用いられ
る分散自動音声認識システムにおける音声認識システム
性能を改善する方法および装置に関する。
話した語または句に応答して自動システムがある(自動
化された)アクションを実行する(例えば、音声入力に
よりシステムを制御する)ことができるように、その語
または句の自動識別を含む。最近大いに注目されている
音声認識方式の1つは、ワイヤレス(例えば、セルラ)
通信チャネルを用いる環境で自動音声認識(ASR:au
tomatic speech recognition)を実行するものである。
このようなワイヤレス/セルラネットワークを通じての
ASRは、次世代ワイヤレスマルチメディアシステムの
設計において重要度が増大している。具体的には、今
日、ASR技術を利用したさまざまな会話システムアプ
リケーションがすでに存在する。これらには、とりわ
け、パーソナルアシスタント、音声ポータル、旅行予約
システム、株式相場システムなどがある。また、特に、
例えば車載移動電話機用に実装されているこのようなア
プリケーションの数は、他のワイヤレス装置用のものと
ともに、急速に増大している。
に適用されることが意図されるときは通常、音声認識プ
ロセス全体が通信チャネルの受信端に配置された。具体
的には、従来の音声符号化技術が、ワイヤレスチャネル
を通じて音声を送信するために用いられ、その後にの
み、しかも、通常、符号化音声が受信端で復号された後
にのみ、(受信端で)音声認識プロセスが実行された。
特に、音声信号の符号化がワイヤレス装置で実行され、
符号化された信号がワイヤレスチャネルを通じて送信さ
れ、この信号がワイヤレスチャネルの受信端で(例え
ば、基地局で)復号されてもとの音声が「再構成」さ
れ、最後に、自動音声認識プロセスが、完全に従来の方
式で(すなわち、あたかもワイヤレスチャネル伝送が全
く実行されなかったかのように)、再構成音声に対して
実行された。一般に、このアプローチは、必要に迫られ
てやむを得ず用いられた。ワイヤレス装置自体で音声認
識プロセスを実行するための計算量は膨大であったから
である。
チャネルを通じてのASRの課題に対する特に興味深い
アプローチの1つに、「分散」ASRシステムというも
のを用いるものがある。ここで「分散」とは、音声認識
プロセスを実現するために実行される必要のある機能
が、ワイヤレスチャネルの両「端」に分かれて別々に配
置されることをいう。すなわち、一部の機能はチャネル
の送信端に(例えば、ワイヤレス装置自体に)配置さ
れ、一部はワイヤレス通信チャネルの受信端に(例え
ば、基地局に)配置される。このようなアプローチによ
れば、ユーザは、集中化されたサーバ(これは通常、高
価な処理パワーおよびメモリを提供する)上の高価なリ
ソースを共有することができる。さらに、分散システム
設計によれば、ASRソフトウェアの集中化されたイン
ストールおよび保守が可能となり、ユーザは、難しいイ
ンストールおよび保守の手続きをせずに済む。ワイヤレ
ス装置でローカルに音声認識を実行するという代替アプ
ローチは、装置に要求される計算量、電力およびメモリ
を大幅に増大させ、複数の言語やアプリケーション領域
間でのポータビリティ(可搬性)を制限する。今日の技
術では、実用的にハンドセット側に置けるのは、例え
ば、話者が学習させた名前によるダイヤルのような非常
に限定された語彙の音声認識システムだけであり、大部
分のアプリケーションはネットワークサーバ側になけれ
ばならない。
方式によれば、ワイヤレス装置で動作する小さいクライ
アントプログラムが、移動端末から音声信号の代表パラ
メータ(通常、ASR技術分野では「特徴」という)を
抽出し、ワイヤレスチャネルを通じてこれらのパラメー
タを音声認識サーバへ送信する。サーバは、例えば、複
数の異なる移動端末のために音声認識タスクを実行する
マルチユーザサーバである。ともあれ、サーバでは、例
えば、当業者に周知の隠れマルコフモデル(HMM)を
用いたもののような、他の点では従来技術と同様の方法
で、これらの特徴に基づいて自動音声認識を実行する。
ス通信技術の周知の複雑さの1つは、データがワイヤレ
スチャネルを通じて伝送されるときに常に遭遇する伝送
誤りの問題から生じる。その結果、最近、ワイヤレス伝
送環境における誤り検出および誤り訂正の問題が大いに
注目されている。特に、さまざまなチャネル符号化方式
が開発され、これらはそれぞれ、与えられたコストで、
ワイヤレスチャネルを通じて伝送しなければならない追
加ビットにおいて、さまざまなレベルの誤り検出および
訂正能力を提供する。この問題については多くの研究が
あるが、このような誤り低減方策の目標は、このような
伝送誤りをまず検出し、その後に、可能であれば、その
効果を除去するということになるのが常である。しか
し、多くの場合、これらの誤りを完全に除去することは
できず、むしろ、ワイヤレス受信機(例えば、基地局)
には、信頼性に問題のある送信データが提供されること
がある。このような場合、従来のワイヤレスシステムは
(ASRのために用いられるか否かにかかわらず)一般
に、データが正しいと(そうでない確率がかなり高いと
認識しているにもかかわらず)仮定するか、または、そ
のデータを完全に信頼できないもの、したがって、「失
われた」(「消失」)ものとみなして、単にそれを捨て
るかのいずれかである。
一部のチャネル符号化方式は、誤り検出および訂正能力
だけでなく、与えられたデータ部分が特定の値に正確に
復号された尤度に関する確率情報をも提供することがで
きることが認識される。具体的には、このような方式
は、復号ビットについて確率論的な精度情報を提供する
ために用いることができる。この認識に基づいて、本発
明は、ワイヤレスチャネルを通じて用いられる分散AS
Rシステムにおいて、このような確率情報を利用した自
動音声認識を実行する方法および装置を提供する。すな
わち、本発明の実施例によれば、復号特徴に対する精度
情報が計算され、悪いチャネル条件下での(すなわち、
伝送誤りや損失の存在下での)音声認識性能を改善する
ために用いられる。
与えられたASR特徴を符号化するのに用いられる各ビ
ットに対するビット誤り確率を用いて、その特徴の復号
値に関してシステムが有する信頼度を計算する。破損し
た確率が高い特徴は、使用されないか、または、より一
般的には、音声認識器により実行される音響距離計算で
低く重み付けされる。音響復号に対するこの新規なアプ
ローチをここでは「ソフト特徴復号」(soft feature de
coding)という。これは、悪いチャネル条件下でASR
性能を大幅に改善する。
ルを通じて伝送された符号化音声特徴のセットを受信す
るステップと、符号化音声特徴のセットを復号して、1
つ以上の復号音声特徴と、それに対応する1つ以上の確
率測度を生成するステップと、前記1つ以上の復号音声
特徴と、それに対応する前記1つ以上の確率測度とに基
づいて、音声認識を実行するステップとを有し、それぞ
れの確率測度は、それに対応する復号音声特徴が正確に
伝送され復号された尤度の推定値を含む。
ASRシステムの概観]本発明の音声認識システムの実
施例によれば、音声認識目的に適した代表パラメータ
は、音声信号から抽出され、量子化されて、6kb/s
(毎秒キロビット)のソースビットレートを生成する。
注意すべき点であるが、これらの音声パラメータから得
られるビットストリームの相異なる部分が、伝送誤りに
対して相異なる感度を有する可能性もある。したがっ
て、ビットストリームの相異なるセグメントに対して不
均一なレベルの誤り保護を与えるいくつかの誤り保護方
式のいずれかを適当に用いることが可能である。本発明
の実施例による符号化ビットストリームの全ビットレー
トは9.6kb/sである。この例示的なコーデックを
調べるための実験を、さまざまなワイヤレスチャネル
(例えば、ガウシアンチャネルや、さまざまなな相関を
有するレイリーチャネル)に対して実施したところ、こ
れらの実験は、悪いチャネル条件の場合であっても、通
常の音声認識タスクについて、満足なシステムの性能を
実証している。
例によれば、チャネル復号器からの「ソフト出力」を利
用して、音声認識システムの性能が改善される。具体的
には、各復号ビットの信頼度を復号プロセスから取得
し、この信頼度を用いて、復号されたASR特徴におけ
る信頼度を推定する。これらの信頼度に基づいて、音声
認識アルゴリズムにおける各特徴の重要度に重み付けす
ることが可能である。
用した、ワイヤレスチャネルを通じて用いられる例示的
な自動音声認識システムのブロック図である。システム
は、例として、ワイヤレス装置10、ワイヤレス伝送チ
ャネル14、および基地局19を有する。本発明の原理
によれば、ワイヤレス装置10に供給された入力音声
は、特徴抽出モジュール11によって処理され、それか
ら音声認識特徴が抽出される。これらの音声認識特徴
は、例えば、LPC(線形予測符号化)に基づくケプス
トラム係数や信号エネルギーパラメータのような、従来
の音響特徴(すなわち、一般に従来の音声認識システム
によって用いられるもの)を含む。このようなパラメー
タ(すなわち、特徴)の識別および抽出は全く従来技術
のものであり当業者に周知である(ここで説明する本発
明の実施例により選択されることが可能な特徴のセット
についてさらに詳細には後述する)。
ル12が、このデータに対して従来の符号化プロセス
(すなわち、量子化)を実行する。これは、例えば、同
じく当業者に周知の従来のスカラー量子化を含む(本発
明の実施例により利用可能な量子化方式についてさらに
詳細には後述する)。最後に、この結果得られた(特徴
量子化モジュール12からの)ビットは、チャネル符号
化モジュール13によって符号化される。チャネル符号
化モジュール13は、当業者に周知の従来のいずれのチ
ャネル符号化方式を適用することも可能である。特に、
本発明の実施例によれば、いくつかの可能な不均一誤り
保護(UEP)方式の1つを利用する。これらの方式は
当業者に周知である(このような方式のいくつかの例に
ついてさらに詳細には後述する)。
れ、選択された特徴を量子化し符号化した表現は、例え
ば、ワイヤレス装置10によって、ワイヤレスチャネル
14を通じて、処理のために基地局19へ送信される。
具体的には、基地局19では、本発明の実施例によれ
ば、まず送信データがチャネル復号モジュール15によ
って復号され、復号ビットのセットと、対応するビット
信頼性情報の両方が生成される。このような復号技術は
従来のものであって当業者に周知であり、(復号ビット
値の正確さの確率に関する情報なしで)最尤ビット値の
みを提供するさらに旧式の復号技術(例えば、単純ビタ
ビ復号のような)とは異なって、確率論的な復号ビット
情報を提供する。
ットに基づいて、特徴回復モジュール16によって特徴
が回復される(すなわち、ビットが特徴データへと再構
成される)。これは全く従来技術のものであり当業者に
周知である。しかし、同時に、本発明の原理によれば、
および、本発明の実施例によれば、チャネル復号モジュ
ール15によって求められたビット信頼度値が、ビット
−特徴信頼度変換モジュール17によって、特徴信頼度
値に変換される。その後、得られた特徴(特徴回復モジ
ュール16によって求められたもの)と、特徴信頼度値
(ビット−特徴信頼度変換モジュール17によって計算
されたもの)は、音声認識器18に供給される。音声認
識器18は、特徴およびそれに対応する信頼度値の両方
に基づいて、もとの入力音声(ワイヤレス装置10に供
給されたもの)の音声認識を実行する。
子化プロセス]通常の音声符号化アルゴリズムを用いて
得られる音声パラメータは、必ずしも、音声認識の目的
に最適なパラメータであるとは限らない。さらに、音声
符号器は通常、励振すなわちLPC残差信号の送信のた
めにかなりのビット数を費やすが、この情報は、音声認
識の目的のためには全く有用ではない。したがって、本
発明では、音声認識の目的のために特に選択される音声
パラメータのみを抽出し送信することに焦点を当てるこ
とにする。
号パラメータ化のために、当業者に周知のケプストラム
特徴を使用する。これは、距離によるクラシファイアに
適した、コンパクトでロバスト(頑健)な音声表現であ
り、いずれも当業者に周知のメル−フィルタバンク分析
や線形予測法(LPC)から計算可能である。本発明の
実施例の自動音声認識システムによれば、音声認識に用
いられる音響特徴は、従来の次数10のLPC分析に基
づいて10msごとに計算された12個のケプストラム
係数c1,c2,...,c12と、全信号エネルギーe
である。信号サンプリングレートは8000Hzであ
り、240サンプルのハミング窓が用いられる。したが
って、この特徴のセットは、10msごとに13次元ベ
クトルを形成し、この例示的な自動音声認識システムへ
の音響入力となる。
はすべてスカラー量子化される。単純な非一様量子化器
を用いて量子化セルを決定することが可能である。量子
化器は、圧伸関数として経験的な分布関数を使用し、サ
ンプルは、量子化セル内で一様分布する。使用可能な1
つの例示的アルゴリズムは、当業者に周知のロイドのア
ルゴリズムに対する単純な非反復近似であるが、これは
必ずしも量子化ノイズを最小にしない。より良好な性能
は、同じく当業者に周知のk平均型アルゴリズムを特徴
ベクトル全体に適用して(すなわち、ベクトル量子化)
達成することが可能である。なお、以下で説明する誤り
保護および隠蔽アルゴリズムは、さまざまな量子化方式
とともに使用可能である。
いて、いずれも当業者には明らかなさまざまなビット割
当て方式を使用可能である。例えば、1つの可能な有利
な方式は、6ビットを信号エネルギーeと5個の上位ケ
プストラム特徴c1,...,c5のそれぞれに割り当
て、4ビットを次の6個のケプストラム特徴
c6,...,c11のそれぞれに割り当てるものであ
る。経験的テストによれば、最後の(すなわち、12番
目の)ケプストラム係数c12を、固定したあらかじめ
計算された平均で置き換えることによって、評価される
タスクに大きい性能劣化はない。このように、c12に
は音声認識プロセスに関連する最小の情報しかないた
め、これにはビットを割り当てないことが可能である。
受信機では、c12は単に固定されあらかじめ計算され
た平均値から回復され、その後、標準的な13次元の特
徴ベクトルが認識中に用いられる。この例示的なビット
割当て方式のビット総数は10msフレームあたり60
ビットであり、これにより、ワイヤレスチャネルを通じ
て伝送される無符号化データレートは6kb/sとな
る。
能に対するさまざまな音声符号化アルゴリズムの効果に
ついて多くの研究がある。具体的には、一般に分散ワイ
ヤレス音声認識システムにおける重大なASR性能の劣
化が注意されており、特に、この劣化は、バースト的に
発生するワイヤレス伝送誤りの場合に起こる。受信信号
強度の急速なゆらぎのため、移動無線環境はデータ伝送
のためには非常に困難なチャネルとなることがある。そ
のため、ASRパラメータの伝送には、帯域幅およびパ
ワー効率を改善するために、特別のチャネル誤り保護方
式が用いられる。チャネル誤り保護音声パラメータは、
ワイヤレス端末および基地局の両方に配置される音声認
識コーデックを形成する。図1に示す本発明の実施例の
システムは、広範囲の相異なるチャネル条件に対して効
率的な音声認識コーデックを提供することを目標とす
る。さらに、伝送誤りの場合の音声パラメータの再送を
避けることが強く望まれる。再送は、システム応答にお
ける追加遅延を生じ、スペクトル効率を低下させるから
である。
例の特徴量子化方式により10ms音声フレームごとに
提供される60ビットには、複数のレベルの誤り保護を
設けることが可能である。音声符号化アプリケーション
に対する不均一誤り保護(UEP)方式は当業者に周知
であり、文献や標準において広く調べられている。いく
つかのUEP方式が、本発明の例示的なASRシステム
について調べられており、特に3つの方式についてここ
で説明する。
ステムによる量子化音声パラメータのデータレートは6
kb/sである。とりわけ、北米セルラ標準IS−95
で用いられるデータレートの1つに基づいて、本発明の
実施例のASRシステムは、当業者に周知の2元差分位
相シフトキーイング(DPSK)変調フォーマットの符
号化信号に対し9.6kb/sのデータレートを使用す
る。なお、9.6kb/sのデータレートで導入される
チャネルオーバーヘッドはあまり大きくはなく、与えら
れたアプリケーションに対してさらに低い符号化ビット
レートが要求される場合、より高次の変調による、同じ
く当業者に周知のトレリス符号化変調方式を用いること
も可能である。また、復調プロセスを簡単にするため
に、従来の差分変調技術を用いることも可能である。
ルでは、大きいインタリーバを用いてシステム性能を改
善することが有効である。しかし、大きいインタリーバ
は遅延を導入し、これは、一部のリアルタイムアプリケ
ーションでは好ましくないことがある。本発明の実施例
のASRシステムによれば、80msフレーム、すなわ
ち、8個の音声フレームが、インタリーブおよびチャネ
ル符号化の目的のために選択されている。したがって、
インタリーブおよびデインタリーブの総遅延は160m
sであり、これは、通常のワイヤレス音声認識アプリケ
ーションでは容易に受け入れることが可能な長さであ
る。
ば、10ms音声フレームにおいて「保護」される12
個の音声パラメータは、エネルギーパラメータeと、1
1個のケプストラム係数c1(n),c
2(n),...,c11(n)である。ただし、nは、
音声フレームインデックスを表す。明らかに、上記のパ
ラメータの上位のビットほど、高いチャネル誤り保護を
提供すると有効である。さらに、エネルギーパラメータ
eが、量子化ノイズおよびランダム伝送誤りに最も敏感
であり、次に敏感なのはケプストラム係数c
1(n),...,c5(n)であり、その後に、ケプス
トラム係数c6(n),...,c11(n)が続くとい
うことがわかっている。実施例のチャネル符号化ビット
レートは9.6kb/sであるため、80msのチャネ
ル符号化フレームにおける全符号化ビット数は768と
なる。
ではUEP1という)によれば、L1、L2およびL3
で表される3つのレベルのチャネル誤り保護を考える。
さらに、L1の上位ビットにさらに高いレベルの誤り保
護を与えるために、L1を2つのレベルL1_1および
L1_2に分ける。相異なる不均一誤り保護(UEP)
レベルに対するビットの割当てを次の表に示す。
1(n),...は、e(n)のビットを上位から下位へ
の順で表す(ケプストラム係数についても同様)。上記
の表からわかるように、L1、L2およびL3における
音声フレームあたりのビット数はそれぞれ、13、24
および23である。この場合、L1_1は、重要なほう
から7ビットとして決定されたビットを含み、これらの
ビットは、内側畳込み符号(当業者に周知)に加えて、
外側(12,7)巡回符号(同じく当業者に周知)を用
いて保護される。本発明の一実施例では、(12,7)
巡回符号は、誤りの検出にのみ用いられ、これは、受信
機における誤り隠蔽に有用である。しかし、本発明の別
の実施例によれば、受信機に複雑さを追加することによ
り、この符号を誤り訂正のためにも利用することが可能
である。L1_2は、この例では、次に重要な6ビット
を含む。レート1/2、メモリ8の符号をL1レベルの
ビットに使用するため、L1レベルの8個の音声フレー
ムに対する符号化ビットの総数は288となる。
5ビットを含み、レート2/3のレートコンパチブルパ
ンクチャド畳込み(RCPC)符号がレベルL2に対し
て用いられる。8ビットのテールを含む、8個の音声フ
レームに対する符号化されたL2レベルビットの総数は
この例では300となる。最も重要性の低いビットはL
3にあり、これらのビットは、全くチャネル符号化なし
で送信されることが可能である。8個の音声フレームに
おける符号化後のビットの総数を768に維持するた
め、符号化されたL2レベルのビットからさらに4ビッ
トをパンクチャド符号化により除く。L1_1レベルの
ビットの後にL1_2レベルのビットが続き、その次に
L2レベルのビットが続くように、チャネル符号化が実
行される。なお、RCPC符号のため、レート1/2符
号は終端しない。そのため、L2レベルからチャネル符
号の復号深さ未満しか離れていないL1_2のビット
は、通常のレート1/2母符号に入らないことになる。
チャネル符号器入力において、8個の音声フレームn,
(n+1),...,(n+7)に対するL1_2レベル
のビットは次のように配列される。e2(n),e
2(n+1),...,e2(n+7);c1 1(n),
c1 1(n+1),...,c1 1(n+7);...;c5
1(n),c5 1(n+1),...c5 1(n+7) 前述のように、係数c1(n)はc5(n)より重要で
あることがわかっているため、このビット配列により、
L1_2フレームの終端付近の重要性の低いビットが、
通常のレート1/2母符号よりも強力でない符号に入る
ことになる。
ではUEP2という)によれば、上記のUEP1方式に
おけるL1_1レベルのビットから外符号が除去され
る。これにより、L2レベルのビットに対して、より強
力な符号が適用される。しかし、L1_1レベルのビッ
トは、外符号の誤り検出および訂正能力がないために、
同じ強度の誤り保護を受けないことになる。L1、L2
およびL3のビット割当ては、誤り保護を除いては、例
えば、UEP1方式の場合と同様である。
合、L1レベルのビットからの8個の音声フレーム中の
符号化ビットの総数は208である。200個のL2ビ
ット(8ビットのテールを含む)に対して、24ビット
をパンクチャド符号化により除いたレート1/2符号を
用いて、376個の符号化ビットが得られる。その場
合、この例では、184個のL3無符号化ビットを合わ
せて、8個の音声フレーム中の符号化ビットの総数は7
68となる。L1_2ビットは、L1_1ビットがL1
_2ビットに先行するようにして、UEP1方式の場合
と同様に配列することが可能である。
ではUEP3という)によれば、ビットは、すべての特
徴成分の上位ビット(MSB)がレベル1にまとめられ
るように再配列される。注意すべき点であるが、(前述
のように)特徴成分e(n)およびc1(n),...,
c5(n)は最も重要であり、またさらに、前述の2つ
の誤り保護方式では、これらの各成分の2個のMSBは
レベルL1にある。しかし、c6(n),...,c11
(n)のMSBもまた重要なパラメータであることにも
注意すべきである。このように、すべての特徴成分のM
SBをL1に入れると有効なことがある。具体的には、
ビット配列は次の表に示すとおりである。
ットは、UEP1方式と同一であり、UEP1と同様に
(12,7)外符号およびレート1/2、メモリ8の内
符号により保護される。UEP1方式の場合と同様に、
レート2/3符号がレベルL2のビットに適用され、レ
ベルL3のビットは符号化されない。
ける音声ビットを表し、b(n)で、チャネル符号器出
力を表す。b(n)は、80msにわたり生じる768
個のシンボルにわたってインタリーブされた後、差分符
号化されて、次式のようになる。 u(n)=d(n)−d(n−1) (1) ただし、d(n)はインタリーバの出力である。ベース
バンド等価受信信号は次のように書くことができる。 y(n)=Aβ(n)u(n)+ν(n) (2) ただし、Aは送信振幅であり、β(n)は複素チャネル
利得であり、ν(n)は加法性白色ガウシアンノイズ
(AWGN)成分である。なお、レイリーフェージング
チャネルの場合、β(n)は、次式を満たす相関する複
素ガウス変数である。 E{β(n)β*(n+k)}=J0(2π(ν/λ)kT) (3) ただし、ν、λおよびTはそれぞれ、移動速度、RF搬
送波の波長、およびシンボル期間である。受信機では、
y(n)はまず差分復号された後、デインタリーブさ
れ、最後にビタビ復号される。その後、ビタビ復号器の
出力a^(n)は、音声認識器モジュールに送られる。
送誤りの悪影響を克服するため、通常の誤り隠蔽方策
は、前に受信したフレームの繰返しや、パラメータ補間
を含むことが多い。これらの技術は、ランダムビット誤
りを修復する助けとなることがあるが、フェージングチ
ャネルに起こりやすいバースト的に起こる誤りに対して
は失敗することがある。本発明の原理によれば、チャネ
ル復号器からASRユニットへの「ソフト出力」に基づ
く新規な誤り隠蔽技術が、ここで説明する例示的なAS
Rシステムで提供される。本発明の一実施例によれば、
当業者に周知の最大事後確率(MAP)アルゴリズムが
用いられる。この従来技術を用いて、各復号ビットの精
度の事後確率を求めることができる。その後、ASRユ
ニットは、この情報を利用して、他の点では従来の音声
認識器に基づいて、改善された音声認識性能を得る。
成分のそれぞれに対して、受信機は、その成分を正しく
復号した信頼度を与える追加的な値を生成する。特に、
本発明の一実施例によれば、12個の特徴のそれぞれに
対して、2個の信頼度ビットが生成される。第1および
第2ビットはそれぞれ、各特徴の第1MSB(最上位ビ
ット)および第2MSB(最上位から2番目のビット)
に対応する。さらに具体的には(実施例によれば)、a
^(n)が、チャネル復号器出力における関連するMS
Bビットであると仮定する。MAP復号器は、確率pi
(n)=Prob{a^(n)=i}(i=0,1)を
与える。ただし、p0(n)+p1(n)=1である。
しきい値をT(>0.5)で表す。すると、pi(n)
>Tの場合、信頼度Λi(n)=1であり、それ以外の
場合、Λi(n)=0である。この例示的な割当てで
は、信頼度値が1に近づくと、対応するビットは非常に
高い確率で正しく、信頼度値が0に近づくと、送信ビッ
トは消失により表される。
れに対してこうして得られる1ビット量子化された信頼
度値Λi(n)は、対応するチャネル復号ビットストリ
ームとともに、音声認識モジュールに送られる。
音声認識器において、誤りの可能性のある送信特徴を捨
て、尤度計算について信頼性の高いもののみを使用す
る。すなわち、高い信頼度を有する成分のみに基づく、
簡約された特徴ベクトルが使用される。例えば、隠れマ
ルコフモデル(HMM)に基づく音声認識システムで
は、観測される特徴ベクトルは、状態ごとの確率分布p
(x|s)によってモデル化される。ただし、xは特徴
ベクトルであり、sはモデルの状態である。(隠れマル
コフモデルおよびそれに基づく音声認識方法は当業者に
周知である。)通常、従来のHMMに基づく音声認識器
は、音素(あるいはtriphone)ごとのHMMの各状態に
対するガウス密度の混合を用いる。このような場合、特
徴ベクトルの信頼できる(信頼可能)部分に対する簡約
分布は、次式のようにすべての信頼できない(信頼不
能)成分にわたり積分することによって求められる周辺
分布となる。
トルの信頼可能および信頼不能成分である。HMM尤度
計算に対する信頼可能成分の周辺分布を用いることは、
ノイズの多い環境における音声認識器のロバスト性を改
善する技術の1つであり、当業者には周知であり、「mi
ssing feature theory」と呼ばれるものである。(な
お、従来のノイズの多い環境における音声認識アプリケ
ーションでは、信頼不能スペクトル特徴のラベリングは
困難な作業となることがあるが、本発明によれば、各特
徴の信頼性はチャネル復号器によって提供される。)特
に、対角共分散ガウシアン混合モデル(当業者に周知)
では、簡約尤度関数は、完全な尤度計算から信頼不能成
分を単に落とすだけで容易に計算することができる。な
お、このアプローチを用いると、既存の音声認識アルゴ
リズムに対する修正が少なくて済む。
びそれから導出される追加特徴が両方とも、音声認識器
によって用いられる。例えば、音声認識プロセスにおい
て、送信特徴自体(すなわち、エネルギー特徴および1
2個のケプストラム特徴)に加えて、そのなめらかな1
次および2次導関数(ここではそれぞれ、「デルタ」特
徴および「デルタ−デルタ」特徴という)を計算して用
いることが可能である。さらに具体的には、信頼可能な
受信特徴のみを用い信頼不能である可能性のあるものを
捨てる本発明の一実施例によれば、次の方策を用いるこ
とが可能である。
については、第1または第2ビットが信頼度値0で受信
された場合、それを尤度計算では用いない(すなわち、
上記の式に従って周辺化する)。
タ」特徴については、デルタまたはデルタ−デルタ計算
のために用いられるウィンドウ内のいずれかの特徴の第
1または第2ビットが信頼度値0で受信された場合、対
応するデルタまたはデルタ−デルタ特徴を尤度計算では
用いない。
の実施例によってもとの特徴セットをソフト特徴セット
に変換する上記のプロセスを説明するダイヤグラムであ
る。この図からわかるように、もとの特徴セットは、例
えば、エネルギー特徴21、ケプストラム特徴22−1
〜22−12、デルタエネルギー特徴23、デルタケプ
ストラム特徴24−1〜24−12、デルタ−デルタエ
ネルギー特徴25、デルタ−デルタケプストラム特徴2
6−1〜26−12を含む。この実施例によれば、5フ
レームおよび7フレームのウィンドウがそれぞれ、デル
タ計算およびデルタ−デルタ計算に用いられる。具体的
には、フレームnに対するデルタ特徴値は、フレームn
−2、n−1、n、n+1、およびn+2に基づいて計
算される。同様に、フレームnに対するデルタ−デルタ
特徴値は、フレームn−3、n−2、n−1、n、n+
1、n+2、およびn+3に基づいて計算される。(も
との特徴セットからデルタを計算する技術は一般に当業
者に周知であり、明らかである。)なお、図示したダイ
ヤグラムでは、これらの特徴のうちの一部(例えば、ケ
プストラム特徴22−1、デルタケプストラム特徴24
−12、デルタ−デルタケプストラム特徴26−1およ
びデルタ−デルタケプストラム特徴26−12)は、ダ
イヤグラムの手続きに従って、不正なMSBの結果とし
て周辺化されたように示されている。
う1つの実施例によれば、尤度計算における特徴成分
は、それらの信頼度値によって重みづけすることが可能
である。この場合、0〜1の連続的な信頼度値が復号プ
ロセスから得られ、音声認識器モジュールの尤度計算に
対する各特徴の寄与を、対応する信頼度値によってスケ
ールさせることができる。すなわち、この誤り隠蔽アプ
ローチを適用する際に、ASR特徴は「ソフト」に用い
られ、各成分は、正確に復号されたことの信頼度によっ
て重みづけされる。
によれば、重みは、音声認識器における確率計算におい
て各特徴にかけられる。状態観測確率密度関数(pd
f)が、次式のような対角共分散ガウシアンpdfの混
合であると仮定する。
サイズであり、Mは状態あたりのガウス分布の混合数で
あり、wm、μm、およびσmはそれぞれ、HMM状態
sに対するm番目のガウシアンの混合重み、平均および
標準偏差である。Cnはn番目の特徴の信頼度であると
仮定すると、復号器で適用される重みづけ方式は、次式
のように状態観測確率計算を修正する。
なお、Cは時間の関数であり、フレームレートで(すな
わち、xが更新されるのと同じ頻度で)更新される。信
頼度が0〜1の数に正規化されていると仮定すると、関
数f(C)の可能な形の1つは、f(C)=(α+1)
/(α+C)であり、上記の式は次のようになる。
ータセットに対して誤りが最小になるように、実験的に
決定することが可能である。なお、αの値が非常に大き
い場合、すべての特徴は多かれ少なかれ同様に重みづけ
され、一方、αの値が非常に小さい場合、高い信頼度値
(すなわち、Cnが1に近い場合)の特徴のみが、観測
確率計算において考慮される。状態観測確率計算におけ
る特徴重みづけ以外の、復号プロセスのその他のすべて
の点については、信頼可能な受信特徴のみを用いて信頼
不能の可能性のあるものを捨てる本発明の実施例に関し
て前述した場合と変わらない。
こで説明した例示的なASRシステムによれば、LPC
から導出される12個のケプストラム係数と、信号エネ
ルギーと、これらの成分の1次および2次時間導関数の
すべてを、音声認識モジュール内で音響特徴として使用
可能である。各音声発話のケプストラム平均は、認識を
実行する前に計算して除去することが可能である。ケプ
ストラム係数および信号エネルギーは、移動端末で計算
して基地局に送信し、次に、受信機においてこれを再構
成して(本発明の原理による)ソフト特徴誤り隠蔽のた
めの信頼度値を付加し、最後にネットワークの音声認識
サーバへ送信することが可能である。この場合、1次お
よび2次時間導関数を生成し、送信される特徴セットに
付加することも可能である。
衆電話網を通じて収集された、例えば英語音声データベ
ースの集まりについて学習させることが可能である。音
声認識器モジュールは、連続密度HMMに基づくことも
可能である。また、HMMによってモデル化される音響
ユニットは、3個のemitting状態を有しleft-to-right
トポロジーを有する状態クラスタ化triphoneモデルとす
ることも可能である。
いて詳細に説明したが、当業者であれば、上記の記載に
基づいて、さまざまな変形例を考えることが可能であ
る。例えば、当業者には認識されるように、図面のブロ
ック図は、本発明の原理を実現する例示的な回路の概念
図を表す。同様に、認識されるように、流れ図、状態遷
移図、擬似コードなどは、実質的に、コンピュータ可読
媒体内に表現し、コンピュータあるいはプロセッサによ
って実行されるようにすることが(そのようなコンピュ
ータあるいはプロセッサが明示的に図示されているかど
うかにかかわらず)可能である。
ロセッサ」あるいは「モジュール」と名づけられた機能
ブロックを含めて、専用ハードウェアや、適当なソフト
ウェアを実行可能なハードウェアを用いて提供可能であ
る。プロセッサによって提供されるとき、これらの機能
は、単一の専用プロセッサによって、単一の共有プロセ
ッサによって、あるいは、複数のプロセッサ(その一部
は共用可能)によって提供可能である。さらに、「プロ
セッサ」あるいは「コントローラ」という用語の明示的
な使用は、ソフトウェアを実行可能なハードウェアを限
定的に指すものと解釈すべきではなく、暗黙的に、限定
的でなく、ディジタル信号プロセッサ(DSP)ハード
ウェア、ソフトウェアを記憶するための読み出し専用メ
モリ(ROM)、ランダムアクセスメモリ(RAM)、
および不揮発性記憶装置を含む。他のハードウェアも、
通常のものであるかカスタム化したものかにかかわら
ず、含まれる。同様に、図中にスイッチがあれば、それ
は概念的なものにすぎない。その機能は、プログラムロ
ジックの動作によって、専用ロジックによって、プログ
ラム制御と専用ロジックの相互作用によって、あるい
は、手動でも、実行可能であり、具体的には文脈から理
解されるように実装者が個々の技術を選択することが可
能である。
行する手段として表現される要素は、例えば、(a)そ
の機能を実行する回路要素の組合せ、あるいは、(b)
ファームウェア、マイクロコードなどを含む任意の形の
ソフトウェアを、その機能を実行するようにそのソフト
ウェアを動作させるための適当な回路と組み合わせたも
の、を含めて、その機能を実行する任意の態様を含む。
ルを通じて用いられる例示的な自動音声認識システムの
ブロック図である。
例に従って、もとの特徴セットをソフト特徴セットに変
換するプロセスを説明する図である。
Claims (40)
- 【請求項1】 通信チャネルを通じて伝送された符号化
音声特徴のセットを受信するステップと、 符号化音声特徴のセットを復号して、1つ以上の復号音
声特徴と、それに対応する1つ以上の確率測度を生成す
る復号ステップと、 前記1つ以上の復号音声特徴と、それに対応する前記1
つ以上の確率測度とに基づいて、音声認識を実行するス
テップとを有し、 それぞれの確率測度は、それに対応する復号音声特徴が
正確に伝送され復号された尤度の推定値を含むことを特
徴とする自動音声認識実行方法。 - 【請求項2】 前記通信チャネルは、ワイヤレス通信チ
ャネルを含むことを特徴とする請求項1記載の方法。 - 【請求項3】 前記符号化音声特徴のセットは、北米セ
ルラ標準IS−95に従って9.6kb/sのデータレ
ートで前記ワイヤレス通信チャネルを通じて伝送されて
いることを特徴とする請求項2記載の方法。 - 【請求項4】 前記符号化音声特徴のセットは、線形予
測符号化分析に基づく1つ以上のケプストラム係数を含
むことを特徴とする請求項1記載の方法。 - 【請求項5】 前記符号化音声特徴のセットは、信号エ
ネルギー成分をさらに含むことを特徴とする請求項4記
載の方法。 - 【請求項6】 前記符号化音声特徴のセットは、非一様
スカラー量子化器を用いて量子化された1つ以上の音声
特徴を含むことを特徴とする請求項1記載の方法。 - 【請求項7】 前記符号化音声特徴のセットは、ベクト
ル量子化された複数の音声特徴を含むことを特徴とする
請求項1記載の方法。 - 【請求項8】 前記符号化音声特徴のセットは、不均一
誤り保護方式を用いて符号化されていることを特徴とす
る請求項1記載の方法。 - 【請求項9】 前記不均一誤り保護方式は、巡回冗長符
号の使用を含むことを特徴とする請求項8記載の方法。 - 【請求項10】 前記不均一誤り保護方式は、畳込み符
号の使用を含むことを特徴とする請求項8記載の方法。 - 【請求項11】 前記符号化音声特徴のセットは、差分
符号化されており、前記復号ステップは、前記符号化音
声特徴のセットを差分復号するステップを含むことを特
徴とする請求項1記載の方法。 - 【請求項12】 前記符号化音声特徴のセットは、送信
前にインタリーブされており、前記復号ステップは、前
記符号化音声特徴のセットをデインタリーブするステッ
プを含むことを特徴とする請求項1記載の方法。 - 【請求項13】 前記復号ステップは、前記符号化音声
特徴のセットのビタビ復号を実行して前記1つ以上の復
号音声特徴を生成することを含むことを特徴とする請求
項1記載の方法。 - 【請求項14】 前記復号ステップは、 受信された符号化音声特徴のセットの1つ以上のビット
に対応する1つ以上のビット信頼度値を決定するステッ
プと、 前記1つ以上のビット信頼度値に基づいて、前記復号音
声特徴に対応する前記1つ以上の確率測度を生成するス
テップとを含むことを特徴とする請求項1記載の方法。 - 【請求項15】 前記1つ以上のビット信頼度値を決定
するステップは、最大事後確率アルゴリズムを用いて実
行されることを特徴とする請求項14記載の方法。 - 【請求項16】 前記音声認識を実行するステップは、
1つ以上の連続密度隠れマルコフモデルを用いて実行さ
れることを特徴とする請求項1記載の方法。 - 【請求項17】 前記音声認識を実行するステップは、
前記1つ以上の復号音声特徴のうち、対応する確率測度
が所定しきい値を超えることにより信頼可能であるとみ
なされたもののみに基づいて実行されることを特徴とす
る請求項1記載の方法。 - 【請求項18】 前記音声認識を実行するステップは、
さらに、1つ以上の音声特徴導関数に基づき、 前記音声特徴導関数は、複数の復号音声特徴の対応する
時間順序系列に基づいて決定されることを特徴とする請
求項1記載の方法。 - 【請求項19】 前記音声認識を実行するステップは、
前記1つ以上の音声特徴導関数のうち、前記対応する時
間順序系列中の前記複数の復号音声特徴の確率測度によ
り信頼可能であるとみなされたもののみに基づいて実行
されることを特徴とする請求項18記載の方法。 - 【請求項20】 前記音声認識を実行するステップは、
前記1つ以上の復号音声特徴に対応する確率測度に基づ
いて、前記1つ以上の復号音声特徴のそれぞれに重みづ
けすることを含むことを特徴とする請求項1記載の方
法。 - 【請求項21】 通信チャネルを通じて伝送された符号
化音声特徴のセットを受信する手段と、 符号化音声特徴のセットを復号して、1つ以上の復号音
声特徴と、それに対応する1つ以上の確率測度を生成す
る復号手段と、 前記1つ以上の復号音声特徴と、それに対応する前記1
つ以上の確率測度とに基づいて、音声認識を実行する手
段とを有し、 それぞれの確率測度は、それに対応する復号音声特徴が
正確に伝送され復号された尤度の推定値を含むことを特
徴とする自動音声認識実行装置。 - 【請求項22】 前記通信チャネルは、ワイヤレス通信
チャネルを含むことを特徴とする請求項21記載の装
置。 - 【請求項23】 前記符号化音声特徴のセットは、北米
セルラ標準IS−95に従って9.6kb/sのデータ
レートで前記ワイヤレス通信チャネルを通じて伝送され
ていることを特徴とする請求項22記載の装置。 - 【請求項24】 前記符号化音声特徴のセットは、線形
予測符号化分析に基づく1つ以上のケプストラム係数を
含むことを特徴とする請求項21記載の装置。 - 【請求項25】 前記符号化音声特徴のセットは、信号
エネルギー成分をさらに含むことを特徴とする請求項2
4記載の装置。 - 【請求項26】 前記符号化音声特徴のセットは、非一
様スカラー量子化器を用いて量子化された1つ以上の音
声特徴を含むことを特徴とする請求項21記載の装置。 - 【請求項27】 前記符号化音声特徴のセットは、ベク
トル量子化された複数の音声特徴を含むことを特徴とす
る請求項21記載の装置。 - 【請求項28】 前記符号化音声特徴のセットは、不均
一誤り保護方式を用いて符号化されていることを特徴と
する請求項21記載の装置。 - 【請求項29】 前記不均一誤り保護方式は、巡回冗長
符号の使用を含むことを特徴とする請求項28記載の装
置。 - 【請求項30】 前記不均一誤り保護方式は、畳込み符
号の使用を含むことを特徴とする請求項28記載の装
置。 - 【請求項31】 前記符号化音声特徴のセットは、差分
符号化されており、前記復号手段は、前記符号化音声特
徴のセットを差分復号する手段を含むことを特徴とする
請求項21記載の装置。 - 【請求項32】 前記符号化音声特徴のセットは、送信
前にインタリーブされており、前記復号手段は、前記符
号化音声特徴のセットをデインタリーブする手段を含む
ことを特徴とする請求項21記載の装置。 - 【請求項33】 前記復号手段は、前記符号化音声特徴
のセットのビタビ復号を実行して前記1つ以上の復号音
声特徴を生成する手段を含むことを特徴とする請求項2
1記載の装置。 - 【請求項34】 前記復号手段は、 受信された符号化音声特徴のセットの1つ以上のビット
に対応する1つ以上のビット信頼度値を決定する手段
と、 前記1つ以上のビット信頼度値に基づいて、前記復号音
声特徴に対応する前記1つ以上の確率測度を生成する手
段とを含むことを特徴とする請求項21記載の装置。 - 【請求項35】 前記1つ以上のビット信頼度値を決定
する手段は、最大事後確率アルゴリズムを用いて実現さ
れることを特徴とする請求項34記載の装置。 - 【請求項36】 前記音声認識を実行する手段は、1つ
以上の連続密度隠れマルコフモデルを用いて実現される
ことを特徴とする請求項21記載の装置。 - 【請求項37】 前記音声認識を実行する手段は、前記
1つ以上の復号音声特徴のうち、対応する確率測度が所
定しきい値を超えることにより信頼可能であるとみなさ
れたもののみに基づいて音声認識を実行することを特徴
とする請求項21記載の装置。 - 【請求項38】 前記音声認識を実行する手段は、さら
に、1つ以上の音声特徴導関数に基づき、 前記音声特徴導関数は、複数の復号音声特徴の対応する
時間順序系列に基づいて決定されることを特徴とする請
求項21記載の装置。 - 【請求項39】 前記音声認識を実行する手段は、前記
1つ以上の音声特徴導関数のうち、前記対応する時間順
序系列中の前記複数の復号音声特徴の確率測度により信
頼可能であるとみなされたもののみに基づいて音声認識
を実行することを特徴とする請求項38記載の装置。 - 【請求項40】 前記音声認識を実行する手段は、前記
1つ以上の復号音声特徴に対応する確率測度に基づい
て、前記1つ以上の復号音声特徴のそれぞれに重みづけ
する手段を含むことを特徴とする請求項21記載の装
置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/556250 | 2000-04-24 | ||
US09/556,250 US6760699B1 (en) | 2000-04-24 | 2000-04-24 | Soft feature decoding in a distributed automatic speech recognition system for use over wireless channels |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001356792A true JP2001356792A (ja) | 2001-12-26 |
JP2001356792A5 JP2001356792A5 (ja) | 2008-04-03 |
JP4875249B2 JP4875249B2 (ja) | 2012-02-15 |
Family
ID=24220535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001117647A Expired - Fee Related JP4875249B2 (ja) | 2000-04-24 | 2001-04-17 | 自動音声認識実行方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6760699B1 (ja) |
EP (1) | EP1180764B1 (ja) |
JP (1) | JP4875249B2 (ja) |
DE (1) | DE60000087T2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008518256A (ja) * | 2004-10-30 | 2008-05-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声信号を分析する装置および方法 |
KR101099278B1 (ko) | 2003-05-27 | 2011-12-26 | 마이크로소프트 코포레이션 | 명명된 엔티티 목록 생성기, 명명된 엔티티 모델 생성 방법 및 컴퓨터 판독가능 기록 매체 |
CN116612746A (zh) * | 2023-07-17 | 2023-08-18 | 北京怀芯物联技术有限公司 | 一种基于人工智能在声学库中进行语音编码识别的系统 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7010483B2 (en) * | 2000-06-02 | 2006-03-07 | Canon Kabushiki Kaisha | Speech processing system |
US20020026253A1 (en) * | 2000-06-02 | 2002-02-28 | Rajan Jebu Jacob | Speech processing apparatus |
US7035790B2 (en) * | 2000-06-02 | 2006-04-25 | Canon Kabushiki Kaisha | Speech processing system |
US7072833B2 (en) * | 2000-06-02 | 2006-07-04 | Canon Kabushiki Kaisha | Speech processing system |
US20030023431A1 (en) * | 2001-07-26 | 2003-01-30 | Marc Neuberger | Method and system for augmenting grammars in distributed voice browsing |
JP3469567B2 (ja) * | 2001-09-03 | 2003-11-25 | 三菱電機株式会社 | 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法 |
US7328159B2 (en) * | 2002-01-15 | 2008-02-05 | Qualcomm Inc. | Interactive speech recognition apparatus and method with conditioned voice prompts |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
JP2005151299A (ja) * | 2003-11-18 | 2005-06-09 | Sanyo Electric Co Ltd | 無線通信装置、誤り訂正方法、および誤り訂正プログラム |
US7386443B1 (en) * | 2004-01-09 | 2008-06-10 | At&T Corp. | System and method for mobile automatic speech recognition |
CA2618626C (en) * | 2005-08-09 | 2016-10-18 | Stephen S. Burns | A voice controlled wireless communication device system |
US8301454B2 (en) * | 2008-08-22 | 2012-10-30 | Canyon Ip Holdings Llc | Methods, apparatuses, and systems for providing timely user cues pertaining to speech recognition |
IL205394A (en) | 2010-04-28 | 2016-09-29 | Verint Systems Ltd | A system and method for automatically identifying a speech encoding scheme |
US8818797B2 (en) * | 2010-12-23 | 2014-08-26 | Microsoft Corporation | Dual-band speech encoding |
US8484022B1 (en) | 2012-07-27 | 2013-07-09 | Google Inc. | Adaptive auto-encoders |
US8442821B1 (en) | 2012-07-27 | 2013-05-14 | Google Inc. | Multi-frame prediction for hybrid neural network/hidden Markov models |
US9240184B1 (en) | 2012-11-15 | 2016-01-19 | Google Inc. | Frame-level combination of deep neural network and gaussian mixture models |
US10679140B2 (en) * | 2014-10-06 | 2020-06-09 | Seagate Technology Llc | Dynamically modifying a boundary of a deep learning network |
CN105989835B (zh) * | 2015-02-05 | 2019-08-13 | 宏碁股份有限公司 | 语音辨识装置及语音辨识方法 |
US10373630B2 (en) | 2017-03-31 | 2019-08-06 | Intel Corporation | Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62117422A (ja) * | 1985-11-18 | 1987-05-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化方式 |
JPH03248637A (ja) * | 1990-02-27 | 1991-11-06 | Toshiba Corp | 誤り補償方式 |
JPH06177843A (ja) * | 1992-12-04 | 1994-06-24 | Fujitsu Ltd | 音声認識信号の無線送受信システム |
JPH10145249A (ja) * | 1996-11-12 | 1998-05-29 | Kokusai Electric Co Ltd | 音声復号方式 |
JPH10303759A (ja) * | 1997-04-23 | 1998-11-13 | Mitsubishi Electric Corp | 誤り訂正復号装置および誤り訂正復号方式 |
JPH1185188A (ja) * | 1997-09-12 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びそのプログラム記録媒体 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5509104A (en) * | 1989-05-17 | 1996-04-16 | At&T Corp. | Speech recognition employing key word modeling and non-key word modeling |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
US5677990A (en) * | 1995-05-05 | 1997-10-14 | Panasonic Technologies, Inc. | System and method using N-best strategy for real time recognition of continuously spelled names |
GB9520445D0 (en) * | 1995-10-06 | 1995-12-06 | British Telecomm | Convolutional codes |
US6112058A (en) * | 1995-10-18 | 2000-08-29 | Sc-Wireless Inc. | Method and apparatus for wireless communication employing confidence metric processing for bandwidth reduction |
JP2838994B2 (ja) * | 1995-12-27 | 1998-12-16 | 日本電気株式会社 | データ信号受信装置 |
US5917837A (en) * | 1996-09-11 | 1999-06-29 | Qualcomm, Incorporated | Method and apparatus for performing decoding of codes with the use of side information associated with the encoded data |
GB2319379A (en) * | 1996-11-18 | 1998-05-20 | Secr Defence | Speech processing system |
US5960399A (en) | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US6012027A (en) * | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
DE59810958D1 (de) * | 1997-06-13 | 2004-04-15 | Siemens Ag | Quellengesteuerte kanaldecodierung durch verwendung der intra-rahmen-korrelation |
CA2245601C (en) * | 1997-08-14 | 2007-06-12 | Stewart Crozier | High-performance low-complexity error-correcting codes |
US6097716A (en) * | 1997-12-12 | 2000-08-01 | Lucent Technologies Inc. | Rate detection for multi-rate communications |
SG71832A1 (en) * | 1998-08-24 | 2000-04-18 | Inst Of Microelectronics | Method and apparatus for real-time determination of scalable channel coding scheme parameters |
US6256607B1 (en) * | 1998-09-08 | 2001-07-03 | Sri International | Method and apparatus for automatic recognition using features encoded with product-space vector quantization |
DE19842405A1 (de) * | 1998-09-16 | 2000-03-23 | Philips Corp Intellectual Pty | Spracherkennungsverfahren mit Konfidenzmaßbewertung |
US6426978B1 (en) * | 1998-10-01 | 2002-07-30 | Ericsson Inc. | Digital communication systems and methods for differential and/or amplitude encoding and decoding secondary symbols |
GB2342828A (en) | 1998-10-13 | 2000-04-19 | Nokia Mobile Phones Ltd | Speech parameter compression; distributed speech recognition |
US6226613B1 (en) * | 1998-10-30 | 2001-05-01 | At&T Corporation | Decoding input symbols to input/output hidden markoff models |
US6192343B1 (en) * | 1998-12-17 | 2001-02-20 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms |
US6185527B1 (en) * | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
US6374221B1 (en) * | 1999-06-22 | 2002-04-16 | Lucent Technologies Inc. | Automatic retraining of a speech recognizer while using reliable transcripts |
-
2000
- 2000-04-24 US US09/556,250 patent/US6760699B1/en not_active Expired - Lifetime
- 2000-11-06 DE DE60000087T patent/DE60000087T2/de not_active Expired - Lifetime
- 2000-11-06 EP EP00309802A patent/EP1180764B1/en not_active Expired - Lifetime
-
2001
- 2001-04-17 JP JP2001117647A patent/JP4875249B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62117422A (ja) * | 1985-11-18 | 1987-05-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化方式 |
JPH03248637A (ja) * | 1990-02-27 | 1991-11-06 | Toshiba Corp | 誤り補償方式 |
JPH06177843A (ja) * | 1992-12-04 | 1994-06-24 | Fujitsu Ltd | 音声認識信号の無線送受信システム |
JPH10145249A (ja) * | 1996-11-12 | 1998-05-29 | Kokusai Electric Co Ltd | 音声復号方式 |
JPH10303759A (ja) * | 1997-04-23 | 1998-11-13 | Mitsubishi Electric Corp | 誤り訂正復号装置および誤り訂正復号方式 |
JPH1185188A (ja) * | 1997-09-12 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びそのプログラム記録媒体 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101099278B1 (ko) | 2003-05-27 | 2011-12-26 | 마이크로소프트 코포레이션 | 명명된 엔티티 목록 생성기, 명명된 엔티티 모델 생성 방법 및 컴퓨터 판독가능 기록 매체 |
JP2008518256A (ja) * | 2004-10-30 | 2008-05-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声信号を分析する装置および方法 |
CN116612746A (zh) * | 2023-07-17 | 2023-08-18 | 北京怀芯物联技术有限公司 | 一种基于人工智能在声学库中进行语音编码识别的系统 |
CN116612746B (zh) * | 2023-07-17 | 2023-10-03 | 北京怀芯物联技术有限公司 | 一种基于人工智能在声学库中进行语音编码识别方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1180764B1 (en) | 2002-03-06 |
EP1180764A1 (en) | 2002-02-20 |
JP4875249B2 (ja) | 2012-02-15 |
US6760699B1 (en) | 2004-07-06 |
DE60000087D1 (de) | 2002-05-02 |
DE60000087T2 (de) | 2002-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4875249B2 (ja) | 自動音声認識実行方法 | |
FI118909B (fi) | Hajautettu äänentunnistusjärjestelmä | |
Peinado et al. | Speech recognition over digital channels: Robustness and Standards | |
US6959276B2 (en) | Including the category of environmental noise when processing speech signals | |
US7203643B2 (en) | Method and apparatus for transmitting speech activity in distributed voice recognition systems | |
KR100879410B1 (ko) | 음향 특징 벡터 수정을 사용하는 분산형 음성 인식 시스템 | |
KR100594670B1 (ko) | 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템 | |
US20110153326A1 (en) | System and method for computing and transmitting parameters in a distributed voice recognition system | |
US20030061036A1 (en) | System and method for transmitting speech activity in a distributed voice recognition system | |
Bernard et al. | Low-bitrate distributed speech recognition for packet-based and wireless communication | |
JPH0863200A (ja) | 線形予測係数信号生成方法 | |
JPH07311598A (ja) | 線形予測係数信号生成方法 | |
US7171359B1 (en) | Speech recognition over lossy networks with rejection threshold | |
JP3459133B2 (ja) | 復号器の動作方法 | |
WO2005091273A2 (en) | Method of comfort noise generation for speech communication | |
US6934678B1 (en) | Device and method for coding speech to be recognized (STBR) at a near end | |
Ion et al. | A novel uncertainty decoding rule with applications to transmission error robust speech recognition | |
CN112767955B (zh) | 音频编码方法及装置、存储介质、电子设备 | |
Weerackody et al. | An error-protected speech recognition system for wireless communications | |
US6480827B1 (en) | Method and apparatus for voice communication | |
US7701886B2 (en) | Packet loss concealment based on statistical n-gram predictive models for use in voice-over-IP speech transmission | |
Bernard et al. | Source and channel coding for remote speech recognition over error-prone channels | |
Ion et al. | Uncertainty decoding for distributed speech recognition over error-prone networks | |
Tan et al. | Network, distributed and embedded speech recognition: An overview | |
Reichl et al. | A codec for speech recognition in a wireless system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080214 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110113 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111102 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111125 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141202 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |