JP4875249B2 - 自動音声認識実行方法 - Google Patents
自動音声認識実行方法 Download PDFInfo
- Publication number
- JP4875249B2 JP4875249B2 JP2001117647A JP2001117647A JP4875249B2 JP 4875249 B2 JP4875249 B2 JP 4875249B2 JP 2001117647 A JP2001117647 A JP 2001117647A JP 2001117647 A JP2001117647 A JP 2001117647A JP 4875249 B2 JP4875249 B2 JP 4875249B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- feature
- features
- decoded
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004891 communication Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 abstract description 10
- 230000002411 adverse Effects 0.000 abstract description 3
- 108091006146 Channels Proteins 0.000 description 63
- 230000005540 biological transmission Effects 0.000 description 22
- 230000008569 process Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000013139 quantization Methods 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 101100036896 Schizosaccharomyces pombe (strain 972 / ATCC 24843) uep1 gene Proteins 0.000 description 7
- 238000009826 distribution Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005562 fading Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
本発明は、自動音声認識の分野に関し、特に、ワイヤレスチャネルを通じて用いられる分散自動音声認識システムにおける音声認識システム性能を改善する方法および装置に関する。
【0002】
【従来の技術】
自動音声認識の作業は一般に、個人が発話した語または句に応答して自動システムがある(自動化された)アクションを実行する(例えば、音声入力によりシステムを制御する)ことができるように、その語または句の自動識別を含む。最近大いに注目されている音声認識方式の1つは、ワイヤレス(例えば、セルラ)通信チャネルを用いる環境で自動音声認識(ASR:automatic speech recognition)を実行するものである。このようなワイヤレス/セルラネットワークを通じてのASRは、次世代ワイヤレスマルチメディアシステムの設計において重要度が増大している。具体的には、今日、ASR技術を利用したさまざまな会話システムアプリケーションがすでに存在する。これらには、とりわけ、パーソナルアシスタント、音声ポータル、旅行予約システム、株式相場システムなどがある。また、特に、例えば車載移動電話機用に実装されているこのようなアプリケーションの数は、他のワイヤレス装置用のものとともに、急速に増大している。
【0003】
従来、自動音声認識機能がワイヤレス環境に適用されることが意図されるときは通常、音声認識プロセス全体が通信チャネルの受信端に配置された。具体的には、従来の音声符号化技術が、ワイヤレスチャネルを通じて音声を送信するために用いられ、その後にのみ、しかも、通常、符号化音声が受信端で復号された後にのみ、(受信端で)音声認識プロセスが実行された。特に、音声信号の符号化がワイヤレス装置で実行され、符号化された信号がワイヤレスチャネルを通じて送信され、この信号がワイヤレスチャネルの受信端で(例えば、基地局で)復号されてもとの音声が「再構成」され、最後に、自動音声認識プロセスが、完全に従来の方式で(すなわち、あたかもワイヤレスチャネル伝送が全く実行されなかったかのように)、再構成音声に対して実行された。一般に、このアプローチは、必要に迫られてやむを得ず用いられた。ワイヤレス装置自体で音声認識プロセスを実行するための計算量は膨大であったからである。
【0004】
しかし、最近検討されている、ワイヤレスチャネルを通じてのASRの課題に対する特に興味深いアプローチの1つに、「分散」ASRシステムというものを用いるものがある。ここで「分散」とは、音声認識プロセスを実現するために実行される必要のある機能が、ワイヤレスチャネルの両「端」に分かれて別々に配置されることをいう。すなわち、一部の機能はチャネルの送信端に(例えば、ワイヤレス装置自体に)配置され、一部はワイヤレス通信チャネルの受信端に(例えば、基地局に)配置される。このようなアプローチによれば、ユーザは、集中化されたサーバ(これは通常、高価な処理パワーおよびメモリを提供する)上の高価なリソースを共有することができる。さらに、分散システム設計によれば、ASRソフトウェアの集中化されたインストールおよび保守が可能となり、ユーザは、難しいインストールおよび保守の手続きをせずに済む。ワイヤレス装置でローカルに音声認識を実行するという代替アプローチは、装置に要求される計算量、電力およびメモリを大幅に増大させ、複数の言語やアプリケーション領域間でのポータビリティ(可搬性)を制限する。今日の技術では、実用的にハンドセット側に置けるのは、例えば、話者が学習させた名前によるダイヤルのような非常に限定された語彙の音声認識システムだけであり、大部分のアプリケーションはネットワークサーバ側になければならない。
【0005】
具体的には、1つのこのような分散ASR方式によれば、ワイヤレス装置で動作する小さいクライアントプログラムが、移動端末から音声信号の代表パラメータ(通常、ASR技術分野では「特徴」という)を抽出し、ワイヤレスチャネルを通じてこれらのパラメータを音声認識サーバへ送信する。サーバは、例えば、複数の異なる移動端末のために音声認識タスクを実行するマルチユーザサーバである。ともあれ、サーバでは、例えば、当業者に周知の隠れマルコフモデル(HMM)を用いたもののような、他の点では従来技術と同様の方法で、これらの特徴に基づいて自動音声認識を実行する。
【0006】
【発明が解決しようとする課題】
また、一般にワイヤレス通信技術の周知の複雑さの1つは、データがワイヤレスチャネルを通じて伝送されるときに常に遭遇する伝送誤りの問題から生じる。その結果、最近、ワイヤレス伝送環境における誤り検出および誤り訂正の問題が大いに注目されている。特に、さまざまなチャネル符号化方式が開発され、これらはそれぞれ、与えられたコストで、ワイヤレスチャネルを通じて伝送しなければならない追加ビットにおいて、さまざまなレベルの誤り検出および訂正能力を提供する。この問題については多くの研究があるが、このような誤り低減方策の目標は、このような伝送誤りをまず検出し、その後に、可能であれば、その効果を除去するということになるのが常である。しかし、多くの場合、これらの誤りを完全に除去することはできず、むしろ、ワイヤレス受信機(例えば、基地局)には、信頼性に問題のある送信データが提供されることがある。このような場合、従来のワイヤレスシステムは(ASRのために用いられるか否かにかかわらず)一般に、データが正しいと(そうでない確率がかなり高いと認識しているにもかかわらず)仮定するか、または、そのデータを完全に信頼できないもの、したがって、「失われた」(「消失」)ものとみなして、単にそれを捨てるかのいずれかである。
【0007】
【課題を解決するための手段】
本発明の原理によれば、一部のチャネル符号化方式は、誤り検出および訂正能力だけでなく、与えられたデータ部分が特定の値に正確に復号された尤度に関する確率情報をも提供することができることが認識される。具体的には、このような方式は、復号ビットについて確率論的な精度情報を提供するために用いることができる。この認識に基づいて、本発明は、ワイヤレスチャネルを通じて用いられる分散ASRシステムにおいて、このような確率情報を利用した自動音声認識を実行する方法および装置を提供する。すなわち、本発明の実施例によれば、復号特徴に対する精度情報が計算され、悪いチャネル条件下での(すなわち、伝送誤りや損失の存在下での)音声認識性能を改善するために用いられる。
【0008】
具体的には、本発明の一実施例によれば、与えられたASR特徴を符号化するのに用いられる各ビットに対するビット誤り確率を用いて、その特徴の復号値に関してシステムが有する信頼度を計算する。破損した確率が高い特徴は、使用されないか、または、より一般的には、音声認識器により実行される音響距離計算で低く重み付けされる。音響復号に対するこの新規なアプローチをここでは「ソフト特徴復号」(soft feature decoding)という。これは、悪いチャネル条件下でASR性能を大幅に改善する。
【0009】
さらに具体的には、本発明は、
通信チャネルを通じて伝送された符号化音声特徴のセットを受信するステップと、
符号化音声特徴のセットを復号して、1つ以上の復号音声特徴と、それに対応する1つ以上の確率測度を生成するステップと、
前記1つ以上の復号音声特徴と、それに対応する前記1つ以上の確率測度とに基づいて、音声認識を実行するステップとを有し、
それぞれの確率測度は、それに対応する復号音声特徴が正確に伝送され復号された尤度の推定値を含む。
【0010】
【発明の実施の形態】
[ソフト特徴復号による例示的なASRシステムの概観]
本発明の音声認識システムの実施例によれば、音声認識目的に適した代表パラメータは、音声信号から抽出され、量子化されて、6kb/s(毎秒キロビット)のソースビットレートを生成する。注意すべき点であるが、これらの音声パラメータから得られるビットストリームの相異なる部分が、伝送誤りに対して相異なる感度を有する可能性もある。したがって、ビットストリームの相異なるセグメントに対して不均一なレベルの誤り保護を与えるいくつかの誤り保護方式のいずれかを適当に用いることが可能である。本発明の実施例による符号化ビットストリームの全ビットレートは9.6kb/sである。この例示的なコーデックを調べるための実験を、さまざまなワイヤレスチャネル(例えば、ガウシアンチャネルや、さまざまなな相関を有するレイリーチャネル)に対して実施したところ、これらの実験は、悪いチャネル条件の場合であっても、通常の音声認識タスクについて、満足なシステムの性能を実証している。
【0011】
本発明の原理によれば、および、その実施例によれば、チャネル復号器からの「ソフト出力」を利用して、音声認識システムの性能が改善される。具体的には、各復号ビットの信頼度を復号プロセスから取得し、この信頼度を用いて、復号されたASR特徴における信頼度を推定する。これらの信頼度に基づいて、音声認識アルゴリズムにおける各特徴の重要度に重み付けすることが可能である。
【0012】
具体的には、図1は、ソフト特徴復号を利用した、ワイヤレスチャネルを通じて用いられる例示的な自動音声認識システムのブロック図である。システムは、例として、ワイヤレス装置10、ワイヤレス伝送チャネル14、および基地局19を有する。本発明の原理によれば、ワイヤレス装置10に供給された入力音声は、特徴抽出モジュール11によって処理され、それから音声認識特徴が抽出される。これらの音声認識特徴は、例えば、LPC(線形予測符号化)に基づくケプストラム係数や信号エネルギーパラメータのような、従来の音響特徴(すなわち、一般に従来の音声認識システムによって用いられるもの)を含む。このようなパラメータ(すなわち、特徴)の識別および抽出は全く従来技術のものであり当業者に周知である(ここで説明する本発明の実施例により選択されることが可能な特徴のセットについてさらに詳細には後述する)。
【0013】
特徴が抽出された後、特徴量子化モジュール12が、このデータに対して従来の符号化プロセス(すなわち、量子化)を実行する。これは、例えば、同じく当業者に周知の従来のスカラー量子化を含む(本発明の実施例により利用可能な量子化方式についてさらに詳細には後述する)。最後に、この結果得られた(特徴量子化モジュール12からの)ビットは、チャネル符号化モジュール13によって符号化される。チャネル符号化モジュール13は、当業者に周知の従来のいずれのチャネル符号化方式を適用することも可能である。特に、本発明の実施例によれば、いくつかの可能な不均一誤り保護(UEP)方式の1つを利用する。これらの方式は当業者に周知である(このような方式のいくつかの例についてさらに詳細には後述する)。
【0014】
チャネル符号化モジュール13から出力され、選択された特徴を量子化し符号化した表現は、例えば、ワイヤレス装置10によって、ワイヤレスチャネル14を通じて、処理のために基地局19へ送信される。具体的には、基地局19では、本発明の実施例によれば、まず送信データがチャネル復号モジュール15によって復号され、復号ビットのセットと、対応するビット信頼性情報の両方が生成される。このような復号技術は従来のものであって当業者に周知であり、(復号ビット値の正確さの確率に関する情報なしで)最尤ビット値のみを提供するさらに旧式の復号技術(例えば、単純ビタビ復号のような)とは異なって、確率論的な復号ビット情報を提供する。
【0015】
チャネル復号モジュール15からの復号ビットに基づいて、特徴回復モジュール16によって特徴が回復される(すなわち、ビットが特徴データへと再構成される)。これは全く従来技術のものであり当業者に周知である。しかし、同時に、本発明の原理によれば、および、本発明の実施例によれば、チャネル復号モジュール15によって求められたビット信頼度値が、ビット−特徴信頼度変換モジュール17によって、特徴信頼度値に変換される。その後、得られた特徴(特徴回復モジュール16によって求められたもの)と、特徴信頼度値(ビット−特徴信頼度変換モジュール17によって計算されたもの)は、音声認識器18に供給される。音声認識器18は、特徴およびそれに対応する信頼度値の両方に基づいて、もとの入力音声(ワイヤレス装置10に供給されたもの)の音声認識を実行する。
【0016】
[例示的な特徴のセットおよび例示的な量子化プロセス]
通常の音声符号化アルゴリズムを用いて得られる音声パラメータは、必ずしも、音声認識の目的に最適なパラメータであるとは限らない。さらに、音声符号器は通常、励振すなわちLPC残差信号の送信のためにかなりのビット数を費やすが、この情報は、音声認識の目的のためには全く有用ではない。したがって、本発明では、音声認識の目的のために特に選択される音声パラメータのみを抽出し送信することに焦点を当てることにする。
【0017】
多くの利用可能な音声認識システムは、信号パラメータ化のために、当業者に周知のケプストラム特徴を使用する。これは、距離によるクラシファイアに適した、コンパクトでロバスト(頑健)な音声表現であり、いずれも当業者に周知のメル−フィルタバンク分析や線形予測法(LPC)から計算可能である。本発明の実施例の自動音声認識システムによれば、音声認識に用いられる音響特徴は、従来の次数10のLPC分析に基づいて10msごとに計算された12個のケプストラム係数c1,c2,...,c12と、全信号エネルギーeである。信号サンプリングレートは8000Hzであり、240サンプルのハミング窓が用いられる。したがって、この特徴のセットは、10msごとに13次元ベクトルを形成し、この例示的な自動音声認識システムへの音響入力となる。
【0018】
データ伝送の目的のために、13個の特徴はすべてスカラー量子化される。単純な非一様量子化器を用いて量子化セルを決定することが可能である。量子化器は、圧伸関数として経験的な分布関数を使用し、サンプルは、量子化セル内で一様分布する。使用可能な1つの例示的アルゴリズムは、当業者に周知のロイドのアルゴリズムに対する単純な非反復近似であるが、これは必ずしも量子化ノイズを最小にしない。より良好な性能は、同じく当業者に周知のk平均型アルゴリズムを特徴ベクトル全体に適用して(すなわち、ベクトル量子化)達成することが可能である。なお、以下で説明する誤り保護および隠蔽アルゴリズムは、さまざまな量子化方式とともに使用可能である。
【0019】
本発明の原理によれば、自動音声認識において、いずれも当業者には明らかなさまざまなビット割当て方式を使用可能である。例えば、1つの可能な有利な方式は、6ビットを信号エネルギーeと5個の上位ケプストラム特徴c1,...,c5のそれぞれに割り当て、4ビットを次の6個のケプストラム特徴c6,...,c11のそれぞれに割り当てるものである。経験的テストによれば、最後の(すなわち、12番目の)ケプストラム係数c12を、固定したあらかじめ計算された平均で置き換えることによって、評価されるタスクに大きい性能劣化はない。このように、c12には音声認識プロセスに関連する最小の情報しかないため、これにはビットを割り当てないことが可能である。受信機では、c12は単に固定されあらかじめ計算された平均値から回復され、その後、標準的な13次元の特徴ベクトルが認識中に用いられる。この例示的なビット割当て方式のビット総数は10msフレームあたり60ビットであり、これにより、ワイヤレスチャネルを通じて伝送される無符号化データレートは6kb/sとなる。
【0020】
[例示的な伝送システム]
自動音声認識性能に対するさまざまな音声符号化アルゴリズムの効果について多くの研究がある。具体的には、一般に分散ワイヤレス音声認識システムにおける重大なASR性能の劣化が注意されており、特に、この劣化は、バースト的に発生するワイヤレス伝送誤りの場合に起こる。受信信号強度の急速なゆらぎのため、移動無線環境はデータ伝送のためには非常に困難なチャネルとなることがある。そのため、ASRパラメータの伝送には、帯域幅およびパワー効率を改善するために、特別のチャネル誤り保護方式が用いられる。チャネル誤り保護音声パラメータは、ワイヤレス端末および基地局の両方に配置される音声認識コーデックを形成する。図1に示す本発明の実施例のシステムは、広範囲の相異なるチャネル条件に対して効率的な音声認識コーデックを提供することを目標とする。さらに、伝送誤りの場合の音声パラメータの再送を避けることが強く望まれる。再送は、システム応答における追加遅延を生じ、スペクトル効率を低下させるからである。
【0021】
特に注意すべき点であるが、本発明の実施例の特徴量子化方式により10ms音声フレームごとに提供される60ビットには、複数のレベルの誤り保護を設けることが可能である。音声符号化アプリケーションに対する不均一誤り保護(UEP)方式は当業者に周知であり、文献や標準において広く調べられている。いくつかのUEP方式が、本発明の例示的なASRシステムについて調べられており、特に3つの方式についてここで説明する。
【0022】
前述のように、本発明の実施例のASRシステムによる量子化音声パラメータのデータレートは6kb/sである。とりわけ、北米セルラ標準IS−95で用いられるデータレートの1つに基づいて、本発明の実施例のASRシステムは、当業者に周知の2元差分位相シフトキーイング(DPSK)変調フォーマットの符号化信号に対し9.6kb/sのデータレートを使用する。なお、9.6kb/sのデータレートで導入されるチャネルオーバーヘッドはあまり大きくはなく、与えられたアプリケーションに対してさらに低い符号化ビットレートが要求される場合、より高次の変調による、同じく当業者に周知のトレリス符号化変調方式を用いることも可能である。また、復調プロセスを簡単にするために、従来の差分変調技術を用いることも可能である。
【0023】
ゆっくりとしたフェージングのあるチャネルでは、大きいインタリーバを用いてシステム性能を改善することが有効である。しかし、大きいインタリーバは遅延を導入し、これは、一部のリアルタイムアプリケーションでは好ましくないことがある。本発明の実施例のASRシステムによれば、80msフレーム、すなわち、8個の音声フレームが、インタリーブおよびチャネル符号化の目的のために選択されている。したがって、インタリーブおよびデインタリーブの総遅延は160msであり、これは、通常のワイヤレス音声認識アプリケーションでは容易に受け入れることが可能な長さである。
【0024】
本発明の実施例のASRシステムによれば、10ms音声フレームにおいて「保護」される12個の音声パラメータは、エネルギーパラメータeと、11個のケプストラム係数c1(n),c2(n),...,c11(n)である。ただし、nは、音声フレームインデックスを表す。明らかに、上記のパラメータの上位のビットほど、高いチャネル誤り保護を提供すると有効である。さらに、エネルギーパラメータeが、量子化ノイズおよびランダム伝送誤りに最も敏感であり、次に敏感なのはケプストラム係数c1(n),...,c5(n)であり、その後に、ケプストラム係数c6(n),...,c11(n)が続くということがわかっている。実施例のチャネル符号化ビットレートは9.6kb/sであるため、80msのチャネル符号化フレームにおける全符号化ビット数は768となる。
【0025】
第1の例示的な不均一誤り保護方式(ここではUEP1という)によれば、L1、L2およびL3で表される3つのレベルのチャネル誤り保護を考える。さらに、L1の上位ビットにさらに高いレベルの誤り保護を与えるために、L1を2つのレベルL1_1およびL1_2に分ける。相異なる不均一誤り保護(UEP)レベルに対するビットの割当てを次の表に示す。
【0026】
【表1】
【0027】
上記の記法で、e0(n),e1(n),...は、e(n)のビットを上位から下位への順で表す(ケプストラム係数についても同様)。上記の表からわかるように、L1、L2およびL3における音声フレームあたりのビット数はそれぞれ、13、24および23である。この場合、L1_1は、重要なほうから7ビットとして決定されたビットを含み、これらのビットは、内側畳込み符号(当業者に周知)に加えて、外側(12,7)巡回符号(同じく当業者に周知)を用いて保護される。本発明の一実施例では、(12,7)巡回符号は、誤りの検出にのみ用いられ、これは、受信機における誤り隠蔽に有用である。しかし、本発明の別の実施例によれば、受信機に複雑さを追加することにより、この符号を誤り訂正のためにも利用することが可能である。L1_2は、この例では、次に重要な6ビットを含む。レート1/2、メモリ8の符号をL1レベルのビットに使用するため、L1レベルの8個の音声フレームに対する符号化ビットの総数は288となる。
【0028】
レベルL2は、この例では、次に重要な25ビットを含み、レート2/3のレートコンパチブルパンクチャド畳込み(RCPC)符号がレベルL2に対して用いられる。8ビットのテールを含む、8個の音声フレームに対する符号化されたL2レベルビットの総数はこの例では300となる。最も重要性の低いビットはL3にあり、これらのビットは、全くチャネル符号化なしで送信されることが可能である。8個の音声フレームにおける符号化後のビットの総数を768に維持するため、符号化されたL2レベルのビットからさらに4ビットをパンクチャド符号化により除く。L1_1レベルのビットの後にL1_2レベルのビットが続き、その次にL2レベルのビットが続くように、チャネル符号化が実行される。なお、RCPC符号のため、レート1/2符号は終端しない。そのため、L2レベルからチャネル符号の復号深さ未満しか離れていないL1_2のビットは、通常のレート1/2母符号に入らないことになる。チャネル符号器入力において、8個の音声フレームn,(n+1),...,(n+7)に対するL1_2レベルのビットは次のように配列される。
e2(n),e2(n+1),...,e2(n+7);c1 1(n),c1 1(n+1),...,c1 1(n+7);...;c5 1(n),c5 1(n+1),...c5 1(n+7)
前述のように、係数c1(n)はc5(n)より重要であることがわかっているため、このビット配列により、L1_2フレームの終端付近の重要性の低いビットが、通常のレート1/2母符号よりも強力でない符号に入ることになる。
【0029】
第2の例示的な不均一誤り保護方式(ここではUEP2という)によれば、上記のUEP1方式におけるL1_1レベルのビットから外符号が除去される。これにより、L2レベルのビットに対して、より強力な符号が適用される。しかし、L1_1レベルのビットは、外符号の誤り検出および訂正能力がないために、同じ強度の誤り保護を受けないことになる。L1、L2およびL3のビット割当ては、誤り保護を除いては、例えば、UEP1方式の場合と同様である。
【0030】
この例では、レート1/2畳込み符号の場合、L1レベルのビットからの8個の音声フレーム中の符号化ビットの総数は208である。200個のL2ビット(8ビットのテールを含む)に対して、24ビットをパンクチャド符号化により除いたレート1/2符号を用いて、376個の符号化ビットが得られる。その場合、この例では、184個のL3無符号化ビットを合わせて、8個の音声フレーム中の符号化ビットの総数は768となる。L1_2ビットは、L1_1ビットがL1_2ビットに先行するようにして、UEP1方式の場合と同様に配列することが可能である。
【0031】
第3の例示的な不均一誤り保護方式(ここではUEP3という)によれば、ビットは、すべての特徴成分の上位ビット(MSB)がレベル1にまとめられるように再配列される。注意すべき点であるが、(前述のように)特徴成分e(n)およびc1(n),...,c5(n)は最も重要であり、またさらに、前述の2つの誤り保護方式では、これらの各成分の2個のMSBはレベルL1にある。しかし、c6(n),...,c11(n)のMSBもまた重要なパラメータであることにも注意すべきである。このように、すべての特徴成分のMSBをL1に入れると有効なことがある。具体的には、ビット配列は次の表に示すとおりである。
【表2】
この表からわかるように、L1_1に割り当てられるビットは、UEP1方式と同一であり、UEP1と同様に(12,7)外符号およびレート1/2、メモリ8の内符号により保護される。UEP1方式の場合と同様に、レート2/3符号がレベルL2のビットに適用され、レベルL3のビットは符号化されない。
【0032】
a(n)で、チャネル符号器への入力における音声ビットを表し、b(n)で、チャネル符号器出力を表す。b(n)は、80msにわたり生じる768個のシンボルにわたってインタリーブされた後、差分符号化されて、次式のようになる。
u(n)=d(n)−d(n−1) (1)
ただし、d(n)はインタリーバの出力である。ベースバンド等価受信信号は次のように書くことができる。
y(n)=Aβ(n)u(n)+ν(n) (2)
ただし、Aは送信振幅であり、β(n)は複素チャネル利得であり、ν(n)は加法性白色ガウシアンノイズ(AWGN)成分である。なお、レイリーフェージングチャネルの場合、β(n)は、次式を満たす相関する複素ガウス変数である。
E{β(n)β*(n+k)}=J0(2π(ν/λ)kT) (3)
ただし、ν、λおよびTはそれぞれ、移動速度、RF搬送波の波長、およびシンボル期間である。受信機では、y(n)はまず差分復号された後、デインタリーブされ、最後にビタビ復号される。その後、ビタビ復号器の出力a^(n)は、音声認識器モジュールに送られる。
【0033】
[例示的なソフト特徴誤り隠蔽手続き]
伝送誤りの悪影響を克服するため、通常の誤り隠蔽方策は、前に受信したフレームの繰返しや、パラメータ補間を含むことが多い。これらの技術は、ランダムビット誤りを修復する助けとなることがあるが、フェージングチャネルに起こりやすいバースト的に起こる誤りに対しては失敗することがある。本発明の原理によれば、チャネル復号器からASRユニットへの「ソフト出力」に基づく新規な誤り隠蔽技術が、ここで説明する例示的なASRシステムで提供される。本発明の一実施例によれば、当業者に周知の最大事後確率(MAP)アルゴリズムが用いられる。この従来技術を用いて、各復号ビットの精度の事後確率を求めることができる。その後、ASRユニットは、この情報を利用して、他の点では従来の音声認識器に基づいて、改善された音声認識性能を得る。
【0034】
具体的には、12個の復号された音声特徴成分のそれぞれに対して、受信機は、その成分を正しく復号した信頼度を与える追加的な値を生成する。特に、本発明の一実施例によれば、12個の特徴のそれぞれに対して、2個の信頼度ビットが生成される。第1および第2ビットはそれぞれ、各特徴の第1MSB(最上位ビット)および第2MSB(最上位から2番目のビット)に対応する。さらに具体的には(実施例によれば)、a^(n)が、チャネル復号器出力における関連するMSBビットであると仮定する。MAP復号器は、確率pi(n)=Prob{a^(n)=i}(i=0,1)を与える。ただし、p0(n)+p1(n)=1である。しきい値をT(>0.5)で表す。すると、pi(n)>Tの場合、信頼度Λi(n)=1であり、それ以外の場合、Λi(n)=0である。この例示的な割当てでは、信頼度値が1に近づくと、対応するビットは非常に高い確率で正しく、信頼度値が0に近づくと、送信ビットは消失により表される。
【0035】
12個の特徴成分の2個のMSBのそれぞれに対してこうして得られる1ビット量子化された信頼度値Λi(n)は、対応するチャネル復号ビットストリームとともに、音声認識モジュールに送られる。
【0036】
本発明の一実施例では、誤り隠蔽方策は、音声認識器において、誤りの可能性のある送信特徴を捨て、尤度計算について信頼性の高いもののみを使用する。すなわち、高い信頼度を有する成分のみに基づく、簡約された特徴ベクトルが使用される。例えば、隠れマルコフモデル(HMM)に基づく音声認識システムでは、観測される特徴ベクトルは、状態ごとの確率分布p(x|s)によってモデル化される。ただし、xは特徴ベクトルであり、sはモデルの状態である。(隠れマルコフモデルおよびそれに基づく音声認識方法は当業者に周知である。)通常、従来のHMMに基づく音声認識器は、音素(あるいはtriphone)ごとのHMMの各状態に対するガウス密度の混合を用いる。このような場合、特徴ベクトルの信頼できる(信頼可能)部分に対する簡約分布は、次式のようにすべての信頼できない(信頼不能)成分にわたり積分することによって求められる周辺分布となる。
【数1】
ただし、xrel、xunrelはそれぞれ、特徴ベクトルの信頼可能および信頼不能成分である。HMM尤度計算に対する信頼可能成分の周辺分布を用いることは、ノイズの多い環境における音声認識器のロバスト性を改善する技術の1つであり、当業者には周知であり、「missing feature theory」と呼ばれるものである。(なお、従来のノイズの多い環境における音声認識アプリケーションでは、信頼不能スペクトル特徴のラベリングは困難な作業となることがあるが、本発明によれば、各特徴の信頼性はチャネル復号器によって提供される。)特に、対角共分散ガウシアン混合モデル(当業者に周知)では、簡約尤度関数は、完全な尤度計算から信頼不能成分を単に落とすだけで容易に計算することができる。なお、このアプローチを用いると、既存の音声認識アルゴリズムに対する修正が少なくて済む。
【0037】
本発明の一実施例によれば、送信特徴およびそれから導出される追加特徴が両方とも、音声認識器によって用いられる。例えば、音声認識プロセスにおいて、送信特徴自体(すなわち、エネルギー特徴および12個のケプストラム特徴)に加えて、そのなめらかな1次および2次導関数(ここではそれぞれ、「デルタ」特徴および「デルタ−デルタ」特徴という)を計算して用いることが可能である。さらに具体的には、信頼可能な受信特徴のみを用い信頼不能である可能性のあるものを捨てる本発明の一実施例によれば、次の方策を用いることが可能である。
【0038】
(1)エネルギーおよびケプストラム特徴については、第1または第2ビットが信頼度値0で受信された場合、それを尤度計算では用いない(すなわち、上記の式に従って周辺化する)。
【0039】
(2)「デルタ」および「デルタ−デルタ」特徴については、デルタまたはデルタ−デルタ計算のために用いられるウィンドウ内のいずれかの特徴の第1または第2ビットが信頼度値0で受信された場合、対応するデルタまたはデルタ−デルタ特徴を尤度計算では用いない。
【0040】
図2は、図1の自動音声認識システムのこの実施例によってもとの特徴セットをソフト特徴セットに変換する上記のプロセスを説明するダイヤグラムである。この図からわかるように、もとの特徴セットは、例えば、エネルギー特徴21、ケプストラム特徴22−1〜22−12、デルタエネルギー特徴23、デルタケプストラム特徴24−1〜24−12、デルタ−デルタエネルギー特徴25、デルタ−デルタケプストラム特徴26−1〜26−12を含む。この実施例によれば、5フレームおよび7フレームのウィンドウがそれぞれ、デルタ計算およびデルタ−デルタ計算に用いられる。具体的には、フレームnに対するデルタ特徴値は、フレームn−2、n−1、n、n+1、およびn+2に基づいて計算される。同様に、フレームnに対するデルタ−デルタ特徴値は、フレームn−3、n−2、n−1、n、n+1、n+2、およびn+3に基づいて計算される。(もとの特徴セットからデルタを計算する技術は一般に当業者に周知であり、明らかである。)なお、図示したダイヤグラムでは、これらの特徴のうちの一部(例えば、ケプストラム特徴22−1、デルタケプストラム特徴24−12、デルタ−デルタケプストラム特徴26−1およびデルタ−デルタケプストラム特徴26−12)は、ダイヤグラムの手続きに従って、不正なMSBの結果として周辺化されたように示されている。
【0041】
[例示的なソフト特徴重みづけ手続き]
もう1つの実施例によれば、尤度計算における特徴成分は、それらの信頼度値によって重みづけすることが可能である。この場合、0〜1の連続的な信頼度値が復号プロセスから得られ、音声認識器モジュールの尤度計算に対する各特徴の寄与を、対応する信頼度値によってスケールさせることができる。すなわち、この誤り隠蔽アプローチを適用する際に、ASR特徴は「ソフト」に用いられ、各成分は、正確に復号されたことの信頼度によって重みづけされる。
【0042】
具体的には、このソフト特徴復号プロセスによれば、重みは、音声認識器における確率計算において各特徴にかけられる。状態観測確率密度関数(pdf)が、次式のような対角共分散ガウシアンpdfの混合であると仮定する。
【数2】
ただし、xは特徴ベクトルであり、Nは特徴ベクトルのサイズであり、Mは状態あたりのガウス分布の混合数であり、wm、μm、およびσmはそれぞれ、HMM状態sに対するm番目のガウシアンの混合重み、平均および標準偏差である。Cnはn番目の特徴の信頼度であると仮定すると、復号器で適用される重みづけ方式は、次式のように状態観測確率計算を修正する。
【数3】
ただし、f(Cn)は、信頼度Cnのある関数である。なお、Cは時間の関数であり、フレームレートで(すなわち、xが更新されるのと同じ頻度で)更新される。信頼度が0〜1の数に正規化されていると仮定すると、関数f(C)の可能な形の1つは、f(C)=(α+1)/(α+C)であり、上記の式は次のようになる。
【数4】
ただし、αは平滑化定数であり、例えば、提供されるデータセットに対して誤りが最小になるように、実験的に決定することが可能である。なお、αの値が非常に大きい場合、すべての特徴は多かれ少なかれ同様に重みづけされ、一方、αの値が非常に小さい場合、高い信頼度値(すなわち、Cnが1に近い場合)の特徴のみが、観測確率計算において考慮される。状態観測確率計算における特徴重みづけ以外の、復号プロセスのその他のすべての点については、信頼可能な受信特徴のみを用いて信頼不能の可能性のあるものを捨てる本発明の実施例に関して前述した場合と変わらない。
【0043】
[例示的なASRシステムの他の特性]
ここで説明した例示的なASRシステムによれば、LPCから導出される12個のケプストラム係数と、信号エネルギーと、これらの成分の1次および2次時間導関数のすべてを、音声認識モジュール内で音響特徴として使用可能である。各音声発話のケプストラム平均は、認識を実行する前に計算して除去することが可能である。ケプストラム係数および信号エネルギーは、移動端末で計算して基地局に送信し、次に、受信機においてこれを再構成して(本発明の原理による)ソフト特徴誤り隠蔽のための信頼度値を付加し、最後にネットワークの音声認識サーバへ送信することが可能である。この場合、1次および2次時間導関数を生成し、送信される特徴セットに付加することも可能である。
【0044】
音声認識のための音響モデルは、例えば公衆電話網を通じて収集された、例えば英語音声データベースの集まりについて学習させることが可能である。音声認識器モジュールは、連続密度HMMに基づくことも可能である。また、HMMによってモデル化される音響ユニットは、3個のemitting状態を有しleft-to-rightトポロジーを有する状態クラスタ化triphoneモデルとすることも可能である。
【0045】
[詳細な説明への付記]
以上、本発明について詳細に説明したが、当業者であれば、上記の記載に基づいて、さまざまな変形例を考えることが可能である。例えば、当業者には認識されるように、図面のブロック図は、本発明の原理を実現する例示的な回路の概念図を表す。同様に、認識されるように、流れ図、状態遷移図、擬似コードなどは、実質的に、コンピュータ可読媒体内に表現し、コンピュータあるいはプロセッサによって実行されるようにすることが(そのようなコンピュータあるいはプロセッサが明示的に図示されているかどうかにかかわらず)可能である。
【0046】
図示されたさまざまな要素の機能は、「プロセッサ」あるいは「モジュール」と名づけられた機能ブロックを含めて、専用ハードウェアや、適当なソフトウェアを実行可能なハードウェアを用いて提供可能である。プロセッサによって提供されるとき、これらの機能は、単一の専用プロセッサによって、単一の共有プロセッサによって、あるいは、複数のプロセッサ(その一部は共用可能)によって提供可能である。さらに、「プロセッサ」あるいは「コントローラ」という用語の明示的な使用は、ソフトウェアを実行可能なハードウェアを限定的に指すものと解釈すべきではなく、暗黙的に、限定的でなく、ディジタル信号プロセッサ(DSP)ハードウェア、ソフトウェアを記憶するための読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、および不揮発性記憶装置を含む。他のハードウェアも、通常のものであるかカスタム化したものかにかかわらず、含まれる。同様に、図中にスイッチがあれば、それは概念的なものにすぎない。その機能は、プログラムロジックの動作によって、専用ロジックによって、プログラム制御と専用ロジックの相互作用によって、あるいは、手動でも、実行可能であり、具体的には文脈から理解されるように実装者が個々の技術を選択することが可能である。
【0047】
特許請求の範囲において、特定の機能を実行する手段として表現される要素は、例えば、(a)その機能を実行する回路要素の組合せ、あるいは、(b)ファームウェア、マイクロコードなどを含む任意の形のソフトウェアを、その機能を実行するようにそのソフトウェアを動作させるための適当な回路と組み合わせたもの、を含めて、その機能を実行する任意の態様を含む。
【0048】
【発明の効果】
以上述べたごとく、本発明によれば、
【図面の簡単な説明】
【図1】ソフト特徴復号を利用した、ワイヤレスチャネルを通じて用いられる例示的な自動音声認識システムのブロック図である。
【図2】図1の例示的な自動音声認識システムの一実施例に従って、もとの特徴セットをソフト特徴セットに変換するプロセスを説明する図である。
【符号の説明】
10 ワイヤレス装置
11 特徴抽出モジュール
12 特徴量子化モジュール
13 チャネル符号化モジュール
14 ワイヤレス伝送チャネル
15 チャネル復号モジュール
16 特徴回復モジュール
17 ビット−特徴信頼度変換モジュール
18 音声認識器
19 基地局
21 エネルギー特徴
22 ケプストラム特徴
23 デルタエネルギー特徴
24 デルタケプストラム特徴
25 デルタ−デルタエネルギー特徴
26 デルタ−デルタケプストラム特徴
Claims (9)
- 自動音声認識を実行するための方法であって、
通信チャネルを通じて伝送された符号化音声特徴のセットを受信するステップ、
該符号化音声特徴のセットを復号して、1つ以上の復号音声特徴と、それに対応する確率情報を生成する復号ステップであって、該確率情報は、それに対応する復号音声特徴が正確に伝送され復号された尤度からなる、復号ステップ、及び
前記1つ以上の復号音声特徴とそれに対応する前記確率情報とに基づいて音声認識を実行するステップ
からなり、
前記復号ステップが、
受信された前記符号化音声特徴のセットの1つ以上のビットに対応する1つ以上の信頼度値を決定するステップ、及び
前記1つ以上の信頼度値に基づいて、前記復号音声特徴に対応する前記確率情報を生成するステップ
からなる、方法。 - 前記符号化音声特徴のセットが、線形予測符号化分析に基づく1つ以上のケプストラム係数を含むことを特徴とする請求項1記載の方法。
- 前記符号化音声特徴のセットが信号エネルギー成分をさらに含むことを特徴とする請求項2記載の方法。
- 前記復号ステップが、前記1つ以上の復号音声特徴を生成するために前記符号化音声特徴のセットのビタビ復号を実行するステップを含む請求項1記載の方法。
- 前記1つ以上の信頼度値を決定するステップが、復号された前記音声特徴成分の各々に対して生成され、該復号された音声特徴成分を正しく復号したことの信頼度を与える追加的な値に基づいて、最大事後確率アルゴリズムを用いて実行されることを特徴とする請求項1記載の方法。
- 前記音声認識を実行するステップが、前記1つ以上の復号音声特徴のうち、対応する確率情報が所定しきい値を超えることにより信頼可能であるとみなされたもののみに基づいて実行されることを特徴とする請求項1記載の方法。
- 前記音声認識を実行するステップが、さらに、1つ以上の音声特徴導関数に基づき、前記音声特徴導関数が、複数の復号音声特徴の対応する時間順序系列に基づいて決定されることを特徴とする請求項1記載の方法。
- 前記音声認識を実行するステップが、前記1つ以上の音声特徴導関数のうち、前記対応する時間順序系列中の前記複数の復号音声特徴の確率情報により信頼可能であるとみなされたもののみに基づいて実行されることを特徴とする請求項7記載の方法。
- 前記音声認識を実行するステップが、前記1つ以上の復号音声特徴に対応する信頼度値に基づいて、前記1つ以上の復号音声特徴のそれぞれに重みづけするステップからなる請求項1記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/556250 | 2000-04-24 | ||
US09/556,250 US6760699B1 (en) | 2000-04-24 | 2000-04-24 | Soft feature decoding in a distributed automatic speech recognition system for use over wireless channels |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001356792A JP2001356792A (ja) | 2001-12-26 |
JP2001356792A5 JP2001356792A5 (ja) | 2008-04-03 |
JP4875249B2 true JP4875249B2 (ja) | 2012-02-15 |
Family
ID=24220535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001117647A Expired - Fee Related JP4875249B2 (ja) | 2000-04-24 | 2001-04-17 | 自動音声認識実行方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6760699B1 (ja) |
EP (1) | EP1180764B1 (ja) |
JP (1) | JP4875249B2 (ja) |
DE (1) | DE60000087T2 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7035790B2 (en) * | 2000-06-02 | 2006-04-25 | Canon Kabushiki Kaisha | Speech processing system |
US7072833B2 (en) * | 2000-06-02 | 2006-07-04 | Canon Kabushiki Kaisha | Speech processing system |
US20020026253A1 (en) * | 2000-06-02 | 2002-02-28 | Rajan Jebu Jacob | Speech processing apparatus |
US7010483B2 (en) * | 2000-06-02 | 2006-03-07 | Canon Kabushiki Kaisha | Speech processing system |
US20030023431A1 (en) * | 2001-07-26 | 2003-01-30 | Marc Neuberger | Method and system for augmenting grammars in distributed voice browsing |
JP3469567B2 (ja) * | 2001-09-03 | 2003-11-25 | 三菱電機株式会社 | 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法 |
US7328159B2 (en) * | 2002-01-15 | 2008-02-05 | Qualcomm Inc. | Interactive speech recognition apparatus and method with conditioned voice prompts |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
US7289956B2 (en) | 2003-05-27 | 2007-10-30 | Microsoft Corporation | System and method for user modeling to enhance named entity recognition |
JP2005151299A (ja) * | 2003-11-18 | 2005-06-09 | Sanyo Electric Co Ltd | 無線通信装置、誤り訂正方法、および誤り訂正プログラム |
US7386443B1 (en) | 2004-01-09 | 2008-06-10 | At&T Corp. | System and method for mobile automatic speech recognition |
US20060095261A1 (en) * | 2004-10-30 | 2006-05-04 | Ibm Corporation | Voice packet identification based on celp compression parameters |
CA2618626C (en) * | 2005-08-09 | 2016-10-18 | Stephen S. Burns | A voice controlled wireless communication device system |
US8301454B2 (en) * | 2008-08-22 | 2012-10-30 | Canyon Ip Holdings Llc | Methods, apparatuses, and systems for providing timely user cues pertaining to speech recognition |
IL205394A (en) | 2010-04-28 | 2016-09-29 | Verint Systems Ltd | A system and method for automatically identifying a speech encoding scheme |
US8818797B2 (en) * | 2010-12-23 | 2014-08-26 | Microsoft Corporation | Dual-band speech encoding |
US8484022B1 (en) | 2012-07-27 | 2013-07-09 | Google Inc. | Adaptive auto-encoders |
US8442821B1 (en) | 2012-07-27 | 2013-05-14 | Google Inc. | Multi-frame prediction for hybrid neural network/hidden Markov models |
US9240184B1 (en) | 2012-11-15 | 2016-01-19 | Google Inc. | Frame-level combination of deep neural network and gaussian mixture models |
US10679140B2 (en) * | 2014-10-06 | 2020-06-09 | Seagate Technology Llc | Dynamically modifying a boundary of a deep learning network |
CN105989835B (zh) * | 2015-02-05 | 2019-08-13 | 宏碁股份有限公司 | 语音辨识装置及语音辨识方法 |
US10373630B2 (en) | 2017-03-31 | 2019-08-06 | Intel Corporation | Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices |
CN116612746B (zh) * | 2023-07-17 | 2023-10-03 | 北京怀芯物联技术有限公司 | 一种基于人工智能在声学库中进行语音编码识别方法 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62117422A (ja) * | 1985-11-18 | 1987-05-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化方式 |
US5509104A (en) * | 1989-05-17 | 1996-04-16 | At&T Corp. | Speech recognition employing key word modeling and non-key word modeling |
JP3131437B2 (ja) * | 1990-02-27 | 2001-01-31 | 株式会社東芝 | 誤り補償方式 |
JPH06177843A (ja) * | 1992-12-04 | 1994-06-24 | Fujitsu Ltd | 音声認識信号の無線送受信システム |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
US5677990A (en) * | 1995-05-05 | 1997-10-14 | Panasonic Technologies, Inc. | System and method using N-best strategy for real time recognition of continuously spelled names |
GB9520445D0 (en) * | 1995-10-06 | 1995-12-06 | British Telecomm | Convolutional codes |
US6112058A (en) * | 1995-10-18 | 2000-08-29 | Sc-Wireless Inc. | Method and apparatus for wireless communication employing confidence metric processing for bandwidth reduction |
JP2838994B2 (ja) * | 1995-12-27 | 1998-12-16 | 日本電気株式会社 | データ信号受信装置 |
US5917837A (en) * | 1996-09-11 | 1999-06-29 | Qualcomm, Incorporated | Method and apparatus for performing decoding of codes with the use of side information associated with the encoded data |
JPH10145249A (ja) * | 1996-11-12 | 1998-05-29 | Kokusai Electric Co Ltd | 音声復号方式 |
GB2319379A (en) * | 1996-11-18 | 1998-05-20 | Secr Defence | Speech processing system |
US5960399A (en) | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
JP3239795B2 (ja) * | 1997-04-23 | 2001-12-17 | 三菱電機株式会社 | 誤り訂正復号装置および誤り訂正復号方式 |
US6012027A (en) * | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
DE59810958D1 (de) * | 1997-06-13 | 2004-04-15 | Siemens Ag | Quellengesteuerte kanaldecodierung durch verwendung der intra-rahmen-korrelation |
CA2245601C (en) * | 1997-08-14 | 2007-06-12 | Stewart Crozier | High-performance low-complexity error-correcting codes |
JP3496706B2 (ja) * | 1997-09-12 | 2004-02-16 | 日本電信電話株式会社 | 音声認識方法及びそのプログラム記録媒体 |
US6097716A (en) * | 1997-12-12 | 2000-08-01 | Lucent Technologies Inc. | Rate detection for multi-rate communications |
SG71832A1 (en) * | 1998-08-24 | 2000-04-18 | Inst Of Microelectronics | Method and apparatus for real-time determination of scalable channel coding scheme parameters |
US6256607B1 (en) * | 1998-09-08 | 2001-07-03 | Sri International | Method and apparatus for automatic recognition using features encoded with product-space vector quantization |
DE19842405A1 (de) * | 1998-09-16 | 2000-03-23 | Philips Corp Intellectual Pty | Spracherkennungsverfahren mit Konfidenzmaßbewertung |
US6426978B1 (en) * | 1998-10-01 | 2002-07-30 | Ericsson Inc. | Digital communication systems and methods for differential and/or amplitude encoding and decoding secondary symbols |
GB2342828A (en) | 1998-10-13 | 2000-04-19 | Nokia Mobile Phones Ltd | Speech parameter compression; distributed speech recognition |
US6226613B1 (en) * | 1998-10-30 | 2001-05-01 | At&T Corporation | Decoding input symbols to input/output hidden markoff models |
US6192343B1 (en) * | 1998-12-17 | 2001-02-20 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms |
US6185527B1 (en) * | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
US6374221B1 (en) * | 1999-06-22 | 2002-04-16 | Lucent Technologies Inc. | Automatic retraining of a speech recognizer while using reliable transcripts |
-
2000
- 2000-04-24 US US09/556,250 patent/US6760699B1/en not_active Expired - Lifetime
- 2000-11-06 DE DE60000087T patent/DE60000087T2/de not_active Expired - Lifetime
- 2000-11-06 EP EP00309802A patent/EP1180764B1/en not_active Expired - Lifetime
-
2001
- 2001-04-17 JP JP2001117647A patent/JP4875249B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE60000087D1 (de) | 2002-05-02 |
DE60000087T2 (de) | 2002-09-12 |
JP2001356792A (ja) | 2001-12-26 |
EP1180764B1 (en) | 2002-03-06 |
EP1180764A1 (en) | 2002-02-20 |
US6760699B1 (en) | 2004-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4875249B2 (ja) | 自動音声認識実行方法 | |
US7024359B2 (en) | Distributed voice recognition system using acoustic feature vector modification | |
JP3241961B2 (ja) | 線形予測係数信号生成方法 | |
FI118909B (fi) | Hajautettu äänentunnistusjärjestelmä | |
US6959276B2 (en) | Including the category of environmental noise when processing speech signals | |
KR100594670B1 (ko) | 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템 | |
EP2535893B1 (en) | Device and method for lost frame concealment | |
JPH07311598A (ja) | 線形予測係数信号生成方法 | |
Bernard et al. | Low-bitrate distributed speech recognition for packet-based and wireless communication | |
JPH07311597A (ja) | 音声信号合成方法 | |
JP3459133B2 (ja) | 復号器の動作方法 | |
Peinado et al. | HMM-based channel error mitigation and its application to distributed speech recognition | |
Ion et al. | A novel uncertainty decoding rule with applications to transmission error robust speech recognition | |
Weerackody et al. | An error-protected speech recognition system for wireless communications | |
Bernard et al. | Joint channel decoding-Viterbi recognition for wireless applications. | |
US6480827B1 (en) | Method and apparatus for voice communication | |
Bernard et al. | Source and channel coding for remote speech recognition over error-prone channels | |
US7701886B2 (en) | Packet loss concealment based on statistical n-gram predictive models for use in voice-over-IP speech transmission | |
JP5122716B2 (ja) | 分散型音声認識プロセス及びシステムにおける伝送エラーの影響を緩和する方法及び装置 | |
Peinado et al. | Packet loss concealment based on VQ replicas and MMSE estimation applied to distributed speech recognition | |
Reichl et al. | A codec for speech recognition in a wireless system | |
CN1366659A (zh) | 具有音调变化检测的纠错方法 | |
Sánchez et al. | Low complexity channel error mitigation for distributed speech recognition over wireless channels | |
Peinado et al. | MMSE-based channel error mitigation for distributed speech recognition | |
Chen et al. | A bandwidth extension technique for signal transmission using chaotic data hiding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080214 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110113 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111102 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111125 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141202 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |