JP2001356792A

JP2001356792A - 自動音声認識実行方法および装置

Info

Publication number: JP2001356792A
Application number: JP2001117647A
Authority: JP
Inventors: Alexandros Potamianos; ポタミアノスアレクサンドル; Leicher Wolfgang; レイチルウォルフガング; Wiirakkodei Bijisa; ウィーラッコディビジサ
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 2000-04-24
Filing date: 2001-04-17
Publication date: 2001-12-26
Anticipated expiration: 2021-04-17
Also published as: JP4875249B2; US6760699B1; DE60000087T2; DE60000087D1; EP1180764B1; EP1180764A1

Abstract

(57)【要約】【課題】ワイヤレスチャネルを通じて用いられる分散
ＡＳＲ（自動音声認識）システムにおいて、復号ビット
についての確率論的な精度情報を利用した自動音声認識
を実行する方法および装置を実現する。【解決手段】与えられたＡＳＲ特徴（例えば、線形予
測符号化分析に基づくケプストラム係数と信号エネルギ
ー成分であって、不均一誤り保護方式を用いて符号化さ
れる）を符号化するのに用いられる各ビットに対するビ
ット誤り確率を用いて、その特徴の復号値に関してシス
テムが有する信頼度を（例えば、最大事後確率アルゴリ
ズムを用いて）計算する。破損した確率が高い特徴は、
使用されないか、または、より一般的には、音声認識器
１８により実行される音響距離計算で低く重み付けされ
る。これは、悪いチャネル条件下でＡＳＲ性能を大幅に
改善する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自動音声認識の分
野に関し、特に、ワイヤレスチャネルを通じて用いられ
る分散自動音声認識システムにおける音声認識システム
性能を改善する方法および装置に関する。

【０００２】

【従来の技術】自動音声認識の作業は一般に、個人が発
話した語または句に応答して自動システムがある（自動
化された）アクションを実行する（例えば、音声入力に
よりシステムを制御する）ことができるように、その語
または句の自動識別を含む。最近大いに注目されている
音声認識方式の１つは、ワイヤレス（例えば、セルラ）
通信チャネルを用いる環境で自動音声認識（ＡＳＲ：au
tomatic speech recognition）を実行するものである。
このようなワイヤレス／セルラネットワークを通じての
ＡＳＲは、次世代ワイヤレスマルチメディアシステムの
設計において重要度が増大している。具体的には、今
日、ＡＳＲ技術を利用したさまざまな会話システムアプ
リケーションがすでに存在する。これらには、とりわ
け、パーソナルアシスタント、音声ポータル、旅行予約
システム、株式相場システムなどがある。また、特に、
例えば車載移動電話機用に実装されているこのようなア
プリケーションの数は、他のワイヤレス装置用のものと
ともに、急速に増大している。

【０００３】従来、自動音声認識機能がワイヤレス環境
に適用されることが意図されるときは通常、音声認識プ
ロセス全体が通信チャネルの受信端に配置された。具体
的には、従来の音声符号化技術が、ワイヤレスチャネル
を通じて音声を送信するために用いられ、その後にの
み、しかも、通常、符号化音声が受信端で復号された後
にのみ、（受信端で）音声認識プロセスが実行された。
特に、音声信号の符号化がワイヤレス装置で実行され、
符号化された信号がワイヤレスチャネルを通じて送信さ
れ、この信号がワイヤレスチャネルの受信端で（例え
ば、基地局で）復号されてもとの音声が「再構成」さ
れ、最後に、自動音声認識プロセスが、完全に従来の方
式で（すなわち、あたかもワイヤレスチャネル伝送が全
く実行されなかったかのように）、再構成音声に対して
実行された。一般に、このアプローチは、必要に迫られ
てやむを得ず用いられた。ワイヤレス装置自体で音声認
識プロセスを実行するための計算量は膨大であったから
である。

【０００４】しかし、最近検討されている、ワイヤレス
チャネルを通じてのＡＳＲの課題に対する特に興味深い
アプローチの１つに、「分散」ＡＳＲシステムというも
のを用いるものがある。ここで「分散」とは、音声認識
プロセスを実現するために実行される必要のある機能
が、ワイヤレスチャネルの両「端」に分かれて別々に配
置されることをいう。すなわち、一部の機能はチャネル
の送信端に（例えば、ワイヤレス装置自体に）配置さ
れ、一部はワイヤレス通信チャネルの受信端に（例え
ば、基地局に）配置される。このようなアプローチによ
れば、ユーザは、集中化されたサーバ（これは通常、高
価な処理パワーおよびメモリを提供する）上の高価なリ
ソースを共有することができる。さらに、分散システム
設計によれば、ＡＳＲソフトウェアの集中化されたイン
ストールおよび保守が可能となり、ユーザは、難しいイ
ンストールおよび保守の手続きをせずに済む。ワイヤレ
ス装置でローカルに音声認識を実行するという代替アプ
ローチは、装置に要求される計算量、電力およびメモリ
を大幅に増大させ、複数の言語やアプリケーション領域
間でのポータビリティ（可搬性）を制限する。今日の技
術では、実用的にハンドセット側に置けるのは、例え
ば、話者が学習させた名前によるダイヤルのような非常
に限定された語彙の音声認識システムだけであり、大部
分のアプリケーションはネットワークサーバ側になけれ
ばならない。

【０００５】具体的には、１つのこのような分散ＡＳＲ
方式によれば、ワイヤレス装置で動作する小さいクライ
アントプログラムが、移動端末から音声信号の代表パラ
メータ（通常、ＡＳＲ技術分野では「特徴」という）を
抽出し、ワイヤレスチャネルを通じてこれらのパラメー
タを音声認識サーバへ送信する。サーバは、例えば、複
数の異なる移動端末のために音声認識タスクを実行する
マルチユーザサーバである。ともあれ、サーバでは、例
えば、当業者に周知の隠れマルコフモデル（ＨＭＭ）を
用いたもののような、他の点では従来技術と同様の方法
で、これらの特徴に基づいて自動音声認識を実行する。

【０００６】

【発明が解決しようとする課題】また、一般にワイヤレ
ス通信技術の周知の複雑さの１つは、データがワイヤレ
スチャネルを通じて伝送されるときに常に遭遇する伝送
誤りの問題から生じる。その結果、最近、ワイヤレス伝
送環境における誤り検出および誤り訂正の問題が大いに
注目されている。特に、さまざまなチャネル符号化方式
が開発され、これらはそれぞれ、与えられたコストで、
ワイヤレスチャネルを通じて伝送しなければならない追
加ビットにおいて、さまざまなレベルの誤り検出および
訂正能力を提供する。この問題については多くの研究が
あるが、このような誤り低減方策の目標は、このような
伝送誤りをまず検出し、その後に、可能であれば、その
効果を除去するということになるのが常である。しか
し、多くの場合、これらの誤りを完全に除去することは
できず、むしろ、ワイヤレス受信機（例えば、基地局）
には、信頼性に問題のある送信データが提供されること
がある。このような場合、従来のワイヤレスシステムは
（ＡＳＲのために用いられるか否かにかかわらず）一般
に、データが正しいと（そうでない確率がかなり高いと
認識しているにもかかわらず）仮定するか、または、そ
のデータを完全に信頼できないもの、したがって、「失
われた」（「消失」）ものとみなして、単にそれを捨て
るかのいずれかである。

【０００７】

【課題を解決するための手段】本発明の原理によれば、
一部のチャネル符号化方式は、誤り検出および訂正能力
だけでなく、与えられたデータ部分が特定の値に正確に
復号された尤度に関する確率情報をも提供することがで
きることが認識される。具体的には、このような方式
は、復号ビットについて確率論的な精度情報を提供する
ために用いることができる。この認識に基づいて、本発
明は、ワイヤレスチャネルを通じて用いられる分散ＡＳ
Ｒシステムにおいて、このような確率情報を利用した自
動音声認識を実行する方法および装置を提供する。すな
わち、本発明の実施例によれば、復号特徴に対する精度
情報が計算され、悪いチャネル条件下での（すなわち、
伝送誤りや損失の存在下での）音声認識性能を改善する
ために用いられる。

【０００８】具体的には、本発明の一実施例によれば、
与えられたＡＳＲ特徴を符号化するのに用いられる各ビ
ットに対するビット誤り確率を用いて、その特徴の復号
値に関してシステムが有する信頼度を計算する。破損し
た確率が高い特徴は、使用されないか、または、より一
般的には、音声認識器により実行される音響距離計算で
低く重み付けされる。音響復号に対するこの新規なアプ
ローチをここでは「ソフト特徴復号」(soft feature de
coding)という。これは、悪いチャネル条件下でＡＳＲ
性能を大幅に改善する。

【０００９】さらに具体的には、本発明は、通信チャネ
ルを通じて伝送された符号化音声特徴のセットを受信す
るステップと、符号化音声特徴のセットを復号して、１
つ以上の復号音声特徴と、それに対応する１つ以上の確
率測度を生成するステップと、前記１つ以上の復号音声
特徴と、それに対応する前記１つ以上の確率測度とに基
づいて、音声認識を実行するステップとを有し、それぞ
れの確率測度は、それに対応する復号音声特徴が正確に
伝送され復号された尤度の推定値を含む。

【００１０】

【発明の実施の形態】［ソフト特徴復号による例示的な
ＡＳＲシステムの概観］本発明の音声認識システムの実
施例によれば、音声認識目的に適した代表パラメータ
は、音声信号から抽出され、量子化されて、６ｋｂ／ｓ
（毎秒キロビット）のソースビットレートを生成する。
注意すべき点であるが、これらの音声パラメータから得
られるビットストリームの相異なる部分が、伝送誤りに
対して相異なる感度を有する可能性もある。したがっ
て、ビットストリームの相異なるセグメントに対して不
均一なレベルの誤り保護を与えるいくつかの誤り保護方
式のいずれかを適当に用いることが可能である。本発明
の実施例による符号化ビットストリームの全ビットレー
トは９．６ｋｂ／ｓである。この例示的なコーデックを
調べるための実験を、さまざまなワイヤレスチャネル
（例えば、ガウシアンチャネルや、さまざまなな相関を
有するレイリーチャネル）に対して実施したところ、こ
れらの実験は、悪いチャネル条件の場合であっても、通
常の音声認識タスクについて、満足なシステムの性能を
実証している。

【００１１】本発明の原理によれば、および、その実施
例によれば、チャネル復号器からの「ソフト出力」を利
用して、音声認識システムの性能が改善される。具体的
には、各復号ビットの信頼度を復号プロセスから取得
し、この信頼度を用いて、復号されたＡＳＲ特徴におけ
る信頼度を推定する。これらの信頼度に基づいて、音声
認識アルゴリズムにおける各特徴の重要度に重み付けす
ることが可能である。

【００１２】具体的には、図１は、ソフト特徴復号を利
用した、ワイヤレスチャネルを通じて用いられる例示的
な自動音声認識システムのブロック図である。システム
は、例として、ワイヤレス装置１０、ワイヤレス伝送チ
ャネル１４、および基地局１９を有する。本発明の原理
によれば、ワイヤレス装置１０に供給された入力音声
は、特徴抽出モジュール１１によって処理され、それか
ら音声認識特徴が抽出される。これらの音声認識特徴
は、例えば、ＬＰＣ（線形予測符号化）に基づくケプス
トラム係数や信号エネルギーパラメータのような、従来
の音響特徴（すなわち、一般に従来の音声認識システム
によって用いられるもの）を含む。このようなパラメー
タ（すなわち、特徴）の識別および抽出は全く従来技術
のものであり当業者に周知である（ここで説明する本発
明の実施例により選択されることが可能な特徴のセット
についてさらに詳細には後述する）。

【００１３】特徴が抽出された後、特徴量子化モジュー
ル１２が、このデータに対して従来の符号化プロセス
（すなわち、量子化）を実行する。これは、例えば、同
じく当業者に周知の従来のスカラー量子化を含む（本発
明の実施例により利用可能な量子化方式についてさらに
詳細には後述する）。最後に、この結果得られた（特徴
量子化モジュール１２からの）ビットは、チャネル符号
化モジュール１３によって符号化される。チャネル符号
化モジュール１３は、当業者に周知の従来のいずれのチ
ャネル符号化方式を適用することも可能である。特に、
本発明の実施例によれば、いくつかの可能な不均一誤り
保護（ＵＥＰ）方式の１つを利用する。これらの方式は
当業者に周知である（このような方式のいくつかの例に
ついてさらに詳細には後述する）。

【００１４】チャネル符号化モジュール１３から出力さ
れ、選択された特徴を量子化し符号化した表現は、例え
ば、ワイヤレス装置１０によって、ワイヤレスチャネル
１４を通じて、処理のために基地局１９へ送信される。
具体的には、基地局１９では、本発明の実施例によれ
ば、まず送信データがチャネル復号モジュール１５によ
って復号され、復号ビットのセットと、対応するビット
信頼性情報の両方が生成される。このような復号技術は
従来のものであって当業者に周知であり、（復号ビット
値の正確さの確率に関する情報なしで）最尤ビット値の
みを提供するさらに旧式の復号技術（例えば、単純ビタ
ビ復号のような）とは異なって、確率論的な復号ビット
情報を提供する。

【００１５】チャネル復号モジュール１５からの復号ビ
ットに基づいて、特徴回復モジュール１６によって特徴
が回復される（すなわち、ビットが特徴データへと再構
成される）。これは全く従来技術のものであり当業者に
周知である。しかし、同時に、本発明の原理によれば、
および、本発明の実施例によれば、チャネル復号モジュ
ール１５によって求められたビット信頼度値が、ビット
−特徴信頼度変換モジュール１７によって、特徴信頼度
値に変換される。その後、得られた特徴（特徴回復モジ
ュール１６によって求められたもの）と、特徴信頼度値
（ビット−特徴信頼度変換モジュール１７によって計算
されたもの）は、音声認識器１８に供給される。音声認
識器１８は、特徴およびそれに対応する信頼度値の両方
に基づいて、もとの入力音声（ワイヤレス装置１０に供
給されたもの）の音声認識を実行する。

【００１６】［例示的な特徴のセットおよび例示的な量
子化プロセス］通常の音声符号化アルゴリズムを用いて
得られる音声パラメータは、必ずしも、音声認識の目的
に最適なパラメータであるとは限らない。さらに、音声
符号器は通常、励振すなわちＬＰＣ残差信号の送信のた
めにかなりのビット数を費やすが、この情報は、音声認
識の目的のためには全く有用ではない。したがって、本
発明では、音声認識の目的のために特に選択される音声
パラメータのみを抽出し送信することに焦点を当てるこ
とにする。

【００１７】多くの利用可能な音声認識システムは、信
号パラメータ化のために、当業者に周知のケプストラム
特徴を使用する。これは、距離によるクラシファイアに
適した、コンパクトでロバスト（頑健）な音声表現であ
り、いずれも当業者に周知のメル−フィルタバンク分析
や線形予測法（ＬＰＣ）から計算可能である。本発明の
実施例の自動音声認識システムによれば、音声認識に用
いられる音響特徴は、従来の次数１０のＬＰＣ分析に基
づいて１０ｍｓごとに計算された１２個のケプストラム
係数ｃ_１，ｃ_２，...，ｃ_１２と、全信号エネルギーｅ
である。信号サンプリングレートは８０００Ｈｚであ
り、２４０サンプルのハミング窓が用いられる。したが
って、この特徴のセットは、１０ｍｓごとに１３次元ベ
クトルを形成し、この例示的な自動音声認識システムへ
の音響入力となる。

【００１８】データ伝送の目的のために、１３個の特徴
はすべてスカラー量子化される。単純な非一様量子化器
を用いて量子化セルを決定することが可能である。量子
化器は、圧伸関数として経験的な分布関数を使用し、サ
ンプルは、量子化セル内で一様分布する。使用可能な１
つの例示的アルゴリズムは、当業者に周知のロイドのア
ルゴリズムに対する単純な非反復近似であるが、これは
必ずしも量子化ノイズを最小にしない。より良好な性能
は、同じく当業者に周知のｋ平均型アルゴリズムを特徴
ベクトル全体に適用して（すなわち、ベクトル量子化）
達成することが可能である。なお、以下で説明する誤り
保護および隠蔽アルゴリズムは、さまざまな量子化方式
とともに使用可能である。

【００１９】本発明の原理によれば、自動音声認識にお
いて、いずれも当業者には明らかなさまざまなビット割
当て方式を使用可能である。例えば、１つの可能な有利
な方式は、６ビットを信号エネルギーｅと５個の上位ケ
プストラム特徴ｃ_１，...，ｃ_５のそれぞれに割り当
て、４ビットを次の６個のケプストラム特徴
ｃ_６，...，ｃ_１１のそれぞれに割り当てるものであ
る。経験的テストによれば、最後の（すなわち、１２番
目の）ケプストラム係数ｃ_１２を、固定したあらかじめ
計算された平均で置き換えることによって、評価される
タスクに大きい性能劣化はない。このように、ｃ_１２に
は音声認識プロセスに関連する最小の情報しかないた
め、これにはビットを割り当てないことが可能である。
受信機では、ｃ_１２は単に固定されあらかじめ計算され
た平均値から回復され、その後、標準的な１３次元の特
徴ベクトルが認識中に用いられる。この例示的なビット
割当て方式のビット総数は１０ｍｓフレームあたり６０
ビットであり、これにより、ワイヤレスチャネルを通じ
て伝送される無符号化データレートは６ｋｂ／ｓとな
る。

【００２０】［例示的な伝送システム］自動音声認識性
能に対するさまざまな音声符号化アルゴリズムの効果に
ついて多くの研究がある。具体的には、一般に分散ワイ
ヤレス音声認識システムにおける重大なＡＳＲ性能の劣
化が注意されており、特に、この劣化は、バースト的に
発生するワイヤレス伝送誤りの場合に起こる。受信信号
強度の急速なゆらぎのため、移動無線環境はデータ伝送
のためには非常に困難なチャネルとなることがある。そ
のため、ＡＳＲパラメータの伝送には、帯域幅およびパ
ワー効率を改善するために、特別のチャネル誤り保護方
式が用いられる。チャネル誤り保護音声パラメータは、
ワイヤレス端末および基地局の両方に配置される音声認
識コーデックを形成する。図１に示す本発明の実施例の
システムは、広範囲の相異なるチャネル条件に対して効
率的な音声認識コーデックを提供することを目標とす
る。さらに、伝送誤りの場合の音声パラメータの再送を
避けることが強く望まれる。再送は、システム応答にお
ける追加遅延を生じ、スペクトル効率を低下させるから
である。

【００２１】特に注意すべき点であるが、本発明の実施
例の特徴量子化方式により１０ｍｓ音声フレームごとに
提供される６０ビットには、複数のレベルの誤り保護を
設けることが可能である。音声符号化アプリケーション
に対する不均一誤り保護（ＵＥＰ）方式は当業者に周知
であり、文献や標準において広く調べられている。いく
つかのＵＥＰ方式が、本発明の例示的なＡＳＲシステム
について調べられており、特に３つの方式についてここ
で説明する。

【００２２】前述のように、本発明の実施例のＡＳＲシ
ステムによる量子化音声パラメータのデータレートは６
ｋｂ／ｓである。とりわけ、北米セルラ標準ＩＳ−９５
で用いられるデータレートの１つに基づいて、本発明の
実施例のＡＳＲシステムは、当業者に周知の２元差分位
相シフトキーイング（ＤＰＳＫ）変調フォーマットの符
号化信号に対し９．６ｋｂ／ｓのデータレートを使用す
る。なお、９．６ｋｂ／ｓのデータレートで導入される
チャネルオーバーヘッドはあまり大きくはなく、与えら
れたアプリケーションに対してさらに低い符号化ビット
レートが要求される場合、より高次の変調による、同じ
く当業者に周知のトレリス符号化変調方式を用いること
も可能である。また、復調プロセスを簡単にするため
に、従来の差分変調技術を用いることも可能である。

【００２３】ゆっくりとしたフェージングのあるチャネ
ルでは、大きいインタリーバを用いてシステム性能を改
善することが有効である。しかし、大きいインタリーバ
は遅延を導入し、これは、一部のリアルタイムアプリケ
ーションでは好ましくないことがある。本発明の実施例
のＡＳＲシステムによれば、８０ｍｓフレーム、すなわ
ち、８個の音声フレームが、インタリーブおよびチャネ
ル符号化の目的のために選択されている。したがって、
インタリーブおよびデインタリーブの総遅延は１６０ｍ
ｓであり、これは、通常のワイヤレス音声認識アプリケ
ーションでは容易に受け入れることが可能な長さであ
る。

【００２４】本発明の実施例のＡＳＲシステムによれ
ば、１０ｍｓ音声フレームにおいて「保護」される１２
個の音声パラメータは、エネルギーパラメータｅと、１
１個のケプストラム係数ｃ_１（ｎ），ｃ
_２（ｎ），...，ｃ_１１（ｎ）である。ただし、ｎは、
音声フレームインデックスを表す。明らかに、上記のパ
ラメータの上位のビットほど、高いチャネル誤り保護を
提供すると有効である。さらに、エネルギーパラメータ
ｅが、量子化ノイズおよびランダム伝送誤りに最も敏感
であり、次に敏感なのはケプストラム係数ｃ
_１（ｎ），...，ｃ_５（ｎ）であり、その後に、ケプス
トラム係数ｃ_６（ｎ），...，ｃ_１１（ｎ）が続くとい
うことがわかっている。実施例のチャネル符号化ビット
レートは９．６ｋｂ／ｓであるため、８０ｍｓのチャネ
ル符号化フレームにおける全符号化ビット数は７６８と
なる。

【００２５】第１の例示的な不均一誤り保護方式（ここ
ではＵＥＰ１という）によれば、Ｌ１、Ｌ２およびＬ３
で表される３つのレベルのチャネル誤り保護を考える。
さらに、Ｌ１の上位ビットにさらに高いレベルの誤り保
護を与えるために、Ｌ１を２つのレベルＬ１＿１および
Ｌ１＿２に分ける。相異なる不均一誤り保護（ＵＥＰ）
レベルに対するビットの割当てを次の表に示す。

【００２６】

【表１】

【００２７】上記の記法で、ｅ^０（ｎ），ｅ
^１（ｎ），...は、ｅ（ｎ）のビットを上位から下位へ
の順で表す（ケプストラム係数についても同様）。上記
の表からわかるように、Ｌ１、Ｌ２およびＬ３における
音声フレームあたりのビット数はそれぞれ、１３、２４
および２３である。この場合、Ｌ１＿１は、重要なほう
から７ビットとして決定されたビットを含み、これらの
ビットは、内側畳込み符号（当業者に周知）に加えて、
外側（１２，７）巡回符号（同じく当業者に周知）を用
いて保護される。本発明の一実施例では、（１２，７）
巡回符号は、誤りの検出にのみ用いられ、これは、受信
機における誤り隠蔽に有用である。しかし、本発明の別
の実施例によれば、受信機に複雑さを追加することによ
り、この符号を誤り訂正のためにも利用することが可能
である。Ｌ１＿２は、この例では、次に重要な６ビット
を含む。レート１／２、メモリ８の符号をＬ１レベルの
ビットに使用するため、Ｌ１レベルの８個の音声フレー
ムに対する符号化ビットの総数は２８８となる。

【００２８】レベルＬ２は、この例では、次に重要な２
５ビットを含み、レート２／３のレートコンパチブルパ
ンクチャド畳込み（ＲＣＰＣ）符号がレベルＬ２に対し
て用いられる。８ビットのテールを含む、８個の音声フ
レームに対する符号化されたＬ２レベルビットの総数は
この例では３００となる。最も重要性の低いビットはＬ
３にあり、これらのビットは、全くチャネル符号化なし
で送信されることが可能である。８個の音声フレームに
おける符号化後のビットの総数を７６８に維持するた
め、符号化されたＬ２レベルのビットからさらに４ビッ
トをパンクチャド符号化により除く。Ｌ１＿１レベルの
ビットの後にＬ１＿２レベルのビットが続き、その次に
Ｌ２レベルのビットが続くように、チャネル符号化が実
行される。なお、ＲＣＰＣ符号のため、レート１／２符
号は終端しない。そのため、Ｌ２レベルからチャネル符
号の復号深さ未満しか離れていないＬ１＿２のビット
は、通常のレート１／２母符号に入らないことになる。
チャネル符号器入力において、８個の音声フレームｎ，
（ｎ＋１），...，（ｎ＋７）に対するＬ１＿２レベル
のビットは次のように配列される。ｅ^２（ｎ），ｅ
^２（ｎ＋１），...，ｅ^２（ｎ＋７）；ｃ_１ ^１（ｎ），
ｃ_１ ^１（ｎ＋１），...，ｃ_１ ^１（ｎ＋７）；...；ｃ_５
^１（ｎ），ｃ_５ ^１（ｎ＋１），...ｃ_５ ^１（ｎ＋７）前述のように、係数ｃ_１（ｎ）はｃ_５（ｎ）より重要で
あることがわかっているため、このビット配列により、
Ｌ１＿２フレームの終端付近の重要性の低いビットが、
通常のレート１／２母符号よりも強力でない符号に入る
ことになる。

【００２９】第２の例示的な不均一誤り保護方式（ここ
ではＵＥＰ２という）によれば、上記のＵＥＰ１方式に
おけるＬ１＿１レベルのビットから外符号が除去され
る。これにより、Ｌ２レベルのビットに対して、より強
力な符号が適用される。しかし、Ｌ１＿１レベルのビッ
トは、外符号の誤り検出および訂正能力がないために、
同じ強度の誤り保護を受けないことになる。Ｌ１、Ｌ２
およびＬ３のビット割当ては、誤り保護を除いては、例
えば、ＵＥＰ１方式の場合と同様である。

【００３０】この例では、レート１／２畳込み符号の場
合、Ｌ１レベルのビットからの８個の音声フレーム中の
符号化ビットの総数は２０８である。２００個のＬ２ビ
ット（８ビットのテールを含む）に対して、２４ビット
をパンクチャド符号化により除いたレート１／２符号を
用いて、３７６個の符号化ビットが得られる。その場
合、この例では、１８４個のＬ３無符号化ビットを合わ
せて、８個の音声フレーム中の符号化ビットの総数は７
６８となる。Ｌ１＿２ビットは、Ｌ１＿１ビットがＬ１
＿２ビットに先行するようにして、ＵＥＰ１方式の場合
と同様に配列することが可能である。

【００３１】第３の例示的な不均一誤り保護方式（ここ
ではＵＥＰ３という）によれば、ビットは、すべての特
徴成分の上位ビット（ＭＳＢ）がレベル１にまとめられ
るように再配列される。注意すべき点であるが、（前述
のように）特徴成分ｅ（ｎ）およびｃ_１（ｎ），...，
ｃ_５（ｎ）は最も重要であり、またさらに、前述の２つ
の誤り保護方式では、これらの各成分の２個のＭＳＢは
レベルＬ１にある。しかし、ｃ_６（ｎ），...，ｃ_１１
（ｎ）のＭＳＢもまた重要なパラメータであることにも
注意すべきである。このように、すべての特徴成分のＭ
ＳＢをＬ１に入れると有効なことがある。具体的には、
ビット配列は次の表に示すとおりである。

【表２】この表からわかるように、Ｌ１＿１に割り当てられるビ
ットは、ＵＥＰ１方式と同一であり、ＵＥＰ１と同様に
（１２，７）外符号およびレート１／２、メモリ８の内
符号により保護される。ＵＥＰ１方式の場合と同様に、
レート２／３符号がレベルＬ２のビットに適用され、レ
ベルＬ３のビットは符号化されない。

【００３２】ａ（ｎ）で、チャネル符号器への入力にお
ける音声ビットを表し、ｂ（ｎ）で、チャネル符号器出
力を表す。ｂ（ｎ）は、８０ｍｓにわたり生じる７６８
個のシンボルにわたってインタリーブされた後、差分符
号化されて、次式のようになる。ｕ（ｎ）＝ｄ（ｎ）−ｄ（ｎ−１）（１）ただし、ｄ（ｎ）はインタリーバの出力である。ベース
バンド等価受信信号は次のように書くことができる。ｙ（ｎ）＝Ａβ（ｎ）ｕ（ｎ）＋ν（ｎ）（２）ただし、Ａは送信振幅であり、β（ｎ）は複素チャネル
利得であり、ν（ｎ）は加法性白色ガウシアンノイズ
（ＡＷＧＮ）成分である。なお、レイリーフェージング
チャネルの場合、β（ｎ）は、次式を満たす相関する複
素ガウス変数である。Ｅ｛β（ｎ）β^＊（ｎ＋ｋ）｝＝Ｊ_０（２π（ν／λ）ｋＴ）（３）ただし、ν、λおよびＴはそれぞれ、移動速度、ＲＦ搬
送波の波長、およびシンボル期間である。受信機では、
ｙ（ｎ）はまず差分復号された後、デインタリーブさ
れ、最後にビタビ復号される。その後、ビタビ復号器の
出力ａ＾（ｎ）は、音声認識器モジュールに送られる。

【００３３】［例示的なソフト特徴誤り隠蔽手続き］伝
送誤りの悪影響を克服するため、通常の誤り隠蔽方策
は、前に受信したフレームの繰返しや、パラメータ補間
を含むことが多い。これらの技術は、ランダムビット誤
りを修復する助けとなることがあるが、フェージングチ
ャネルに起こりやすいバースト的に起こる誤りに対して
は失敗することがある。本発明の原理によれば、チャネ
ル復号器からＡＳＲユニットへの「ソフト出力」に基づ
く新規な誤り隠蔽技術が、ここで説明する例示的なＡＳ
Ｒシステムで提供される。本発明の一実施例によれば、
当業者に周知の最大事後確率（ＭＡＰ）アルゴリズムが
用いられる。この従来技術を用いて、各復号ビットの精
度の事後確率を求めることができる。その後、ＡＳＲユ
ニットは、この情報を利用して、他の点では従来の音声
認識器に基づいて、改善された音声認識性能を得る。

【００３４】具体的には、１２個の復号された音声特徴
成分のそれぞれに対して、受信機は、その成分を正しく
復号した信頼度を与える追加的な値を生成する。特に、
本発明の一実施例によれば、１２個の特徴のそれぞれに
対して、２個の信頼度ビットが生成される。第１および
第２ビットはそれぞれ、各特徴の第１ＭＳＢ（最上位ビ
ット）および第２ＭＳＢ（最上位から２番目のビット）
に対応する。さらに具体的には（実施例によれば）、ａ
＾（ｎ）が、チャネル復号器出力における関連するＭＳ
Ｂビットであると仮定する。ＭＡＰ復号器は、確率ｐ_ｉ
（ｎ）＝Ｐｒｏｂ｛ａ＾（ｎ）＝ｉ｝（ｉ＝０，１）を
与える。ただし、ｐ_０（ｎ）＋ｐ_１（ｎ）＝１である。
しきい値をＴ（＞０．５）で表す。すると、ｐ_ｉ（ｎ）
＞Ｔの場合、信頼度Λ_ｉ（ｎ）＝１であり、それ以外の
場合、Λ_ｉ（ｎ）＝０である。この例示的な割当てで
は、信頼度値が１に近づくと、対応するビットは非常に
高い確率で正しく、信頼度値が０に近づくと、送信ビッ
トは消失により表される。

【００３５】１２個の特徴成分の２個のＭＳＢのそれぞ
れに対してこうして得られる１ビット量子化された信頼
度値Λ_ｉ（ｎ）は、対応するチャネル復号ビットストリ
ームとともに、音声認識モジュールに送られる。

【００３６】本発明の一実施例では、誤り隠蔽方策は、
音声認識器において、誤りの可能性のある送信特徴を捨
て、尤度計算について信頼性の高いもののみを使用す
る。すなわち、高い信頼度を有する成分のみに基づく、
簡約された特徴ベクトルが使用される。例えば、隠れマ
ルコフモデル（ＨＭＭ）に基づく音声認識システムで
は、観測される特徴ベクトルは、状態ごとの確率分布ｐ
（ｘ｜ｓ）によってモデル化される。ただし、ｘは特徴
ベクトルであり、ｓはモデルの状態である。（隠れマル
コフモデルおよびそれに基づく音声認識方法は当業者に
周知である。）通常、従来のＨＭＭに基づく音声認識器
は、音素（あるいはtriphone）ごとのＨＭＭの各状態に
対するガウス密度の混合を用いる。このような場合、特
徴ベクトルの信頼できる（信頼可能）部分に対する簡約
分布は、次式のようにすべての信頼できない（信頼不
能）成分にわたり積分することによって求められる周辺
分布となる。

【数１】ただし、ｘ_ｒｅｌ、ｘ_{ｕｎｒｅｌ}はそれぞれ、特徴ベク
トルの信頼可能および信頼不能成分である。ＨＭＭ尤度
計算に対する信頼可能成分の周辺分布を用いることは、
ノイズの多い環境における音声認識器のロバスト性を改
善する技術の１つであり、当業者には周知であり、「mi
ssing feature theory」と呼ばれるものである。（な
お、従来のノイズの多い環境における音声認識アプリケ
ーションでは、信頼不能スペクトル特徴のラベリングは
困難な作業となることがあるが、本発明によれば、各特
徴の信頼性はチャネル復号器によって提供される。）特
に、対角共分散ガウシアン混合モデル（当業者に周知）
では、簡約尤度関数は、完全な尤度計算から信頼不能成
分を単に落とすだけで容易に計算することができる。な
お、このアプローチを用いると、既存の音声認識アルゴ
リズムに対する修正が少なくて済む。

【００３７】本発明の一実施例によれば、送信特徴およ
びそれから導出される追加特徴が両方とも、音声認識器
によって用いられる。例えば、音声認識プロセスにおい
て、送信特徴自体（すなわち、エネルギー特徴および１
２個のケプストラム特徴）に加えて、そのなめらかな１
次および２次導関数（ここではそれぞれ、「デルタ」特
徴および「デルタ−デルタ」特徴という）を計算して用
いることが可能である。さらに具体的には、信頼可能な
受信特徴のみを用い信頼不能である可能性のあるものを
捨てる本発明の一実施例によれば、次の方策を用いるこ
とが可能である。

【００３８】（１）エネルギーおよびケプストラム特徴
については、第１または第２ビットが信頼度値０で受信
された場合、それを尤度計算では用いない（すなわち、
上記の式に従って周辺化する）。

【００３９】（２）「デルタ」および「デルタ−デル
タ」特徴については、デルタまたはデルタ−デルタ計算
のために用いられるウィンドウ内のいずれかの特徴の第
１または第２ビットが信頼度値０で受信された場合、対
応するデルタまたはデルタ−デルタ特徴を尤度計算では
用いない。

【００４０】図２は、図１の自動音声認識システムのこ
の実施例によってもとの特徴セットをソフト特徴セット
に変換する上記のプロセスを説明するダイヤグラムであ
る。この図からわかるように、もとの特徴セットは、例
えば、エネルギー特徴２１、ケプストラム特徴２２−１
〜２２−１２、デルタエネルギー特徴２３、デルタケプ
ストラム特徴２４−１〜２４−１２、デルタ−デルタエ
ネルギー特徴２５、デルタ−デルタケプストラム特徴２
６−１〜２６−１２を含む。この実施例によれば、５フ
レームおよび７フレームのウィンドウがそれぞれ、デル
タ計算およびデルタ−デルタ計算に用いられる。具体的
には、フレームｎに対するデルタ特徴値は、フレームｎ
−２、ｎ−１、ｎ、ｎ＋１、およびｎ＋２に基づいて計
算される。同様に、フレームｎに対するデルタ−デルタ
特徴値は、フレームｎ−３、ｎ−２、ｎ−１、ｎ、ｎ＋
１、ｎ＋２、およびｎ＋３に基づいて計算される。（も
との特徴セットからデルタを計算する技術は一般に当業
者に周知であり、明らかである。）なお、図示したダイ
ヤグラムでは、これらの特徴のうちの一部（例えば、ケ
プストラム特徴２２−１、デルタケプストラム特徴２４
−１２、デルタ−デルタケプストラム特徴２６−１およ
びデルタ−デルタケプストラム特徴２６−１２）は、ダ
イヤグラムの手続きに従って、不正なＭＳＢの結果とし
て周辺化されたように示されている。

【００４１】［例示的なソフト特徴重みづけ手続き］も
う１つの実施例によれば、尤度計算における特徴成分
は、それらの信頼度値によって重みづけすることが可能
である。この場合、０〜１の連続的な信頼度値が復号プ
ロセスから得られ、音声認識器モジュールの尤度計算に
対する各特徴の寄与を、対応する信頼度値によってスケ
ールさせることができる。すなわち、この誤り隠蔽アプ
ローチを適用する際に、ＡＳＲ特徴は「ソフト」に用い
られ、各成分は、正確に復号されたことの信頼度によっ
て重みづけされる。

【００４２】具体的には、このソフト特徴復号プロセス
によれば、重みは、音声認識器における確率計算におい
て各特徴にかけられる。状態観測確率密度関数（ｐｄ
ｆ）が、次式のような対角共分散ガウシアンｐｄｆの混
合であると仮定する。

【数２】ただし、ｘは特徴ベクトルであり、Ｎは特徴ベクトルの
サイズであり、Ｍは状態あたりのガウス分布の混合数で
あり、ｗ_ｍ、μ_ｍ、およびσ_ｍはそれぞれ、ＨＭＭ状態
ｓに対するｍ番目のガウシアンの混合重み、平均および
標準偏差である。Ｃ_ｎはｎ番目の特徴の信頼度であると
仮定すると、復号器で適用される重みづけ方式は、次式
のように状態観測確率計算を修正する。

【数３】ただし、ｆ（Ｃ_ｎ）は、信頼度Ｃ_ｎのある関数である。
なお、Ｃは時間の関数であり、フレームレートで（すな
わち、ｘが更新されるのと同じ頻度で）更新される。信
頼度が０〜１の数に正規化されていると仮定すると、関
数ｆ（Ｃ）の可能な形の１つは、ｆ（Ｃ）＝（α＋１）
／（α＋Ｃ）であり、上記の式は次のようになる。

【数４】ただし、αは平滑化定数であり、例えば、提供されるデ
ータセットに対して誤りが最小になるように、実験的に
決定することが可能である。なお、αの値が非常に大き
い場合、すべての特徴は多かれ少なかれ同様に重みづけ
され、一方、αの値が非常に小さい場合、高い信頼度値
（すなわち、Ｃ_ｎが１に近い場合）の特徴のみが、観測
確率計算において考慮される。状態観測確率計算におけ
る特徴重みづけ以外の、復号プロセスのその他のすべて
の点については、信頼可能な受信特徴のみを用いて信頼
不能の可能性のあるものを捨てる本発明の実施例に関し
て前述した場合と変わらない。

【００４３】［例示的なＡＳＲシステムの他の特性］こ
こで説明した例示的なＡＳＲシステムによれば、ＬＰＣ
から導出される１２個のケプストラム係数と、信号エネ
ルギーと、これらの成分の１次および２次時間導関数の
すべてを、音声認識モジュール内で音響特徴として使用
可能である。各音声発話のケプストラム平均は、認識を
実行する前に計算して除去することが可能である。ケプ
ストラム係数および信号エネルギーは、移動端末で計算
して基地局に送信し、次に、受信機においてこれを再構
成して（本発明の原理による）ソフト特徴誤り隠蔽のた
めの信頼度値を付加し、最後にネットワークの音声認識
サーバへ送信することが可能である。この場合、１次お
よび２次時間導関数を生成し、送信される特徴セットに
付加することも可能である。

【００４４】音声認識のための音響モデルは、例えば公
衆電話網を通じて収集された、例えば英語音声データベ
ースの集まりについて学習させることが可能である。音
声認識器モジュールは、連続密度ＨＭＭに基づくことも
可能である。また、ＨＭＭによってモデル化される音響
ユニットは、３個のemitting状態を有しleft-to-right
トポロジーを有する状態クラスタ化triphoneモデルとす
ることも可能である。

【００４５】［詳細な説明への付記］以上、本発明につ
いて詳細に説明したが、当業者であれば、上記の記載に
基づいて、さまざまな変形例を考えることが可能であ
る。例えば、当業者には認識されるように、図面のブロ
ック図は、本発明の原理を実現する例示的な回路の概念
図を表す。同様に、認識されるように、流れ図、状態遷
移図、擬似コードなどは、実質的に、コンピュータ可読
媒体内に表現し、コンピュータあるいはプロセッサによ
って実行されるようにすることが（そのようなコンピュ
ータあるいはプロセッサが明示的に図示されているかど
うかにかかわらず）可能である。

【００４６】図示されたさまざまな要素の機能は、「プ
ロセッサ」あるいは「モジュール」と名づけられた機能
ブロックを含めて、専用ハードウェアや、適当なソフト
ウェアを実行可能なハードウェアを用いて提供可能であ
る。プロセッサによって提供されるとき、これらの機能
は、単一の専用プロセッサによって、単一の共有プロセ
ッサによって、あるいは、複数のプロセッサ（その一部
は共用可能）によって提供可能である。さらに、「プロ
セッサ」あるいは「コントローラ」という用語の明示的
な使用は、ソフトウェアを実行可能なハードウェアを限
定的に指すものと解釈すべきではなく、暗黙的に、限定
的でなく、ディジタル信号プロセッサ（ＤＳＰ）ハード
ウェア、ソフトウェアを記憶するための読み出し専用メ
モリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、
および不揮発性記憶装置を含む。他のハードウェアも、
通常のものであるかカスタム化したものかにかかわら
ず、含まれる。同様に、図中にスイッチがあれば、それ
は概念的なものにすぎない。その機能は、プログラムロ
ジックの動作によって、専用ロジックによって、プログ
ラム制御と専用ロジックの相互作用によって、あるい
は、手動でも、実行可能であり、具体的には文脈から理
解されるように実装者が個々の技術を選択することが可
能である。

【００４７】特許請求の範囲において、特定の機能を実
行する手段として表現される要素は、例えば、（ａ）そ
の機能を実行する回路要素の組合せ、あるいは、（ｂ）
ファームウェア、マイクロコードなどを含む任意の形の
ソフトウェアを、その機能を実行するようにそのソフト
ウェアを動作させるための適当な回路と組み合わせたも
の、を含めて、その機能を実行する任意の態様を含む。

【００４８】

【発明の効果】以上述べたごとく、本発明によれば、

【図面の簡単な説明】

【図１】ソフト特徴復号を利用した、ワイヤレスチャネ
ルを通じて用いられる例示的な自動音声認識システムの
ブロック図である。

【図２】図１の例示的な自動音声認識システムの一実施
例に従って、もとの特徴セットをソフト特徴セットに変
換するプロセスを説明する図である。

【符号の説明】

１０ワイヤレス装置１１特徴抽出モジュール１２特徴量子化モジュール１３チャネル符号化モジュール１４ワイヤレス伝送チャネル１５チャネル復号モジュール１６特徴回復モジュール１７ビット−特徴信頼度変換モジュール１８音声認識器１９基地局２１エネルギー特徴２２ケプストラム特徴２３デルタエネルギー特徴２４デルタケプストラム特徴２５デルタ−デルタエネルギー特徴２６デルタ−デルタケプストラム特徴

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 19/04 Ｇ１０Ｌ 9/18 ＥＨ０３Ｍ 7/36 Ａ 9/14 Ｊ (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ. (72)発明者アレクサンドルポタミアノスアメリカ合衆国、07974 ニュージャージー州、ウェストフィールド、サミットアベニュー 500、アパートメント１ (72)発明者ウォルフガングレイチルドイツ国、マニク、80333 ゲーブルスバーガスター 60ｂ (72)発明者ビジサウィーラッコディアメリカ合衆国、07974 ニュージャージー州、マレーヒル、イーサンドライブ 38、アパートメント１ＡＦターム(参考） 5D015 FF00 HH00 KK02 5D045 DA02 DA11 5J064 AA01 BA17 BB01 BB03 BB08 BC28 BD02

Claims

【特許請求の範囲】

【請求項１】通信チャネルを通じて伝送された符号化
音声特徴のセットを受信するステップと、符号化音声特徴のセットを復号して、１つ以上の復号音
声特徴と、それに対応する１つ以上の確率測度を生成す
る復号ステップと、前記１つ以上の復号音声特徴と、それに対応する前記１
つ以上の確率測度とに基づいて、音声認識を実行するス
テップとを有し、それぞれの確率測度は、それに対応する復号音声特徴が
正確に伝送され復号された尤度の推定値を含むことを特
徴とする自動音声認識実行方法。
【請求項２】前記通信チャネルは、ワイヤレス通信チ
ャネルを含むことを特徴とする請求項１記載の方法。
【請求項３】前記符号化音声特徴のセットは、北米セ
ルラ標準ＩＳ−９５に従って９．６ｋｂ／ｓのデータレ
ートで前記ワイヤレス通信チャネルを通じて伝送されて
いることを特徴とする請求項２記載の方法。
【請求項４】前記符号化音声特徴のセットは、線形予
測符号化分析に基づく１つ以上のケプストラム係数を含
むことを特徴とする請求項１記載の方法。
【請求項５】前記符号化音声特徴のセットは、信号エ
ネルギー成分をさらに含むことを特徴とする請求項４記
載の方法。
【請求項６】前記符号化音声特徴のセットは、非一様
スカラー量子化器を用いて量子化された１つ以上の音声
特徴を含むことを特徴とする請求項１記載の方法。
【請求項７】前記符号化音声特徴のセットは、ベクト
ル量子化された複数の音声特徴を含むことを特徴とする
請求項１記載の方法。
【請求項８】前記符号化音声特徴のセットは、不均一
誤り保護方式を用いて符号化されていることを特徴とす
る請求項１記載の方法。
【請求項９】前記不均一誤り保護方式は、巡回冗長符
号の使用を含むことを特徴とする請求項８記載の方法。
【請求項１０】前記不均一誤り保護方式は、畳込み符
号の使用を含むことを特徴とする請求項８記載の方法。
【請求項１１】前記符号化音声特徴のセットは、差分
符号化されており、前記復号ステップは、前記符号化音
声特徴のセットを差分復号するステップを含むことを特
徴とする請求項１記載の方法。
【請求項１２】前記符号化音声特徴のセットは、送信
前にインタリーブされており、前記復号ステップは、前
記符号化音声特徴のセットをデインタリーブするステッ
プを含むことを特徴とする請求項１記載の方法。
【請求項１３】前記復号ステップは、前記符号化音声
特徴のセットのビタビ復号を実行して前記１つ以上の復
号音声特徴を生成することを含むことを特徴とする請求
項１記載の方法。
【請求項１４】前記復号ステップは、受信された符号化音声特徴のセットの１つ以上のビット
に対応する１つ以上のビット信頼度値を決定するステッ
プと、前記１つ以上のビット信頼度値に基づいて、前記復号音
声特徴に対応する前記１つ以上の確率測度を生成するス
テップとを含むことを特徴とする請求項１記載の方法。
【請求項１５】前記１つ以上のビット信頼度値を決定
するステップは、最大事後確率アルゴリズムを用いて実
行されることを特徴とする請求項１４記載の方法。
【請求項１６】前記音声認識を実行するステップは、
１つ以上の連続密度隠れマルコフモデルを用いて実行さ
れることを特徴とする請求項１記載の方法。
【請求項１７】前記音声認識を実行するステップは、
前記１つ以上の復号音声特徴のうち、対応する確率測度
が所定しきい値を超えることにより信頼可能であるとみ
なされたもののみに基づいて実行されることを特徴とす
る請求項１記載の方法。
【請求項１８】前記音声認識を実行するステップは、
さらに、１つ以上の音声特徴導関数に基づき、前記音声特徴導関数は、複数の復号音声特徴の対応する
時間順序系列に基づいて決定されることを特徴とする請
求項１記載の方法。
【請求項１９】前記音声認識を実行するステップは、
前記１つ以上の音声特徴導関数のうち、前記対応する時
間順序系列中の前記複数の復号音声特徴の確率測度によ
り信頼可能であるとみなされたもののみに基づいて実行
されることを特徴とする請求項１８記載の方法。
【請求項２０】前記音声認識を実行するステップは、
前記１つ以上の復号音声特徴に対応する確率測度に基づ
いて、前記１つ以上の復号音声特徴のそれぞれに重みづ
けすることを含むことを特徴とする請求項１記載の方
法。
【請求項２１】通信チャネルを通じて伝送された符号
化音声特徴のセットを受信する手段と、符号化音声特徴のセットを復号して、１つ以上の復号音
声特徴と、それに対応する１つ以上の確率測度を生成す
る復号手段と、前記１つ以上の復号音声特徴と、それに対応する前記１
つ以上の確率測度とに基づいて、音声認識を実行する手
段とを有し、それぞれの確率測度は、それに対応する復号音声特徴が
正確に伝送され復号された尤度の推定値を含むことを特
徴とする自動音声認識実行装置。
【請求項２２】前記通信チャネルは、ワイヤレス通信
チャネルを含むことを特徴とする請求項２１記載の装
置。
【請求項２３】前記符号化音声特徴のセットは、北米
セルラ標準ＩＳ−９５に従って９．６ｋｂ／ｓのデータ
レートで前記ワイヤレス通信チャネルを通じて伝送され
ていることを特徴とする請求項２２記載の装置。
【請求項２４】前記符号化音声特徴のセットは、線形
予測符号化分析に基づく１つ以上のケプストラム係数を
含むことを特徴とする請求項２１記載の装置。
【請求項２５】前記符号化音声特徴のセットは、信号
エネルギー成分をさらに含むことを特徴とする請求項２
４記載の装置。
【請求項２６】前記符号化音声特徴のセットは、非一
様スカラー量子化器を用いて量子化された１つ以上の音
声特徴を含むことを特徴とする請求項２１記載の装置。
【請求項２７】前記符号化音声特徴のセットは、ベク
トル量子化された複数の音声特徴を含むことを特徴とす
る請求項２１記載の装置。
【請求項２８】前記符号化音声特徴のセットは、不均
一誤り保護方式を用いて符号化されていることを特徴と
する請求項２１記載の装置。
【請求項２９】前記不均一誤り保護方式は、巡回冗長
符号の使用を含むことを特徴とする請求項２８記載の装
置。
【請求項３０】前記不均一誤り保護方式は、畳込み符
号の使用を含むことを特徴とする請求項２８記載の装
置。
【請求項３１】前記符号化音声特徴のセットは、差分
符号化されており、前記復号手段は、前記符号化音声特
徴のセットを差分復号する手段を含むことを特徴とする
請求項２１記載の装置。
【請求項３２】前記符号化音声特徴のセットは、送信
前にインタリーブされており、前記復号手段は、前記符
号化音声特徴のセットをデインタリーブする手段を含む
ことを特徴とする請求項２１記載の装置。
【請求項３３】前記復号手段は、前記符号化音声特徴
のセットのビタビ復号を実行して前記１つ以上の復号音
声特徴を生成する手段を含むことを特徴とする請求項２
１記載の装置。
【請求項３４】前記復号手段は、受信された符号化音声特徴のセットの１つ以上のビット
に対応する１つ以上のビット信頼度値を決定する手段
と、前記１つ以上のビット信頼度値に基づいて、前記復号音
声特徴に対応する前記１つ以上の確率測度を生成する手
段とを含むことを特徴とする請求項２１記載の装置。
【請求項３５】前記１つ以上のビット信頼度値を決定
する手段は、最大事後確率アルゴリズムを用いて実現さ
れることを特徴とする請求項３４記載の装置。
【請求項３６】前記音声認識を実行する手段は、１つ
以上の連続密度隠れマルコフモデルを用いて実現される
ことを特徴とする請求項２１記載の装置。
【請求項３７】前記音声認識を実行する手段は、前記
１つ以上の復号音声特徴のうち、対応する確率測度が所
定しきい値を超えることにより信頼可能であるとみなさ
れたもののみに基づいて音声認識を実行することを特徴
とする請求項２１記載の装置。
【請求項３８】前記音声認識を実行する手段は、さら
に、１つ以上の音声特徴導関数に基づき、前記音声特徴導関数は、複数の復号音声特徴の対応する
時間順序系列に基づいて決定されることを特徴とする請
求項２１記載の装置。
【請求項３９】前記音声認識を実行する手段は、前記
１つ以上の音声特徴導関数のうち、前記対応する時間順
序系列中の前記複数の復号音声特徴の確率測度により信
頼可能であるとみなされたもののみに基づいて音声認識
を実行することを特徴とする請求項３８記載の装置。
【請求項４０】前記音声認識を実行する手段は、前記
１つ以上の復号音声特徴に対応する確率測度に基づい
て、前記１つ以上の復号音声特徴のそれぞれに重みづけ
する手段を含むことを特徴とする請求項２１記載の装
置。