JP4875249B2

JP4875249B2 - 自動音声認識実行方法

Info

Publication number: JP4875249B2
Application number: JP2001117647A
Authority: JP
Inventors: ポタミアノスアレクサンドル; レイチルウォルフガング; ウィーラッコディビジサ
Original assignee: アルカテル−ルーセントユーエスエーインコーポレーテッド
Priority date: 2000-04-24
Filing date: 2001-04-17
Publication date: 2012-02-15
Anticipated expiration: 2021-04-17
Also published as: EP1180764B1; EP1180764A1; US6760699B1; DE60000087D1; DE60000087T2; JP2001356792A

Description

【０００１】
【発明の属する技術分野】
本発明は、自動音声認識の分野に関し、特に、ワイヤレスチャネルを通じて用いられる分散自動音声認識システムにおける音声認識システム性能を改善する方法および装置に関する。
【０００２】
【従来の技術】
自動音声認識の作業は一般に、個人が発話した語または句に応答して自動システムがある（自動化された）アクションを実行する（例えば、音声入力によりシステムを制御する）ことができるように、その語または句の自動識別を含む。最近大いに注目されている音声認識方式の１つは、ワイヤレス（例えば、セルラ）通信チャネルを用いる環境で自動音声認識（ＡＳＲ：automatic speech recognition）を実行するものである。このようなワイヤレス／セルラネットワークを通じてのＡＳＲは、次世代ワイヤレスマルチメディアシステムの設計において重要度が増大している。具体的には、今日、ＡＳＲ技術を利用したさまざまな会話システムアプリケーションがすでに存在する。これらには、とりわけ、パーソナルアシスタント、音声ポータル、旅行予約システム、株式相場システムなどがある。また、特に、例えば車載移動電話機用に実装されているこのようなアプリケーションの数は、他のワイヤレス装置用のものとともに、急速に増大している。
【０００３】
従来、自動音声認識機能がワイヤレス環境に適用されることが意図されるときは通常、音声認識プロセス全体が通信チャネルの受信端に配置された。具体的には、従来の音声符号化技術が、ワイヤレスチャネルを通じて音声を送信するために用いられ、その後にのみ、しかも、通常、符号化音声が受信端で復号された後にのみ、（受信端で）音声認識プロセスが実行された。特に、音声信号の符号化がワイヤレス装置で実行され、符号化された信号がワイヤレスチャネルを通じて送信され、この信号がワイヤレスチャネルの受信端で（例えば、基地局で）復号されてもとの音声が「再構成」され、最後に、自動音声認識プロセスが、完全に従来の方式で（すなわち、あたかもワイヤレスチャネル伝送が全く実行されなかったかのように）、再構成音声に対して実行された。一般に、このアプローチは、必要に迫られてやむを得ず用いられた。ワイヤレス装置自体で音声認識プロセスを実行するための計算量は膨大であったからである。
【０００４】
しかし、最近検討されている、ワイヤレスチャネルを通じてのＡＳＲの課題に対する特に興味深いアプローチの１つに、「分散」ＡＳＲシステムというものを用いるものがある。ここで「分散」とは、音声認識プロセスを実現するために実行される必要のある機能が、ワイヤレスチャネルの両「端」に分かれて別々に配置されることをいう。すなわち、一部の機能はチャネルの送信端に（例えば、ワイヤレス装置自体に）配置され、一部はワイヤレス通信チャネルの受信端に（例えば、基地局に）配置される。このようなアプローチによれば、ユーザは、集中化されたサーバ（これは通常、高価な処理パワーおよびメモリを提供する）上の高価なリソースを共有することができる。さらに、分散システム設計によれば、ＡＳＲソフトウェアの集中化されたインストールおよび保守が可能となり、ユーザは、難しいインストールおよび保守の手続きをせずに済む。ワイヤレス装置でローカルに音声認識を実行するという代替アプローチは、装置に要求される計算量、電力およびメモリを大幅に増大させ、複数の言語やアプリケーション領域間でのポータビリティ（可搬性）を制限する。今日の技術では、実用的にハンドセット側に置けるのは、例えば、話者が学習させた名前によるダイヤルのような非常に限定された語彙の音声認識システムだけであり、大部分のアプリケーションはネットワークサーバ側になければならない。
【０００５】
具体的には、１つのこのような分散ＡＳＲ方式によれば、ワイヤレス装置で動作する小さいクライアントプログラムが、移動端末から音声信号の代表パラメータ（通常、ＡＳＲ技術分野では「特徴」という）を抽出し、ワイヤレスチャネルを通じてこれらのパラメータを音声認識サーバへ送信する。サーバは、例えば、複数の異なる移動端末のために音声認識タスクを実行するマルチユーザサーバである。ともあれ、サーバでは、例えば、当業者に周知の隠れマルコフモデル（ＨＭＭ）を用いたもののような、他の点では従来技術と同様の方法で、これらの特徴に基づいて自動音声認識を実行する。
【０００６】
【発明が解決しようとする課題】
また、一般にワイヤレス通信技術の周知の複雑さの１つは、データがワイヤレスチャネルを通じて伝送されるときに常に遭遇する伝送誤りの問題から生じる。その結果、最近、ワイヤレス伝送環境における誤り検出および誤り訂正の問題が大いに注目されている。特に、さまざまなチャネル符号化方式が開発され、これらはそれぞれ、与えられたコストで、ワイヤレスチャネルを通じて伝送しなければならない追加ビットにおいて、さまざまなレベルの誤り検出および訂正能力を提供する。この問題については多くの研究があるが、このような誤り低減方策の目標は、このような伝送誤りをまず検出し、その後に、可能であれば、その効果を除去するということになるのが常である。しかし、多くの場合、これらの誤りを完全に除去することはできず、むしろ、ワイヤレス受信機（例えば、基地局）には、信頼性に問題のある送信データが提供されることがある。このような場合、従来のワイヤレスシステムは（ＡＳＲのために用いられるか否かにかかわらず）一般に、データが正しいと（そうでない確率がかなり高いと認識しているにもかかわらず）仮定するか、または、そのデータを完全に信頼できないもの、したがって、「失われた」（「消失」）ものとみなして、単にそれを捨てるかのいずれかである。
【０００７】
【課題を解決するための手段】
本発明の原理によれば、一部のチャネル符号化方式は、誤り検出および訂正能力だけでなく、与えられたデータ部分が特定の値に正確に復号された尤度に関する確率情報をも提供することができることが認識される。具体的には、このような方式は、復号ビットについて確率論的な精度情報を提供するために用いることができる。この認識に基づいて、本発明は、ワイヤレスチャネルを通じて用いられる分散ＡＳＲシステムにおいて、このような確率情報を利用した自動音声認識を実行する方法および装置を提供する。すなわち、本発明の実施例によれば、復号特徴に対する精度情報が計算され、悪いチャネル条件下での（すなわち、伝送誤りや損失の存在下での）音声認識性能を改善するために用いられる。
【０００８】
具体的には、本発明の一実施例によれば、与えられたＡＳＲ特徴を符号化するのに用いられる各ビットに対するビット誤り確率を用いて、その特徴の復号値に関してシステムが有する信頼度を計算する。破損した確率が高い特徴は、使用されないか、または、より一般的には、音声認識器により実行される音響距離計算で低く重み付けされる。音響復号に対するこの新規なアプローチをここでは「ソフト特徴復号」(soft feature decoding)という。これは、悪いチャネル条件下でＡＳＲ性能を大幅に改善する。
【０００９】
さらに具体的には、本発明は、
通信チャネルを通じて伝送された符号化音声特徴のセットを受信するステップと、
符号化音声特徴のセットを復号して、１つ以上の復号音声特徴と、それに対応する１つ以上の確率測度を生成するステップと、
前記１つ以上の復号音声特徴と、それに対応する前記１つ以上の確率測度とに基づいて、音声認識を実行するステップとを有し、
それぞれの確率測度は、それに対応する復号音声特徴が正確に伝送され復号された尤度の推定値を含む。
【００１０】
【発明の実施の形態】
［ソフト特徴復号による例示的なＡＳＲシステムの概観］
本発明の音声認識システムの実施例によれば、音声認識目的に適した代表パラメータは、音声信号から抽出され、量子化されて、６ｋｂ／ｓ（毎秒キロビット）のソースビットレートを生成する。注意すべき点であるが、これらの音声パラメータから得られるビットストリームの相異なる部分が、伝送誤りに対して相異なる感度を有する可能性もある。したがって、ビットストリームの相異なるセグメントに対して不均一なレベルの誤り保護を与えるいくつかの誤り保護方式のいずれかを適当に用いることが可能である。本発明の実施例による符号化ビットストリームの全ビットレートは９．６ｋｂ／ｓである。この例示的なコーデックを調べるための実験を、さまざまなワイヤレスチャネル（例えば、ガウシアンチャネルや、さまざまなな相関を有するレイリーチャネル）に対して実施したところ、これらの実験は、悪いチャネル条件の場合であっても、通常の音声認識タスクについて、満足なシステムの性能を実証している。
【００１１】
本発明の原理によれば、および、その実施例によれば、チャネル復号器からの「ソフト出力」を利用して、音声認識システムの性能が改善される。具体的には、各復号ビットの信頼度を復号プロセスから取得し、この信頼度を用いて、復号されたＡＳＲ特徴における信頼度を推定する。これらの信頼度に基づいて、音声認識アルゴリズムにおける各特徴の重要度に重み付けすることが可能である。
【００１２】
具体的には、図１は、ソフト特徴復号を利用した、ワイヤレスチャネルを通じて用いられる例示的な自動音声認識システムのブロック図である。システムは、例として、ワイヤレス装置１０、ワイヤレス伝送チャネル１４、および基地局１９を有する。本発明の原理によれば、ワイヤレス装置１０に供給された入力音声は、特徴抽出モジュール１１によって処理され、それから音声認識特徴が抽出される。これらの音声認識特徴は、例えば、ＬＰＣ（線形予測符号化）に基づくケプストラム係数や信号エネルギーパラメータのような、従来の音響特徴（すなわち、一般に従来の音声認識システムによって用いられるもの）を含む。このようなパラメータ（すなわち、特徴）の識別および抽出は全く従来技術のものであり当業者に周知である（ここで説明する本発明の実施例により選択されることが可能な特徴のセットについてさらに詳細には後述する）。
【００１３】
特徴が抽出された後、特徴量子化モジュール１２が、このデータに対して従来の符号化プロセス（すなわち、量子化）を実行する。これは、例えば、同じく当業者に周知の従来のスカラー量子化を含む（本発明の実施例により利用可能な量子化方式についてさらに詳細には後述する）。最後に、この結果得られた（特徴量子化モジュール１２からの）ビットは、チャネル符号化モジュール１３によって符号化される。チャネル符号化モジュール１３は、当業者に周知の従来のいずれのチャネル符号化方式を適用することも可能である。特に、本発明の実施例によれば、いくつかの可能な不均一誤り保護（ＵＥＰ）方式の１つを利用する。これらの方式は当業者に周知である（このような方式のいくつかの例についてさらに詳細には後述する）。
【００１４】
チャネル符号化モジュール１３から出力され、選択された特徴を量子化し符号化した表現は、例えば、ワイヤレス装置１０によって、ワイヤレスチャネル１４を通じて、処理のために基地局１９へ送信される。具体的には、基地局１９では、本発明の実施例によれば、まず送信データがチャネル復号モジュール１５によって復号され、復号ビットのセットと、対応するビット信頼性情報の両方が生成される。このような復号技術は従来のものであって当業者に周知であり、（復号ビット値の正確さの確率に関する情報なしで）最尤ビット値のみを提供するさらに旧式の復号技術（例えば、単純ビタビ復号のような）とは異なって、確率論的な復号ビット情報を提供する。
【００１５】
チャネル復号モジュール１５からの復号ビットに基づいて、特徴回復モジュール１６によって特徴が回復される（すなわち、ビットが特徴データへと再構成される）。これは全く従来技術のものであり当業者に周知である。しかし、同時に、本発明の原理によれば、および、本発明の実施例によれば、チャネル復号モジュール１５によって求められたビット信頼度値が、ビット−特徴信頼度変換モジュール１７によって、特徴信頼度値に変換される。その後、得られた特徴（特徴回復モジュール１６によって求められたもの）と、特徴信頼度値（ビット−特徴信頼度変換モジュール１７によって計算されたもの）は、音声認識器１８に供給される。音声認識器１８は、特徴およびそれに対応する信頼度値の両方に基づいて、もとの入力音声（ワイヤレス装置１０に供給されたもの）の音声認識を実行する。
【００１６】
［例示的な特徴のセットおよび例示的な量子化プロセス］
通常の音声符号化アルゴリズムを用いて得られる音声パラメータは、必ずしも、音声認識の目的に最適なパラメータであるとは限らない。さらに、音声符号器は通常、励振すなわちＬＰＣ残差信号の送信のためにかなりのビット数を費やすが、この情報は、音声認識の目的のためには全く有用ではない。したがって、本発明では、音声認識の目的のために特に選択される音声パラメータのみを抽出し送信することに焦点を当てることにする。
【００１７】
多くの利用可能な音声認識システムは、信号パラメータ化のために、当業者に周知のケプストラム特徴を使用する。これは、距離によるクラシファイアに適した、コンパクトでロバスト（頑健）な音声表現であり、いずれも当業者に周知のメル−フィルタバンク分析や線形予測法（ＬＰＣ）から計算可能である。本発明の実施例の自動音声認識システムによれば、音声認識に用いられる音響特徴は、従来の次数１０のＬＰＣ分析に基づいて１０ｍｓごとに計算された１２個のケプストラム係数ｃ_１，ｃ_２，...，ｃ_１２と、全信号エネルギーｅである。信号サンプリングレートは８０００Ｈｚであり、２４０サンプルのハミング窓が用いられる。したがって、この特徴のセットは、１０ｍｓごとに１３次元ベクトルを形成し、この例示的な自動音声認識システムへの音響入力となる。
【００１８】
データ伝送の目的のために、１３個の特徴はすべてスカラー量子化される。単純な非一様量子化器を用いて量子化セルを決定することが可能である。量子化器は、圧伸関数として経験的な分布関数を使用し、サンプルは、量子化セル内で一様分布する。使用可能な１つの例示的アルゴリズムは、当業者に周知のロイドのアルゴリズムに対する単純な非反復近似であるが、これは必ずしも量子化ノイズを最小にしない。より良好な性能は、同じく当業者に周知のｋ平均型アルゴリズムを特徴ベクトル全体に適用して（すなわち、ベクトル量子化）達成することが可能である。なお、以下で説明する誤り保護および隠蔽アルゴリズムは、さまざまな量子化方式とともに使用可能である。
【００１９】
本発明の原理によれば、自動音声認識において、いずれも当業者には明らかなさまざまなビット割当て方式を使用可能である。例えば、１つの可能な有利な方式は、６ビットを信号エネルギーｅと５個の上位ケプストラム特徴ｃ_１，...，ｃ_５のそれぞれに割り当て、４ビットを次の６個のケプストラム特徴ｃ_６，...，ｃ_１１のそれぞれに割り当てるものである。経験的テストによれば、最後の（すなわち、１２番目の）ケプストラム係数ｃ_１２を、固定したあらかじめ計算された平均で置き換えることによって、評価されるタスクに大きい性能劣化はない。このように、ｃ_１２には音声認識プロセスに関連する最小の情報しかないため、これにはビットを割り当てないことが可能である。受信機では、ｃ_１２は単に固定されあらかじめ計算された平均値から回復され、その後、標準的な１３次元の特徴ベクトルが認識中に用いられる。この例示的なビット割当て方式のビット総数は１０ｍｓフレームあたり６０ビットであり、これにより、ワイヤレスチャネルを通じて伝送される無符号化データレートは６ｋｂ／ｓとなる。
【００２０】
［例示的な伝送システム］
自動音声認識性能に対するさまざまな音声符号化アルゴリズムの効果について多くの研究がある。具体的には、一般に分散ワイヤレス音声認識システムにおける重大なＡＳＲ性能の劣化が注意されており、特に、この劣化は、バースト的に発生するワイヤレス伝送誤りの場合に起こる。受信信号強度の急速なゆらぎのため、移動無線環境はデータ伝送のためには非常に困難なチャネルとなることがある。そのため、ＡＳＲパラメータの伝送には、帯域幅およびパワー効率を改善するために、特別のチャネル誤り保護方式が用いられる。チャネル誤り保護音声パラメータは、ワイヤレス端末および基地局の両方に配置される音声認識コーデックを形成する。図１に示す本発明の実施例のシステムは、広範囲の相異なるチャネル条件に対して効率的な音声認識コーデックを提供することを目標とする。さらに、伝送誤りの場合の音声パラメータの再送を避けることが強く望まれる。再送は、システム応答における追加遅延を生じ、スペクトル効率を低下させるからである。
【００２１】
特に注意すべき点であるが、本発明の実施例の特徴量子化方式により１０ｍｓ音声フレームごとに提供される６０ビットには、複数のレベルの誤り保護を設けることが可能である。音声符号化アプリケーションに対する不均一誤り保護（ＵＥＰ）方式は当業者に周知であり、文献や標準において広く調べられている。いくつかのＵＥＰ方式が、本発明の例示的なＡＳＲシステムについて調べられており、特に３つの方式についてここで説明する。
【００２２】
前述のように、本発明の実施例のＡＳＲシステムによる量子化音声パラメータのデータレートは６ｋｂ／ｓである。とりわけ、北米セルラ標準ＩＳ−９５で用いられるデータレートの１つに基づいて、本発明の実施例のＡＳＲシステムは、当業者に周知の２元差分位相シフトキーイング（ＤＰＳＫ）変調フォーマットの符号化信号に対し９．６ｋｂ／ｓのデータレートを使用する。なお、９．６ｋｂ／ｓのデータレートで導入されるチャネルオーバーヘッドはあまり大きくはなく、与えられたアプリケーションに対してさらに低い符号化ビットレートが要求される場合、より高次の変調による、同じく当業者に周知のトレリス符号化変調方式を用いることも可能である。また、復調プロセスを簡単にするために、従来の差分変調技術を用いることも可能である。
【００２３】
ゆっくりとしたフェージングのあるチャネルでは、大きいインタリーバを用いてシステム性能を改善することが有効である。しかし、大きいインタリーバは遅延を導入し、これは、一部のリアルタイムアプリケーションでは好ましくないことがある。本発明の実施例のＡＳＲシステムによれば、８０ｍｓフレーム、すなわち、８個の音声フレームが、インタリーブおよびチャネル符号化の目的のために選択されている。したがって、インタリーブおよびデインタリーブの総遅延は１６０ｍｓであり、これは、通常のワイヤレス音声認識アプリケーションでは容易に受け入れることが可能な長さである。
【００２４】
本発明の実施例のＡＳＲシステムによれば、１０ｍｓ音声フレームにおいて「保護」される１２個の音声パラメータは、エネルギーパラメータｅと、１１個のケプストラム係数ｃ_１（ｎ），ｃ_２（ｎ），...，ｃ_１１（ｎ）である。ただし、ｎは、音声フレームインデックスを表す。明らかに、上記のパラメータの上位のビットほど、高いチャネル誤り保護を提供すると有効である。さらに、エネルギーパラメータｅが、量子化ノイズおよびランダム伝送誤りに最も敏感であり、次に敏感なのはケプストラム係数ｃ_１（ｎ），...，ｃ_５（ｎ）であり、その後に、ケプストラム係数ｃ_６（ｎ），...，ｃ_１１（ｎ）が続くということがわかっている。実施例のチャネル符号化ビットレートは９．６ｋｂ／ｓであるため、８０ｍｓのチャネル符号化フレームにおける全符号化ビット数は７６８となる。
【００２５】
第１の例示的な不均一誤り保護方式（ここではＵＥＰ１という）によれば、Ｌ１、Ｌ２およびＬ３で表される３つのレベルのチャネル誤り保護を考える。さらに、Ｌ１の上位ビットにさらに高いレベルの誤り保護を与えるために、Ｌ１を２つのレベルＬ１＿１およびＬ１＿２に分ける。相異なる不均一誤り保護（ＵＥＰ）レベルに対するビットの割当てを次の表に示す。
【００２６】
【表１】

【００２７】
上記の記法で、ｅ^０（ｎ），ｅ^１（ｎ），...は、ｅ（ｎ）のビットを上位から下位への順で表す（ケプストラム係数についても同様）。上記の表からわかるように、Ｌ１、Ｌ２およびＬ３における音声フレームあたりのビット数はそれぞれ、１３、２４および２３である。この場合、Ｌ１＿１は、重要なほうから７ビットとして決定されたビットを含み、これらのビットは、内側畳込み符号（当業者に周知）に加えて、外側（１２，７）巡回符号（同じく当業者に周知）を用いて保護される。本発明の一実施例では、（１２，７）巡回符号は、誤りの検出にのみ用いられ、これは、受信機における誤り隠蔽に有用である。しかし、本発明の別の実施例によれば、受信機に複雑さを追加することにより、この符号を誤り訂正のためにも利用することが可能である。Ｌ１＿２は、この例では、次に重要な６ビットを含む。レート１／２、メモリ８の符号をＬ１レベルのビットに使用するため、Ｌ１レベルの８個の音声フレームに対する符号化ビットの総数は２８８となる。
【００２８】
レベルＬ２は、この例では、次に重要な２５ビットを含み、レート２／３のレートコンパチブルパンクチャド畳込み（ＲＣＰＣ）符号がレベルＬ２に対して用いられる。８ビットのテールを含む、８個の音声フレームに対する符号化されたＬ２レベルビットの総数はこの例では３００となる。最も重要性の低いビットはＬ３にあり、これらのビットは、全くチャネル符号化なしで送信されることが可能である。８個の音声フレームにおける符号化後のビットの総数を７６８に維持するため、符号化されたＬ２レベルのビットからさらに４ビットをパンクチャド符号化により除く。Ｌ１＿１レベルのビットの後にＬ１＿２レベルのビットが続き、その次にＬ２レベルのビットが続くように、チャネル符号化が実行される。なお、ＲＣＰＣ符号のため、レート１／２符号は終端しない。そのため、Ｌ２レベルからチャネル符号の復号深さ未満しか離れていないＬ１＿２のビットは、通常のレート１／２母符号に入らないことになる。チャネル符号器入力において、８個の音声フレームｎ，（ｎ＋１），...，（ｎ＋７）に対するＬ１＿２レベルのビットは次のように配列される。
ｅ^２（ｎ），ｅ^２（ｎ＋１），...，ｅ^２（ｎ＋７）；ｃ_１ ^１（ｎ），ｃ_１ ^１（ｎ＋１），...，ｃ_１ ^１（ｎ＋７）；...；ｃ_５ ^１（ｎ），ｃ_５ ^１（ｎ＋１），...ｃ_５ ^１（ｎ＋７）
前述のように、係数ｃ_１（ｎ）はｃ_５（ｎ）より重要であることがわかっているため、このビット配列により、Ｌ１＿２フレームの終端付近の重要性の低いビットが、通常のレート１／２母符号よりも強力でない符号に入ることになる。
【００２９】
第２の例示的な不均一誤り保護方式（ここではＵＥＰ２という）によれば、上記のＵＥＰ１方式におけるＬ１＿１レベルのビットから外符号が除去される。これにより、Ｌ２レベルのビットに対して、より強力な符号が適用される。しかし、Ｌ１＿１レベルのビットは、外符号の誤り検出および訂正能力がないために、同じ強度の誤り保護を受けないことになる。Ｌ１、Ｌ２およびＬ３のビット割当ては、誤り保護を除いては、例えば、ＵＥＰ１方式の場合と同様である。
【００３０】
この例では、レート１／２畳込み符号の場合、Ｌ１レベルのビットからの８個の音声フレーム中の符号化ビットの総数は２０８である。２００個のＬ２ビット（８ビットのテールを含む）に対して、２４ビットをパンクチャド符号化により除いたレート１／２符号を用いて、３７６個の符号化ビットが得られる。その場合、この例では、１８４個のＬ３無符号化ビットを合わせて、８個の音声フレーム中の符号化ビットの総数は７６８となる。Ｌ１＿２ビットは、Ｌ１＿１ビットがＬ１＿２ビットに先行するようにして、ＵＥＰ１方式の場合と同様に配列することが可能である。
【００３１】
第３の例示的な不均一誤り保護方式（ここではＵＥＰ３という）によれば、ビットは、すべての特徴成分の上位ビット（ＭＳＢ）がレベル１にまとめられるように再配列される。注意すべき点であるが、（前述のように）特徴成分ｅ（ｎ）およびｃ_１（ｎ），...，ｃ_５（ｎ）は最も重要であり、またさらに、前述の２つの誤り保護方式では、これらの各成分の２個のＭＳＢはレベルＬ１にある。しかし、ｃ_６（ｎ），...，ｃ_１１（ｎ）のＭＳＢもまた重要なパラメータであることにも注意すべきである。このように、すべての特徴成分のＭＳＢをＬ１に入れると有効なことがある。具体的には、ビット配列は次の表に示すとおりである。
【表２】

この表からわかるように、Ｌ１＿１に割り当てられるビットは、ＵＥＰ１方式と同一であり、ＵＥＰ１と同様に（１２，７）外符号およびレート１／２、メモリ８の内符号により保護される。ＵＥＰ１方式の場合と同様に、レート２／３符号がレベルＬ２のビットに適用され、レベルＬ３のビットは符号化されない。
【００３２】
ａ（ｎ）で、チャネル符号器への入力における音声ビットを表し、ｂ（ｎ）で、チャネル符号器出力を表す。ｂ（ｎ）は、８０ｍｓにわたり生じる７６８個のシンボルにわたってインタリーブされた後、差分符号化されて、次式のようになる。
ｕ（ｎ）＝ｄ（ｎ）−ｄ（ｎ−１）（１）
ただし、ｄ（ｎ）はインタリーバの出力である。ベースバンド等価受信信号は次のように書くことができる。
ｙ（ｎ）＝Ａβ（ｎ）ｕ（ｎ）＋ν（ｎ）（２）
ただし、Ａは送信振幅であり、β（ｎ）は複素チャネル利得であり、ν（ｎ）は加法性白色ガウシアンノイズ（ＡＷＧＮ）成分である。なお、レイリーフェージングチャネルの場合、β（ｎ）は、次式を満たす相関する複素ガウス変数である。
Ｅ｛β（ｎ）β^＊（ｎ＋ｋ）｝＝Ｊ_０（２π（ν／λ）ｋＴ）（３）
ただし、ν、λおよびＴはそれぞれ、移動速度、ＲＦ搬送波の波長、およびシンボル期間である。受信機では、ｙ（ｎ）はまず差分復号された後、デインタリーブされ、最後にビタビ復号される。その後、ビタビ復号器の出力ａ＾（ｎ）は、音声認識器モジュールに送られる。
【００３３】
［例示的なソフト特徴誤り隠蔽手続き］
伝送誤りの悪影響を克服するため、通常の誤り隠蔽方策は、前に受信したフレームの繰返しや、パラメータ補間を含むことが多い。これらの技術は、ランダムビット誤りを修復する助けとなることがあるが、フェージングチャネルに起こりやすいバースト的に起こる誤りに対しては失敗することがある。本発明の原理によれば、チャネル復号器からＡＳＲユニットへの「ソフト出力」に基づく新規な誤り隠蔽技術が、ここで説明する例示的なＡＳＲシステムで提供される。本発明の一実施例によれば、当業者に周知の最大事後確率（ＭＡＰ）アルゴリズムが用いられる。この従来技術を用いて、各復号ビットの精度の事後確率を求めることができる。その後、ＡＳＲユニットは、この情報を利用して、他の点では従来の音声認識器に基づいて、改善された音声認識性能を得る。
【００３４】
具体的には、１２個の復号された音声特徴成分のそれぞれに対して、受信機は、その成分を正しく復号した信頼度を与える追加的な値を生成する。特に、本発明の一実施例によれば、１２個の特徴のそれぞれに対して、２個の信頼度ビットが生成される。第１および第２ビットはそれぞれ、各特徴の第１ＭＳＢ（最上位ビット）および第２ＭＳＢ（最上位から２番目のビット）に対応する。さらに具体的には（実施例によれば）、ａ＾（ｎ）が、チャネル復号器出力における関連するＭＳＢビットであると仮定する。ＭＡＰ復号器は、確率ｐ_ｉ（ｎ）＝Ｐｒｏｂ｛ａ＾（ｎ）＝ｉ｝（ｉ＝０，１）を与える。ただし、ｐ_０（ｎ）＋ｐ_１（ｎ）＝１である。しきい値をＴ（＞０．５）で表す。すると、ｐ_ｉ（ｎ）＞Ｔの場合、信頼度Λ_ｉ（ｎ）＝１であり、それ以外の場合、Λ_ｉ（ｎ）＝０である。この例示的な割当てでは、信頼度値が１に近づくと、対応するビットは非常に高い確率で正しく、信頼度値が０に近づくと、送信ビットは消失により表される。
【００３５】
１２個の特徴成分の２個のＭＳＢのそれぞれに対してこうして得られる１ビット量子化された信頼度値Λ_ｉ（ｎ）は、対応するチャネル復号ビットストリームとともに、音声認識モジュールに送られる。
【００３６】
本発明の一実施例では、誤り隠蔽方策は、音声認識器において、誤りの可能性のある送信特徴を捨て、尤度計算について信頼性の高いもののみを使用する。すなわち、高い信頼度を有する成分のみに基づく、簡約された特徴ベクトルが使用される。例えば、隠れマルコフモデル（ＨＭＭ）に基づく音声認識システムでは、観測される特徴ベクトルは、状態ごとの確率分布ｐ（ｘ｜ｓ）によってモデル化される。ただし、ｘは特徴ベクトルであり、ｓはモデルの状態である。（隠れマルコフモデルおよびそれに基づく音声認識方法は当業者に周知である。）通常、従来のＨＭＭに基づく音声認識器は、音素（あるいはtriphone）ごとのＨＭＭの各状態に対するガウス密度の混合を用いる。このような場合、特徴ベクトルの信頼できる（信頼可能）部分に対する簡約分布は、次式のようにすべての信頼できない（信頼不能）成分にわたり積分することによって求められる周辺分布となる。
【数１】

ただし、ｘ_ｒｅｌ、ｘ_{ｕｎｒｅｌ}はそれぞれ、特徴ベクトルの信頼可能および信頼不能成分である。ＨＭＭ尤度計算に対する信頼可能成分の周辺分布を用いることは、ノイズの多い環境における音声認識器のロバスト性を改善する技術の１つであり、当業者には周知であり、「missing feature theory」と呼ばれるものである。（なお、従来のノイズの多い環境における音声認識アプリケーションでは、信頼不能スペクトル特徴のラベリングは困難な作業となることがあるが、本発明によれば、各特徴の信頼性はチャネル復号器によって提供される。）特に、対角共分散ガウシアン混合モデル（当業者に周知）では、簡約尤度関数は、完全な尤度計算から信頼不能成分を単に落とすだけで容易に計算することができる。なお、このアプローチを用いると、既存の音声認識アルゴリズムに対する修正が少なくて済む。
【００３７】
本発明の一実施例によれば、送信特徴およびそれから導出される追加特徴が両方とも、音声認識器によって用いられる。例えば、音声認識プロセスにおいて、送信特徴自体（すなわち、エネルギー特徴および１２個のケプストラム特徴）に加えて、そのなめらかな１次および２次導関数（ここではそれぞれ、「デルタ」特徴および「デルタ−デルタ」特徴という）を計算して用いることが可能である。さらに具体的には、信頼可能な受信特徴のみを用い信頼不能である可能性のあるものを捨てる本発明の一実施例によれば、次の方策を用いることが可能である。
【００３８】
（１）エネルギーおよびケプストラム特徴については、第１または第２ビットが信頼度値０で受信された場合、それを尤度計算では用いない（すなわち、上記の式に従って周辺化する）。
【００３９】
（２）「デルタ」および「デルタ−デルタ」特徴については、デルタまたはデルタ−デルタ計算のために用いられるウィンドウ内のいずれかの特徴の第１または第２ビットが信頼度値０で受信された場合、対応するデルタまたはデルタ−デルタ特徴を尤度計算では用いない。
【００４０】
図２は、図１の自動音声認識システムのこの実施例によってもとの特徴セットをソフト特徴セットに変換する上記のプロセスを説明するダイヤグラムである。この図からわかるように、もとの特徴セットは、例えば、エネルギー特徴２１、ケプストラム特徴２２−１〜２２−１２、デルタエネルギー特徴２３、デルタケプストラム特徴２４−１〜２４−１２、デルタ−デルタエネルギー特徴２５、デルタ−デルタケプストラム特徴２６−１〜２６−１２を含む。この実施例によれば、５フレームおよび７フレームのウィンドウがそれぞれ、デルタ計算およびデルタ−デルタ計算に用いられる。具体的には、フレームｎに対するデルタ特徴値は、フレームｎ−２、ｎ−１、ｎ、ｎ＋１、およびｎ＋２に基づいて計算される。同様に、フレームｎに対するデルタ−デルタ特徴値は、フレームｎ−３、ｎ−２、ｎ−１、ｎ、ｎ＋１、ｎ＋２、およびｎ＋３に基づいて計算される。（もとの特徴セットからデルタを計算する技術は一般に当業者に周知であり、明らかである。）なお、図示したダイヤグラムでは、これらの特徴のうちの一部（例えば、ケプストラム特徴２２−１、デルタケプストラム特徴２４−１２、デルタ−デルタケプストラム特徴２６−１およびデルタ−デルタケプストラム特徴２６−１２）は、ダイヤグラムの手続きに従って、不正なＭＳＢの結果として周辺化されたように示されている。
【００４１】
［例示的なソフト特徴重みづけ手続き］
もう１つの実施例によれば、尤度計算における特徴成分は、それらの信頼度値によって重みづけすることが可能である。この場合、０〜１の連続的な信頼度値が復号プロセスから得られ、音声認識器モジュールの尤度計算に対する各特徴の寄与を、対応する信頼度値によってスケールさせることができる。すなわち、この誤り隠蔽アプローチを適用する際に、ＡＳＲ特徴は「ソフト」に用いられ、各成分は、正確に復号されたことの信頼度によって重みづけされる。
【００４２】
具体的には、このソフト特徴復号プロセスによれば、重みは、音声認識器における確率計算において各特徴にかけられる。状態観測確率密度関数（ｐｄｆ）が、次式のような対角共分散ガウシアンｐｄｆの混合であると仮定する。
【数２】

ただし、ｘは特徴ベクトルであり、Ｎは特徴ベクトルのサイズであり、Ｍは状態あたりのガウス分布の混合数であり、ｗ_ｍ、μ_ｍ、およびσ_ｍはそれぞれ、ＨＭＭ状態ｓに対するｍ番目のガウシアンの混合重み、平均および標準偏差である。Ｃ_ｎはｎ番目の特徴の信頼度であると仮定すると、復号器で適用される重みづけ方式は、次式のように状態観測確率計算を修正する。
【数３】

ただし、ｆ（Ｃ_ｎ）は、信頼度Ｃ_ｎのある関数である。なお、Ｃは時間の関数であり、フレームレートで（すなわち、ｘが更新されるのと同じ頻度で）更新される。信頼度が０〜１の数に正規化されていると仮定すると、関数ｆ（Ｃ）の可能な形の１つは、ｆ（Ｃ）＝（α＋１）／（α＋Ｃ）であり、上記の式は次のようになる。
【数４】

ただし、αは平滑化定数であり、例えば、提供されるデータセットに対して誤りが最小になるように、実験的に決定することが可能である。なお、αの値が非常に大きい場合、すべての特徴は多かれ少なかれ同様に重みづけされ、一方、αの値が非常に小さい場合、高い信頼度値（すなわち、Ｃ_ｎが１に近い場合）の特徴のみが、観測確率計算において考慮される。状態観測確率計算における特徴重みづけ以外の、復号プロセスのその他のすべての点については、信頼可能な受信特徴のみを用いて信頼不能の可能性のあるものを捨てる本発明の実施例に関して前述した場合と変わらない。
【００４３】
［例示的なＡＳＲシステムの他の特性］
ここで説明した例示的なＡＳＲシステムによれば、ＬＰＣから導出される１２個のケプストラム係数と、信号エネルギーと、これらの成分の１次および２次時間導関数のすべてを、音声認識モジュール内で音響特徴として使用可能である。各音声発話のケプストラム平均は、認識を実行する前に計算して除去することが可能である。ケプストラム係数および信号エネルギーは、移動端末で計算して基地局に送信し、次に、受信機においてこれを再構成して（本発明の原理による）ソフト特徴誤り隠蔽のための信頼度値を付加し、最後にネットワークの音声認識サーバへ送信することが可能である。この場合、１次および２次時間導関数を生成し、送信される特徴セットに付加することも可能である。
【００４４】
音声認識のための音響モデルは、例えば公衆電話網を通じて収集された、例えば英語音声データベースの集まりについて学習させることが可能である。音声認識器モジュールは、連続密度ＨＭＭに基づくことも可能である。また、ＨＭＭによってモデル化される音響ユニットは、３個のemitting状態を有しleft-to-rightトポロジーを有する状態クラスタ化triphoneモデルとすることも可能である。
【００４５】
［詳細な説明への付記］
以上、本発明について詳細に説明したが、当業者であれば、上記の記載に基づいて、さまざまな変形例を考えることが可能である。例えば、当業者には認識されるように、図面のブロック図は、本発明の原理を実現する例示的な回路の概念図を表す。同様に、認識されるように、流れ図、状態遷移図、擬似コードなどは、実質的に、コンピュータ可読媒体内に表現し、コンピュータあるいはプロセッサによって実行されるようにすることが（そのようなコンピュータあるいはプロセッサが明示的に図示されているかどうかにかかわらず）可能である。
【００４６】
図示されたさまざまな要素の機能は、「プロセッサ」あるいは「モジュール」と名づけられた機能ブロックを含めて、専用ハードウェアや、適当なソフトウェアを実行可能なハードウェアを用いて提供可能である。プロセッサによって提供されるとき、これらの機能は、単一の専用プロセッサによって、単一の共有プロセッサによって、あるいは、複数のプロセッサ（その一部は共用可能）によって提供可能である。さらに、「プロセッサ」あるいは「コントローラ」という用語の明示的な使用は、ソフトウェアを実行可能なハードウェアを限定的に指すものと解釈すべきではなく、暗黙的に、限定的でなく、ディジタル信号プロセッサ（ＤＳＰ）ハードウェア、ソフトウェアを記憶するための読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、および不揮発性記憶装置を含む。他のハードウェアも、通常のものであるかカスタム化したものかにかかわらず、含まれる。同様に、図中にスイッチがあれば、それは概念的なものにすぎない。その機能は、プログラムロジックの動作によって、専用ロジックによって、プログラム制御と専用ロジックの相互作用によって、あるいは、手動でも、実行可能であり、具体的には文脈から理解されるように実装者が個々の技術を選択することが可能である。
【００４７】
特許請求の範囲において、特定の機能を実行する手段として表現される要素は、例えば、（ａ）その機能を実行する回路要素の組合せ、あるいは、（ｂ）ファームウェア、マイクロコードなどを含む任意の形のソフトウェアを、その機能を実行するようにそのソフトウェアを動作させるための適当な回路と組み合わせたもの、を含めて、その機能を実行する任意の態様を含む。
【００４８】
【発明の効果】
以上述べたごとく、本発明によれば、
【図面の簡単な説明】
【図１】ソフト特徴復号を利用した、ワイヤレスチャネルを通じて用いられる例示的な自動音声認識システムのブロック図である。
【図２】図１の例示的な自動音声認識システムの一実施例に従って、もとの特徴セットをソフト特徴セットに変換するプロセスを説明する図である。
【符号の説明】
１０ワイヤレス装置
１１特徴抽出モジュール
１２特徴量子化モジュール
１３チャネル符号化モジュール
１４ワイヤレス伝送チャネル
１５チャネル復号モジュール
１６特徴回復モジュール
１７ビット−特徴信頼度変換モジュール
１８音声認識器
１９基地局
２１エネルギー特徴
２２ケプストラム特徴
２３デルタエネルギー特徴
２４デルタケプストラム特徴
２５デルタ−デルタエネルギー特徴
２６デルタ−デルタケプストラム特徴

Claims

自動音声認識を実行するための方法であって、
通信チャネルを通じて伝送された符号化音声特徴のセットを受信するステップ、
該符号化音声特徴のセットを復号して、１つ以上の復号音声特徴と、それに対応する確率情報を生成する復号ステップであって、該確率情報は、それに対応する復号音声特徴が正確に伝送され復号された尤度からなる、復号ステップ、及び
前記１つ以上の復号音声特徴とそれに対応する前記確率情報とに基づいて音声認識を実行するステップ
からなり、
前記復号ステップが、
受信された前記符号化音声特徴のセットの１つ以上のビットに対応する１つ以上の信頼度値を決定するステップ、及び
前記１つ以上の信頼度値に基づいて、前記復号音声特徴に対応する前記確率情報を生成するステップ
からなる、方法。
前記符号化音声特徴のセットが、線形予測符号化分析に基づく１つ以上のケプストラム係数を含むことを特徴とする請求項１記載の方法。
前記符号化音声特徴のセットが信号エネルギー成分をさらに含むことを特徴とする請求項２記載の方法。
前記復号ステップが、前記１つ以上の復号音声特徴を生成するために前記符号化音声特徴のセットのビタビ復号を実行するステップを含む請求項１記載の方法。
前記１つ以上の信頼度値を決定するステップが、復号された前記音声特徴成分の各々に対して生成され、該復号された音声特徴成分を正しく復号したことの信頼度を与える追加的な値に基づいて、最大事後確率アルゴリズムを用いて実行されることを特徴とする請求項１記載の方法。
前記音声認識を実行するステップが、前記１つ以上の復号音声特徴のうち、対応する確率情報が所定しきい値を超えることにより信頼可能であるとみなされたもののみに基づいて実行されることを特徴とする請求項１記載の方法。
前記音声認識を実行するステップが、さらに、１つ以上の音声特徴導関数に基づき、前記音声特徴導関数が、複数の復号音声特徴の対応する時間順序系列に基づいて決定されることを特徴とする請求項１記載の方法。
前記音声認識を実行するステップが、前記１つ以上の音声特徴導関数のうち、前記対応する時間順序系列中の前記複数の復号音声特徴の確率情報により信頼可能であるとみなされたもののみに基づいて実行されることを特徴とする請求項７記載の方法。
前記音声認識を実行するステップが、前記１つ以上の復号音声特徴に対応する信頼度値に基づいて、前記１つ以上の復号音声特徴のそれぞれに重みづけするステップからなる請求項１記載の方法。