JP2001356792A - 自動音声認識実行方法および装置 - Google Patents

自動音声認識実行方法および装置

Info

Publication number
JP2001356792A
JP2001356792A JP2001117647A JP2001117647A JP2001356792A JP 2001356792 A JP2001356792 A JP 2001356792A JP 2001117647 A JP2001117647 A JP 2001117647A JP 2001117647 A JP2001117647 A JP 2001117647A JP 2001356792 A JP2001356792 A JP 2001356792A
Authority
JP
Japan
Prior art keywords
speech
features
decoded
speech features
coded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001117647A
Other languages
English (en)
Other versions
JP2001356792A5 (ja
JP4875249B2 (ja
Inventor
Alexandros Potamianos
ポタミアノス アレクサンドル
Leicher Wolfgang
レイチル ウォルフガング
Wiirakkodei Bijisa
ウィーラッコディ ビジサ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of JP2001356792A publication Critical patent/JP2001356792A/ja
Publication of JP2001356792A5 publication Critical patent/JP2001356792A5/ja
Application granted granted Critical
Publication of JP4875249B2 publication Critical patent/JP4875249B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 ワイヤレスチャネルを通じて用いられる分散
ASR(自動音声認識)システムにおいて、復号ビット
についての確率論的な精度情報を利用した自動音声認識
を実行する方法および装置を実現する。 【解決手段】 与えられたASR特徴(例えば、線形予
測符号化分析に基づくケプストラム係数と信号エネルギ
ー成分であって、不均一誤り保護方式を用いて符号化さ
れる)を符号化するのに用いられる各ビットに対するビ
ット誤り確率を用いて、その特徴の復号値に関してシス
テムが有する信頼度を(例えば、最大事後確率アルゴリ
ズムを用いて)計算する。破損した確率が高い特徴は、
使用されないか、または、より一般的には、音声認識器
18により実行される音響距離計算で低く重み付けされ
る。これは、悪いチャネル条件下でASR性能を大幅に
改善する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自動音声認識の分
野に関し、特に、ワイヤレスチャネルを通じて用いられ
る分散自動音声認識システムにおける音声認識システム
性能を改善する方法および装置に関する。
【0002】
【従来の技術】自動音声認識の作業は一般に、個人が発
話した語または句に応答して自動システムがある(自動
化された)アクションを実行する(例えば、音声入力に
よりシステムを制御する)ことができるように、その語
または句の自動識別を含む。最近大いに注目されている
音声認識方式の1つは、ワイヤレス(例えば、セルラ)
通信チャネルを用いる環境で自動音声認識(ASR:au
tomatic speech recognition)を実行するものである。
このようなワイヤレス/セルラネットワークを通じての
ASRは、次世代ワイヤレスマルチメディアシステムの
設計において重要度が増大している。具体的には、今
日、ASR技術を利用したさまざまな会話システムアプ
リケーションがすでに存在する。これらには、とりわ
け、パーソナルアシスタント、音声ポータル、旅行予約
システム、株式相場システムなどがある。また、特に、
例えば車載移動電話機用に実装されているこのようなア
プリケーションの数は、他のワイヤレス装置用のものと
ともに、急速に増大している。
【0003】従来、自動音声認識機能がワイヤレス環境
に適用されることが意図されるときは通常、音声認識プ
ロセス全体が通信チャネルの受信端に配置された。具体
的には、従来の音声符号化技術が、ワイヤレスチャネル
を通じて音声を送信するために用いられ、その後にの
み、しかも、通常、符号化音声が受信端で復号された後
にのみ、(受信端で)音声認識プロセスが実行された。
特に、音声信号の符号化がワイヤレス装置で実行され、
符号化された信号がワイヤレスチャネルを通じて送信さ
れ、この信号がワイヤレスチャネルの受信端で(例え
ば、基地局で)復号されてもとの音声が「再構成」さ
れ、最後に、自動音声認識プロセスが、完全に従来の方
式で(すなわち、あたかもワイヤレスチャネル伝送が全
く実行されなかったかのように)、再構成音声に対して
実行された。一般に、このアプローチは、必要に迫られ
てやむを得ず用いられた。ワイヤレス装置自体で音声認
識プロセスを実行するための計算量は膨大であったから
である。
【0004】しかし、最近検討されている、ワイヤレス
チャネルを通じてのASRの課題に対する特に興味深い
アプローチの1つに、「分散」ASRシステムというも
のを用いるものがある。ここで「分散」とは、音声認識
プロセスを実現するために実行される必要のある機能
が、ワイヤレスチャネルの両「端」に分かれて別々に配
置されることをいう。すなわち、一部の機能はチャネル
の送信端に(例えば、ワイヤレス装置自体に)配置さ
れ、一部はワイヤレス通信チャネルの受信端に(例え
ば、基地局に)配置される。このようなアプローチによ
れば、ユーザは、集中化されたサーバ(これは通常、高
価な処理パワーおよびメモリを提供する)上の高価なリ
ソースを共有することができる。さらに、分散システム
設計によれば、ASRソフトウェアの集中化されたイン
ストールおよび保守が可能となり、ユーザは、難しいイ
ンストールおよび保守の手続きをせずに済む。ワイヤレ
ス装置でローカルに音声認識を実行するという代替アプ
ローチは、装置に要求される計算量、電力およびメモリ
を大幅に増大させ、複数の言語やアプリケーション領域
間でのポータビリティ(可搬性)を制限する。今日の技
術では、実用的にハンドセット側に置けるのは、例え
ば、話者が学習させた名前によるダイヤルのような非常
に限定された語彙の音声認識システムだけであり、大部
分のアプリケーションはネットワークサーバ側になけれ
ばならない。
【0005】具体的には、1つのこのような分散ASR
方式によれば、ワイヤレス装置で動作する小さいクライ
アントプログラムが、移動端末から音声信号の代表パラ
メータ(通常、ASR技術分野では「特徴」という)を
抽出し、ワイヤレスチャネルを通じてこれらのパラメー
タを音声認識サーバへ送信する。サーバは、例えば、複
数の異なる移動端末のために音声認識タスクを実行する
マルチユーザサーバである。ともあれ、サーバでは、例
えば、当業者に周知の隠れマルコフモデル(HMM)を
用いたもののような、他の点では従来技術と同様の方法
で、これらの特徴に基づいて自動音声認識を実行する。
【0006】
【発明が解決しようとする課題】また、一般にワイヤレ
ス通信技術の周知の複雑さの1つは、データがワイヤレ
スチャネルを通じて伝送されるときに常に遭遇する伝送
誤りの問題から生じる。その結果、最近、ワイヤレス伝
送環境における誤り検出および誤り訂正の問題が大いに
注目されている。特に、さまざまなチャネル符号化方式
が開発され、これらはそれぞれ、与えられたコストで、
ワイヤレスチャネルを通じて伝送しなければならない追
加ビットにおいて、さまざまなレベルの誤り検出および
訂正能力を提供する。この問題については多くの研究が
あるが、このような誤り低減方策の目標は、このような
伝送誤りをまず検出し、その後に、可能であれば、その
効果を除去するということになるのが常である。しか
し、多くの場合、これらの誤りを完全に除去することは
できず、むしろ、ワイヤレス受信機(例えば、基地局)
には、信頼性に問題のある送信データが提供されること
がある。このような場合、従来のワイヤレスシステムは
(ASRのために用いられるか否かにかかわらず)一般
に、データが正しいと(そうでない確率がかなり高いと
認識しているにもかかわらず)仮定するか、または、そ
のデータを完全に信頼できないもの、したがって、「失
われた」(「消失」)ものとみなして、単にそれを捨て
るかのいずれかである。
【0007】
【課題を解決するための手段】本発明の原理によれば、
一部のチャネル符号化方式は、誤り検出および訂正能力
だけでなく、与えられたデータ部分が特定の値に正確に
復号された尤度に関する確率情報をも提供することがで
きることが認識される。具体的には、このような方式
は、復号ビットについて確率論的な精度情報を提供する
ために用いることができる。この認識に基づいて、本発
明は、ワイヤレスチャネルを通じて用いられる分散AS
Rシステムにおいて、このような確率情報を利用した自
動音声認識を実行する方法および装置を提供する。すな
わち、本発明の実施例によれば、復号特徴に対する精度
情報が計算され、悪いチャネル条件下での(すなわち、
伝送誤りや損失の存在下での)音声認識性能を改善する
ために用いられる。
【0008】具体的には、本発明の一実施例によれば、
与えられたASR特徴を符号化するのに用いられる各ビ
ットに対するビット誤り確率を用いて、その特徴の復号
値に関してシステムが有する信頼度を計算する。破損し
た確率が高い特徴は、使用されないか、または、より一
般的には、音声認識器により実行される音響距離計算で
低く重み付けされる。音響復号に対するこの新規なアプ
ローチをここでは「ソフト特徴復号」(soft feature de
coding)という。これは、悪いチャネル条件下でASR
性能を大幅に改善する。
【0009】さらに具体的には、本発明は、通信チャネ
ルを通じて伝送された符号化音声特徴のセットを受信す
るステップと、符号化音声特徴のセットを復号して、1
つ以上の復号音声特徴と、それに対応する1つ以上の確
率測度を生成するステップと、前記1つ以上の復号音声
特徴と、それに対応する前記1つ以上の確率測度とに基
づいて、音声認識を実行するステップとを有し、それぞ
れの確率測度は、それに対応する復号音声特徴が正確に
伝送され復号された尤度の推定値を含む。
【0010】
【発明の実施の形態】[ソフト特徴復号による例示的な
ASRシステムの概観]本発明の音声認識システムの実
施例によれば、音声認識目的に適した代表パラメータ
は、音声信号から抽出され、量子化されて、6kb/s
(毎秒キロビット)のソースビットレートを生成する。
注意すべき点であるが、これらの音声パラメータから得
られるビットストリームの相異なる部分が、伝送誤りに
対して相異なる感度を有する可能性もある。したがっ
て、ビットストリームの相異なるセグメントに対して不
均一なレベルの誤り保護を与えるいくつかの誤り保護方
式のいずれかを適当に用いることが可能である。本発明
の実施例による符号化ビットストリームの全ビットレー
トは9.6kb/sである。この例示的なコーデックを
調べるための実験を、さまざまなワイヤレスチャネル
(例えば、ガウシアンチャネルや、さまざまなな相関を
有するレイリーチャネル)に対して実施したところ、こ
れらの実験は、悪いチャネル条件の場合であっても、通
常の音声認識タスクについて、満足なシステムの性能を
実証している。
【0011】本発明の原理によれば、および、その実施
例によれば、チャネル復号器からの「ソフト出力」を利
用して、音声認識システムの性能が改善される。具体的
には、各復号ビットの信頼度を復号プロセスから取得
し、この信頼度を用いて、復号されたASR特徴におけ
る信頼度を推定する。これらの信頼度に基づいて、音声
認識アルゴリズムにおける各特徴の重要度に重み付けす
ることが可能である。
【0012】具体的には、図1は、ソフト特徴復号を利
用した、ワイヤレスチャネルを通じて用いられる例示的
な自動音声認識システムのブロック図である。システム
は、例として、ワイヤレス装置10、ワイヤレス伝送チ
ャネル14、および基地局19を有する。本発明の原理
によれば、ワイヤレス装置10に供給された入力音声
は、特徴抽出モジュール11によって処理され、それか
ら音声認識特徴が抽出される。これらの音声認識特徴
は、例えば、LPC(線形予測符号化)に基づくケプス
トラム係数や信号エネルギーパラメータのような、従来
の音響特徴(すなわち、一般に従来の音声認識システム
によって用いられるもの)を含む。このようなパラメー
タ(すなわち、特徴)の識別および抽出は全く従来技術
のものであり当業者に周知である(ここで説明する本発
明の実施例により選択されることが可能な特徴のセット
についてさらに詳細には後述する)。
【0013】特徴が抽出された後、特徴量子化モジュー
ル12が、このデータに対して従来の符号化プロセス
(すなわち、量子化)を実行する。これは、例えば、同
じく当業者に周知の従来のスカラー量子化を含む(本発
明の実施例により利用可能な量子化方式についてさらに
詳細には後述する)。最後に、この結果得られた(特徴
量子化モジュール12からの)ビットは、チャネル符号
化モジュール13によって符号化される。チャネル符号
化モジュール13は、当業者に周知の従来のいずれのチ
ャネル符号化方式を適用することも可能である。特に、
本発明の実施例によれば、いくつかの可能な不均一誤り
保護(UEP)方式の1つを利用する。これらの方式は
当業者に周知である(このような方式のいくつかの例に
ついてさらに詳細には後述する)。
【0014】チャネル符号化モジュール13から出力さ
れ、選択された特徴を量子化し符号化した表現は、例え
ば、ワイヤレス装置10によって、ワイヤレスチャネル
14を通じて、処理のために基地局19へ送信される。
具体的には、基地局19では、本発明の実施例によれ
ば、まず送信データがチャネル復号モジュール15によ
って復号され、復号ビットのセット、対応するビット
信頼性情報の両方が生成される。このような復号技術は
従来のものであって当業者に周知であり、(復号ビット
値の正確さの確率に関する情報なしで)最尤ビット値の
みを提供するさらに旧式の復号技術(例えば、単純ビタ
ビ復号のような)とは異なって、確率論的な復号ビット
情報を提供する。
【0015】チャネル復号モジュール15からの復号ビ
ットに基づいて、特徴回復モジュール16によって特徴
が回復される(すなわち、ビットが特徴データへと再構
成される)。これは全く従来技術のものであり当業者に
周知である。しかし、同時に、本発明の原理によれば、
および、本発明の実施例によれば、チャネル復号モジュ
ール15によって求められたビット信頼度値が、ビット
−特徴信頼度変換モジュール17によって、特徴信頼度
値に変換される。その後、得られた特徴(特徴回復モジ
ュール16によって求められたもの)と、特徴信頼度値
(ビット−特徴信頼度変換モジュール17によって計算
されたもの)は、音声認識器18に供給される。音声認
識器18は、特徴およびそれに対応する信頼度値の両方
に基づいて、もとの入力音声(ワイヤレス装置10に供
給されたもの)の音声認識を実行する。
【0016】[例示的な特徴のセットおよび例示的な量
子化プロセス]通常の音声符号化アルゴリズムを用いて
得られる音声パラメータは、必ずしも、音声認識の目的
に最適なパラメータであるとは限らない。さらに、音声
符号器は通常、励振すなわちLPC残差信号の送信のた
めにかなりのビット数を費やすが、この情報は、音声認
識の目的のためには全く有用ではない。したがって、本
発明では、音声認識の目的のために特に選択される音声
パラメータのみを抽出し送信することに焦点を当てるこ
とにする。
【0017】多くの利用可能な音声認識システムは、信
号パラメータ化のために、当業者に周知のケプストラム
特徴を使用する。これは、距離によるクラシファイアに
適した、コンパクトでロバスト(頑健)な音声表現であ
り、いずれも当業者に周知のメル−フィルタバンク分析
や線形予測法(LPC)から計算可能である。本発明の
実施例の自動音声認識システムによれば、音声認識に用
いられる音響特徴は、従来の次数10のLPC分析に基
づいて10msごとに計算された12個のケプストラム
係数c,c,...,c12と、全信号エネルギーe
である。信号サンプリングレートは8000Hzであ
り、240サンプルのハミング窓が用いられる。したが
って、この特徴のセットは、10msごとに13次元ベ
クトルを形成し、この例示的な自動音声認識システムへ
の音響入力となる。
【0018】データ伝送の目的のために、13個の特徴
はすべてスカラー量子化される。単純な非一様量子化器
を用いて量子化セルを決定することが可能である。量子
化器は、圧伸関数として経験的な分布関数を使用し、サ
ンプルは、量子化セル内で一様分布する。使用可能な1
つの例示的アルゴリズムは、当業者に周知のロイドのア
ルゴリズムに対する単純な非反復近似であるが、これは
必ずしも量子化ノイズを最小にしない。より良好な性能
は、同じく当業者に周知のk平均型アルゴリズムを特徴
ベクトル全体に適用して(すなわち、ベクトル量子化)
達成することが可能である。なお、以下で説明する誤り
保護および隠蔽アルゴリズムは、さまざまな量子化方式
とともに使用可能である。
【0019】本発明の原理によれば、自動音声認識にお
いて、いずれも当業者には明らかなさまざまなビット割
当て方式を使用可能である。例えば、1つの可能な有利
な方式は、6ビットを信号エネルギーeと5個の上位ケ
プストラム特徴c,...,cのそれぞれに割り当
て、4ビットを次の6個のケプストラム特徴
,...,c11のそれぞれに割り当てるものであ
る。経験的テストによれば、最後の(すなわち、12番
目の)ケプストラム係数c12を、固定したあらかじめ
計算された平均で置き換えることによって、評価される
タスクに大きい性能劣化はない。このように、c12
は音声認識プロセスに関連する最小の情報しかないた
め、これにはビットを割り当てないことが可能である。
受信機では、c12は単に固定されあらかじめ計算され
た平均値から回復され、その後、標準的な13次元の特
徴ベクトルが認識中に用いられる。この例示的なビット
割当て方式のビット総数は10msフレームあたり60
ビットであり、これにより、ワイヤレスチャネルを通じ
て伝送される無符号化データレートは6kb/sとな
る。
【0020】[例示的な伝送システム]自動音声認識性
能に対するさまざまな音声符号化アルゴリズムの効果に
ついて多くの研究がある。具体的には、一般に分散ワイ
ヤレス音声認識システムにおける重大なASR性能の劣
化が注意されており、特に、この劣化は、バースト的に
発生するワイヤレス伝送誤りの場合に起こる。受信信号
強度の急速なゆらぎのため、移動無線環境はデータ伝送
のためには非常に困難なチャネルとなることがある。そ
のため、ASRパラメータの伝送には、帯域幅およびパ
ワー効率を改善するために、特別のチャネル誤り保護方
式が用いられる。チャネル誤り保護音声パラメータは、
ワイヤレス端末および基地局の両方に配置される音声認
識コーデックを形成する。図1に示す本発明の実施例の
システムは、広範囲の相異なるチャネル条件に対して効
率的な音声認識コーデックを提供することを目標とす
る。さらに、伝送誤りの場合の音声パラメータの再送を
避けることが強く望まれる。再送は、システム応答にお
ける追加遅延を生じ、スペクトル効率を低下させるから
である。
【0021】特に注意すべき点であるが、本発明の実施
例の特徴量子化方式により10ms音声フレームごとに
提供される60ビットには、複数のレベルの誤り保護を
設けることが可能である。音声符号化アプリケーション
に対する不均一誤り保護(UEP)方式は当業者に周知
であり、文献や標準において広く調べられている。いく
つかのUEP方式が、本発明の例示的なASRシステム
について調べられており、特に3つの方式についてここ
で説明する。
【0022】前述のように、本発明の実施例のASRシ
ステムによる量子化音声パラメータのデータレートは6
kb/sである。とりわけ、北米セルラ標準IS−95
で用いられるデータレートの1つに基づいて、本発明の
実施例のASRシステムは、当業者に周知の2元差分位
相シフトキーイング(DPSK)変調フォーマットの符
号化信号に対し9.6kb/sのデータレートを使用す
る。なお、9.6kb/sのデータレートで導入される
チャネルオーバーヘッドはあまり大きくはなく、与えら
れたアプリケーションに対してさらに低い符号化ビット
レートが要求される場合、より高次の変調による、同じ
く当業者に周知のトレリス符号化変調方式を用いること
も可能である。また、復調プロセスを簡単にするため
に、従来の差分変調技術を用いることも可能である。
【0023】ゆっくりとしたフェージングのあるチャネ
ルでは、大きいインタリーバを用いてシステム性能を改
善することが有効である。しかし、大きいインタリーバ
は遅延を導入し、これは、一部のリアルタイムアプリケ
ーションでは好ましくないことがある。本発明の実施例
のASRシステムによれば、80msフレーム、すなわ
ち、8個の音声フレームが、インタリーブおよびチャネ
ル符号化の目的のために選択されている。したがって、
インタリーブおよびデインタリーブの総遅延は160m
sであり、これは、通常のワイヤレス音声認識アプリケ
ーションでは容易に受け入れることが可能な長さであ
る。
【0024】本発明の実施例のASRシステムによれ
ば、10ms音声フレームにおいて「保護」される12
個の音声パラメータは、エネルギーパラメータeと、1
1個のケプストラム係数c(n),c
(n),...,c11(n)である。ただし、nは、
音声フレームインデックスを表す。明らかに、上記のパ
ラメータの上位のビットほど、高いチャネル誤り保護を
提供すると有効である。さらに、エネルギーパラメータ
eが、量子化ノイズおよびランダム伝送誤りに最も敏感
であり、次に敏感なのはケプストラム係数c
(n),...,c(n)であり、その後に、ケプス
トラム係数c(n),...,c11(n)が続くとい
うことがわかっている。実施例のチャネル符号化ビット
レートは9.6kb/sであるため、80msのチャネ
ル符号化フレームにおける全符号化ビット数は768と
なる。
【0025】第1の例示的な不均一誤り保護方式(ここ
ではUEP1という)によれば、L1、L2およびL3
で表される3つのレベルのチャネル誤り保護を考える。
さらに、L1の上位ビットにさらに高いレベルの誤り保
護を与えるために、L1を2つのレベルL1_1および
L1_2に分ける。相異なる不均一誤り保護(UEP)
レベルに対するビットの割当てを次の表に示す。
【0026】
【表1】
【0027】上記の記法で、e(n),e
(n),...は、e(n)のビットを上位から下位へ
の順で表す(ケプストラム係数についても同様)。上記
の表からわかるように、L1、L2およびL3における
音声フレームあたりのビット数はそれぞれ、13、24
および23である。この場合、L1_1は、重要なほう
から7ビットとして決定されたビットを含み、これらの
ビットは、内側畳込み符号(当業者に周知)に加えて、
外側(12,7)巡回符号(同じく当業者に周知)を用
いて保護される。本発明の一実施例では、(12,7)
巡回符号は、誤りの検出にのみ用いられ、これは、受信
機における誤り隠蔽に有用である。しかし、本発明の別
の実施例によれば、受信機に複雑さを追加することによ
り、この符号を誤り訂正のためにも利用することが可能
である。L1_2は、この例では、次に重要な6ビット
を含む。レート1/2、メモリ8の符号をL1レベルの
ビットに使用するため、L1レベルの8個の音声フレー
ムに対する符号化ビットの総数は288となる。
【0028】レベルL2は、この例では、次に重要な2
5ビットを含み、レート2/3のレートコンパチブルパ
ンクチャド畳込み(RCPC)符号がレベルL2に対し
て用いられる。8ビットのテールを含む、8個の音声フ
レームに対する符号化されたL2レベルビットの総数は
この例では300となる。最も重要性の低いビットはL
3にあり、これらのビットは、全くチャネル符号化なし
で送信されることが可能である。8個の音声フレームに
おける符号化後のビットの総数を768に維持するた
め、符号化されたL2レベルのビットからさらに4ビッ
トをパンクチャド符号化により除く。L1_1レベルの
ビットの後にL1_2レベルのビットが続き、その次に
L2レベルのビットが続くように、チャネル符号化が実
行される。なお、RCPC符号のため、レート1/2符
号は終端しない。そのため、L2レベルからチャネル符
号の復号深さ未満しか離れていないL1_2のビット
は、通常のレート1/2母符号に入らないことになる。
チャネル符号器入力において、8個の音声フレームn,
(n+1),...,(n+7)に対するL1_2レベル
のビットは次のように配列される。e(n),e
(n+1),...,e(n+7);c (n),
(n+1),...,c (n+7);...;c
(n),c (n+1),...c (n+7) 前述のように、係数c(n)はc(n)より重要で
あることがわかっているため、このビット配列により、
L1_2フレームの終端付近の重要性の低いビットが、
通常のレート1/2母符号よりも強力でない符号に入る
ことになる。
【0029】第2の例示的な不均一誤り保護方式(ここ
ではUEP2という)によれば、上記のUEP1方式に
おけるL1_1レベルのビットから外符号が除去され
る。これにより、L2レベルのビットに対して、より強
力な符号が適用される。しかし、L1_1レベルのビッ
トは、外符号の誤り検出および訂正能力がないために、
同じ強度の誤り保護を受けないことになる。L1、L2
およびL3のビット割当ては、誤り保護を除いては、例
えば、UEP1方式の場合と同様である。
【0030】この例では、レート1/2畳込み符号の場
合、L1レベルのビットからの8個の音声フレーム中の
符号化ビットの総数は208である。200個のL2ビ
ット(8ビットのテールを含む)に対して、24ビット
をパンクチャド符号化により除いたレート1/2符号を
用いて、376個の符号化ビットが得られる。その場
合、この例では、184個のL3無符号化ビットを合わ
せて、8個の音声フレーム中の符号化ビットの総数は7
68となる。L1_2ビットは、L1_1ビットがL1
_2ビットに先行するようにして、UEP1方式の場合
と同様に配列することが可能である。
【0031】第3の例示的な不均一誤り保護方式(ここ
ではUEP3という)によれば、ビットは、すべての特
徴成分の上位ビット(MSB)がレベル1にまとめられ
るように再配列される。注意すべき点であるが、(前述
のように)特徴成分e(n)およびc(n),...,
(n)は最も重要であり、またさらに、前述の2つ
の誤り保護方式では、これらの各成分の2個のMSBは
レベルL1にある。しかし、c(n),...,c11
(n)のMSBもまた重要なパラメータであることにも
注意すべきである。このように、すべての特徴成分のM
SBをL1に入れると有効なことがある。具体的には、
ビット配列は次の表に示すとおりである。
【表2】 この表からわかるように、L1_1に割り当てられるビ
ットは、UEP1方式と同一であり、UEP1と同様に
(12,7)外符号およびレート1/2、メモリ8の内
符号により保護される。UEP1方式の場合と同様に、
レート2/3符号がレベルL2のビットに適用され、レ
ベルL3のビットは符号化されない。
【0032】a(n)で、チャネル符号器への入力にお
ける音声ビットを表し、b(n)で、チャネル符号器出
力を表す。b(n)は、80msにわたり生じる768
個のシンボルにわたってインタリーブされた後、差分符
号化されて、次式のようになる。 u(n)=d(n)−d(n−1) (1) ただし、d(n)はインタリーバの出力である。ベース
バンド等価受信信号は次のように書くことができる。 y(n)=Aβ(n)u(n)+ν(n) (2) ただし、Aは送信振幅であり、β(n)は複素チャネル
利得であり、ν(n)は加法性白色ガウシアンノイズ
(AWGN)成分である。なお、レイリーフェージング
チャネルの場合、β(n)は、次式を満たす相関する複
素ガウス変数である。 E{β(n)β(n+k)}=J(2π(ν/λ)kT) (3) ただし、ν、λおよびTはそれぞれ、移動速度、RF搬
送波の波長、およびシンボル期間である。受信機では、
y(n)はまず差分復号された後、デインタリーブさ
れ、最後にビタビ復号される。その後、ビタビ復号器の
出力a^(n)は、音声認識器モジュールに送られる。
【0033】[例示的なソフト特徴誤り隠蔽手続き]伝
送誤りの悪影響を克服するため、通常の誤り隠蔽方策
は、前に受信したフレームの繰返しや、パラメータ補間
を含むことが多い。これらの技術は、ランダムビット誤
りを修復する助けとなることがあるが、フェージングチ
ャネルに起こりやすいバースト的に起こる誤りに対して
は失敗することがある。本発明の原理によれば、チャネ
ル復号器からASRユニットへの「ソフト出力」に基づ
く新規な誤り隠蔽技術が、ここで説明する例示的なAS
Rシステムで提供される。本発明の一実施例によれば、
当業者に周知の最大事後確率(MAP)アルゴリズムが
用いられる。この従来技術を用いて、各復号ビットの精
度の事後確率を求めることができる。その後、ASRユ
ニットは、この情報を利用して、他の点では従来の音声
認識器に基づいて、改善された音声認識性能を得る。
【0034】具体的には、12個の復号された音声特徴
成分のそれぞれに対して、受信機は、その成分を正しく
復号した信頼度を与える追加的な値を生成する。特に、
本発明の一実施例によれば、12個の特徴のそれぞれに
対して、2個の信頼度ビットが生成される。第1および
第2ビットはそれぞれ、各特徴の第1MSB(最上位ビ
ット)および第2MSB(最上位から2番目のビット)
に対応する。さらに具体的には(実施例によれば)、a
^(n)が、チャネル復号器出力における関連するMS
Bビットであると仮定する。MAP復号器は、確率p
(n)=Prob{a^(n)=i}(i=0,1)を
与える。ただし、p(n)+p(n)=1である。
しきい値をT(>0.5)で表す。すると、p(n)
>Tの場合、信頼度Λ(n)=1であり、それ以外の
場合、Λ(n)=0である。この例示的な割当てで
は、信頼度値が1に近づくと、対応するビットは非常に
高い確率で正しく、信頼度値が0に近づくと、送信ビッ
トは消失により表される。
【0035】12個の特徴成分の2個のMSBのそれぞ
れに対してこうして得られる1ビット量子化された信頼
度値Λ(n)は、対応するチャネル復号ビットストリ
ームとともに、音声認識モジュールに送られる。
【0036】本発明の一実施例では、誤り隠蔽方策は、
音声認識器において、誤りの可能性のある送信特徴を捨
て、尤度計算について信頼性の高いもののみを使用す
る。すなわち、高い信頼度を有する成分のみに基づく、
簡約された特徴ベクトルが使用される。例えば、隠れマ
ルコフモデル(HMM)に基づく音声認識システムで
は、観測される特徴ベクトルは、状態ごとの確率分布p
(x|s)によってモデル化される。ただし、xは特徴
ベクトルであり、sはモデルの状態である。(隠れマル
コフモデルおよびそれに基づく音声認識方法は当業者に
周知である。)通常、従来のHMMに基づく音声認識器
は、音素(あるいはtriphone)ごとのHMMの各状態に
対するガウス密度の混合を用いる。このような場合、特
徴ベクトルの信頼できる(信頼可能)部分に対する簡約
分布は、次式のようにすべての信頼できない(信頼不
能)成分にわたり積分することによって求められる周辺
分布となる。
【数1】 ただし、xrel、xunrelはそれぞれ、特徴ベク
トルの信頼可能および信頼不能成分である。HMM尤度
計算に対する信頼可能成分の周辺分布を用いることは、
ノイズの多い環境における音声認識器のロバスト性を改
善する技術の1つであり、当業者には周知であり、「mi
ssing feature theory」と呼ばれるものである。(な
お、従来のノイズの多い環境における音声認識アプリケ
ーションでは、信頼不能スペクトル特徴のラベリングは
困難な作業となることがあるが、本発明によれば、各特
徴の信頼性はチャネル復号器によって提供される。)特
に、対角共分散ガウシアン混合モデル(当業者に周知)
では、簡約尤度関数は、完全な尤度計算から信頼不能成
分を単に落とすだけで容易に計算することができる。な
お、このアプローチを用いると、既存の音声認識アルゴ
リズムに対する修正が少なくて済む。
【0037】本発明の一実施例によれば、送信特徴およ
びそれから導出される追加特徴が両方とも、音声認識器
によって用いられる。例えば、音声認識プロセスにおい
て、送信特徴自体(すなわち、エネルギー特徴および1
2個のケプストラム特徴)に加えて、そのなめらかな1
次および2次導関数(ここではそれぞれ、「デルタ」特
徴および「デルタ−デルタ」特徴という)を計算して用
いることが可能である。さらに具体的には、信頼可能な
受信特徴のみを用い信頼不能である可能性のあるものを
捨てる本発明の一実施例によれば、次の方策を用いるこ
とが可能である。
【0038】(1)エネルギーおよびケプストラム特徴
については、第1または第2ビットが信頼度値0で受信
された場合、それを尤度計算では用いない(すなわち、
上記の式に従って周辺化する)。
【0039】(2)「デルタ」および「デルタ−デル
タ」特徴については、デルタまたはデルタ−デルタ計算
のために用いられるウィンドウ内のいずれかの特徴の第
1または第2ビットが信頼度値0で受信された場合、対
応するデルタまたはデルタ−デルタ特徴を尤度計算では
用いない。
【0040】図2は、図1の自動音声認識システムのこ
の実施例によってもとの特徴セットをソフト特徴セット
に変換する上記のプロセスを説明するダイヤグラムであ
る。この図からわかるように、もとの特徴セットは、例
えば、エネルギー特徴21、ケプストラム特徴22−1
〜22−12、デルタエネルギー特徴23、デルタケプ
ストラム特徴24−1〜24−12、デルタ−デルタエ
ネルギー特徴25、デルタ−デルタケプストラム特徴2
6−1〜26−12を含む。この実施例によれば、5フ
レームおよび7フレームのウィンドウがそれぞれ、デル
タ計算およびデルタ−デルタ計算に用いられる。具体的
には、フレームnに対するデルタ特徴値は、フレームn
−2、n−1、n、n+1、およびn+2に基づいて計
算される。同様に、フレームnに対するデルタ−デルタ
特徴値は、フレームn−3、n−2、n−1、n、n+
1、n+2、およびn+3に基づいて計算される。(も
との特徴セットからデルタを計算する技術は一般に当業
者に周知であり、明らかである。)なお、図示したダイ
ヤグラムでは、これらの特徴のうちの一部(例えば、ケ
プストラム特徴22−1、デルタケプストラム特徴24
−12、デルタ−デルタケプストラム特徴26−1およ
びデルタ−デルタケプストラム特徴26−12)は、ダ
イヤグラムの手続きに従って、不正なMSBの結果とし
て周辺化されたように示されている。
【0041】[例示的なソフト特徴重みづけ手続き]も
う1つの実施例によれば、尤度計算における特徴成分
は、それらの信頼度値によって重みづけすることが可能
である。この場合、0〜1の連続的な信頼度値が復号プ
ロセスから得られ、音声認識器モジュールの尤度計算に
対する各特徴の寄与を、対応する信頼度値によってスケ
ールさせることができる。すなわち、この誤り隠蔽アプ
ローチを適用する際に、ASR特徴は「ソフト」に用い
られ、各成分は、正確に復号されたことの信頼度によっ
て重みづけされる。
【0042】具体的には、このソフト特徴復号プロセス
によれば、重みは、音声認識器における確率計算におい
て各特徴にかけられる。状態観測確率密度関数(pd
f)が、次式のような対角共分散ガウシアンpdfの混
合であると仮定する。
【数2】 ただし、xは特徴ベクトルであり、Nは特徴ベクトルの
サイズであり、Mは状態あたりのガウス分布の混合数で
あり、w、μ、およびσはそれぞれ、HMM状態
sに対するm番目のガウシアンの混合重み、平均および
標準偏差である。Cはn番目の特徴の信頼度であると
仮定すると、復号器で適用される重みづけ方式は、次式
のように状態観測確率計算を修正する。
【数3】 ただし、f(C)は、信頼度Cのある関数である。
なお、Cは時間の関数であり、フレームレートで(すな
わち、xが更新されるのと同じ頻度で)更新される。信
頼度が0〜1の数に正規化されていると仮定すると、関
数f(C)の可能な形の1つは、f(C)=(α+1)
/(α+C)であり、上記の式は次のようになる。
【数4】 ただし、αは平滑化定数であり、例えば、提供されるデ
ータセットに対して誤りが最小になるように、実験的に
決定することが可能である。なお、αの値が非常に大き
い場合、すべての特徴は多かれ少なかれ同様に重みづけ
され、一方、αの値が非常に小さい場合、高い信頼度値
(すなわち、Cが1に近い場合)の特徴のみが、観測
確率計算において考慮される。状態観測確率計算におけ
る特徴重みづけ以外の、復号プロセスのその他のすべて
の点については、信頼可能な受信特徴のみを用いて信頼
不能の可能性のあるものを捨てる本発明の実施例に関し
て前述した場合と変わらない。
【0043】[例示的なASRシステムの他の特性]こ
こで説明した例示的なASRシステムによれば、LPC
から導出される12個のケプストラム係数と、信号エネ
ルギーと、これらの成分の1次および2次時間導関数の
すべてを、音声認識モジュール内で音響特徴として使用
可能である。各音声発話のケプストラム平均は、認識を
実行する前に計算して除去することが可能である。ケプ
ストラム係数および信号エネルギーは、移動端末で計算
して基地局に送信し、次に、受信機においてこれを再構
成して(本発明の原理による)ソフト特徴誤り隠蔽のた
めの信頼度値を付加し、最後にネットワークの音声認識
サーバへ送信することが可能である。この場合、1次お
よび2次時間導関数を生成し、送信される特徴セットに
付加することも可能である。
【0044】音声認識のための音響モデルは、例えば公
衆電話網を通じて収集された、例えば英語音声データベ
ースの集まりについて学習させることが可能である。音
声認識器モジュールは、連続密度HMMに基づくことも
可能である。また、HMMによってモデル化される音響
ユニットは、3個のemitting状態を有しleft-to-right
トポロジーを有する状態クラスタ化triphoneモデルとす
ることも可能である。
【0045】[詳細な説明への付記]以上、本発明につ
いて詳細に説明したが、当業者であれば、上記の記載に
基づいて、さまざまな変形例を考えることが可能であ
る。例えば、当業者には認識されるように、図面のブロ
ック図は、本発明の原理を実現する例示的な回路の概念
図を表す。同様に、認識されるように、流れ図、状態遷
移図、擬似コードなどは、実質的に、コンピュータ可読
媒体内に表現し、コンピュータあるいはプロセッサによ
って実行されるようにすることが(そのようなコンピュ
ータあるいはプロセッサが明示的に図示されているかど
うかにかかわらず)可能である。
【0046】図示されたさまざまな要素の機能は、「プ
ロセッサ」あるいは「モジュール」と名づけられた機能
ブロックを含めて、専用ハードウェアや、適当なソフト
ウェアを実行可能なハードウェアを用いて提供可能であ
る。プロセッサによって提供されるとき、これらの機能
は、単一の専用プロセッサによって、単一の共有プロセ
ッサによって、あるいは、複数のプロセッサ(その一部
は共用可能)によって提供可能である。さらに、「プロ
セッサ」あるいは「コントローラ」という用語の明示的
な使用は、ソフトウェアを実行可能なハードウェアを限
定的に指すものと解釈すべきではなく、暗黙的に、限定
的でなく、ディジタル信号プロセッサ(DSP)ハード
ウェア、ソフトウェアを記憶するための読み出し専用メ
モリ(ROM)、ランダムアクセスメモリ(RAM)、
および不揮発性記憶装置を含む。他のハードウェアも、
通常のものであるかカスタム化したものかにかかわら
ず、含まれる。同様に、図中にスイッチがあれば、それ
は概念的なものにすぎない。その機能は、プログラムロ
ジックの動作によって、専用ロジックによって、プログ
ラム制御と専用ロジックの相互作用によって、あるい
は、手動でも、実行可能であり、具体的には文脈から理
解されるように実装者が個々の技術を選択することが可
能である。
【0047】特許請求の範囲において、特定の機能を実
行する手段として表現される要素は、例えば、(a)そ
の機能を実行する回路要素の組合せ、あるいは、(b)
ファームウェア、マイクロコードなどを含む任意の形の
ソフトウェアを、その機能を実行するようにそのソフト
ウェアを動作させるための適当な回路と組み合わせたも
の、を含めて、その機能を実行する任意の態様を含む。
【0048】
【発明の効果】以上述べたごとく、本発明によれば、
【図面の簡単な説明】
【図1】ソフト特徴復号を利用した、ワイヤレスチャネ
ルを通じて用いられる例示的な自動音声認識システムの
ブロック図である。
【図2】図1の例示的な自動音声認識システムの一実施
例に従って、もとの特徴セットをソフト特徴セットに変
換するプロセスを説明する図である。
【符号の説明】
10 ワイヤレス装置 11 特徴抽出モジュール 12 特徴量子化モジュール 13 チャネル符号化モジュール 14 ワイヤレス伝送チャネル 15 チャネル復号モジュール 16 特徴回復モジュール 17 ビット−特徴信頼度変換モジュール 18 音声認識器 19 基地局 21 エネルギー特徴 22 ケプストラム特徴 23 デルタエネルギー特徴 24 デルタケプストラム特徴 25 デルタ−デルタエネルギー特徴 26 デルタ−デルタケプストラム特徴
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 19/04 G10L 9/18 E H03M 7/36 A 9/14 J (71)出願人 596077259 600 Mountain Avenue, Murray Hill, New Je rsey 07974−0636U.S.A. (72)発明者 アレクサンドル ポタミアノス アメリカ合衆国、07974 ニュージャージ ー州、ウェストフィールド、サミット ア ベニュー 500、アパートメント 1 (72)発明者 ウォルフガング レイチル ドイツ国、マニク、80333 ゲーブルスバ ーガスター 60b (72)発明者 ビジサ ウィーラッコディ アメリカ合衆国、07974 ニュージャージ ー州、マレーヒル、イーサン ドライブ 38、アパートメント 1A Fターム(参考) 5D015 FF00 HH00 KK02 5D045 DA02 DA11 5J064 AA01 BA17 BB01 BB03 BB08 BC28 BD02

Claims (40)

    【特許請求の範囲】
  1. 【請求項1】 通信チャネルを通じて伝送された符号化
    音声特徴のセットを受信するステップと、 符号化音声特徴のセットを復号して、1つ以上の復号音
    声特徴と、それに対応する1つ以上の確率測度を生成す
    る復号ステップと、 前記1つ以上の復号音声特徴と、それに対応する前記1
    つ以上の確率測度とに基づいて、音声認識を実行するス
    テップとを有し、 それぞれの確率測度は、それに対応する復号音声特徴が
    正確に伝送され復号された尤度の推定値を含むことを特
    徴とする自動音声認識実行方法。
  2. 【請求項2】 前記通信チャネルは、ワイヤレス通信チ
    ャネルを含むことを特徴とする請求項1記載の方法。
  3. 【請求項3】 前記符号化音声特徴のセットは、北米セ
    ルラ標準IS−95に従って9.6kb/sのデータレ
    ートで前記ワイヤレス通信チャネルを通じて伝送されて
    いることを特徴とする請求項2記載の方法。
  4. 【請求項4】 前記符号化音声特徴のセットは、線形予
    測符号化分析に基づく1つ以上のケプストラム係数を含
    むことを特徴とする請求項1記載の方法。
  5. 【請求項5】 前記符号化音声特徴のセットは、信号エ
    ネルギー成分をさらに含むことを特徴とする請求項4記
    載の方法。
  6. 【請求項6】 前記符号化音声特徴のセットは、非一様
    スカラー量子化器を用いて量子化された1つ以上の音声
    特徴を含むことを特徴とする請求項1記載の方法。
  7. 【請求項7】 前記符号化音声特徴のセットは、ベクト
    ル量子化された複数の音声特徴を含むことを特徴とする
    請求項1記載の方法。
  8. 【請求項8】 前記符号化音声特徴のセットは、不均一
    誤り保護方式を用いて符号化されていることを特徴とす
    る請求項1記載の方法。
  9. 【請求項9】 前記不均一誤り保護方式は、巡回冗長符
    号の使用を含むことを特徴とする請求項8記載の方法。
  10. 【請求項10】 前記不均一誤り保護方式は、畳込み符
    号の使用を含むことを特徴とする請求項8記載の方法。
  11. 【請求項11】 前記符号化音声特徴のセットは、差分
    符号化されており、前記復号ステップは、前記符号化音
    声特徴のセットを差分復号するステップを含むことを特
    徴とする請求項1記載の方法。
  12. 【請求項12】 前記符号化音声特徴のセットは、送信
    前にインタリーブされており、前記復号ステップは、前
    記符号化音声特徴のセットをデインタリーブするステッ
    プを含むことを特徴とする請求項1記載の方法。
  13. 【請求項13】 前記復号ステップは、前記符号化音声
    特徴のセットのビタビ復号を実行して前記1つ以上の復
    号音声特徴を生成することを含むことを特徴とする請求
    項1記載の方法。
  14. 【請求項14】 前記復号ステップは、 受信された符号化音声特徴のセットの1つ以上のビット
    に対応する1つ以上のビット信頼度値を決定するステッ
    プと、 前記1つ以上のビット信頼度値に基づいて、前記復号音
    声特徴に対応する前記1つ以上の確率測度を生成するス
    テップとを含むことを特徴とする請求項1記載の方法。
  15. 【請求項15】 前記1つ以上のビット信頼度値を決定
    するステップは、最大事後確率アルゴリズムを用いて実
    行されることを特徴とする請求項14記載の方法。
  16. 【請求項16】 前記音声認識を実行するステップは、
    1つ以上の連続密度隠れマルコフモデルを用いて実行さ
    れることを特徴とする請求項1記載の方法。
  17. 【請求項17】 前記音声認識を実行するステップは、
    前記1つ以上の復号音声特徴のうち、対応する確率測度
    が所定しきい値を超えることにより信頼可能であるとみ
    なされたもののみに基づいて実行されることを特徴とす
    る請求項1記載の方法。
  18. 【請求項18】 前記音声認識を実行するステップは、
    さらに、1つ以上の音声特徴導関数に基づき、 前記音声特徴導関数は、複数の復号音声特徴の対応する
    時間順序系列に基づいて決定されることを特徴とする請
    求項1記載の方法。
  19. 【請求項19】 前記音声認識を実行するステップは、
    前記1つ以上の音声特徴導関数のうち、前記対応する時
    間順序系列中の前記複数の復号音声特徴の確率測度によ
    り信頼可能であるとみなされたもののみに基づいて実行
    されることを特徴とする請求項18記載の方法。
  20. 【請求項20】 前記音声認識を実行するステップは、
    前記1つ以上の復号音声特徴に対応する確率測度に基づ
    いて、前記1つ以上の復号音声特徴のそれぞれに重みづ
    けすることを含むことを特徴とする請求項1記載の方
    法。
  21. 【請求項21】 通信チャネルを通じて伝送された符号
    化音声特徴のセットを受信する手段と、 符号化音声特徴のセットを復号して、1つ以上の復号音
    声特徴と、それに対応する1つ以上の確率測度を生成す
    る復号手段と、 前記1つ以上の復号音声特徴と、それに対応する前記1
    つ以上の確率測度とに基づいて、音声認識を実行する手
    段とを有し、 それぞれの確率測度は、それに対応する復号音声特徴が
    正確に伝送され復号された尤度の推定値を含むことを特
    徴とする自動音声認識実行装置。
  22. 【請求項22】 前記通信チャネルは、ワイヤレス通信
    チャネルを含むことを特徴とする請求項21記載の装
    置。
  23. 【請求項23】 前記符号化音声特徴のセットは、北米
    セルラ標準IS−95に従って9.6kb/sのデータ
    レートで前記ワイヤレス通信チャネルを通じて伝送され
    ていることを特徴とする請求項22記載の装置。
  24. 【請求項24】 前記符号化音声特徴のセットは、線形
    予測符号化分析に基づく1つ以上のケプストラム係数を
    含むことを特徴とする請求項21記載の装置。
  25. 【請求項25】 前記符号化音声特徴のセットは、信号
    エネルギー成分をさらに含むことを特徴とする請求項2
    4記載の装置。
  26. 【請求項26】 前記符号化音声特徴のセットは、非一
    様スカラー量子化器を用いて量子化された1つ以上の音
    声特徴を含むことを特徴とする請求項21記載の装置。
  27. 【請求項27】 前記符号化音声特徴のセットは、ベク
    トル量子化された複数の音声特徴を含むことを特徴とす
    る請求項21記載の装置。
  28. 【請求項28】 前記符号化音声特徴のセットは、不均
    一誤り保護方式を用いて符号化されていることを特徴と
    する請求項21記載の装置。
  29. 【請求項29】 前記不均一誤り保護方式は、巡回冗長
    符号の使用を含むことを特徴とする請求項28記載の装
    置。
  30. 【請求項30】 前記不均一誤り保護方式は、畳込み符
    号の使用を含むことを特徴とする請求項28記載の装
    置。
  31. 【請求項31】 前記符号化音声特徴のセットは、差分
    符号化されており、前記復号手段は、前記符号化音声特
    徴のセットを差分復号する手段を含むことを特徴とする
    請求項21記載の装置。
  32. 【請求項32】 前記符号化音声特徴のセットは、送信
    前にインタリーブされており、前記復号手段は、前記符
    号化音声特徴のセットをデインタリーブする手段を含む
    ことを特徴とする請求項21記載の装置。
  33. 【請求項33】 前記復号手段は、前記符号化音声特徴
    のセットのビタビ復号を実行して前記1つ以上の復号音
    声特徴を生成する手段を含むことを特徴とする請求項2
    1記載の装置。
  34. 【請求項34】 前記復号手段は、 受信された符号化音声特徴のセットの1つ以上のビット
    に対応する1つ以上のビット信頼度値を決定する手段
    と、 前記1つ以上のビット信頼度値に基づいて、前記復号音
    声特徴に対応する前記1つ以上の確率測度を生成する手
    段とを含むことを特徴とする請求項21記載の装置。
  35. 【請求項35】 前記1つ以上のビット信頼度値を決定
    する手段は、最大事後確率アルゴリズムを用いて実現さ
    れることを特徴とする請求項34記載の装置。
  36. 【請求項36】 前記音声認識を実行する手段は、1つ
    以上の連続密度隠れマルコフモデルを用いて実現される
    ことを特徴とする請求項21記載の装置。
  37. 【請求項37】 前記音声認識を実行する手段は、前記
    1つ以上の復号音声特徴のうち、対応する確率測度が所
    定しきい値を超えることにより信頼可能であるとみなさ
    れたもののみに基づいて音声認識を実行することを特徴
    とする請求項21記載の装置。
  38. 【請求項38】 前記音声認識を実行する手段は、さら
    に、1つ以上の音声特徴導関数に基づき、 前記音声特徴導関数は、複数の復号音声特徴の対応する
    時間順序系列に基づいて決定されることを特徴とする請
    求項21記載の装置。
  39. 【請求項39】 前記音声認識を実行する手段は、前記
    1つ以上の音声特徴導関数のうち、前記対応する時間順
    序系列中の前記複数の復号音声特徴の確率測度により信
    頼可能であるとみなされたもののみに基づいて音声認識
    を実行することを特徴とする請求項38記載の装置。
  40. 【請求項40】 前記音声認識を実行する手段は、前記
    1つ以上の復号音声特徴に対応する確率測度に基づい
    て、前記1つ以上の復号音声特徴のそれぞれに重みづけ
    する手段を含むことを特徴とする請求項21記載の装
    置。
JP2001117647A 2000-04-24 2001-04-17 自動音声認識実行方法 Expired - Fee Related JP4875249B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/556250 2000-04-24
US09/556,250 US6760699B1 (en) 2000-04-24 2000-04-24 Soft feature decoding in a distributed automatic speech recognition system for use over wireless channels

Publications (3)

Publication Number Publication Date
JP2001356792A true JP2001356792A (ja) 2001-12-26
JP2001356792A5 JP2001356792A5 (ja) 2008-04-03
JP4875249B2 JP4875249B2 (ja) 2012-02-15

Family

ID=24220535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001117647A Expired - Fee Related JP4875249B2 (ja) 2000-04-24 2001-04-17 自動音声認識実行方法

Country Status (4)

Country Link
US (1) US6760699B1 (ja)
EP (1) EP1180764B1 (ja)
JP (1) JP4875249B2 (ja)
DE (1) DE60000087T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008518256A (ja) * 2004-10-30 2008-05-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声信号を分析する装置および方法
KR101099278B1 (ko) 2003-05-27 2011-12-26 마이크로소프트 코포레이션 명명된 엔티티 목록 생성기, 명명된 엔티티 모델 생성 방법 및 컴퓨터 판독가능 기록 매체
CN116612746A (zh) * 2023-07-17 2023-08-18 北京怀芯物联技术有限公司 一种基于人工智能在声学库中进行语音编码识别的系统

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7010483B2 (en) * 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US20020026253A1 (en) * 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US20030023431A1 (en) * 2001-07-26 2003-01-30 Marc Neuberger Method and system for augmenting grammars in distributed voice browsing
JP3469567B2 (ja) * 2001-09-03 2003-11-25 三菱電機株式会社 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法
US7328159B2 (en) * 2002-01-15 2008-02-05 Qualcomm Inc. Interactive speech recognition apparatus and method with conditioned voice prompts
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
JP2005151299A (ja) * 2003-11-18 2005-06-09 Sanyo Electric Co Ltd 無線通信装置、誤り訂正方法、および誤り訂正プログラム
US7386443B1 (en) * 2004-01-09 2008-06-10 At&T Corp. System and method for mobile automatic speech recognition
CA2618626C (en) * 2005-08-09 2016-10-18 Stephen S. Burns A voice controlled wireless communication device system
US8301454B2 (en) * 2008-08-22 2012-10-30 Canyon Ip Holdings Llc Methods, apparatuses, and systems for providing timely user cues pertaining to speech recognition
IL205394A (en) 2010-04-28 2016-09-29 Verint Systems Ltd A system and method for automatically identifying a speech encoding scheme
US8818797B2 (en) * 2010-12-23 2014-08-26 Microsoft Corporation Dual-band speech encoding
US8484022B1 (en) 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
US8442821B1 (en) 2012-07-27 2013-05-14 Google Inc. Multi-frame prediction for hybrid neural network/hidden Markov models
US9240184B1 (en) 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US10679140B2 (en) * 2014-10-06 2020-06-09 Seagate Technology Llc Dynamically modifying a boundary of a deep learning network
CN105989835B (zh) * 2015-02-05 2019-08-13 宏碁股份有限公司 语音辨识装置及语音辨识方法
US10373630B2 (en) 2017-03-31 2019-08-06 Intel Corporation Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62117422A (ja) * 1985-11-18 1987-05-28 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方式
JPH03248637A (ja) * 1990-02-27 1991-11-06 Toshiba Corp 誤り補償方式
JPH06177843A (ja) * 1992-12-04 1994-06-24 Fujitsu Ltd 音声認識信号の無線送受信システム
JPH10145249A (ja) * 1996-11-12 1998-05-29 Kokusai Electric Co Ltd 音声復号方式
JPH10303759A (ja) * 1997-04-23 1998-11-13 Mitsubishi Electric Corp 誤り訂正復号装置および誤り訂正復号方式
JPH1185188A (ja) * 1997-09-12 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及びそのプログラム記録媒体

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
GB9520445D0 (en) * 1995-10-06 1995-12-06 British Telecomm Convolutional codes
US6112058A (en) * 1995-10-18 2000-08-29 Sc-Wireless Inc. Method and apparatus for wireless communication employing confidence metric processing for bandwidth reduction
JP2838994B2 (ja) * 1995-12-27 1998-12-16 日本電気株式会社 データ信号受信装置
US5917837A (en) * 1996-09-11 1999-06-29 Qualcomm, Incorporated Method and apparatus for performing decoding of codes with the use of side information associated with the encoded data
GB2319379A (en) * 1996-11-18 1998-05-20 Secr Defence Speech processing system
US5960399A (en) 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
DE59810958D1 (de) * 1997-06-13 2004-04-15 Siemens Ag Quellengesteuerte kanaldecodierung durch verwendung der intra-rahmen-korrelation
CA2245601C (en) * 1997-08-14 2007-06-12 Stewart Crozier High-performance low-complexity error-correcting codes
US6097716A (en) * 1997-12-12 2000-08-01 Lucent Technologies Inc. Rate detection for multi-rate communications
SG71832A1 (en) * 1998-08-24 2000-04-18 Inst Of Microelectronics Method and apparatus for real-time determination of scalable channel coding scheme parameters
US6256607B1 (en) * 1998-09-08 2001-07-03 Sri International Method and apparatus for automatic recognition using features encoded with product-space vector quantization
DE19842405A1 (de) * 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Spracherkennungsverfahren mit Konfidenzmaßbewertung
US6426978B1 (en) * 1998-10-01 2002-07-30 Ericsson Inc. Digital communication systems and methods for differential and/or amplitude encoding and decoding secondary symbols
GB2342828A (en) 1998-10-13 2000-04-19 Nokia Mobile Phones Ltd Speech parameter compression; distributed speech recognition
US6226613B1 (en) * 1998-10-30 2001-05-01 At&T Corporation Decoding input symbols to input/output hidden markoff models
US6192343B1 (en) * 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US6374221B1 (en) * 1999-06-22 2002-04-16 Lucent Technologies Inc. Automatic retraining of a speech recognizer while using reliable transcripts

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62117422A (ja) * 1985-11-18 1987-05-28 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方式
JPH03248637A (ja) * 1990-02-27 1991-11-06 Toshiba Corp 誤り補償方式
JPH06177843A (ja) * 1992-12-04 1994-06-24 Fujitsu Ltd 音声認識信号の無線送受信システム
JPH10145249A (ja) * 1996-11-12 1998-05-29 Kokusai Electric Co Ltd 音声復号方式
JPH10303759A (ja) * 1997-04-23 1998-11-13 Mitsubishi Electric Corp 誤り訂正復号装置および誤り訂正復号方式
JPH1185188A (ja) * 1997-09-12 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及びそのプログラム記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101099278B1 (ko) 2003-05-27 2011-12-26 마이크로소프트 코포레이션 명명된 엔티티 목록 생성기, 명명된 엔티티 모델 생성 방법 및 컴퓨터 판독가능 기록 매체
JP2008518256A (ja) * 2004-10-30 2008-05-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声信号を分析する装置および方法
CN116612746A (zh) * 2023-07-17 2023-08-18 北京怀芯物联技术有限公司 一种基于人工智能在声学库中进行语音编码识别的系统
CN116612746B (zh) * 2023-07-17 2023-10-03 北京怀芯物联技术有限公司 一种基于人工智能在声学库中进行语音编码识别方法

Also Published As

Publication number Publication date
EP1180764B1 (en) 2002-03-06
EP1180764A1 (en) 2002-02-20
JP4875249B2 (ja) 2012-02-15
US6760699B1 (en) 2004-07-06
DE60000087D1 (de) 2002-05-02
DE60000087T2 (de) 2002-09-12

Similar Documents

Publication Publication Date Title
JP4875249B2 (ja) 自動音声認識実行方法
FI118909B (fi) Hajautettu äänentunnistusjärjestelmä
Peinado et al. Speech recognition over digital channels: Robustness and Standards
US6959276B2 (en) Including the category of environmental noise when processing speech signals
US7203643B2 (en) Method and apparatus for transmitting speech activity in distributed voice recognition systems
KR100879410B1 (ko) 음향 특징 벡터 수정을 사용하는 분산형 음성 인식 시스템
KR100594670B1 (ko) 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템
US20110153326A1 (en) System and method for computing and transmitting parameters in a distributed voice recognition system
US20030061036A1 (en) System and method for transmitting speech activity in a distributed voice recognition system
Bernard et al. Low-bitrate distributed speech recognition for packet-based and wireless communication
JPH0863200A (ja) 線形予測係数信号生成方法
JPH07311598A (ja) 線形予測係数信号生成方法
US7171359B1 (en) Speech recognition over lossy networks with rejection threshold
JP3459133B2 (ja) 復号器の動作方法
WO2005091273A2 (en) Method of comfort noise generation for speech communication
US6934678B1 (en) Device and method for coding speech to be recognized (STBR) at a near end
Ion et al. A novel uncertainty decoding rule with applications to transmission error robust speech recognition
CN112767955B (zh) 音频编码方法及装置、存储介质、电子设备
Weerackody et al. An error-protected speech recognition system for wireless communications
US6480827B1 (en) Method and apparatus for voice communication
US7701886B2 (en) Packet loss concealment based on statistical n-gram predictive models for use in voice-over-IP speech transmission
Bernard et al. Source and channel coding for remote speech recognition over error-prone channels
Ion et al. Uncertainty decoding for distributed speech recognition over error-prone networks
Tan et al. Network, distributed and embedded speech recognition: An overview
Reichl et al. A codec for speech recognition in a wireless system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110113

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees