JP2006099124A - デジタル無線チャネル上の自動音声/話者認識 - Google Patents

デジタル無線チャネル上の自動音声/話者認識 Download PDF

Info

Publication number
JP2006099124A
JP2006099124A JP2005305803A JP2005305803A JP2006099124A JP 2006099124 A JP2006099124 A JP 2006099124A JP 2005305803 A JP2005305803 A JP 2005305803A JP 2005305803 A JP2005305803 A JP 2005305803A JP 2006099124 A JP2006099124 A JP 2006099124A
Authority
JP
Japan
Prior art keywords
speech
received
parameters
coded speech
received coded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005305803A
Other languages
English (en)
Inventor
Wu Chou
チョー ウー
Michael Charles Recchione
チャールズ レッチオン マイケル
Qiru Zhou
ゾー キル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of JP2006099124A publication Critical patent/JP2006099124A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/24Radio transmission systems, i.e. using radiation field for communication between two or more posts
    • H04B7/26Radio transmission systems, i.e. using radiation field for communication between two or more posts at least one of which is mobile
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】無線の場合において有効かつ経済的にASR能力を可能にするシステムと方法を提供する。
【解決手段】自動音声認識(ASR)が無線通信システムで達成されるが、そこでは信頼性の高いASR特徴ベクトル・シーケンスが、発呼ハンドセットでの追加処理または信号修正を必要とせず、デジタル伝送された音声コーダ・パラメータから直接基地局で導出される。ASR特徴ベクトルの伝送のため2次チャネルを提供する必要はない。音声信号への変換の前に受信音声コーダ・パラメータ上で動作する際、本システムおよび方法は損失の多い変換処理と関連する音声歪みを回避する。受信音声パラメータは伝送中誤り保護されているので、それらは非常に正確に受信される。
【選択図】図2

Description

本発明は、自動音声/話者認識(ASR)に関し、特に無線通信チャネル上のASRに関する。
自動音声/話者認識(ASR)は、ハードウェア、モデル化および認識アルゴリズムの改善に伴って次第に普及している。電話および他の通信技術での利用は、ASR技術の多くの重要な用途の中の1つである。例えば、ASRの使用は、有線回路上でディレクトリ支援、自動発呼および他の音声電話を提供する際有益であることが判明している。平行して開発される分野で、セルラー・システム、個人通信システム(PCS)および他の無線システム(集合的に「無線」と呼ばれる)が急増し続けている。従って、有線システムで達成されたASRの改善を無線システムにも適用しようというのは当然である。
無線チャネル上のASRは、コード化、伝送(例えば、フェージングまたはパケット損失による)および復号化段で音声信号に導入される付加的雑音および歪みのため問題がある。無線環境で存在する雑音によって劣化した音声信号は原音声信号とかなり異なっていることが多く、標準ASR技術を利用する場合、ASR性能の劣化につながる。この問題は、デジタル無線チャネル上でインテリジェント・エージェント・サービスまたは大規模語彙音声認識サービスといったASRによる高度なサービスを創設しようとする際深刻になった。これまでのアプローチは主として雑音低減技術に焦点を合わせていたが、結果は理想からほど遠く、無線環境の種類が多い(例えば、TDMA、CDMA、GSM等)ため適用範囲が制限されている。
最近の研究によって、ASR目的の特徴ベクトルをハンドセットで抽出し、2次デジタル・チャネルを通じてデジタル的に送信することができれば、有線電話ネットワークと比較して、無線環境でのASR性能の劣化がほとんどないことが発見された。通常の従来技術の二重チャネル・システムが図1に示される。
ここでは、セルラー・ハンドセット101が移動ユーザによって利用され、通常の音声を符号化し、関連コーダ・パラメータを含むコード化信号を1次(音声)チャネル105を通じてセルラー基地局120に伝送する。すると基地局120は受信したコード化信号を復号化し、公衆スイッチとそのネットワークへの出力によって表される公衆電話網(PSTN)または他の音声通信ネットワークによる通信に適した音声出力を発生する。図1はまた、セルラー・ハンドセット101で、ASRで使用されるASRパラメータに対応する信号の第2集合が発生することを示す。この信号の第2集合は第2デジタル・チャネル110を通じてセルラー基地局120に伝送され、そこでASRシステム140に転送される。
図1に示される種類のシステムの実験的使用によって、ハンドセットで抽出し無線ネットワークを通じて2次デジタル・リンクを使用するデジタル信号として送信できる標準ASR特徴集合を生成することに対する関心が発生した。ASR特徴ベクトル伝送のビット伝送速度はかなり低い(<4Kb/s)ので、IS−134のような新しい無線標準に包含するために提案されたもの等の2次デジタル・リンクを使用することが可能である。この2次チャネル・ソリューションは見込みがあるように見えるが、多数の重大な欠点を有している。すなわち、このアプローチは以下のものを必要とする。
1.通信プロトコルの新しい標準と大幅な変更。その場合、多くの現行無線通信標準との互換性がないため、既存の標準に準拠したネットワーク機器の修正または廃棄が必要になる。
2.ハンドセットから基地局にASR特徴ベクトルを伝送する追加帯域幅。音声を伝送するための1次デジタル・チャネルと抽出されたASR特徴ベクトルを伝送するための2次デジタル・チャネルを同期させることも重大な問題となる。
3.現行ハンドセットの大幅な変更。
4.二重チャネル・ソリューションの多様性。すなわち、現在の特定の無線標準またはフォーマット(CDMA、TDMA、GSM、IS−94、IS−134等)と関連する信号方式および変調スキームに依存しているため、すべての利用可能な標準に対する汎用ソリューションは非現実的である。
5.この技術に基づくサービスを導入するための高価な初期投資。
例示としての実施形態に関連して以下説明されるような無線の場合で有効かつ経済的にASR能力を可能にするシステムと方法において、従来技術の制限が克服され技術的進歩が達成される。
すなわち、本発明の1つの態様によれば、信頼できるASR特徴ベクトル・シーケンスが、デジタル的に伝送される音声コーダ・パラメータから直接、基地局(または他のネットワークまたはシステム・ユニット)で導出される。多くの用途では、ASR機能が公衆スイッチまたはネットワークのどこかで行われる。このアプローチによって、新しいASR特徴抽出器がハンドセットから受信された音声コーダ・パラメータに対して動作し、ハンドセットでの追加処理または信号修正を必要としない。すなわち、基地局で受信された音声コーダ・パラメータは現在のように音声信号を再生するためだけでなく、ASR用の特徴ベクトル・シーケンスを生成するためにも使用される。
基地局の例示としてのASR特徴ベクトル抽出器は、コーダ・パラメータを音声信号に変換する前にデジタル的に伝送された音声コーダ・パラメータに対して動作する際に、損失の多い変換処理と関連する音声歪みを回避する。本発明の実施形態を使用する際、ASR特徴ベクトルは普通ハンドセットで抽出される音声コーダ・パラメータの同じ集合から導出されるので、無線ハンドセットを修正する必要はない。従って、既存のハンドセットが基地局のASR特徴ベクトル抽出器のためのフロントエンドを提供する。
さらに、デジタル無線環境におけるハンドセットから基地局への接続は完全デジタルであり、基地局に伝えられるデータ信号の誤り保護が含まれる。従って、ハンドセットから基地局または他の場所にある本発明の特徴抽出器への伝送は、2次チャネル・スキームと同じデジタル伝送品質を有する。
音声コーダ・パラメータはASR目的で必要な特徴ベクトルと大きく異なっているが、本発明は標準音声コーダ・パラメータに基づく音声特徴抽出器を実現する例示としての技術を提供する。さらに、本発明の別の態様によれば、(復号化)音声信号とASR特徴ベクトルの完全な同期が、追加信号同期ビットなしに提供される。これが可能なのは、本発明の例示としての実施形態で開示されるように、音声信号とASR特徴ベクトル信号が同じ音声コーダ・パラメータから生成されるからである。
概して、本発明は、2次チャネルと現行無線標準への大幅な変更の必要なしに、高度ASRのためのシステムと方法を提供する。基地局での変更、拡張および動作の違いも最小である。ASR用のデジタル・チャネルが(ソフトウェアの修正によって)音声呼の第2宛先として創設されるので有利である。
代替実施形態は、受信基地局に(直接またはネットワーク接続を通じて)接続されたスイッチでASR特徴抽出とASR機能を行う。また別の実施形態では、基地局で送信ハンドセットから受信されたコード化音声信号が、端末または記憶システムを含むネットワーク・ロケーションに(復号音声信号を伴うかまたは伴わずに)転送される。
図2は、本発明の例示としてのシステム実施形態を示す。図2では、音声コーダ・パラメータを生成し、発話によるユーザ入力に応答して無線基地局220に伝送するハンドセット201が示される。伝送チャネル205上を送信されるコード化音声信号は、(同じ発話入力について)図2の無線システムの標準(非ASR)使用での音声通信で使用されるコード化音声信号とあらゆる面で同一である。さらに、このコード化音声信号は図1のシステムで音声チャネル105上を伝送されるものと同じ種類である。図1のシステムのような、ASR関連パラメータの集合を伝える2次デジタル・チャネルは必要ない。その代わり、無線基地局220では、受信コード化音声信号が、一方で無線システムの標準的な動作におけるように(かつ図1のシステムにおけるように)経路222上を提供され公衆スイッチ230に供給される。普通、ハンドセットでコード化された音声信号の復号化は、公衆スイッチ230のようなスイッチで達成されるが、音声信号へのこの復号化は基地局120または、スイッチ230と経路231を経由してPSTN(または他の)ネットワークのどこかで行われる。
さらに、無線基地局220で受信されたコード化音声信号は、例示として、基地局220に配置されるASR特徴抽出システム235およびASRシステム240に提供される。そこでは、復号化されて音声信号を生成する同じコード化表示が代わりに使用され、240のようなASRシステムが使用するASR特徴抽出ユニット235でASR特徴パラメータを抽出する。ハンドセット205から受信された音声コーダ・パラメータも、例示として、公衆スイッチ230へのリード線225に提供されるが、ここではそれらはスイッチ230またはネットワークのどこかの特徴抽出およびASRユニットへのデジタル信号として代替的(または付加的)に供給可能である。基地局220からASR特徴抽出システム235、さらに、ASRシステム240への接続は用途によっては、標準音声経路を公衆スイッチ230に接続する際使用されるような独立したスイッチ接続として配置されることがあるので有利である。別の用途では、スイッチ230への同じ経路によってコード化パラメータを送信することが好都合であることが判明しているが、ここでは特徴抽出(およびASR)は音声復号化に追加して行われる。
従って、基地局220は、本発明の原理の1つの通常の用途では、コード化音声パラメータを直接ASR特徴抽出ユニット235およびASRシステム240に提供する。また、ASR特徴抽出器235および/またはASRシステム240への経路がスイッチ230または認識された音声を利用する他の集中施設で維持されることもある。例えば、認識された音声は話者の認証、コマンドまたはテキスト応答システムへの他の入力のために使用される。こうした認識された音声の1つの用途は、例えば、話者と機械の対話のために、音声のテキスト・バージョンを応答システムに転送することであるが、音声認識の非常に多くの多様な他の用途が当業技術分野で周知である。ASR特徴パラメータを生成する標準音声コード化信号の変換方法が以下より詳細に説明される。
デジタル無線環境の1つの有益な特性は、ユーザの音声が、ハンドセットでデジタルコーダ・パラメータのシーケンスに変換された後、無線媒体を通じての伝送中チャネル・コード化技術によって誤り保護されることである。このチャネル・コード化は、通常、伝送の異なった部分に不均等に適用される。すなわち、最も重要なコーダ・パラメータがより完全な保護を伴って伝送され、重要度の低いパラメータほど完全に保護される度合いが低いのが一般的である。最も重要なパラメータの中には信号の同期と音声信号のスペクトル形状に関するものがある。
次に、チャネル・フェージングと干渉によってある程度のコーダ・パラメータの損失が発生し、再生音声信号が歪められることがあるが、普通、最も重要なコーダ・パラメータは、チャネル・コード化の際それらに提供されたこの追加誤り保護のため保存されるということが言える。本発明の別の態様によれば、ASR特徴ベクトル信号は、こうしたよりよく保護された音声コーダ・パラメータから抽出されるので有利である。その結果、ASR特徴抽出のための情報は、普通、原音声コーダ・パラメータを保護するために使用されるチャネル・コード化スキームだけを使用してデジタル的に高い信頼性を伴って受信される。
本発明の別の態様によれば、ASR特徴抽出は、変換して音声信号に戻される前の音声コーダ・パラメータから達成されるので有利である。この1つの理由は、変換された音声信号が復号化処理で歪められているということである。チャネル効果がない場合でも、復号化信号のセグメント信号対量子化雑音比(SSNR)は通常の無線環境では約20dBにすぎないことが多い。例えば、B.S.Atal、V.CupermanおよびA.Gersho「音声コード化における進歩」Kluwer Academic Publisherを参照されたい。この後者の信号条件は、低ビット伝送速度の制約を満たそうとする際に、多くの特徴、例えば、励振信号が十分にコード化され表示されないために発生する。さらに、チャネル・フェージングと干渉によって、多くの音声コーダ・パラメータは音声信号に戻す高品質変換にとって信頼できないものになる。
ASR特徴抽出の基礎としてコード化パラメータを使用することから得られるもう1つの利点は、変換された音声信号が、普通、合成音声信号であるということである。すなわち、変換された音声信号は音声コーダで使用される特定のコード化スキームに大きく依存する。最も重要なことだが、音声コーダからの合成音声は、普通、音声認識モデルを確立するために使用される人間の音声とはかなり異なっており、通常話者の音声の多くの特徴は合成処理で変更されるかまたは失われる。
上記から、デジタル伝送コーダ・パラメータを直接の基礎とするASR特徴抽出器の設計と動作によって、本発明の例示としての実施形態における重要な利点が提供されることが明らかである。従って、例示としての本発明の設計は、信頼できるASR特徴ベクトルを導出する元である現行の音声コーダ・パラメータからパラメータの集合を特定し選択するので有利である。例示としての特徴抽出器の設計がここで説明される。
無線環境で通常使用される音声コーダは多くの点で互いに異なっている。例えば、R.Steele、「個人通信用音声コーデック」、米国電気電子通信学会通信雑誌、1993年11月、76〜83ページを参照されたい。しかし、最も広範に使用されているコーダの多くは、例えば、J.Flanagan「音声の分析、合成および再生」Springer−Verlagで説明されている合成による分析技術を使用している。さらに、こうしたコーダは通常、線形予測コード化(LPC)分析を使用してウィンドウ化音声フレームのスペクトル形状を特徴付けている。こうしたLPCによるコーダの例には周知のCELP技術のいくつかの変形が含まれる。
一般的に使用されるコーダは全体的にある程度類似しているが、様々な無線用のコーダには大きな相違があることが多い。例えば、分析フィルタA(z)の次数と音声信号のパラメータ表示は、通常、コーダ毎に異なっている。すなわち、この分析フィルタは、通常、反射係数、対数面積比係数、線スペクトル対(LSP)および線スペクトル周波数(LSF)等を含むパラメータの様々な集合によって特徴付けられる。(自己相関係数は非常に誤りの影響を受けやすいので)それを直接伝送する音声コーダは存在しないが、無線環境で現行の音声コーダによって使用される分析フィルタのパラメータ表示はすべて周知の変換によって自己相関係数に変換される。例えば、K.Feher編「高度デジタル通信」Prentice−Hallを参照されたい。自己相関係数への分析フィルタA(z)に関連するコーダ・パラメータの変換は、提案される発明の例示としての実施形態で利用されるので有利である。
自己相関係数は、最も広範に使用されるASR特徴パラメータであるLPCケプストラム係数の導出元である顕著な情報を伝える。例えば、L.RabinerおよびB.−H.Juang「音声認識の基礎」、Prentice−Hall、1993年を参照されたい。さらに、音声コーダにおけるLPC分析の次数は通常のASRで必要とされるLPC分析の次数より高いことが多い。これは、音声コード化では音声波形を正確に再生するためにスペクトル・エンベロープの形状を綿密にたどらなければならないからである。それと対照的に、ASRではスペクトル・エンベロープの小さな細部は価値が少ない。低次自己相関係数は常に、無線コーダの高次LPC分析特性から得られる自己相関係数の一部であるので、常に音声コーダ・パラメータから抽出することができる。
図3は、本発明による例示としてのASR特徴抽出器(図1の235等)で行われる演算を示す。図3に示されるように、コーダ・パラメータはハンドセットから基地局への伝送から検索され、図3で入力300として印加される。こうした受信音声コーダ・パラメータは、通常、持続期間が各10〜20msecの連続音声間隔に対する集合として提供される。コーダ・パラメータの受信された集合はまず、受信されたパラメータ値の大きな集合から分析フィルタに関連するパラメータを検索するよう処理される。
選択されたコーダ・パラメータ集合はさらにステップ310で、特徴抽出器で実現される適当な変換によって自己相関係数に変換される。IS−124CDMA無線標準の例について、1つの特定の例が以下示される。自己相関係数{rl(t)|l=0,1,...K}への変換後、自己相関係数に対する次数低減が行われ、ASR特徴ベクトルを生成する目的で、低次自己相関係数{rl(t)|l=0,1,...10}がステップ320で抽出される。
次に低次自己相関係数r(t)は図3のステップ330で処理され、線形予測コード化係数
Figure 2006099124
に変換される。多くの場合、例えば、L.RabinerおよびB−H Juang、「音声認識の基礎」、Prentice−Hall、1993年で説明されている周知のレヴィンソン−ダービン再帰アルゴリズムを使用してこの後者の変換を行うことが好都合であることが判明している。次にステップ330からの出力であるLPC係数
Figure 2006099124
がステップ340でLPCケプストラム係数
Figure 2006099124
に変換される。こうしたLPCケプストラム係数は、当業技術分野で周知のように、都合のよいことに、ASR特徴ベクトルの基礎を提供する。通常の演算では、LPCケプストラム係数はステップ350で重みWc(m)によって重みを付けられ例示としての39パラメータのASR特徴集合
Figure 2006099124
である
Figure 2006099124
を形成するために使用されるが、ここで、△および△△は1次および2次差演算子であり、e、は0時自己相関係数r(t)から生成された正規化エネルギーである。
図4は、入力400で、特徴抽出器(例えば、図2の235および図3)から出力特徴ベクトル^cを受信する通常の音声認識システム(図2の240)を示す。図4の例示としてのASRシステムは、語彙記憶装置457に保存された語彙情報と共に使用される、図4の455によって表される部分語モデルを利用する。部分語モデルは音素状単位に基づき、通常話者から収集された訓練データを使用して構築される。部分語モデルは連結され、辞書または他の周知の情報源から提供された語のモデルを形成する。部分語単位が英語の音素の完全な集合に対応して選択される場合、その部分語モデルは英語の任意の語をモデル化できる。こうしたモデル化源の組合せは、語モデル構成ブロック450によって図4で示される。構成ブロック450によって提供された語モデルはその後、例えば、上記のRabinerおよびJuangの参照文献で説明されている周知の隠れマルコフ・モデル(HMM)技術によって処理される。図4に示される文法言語モデル460と意味論モデル465が使用され、このHMM処理で行われる探索を制約する。通常図2のASR特徴ベクトル抽出器235からのASR音声特徴ベクトル・シーケンスを使用する一方で、すべての知識源に基づくビタビ復号処理を使用することで、最上の語シーケンスが図4のシステムで得られる。
<音声コーダ・パラメータの相関係数への変換の例>
本節は、(図2の235のような)特徴抽出器で受信された音声コーダ・パラメータを、(図2の240および図4のような)ASRシステムに入力する特徴ベクトルを構成するために有益な相関係数に変換する、疑似コード・リストを含む処理の例を提示する。
上記で示したように、デジタル無線電気通信システムでの使用のために標準化された音声コード化アルゴリズムは、デジタル・サンプル化オーディオ波形上で動作する。サンプル化波形は離散的時間間隔(フレーム)で処理され、通信リンクの送信側の音声符号器は多数の演算を使用して、処理されるフレーム中のオーディオ波形を最もよく記述するパラメータの集合の値を判定する。こうしたパラメータは多くの場合表またはコードブックの形態で符号化され、空中インタフェースを通じて受信機に伝送される。受信機の音声デコーダは送信機の符号器と同じコードブックを有し、符号化パラメータを使用して一連の演算を行い、送信機で符号器に提示された原波形の近似を生成する。
デジタル無線通信システムで使用するために現在標準化されている音声コーダの多くは、符号励起線形予測(CELP)モデルに基づいている。こうしたコーダによって送信されるパラメータの中には、処理されるフレーム中のオーディオ波形のスペクトル・エンベロープを記述する値の集合が存在する。こうしたパラメータは、線形予測子係数(LPC)、反射係数、線スペクトル対(LSP)および線スペクトル周波数(LSF)を含む(がそれらに制限されない)多数の様々な方法で表される。こうしたパラメータが使用され、自動音声認識(ASR)システムへの入力として使用される相関係数を生成する。次の例は、この変換が、米国電気通信工業会(TIA)によってIS−127として北米で公開され、IX−95x互換符号分割多元接続(CDMA)通信システムで使用するために現在標準化されている、高度可変速コーダ(EVRC)用に達成される方法を示す。説明される技術はCELPモデルまたは何らかの形態の線形予測コード化(LPC)に基づいた任意の音声コード化アルゴリズムにも同様に適用可能である。
IS−127高度可変速コーダの特定の場合では、コード化アルゴリズムがデジタル・サンプル化オーディオ波形に20msec(フレーム)で作用し、処理されるフレームに関する波形を記述するパラメータの集合を生成および送信する。LSPコードは3つのコードブック索引の集合を含み、その各々が、音声符号器と音声復号器の両方によって維持される3つのLSPコードブックの1つに含まれるLSP値の特定の集合を特定する。こうしたLSPコードは10のLSPのベクトルに翻訳され、次にそれが復号器の合成フィルタで使用されるLPCに変換される。このLPCから開始される、相関係数を生成する処理は多数の方法で達成される。1つの方法は、まずLPCを反射係数(RC)に変換し、次にRCを自己相関係数(CC)に変換することである。
図5は、この例示としての処理で行われる関数のブロック図である。すなわち、入力LPCは501で受信され、LPC−RC関数ブロック510に印加される。入力LPCはまた、経路515を通じてRC−CC関数ブロックにも印加される。この後者の入力とブロック510の出力がブロック520で使用され、出力経路530上に望ましい相関係数を生成する。
LPC−RC変換の詳細が以下の疑似コード・セグメントで示される。
/*LPCの入力配列を処理用一時配列にコピーする*/
for(i=1;i<LPC_ORDER;i=i+1)

aa[i]=lpc[i];

/*LPCをRCに変換する*/
for(i=LPC_ORDER;i>0;i=i−1;)

tmp=1.0−aa[i]*aa[i];
for(j=0;j<i;j=j+1)

temp[j]=aa[i−j];

for(j=0;j<i;j=j+1)

aa[j]=(aa[j]−aa[I]*temp[j]/temp;
rc[i−1]=aa[i];

定数LPC_ORDERはIS−127音声コーダの場合、規格では10に等しいが、他の特定の値も必要に応じて使用できる。また、tmpは一時変数であり、tempは寸法LPC_ORDERの一時配列である。寸法LPC_ORDERの配列lpcはこの変換への入力であり、IS−127音声復号器によって計算されるLPCを含む。寸法LPC_ORDERの配列rcは変換の出力であり、RCを含む。
RCからCCへの変換が次の疑似コード・セグメントで示される。
/*LPCのダミー配列を作成する*/
dummy[0]=1.0;
for(i=1;i<=LPC_ORDER;i=i+1)
dummy[i]=lpc[i−1];
/*変換再帰を行う*/
dummy「1」=rc[0]
cc[0]=1.0;
cc[1]=−rc[0];
for(i=1;i<=LPC_ORDER−1;i=i+1)

dummy[i+1]=rc[i];
for(j=0;j<i/2;j=j+1)

tmp=dummy[j+1];
dummy[j+1]=dummy[j+1]+rc[i]*dummy[i−j];
dummy[i−j]=dummy[i−j]+rc[i]*tmp;

if(i modulo 2==1)/*iが奇数ならば*/
dummy[j+1]=dummy[j+1]+rc[i]*dummy「j+1」;
cc[i+1]=−rc[i];
for(j=0;j<=i−1;j=j+1)
cc[i+1]=cc[i+1]−dummy[j+1]*cc[i−j];
この例では、LPC_ORDERは、やはりその値がIS−127の場合、規格では10である定数であり、tmpは一時変数であり、dummyは寸法LPC_ORDER+1の一時配列である。この変換への入力は共に寸法LPC_ORDER+1の配列であるlpcとrcであり、それぞれLPCとRCを含む。この変換の出力は、やはり寸法LPC_ORDER+1の配列であるccであり、ASRシステムによって使用される相関係数を含む。
LPCはまずIS−127復号器によって生成されることに留意されたい。上記で記述されたCCを計算し出力する演算は、LPC計算後の中間地点で復号器に挿入されるので有利である。
上記で説明された実施形態は現在一般的に使用されるCELPによるコーダを強調しているが、こうした制限は本発明にとって本質的ではない。多様なコード化技術が、都合のよいことに、誤り保護(かつ他の高信頼性を有する)受信音声コード化パラメータを提供し、そこから、本開示で説明されるように、有益なASR特徴ベクトルが導出される。
図4に示される例示としてのASRシステムは特定のモデル化および処理ステップを利用するが、これらはどれも本発明の広範な態様にとって本質的ではない。他の特定の音声認識装置が当業技術分野に熟練した者によって利用され、適当な特徴情報が、上記で説明された方法およびその修正および拡張において受信信号から抽出されるが、これらは本開示に照らして当業技術分野に熟練した者には明らかだろう。
さらに、自動音声認識(ASR)処理が強調されたが、当業技術分野に熟練した者には、話者認識および認証もここで説明された本発明の原理を使用して行われることを理解することができるだろう。こうした追加または代替機能を利用する実施形態に関する本発明の内容の有益な適用および修正は当業技術分野で周知である。すなわち、例えば、特定の話者の認証のため、その話者の音声特性に関する情報が保存されるか、さもなければ利用される音声モデルで使用することができる。
特徴抽出および/またはASRユニットは、受信基地局、受信基地局に接続されたスイッチ(またはその第1スイッチを通じて接続された別のネットワーク・スイッチ)またはそうした要素が接続されるネットワークに接続された別の場所に位置しうる。デジタル・コード化ハンドセット信号は特徴抽出およびASR演算のために何れかの好都合な場所に伝えられる。場合によっては特徴抽出およびASR演算を別の場所で動作させると便利である。
すべて本発明の精神および範囲内にある、非常に多数の多様な用途および拡張が、当業技術分野に熟練した者には想起されるだろう。
ASRシステムが引き続いて使用するためにASRパラメータを基地局に伝送する2次デジタル・チャネルを使用する従来技術のシステムを示す図である。 本発明の例示としての単一チャネル実施形態のシステム全体の表示を示す図である。 基地局で受信されたコード化音声信号をASR特徴パラメータに変換する際役に立つ例示としての処理ステップを示す図である。 図4で示された例示としての処理のASR特徴パラメータに対して動作する例示としてのASRシステムを示す図である。 図3の例示としての処理の1つの態様によるLPC値の相関係数への変換を理解する際役に立つブロック図である。

Claims (22)

  1. 無線伝送チャネルから受信された信号の第1集合中のコード化音声信号として受信された音声を自動的に認識する方法であって、
    前記受信されたコード化音声信号のオーディオ音声信号へのいかなる変換処理からも独立して、前記受信されたコード化音声信号から複数の音声特徴信号を抽出するステップと、
    前記複数の音声特徴信号を音声認識システムに適用するステップとを含む方法。
  2. 請求項1に記載の方法において、前記受信された信号の前記第1集合がさらに、前記受信されたコード化音声信号の信頼性を改善する誤り保護信号を含む方法。
  3. 請求項1に記載の方法において、前記受信されたコード化音声信号が複数の受信されたコード化音声パラメータを含み、前記抽出するステップが、
    前記受信されたコード化音声パラメータの部分集合を選択するステップと、
    前記受信されたコード化音声パラメータの前記部分集合を前記複数の音声特徴信号に変換するステップとを含む方法。
  4. 請求項3に記載の方法において、前記受信されたコード化音声パラメータが前記音声に関する複数の受信されたコード化音声スペクトル・エンベロープ・パラメータを含み、前記受信されたコード化音声パラメータの部分集合を選択する前記ステップが、前記受信されたコード化音声スペクトル・エンベロープ・パラメータの部分集合を選択するステップを含む方法。
  5. 請求項4に記載の方法において、受信されたコード化音声スペクトル・エンベロープ・パラメータの前記部分集合が複数の反射係数を含む方法。
  6. 請求項4に記載の方法において、受信されたコード化音声スペクトル・エンベロープ・パラメータの前記部分集合が複数の線スペクトル対(LSP)を含む方法。
  7. 請求項4に記載の方法において、受信されたコード化音声スペクトル・エンベロープ・パラメータの前記部分集合が複数の線スペクトル周波数(LSF)を含む方法。
  8. 請求項4に記載の方法において、前記変換するステップがさらに、受信されたコード化音声スペクトル・エンベロープ・パラメータの前記部分集合から線形予測コード化(LPC)パラメータの集合を生成するステップを含む方法。
  9. 請求項8に記載の方法において、前記変換するステップが、さらに、LPCパラメータの前記集合をLPCケプストラム係数の対応する集合に変換するステップを含む方法。
  10. 請求項9に記載の方法において、前記変換するステップが、さらに、
    重み付きLPCケプストラム係数の集合を生成するためにLPCケプストラム係数の前記集合に重み付けするステップと、
    前記重み付きLPCケプストラム係数から前記複数の音声特徴信号を導出するステップとを含む方法。
  11. 請求項1に記載の方法において、前記抽出ステップおよび前記適用するステップが基地局で行われる方法。
  12. 信号の前記第1集合が基地局において受信され、前記抽出および適用のため第2ロケーションに転送される、請求項1に記載の方法。
  13. 無線伝送チャネルから受信された信号の第1集合中のコード化音声信号として受信された音声を自動的に認識するシステムであって、
    前記受信されたコード化音声信号のオーディオ音声信号へのいかなる変換処理からも独立して、前記受信されたコード化音声信号から複数の音声特徴信号を抽出する手段と、
    前記複数の音声特徴信号を音声認識システムに適用する手段とを備えるシステム。
  14. 請求項13に記載のシステムにおいて、さらに、
    前記受信されたコード化音声信号をオーディオ音声信号に変換する手段と、
    前記オーディオ音声信号をネットワークに接続する手段とを備えるシステム。
  15. 請求項13に記載のシステムにおいて、前記受信されたコード化音声信号が複数の受信されたコード化音声パラメータを含み、前記抽出する手段が、
    前記受信されたコード化音声パラメータの部分集合を選択する手段と、
    前記受信されたコード化音声パラメータの前記部分集合を前記複数の音声特徴信号に変換する手段とを備えるシステム。
  16. 請求項15に記載のシステムにおいて、前記受信されたコード化音声パラメータが前記音声に関する複数の受信されたコード化音声スペクトル・エンベロープ・パラメータを含み、前記受信されたコード化音声パラメータの部分集合を選択する前記手段が、前記受信されたコード化音声スペクトル・エンベロープ・パラメータの部分集合を選択する手段を備えるシステム。
  17. 請求項16に記載のシステムにおいて、前記受信されたコード化音声スペクトル・エンベロープ・パラメータの前記部分集合が、前記受信の前に誤り保護手段によって高度に保護されているために、高度な信頼性を有するパラメータであるシステム。
  18. 請求項13に記載のシステムにおいて、信号の前記第1集合が基地局において受信され、前記抽出する手段および前記適用する手段が前記基地局に位置するシステム。
  19. 請求項13に記載のシステムにおいて、信号の前記第1集合が基地局において受信され、前記システムがさらに信号の前記第1集合を前記抽出および適用のために第2ロケーションに転送する手段を備えるシステム。
  20. 無線伝送チャネルから信号の第1集合中のコード化音声信号として受信された音声の話者を自動的に認識するシステムであって、
    前記受信されたコード化音声信号のオーディオ音声信号へのいかなる変換処理からも独立して、前記受信されたコード化音声信号から複数の音声特徴信号を抽出する手段と、
    複数の話者に関する基準音声特徴信号を受信する手段と、
    前記複数の音声特徴信号と前記基準音声特徴信号を話者認識システムに適用する手段とを備えるシステム。
  21. 請求項20に記載のシステムにおいて、前記第1信号が基地局において受信され、前記抽出する手段および前記適用する手段が前記基地局に位置するシステム。
  22. 請求項20に記載のシステムにおいて、信号の前記第1集合が基地局において受信され、前記システムが、さらに、信号の前記第1集合を前記抽出および適用のため第2ロケーションに転送する手段を備えるシステム。
JP2005305803A 1998-11-30 2005-10-20 デジタル無線チャネル上の自動音声/話者認識 Pending JP2006099124A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/201,082 US6336090B1 (en) 1998-11-30 1998-11-30 Automatic speech/speaker recognition over digital wireless channels

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP11338928A Division JP2000187496A (ja) 1998-11-30 1999-11-30 デジタル無線チャネル上の自動音声/話者認識

Publications (1)

Publication Number Publication Date
JP2006099124A true JP2006099124A (ja) 2006-04-13

Family

ID=22744423

Family Applications (2)

Application Number Title Priority Date Filing Date
JP11338928A Withdrawn JP2000187496A (ja) 1998-11-30 1999-11-30 デジタル無線チャネル上の自動音声/話者認識
JP2005305803A Pending JP2006099124A (ja) 1998-11-30 2005-10-20 デジタル無線チャネル上の自動音声/話者認識

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP11338928A Withdrawn JP2000187496A (ja) 1998-11-30 1999-11-30 デジタル無線チャネル上の自動音声/話者認識

Country Status (7)

Country Link
US (1) US6336090B1 (ja)
EP (1) EP1006509B1 (ja)
JP (2) JP2000187496A (ja)
KR (1) KR100594670B1 (ja)
AU (1) AU5958599A (ja)
CA (1) CA2287025A1 (ja)
DE (1) DE69911723T2 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2357231B (en) 1999-10-01 2004-06-09 Ibm Method and system for encoding and decoding speech signals
US7330815B1 (en) 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6804640B1 (en) * 2000-02-29 2004-10-12 Nuance Communications Signal noise reduction using magnitude-domain spectral subtraction
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
DE60030702T2 (de) * 2000-06-30 2007-01-11 Alcatel Steuerung der Kapazität eines verteilten Spracherkennungssystems
US20020077814A1 (en) * 2000-12-18 2002-06-20 Harinath Garudadri Voice recognition system method and apparatus
US6487494B2 (en) * 2001-03-29 2002-11-26 Wingcast, Llc System and method for reducing the amount of repetitive data sent by a server to a client for vehicle navigation
USRE46109E1 (en) 2001-03-29 2016-08-16 Lg Electronics Inc. Vehicle navigation system and method
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
US20020143611A1 (en) * 2001-03-29 2002-10-03 Gilad Odinak Vehicle parking validation system and method
US7236777B2 (en) 2002-05-16 2007-06-26 Intellisist, Inc. System and method for dynamically configuring wireless network geographic coverage or service levels
US8175886B2 (en) 2001-03-29 2012-05-08 Intellisist, Inc. Determination of signal-processing approach based on signal destination characteristics
US20050065779A1 (en) * 2001-03-29 2005-03-24 Gilad Odinak Comprehensive multiple feature telematics system
US6587685B2 (en) * 2001-04-27 2003-07-01 Nokia Corporation Apparatus, and an associated method, by which to provide operation parameters to a mobile station
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
US8352248B2 (en) 2003-01-03 2013-01-08 Marvell International Ltd. Speech compression method and apparatus
FR2853127A1 (fr) * 2003-03-25 2004-10-01 France Telecom Systeme de reconnaissance de parole distribuee
US7386443B1 (en) * 2004-01-09 2008-06-10 At&T Corp. System and method for mobile automatic speech recognition
US8064580B1 (en) 2004-09-03 2011-11-22 Confinement Telephony Technology, Llc Telephony system and method with improved fraud control
US20070112571A1 (en) * 2005-11-11 2007-05-17 Murugappan Thirugnana Speech recognition at a mobile terminal
EP1860647B1 (en) * 2006-05-24 2009-12-23 Voice.Trust Ag Robust speaker recognition
JP2009146263A (ja) * 2007-12-17 2009-07-02 Panasonic Corp 本人認証システム
CN103037117B (zh) * 2011-09-29 2016-08-03 中国电信股份有限公司 语音识别方法、系统和语音接入平台
CN103442119A (zh) * 2013-08-16 2013-12-11 上海闻泰电子科技有限公司 在通话过程中自动提取信息的系统及方法
US9672831B2 (en) 2015-02-25 2017-06-06 International Business Machines Corporation Quality of experience for communication sessions
US11138334B1 (en) 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
US11398239B1 (en) 2019-03-31 2022-07-26 Medallia, Inc. ASR-enhanced speech compression

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05241590A (ja) * 1991-08-14 1993-09-21 Philips Gloeilampenfab:Nv 音声送信用装置
JPH06204983A (ja) * 1993-01-07 1994-07-22 Toshiba Corp 音声符号化の誤り制御方法
JPH0713593A (ja) * 1993-06-22 1995-01-17 Hitachi Ltd 音声処理システム
WO1997007498A1 (fr) * 1995-08-11 1997-02-27 Fujitsu Limited Unite de traitement des signaux vocaux
JPH10145249A (ja) * 1996-11-12 1998-05-29 Kokusai Electric Co Ltd 音声復号方式
JPH10282990A (ja) * 1997-04-04 1998-10-23 Sony Corp テキスト入力方法及び装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05241590A (ja) * 1991-08-14 1993-09-21 Philips Gloeilampenfab:Nv 音声送信用装置
JPH06204983A (ja) * 1993-01-07 1994-07-22 Toshiba Corp 音声符号化の誤り制御方法
JPH0713593A (ja) * 1993-06-22 1995-01-17 Hitachi Ltd 音声処理システム
WO1997007498A1 (fr) * 1995-08-11 1997-02-27 Fujitsu Limited Unite de traitement des signaux vocaux
JPH10145249A (ja) * 1996-11-12 1998-05-29 Kokusai Electric Co Ltd 音声復号方式
JPH10282990A (ja) * 1997-04-04 1998-10-23 Sony Corp テキスト入力方法及び装置

Also Published As

Publication number Publication date
EP1006509A1 (en) 2000-06-07
DE69911723T2 (de) 2004-08-12
KR20000062175A (ko) 2000-10-25
AU5958599A (en) 2000-06-01
EP1006509B1 (en) 2003-10-01
US6336090B1 (en) 2002-01-01
JP2000187496A (ja) 2000-07-04
KR100594670B1 (ko) 2006-07-03
DE69911723D1 (de) 2003-11-06
CA2287025A1 (en) 2000-05-30

Similar Documents

Publication Publication Date Title
KR100594670B1 (ko) 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템
US5995923A (en) Method and apparatus for improving the voice quality of tandemed vocoders
JP4927257B2 (ja) 可変レートスピーチ符号化
KR100574031B1 (ko) 음성합성방법및장치그리고음성대역확장방법및장치
JP4302978B2 (ja) 音声コーデックにおける擬似高帯域信号の推定システム
JPH07311598A (ja) 線形予測係数信号生成方法
JPH07311596A (ja) 線形予測係数信号生成方法
KR20040101575A (ko) 다중스트림 특징 프로세싱을 이용하는 분산형 음성인식시스템
JP2004501391A (ja) 可変レート音声符号器におけるフレーム消去補償方法
JPH10187197A (ja) 音声符号化方法及び該方法を実施する装置
KR100351484B1 (ko) 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법 및 기록 매체
JP2009541797A (ja) 種々の音声フレーム・レートの混合励振線形予測(melp)ボコーダ間でトランスコーディングするボコーダ及び関連した方法
EP1362345B1 (en) Method and apparatus for reducing undesired packet generation
US7142559B2 (en) Packet converting apparatus and method therefor
JPH07325594A (ja) 復号器において使用されるパラメータ信号アダプタの動作方法
JPH11259100A (ja) 励起ベクトルの符号化方法
JPH1097295A (ja) 音響信号符号化方法及び復号化方法
EP1020848A2 (en) Method for transmitting auxiliary information in a vocoder stream
EP1159738B1 (en) Speech synthesizer based on variable rate speech coding
JP2003157100A (ja) 音声通信方法及び装置、並びに音声通信プログラム
JPH09120300A (ja) ベクトル量子化装置
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
WO2001009880A1 (en) Multimode vselp speech coder
JPH11136133A (ja) ベクトル量子化法
GB2365297A (en) Data modem compatible with speech codecs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091104

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100204

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100705