JP2006099124A

JP2006099124A - デジタル無線チャネル上の自動音声／話者認識

Info

Publication number: JP2006099124A
Application number: JP2005305803A
Authority: JP
Inventors: Wu Chou; チョーウー; Michael Charles Recchione; チャールズレッチオンマイケル; Qiru Zhou; ゾーキル
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1998-11-30
Filing date: 2005-10-20
Publication date: 2006-04-13
Also published as: EP1006509A1; DE69911723T2; KR20000062175A; AU5958599A; EP1006509B1; US6336090B1; JP2000187496A; KR100594670B1; DE69911723D1; CA2287025A1

Abstract

【課題】無線の場合において有効かつ経済的にＡＳＲ能力を可能にするシステムと方法を提供する。
【解決手段】自動音声認識（ＡＳＲ）が無線通信システムで達成されるが、そこでは信頼性の高いＡＳＲ特徴ベクトル・シーケンスが、発呼ハンドセットでの追加処理または信号修正を必要とせず、デジタル伝送された音声コーダ・パラメータから直接基地局で導出される。ＡＳＲ特徴ベクトルの伝送のため２次チャネルを提供する必要はない。音声信号への変換の前に受信音声コーダ・パラメータ上で動作する際、本システムおよび方法は損失の多い変換処理と関連する音声歪みを回避する。受信音声パラメータは伝送中誤り保護されているので、それらは非常に正確に受信される。
【選択図】図２

Description

本発明は、自動音声／話者認識（ＡＳＲ）に関し、特に無線通信チャネル上のＡＳＲに関する。

自動音声／話者認識（ＡＳＲ）は、ハードウェア、モデル化および認識アルゴリズムの改善に伴って次第に普及している。電話および他の通信技術での利用は、ＡＳＲ技術の多くの重要な用途の中の１つである。例えば、ＡＳＲの使用は、有線回路上でディレクトリ支援、自動発呼および他の音声電話を提供する際有益であることが判明している。平行して開発される分野で、セルラー・システム、個人通信システム（ＰＣＳ）および他の無線システム（集合的に「無線」と呼ばれる）が急増し続けている。従って、有線システムで達成されたＡＳＲの改善を無線システムにも適用しようというのは当然である。

無線チャネル上のＡＳＲは、コード化、伝送（例えば、フェージングまたはパケット損失による）および復号化段で音声信号に導入される付加的雑音および歪みのため問題がある。無線環境で存在する雑音によって劣化した音声信号は原音声信号とかなり異なっていることが多く、標準ＡＳＲ技術を利用する場合、ＡＳＲ性能の劣化につながる。この問題は、デジタル無線チャネル上でインテリジェント・エージェント・サービスまたは大規模語彙音声認識サービスといったＡＳＲによる高度なサービスを創設しようとする際深刻になった。これまでのアプローチは主として雑音低減技術に焦点を合わせていたが、結果は理想からほど遠く、無線環境の種類が多い（例えば、ＴＤＭＡ、ＣＤＭＡ、ＧＳＭ等）ため適用範囲が制限されている。

最近の研究によって、ＡＳＲ目的の特徴ベクトルをハンドセットで抽出し、２次デジタル・チャネルを通じてデジタル的に送信することができれば、有線電話ネットワークと比較して、無線環境でのＡＳＲ性能の劣化がほとんどないことが発見された。通常の従来技術の二重チャネル・システムが図１に示される。

ここでは、セルラー・ハンドセット１０１が移動ユーザによって利用され、通常の音声を符号化し、関連コーダ・パラメータを含むコード化信号を１次（音声）チャネル１０５を通じてセルラー基地局１２０に伝送する。すると基地局１２０は受信したコード化信号を復号化し、公衆スイッチとそのネットワークへの出力によって表される公衆電話網（ＰＳＴＮ）または他の音声通信ネットワークによる通信に適した音声出力を発生する。図１はまた、セルラー・ハンドセット１０１で、ＡＳＲで使用されるＡＳＲパラメータに対応する信号の第２集合が発生することを示す。この信号の第２集合は第２デジタル・チャネル１１０を通じてセルラー基地局１２０に伝送され、そこでＡＳＲシステム１４０に転送される。

図１に示される種類のシステムの実験的使用によって、ハンドセットで抽出し無線ネットワークを通じて２次デジタル・リンクを使用するデジタル信号として送信できる標準ＡＳＲ特徴集合を生成することに対する関心が発生した。ＡＳＲ特徴ベクトル伝送のビット伝送速度はかなり低い（＜４Ｋｂ／ｓ）ので、ＩＳ−１３４のような新しい無線標準に包含するために提案されたもの等の２次デジタル・リンクを使用することが可能である。この２次チャネル・ソリューションは見込みがあるように見えるが、多数の重大な欠点を有している。すなわち、このアプローチは以下のものを必要とする。

１．通信プロトコルの新しい標準と大幅な変更。その場合、多くの現行無線通信標準との互換性がないため、既存の標準に準拠したネットワーク機器の修正または廃棄が必要になる。
２．ハンドセットから基地局にＡＳＲ特徴ベクトルを伝送する追加帯域幅。音声を伝送するための１次デジタル・チャネルと抽出されたＡＳＲ特徴ベクトルを伝送するための２次デジタル・チャネルを同期させることも重大な問題となる。
３．現行ハンドセットの大幅な変更。
４．二重チャネル・ソリューションの多様性。すなわち、現在の特定の無線標準またはフォーマット（ＣＤＭＡ、ＴＤＭＡ、ＧＳＭ、ＩＳ−９４、ＩＳ−１３４等）と関連する信号方式および変調スキームに依存しているため、すべての利用可能な標準に対する汎用ソリューションは非現実的である。
５．この技術に基づくサービスを導入するための高価な初期投資。

例示としての実施形態に関連して以下説明されるような無線の場合で有効かつ経済的にＡＳＲ能力を可能にするシステムと方法において、従来技術の制限が克服され技術的進歩が達成される。

すなわち、本発明の１つの態様によれば、信頼できるＡＳＲ特徴ベクトル・シーケンスが、デジタル的に伝送される音声コーダ・パラメータから直接、基地局（または他のネットワークまたはシステム・ユニット）で導出される。多くの用途では、ＡＳＲ機能が公衆スイッチまたはネットワークのどこかで行われる。このアプローチによって、新しいＡＳＲ特徴抽出器がハンドセットから受信された音声コーダ・パラメータに対して動作し、ハンドセットでの追加処理または信号修正を必要としない。すなわち、基地局で受信された音声コーダ・パラメータは現在のように音声信号を再生するためだけでなく、ＡＳＲ用の特徴ベクトル・シーケンスを生成するためにも使用される。

基地局の例示としてのＡＳＲ特徴ベクトル抽出器は、コーダ・パラメータを音声信号に変換する前にデジタル的に伝送された音声コーダ・パラメータに対して動作する際に、損失の多い変換処理と関連する音声歪みを回避する。本発明の実施形態を使用する際、ＡＳＲ特徴ベクトルは普通ハンドセットで抽出される音声コーダ・パラメータの同じ集合から導出されるので、無線ハンドセットを修正する必要はない。従って、既存のハンドセットが基地局のＡＳＲ特徴ベクトル抽出器のためのフロントエンドを提供する。

さらに、デジタル無線環境におけるハンドセットから基地局への接続は完全デジタルであり、基地局に伝えられるデータ信号の誤り保護が含まれる。従って、ハンドセットから基地局または他の場所にある本発明の特徴抽出器への伝送は、２次チャネル・スキームと同じデジタル伝送品質を有する。

音声コーダ・パラメータはＡＳＲ目的で必要な特徴ベクトルと大きく異なっているが、本発明は標準音声コーダ・パラメータに基づく音声特徴抽出器を実現する例示としての技術を提供する。さらに、本発明の別の態様によれば、（復号化）音声信号とＡＳＲ特徴ベクトルの完全な同期が、追加信号同期ビットなしに提供される。これが可能なのは、本発明の例示としての実施形態で開示されるように、音声信号とＡＳＲ特徴ベクトル信号が同じ音声コーダ・パラメータから生成されるからである。

概して、本発明は、２次チャネルと現行無線標準への大幅な変更の必要なしに、高度ＡＳＲのためのシステムと方法を提供する。基地局での変更、拡張および動作の違いも最小である。ＡＳＲ用のデジタル・チャネルが（ソフトウェアの修正によって）音声呼の第２宛先として創設されるので有利である。

代替実施形態は、受信基地局に（直接またはネットワーク接続を通じて）接続されたスイッチでＡＳＲ特徴抽出とＡＳＲ機能を行う。また別の実施形態では、基地局で送信ハンドセットから受信されたコード化音声信号が、端末または記憶システムを含むネットワーク・ロケーションに（復号音声信号を伴うかまたは伴わずに）転送される。

図２は、本発明の例示としてのシステム実施形態を示す。図２では、音声コーダ・パラメータを生成し、発話によるユーザ入力に応答して無線基地局２２０に伝送するハンドセット２０１が示される。伝送チャネル２０５上を送信されるコード化音声信号は、（同じ発話入力について）図２の無線システムの標準（非ＡＳＲ）使用での音声通信で使用されるコード化音声信号とあらゆる面で同一である。さらに、このコード化音声信号は図１のシステムで音声チャネル１０５上を伝送されるものと同じ種類である。図１のシステムのような、ＡＳＲ関連パラメータの集合を伝える２次デジタル・チャネルは必要ない。その代わり、無線基地局２２０では、受信コード化音声信号が、一方で無線システムの標準的な動作におけるように（かつ図１のシステムにおけるように）経路２２２上を提供され公衆スイッチ２３０に供給される。普通、ハンドセットでコード化された音声信号の復号化は、公衆スイッチ２３０のようなスイッチで達成されるが、音声信号へのこの復号化は基地局１２０または、スイッチ２３０と経路２３１を経由してＰＳＴＮ（または他の）ネットワークのどこかで行われる。

さらに、無線基地局２２０で受信されたコード化音声信号は、例示として、基地局２２０に配置されるＡＳＲ特徴抽出システム２３５およびＡＳＲシステム２４０に提供される。そこでは、復号化されて音声信号を生成する同じコード化表示が代わりに使用され、２４０のようなＡＳＲシステムが使用するＡＳＲ特徴抽出ユニット２３５でＡＳＲ特徴パラメータを抽出する。ハンドセット２０５から受信された音声コーダ・パラメータも、例示として、公衆スイッチ２３０へのリード線２２５に提供されるが、ここではそれらはスイッチ２３０またはネットワークのどこかの特徴抽出およびＡＳＲユニットへのデジタル信号として代替的（または付加的）に供給可能である。基地局２２０からＡＳＲ特徴抽出システム２３５、さらに、ＡＳＲシステム２４０への接続は用途によっては、標準音声経路を公衆スイッチ２３０に接続する際使用されるような独立したスイッチ接続として配置されることがあるので有利である。別の用途では、スイッチ２３０への同じ経路によってコード化パラメータを送信することが好都合であることが判明しているが、ここでは特徴抽出（およびＡＳＲ）は音声復号化に追加して行われる。

従って、基地局２２０は、本発明の原理の１つの通常の用途では、コード化音声パラメータを直接ＡＳＲ特徴抽出ユニット２３５およびＡＳＲシステム２４０に提供する。また、ＡＳＲ特徴抽出器２３５および／またはＡＳＲシステム２４０への経路がスイッチ２３０または認識された音声を利用する他の集中施設で維持されることもある。例えば、認識された音声は話者の認証、コマンドまたはテキスト応答システムへの他の入力のために使用される。こうした認識された音声の１つの用途は、例えば、話者と機械の対話のために、音声のテキスト・バージョンを応答システムに転送することであるが、音声認識の非常に多くの多様な他の用途が当業技術分野で周知である。ＡＳＲ特徴パラメータを生成する標準音声コード化信号の変換方法が以下より詳細に説明される。

デジタル無線環境の１つの有益な特性は、ユーザの音声が、ハンドセットでデジタルコーダ・パラメータのシーケンスに変換された後、無線媒体を通じての伝送中チャネル・コード化技術によって誤り保護されることである。このチャネル・コード化は、通常、伝送の異なった部分に不均等に適用される。すなわち、最も重要なコーダ・パラメータがより完全な保護を伴って伝送され、重要度の低いパラメータほど完全に保護される度合いが低いのが一般的である。最も重要なパラメータの中には信号の同期と音声信号のスペクトル形状に関するものがある。

次に、チャネル・フェージングと干渉によってある程度のコーダ・パラメータの損失が発生し、再生音声信号が歪められることがあるが、普通、最も重要なコーダ・パラメータは、チャネル・コード化の際それらに提供されたこの追加誤り保護のため保存されるということが言える。本発明の別の態様によれば、ＡＳＲ特徴ベクトル信号は、こうしたよりよく保護された音声コーダ・パラメータから抽出されるので有利である。その結果、ＡＳＲ特徴抽出のための情報は、普通、原音声コーダ・パラメータを保護するために使用されるチャネル・コード化スキームだけを使用してデジタル的に高い信頼性を伴って受信される。

本発明の別の態様によれば、ＡＳＲ特徴抽出は、変換して音声信号に戻される前の音声コーダ・パラメータから達成されるので有利である。この１つの理由は、変換された音声信号が復号化処理で歪められているということである。チャネル効果がない場合でも、復号化信号のセグメント信号対量子化雑音比（ＳＳＮＲ）は通常の無線環境では約２０ｄＢにすぎないことが多い。例えば、Ｂ．Ｓ．Ａｔａｌ、Ｖ．ＣｕｐｅｒｍａｎおよびＡ．Ｇｅｒｓｈｏ「音声コード化における進歩」ＫｌｕｗｅｒＡｃａｄｅｍｉｃＰｕｂｌｉｓｈｅｒを参照されたい。この後者の信号条件は、低ビット伝送速度の制約を満たそうとする際に、多くの特徴、例えば、励振信号が十分にコード化され表示されないために発生する。さらに、チャネル・フェージングと干渉によって、多くの音声コーダ・パラメータは音声信号に戻す高品質変換にとって信頼できないものになる。

ＡＳＲ特徴抽出の基礎としてコード化パラメータを使用することから得られるもう１つの利点は、変換された音声信号が、普通、合成音声信号であるということである。すなわち、変換された音声信号は音声コーダで使用される特定のコード化スキームに大きく依存する。最も重要なことだが、音声コーダからの合成音声は、普通、音声認識モデルを確立するために使用される人間の音声とはかなり異なっており、通常話者の音声の多くの特徴は合成処理で変更されるかまたは失われる。

上記から、デジタル伝送コーダ・パラメータを直接の基礎とするＡＳＲ特徴抽出器の設計と動作によって、本発明の例示としての実施形態における重要な利点が提供されることが明らかである。従って、例示としての本発明の設計は、信頼できるＡＳＲ特徴ベクトルを導出する元である現行の音声コーダ・パラメータからパラメータの集合を特定し選択するので有利である。例示としての特徴抽出器の設計がここで説明される。

無線環境で通常使用される音声コーダは多くの点で互いに異なっている。例えば、Ｒ．Ｓｔｅｅｌｅ、「個人通信用音声コーデック」、米国電気電子通信学会通信雑誌、１９９３年１１月、７６〜８３ページを参照されたい。しかし、最も広範に使用されているコーダの多くは、例えば、Ｊ．Ｆｌａｎａｇａｎ「音声の分析、合成および再生」Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇで説明されている合成による分析技術を使用している。さらに、こうしたコーダは通常、線形予測コード化（ＬＰＣ）分析を使用してウィンドウ化音声フレームのスペクトル形状を特徴付けている。こうしたＬＰＣによるコーダの例には周知のＣＥＬＰ技術のいくつかの変形が含まれる。

一般的に使用されるコーダは全体的にある程度類似しているが、様々な無線用のコーダには大きな相違があることが多い。例えば、分析フィルタＡ（ｚ）の次数と音声信号のパラメータ表示は、通常、コーダ毎に異なっている。すなわち、この分析フィルタは、通常、反射係数、対数面積比係数、線スペクトル対（ＬＳＰ）および線スペクトル周波数（ＬＳＦ）等を含むパラメータの様々な集合によって特徴付けられる。（自己相関係数は非常に誤りの影響を受けやすいので）それを直接伝送する音声コーダは存在しないが、無線環境で現行の音声コーダによって使用される分析フィルタのパラメータ表示はすべて周知の変換によって自己相関係数に変換される。例えば、Ｋ．Ｆｅｈｅｒ編「高度デジタル通信」Ｐｒｅｎｔｉｃｅ−Ｈａｌｌを参照されたい。自己相関係数への分析フィルタＡ（ｚ）に関連するコーダ・パラメータの変換は、提案される発明の例示としての実施形態で利用されるので有利である。

自己相関係数は、最も広範に使用されるＡＳＲ特徴パラメータであるＬＰＣケプストラム係数の導出元である顕著な情報を伝える。例えば、Ｌ．ＲａｂｉｎｅｒおよびＢ．−Ｈ．Ｊｕａｎｇ「音声認識の基礎」、Ｐｒｅｎｔｉｃｅ−Ｈａｌｌ、１９９３年を参照されたい。さらに、音声コーダにおけるＬＰＣ分析の次数は通常のＡＳＲで必要とされるＬＰＣ分析の次数より高いことが多い。これは、音声コード化では音声波形を正確に再生するためにスペクトル・エンベロープの形状を綿密にたどらなければならないからである。それと対照的に、ＡＳＲではスペクトル・エンベロープの小さな細部は価値が少ない。低次自己相関係数は常に、無線コーダの高次ＬＰＣ分析特性から得られる自己相関係数の一部であるので、常に音声コーダ・パラメータから抽出することができる。

図３は、本発明による例示としてのＡＳＲ特徴抽出器（図１の２３５等）で行われる演算を示す。図３に示されるように、コーダ・パラメータはハンドセットから基地局への伝送から検索され、図３で入力３００として印加される。こうした受信音声コーダ・パラメータは、通常、持続期間が各１０〜２０ｍｓｅｃの連続音声間隔に対する集合として提供される。コーダ・パラメータの受信された集合はまず、受信されたパラメータ値の大きな集合から分析フィルタに関連するパラメータを検索するよう処理される。

選択されたコーダ・パラメータ集合はさらにステップ３１０で、特徴抽出器で実現される適当な変換によって自己相関係数に変換される。ＩＳ−１２４ＣＤＭＡ無線標準の例について、１つの特定の例が以下示される。自己相関係数｛ｒｌ（ｔ）｜ｌ＝０，１，．．．Ｋ｝への変換後、自己相関係数に対する次数低減が行われ、ＡＳＲ特徴ベクトルを生成する目的で、低次自己相関係数｛ｒｌ（ｔ）｜ｌ＝０，１，．．．１０｝がステップ３２０で抽出される。

次に低次自己相関係数ｒ_１（ｔ）は図３のステップ３３０で処理され、線形予測コード化係数

に変換される。多くの場合、例えば、Ｌ．ＲａｂｉｎｅｒおよびＢ−ＨＪｕａｎｇ、「音声認識の基礎」、Ｐｒｅｎｔｉｃｅ−Ｈａｌｌ、１９９３年で説明されている周知のレヴィンソン−ダービン再帰アルゴリズムを使用してこの後者の変換を行うことが好都合であることが判明している。次にステップ３３０からの出力であるＬＰＣ係数

がステップ３４０でＬＰＣケプストラム係数

に変換される。こうしたＬＰＣケプストラム係数は、当業技術分野で周知のように、都合のよいことに、ＡＳＲ特徴ベクトルの基礎を提供する。通常の演算では、ＬＰＣケプストラム係数はステップ３５０で重みＷｃ（ｍ）によって重みを付けられ例示としての３９パラメータのＡＳＲ特徴集合

である

を形成するために使用されるが、ここで、△および△△は１次および２次差演算子であり、ｅ、は０時自己相関係数ｒ_０（ｔ）から生成された正規化エネルギーである。

図４は、入力４００で、特徴抽出器（例えば、図２の２３５および図３）から出力特徴ベクトル＾ｃを受信する通常の音声認識システム（図２の２４０）を示す。図４の例示としてのＡＳＲシステムは、語彙記憶装置４５７に保存された語彙情報と共に使用される、図４の４５５によって表される部分語モデルを利用する。部分語モデルは音素状単位に基づき、通常話者から収集された訓練データを使用して構築される。部分語モデルは連結され、辞書または他の周知の情報源から提供された語のモデルを形成する。部分語単位が英語の音素の完全な集合に対応して選択される場合、その部分語モデルは英語の任意の語をモデル化できる。こうしたモデル化源の組合せは、語モデル構成ブロック４５０によって図４で示される。構成ブロック４５０によって提供された語モデルはその後、例えば、上記のＲａｂｉｎｅｒおよびＪｕａｎｇの参照文献で説明されている周知の隠れマルコフ・モデル（ＨＭＭ）技術によって処理される。図４に示される文法言語モデル４６０と意味論モデル４６５が使用され、このＨＭＭ処理で行われる探索を制約する。通常図２のＡＳＲ特徴ベクトル抽出器２３５からのＡＳＲ音声特徴ベクトル・シーケンスを使用する一方で、すべての知識源に基づくビタビ復号処理を使用することで、最上の語シーケンスが図４のシステムで得られる。

＜音声コーダ・パラメータの相関係数への変換の例＞
本節は、（図２の２３５のような）特徴抽出器で受信された音声コーダ・パラメータを、（図２の２４０および図４のような）ＡＳＲシステムに入力する特徴ベクトルを構成するために有益な相関係数に変換する、疑似コード・リストを含む処理の例を提示する。

上記で示したように、デジタル無線電気通信システムでの使用のために標準化された音声コード化アルゴリズムは、デジタル・サンプル化オーディオ波形上で動作する。サンプル化波形は離散的時間間隔（フレーム）で処理され、通信リンクの送信側の音声符号器は多数の演算を使用して、処理されるフレーム中のオーディオ波形を最もよく記述するパラメータの集合の値を判定する。こうしたパラメータは多くの場合表またはコードブックの形態で符号化され、空中インタフェースを通じて受信機に伝送される。受信機の音声デコーダは送信機の符号器と同じコードブックを有し、符号化パラメータを使用して一連の演算を行い、送信機で符号器に提示された原波形の近似を生成する。

デジタル無線通信システムで使用するために現在標準化されている音声コーダの多くは、符号励起線形予測（ＣＥＬＰ）モデルに基づいている。こうしたコーダによって送信されるパラメータの中には、処理されるフレーム中のオーディオ波形のスペクトル・エンベロープを記述する値の集合が存在する。こうしたパラメータは、線形予測子係数（ＬＰＣ）、反射係数、線スペクトル対（ＬＳＰ）および線スペクトル周波数（ＬＳＦ）を含む（がそれらに制限されない）多数の様々な方法で表される。こうしたパラメータが使用され、自動音声認識（ＡＳＲ）システムへの入力として使用される相関係数を生成する。次の例は、この変換が、米国電気通信工業会（ＴＩＡ）によってＩＳ−１２７として北米で公開され、ＩＸ−９５ｘ互換符号分割多元接続（ＣＤＭＡ）通信システムで使用するために現在標準化されている、高度可変速コーダ（ＥＶＲＣ）用に達成される方法を示す。説明される技術はＣＥＬＰモデルまたは何らかの形態の線形予測コード化（ＬＰＣ）に基づいた任意の音声コード化アルゴリズムにも同様に適用可能である。

ＩＳ−１２７高度可変速コーダの特定の場合では、コード化アルゴリズムがデジタル・サンプル化オーディオ波形に２０ｍｓｅｃ（フレーム）で作用し、処理されるフレームに関する波形を記述するパラメータの集合を生成および送信する。ＬＳＰコードは３つのコードブック索引の集合を含み、その各々が、音声符号器と音声復号器の両方によって維持される３つのＬＳＰコードブックの１つに含まれるＬＳＰ値の特定の集合を特定する。こうしたＬＳＰコードは１０のＬＳＰのベクトルに翻訳され、次にそれが復号器の合成フィルタで使用されるＬＰＣに変換される。このＬＰＣから開始される、相関係数を生成する処理は多数の方法で達成される。１つの方法は、まずＬＰＣを反射係数（ＲＣ）に変換し、次にＲＣを自己相関係数（ＣＣ）に変換することである。

図５は、この例示としての処理で行われる関数のブロック図である。すなわち、入力ＬＰＣは５０１で受信され、ＬＰＣ−ＲＣ関数ブロック５１０に印加される。入力ＬＰＣはまた、経路５１５を通じてＲＣ−ＣＣ関数ブロックにも印加される。この後者の入力とブロック５１０の出力がブロック５２０で使用され、出力経路５３０上に望ましい相関係数を生成する。

ＬＰＣ−ＲＣ変換の詳細が以下の疑似コード・セグメントで示される。
／*ＬＰＣの入力配列を処理用一時配列にコピーする*／
ｆｏｒ（ｉ＝１；ｉ＜ＬＰＣ＿ＯＲＤＥＲ；ｉ＝ｉ＋１）
｛
ａａ［ｉ］＝ｌｐｃ［ｉ］；
｝
／*ＬＰＣをＲＣに変換する*／
ｆｏｒ（ｉ＝ＬＰＣ＿ＯＲＤＥＲ；ｉ＞０；ｉ＝ｉ−１；）
｛
ｔｍｐ＝１．０−ａａ［ｉ］*ａａ［ｉ］；
ｆｏｒ（ｊ＝０；ｊ＜ｉ；ｊ＝ｊ＋１）
｛
ｔｅｍｐ［ｊ］＝ａａ［ｉ−ｊ］；
｝
ｆｏｒ（ｊ＝０；ｊ＜ｉ；ｊ＝ｊ＋１）
｛
ａａ［ｊ］＝（ａａ［ｊ］−ａａ［Ｉ］*ｔｅｍｐ［ｊ］／ｔｅｍｐ；
ｒｃ［ｉ−１］＝ａａ［ｉ］；
｝
｝

定数ＬＰＣ＿ＯＲＤＥＲはＩＳ−１２７音声コーダの場合、規格では１０に等しいが、他の特定の値も必要に応じて使用できる。また、ｔｍｐは一時変数であり、ｔｅｍｐは寸法ＬＰＣ＿ＯＲＤＥＲの一時配列である。寸法ＬＰＣ＿ＯＲＤＥＲの配列ｌｐｃはこの変換への入力であり、ＩＳ−１２７音声復号器によって計算されるＬＰＣを含む。寸法ＬＰＣ＿ＯＲＤＥＲの配列ｒｃは変換の出力であり、ＲＣを含む。

ＲＣからＣＣへの変換が次の疑似コード・セグメントで示される。
／*ＬＰＣのダミー配列を作成する*／
ｄｕｍｍｙ［０］＝１．０；
ｆｏｒ（ｉ＝１；ｉ＜＝ＬＰＣ＿ＯＲＤＥＲ；ｉ＝ｉ＋１）
ｄｕｍｍｙ［ｉ］＝ｌｐｃ［ｉ−１］；
／*変換再帰を行う*／
ｄｕｍｍｙ「１」＝ｒｃ［０］
ｃｃ［０］＝１．０；
ｃｃ［１］＝−ｒｃ［０］；
ｆｏｒ（ｉ＝１；ｉ＜＝ＬＰＣ＿ＯＲＤＥＲ−１；ｉ＝ｉ＋１）
｛
ｄｕｍｍｙ［ｉ＋１］＝ｒｃ［ｉ］；
ｆｏｒ（ｊ＝０；ｊ＜ｉ／２；ｊ＝ｊ＋１）
｛
ｔｍｐ＝ｄｕｍｍｙ［ｊ＋１］；
ｄｕｍｍｙ［ｊ＋１］＝ｄｕｍｍｙ［ｊ＋１］＋ｒｃ［ｉ］*ｄｕｍｍｙ［ｉ−ｊ］；
ｄｕｍｍｙ［ｉ−ｊ］＝ｄｕｍｍｙ［ｉ−ｊ］＋ｒｃ［ｉ］*ｔｍｐ；
｝
ｉｆ（ｉｍｏｄｕｌｏ２＝＝１）／*ｉが奇数ならば*／
ｄｕｍｍｙ［ｊ＋１］＝ｄｕｍｍｙ［ｊ＋１］＋ｒｃ［ｉ］*ｄｕｍｍｙ「ｊ＋１」；
ｃｃ［ｉ＋１］＝−ｒｃ［ｉ］；
ｆｏｒ（ｊ＝０；ｊ＜＝ｉ−１；ｊ＝ｊ＋１）
ｃｃ［ｉ＋１］＝ｃｃ［ｉ＋１］−ｄｕｍｍｙ［ｊ＋１］*ｃｃ［ｉ−ｊ］；
｝

この例では、ＬＰＣ＿ＯＲＤＥＲは、やはりその値がＩＳ−１２７の場合、規格では１０である定数であり、ｔｍｐは一時変数であり、ｄｕｍｍｙは寸法ＬＰＣ＿ＯＲＤＥＲ＋１の一時配列である。この変換への入力は共に寸法ＬＰＣ＿ＯＲＤＥＲ＋１の配列であるｌｐｃとｒｃであり、それぞれＬＰＣとＲＣを含む。この変換の出力は、やはり寸法ＬＰＣ＿ＯＲＤＥＲ＋１の配列であるｃｃであり、ＡＳＲシステムによって使用される相関係数を含む。

ＬＰＣはまずＩＳ−１２７復号器によって生成されることに留意されたい。上記で記述されたＣＣを計算し出力する演算は、ＬＰＣ計算後の中間地点で復号器に挿入されるので有利である。

上記で説明された実施形態は現在一般的に使用されるＣＥＬＰによるコーダを強調しているが、こうした制限は本発明にとって本質的ではない。多様なコード化技術が、都合のよいことに、誤り保護（かつ他の高信頼性を有する）受信音声コード化パラメータを提供し、そこから、本開示で説明されるように、有益なＡＳＲ特徴ベクトルが導出される。

図４に示される例示としてのＡＳＲシステムは特定のモデル化および処理ステップを利用するが、これらはどれも本発明の広範な態様にとって本質的ではない。他の特定の音声認識装置が当業技術分野に熟練した者によって利用され、適当な特徴情報が、上記で説明された方法およびその修正および拡張において受信信号から抽出されるが、これらは本開示に照らして当業技術分野に熟練した者には明らかだろう。

さらに、自動音声認識（ＡＳＲ）処理が強調されたが、当業技術分野に熟練した者には、話者認識および認証もここで説明された本発明の原理を使用して行われることを理解することができるだろう。こうした追加または代替機能を利用する実施形態に関する本発明の内容の有益な適用および修正は当業技術分野で周知である。すなわち、例えば、特定の話者の認証のため、その話者の音声特性に関する情報が保存されるか、さもなければ利用される音声モデルで使用することができる。

特徴抽出および／またはＡＳＲユニットは、受信基地局、受信基地局に接続されたスイッチ（またはその第１スイッチを通じて接続された別のネットワーク・スイッチ）またはそうした要素が接続されるネットワークに接続された別の場所に位置しうる。デジタル・コード化ハンドセット信号は特徴抽出およびＡＳＲ演算のために何れかの好都合な場所に伝えられる。場合によっては特徴抽出およびＡＳＲ演算を別の場所で動作させると便利である。

すべて本発明の精神および範囲内にある、非常に多数の多様な用途および拡張が、当業技術分野に熟練した者には想起されるだろう。

ＡＳＲシステムが引き続いて使用するためにＡＳＲパラメータを基地局に伝送する２次デジタル・チャネルを使用する従来技術のシステムを示す図である。本発明の例示としての単一チャネル実施形態のシステム全体の表示を示す図である。基地局で受信されたコード化音声信号をＡＳＲ特徴パラメータに変換する際役に立つ例示としての処理ステップを示す図である。図４で示された例示としての処理のＡＳＲ特徴パラメータに対して動作する例示としてのＡＳＲシステムを示す図である。図３の例示としての処理の１つの態様によるＬＰＣ値の相関係数への変換を理解する際役に立つブロック図である。

Claims

無線伝送チャネルから受信された信号の第１集合中のコード化音声信号として受信された音声を自動的に認識する方法であって、
前記受信されたコード化音声信号のオーディオ音声信号へのいかなる変換処理からも独立して、前記受信されたコード化音声信号から複数の音声特徴信号を抽出するステップと、
前記複数の音声特徴信号を音声認識システムに適用するステップとを含む方法。
請求項１に記載の方法において、前記受信された信号の前記第１集合がさらに、前記受信されたコード化音声信号の信頼性を改善する誤り保護信号を含む方法。
請求項１に記載の方法において、前記受信されたコード化音声信号が複数の受信されたコード化音声パラメータを含み、前記抽出するステップが、
前記受信されたコード化音声パラメータの部分集合を選択するステップと、
前記受信されたコード化音声パラメータの前記部分集合を前記複数の音声特徴信号に変換するステップとを含む方法。
請求項３に記載の方法において、前記受信されたコード化音声パラメータが前記音声に関する複数の受信されたコード化音声スペクトル・エンベロープ・パラメータを含み、前記受信されたコード化音声パラメータの部分集合を選択する前記ステップが、前記受信されたコード化音声スペクトル・エンベロープ・パラメータの部分集合を選択するステップを含む方法。
請求項４に記載の方法において、受信されたコード化音声スペクトル・エンベロープ・パラメータの前記部分集合が複数の反射係数を含む方法。
請求項４に記載の方法において、受信されたコード化音声スペクトル・エンベロープ・パラメータの前記部分集合が複数の線スペクトル対（ＬＳＰ）を含む方法。
請求項４に記載の方法において、受信されたコード化音声スペクトル・エンベロープ・パラメータの前記部分集合が複数の線スペクトル周波数（ＬＳＦ）を含む方法。
請求項４に記載の方法において、前記変換するステップがさらに、受信されたコード化音声スペクトル・エンベロープ・パラメータの前記部分集合から線形予測コード化（ＬＰＣ）パラメータの集合を生成するステップを含む方法。
請求項８に記載の方法において、前記変換するステップが、さらに、ＬＰＣパラメータの前記集合をＬＰＣケプストラム係数の対応する集合に変換するステップを含む方法。
請求項９に記載の方法において、前記変換するステップが、さらに、
重み付きＬＰＣケプストラム係数の集合を生成するためにＬＰＣケプストラム係数の前記集合に重み付けするステップと、
前記重み付きＬＰＣケプストラム係数から前記複数の音声特徴信号を導出するステップとを含む方法。
請求項１に記載の方法において、前記抽出ステップおよび前記適用するステップが基地局で行われる方法。
信号の前記第１集合が基地局において受信され、前記抽出および適用のため第２ロケーションに転送される、請求項１に記載の方法。
無線伝送チャネルから受信された信号の第１集合中のコード化音声信号として受信された音声を自動的に認識するシステムであって、
前記受信されたコード化音声信号のオーディオ音声信号へのいかなる変換処理からも独立して、前記受信されたコード化音声信号から複数の音声特徴信号を抽出する手段と、
前記複数の音声特徴信号を音声認識システムに適用する手段とを備えるシステム。
請求項１３に記載のシステムにおいて、さらに、
前記受信されたコード化音声信号をオーディオ音声信号に変換する手段と、
前記オーディオ音声信号をネットワークに接続する手段とを備えるシステム。
請求項１３に記載のシステムにおいて、前記受信されたコード化音声信号が複数の受信されたコード化音声パラメータを含み、前記抽出する手段が、
前記受信されたコード化音声パラメータの部分集合を選択する手段と、
前記受信されたコード化音声パラメータの前記部分集合を前記複数の音声特徴信号に変換する手段とを備えるシステム。
請求項１５に記載のシステムにおいて、前記受信されたコード化音声パラメータが前記音声に関する複数の受信されたコード化音声スペクトル・エンベロープ・パラメータを含み、前記受信されたコード化音声パラメータの部分集合を選択する前記手段が、前記受信されたコード化音声スペクトル・エンベロープ・パラメータの部分集合を選択する手段を備えるシステム。
請求項１６に記載のシステムにおいて、前記受信されたコード化音声スペクトル・エンベロープ・パラメータの前記部分集合が、前記受信の前に誤り保護手段によって高度に保護されているために、高度な信頼性を有するパラメータであるシステム。
請求項１３に記載のシステムにおいて、信号の前記第１集合が基地局において受信され、前記抽出する手段および前記適用する手段が前記基地局に位置するシステム。
請求項１３に記載のシステムにおいて、信号の前記第１集合が基地局において受信され、前記システムがさらに信号の前記第１集合を前記抽出および適用のために第２ロケーションに転送する手段を備えるシステム。
無線伝送チャネルから信号の第１集合中のコード化音声信号として受信された音声の話者を自動的に認識するシステムであって、
前記受信されたコード化音声信号のオーディオ音声信号へのいかなる変換処理からも独立して、前記受信されたコード化音声信号から複数の音声特徴信号を抽出する手段と、
複数の話者に関する基準音声特徴信号を受信する手段と、
前記複数の音声特徴信号と前記基準音声特徴信号を話者認識システムに適用する手段とを備えるシステム。
請求項２０に記載のシステムにおいて、前記第１信号が基地局において受信され、前記抽出する手段および前記適用する手段が前記基地局に位置するシステム。
請求項２０に記載のシステムにおいて、信号の前記第１集合が基地局において受信され、前記システムが、さらに、信号の前記第１集合を前記抽出および適用のため第２ロケーションに転送する手段を備えるシステム。