JP2004536330A

JP2004536330A - 音響特性ベクトル変形を使用する分散型音声認識システム

Info

Publication number: JP2004536330A
Application number: JP2002565298A
Authority: JP
Inventors: チャン、チエンチャン; マラヤス、ナレン; ヤフソ、バイロン・ヨシオ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2001-01-31
Filing date: 2002-01-30
Publication date: 2004-12-02
Anticipated expiration: 2022-01-30
Also published as: HK1062738A1; EP1356453B1; JP4567290B2; JP4976432B2; JP2009151318A; US7024359B2; BR0206836A; WO2002065453A2; ATE407420T1; AU2002235513A1; DE60228682D1; EP1356453A2; WO2002065453A3; KR100879410B1; CN1284133C; CN1494712A; US20020103639A1; TW546633B; KR20040062433A

Abstract

【課題】音響特性ベクトル変形を使用する分散型音声認識システム
【解決手段】音声認識システムは、話し手に依存しない音響モデル（２３８）に対する音声認識パターンマッチングに先立ち、音響特性ベクトルに話し手に依存する変形関数を適用する。順応エンジン（２２４）は、話し手に依存する特性ベクトル変形関数ｆ()を選択するために、順応モデル（２２８）で音響特性ベクトルＸの組を整合させる。ｆ()は、その後、音響特性ベクトルｆ(Ｘ)の変形された組を形成するために、Ｘに適用される。そして、音声認識は、話し手に依存しない音響モデル（２３８）で変形された音響特性ベクトルｆ(Ｘ)を相関させることにより実行される。
【選択図】図２

Description

【技術分野】
【０００１】
本発明は、会話信号処理に係わる。さらに詳しくは、本発明は、音響特性ベクトル変形を使用する分散型音声認識の卓越した方法及び装置に係わる。
【背景技術】
【０００２】
音声認識は、ユーザの音声命令を認識するため、及び人間と装置とのインターフェースを容易にするために、シミュレートされた情報を装置に与えるための最も重要な技術の一つである。音響会話信号から言葉のメッセージに復元する技術を採用したシステムは、音声認識（ＶＲ）システムと呼ばれる。図１は、プリエンファシス(preemphasis)フィルタ１０２、音響特性抽出（ＡＦＥ）ユニット１０４、及びパターンマッチングエンジン(pattern matching engine)１１０を有する基本ＶＲシステムを示す。ＡＦＥユニット１０４は、デジタル音声サンプルの系列を音響特性ベクトルと呼ばれる測定値の組（例えば、抽出された周波数成分）に変換する。パターンマッチングエンジン１１０は、ＶＲ音響モデル１１２に含まれるパターンで音響特性ベクトルの系列を整合させる。ＶＲパターンマッチングエンジンは、一般に、この分野でよく知られているビタビ(Viterbi)復号技術を採用する。パターンの系列が音響モデル１１２から認識された場合、その系列は、入力発音に対応する言語学的な言葉の認識されたシーケンスのような、所望のフォーマットの出力になるように解析される。
音響モデル１１２は、種々の会話音及びそれに付随する統計的な分布情報から抽出された音響特性のデータベースとして説明される。これらの音響特性ベクトルは、音韻(phoneme)、トリホン(tri-phones)及びホールワード(whole-word)モデルのような短い会話セグメントに対応するパターンを作る。“トレーニング”は、音響モデル１１２においてパターンを生成するために、１若しくはそれ以上の話し手から特定の会話セグメント、若しくは音節の会話サンプルを集めるプロセスである。“テスチング”は、エンドユーザの会話サンプルから抽出した音響特性ベクトルの系列を音響モデル１１２の内容と相関させるプロセスである。所定のシステムの成果は、エンドユーザの会話とデータベースの内容との間の相関の程度に大きく依存する。
【０００３】
最も好ましくは、エンドユーザは、トレーニング及びテスチングの両方の期間、会話音響特性ベクトルを与え、その結果、音響モデル１１２は、エンドユーザの会話と強く整合する。しかしながら、音響モデル１１２は、一般に多数の会話節に対するパターンを表わさなければならないため、しばしば、大量のメモリを占有する。さらに、全ての可能な話し手から音響モデルを集めるために、必要な全てのデータを集めることは、実際的でない。それ故、多くの既存のＶＲシステムは、多くの代表的な話し手の会話を使用して集められた音響モデルを使用する。そのような音響モデルは、幅広い多くのユーザにわたり最善の成果を出すように設計されているが、いかなる個々のユーザに対しても最適化されない。そのような音響モデルを使用するＶＲシステムにおいて、特定のユーザの会話を認識する能力は、特定のユーザに最適化された音響モデルを使用するＶＲシステムのそれより劣るであろう。強い外国語なまりを持つユーザのようなあるユーザに関して、共有音響モデルを使用するＶＲシステムの性能は極めて悪く、ＶＲサービスを全く効果的に使用できない。
【０００４】
トレーニング及びテスト条件におけるミスマッチによリ生ずる認識性能の劣化を軽減するために、順応は効果的な方法である。テスチング環境と密接に整合させるために、順応は、テスチングの期間ＶＲ音響モデルを変形する。最大ゆう度直線回帰(maximum likelihood linear regression)及びベイズ順応(Bayesian adaptation)のような、いくつかの順応スキームは、この分野ではよく知られている。
【０００５】
会話認識業務の複雑性が増加するにつれ、ワイアレス機器において認識システム全体を収容することは、ますます困難になる。それゆえ、中央通信センタに置かれた共有音響モデルは、全ユーザに対して音響モデルを提供する。中央基地局は、計算に費用がかかる音響マッチングに関しても責任がある。分散型ＶＲシステムでは、音響モデルは、多くの話し手により共有され、そのため、いかなる個々の話し手に対しても最適化されない。そこで、この分野において、計算に要求されるリソースを最小にする一方で、複数の個々のユーザに対する改善された性能を有するＶＲシステムの必要性がある。
【発明の開示】
【課題を解決するための手段】
【０００６】
ここに開示された方法及び装置は、卓越した及び改善された分散型音声認識システムを指向するものである。前記音声認識システムでは、音声認識パターンマッチングに先立ち、話し手に依存する処理が、音響特性ベクトルを変換するために使用される。話し手に依存する処理は、話し手に基づいて変化するパラメータを有する変換関数、順応モデルを使用する中間パターンマッチング処理の結果、又は両者にしたがって実行される。話し手に依存する処理は、遠隔局において、若しくは通信センタにおいて、又は二つの組み合わせで行える。音声認識パターンマッチングに先立ち、音響特性ベクトルは、環境に依存する処理を使用しても変換できる。音響特性ベクトルは、操業の音響環境（周囲ノイズ、マイクロホンの周波数応答等）における変化に順応するために変形される。環境に依存する処理は、遠隔局において、若しくは通信センタにおいて、又は二つの組み合わせで行える。
【０００７】
用語“イグゼンプラリ(exemplary)”は、ここでは“例、実例、若しくは例証として使われる”という意味で使用される。“イグゼンプラリ実施例”として説明されるいかなる実施例も、他の実施例に対して好ましい若しくは優位であると解釈される必要性はない。
【発明を実施するための最良の形態】
【０００８】
ここに開示された方法及び装置の特徴、目的、及び利点は、添付した図面とともに以下に行われる詳細な説明から、より明らかにされるであろう。図面において、参照文字は一貫して同一のものに対応する。
【０００９】
標準音声認識装置(recognizer)では、認識若しくはトレーニングのいずれかにおいて、コンピュータ処理上の複雑性の大部分は、音声認識装置のパターンマッチングサブシステムに集中している。ワイアレスシステムの背景に関連して、音声認識の適用によって使われるオーバージエア(over-the air)バンド幅を最小にするための分散型システムとして、音声認識装置は導入される。さらに、分散型ＶＲシステムは、ボコーダ(vocoder)を使用することでしばしば起きるような、音声データの無駄なソースコーデングを生じさせる性能の劣化を避ける。このような分散型構成は、米国特許番号No. 5,956,683、題名“分散型音声認識システム”に詳細に記載されている。これは、本発明の譲受人に譲渡されており、‘６８３特許としてここに引用されている。
【００１０】
デジタルワイアレス電話システムのような、イグゼンプラリワイアレス通信システムにおいて、ユーザの音声信号は、携帯電話若しくは遠隔局のマイクロホンを通して受信される。アナログ音声信号は、それから、デジタルサンプルストリーム、例えば、毎秒８０００８−ビット会話サンプル、を生成するためにデジタルサンプルされる。ワイアレスチャネルを通して直接会話サンプルを送ることは、極めて非効率的である。それゆえ、情報は、送信する前に普通は圧縮される。ボコーデングと呼ばれる技術を介して、ボコーダは、会話サンプルのストリームをさらに小さな系列のボコーダパケットに圧縮する。そして、小さなボコーダパケットは、音声を表わす会話サンプルの代わりにワイアレスチャネルを通して送られる。そして、ボコーダパケットは、ワイアレス基地局により受信され、会話サンプルのストリームを生成するためにデボコードされる。そして、スピーカを通して聞き手に示される。
【００１１】
ボコーダの主目的は、デボコードした際に聞き手が会話を理解できるように保ちつつ、話し手の会話サンプルをできる限り圧縮することである。ボコーダアルゴリズムは、典型的にはロスのある圧縮アルゴリズムであり、その結果、デボコードされた会話サンプルは、最初にボココードされたサンプルと厳密には整合しない。その上、１若しくはそれ以上のボコーダパケットがワイアレスチャネルを介した送信において失われたとしても、理解できるデボコードされた会話を生成するために、ボコーダアルゴリズムは、しばしば最適化される。この最適化は、ボコーダに入力された会話サンプルとデボコーデングの結果との間のミスマッチをさらに引き起こす。ボコーデング及びデボコーデングに起因する会話サンプルの変更は、一般に音声認識アルゴリズムの性能を劣化させる。その劣化の程度は、異なるボコーダアルゴリズムの間で大きく変化する。
【００１２】
‘６８３特許に記述されているシステムでは、遠隔局は、音響特性抽出を実行し、ボコーダパケットの代わりに音響特性ベクトルを基地局にワイアレスチャネル上で送る。音響特性ベクトルがボコーダパケットより少ないバンド幅しか占有しないため、音響特性ベクトルは、通信チャネルエラーからの保護を追加して（例えば、順方向エラー訂正（ＦＥＣ）技術を使用して）、同一のワイアレスチャネルを通して送信できる。特性ベクトルが、後で述べるように話し手に依存する特性ベクトル変形関数を使用してさらに最適化される場合、ＶＲ性能は、‘６８３特許に記載されている基本的なシステムの性能を超えていても、実現される。
【００１３】
図２は、イグゼンプラリ実施例にしたがった分散型ＶＲシステムを示す。音響特性抽出（ＡＦＥ）は、遠隔局２０２の中で生じ、音響特性ベクトルは、ワイアレスチャネル２０６を通して基地局及びＶＲ通信センタ２０４に送信される。ここに述べられている技術は、ワイアレスチャネルを含まないＶＲシステムにも同様に適用できることを、本技術分野に知識のある者は、理解するであろう。
【００１４】
示された実施例では、ユーザからの音声信号は、マイクロホン（ＭＩＣ）２１０で電気的信号に変換され、アナログ−デジタル変換機（ＡＤＣ）２１２でデジタル会話サンプルに変換される。デジタルサンプルストリームは、それからプリエンファシス（ＰＥ）フィルタ２１４、例えば、低周波数信号成分を弱めるフィニットインパルス応答(finite impulse response)（ＦＩＲ）フィルタ、を使用してフィルタされる。
【００１５】
フィルタされたサンプルは、その後、ＡＦＥユニット２１６で解析される。ＡＦＥユニット２１６は、デジタル音声サンプルを音響特性ベクトルに変換する。あるイグゼンプラリ実施例では、ＡＦＥユニット２１６は、異なる周波数ビンに対応した信号強度のベクトルを生成するために、連続したデジタルサンプルのセグメントにフーリエ変換を実施する。あるイグゼンプラリ実施例では、周波数ビンは、バークスケール(bark scale)にしたがって、変化するバンド幅を有する。バークスケールでは、各周波数ビンのバンド幅は、高周波数ビンが低周波数ビンより広い周波数幅を持つように、ビンの中心周波数にある関係を持っている。バークスケールは、ラビナーＬ．Ｒ．及びジュアングＢ．Ｈ．著、会話認識の基礎、プレンチスホール、１９９３に記載されており、本技術分野ではよく知られている。
【００１６】
あるイグゼンプラリ実施例では、各音響特性ベクトルは、一定時間間隔で集められた会話サンプルの系列から抽出される。あるイグゼンプラリ実施例では、これらの時間間隔は重なる。例えば、２つの連続する間隔のそれぞれが１０ミリ秒の区分を共有するように、音響特性は、１０ミリ秒毎に始まる２０ミリ秒間隔の会話データから得られる。ここに記載された実施例から逸脱しない範囲で、時間間隔が重ならないようにする、若しくは一定でない期間にできることを、この技術分野に知識のある者は、理解できるであろう。
【００１７】
ＡＦＥユニット２１６により生成された各音響特性ベクトル（図２で、Ｘと識別される）は、順応エンジン(adaptation engine)２２４に与えられる。順応エンジンは、順応モデル２２８の内容に基づいて音響特性ベクトルを特徴付けるためにパターンマッチングを実行する。パターンマッチングの結果に基づいて、順応エンジン２２４は、メモリ２２７から特性ベクトル変形関数ｆ()の組の一つを選択し、変形された音響特性ベクトルｆ(Ｘ)を生成するために使用する。
【００１８】
Ｘは、ここでは単一の音響特性ベクトル、若しくは連続する音響特性ベクトルの系列のどちらかを記述するために使用される。同様に、ｆ(Ｘ)は、単一の変形された音響特性ベクトル、若しくは連続する変形された音響特性ベクトルの系列のどちらかを記述するために使用される。
【００１９】
あるイグゼンプラリ実施例では、図２に示されるように、その後、変形されたベクトルｆ(Ｘ)は、ワイアレスモデム２１８で変調され、ワイアレスチャネル２０６を通して送信され、通信センタ２０４内のワイアレスモデム２３０で復調され、中央ＶＲエンジン２３４により中央音響モデル２３８に対して整合される。ワイアレスモデム２１８，２３０及びワイアレスチャネル２０６は、ＣＤＭＡ，ＴＤＭＡ，若しくはＦＤＭＡを含む各種のワイアレスインターフェースのいずれかを使用できる。さらに、ワイアレスモデム２１８，２３０は、他のタイプの通信インターフェースと置き換えられる。他のタイプの通信インターフェースは、説明された実施例の範囲から逸脱しないでワイアレスでないチャネルを通して通信する。例えば、遠隔局２０２は、ランドラインモデム(land-line modem)、Ｔ１／Ｅ１、ＩＳＤＮ、ＤＳＬ、イサーネット、若しくはプリント回路基板（ＰＣＢ）のトレースをも含む各種タイプの通信チャネルのいずれかを通して通信センタと通信する。
【００２０】
あるイグゼンプラリ実施例では、ベクトル変形関数ｆ()は、特定のユーザ若しくは話し手に対して最適化され、中央音響モデル２３８に対して整合された場合、会話が正確に認識される確率を最大にするように設計される。中央音響モデルは、複数のユーザ間で共有される。遠隔局２０２中の順応モデル２２８は、中央音響モデル２３８よりかなり小さく、特定ユーザに対して最適化された個別の順応モデル２２８を維持できるようにする。１若しくはそれ以上の話し手に対する特性ベクトル変形関数ｆ()のパラメータも、遠隔局２０２のメモリ２２７に記憶できるように十分に小さい。
【００２１】
他の実施例では、環境に依存するベクトル変形関数に関するパラメータの追加の組も、メモリ２２７に記憶される。環境に依存するベクトル変形関数の選択及び最適化は、本質的にはより総体的であり、一般に各通話の間に実施できる。非常に単純な環境に依存する特性ベクトル変形関数の一例は、雑音の多い環境に順応するために各音響特性ベクトルの各要素に一定の利得ｋを適用している。
【００２２】
ベクトル変形関数ｆ()は、各種形態のいずれかを持つことができる。例えば、ベクトル変形関数ｆ()は、ＡＸ＋ｂの形式の擬似変換であってよい。あるいは、ベクトル変形関数ｆ()は、初期化され、その後、連続する音響特性ベクトルの組に適用されたフィニットインパルス応答（ＦＩＲ）フィルタの組であってよい。ベクトル変形関数ｆ()の他の形式は、本技術分野に知識のある者には明らかであろうし、ここに記述した実施例の範囲内にある。
【００２３】
あるイグゼンプラリ実施例では、ベクトル変形関数ｆ()は、連続する音響特性ベクトルの組に基づいて選択される。例えば、順応エンジン２２４は、音響特性ベクトルのストリームと順応モデル２２８中の複数の会話パターンとの間の相関の程度を決めるために、ビタビデコーデング若しくはトレリス(trellis)デコーデング技術を適用できる。一旦、高い相関の程度が検出されると、ベクトル変形関数ｆ()は、検出されたパターンに基づいて選択され、音響特性ベクトルのストリームの中から対応するセグメントに適用される。このアプローチは、各音響特性ベクトルに適用されるべきｆ()を選択する前に、順応エンジン２２４が音響特性ベクトルの系列を記憶し、順応モデル２２８に対する系列のパターンマッチングを実行することが必要である。あるイグゼンプラリ実施例では、順応エンジンは、未変形の音響特性ベクトルのエラスチックバッファ(elastic buffer)を維持する。そして、送信する前に、選択されたｆ()をエラスチックバッファの内容に適用する。エラスチックバッファの内容は、順応モデル２２８中のパターンと比較される。そして、エラスチックバッファの内容と最大の相関の程度を有するパターンに関して、最大相関メトリック(maximum correlation metric)が生成される。最大相関は、１若しくはそれ以上のしきい値に対して比較される。最大相関が検出しきい値を超えるならば、最大相関に連携したパターンに対応するｆ()が、バッファ中の音響特性ベクトルに適用され、送信される。最大相関が検出しきい値を超す前にエラスチックバッファが一杯になれば、エラスチックバッファの内容は、変形しないで送信される、若しくは、デフォールトｆ()を使用して代わりに変形される。
【００２４】
ｆ()の話し手に依存した最適化は、多くの方法のいずれかにより達成できる。第１のイグゼンプラリ実施例では、制御プロセッサ２２２は、ユーザの会話と多数の言葉にわたる順応モデル２２８との間の相関の程度をモニタする。ｆ()の変化がＶＲ性能を改善するであろうと制御プロセッサ２２２が決める場合、制御プロセッサ２２２は、ｆ()のパラメータを変形し、メモリ２２７に新しいパラメータを記憶する。あるいは、制御プロセッサ２２２は、ＶＲ性能を改善するために直接順応モデル２２８を変形できる。
【００２５】
図２に示されたように、遠隔局２０２は、個別のＶＲエンジン２２０及び遠隔局音響モデル２２６を付加的に含むことができる。メモリ容量の制限から、ワイアレス電話のような遠隔局２０２における遠隔局音響モデル２２６は、一般に小さいはずであり、それゆえ少数の句若しくは音素に制限される。一方、遠隔局音響モデル２２６が、少数のユーザにより使用される遠隔局に含まれているため、遠隔局音響モデル２２６は、ＶＲ性能を改善するために１若しくはそれ以上の特定ユーザに最適化されることができる。例えば、“コール”及び各１０の数字(ten digits)のような言葉に対する会話パターンは、ワイアレス電話の所有者に整合される。そのようなローカルな遠隔局音響モデル２２６は、遠隔局２０２が言葉の小さな組に対して非常によいＶＲ性能を有することを可能にする。さらに、遠隔局音響モデル２２６は、通信センタ２０４にワイアレスリンクを確立しなくとも、遠隔局２０２がＶＲを達成することを可能にする。
【００２６】
ｆ()の最適化は、管理された若しくは管理されない学習のいずれかを通して起きる。管理された学習は、所定の単語若しくは文章をユーザが発音することで生じるトレーニングを、一般に指す。所定の単語若しくは文章は、遠隔局音響モデルを正確に最適化するために使用される。ＶＲシステムは、入力として使用された単語若しくは文章のプリオリ(priori)知識を有するため、所定の単語若しくは文章を認識するために管理された学習期間中ＶＲを実行する必要がない。管理された学習は、特定ユーザに対する音響モデルを生成する最も正確な方法であると一般に考えられている。管理された学習の一例は、遠隔局２０２の遠隔局音響モデル２２６の中に１０の数字に関する会話をユーザが最初にプログラムする場合である。遠隔局２０２が、話された数字に対応する会話パターンのプリオリ知識を有するため、遠隔局音響モデル２２６は、ＶＲ性能を劣化させる小さいリスクで個別ユーザに整合される。
【００２７】
管理された学習とは対照的に、管理されない学習は、発音された会話パターン若しくは単語のプリオリ知識を持つＶＲシステムなしで生じる。発音が誤った会話パターンとマッチングするというリスクのため、管理されない学習に基づいた遠隔局音響モデルの変形は、非常に慎重なやり方で行われなければならない。例えば、多くの過去の発音は、互いに似ており、そして他の会話パターンより音響モデルの中のある会話パターンにより近いものを、発生したであろう。これらの全ての過去の発音が、モデル中のある会話パターンと正確に合っているならば、音響モデル中のその会話パターンは、同様の発音の組にさらによく整合させるように変形されるであろう。しかし、それらの過去の発音の多くが、モデル中のある会話パターンに対応しなければ、その会話パターンを変形することは、ＶＲ性能を劣化させるであろう。好ましくは、ＶＲシステムは、過去のパターンマッチングの精度に関してユーザからのフィードバックを集められる。しかし、このようなフィードバックは、頻繁には利用できない。
【００２８】
あいにく、管理された学習は、ユーザにとって長たらしくたいくつであり、多数の会話パターンを持つ音響モデルを生成することを非現実的にしている。しかし、管理された学習は、ベクトル変形関数ｆ()の組を最適化する際に、若しくは順応モデル２２８においてさらに制限された会話パターンを最適化する際にさえ、まだ有効である。ユーザの強いなまりによって生じる会話パターンの差異は、管理された学習が必要とされる応用の一例である。音響特性ベクトルは、なまりを補正するために大きな変形を必要とするため、その変形において正確さに対する必要性が、大きい。
【００２９】
管理されない学習は、最適化がＶＲエラーの直接原因になりにくいと思われる特定ユーザに対するベクトル変形関数ｆ()を最適化するためにも使用できる。例えば、普通より長い音声トラクト長さ(vocal tract length)若しくは平均音声ピッチを有する話し手に順応するために必要なベクトル変形関数ｆ()の調整は、なまりを補正するために要求される調整より、本質的により全体的である。そのような全体的なベクトル変形における大きな不正確さは、ＶＲ有効性に強く影響を与えずにできる。
【００３０】
一般に、順応エンジン２２４は、小さな順応モデル２２８をベクトル変形関数ｆ()を選択するためにだけ使用し、全体のＶＲを実行するためには使用しない。サイズが小さいために、順応モデル２２８は、順応モデル２２８若しくはベクトル変形関数ｆ()のいずれかを最適化するためのトレーニングを実行するためには、同様に適さない。順応モデル２２８若しくはベクトル変形関数ｆ()の調整は、順応モデル２２８に対する話し手の音声データのマッチングの程度を改善するために現れる。その順応モデル２２８若しくはベクトル変形関数ｆ()の調整は、大きな中央音響モデル２３８に対するマッチングの程度を実際に劣化させる。中央音響モデル２３８は、実際にＶＲに使用されるものであるため、そのような調整は、最適化というよりむしろ誤りであろう。
【００３１】
あるイグゼンプラリ実施例では、遠隔局２０２及び通信センタ２０４は、順応モデル２２８若しくはベクトル変形関数ｆ()のいずれかを変形するために管理されない学習を使用する際に協力する。順応モデル２２８若しくはベクトル変形関数ｆ()のいずれかを変形するか否かの決定は、中央音響モデル２３８に対して改善されたマッチングに基づいて行われる。例えば、遠隔局２０２は、通信センタ２０４に、音響特性ベクトル、未変形の音響特性ベクトルＸ及び変形された音響特性ベクトルｆ(Ｘ)の複数の組を送ることができる。あるいは、遠隔局２０２は、変形された音響特性ベクトルｆ_１(Ｘ)及びｆ_２(Ｘ)を送ることができる。ここで、ｆ_２()は、仮の改善された特性ベクトル変形関数である。他の実施例では、遠隔局２０２は、Ｘ及び特性ベクトル変形関数ｆ_１()及びｆ_２()両者に関するパラメータを送る。遠隔局２０２は、通信センタ２０４に情報の第２の組を送ることが固定時間間隔基づいてできるか否かの、複数の組の決定を送ることができる。
【００３２】
変形された音響特性ベクトル若しくは特性ベクトル変形関数に関するパラメータのいずれかの、音響特性情報の複数の組を受信すると、通信センタ２０４は、自身のＶＲエンジン２３４及び中央音響モデル２３８を使用して結果としての変形された音響特性ベクトルのマッチングの程度を評価する。通信センタ２０４は、それから、変更がＶＲ性能の改善をもたらすか否かを指示する情報を、遠隔局２０２に送り返す。例えば、通信センタ２０４は、音響特性ベクトルの各組に関する会話パターン相関メトリックを遠隔局２０２に送る。音響特性ベクトルの各組に関する会話パターン相関メトリックは、音響特性ベクトルの組と中央音響モデル２３８の内容との間の相関の程度を示す。２つの組のベクトルの間の相対的な相関の程度に基づいて、遠隔局２０２は、その順応モデル２２８を調整できる、又は１若しくはそれ以上の特性ベクトル変形関数ｆ()を調整できる。遠隔局２０２は、実際の言葉の認識に対して使われるどちらのベクトルの組を使用するかを特定できる。若しくは、通信センタ２０４は、その相関メトリックスに基づいてベクトルの組を選択できる。代わりの実施例では、遠隔局２０２は、通信センタ２０４から結果としての相関メトリックスを受信した後、ＶＲに関して使用される音響特性ベクトルの組を同定する。
【００３３】
代わりの実施例では、遠隔局２０２は、特性ベクトル変形関数ｆ()を認識するためにローカルな順応エンジン２２４及び順応モデル２２８を使用し、通信センタ２０４にｆ()とともに未変形の音響特性ベクトルＸを送る。それから通信センタ２０４は、ｆ()をＸに適用し、変形した及び未変形のベクトルの両方を使用してテスチングを実行する。その後、遠隔局２０２によって特性ベクトル変形関数のより正確な調整ができるように、通信センタ２０４は、遠隔局２０２にテスチングの結果を送り返す。
【００３４】
他の実施例では、順応エンジン２２４及び順応モデル２２８は、遠隔局２０２の代わりに通信センタ２０４に取り込まれる。通信センタ２０４内の制御プロセッサ２３２は、モデム２３０を通して未変形の音響特性ベクトルのストリームを受信し、通信センタ２０４内の順応エンジン及び順応モデルにそれらを与える。この中間パターンマッチングの結果に基づいて、制御プロセッサ２３２は、通信センタメモリ２３６に記憶されているデータベースから特性ベクトル変形関数ｆ()を選択する。あるイグゼンプラリ実施例では、通信センタメモリ２３６は、特定のユーザに対応する特性ベクトル変形関数ｆ()の組を含む。これは、前記の遠隔局２０２に記憶されている特性ベクトル変形関数情報に追加される、若しくは代わりのいずれかである。通信センタ２０４は、特性ベクトルが抽出された音声データを提供している個々の話し手を認識するために、各種のタイプの話し手認識情報のいずれもが使用できる。例えば、特性ベクトル変形関数の組を選択するために使用された話し手認識情報は、ワイアレスチャネル２０６の反対側の一端におけるワイアレス電話の移動認識数（ＭＩＮ）でありうる。あるいは、ユーザは、ＶＲサービスを向上させる目的で自身を認識するためにパスワードを登録できる。さらに、環境に依存する特性ベクトル変形関数は、会話データの観測に基づいたワイアレス電話の通話の間に順応でき、適用できる。他の多くの方法も、ここで述べられた実施例の範囲から逸脱しないで、話し手に依存するベクトル変形関数の組を選択するために使用できる。
【００３５】
本技術分野において知識のある者は、遠隔局２０２の中の複数のパターンマッチングエンジン２２０，２２４が、ここに記述した範囲から逸脱しないで統合できることも、理解するであろう。しかも、遠隔局２０２中の異なる音響モデル２２６，２２８は、同様に統合できる。さらに、１若しくはそれ以上の音響モデル２２０，２２４は、遠隔局２０２の制御プロセッサ２２２に取り込むことができる。１若しくはそれ以上の音響モデル２２６，２２８も、制御プロセッサ２２２により使用されるメモリ２２７の中に含めることができる。
【００３６】
通信センタ２０４において、中央会話パターンマッチングエンジン２３４は、ここに記述した範囲から逸脱しないで、もし存在するならば、順応エンジン（図示しない）と統合されることができる。しかも、中央音響モデル２３８は、順応モデル（図示しない）と統合されることができる。さらに、もし通信センタ２０４中に存在するならば、中央会話パターンマッチングエンジン２３４及び順応エンジン（図示しない）のいずれか、若しくは両者は、通信センタ２０４の制御プロセッサ２３２の中に含めることができる。もし通信センタ２０４中に存在するならば、中央音響モデル２３８及び順応エンジン（図示しない）のいずれか、若しくは両者は、通信センタ２０４の制御プロセッサ２３２の中に含めることもができる。
【００３７】
図３は、分散型ＶＲを実行する方法のフローチャートである。分散型ＶＲでは、Ｘ及びｆ()の変形が、遠隔順応モデルに収束することに基づいて遠隔局２０２において全て発生する。ステップ３０２において、遠隔局２０２は、デジタル音声サンプルのストリームを生成するために、マイクロホンからアナログ音声信号を採取する。ステップ３０４において、会話サンプルは、そして、例えば前記のプリエンファシスフィルタを使用してフィルタされる。ステップ３０６において、音響特性ベクトルＸのストリームは、フィルタされた会話サンプルから抽出される。前記のように、音響特性ベクトルは、重なる若しくは重ならない間隔で会話サンプルから抽出されうる。その間隔は、固定若しくは可変の期間のいずれかである。
【００３８】
ステップ３０８において、遠隔局２０２は、音響特性ベクトルのストリームと順応モデル（図２の２２８のような）に含まれる複数のパターンとの間の相関の程度を決定するために、パターンマッチングを実施する。ステップ３１０において、遠隔局２０２は、順応モデル中のパターンを選択する。パターンは、音響特性ベクトルＸのストリームに最も密接に整合する。選択されたパターンは、ターゲットパターンと呼ばれる。前に議論したように、Ｘとターゲットパターンとの間の相関の程度は、検出しきい値に対して比較される。相関の程度が検出しきい値より大きければ、その後、遠隔局２０２は、ターゲットパターンに対応する特性ベクトル変形関数ｆ()を選択する。相関の程度が検出しきい値より小さければ、その後、遠隔局２０２は、ｆ(Ｘ)＝Ｘになるように音響特性ベクトル認識関数ｆ()を選択するか、若しくはあるデフォールトｆ()を選択する。あるイグゼンプラリ実施例では、遠隔局２０２は、自身のローカル順応モデルにある各種のパターンに対応する特性ベクトル変形関数のローカルデータベースから特性ベクトル変形関数ｆ()を選択する。遠隔局２０２は、ステップ３１２において音響特性ベクトルＸのストリームに選択された特性ベクトル変形関数ｆ()を適用する。そのようにしてｆ(Ｘ)が生成される。
【００３９】
あるイグゼンプラリ実施例では、遠隔局２０２は、Ｘとターゲットパターンとの間の相関の程度を示す相関メトリックを生成する。遠隔局２０２は、ｆ(Ｘ)とターゲットパターンとの間の相関の程度を示す相関メトリックも生成する。管理されない学習の一例では、遠隔局２０２は、ステップ３１４において、１若しくはそれ以上の特性ベクトル変形関数ｆ()を変形するか否かを決定するために、過去の相関メトリックの値とともに２つの相関メトリックを使用する。ステップ３１４においてｆ()を変形する決定がなされれば、その後、ｆ()はステップ３１６において変形される。あるイグゼンプラリ実施例では、変形されたｆ()は、新たな変形された音響特性ベクトルｆ(Ｘ)を形成するために、ステップ３１８においてＸに直ちに適用される。代わりの実施例では、ステップ３１８が省略され、新たな特性ベクトル変形関数ｆ()は、音響特性ベクトルＸの後の組まで効果を生じない。
【００４０】
ステップ３１４において、若しくはステップ３１６及び３１８の後で、ｆ()を変形しない決定がなされれば、遠隔局２０２は、ステップ３２０において通信センタ２０４にワイアレスチャネル２０６を通して現在のｆ(Ｘ)を送信する。その後、ＶＲパターンマッチングは、ステップ３２２において通信センタ２０４の中で起きる。
【００４１】
代わりの実施例では、通信センタ２０４は、ＶＲパターンマッチングステップ３２２の間に会話パターン相関メトリックスを生成し、ｆ()の最適化を助けるために、遠隔局３０２にこれらのメトリックスを送り返す。会話パターン相関メトリックスは、いくつかの方法のうちの一つでフォーマットされる。例えば、通信センタ２０４は、音響特性ベクトル変形エラー関数ｆ_Ｅ()を返信することができる。ｆ_Ｅ()は、中央音響モデル中に見つけられたパターンで正確な相関を作り出すために、ｆ(Ｘ)に適用できる。あるいは、通信センタ２０４は、ターゲットパターン若しくはｆ(Ｘ)と最大の相関の程度を有すると認められた中央音響モデル中のパターンに対応する音響特性ベクトルの組を単純に返信できる。あるいは、通信センタ２０４は、ターゲットパターンを選択するために使用された、ハードデシジョン(hard-decision)若しくはソフトデシジョン(soft-decision)ビタビデコーデングプロセスから導かれる枝のメトリックを返信できる。会話パターン相関メトリックスは、情報のこれらのタイプの組み合わせも含むことができる。この返信情報は、その後、ｆ()の最適化において遠隔局２０２によって使用される。あるイグゼンプラリ実施例では、ステップ３１８におけるｆ(Ｘ)の再生成は省略され、遠隔局２０２は、通信センタ２０４からフィードバックを受信した後、ｆ()の変形（ステップ３１４，３１６）を実行する。
【００４２】
図４は、分散型ＶＲを実行する方法を示すフローチャートである。分散型ＶＲでは、Ｘ及びｆ()の変形は、中央音響モデルとの相関に基づいて通信センタ２０４の中で全て発生する。ステップ４０２において、遠隔局２０２は、デジタル音声サンプルのストリームを生成するために、マイクロホンからアナログ音声信号を採取する。ステップ４０４において、会話サンプルは、そして、例えば前記のプリエンファシスフィルタを使用してフィルタされる。ステップ４０６において、音響特性ベクトルＸのストリームは、フィルタされた会話サンプルから抽出される。前記のように、音響特性ベクトルは、重なる若しくは重ならない間隔で会話サンプルから抽出される。その間隔は、固定若しくは可変の期間のいずれかである。
【００４３】
ステップ４０８において、遠隔局２０２は、音響特性ベクトルＸの未変形のストリームをワイアレスチャネル２０６を通して送信する。ステップ４１０において、通信センタ２０４は、順応パターンマッチングを実行する。前に議論したように、順応パターンマッチングは、個別の順応モデル使用して、若しくは大きな中央音響モデル２３８を使用してのいずれかで達成できる。ステップ４１２において、通信センタ２０４は、音響特性ベクトルＸのストリームに最も密接に整合する、順応モデル中のパターンを選択する。選択されたパターンは、ターゲットパターンと呼ばれる。前記のように、Ｘとターゲットパターンとの間の相関の程度が、しきい値より大きければ、ターゲットパターンに対応するｆ()が選択される。そうでなければ、デフォールトｆ()若しくはナルｆ()が選択される。ステップ４１４において、選択された特性ベクトル変形関数ｆ()は、音響特性ベクトルｆ(Ｘ)の変形されたストリームを生成するために、音響特性ベクトルＸのストリームに適用される。
【００４４】
あるイグゼンプラリ実施例では、特性ベクトル変形関数ｆ()は、通信センタ２０４中に存在する特性ベクトル変形関数の大きなデータベースのサブセットから選択される。選択に利用できる特性ベクトル変形関数のサブセットは、話し手に依存する。そうすることにより、中央音響モデル（図２の２３８のような）を使用したパターンマッチングが、入力としてＸよりｆ(Ｘ)を使用するほうがより正確になる。前記のように、通信センタ２０４が、どのようにして話し手に依存する特性ベクトル変形関数のサブセットを選択できるかの例は、話し手のワイアレス電話のＭＩＮ、若しくは話し手により登録されたパスワードを使用することを含む。
【００４５】
あるイグゼンプラリ実施例では、通信センタ２０４は、Ｘとターゲットパターンとの間の相関、及びｆ(Ｘ)とターゲットパターンとの間の相関に関する相関メトリックスを生成する。その後、通信センタ２０４は、ステップ４１６において、１若しくはそれ以上の特性ベクトル変形関数ｆ()を変形するか否かを決めるために、過去の相関メトリック値とともに２つの相関メトリックスを使用する。ステップ４１６においてｆ()を変形すると決定されれば、その後、ｆ()はステップ４１８において変形される。あるイグゼンプラリ実施例では、変形されたｆ()は、新たな変形された音響特性ベクトルｆ(Ｘ)を生成するために、ステップ４２０においてＸに直ちに適用される。代わりの実施例では、ステップ４２０が省略され、新たな特性ベクトル変形関数ｆ()は、後の音響特性ベクトルの組まで効果を生じない。
【００４６】
ステップ４１６において、若しくはステップ４１８及び４２０の後で、ｆ()を変形しないと決定されれば、通信センタ２０４は、ステップ４２２において中央音響モデル２３８を使用してＶＲパターンマッチングを実行する。
【００４７】
図５は、分散型ＶＲを実行する方法を示すフローチャートである。ここでは、通信センタ２０４中の中央音響モデルが、特性ベクトル変形関数若しくは順応モデルを最適化するために使用される。あるイグゼンプラリ実施例では、遠隔局２０２及び通信センタ２０４は、必要に応じて情報を交換し、特性ベクトル変形関数の最適化の精度を最大にするために協力する。
【００４８】
ステップ５０２において、遠隔局２０２は、デジタル音声サンプルのストリームを生成するために、アナログ音声信号を採取する。それから、ステップ５０４において、会話サンプルは、例えば、前記のようにプリエンファシスフィルタを使用して、フィルタされる。ステップ５０６において、音響特性ベクトルＸのストリームは、フィルタされた会話サンプルから抽出される。前記のように、音響特性ベクトルは、重なる若しくは重ならない間隔の会話サンプルのいずれかから抽出される。会話サンプルの間隔は、固定若しくは可変の期間のいずれかである。
【００４９】
ステップ５０８において、遠隔局２０２は、音響特性ベクトルのストリームと順応モデル（図２の２２８のような）に含まれる複数のパターンとの間の相関の程度を決定するために、パターンマッチングを実行する。ステップ５１０において、遠隔局２０２は、音響特性ベクトルＸのストリームに最もよく整合する順応モデル中のパターンを選択する。選択されたパターンは、ターゲットパターンと呼ばれる。前記のように、Ｘとターゲットパターンとの間の相関が、しきい値を超えるならば、第１の特性ベクトル変形関数ｆ_１()は、ターゲットパターンに対応するものとして選択される。そうでなければ、デフォールトｆ()若しくはヌルｆ()が選択される。遠隔局２０２は、ローカル順応モデル中の各種パターンに対応する特性ベクトル変形関数のローカルデータベースから特性ベクトル変形関数ｆ()を選択する。遠隔局２０２は、ステップ５１２において、選択された特性ベクトル変形関数ｆ()を音響特性ベクトルＸのストリームに適用する。このようにしてf(Ｘ)が生成される。
【００５０】
図３及び図４に関連して述べられた方法とは対照的に、ステップ５１４において、遠隔局２０２は、２組の音響特性ベクトル、ｆ_１(Ｘ)及びｆ_２(Ｘ)、をチャネル２０６を通して通信センタ２０４に送る。ステップ５１６において、通信センタ２０４は、入力としてｆ_１(Ｘ)を使用して自身の中央音響モデルに対してパターンマッチングを実行する。このＶＲパターンマッチングの結果として、通信センタ２０４は、ｆ_１(Ｘ)と最大の相関の程度を有するターゲットパターン若しくはパターンの組を識別する。ステップ５１８において、通信センタ２０４は、ｆ_１(Ｘ)とターゲットパターンとの間の相関の程度を示す第１の会話パターン相関メトリック及びｆ_２(Ｘ)とターゲットパターンとの間の相関の程度を示す第２の会話パターン相関メトリックを生成する。
【００５１】
音響特性ベクトルの両方の組が、中央音響モデルに対するパターンマッチングのために使用されるが、１組だけが実際のＶＲのために使用される。それ故、遠隔局２０２は、性能の予期しない劣化のリスクなしに、提案された特性ベクトル変形関数の性能を評価できる。遠隔局２０２は、ｆ()を最適化する際に、小さな、ローカル順応モデルに全てを引き継ぐ必要もない。代わりの実施例では、遠隔局２０２は、ｆ_２(Ｘ)＝Ｘとなるように、ｆ_２()にヌル関数を使用できる。このアプローチは、音響特性ベクトルの変形なしで達成されるＶＲ性能に対するｆ()の性能を、遠隔局２０２が証明することを可能にする。
【００５２】
ステップ５２０において、通信センタ２０４は、２つの会話パターン相関メトリックスをワイアレスチャネル２０６を通して遠隔局２０２に送り返す。受信した会話パターン相関メトリックスに基づいて、ステップ５２２において、遠隔局２０２は、ステップ５２４においてｆ_１()を変形するか否かを決定する。ステップ５２２においてｆ_１()を変形するか否かの決定は、１組の会話パターン相関メトリックスに基づくことができる、若しくは、ローカル順応モデルからの同一の会話パターンに関連した会話パターン相関メトリックスの系列に基づくことができる。前に議論したように、会話パターン相関メトリックスは、音響特性ベクトル変形エラー関数ｆ_Ｅ()、ｆ(Ｘ)と最大の相関の程度を有していると認められた中央音響モデル中のパターンに対応する音響特性ベクトルの組、若しくはビタビデコーデングブランチメトリック(Viterbi decording branch metric)のような情報を含むことができる。
【００５３】
前記の技術が、各種のワイアレスチャネル２０６のいかなるタイプに同様に適用できることは、本技術分野に知識のある者は、理解するであろう。例えば、ワイアレスチャネル２０６（及びそれに応じたモデム２１８，２３０）は、符号分割多重アクセス（ＣＤＭＡ）技術、アナログセルラ、時間分割多重アクセス（ＴＤＭＡ）、若しくは他のタイプのワイアレスチャネルで利用できる。あるいは、チャネル２０６は、ワイアレス、光に限定されずに含む、赤外、及びイサーネットチャネル以外のチャネルのタイプでありうる。さらに他の実施例では、遠隔局２０２及び通信センタ２０４は、単一のシステムに統合され、チャネル２０６を全て回避する。統合されたシステムは、中央音響モデル２３８を使用するＶＲテスチングに先立ち、音響特性ベクトルの話し手に依存する変形を実行する。
【００５４】
情報及び信号が、種々の異なる技術及び手法のいずれかを使用して表わされることを、本技術分野に知識のある者は、理解するであろう。例えば、前記の記述を通して示される、データ、指示、命令、情報、信号、ビット、シンボル、及びチップは、電圧、電流、電磁波、磁場若しくは磁力粒子、光場若しくは光粒子、若しくはこれらの任意の組み合わせによって表わされる。
【００５５】
各種の解説的な論理ブロック、モジュール、回路、及びここに開示された実施例に関連して記述されたアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェア、若しくは両者の組み合わせとして実施できることは、知識のある者は、さらに価値を認めるであろう。ハードウェア及びソフトウェアのこの互換性をはっきりと説明するために、各種の解説的な構成要素、ブロック、モジュール、回路、及びステップは、一般的に機能性の面からこれまでに記述されてきた。そのような機能性が、ハードウェア若しくはソフトウェアとして実行されるか否かは、個々の応用及びシステム全体に課せられた設計の制約に依存する。熟練した職人は、述べられた機能性を各個人の応用に対して違ったやり方で実行する。しかし、そのような実行の決定は、本発明の範囲から離れては説明されない。
【００５６】
ここに開示された実施例に関連して述べられた、各種の解説的な論理ブロック、モジュール、及び回路は、汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、アプリケーションスペシフィック集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）若しくは他のプログラマブルロジックデバイス、ディスクリートゲート若しくはトランジスタロジック、ディスクリートハードウェア素子、若しくはここに記述した機能を実行するために設計されたこれらのいかなる組み合わせを、実施若しくは実行できる。汎用プロセッサは、マイクロプロセッサでよく、しかし代わりとして、プロセッサは、いかなる従来のプロセッサ、コントローラ、マイクロコントローラ、若しくはステートマシン(state machine)であってもよい。プロセッサは、演算デバイスの組み合わせとして実行できる。例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと結合した１若しくはそれ以上のマイクロプロセッサ、若しくはそのようないかなる他の構成であってもよい。
【００５７】
ここに開示された実施例に関連して述べられた方法のステップ若しくはアルゴリズムは、ハードウェアにおいて、プロセッサにより実行されるソフトウェアモジュールにおいて、若しくは、両者の組み合わせにおいて直接実現できる。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、脱着可能なディスク、ＣＤ−ＲＯＭ、若しくは、この分野で知られている他のいかなる記憶媒体の中に存在できる。あるイグゼンプラリ記憶媒体は、プロセッサが記憶媒体から情報を読み出し、そこに情報を書き込めるようなプロセッサと結合される。その代わりのものでは、記憶媒体は、プロセッサに集積できる。プロセッサ及び記憶媒体は、ＡＳＩＣ中に存在できる。ＡＳＩＣは、遠隔局中に存在できる。この代わりのものでは、プロセッサ及び記憶媒体は、遠隔局中に単体の構成部品として存在できる。
【００５８】
開示された実施例のこれまでの説明は、本技術分野に知識のあるいかなる者でも、本発明を作成し、使用することを可能にする。これらの実施例の各種の変形は、本技術分野に知識のある者に、容易に実現されるであろう。そして、ここで定義された一般的な原理は、本発明の精神及び範囲から逸脱しないで、他の実施例にも適用できる。それゆえ、本発明は、ここに示された実施例に制限することを意図したものではなく、ここに開示した原理及び卓越した特性と整合する広い範囲に適用されるものである。
【図面の簡単な説明】
【００５９】
【図１】図１は、基本音声認識システムを示す。
【図２】図２は、イグゼンプラリ実施例にしたがった分散型ＶＲシステムを示す。
【図３】図３は、分散型ＶＲを実行するための方法を示すフローチャートであり、ここで、音響特性ベクトル変形、及び特性ベクトル変形関数の選択が遠隔局において発生する。
【図４】図４は、分散型ＶＲを実行するための方法を示すフローチャートであり、ここで、音響特性ベクトル変形、及び特性ベクトル変形関数の選択が通信センターにおいて発生する。及び、
【図５】図５は、分散型ＶＲを実行するための方法を示すフローチャートであり、ここで、中央音響モデルが特性ベクトル変形関数、若しくは順応モデルを最適化するために使用される。
【符号の説明】
【００６０】
２０２…遠隔局，
２０４…通信センタ，
２０６…ワイアレスチャネル，

Claims

音響パターン情報を含む音響モデル、及び
選択された特性ベクトル変形関数を認識するために、音響特性ベクトルで音響パターン情報のパターンマッチングを実行するための順応エンジン、
を具備する音声認識システム。
請求項１の音声認識システム、ここで、順応エンジンは、変形された音響特性ベクトルの組を生成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用するためにさらに構成される。
音響モデルで変形された音響特性ベクトルの組をマッチングさせるための音声認識エンジン、をさらに具備する請求項１の音声認識システム。
選択された特性ベクトル変形関数の性能を評価するため、及び評価に基づいて選択された特性ベクトル変形関数を調整するための制御プロセッサ、をさらに具備する請求項１の音声認識システム。
特性ベクトル変形関数の組に対応するパラメータの少なくとも１組を記憶するためのメモリ、ここで、選択された特性ベクトル変形関数が特性変形関数の組の構成員である、をさらに具備する請求項１の音声認識システム。
請求項５の音声認識システム、ここで、メモリが特性ベクトル変形関数の組に対応するパラメータの１以上の組を含む、及びここで、各パラメータの組が特定の話し手に対応する。
請求項５の音声認識システム、ここで、メモリが特性ベクトル変形関数の組に対応するパラメータの１以上の組を含む、及びここで、各パラメータの組が異なる音響環境に対応する。
音響パターン情報を含む順応モデル、及び
話し手に依存する特性ベクトル変形関数を認識するため、及び話し手に依存する特性ベクトル変形関数を音響特性ベクトルに適用するために、音響特性ベクトルで音響パターン情報のパターンマッチングを実行するための順応エンジン、
を具備する音声認識システム。
選択された特性ベクトル変形関数を認識するために音響特性ベクトルを解析するため、及び変形された音響特性ベクトルの組を生成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用するための順応エンジン、
音響モデル、及び
音響モデルで変形された音響特性ベクトルの組をマッチングさせるための音声認識エンジン、
を具備する音声認識システム。
順応モデル、ここで、前記順応エンジンが、順応モデル中に記憶された音響パターンで音響特性ベクトルをマッチングすることにより音響特性ベクトルの解析を実行する、をさらに具備する請求項９の音声認識システム。
選択された特性ベクトル変形関数の性能を評価するため、及び評価に基づいて選択された特性ベクトル変形関数を調整するための制御プロセッサ、をさらに具備する請求項９の音声認識システム。
特性ベクトル変形関数の組に対応するパラメータの少なくとも１組を記憶するためのメモリ、ここで、選択された特性ベクトル変形関数が特性変形関数の組の構成員である、をさらに具備する請求項９の音声認識システム。
請求項１２の音声認識システム、ここで、メモリが特性ベクトル変形関数の組に対応するパラメータの１以上の組を含む、及びここで、各パラメータの組が特定の話し手に対応する。
請求項１２の音声認識システム、ここで、メモリが特性ベクトル変形関数の組に対応するパラメータの１以上の組を含む、及びここで、各パラメータの組が異なる音響環境に対応する。
音響パターン情報を含む順応モデル、及び
選択された特性ベクトル変形関数を認識するために、音響パターン情報に対する音響特性ベクトルのパターンマッチングを実行するため、及び変形された音響特性ベクトルの組を生成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用するための順応エンジン、
を具備する遠隔局装置。
選択された特性ベクトル変形関数の性能を評価するため、及び評価に基づいて選択された特性ベクトル変形関数を調整するための制御プロセッサ、をさらに具備する請求項１５の遠隔局装置。
特性ベクトル変形関数の組に対応するパラメータの少なくとも１組を記憶するためのメモリ、ここで、選択された特性ベクトル変形関数が特性変形関数の組の構成員である、をさらに具備する請求項１５の遠隔局装置。
請求項１７の遠隔局装置、ここで、メモリが特性ベクトル変形関数の組に対応するパラメータの１以上の組を含む、及びここで、各パラメータの組が特定の話し手に対応する。
請求項１７の遠隔局装置、ここで、メモリが特性ベクトル変形関数の組に対応するパラメータの１以上の組を含む、及びここで、各パラメータの組が異なる音響環境に対応する。
変形された音響特性ベクトルを通信センタに通信するための通信インターフェース、をさらに具備する請求項１５の遠隔局装置。
音響特性ベクトルを受信するための通信インターフェース、ここで、音響特性ベクトルが特性ベクトル変形関数を使用して変形されてきている、
音響パターンを含む音響モデル、ここで、音響モデルが一人の話し手に向けられていない、
音響モデルで変形された音響特性ベクトルの組をマッチングさせるための音声認識エンジン、及び
マッチングに基づいて特性変形関数を評価するための制御プロセッサ、
を具備する音声認識通信センタ装置。
少なくとも１の遠隔局から音響特性ベクトル及び話し手認識情報を受信するための通信インターフェース、
話し手に依存する特性ベクトル変形関数パラメータを含むメモリ、及び
音響モデルで音響特性ベクトルのパターンマッチングを実行するため、パターンマッチング及び話し手認識情報に基づいて選択された話し手に依存する特性ベクトル変形関数を認識するため、及び変形された音響特性ベクトルの組を生成するために、音響特性ベクトルに選択された話し手に依存する特性ベクトル変形関数を適用するための順応エンジン、
を具備する音声認識通信センタ装置。
請求項２２の音声認識通信センタ装置、ここで、順応エンジンは、中央音響モデルで変形された音響特性ベクトルの組をマッチングさせるための音声認識エンジンをさらに具備する、ここで、中央音響モデルは一人の話し手に向けられていない。
中央音響モデル、ここで、中央音響モデルが一人の話し手に向けられていない、及びここで、順応エンジンが中央音響モデルで変形された音響特性ベクトルの組のパターンマッチングを実行するためにさらに構成される、
をさらに具備する請求項２２の音声認識通信センタ装置。
中央音響モデルで変形された音響特性ベクトルの組をマッチングさせるための音声認識エンジン、をさらに具備する請求項２２の音声認識通信センタ装置。
選択された話し手に依存する特性ベクトル変形関数の性能を評価するため、及び評価に基づいてメモリ中の選択された特性話し手に依存するベクトル変形関数のパラメータを調整するための制御プロセッサ、をさらに具備する請求項２２の音声認識通信センタ装置。
音響特性ベクトルを抽出する、
順応モデルで音響特性ベクトルの順応パターンマッチングを実行する、
順応パターンマッチングに基づいて特性ベクトル変形関数を選択する、
変形された音響特性ベクトルの組を形成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用する、及び
音響モデルで変形された音響特性ベクトルの組の音声認識パターンマッチングを実行する、
を具備する音声認識を実行する方法。
請求項２７の方法、ここで、特性ベクトル変形関数が特性ベクトル変形関数の話し手に依存する組から選択される。
順応パターンマッチングに基づいて特性ベクトル変形関数の話し手に依存する組を変形する、をさらに具備する請求項２８の方法。
音声認識パターンマッチングに基づいて話し手に依存する特性ベクトル変形関数の組を変形する、をさらに具備する請求項２８の方法。
請求項２７の方法、ここで、特性ベクトル変形関数がある音響環境に特定される。
遠隔局において、遠隔局中に記憶された順応モデルで音響特性ベクトルの順応パターンマッチングを実行する、
遠隔局において、遠隔局で記憶された特性ベクトル変形関数情報から特性ベクトル変形関数を選択する、ここで、特性ベクトル変形関数を選択することがパターンマッチングに基づく、
遠隔局において、変形された音響特性ベクトルの組を形成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用する、及び
遠隔局から通信センタへ変形された音響特性ベクトルを送る、
を具備する音声認識を実行する方法。
請求項３２の方法、ここで、特性ベクトル変形関数情報が話し手に依存する。
順応パターンマッチングに基づいて特性ベクトル変形関数情報を変形する、をさらに具備する請求項３２の方法。
通信センタから受信した情報に基づいて遠隔局において特性ベクトル変形関数情報を変形する、をさらに具備する請求項３２の方法。
遠隔局において音声認識を実行する、をさらに具備する請求項３２の方法、
ここで、音声認識を実行することが、遠隔局中に記憶された音響モデルで変形された音響特性ベクトルの音声認識パターンマッチングを実行することを具備する。
音声認識パターンマッチングに基づいて遠隔局において特性ベクトル変形関数情報を変形する、をさらに具備する請求項３６の方法。
請求項３２の方法、ここで、特性ベクトル変形関数情報が環境に依存する。
遠隔局において、音響特性ベクトルを抽出する、
遠隔局から通信センタへ音響特性ベクトルを送る、
通信センタにおいて、通信センタ中に記憶された順応モデルで音響特性ベクトルの順応パターンマッチングを実行する、
通信センタにおいて、通信センタ中に記憶されたデータベースから特性ベクトル変形関数を選択する、ここで、順応パターンマッチングに基づいて特性ベクトル変形関数を選択する、
通信センタにおいて、変形された音響特性ベクトルの組を形成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用する、及び
通信センタにおいて、通信センタ中に記憶された音響モデルで変形された音響特性ベクトルの組の音声認識パターンマッチングを実行する、
を具備する、少なくとも１の遠隔局及び１の通信センタを具備するシステムにおいて音声認識を実行する方法。
通信センタにおいて、話し手に依存する特性ベクトル変形関数の組を選択する、ここで、選択された特性ベクトル変形関数が特性ベクトル変形関数の話し手に依存する組から選択される、をさらに具備する請求項３９の方法。
順応パターンマッチングに基づいて特性ベクトル変形関数の話し手に依存する組を変形する、をさらに具備する請求項４０の方法。
音声認識パターンマッチングに基づいて特性ベクトル変形関数の話し手に依存する組を変形する、をさらに具備する請求項４０の方法。
遠隔局から通信センタへ話し手認識情報を送る、ここで、話し手認識情報に基づいて特性ベクトル変形関数の話し手に依存する組を選択する、をさらに具備する請求項４０の方法。
遠隔局において、未変形の音響特性ベクトルを抽出する、
遠隔局において、遠隔局中に記憶された順応モデルで未変形の音響特性ベクトルの順応パターンマッチングを実行する、
遠隔局において、パターンマッチングに基づいて話し手に依存する特性ベクトル変形関数を選択する、
遠隔局において、変形された音響特性ベクトルを形成するために、音響特性ベクトルに選択された話し手に依存する特性ベクトル変形関数を適用する、
遠隔局から通信センタへ変形された音響特性ベクトルを送る、
通信センタにおいて、通信センタ中に記憶された音響モデルで変形された音響特性ベクトルの組の音声認識パターンマッチングを実行する、
を具備する、少なくとも１の遠隔局及び１の通信センタを具備するシステムにおいて音声認識を実行する方法。
順応パターンマッチングに基づいて選択された話し手に依存する特性ベクトル変形関数を変形する、をさらに具備する請求項４４の方法。
遠隔局から通信センタへ未変形の音響特性ベクトルを送る、
通信センタにおいて、変形された音響特性ベクトル及び未変形の音響特性ベクトルを使用して選択された話し手に依存する特性ベクトル変形関数を解析する、及び
遠隔局において、解析に基づいて選択された話し手に依存する特性ベクトル変形関数を変形する、
をさらに具備する請求項４４の方法。
音声認識パターンマッチングに基づいて特性ベクトル変形関数の話し手に依存する組を変形する、をさらに具備する請求項４４の方法。
音響特性ベクトルを抽出する手段、
順応モデルで音響特性ベクトルの順応パターンマッチングを実行する手段、
順応パターンマッチングに基づいて特性ベクトル変形関数を選択する手段、
変形された音響特性ベクトルの組を形成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用する手段、及び
音響モデルで変形された音響特性ベクトルの組の音声認識パターンマッチングを実行する手段、
を具備する音声認識システム。
遠隔局中に記憶された順応モデルで音響特性ベクトルの順応パターンマッチングを実行する手段、
遠隔局で記憶された特性ベクトル変形関数情報から特性ベクトル変形関数を選択する手段、ここで、特性ベクトル変形関数を選択することがパターンマッチングに基づく、
変形された音響特性ベクトルの組を形成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用する手段、及び
通信センタに変形された音響特性ベクトルを送る手段、
を具備する遠隔局装置。