JP2004536330A - 音響特性ベクトル変形を使用する分散型音声認識システム - Google Patents
音響特性ベクトル変形を使用する分散型音声認識システム Download PDFInfo
- Publication number
- JP2004536330A JP2004536330A JP2002565298A JP2002565298A JP2004536330A JP 2004536330 A JP2004536330 A JP 2004536330A JP 2002565298 A JP2002565298 A JP 2002565298A JP 2002565298 A JP2002565298 A JP 2002565298A JP 2004536330 A JP2004536330 A JP 2004536330A
- Authority
- JP
- Japan
- Prior art keywords
- characteristic vector
- acoustic
- remote station
- speaker
- adaptation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 276
- 238000012986 modification Methods 0.000 claims abstract description 87
- 230000004048 modification Effects 0.000 claims abstract description 87
- 230000006978 adaptation Effects 0.000 claims abstract description 86
- 230000001419 dependent effect Effects 0.000 claims abstract description 39
- 230000006870 function Effects 0.000 claims description 137
- 238000000034 method Methods 0.000 claims description 46
- 230000009466 transformation Effects 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims 4
- 230000003044 adaptive effect Effects 0.000 claims 3
- 238000012360 testing method Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Abstract
【解決手段】音声認識システムは、話し手に依存しない音響モデル(238)に対する音声認識パターンマッチングに先立ち、音響特性ベクトルに話し手に依存する変形関数を適用する。順応エンジン(224)は、話し手に依存する特性ベクトル変形関数f()を選択するために、順応モデル(228)で音響特性ベクトルXの組を整合させる。f()は、その後、音響特性ベクトルf(X)の変形された組を形成するために、Xに適用される。そして、音声認識は、話し手に依存しない音響モデル(238)で変形された音響特性ベクトルf(X)を相関させることにより実行される。
【選択図】図2
Description
【0001】
本発明は、会話信号処理に係わる。さらに詳しくは、本発明は、音響特性ベクトル変形を使用する分散型音声認識の卓越した方法及び装置に係わる。
【背景技術】
【0002】
音声認識は、ユーザの音声命令を認識するため、及び人間と装置とのインターフェースを容易にするために、シミュレートされた情報を装置に与えるための最も重要な技術の一つである。音響会話信号から言葉のメッセージに復元する技術を採用したシステムは、音声認識(VR)システムと呼ばれる。図1は、プリエンファシス(preemphasis)フィルタ102、音響特性抽出(AFE)ユニット104、及びパターンマッチングエンジン(pattern matching engine)110を有する基本VRシステムを示す。AFEユニット104は、デジタル音声サンプルの系列を音響特性ベクトルと呼ばれる測定値の組(例えば、抽出された周波数成分)に変換する。パターンマッチングエンジン110は、VR音響モデル112に含まれるパターンで音響特性ベクトルの系列を整合させる。VRパターンマッチングエンジンは、一般に、この分野でよく知られているビタビ(Viterbi)復号技術を採用する。パターンの系列が音響モデル112から認識された場合、その系列は、入力発音に対応する言語学的な言葉の認識されたシーケンスのような、所望のフォーマットの出力になるように解析される。
音響モデル112は、種々の会話音及びそれに付随する統計的な分布情報から抽出された音響特性のデータベースとして説明される。これらの音響特性ベクトルは、音韻(phoneme)、トリホン(tri-phones)及びホールワード(whole-word)モデルのような短い会話セグメントに対応するパターンを作る。“トレーニング”は、音響モデル112においてパターンを生成するために、1若しくはそれ以上の話し手から特定の会話セグメント、若しくは音節の会話サンプルを集めるプロセスである。“テスチング”は、エンドユーザの会話サンプルから抽出した音響特性ベクトルの系列を音響モデル112の内容と相関させるプロセスである。所定のシステムの成果は、エンドユーザの会話とデータベースの内容との間の相関の程度に大きく依存する。
【0003】
最も好ましくは、エンドユーザは、トレーニング及びテスチングの両方の期間、会話音響特性ベクトルを与え、その結果、音響モデル112は、エンドユーザの会話と強く整合する。しかしながら、音響モデル112は、一般に多数の会話節に対するパターンを表わさなければならないため、しばしば、大量のメモリを占有する。さらに、全ての可能な話し手から音響モデルを集めるために、必要な全てのデータを集めることは、実際的でない。それ故、多くの既存のVRシステムは、多くの代表的な話し手の会話を使用して集められた音響モデルを使用する。そのような音響モデルは、幅広い多くのユーザにわたり最善の成果を出すように設計されているが、いかなる個々のユーザに対しても最適化されない。そのような音響モデルを使用するVRシステムにおいて、特定のユーザの会話を認識する能力は、特定のユーザに最適化された音響モデルを使用するVRシステムのそれより劣るであろう。強い外国語なまりを持つユーザのようなあるユーザに関して、共有音響モデルを使用するVRシステムの性能は極めて悪く、VRサービスを全く効果的に使用できない。
【0004】
トレーニング及びテスト条件におけるミスマッチによリ生ずる認識性能の劣化を軽減するために、順応は効果的な方法である。テスチング環境と密接に整合させるために、順応は、テスチングの期間VR音響モデルを変形する。最大ゆう度直線回帰(maximum likelihood linear regression)及びベイズ順応(Bayesian adaptation)のような、いくつかの順応スキームは、この分野ではよく知られている。
【0005】
会話認識業務の複雑性が増加するにつれ、ワイアレス機器において認識システム全体を収容することは、ますます困難になる。それゆえ、中央通信センタに置かれた共有音響モデルは、全ユーザに対して音響モデルを提供する。中央基地局は、計算に費用がかかる音響マッチングに関しても責任がある。分散型VRシステムでは、音響モデルは、多くの話し手により共有され、そのため、いかなる個々の話し手に対しても最適化されない。そこで、この分野において、計算に要求されるリソースを最小にする一方で、複数の個々のユーザに対する改善された性能を有するVRシステムの必要性がある。
【発明の開示】
【課題を解決するための手段】
【0006】
ここに開示された方法及び装置は、卓越した及び改善された分散型音声認識システムを指向するものである。前記音声認識システムでは、音声認識パターンマッチングに先立ち、話し手に依存する処理が、音響特性ベクトルを変換するために使用される。話し手に依存する処理は、話し手に基づいて変化するパラメータを有する変換関数、順応モデルを使用する中間パターンマッチング処理の結果、又は両者にしたがって実行される。話し手に依存する処理は、遠隔局において、若しくは通信センタにおいて、又は二つの組み合わせで行える。音声認識パターンマッチングに先立ち、音響特性ベクトルは、環境に依存する処理を使用しても変換できる。音響特性ベクトルは、操業の音響環境(周囲ノイズ、マイクロホンの周波数応答等)における変化に順応するために変形される。環境に依存する処理は、遠隔局において、若しくは通信センタにおいて、又は二つの組み合わせで行える。
【0007】
用語“イグゼンプラリ(exemplary)”は、ここでは“例、実例、若しくは例証として使われる”という意味で使用される。“イグゼンプラリ実施例”として説明されるいかなる実施例も、他の実施例に対して好ましい若しくは優位であると解釈される必要性はない。
【発明を実施するための最良の形態】
【0008】
ここに開示された方法及び装置の特徴、目的、及び利点は、添付した図面とともに以下に行われる詳細な説明から、より明らかにされるであろう。図面において、参照文字は一貫して同一のものに対応する。
【0009】
標準音声認識装置(recognizer)では、認識若しくはトレーニングのいずれかにおいて、コンピュータ処理上の複雑性の大部分は、音声認識装置のパターンマッチングサブシステムに集中している。ワイアレスシステムの背景に関連して、音声認識の適用によって使われるオーバージエア(over-the air)バンド幅を最小にするための分散型システムとして、音声認識装置は導入される。さらに、分散型VRシステムは、ボコーダ(vocoder)を使用することでしばしば起きるような、音声データの無駄なソースコーデングを生じさせる性能の劣化を避ける。このような分散型構成は、米国特許番号No. 5,956,683、題名“分散型音声認識システム”に詳細に記載されている。これは、本発明の譲受人に譲渡されており、‘683特許としてここに引用されている。
【0010】
デジタルワイアレス電話システムのような、イグゼンプラリワイアレス通信システムにおいて、ユーザの音声信号は、携帯電話若しくは遠隔局のマイクロホンを通して受信される。アナログ音声信号は、それから、デジタルサンプルストリーム、例えば、毎秒8000 8−ビット会話サンプル、を生成するためにデジタルサンプルされる。ワイアレスチャネルを通して直接会話サンプルを送ることは、極めて非効率的である。それゆえ、情報は、送信する前に普通は圧縮される。ボコーデングと呼ばれる技術を介して、ボコーダは、会話サンプルのストリームをさらに小さな系列のボコーダパケットに圧縮する。そして、小さなボコーダパケットは、音声を表わす会話サンプルの代わりにワイアレスチャネルを通して送られる。そして、ボコーダパケットは、ワイアレス基地局により受信され、会話サンプルのストリームを生成するためにデボコードされる。そして、スピーカを通して聞き手に示される。
【0011】
ボコーダの主目的は、デボコードした際に聞き手が会話を理解できるように保ちつつ、話し手の会話サンプルをできる限り圧縮することである。ボコーダアルゴリズムは、典型的にはロスのある圧縮アルゴリズムであり、その結果、デボコードされた会話サンプルは、最初にボココードされたサンプルと厳密には整合しない。その上、1若しくはそれ以上のボコーダパケットがワイアレスチャネルを介した送信において失われたとしても、理解できるデボコードされた会話を生成するために、ボコーダアルゴリズムは、しばしば最適化される。この最適化は、ボコーダに入力された会話サンプルとデボコーデングの結果との間のミスマッチをさらに引き起こす。ボコーデング及びデボコーデングに起因する会話サンプルの変更は、一般に音声認識アルゴリズムの性能を劣化させる。その劣化の程度は、異なるボコーダアルゴリズムの間で大きく変化する。
【0012】
‘683特許に記述されているシステムでは、遠隔局は、音響特性抽出を実行し、ボコーダパケットの代わりに音響特性ベクトルを基地局にワイアレスチャネル上で送る。音響特性ベクトルがボコーダパケットより少ないバンド幅しか占有しないため、音響特性ベクトルは、通信チャネルエラーからの保護を追加して(例えば、順方向エラー訂正(FEC)技術を使用して)、同一のワイアレスチャネルを通して送信できる。特性ベクトルが、後で述べるように話し手に依存する特性ベクトル変形関数を使用してさらに最適化される場合、VR性能は、‘683特許に記載されている基本的なシステムの性能を超えていても、実現される。
【0013】
図2は、イグゼンプラリ実施例にしたがった分散型VRシステムを示す。音響特性抽出(AFE)は、遠隔局202の中で生じ、音響特性ベクトルは、ワイアレスチャネル206を通して基地局及びVR通信センタ204に送信される。ここに述べられている技術は、ワイアレスチャネルを含まないVRシステムにも同様に適用できることを、本技術分野に知識のある者は、理解するであろう。
【0014】
示された実施例では、ユーザからの音声信号は、マイクロホン(MIC)210で電気的信号に変換され、アナログ−デジタル変換機(ADC)212でデジタル会話サンプルに変換される。デジタルサンプルストリームは、それからプリエンファシス(PE)フィルタ214、例えば、低周波数信号成分を弱めるフィニットインパルス応答(finite impulse response)(FIR)フィルタ、を使用してフィルタされる。
【0015】
フィルタされたサンプルは、その後、AFEユニット216で解析される。AFEユニット216は、デジタル音声サンプルを音響特性ベクトルに変換する。あるイグゼンプラリ実施例では、AFEユニット216は、異なる周波数ビンに対応した信号強度のベクトルを生成するために、連続したデジタルサンプルのセグメントにフーリエ変換を実施する。あるイグゼンプラリ実施例では、周波数ビンは、バークスケール(bark scale)にしたがって、変化するバンド幅を有する。バークスケールでは、各周波数ビンのバンド幅は、高周波数ビンが低周波数ビンより広い周波数幅を持つように、ビンの中心周波数にある関係を持っている。バークスケールは、ラビナーL.R.及びジュアングB.H.著、会話認識の基礎、プレンチスホール、1993に記載されており、本技術分野ではよく知られている。
【0016】
あるイグゼンプラリ実施例では、各音響特性ベクトルは、一定時間間隔で集められた会話サンプルの系列から抽出される。あるイグゼンプラリ実施例では、これらの時間間隔は重なる。例えば、2つの連続する間隔のそれぞれが10ミリ秒の区分を共有するように、音響特性は、10ミリ秒毎に始まる20ミリ秒間隔の会話データから得られる。ここに記載された実施例から逸脱しない範囲で、時間間隔が重ならないようにする、若しくは一定でない期間にできることを、この技術分野に知識のある者は、理解できるであろう。
【0017】
AFEユニット216により生成された各音響特性ベクトル(図2で、Xと識別される)は、順応エンジン(adaptation engine)224に与えられる。順応エンジンは、順応モデル228の内容に基づいて音響特性ベクトルを特徴付けるためにパターンマッチングを実行する。パターンマッチングの結果に基づいて、順応エンジン224は、メモリ227から特性ベクトル変形関数f()の組の一つを選択し、変形された音響特性ベクトルf(X)を生成するために使用する。
【0018】
Xは、ここでは単一の音響特性ベクトル、若しくは連続する音響特性ベクトルの系列のどちらかを記述するために使用される。同様に、f(X)は、単一の変形された音響特性ベクトル、若しくは連続する変形された音響特性ベクトルの系列のどちらかを記述するために使用される。
【0019】
あるイグゼンプラリ実施例では、図2に示されるように、その後、変形されたベクトルf(X)は、ワイアレスモデム218で変調され、ワイアレスチャネル206を通して送信され、通信センタ204内のワイアレスモデム230で復調され、中央VRエンジン234により中央音響モデル238に対して整合される。ワイアレスモデム218,230及びワイアレスチャネル206は、CDMA,TDMA,若しくはFDMAを含む各種のワイアレスインターフェースのいずれかを使用できる。さらに、ワイアレスモデム218,230は、他のタイプの通信インターフェースと置き換えられる。他のタイプの通信インターフェースは、説明された実施例の範囲から逸脱しないでワイアレスでないチャネルを通して通信する。例えば、遠隔局202は、ランドラインモデム(land-line modem)、T1/E1、ISDN、DSL、イサーネット、若しくはプリント回路基板(PCB)のトレースをも含む各種タイプの通信チャネルのいずれかを通して通信センタと通信する。
【0020】
あるイグゼンプラリ実施例では、ベクトル変形関数f()は、特定のユーザ若しくは話し手に対して最適化され、中央音響モデル238に対して整合された場合、会話が正確に認識される確率を最大にするように設計される。中央音響モデルは、複数のユーザ間で共有される。遠隔局202中の順応モデル228は、中央音響モデル238よりかなり小さく、特定ユーザに対して最適化された個別の順応モデル228を維持できるようにする。1若しくはそれ以上の話し手に対する特性ベクトル変形関数f()のパラメータも、遠隔局202のメモリ227に記憶できるように十分に小さい。
【0021】
他の実施例では、環境に依存するベクトル変形関数に関するパラメータの追加の組も、メモリ227に記憶される。環境に依存するベクトル変形関数の選択及び最適化は、本質的にはより総体的であり、一般に各通話の間に実施できる。非常に単純な環境に依存する特性ベクトル変形関数の一例は、雑音の多い環境に順応するために各音響特性ベクトルの各要素に一定の利得kを適用している。
【0022】
ベクトル変形関数f()は、各種形態のいずれかを持つことができる。例えば、ベクトル変形関数f()は、AX+bの形式の擬似変換であってよい。あるいは、ベクトル変形関数f()は、初期化され、その後、連続する音響特性ベクトルの組に適用されたフィニットインパルス応答(FIR)フィルタの組であってよい。ベクトル変形関数f()の他の形式は、本技術分野に知識のある者には明らかであろうし、ここに記述した実施例の範囲内にある。
【0023】
あるイグゼンプラリ実施例では、ベクトル変形関数f()は、連続する音響特性ベクトルの組に基づいて選択される。例えば、順応エンジン224は、音響特性ベクトルのストリームと順応モデル228中の複数の会話パターンとの間の相関の程度を決めるために、ビタビデコーデング若しくはトレリス(trellis)デコーデング技術を適用できる。一旦、高い相関の程度が検出されると、ベクトル変形関数f()は、検出されたパターンに基づいて選択され、音響特性ベクトルのストリームの中から対応するセグメントに適用される。このアプローチは、各音響特性ベクトルに適用されるべきf()を選択する前に、順応エンジン224が音響特性ベクトルの系列を記憶し、順応モデル228に対する系列のパターンマッチングを実行することが必要である。あるイグゼンプラリ実施例では、順応エンジンは、未変形の音響特性ベクトルのエラスチックバッファ(elastic buffer)を維持する。そして、送信する前に、選択されたf()をエラスチックバッファの内容に適用する。エラスチックバッファの内容は、順応モデル228中のパターンと比較される。そして、エラスチックバッファの内容と最大の相関の程度を有するパターンに関して、最大相関メトリック(maximum correlation metric)が生成される。最大相関は、1若しくはそれ以上のしきい値に対して比較される。最大相関が検出しきい値を超えるならば、最大相関に連携したパターンに対応するf()が、バッファ中の音響特性ベクトルに適用され、送信される。最大相関が検出しきい値を超す前にエラスチックバッファが一杯になれば、エラスチックバッファの内容は、変形しないで送信される、若しくは、デフォールトf()を使用して代わりに変形される。
【0024】
f()の話し手に依存した最適化は、多くの方法のいずれかにより達成できる。第1のイグゼンプラリ実施例では、制御プロセッサ222は、ユーザの会話と多数の言葉にわたる順応モデル228との間の相関の程度をモニタする。f()の変化がVR性能を改善するであろうと制御プロセッサ222が決める場合、制御プロセッサ222は、f()のパラメータを変形し、メモリ227に新しいパラメータを記憶する。あるいは、制御プロセッサ222は、VR性能を改善するために直接順応モデル228を変形できる。
【0025】
図2に示されたように、遠隔局202は、個別のVRエンジン220及び遠隔局音響モデル226を付加的に含むことができる。メモリ容量の制限から、ワイアレス電話のような遠隔局202における遠隔局音響モデル226は、一般に小さいはずであり、それゆえ少数の句若しくは音素に制限される。一方、遠隔局音響モデル226が、少数のユーザにより使用される遠隔局に含まれているため、遠隔局音響モデル226は、VR性能を改善するために1若しくはそれ以上の特定ユーザに最適化されることができる。例えば、“コール”及び各10の数字(ten digits)のような言葉に対する会話パターンは、ワイアレス電話の所有者に整合される。そのようなローカルな遠隔局音響モデル226は、遠隔局202が言葉の小さな組に対して非常によいVR性能を有することを可能にする。さらに、遠隔局音響モデル226は、通信センタ204にワイアレスリンクを確立しなくとも、遠隔局202がVRを達成することを可能にする。
【0026】
f()の最適化は、管理された若しくは管理されない学習のいずれかを通して起きる。管理された学習は、所定の単語若しくは文章をユーザが発音することで生じるトレーニングを、一般に指す。所定の単語若しくは文章は、遠隔局音響モデルを正確に最適化するために使用される。VRシステムは、入力として使用された単語若しくは文章のプリオリ(priori)知識を有するため、所定の単語若しくは文章を認識するために管理された学習期間中VRを実行する必要がない。管理された学習は、特定ユーザに対する音響モデルを生成する最も正確な方法であると一般に考えられている。管理された学習の一例は、遠隔局202の遠隔局音響モデル226の中に10の数字に関する会話をユーザが最初にプログラムする場合である。遠隔局202が、話された数字に対応する会話パターンのプリオリ知識を有するため、遠隔局音響モデル226は、VR性能を劣化させる小さいリスクで個別ユーザに整合される。
【0027】
管理された学習とは対照的に、管理されない学習は、発音された会話パターン若しくは単語のプリオリ知識を持つVRシステムなしで生じる。発音が誤った会話パターンとマッチングするというリスクのため、管理されない学習に基づいた遠隔局音響モデルの変形は、非常に慎重なやり方で行われなければならない。例えば、多くの過去の発音は、互いに似ており、そして他の会話パターンより音響モデルの中のある会話パターンにより近いものを、発生したであろう。これらの全ての過去の発音が、モデル中のある会話パターンと正確に合っているならば、音響モデル中のその会話パターンは、同様の発音の組にさらによく整合させるように変形されるであろう。しかし、それらの過去の発音の多くが、モデル中のある会話パターンに対応しなければ、その会話パターンを変形することは、VR性能を劣化させるであろう。好ましくは、VRシステムは、過去のパターンマッチングの精度に関してユーザからのフィードバックを集められる。しかし、このようなフィードバックは、頻繁には利用できない。
【0028】
あいにく、管理された学習は、ユーザにとって長たらしくたいくつであり、多数の会話パターンを持つ音響モデルを生成することを非現実的にしている。しかし、管理された学習は、ベクトル変形関数f()の組を最適化する際に、若しくは順応モデル228においてさらに制限された会話パターンを最適化する際にさえ、まだ有効である。ユーザの強いなまりによって生じる会話パターンの差異は、管理された学習が必要とされる応用の一例である。音響特性ベクトルは、なまりを補正するために大きな変形を必要とするため、その変形において正確さに対する必要性が、大きい。
【0029】
管理されない学習は、最適化がVRエラーの直接原因になりにくいと思われる特定ユーザに対するベクトル変形関数f()を最適化するためにも使用できる。例えば、普通より長い音声トラクト長さ(vocal tract length)若しくは平均音声ピッチを有する話し手に順応するために必要なベクトル変形関数f()の調整は、なまりを補正するために要求される調整より、本質的により全体的である。そのような全体的なベクトル変形における大きな不正確さは、VR有効性に強く影響を与えずにできる。
【0030】
一般に、順応エンジン224は、小さな順応モデル228をベクトル変形関数f()を選択するためにだけ使用し、全体のVRを実行するためには使用しない。サイズが小さいために、順応モデル228は、順応モデル228若しくはベクトル変形関数f()のいずれかを最適化するためのトレーニングを実行するためには、同様に適さない。順応モデル228若しくはベクトル変形関数f()の調整は、順応モデル228に対する話し手の音声データのマッチングの程度を改善するために現れる。その順応モデル228若しくはベクトル変形関数f()の調整は、大きな中央音響モデル238に対するマッチングの程度を実際に劣化させる。中央音響モデル238は、実際にVRに使用されるものであるため、そのような調整は、最適化というよりむしろ誤りであろう。
【0031】
あるイグゼンプラリ実施例では、遠隔局202及び通信センタ204は、順応モデル228若しくはベクトル変形関数f()のいずれかを変形するために管理されない学習を使用する際に協力する。順応モデル228若しくはベクトル変形関数f()のいずれかを変形するか否かの決定は、中央音響モデル238に対して改善されたマッチングに基づいて行われる。例えば、遠隔局202は、通信センタ204に、音響特性ベクトル、未変形の音響特性ベクトルX及び変形された音響特性ベクトルf(X)の複数の組を送ることができる。あるいは、遠隔局202は、変形された音響特性ベクトルf1(X)及びf2(X)を送ることができる。ここで、f2()は、仮の改善された特性ベクトル変形関数である。他の実施例では、遠隔局202は、X及び特性ベクトル変形関数f1()及びf2()両者に関するパラメータを送る。遠隔局202は、通信センタ204に情報の第2の組を送ることが固定時間間隔基づいてできるか否かの、複数の組の決定を送ることができる。
【0032】
変形された音響特性ベクトル若しくは特性ベクトル変形関数に関するパラメータのいずれかの、音響特性情報の複数の組を受信すると、通信センタ204は、自身のVRエンジン234及び中央音響モデル238を使用して結果としての変形された音響特性ベクトルのマッチングの程度を評価する。通信センタ204は、それから、変更がVR性能の改善をもたらすか否かを指示する情報を、遠隔局202に送り返す。例えば、通信センタ204は、音響特性ベクトルの各組に関する会話パターン相関メトリックを遠隔局202に送る。音響特性ベクトルの各組に関する会話パターン相関メトリックは、音響特性ベクトルの組と中央音響モデル238の内容との間の相関の程度を示す。2つの組のベクトルの間の相対的な相関の程度に基づいて、遠隔局202は、その順応モデル228を調整できる、又は1若しくはそれ以上の特性ベクトル変形関数f()を調整できる。遠隔局202は、実際の言葉の認識に対して使われるどちらのベクトルの組を使用するかを特定できる。若しくは、通信センタ204は、その相関メトリックスに基づいてベクトルの組を選択できる。代わりの実施例では、遠隔局202は、通信センタ204から結果としての相関メトリックスを受信した後、VRに関して使用される音響特性ベクトルの組を同定する。
【0033】
代わりの実施例では、遠隔局202は、特性ベクトル変形関数f()を認識するためにローカルな順応エンジン224及び順応モデル228を使用し、通信センタ204にf()とともに未変形の音響特性ベクトルXを送る。それから通信センタ204は、f()をXに適用し、変形した及び未変形のベクトルの両方を使用してテスチングを実行する。その後、遠隔局202によって特性ベクトル変形関数のより正確な調整ができるように、通信センタ204は、遠隔局202にテスチングの結果を送り返す。
【0034】
他の実施例では、順応エンジン224及び順応モデル228は、遠隔局202の代わりに通信センタ204に取り込まれる。通信センタ204内の制御プロセッサ232は、モデム230を通して未変形の音響特性ベクトルのストリームを受信し、通信センタ204内の順応エンジン及び順応モデルにそれらを与える。この中間パターンマッチングの結果に基づいて、制御プロセッサ232は、通信センタメモリ236に記憶されているデータベースから特性ベクトル変形関数f()を選択する。あるイグゼンプラリ実施例では、通信センタメモリ236は、特定のユーザに対応する特性ベクトル変形関数f()の組を含む。これは、前記の遠隔局202に記憶されている特性ベクトル変形関数情報に追加される、若しくは代わりのいずれかである。通信センタ204は、特性ベクトルが抽出された音声データを提供している個々の話し手を認識するために、各種のタイプの話し手認識情報のいずれもが使用できる。例えば、特性ベクトル変形関数の組を選択するために使用された話し手認識情報は、ワイアレスチャネル206の反対側の一端におけるワイアレス電話の移動認識数(MIN)でありうる。あるいは、ユーザは、VRサービスを向上させる目的で自身を認識するためにパスワードを登録できる。さらに、環境に依存する特性ベクトル変形関数は、会話データの観測に基づいたワイアレス電話の通話の間に順応でき、適用できる。他の多くの方法も、ここで述べられた実施例の範囲から逸脱しないで、話し手に依存するベクトル変形関数の組を選択するために使用できる。
【0035】
本技術分野において知識のある者は、遠隔局202の中の複数のパターンマッチングエンジン220,224が、ここに記述した範囲から逸脱しないで統合できることも、理解するであろう。しかも、遠隔局202中の異なる音響モデル226,228は、同様に統合できる。さらに、1若しくはそれ以上の音響モデル220,224は、遠隔局202の制御プロセッサ222に取り込むことができる。1若しくはそれ以上の音響モデル226,228も、制御プロセッサ222により使用されるメモリ227の中に含めることができる。
【0036】
通信センタ204において、中央会話パターンマッチングエンジン234は、ここに記述した範囲から逸脱しないで、もし存在するならば、順応エンジン(図示しない)と統合されることができる。しかも、中央音響モデル238は、順応モデル(図示しない)と統合されることができる。さらに、もし通信センタ204中に存在するならば、中央会話パターンマッチングエンジン234及び順応エンジン(図示しない)のいずれか、若しくは両者は、通信センタ204の制御プロセッサ232の中に含めることができる。もし通信センタ204中に存在するならば、中央音響モデル238及び順応エンジン(図示しない)のいずれか、若しくは両者は、通信センタ204の制御プロセッサ232の中に含めることもができる。
【0037】
図3は、分散型VRを実行する方法のフローチャートである。分散型VRでは、X及びf()の変形が、遠隔順応モデルに収束することに基づいて遠隔局202において全て発生する。ステップ302において、遠隔局202は、デジタル音声サンプルのストリームを生成するために、マイクロホンからアナログ音声信号を採取する。ステップ304において、会話サンプルは、そして、例えば前記のプリエンファシスフィルタを使用してフィルタされる。ステップ306において、音響特性ベクトルXのストリームは、フィルタされた会話サンプルから抽出される。前記のように、音響特性ベクトルは、重なる若しくは重ならない間隔で会話サンプルから抽出されうる。その間隔は、固定若しくは可変の期間のいずれかである。
【0038】
ステップ308において、遠隔局202は、音響特性ベクトルのストリームと順応モデル(図2の228のような)に含まれる複数のパターンとの間の相関の程度を決定するために、パターンマッチングを実施する。ステップ310において、遠隔局202は、順応モデル中のパターンを選択する。パターンは、音響特性ベクトルXのストリームに最も密接に整合する。選択されたパターンは、ターゲットパターンと呼ばれる。前に議論したように、Xとターゲットパターンとの間の相関の程度は、検出しきい値に対して比較される。相関の程度が検出しきい値より大きければ、その後、遠隔局202は、ターゲットパターンに対応する特性ベクトル変形関数f()を選択する。相関の程度が検出しきい値より小さければ、その後、遠隔局202は、f(X)=Xになるように音響特性ベクトル認識関数f()を選択するか、若しくはあるデフォールトf()を選択する。あるイグゼンプラリ実施例では、遠隔局202は、自身のローカル順応モデルにある各種のパターンに対応する特性ベクトル変形関数のローカルデータベースから特性ベクトル変形関数f()を選択する。遠隔局202は、ステップ312において音響特性ベクトルXのストリームに選択された特性ベクトル変形関数f()を適用する。そのようにしてf(X)が生成される。
【0039】
あるイグゼンプラリ実施例では、遠隔局202は、Xとターゲットパターンとの間の相関の程度を示す相関メトリックを生成する。遠隔局202は、f(X)とターゲットパターンとの間の相関の程度を示す相関メトリックも生成する。管理されない学習の一例では、遠隔局202は、ステップ314において、1若しくはそれ以上の特性ベクトル変形関数f()を変形するか否かを決定するために、過去の相関メトリックの値とともに2つの相関メトリックを使用する。ステップ314においてf()を変形する決定がなされれば、その後、f()はステップ316において変形される。あるイグゼンプラリ実施例では、変形されたf()は、新たな変形された音響特性ベクトルf(X)を形成するために、ステップ318においてXに直ちに適用される。代わりの実施例では、ステップ318が省略され、新たな特性ベクトル変形関数f()は、音響特性ベクトルXの後の組まで効果を生じない。
【0040】
ステップ314において、若しくはステップ316及び318の後で、f()を変形しない決定がなされれば、遠隔局202は、ステップ320において通信センタ204にワイアレスチャネル206を通して現在のf(X)を送信する。その後、VRパターンマッチングは、ステップ322において通信センタ204の中で起きる。
【0041】
代わりの実施例では、通信センタ204は、VRパターンマッチングステップ322の間に会話パターン相関メトリックスを生成し、f()の最適化を助けるために、遠隔局302にこれらのメトリックスを送り返す。会話パターン相関メトリックスは、いくつかの方法のうちの一つでフォーマットされる。例えば、通信センタ204は、音響特性ベクトル変形エラー関数fE()を返信することができる。fE()は、中央音響モデル中に見つけられたパターンで正確な相関を作り出すために、f(X)に適用できる。あるいは、通信センタ204は、ターゲットパターン若しくはf(X)と最大の相関の程度を有すると認められた中央音響モデル中のパターンに対応する音響特性ベクトルの組を単純に返信できる。あるいは、通信センタ204は、ターゲットパターンを選択するために使用された、ハードデシジョン(hard-decision)若しくはソフトデシジョン(soft-decision)ビタビデコーデングプロセスから導かれる枝のメトリックを返信できる。会話パターン相関メトリックスは、情報のこれらのタイプの組み合わせも含むことができる。この返信情報は、その後、f()の最適化において遠隔局202によって使用される。あるイグゼンプラリ実施例では、ステップ318におけるf(X)の再生成は省略され、遠隔局202は、通信センタ204からフィードバックを受信した後、f()の変形(ステップ314,316)を実行する。
【0042】
図4は、分散型VRを実行する方法を示すフローチャートである。分散型VRでは、X及びf()の変形は、中央音響モデルとの相関に基づいて通信センタ204の中で全て発生する。ステップ402において、遠隔局202は、デジタル音声サンプルのストリームを生成するために、マイクロホンからアナログ音声信号を採取する。ステップ404において、会話サンプルは、そして、例えば前記のプリエンファシスフィルタを使用してフィルタされる。ステップ406において、音響特性ベクトルXのストリームは、フィルタされた会話サンプルから抽出される。前記のように、音響特性ベクトルは、重なる若しくは重ならない間隔で会話サンプルから抽出される。その間隔は、固定若しくは可変の期間のいずれかである。
【0043】
ステップ408において、遠隔局202は、音響特性ベクトルXの未変形のストリームをワイアレスチャネル206を通して送信する。ステップ410において、通信センタ204は、順応パターンマッチングを実行する。前に議論したように、順応パターンマッチングは、個別の順応モデル使用して、若しくは大きな中央音響モデル238を使用してのいずれかで達成できる。ステップ412において、通信センタ204は、音響特性ベクトルXのストリームに最も密接に整合する、順応モデル中のパターンを選択する。選択されたパターンは、ターゲットパターンと呼ばれる。前記のように、Xとターゲットパターンとの間の相関の程度が、しきい値より大きければ、ターゲットパターンに対応するf()が選択される。そうでなければ、デフォールトf()若しくはナルf()が選択される。ステップ414において、選択された特性ベクトル変形関数f()は、音響特性ベクトルf(X)の変形されたストリームを生成するために、音響特性ベクトルXのストリームに適用される。
【0044】
あるイグゼンプラリ実施例では、特性ベクトル変形関数f()は、通信センタ204中に存在する特性ベクトル変形関数の大きなデータベースのサブセットから選択される。選択に利用できる特性ベクトル変形関数のサブセットは、話し手に依存する。そうすることにより、中央音響モデル(図2の238のような)を使用したパターンマッチングが、入力としてXよりf(X)を使用するほうがより正確になる。前記のように、通信センタ204が、どのようにして話し手に依存する特性ベクトル変形関数のサブセットを選択できるかの例は、話し手のワイアレス電話のMIN、若しくは話し手により登録されたパスワードを使用することを含む。
【0045】
あるイグゼンプラリ実施例では、通信センタ204は、Xとターゲットパターンとの間の相関、及びf(X)とターゲットパターンとの間の相関に関する相関メトリックスを生成する。その後、通信センタ204は、ステップ416において、1若しくはそれ以上の特性ベクトル変形関数f()を変形するか否かを決めるために、過去の相関メトリック値とともに2つの相関メトリックスを使用する。ステップ416においてf()を変形すると決定されれば、その後、f()はステップ418において変形される。あるイグゼンプラリ実施例では、変形されたf()は、新たな変形された音響特性ベクトルf(X)を生成するために、ステップ420においてXに直ちに適用される。代わりの実施例では、ステップ420が省略され、新たな特性ベクトル変形関数f()は、後の音響特性ベクトルの組まで効果を生じない。
【0046】
ステップ416において、若しくはステップ418及び420の後で、f()を変形しないと決定されれば、通信センタ204は、ステップ422において中央音響モデル238を使用してVRパターンマッチングを実行する。
【0047】
図5は、分散型VRを実行する方法を示すフローチャートである。ここでは、通信センタ204中の中央音響モデルが、特性ベクトル変形関数若しくは順応モデルを最適化するために使用される。あるイグゼンプラリ実施例では、遠隔局202及び通信センタ204は、必要に応じて情報を交換し、特性ベクトル変形関数の最適化の精度を最大にするために協力する。
【0048】
ステップ502において、遠隔局202は、デジタル音声サンプルのストリームを生成するために、アナログ音声信号を採取する。それから、ステップ504において、会話サンプルは、例えば、前記のようにプリエンファシスフィルタを使用して、フィルタされる。ステップ506において、音響特性ベクトルXのストリームは、フィルタされた会話サンプルから抽出される。前記のように、音響特性ベクトルは、重なる若しくは重ならない間隔の会話サンプルのいずれかから抽出される。会話サンプルの間隔は、固定若しくは可変の期間のいずれかである。
【0049】
ステップ508において、遠隔局202は、音響特性ベクトルのストリームと順応モデル(図2の228のような)に含まれる複数のパターンとの間の相関の程度を決定するために、パターンマッチングを実行する。ステップ510において、遠隔局202は、音響特性ベクトルXのストリームに最もよく整合する順応モデル中のパターンを選択する。選択されたパターンは、ターゲットパターンと呼ばれる。前記のように、Xとターゲットパターンとの間の相関が、しきい値を超えるならば、第1の特性ベクトル変形関数f1()は、ターゲットパターンに対応するものとして選択される。そうでなければ、デフォールトf()若しくはヌルf()が選択される。遠隔局202は、ローカル順応モデル中の各種パターンに対応する特性ベクトル変形関数のローカルデータベースから特性ベクトル変形関数f()を選択する。遠隔局202は、ステップ512において、選択された特性ベクトル変形関数f()を音響特性ベクトルXのストリームに適用する。このようにしてf(X)が生成される。
【0050】
図3及び図4に関連して述べられた方法とは対照的に、ステップ514において、遠隔局202は、2組の音響特性ベクトル、f1(X)及びf2(X)、をチャネル206を通して通信センタ204に送る。ステップ516において、通信センタ204は、入力としてf1(X)を使用して自身の中央音響モデルに対してパターンマッチングを実行する。このVRパターンマッチングの結果として、通信センタ204は、f1(X)と最大の相関の程度を有するターゲットパターン若しくはパターンの組を識別する。ステップ518において、通信センタ204は、f1(X)とターゲットパターンとの間の相関の程度を示す第1の会話パターン相関メトリック及びf2(X)とターゲットパターンとの間の相関の程度を示す第2の会話パターン相関メトリックを生成する。
【0051】
音響特性ベクトルの両方の組が、中央音響モデルに対するパターンマッチングのために使用されるが、1組だけが実際のVRのために使用される。それ故、遠隔局202は、性能の予期しない劣化のリスクなしに、提案された特性ベクトル変形関数の性能を評価できる。遠隔局202は、f()を最適化する際に、小さな、ローカル順応モデルに全てを引き継ぐ必要もない。代わりの実施例では、遠隔局202は、f2(X)=Xとなるように、f2()にヌル関数を使用できる。このアプローチは、音響特性ベクトルの変形なしで達成されるVR性能に対するf()の性能を、遠隔局202が証明することを可能にする。
【0052】
ステップ520において、通信センタ204は、2つの会話パターン相関メトリックスをワイアレスチャネル206を通して遠隔局202に送り返す。受信した会話パターン相関メトリックスに基づいて、ステップ522において、遠隔局202は、ステップ524においてf1()を変形するか否かを決定する。ステップ522においてf1()を変形するか否かの決定は、1組の会話パターン相関メトリックスに基づくことができる、若しくは、ローカル順応モデルからの同一の会話パターンに関連した会話パターン相関メトリックスの系列に基づくことができる。前に議論したように、会話パターン相関メトリックスは、音響特性ベクトル変形エラー関数fE()、f(X)と最大の相関の程度を有していると認められた中央音響モデル中のパターンに対応する音響特性ベクトルの組、若しくはビタビデコーデングブランチメトリック(Viterbi decording branch metric)のような情報を含むことができる。
【0053】
前記の技術が、各種のワイアレスチャネル206のいかなるタイプに同様に適用できることは、本技術分野に知識のある者は、理解するであろう。例えば、ワイアレスチャネル206(及びそれに応じたモデム218,230)は、符号分割多重アクセス(CDMA)技術、アナログセルラ、時間分割多重アクセス(TDMA)、若しくは他のタイプのワイアレスチャネルで利用できる。あるいは、チャネル206は、ワイアレス、光に限定されずに含む、赤外、及びイサーネットチャネル以外のチャネルのタイプでありうる。さらに他の実施例では、遠隔局202及び通信センタ204は、単一のシステムに統合され、チャネル206を全て回避する。統合されたシステムは、中央音響モデル238を使用するVRテスチングに先立ち、音響特性ベクトルの話し手に依存する変形を実行する。
【0054】
情報及び信号が、種々の異なる技術及び手法のいずれかを使用して表わされることを、本技術分野に知識のある者は、理解するであろう。例えば、前記の記述を通して示される、データ、指示、命令、情報、信号、ビット、シンボル、及びチップは、電圧、電流、電磁波、磁場若しくは磁力粒子、光場若しくは光粒子、若しくはこれらの任意の組み合わせによって表わされる。
【0055】
各種の解説的な論理ブロック、モジュール、回路、及びここに開示された実施例に関連して記述されたアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェア、若しくは両者の組み合わせとして実施できることは、知識のある者は、さらに価値を認めるであろう。ハードウェア及びソフトウェアのこの互換性をはっきりと説明するために、各種の解説的な構成要素、ブロック、モジュール、回路、及びステップは、一般的に機能性の面からこれまでに記述されてきた。そのような機能性が、ハードウェア若しくはソフトウェアとして実行されるか否かは、個々の応用及びシステム全体に課せられた設計の制約に依存する。熟練した職人は、述べられた機能性を各個人の応用に対して違ったやり方で実行する。しかし、そのような実行の決定は、本発明の範囲から離れては説明されない。
【0056】
ここに開示された実施例に関連して述べられた、各種の解説的な論理ブロック、モジュール、及び回路は、汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、アプリケーションスペシフィック集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)若しくは他のプログラマブルロジックデバイス、ディスクリートゲート若しくはトランジスタロジック、ディスクリートハードウェア素子、若しくはここに記述した機能を実行するために設計されたこれらのいかなる組み合わせを、実施若しくは実行できる。汎用プロセッサは、マイクロプロセッサでよく、しかし代わりとして、プロセッサは、いかなる従来のプロセッサ、コントローラ、マイクロコントローラ、若しくはステートマシン(state machine)であってもよい。プロセッサは、演算デバイスの組み合わせとして実行できる。例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアと結合した1若しくはそれ以上のマイクロプロセッサ、若しくはそのようないかなる他の構成であってもよい。
【0057】
ここに開示された実施例に関連して述べられた方法のステップ若しくはアルゴリズムは、ハードウェアにおいて、プロセッサにより実行されるソフトウェアモジュールにおいて、若しくは、両者の組み合わせにおいて直接実現できる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、脱着可能なディスク、CD−ROM、若しくは、この分野で知られている他のいかなる記憶媒体の中に存在できる。あるイグゼンプラリ記憶媒体は、プロセッサが記憶媒体から情報を読み出し、そこに情報を書き込めるようなプロセッサと結合される。その代わりのものでは、記憶媒体は、プロセッサに集積できる。プロセッサ及び記憶媒体は、ASIC中に存在できる。ASICは、遠隔局中に存在できる。この代わりのものでは、プロセッサ及び記憶媒体は、遠隔局中に単体の構成部品として存在できる。
【0058】
開示された実施例のこれまでの説明は、本技術分野に知識のあるいかなる者でも、本発明を作成し、使用することを可能にする。これらの実施例の各種の変形は、本技術分野に知識のある者に、容易に実現されるであろう。そして、ここで定義された一般的な原理は、本発明の精神及び範囲から逸脱しないで、他の実施例にも適用できる。それゆえ、本発明は、ここに示された実施例に制限することを意図したものではなく、ここに開示した原理及び卓越した特性と整合する広い範囲に適用されるものである。
【図面の簡単な説明】
【0059】
【図1】図1は、基本音声認識システムを示す。
【図2】図2は、イグゼンプラリ実施例にしたがった分散型VRシステムを示す。
【図3】図3は、分散型VRを実行するための方法を示すフローチャートであり、ここで、音響特性ベクトル変形、及び特性ベクトル変形関数の選択が遠隔局において発生する。
【図4】図4は、分散型VRを実行するための方法を示すフローチャートであり、ここで、音響特性ベクトル変形、及び特性ベクトル変形関数の選択が通信センターにおいて発生する。及び、
【図5】図5は、分散型VRを実行するための方法を示すフローチャートであり、ここで、中央音響モデルが特性ベクトル変形関数、若しくは順応モデルを最適化するために使用される。
【符号の説明】
【0060】
202…遠隔局,
204…通信センタ,
206…ワイアレスチャネル,
Claims (49)
- 音響パターン情報を含む音響モデル、及び
選択された特性ベクトル変形関数を認識するために、音響特性ベクトルで音響パターン情報のパターンマッチングを実行するための順応エンジン、
を具備する音声認識システム。 - 請求項1の音声認識システム、ここで、順応エンジンは、変形された音響特性ベクトルの組を生成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用するためにさらに構成される。
- 音響モデルで変形された音響特性ベクトルの組をマッチングさせるための音声認識エンジン、をさらに具備する請求項1の音声認識システム。
- 選択された特性ベクトル変形関数の性能を評価するため、及び評価に基づいて選択された特性ベクトル変形関数を調整するための制御プロセッサ、をさらに具備する請求項1の音声認識システム。
- 特性ベクトル変形関数の組に対応するパラメータの少なくとも1組を記憶するためのメモリ、ここで、選択された特性ベクトル変形関数が特性変形関数の組の構成員である、をさらに具備する請求項1の音声認識システム。
- 請求項5の音声認識システム、ここで、メモリが特性ベクトル変形関数の組に対応するパラメータの1以上の組を含む、及びここで、各パラメータの組が特定の話し手に対応する。
- 請求項5の音声認識システム、ここで、メモリが特性ベクトル変形関数の組に対応するパラメータの1以上の組を含む、及びここで、各パラメータの組が異なる音響環境に対応する。
- 音響パターン情報を含む順応モデル、及び
話し手に依存する特性ベクトル変形関数を認識するため、及び話し手に依存する特性ベクトル変形関数を音響特性ベクトルに適用するために、音響特性ベクトルで音響パターン情報のパターンマッチングを実行するための順応エンジン、
を具備する音声認識システム。 - 選択された特性ベクトル変形関数を認識するために音響特性ベクトルを解析するため、及び変形された音響特性ベクトルの組を生成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用するための順応エンジン、
音響モデル、及び
音響モデルで変形された音響特性ベクトルの組をマッチングさせるための音声認識エンジン、
を具備する音声認識システム。 - 順応モデル、ここで、前記順応エンジンが、順応モデル中に記憶された音響パターンで音響特性ベクトルをマッチングすることにより音響特性ベクトルの解析を実行する、をさらに具備する請求項9の音声認識システム。
- 選択された特性ベクトル変形関数の性能を評価するため、及び評価に基づいて選択された特性ベクトル変形関数を調整するための制御プロセッサ、をさらに具備する請求項9の音声認識システム。
- 特性ベクトル変形関数の組に対応するパラメータの少なくとも1組を記憶するためのメモリ、ここで、選択された特性ベクトル変形関数が特性変形関数の組の構成員である、をさらに具備する請求項9の音声認識システム。
- 請求項12の音声認識システム、ここで、メモリが特性ベクトル変形関数の組に対応するパラメータの1以上の組を含む、及びここで、各パラメータの組が特定の話し手に対応する。
- 請求項12の音声認識システム、ここで、メモリが特性ベクトル変形関数の組に対応するパラメータの1以上の組を含む、及びここで、各パラメータの組が異なる音響環境に対応する。
- 音響パターン情報を含む順応モデル、及び
選択された特性ベクトル変形関数を認識するために、音響パターン情報に対する音響特性ベクトルのパターンマッチングを実行するため、及び変形された音響特性ベクトルの組を生成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用するための順応エンジン、
を具備する遠隔局装置。 - 選択された特性ベクトル変形関数の性能を評価するため、及び評価に基づいて選択された特性ベクトル変形関数を調整するための制御プロセッサ、をさらに具備する請求項15の遠隔局装置。
- 特性ベクトル変形関数の組に対応するパラメータの少なくとも1組を記憶するためのメモリ、ここで、選択された特性ベクトル変形関数が特性変形関数の組の構成員である、をさらに具備する請求項15の遠隔局装置。
- 請求項17の遠隔局装置、ここで、メモリが特性ベクトル変形関数の組に対応するパラメータの1以上の組を含む、及びここで、各パラメータの組が特定の話し手に対応する。
- 請求項17の遠隔局装置、ここで、メモリが特性ベクトル変形関数の組に対応するパラメータの1以上の組を含む、及びここで、各パラメータの組が異なる音響環境に対応する。
- 変形された音響特性ベクトルを通信センタに通信するための通信インターフェース、をさらに具備する請求項15の遠隔局装置。
- 音響特性ベクトルを受信するための通信インターフェース、ここで、音響特性ベクトルが特性ベクトル変形関数を使用して変形されてきている、
音響パターンを含む音響モデル、ここで、音響モデルが一人の話し手に向けられていない、
音響モデルで変形された音響特性ベクトルの組をマッチングさせるための音声認識エンジン、及び
マッチングに基づいて特性変形関数を評価するための制御プロセッサ、
を具備する音声認識通信センタ装置。 - 少なくとも1の遠隔局から音響特性ベクトル及び話し手認識情報を受信するための通信インターフェース、
話し手に依存する特性ベクトル変形関数パラメータを含むメモリ、及び
音響モデルで音響特性ベクトルのパターンマッチングを実行するため、パターンマッチング及び話し手認識情報に基づいて選択された話し手に依存する特性ベクトル変形関数を認識するため、及び変形された音響特性ベクトルの組を生成するために、音響特性ベクトルに選択された話し手に依存する特性ベクトル変形関数を適用するための順応エンジン、
を具備する音声認識通信センタ装置。 - 請求項22の音声認識通信センタ装置、ここで、順応エンジンは、中央音響モデルで変形された音響特性ベクトルの組をマッチングさせるための音声認識エンジンをさらに具備する、ここで、中央音響モデルは一人の話し手に向けられていない。
- 中央音響モデル、ここで、中央音響モデルが一人の話し手に向けられていない、及びここで、順応エンジンが中央音響モデルで変形された音響特性ベクトルの組のパターンマッチングを実行するためにさらに構成される、
をさらに具備する請求項22の音声認識通信センタ装置。 - 中央音響モデルで変形された音響特性ベクトルの組をマッチングさせるための音声認識エンジン、をさらに具備する請求項22の音声認識通信センタ装置。
- 選択された話し手に依存する特性ベクトル変形関数の性能を評価するため、及び評価に基づいてメモリ中の選択された特性話し手に依存するベクトル変形関数のパラメータを調整するための制御プロセッサ、をさらに具備する請求項22の音声認識通信センタ装置。
- 音響特性ベクトルを抽出する、
順応モデルで音響特性ベクトルの順応パターンマッチングを実行する、
順応パターンマッチングに基づいて特性ベクトル変形関数を選択する、
変形された音響特性ベクトルの組を形成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用する、及び
音響モデルで変形された音響特性ベクトルの組の音声認識パターンマッチングを実行する、
を具備する音声認識を実行する方法。 - 請求項27の方法、ここで、特性ベクトル変形関数が特性ベクトル変形関数の話し手に依存する組から選択される。
- 順応パターンマッチングに基づいて特性ベクトル変形関数の話し手に依存する組を変形する、をさらに具備する請求項28の方法。
- 音声認識パターンマッチングに基づいて話し手に依存する特性ベクトル変形関数の組を変形する、をさらに具備する請求項28の方法。
- 請求項27の方法、ここで、特性ベクトル変形関数がある音響環境に特定される。
- 遠隔局において、遠隔局中に記憶された順応モデルで音響特性ベクトルの順応パターンマッチングを実行する、
遠隔局において、遠隔局で記憶された特性ベクトル変形関数情報から特性ベクトル変形関数を選択する、ここで、特性ベクトル変形関数を選択することがパターンマッチングに基づく、
遠隔局において、変形された音響特性ベクトルの組を形成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用する、及び
遠隔局から通信センタへ変形された音響特性ベクトルを送る、
を具備する音声認識を実行する方法。 - 請求項32の方法、ここで、特性ベクトル変形関数情報が話し手に依存する。
- 順応パターンマッチングに基づいて特性ベクトル変形関数情報を変形する、をさらに具備する請求項32の方法。
- 通信センタから受信した情報に基づいて遠隔局において特性ベクトル変形関数情報を変形する、をさらに具備する請求項32の方法。
- 遠隔局において音声認識を実行する、をさらに具備する請求項32の方法、
ここで、音声認識を実行することが、遠隔局中に記憶された音響モデルで変形された音響特性ベクトルの音声認識パターンマッチングを実行することを具備する。 - 音声認識パターンマッチングに基づいて遠隔局において特性ベクトル変形関数情報を変形する、をさらに具備する請求項36の方法。
- 請求項32の方法、ここで、特性ベクトル変形関数情報が環境に依存する。
- 遠隔局において、音響特性ベクトルを抽出する、
遠隔局から通信センタへ音響特性ベクトルを送る、
通信センタにおいて、通信センタ中に記憶された順応モデルで音響特性ベクトルの順応パターンマッチングを実行する、
通信センタにおいて、通信センタ中に記憶されたデータベースから特性ベクトル変形関数を選択する、ここで、順応パターンマッチングに基づいて特性ベクトル変形関数を選択する、
通信センタにおいて、変形された音響特性ベクトルの組を形成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用する、及び
通信センタにおいて、通信センタ中に記憶された音響モデルで変形された音響特性ベクトルの組の音声認識パターンマッチングを実行する、
を具備する、少なくとも1の遠隔局及び1の通信センタを具備するシステムにおいて音声認識を実行する方法。 - 通信センタにおいて、話し手に依存する特性ベクトル変形関数の組を選択する、ここで、選択された特性ベクトル変形関数が特性ベクトル変形関数の話し手に依存する組から選択される、をさらに具備する請求項39の方法。
- 順応パターンマッチングに基づいて特性ベクトル変形関数の話し手に依存する組を変形する、をさらに具備する請求項40の方法。
- 音声認識パターンマッチングに基づいて特性ベクトル変形関数の話し手に依存する組を変形する、をさらに具備する請求項40の方法。
- 遠隔局から通信センタへ話し手認識情報を送る、ここで、話し手認識情報に基づいて特性ベクトル変形関数の話し手に依存する組を選択する、をさらに具備する請求項40の方法。
- 遠隔局において、未変形の音響特性ベクトルを抽出する、
遠隔局において、遠隔局中に記憶された順応モデルで未変形の音響特性ベクトルの順応パターンマッチングを実行する、
遠隔局において、パターンマッチングに基づいて話し手に依存する特性ベクトル変形関数を選択する、
遠隔局において、変形された音響特性ベクトルを形成するために、音響特性ベクトルに選択された話し手に依存する特性ベクトル変形関数を適用する、
遠隔局から通信センタへ変形された音響特性ベクトルを送る、
通信センタにおいて、通信センタ中に記憶された音響モデルで変形された音響特性ベクトルの組の音声認識パターンマッチングを実行する、
を具備する、少なくとも1の遠隔局及び1の通信センタを具備するシステムにおいて音声認識を実行する方法。 - 順応パターンマッチングに基づいて選択された話し手に依存する特性ベクトル変形関数を変形する、をさらに具備する請求項44の方法。
- 遠隔局から通信センタへ未変形の音響特性ベクトルを送る、
通信センタにおいて、変形された音響特性ベクトル及び未変形の音響特性ベクトルを使用して選択された話し手に依存する特性ベクトル変形関数を解析する、及び
遠隔局において、解析に基づいて選択された話し手に依存する特性ベクトル変形関数を変形する、
をさらに具備する請求項44の方法。 - 音声認識パターンマッチングに基づいて特性ベクトル変形関数の話し手に依存する組を変形する、をさらに具備する請求項44の方法。
- 音響特性ベクトルを抽出する手段、
順応モデルで音響特性ベクトルの順応パターンマッチングを実行する手段、
順応パターンマッチングに基づいて特性ベクトル変形関数を選択する手段、
変形された音響特性ベクトルの組を形成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用する手段、及び
音響モデルで変形された音響特性ベクトルの組の音声認識パターンマッチングを実行する手段、
を具備する音声認識システム。 - 遠隔局中に記憶された順応モデルで音響特性ベクトルの順応パターンマッチングを実行する手段、
遠隔局で記憶された特性ベクトル変形関数情報から特性ベクトル変形関数を選択する手段、ここで、特性ベクトル変形関数を選択することがパターンマッチングに基づく、
変形された音響特性ベクトルの組を形成するために、音響特性ベクトルに選択された特性ベクトル変形関数を適用する手段、及び
通信センタに変形された音響特性ベクトルを送る手段、
を具備する遠隔局装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/773,831 US7024359B2 (en) | 2001-01-31 | 2001-01-31 | Distributed voice recognition system using acoustic feature vector modification |
PCT/US2002/003014 WO2002065453A2 (en) | 2001-01-31 | 2002-01-30 | Distributed voice recognition system using acoustic feature vector modification |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009006033A Division JP4976432B2 (ja) | 2001-01-31 | 2009-01-14 | 音響特性ベクトル変形を使用する分散型音声認識システム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004536330A true JP2004536330A (ja) | 2004-12-02 |
JP2004536330A5 JP2004536330A5 (ja) | 2006-01-05 |
JP4567290B2 JP4567290B2 (ja) | 2010-10-20 |
Family
ID=25099445
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002565298A Expired - Lifetime JP4567290B2 (ja) | 2001-01-31 | 2002-01-30 | 音響特性ベクトル変形を使用する分散型音声認識システム |
JP2009006033A Expired - Lifetime JP4976432B2 (ja) | 2001-01-31 | 2009-01-14 | 音響特性ベクトル変形を使用する分散型音声認識システム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009006033A Expired - Lifetime JP4976432B2 (ja) | 2001-01-31 | 2009-01-14 | 音響特性ベクトル変形を使用する分散型音声認識システム |
Country Status (12)
Country | Link |
---|---|
US (1) | US7024359B2 (ja) |
EP (1) | EP1356453B1 (ja) |
JP (2) | JP4567290B2 (ja) |
KR (1) | KR100879410B1 (ja) |
CN (1) | CN1284133C (ja) |
AT (1) | ATE407420T1 (ja) |
AU (1) | AU2002235513A1 (ja) |
BR (1) | BR0206836A (ja) |
DE (1) | DE60228682D1 (ja) |
HK (1) | HK1062738A1 (ja) |
TW (1) | TW546633B (ja) |
WO (1) | WO2002065453A2 (ja) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050065779A1 (en) * | 2001-03-29 | 2005-03-24 | Gilad Odinak | Comprehensive multiple feature telematics system |
US8175886B2 (en) | 2001-03-29 | 2012-05-08 | Intellisist, Inc. | Determination of signal-processing approach based on signal destination characteristics |
US7392191B2 (en) * | 2001-03-29 | 2008-06-24 | Intellisist, Inc. | Method and device to distinguish between voice conversation and automated speech recognition |
US20020143611A1 (en) * | 2001-03-29 | 2002-10-03 | Gilad Odinak | Vehicle parking validation system and method |
US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
USRE46109E1 (en) | 2001-03-29 | 2016-08-16 | Lg Electronics Inc. | Vehicle navigation system and method |
US6487494B2 (en) * | 2001-03-29 | 2002-11-26 | Wingcast, Llc | System and method for reducing the amount of repetitive data sent by a server to a client for vehicle navigation |
US7406421B2 (en) * | 2001-10-26 | 2008-07-29 | Intellisist Inc. | Systems and methods for reviewing informational content in a vehicle |
CN1409527A (zh) * | 2001-09-13 | 2003-04-09 | 松下电器产业株式会社 | 终端器、服务器及语音辨识方法 |
GB2384901B (en) * | 2002-02-04 | 2004-04-21 | Zentian Ltd | Speech recognition circuit using parallel processors |
US8249880B2 (en) * | 2002-02-14 | 2012-08-21 | Intellisist, Inc. | Real-time display of system instructions |
US8239197B2 (en) * | 2002-03-28 | 2012-08-07 | Intellisist, Inc. | Efficient conversion of voice messages into text |
US7330538B2 (en) | 2002-03-28 | 2008-02-12 | Gotvoice, Inc. | Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel |
WO2003098946A1 (en) | 2002-05-16 | 2003-11-27 | Intellisist, Llc | System and method for dynamically configuring wireless network geographic coverage or service levels |
TW567465B (en) * | 2002-09-02 | 2003-12-21 | Ind Tech Res Inst | Configurable distributed speech recognition system |
GB0226648D0 (en) * | 2002-11-15 | 2002-12-24 | Koninkl Philips Electronics Nv | Usage data harvesting |
US7533023B2 (en) * | 2003-02-12 | 2009-05-12 | Panasonic Corporation | Intermediary speech processor in network environments transforming customized speech parameters |
DE10353068A1 (de) * | 2003-11-13 | 2005-06-23 | Voice Trust Ag | Verfahren zur Authentifizierung eines Benutzers anhand dessen Stimmprofils |
US20050216266A1 (en) * | 2004-03-29 | 2005-09-29 | Yifan Gong | Incremental adjustment of state-dependent bias parameters for adaptive speech recognition |
US7720012B1 (en) | 2004-07-09 | 2010-05-18 | Arrowhead Center, Inc. | Speaker identification in the presence of packet losses |
GB2418764B (en) * | 2004-09-30 | 2008-04-09 | Fluency Voice Technology Ltd | Improving pattern recognition accuracy with distortions |
US20060095261A1 (en) * | 2004-10-30 | 2006-05-04 | Ibm Corporation | Voice packet identification based on celp compression parameters |
CN1811911B (zh) * | 2005-01-28 | 2010-06-23 | 北京捷通华声语音技术有限公司 | 自适应的语音变换处理方法 |
JP4527679B2 (ja) | 2006-03-24 | 2010-08-18 | 学校法人早稲田大学 | 音声の類似度の評価を行う方法および装置 |
US7725316B2 (en) * | 2006-07-05 | 2010-05-25 | General Motors Llc | Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle |
JP4427530B2 (ja) * | 2006-09-21 | 2010-03-10 | 株式会社東芝 | 音声認識装置、プログラムおよび音声認識方法 |
WO2008137616A1 (en) * | 2007-05-04 | 2008-11-13 | Nuance Communications, Inc. | Multi-class constrained maximum likelihood linear regression |
US20090018826A1 (en) * | 2007-07-13 | 2009-01-15 | Berlin Andrew A | Methods, Systems and Devices for Speech Transduction |
US8639510B1 (en) | 2007-12-24 | 2014-01-28 | Kai Yu | Acoustic scoring unit implemented on a single FPGA or ASIC |
US8352265B1 (en) | 2007-12-24 | 2013-01-08 | Edward Lin | Hardware implemented backend search engine for a high-rate speech recognition system |
US8463610B1 (en) | 2008-01-18 | 2013-06-11 | Patrick J. Bourke | Hardware-implemented scalable modular engine for low-power speech recognition |
KR101217525B1 (ko) * | 2008-12-22 | 2013-01-18 | 한국전자통신연구원 | 비터비 디코더와 이를 이용한 음성 인식 방법 |
US9418662B2 (en) * | 2009-01-21 | 2016-08-16 | Nokia Technologies Oy | Method, apparatus and computer program product for providing compound models for speech recognition adaptation |
US8189925B2 (en) * | 2009-06-04 | 2012-05-29 | Microsoft Corporation | Geocoding by image matching |
US8554562B2 (en) * | 2009-11-15 | 2013-10-08 | Nuance Communications, Inc. | Method and system for speaker diarization |
EP2643832A4 (en) * | 2010-11-22 | 2016-10-12 | Listening Methods Llc | SYSTEM AND METHOD FOR RECOGNITION PATTERN ANALYSIS |
US10229701B2 (en) | 2013-02-28 | 2019-03-12 | Nuance Communications, Inc. | Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission |
WO2014133525A1 (en) * | 2013-02-28 | 2014-09-04 | Nuance Communication, Inc. | Server-side asr adaptation to speaker, device and noise condition via non-asr audio transmission |
US9282096B2 (en) | 2013-08-31 | 2016-03-08 | Steven Goldstein | Methods and systems for voice authentication service leveraging networking |
US10405163B2 (en) * | 2013-10-06 | 2019-09-03 | Staton Techiya, Llc | Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices |
US20170092278A1 (en) * | 2015-09-30 | 2017-03-30 | Apple Inc. | Speaker recognition |
EP3469519A4 (en) | 2016-06-14 | 2020-07-01 | Omry Netzer | AUTOMATIC VOICE RECOGNITION |
CN106782504B (zh) * | 2016-12-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
EP3719679B1 (en) * | 2019-04-03 | 2021-06-09 | Fondation de L'institut de Recherche Idiap | A method for protecting biometric templates, and a system and method for verifying a speaker´s identity |
US11545132B2 (en) | 2019-08-28 | 2023-01-03 | International Business Machines Corporation | Speech characterization using a synthesized reference audio signal |
EP3857544B1 (en) * | 2019-12-04 | 2022-06-29 | Google LLC | Speaker awareness using speaker dependent speech model(s) |
CN113345428B (zh) * | 2021-06-04 | 2023-08-04 | 北京华捷艾米科技有限公司 | 语音识别模型的匹配方法、装置、设备和存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4926488A (en) * | 1987-07-09 | 1990-05-15 | International Business Machines Corporation | Normalization of speech by adaptive labelling |
JP2980382B2 (ja) * | 1990-12-19 | 1999-11-22 | 富士通株式会社 | 話者適応音声認識方法および装置 |
JPH06214596A (ja) * | 1993-01-14 | 1994-08-05 | Ricoh Co Ltd | 音声認識装置および話者適応化方法 |
JP3413861B2 (ja) * | 1993-01-18 | 2003-06-09 | ヤマハ株式会社 | 電子楽器の鍵盤装置 |
ZA948426B (en) | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
JPH07210190A (ja) | 1993-12-30 | 1995-08-11 | Internatl Business Mach Corp <Ibm> | 音声認識方法及びシステム |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
JP3697748B2 (ja) * | 1995-08-21 | 2005-09-21 | セイコーエプソン株式会社 | 端末、音声認識装置 |
JP3001037B2 (ja) | 1995-12-13 | 2000-01-17 | 日本電気株式会社 | 音声認識装置 |
EP0980574B1 (en) | 1997-10-20 | 2004-03-10 | Koninklijke Philips Electronics N.V. | Pattern recognition enrolment in a distributed system |
JP2000276188A (ja) * | 1999-03-24 | 2000-10-06 | Sony Corp | 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体 |
JP3456444B2 (ja) * | 1999-05-10 | 2003-10-14 | 日本電気株式会社 | 音声判定装置及び方法並びに記録媒体 |
US6421641B1 (en) * | 1999-11-12 | 2002-07-16 | International Business Machines Corporation | Methods and apparatus for fast adaptation of a band-quantized speech decoding system |
-
2001
- 2001-01-31 US US09/773,831 patent/US7024359B2/en not_active Expired - Lifetime
-
2002
- 2002-01-30 DE DE60228682T patent/DE60228682D1/de not_active Expired - Lifetime
- 2002-01-30 BR BR0206836-2A patent/BR0206836A/pt unknown
- 2002-01-30 TW TW091101575A patent/TW546633B/zh not_active IP Right Cessation
- 2002-01-30 KR KR1020037010130A patent/KR100879410B1/ko active IP Right Grant
- 2002-01-30 AT AT02702130T patent/ATE407420T1/de not_active IP Right Cessation
- 2002-01-30 EP EP02702130A patent/EP1356453B1/en not_active Expired - Lifetime
- 2002-01-30 WO PCT/US2002/003014 patent/WO2002065453A2/en active Application Filing
- 2002-01-30 JP JP2002565298A patent/JP4567290B2/ja not_active Expired - Lifetime
- 2002-01-30 CN CNB028060687A patent/CN1284133C/zh not_active Expired - Lifetime
- 2002-01-30 AU AU2002235513A patent/AU2002235513A1/en not_active Abandoned
-
2004
- 2004-07-28 HK HK04105572A patent/HK1062738A1/xx not_active IP Right Cessation
-
2009
- 2009-01-14 JP JP2009006033A patent/JP4976432B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
HK1062738A1 (en) | 2004-11-19 |
EP1356453B1 (en) | 2008-09-03 |
JP4567290B2 (ja) | 2010-10-20 |
JP4976432B2 (ja) | 2012-07-18 |
JP2009151318A (ja) | 2009-07-09 |
US7024359B2 (en) | 2006-04-04 |
BR0206836A (pt) | 2006-01-17 |
WO2002065453A2 (en) | 2002-08-22 |
ATE407420T1 (de) | 2008-09-15 |
AU2002235513A1 (en) | 2002-08-28 |
DE60228682D1 (de) | 2008-10-16 |
EP1356453A2 (en) | 2003-10-29 |
WO2002065453A3 (en) | 2002-10-24 |
KR100879410B1 (ko) | 2009-01-19 |
CN1284133C (zh) | 2006-11-08 |
CN1494712A (zh) | 2004-05-05 |
US20020103639A1 (en) | 2002-08-01 |
TW546633B (en) | 2003-08-11 |
KR20040062433A (ko) | 2004-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4567290B2 (ja) | 音響特性ベクトル変形を使用する分散型音声認識システム | |
JP4546512B2 (ja) | 話し手に暗黙的に順応する技術を用いた音声認識システム | |
US6959276B2 (en) | Including the category of environmental noise when processing speech signals | |
KR100636317B1 (ko) | 분산 음성 인식 시스템 및 그 방법 | |
TW580690B (en) | System and method for voice recognition in a distributed voice recognition system | |
EP1199708A2 (en) | Noise robust pattern recognition | |
Vicente-Peña et al. | Band-pass filtering of the time sequences of spectral parameters for robust wireless speech recognition | |
Ibrahim | Distributed Speech Recognition over IP Recognition over IP Networks using Java | |
Yoon et al. | Efficient distribution of feature parameters for speech recognition in network environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070327 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070620 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070627 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080916 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090114 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090127 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20090220 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100323 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100326 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100805 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4567290 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |