JP4267081B2 - 分散システムにおけるパターン認識登録 - Google Patents

分散システムにおけるパターン認識登録 Download PDF

Info

Publication number
JP4267081B2
JP4267081B2 JP52355699A JP52355699A JP4267081B2 JP 4267081 B2 JP4267081 B2 JP 4267081B2 JP 52355699 A JP52355699 A JP 52355699A JP 52355699 A JP52355699 A JP 52355699A JP 4267081 B2 JP4267081 B2 JP 4267081B2
Authority
JP
Japan
Prior art keywords
model
user
recognition
station
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP52355699A
Other languages
English (en)
Other versions
JP2001506382A (ja
Inventor
ステファン ベスリング
エリック テレン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2001506382A publication Critical patent/JP2001506382A/ja
Application granted granted Critical
Publication of JP4267081B2 publication Critical patent/JP4267081B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Description

本発明は、ユーザ局に格納された入力パターンを、サーバ局の認識ユニットを使用して認識する方法に関係し、前記サーバ局およびユーザ局をネットワークを介して接続し、前記認識ユニットを、少なくとも1つの認識モデルのモデル集合を使用して前記入力パターンを認識するように動作させ、前記方法は、
前記ユーザ局のユーザに関するモデル改善データを前記ユーザ局から前記認識ユニットに伝送することと、前記ユーザ局のユーザをユーザ識別子に関係付けることとから成る初期認識登録ステップを行うことと、
前記ユーザ局およびサーバ局間の認識セッション中に、前記ユーザ局のユーザに関係するユーザ識別子と、前記ユーザによって発生された時間逐次的入力の入力パターン表現とを、前記ユーザによって前記ユーザ局から前記サーバ局に伝送することと、前記認識ユニットを使用し、前記入力パターンを、少なくとも1つの認識モデルを前記ユーザに関係するモデル改善データを反映するモデル集合に入れることによって認識することとを具える。
本発明は、入力パターンを格納する少なくとも1つのユーザ局と、認識ユニットを具えるサーバ局とを具えるパターン認識システムにさらに関係し、前記認識ユニットは、前記入力パターンを、少なくとも1つの認識モデルのモデル集合を使用して認識するように動作し、前記サーバ局を前記ユーザ局にネットワークを介して接続し、
前記ユーザ局が、前記ユーザ局のユーザに関係するモデル改善データと、前記ユーザを前記サーバ局に関係付けるユーザ識別子とを前記サーバ局に初期に伝送する手段と、前記ユーザ局およびサーバ局間の各認識セッション中に、前記ユーザ局のユーザに関係するユーザ識別子と、前記ユーザによって発生された時間逐次的入力の入力パターン表現とを前記サーバ局に伝送する手段とを具え、
前記サーバ局が、前記ユーザ局およびサーバ局間の各認識セッション中に、少なくとも1つの認識モデルを、前記入力パターンを発生したユーザに関係する前記モデル改善データを反映する前記モデル集合に入れる手段と、前記音声認識ユニットを使用し、前記ユーザ局から受けた入力パターンを認識する手段とを具える。
大規模語彙連続音声認識システムまたは手書き認識システムのようなパターン認識システムは、代表的に、認識モデルの集合を使用し、入力パターンを認識する。例えば、音響モデルおよび語彙を使用し、単語を認識することができ、言語モデルを使用し、基本的な認識結果を改善することができる。図1は、大規模語彙連続音声認識システム100の基本的構造を示す(エル.ラビナー(L.Rabiner)およびビー−エイチ.ユアング(B-H.Juang)による「音声認識の基礎(Fundamentals of speech recognition)」プレンティスホール(Prentice Hall)1993年、434〜454ページ参照)。システム100は、スペクトル分析サブシステム110およびユニットマッチングサブシステムを具える。スペクトル分析サブシステム110において、音声入力信号(SIS)を、スペクトル的および/または時間的に分析し、特徴の表現ベクトル(観察ベクトルOV)を計算する。代表的に、前記音声信号をディジタル化(例えば、6.67kHzのレートにおいて標本化)し、例えばプレエンファシスを用いることによって前処理する。連続的な標本を、例えば音声信号の32ミリ秒に対応するフレームにグループ化する。連続するグループは、例えば16ミリ秒、部分的に重なる。しばしば、線形予測符号化(LPC)スペクトル分析法を使用し、各フレームに関して、特徴の表現ベクトル(観測ベクトル)を計算する。前記特徴ベクトルは、例えば、24、32または63の成分を有してもよい。大規模語彙連続音声認識に対する標準的な方法は、音声発生の確率モデルを推測することであり、これによって、指定された単語列W=w123...wqは、音響観測ベクトルの列Y=y123...yTを発生する。認識誤差は、観測ベクトルの観測された列Y=y123...yT(時間に関して、t=1,...,T)を最も発生しやすい単語の列w123...wqを決定することによって、統計的に最小限にすることができ、ここで前記観測ベクトルは、スペクトル分析サブシステム110の結果である。この結果、最高の事後確率、すなわち、すべての可能な単語列Wに関するmaxP(W|Y)が決定される。ベイズの定理を条件付き確率に適用することによって、P(W|Y)は、
P(W|Y)=P(Y|W).P(W)/P(Y)
によって与えられる。P(Y)がWに依存しないため、最もありうる単語列は、すべての可能な単語列W(1)に関して、
arg maxP(Y|W).P(W)
によって決定される。
ユニットマッチングサブシステム120において、音響モデルは、式(1)の第1項を与える。前記音響モデルを使用し、所定の単語列Wに関する観測ベクトルの列Yの確率P(Y|W)を推定する。大規模語彙システムに関して、これは通常、前記観測ベクトルを音声認識ユニットのインベントリに対してマッチングさせることによって行われる。音声認識ユニットは、音響モデルの列によって表される。種々の形態の音声認識を使用することができる。例えば、単語全体、または単語のグループを、1つの音声認識ユニットによって表してもよい。単語モデル(WM)は、所定の語彙の各単語に関して、音響基準の列における音訳を与える。単語全体を1つの音声認識ユニットによって表すシステムに関して、前記単語モデルと音声認識ユニットとの間に直接的な関係が存在する。他のシステム、特に大規模語彙システムは、単音、2単音または音節のようなサブ単語ユニットと、フェネネス(fenenes)およびフェノネス(fenones)のような派生ユニットとに言語学的に基づいた音声認識ユニットを使用してもよい。これらのようなシステムに関して、単語モデルは、前記語彙のある単語に関係するサブ単語ユニットの列を記述する辞書134と、含まれる音声認識ユニットの音響基準の列を記述するサブ単語モデル132とによって与えられる。単語モデル構成器136は、サブ単語モデル132および辞書134に基づく前記単語モデルを具える。図2Aは、全単語音声認識ユニットに基づくシステムに関する単語モデル200を示し、ここで、示した単語の音声認識ユニットを、10の音響基準(201ないし210)の列を使用してモデル化する。図2Bは、サブ単語ユニットに基づくシステムに関する単語モデル220を示し、示した単語を、各々が4つの音響基準(251、252、253、254;261ないし264;271ないし274)の列を有する3つのサブ単語モデル(250、260および270)の列によってモデル化する。図2に示す単語モデルは、音声および手書き信号を確率論的にモデル化するのに広く使用されている隠れマルコフモデル(HMM)に基づく。このモデルを使用して、各認識ユニットを代表的にHMMによって特徴づけ、これらのパラメータをデータの訓練組から推定する。例えば、10000ないし60000語を含む大規模語彙音声認識システムに関して、HMMをより多くのユニットに対して十分に訓練するためは多くの訓練データが必要になるため、通常、例えば40のサブ単語ユニットの制限された組を使用する。HMM状態は、音響基準(音声認識に関して)またはアログラフ的基準(手書き認識に関して)に対応する。基準をモデル化し、離散的または連続的な確率密度を含む種々の技術が知られている。
単語レベルマッチングシステム130は、観測ベクトルを音声認識ユニットのすべての列に対してマッチングさせ、前記ベクトルおよび列間の最も可能性がある相手を与える。サブ単語システムを使用すると、辞書134を使用することによって前記マッチングに制限が加えられ、サブ単語ユニットの可能な列が、辞書134における列に限定される。これは、結果を、可能な単語列に減少させる。文レベルマッチングシステム140は、言語モデル(LM)を使用し、前記マッチングに他の制限を加え、その結果として、調査される経路は、前記言語モデルによって指定されるような適切な列である単語列に対応する経路になる。このようなものとして、前記言語モデルは、式(1)の第2項P(W)を与える。前記音響モデルの結果を前記言語モデルに結合することによって、認識された文(RS)であるユニットマッチングサブシステム120の結果が生じる。パターン認識において使用される前記言語モデルは、言語および認識タスクの構文および/または語義制限142を含んでもよい。構文制限に基づく言語モデルは、通常、文法144と呼ばれる。前記言語モデルによって使用される文法144は、単語列W=w123...wqの確率を与え、これは原理的には、
P(W)=P(w1)P(w2|W1)P(w3|w1w2)...P(Wq|w1w2w3...wq
によって与えられる。実際には、所定の言語におけるすべての単語およびすべての文の長さに対する条件単語確率を確実に推定することは実行不可能であるため、Nグラム単語モデルが広く使用されている。Nグラムモデルにおいて、項P(wj|w123...wj-1)は、P(Wj|Wj-N+1...wj-1)によって近似される。実際には、バイグラムまたはトライグラムが使用される。トライグラムにおいて、項P(wj|w123...wj-1)は、P(wj|wj-2j-1)によって近似される。
同様の手書き認識用システムが既知である。手書き認識システムに使用される言語モデルは、単語列を指定するのに加えて、または、その代わりとして、文字列を指定する。
ユーザ非依存パターン認識システムには、ユーザ非依存認識モデルが与えられる。許容しうるレベルの認識を達成するために、特に大規模な語彙認識システムを、このシステムを特定のユーザに対して訓練することによって、ユーザ依存に形成する。このようなシステムの一例は、フィリップスSP6000口述システムである。このシステムは分散システムであり、ユーザは、パーソナルコンピュータまたはワークステーションのようなユーザ局に直接口述することができる。音声は、ディジタル的に記録され、ネットワークを経てサーバ局に伝送され、このサーバ局において、前記音声は、音声認識ユニットによって認識される。認識されたテキストを、前記ユーザ局に戻すことができる。このシステムにおいて、前記音響モデルの音響基準は、このシステムの新たなユーザに対して、この新たなユーザが予め決められたテキストを30分程度の間口述することによって訓練される。これは、十分なデータを前記サーバ局に与え、前記ユーザに関する音響基準の新たな組を構築することが可能になる。この登録段階後、前記ユーザはテキストを口述してもよい。各口述セッションに関して、前記サーバ局における認識ユニットは、口述しているユーザに関係する音響基準を検索し、これらを前記口述の認識に使用する。辞書、語彙、言語モデルのような他の認識モデルは、特定のユーザに対して訓練されない。これらの状況に関して、このシステムは、弁護士、医者、外科医等のような1つの特定のカテゴリのユーザにのみを目的とする。
前記比較的長い訓練期間は、前記システムを時々または短い時間使用したいユーザによる前記システムの採用を妨げる。さらに、ユーザ毎に前記比較的大量の音響基準を前記サーバ局に格納する必要があるため、前記システムは、多数のユーザに対してあまり適切でない。前記システムを、前記言語モデルおよび語彙が目的とするのと異なる分野におけるテキストを口述するのに使用することは、認識結果の品質を低下させる恐れがある。
本発明の目的は、ユーザにおける過度の訓練負担なしに、クライアント−サーバ形態におけるパターン認識を可能にすることである。本発明の他の目的は、サーバが多数のクライアント(ユーザ局)に関する認識を同時にサポートすることができる、クライアント−サーバ構成におけるパターン認識を可能にすることである。さらに他の目的は、広範囲の話題に関するパターン認識を可能にすることである。
前記目的を達成するために、本発明による方法は、前記サーバが、複数の異なる同じ形式の認識モデルを具えることと、前記認識登録ステップが、認識モデルを前記複数の異なる同じ形式の認識モデルから、前記ユーザに関係するモデル改善データに応じて選択することと、前記選択された認識モデルの識別子を前記ユーザの識別子に関連して記憶することとを具え、前記入力パターンを認識するステップが、前記サーバ局に伝送された前記ユーザ識別子に関係する認識モデルを検索することと、前記検索された認識モデルを前記モデル集合に入れることとを具えることを特徴とする。
多数の同じ形式の認識モデル、例えば、写真、園芸、自動車等のような、少なくとも1つの異なった話題を目的とする多数の言語モデルを記憶することによって、適切な認識モデルを、前記システムの特定のユーザに対して選択することができる。これにより、認識の品質が良くなる。この方法において、ユーザは、特定の言語モデルまたは語彙のような、1つの特定の形式の認識モデルに束縛されず、同時に、前記システムの柔軟性が、多くのユーザに対してモデルを再利用することによって達成される。例えば、写真における興味を述べたすべてのユーザは、写真をカバーする同じ言語モデルを使用することができる。このように、ユーザ指向認識モデルを使用することによって与えられるこの柔軟性と関係する良好な認識結果とは、ユーザ毎に特別なモデルを記憶することなしに達成される。有利に、前記ユーザによって供給する必要がある訓練データの量も、既知のシステムにおけるより、十分少なくすることができる。モデルを完全に訓練する、または、すでに存在するモデルを適合させるために、十分な量のデータを必要とする代わりに、本発明によれば、データ量は、利用可能なモデルから適切なモデルを選択するのに十分なだけでよい。
従属する請求の範囲2において規定される手段によれば、複数の同じ形式の認識モデルを、基本認識モデルおよび複数の適合化プロファイルによって形成する。認識モデルを、適切な適合化プロファイルを選択し、前記基本モデルを前記選択された適合化プロファイルを使用して適合させることによって選択する。例えば、基本言語モデルは、ある言語のすべての頻繁に使用される単語列をカバーしてもよく、前記適合化プロファイルは、特定の興味の範囲に関する単語列をカバーする。前記適合化された言語モデルは、一般的に使用される列と、特定の列の双方をカバーすることができる。この方法において、1つの(所定の形式の)基本モデルと、通常はきわめてより小さい多数の適合化プロファイルのみを記憶すれば十分である。
従属する請求の範囲3において規定される手段によれば、前記モデル改善データは、音響基準のような音響訓練データを具える。前記音響訓練データに基づいて、適切な音響モデルを選択し、または、基本音響モデルを、適切な適合化プロファイルを使用して適合させる。これを達成する簡単な方法は、ユーザの比較的短い発声(例えば、いくつかの文に限定される)を、異なった音響モデルの範囲で認識することである。前記モジュールの各々には、好適には、女性/男性の話し方、遅い話し方/速い話し方、または、異なったアクセントでの話し方のような、特定の形式の話し方を目的とさせる。最高の結果を与える音響モデルを選択する。
従属する請求の範囲4において規定される手段によれば、前記音響モデル適合化プロファイルは、音響基準空間を変換するマトリックスか、前記基本音響モデルによって使用される音響基準と結合すべき音響基準の組かを具える。この方法において、前記音響モデルを、効率的に適合化させることができる。
従属する請求の範囲5において規定される手段によれば、前記モデル改善データは、言語モデル訓練データを具える。好適実施形態において、前記言語モデル訓練データは、少なくとも1つの文脈識別子を具える。好適には、前記文脈識別子は、キーワードを具える、または、キーワードを示す。前記訓練データに基づいて、言語モデルまたは言語モデル適合化プロファイルを選択する。
従属する請求の範囲7において規定される手段によれば、前記モデル改善データは、対応する語彙、または、基本語彙を適合化するのに使用される語彙適合化プロファイルの選択を可能にする、文脈識別子のような語彙訓練データを具える。
従属する請求の範囲10において規定される手段によれば、前記文脈識別子は、語句またはテキストのような、単語の列を具える、またはこれを示す。少なくとも1つのキーワードを、前記単語の列から抽出し、前記モデルまたは適合化プロファイルの選択は、前記抽出されたキーワードに基づく。
前記目的を達成するために、本パターン認識システムは、前記サーバ局が、複数の異なる同じ形式の認識モデルと、認識モデルを前記複数の異なる同じ形式の認識モデルから、前記ユーザに関係するモデル改善データに応じて選択し、前記選択された認識モデルの識別子を前記ユーザの識別子に関連して記憶する手段と、前記サーバ局に伝送された前記ユーザ識別子に関係する認識モデルを検索し、前記検索された認識モデルを前記モデル集合に入れる手段とを具えることを特徴とする。
本発明のこれらおよび他の態様は、図面に示す実施形態を参照することによって明らかになるであろう。
図1は、音声認識システムを示す。
図2は、単語またはサブ単語ユニットをモデル化する隠れマルコフモデルを示す。
図3は、本発明によるシステムのブロック図を示す。
図4は、登録段階および認識段階を示すフローチャートを示す。
図3は、本発明によるパターン認識システム300のブロック図を示す。システム300は、サーバ局310と、少なくとも1つのユーザ局とを具える。3つのユーザ局350、360および370を示し、ユーザ局350のみに関してより細部を示す。これらの局を、慣例的なコンピュータ技術を使用して実現してもよい。例えば、ユーザ局350を、デスクトップ型パーソナルコンピュータまたはワークステーションによって形成してもよく、サーバ局310を、PCサーバまたはワークステーションサーバによって形成してもよい。これらのコンピュータを、該コンピュータのプロセッサにロードされた適切なプログラムの制御の下で動作させる。サーバ局310およびユーザ局350を、ネットワーク330を経て接続する。ネットワーク330を、例えばオフィス環境におけるローカルエリアネットワーク、または、好適にはインターネットであるワイドエリアネットワークのような、どのような適切なネットワークとしてもよい。前記局は、ネットワーク330を経て各々通信する通信手段312および352を具える。ネットワーク330との組み合わせにおいて使用するのに好適などのような通信手段を使用してもよい。代表的に、前記通信手段を、通信インタフェースまたはモデムのようなハードウェアと、インタネットのTCP/IPプロトコルのような特定の通信プロトコルをサポートするソフトウェアドライバの形態におけるソフトウェアとの組み合わせによって形成する。
ユーザ局350は、制御手段354を具える。訓練段階の一部として、制御手段354は、初めにモデル改善データをユーザ局350からサーバ局310に伝送する。前記モデル改善データは、ユーザ局350のユーザに関係する。通常、前記モデル改善データを、そのときユーザ局350を使用するユーザによって直接入力する。この入力は、代表的に、キーボード、マウス、または、ユーザ局350のオーディオ入力インタフェースに接続されたマイクロホンのような、ユーザインタフェース手段356を経て生じる。前記登録段階の一部として、制御手段354は、ユーザ局350のユーザに関係するユーザ識別子を、サーバ局310に伝送する。前記ユーザ識別子を、例えば、ユーザがユーザ局350にログインしている、または、ユーザ局350を経てサーバ局310にログインしているときのユーザ名としてもよい。前記ユーザ識別子を、通信アドレスまたは電話番号のような通信識別子を使用して形成してもよい。
サーバ局310は、複数の異なる同じ形式の認識モデルを記憶する記憶手段314を具える。サーバ局310は、例えば、いくつかの言語モデル、いくつかの語彙、または、音響基準のいくつかの組(音声認識システムに関して)を記憶してもよい。記憶手段314を、ハードディスクによって形成してもよい。何か他の好適な記憶手段を使用してもよい。記憶手段314を、サーバ局310において物理的に配置してもよく、代わりに、例えばネットワークを経てサーバ局310によってアクセス可能にしてもよい。サーバ局310は、前記複数の異なる同じ形式の認識モデルから認識モデルを選択する選択手段316をさらに具える。この選択を、前記ユーザに関係するモデル改善データに応じて行う。記憶手段318を、前記ユーザ識別子に関係する選択された認識モデルの識別子を記憶するのに使用する。このような記憶を、記憶手段314に、前記選択されたモデルに関して、ユーザ識別子のリストを記憶することによって行ってもよい。また、別個の表を、ユーザ識別子および選択されたモデル間の関係を記憶するのに使用してもよい。
ユーザ局350の制御手段354は、前記ユーザ局およびサーバ局間の認識セッション毎に、前記ユーザ局のユーザに関係するユーザ識別子と、前記ユーザによって発生された時間逐次的入力の入力パターン表現とを、サーバ局に伝送する。前記認識セッションは、前記登録段階のすぐ後に続いてもよく(この場合において、前記ユーザ識別子を再び伝送する必要はない)、または、前記登録段階の後、所定の瞬時において起こってもよい。前記入力パターンは、前記ユーザ局のユーザによって形成された言語表現信号を表す。これらのような信号の一例は、音声信号または手書き信号である。原理的に、前記パターンは、時間逐次的パターンである。好適には、前記パターンの時間逐次的動作に関する何らかの情報も、ユーザ局350からサーバ局310に伝送する。好適には、「リアルタイム」接続を、ユーザ局350およびサーバ局310間で確立し、ユーザ局350ののユーザインタフェース手段356は、前記ユーザによって発生された入力信号を標本化する。前記信号を(例えば、図1のスペクトル解析サブシステム110に関して上述したのと同様の音声信号に関して)解析し、結果(例えば、ベクトルの列)をデータブロックにグループ化し、これらのデータブロックをサーバ局310に伝送する。代わりに、前記標本の列またはベクトル列を予め記録し、ユーザ局350に、ハードディスクのような固定記憶装置またはフロッピーディスクのような携帯記憶装置から供給してもよい。通常、前記時間逐次的情報は、依然として存在する。特に、手書きはユーザ局350に画像として供給され、ここではオンライン手書き認識システムにおいて存在する細部の時間逐次的動作は失われることがわかるであろう。それにもかかわらず、これらのような信号を、本発明によるシステムにおいて使用してもよい。
ユーザ局との認識セッション毎に、サーバ局310は、記憶手段314から認識モデルを検索する検索手段320を使用する。前記サーバ局に前記ユーザ局によって伝送された前記ユーザ識別子に関係する認識モデルを検索する。検索手段310は、前記検索された認識モデルを、少なくとも1つの認識モデルのモデル集合に入れる。前記モデル集合は、認識ユニット322によって、ユーザ局350から受けた入力パターンを認識するのに使用される。
図4は、ユーザ局350およびサーバ局310間での全体的な情報の交換を示す。訓練段階400において、ユーザ局350は、前記ユーザ識別子(UI)およびモデル改善データ(MID)を、サーバ局310に伝送する。項目を伝送する正確な列と、前記項目を伝送するのに使用される通信フレームまたはパケットの数とは、無関係であることがわかるであろう。各認識セッション中(2つのセッション410および420を示す)、前記ユーザ識別子(UI)およびモデル改善データ(MID)を、サーバ局310に伝送する。
本発明による他の実施形態において、前記複数の異なる同じ形式の認識モデルを、基本認識モデルおよび複数の適合化プロファイルによって形成する。好適には、前記基本モデルおよび適合化プロファイルを、記憶手段314のような同じ記憶部において記憶する。選択手段316は、少なくとも1つの前記適合化プロファイルを、前記ユーザ局のユーザと関係するモデル改善データに応じて選択することによって、認識モデルを選択する。記憶手段318を、前記選択された適合化プロファイルの識別子を前記ユーザ識別子に関係して記憶するのに使用する。検索手段320は、認識モデルを記憶手段314から、前記ユーザ識別子に関係する適合化プロファイルを検索し、前記基本認識モデルを前記適合化プロファイルの制御の下で適合化させることによって検索する。認識モデルを適合化させる技術は、一般的に知られている。検索手段320は、前記適合化された認識モデルを、音声認識ユニット322によって使用されるモデル集合に入れる。
他の実施形態において、前記入力パターンは、音声表現データを具える。前記モデル改善データは、音響訓練データを具える。前記音響訓練データを、量においてきわめて制限することができる。既知のシステムにおいて、一時間程度の音声データが音響モデルを完全に訓練するのに必要であり、または、15分程度の音声データが省略時音響モデルを新規ユーザに適合させるのに必要な場合、本発明によるシステムにおいて、前記音響訓練データは、15分より実際的に短い音声を表す。好適には、前記音響訓練データを、5分より短い音声の音響態様を表すことに制限する。有利には、前記音声の量を、(例えば、5文より少ない)文の組のみに制限するか、ユーザ局350のユーザによって語られた少数の単語のみに制限する。このユーザに、予め決められた単語または文をしゃべることを明示的に要求してもよい(しゃべるべきテキストをこのユーザに示してもよい)。代わりに、前記訓練を暗示的としてもよい。一例として、前記認識システムは、省略時音響モデルを使用することによって、すぐに動作することができる。次に、予め決められた期間、または、音声入力の量を、前記音響訓練データとして使用する。ユーザに適切な音響モデルを、複数の異なる音響モデルから選択する。好適実施形態において、前記音響訓練データは、(音響標本を表す)音響観察ベクトルのような音響データを具え、前記音響データを、各々の前記音響モデルを使用して別々に認識する。次に、最良の認識結果を与える前記音響モデルを、前記ユーザに最高に適合するものとして選択する。実際の音響データをサーバ局310に供給する代わりとして、ユーザ局350は、サーバ局310にしゃべるピッチまたは平均速度のような特定の音響特徴を抽出してもよい。サーバ局310は、前記認識モデル毎にこれらのような音響特徴を記憶し、これらの特徴に基づいて最高に適合するモデルを選択してもよい。異なった音響モデルを基本音響モデルによって形成し、(好適には、完全に訓練された話者非依存モデル)適合化プロファイルを使用し、前記基本音響モデルを前記異なった音響モデルに適合させてもよいことはわかるであろう。このような場合において、音響モデルの選択は、音響モデル適合化プロファイルの選択を含む。前記適合化プロファイルを、例えば、男性/女性、遅い/速い話し方、または、異なったアクセントのような、話者の特定のカテゴリを表す、一人以上の話者の音響データを表す、音響モデルによって形成してもよい。前記認識に関して、前記選択された音響モデル適合化プロファイルを使用し、前記基本音響モデルを適合化する。音響モデルを適合化する一般的に知られている技術は、音響認識空間の一次変換を含む最尤一次認識(MLLR)法と、最高事後(MAP)確率法またはベイズの適合化法(エル.ラビナー(L.Rabiner)およびビー−エイチ.ユアング(B-H.Juang)による「音声認識の基礎(Fundamentals of speech recognition)」プレンティスホール(PrenticeHall)1993年、373〜375ページ参照)とを含む。明らかに、適合化プロファイルの音響基準も、前記基本音響モデルを訓練するのに使用される音響基準と結合し、これらの基準の結合された組において再訓練を続けてもよい。
他の代わりの実施形態において、前記モデル改善データは、言語モデル訓練データを具える。前記言語モデル訓練データは、音声認識ユニット322の言語モデルにおいて使用されるような情報に直接対応する情報を具えてもよい。例えば、前記訓練データは、ユーザによって使用される特定の言語要素に関するバイグラムまたはトライグラムと、これらの個々の確率とを具えることができる。代わりに、前記訓練データは、前記サーバ局によって解析することができる(テキストファイルのような)原文データを具える、または、これを示す。サーバ局310は、該サーバ局における複数の異なる言語モデルからある言語モデルを、ユーザに関係する言語モデル訓練データに基づいて選択する。例えば、サーバ局310は、ユーザによって示された、または、与えられたテキストの解析に最高に対応する言語モデルを選択する。好適には、前記言語モデル訓練データは、少なくとも1つの文脈識別子を具える。前記文脈識別子は、好適には、ユーザの興味の範囲を示す。この場合において、前記サーバ局は、この表現された興味に最高に適合する言語モデルを選択する。これを、種々の方法において行うことができる。例えば、サーバ局310における言語モデルを、特定の文脈に関して形成してもよく、ユーザに、これらのモデル間の選択の可能性を提供してもよい。代わりに、前記サーバ局は、前記文脈識別子に対応する原文データを収集することができる。この場合において、前記文脈識別子は、キーワードであるか、語句、文または文書のような単語の列を具える、またはこれを示し、これから、サーバ局310は、1つ以上の代表的キーワードを自動的に抽出する。前記原文データを収集する文書の組を、例えば、コンピュータシステムにおいて使用されるような文書ファイルシステムによって形成してもよい。慣例的な文書を使用することによって、前記選択を、前記文書の内容を走査することによって行うことができる。有利には、前記文書の組を、文書管理システムのような文書データベースによって形成する。このようなシステムにおいて、前記文書の内容を走査する代わりとして、または、これに追加して、前記文書の内容を記述する属性を、文書が関連するかどうかを決定するのに使用することもできる。有利には、前記文書の組を、分散コンピュータシステムにおける文書によって形成する。前記分散コンピュータシステムは、ローカルエリアネットワークを経て接続された、会社の建物または敷地内のローカルコンピュータのグループから、インタネットのようなワイドエリアネットワークを経て接続された、異なる会社のコンピュータのワールドワイドネットワークまで及んでもよい。前記分散システムは、通常、サーバと呼ばれる、いくつかの文書記憶部を具える。分散システムと、特に、インタネットの使用は、多量のデータと、通常、最新のデータとが利用可能であることを保証する。この方法において、前記言語モデルは、前記システムに供給されたときには未知の、またはあまり使用されていない新たな言語要素を、ユーザがすべての新たな要素を訓練する必要なく、取り入れることができる。
有利には、サーバ局310それ自身は、前記文脈識別子に対応する最新原文データに関して、インタネットのようなネットワークを探索する。また、特殊化されたサーチエンジンまたはサーチエージェントを、前記原文データを見つけるのに使用してもよい。前記原文データに基づいて、前記サーバ局は、前記原文識別子に適合する言語モデルを形成する。このモデルは、同じ興味を持つ他のユーザによる使用にも利用可能になる。
サーチエンジンを使用する場合、前記ネットワークサーチエンジンは、サーバ局310によって(または直接ユーザ局350によって)供給される探索基準を満たす文書に関して、前記分散システム内の文書記憶部を探索する。代表的に、前記ネットワークサーチエンジンは、前記分散システムを定期的に走査し、どの文書が利用可能であるかを決定し、キーワードのような属性を前記文書から抽出する。前記走査の結果を、前記サーチエンジンのデータベースに記憶する。次に、前記探索を前記データベースにおいて行う。サーチエージェントを使用する場合、このサーチエージェントの仕事は、前記分散システムの記憶部じゅうを探索することである。この目的のため、サーバ局310(またはユーザ局350)は、前記探索基準を前記サーチエージェントに与える。前記サーチエージェントは、前記分散システム内の記憶部を自律的に探索する。前記探索基準を満たす文書が見つかるといつも、前記エージェントは、これを要求局に、例えば通常の電子メールによって伝送してもよい。種々の形態のサーチエージェントが、特にインタネットに関して知られている。例えば、前記エージェントを、前記要求局においてのみ活性化し、該エージェントの質問に応じて前記分散システム内の記憶部に順番に(または並列に)アクセスさせてもよい。代わりに、前記エージェントは、前記分散システムじゅうを、あるサーバから他のサーバにとぶことによって移動してもよく、前記エージェントは、その瞬時に「訪れている」サーバにおいて活性化する。
いくつかの言語モデルを完全に記憶する代わりに、一般的に使用される言語の代表である基本言語モデルを使用し、言語モデル適合化プロファイルを使用し、前記基本モデルを適合化し、特定の興味の範囲を提供してもよいことは明らかであろう。言語モデルを適合化する種々の形態が既知である。Nグラムモデルに関して、項P(wj|wj-N+1...wj-1)を、周波数アプローチ、
P(wj|wj-N+1...wj-1)=F(wj-N+1...wj-1wj)/F(wj-N+1...wj-1
によって概算することができ、ここで、Fを、与えた訓練コーパスにおけるその独立変項におけるストリングの発生数とする。前記概算を確実にするために、F(wj-N+1...wj-1j)を、前記訓練コーパスにおいて十分でなければならない。前記訓練コーパスをきわめて大きくしなければならず、多くの可能な単語ストリングに関してF(wj-N+1...wj-1j)=0である状況を克服するために、既知の平滑化技術を使用してもよい。例として、トライグラムに関して、前記平滑化を、トライグラム、バイグラムおよびユニグラムを周波数に関して補間することによって行うことができ、
P(w3|w2w1)=p1F(w1w2w3)/F(w1w2)+p2F(W1w2)/F(w1)+p3F(w1)/Sum(F(w1))
ここで、負でないウェイトはp1+p2+p3=1を満たし、Sum(F(w1))を前記訓練コーパスのサイズとする。前記ウェイトは、F(w12)およびF(w1)の値に依存し、これらを、交差確認の原理を用いることによって得ることができる。この方法において、適合化を、前記基本言語モデルを、限定された数のユニグラム、バイグラムおよび/またはトライグラムを指定する適合化プロファイルで補間することによって行うことができる。言語モデルを適合化する好適な他の方法は、双方とも本願人に譲渡された独国特許出願公告明細書(未公開)第19708183.5号および第19708184.3号と、ICASSP 1997の会報の2巻1035−1038ページにおけるE.Thelen,X.Aubert,P.Beyerleinによる論文「大規模語彙連続音声認識用フィリップスシステムにおける話者適合化」と、ICSLP 1996の会報の2139−2142ページにおけるE.Thelenによる論文「言語語彙口述に関するロングタームオンライン話者適合化」とにおいて記載されている。
本発明による他のまたは代わりの実施形態において、前記モデル改善データは、語彙データを具える。サーバ局310は、サーバ局310に記憶された(または、サーバ局310に利用可能な)複数の異なる語彙からある語彙を選択する。代わりに、サーバ局310は、語彙適合化プロファイルを選択してもよく、この選択された語彙適合化プロファイルを使用し、基本語彙を適合化してもよい。前記語彙適合化プロファイルは、例えば、前記基本語彙に簡単に加えられ、ある言語において通常使用される単語をカバーすることができる、追加単語のリストを具えるまたは示す。新たな単語を語彙に加えることは、本質的に、この単語を認識することができることを保証するには十分でないかもしれないことは、明らかであろう。音声認識システムに関して、音響基準における翻音が追加で要求される。多くの言語に関して、かなり正確な翻音を、大部分の単語に関して自動的に達成することができる。新たな単語を、前記語彙においてすでにあり、翻音を有する単語と比較することによって、適切な翻音を形成することができる。例えば、かなり高い精度で、ある単語の音声翻音を、既知の単語の音声翻音に基づいて形成することができる。前記翻音が並みの品質のものであるとしても、前記新たな単語は、前記語彙において存在し、好適には、前記言語モデルにおいても存在する。これは、前記言語の認識を可能にし(そうでなければできない)、前記言語モデルの援助によって、前記単語の認識を、その文脈において許容しうるレベルのもルの援助によって、前記単語の認識を、その文脈において許容しうるレベルのものとすることができる。一度前記単語が認識されると、前記翻音を自動的に適合させ、前記単語が認識される実際の発生によりよく一致させることができる。
他の実施形態において、前記語彙訓練データは、少なくとも1つの文脈識別子を具え、サーバ局310は、前記文脈識別子に対応する語彙または語彙適合プロファイルを選択する。前記言語モデルに関して説明したのと同様に、サーバ局310は、前記文脈識別子に応じてテキストを見つける。この見つけられたテキストから、サーバ局310は単語を抽出する。キーワードのような単語をテキストから抽出する種々の技術が既知である。音声認識に関して、サーバ局310は、別個の「音声」辞書を使用し、前記単語を音響表現に翻音してもよい。代わりに、これを、上述したように自動的に行う。

Claims (11)

  1. ユーザ局に格納された入力パターンを、サーバ局の認識ユニットを使用して認識する方法に関係し、前記サーバ局およびユーザ局をネットワークを介して接続し、前記認識ユニットを、少なくとも1つの認識モデルのモデル集合を使用して前記入力パターンを認識するように動作させ、前記方法は、
    前記ユーザ局のユーザに関するモデル改善データを前記ユーザ局から前記認識ユニットに伝送することと、前記ユーザ局のユーザをユーザ識別子に関係付けることとから成る初期認識登録ステップを行うことと、
    前記ユーザ局およびサーバ局間の認識セッション中に、前記ユーザ局のユーザに関係するユーザ識別子と、前記ユーザによって発生された時間逐次的入力の入力パターン表現とを、前記ユーザによって前記ユーザ局から前記サーバ局に伝送することと、前記認識ユニットを使用し、前記入力パターンを、少なくとも1つの認識モデルを前記ユーザに関係するモデル改善データを反映するモデル集合に入れることによって認識することとを具える方法において、
    前記サーバが、複数の異なる同じ形式の認識モデルを具えることと、
    前記認識登録ステップが、認識モデルを前記複数の異なる同じ形式の認識モデルから、前記ユーザに関係するモデル改善データに応じて選択することと、前記選択された認識モデルの識別子を前記ユーザの識別子に関連して記憶することとを具え、
    前記入力パターンを認識するステップが、前記サーバ局に伝送された前記ユーザ識別子に関係する認識モデルを検索することと、前記検索された認識モデルを前記モデル集合に入れることとを具えることを特徴とする方法。
  2. 請求の範囲1に記載の方法において、
    前記複数の同じ形式の認識モデルを、基本認識モデルおよび複数の適合化プロファイルによって形成し、
    前記認識モデルをユーザに関係するモデル改善モデルに応じて選択するステップが、少なくとも1つの前記適合化プロファイルを前記モデル改善データに応じて選択することを具え、
    前記認識登録ステップが、前記選択された適合化プロファイルの識別子を前記ユーザ識別子と関連して記憶することを具え、
    前記ユーザ識別子に関係する認識モデルを検索するステップが、前記ユーザ識別子に関係する適合化プロファイルを検索することと、前記基本認識モデルを前記適合化プロファイルの制御の下で適合化させることとを具えることを特徴とする方法。
  3. 請求の範囲1に記載の方法において、前記入力パターンが音声表現データを具え、前記モデル改善データが音響訓練データを具え、前記複数の認識モデルから1つの認識モデルを選択することが、前記ユーザに関係する音響訓練データに基づいて、複数の異なる音響モデルから1つの音響モデルを選択することか、音響モデル適合化プロファイルを選択し、この選択された音響モデル適合化プロファイルを使用して、基本音響モデルを適合化することかを具えることを特徴とする方法。
  4. 請求の範囲3に記載の方法において、前記音響モデル適合化プロファイルが、音響基準空間を変換するマトリックスか、前記基本音響モデルによって使用される音響基準と結合すべき音響基準の組かを具えることを特徴とする方法。
  5. 請求の範囲1に記載の方法において、前記モデル改善データが言語モデル訓練データを具え、前記複数の異なる認識モデルから1つの認識モデルを選択することが、前記ユーザに関係する言語モデル訓練データに基づいて、複数の異なる言語モデルから1つのモデルを選択することか、言語モデル適合化プロファイルを選択し、この選択された言語モデル適合化プロファイルを使用し、基本言語モデルを適合化させることかを具えることを特徴とする方法。
  6. 請求の範囲5に記載の方法において、前記言語モデル訓練データが、少なくとも1つの文脈識別子を具え、該方法が、前記サーバ局において、前記文脈識別子に対応する言語モデルまたは言語モデル適合化プロファイルを選択するステップを具えることを特徴とする方法。
  7. 請求の範囲1に記載の方法において、前記モデル改善データが語彙訓練データを具え、前記複数の異なる認識モデルから1つの認識モデルを選択することが、前記ユーザに関係する語彙訓練データに基づいて、複数の異なる語彙から1つの語彙を選択することか、語彙適合化プロファイルを選択し、この選択された語彙適合化プロファイルを使用し、基本語彙を適合化させることかを具えることを特徴とする方法。
  8. 請求の範囲7に記載の方法において、前記語彙訓練データが少なくとも1つの文脈識別子を具え、該方法が、前記サーバ局において、前記文脈識別子に対応する語彙または語彙適合化プロファイルを選択するステップを具えることを特徴とする方法。
  9. 請求の範囲6または8に記載の方法において、前記文脈識別子がキーワードを具えることを特徴とする方法。
  10. 請求の範囲9に記載の方法において、前記文脈識別子が単語の列を具えまたは示し、該方法が、前記単語の列から少なくとも1つのキーワードを抽出することと、前記抽出されたキーワードに基づいて前記選択を行うこととを具えることを特徴とする方法。
  11. 入力パターンを格納する少なくとも1つのユーザ局と、認識ユニットを具えるサーバ局とを具えるパターン認識システムにさらに関係し、前記認識ユニットは、前記入力パターンを、少なくとも1つの認識モデルのモデル集合を使用して認識するように動作し、前記サーバ局を前記ユーザ局にネットワークを介して接続し、
    前記ユーザ局が、前記ユーザ局のユーザに関係するモデル改善データと、前記ユーザを前記サーバ局に関係付けるユーザ識別子とを前記サーバ局に初期に伝送する手段と、前記ユーザ局およびサーバ局間の各認識セッション中に、前記ユーザ局のユーザに関係するユーザ識別子と、前記ユーザによって発生された時間逐次的入力の入力パターン表現とを前記サーバ局に伝送する手段とを具え、
    前記サーバ局が、前記ユーザ局およびサーバ局間の各認識セッション中に、少なくとも1つの認識モデルを、前記入力パターンを発生したユーザに関係する前記モデル改善データを反映する前記モデル集合に入れる手段と、前記音声認識ユニットを使用し、前記ユーザ局から受けた入力パターンを認識する手段とを具えるパターン認識システムにおいて、
    前記サーバ局が、
    複数の異なる同じ形式の認識モデルと、
    認識モデルを前記複数の異なる同じ形式の認識モデルから、前記ユーザに関係するモデル改善データに応じて選択し、前記選択された認識モデルの識別子を前記ユーザの識別子に関連して記憶する手段と、
    前記サーバ局に伝送された前記ユーザ識別子に関係する認識モデルを検索し、前記検索された認識モデルを前記モデル集合に入れる手段とを具えることを特徴とするパターン認識システム。
JP52355699A 1997-10-20 1998-10-08 分散システムにおけるパターン認識登録 Expired - Lifetime JP4267081B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP97203267.6 1997-10-20
EP97203267 1997-10-20
PCT/IB1998/001566 WO1999021172A2 (en) 1997-10-20 1998-10-08 Pattern recognition enrolment in a distributed system

Publications (2)

Publication Number Publication Date
JP2001506382A JP2001506382A (ja) 2001-05-15
JP4267081B2 true JP4267081B2 (ja) 2009-05-27

Family

ID=8228844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP52355699A Expired - Lifetime JP4267081B2 (ja) 1997-10-20 1998-10-08 分散システムにおけるパターン認識登録

Country Status (5)

Country Link
US (1) US6363348B1 (ja)
EP (1) EP0980574B1 (ja)
JP (1) JP4267081B2 (ja)
DE (1) DE69822296T2 (ja)
WO (1) WO1999021172A2 (ja)

Families Citing this family (185)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0979497A1 (en) * 1997-10-08 2000-02-16 Koninklijke Philips Electronics N.V. Vocabulary and/or language model training
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US7082397B2 (en) 1998-12-01 2006-07-25 Nuance Communications, Inc. System for and method of creating and browsing a voice web
US20050261907A1 (en) 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US7058573B1 (en) 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
DE19918382B4 (de) * 1999-04-22 2004-02-05 Siemens Ag Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
JP3969908B2 (ja) * 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US6691163B1 (en) * 1999-12-23 2004-02-10 Alexa Internet Use of web usage trail data to identify related links
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7035788B1 (en) * 2000-04-25 2006-04-25 Microsoft Corporation Language model sharing
US6785653B1 (en) * 2000-05-01 2004-08-31 Nuance Communications Distributed voice web architecture and associated components and methods
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US8135589B1 (en) 2000-11-30 2012-03-13 Google Inc. Performing speech recognition over a network and using speech recognition results
US6915262B2 (en) 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
US6823306B2 (en) 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
EP1215661A1 (en) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Mobile terminal controllable by spoken utterances
JP3838029B2 (ja) * 2000-12-18 2006-10-25 セイコーエプソン株式会社 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
JP4109414B2 (ja) * 2000-12-18 2008-07-02 セイコーエプソン株式会社 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
US7024359B2 (en) * 2001-01-31 2006-04-04 Qualcomm Incorporated Distributed voice recognition system using acoustic feature vector modification
US7103549B2 (en) * 2001-03-22 2006-09-05 Intel Corporation Method for improving speech recognition performance using speaker and channel information
US7188064B2 (en) * 2001-04-13 2007-03-06 University Of Texas System Board Of Regents System and method for automatic semantic coding of free response data using Hidden Markov Model methodology
DE10119677A1 (de) * 2001-04-20 2002-10-24 Philips Corp Intellectual Pty Verfahren zum Ermitteln von Datenbankeinträgen
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US20030023431A1 (en) * 2001-07-26 2003-01-30 Marc Neuberger Method and system for augmenting grammars in distributed voice browsing
US20030050783A1 (en) * 2001-09-13 2003-03-13 Shinichi Yoshizawa Terminal device, server device and speech recognition method
US6961722B1 (en) * 2001-09-28 2005-11-01 America Online, Inc. Automated electronic dictionary
KR20030034739A (ko) * 2001-10-26 2003-05-09 삼성전자주식회사 음성단위모델데이터의 갱신방법 및 그 장치
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
JP3967952B2 (ja) * 2002-04-16 2007-08-29 富士通株式会社 文法更新システム及び方法
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
US7539725B2 (en) 2003-04-03 2009-05-26 Zix Corporation Auditor system
US7362892B2 (en) * 2003-07-02 2008-04-22 Lockheed Martin Corporation Self-optimizing classifier
US7379596B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation System and method for personalization of handwriting recognition
GB2409560B (en) 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
DE102005010285A1 (de) * 2005-03-01 2006-09-07 Deutsche Telekom Ag Verfahren und System zur Spracherkennung
US20060235698A1 (en) * 2005-04-13 2006-10-19 Cane David A Apparatus for controlling a home theater system by speech commands
JP5394739B2 (ja) * 2005-08-09 2014-01-22 モバイル・ヴォイス・コントロール・エルエルシー 音声制御型ワイヤレス通信デバイス・システム
US7440894B2 (en) * 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US20070132834A1 (en) * 2005-12-08 2007-06-14 International Business Machines Corporation Speech disambiguation in a composite services enablement environment
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
US20080228479A1 (en) * 2006-02-24 2008-09-18 Viva Transcription Coporation Data transcription and management system and method
US20070203901A1 (en) * 2006-02-24 2007-08-30 Manuel Prado Data transcription and management system and method
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4658022B2 (ja) * 2006-11-20 2011-03-23 株式会社リコー 音声認識システム
TWI342010B (en) * 2006-12-13 2011-05-11 Delta Electronics Inc Speech recognition method and system with intelligent classification and adjustment
US7877258B1 (en) * 2007-03-29 2011-01-25 Google Inc. Representing n-gram language models for compact storage and fast retrieval
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8731939B1 (en) 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
US8682661B1 (en) 2010-08-31 2014-03-25 Google Inc. Robust speech recognition
US9484018B2 (en) * 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
US10032455B2 (en) 2011-01-07 2018-07-24 Nuance Communications, Inc. Configurable speech recognition system using a pronunciation alignment between multiple recognizers
US9674328B2 (en) * 2011-02-22 2017-06-06 Speak With Me, Inc. Hybridized client-server speech recognition
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
TWI549055B (zh) * 2011-08-05 2016-09-11 宏碁股份有限公司 更新網路內容的方法與裝置
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
CN104137126B (zh) * 2012-02-24 2017-07-28 丰田自动车株式会社 车辆状态推定系统、车辆状态推定方法及驾驶支援系统
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9767793B2 (en) * 2012-06-08 2017-09-19 Nvoq Incorporated Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9460716B1 (en) * 2012-09-11 2016-10-04 Google Inc. Using social networks to improve acoustic models
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) * 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
CN104769668B (zh) 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US9691377B2 (en) 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
US9275638B2 (en) 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US9305554B2 (en) * 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9792911B2 (en) * 2014-03-25 2017-10-17 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Background voice recognition trainer
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9472196B1 (en) 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US9965685B2 (en) * 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9740751B1 (en) 2016-02-18 2017-08-22 Google Inc. Application keywords
US9922648B2 (en) 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US9691384B1 (en) 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4773093A (en) * 1984-12-31 1988-09-20 Itt Defense Communications Text-independent speaker recognition system and method based on acoustic segment matching
US5182765A (en) * 1985-11-26 1993-01-26 Kabushiki Kaisha Toshiba Speech recognition system with an accurate recognition function
GB8702910D0 (en) * 1987-02-10 1987-03-18 British Telecomm Multi-user speech recognition system
US5165095A (en) * 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
JPH07210190A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
WO1998022936A1 (en) * 1996-11-22 1998-05-28 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation

Also Published As

Publication number Publication date
WO1999021172A2 (en) 1999-04-29
EP0980574B1 (en) 2004-03-10
DE69822296D1 (de) 2004-04-15
US6363348B1 (en) 2002-03-26
EP0980574A2 (en) 2000-02-23
JP2001506382A (ja) 2001-05-15
DE69822296T2 (de) 2005-02-24
WO1999021172A3 (en) 1999-07-01

Similar Documents

Publication Publication Date Title
JP4267081B2 (ja) 分散システムにおけるパターン認識登録
EP1171871B1 (en) Recognition engines with complementary language models
US10410627B2 (en) Automatic language model update
US6487534B1 (en) Distributed client-server speech recognition system
US6430551B1 (en) Vocabulary and/or language model training
US6961705B2 (en) Information processing apparatus, information processing method, and storage medium
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP5166661B2 (ja) 計画に基づくダイアログを実行する方法および装置
US5819220A (en) Web triggered word set boosting for speech interfaces to the world wide web
EP1349145B1 (en) System and method for providing information using spoken dialogue interface
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
EP1181684A1 (en) Client-server speech recognition
JP2001101187A (ja) 翻訳装置および翻訳方法、並びに記録媒体
WO2002054385A1 (en) Computer-implemented dynamic language model generation method and system
Rabiner et al. Speech recognition: Statistical methods
US20040006469A1 (en) Apparatus and method for updating lexicon
Di Fabbrizio et al. AT&t help desk.
Li et al. Language modeling for voice search: a machine translation approach
KR101483945B1 (ko) 의미 분석이 가능한 음성 인식 방법 및 이를 위한 음성 인식 장치
JP2001222292A (ja) 音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体
Fischer et al. Towards multi-modal interfaces for embedded devices

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051005

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070402

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090120

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090218

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140227

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term