JP4180110B2 - 言語認識 - Google Patents
言語認識 Download PDFInfo
- Publication number
- JP4180110B2 JP4180110B2 JP52671596A JP52671596A JP4180110B2 JP 4180110 B2 JP4180110 B2 JP 4180110B2 JP 52671596 A JP52671596 A JP 52671596A JP 52671596 A JP52671596 A JP 52671596A JP 4180110 B2 JP4180110 B2 JP 4180110B2
- Authority
- JP
- Japan
- Prior art keywords
- measure
- node
- speech
- weighting
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 49
- 238000013138 pruning Methods 0.000 claims description 14
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011524 similarity measure Methods 0.000 claims description 6
- 230000003252 repetitive effect Effects 0.000 claims 5
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000003672 processing method Methods 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 240000005343 Azadirachta indica Species 0.000 description 1
- 235000013500 Melia azadirachta Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Navigation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Selective Calling Equipment (AREA)
- Computer And Data Communications (AREA)
- Feedback Control In General (AREA)
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(i)ユーザは都市の名前を話し;
(ii)言語認識器は、記憶された都市のデータを参照することによって、話された都市の名前に最もよく整合する幾つかの都市を識別し、“得点(スコア)”または整合の一致度を示す確率を生成し;
(iii)リストは識別された都市に存在する全ての道路名からコンパイルされ;
(iv)ユーザは道路名を話し;
(v)言語認識器はリストに含まれるものの中から幾つかの道路名を識別し、話された道路名に最もよく整合するものだけ得点を与え、
(vi)道路得点は、その道路が位置する都市が得た得点にしたがってそれぞれ重み付けをされ、最も可能性の高い“道路”が最も重み付けされた得点を有すると考えられる。
アプリオリ確率は、前の言語認識プロセスから始まる必要はない;例えば上記の特許出願に記載されている別の番号案内システムでは、呼の発生源を識別する信号を使用して、その領域から照会者が望んでいる可能性の最も高い都市に関する統計的情報にアクセスして、都市名認識プロセスの結果に重み付けをする。
このプロセスは、留保条件のために信頼度が高いという利点を有する。この留保条件とは、例えば、道路名認識段階で第1の選定都市の道路よりも第2の選定都市の道路の方が著しく得点が高くなければ、第2の選定都市からは道路を選定しないというものである。しかしながらこのプロセスの欠点は、道路名認識段階を実行するとき、認識器が道路名の制限された数だけしか生成しないので、この短い道路名リストでは、低得点の都市に位置する道路名しか含むことができない、すなわち高得点の都市内に位置する道路の低得点の道路名は、重み付けプロセスを適用する前に認識器によって既に“プルーニング”されていることである。
米国特許第47838303号明細書は、アプリオリ確率が先に認識された1又は複数のパターンの所定のコンテキストに関係している言語認識装置を記載している。ある単語の後にある別の単語が発生する確率を示す言語得点は、それらの単語を含むシーケンスに対して得られる得点と共同される。
本発明にしたがうと、言語認識方法であって:
未知の話声の部分を基準モデルと繰返し比較して類似性について累積された尺度を生成して、この累積された尺度が、基準話声の複数の許容できるシーケンスを定義する記憶されたデータにより定義された該シーケンスの各々に対して生成されるようにし、この類似性の累積された尺度が、それぞれの許容できるシーケンス内の以前の話声に対応する基準モデルと話声の1又は複数の以前の部分との比較から得られた、以前に生成された尺度からの寄与分を含むものであるが、別の繰返しの比較から、他のシーケンスに対する尺度より、所定のプルーニング基準によって定義された程度まで類似性の指標を小さくするようなシーケンスを除くものであるようにし;
該累積された尺度に許容されたシーケンスの各々に対する重み付け因子に従って重み付けをし、この重み付けが部分的シーケンスに対する尺度もしくは累積された尺度の各計算に対して、この部分的シーケンスで始まる許容できるシーケンスの各々に対する重み付け因子から、話声もしくはこの部分的シーケンスで始まるより短いシーケンスに対して生成された尺度に加えられる重み付け因子を差引いた組合せた値による重み付けであるようにする言語認識方法が提供される。
好ましくは、前記重み付けをした累積された尺度が他のシーケンスに対するよりも、プルーニング基準により定義された程度まで類似性の指標を小さくするようなシーケンスが、別の繰返し比較から排除される。プルーニングは、生成された尺度の数に依存して行われ、さらなる繰返し比較から除外されずに、その数を一定に保つようにする。
本発明の別の態様では、言語認識装置であって:
話声を表す基準モデルに関係するデータと基準話声の許容できるシーケンスを定義するデータとを記憶するための記憶手段と;
未知の話声の部分を基準モデルと繰返し比較して類似性の累積された尺度を、基準話声の複数の許容できるシーケンスを定義する記憶されたデータにより定義されたこのシーケンスの各々に対して生成し、該累積された尺度は前に生成された尺度からの寄与分を含むものであって、それぞれの許容できるシーケンス内の以前の話声に対応する基準モデルと話声の1又は複数の以前の部分との比較から得られた尺度であるように生成するための比較手段と;
該累積された尺度に許容されたシーケンスの各々に対する重み付け因子に従って重み付けをし、この重み付けが部分的シーケンスに対する尺度もしくは累積された尺度の各計算に対してこの部分的シーケンスで始まる許容できるシーケンスの各々に対する重み付け因子から、話声もしくはこの部分的シーケンスで始まるより短いシーケンスに対して生成された尺度に加えられる重み付け因子を差引いた組合せた値による重み付けとするよう重み付けをする手段とから成る言語認識装置が提供される。
さらに別の態様では、本発明は、音に対応する基準モデルと定義する記憶されたデータと認識すべき話声に各シーケンスが対応しており、かつこのモデルの許容できるシーケンスを定義する記憶されたデータとを参照することにより言語認識をする方法であって:
未知の話声の部分を基準モデルと比較して話声の以前の部分と部分的に許容できるシーケンスとの間の類似性を示す尺度を更新し、話声のより長い部分とより長い部分的に許容できるシーケンスとの間の類似性を示す尺度を作るようにし;
これら部分的なシーケンスでその尺度が類似性について定義された度合いよりも小さな尺度となるようなものを識別し;
識別された部分的なシーケンスの1つで始まるシーケンス又は部分的なシーケンスに関する尺度のさらなる生成を抑制し;
て成り、該識別は尺度の閾値との比較により実行され、またこの閾値は生成されかつ抑制されていない尺度の数に依存して繰返し調節されて、その数が定数を維持するようにされていることを特徴とする方法が提供される。
本発明のさらに別の態様では、基準話声の複数の許容できるシーケンスを表す言語認識網の各ノードに重み付け因子を指定する方法であって:
各ノードに対して、そのノードを取込んでいる部分的シーケンスで始まる許容できるシーケンスの各々に対する重み付け因子の値と、その部分的シーケンスで始まる話声もしくはより短いシーケンスに適用される重み付け因子を差引く値の組合せをすることを含む方法が提供される。
重み付け因子はログ変域内で生成することができ、所定の重み付け因子のログは、許容できるシーケンスに対応する網の最終ノードに対して指定され;
各先行するノードに対してログ確率値としてノードまたは後段のノードに指定されたそれらの値の最大値を指定され;
各ノードに対する値から先行するノードに指定された値を減ずる。
前記ノードは基準話声を表すモデルと関係しており、関係するモデルのパラメータは各ノードに指定された重み付け因子を反映して修正することができる。
本発明はとくに、木(トリー)構造を有し、第1のノード以外の少なくとも1つのノードが2以上の枝をもつ認識網に応用可能である。
ここで本発明の幾つかの実施形態を例示的に添付の図面を参照して記載する。
図1は、本発明の1実施形態にしたがう装置のブロック図である。
図2は、隠れマルコフモデル(Hidden Markov Models)のネットワークの概略図を示す。
図3は、図1のトークンメモリの内容を示す。
図4は、図1の装置によって重み付けの配置を示す。
図5は、図1のノードメモリの内容を示す。
図6は、図1の動作を示すフローチャートを示す。
図7は、図1の語彙メモリの内容を示す。
図8は、図4の配置に対する代わりの重み付け手順を示す。
言語認識には基本的に2つの方法がある。並列処理方法は、各話声(例えば、単語)が基準テンプレートまたはモデルを連続的に比較して、もっとも類似するものを1つ以上識別するやり方であり、トリー処理方法は、話声の一部分(例えば、フォニーム)が基準テンプレートまたはモデル(なお“モデル”は一般的な意味で使用している)と比較して、その部分を識別し、さらに次の部分に対して同様の処理を行なうやり方である。
ここでトリー構造を使用する実施形態を記載する。
図1の言語認識器は、言語信号用の入力1を有し、これはデジタル対アナログコンバータ2によってデジタル形式に変換される。次にこのデジタル信号は、例えば10msの間多数のパラメータまたは“特徴”をもつ継続するフレームのそれぞれを計算する特徴抽出器3に供給される。通常使用される特徴、例えばMel周波数ケプストラム係数(Mel frequency cepstral coefficients)または変形予測係数を選択することができる。
フレーム毎の可能な特徴値の組合せの数は相当に大きく、後の処理を処理可能な程度まで減少するために、ベクトル量子化を応用するのが一般的で、すなわち特徴の組を制限された数mの標準の特徴の組合せ(v1、v2、…、vm)の1つに整合させるのが一般的である。これはベクトル量子化器(VQ)4によって行われ、単一の数または“観察”Oj(j番目フレームに対して)を生成する。次にこれが、分類器5に供給され、通常ここでは観察シーケンス[Oj]をモデルメモリ6に記憶された1組のモデルに整合させる。各モデルは異なるサブワード、例えばフォニームに対応する。分類器は、プログラムメモリ52、ノードメモリ53、およびトークンメモリ54内の記憶プログラムによって制御される中央プロセッサ51を含んでいる。分類器は、隠れマルコフモデルを使用して分類処理を行なう。ここでその原理を記載する。
概念的に、隠れマルコフモデルは“ブラックボックス”として扱われ、nの可能な状態を有し、正規間隔で1つの状態から次の状態へ進むことができるか、またはその代わりに確率のパラメータにしたがって同じ状態に留まることができる。状態iから状態jへの遷移確率はaijであり、状態iに留まる確率はaiiである。したがって、次の式のようになる。
言語音の時間的順序が原因で、左−右モデルが一般的に、aijが
のときのみゼロ以外になるものに対して使用される。特定の状態で、出力が生成され、それは可能な限定された数mの出力、例えば、第2の組の確率にしたがってv1、v2、…、vmの1つであってもよい。このコンテキストでは、vkは特定の組の言語の特徴を識別する。状態jのときに出力vkを生成する確率はbjkである。したがって、
第3のパラメータは、特定の状態から始まる確率である。状態iから始まる確率はπiである。
したがってモデルは、1組のパラメータ、
A=[aij](i=1…n,j=1…n)
B=[bjk](i=1…n,j=1…n)
π=[πi](i=1…n)、
およびこのパラメータに適用されて、出力シーケンスを生成することができる1組の規則から成る。事実、モデルは存在せず、出力シーケンスも生成されない。むしろ、言語認識の問題は、vのシーケンス(各vは観察された言語の特徴の組を表している)を与えるとき、A、B、πによって定められるモデルMがこのシーケンス(観察シーケンス)を生成できる確率Pが何であるか”という質問として形成される。
この質問は、それぞれが(例えば)異なるフォニームを表している多数の異なるモデルに対して照会されるとき、最も高い確率を有するモデルによって表されるフォニームが認識されたと考えられる。
観察シーケンスが時間t=1乃至t=Tに対してO1、O2、…、OTであると想定する。この観察で状態jに到達する確率αT(j)は、次の反復式によって得られる。
モデルMによって生成される観察シーケンスOの確率は、次のとおりである。
これは、全ての可能な状態のシーケンスを考慮した観察シーケンスOの確率であり;実際には、一定量の計算を減少するために、通常はViterbiアルゴリズムを呼出し、観察シーケンスを生成するのに最高の確率をもっている状態シーケンスと関係する確率を計算する。この場合式1乃至3が次の式と置換される。
または、ログ変域では、
モデルメモリ6は、相関言語の各フォニームに対するA、B、およびπの値(これらは一緒にモデルMと呼ばれる)を含む。モデルのパラメータを生成するためのトレーニングプロセスは一般的であるので、さらに説明を加えない。S.J.Coxによる”Hidden Markov Models for Automatic Speech Recognition: Theory and Application”(British Telecom Technology Journal Vol.6, No.2, 1988年2月)を参照されたい。特定の観察シーケンスOのフォニームは、各モデルM1…MQ(なお、Qはモデルの数である)に対してPr v(O|Mi)を計算することによって認識される。最も高いPr vを生成するモデルを有するフォニームは、認識されると考えられる。
もちろん、実際には単語を認識することが必要である。この処理は、多数のノードを有するネットワークまたはトリー構造の形態で視覚化することができる。この構造は、後で分かるように各ノードはメモリの各領域に対応するという意味でのみ存在する。
図2は、“yes”と“no”を区別する簡単なネットワークを示している。ここではこれらのフォニームを{y}{eh}{s}および{n}{ow}で示している。
図2でノード10は、最後のノード16と同様にノイズモデル(全体的に1つの状態のモデル)に対応しており、これらは前後の“黙音(silence)”を表している。最後のノードを除く残りのノードは、図示されたフォニームに対応している。例えば、ノード11は“yes”のフォニーム[y]に対応している。
動作において、ノードは図3に示されている次の情報を含むトークンを受取る:
−前のノードから累積された得点;
−前のノードの識別子(ノードメモリ内のアドレス);
−このトークンを生成した前のノードによって受取られるトークンの識別子(トークンメモリ内のアドレス);
−トークンはさらに活性/不活性フラグも含み、この使用は以下に記載する。
このようなトークンは全て、将来の参照のためにトークンメモリ54に記憶される。
第1のノードはフレームレートでエンプティトークンを供給される。ノードに到達するトークンは、そのノードへ向うパス上のノードと関係するモデルにこれまでの言語入力が対応する尤度(実際には確率の対数)を示す得点を含んでいる;したがってノード13に到達するトークンは、ここまでの言語が話声{y}{eh}に対応する尤度を示す得点を含んでいる。ノードに関連するタスクは、新しい言語入力フレームとそのモデルを比較することである。これは、新しいフレームに関して式7乃至9の計算を行って、到来する得点に付加されて、得点を更新する確率Pr vを得ることによって行われる。新しいトークンはこの得点を含む出力であり、次のノードへ送られる。普通、この得点は、トークンを出力する前にモデルの状態の数(一般的に3)に等しいフレーム数に累積される。その後、トークンはフレーム毎に生成される。ノードが別のトークンを受取る一方で、それが依然として第1のノードを処理しているとき、このノードは別のトークンの得点と第1のノードの最新の得点を比較し(すなわち、最新のログPr vと到来するトークンの得点とを加算し)、新しいトークンを無視するか、または別のトークンの得点が2つの得点の高い方であるか低い方であるかにしたがって新しいトークンのために現在の処理を放棄する。
与えられた例では、パスは最後のノードを除いて収束しない。パスが収束可能なとき、多数のパスの伝搬が可能であっても、2つのトークンの同時到着の確率は、普通より低い得点を有するものを無視することによって処理される。
最後のノード16では、収束するパスの最も高い得点のノードを除いた全てを拒絶することができるが、多くの応用では、2つ以上を保持することが望ましい。さらに、最後のノードで望ましい得点になる機会はないと考えられるほど低い得点を保持するトークンの伝搬を終了する準備が行われる。以下でさらにこの“プルーニング”処理を説明する。ネットワークを通るパスを識別して、話声のフォニームを発見することができる。これは、出力トークンから戻って成功したトークンシーケンスをトレースする、“前のトークン”アドレスを使用してトークンメモリ内のトークンを識別することによって認識されると考えられる。
トリー構造に組込まれるHMモデルは単一の大きなモデルであると考えられることを記載しておくべきであろう。
ここまでに説明したように、認識器は、一般的な意味で、通常のものである。ここで記載される認識器の別の特徴は、認識トリーヘアプリオリ確率を“伝搬する”目的を有することである。単語“cat”、“cab”、“cob”、“dog”、および“den”を区別するための図4に示されたトリーを検討する。前のプロセスの結果として、これらを行うアプリオリ確率は、値0.5、0.2、0.3、0.1、0.1を重み付けすることによって表されると想定する。これは、ノード23,24,26,29,31の得点入力を、別の決定が行われる前にこれらの値によって重み付けをされる必要があることを意味している。しかしながら、重み付けは、次に示すようにトリー内の各ノードに対して行われる。したがってその単語が“cat”または“cab”または“cob”である確率は、0.5+0.2+0.3=1.0の重み付けをすることによって表され、一方で“dog”または“den”に対する対応する値は0.1+0.1=0.2である。その結果、ノード21に対する得点入力は、1.0に因子によって重み付けされ、ノード27に対する入力は0.2の因子によって重み付けされる。一方で“cat”または“cab”に関連する値は0.7であり、他方で“cob”に関連する値は0.3であるので、ノード22および25への入力に適切に重み付けをする必要がある。しかしながら、1.0の因子はノード21によってこのブランチに既に適用されているので、ノード22および25における重み付けは以下のように表すことができる。
ノード22における重み付け=0.7/1.0=0.7
ノード25における重み付け=0.3/1.0=0.3
同様に、ノード23および24は以下のように表すことができる。
ノード23における重み付け=0.5/(1.0×0.7)=5/7
ノード24における重み付け=0.2/(1.0×0.7)=2/7
また、ノード28および30は以下のように表すことができる。
0.1/0.2=0.5
もちろん、図4のトリーは、このプロセスを概念的に表しているだけである。実際には、各ノードは、以下の情報を有するノードメモリ(図5参照)内のエントリによって表される。
−使用されるモデルの(モデルメモリ内の)アドレス;
−ネットワーク内の次のノードのアドレス;
−ノードが活性であるか否かを示すフラグ;
−そのノードに関係する重み付けを示すログ値;
−計算の結果に対する一時的ストレージ。
最初の2つの項目の内容は、認識器の語彙を設定するときに決定される。このプロセスは、認識される単語のリストを含む語彙メモリ7(図1参照)を参照することによって実行され、各単語に対して、アドレスのストリングがその単語の言語音(sound)に対応するフォニームモデルのシーケンスを識別する(同じく図7参照)。ノードメモリの内容の生成(以下で説明されるログの重み付け値の内容のセーブ)は一般的である;それは、各単語に対応するノードアドレスのシーケンスの語彙メモリへの挿入を含む。
CPU51は、図6のフローチャートに示されているように、プログラムメモリ52内に記憶されるプログラム制御のもとで以下の処理を行う;
第1に、第1のノードへの入力としてエンプティトークンを生成する、すなわちゼロ(すなわち、ログ(1))の得点およびゼロを発生するノードアドレス(これはトークンが第1のノードによって処理されることを意味すると考えられる)および前のフレームの日付を有するトークンメモリ内にエントリを生成する。これらの第1のノードはそこで“活性”であると考えられる。
次に、フレーム期間では以下の段階を実行する:
各活性ノードに対して:
−HMMプロセスを開始し、かつこのノードによって処理されるトークンが最後のフレーム内で生成されなかったときには、現在のフレーム観察Oを使用してHMMプロセスを更新する。プロセスがnフレームに到達したとき(なおnはこのノードに関係する特定のHMMの状態の数である)、ノードメモリに記憶されたログのアプリオリ確率値を計算された尤度の値に加算し、その結果を使ってトークンメモリ内に新しいエントリを生成する(それにも関わらず、現在のプロセスは次のフレームに対しても続けることができることに注意すべきである);
−プロセスを開始せず、このノードによって処理されるトークンが最後のフレーム中に生成されなかったとき、(すなわち、活性フラグがちょうど設定されたとき)現在のフレーム観察を使用して、新しいHMMプロセスを開始する。単一の状態のHMMの場合、その結果を使用して、トークンメモリ内に新しいエントリを生成する;(それにも関わらず現在のプロセスは次のフレームまで続けることができることに注意すべきである);
−プロセスを開始し、このノードによって処理されるトークンが生成されたとき、到来する得点と内部の得点とを比較し、その結果にしたがって上述のプロセスを継続し、無変化のままか、あるいは第1の状態への入力として到来するスコアを付加する。
−生成された各トークンに対して、
−トークン得点から発生ノードアドレスを得て;
−発生ノードに対するノードメモリエントリから“次のノード”アドレスを得て;
−このような次のノードのそれぞれを次のフレームに対して活性であるとフラグを立てる。
−トークンメモリ内に新しいエントリが生成されるときは、
−関係する得点が、記憶された“全てのトークンに対する最高得点”数を越えているとき、この数字を更新し;
−関係する得点が、記憶された“全てのトークンに対する最高得点”数よりも所定のマージン(例えば、50)よりも大きい分だけ小さければ、トークンメモリのエントリを除去する(“プルーニング”段階)。この結果ノードが入力および出力の両トークンをもたないとき、それを不活性にする(すなわち、ノードメモリのエントリを除去する)。
−最後のノードでは、
認識が完了したとき、および認識パスのトレースバックを行うことができることに関する決定は、特定の測定を検査する規則および閾値のシステムに基づいて行われる。したがって、各フレームに対して、最後のノードで現れる最良のトークンをトレースバックして、最後のノイズノードで幾つのフレームが費やされたかを検査する。(ネットワーク内の全てのパスは、端部にノイズノードを有すると想定する)。継続期間が閾値よりも長く、パスの得点が別の閾値よりも高いとき、認識を止める(すなわち、完全なパスに対する認識得点が適度に好ましくなり、パスが端部に適度な量のノイズ、一般的に20フレーム、すなわち0.32フレームを含むまで、待たなければならない)。これは、言語検出アルゴリズムの終了を最も簡単に記述したものである。実際には、アルゴリズムは現時点までの信号のSNRおよびノイズエネルギーの分散に関する付加的な検査によって拡張することができる。さらに多数のタイムアウトがあって上述の検査が連続して失敗するとき、言語検出の終了が結局はトリガすることが確実となるようにする。
次に、最高の得点トークン、またはNoutの最高の得点トークン(ここでNoutは所望の数の出力選択である)に対して、
(a)トークンから先のノードおよびそこから関連するモデル識別子を検索し;
(b)前のトークンメモリエントリを検索し;
(c)全てのモデルを識別するまで、(a)および(b)を反復する。
ここで認識された単語は、関連する得点と一緒に使用できる。
上述は、認識プロセスである:このプロセスを開始する前に、ログのアプリオリ確率をノードメモリに入力することが必要である。前の認識プロセスによって、図7に示されたフォーマットでアプリオリ確率値を生成したと仮定する。ここでは(例として)多数の都市名のそれぞれがそれに割当てられた確率を有するとする。CPU52は、ノードアプリオリの確率の値を導き出すための次の設定プロセスを実行する。
第1に、語彙メモリ7を参照することによって、単語をノードシーケンスに変換することが必要であり、その結果、認識トリーを通る各可能なパスに対して、各ノードへ向う途中のログのアプリオリ値の合計が分かる。次に、図4に示されているように、各ノードに対して個々の値を計算することが必要であり、次のようになる:
(a)所定の確率値を各単語に対応する最後のノードに割当て;
(b)右側から左側へ進み(図4参照)、各ノードに対して、それにしたがうノードに割当てられたものの合計である確率値を割当て(図4では、第1のノードは割当てられた値の1を有するようにとられている);
(c)左側から右側へ進み、前のノードに割当てられた値によって各ノードに対する確率値を分割し;
(d)全ての値のログを取る。
実際には、全体的に計算の面倒の少ない技術がログ値と共に行われ、合計ではなく、最大値を取る。したがって、(図8に示されているように):
(a)所定のログの確率値を各単語に対応する最後のノードに割当て;
(b)ノードまたは後段のノードに割当てられた最大値であるログ確率値を各ノードに割当て;
(c)各ノードに対する値から、前のノードに割当てられた値を控除する。
もちろん分岐していないリンクの計算(角括弧で示されている)は行う必要がない。
上述では、第1の基準は、トークンは閾値より下の得点を保持する、すなわち、如何なるときにおいても“最良のパス”の得点数を保持するときにトークンを消去するというものである。事実、ログ確率を使用するので、ログの得点と、最良のログ得点から最良の平均動作を与えるように設定された固定マージン値を引いたものとの間で比較が行われる。
しかしながら、実際には使用するための最適のプルーニングレベルは実際に話された話声に依存する。したがって、変形例では、プルーニングは認識器の現在の計算上の負荷の関数として調節される。例えば、それは活性ノードの数に依存して調節することができる。したがって、
1.幾つかのノードのみが活性であるとき、プルーニング閾値は緩められ、より多くのノードが活性状態を保ち、潜在的に精度を高められる。
2.多くのノードが活性であるとき、プルーニング閾値はきつくされ、計算量を減少する。
これに関して、閾値を調節して、活性ノードの数を一定に保つことは可能である。このときは、各時間フレームにおいて、活性ノードnaの数は所望の目標nt(例えば、1300)と比較される。閾値のマージン値MTを段階値Ms(例えば、2)によって、Moの開始値(例えば、100)から最小値Mmin(例えば、75)と最大値(例えば、150)との間で変化させることができる。各時間フレームごとに以下の段階をとることができる。
(1)na>ntおよびMT>Mminのとき、M=M−Ms
(2)na<ntおよびMT<Mminのとき、M=M+Ms
しかしながら他の基準を適用できるときもあり、例えば活性モデル状態数または(とくに非常に多くの語彙を有する認識器のときは)活性単語数に基づいて決定することができる。
この動的な閾値の調節は、アプリオリの重み付けを行わないシステムで使用することもできる。
上述の認識器は、特定の状態で行われる限定された数の可能な観察を行うように制限されている。しかしながら望むのであれば、観察Oに対する値を有する連続する確率密度bj(O)によって確率bjkを置換することができる。周知のように、全体的な連続確率密度は、もっと拘束された形態−通常ガウス分布の連続関数の離散数の重み付けをした合計(または混合)によってうまい具合に近似値を得ることができる。したがって確率密度の関数は、
なお、Xは混合における成分(または“モード”)の数であり、cjxは状態jにおけるモードxの重み付けであり、N[O、μjx、Ujx]は、中間ベクトルμjxおよび共分散マトリックスUjxで多変量垂直分布からベクトルOを引出す確率である。
ガウス分布に対して、次の式が成り立つ。
なお、dはベクトルの大きさである。これは、Uが項目(term)σiを有する対角行列であるとき、次のように減少する。
なお、υiはOの要素である。
式1乃至9の認識プロセスは変更されず、bの定義のみが変化する。この連続する密度モデルのトレーニングプロセスは知られているので、以下で説明しない。
並列処理方法は、上述で説明したトリー処理方法よりも簡単である。プルーニングを含むこの典型的な処理方法は、モデルを検査するときの実行リストの上から(例えば)6つの“最良”の候補を維持することを含む。例えば、
(a)未知の単語を最初の6つのモデルと比較し、これらのモデルのリストを生成し、それぞれに対して類似の得点を記録し;
(b)未知の単語を別のモデルと比較する。得られた得点が、リスト内の他の何れよりも高ければ−すなわち類似度がより高いときは、リスト内の最も低い得点エントリに新しいモデルおよび得点を代入し;
(c)全てのモデルを処理するまで段階(b)を反復する。このプロセスは、上から6つの高得点のモデルのリストを生成する。最良の候補を選択する前に、アプリオリの確率が適用されるとき、6つの得点のそれぞれが相関する重み付け因子によって乗算され、最良の重み付けをされた得点を有する候補が選択される。
提案された方法では、認識プロセス中に重み付けが行われる;すなわち、
(a)未知の単語を第1の6つのモデルと比較し、それぞれに対して類似の得点を発生する。各モデルに対する重み付け因子によって得点を乗算する。これらのモデルのリストを生成し、それぞれに対して重み付けされた得点を記録し;
(b)未知の単語を別のモデルと比較する。このモデルに対する重み付け因子によって得点を乗算する。得られた重み付けした得点がリスト内の他のものよりも高いときは、最も低く重み付けをされた得点を有するリストにおいてエントリに対する新しいモデルおよび重み付けされた得点を代入し;
(c)全てのモデルが処理されるまで、段階(b)を繰返す。
Claims (9)
- 言語認識方法であって:
類似性の尺度を生成するために、未知の話声の一部分と基準モデルとを比較し、該未知の話声は以前の部分と前記一部分と別の部分からなり;
該未知の話声の別の部分を基準モデルと繰返し比較して、基準話声についての複数の許容できるシーケンスの各々に対して類似性の累積された尺度を生成し、ここで該基準話声についての許容できるシーケンスは、このシーケンスを定義している記憶されたデータによって定義されるものであり、また該生成された、類似性の累積された尺度が、前に生成された類似性の尺度からのそれぞれ寄与分を含むものであり、ここで言う前に生成された類似性の尺度は、それぞれの許容できるシーケンス内の以前の基準話声に対応している基準モデルと未知の話声のいくつかの以前の部分との比較からそれぞれ得られた尺度であるとし;
該累積された尺度に該許容できるシーケンスの各々に対する論理に基づいた確率を表わしている重み付け因子に従って重み付けをし;
この重み付けが、いくつかの許容できる基準話声のシーケンスの一部分についての尺度または累積された尺度の各計算を重み付けすることにより実行され、
この重み付けは、その一部分で始まる許容できる各シーケンスについての重み付け因子を組合せることによって得られる組み合わせた値を使用し、
ここで該組合せた値は、上記一部分が始まる話声もしくはそれより短いシーケンスについて生成された尺度に適用されるいずれかの重み付け因子により修正されることを特徴とする言語認識の方法。 - 前記重み付けされ累積された尺度が、他の許容されるシーケンスに対する尺度よりも、プルーニング規準により定義された程度まで小さい類似性を示すシーケンスを、さらなる繰返し比較から排除するようにした請求項1記載の方法。
- 前記プルーニング規準は、生成されかつ以後の繰返し比較から排除されなかった尺度の数に依存して、繰返し調節されて、その数が一定に保たれるようにする請求項2記載の方法。
- 言語認識装置であり:
話声を表す基準モデルに関係するデータと、基準話声の許容できる複数のシーケンスを定義するデータとを記憶するための記憶手段と;
いくつかの先行する以前の部分と、いくつかの別の部分とを有する未知の話声の部分を基準モデルと繰返し比較して、類似性の累積された尺度を、基準話声の複数の許容できるシーケンスの各々に対して生成し、該生成された、類似性の累積された尺度は前に生成された類似性の尺度からのそれぞれの寄与分を含むものであって、ここでの前に生成された類似性の尺度は、それぞれの許容できるシーケンス内の以前の基準話声に対応している基準モデルと未知の話声のいくつかの以前の部分との比較からそれぞれ得られた尺度であるように生成するための比較手段と;
該累積された尺度に該許容できるシーケンスの各々に対する論理に基づいた確率を表わしている重み付け因子に従って重み付けするための重み付け手段とを備え、
この重み付け手段は、いくつかの許容できる基準話声のシーケンスの一部分についての尺度または累積された尺度に重み付けをするように動作可能であり、
この際の重み付けは、その一部分で始まる許容できる各シーケンスについての重み付け因子を組合せることによって得られる組み合わせた値を使用し、
ここで該組合せた値は、上記一部分が始まる話声もしくはそれより短いシーケンスについて生成された尺度に適用されるいずれかの重み付け因子により修正されることを特徴とする言語認識装置。 - 重み付けされ累積された尺度が、他の許容されるシーケンスに対する尺度よりも、所定のプルーニング規準により定義された程度まで小さい類似性を示すシーケンスを、さらなる繰り返し比較から排除する手段をさらに含む請求項4記載の装置。
- プルーニング規準は、生成されかつ以後の繰返し比較から排除されなかった尺度の数に依存して、繰返し調節されて、その数が一定に保たれるようにする請求項5記載の装置。
- 基準話声の複数の許容できるシーケンスを表す言語認識網の各ノードに重み付け因子を指定する方法であって:
基準話声の許容できるシーケンスの各々について重み付け因子を前もって決めることと、ただしここで各重み付け因子は、発生しているそれぞれの許容できるシーケンスについての論理に基づいた確率を表わしているものであり;
該網内の各ノードに対して、そのノードを取り込んでいるいくつかの許容できるシーケンスの一部分で始まる許容できるシーケンスの各々に対する重み付け因子の値を組み合わせることであって、該組み合わせた値は前記部分が始まる話声もしくはいくつかの許容できるシーケンスのより短い部分に適用される重み付け因子によって修正されるものと、を含む方法。 - 許容できるシーケンスに対応する網の最終ノードに対して与えられた重み付け因子のログを指定し;
各先行するノードに対してログ確率値として後段のノードに指定されたそれらの値の最大値を指定し;
各ノードに対する値から先行するノードに指定された値を減ずることを含む請求項7記載の方法。 - 前記認識網は木構造を有し、第1のノード以外の少なくとも1つのノードが2以上の枝をもっている請求項7または8に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB95301477.6 | 1995-03-07 | ||
EP95301477 | 1995-03-07 | ||
PCT/GB1996/000531 WO1996027872A1 (en) | 1995-03-07 | 1996-03-07 | Speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11501410A JPH11501410A (ja) | 1999-02-02 |
JP4180110B2 true JP4180110B2 (ja) | 2008-11-12 |
Family
ID=8221113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP52671596A Expired - Lifetime JP4180110B2 (ja) | 1995-03-07 | 1996-03-07 | 言語認識 |
Country Status (13)
Country | Link |
---|---|
US (1) | US5999902A (ja) |
EP (1) | EP0813735B1 (ja) |
JP (1) | JP4180110B2 (ja) |
KR (1) | KR100406604B1 (ja) |
CN (1) | CN1150515C (ja) |
AU (1) | AU702903B2 (ja) |
CA (1) | CA2211636C (ja) |
DE (1) | DE69615667T2 (ja) |
ES (1) | ES2164870T3 (ja) |
MX (1) | MX9706407A (ja) |
NO (1) | NO974097L (ja) |
NZ (1) | NZ302748A (ja) |
WO (1) | WO1996027872A1 (ja) |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3061114B2 (ja) * | 1996-11-25 | 2000-07-10 | 日本電気株式会社 | 音声認識装置 |
GB9723214D0 (en) | 1997-11-03 | 1998-01-07 | British Telecomm | Pattern recognition |
US6411929B1 (en) * | 1997-11-27 | 2002-06-25 | Hitachi, Ltd. | Speech recognition method and system |
US7937260B1 (en) * | 1998-06-15 | 2011-05-03 | At&T Intellectual Property Ii, L.P. | Concise dynamic grammars using N-best selection |
US6574596B2 (en) * | 1999-02-08 | 2003-06-03 | Qualcomm Incorporated | Voice recognition rejection scheme |
CA2366057C (en) | 1999-03-05 | 2009-03-24 | Canon Kabushiki Kaisha | Database annotation and retrieval |
US6424960B1 (en) | 1999-10-14 | 2002-07-23 | The Salk Institute For Biological Studies | Unsupervised adaptation and classification of multiple classes and sources in blind signal separation |
US20050149462A1 (en) * | 1999-10-14 | 2005-07-07 | The Salk Institute For Biological Studies | System and method of separating signals |
CN1329861C (zh) | 1999-10-28 | 2007-08-01 | 佳能株式会社 | 模式匹配方法和装置 |
US7310600B1 (en) | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US6882970B1 (en) | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
CN1201286C (zh) * | 1999-12-23 | 2005-05-11 | 英特尔公司 | 使用基于词汇树的n格拉姆语言模式的执行语音识别的方法 |
US6920421B2 (en) * | 1999-12-28 | 2005-07-19 | Sony Corporation | Model adaptive apparatus for performing adaptation of a model used in pattern recognition considering recentness of a received pattern data |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
GB0015233D0 (en) | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
GB0023930D0 (en) | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
GB0027178D0 (en) | 2000-11-07 | 2000-12-27 | Canon Kk | Speech processing system |
GB0028277D0 (en) | 2000-11-20 | 2001-01-03 | Canon Kk | Speech processing system |
CA2440505A1 (en) * | 2001-04-19 | 2002-10-31 | Paul Ian Popay | Voice response system |
CA2440463C (en) * | 2001-04-19 | 2010-02-02 | Simon Nicholas Downey | Speech recognition |
US20030018451A1 (en) * | 2001-07-16 | 2003-01-23 | Level 3 Communications, Inc. | System, method and computer program product for rating enterprise metrics |
JP2003108187A (ja) * | 2001-09-28 | 2003-04-11 | Fujitsu Ltd | 類似性評価方法及び類似性評価プログラム |
KR100450396B1 (ko) * | 2001-10-22 | 2004-09-30 | 한국전자통신연구원 | 트리탐색기반 음성 인식 방법 및 이를 이용한 대용량 연속음성 인식 시스템 |
US7356466B2 (en) * | 2002-06-28 | 2008-04-08 | Samsung Electronics Co., Ltd. | Method and apparatus for performing observation probability calculations |
EP1387232A1 (fr) * | 2002-07-29 | 2004-02-04 | Centre National De La Recherche Scientifique | Procédé de détermination de la valeur à donner à différents paramètres d'un système |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
US7805299B2 (en) * | 2004-03-01 | 2010-09-28 | Coifman Robert E | Method and apparatus for improving the transcription accuracy of speech recognition software |
US7852993B2 (en) * | 2003-08-11 | 2010-12-14 | Microsoft Corporation | Speech recognition enhanced caller identification |
US7899671B2 (en) * | 2004-02-05 | 2011-03-01 | Avaya, Inc. | Recognition results postprocessor for use in voice recognition systems |
JP2007536810A (ja) * | 2004-05-03 | 2007-12-13 | ソマティック テクノロジーズ インコーポレイテッド | 個別化された音響警報を提供するシステム及び方法 |
US9117460B2 (en) * | 2004-05-12 | 2015-08-25 | Core Wireless Licensing S.A.R.L. | Detection of end of utterance in speech recognition system |
WO2006069358A2 (en) * | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking model |
US8200495B2 (en) * | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
WO2007019307A2 (en) | 2005-08-03 | 2007-02-15 | Somatic Technologies, Inc. | Somatic, auditory and cochlear communication system and method |
KR100748720B1 (ko) | 2006-02-09 | 2007-08-13 | 삼성전자주식회사 | 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치 |
EP2026327A4 (en) * | 2006-05-31 | 2012-03-07 | Nec Corp | LANGUAGE MODEL LEARNING, LANGUAGE MODEL LEARNING AND LANGUAGE MODEL LEARNING PROGRAM |
US7899251B2 (en) * | 2006-06-05 | 2011-03-01 | Microsoft Corporation | Balancing out-of-dictionary and in-dictionary recognition scores |
CN101105894B (zh) * | 2006-07-12 | 2011-08-10 | 陈修志 | 多功能语言学习机 |
KR100925479B1 (ko) * | 2007-09-19 | 2009-11-06 | 한국전자통신연구원 | 음성 인식 방법 및 장치 |
GB2453366B (en) | 2007-10-04 | 2011-04-06 | Toshiba Res Europ Ltd | Automatic speech recognition method and apparatus |
US7437291B1 (en) | 2007-12-13 | 2008-10-14 | International Business Machines Corporation | Using partial information to improve dialog in automatic speech recognition systems |
US20090198490A1 (en) * | 2008-02-06 | 2009-08-06 | International Business Machines Corporation | Response time when using a dual factor end of utterance determination technique |
US20090307003A1 (en) * | 2008-05-16 | 2009-12-10 | Daniel Benyamin | Social advertisement network |
US8086631B2 (en) * | 2008-12-12 | 2011-12-27 | Microsoft Corporation | Search result diversification |
KR101217525B1 (ko) | 2008-12-22 | 2013-01-18 | 한국전자통신연구원 | 비터비 디코더와 이를 이용한 음성 인식 방법 |
FI20086260A (fi) * | 2008-12-31 | 2010-09-02 | Teknillinen Korkeakoulu | Menetelmä hahmon löytämiseksi ja tunnistamiseksi |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8504550B2 (en) * | 2009-05-15 | 2013-08-06 | Citizennet Inc. | Social network message categorization systems and methods |
US8306191B2 (en) * | 2009-06-12 | 2012-11-06 | Avaya Inc. | Caller recognition by voice messaging system |
US8380697B2 (en) * | 2009-10-21 | 2013-02-19 | Citizennet Inc. | Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency |
US8554854B2 (en) * | 2009-12-11 | 2013-10-08 | Citizennet Inc. | Systems and methods for identifying terms relevant to web pages using social network messages |
US8615434B2 (en) | 2010-10-19 | 2013-12-24 | Citizennet Inc. | Systems and methods for automatically generating campaigns using advertising targeting information based upon affinity information obtained from an online social network |
US8612293B2 (en) | 2010-10-19 | 2013-12-17 | Citizennet Inc. | Generation of advertising targeting information based upon affinity information obtained from an online social network |
US9063927B2 (en) | 2011-04-06 | 2015-06-23 | Citizennet Inc. | Short message age classification |
US9002892B2 (en) | 2011-08-07 | 2015-04-07 | CitizenNet, Inc. | Systems and methods for trend detection using frequency analysis |
US9053497B2 (en) | 2012-04-27 | 2015-06-09 | CitizenNet, Inc. | Systems and methods for targeting advertising to groups with strong ties within an online social network |
CN103544952A (zh) * | 2012-07-12 | 2014-01-29 | 百度在线网络技术(北京)有限公司 | 语音自适应方法、装置及系统 |
US10055767B2 (en) | 2015-05-13 | 2018-08-21 | Google Llc | Speech recognition for keywords |
CN105356935B (zh) * | 2015-11-27 | 2017-10-31 | 天津光电通信技术有限公司 | 一种实现同步数字体系高阶交叉的交叉板及实现方法 |
JP6618884B2 (ja) * | 2016-11-17 | 2019-12-11 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
US10565320B1 (en) | 2018-09-28 | 2020-02-18 | International Business Machines Corporation | Dynamic multilingual speech recognition |
RU2744063C1 (ru) | 2018-12-18 | 2021-03-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система определения говорящего пользователя управляемого голосом устройства |
KR20220010259A (ko) * | 2020-07-17 | 2022-01-25 | 삼성전자주식회사 | 음성 신호 처리 방법 및 장치 |
CN112786007B (zh) * | 2021-01-20 | 2024-01-26 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN117166996B (zh) * | 2023-07-27 | 2024-03-22 | 中国地质大学(北京) | 地质参数门槛值的确定方法、装置、设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4860358A (en) * | 1983-09-12 | 1989-08-22 | American Telephone And Telegraph Company, At&T Bell Laboratories | Speech recognition arrangement with preselection |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
US5202952A (en) * | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
JP2974387B2 (ja) * | 1990-09-05 | 1999-11-10 | 日本電信電話株式会社 | ワードスポッティング音声認識方法 |
KR920013250A (ko) * | 1990-12-28 | 1992-07-28 | 이헌조 | 음성인식 시스템의 변별적 특성을 이용한 숫자음 인식방법 |
US5267345A (en) * | 1992-02-10 | 1993-11-30 | International Business Machines Corporation | Speech recognition apparatus which predicts word classes from context and words from word classes |
JPH06175685A (ja) * | 1992-12-09 | 1994-06-24 | Matsushita Electric Ind Co Ltd | パタン認識装置及びヒドゥンマルコフモデル作成装置 |
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
JP2775140B2 (ja) * | 1994-03-18 | 1998-07-16 | 株式会社エイ・ティ・アール人間情報通信研究所 | パターン認識方法、音声認識方法および音声認識装置 |
-
1996
- 1996-03-07 DE DE69615667T patent/DE69615667T2/de not_active Expired - Lifetime
- 1996-03-07 WO PCT/GB1996/000531 patent/WO1996027872A1/en active IP Right Grant
- 1996-03-07 AU AU48876/96A patent/AU702903B2/en not_active Ceased
- 1996-03-07 CA CA002211636A patent/CA2211636C/en not_active Expired - Fee Related
- 1996-03-07 EP EP96904973A patent/EP0813735B1/en not_active Expired - Lifetime
- 1996-03-07 MX MX9706407A patent/MX9706407A/es not_active Application Discontinuation
- 1996-03-07 KR KR1019970706130A patent/KR100406604B1/ko not_active IP Right Cessation
- 1996-03-07 JP JP52671596A patent/JP4180110B2/ja not_active Expired - Lifetime
- 1996-03-07 CN CNB961923768A patent/CN1150515C/zh not_active Expired - Fee Related
- 1996-03-07 US US08/875,070 patent/US5999902A/en not_active Expired - Lifetime
- 1996-03-07 NZ NZ302748A patent/NZ302748A/en unknown
- 1996-03-07 ES ES96904973T patent/ES2164870T3/es not_active Expired - Lifetime
-
1997
- 1997-09-05 NO NO974097A patent/NO974097L/no unknown
Also Published As
Publication number | Publication date |
---|---|
AU702903B2 (en) | 1999-03-11 |
ES2164870T3 (es) | 2002-03-01 |
US5999902A (en) | 1999-12-07 |
JPH11501410A (ja) | 1999-02-02 |
CN1150515C (zh) | 2004-05-19 |
EP0813735A1 (en) | 1997-12-29 |
MX9706407A (es) | 1997-11-29 |
DE69615667D1 (de) | 2001-11-08 |
CA2211636A1 (en) | 1996-09-12 |
NZ302748A (en) | 1999-04-29 |
NO974097L (no) | 1997-09-08 |
DE69615667T2 (de) | 2002-06-20 |
CA2211636C (en) | 2002-01-22 |
KR100406604B1 (ko) | 2004-02-18 |
WO1996027872A1 (en) | 1996-09-12 |
AU4887696A (en) | 1996-09-23 |
NO974097D0 (no) | 1997-09-05 |
KR19980702723A (ko) | 1998-08-05 |
EP0813735B1 (en) | 2001-10-04 |
CN1178023A (zh) | 1998-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4180110B2 (ja) | 言語認識 | |
JP3672595B2 (ja) | 結合されたストリングモデルの最小誤認率訓練 | |
US5983177A (en) | Method and apparatus for obtaining transcriptions from multiple training utterances | |
CA2609247C (en) | Automatic text-independent, language-independent speaker voice-print creation and speaker recognition | |
KR100924399B1 (ko) | 음성 인식 장치 및 음성 인식 방법 | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
JP2775140B2 (ja) | パターン認識方法、音声認識方法および音声認識装置 | |
US6490555B1 (en) | Discriminatively trained mixture models in continuous speech recognition | |
JP2002507010A (ja) | 同時に起こるマルチモード口述のための装置及び方法 | |
JP2002500779A (ja) | 識別訓練されたモデルを用いる音声認識システム | |
JPH0372998B2 (ja) | ||
US20040186819A1 (en) | Telephone directory information retrieval system and method | |
KR20180038707A (ko) | 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법 | |
JPH1185188A (ja) | 音声認識方法及びそのプログラム記録媒体 | |
JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JPH1185186A (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JPH10198395A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP3104900B2 (ja) | 音声認識方法 | |
JP3216565B2 (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
JPH03200999A (ja) | 標準パターン学習方法 | |
JP2001109491A (ja) | 連続音声認識装置および方法 | |
JP2731133B2 (ja) | 連続音声認識装置 | |
JPH0822296A (ja) | パターン認識方法 | |
JPH10254485A (ja) | 話者正規化装置、話者適応化装置及び音声認識装置 | |
Dong et al. | Fast confidence measure algorithm for continuous speech recognition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060207 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060508 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060619 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070123 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080729 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080827 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110905 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120905 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130905 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |