JPH09509509A

JPH09509509A - 複合語を有する言語における音声認識の方法及びシステム

Info

Publication number: JPH09509509A
Application number: JP8528007A
Authority: JP
Inventors: スピース、マーカス
Original assignee: インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Priority date: 1995-03-20
Filing date: 1995-06-07
Publication date: 1997-09-22
Anticipated expiration: 2015-09-11
Also published as: DE19510083C2; DE19510083A1; JP3086260B2; WO1996029695A1; US5797122A

Abstract

(57)【要約】複合語を含む言語の事例における音声認識の方法及びシステムにおいて、複合語の構成要素のみを言語モデルに記憶する。語彙内でこれらの構成要素のみを扱う。可能性のある複合語を認識する際に、複合語の対応する構成要素のためと可能性のある個々の単語のために別々の処理経路を設定する。言語モデル統計の基礎は、文脈と複合語の構成要素とが別々に考慮される、確率の分解である。このために、言語学から知られている、複合語の文法決定構成要素が通例は複合語の最後にあり、複合語のこの構成要素はその複合語の性、各、及び数に関する情報を提供するという事実を使用する。本発明は、不連続口述及び連続口述におけるリアルタイム音声認識に特に適している。

Description

【発明の詳細な説明】複合語を有する言語における音声認識の方法及びシステム本発明は、不連続口述または連続口述のために使用可能な、複合語に適し、特に、リアルタイム音声認識に適した音声認識方法に関する。また、本発明は前記方法を使用するための音声認識システムにも関する。本発明は、本出願人が開発したＴＡＮＧＯＲＡ音声認識システムに基づく。ＴＡＮＧＯＲＡは、ユーザにとって低費用で話者の訓練が可能な、語形が２０，０００種を超える大語彙のリアルタイム音声認識システムである。このような周知のシステムの出発点は、特定の応用分野（言語モデル）の言語またはテキストの本文を参照して、音声認識プロセスを音響データに基づく部分（復号）と言語統計部分とに分解することである。したがって、候補単語の決定は、復号機構とモデル言語の確率の両方から導き出される。ユーザにとって、この認識システムによって処理された語彙を特定の分野または個別の要件に適合させることが特に重要である。この音声認識システムによると、音響復号によってまず仮説単語が得られる。次に、競合する仮説単語を言語モデルに基づいてさらに評価する。言語モデルは、所望の応用分野のテキスト・サンプルの集合に基づく応用分野固有のテキスト本文から得られた単語列頻度の推定値を表すものである。これらのテキスト・サンプルから、単語の最も頻繁に現れる形態と単語シーケンスの統計値が生成される。ここで単語シーケンスの頻度を推定するために使用される方法では、所与のテキスト中でいわゆる語形トライグラムが発生する頻度を推定する（特にA.ナダス（Nadas），「On Turing's Formula for Word Probabilities」IEEE Proc．ASSP ，33，6，1985，pp．1414-1416を参照）。しかし、現在ＴＡＮＧＯＲＡ音声認識システムで使用されている語形２０，０００種の語彙では、約８０億のトライグラムが可能である。したがって、実地に収集された資料体（corpus）でも、常に数桁小さ過ぎてすべてのトライグラムを観測することはできない。この限られた語彙の問題には、特に、言語の資料体において同じ頻度で現れるいわゆるオブジェクト・クラスを作成することによって対処する。この場合、推定は頻度クラスからのオブジェクトの取り出しを一般的に記述する確率変数が二項分布するという仮定に基づく。周知の音声認識システムでは、確率を推定するためにいわゆる隠れマルコフ・モデルが頻繁に使用される。この場合、テキスト中で観測されるいくつかの頻度を設定する。トライグラム「ｕｖｗ」では、これらの頻度はナルグラム項ｆ₀、ユニグラム項ｆ（ｗ）、バイグラム項ｆ（ｗ｜ｖ）及びトライグラム項ｆ（ｗ｜ｕｖ）である。これらの項は、テキスト中で観測される相対頻度に対応し、ナルグラム項は補正の意味しか持たない。これらの項を様々な条件における単語ｗの確率と解釈する場合、いわゆる潜在的変数を付加することができ、そこから単語ｗを生成する４つの条件の１つが代入によって得られる。対応する項の遷移確率をλ₀ λ₁ λ₂ λ₃とすると、求めるトライグラム確率について以下の式が得られる。 Pr(w|uv)=λ₀f₀+λ₁f(w)+λ₂f(w|v)+λ₃f(w|uv) （１）遷移確率の実際の推定は、いわゆる「削除推定」法（F.イェリネク（Jelinek ）及びR.マーサー（Mercer）、「Interpolated Estimation of Markov Source P arameters from Sparse Data」，in Pattern Recognition in Practice，Amster dam，North Holland，1980，pp.381-397参照）を使用して行われる。この方法では、テキストのいくつかの部分を無視することによって、いくつかのより小さいテキスト・ランダム・サンプルを生成する。すべてのランダム・サンプルについて、単語シーケンス統計に関して前述の方法により評価を行う。周知の音声認識システムには、各単語がそのシステムの語彙中のある語形として現れるという欠点がある。このためシステムの必要記憶容量が比較的大きい。一般的にきわめて大きい語彙は、認識プロセスの速度にも不利な影響を及ぼす。 G.ルスケ（Ruske）の論文「Half words as processing units in automatic s peech recognition」（journal「Sprach e und Datenverarbeitung」，Vol.8，1984，Part 1/2，pp.5-16）では、この問題の解決策として、自動音声認識における音響音声学分析の分野の最小処理単位を設定し、語彙を半語にセグメント化することが提案されている。たとえばドイツ語では異なる音節の数だけでも約５，０００にのぼるため、この手続きは、音節を基礎単位として設定しすべての発声ステートメントを「ビルディング・ブロックのように」構築するシステムと比較して、必要記憶量などの点で利点を示す。さらに、この論文は、比較的確実に認識された音節から単語仮説を生成する、音声認識のより高い処理段階のための音節指向セグメント化の利点に言及している。しかし、この論文ではこれらの仮説を音声モデルに変換することについては扱われていない。音声認識に特有の問題は、多くの言語で比較的頻繁に現れる複合語である。たとえば、医学分野ではある種の言語で属格限定詞のみによって表すことができる専門用語が頻繁に現れる。周知の音声認識システムでは、システム語彙における複合語はすべて単一の語形で現れ、その結果、たとえば必要記憶容量が増えるために、システム・パフォーマンスの点で不利が生じる。国際特許出願ＷＯ９３／１８５０６号で、ＤＲＡＧＯＮＳＹＳＴＥＭＳＩＮＣ．，ＵＳＡは以前に、前述の問題すなわち必要記憶容量の増加の問題に基づき、使用語彙への複合語の組込みを避ける、複合語を含む言語用の音声認識システムを公表している。解決策として、複合語用の特殊な認識手段を組み込むことが提案された。複合語が存在する可能性がある場合、この装置は可能性のある候補複合語をリストの形で表示する特定の動作モードに変わり、ユーザはそのリストから正しい複合語を手動で選択しなければならない。したがって、本発明の目的は、一般に音声認識システムの基礎を形成する前述の意味での語彙を極力削減することができ、音声認識のすべての処理ステップをユーザによる付加的な入力なしでリアルタイムで行うことができる、複合語を含む言語の場合の音声認識の方法とシステムを提供することである。この目的は、本発明の音声認識方法によれば、請求項１で提案されている方法の諸ステップによって解決される。これらのステップはそれぞれ、単語及び複合語構成要素の音声転写の数量を第１の記憶域に記憶するステップ、予め処理済みのテキスト本文を使用してＮ個の語を含む一連の語中の複合語の出現確率のＮグラム頻度（言語モデル）の数量を計算しその数量を第２の記憶域に記憶するステップ、音響音声信号の記録とデジタル化を行い、デジタル化された音声信号を第３の記憶域に記憶し、その際、音声転写に基づく信号処理を使用して単語と複合語境界を決定し、そこから単語または複合語候補の仮説シーケンスを導き出すステップ、複合語候補シーケンスと単語候補シーケンスに別々の処理経路を適用するステップ、Ｎグラム頻度を使用して処理経路の統計的評価を行い、単語または複合語構成要素あるいはその両方のＮグラム頻度のシーケンスから尤度プロファイルを形成するステップ、及び経路の総合評価と共に言語モデルの音響的適合度と統計的確率とを使用するステップである。本発明による音声認識方法は、言語モデルに完全な複合語を記憶するのではなく、複合語の構成要素のみを個々の単語の形で記憶することに基づいている。認識システムは語彙中でこれらの構成要素を選択するだけで済む。この解決概念の重要な一態様は、１つの複合語構成要素の可能な複合語の認識用と可能な分離した単語の認識用に別々の処理経路が設定されること、すなわち、音声認識の過程で単語及び複合語構成要素の音声転写シーケンスとして生成される候補単語の仮説的時間シーケンスに異なる再処理を施すことである。次に、これらの処理経路から、複合語の特定の音声パターン統計値を計算して単語仮説を評価する。Ｎグラム統計を使用する場合、語形トライグラムを使用すると特に有利であることが示されている。音声モデルにおいてトライグラムを使用すると、記憶容量と処理速度との理想的な兼ね合いが得られるという利点がある。本発明による音声認識システムでは、文脈Ｃが与えられているものとすると、言語パターン遠隔Ｎグラム頻度Ｐｒ（Ｗ／Ｃ）において、複合語Ｗの候補構成要素のために単語シーケンスの非隣接構成要素も形成することができる。音声パターン統計の基礎は確率の分解であり、それによって直前の文脈と複合語の構成要素を別々に考えることができる。この問題を解決する鍵は、複合語の文法決定構成要素が一般に複合語の最後にあるという言語学で認められる事実によって得られる。その場合、その複合語が名詞であるとすれば、この構成要素は性、格、及び数に関する情報を提供する。しかし、いくつかの単語から合成された動詞の場合にも類似した状況が当てはまる。この事実を一般化すると、複合語の直前の文脈は複合語の末尾構成要素に対する顕著な影響の確率を有し、その逆も同様であり、この末尾構成要素がわかれば、直前の文脈は複合語の残りの構成要素についてはあまり意味がないという音声パターンが想定される。音声モデルでは、これはＮグラム頻度Ｐｒ（Ｗ／Ｃ）、すなわち文脈Ｃが与えられている場合の複合語の末尾構成要素Ｗの確率に対応する。この場合、末尾構成要素Ｗと文脈Ｃは考慮中の単語シーケンスの非隣接部分である。本発明による音声認識システムでは、複合語の先頭Ａが与えられている場合、複合語の末尾構成要素候補Ｗについて、複合語の構成要素を時間順序を逆に並べて、内部Ｎグラム頻度Ｐｒ（Ａ／Ｗ）を形成することもできる。ここでいわゆる内部Ｎグラム頻度Ｐｒ（Ａ／Ｗ）は、複合語の末尾Ｗが与えられている場合の複合語の先頭Ａの頻度を表す。この場合、この逆方向にたどる仮説確率は、大多数の言語において、複合語の文法決定構成要素が一般にその単語の末尾にあるという周知の事実から導き出される。本発明による音声認識システムでは、音声文脈の評価が複合語と複合語の構成要素の両方に関係することを予測することも可能である。したがって、前述の確率仮定では文脈の組込みが可能であり、本発明の基礎にある言語モデルがより応用のきくものとなり得る。したがって、文脈に複数の複合語が含まれる場合は特に、複合語の構成要素に基づく評価が推奨される。本発明による音声認識システムでは、さらに、文脈機能を使用して隣接する単語の音響スラーまたは短縮を考慮に入れることができる。単語の隣接する先頭と後尾の場合、特に複合語の先頭と後尾については、これらの構成要素は通例、互いの挙動の相互影響を受ける。これは最終的には、ほとんどの言語で、隣接する単語または複合語構成要素を発音する際にそれらを移行部も休止もなしに可能な限り結合する傾向が見られる理由となる。この問題は、提案する文脈機能に基づいてきわめて有利に解決される。本発明の音声認識システムでは、さらに、複合語の仮説までの特定の経路評価により、可能性のある先頭の構成要素が観測される場合、候補複合語のための処理経路を設定することができる。したがって、それが複合語であるという仮定に基づいて、尤度プロファイルを計算することができる。尤度プロファイルは処理経路の質の尺度となる。その複合語仮説が適用される場合、このプロファイルは他の経路よりも好都合であることがわかるはずである。このようにして、音声認識プロセスが大幅に簡略化される。本発明による音声認識システムでは、さらに、粗マッチングを使用し、その後で音響信号とそれに対応する候補単語または複合語との間で行われる微調整を使用して、音声信号を評価し、可能性のある単語または複合語境界を判定することができる。粗マッチングでは、候補単語または複合語と、単語または複合語構成要素あるいはその両方の見かけの境界の時点とを判定し、その結果を検定して複合語の構成要素の近似値があるか否かを調べ、音声パターン確率に基づいてその候補複合語が所与の処理経路とどの程度一致しているかを調べる。それに続いて行われる微調整では、見つかった複合語の全般的シーケンスを、必要であれば文脈機能を使用してスラーを考慮に入れて、音響音声信号及びチェックされた一致と再び比較する。さらに本発明による音声認識システムでは、すべての処理経路について適切な音声パターン・データ・ブロックへのアクセスが提供される。これによって、すべての検定ごとにすべての処理経路で音声パターン全体を絶えず使用可能にしなくても済むようになる。データ・ブロックへのこのアクセスに基づくと、さらに音声システムの処理スピードが向上する。現況技術と比較した従属請求項９ないし１１に記載の本発明の他の実施態様の利点については、以下の図面の説明で詳述する。本発明による音声認識システムを使用する音声認識システムを提供することも、本発明の目的である。このシステムは、本発明に従って、音響音声信号を記録する装置と、アナログ音響音声信号をディジタル化する装置と、単語及び複合語構成要素のいくつかの音声転写を作成する装置と、単語、複合語の先頭、及び複合語の後尾に関するリストを作成する装置と、これらの３つのリストのための各処理経路上でそれぞれの音声パターン確率を判定する装置と、仮説の単語または複合語シーケンスの尤度プロファイルを決定する装置と、処理経路の生成と取消しを行い、処理経路の生成と取消しを決定する装置とを含む。音声認識プロセスの枠組み内で、各リストはたとえば文脈などの様々な条件下で検査される。現況技術の音声認識システムに優るこの構成の利点は、口述条件に関係なく音声認識システムを完全に自動化することができることである。さらに、音声認識をリアルタイムで行うことができる。本発明の他の利点は、以下の図面の説明を読めば明らかになろう。本発明による音声認識システムでは、複合語の構成要素を先頭または後尾として認識する装置をさらに設けることができる。この認識は、たとえば、フラグを立てることによって行うことができる。このシステムの利点は、この認識サブプロセスの速度の向上であり、その結果としてシステム全体のパフォーマンスが向上する。従属請求項１４ないし１６に記載の本発明による音声認識システムの有利な態様については、以下の図面の説明で詳細に検討する。以下、本発明による音声認識方法及び音声認識のためのシステムについて、ドイツ語の複合語の処理を例として用いて図面を参照しながら詳細に説明する。第１図は、本発明による音声認識システムを示す略図である。第２図は、ドイツ語の複合語を認識する場合の第１図による音声認識システムの機能を示すブロック図である。第１図に示す音声認識システムでは、音声信号はまずマイクロフォン１を使用して記録される。しかし、マイクロフォンを使用する代わりに音声信号をたとえば口述録音機などで記憶媒体に前もって記憶しておくこともできる。この信号をアナログ／ディジタル変換器２を使用して電子的に再処理可能なディジタル信号に変換する。ディジタル信号の再処理は、プロセッサ装置３を使用して行う。ディジタル信号は、入力チャネル４を介してプロセッサ装置３のバス線５に送られ、このバス線５を介して中央演算処理装置６と、記憶域７、８、９及び１０と、デコーダ１１と、尤度プロセッサ１２とが互いに通信する。しかし、記憶域７、８、９、及び１０は、単一の記憶装置に統合することもできる。記憶域７は、デコーダ１１で音響信号の処理によって生成された音声転写を記憶する。その後で、発声された単語が音響音声イメージで表現される。記憶域８は、前もってたとえば中央演算処理装置６によって生成された単純語、複合語の先頭及び後尾を記憶する。言語モデルを形成するＮグラム頻度は記憶域９に入っており、前もって各応用分野固有のテキスト本文から生成されたものである。最後に、記憶域１０は、調べるディジタル音声信号を記憶する。第２図のブロック図による複合語の音声認識では、まず、口述の際に複合語の各構成要素間の移行部が離散的単位として口述された移行部とは音響的にまったく異なって現れるように複合語の各構成要素が結合されているものと仮定する。用意された語彙に基づいて複合語を第１の近似値まで識別する粗マッチング２０を使用して、まず見かけの単語境界及び複合語境界の時点を判定する。複合語構成要素は語彙では分離した単語として現れるため、粗マッチング２０によって、各構成要素の最後で類似した複合語境界時点を判定することができる。これと組み合わせて言語モデル確率を使用して、粗マッチングで判定された候補が与えられた処理経路にどの程度適合しているか検査２１を行う。次にこの検査２１の枠組み内で、処理経路内の分岐２２を使用して可能性のある複合語がないか検定する。２本の異なる経路への分岐は、本発明の有利な実施態様を示すに過ぎない。３本以上の経路への分岐を考慮することも当然可能である。さらに、各処理経路２３、２４ごとに、音響信号と複合語候補との間で精細マッチング２５、２６を行う。複合語仮説の処理経路（「複合語経路」）の場合、個別の構成要素の探索ではなく、複合語の構成要素の音響連結によって得られる音響音響記号シーケンスの探索を行う。複合語の隣接構成要素のスラーを考慮に入れるため、文脈機能２７も使用することができる。本発明の基礎となる言語モデルに従うと、複合語構成要素の合成確率は、一方では元の文脈、すなわち複合語を構成する単語に依存し、他方では複合語自体の先頭に依存する。複合語の最初の部分の判定された確率は、個別単語と同じ単語の確率と異なることはない。単に、個別単語仮説に１つの処理経路を使用し、複合語仮説に１つの処理経路を使用するだけである。その結果確率が分解され、それによって複合語の前の文脈と複合語の構成要素とを別々に考えることができる。この問題の解決策の出発点は、言語学から知られるように、ドイツ語では複合語の文法決定部分が規則的に複合語の終わりにあるという事実である。したがって、複合語が名詞の場合、複合語の最後にある構成要素が性、格、及び数に関する情報を提供する。動詞複合語についても同じことが言える。この事実を一般化するとさらに、複合語が現れる元の文脈は複合語の末尾構成要素の確率にかなりの影響を及ぼし、その逆も同様であり、末尾構成要素がわかれば、元の文脈は複合語の残りの構成要素についてはほとんど意味がないと仮定される。確率論から導き出された独立オカレンスのこの仮定に基づけば、これは複合語の末尾構成要素が与えられればその前の構成要素と元の文脈はある程度独立していることを意味する。複合語の末尾構成要素をＷで示し、その前の構成要素をＡ、元の文脈をＣで示すと、文脈Ｃにおける最初の構成要素Ａの後の複合語末尾構成要素としての単語Ｗのトライグラム確率は次式で表される。上式では、Ｐｒ（Ａ｜Ｗ）とＰｒ（Ｗ｜Ｃ）の２つの異なるトライグラム確率が現れている。すなわち、複合語の末尾構成要素Ｗを仮定した場合の複合語の先頭Ａの確率と、文脈Ｃを仮定した場合の末尾構成要素Ｗの確率である。特に、このようにして、発声された表現の直接隣接していない部分でいわゆる遠隔トライグラム（Ｃ，Ｗ）が形成される。さらに、数式（２）には確率Ｐｒ（Ａ｜Ｗ）も現れている。複合語の末尾構成要素Ｗを仮定した場合の複合語の最初の部分Ａのこの確率は、複合語内で行われる確率の考察に対応する。なお、これらの確率が単語と同じ時間シーケンスで順次に出現しないことは重要ではない。これらの言語モデルを実現する際に、複合語間バイグラム音声パターンを生成する。これには、効率的なアクセス形式でメモリに記憶されている発声されたテキストからの前述の確率のいわゆる査定子（アクセッサ）が含まれる。査定子は、テキスト・コーポラ（corpora）からのバイグラムの尤度の推定についての記憶情報を意味する。コーポラは、複数のコーパス（corpus）であり、語モデルを発生するために分析される模範的なテキスト文書の部分をなすものである。このモデルの新規性は、複合語間確率が別々に推定される点と、この推定が発声された言語の時間方向と逆向きにたどられる点である。複合語間モデルの技術的実施においては、データ・ブロックへのアクセスと、個々の候補のデータへのアクセスと、現行経路評価の計算の３つのルーチンを区別する必要がある。データ・ブロックへのアクセスは、デコーダを使用して信号の音響処理の開始時に行う。その後で始めて、いくつかの処理経路が使用可能になる。各経路ごとにまず直前の文脈に対応する言語モデル・データ・ブロックを捜す。複合語モデルの場合、経路が複合語の候補先頭構成要素で終わるときは、それらの候補の条件付き確率を持つデータ・ブロックを可能なすべての語尾で読み込む。複合語の先頭構成要素と末尾構成要素の両方について適切なフラグを導入する。このようにして、本発明による音声認識システムは複合語経路が存在することを認識し、その場合、その経路の適切なデータ・ブロックをロードすることができる。現在調査中の発声された句の各部について、まず粗マッチングを用いて候補のリストを作成する。ここで、以下の各事例を区別する必要がある。１．候補複合語が可能性のある複合語の最初の構成要素である場合、文脈内で標準トライグラム確率を検討する。この確率が十分に高い場合、その末尾に候補複合語がある処理経路は分岐する。１つの枝では複合語仮説を検定し、他方の枝では個別語の仮説を検定する。２．候補複合語がすでに開始されている複合語経路の複合語の２番目または３番目の部分である場合、トライグラム・モデルはゼロという評価を返す。直前部分を仮定した場合、複合語バイグラム・モデルは新しい先頭構成要素の確率を返す。確率は項の逆方向の順序で記憶されるので、このためにはいわゆるベイズの定理（Spies，Ｍ.，「Unsicheres Wissen」，Berlin，Heidelberg，1993，Spektru m Akademischer Verlag）を計算する必要がある。３．候補複合語が複合語の末尾である場合、トライグラム・モデルによって対応する遠隔トライグラムの言語モデル確率が与えられる。最後に観測された先頭構成要素を仮定した場合、複合語バイグラム・モデルによって末尾構成要素の複合語間確率が与えられる。４．候補複合語が先頭要素にも末尾要素にもなり得る場合、現行処理経路は再び分岐しなければならず、一方では複合語の末尾構成要素を検査し、他方では少なくとも２番目の複合語先頭構成要素を検査する。複合語の末尾構成要素は、少なくとも２の複合語を必要とする２番目の複合語である。この分岐を行う場合、前記の事例と同様に、現行処理経路について言語モデルの評価を行う。５．最後に、候補複合語が先頭要素でも末尾要素でもない場合、複合語バイグラム・モデルは値ゼロを返す。これによって、すでにデコーダに存在する決定関数の結果として複合語経路の割込みが行われる。多重複合語に対するこの方法の使用法まず、文脈語と複合語の先頭構成要素の作用が以下の独立構成要素の組合せであると仮定する。ａ）文脈が与えられているものとして、複合語の末尾構成要素ｂ）複合語の末尾構成要素が与えられているものとして、複合語の先頭構成要素確率のこの分解は、複合語の所与の末尾構成要素が与えられたとき、複合語の先頭が文脈に依存しないという仮定に相当する。これを前提として、複合語の最初の構成要素をｈ１．．．ｈｎとし、複合語の末尾構成要素をｔ、複合語の直前の２つの単語をｗ１及びｗ２とすると、以下の関係が成立する。もう一つの仮定は、単語の先頭ではない多重複合語の最初の構成要素は、複合語間統計で、直前の先頭構成要素の条件下の確率によって十分に記述できることが示唆される。したがって以下の式が適用される。 Pr(h_i|h_i-1...h₁w₁w₂) = Pr(h_i|h₁-₁) (n>i>1) （４）最後に、複合語のすべての先頭構成要素に対する複合語の末尾構成要素の作用は、その末尾構成要素が最後の先頭構成要素に対して与える独立した影響と残りの先頭構成要素がそれぞれの該当後続要素に対して与える独立した影響とに分解することができる。 Pr(h₁...h_n|t) = Pr(h₁|h₂)...Pr(h_n-1|h_n)Pr(h_n|t) （５）これらの仮定から、実施にとって重要な結論を導き出すことができる。すなわち、複合語の最初の先頭構成要素には標準トライグラム確率を使用すべきであり、その後の先頭構成要素の場合には確率は個々の複合語間バイグラム確率の積で構成されるということである。これに対応する数式は以下のようになる。これにより、多重複合語を処理する際に比較的簡単に判定可能な確率を各構成要素について考慮するだけで済む。この方法によって、複合語の各構成要素の処理経路を正しく評価することができる。以上の前提によって、最終的に以下の等式が得られる。したがって、複合語の末尾構成要素の標準化確率を計算するために、複合語全体を通して処理経路に現れる係数Ｐr（ｈｉ｜ｈｉ−１）で乗ずるだけで済み、その結果、この方法の実施はかなり容易になる。

Claims

【特許請求の範囲】１．複合語を有する言語における音声認識の方法であって、単語及び複合語構成要素の音声転写を第１の記憶域に記憶するステップと、前もって処理したテキスト本文を使用してＮ語のシーケンス内の複合語の確率のためのｎグラム頻度（言語モデル）を計算し、前記頻度を第２の記憶域に記憶するステップと、音声転写に基づく信号処理を使用して、複合語の単語と境界を近似値的に決定してそこから単語または複合語候補の仮説シーケンスを導き出す、音響音声信号の記録とディジタル化を行ってディジタル化音声信号を第３の記憶域に記憶するステップと、単語候補と複合語候補のシーケンスについて別々の処理経路を設定するステップと、各処理経路の単語または複合語構成要素のｎグラム頻度のシーケンスから尤度プロファイルが生成される、ｎグラム頻度を使用して処理経路を統計的に評価するステップと、言語モデルの音響的適合度と統計的確率に関して処理経路を綿密に評価するステップとを含む方法。２．文脈Ｃを与えた場合の候補複合語構成要素Ｗのために単語のシーケンスの非隣接部の言語モデルにおける遠隔Ｎグラム頻度Ｐｒ（Ｗ／Ｃ）を形成することを特徴とする、請求項１に記載の音声認識方法。３．複合語先頭Ａを与えた場合の複合語後尾構成要素Ｗのために言語モデルにおいて複合語構成要素の逆向き時間シーケンスで内部Ｎグラム頻度Ｐｒ（Ａ／Ｗ）を形成することを特徴とする、請求項１または２に記載の音声認識方法。４．言語文脈の評価が複合語と複合語の構成要素の両方を考慮に入れることを特徴とする、請求項１ないし３のうちの何れかに記載の音声認識方法。５．文脈機能を使用して隣接単語の音響スラーまたは短縮を考慮に入れることを特徴とする、請求項１ないし４のうちの何れかに記載の音声認識方法。６．複合語仮説に至る特定の経路の評価に基づいて可能性のある先頭構成要素が観測された場合に候補複合語のために処理経路が設定されることを特徴とする、請求項１ないし５のうちの何れかに記載の音声認識方法。７．音声信号を粗マッチングを使用して評価して単語または複合語境界の尤度を判定し、その後で音響信号とそれに対応する単語候補または複合語候補との間で精細マッチングを行うことを特徴とする、請求項１ないし６のうちの何れかに記載の音声認識方法。８．各処理経路ごとに該当する言語モデル・データ・ブロックへのアクセスがあることを特徴とする、請求項１ないし７のうちの何れかに記載の音声認識方法。９．複合語の構成要素の確率を計算するために直前の文脈と複合語の最初の構成要素とを使用することを特徴とする、請求項１ないし９のうちの何れかに記載の音声認識方法。１０．複合語の先頭構成要素Ａの後の複合語の後尾構成要素としての複合語の構成要素Ｗの確率Ｐｒ（Ｗ／ＣＡ）が、２つの単語または複合語から成る直前の文脈Ｃを考慮に入れて、複合語内で形成された内部バイグラムの確率Ｐｒ（Ａ／Ｗ）と複合語の外部で形成された遠隔トライグラムの確率Ｐｒ（Ｗ／Ｃ）との標準化積から判定されることを特徴とする、請求項９に記載の音声認識方法。１１．所与の語尾によって複合語の開始が文脈とは独立していると仮定して、複合語の先頭にない多重複合語の最初の構成要素が、直前の開始構成要素に接するそのシーケンスの確率Ｐｒ（Ａ₁／Ａ_1-2）によって決定されること、ならびに複合語のすべての先頭構成要素に対するその語尾の影響を、語尾部が最後の先頭要素に及ぼす影響と、残りの各先頭構成要素がそれぞれに対応する先行要素に及ぼす影響とに分割することができ、複合語語尾の標準化確率を計算するために処理経路上において複合語に現れる経路係数が乗じられることを特徴とする、多重複合語を含む言語のための請求項９または１０に記載の音声認識方法。１２．請求項１ないし１１のうちの何れかに記載の音声認識方法を使用する複合語を含む言語における音声認識システムであって、音響音声信号を記録する装置と、アナログ音響音声信号をディジタル化する装置と、単語及び複合語構成要素のいくつかの音声転写を作成する装置と、単一語と複合語の始めと複合語の終わりとに関するリストを作成する装置と、リストのための各処理経路上でそれぞれの音声パターン確率を判定する装置と、仮説単語または複合語シーケンスの尤度プロファイルを判定する装置と、処理経路の生成と取消しを行い、処理経路の生成と取消しを決定する装置とを備えるシステム。１３．複合語構成要素を先頭または語尾構成要素として特徴づける装置を備える請求項１２に記載の音声認識システム１４．言語モデル確率のデータ・ブロックの設定とロードを行う装置を備える、請求項１２または１３に記載の音声認識システム１５．言語モデル・クラスの形の任意の所望の数の複合モデルを作成する装置を備える、請求項１２ないし１４のうちの何れかに記載の音声認識システム。１６．文脈機能を設定する装置を備える、請求項１２ないし１５のうちの何れかに記載の音声認識システム。