JPH09509509A - 複合語を有する言語における音声認識の方法及びシステム - Google Patents
複合語を有する言語における音声認識の方法及びシステムInfo
- Publication number
- JPH09509509A JPH09509509A JP8528007A JP52800796A JPH09509509A JP H09509509 A JPH09509509 A JP H09509509A JP 8528007 A JP8528007 A JP 8528007A JP 52800796 A JP52800796 A JP 52800796A JP H09509509 A JPH09509509 A JP H09509509A
- Authority
- JP
- Japan
- Prior art keywords
- compound
- word
- words
- compound word
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 190
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 50
- 230000000694 effects Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000013518 transcription Methods 0.000 claims description 6
- 230000035897 transcription Effects 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims 1
- 238000004904 shortening Methods 0.000 claims 1
- 238000000354 decomposition reaction Methods 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 239000000470 constituent Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 210000000077 angora Anatomy 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
複合語を含む言語の事例における音声認識の方法及びシステムにおいて、複合語の構成要素のみを言語モデルに記憶する。語彙内でこれらの構成要素のみを扱う。可能性のある複合語を認識する際に、複合語の対応する構成要素のためと可能性のある個々の単語のために別々の処理経路を設定する。言語モデル統計の基礎は、文脈と複合語の構成要素とが別々に考慮される、確率の分解である。このために、言語学から知られている、複合語の文法決定構成要素が通例は複合語の最後にあり、複合語のこの構成要素はその複合語の性、各、及び数に関する情報を提供するという事実を使用する。本発明は、不連続口述及び連続口述におけるリアルタイム音声認識に特に適している。
Description
【発明の詳細な説明】
複合語を有する言語における音声認識の方法及びシステム
本発明は、不連続口述または連続口述のために使用可能な、複合語に適し、特
に、リアルタイム音声認識に適した音声認識方法に関する。また、本発明は前記
方法を使用するための音声認識システムにも関する。
本発明は、本出願人が開発したTANGORA音声認識システムに基づく。T
ANGORAは、ユーザにとって低費用で話者の訓練が可能な、語形が20,0
00種を超える大語彙のリアルタイム音声認識システムである。
このような周知のシステムの出発点は、特定の応用分野(言語モデル)の言語
またはテキストの本文を参照して、音声認識プロセスを音響データに基づく部分
(復号)と言語統計部分とに分解することである。したがって、候補単語の決定
は、復号機構とモデル言語の確率の両方から導き出される。ユーザにとって、こ
の認識システムによって処理された語彙を特定の分野または個別の要件に適合さ
せることが特に重要である。
この音声認識システムによると、音響復号によってまず仮説単語が得られる。
次に、競合する仮説単語を言語モデルに基づいてさらに評価する。言語モデルは
、所望の応用分野のテキスト・サンプルの集合に基づく応用分野固有のテキスト
本文から得られた単語列頻度の推定値を表すものである。これらのテキスト・サ
ンプルから、単語の最も頻繁に現れる形態と単語シーケンスの統計値が生成され
る。
ここで単語シーケンスの頻度を推定するために使用される方法では、所与のテ
キスト中でいわゆる語形トライグラムが発生する頻度を推定する(特にA.ナダス
(Nadas),「On Turing's Formula for Word Probabilities」IEEE Proc.ASSP
,33,6,1985,pp.1414-1416を参照)。しかし、現在TANGORA音声認識
システムで使用されている語形20,000種の語彙では、約80億のトライグ
ラムが可能である。したがって、実地に収集された資料体(corpus)でも、常に
数桁小さ過ぎてすべてのトライグラムを観測することはできない。
この限られた語彙の問題には、特に、言語の資料体において同じ頻度で現れる
いわゆるオブジェクト・クラスを作成することによって対処する。この場合、推
定は頻度クラスからのオブジェクトの取り出しを一般的に記述する確率変数が二
項分布するという仮定に基づく。
周知の音声認識システムでは、確率を推定するためにいわゆる隠れマルコフ・
モデルが頻繁に使用される。この場合、テキスト中で観測されるいくつかの頻度
を設定する。トライグラム「uvw」では、これらの頻度はナルグラム項f0、
ユニグラム項f(w)、バイグラム項f(w|v)及びトライグラム項f(w|
uv)である。これらの項は、テキスト中
で観測される相対頻度に対応し、ナルグラム項は補正の意味しか持たない。
これらの項を様々な条件における単語wの確率と解釈する場合、いわゆる潜在
的変数を付加することができ、そこから単語wを生成する4つの条件の1つが代
入によって得られる。対応する項の遷移確率をλ0 λ1 λ2 λ3とすると、求
めるトライグラム確率について以下の式が得られる。
Pr(w|uv)=λ0f0+λ1f(w)+λ2f(w|v)+λ3f(w|uv) (1)
遷移確率の実際の推定は、いわゆる「削除推定」法(F.イェリネク(Jelinek
)及びR.マーサー(Mercer)、「Interpolated Estimation of Markov Source P
arameters from Sparse Data」,in Pattern Recognition in Practice,Amster
dam,North Holland,1980,pp.381-397参照)を使用して行われる。この方法で
は、テキストのいくつかの部分を無視することによって、いくつかのより小さい
テキスト・ランダム・サンプルを生成する。すべてのランダム・サンプルについ
て、単語シーケンス統計に関して前述の方法により評価を行う。
周知の音声認識システムには、各単語がそのシステムの語彙中のある語形とし
て現れるという欠点がある。このためシステムの必要記憶容量が比較的大きい。
一般的にきわめて大きい語彙は、認識プロセスの速度にも不利な影響を及ぼす。
G.ルスケ(Ruske)の論文「Half words as processing units in automatic s
peech recognition」(journal「Sprach
e und Datenverarbeitung」,Vol.8,1984,Part 1/2,pp.5-16)では、この問
題の解決策として、自動音声認識における音響音声学分析の分野の最小処理単位
を設定し、語彙を半語にセグメント化することが提案されている。たとえばドイ
ツ語では異なる音節の数だけでも約5,000にのぼるため、この手続きは、音
節を基礎単位として設定しすべての発声ステートメントを「ビルディング・ブロ
ックのように」構築するシステムと比較して、必要記憶量などの点で利点を示す
。さらに、この論文は、比較的確実に認識された音節から単語仮説を生成する、
音声認識のより高い処理段階のための音節指向セグメント化の利点に言及してい
る。しかし、この論文ではこれらの仮説を音声モデルに変換することについては
扱われていない。
音声認識に特有の問題は、多くの言語で比較的頻繁に現れる複合語である。た
とえば、医学分野ではある種の言語で属格限定詞のみによって表すことができる
専門用語が頻繁に現れる。周知の音声認識システムでは、システム語彙における
複合語はすべて単一の語形で現れ、その結果、たとえば必要記憶容量が増えるた
めに、システム・パフォーマンスの点で不利が生じる。
国際特許出願WO93/18506号で、DRAGON SYSTEMS I
NC.,USAは以前に、前述の問題すなわち必要記憶容量の増加の問題に基づ
き、使用語彙への複合語の組込みを避ける、複合語を含む言語用の音声認識シス
テムを公表している。解決策として、複合語用の特殊な認識手段を組み込むこと
が提案された。複合語が存在する可能性がある場合、この装置は可能性のある候
補複合語をリストの形で表示する特定の動作モードに変わり、ユーザはそのリス
トから正しい複合語を手動で選択しなければならない。
したがって、本発明の目的は、一般に音声認識システムの基礎を形成する前述
の意味での語彙を極力削減することができ、音声認識のすべての処理ステップを
ユーザによる付加的な入力なしでリアルタイムで行うことができる、複合語を含
む言語の場合の音声認識の方法とシステムを提供することである。
この目的は、本発明の音声認識方法によれば、請求項1で提案されている方法
の諸ステップによって解決される。これらのステップはそれぞれ、単語及び複合
語構成要素の音声転写の数量を第1の記憶域に記憶するステップ、予め処理済み
のテキスト本文を使用してN個の語を含む一連の語中の複合語の出現確率のNグ
ラム頻度(言語モデル)の数量を計算しその数量を第2の記憶域に記憶するステ
ップ、音響音声信号の記録とデジタル化を行い、デジタル化された音声信号を第
3の記憶域に記憶し、その際、音声転写に基づく信号処理を使用して単語と複合
語境界を決定し、そこから単語または複合語候補の仮説シーケンスを導き出すス
テップ、複合語候補シーケンスと単語候補シーケンスに別々の処理経路を適用す
るステップ、Nグラム頻度を使用して処理経路の統計的評価
を行い、単語または複合語構成要素あるいはその両方のNグラム頻度のシーケン
スから尤度プロファイルを形成するステップ、及び経路の総合評価と共に言語モ
デルの音響的適合度と統計的確率とを使用するステップである。
本発明による音声認識方法は、言語モデルに完全な複合語を記憶するのではな
く、複合語の構成要素のみを個々の単語の形で記憶することに基づいている。認
識システムは語彙中でこれらの構成要素を選択するだけで済む。この解決概念の
重要な一態様は、1つの複合語構成要素の可能な複合語の認識用と可能な分離し
た単語の認識用に別々の処理経路が設定されること、すなわち、音声認識の過程
で単語及び複合語構成要素の音声転写シーケンスとして生成される候補単語の仮
説的時間シーケンスに異なる再処理を施すことである。次に、これらの処理経路
から、複合語の特定の音声パターン統計値を計算して単語仮説を評価する。
Nグラム統計を使用する場合、語形トライグラムを使用すると特に有利である
ことが示されている。音声モデルにおいてトライグラムを使用すると、記憶容量
と処理速度との理想的な兼ね合いが得られるという利点がある。
本発明による音声認識システムでは、文脈Cが与えられているものとすると、
言語パターン遠隔Nグラム頻度Pr(W/C)において、複合語Wの候補構成要
素のために単語シーケンスの非隣接構成要素も形成することができる。音声パタ
ーン統計の基礎は確率の分解であり、それによって直前の文
脈と複合語の構成要素を別々に考えることができる。この問題を解決する鍵は、
複合語の文法決定構成要素が一般に複合語の最後にあるという言語学で認められ
る事実によって得られる。その場合、その複合語が名詞であるとすれば、この構
成要素は性、格、及び数に関する情報を提供する。しかし、いくつかの単語から
合成された動詞の場合にも類似した状況が当てはまる。
この事実を一般化すると、複合語の直前の文脈は複合語の末尾構成要素に対す
る顕著な影響の確率を有し、その逆も同様であり、この末尾構成要素がわかれば
、直前の文脈は複合語の残りの構成要素についてはあまり意味がないという音声
パターンが想定される。音声モデルでは、これはNグラム頻度Pr(W/C)、
すなわち文脈Cが与えられている場合の複合語の末尾構成要素Wの確率に対応す
る。この場合、末尾構成要素Wと文脈Cは考慮中の単語シーケンスの非隣接部分
である。
本発明による音声認識システムでは、複合語の先頭Aが与えられている場合、
複合語の末尾構成要素候補Wについて、複合語の構成要素を時間順序を逆に並べ
て、内部Nグラム頻度Pr(A/W)を形成することもできる。ここでいわゆる
内部Nグラム頻度Pr(A/W)は、複合語の末尾Wが与えられている場合の複
合語の先頭Aの頻度を表す。この場合、この逆方向にたどる仮説確率は、大多数
の言語において、複合語の文法決定構成要素が一般にその単語の末尾にあるとい
う周知の事実から導き出される。
本発明による音声認識システムでは、音声文脈の評価が複合語と複合語の構成
要素の両方に関係することを予測することも可能である。したがって、前述の確
率仮定では文脈の組込みが可能であり、本発明の基礎にある言語モデルがより応
用のきくものとなり得る。したがって、文脈に複数の複合語が含まれる場合は特
に、複合語の構成要素に基づく評価が推奨される。
本発明による音声認識システムでは、さらに、文脈機能を使用して隣接する単
語の音響スラーまたは短縮を考慮に入れることができる。単語の隣接する先頭と
後尾の場合、特に複合語の先頭と後尾については、これらの構成要素は通例、互
いの挙動の相互影響を受ける。これは最終的には、ほとんどの言語で、隣接する
単語または複合語構成要素を発音する際にそれらを移行部も休止もなしに可能な
限り結合する傾向が見られる理由となる。この問題は、提案する文脈機能に基づ
いてきわめて有利に解決される。
本発明の音声認識システムでは、さらに、複合語の仮説までの特定の経路評価
により、可能性のある先頭の構成要素が観測される場合、候補複合語のための処
理経路を設定することができる。したがって、それが複合語であるという仮定に
基づいて、尤度プロファイルを計算することができる。尤度プロファイルは処理
経路の質の尺度となる。その複合語仮説が適用される場合、このプロファイルは
他の経路よりも好都
合であることがわかるはずである。このようにして、音声認識プロセスが大幅に
簡略化される。
本発明による音声認識システムでは、さらに、粗マッチングを使用し、その後
で音響信号とそれに対応する候補単語または複合語との間で行われる微調整を使
用して、音声信号を評価し、可能性のある単語または複合語境界を判定すること
ができる。粗マッチングでは、候補単語または複合語と、単語または複合語構成
要素あるいはその両方の見かけの境界の時点とを判定し、その結果を検定して複
合語の構成要素の近似値があるか否かを調べ、音声パターン確率に基づいてその
候補複合語が所与の処理経路とどの程度一致しているかを調べる。それに続いて
行われる微調整では、見つかった複合語の全般的シーケンスを、必要であれば文
脈機能を使用してスラーを考慮に入れて、音響音声信号及びチェックされた一致
と再び比較する。
さらに本発明による音声認識システムでは、すべての処理経路について適切な
音声パターン・データ・ブロックへのアクセスが提供される。これによって、す
べての検定ごとにすべての処理経路で音声パターン全体を絶えず使用可能にしな
くても済むようになる。データ・ブロックへのこのアクセスに基づくと、さらに
音声システムの処理スピードが向上する。
現況技術と比較した従属請求項9ないし11に記載の本発明の他の実施態様の
利点については、以下の図面の説明で詳述する。
本発明による音声認識システムを使用する音声認識システムを提供することも
、本発明の目的である。このシステムは、本発明に従って、音響音声信号を記録
する装置と、アナログ音響音声信号をディジタル化する装置と、単語及び複合語
構成要素のいくつかの音声転写を作成する装置と、単語、複合語の先頭、及び複
合語の後尾に関するリストを作成する装置と、これらの3つのリストのための各
処理経路上でそれぞれの音声パターン確率を判定する装置と、仮説の単語または
複合語シーケンスの尤度プロファイルを決定する装置と、処理経路の生成と取消
しを行い、処理経路の生成と取消しを決定する装置とを含む。音声認識プロセス
の枠組み内で、各リストはたとえば文脈などの様々な条件下で検査される。現況
技術の音声認識システムに優るこの構成の利点は、口述条件に関係なく音声認識
システムを完全に自動化することができることである。さらに、音声認識をリア
ルタイムで行うことができる。本発明の他の利点は、以下の図面の説明を読めば
明らかになろう。
本発明による音声認識システムでは、複合語の構成要素を先頭または後尾とし
て認識する装置をさらに設けることができる。この認識は、たとえば、フラグを
立てることによって行うことができる。このシステムの利点は、この認識サブプ
ロセスの速度の向上であり、その結果としてシステム全体のパフォーマンスが向
上する。
従属請求項14ないし16に記載の本発明による音声認識
システムの有利な態様については、以下の図面の説明で詳細に検討する。
以下、本発明による音声認識方法及び音声認識のためのシステムについて、ド
イツ語の複合語の処理を例として用いて図面を参照しながら詳細に説明する。
第1図は、本発明による音声認識システムを示す略図である。
第2図は、ドイツ語の複合語を認識する場合の第1図による音声認識システム
の機能を示すブロック図である。
第1図に示す音声認識システムでは、音声信号はまずマイクロフォン1を使用
して記録される。しかし、マイクロフォンを使用する代わりに音声信号をたとえ
ば口述録音機などで記憶媒体に前もって記憶しておくこともできる。この信号を
アナログ/ディジタル変換器2を使用して電子的に再処理可能なディジタル信号
に変換する。
ディジタル信号の再処理は、プロセッサ装置3を使用して行う。ディジタル信
号は、入力チャネル4を介してプロセッサ装置3のバス線5に送られ、このバス
線5を介して中央演算処理装置6と、記憶域7、8、9及び10と、デコーダ1
1と、尤度プロセッサ12とが互いに通信する。
しかし、記憶域7、8、9、及び10は、単一の記憶装置に統合することもで
きる。記憶域7は、デコーダ11で音響信号の処理によって生成された音声転写
を記憶する。その後で、発声された単語が音響音声イメージで表現される。記憶
域8は、前もってたとえば中央演算処理装置6によって生成された単純語、複合
語の先頭及び後尾を記憶する。言語モデルを形成するNグラム頻度は記憶域9に
入っており、前もって各応用分野固有のテキスト本文から生成されたものである
。最後に、記憶域10は、調べるディジタル音声信号を記憶する。
第2図のブロック図による複合語の音声認識では、まず、口述の際に複合語の
各構成要素間の移行部が離散的単位として口述された移行部とは音響的にまった
く異なって現れるように複合語の各構成要素が結合されているものと仮定する。
用意された語彙に基づいて複合語を第1の近似値まで識別する粗マッチング20
を使用して、まず見かけの単語境界及び複合語境界の時点を判定する。複合語構
成要素は語彙では分離した単語として現れるため、粗マッチング20によって、
各構成要素の最後で類似した複合語境界時点を判定することができる。
これと組み合わせて言語モデル確率を使用して、粗マッチングで判定された候
補が与えられた処理経路にどの程度適合しているか検査21を行う。次にこの検
査21の枠組み内で、処理経路内の分岐22を使用して可能性のある複合語がな
いか検定する。2本の異なる経路への分岐は、本発明の有利な実施態様を示すに
過ぎない。3本以上の経路への分岐を考慮することも当然可能である。
さらに、各処理経路23、24ごとに、音響信号と複合語
候補との間で精細マッチング25、26を行う。複合語仮説の処理経路(「複合
語経路」)の場合、個別の構成要素の探索ではなく、複合語の構成要素の音響連
結によって得られる音響音響記号シーケンスの探索を行う。複合語の隣接構成要
素のスラーを考慮に入れるため、文脈機能27も使用することができる。
本発明の基礎となる言語モデルに従うと、複合語構成要素の合成確率は、一方
では元の文脈、すなわち複合語を構成する単語に依存し、他方では複合語自体の
先頭に依存する。複合語の最初の部分の判定された確率は、個別単語と同じ単語
の確率と異なることはない。単に、個別単語仮説に1つの処理経路を使用し、複
合語仮説に1つの処理経路を使用するだけである。
その結果確率が分解され、それによって複合語の前の文脈と複合語の構成要素
とを別々に考えることができる。この問題の解決策の出発点は、言語学から知ら
れるように、ドイツ語では複合語の文法決定部分が規則的に複合語の終わりにあ
るという事実である。したがって、複合語が名詞の場合、複合語の最後にある構
成要素が性、格、及び数に関する情報を提供する。動詞複合語についても同じこ
とが言える。
この事実を一般化するとさらに、複合語が現れる元の文脈は複合語の末尾構成
要素の確率にかなりの影響を及ぼし、その逆も同様であり、末尾構成要素がわか
れば、元の文脈は複合語の残りの構成要素についてはほとんど意味がないと仮定
される。
確率論から導き出された独立オカレンスのこの仮定に基づけば、これは複合語
の末尾構成要素が与えられればその前の構成要素と元の文脈はある程度独立して
いることを意味する。複合語の末尾構成要素をWで示し、その前の構成要素をA
、元の文脈をCで示すと、文脈Cにおける最初の構成要素Aの後の複合語末尾構
成要素としての単語Wのトライグラム確率は次式で表される。
上式では、Pr(A|W)とPr(W|C)の2つの異なるトライグラム確率
が現れている。すなわち、複合語の末尾構成要素Wを仮定した場合の複合語の先
頭Aの確率と、文脈Cを仮定した場合の末尾構成要素Wの確率である。特に、こ
のようにして、発声された表現の直接隣接していない部分でいわゆる遠隔トライ
グラム(C,W)が形成される。さらに、数式(2)には確率Pr(A|W)も
現れている。複合語の末尾構成要素Wを仮定した場合の複合語の最初の部分Aの
この確率は、複合語内で行われる確率の考察に対応する。なお、これらの確率が
単語と同じ時間シーケンスで順次に出現しないことは重要ではない。
これらの言語モデルを実現する際に、複合語間バイグラム音声パターンを生成
する。これには、効率的なアクセス形式
でメモリに記憶されている発声されたテキストからの前述の確率のいわゆる査定
子(アクセッサ)が含まれる。査定子は、テキスト・コーポラ(corpora)から
のバイグラムの尤度の推定についての記憶情報を意味する。コーポラは、複数の
コーパス(corpus)であり、語モデルを発生するために分析される模範的なテキ
スト文書の部分をなすものである。このモデルの新規性は、複合語間確率が別々
に推定される点と、この推定が発声された言語の時間方向と逆向きにたどられる
点である。
複合語間モデルの技術的実施においては、データ・ブロックへのアクセスと、
個々の候補のデータへのアクセスと、現行経路評価の計算の3つのルーチンを区
別する必要がある。
データ・ブロックへのアクセスは、デコーダを使用して信号の音響処理の開始
時に行う。その後で始めて、いくつかの処理経路が使用可能になる。各経路ごと
にまず直前の文脈に対応する言語モデル・データ・ブロックを捜す。複合語モデ
ルの場合、経路が複合語の候補先頭構成要素で終わるときは、それらの候補の条
件付き確率を持つデータ・ブロックを可能なすべての語尾で読み込む。複合語の
先頭構成要素と末尾構成要素の両方について適切なフラグを導入する。このよう
にして、本発明による音声認識システムは複合語経路が存在することを認識し、
その場合、その経路の適切なデータ・ブロックをロードすることができる。
現在調査中の発声された句の各部について、まず粗マッチ
ングを用いて候補のリストを作成する。ここで、以下の各事例を区別する必要が
ある。
1.候補複合語が可能性のある複合語の最初の構成要素である場合、文脈内で標
準トライグラム確率を検討する。この確率が十分に高い場合、その末尾に候補複
合語がある処理経路は分岐する。1つの枝では複合語仮説を検定し、他方の枝で
は個別語の仮説を検定する。
2.候補複合語がすでに開始されている複合語経路の複合語の2番目または3番
目の部分である場合、トライグラム・モデルはゼロという評価を返す。直前部分
を仮定した場合、複合語バイグラム・モデルは新しい先頭構成要素の確率を返す
。確率は項の逆方向の順序で記憶されるので、このためにはいわゆるベイズの定
理(Spies,M.,「Unsicheres Wissen」,Berlin,Heidelberg,1993,Spektru
m Akademischer Verlag)を計算する必要がある。
3.候補複合語が複合語の末尾である場合、トライグラム・モデルによって対応
する遠隔トライグラムの言語モデル確率が与えられる。最後に観測された先頭構
成要素を仮定した場合、複合語バイグラム・モデルによって末尾構成要素の複合
語間確率が与えられる。
4.候補複合語が先頭要素にも末尾要素にもなり得る場合、現行処理経路は再び
分岐しなければならず、一方では複合語の末尾構成要素を検査し、他方では少な
くとも2番目の複合語先頭構成要素を検査する。複合語の末尾構成要素は、少な
くとも2の複合語を必要とする2番目の複合語である。この分岐を行う場合、前
記の事例と同様に、現行処理経路について言語モデルの評価を行う。
5.最後に、候補複合語が先頭要素でも末尾要素でもない場合、複合語バイグラ
ム・モデルは値ゼロを返す。これによって、すでにデコーダに存在する決定関数
の結果として複合語経路の割込みが行われる。多重複合語に対するこの方法の使用法
まず、文脈語と複合語の先頭構成要素の作用が以下の独立構成要素の組合せで
あると仮定する。
a)文脈が与えられているものとして、複合語の末尾構成要素
b)複合語の末尾構成要素が与えられているものとして、複合語の先頭構成要素
確率のこの分解は、複合語の所与の末尾構成要素が与えられたとき、複合語の
先頭が文脈に依存しないという仮定に相当する。これを前提として、複合語の最
初の構成要素をh1...hnとし、複合語の末尾構成要素をt、複合語の直前
の2つの単語をw1及びw2とすると、以下の関係が成立する。
もう一つの仮定は、単語の先頭ではない多重複合語の最初
の構成要素は、複合語間統計で、直前の先頭構成要素の条件下の確率によって十
分に記述できることが示唆される。したがって以下の式が適用される。
Pr(hi|hi-1...h1w1w2) = Pr(hi|h1-1) (n>i>1) (4)
最後に、複合語のすべての先頭構成要素に対する複合語の末尾構成要素の作用
は、その末尾構成要素が最後の先頭構成要素に対して与える独立した影響と残り
の先頭構成要素がそれぞれの該当後続要素に対して与える独立した影響とに分解
することができる。
Pr(h1...hn|t) = Pr(h1|h2)...Pr(hn-1|hn)Pr(hn|t) (5)
これらの仮定から、実施にとって重要な結論を導き出すことができる。すなわ
ち、複合語の最初の先頭構成要素には標準トライグラム確率を使用すべきであり
、その後の先頭構成要素の場合には確率は個々の複合語間バイグラム確率の積で
構成されるということである。これに対応する数式は以下のようになる。
これにより、多重複合語を処理する際に比較的簡単に判定
可能な確率を各構成要素について考慮するだけで済む。この方法によって、複合
語の各構成要素の処理経路を正しく評価することができる。
以上の前提によって、最終的に以下の等式が得られる。
したがって、複合語の末尾構成要素の標準化確率を計算するために、複合語全
体を通して処理経路に現れる係数Pr(hi|hi−1)で乗ずるだけで済み、
その結果、この方法の実施はかなり容易になる。
Claims (1)
- 【特許請求の範囲】 1.複合語を有する言語における音声認識の方法であって、 単語及び複合語構成要素の音声転写を第1の記憶域に記憶するステップと、 前もって処理したテキスト本文を使用してN語のシーケンス内の複合語の確率 のためのnグラム頻度(言語モデル)を計算し、前記頻度を第2の記憶域に記憶 するステップと、 音声転写に基づく信号処理を使用して、複合語の単語と境界を近似値的に決定 してそこから単語または複合語候補の仮説シーケンスを導き出す、音響音声信号 の記録とディジタル化を行ってディジタル化音声信号を第3の記憶域に記憶する ステップと、 単語候補と複合語候補のシーケンスについて別々の処理経路を設定するステッ プと、 各処理経路の単語または複合語構成要素のnグラム頻度のシーケンスから尤度 プロファイルが生成される、nグラム頻度を使用して処理経路を統計的に評価す るステップと、 言語モデルの音響的適合度と統計的確率に関して処理経路を綿密に評価するス テップとを含む方法。 2.文脈Cを与えた場合の候補複合語構成要素Wのために単語のシーケンスの非 隣接部の言語モデルにおける遠隔Nグラム頻度Pr(W/C)を形成することを 特徴とする、請求項1に記載の音声認識方法。 3.複合語先頭Aを与えた場合の複合語後尾構成要素Wのために言語モデルにお いて複合語構成要素の逆向き時間シーケンスで内部Nグラム頻度Pr(A/W) を形成することを特徴とする、請求項1または2に記載の音声認識方法。 4.言語文脈の評価が複合語と複合語の構成要素の両方を考慮に入れることを特 徴とする、請求項1ないし3のうちの何れかに記載の音声認識方法。 5.文脈機能を使用して隣接単語の音響スラーまたは短縮を考慮に入れることを 特徴とする、請求項1ないし4のうちの何れかに記載の音声認識方法。 6.複合語仮説に至る特定の経路の評価に基づいて可能性のある先頭構成要素が 観測された場合に候補複合語のために処理経路が設定されることを特徴とする、 請求項1ないし5のうちの何れかに記載の音声認識方法。 7.音声信号を粗マッチングを使用して評価して単語または複合語境界の尤度を 判定し、その後で音響信号とそれに対応する単語候補または複合語候補との間で 精細マッチングを行うことを特徴とする、請求項1ないし6のうちの何れかに記 載の音声認識方法。 8.各処理経路ごとに該当する言語モデル・データ・ブロックへのアクセスがあ ることを特徴とする、請求項1ないし7のうちの何れかに記載の音声認識方法。 9.複合語の構成要素の確率を計算するために直前の文脈と複合語の最初の構成 要素とを使用することを特徴とする、請 求項1ないし9のうちの何れかに記載の音声認識方法。 10.複合語の先頭構成要素Aの後の複合語の後尾構成要素としての複合語の構 成要素Wの確率Pr(W/CA)が、2つの単語または複合語から成る直前の文 脈Cを考慮に入れて、複合語内で形成された内部バイグラムの確率Pr(A/W )と複合語の外部で形成された遠隔トライグラムの確率Pr(W/C)との標準 化積から判定されることを特徴とする、請求項9に記載の音声認識方法。 11.所与の語尾によって複合語の開始が文脈とは独立していると仮定して、複 合語の先頭にない多重複合語の最初の構成要素が、直前の開始構成要素に接する そのシーケンスの確率Pr(A1/A1-2)によって決定されること、ならびに複 合語のすべての先頭構成要素に対するその語尾の影響を、語尾部が最後の先頭要 素に及ぼす影響と、残りの各先頭構成要素がそれぞれに対応する先行要素に及ぼ す影響とに分割することができ、複合語語尾の標準化確率を計算するために処理 経路上において複合語に現れる経路係数が乗じられることを特徴とする、多重複 合語を含む言語のための請求項9または10に記載の音声認識方法。 12.請求項1ないし11のうちの何れかに記載の音声認識方法を使用する複合 語を含む言語における音声認識システムであって、 音響音声信号を記録する装置と、 アナログ音響音声信号をディジタル化する装置と、 単語及び複合語構成要素のいくつかの音声転写を作成する装置と、 単一語と複合語の始めと複合語の終わりとに関するリストを作成する装置と、 リストのための各処理経路上でそれぞれの音声パターン確率を判定する装置と 、 仮説単語または複合語シーケンスの尤度プロファイルを判定する装置と、 処理経路の生成と取消しを行い、処理経路の生成と取消しを決定する装置とを 備えるシステム。 13.複合語構成要素を先頭または語尾構成要素として特徴づける装置を備える 請求項12に記載の音声認識システム 14.言語モデル確率のデータ・ブロックの設定とロードを行う装置を備える、 請求項12または13に記載の音声認識システム 15.言語モデル・クラスの形の任意の所望の数の複合モデルを作成する装置を 備える、請求項12ないし14のうちの何れかに記載の音声認識システム。 16.文脈機能を設定する装置を備える、請求項12ないし15のうちの何れか に記載の音声認識システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19510083A DE19510083C2 (de) | 1995-03-20 | 1995-03-20 | Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen |
DE19510083.2 | 1995-03-20 | ||
PCT/EP1995/002184 WO1996029695A1 (de) | 1995-03-20 | 1995-06-07 | Verfahren und anordnung zur spracherkennung bei wortkomposita enthaltenden sprachen |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09509509A true JPH09509509A (ja) | 1997-09-22 |
JP3086260B2 JP3086260B2 (ja) | 2000-09-11 |
Family
ID=7757181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP08528007A Expired - Fee Related JP3086260B2 (ja) | 1995-03-20 | 1995-06-07 | 複合語を有する言語における音声認識の方法及びシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US5797122A (ja) |
JP (1) | JP3086260B2 (ja) |
DE (1) | DE19510083C2 (ja) |
WO (1) | WO1996029695A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092488A (ja) * | 1999-09-17 | 2001-04-06 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置及び音声認識装置 |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5983177A (en) * | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
DE19842404A1 (de) * | 1998-09-16 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente |
US6393399B1 (en) | 1998-09-30 | 2002-05-21 | Scansoft, Inc. | Compound word recognition |
US6928404B1 (en) * | 1999-03-17 | 2005-08-09 | International Business Machines Corporation | System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies |
US6349282B1 (en) * | 1999-04-20 | 2002-02-19 | Larnout & Hauspie Speech Products N.V. | Compound words in speech recognition systems |
US7120582B1 (en) | 1999-09-07 | 2006-10-10 | Dragon Systems, Inc. | Expanding an effective vocabulary of a speech recognition system |
EP1083545A3 (en) * | 1999-09-09 | 2001-09-26 | Xanavi Informatics Corporation | Voice recognition of proper names in a navigation apparatus |
US20030009331A1 (en) * | 2001-07-05 | 2003-01-09 | Johan Schalkwyk | Grammars for speech recognition |
US7610189B2 (en) | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
US7236931B2 (en) * | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
EP1361740A1 (de) * | 2002-05-08 | 2003-11-12 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
US7680649B2 (en) * | 2002-06-17 | 2010-03-16 | International Business Machines Corporation | System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages |
USH2187H1 (en) | 2002-06-28 | 2007-04-03 | Unisys Corporation | System and method for gender identification in a speech application environment |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
US20080208578A1 (en) * | 2004-09-23 | 2008-08-28 | Koninklijke Philips Electronics, N.V. | Robust Speaker-Dependent Speech Recognition System |
EP1856630A2 (en) * | 2005-03-07 | 2007-11-21 | Linguatec Sprachtechnologien GmbH | Hybrid machine translation system |
US20080249776A1 (en) * | 2005-03-07 | 2008-10-09 | Linguatec Sprachtechnologien Gmbh | Methods and Arrangements for Enhancing Machine Processable Text Information |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US7475344B1 (en) | 2008-05-04 | 2009-01-06 | International Business Machines Corporation | Genders-usage assistant for composition of electronic documents, emails, or letters |
US9053708B2 (en) * | 2012-07-18 | 2015-06-09 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment |
GB201321927D0 (en) | 2013-12-11 | 2014-01-22 | Touchtype Ltd | System and method for inputting text into electronic devices |
KR102413693B1 (ko) * | 2015-07-23 | 2022-06-27 | 삼성전자주식회사 | 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8702359A (nl) * | 1986-10-03 | 1988-05-02 | Ricoh Kk | Taal analyse inrichting. |
JPH03120598A (ja) * | 1989-10-03 | 1991-05-22 | Canon Inc | 音声認識方法及び装置 |
US5129001A (en) * | 1990-04-25 | 1992-07-07 | International Business Machines Corporation | Method and apparatus for modeling words with multi-arc markov models |
JP3508114B2 (ja) * | 1992-03-05 | 2004-03-22 | セイコーエプソン株式会社 | 液晶装置及びその駆動方法並びに駆動回路 |
DE69330427T2 (de) * | 1992-03-06 | 2002-05-23 | Dragon Systems Inc., Newton | Spracherkennungssystem für sprachen mit zusammengesetzten wörtern |
JPH0772840B2 (ja) * | 1992-09-29 | 1995-08-02 | 日本アイ・ビー・エム株式会社 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
-
1995
- 1995-03-20 DE DE19510083A patent/DE19510083C2/de not_active Expired - Fee Related
- 1995-06-07 US US08/737,840 patent/US5797122A/en not_active Expired - Fee Related
- 1995-06-07 WO PCT/EP1995/002184 patent/WO1996029695A1/de active Application Filing
- 1995-06-07 JP JP08528007A patent/JP3086260B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092488A (ja) * | 1999-09-17 | 2001-04-06 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置及び音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
US5797122A (en) | 1998-08-18 |
DE19510083A1 (de) | 1996-09-26 |
WO1996029695A1 (de) | 1996-09-26 |
JP3086260B2 (ja) | 2000-09-11 |
DE19510083C2 (de) | 1997-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3086260B2 (ja) | 複合語を有する言語における音声認識の方法及びシステム | |
US6067514A (en) | Method for automatically punctuating a speech utterance in a continuous speech recognition system | |
Kwon et al. | Korean large vocabulary continuous speech recognition with morpheme-based recognition units | |
US6154722A (en) | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability | |
US6694296B1 (en) | Method and apparatus for the recognition of spelled spoken words | |
US6983247B2 (en) | Augmented-word language model | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
US5949961A (en) | Word syllabification in speech synthesis system | |
Nanjo et al. | Language model and speaking rate adaptation for spontaneous presentation speech recognition | |
Hazen et al. | Pronunciation modeling using a finite-state transducer representation | |
Gauvain et al. | Large-vocabulary continuous speech recognition: advances and applications | |
JP2001188781A (ja) | 会話処理装置および方法、並びに記録媒体 | |
JP4072718B2 (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
Williams | Knowing what you don't know: roles for confidence measures in automatic speech recognition | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
Waibel et al. | Multilingual speech recognition | |
Adda-Decker et al. | The use of lexica in automatic speech recognition | |
Lamel et al. | Speech recognition | |
Pražák et al. | Automatic online subtitling of the Czech parliament meetings | |
Szarvas et al. | Automatic recognition of Hungarian: Theory and practice | |
Fosler-Lussier et al. | A framework for predicting speech recognition errors | |
Gauvain et al. | Large vocabulary speech recognition based on statistical methods | |
Fung et al. | Pronunciation modeling of Mandarin casual speech | |
US6772116B2 (en) | Method of decoding telegraphic speech | |
Jongtaveesataporn et al. | Lexical units for Thai LVCSR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |