JPH05100693A - 音声認識用コンピユータ・システム - Google Patents
音声認識用コンピユータ・システムInfo
- Publication number
- JPH05100693A JPH05100693A JP4345092A JP4345092A JPH05100693A JP H05100693 A JPH05100693 A JP H05100693A JP 4345092 A JP4345092 A JP 4345092A JP 4345092 A JP4345092 A JP 4345092A JP H05100693 A JPH05100693 A JP H05100693A
- Authority
- JP
- Japan
- Prior art keywords
- phonemes
- phoneme
- artificial
- words
- computer system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 150000001875 compounds Chemical class 0.000 claims description 19
- 239000000470 constituent Substances 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims 1
- 239000002131 composite material Substances 0.000 abstract 1
- 238000012549 training Methods 0.000 description 19
- 238000001228 spectrum Methods 0.000 description 10
- 230000001419 dependent effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000013179 statistical model Methods 0.000 description 5
- 238000007619 statistical method Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 241000167880 Hirundinidae Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
(57)【要約】
【目的】 音声認識用コンピュータ・システムにおい
て、話者の口述速度に追従できるようシステム処理速度
を向上させること。 【構成】 単語を表すため、実際の発声を意味する自然
音素と、人工的に生成する人工的音素と、で形成した表
音基本形を用いる。自然音素には、2つの単語間の発言
休止を表す無声音素xも設ける。人工的音素として、ド
イツ語におけるような複合単語中の2つの構成要素間の
発言休止を表す無声音素zを設ける。また、種々の方言
での異なった発音に対処するため、互いに類似の自然音
素をまとめて表す人工的音素A1r,K1n,E0をも
設ける。これにより、音声認識用コンピュータ・システ
ムのメモリに記憶させる単語の数を、表音基本形を用い
て減らし、そのシステムでの音声認識時に行う比較ステ
ップ数を減らして、システム処理速度を向上させる。
て、話者の口述速度に追従できるようシステム処理速度
を向上させること。 【構成】 単語を表すため、実際の発声を意味する自然
音素と、人工的に生成する人工的音素と、で形成した表
音基本形を用いる。自然音素には、2つの単語間の発言
休止を表す無声音素xも設ける。人工的音素として、ド
イツ語におけるような複合単語中の2つの構成要素間の
発言休止を表す無声音素zを設ける。また、種々の方言
での異なった発音に対処するため、互いに類似の自然音
素をまとめて表す人工的音素A1r,K1n,E0をも
設ける。これにより、音声認識用コンピュータ・システ
ムのメモリに記憶させる単語の数を、表音基本形を用い
て減らし、そのシステムでの音声認識時に行う比較ステ
ップ数を減らして、システム処理速度を向上させる。
Description
【0001】
【産業上の利用分野】本発明は、音声認識用コンピュー
タ・システムに関し、発声された各単語を個々の音(音
素)に変換する手段と、複数の単語を1つの表音表現
(幾つかの自然音素を含む表音基本形)で記憶するため
の手段と、及び変換した音素と記憶してある音素とを比
較する手段と、からなる音声認識用コンピュータ・シス
テムに関するものである。
タ・システムに関し、発声された各単語を個々の音(音
素)に変換する手段と、複数の単語を1つの表音表現
(幾つかの自然音素を含む表音基本形)で記憶するため
の手段と、及び変換した音素と記憶してある音素とを比
較する手段と、からなる音声認識用コンピュータ・シス
テムに関するものである。
【0002】
【従来の技術】上記のような音声認識用コンピュータ・
システムは、本技術分野では公知であり、その大部分
は、自動書取り機械として用いられている。これは、話
者が文章をマイクロフォンに向って口述し、それを電気
信号に変換するものである。この電気信号をコンピュー
タ・システムで用いて、その発言文章(speech text)
に対応するデジタル化した音素を発生する。次に、この
デジタル化音素は、訓練フェーズにおいて既に生成しコ
ンピュータ・システムのメモリに記憶してあるデジタル
化音素と比較するようにする。上記訓練フェーズの間に
は、複数の単語、即ち、それらの正確な文字系列とそれ
に関連する話者依存性の音素系列とを、コンピュータメ
モリに記憶する。確率計算の支援により、コンピュータ
・システムは、メモリ内で、その発言文章と最もよく一
致していると思われる、それらの音素をまず初めに探
し、そして次にそれらの単語を探す。このようにして認
識した単語は、最後に、その文章の文脈に関してチェッ
クを行い、そして必要であれば、訂正を行う。このよう
にして、口述された文章をコンピュータ・システムで認
識し、そして更に、例えば、文書処理システムによっ
て、処理、表示、または印刷するようにすることができ
る。
システムは、本技術分野では公知であり、その大部分
は、自動書取り機械として用いられている。これは、話
者が文章をマイクロフォンに向って口述し、それを電気
信号に変換するものである。この電気信号をコンピュー
タ・システムで用いて、その発言文章(speech text)
に対応するデジタル化した音素を発生する。次に、この
デジタル化音素は、訓練フェーズにおいて既に生成しコ
ンピュータ・システムのメモリに記憶してあるデジタル
化音素と比較するようにする。上記訓練フェーズの間に
は、複数の単語、即ち、それらの正確な文字系列とそれ
に関連する話者依存性の音素系列とを、コンピュータメ
モリに記憶する。確率計算の支援により、コンピュータ
・システムは、メモリ内で、その発言文章と最もよく一
致していると思われる、それらの音素をまず初めに探
し、そして次にそれらの単語を探す。このようにして認
識した単語は、最後に、その文章の文脈に関してチェッ
クを行い、そして必要であれば、訂正を行う。このよう
にして、口述された文章をコンピュータ・システムで認
識し、そして更に、例えば、文書処理システムによっ
て、処理、表示、または印刷するようにすることができ
る。
【0003】
【発明が解決しようとする課題】音声認識用に用いるコ
ンピュータ・システムにおける1つの大きな課題は、認
識すべき単語の語彙をそのシステムのメモリに記憶させ
ることである。これは、次の2つの理由によって、特に
ドイツ語において大きな問題となるものである。まず第
1に、ドイツ語には、複数の複合単語があり、これらを
全て個々に記憶させなくてはならない。したがって、例
えば、“Fahrkartenschalter”という単語だけでなく、
この単語の構成要素である、“Fahrkarte”,“Kart
e”,及び“Schalter”を記憶させる必要があると共
に、これらの構成要素を含む他の単語、例えば、“Scha
lterstunde”,“Fahrstunde”等も記憶させる必要があ
る。そして第2に、ドイツ語には同じ単語で発音が大き
く変わってしまう方言が多数あり、このような種々の音
韻論的変形例を1つの音素系列としてコンピュータのメ
モリには記憶できないので、その代りに、全く同じ単語
に対して数個の音素系列を、各方言用に記憶させなくて
はならない。その結果、ドイツ語の音声認識用に用いる
コンピュータ・システムは、非常に大量の単語を記憶し
なくてはならなくなる。このコンピュータ・システムの
メモリ空間には限度があるということの他に、大量の単
語を記憶するということの欠点は、話者が口述した単語
とメモリに記憶させた単語との比較プロセスが、非常に
遅くなり、このため、コンピュータ・システムが、もは
や話者に“追従”できなくなってしまうことである。従
って、話者はコンピュータ・システムが追い付くのを
“待機”しなければならず、このことは、実際上、音声
認識へのコンピュータ応用に悪影響を与えている。した
がって、本発明の目的は、話者が口述する文章に容易に
追従することができる程十分に高速な、音声認識用コン
ピュータ・システムを提供することである。
ンピュータ・システムにおける1つの大きな課題は、認
識すべき単語の語彙をそのシステムのメモリに記憶させ
ることである。これは、次の2つの理由によって、特に
ドイツ語において大きな問題となるものである。まず第
1に、ドイツ語には、複数の複合単語があり、これらを
全て個々に記憶させなくてはならない。したがって、例
えば、“Fahrkartenschalter”という単語だけでなく、
この単語の構成要素である、“Fahrkarte”,“Kart
e”,及び“Schalter”を記憶させる必要があると共
に、これらの構成要素を含む他の単語、例えば、“Scha
lterstunde”,“Fahrstunde”等も記憶させる必要があ
る。そして第2に、ドイツ語には同じ単語で発音が大き
く変わってしまう方言が多数あり、このような種々の音
韻論的変形例を1つの音素系列としてコンピュータのメ
モリには記憶できないので、その代りに、全く同じ単語
に対して数個の音素系列を、各方言用に記憶させなくて
はならない。その結果、ドイツ語の音声認識用に用いる
コンピュータ・システムは、非常に大量の単語を記憶し
なくてはならなくなる。このコンピュータ・システムの
メモリ空間には限度があるということの他に、大量の単
語を記憶するということの欠点は、話者が口述した単語
とメモリに記憶させた単語との比較プロセスが、非常に
遅くなり、このため、コンピュータ・システムが、もは
や話者に“追従”できなくなってしまうことである。従
って、話者はコンピュータ・システムが追い付くのを
“待機”しなければならず、このことは、実際上、音声
認識へのコンピュータ応用に悪影響を与えている。した
がって、本発明の目的は、話者が口述する文章に容易に
追従することができる程十分に高速な、音声認識用コン
ピュータ・システムを提供することである。
【0004】
【課題を解決するための手段】本発明では、音声認識用
のコンピュータ・システム内の単語の表音基本形が、幾
つかの人工的音素も含むようにして、この目的を達成す
るようにする。人工的音素とは、話者がそのようには発
音しない音素のことである。これらの音素は、コンピュ
ータ・システムの訓練フェーズ中、話者が特定の単語を
どのように発声するかに依存して、そのコンピュータ・
システムで人工的に生成する。このような人工的音素
は、自然音素の表音基本形と比べ、消費するメモリ空間
が少ない表音基本形として単語を表すことができる、と
いう利点を有している。これによって、コンピュータが
認識すべき語彙を記憶させるのに必要なメモリ空間、並
びに発言文章をコンピュータが認識するのに必要な時間
を、大幅に減らすことができる。この結果、本コンピュ
ータ・システムでは、話者が口述する文章に“追従”で
き、リアルタイム・モードでその認識処理を行うことが
できるようになる。
のコンピュータ・システム内の単語の表音基本形が、幾
つかの人工的音素も含むようにして、この目的を達成す
るようにする。人工的音素とは、話者がそのようには発
音しない音素のことである。これらの音素は、コンピュ
ータ・システムの訓練フェーズ中、話者が特定の単語を
どのように発声するかに依存して、そのコンピュータ・
システムで人工的に生成する。このような人工的音素
は、自然音素の表音基本形と比べ、消費するメモリ空間
が少ない表音基本形として単語を表すことができる、と
いう利点を有している。これによって、コンピュータが
認識すべき語彙を記憶させるのに必要なメモリ空間、並
びに発言文章をコンピュータが認識するのに必要な時間
を、大幅に減らすことができる。この結果、本コンピュ
ータ・システムでは、話者が口述する文章に“追従”で
き、リアルタイム・モードでその認識処理を行うことが
できるようになる。
【0005】本発明の一実施例においては、2つの単語
の間の休止に関係した第1の無声音素を自然音素として
設け、また1つの複合単語の内の2つの構成要素間の休
止に関係した第2の無声音素を、人工的音素として設け
ること、を特徴とする。その第2の人工的音素によっ
て、コンピュータ・システムは、1つの複合単語の内の
2つの構成要素間の境界を検出できる。その複合単語
は、コンピュータ・システムで、その構成要素に分割
し、その各構成要素を別々に処理し、そして認識するよ
うにすることもできる。したがって、各複合単語は、
“完全な1つのもの”としてコンピュータのメモリに記
憶する代りに、それの各構成要素を記憶すれば十分であ
る。このようにすれば、複合単語をそのまま記憶させる
ことは、もはや必要でなくなる。このことによって得ら
れる利点は、話者が口述する単語を、記憶してある単語
と比較する時に、それに必要な時間を大幅に削減できる
ことである。
の間の休止に関係した第1の無声音素を自然音素として
設け、また1つの複合単語の内の2つの構成要素間の休
止に関係した第2の無声音素を、人工的音素として設け
ること、を特徴とする。その第2の人工的音素によっ
て、コンピュータ・システムは、1つの複合単語の内の
2つの構成要素間の境界を検出できる。その複合単語
は、コンピュータ・システムで、その構成要素に分割
し、その各構成要素を別々に処理し、そして認識するよ
うにすることもできる。したがって、各複合単語は、
“完全な1つのもの”としてコンピュータのメモリに記
憶する代りに、それの各構成要素を記憶すれば十分であ
る。このようにすれば、複合単語をそのまま記憶させる
ことは、もはや必要でなくなる。このことによって得ら
れる利点は、話者が口述する単語を、記憶してある単語
と比較する時に、それに必要な時間を大幅に削減できる
ことである。
【0006】本発明の別の実施例では、少なくとも2つ
の自然音素に類似した1つの人工的音素を提供する。こ
の実施例によれば、各単語または複合単語の各構成要素
の表音基本形が、類似の自然音素の系列に関して少なく
とも2通りに異なる場合、その単語または構成要素を、
関連した音素で表すようにする。
の自然音素に類似した1つの人工的音素を提供する。こ
の実施例によれば、各単語または複合単語の各構成要素
の表音基本形が、類似の自然音素の系列に関して少なく
とも2通りに異なる場合、その単語または構成要素を、
関連した音素で表すようにする。
【0007】このような人工的音素によって、全く同一
の単語の種々の音韻論的変形例を、1つの表音基本形と
して表すことができるようになる。したがって、同一の
単語の発音の方言的相違に対して、数個の表音基本形を
コンピュータのメモリに記憶させる必要はなく、自然音
素に加えて人工的音素を含む1つの基本形のみを記憶さ
せればよい。このように、全く同一の単語のために何回
も行なわなければならなかった記憶処理を、除くことが
できる。
の単語の種々の音韻論的変形例を、1つの表音基本形と
して表すことができるようになる。したがって、同一の
単語の発音の方言的相違に対して、数個の表音基本形を
コンピュータのメモリに記憶させる必要はなく、自然音
素に加えて人工的音素を含む1つの基本形のみを記憶さ
せればよい。このように、全く同一の単語のために何回
も行なわなければならなかった記憶処理を、除くことが
できる。
【0008】
【実施例】次に、本発明の実施例について以下に詳細に
説明する。尚、この説明中の数値は、実際に有利である
と判明したものであり、したがってその詳しい説明は省
略する。図1に例示した音声認識用コンピュータ・シス
テムには、マイクロフォン10を設けており、これは、
音響変換器11に接続してある。この変換器11は、プ
ロセッサ15に連結している。また、メモリ13も設け
てあり、このメモリは、そのプロセッサ15に接続して
いる。最後に、プロセッサ15は、表示装置17に接続
してある。
説明する。尚、この説明中の数値は、実際に有利である
と判明したものであり、したがってその詳しい説明は省
略する。図1に例示した音声認識用コンピュータ・シス
テムには、マイクロフォン10を設けており、これは、
音響変換器11に接続してある。この変換器11は、プ
ロセッサ15に連結している。また、メモリ13も設け
てあり、このメモリは、そのプロセッサ15に接続して
いる。最後に、プロセッサ15は、表示装置17に接続
してある。
【0009】このシステムの動作について説明すると、
話者がマイクロフォン10へ発声することに応答して、
音響変換器は、電気振幅信号ASを発生する。この信号
は、図2に時間tに関して示してある。次に、この振幅
信号ASをフーリエ変換して、20ms長の各時間フレ
ームで1フーリエ・スペクトラムを形成するようにす
る。このような1つのフーリエ変換スペクトラムFTに
ついては、図3に周波数fに関して示してある。図3の
このフーリエ・スペクトラムFTは、図2に示した振幅
信号ASの最初の20msの時間フレームに関係したも
のである。各フーリエ・スペクトラムFTは、更に20
の帯域に細分して、その各々が、これらが関係するフー
リエ・スペクトラムFTの値を表すようにしている。し
たがって、振幅信号ASの20ms時間フレームの各々
に対して、これが関係するフーリエ・スペクトラムFT
の20個の値W1,W2,...W19,W20を要素
とするベクトルVができることになる。
話者がマイクロフォン10へ発声することに応答して、
音響変換器は、電気振幅信号ASを発生する。この信号
は、図2に時間tに関して示してある。次に、この振幅
信号ASをフーリエ変換して、20ms長の各時間フレ
ームで1フーリエ・スペクトラムを形成するようにす
る。このような1つのフーリエ変換スペクトラムFTに
ついては、図3に周波数fに関して示してある。図3の
このフーリエ・スペクトラムFTは、図2に示した振幅
信号ASの最初の20msの時間フレームに関係したも
のである。各フーリエ・スペクトラムFTは、更に20
の帯域に細分して、その各々が、これらが関係するフー
リエ・スペクトラムFTの値を表すようにしている。し
たがって、振幅信号ASの20ms時間フレームの各々
に対して、これが関係するフーリエ・スペクトラムFT
の20個の値W1,W2,...W19,W20を要素
とするベクトルVができることになる。
【0010】図4において、図中の軸は、多次元空間を
表すものである。この空間は、本図では3次元として図
示しているが、本発明にとっては20次元(これを、そ
のように表現することは不可能)である、とみなすこと
にする。このような20次元空間内に対し、複数のドッ
トを入れる。その各ドットは、1つのベクトルVに対応
するものであり、そしてそのドットのこの20次元空間
内の位置は、そのベクトルVの20個の値で規定する。
したがって、図4の20次元空間は、振幅信号ASの連
続した20ms時間フレームのそれぞれのフーリエ・ス
ペクトラムFTを包含している。ここで、図4の20次
元空間内に入れたそれら各ドットは、均一に分散するの
ではなく、群(クラスタ)状に現れることが解った。こ
れらの各群は、発言依存性(speech-dependent)のもの
であり、したがって、ドイツ語でのそれら群は、フラン
ス語または英語での群とは異なるものである。それらの
群には、連続して番号を振ってある。これは、図4にお
いては、各群にL15やL147等のラベルを関連付け
ることにより示してある。したがって、200個の群が
あるときには、200個のラベルで指し示すようにす
る。
表すものである。この空間は、本図では3次元として図
示しているが、本発明にとっては20次元(これを、そ
のように表現することは不可能)である、とみなすこと
にする。このような20次元空間内に対し、複数のドッ
トを入れる。その各ドットは、1つのベクトルVに対応
するものであり、そしてそのドットのこの20次元空間
内の位置は、そのベクトルVの20個の値で規定する。
したがって、図4の20次元空間は、振幅信号ASの連
続した20ms時間フレームのそれぞれのフーリエ・ス
ペクトラムFTを包含している。ここで、図4の20次
元空間内に入れたそれら各ドットは、均一に分散するの
ではなく、群(クラスタ)状に現れることが解った。こ
れらの各群は、発言依存性(speech-dependent)のもの
であり、したがって、ドイツ語でのそれら群は、フラン
ス語または英語での群とは異なるものである。それらの
群には、連続して番号を振ってある。これは、図4にお
いては、各群にL15やL147等のラベルを関連付け
ることにより示してある。したがって、200個の群が
あるときには、200個のラベルで指し示すようにす
る。
【0011】実験用訓練によって、20次元空間内のそ
れら群は、言語にのみ依存し、話者には実質的に独立で
ある、ということが確かめられた。この訓練では、10
人の異なる話者に、コンピュータ・システムが認識すべ
き種々の単語を発声させた。そして、その情報をこのコ
ンピュータで使って、統計的手法及びモデル(例:マル
コフ)によって、各群の位置を決めた。この実験訓練
は、次のような目的にも用いた。即ち、コンピュータ・
システムで認識すべき単語を、その各1つの単語の綴り
が1つの表音基本形と関連するように、メモリ13に記
憶させた。1つの単語のその表音基本形は、連結した音
素から成っている(それら音素は60個ある)。各音素
は、1列のラベルで構成してあり、これらの各ラベル
は、図2の振幅信号ASの所定の20ms時間フレーム
に関係したものである。例えば、図2の振幅信号ASが
単一の音素を表しているとすると、この音素は、フーリ
エ・スペクトラムFT(図3)の助けにより、図4の2
0次元空間内の3つのラベルを用いて表す。実験用訓練
の間に、統計的手法及びモデルによって、各音素に対し
て、1つの実質的に話者独立性のラベル系列を発生させ
る。そして、これらの種々のラベル系列と総数が60個
の音素との連関を、コンピュータ・システムのメモリ1
3に記憶させる。
れら群は、言語にのみ依存し、話者には実質的に独立で
ある、ということが確かめられた。この訓練では、10
人の異なる話者に、コンピュータ・システムが認識すべ
き種々の単語を発声させた。そして、その情報をこのコ
ンピュータで使って、統計的手法及びモデル(例:マル
コフ)によって、各群の位置を決めた。この実験訓練
は、次のような目的にも用いた。即ち、コンピュータ・
システムで認識すべき単語を、その各1つの単語の綴り
が1つの表音基本形と関連するように、メモリ13に記
憶させた。1つの単語のその表音基本形は、連結した音
素から成っている(それら音素は60個ある)。各音素
は、1列のラベルで構成してあり、これらの各ラベル
は、図2の振幅信号ASの所定の20ms時間フレーム
に関係したものである。例えば、図2の振幅信号ASが
単一の音素を表しているとすると、この音素は、フーリ
エ・スペクトラムFT(図3)の助けにより、図4の2
0次元空間内の3つのラベルを用いて表す。実験用訓練
の間に、統計的手法及びモデルによって、各音素に対し
て、1つの実質的に話者独立性のラベル系列を発生させ
る。そして、これらの種々のラベル系列と総数が60個
の音素との連関を、コンピュータ・システムのメモリ1
3に記憶させる。
【0012】この実験訓練の後に、話者依存型の訓練を
行う。この話者依存型訓練の間には、話者に、多数の所
定の文を発声させる。本コンピュータ・システムは、そ
の発声された文を用いることにより、実験訓練中に得ら
れた上記の話者独立性のラベル系列を、その特定の話者
に適合させるようにする。この話者依存型訓練が完了し
た時には、コンピュータ・システムのメモリ13は、第
1のテーブル、即ち、60個の音素の各々を、話者独立
形式で、統計的モデルの形態のその関連が予想されるラ
ベル系列に対し関連付けたテーブル、を記憶しているこ
とになる。この第1テーブルは、図5に示してある。ま
た、このコンピュータ・システムのメモリ13は、第2
のテーブルも記憶しており、このテーブルは、コンピュ
ータ・システムが認識すべき各単語についての関係する
音素系列を含んでいる。この第2テーブルは、図6に示
す。
行う。この話者依存型訓練の間には、話者に、多数の所
定の文を発声させる。本コンピュータ・システムは、そ
の発声された文を用いることにより、実験訓練中に得ら
れた上記の話者独立性のラベル系列を、その特定の話者
に適合させるようにする。この話者依存型訓練が完了し
た時には、コンピュータ・システムのメモリ13は、第
1のテーブル、即ち、60個の音素の各々を、話者独立
形式で、統計的モデルの形態のその関連が予想されるラ
ベル系列に対し関連付けたテーブル、を記憶しているこ
とになる。この第1テーブルは、図5に示してある。ま
た、このコンピュータ・システムのメモリ13は、第2
のテーブルも記憶しており、このテーブルは、コンピュ
ータ・システムが認識すべき各単語についての関係する
音素系列を含んでいる。この第2テーブルは、図6に示
す。
【0013】音声認識の間、コンピュータ・システム
は、フーリエ・スペクトラムFTを用いることにより、
その発言テキストから1つのラベル系列を生成する。本
コンピュータは、このラベル系列を、第1テーブル(図
5)に記憶してある諸ラベル系列と比較する。このテー
ブルから、コンピュータ・システムは、その先に決めた
ラベル系列と最もよく一致すると思われる音素を選択す
る。次に、この得られた音素を互いに連結し、そしてこ
れを、第2テーブル(図6)内に記憶してある種々の音
素系列と比較する。この第2テーブルからも、コンピュ
ータ・システムは、その先に決めた音素系列と最もよく
一致すると思われる単語を選択する。本コンピュータ・
システムは、音素と単語との最も可能性の高い幾つかの
組合せについてチェックを行うので、ほとんどの場合、
同じ話者が発声したテキストとしてこのコンピュータ・
システムが認識する単語は、幾つかあることになる。
は、フーリエ・スペクトラムFTを用いることにより、
その発言テキストから1つのラベル系列を生成する。本
コンピュータは、このラベル系列を、第1テーブル(図
5)に記憶してある諸ラベル系列と比較する。このテー
ブルから、コンピュータ・システムは、その先に決めた
ラベル系列と最もよく一致すると思われる音素を選択す
る。次に、この得られた音素を互いに連結し、そしてこ
れを、第2テーブル(図6)内に記憶してある種々の音
素系列と比較する。この第2テーブルからも、コンピュ
ータ・システムは、その先に決めた音素系列と最もよく
一致すると思われる単語を選択する。本コンピュータ・
システムは、音素と単語との最も可能性の高い幾つかの
組合せについてチェックを行うので、ほとんどの場合、
同じ話者が発声したテキストとしてこのコンピュータ・
システムが認識する単語は、幾つかあることになる。
【0014】ある1つの発言モデル(speech model)
(これの詳細な説明は省略した)により、本コンピュー
タ・システムは、連続して認識した幾つかの単語をチェ
ックし、そしてそれの文脈から、どのテキストを話者が
発声した可能性が最も高いかを判定する。次に、このコ
ンピュータ・システムが認識したそのテキストは、表示
装置17で表示する。上述したように、音素を用いるこ
とによって、表音基本形を取得しそしてその単語をコン
ピュータ・システムのメモリ13に入れるようにする。
この目的のため、自然音素と人工的な音素とを用いる。
その自然音素とは、話者が実際に発声するものであり、
一方、人工的音素とは、話者が発声するものではなく、
それらに関係した機能に依存してコンピュータ・システ
ムが人工的に発生するものである。それらの音素を表す
ラベル系列は、対象となるその音素が自然のものか人工
的なものかに拘わらず、実験訓練及び話者依存型訓練に
よって得られる。
(これの詳細な説明は省略した)により、本コンピュー
タ・システムは、連続して認識した幾つかの単語をチェ
ックし、そしてそれの文脈から、どのテキストを話者が
発声した可能性が最も高いかを判定する。次に、このコ
ンピュータ・システムが認識したそのテキストは、表示
装置17で表示する。上述したように、音素を用いるこ
とによって、表音基本形を取得しそしてその単語をコン
ピュータ・システムのメモリ13に入れるようにする。
この目的のため、自然音素と人工的な音素とを用いる。
その自然音素とは、話者が実際に発声するものであり、
一方、人工的音素とは、話者が発声するものではなく、
それらに関係した機能に依存してコンピュータ・システ
ムが人工的に発生するものである。それらの音素を表す
ラベル系列は、対象となるその音素が自然のものか人工
的なものかに拘わらず、実験訓練及び話者依存型訓練に
よって得られる。
【0015】2つの連続した単語の間の発言休止(spee
ch pause)に関係した1つの自然音素として、第1の無
声音素xを設けるようにする。この音素は、図5のテー
ブル内に含めてあり、これは、図6のテーブル中の“st
aerken”という単語に対して示したように、普通は1つ
の単語に属する音素系列の最後に発生する。また、1つ
の人工的音素を、第2の無声音素zとして設け、この音
素で、1つの複合単語の内の連続した2つの構成要素間
の発言休止を示すようにする。1つの複合単語の内の2
つの構成要素間のその発言休止は、2つの単語間の上記
の発言休止よりかなり短いものである。また、極端な場
合には、1つの単語の内の諸構成要素間の発言休止は、
ほとんどゼロのこともある。
ch pause)に関係した1つの自然音素として、第1の無
声音素xを設けるようにする。この音素は、図5のテー
ブル内に含めてあり、これは、図6のテーブル中の“st
aerken”という単語に対して示したように、普通は1つ
の単語に属する音素系列の最後に発生する。また、1つ
の人工的音素を、第2の無声音素zとして設け、この音
素で、1つの複合単語の内の連続した2つの構成要素間
の発言休止を示すようにする。1つの複合単語の内の2
つの構成要素間のその発言休止は、2つの単語間の上記
の発言休止よりかなり短いものである。また、極端な場
合には、1つの単語の内の諸構成要素間の発言休止は、
ほとんどゼロのこともある。
【0016】実験訓練並びに話者依存型訓練によって、
自然の第1の無声音素xだけでなく、2つの構成要素間
の発言休止を表す人工的な第2の無声音素に関しても、
コンピュータ・システムを訓練することが可能である。
この目的のため、複数の話者に、訓練フェーズ中、所定
の複合単語を発声させ、そしてこれから、コンピュータ
・システムに、統計的手法及びモデルによって、その第
2の無声音素zに関するラベル系列を発生させるように
する。もし、本コンピュータ・システムが、このラベル
系列を発言テキスト中に見い出したときには、このこと
から、その第2無声音素の前後に生じている音素が1つ
の複合単語の構成要素である、ということを推論するこ
とができる。この人工的な第2無声音素zは、自然の第
1無声音素xと同じ方法で扱うようにする。この結果、
複合単語は、その各構成要素に分割し、そしてこれら構
成要素を、コンピュータ・システムで別々に処理するよ
うにする。
自然の第1の無声音素xだけでなく、2つの構成要素間
の発言休止を表す人工的な第2の無声音素に関しても、
コンピュータ・システムを訓練することが可能である。
この目的のため、複数の話者に、訓練フェーズ中、所定
の複合単語を発声させ、そしてこれから、コンピュータ
・システムに、統計的手法及びモデルによって、その第
2の無声音素zに関するラベル系列を発生させるように
する。もし、本コンピュータ・システムが、このラベル
系列を発言テキスト中に見い出したときには、このこと
から、その第2無声音素の前後に生じている音素が1つ
の複合単語の構成要素である、ということを推論するこ
とができる。この人工的な第2無声音素zは、自然の第
1無声音素xと同じ方法で扱うようにする。この結果、
複合単語は、その各構成要素に分割し、そしてこれら構
成要素を、コンピュータ・システムで別々に処理するよ
うにする。
【0017】その第2の無声音素zは、図5のテーブル
中にそれに関するラベル系列と共に示してあり、また、
この無声音素zは、図6のテーブル中、“Schlag”と
“Wort”の単語の音素系列に関してそれの最初と最後に
みられる。この人工的な第2無声音素zがないと、全て
の複合単語をその音素系列と共にコンピュータ・システ
ムのメモリに記憶する必要がある。このことは、それら
“Schlag”と“Wort”の単語を記憶しなくてはならない
だけでなく、例えば、“Schlagwort”,“Schlagball”,
“Gegenshlag”,“SchlussWort”,“Wortspiel”等の単
語も記憶しなくてはならないことを意味する。
中にそれに関するラベル系列と共に示してあり、また、
この無声音素zは、図6のテーブル中、“Schlag”と
“Wort”の単語の音素系列に関してそれの最初と最後に
みられる。この人工的な第2無声音素zがないと、全て
の複合単語をその音素系列と共にコンピュータ・システ
ムのメモリに記憶する必要がある。このことは、それら
“Schlag”と“Wort”の単語を記憶しなくてはならない
だけでなく、例えば、“Schlagwort”,“Schlagball”,
“Gegenshlag”,“SchlussWort”,“Wortspiel”等の単
語も記憶しなくてはならないことを意味する。
【0018】これに対して、その人工的な第2無声音素
zを追加して用いることにより、メモリ13には単に
“Schlag”と“Wort”という2つの単語を記憶すればよ
いことになる。これら2つの単語の一方が複合単語の構
成要素として現れた時はいつでも、コンピュータ・シス
テムで、前述のように、その第2無声音素zによってそ
の複合単語を分割し、そしてそのそれぞれの構成要素
“Schlag”または“Wort”を別個に認識するようにす
る。また、更にもう1つの機能により、それら分割した
構成要素を組み合わせて、1つの複合単語を形成するよ
うにする。これは、コンピュータ・システムが、それら
単語の文脈からそれらの構成要素が1つの複合単語に属
すると認識するとき、実行するようにすることができ
る。あるいはまた、それら分割した構成要素を第2無声
音素zによってインデックスを付し、それによってそれ
らを後で組み合わせるようにすることもできる。
zを追加して用いることにより、メモリ13には単に
“Schlag”と“Wort”という2つの単語を記憶すればよ
いことになる。これら2つの単語の一方が複合単語の構
成要素として現れた時はいつでも、コンピュータ・シス
テムで、前述のように、その第2無声音素zによってそ
の複合単語を分割し、そしてそのそれぞれの構成要素
“Schlag”または“Wort”を別個に認識するようにす
る。また、更にもう1つの機能により、それら分割した
構成要素を組み合わせて、1つの複合単語を形成するよ
うにする。これは、コンピュータ・システムが、それら
単語の文脈からそれらの構成要素が1つの複合単語に属
すると認識するとき、実行するようにすることができ
る。あるいはまた、それら分割した構成要素を第2無声
音素zによってインデックスを付し、それによってそれ
らを後で組み合わせるようにすることもできる。
【0019】また、人工第2無声音素zを用いることに
より、複合単語に必要なメモリ空間を大幅に減らすこと
ができる。音声認識のためメモリ13に記憶した種々の
単語の音素系列を話者の発声した音素系列と比較する本
コンピュータ・システムでは、はるかに少ない数の比較
とそれに関連した統計的計算を行うだけでよいことにな
る。したがって、コンピュータ・システムの処理速度は
大幅に向上する。図5のテーブルは、音素 SCH,
L,A ...K,R,E等のような多数の音素と、こ
れらに関するラベル系列とを示したものである。また、
図5のテーブルは、それらに類似した音素も含んでい
る。従って、例えば鼻音化した音素Knがある。この音
素Knは、含まれた音素Kに類似しているが、明瞭に発
音されるものである。また、別の例には音素Arがあ
り、これは、例えば“besser”という単語におけるよう
に、単語の末尾に主に生じる。この音素は、音素Rに類
似している。音素Rもリストに載っており、この音素
は、例えば“Radio”という単語に現れる。これら音素
は全て、自然音素である。
より、複合単語に必要なメモリ空間を大幅に減らすこと
ができる。音声認識のためメモリ13に記憶した種々の
単語の音素系列を話者の発声した音素系列と比較する本
コンピュータ・システムでは、はるかに少ない数の比較
とそれに関連した統計的計算を行うだけでよいことにな
る。したがって、コンピュータ・システムの処理速度は
大幅に向上する。図5のテーブルは、音素 SCH,
L,A ...K,R,E等のような多数の音素と、こ
れらに関するラベル系列とを示したものである。また、
図5のテーブルは、それらに類似した音素も含んでい
る。従って、例えば鼻音化した音素Knがある。この音
素Knは、含まれた音素Kに類似しているが、明瞭に発
音されるものである。また、別の例には音素Arがあ
り、これは、例えば“besser”という単語におけるよう
に、単語の末尾に主に生じる。この音素は、音素Rに類
似している。音素Rもリストに載っており、この音素
は、例えば“Radio”という単語に現れる。これら音素
は全て、自然音素である。
【0020】上記の自然音素に加えて、各場合において
少なくとも2つの自然音素に類似した人工的音素があ
る。従って、例えば、2つの自然音素K及びKnに類似
した人工音素K1nを設けている。同様にして、自然音
素R及びArに類似した人工音素A1rも設けている。
最後に、人工音素E0を設けており、これは、自然音素
Eに類似しているものであり、例えば“-en”で終る単
語におけるように、話者がその自然音素Eを飲み込む場
合も同時に示すものである。これらの人工的音素は、話
者が実際には発声しない。これらは、むしろ、話者がこ
れらを発声するときの種々の形態を示している。実験訓
練及び話者依存型訓練の間、複数の話者に所定の単語を
口述させ、そしてコンピュータ・システムで、それらの
単語から、統計的手法及びモデルによって、上述の人工
的音素のラベル系列を発生させる。その話者が引き続き
あるテキストを口述したとき、コンピュータは、そのよ
うなラベル系列したがってそれらが関係する人工的音素
を認識することになる。
少なくとも2つの自然音素に類似した人工的音素があ
る。従って、例えば、2つの自然音素K及びKnに類似
した人工音素K1nを設けている。同様にして、自然音
素R及びArに類似した人工音素A1rも設けている。
最後に、人工音素E0を設けており、これは、自然音素
Eに類似しているものであり、例えば“-en”で終る単
語におけるように、話者がその自然音素Eを飲み込む場
合も同時に示すものである。これらの人工的音素は、話
者が実際には発声しない。これらは、むしろ、話者がこ
れらを発声するときの種々の形態を示している。実験訓
練及び話者依存型訓練の間、複数の話者に所定の単語を
口述させ、そしてコンピュータ・システムで、それらの
単語から、統計的手法及びモデルによって、上述の人工
的音素のラベル系列を発生させる。その話者が引き続き
あるテキストを口述したとき、コンピュータは、そのよ
うなラベル系列したがってそれらが関係する人工的音素
を認識することになる。
【0021】このような人工的音素がない場合、本コン
ピュータ・システムには、各特定の単語の考えられる全
ての音素系列を記憶させなければならないことになる。
例えば、“staerken”という単語については、次に挙げ
る各音素系列を記憶しなければならない。 SCH−T−AE−R−K−E−N SCH−T−AE−R−Kn−E−N SCH−T−AE−R−K−N SCH−T−AE−Ar−K−E−N SCH−T−AE−Ar−Kn−E−N SCH−T−AE−Ar−K−N
ピュータ・システムには、各特定の単語の考えられる全
ての音素系列を記憶させなければならないことになる。
例えば、“staerken”という単語については、次に挙げ
る各音素系列を記憶しなければならない。 SCH−T−AE−R−K−E−N SCH−T−AE−R−Kn−E−N SCH−T−AE−R−K−N SCH−T−AE−Ar−K−E−N SCH−T−AE−Ar−Kn−E−N SCH−T−AE−Ar−K−N
【0022】上述の人工的音素を用いれば、その“stae
rken”の単語に対しては、たった1つの音素系列を、コ
ンピュータ・システムのメモリ13に記憶させればよい
ことになる(図6に例示したテーブルを参照)。この図
6のテーブル中では、互いに類似した音素RとArと
は、人工的音素A1rに置き換えてある。同じく、互い
に類似した自然音素KとKnとは、人工的音素K1nに
置き換えてある。また、自然音素Eの場所には、この音
素が抑制される場合に備えて、人工的音素E0を設けて
いる。このようにして、全く同じ単語に対する6つの異
なった音素系列を、1つの人工的音素系列に置き換える
ことができる。
rken”の単語に対しては、たった1つの音素系列を、コ
ンピュータ・システムのメモリ13に記憶させればよい
ことになる(図6に例示したテーブルを参照)。この図
6のテーブル中では、互いに類似した音素RとArと
は、人工的音素A1rに置き換えてある。同じく、互い
に類似した自然音素KとKnとは、人工的音素K1nに
置き換えてある。また、自然音素Eの場所には、この音
素が抑制される場合に備えて、人工的音素E0を設けて
いる。このようにして、全く同じ単語に対する6つの異
なった音素系列を、1つの人工的音素系列に置き換える
ことができる。
【0023】
【効果】以上に述べた本発明によれば、各単語の異なる
種々の音素系列に対して必要となるメモリ空間を、大幅
に減少させることができる。また、コンピュータ・シス
テムにおいては、話者が口述した単語をメモリ13に記
憶してある単語の音素系列と比較する際、格段に少ない
処理を行うだけでよい。更に、これにより、そのコンピ
ュータ・システムの処理速度を向上させることができ
る。また、人工的音素を用いることによって、コンピュ
ータ・システムのメモリ13に記憶すべき単語の数及び
音素系列の数を、大幅に削減することができる。このこ
とは、音声認識のためにチェックすべき単語及び音素の
数も同じく減少することを意味している。この結果、コ
ンピュータ・システムの処理速度を上げることができ、
したがってそのコンピュータ・システムがリアルタイム
・モードで処理することが可能となる。
種々の音素系列に対して必要となるメモリ空間を、大幅
に減少させることができる。また、コンピュータ・シス
テムにおいては、話者が口述した単語をメモリ13に記
憶してある単語の音素系列と比較する際、格段に少ない
処理を行うだけでよい。更に、これにより、そのコンピ
ュータ・システムの処理速度を向上させることができ
る。また、人工的音素を用いることによって、コンピュ
ータ・システムのメモリ13に記憶すべき単語の数及び
音素系列の数を、大幅に削減することができる。このこ
とは、音声認識のためにチェックすべき単語及び音素の
数も同じく減少することを意味している。この結果、コ
ンピュータ・システムの処理速度を上げることができ、
したがってそのコンピュータ・システムがリアルタイム
・モードで処理することが可能となる。
【図1】音声認識用コンピュータ・システムの簡略ブロ
ック図。
ック図。
【図2】電気的発言信号を時間軸に関して示した図。
【図3】図2の発言信号の周波数スペクトラムを示した
図。
図。
【図4】幾つかのドット群のある多次元空間を示すもの
と仮定した模式図。
と仮定した模式図。
【図5】特定の各ラベル系列を多数の音素の各々に関連
させたテーブルを示す図表。
させたテーブルを示す図表。
【図6】特定の各音素系列を幾つかの単語の各々に関連
させたテーブルを示す図表。
させたテーブルを示す図表。
10:マイクロフォン 11:音響変換器 13:メモリ 15:プロセッサ 17:表示装置 AS:電気振幅信号 W1〜W20:20個の帯域の値 V:ベクトル L15,L23,L89,L147,L189:各ドッ
ト群のラベル
ト群のラベル
フロントページの続き (72)発明者 ルートヴイツヒ・ヒツツエンベルガー ドイツ連邦共和国8419 シエーエンホヘ ン、ナーデルシユプツヴエーク 19番地 (72)発明者 エリツク・ケツペル ドイツ連邦共和国6954 ヒルシユベルク、 ラデンブルガー・シユトラーセ 23番地 (72)発明者 カルルハインツ・モーア ドイツ連邦共和国6920 ジンスハイム、エ ガーラントシユトラーセ 5番地 (72)発明者 ルドルフ・シユミツト ドイツ連邦共和国6900 ハイデルベルク、 オデンヴアルトシユトラーセ 47/4番地 (72)発明者 ゲオルク・ヴアルヒ ドイツ連邦共和国6802、ラーデンブルク ヴアーレンテイニアンシユトラーセ 74番 地 (72)発明者 クラウス・ヴオトケ ドイツ連邦共和国6900 ハイデルベルク、 カステルヴエーク 15番地
Claims (3)
- 【請求項1】 音声認識用のコンピュータ・システムで
あって、 イ) 発声された単語を音素に変換する変換手段(10,1
1,15)と、 ロ) 複数の単語を、幾つかの自然音素を含む1つの表
音基本形で記憶するための記憶手段(13,15)と、 ハ) 前記の変換した音素を前記の記憶した音素と比較
する比較手段と、を備えた音声認識用コンピュータ・シ
ステムにおいて、 前記複数の単語の前記表音基本形が、幾つかの人工的音
素をも含んでいること、を特徴とする音声認識用コンピ
ュータ・システム。 - 【請求項2】 請求項1記載のコンピュータ・システム
において、 自然音素の1つとして、2つの単語の間の発言休止に関
係した第1の無声音素(x)を設け、 人工的音素の1つとして、複合単語の内の2つの構成要
素の間の発言休止に関係した第2の無声音素(z)を設
けていること、を特徴とする音声認識用コンピュータ・
システム。 - 【請求項3】 請求項1又は2記載のコンピュータ・シ
ステムにおいて、少なくとも2つの自然音素(K,Kn,R,A
r,E)と類似した人工的音素(K1n,A1r,E0)を設けてい
ること、を特徴とする音声認識用コンピュータ・システ
ム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4111781:6 | 1991-04-11 | ||
DE41117816 | 1991-04-11 | ||
DE19914111781 DE4111781A1 (de) | 1991-04-11 | 1991-04-11 | Computersystem zur spracherkennung |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05100693A true JPH05100693A (ja) | 1993-04-23 |
JPH0743599B2 JPH0743599B2 (ja) | 1995-05-15 |
Family
ID=6429330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4043450A Expired - Lifetime JPH0743599B2 (ja) | 1991-04-11 | 1992-02-28 | 音声認識用コンピュータ・システム |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP0508225A3 (ja) |
JP (1) | JPH0743599B2 (ja) |
DE (1) | DE4111781A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004510209A (ja) * | 2000-09-29 | 2004-04-02 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 発声された番号シーケンスの分析方法及び装置 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4307905A1 (de) * | 1993-03-12 | 1994-09-15 | Thomson Brandt Gmbh | Verfahren zur Speicherung und Wiedergabe eines Audiosignals |
KR100383353B1 (ko) | 1994-11-01 | 2003-10-17 | 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 | 음성인식장치및음성인식장치용어휘발생방법 |
GB2305288A (en) * | 1995-09-15 | 1997-04-02 | Ibm | Speech recognition system |
US6349282B1 (en) | 1999-04-20 | 2002-02-19 | Larnout & Hauspie Speech Products N.V. | Compound words in speech recognition systems |
DE10017717B4 (de) * | 2000-04-11 | 2006-01-05 | Leopold Kostal Gmbh & Co. Kg | Spracheingabe gesteuertes Steuergerät |
US7610189B2 (en) | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
RU2692051C1 (ru) | 2017-12-29 | 2019-06-19 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для синтеза речи из текста |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0194398A (ja) * | 1987-10-06 | 1989-04-13 | Matsushita Electric Ind Co Ltd | 音声標準パターンの作成方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
JPS58145998A (ja) * | 1982-02-25 | 1983-08-31 | ソニー株式会社 | 音声過渡点検出方法 |
DE3406540C1 (de) * | 1984-02-23 | 1985-09-05 | Matth. Hohner Ag, 7218 Trossingen | Verfahren und Anordnung fuer die Sprachsynthese |
US4718088A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition training method |
US4811399A (en) * | 1984-12-31 | 1989-03-07 | Itt Defense Communications, A Division Of Itt Corporation | Apparatus and method for automatic speech recognition |
DE3711342A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen zusammenhaengend gesprochener woerter |
-
1991
- 1991-04-11 DE DE19914111781 patent/DE4111781A1/de not_active Ceased
-
1992
- 1992-02-28 JP JP4043450A patent/JPH0743599B2/ja not_active Expired - Lifetime
- 1992-03-26 EP EP19920105187 patent/EP0508225A3/en not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0194398A (ja) * | 1987-10-06 | 1989-04-13 | Matsushita Electric Ind Co Ltd | 音声標準パターンの作成方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004510209A (ja) * | 2000-09-29 | 2004-04-02 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 発声された番号シーケンスの分析方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH0743599B2 (ja) | 1995-05-15 |
EP0508225A2 (en) | 1992-10-14 |
EP0508225A3 (en) | 1993-11-03 |
DE4111781A1 (de) | 1992-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zissman et al. | Automatic language identification | |
US6243680B1 (en) | Method and apparatus for obtaining a transcription of phrases through text and spoken utterances | |
Kanthak et al. | Context-dependent acoustic modeling using graphemes for large vocabulary speech recognition | |
US5502791A (en) | Speech recognition by concatenating fenonic allophone hidden Markov models in parallel among subwords | |
US7107216B2 (en) | Grapheme-phoneme conversion of a word which is not contained as a whole in a pronunciation lexicon | |
US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
US7630878B2 (en) | Speech recognition with language-dependent model vectors | |
Eide | Distinctive features for use in an automatic speech recognition system | |
EP0769184B1 (en) | Speech recognition methods and apparatus on the basis of the modelling of new words | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
JPH0876788A (ja) | 音声認識における混同しやすい語の検出方法 | |
JPH11505037A (ja) | 言語認識装置の信頼性向上方法 | |
JP2004258658A (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
JP2002062891A (ja) | 音素割当て方法 | |
EP0562138A1 (en) | Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary | |
JP2000347681A (ja) | テキスト・ベースの音声合成を利用した音声制御システム用の再生方法 | |
JPH05100693A (ja) | 音声認識用コンピユータ・システム | |
Cremelie et al. | Improving the recognition of foreign names and non-native speech by combining multiple grapheme-to-phoneme converters | |
JP3277579B2 (ja) | 音声認識方法および装置 | |
US6934680B2 (en) | Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis | |
US7945445B1 (en) | Hybrid lexicon for speech recognition | |
JP2975542B2 (ja) | 音声認識装置 | |
JP3240691B2 (ja) | 音声認識方法 | |
Shah et al. | Influence of various asymmetrical contextual factors for TTS in a low resource language | |
JP2000242295A (ja) | 音声認識装置および音声対話装置 |