JPH05100693A

JPH05100693A - 音声認識用コンピユータ・システム

Info

Publication number: JPH05100693A
Application number: JP4345092A
Authority: JP
Inventors: Upali Bandara; ウパリ・バンダラ; Hitzenberger Ludwig; ルートヴイツヒ・ヒツツエンベルガー; Keppel Eric; エリツク・ケツペル; Mohr Karlheinz; カルルハインツ・モーア; Rudolf Schmied; ルドルフ・シユミツト; Walch Georg; ゲオルク・ヴアルヒ; Wothke Klaus; クラウス・ヴオトケ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-04-11
Filing date: 1992-02-28
Publication date: 1993-04-23
Anticipated expiration: 2010-05-15
Also published as: JPH0743599B2; EP0508225A2; EP0508225A3; DE4111781A1

Abstract

(57)【要約】【目的】音声認識用コンピュータ・システムにおい
て、話者の口述速度に追従できるようシステム処理速度
を向上させること。【構成】単語を表すため、実際の発声を意味する自然
音素と、人工的に生成する人工的音素と、で形成した表
音基本形を用いる。自然音素には、２つの単語間の発言
休止を表す無声音素ｘも設ける。人工的音素として、ド
イツ語におけるような複合単語中の２つの構成要素間の
発言休止を表す無声音素ｚを設ける。また、種々の方言
での異なった発音に対処するため、互いに類似の自然音
素をまとめて表す人工的音素Ａ１ｒ，Ｋ１ｎ，Ｅ０をも
設ける。これにより、音声認識用コンピュータ・システ
ムのメモリに記憶させる単語の数を、表音基本形を用い
て減らし、そのシステムでの音声認識時に行う比較ステ
ップ数を減らして、システム処理速度を向上させる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識用コンピュー
タ・システムに関し、発声された各単語を個々の音（音
素）に変換する手段と、複数の単語を１つの表音表現
（幾つかの自然音素を含む表音基本形）で記憶するため
の手段と、及び変換した音素と記憶してある音素とを比
較する手段と、からなる音声認識用コンピュータ・シス
テムに関するものである。

【０００２】

【従来の技術】上記のような音声認識用コンピュータ・
システムは、本技術分野では公知であり、その大部分
は、自動書取り機械として用いられている。これは、話
者が文章をマイクロフォンに向って口述し、それを電気
信号に変換するものである。この電気信号をコンピュー
タ・システムで用いて、その発言文章（speech text）
に対応するデジタル化した音素を発生する。次に、この
デジタル化音素は、訓練フェーズにおいて既に生成しコ
ンピュータ・システムのメモリに記憶してあるデジタル
化音素と比較するようにする。上記訓練フェーズの間に
は、複数の単語、即ち、それらの正確な文字系列とそれ
に関連する話者依存性の音素系列とを、コンピュータメ
モリに記憶する。確率計算の支援により、コンピュータ
・システムは、メモリ内で、その発言文章と最もよく一
致していると思われる、それらの音素をまず初めに探
し、そして次にそれらの単語を探す。このようにして認
識した単語は、最後に、その文章の文脈に関してチェッ
クを行い、そして必要であれば、訂正を行う。このよう
にして、口述された文章をコンピュータ・システムで認
識し、そして更に、例えば、文書処理システムによっ
て、処理、表示、または印刷するようにすることができ
る。

【０００３】

【発明が解決しようとする課題】音声認識用に用いるコ
ンピュータ・システムにおける１つの大きな課題は、認
識すべき単語の語彙をそのシステムのメモリに記憶させ
ることである。これは、次の２つの理由によって、特に
ドイツ語において大きな問題となるものである。まず第
１に、ドイツ語には、複数の複合単語があり、これらを
全て個々に記憶させなくてはならない。したがって、例
えば、“Fahrkartenschalter”という単語だけでなく、
この単語の構成要素である、“Fahrkarte”,“Kart
e”，及び“Schalter”を記憶させる必要があると共
に、これらの構成要素を含む他の単語、例えば、“Scha
lterstunde”,“Fahrstunde”等も記憶させる必要があ
る。そして第２に、ドイツ語には同じ単語で発音が大き
く変わってしまう方言が多数あり、このような種々の音
韻論的変形例を１つの音素系列としてコンピュータのメ
モリには記憶できないので、その代りに、全く同じ単語
に対して数個の音素系列を、各方言用に記憶させなくて
はならない。その結果、ドイツ語の音声認識用に用いる
コンピュータ・システムは、非常に大量の単語を記憶し
なくてはならなくなる。このコンピュータ・システムの
メモリ空間には限度があるということの他に、大量の単
語を記憶するということの欠点は、話者が口述した単語
とメモリに記憶させた単語との比較プロセスが、非常に
遅くなり、このため、コンピュータ・システムが、もは
や話者に“追従”できなくなってしまうことである。従
って、話者はコンピュータ・システムが追い付くのを
“待機”しなければならず、このことは、実際上、音声
認識へのコンピュータ応用に悪影響を与えている。した
がって、本発明の目的は、話者が口述する文章に容易に
追従することができる程十分に高速な、音声認識用コン
ピュータ・システムを提供することである。

【０００４】

【課題を解決するための手段】本発明では、音声認識用
のコンピュータ・システム内の単語の表音基本形が、幾
つかの人工的音素も含むようにして、この目的を達成す
るようにする。人工的音素とは、話者がそのようには発
音しない音素のことである。これらの音素は、コンピュ
ータ・システムの訓練フェーズ中、話者が特定の単語を
どのように発声するかに依存して、そのコンピュータ・
システムで人工的に生成する。このような人工的音素
は、自然音素の表音基本形と比べ、消費するメモリ空間
が少ない表音基本形として単語を表すことができる、と
いう利点を有している。これによって、コンピュータが
認識すべき語彙を記憶させるのに必要なメモリ空間、並
びに発言文章をコンピュータが認識するのに必要な時間
を、大幅に減らすことができる。この結果、本コンピュ
ータ・システムでは、話者が口述する文章に“追従”で
き、リアルタイム・モードでその認識処理を行うことが
できるようになる。

【０００５】本発明の一実施例においては、２つの単語
の間の休止に関係した第１の無声音素を自然音素として
設け、また１つの複合単語の内の２つの構成要素間の休
止に関係した第２の無声音素を、人工的音素として設け
ること、を特徴とする。その第２の人工的音素によっ
て、コンピュータ・システムは、１つの複合単語の内の
２つの構成要素間の境界を検出できる。その複合単語
は、コンピュータ・システムで、その構成要素に分割
し、その各構成要素を別々に処理し、そして認識するよ
うにすることもできる。したがって、各複合単語は、
“完全な１つのもの”としてコンピュータのメモリに記
憶する代りに、それの各構成要素を記憶すれば十分であ
る。このようにすれば、複合単語をそのまま記憶させる
ことは、もはや必要でなくなる。このことによって得ら
れる利点は、話者が口述する単語を、記憶してある単語
と比較する時に、それに必要な時間を大幅に削減できる
ことである。

【０００６】本発明の別の実施例では、少なくとも２つ
の自然音素に類似した１つの人工的音素を提供する。こ
の実施例によれば、各単語または複合単語の各構成要素
の表音基本形が、類似の自然音素の系列に関して少なく
とも２通りに異なる場合、その単語または構成要素を、
関連した音素で表すようにする。

【０００７】このような人工的音素によって、全く同一
の単語の種々の音韻論的変形例を、１つの表音基本形と
して表すことができるようになる。したがって、同一の
単語の発音の方言的相違に対して、数個の表音基本形を
コンピュータのメモリに記憶させる必要はなく、自然音
素に加えて人工的音素を含む１つの基本形のみを記憶さ
せればよい。このように、全く同一の単語のために何回
も行なわなければならなかった記憶処理を、除くことが
できる。

【０００８】

【実施例】次に、本発明の実施例について以下に詳細に
説明する。尚、この説明中の数値は、実際に有利である
と判明したものであり、したがってその詳しい説明は省
略する。図１に例示した音声認識用コンピュータ・シス
テムには、マイクロフォン１０を設けており、これは、
音響変換器１１に接続してある。この変換器１１は、プ
ロセッサ１５に連結している。また、メモリ１３も設け
てあり、このメモリは、そのプロセッサ１５に接続して
いる。最後に、プロセッサ１５は、表示装置１７に接続
してある。

【０００９】このシステムの動作について説明すると、
話者がマイクロフォン１０へ発声することに応答して、
音響変換器は、電気振幅信号ＡＳを発生する。この信号
は、図２に時間ｔに関して示してある。次に、この振幅
信号ＡＳをフーリエ変換して、２０ｍｓ長の各時間フレ
ームで１フーリエ・スペクトラムを形成するようにす
る。このような１つのフーリエ変換スペクトラムＦＴに
ついては、図３に周波数ｆに関して示してある。図３の
このフーリエ・スペクトラムＦＴは、図２に示した振幅
信号ＡＳの最初の２０ｍｓの時間フレームに関係したも
のである。各フーリエ・スペクトラムＦＴは、更に２０
の帯域に細分して、その各々が、これらが関係するフー
リエ・スペクトラムＦＴの値を表すようにしている。し
たがって、振幅信号ＡＳの２０ｍｓ時間フレームの各々
に対して、これが関係するフーリエ・スペクトラムＦＴ
の２０個の値Ｗ１，Ｗ２，．．．Ｗ１９，Ｗ２０を要素
とするベクトルＶができることになる。

【００１０】図４において、図中の軸は、多次元空間を
表すものである。この空間は、本図では３次元として図
示しているが、本発明にとっては２０次元（これを、そ
のように表現することは不可能）である、とみなすこと
にする。このような２０次元空間内に対し、複数のドッ
トを入れる。その各ドットは、１つのベクトルＶに対応
するものであり、そしてそのドットのこの２０次元空間
内の位置は、そのベクトルＶの２０個の値で規定する。
したがって、図４の２０次元空間は、振幅信号ＡＳの連
続した２０ｍｓ時間フレームのそれぞれのフーリエ・ス
ペクトラムＦＴを包含している。ここで、図４の２０次
元空間内に入れたそれら各ドットは、均一に分散するの
ではなく、群（クラスタ）状に現れることが解った。こ
れらの各群は、発言依存性（speech-dependent）のもの
であり、したがって、ドイツ語でのそれら群は、フラン
ス語または英語での群とは異なるものである。それらの
群には、連続して番号を振ってある。これは、図４にお
いては、各群にＬ１５やＬ１４７等のラベルを関連付け
ることにより示してある。したがって、２００個の群が
あるときには、２００個のラベルで指し示すようにす
る。

【００１１】実験用訓練によって、２０次元空間内のそ
れら群は、言語にのみ依存し、話者には実質的に独立で
ある、ということが確かめられた。この訓練では、１０
人の異なる話者に、コンピュータ・システムが認識すべ
き種々の単語を発声させた。そして、その情報をこのコ
ンピュータで使って、統計的手法及びモデル（例：マル
コフ）によって、各群の位置を決めた。この実験訓練
は、次のような目的にも用いた。即ち、コンピュータ・
システムで認識すべき単語を、その各１つの単語の綴り
が１つの表音基本形と関連するように、メモリ１３に記
憶させた。１つの単語のその表音基本形は、連結した音
素から成っている（それら音素は６０個ある）。各音素
は、１列のラベルで構成してあり、これらの各ラベル
は、図２の振幅信号ＡＳの所定の２０ｍｓ時間フレーム
に関係したものである。例えば、図２の振幅信号ＡＳが
単一の音素を表しているとすると、この音素は、フーリ
エ・スペクトラムＦＴ（図３）の助けにより、図４の２
０次元空間内の３つのラベルを用いて表す。実験用訓練
の間に、統計的手法及びモデルによって、各音素に対し
て、１つの実質的に話者独立性のラベル系列を発生させ
る。そして、これらの種々のラベル系列と総数が６０個
の音素との連関を、コンピュータ・システムのメモリ１
３に記憶させる。

【００１２】この実験訓練の後に、話者依存型の訓練を
行う。この話者依存型訓練の間には、話者に、多数の所
定の文を発声させる。本コンピュータ・システムは、そ
の発声された文を用いることにより、実験訓練中に得ら
れた上記の話者独立性のラベル系列を、その特定の話者
に適合させるようにする。この話者依存型訓練が完了し
た時には、コンピュータ・システムのメモリ１３は、第
１のテーブル、即ち、６０個の音素の各々を、話者独立
形式で、統計的モデルの形態のその関連が予想されるラ
ベル系列に対し関連付けたテーブル、を記憶しているこ
とになる。この第１テーブルは、図５に示してある。ま
た、このコンピュータ・システムのメモリ１３は、第２
のテーブルも記憶しており、このテーブルは、コンピュ
ータ・システムが認識すべき各単語についての関係する
音素系列を含んでいる。この第２テーブルは、図６に示
す。

【００１３】音声認識の間、コンピュータ・システム
は、フーリエ・スペクトラムＦＴを用いることにより、
その発言テキストから１つのラベル系列を生成する。本
コンピュータは、このラベル系列を、第１テーブル（図
５）に記憶してある諸ラベル系列と比較する。このテー
ブルから、コンピュータ・システムは、その先に決めた
ラベル系列と最もよく一致すると思われる音素を選択す
る。次に、この得られた音素を互いに連結し、そしてこ
れを、第２テーブル（図６）内に記憶してある種々の音
素系列と比較する。この第２テーブルからも、コンピュ
ータ・システムは、その先に決めた音素系列と最もよく
一致すると思われる単語を選択する。本コンピュータ・
システムは、音素と単語との最も可能性の高い幾つかの
組合せについてチェックを行うので、ほとんどの場合、
同じ話者が発声したテキストとしてこのコンピュータ・
システムが認識する単語は、幾つかあることになる。

【００１４】ある１つの発言モデル（speech model）
（これの詳細な説明は省略した）により、本コンピュー
タ・システムは、連続して認識した幾つかの単語をチェ
ックし、そしてそれの文脈から、どのテキストを話者が
発声した可能性が最も高いかを判定する。次に、このコ
ンピュータ・システムが認識したそのテキストは、表示
装置１７で表示する。上述したように、音素を用いるこ
とによって、表音基本形を取得しそしてその単語をコン
ピュータ・システムのメモリ１３に入れるようにする。
この目的のため、自然音素と人工的な音素とを用いる。
その自然音素とは、話者が実際に発声するものであり、
一方、人工的音素とは、話者が発声するものではなく、
それらに関係した機能に依存してコンピュータ・システ
ムが人工的に発生するものである。それらの音素を表す
ラベル系列は、対象となるその音素が自然のものか人工
的なものかに拘わらず、実験訓練及び話者依存型訓練に
よって得られる。

【００１５】２つの連続した単語の間の発言休止（spee
ch pause）に関係した１つの自然音素として、第１の無
声音素ｘを設けるようにする。この音素は、図５のテー
ブル内に含めてあり、これは、図６のテーブル中の“st
aerken”という単語に対して示したように、普通は１つ
の単語に属する音素系列の最後に発生する。また、１つ
の人工的音素を、第２の無声音素ｚとして設け、この音
素で、１つの複合単語の内の連続した２つの構成要素間
の発言休止を示すようにする。１つの複合単語の内の２
つの構成要素間のその発言休止は、２つの単語間の上記
の発言休止よりかなり短いものである。また、極端な場
合には、１つの単語の内の諸構成要素間の発言休止は、
ほとんどゼロのこともある。

【００１６】実験訓練並びに話者依存型訓練によって、
自然の第１の無声音素ｘだけでなく、２つの構成要素間
の発言休止を表す人工的な第２の無声音素に関しても、
コンピュータ・システムを訓練することが可能である。
この目的のため、複数の話者に、訓練フェーズ中、所定
の複合単語を発声させ、そしてこれから、コンピュータ
・システムに、統計的手法及びモデルによって、その第
２の無声音素ｚに関するラベル系列を発生させるように
する。もし、本コンピュータ・システムが、このラベル
系列を発言テキスト中に見い出したときには、このこと
から、その第２無声音素の前後に生じている音素が１つ
の複合単語の構成要素である、ということを推論するこ
とができる。この人工的な第２無声音素ｚは、自然の第
１無声音素ｘと同じ方法で扱うようにする。この結果、
複合単語は、その各構成要素に分割し、そしてこれら構
成要素を、コンピュータ・システムで別々に処理するよ
うにする。

【００１７】その第２の無声音素ｚは、図５のテーブル
中にそれに関するラベル系列と共に示してあり、また、
この無声音素ｚは、図６のテーブル中、“Schlag”と
“Wort”の単語の音素系列に関してそれの最初と最後に
みられる。この人工的な第２無声音素ｚがないと、全て
の複合単語をその音素系列と共にコンピュータ・システ
ムのメモリに記憶する必要がある。このことは、それら
“Schlag”と“Wort”の単語を記憶しなくてはならない
だけでなく、例えば、“Schlagwort”,“Schlagball”,
“Gegenshlag”,“SchlussWort”,“Wortspiel”等の単
語も記憶しなくてはならないことを意味する。

【００１８】これに対して、その人工的な第２無声音素
ｚを追加して用いることにより、メモリ１３には単に
“Schlag”と“Wort”という２つの単語を記憶すればよ
いことになる。これら２つの単語の一方が複合単語の構
成要素として現れた時はいつでも、コンピュータ・シス
テムで、前述のように、その第２無声音素ｚによってそ
の複合単語を分割し、そしてそのそれぞれの構成要素
“Schlag”または“Wort”を別個に認識するようにす
る。また、更にもう１つの機能により、それら分割した
構成要素を組み合わせて、１つの複合単語を形成するよ
うにする。これは、コンピュータ・システムが、それら
単語の文脈からそれらの構成要素が１つの複合単語に属
すると認識するとき、実行するようにすることができ
る。あるいはまた、それら分割した構成要素を第２無声
音素ｚによってインデックスを付し、それによってそれ
らを後で組み合わせるようにすることもできる。

【００１９】また、人工第２無声音素ｚを用いることに
より、複合単語に必要なメモリ空間を大幅に減らすこと
ができる。音声認識のためメモリ１３に記憶した種々の
単語の音素系列を話者の発声した音素系列と比較する本
コンピュータ・システムでは、はるかに少ない数の比較
とそれに関連した統計的計算を行うだけでよいことにな
る。したがって、コンピュータ・システムの処理速度は
大幅に向上する。図５のテーブルは、音素ＳＣＨ，
Ｌ，Ａ．．．Ｋ，Ｒ，Ｅ等のような多数の音素と、こ
れらに関するラベル系列とを示したものである。また、
図５のテーブルは、それらに類似した音素も含んでい
る。従って、例えば鼻音化した音素Ｋｎがある。この音
素Ｋｎは、含まれた音素Ｋに類似しているが、明瞭に発
音されるものである。また、別の例には音素Ａｒがあ
り、これは、例えば“besser”という単語におけるよう
に、単語の末尾に主に生じる。この音素は、音素Ｒに類
似している。音素Ｒもリストに載っており、この音素
は、例えば“Radio”という単語に現れる。これら音素
は全て、自然音素である。

【００２０】上記の自然音素に加えて、各場合において
少なくとも２つの自然音素に類似した人工的音素があ
る。従って、例えば、２つの自然音素Ｋ及びＫｎに類似
した人工音素Ｋ１ｎを設けている。同様にして、自然音
素Ｒ及びＡｒに類似した人工音素Ａ１ｒも設けている。
最後に、人工音素Ｅ０を設けており、これは、自然音素
Ｅに類似しているものであり、例えば“-en”で終る単
語におけるように、話者がその自然音素Ｅを飲み込む場
合も同時に示すものである。これらの人工的音素は、話
者が実際には発声しない。これらは、むしろ、話者がこ
れらを発声するときの種々の形態を示している。実験訓
練及び話者依存型訓練の間、複数の話者に所定の単語を
口述させ、そしてコンピュータ・システムで、それらの
単語から、統計的手法及びモデルによって、上述の人工
的音素のラベル系列を発生させる。その話者が引き続き
あるテキストを口述したとき、コンピュータは、そのよ
うなラベル系列したがってそれらが関係する人工的音素
を認識することになる。

【００２１】このような人工的音素がない場合、本コン
ピュータ・システムには、各特定の単語の考えられる全
ての音素系列を記憶させなければならないことになる。
例えば、“staerken”という単語については、次に挙げ
る各音素系列を記憶しなければならない。ＳＣＨ−Ｔ−ＡＥ−Ｒ−Ｋ−Ｅ−ＮＳＣＨ−Ｔ−ＡＥ−Ｒ−Ｋｎ−Ｅ−ＮＳＣＨ−Ｔ−ＡＥ−Ｒ−Ｋ−ＮＳＣＨ−Ｔ−ＡＥ−Ａｒ−Ｋ−Ｅ−ＮＳＣＨ−Ｔ−ＡＥ−Ａｒ−Ｋｎ−Ｅ−ＮＳＣＨ−Ｔ−ＡＥ−Ａｒ−Ｋ−Ｎ

【００２２】上述の人工的音素を用いれば、その“stae
rken”の単語に対しては、たった１つの音素系列を、コ
ンピュータ・システムのメモリ１３に記憶させればよい
ことになる（図６に例示したテーブルを参照）。この図
６のテーブル中では、互いに類似した音素ＲとＡｒと
は、人工的音素Ａ１ｒに置き換えてある。同じく、互い
に類似した自然音素ＫとＫｎとは、人工的音素Ｋ１ｎに
置き換えてある。また、自然音素Ｅの場所には、この音
素が抑制される場合に備えて、人工的音素Ｅ０を設けて
いる。このようにして、全く同じ単語に対する６つの異
なった音素系列を、１つの人工的音素系列に置き換える
ことができる。

【００２３】

【効果】以上に述べた本発明によれば、各単語の異なる
種々の音素系列に対して必要となるメモリ空間を、大幅
に減少させることができる。また、コンピュータ・シス
テムにおいては、話者が口述した単語をメモリ１３に記
憶してある単語の音素系列と比較する際、格段に少ない
処理を行うだけでよい。更に、これにより、そのコンピ
ュータ・システムの処理速度を向上させることができ
る。また、人工的音素を用いることによって、コンピュ
ータ・システムのメモリ１３に記憶すべき単語の数及び
音素系列の数を、大幅に削減することができる。このこ
とは、音声認識のためにチェックすべき単語及び音素の
数も同じく減少することを意味している。この結果、コ
ンピュータ・システムの処理速度を上げることができ、
したがってそのコンピュータ・システムがリアルタイム
・モードで処理することが可能となる。

【図面の簡単な説明】

【図１】音声認識用コンピュータ・システムの簡略ブロ
ック図。

【図２】電気的発言信号を時間軸に関して示した図。

【図３】図２の発言信号の周波数スペクトラムを示した
図。

【図４】幾つかのドット群のある多次元空間を示すもの
と仮定した模式図。

【図５】特定の各ラベル系列を多数の音素の各々に関連
させたテーブルを示す図表。

【図６】特定の各音素系列を幾つかの単語の各々に関連
させたテーブルを示す図表。

【符号の説明】

１０：マイクロフォン１１：音響変換器１３：メモリ１５：プロセッサ１７：表示装置ＡＳ：電気振幅信号Ｗ１〜Ｗ２０：２０個の帯域の値Ｖ：ベクトルＬ１５，Ｌ２３，Ｌ８９，Ｌ１４７，Ｌ１８９：各ドッ
ト群のラベル

フロントページの続き (72)発明者ルートヴイツヒ・ヒツツエンベルガードイツ連邦共和国8419 シエーエンホヘン、ナーデルシユプツヴエーク 19番地 (72)発明者エリツク・ケツペルドイツ連邦共和国6954 ヒルシユベルク、ラデンブルガー・シユトラーセ 23番地 (72)発明者カルルハインツ・モーアドイツ連邦共和国6920 ジンスハイム、エガーラントシユトラーセ５番地 (72)発明者ルドルフ・シユミツトドイツ連邦共和国6900 ハイデルベルク、オデンヴアルトシユトラーセ 47／４番地 (72)発明者ゲオルク・ヴアルヒドイツ連邦共和国6802、ラーデンブルクヴアーレンテイニアンシユトラーセ 74番地 (72)発明者クラウス・ヴオトケドイツ連邦共和国6900 ハイデルベルク、カステルヴエーク 15番地

Claims

【特許請求の範囲】

【請求項１】音声認識用のコンピュータ・システムで
あって、イ）発声された単語を音素に変換する変換手段（10,1
1,15）と、ロ）複数の単語を、幾つかの自然音素を含む１つの表
音基本形で記憶するための記憶手段（13,15）と、ハ）前記の変換した音素を前記の記憶した音素と比較
する比較手段と、を備えた音声認識用コンピュータ・シ
ステムにおいて、前記複数の単語の前記表音基本形が、幾つかの人工的音
素をも含んでいること、を特徴とする音声認識用コンピ
ュータ・システム。
【請求項２】請求項１記載のコンピュータ・システム
において、自然音素の１つとして、２つの単語の間の発言休止に関
係した第１の無声音素（x）を設け、人工的音素の１つとして、複合単語の内の２つの構成要
素の間の発言休止に関係した第２の無声音素（z）を設
けていること、を特徴とする音声認識用コンピュータ・
システム。
【請求項３】請求項１又は２記載のコンピュータ・シ
ステムにおいて、少なくとも２つの自然音素（K,Kn,R,A
r,E）と類似した人工的音素（K1n,A1r,E0）を設けてい
ること、を特徴とする音声認識用コンピュータ・システ
ム。