JPH0372990B2 - - Google Patents

Info

Publication number
JPH0372990B2
JPH0372990B2 JP60255205A JP25520585A JPH0372990B2 JP H0372990 B2 JPH0372990 B2 JP H0372990B2 JP 60255205 A JP60255205 A JP 60255205A JP 25520585 A JP25520585 A JP 25520585A JP H0372990 B2 JPH0372990 B2 JP H0372990B2
Authority
JP
Japan
Prior art keywords
label
matching
probability
note
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP60255205A
Other languages
English (en)
Other versions
JPS62118397A (ja
Inventor
Rai Baaru Rahatsuto
Reroi Maasaa Robaato
Uinsento Dejenaro Suchiibun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP60255205A priority Critical patent/JPS62118397A/ja
Publication of JPS62118397A publication Critical patent/JPS62118397A/ja
Publication of JPH0372990B2 publication Critical patent/JPH0372990B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 この発明は以下のとおり説明する。
A 産業上の利用分野 B 従来技術 C 発明が解決しようとする問題点 D 問題点を解決するための手段 E 実施例 E1 基本形態の木構造(第2図) E2 単音マシーン E2A はじめに E2B 高精度単音マシーン(第3図、第4図) E2C 基本高速マツチング(第1図、第5図、第
6図) E2D 代替高速マツチング(第7図、第8図) E2E 最初のJ個のラベルに基づくマツチング E2F 木構造および高速マツチング E2G 他の実施例 F 発明の効果 A 産業上の利用分野 この発明は音声認識の手法に関し、具体的には
語彙中の単語と、発声波形入力に応じて音響プロ
セツサにより生成された入力ラベルとの間のマツ
チングを統計的に実行する手法に関する。
B 従来技術 音声認識システムまたは装置の目的は一般に自
然音声を自動的に他の形態たとえば書かれた形態
に変換することである。この目的を達成するため
に、種々な一般的アプローチが考えられてきた。
1つのアプローチは人間音声解釈プロセスを模倣
することに向けられている。他のアプローチは統
計的な前後関係から音声を把えるものである。
統計的なアプローチにおいては、多数の手法が
考えられてきた。これについてはBahl、Jelinek
およびMercerの文献、“A Maximum
Likelihood Approach to Continuous Speech
Recognition”(IEEE Transactions on Pattern
Analysis and Machine Intelligence、PAMI−
5巻、2号、pp.179−190、1983)に示咬されて
いる。この文献において、音声認識システムの典
型的なモデルはテキスト発声器を有し、話者がこ
れに従うようになつていることが指摘されてい
る。テキスト発生器は、何を話すべきかを決定
し、話者は自然な音声波形を形成する。自然な音
声波形は音響プロセツサに入力され、このプロセ
ツサの出力が言語学デコーダに入力される。採用
する手法に応じて、上述の要素は種々の態様で関
連付けることができる。Bahl等は話者と音響プ
ロセツサとを一体にして1つの音響チヤネルとし
て機能させている。この場合話者はテキストを音
声波形として提供し、音響プロセツサはデータ圧
縮器として動作して一連のラベル(シンボルまた
はフイーニームとも呼ばれる)を言語学デコーダ
に供給する。ラベルは多くの態様で生成すること
ができ、一般に集合的にストリングYとして特定
される。このストリングYは一連のラベルy1y2y3
からなる。言語学デコーダの目的は、入力された
ラベル・ストリングに応じて、予め定められた形
態で元の発声されたテキストを表示することであ
る。
上述の文献において所定の音響プロセツサ
(IBMセンチ秒音響プロセツサCSAP)が音声波
形を一連のパラメータ・ベクトルに変換するもの
として説明されている。パラメータ・ベクトルの
各々は記憶されているプロトタイプ(すなわち標
準ベクトル)と比較され、パラメータ・ベクトル
と各プロトタイプとの間の距離が求められる。こ
ののち最も近いプロトタイプに対するラベルが波
形パラメータ・ベクトルに割り当てられる。ラベ
ルは種々の形態をとることができ、現行の手法に
応じて種々の公知の態様で決定することができ
る。
言語学デコーダの目的は入力ラベルとシステム
語彙として与えられている単語との間のマツチン
グ過程を実行することである。上述Bahl等の文
献に示される確率的なアプローチにおいては、言
語学デコーダは、ラベル・ストリングy1y2y3……
を生成する確率が最も高い単語ストリングWを決
定することを目的としている。数学的にはこのこ
とはつぎの式で表わされる。
MaxPr(W|Y) これは、すべての単語ストリングWに関し、W
がYを付与される最大確率である。周知の確率理
論によればこれはつぎのように書くことができ
る。
Pr(W|Y)=Pr(W)×Pr(Y|W)/Pr(Y)
……(2) ここでPr(Y)はWおよび所定の単語ストリン
グWの確率すなわちPr(W)に独立であり、言語
学デコーダ中の言語モデルにより決定される。
C 発明が解決しようとする問題点 デコード過程の所定の時点において、所定の初
期サブストリングたとえばy1y2……yTが暫定的に
単語ストリングW1W2……Woとしてデコードさ
れたとしよう。この発明の目的はつぎのような一
組の候補単語を決定すうことにある。すなわち、
所定の値kについて Pr(W(o+1)|y1……yTyT+1……yT+k
W1……Wo) が語彙中の他の単語に較べて大きくなる候補単語
を決定することである。
Pr(Y|W)を求めるに際しマルコク・モデル
が考えられる。いくつかの言語学デコード手法で
必要とされる計算の回数が膨大であることが上述
の文献で指摘されている。とくにたとえば5000単
語以上のオーダの大語彙では顕著である。
したがつて言語学デコードにおける主たる問題
は、語彙中の単語ストリングに対するPr(Y|
W)を、異常なほどの計算時間を必要とすること
なく、かつデコードの精度を犠牲とすることなく
どのように決定するかということであつた。
この発明はこのような問題を解決することを目
的としている。
D 問題点を解決するための手段 この発明ではどの単語または単語ストリングは
個々のラベル・ストリングをもつとも高い確率で
生成するのかを容易に決定できる手法が提供され
る。また、この発明では正確でありながらロスの
少ない近似を用いて単語をラベル・ストリームに
マツチングさせる手法が実現される。この発明の
好ましい状態では類似の音響的開始部を有する単
語を同時に入力ラベルにマツチングさせる手法が
実現される。
この発明の近似手法を理解するうえで、語彙中
の単語は一連の単音からなるものとしてモデル化
されていることに留意する必要がある。単音の
各々は単音マシーンにより表わされる。単音マシ
ーンの各々は、(a)複数の状態、(b)状態から状態へ
の遷移およびその確率ならびに、(c)所定ラベルか
遷移において所定単音マシーンから生成される実
ラベル確率により厳密に規される(所定の単音に
応じた単音マシーンは、所定の遷移で所定ラベル
が生成される確率を定義する)。このような特徴
から単語のマツチング・スコアを求めることも可
能であるけれど、計算量が多くなつてしまう。こ
の発明では、所定単音マシーン中の全遷移におけ
るラベルの各々の実ラベル確率をラベルの各々に
それぞれ対応する特殊な置換値で置き換えるよう
にし、これによつて単音マシーンを簡単化する。
特殊な置換値は、好ましくは、置換値に基づいて
所定の単音につき得られたマツチング値か高精度
マツチングにより得られたマツチング値に較べ過
剰な評価となるようなものとしている。ここで高
精度マツチングとは実ラベル確率を置換しないで
行われるマツチングである。この条件を満たす1
つの方法は、所定単音中の所定ラベルに対するど
の確率も置換値を上まわらないように置換値を選
ぶことである。単音マシーン中の実ラベル確率を
対応する置換値で置き換えることにより、単語の
マツチング・スコアを求めるのに必要とされる計
算量が著しく減少させられる。さらに、置換値は
好ましくは過剰評価値であるから、得られたマツ
チング・スコアは、置換を行わずに得られたであ
ろう値より小さいことがない。したがつて、候補
単語を逸失することなく計算量を削減できる。
この発明の近似手法の好ましい態様では、各単
音マシーンに関連するラベル長分布を、単語とラ
ベル・ストリングとの間のマツチング・スコアを
求める際に導入している。すなわち、最大個数
(最大長)Lnaxおよび最小個数(最小長)Lnio
間のラベル個数すなわちラベル長が個々の単音マ
シーンで生成される確率からなる確率分布が単音
マシーンの各々に設けられる。計算量をさらに少
なくするには、ラベル長分布(ラベルの最大長お
よび最小長の間の分布)を一様と考え、ラベル長
の確率が最大長および最小長の間で同一であるよ
うにする。
この発明の近似手法をさらに改善するには、単
語と入力ラベル・ストリングとの間のマツチング
値を求めるために単音マシーンが考慮しなければ
ならないラベルの個数に制限を付す。このように
するとデコード遅延を少なくさせることが可能と
なり、また種々の長さの単語のマツチング・スコ
アを比較するに際し必要となる不等式を削減でき
る。
この発明の他の好ましい態様では基本高速マツ
チングまたは代替高速マツチングにより候補単語
のリストを形成する。基本高速マツチングとは実
ラベル確率を所定の置換値で置き換えたマツチン
グである。代替高速マツチングとはラベル長確率
を所定の単音ごとに特定の値で置き換えたマツチ
ングである。この場合候補単語は継続した高精度
マツチング単音マシーンまたは言語モデルによつ
て処理されて単一の単語を得る。いくつかの可能
な代替単語も得るとより適切である。これは単音
についてのマツチング値を得る際に考慮すべき入
力ラベルの個数を高速マツチング・マシーンが制
限した場合にとくに有効である。
この発明の好ましい態様では、多数の単語の始
まりを同時に処理できるようにするために、単語
またその部分を、木構造に配列され基本形態で規
定している。基本形態の各々は単音のシーケンス
として表わされ、単音の各々は固有の単音マシー
ンを有する。2以上の基本形態が、根から始まる
類似の音響的開始部を有するならば、共通分岐の
単音マシーンが実現される。2以上の基本形態が
類似の開始部を有するなら、同一の単一マシーン
で同一時刻にこれら基本形態を一緒に処理するこ
とにより、これら基本形態を候補として選んだ
り、候補から除外することができる。
E 実施例 E1 基本形態の木構造 第2図において複数の単語が木構造100中に配
列される。木は根102を有し、この根102か
ら複数の基本形態が伸びている。この基本形態の
各々は音響的な基本形態であり、木の葉まで伸び
ている。木の葉の各々は語彙中の単語を表わす。
語彙は好ましくは5000単語またはそれ以上のオー
ダである。もちろんもつと少ない語彙を用いるこ
ともできる。
図示のとおり、各基本形態は単音のストリング
を含み、木構造100の根102で始まつて対応
する葉で終る。多数の基本形態が音響的類似点を
持ちながら始まることに留意されたい。多数の基
本形態が類似の音響開始部を有するなら、このよ
うな基本形態は木構造100に沿つた共通の初期
分岐を共有する。基本形態108〜118はそれ
ぞれ“manager”、“managers”、“memo”、
“memory”、“memoranda”および
memorandumに対するもので、木の根102で
始まつて、音響要素MXで特定される共通分岐に
沿つて伸びる。同様に基本形態112〜118は
ともに音響要素MX、EHO、MXで特定される分
岐に沿つてさらに伸びていく。基本形態が音響的
に分岐するところで、基構造100は種々の方向
に分岐する。この発明によれば、基本形態112
〜118のすべてに対し音響要素MXのマツチン
グが一回だけ実行され、そのつぎに音響要素
EHOのマツチングが一回だけ実行される。すな
わち基本形態は所定時点に1つずつ個別にテスト
されるわけではない。そのかわりに、処理が木構
造100の分岐に沿つて行われ、類似の音響的開
始部を有する単語が、それぞれの単音が分岐の共
通パスを沿うかぎりにおいて、同時に処理され
る。共通パスに沿つて処理を行うことにより、多
数の単語を同時に候補単語のリストの中に含ませ
て考えることができる。このリストの中から実際
の認識単語を選択することができる。同様に多数
の単語を同時に除去することができる。
第2図において、音響要素は単音(Phone)で
あり、この単音の各々は慣用的に定義される音に
対応する。単音は一体に連がると単語を表示する
基本形態を形成する。たとえば単語“the”の第
1発音は単音DHで表わされ、これに単音UH1が
続く。適切な選択と適切な連鎖とが保証されるな
ら、およそ70〜100の単音で英語の単語を表わす
ことができる。
1つの単語が異なる態様で発音されるときに
は、第1図において1つの単語が慣用的な単音の
個別のストリングにより表わされる。これは単語
“the”の2つの発音すなわち“THE1”および
“THE2”に対し個別の基本形態を当てることか
ら理解できる。このようにせずに、クリンク
(clink)からなる1つの基本形態で同一の単語を
表わすこともできる。この場合クリンクの各々は
単語の個別的な部分の種々の発音を表わす。単語
“the”に関連していえば、DHののちの2つの発
音は単一のクリンクにより表わされ、このクリン
クがUH1およびEE1の単音に該当する。同様に、
1つの単語からなる同一のセグメントまたは単語
のストリングからなる同一のセグメントに対し
て、1つの単音シーケンスが代替の発音としての
1以上の単音をともなうこともある。平行的なパ
スはともに1つのクリンクを表わす。単語境界を
交鎖する平行パスも1つのクリンクにより表わす
ことができる。基本形態を慣用的な単音で表わす
にしろクリンクで表わすにしろ、同様の原理が当
てはまる。したがつて、この出願においては、単
音という表記は包括的なものと考え、通常の単
音、クリンクおよび他の同様な音響要素(要素的
な入力を表わすもの)を含むものとする。
E2 単音マシーン E2A はじめに この発明では、語彙中のどの単語が、音響チヤ
ネルにより生成された入力ラベルのストリングを
最高の確率において発声するかを統計的に決定す
る。先に述べたように単語の各々は一連の単音に
よつて表わされる。また単音の各々は対応する単
音マシーン(phone machine)によつて特徴付
けられる。単音マシーンの各々はデータを記憶
し、このデータは当該単音が任意のラベル・スト
リングを生成する確からしさを表わす。所定のラ
ベル・ストリングが所定の単音マシーンに入力さ
れると、この単音マシーンが、その記憶データに
基づいて、自らが所定の入力レベル・ストリング
を生成する確からしさを決定する。
以下説明するように、この発明ではいくつかの
型の単音マシーンが用いられる。第1に、高精度
マツチング単音マシーンがある。このマシーンは
予め定められた確率を単音モデル内に具備してい
る。高精度マツチング単音マシーンは、(a)複数の
状態およびその状態間の遷移、(b)遷移の各々に関
連する確率、すなわち個々の遷移が起こる確率、
および(c)所定の遷移において当該マシーンが個々
のラベルを生成する確率により特徴付けられる。
高精度マツチング単音マシーンは、非常に高い正
確度で単音が入力ラベル・ストリングにどのくら
い近いかを判定するうえで利用することができる
けれども、膨大な計算量がこの高精度マツチング
単音マシーンに必要とされる。高精度マツチング
単音マシーンに関連して必要とされる計算量の問
題を解決するために、この発明では第2の単音マ
シーンが考えられる。この第2の単音マシーンを
以下では基本高速マツチング単音マシーンと呼
ぶ。この基本高速マツチング単音マシーンは近似
を行い、この近似により高精度マツチング単音マ
シーンに較べ計算が簡略化される。具体的には、
所定のラベルが所定の単音内の任意の遷移で起こ
る蓋然性がある場合には、その蓋然性を表わす確
率につねに単一の特別の確率を割り当てる。この
特別な確率は好ましくは当該単音内の任意の遷移
でそのラベルが起こる最大確率と少なくとも等し
い。より特殊な例は以降代替高速マツチングと呼
ばれる。この例では、ラベル・ストリングが何個
のラベルからなつていても、所定の単音がそのラ
ベル・ストリングを発生する確率は当該単音ごと
に均一であると考える。代替高速マツチング単音
マシーンでは、長さの分布を規定する最小長およ
び最大長が特定されている。代替高速マツチング
単音マシーンでは、この長さ分布内の任意の長さ
が出現する確率は単一の規定値に置き換えられ、
長さ分布を外れた長さが出現する確率はゼロとさ
れる。代替高速マツチング単音マシーンを基本高
速マツチング単音マシーンに適用して、単音マシ
ーンのストリングにより規定される単語が候補単
語として適格かどうかを判別する際に必要とされ
る計算の量をさらに減少させることができる。
この発明によれば、単語を基本高速マツチング
単音マシーンまたは代替高速マツチング単音マシ
ーンで処理することにより単語語彙の中から単語
リストを取り出す。代替高速マツチング単音マシ
ーンは好ましくは確率置換値および長さ分布置換
値の双方を含んでいる。取り出された単語リスト
内の単語はこののち高精度マツチング単音マシー
ンにより処理されて単一の単語を得る。この場
合、好ましくは言語モデルを用いて不適切な単語
を排除することを理解すべきである。言語モデ
ル、たとえばトライグラム(tri−gram)を用い
るモデルはこの技術分野で検討されてきた。簡単
にいうならば、この発明とともに採用される1つ
の言語モデルは、3つの単語シーケンスのそれぞ
れの発生に関する確率を有しており、この確率は
テキストから得られたデータに基礎を置いてい
る。具体的には言語モデルがIBM4341にPL/I
で実現される。IBM4341はIBM3350デイスク・
ドライブを言語モデル用の記憶装置として用い
る。IBM4341は高速マツチング・プロセツサ、
高精度マツチング・プロセツサおよびフロント・
エンド・プロセツサにも接続されている。さらに
IBM4341は、たとえばアポロ・ドメイン・コン
ピユータにパスカル(Pascal)で実現されたワ
ークステーシヨンにも接続され、ユーザがシステ
ムに入力を行えるようになつている。ワークステ
ーシヨンはホストのIBM4341にIBMパーソナ
ル・コンピユータおよび3704通信制御装置を介し
て接続されている。
上述の単音マシーンの各々は入力として開始時
点分布およびラベル・ストリームを受け取り、こ
れからマツチング値を決定する。このマツチング
値は所定の単音マシーンが、当該ストリーム中の
ラベル列を生成する蓋然性を表わす。
つぎに上述単音マシーンの各々について詳細に
説明しよう。
E2B 高精度単音マシーン 第3図は一例としての高精度マツチング単音マ
シーン200を示す。高精度マツチング単音マシー
ンの各々は確率的な有限状態マシーンであり、(a)
複数の状態Si、(b)複数の遷移tr(Sj|Si)(この遷
移のうちのいくつかは異なる状態の間に延び、他
のいくつかは出発した状態に戻るように延びてい
る。遷移の各々は対応する確率に関連付けられて
いる)、および(c)個々の遷移で生成されるラベル
の各々に対する実ラベル確率(所定の遷移でラベ
ルを出力する実際の確率)によつて特徴付けられ
る。実ラベル確率はそれの置換値すなわち虚の確
率に対比してとらえられる。これについては後述
する。
第3図において、7個の状態S1〜S7および13個
の遷移tr1〜tr13が高精度単音マシーン200中にあ
る。第3図に示されるように、単音マシーン200
は3個の鎖線のパスの遷移すなわちtr11,tr12
よびtr13を有する。これらの遷移の各々において
単音マシーンは所定の状態から他の状態に変化す
るのにラベルを生成しない。したがつてこのよう
な遷移を空遷移と呼ぶ。遷移tr1〜tr10に沿つてラ
ベルが生成される。具体的には遷移tr1〜tr10
各々に沿つて1以上のラベルが個別の確率をもつ
て生成される。好ましくはシステムで生成し得る
ラベルの各々に関する確率が遷移の各々ごとに設
けられる。すなわち200種類のラベルが音響チヤ
ネルによつて選択的に生成できるならば、各遷移
(空でないもの)は200個の関連「実ラベル確率」
を有する。「実ラベル確率」の各々はその遷移に
おいて単音により当該ラベルが生成される確率に
相当する。遷移tr1に対する実ラベル確率はシン
ボルPにカツコ付の数字1〜200を続けて表わさ
れる。数実の各々は所定ラベルを表わす。たとえ
ばラベル1について考えると、確率P111は高精
度単音マシーン200が遷移tr1においてラベル
1を生成する確率を表わす。種々の実ラベル確率
がラベルおよび対応する遷移に関連して記憶され
る。
所定の単音に対応する高精度マツチング単音マ
シーン200に対してラベル・ストリングy1y2y3
……が与えられると、マツチング処理が実行され
る。高精度マツチング単音マシーンに関する処理
は第3図を参照して説明する。
第4図は第3図の単音マシーンのトレリス(有
向図)を示す。この単音マシーンに関し、第4図
は状態S1から状態S7への空遷移と状態S1から状態
S2への遷移および状態S1から状態S4への遷移とを
示している。他の状態の間の遷移も同様に示され
る。トレリスはまた水平方向に計時される時刻を
も示している。開始時刻確率q0およびq1は単音が
時刻t=t0またはt=t1でそれぞれ始まる確率を
表わす。開始時刻t0およびt1の各々において種々
の遷移が示されている。この場合、好ましくは継
続する開始(または終了)時刻の間の間隔の長さ
はラベルの時間間隔に等しいことに留意された
い。
高精度マツチング単音マシーン200に採用し
て所定の単音が入力ストリングのラベルとどのく
らい似ているかを決定する際に、単音の終了時刻
分布を探索し、これを単音についてのマツチング
値の決定を行うのに用いる。終了時刻の分布に依
存させるという思想はこの発明による単音マシー
ンの実施例に共通する。終了時刻分布を発生させ
て高精度マツチングを行う際に、高精度マツチン
グ単音マシーン200は正確かつ複雑な計算を行
う。
第4図のトレリスを参照してまずt=t0の時点
で開始時刻および終了時刻の双方を持つのに必要
な計算について考えよう。このような開始時刻お
よび終了時刻の条件が第2図で示した単音マシー
ン構造の一例の場合に存在すると、以下の確率が
適用される。
Pr(S7、t=t0)=q0×T(1→7)+ Pr(S2、t=t0)×T(2→7)+ Pr(S3、t=t0)×T(3→7) (3) ここでPrは確率を表わし、Tは弧により特定
される2つの状態の間の遷移確率を表わす。上述
の式は終了時刻がt=t0で起こり得る3つの状態
についてのそれぞれの確率を表わしている。さら
に、現行の例ではt=t0の終了時刻は状態S7の場
合に限定される。
つぎに終了時刻がt=t1の場合を見ると、状態
S1以外のすべての状態に関する計算を行わなくて
はならないことがわかる。状態S1は先行する単音
の終了時刻に始まる。説明の便宜上状態S4に関す
る計算のみ示す。
状態S4に関する計算は Pr(S4、t=t1)=Pr(S1、t=t0) ×T(1→4)×Pr(y|1→4)+Pr(S4、 t0)×T(4→4)×Pr(y|4→4) (4) 式(4)を言葉で表現するとつぎのようになる。す
なわち、t=t1で状態S4となる単音マシーンの確
率は、(a)時刻t=t0で状態S1をとる確率に、状態
S1から状態S4への遷移の確率Tを掛け、さらに生
成されたストリング中の所定のラベルyが状態S1
から状態S4への遷移に付与される確率を掛けたも
のと、(b)時刻t=t0で状態S4をとる確率に、状態
S4から状態S4自体への遷移の確率を掛け、さらに
所定のラベルyを状態S4から状態S4自体への遷移
の間に生成する確率を掛けたものとを足したもの
に左右される。
同様にして他の状態(状態S1を除く)に関する
計算も実行されて、単音が時刻t=t1において
個々の状態にある確率が生成される。一般に、所
定時刻で対象の状態をとる確率を求めるには、こ
の発明では、(a)対象の状態にいたる遷移を有する
先行状態の各々とその確率とを把握し、(b)ラベ
ル・ストリングに適合するよう先行状態の各々と
現行状態との間の遷移で生成させなければならな
いラベルの確率を表わす値を先行状態の各々ごと
に把握し、(c)先行状態の各々の確率と先行状態の
各々のラベル確率を表わす値とを組み合わせて、
対応する遷移を介して対象の状態をとる確率を求
める。対象の状態をとる全体的な確率は全遷移に
ついての対象の状態の確率から求める。状態S7
対する計算には3つの空遷移に関する項が含まれ
ることがわかる。この空遷移により単音はt=t1
で始まつてかつ終了し、しかも状態S7で終了する
ことが可能となる。
時刻t=t0およびt=t1に関する確率の決定と
ともに、好ましくは一連の他の終了時刻に対する
確率の決定を行ない終了時刻分布を生成する。所
定の単音の終了時刻分布の値は所定の単音がどの
くらい入力ラベルにマツチしているかを表示す
る。所定の単語がどの程度入力ラベル・ストリン
グにマツチしているかを判断する際には、その単
語を表わす単音を続けて処理する。単音の各々は
確率値からなる終了時刻分布を発生する。単音の
マツチング値は終了時刻分布の合計をとり、この
合計値の対数をとることにより得られる。つぎの
単音の開始時刻分布は、終了時刻分布を正規化し
て求める。たとえば終了時刻分布をその合計で割
つて縮尺変換し、縮尺変換値の合計が1となるよ
うにする。
この発明がh、すなわち所定の単語または単語
ストリングに対する単音の個数を求める2つの手
法をターゲツトとしていることを理解されたい。
深層第1方法では、基本形態に沿つて計算が行わ
れる。継続する単音にともなう一連の部分合計を
計算していくものである。部分合計が所定の単音
位置ごとに予め定められたしきい値を下まわるこ
とがわかると計算は終了させられる。これにかわ
る広域第1方法では単語の各々の類似の単音位置
につき計算が行われる。各単語の第1単音につい
て計算が行われ、各単語の第2単音について計算
が行われ、以下同様である。広域第1方法では、
種々の単語の同一個数の単音に沿う計算値が同一
の相対単音位置で比較される。いずれの方法にお
いてもマツチング値の合計が最大となる単語が、
求めていた対象となる。
先に触れたように、単語に関しトライ・グラム
のような情報を記憶している言語モデルを設け、
これにより一層正確に単語選択を行うことができ
る。言語モデルについては多くの報告がある。
高精度マツチングはAPAL(Array Processor
Assembly Language:フローテイング・ポイン
ト・システムズ社の190L用の固有アセンブラで
ある)で実現された。この場合高精度マツチング
には膨大な量のメモリを必要とすることに留意さ
れたい。このメモリは実ラベル確率(すなわち所
定の単音が所定の遷移において所定のラベルyを
生成する確率)、各単音マシーンごとの遷移確率
および明確にされた開始時刻後の所定時刻で所定
の単音が所定の状態にある確率を記憶するもので
ある。上述の190Lはセツトアツプされて、終了
時刻マツチング値をたとえば終了時刻確率の合
計、好ましくはその対数値に基づいて計算を行
い、開始時刻を先行して生成された終了時刻確率
に基づいて計算し、さらに単語マツチング・スコ
アを単語中の一連の単音に関するマツチング値に
基づいて計算する。
高精度マツチングでは計算コストが高いので、
この発明では基本高速マツチングおよび代替高速
マツチングを含んでいる。これらは正確さを犠牲
とすることなく計算上の要求を減少させることが
できる。
高速マツチング構成を用いて、入力ラベルに応
じて語彙中最も起こりやすい10〜100個のオーダ
の候補単語を選んでリストを決定する。候補単語
は好ましくは言語モデルおよび高精度マツチング
で処理される。高精度マツチングの対象となる単
語の個数を語彙中の単語の個数の1%とすると、
計算コストを著しく減少させることとなる。ただ
し、正確さは維持される。
E2C 基本高速マツチング 基本高速マツチングは、所定の単音マシーン中
で所定のラベルが発生する可能性のあるすべての
遷移においてその所定のラベルの実ラベル確率を
単一の値に置き換えて高精度マツチングを簡素化
したものである。すなわち所定のラベルが起こる
蓋然性があるような、所定単音マシーン中の遷移
に関しては、それがどのようなものであつても、
そのラベル確率を単一の特別の値に置き換える。
この値は好ましくは大きすぎるもの、すなわち、
所定の単音マシーン中の任意の遷移でのラベル確
率の最大値より少なくとも等しいものとする。
ラベル確率置換値を所定の単音マシーン中の所
定ラベルに対する実ラベル確率の最大値に設定す
ると、基本高速マツチングで生成されたマツチン
グ値が高精度マツチングで得られるであろうマツ
チング値と少なくとも等しいことが確実となる。
この場合、基本高速マツチングは典型的には各単
音のマツチング値を過剰評価して、候補単語とし
てより多くの単語が選択されがちである。高精度
マツチングによつて候補とされる単語は基本高速
マツチングでも候補とされる。
第1図において基本高速マツチング用の単音マ
シーン400を示す。ラベル(シンボルおよびフ
イーニームとも呼ぶ)は開始時刻分布とともに基
本高速マツチング単音マシーン400に入力され
る。開始時刻分布およびラベル・ストリング入力
は高精度マツチング単音マシーンの場合と同様で
ある。開始時刻は、ある場合は、複数の時刻にわ
たつて分布するものでなくて、一時刻たとえば無
音区間に続く一時刻であつてもよい。この一時刻
に単音が開始する。ただし、音声が続いている場
合には、終了時刻分布を用いて開始時刻分布を決
定する(この点については後に詳述する)。単音
マシーン400は終了時刻分布を生成し、この生
成終了時刻分布から当該単音のマツチング値を生
成する。単語のマツチング・スコアは要素をなす
単音、少なくとも当該単語中の最初から7つまで
の単音のマツチング値の合計として定義される。
第5図は基本高速マツチングの計算を示す。基
本高速マツチングの計算は開始時刻分布、単音に
より生成されるラベルの個数または長さおよび各
ラベルykに関する置換値P′ykにしか関与されな
い。所定の単音マシーン中の所定ラベルの実ラベ
ル確率を対応する置換値に置き換えることによ
り、基本高速マツチングでは、遷移確率が長さ分
布確率で置き換えられ、また実ラベル確率(これ
は所定の単音マシーン中の各遷移ごとに異なる値
をとり得る)および所定時刻、所定状態にある確
率を含んでおく必要がなくなる。
この場合、長さ分布は高精度マツチング・モデ
ルから定まる。具体的には、この発明では長さ分
布中の長さの各々について状態の各々を個別にテ
ストし、(a)具体的なラベル長のもとで、かつ(b)遷
移に沿う出力と無関係に、現在テスト中の状態が
起こり得る種々の遷移パスを状態の各々について
決定する。各状態にいたる具体的な長さをもつ遷
移パスのすべてについての確率が合計され、この
のち状態の各々についての合計が合計されて分布
中の所定長さの確率が表わされる。この手順が長
さの各々に対して繰り返される。この発明の良好
な態様では、このような計算をトレリスを参照し
ながら行う。このことはマルコフ・モデルの分野
において周知である。トレリス構造に沿う分岐を
共有する遷移パスに対しては、共通分岐の各々に
必要とされる計算はそれぞれたつた一回であり、
この計算は共通分岐を含むパスの各々に適用され
る。
第5図においては、例として2つの制限を含ま
せている。第1に、単音により生成されるラベル
長はそれぞれ0,1,2または3であり得、それ
ぞれはl0,l1,l2およびl3の確率を有すると仮定す
る。また開始時刻分布も制約を受け、それぞれ確
率q0,q1,q2およびq3を有する4つの開始時刻が
許容されている。このような制約のもとで、以下
の式が対象の単音の終了時刻分布を規定する。
Φ0=q010 Φ1=q110+q011p1 Φ2=q210+q111p2+q012p1p2 Φ3=q310+q211p3+q112p2p3+q013p1p2p3 Φ4=q311p4+q212p3p4+q113p2p3p4 Φ5=q312p4p5+q213p3p4p5 Φ6=q313p4p5p6 これらの式を検討すると、Φ3が4つの開始時
刻の各々に対応する項を含むことがわかる。第1
項は、単音が時刻t=t3で始まり、かつラベル長
がゼロの確率を表わしている。単音の同一時刻に
始まつて終了した場合である。第2項は単音が時
刻t=t2で始まり、ラベル長が1であり、かつ単
音によりラベル3が生成される確率を表わす。第
3項は単音が時刻t=t1で始まり、ラベルの長さ
2であり(すなわちラベル2および3)、かつラ
ベル2および3が単音により生成される確率を表
わす。同様に、第4項は単音が時刻t=t0で始ま
り、ラベルの長が3であり、かつ3つのラベル
1,2および3が単音により生成される確率を表
わす。
基本高速マツチングにおいて必要な計算量を高
精密マツチングにおいて必要な計算量に比較する
と、基本高速マツチングが高精度マツチングに較
べ相対的に簡単化されていることがわかる。この
場合、上述の式のすべてにおいてPykの値が同一
となつており、これはラベル長確率が同一となる
のと同様であることがわかる。さらに、長さおよ
び開始時刻の制約から、後の終了時刻分布の計算
がより単純になる。たとえばΦ6で終了時刻とな
るためには単音は時刻t=t3で始まらなくてはな
らず、かつラベル4,5および6のすべてを単音
が生成させなくてはならない。
対象の単音に対してマツチング値を発生する
際、規定の終了時刻分布に沿う終了時刻確率が合
計される。必要であれば、合計の対数がとられて
つぎのように表わされる。
マツチング値=lpg10(Φ0+…+Φ6) 先に触れたように、単語のマツチング・スコア
は、個々の単語中の継続する単音のマツチング値
を合計することにより直ちに決定される。
開始時刻分布の発生を説明するために第6図を
参照しよう。第6図aにおいて単語THE1が繰り
返され、要素をなす単音に分解される。第6図b
においてラベル・ストリングが時間軸上に示され
ている。第6図cにおいて第1の開始時刻分布が
示されている。第1の開始時刻分布は直近の先行
単音の終了時刻分布から得られる(先行単語中の
ものも含む。先行の単語には無音の単語を含み得
る。)ラベル入力および第6図cの開始時刻分布
に基づいて単音DHの終了時刻分布ΦDHが発生さ
せられる。次の単音UHの開始時刻分布は、先行
単音の終了時刻分布が第6図dのしきい値Aを上
まわる期間を識別することにより求められる。A
は終了時刻分布ごとに個別に決定される。Aは好
ましくは対象単音の終了時刻分布値の合計の関数
である。それゆえ時刻aおよびbの間の間隔は単
音UHの開始時刻分布が設定される時間を表わす
(第6図e参照)。第6図eの時刻cおよびdの間
の間隔は、単音DHの終了時刻分布がしきい値A
を上まわる期間に対応し、またつぎの単音の開始
時刻分布が設定される期間に対応する。開始時刻
分布の値は終了時刻分布を正規化することにより
得られる。たとえば終了時刻値の各々を、しきい
値Aを上まわる終了時刻値の合計で割つて開始時
刻分布を得る。
基本高速マツチング単音マシーン400は、フ
ローテイング・ポイント・システムズ社の190L
にAPALプログラムとともに実現された。他のハ
ードウエアおよびソフトウエアを用いてこの発明
の具体的な構成を実現できることはもちろんであ
る。
E2D 代替高速マツチング 基本高速マツチングを単独で、好ましくは高精
度マツチングまたは言語モデルとともに採用する
と、計算上の要請を減少させることができる。計
算上の要請をより少なくするために、この発明で
は、ラベル長の最小長Lnioと最大長Lnaxとの間で
ラベル長分布が一様となるようにして、高精度マ
ツチングの簡素化を図つている。基本高速マツチ
ングでは単音の所定長すなわちl0,l1,l2,……
のラベルを発生する確率は一般的に異なつた値と
なる。代替高速マツチングではラベル長の各々の
確率は単一の一様な値に置き換えられる。
ラベルの最小値は好ましくは元の長さ分布中の
非雰の確率値をもつ最小の長さと等しい。もちろ
ん必要に応じて他の長さを採用できる。最大長は
最小長に較べより任意に選択できる。しかし、最
小長より小さい長さおよび最大値より大きい長さ
の確率はゼロに設定されるので、最大長の設定も
重要である。最小長および最大長の間にしか長さ
確率が存在しないように規定して一様な擬似分布
を表わすことができる。1つのアプローチでは、
一様確率値を擬似分布にわたる平均確率として設
定できる。それにかえて一様確率値を置換対象の
長さ確率の最大値に設定できる。
ラベル長確率を等しくすることの効果は基本高
速マツチングに関する上述の式を参照して容易に
理解することができる。具体的に言えば、長さ確
率を定数としてとり出すことができる。
Lnioをゼロに設定し、すべての長さ確率を単一
の定数値で置き換えると、終了時刻分布をつぎの
ように特徴付けることができる。
θn=Φn/l=qn+θn-1Pn ここで「l」は単一の一様置換値であり、Pn
に対する値は好ましくは所定のラベルが所定単音
中で時刻mに発生する置換確率に対応する。
上述のθnの式に対して、マツチング値はつぎの
ように定義される。
マツチング値=l10g10(θ0+θ1+…+θn) +l10g10(l) 基本高速マツチングおよび代替高速マツチング
を比較すると、代替高速マツチング単音マシーン
の採用により加算および乗算の回数が著しく減少
することがわかつた。Lnio=0の場合、基本高速
マツチングでは40回の乗算と20回の加算とが必要
であることがわかつた。長さ確率を考慮しなけれ
ばならないからである。代替高速マツチングの場
合、θnを巡回的に求めるので、継続したθnの各々
について1回の乗算および1回の加算しか必要で
ない。
第7図および第8図を参照して代替高速マツチ
ングがどのようにして計算を簡略化するかについ
て説明しよう。第7図aにおいて、最小長Lnio
0に対応する単音マシーン700が示されてい
る。最大長は長さ分布が一様となり得るように無
限と仮定される。第7図bにおいて単音マシーン
700によりもたらされるトレリスを示す。qo
降の開始時刻が開始時刻分布の外にあるとする
と、継続するθn(m<n)の各々を決定するには
すべて1回の加算として1回の乗算で済む。その
のちの終了時刻を決定するのに必要な乗算はたつ
た1回であり、加算は必要でない。
第8図においてLnio=4である。第8図aは単
音マシーン800の具体例を示し、第8図bは対
応するトレリスを示す。Lnio=4であるので、第
8図bのトレリスはU,V,WおよびZで示すパ
スに沿つてゼロの確率を有する。θ4およびθoの間
に延びるような終了時刻に関しては、4回の乗算
と1回の加算が必要なことがわかる。n+4を超
える終了時刻に関しては1回の乗算が必要であ
り、加算は不要である。この例は上述と同様に
APALコードでFPS190Lに実現された。
この発明にしたがつて付加的な状態を第7図ま
たは第8図の例に付加することができることに留
意されたい。たとえば、空遷移を有する状態は、
Lnioの値を変更することなく、任意の個数含ませ
ることができる。
E2E 最初のJ個のラベルに基づくマツチング この発明では基本高速マツチングおよび代替高
速マツチングの性能を向上させるために、単音マ
シーンに入力されるストリングのうちの最初のJ
個のラベルのみをマツチングに際し考慮するよう
にも配慮されている。音響チヤネルの音響プロセ
ツサにより100分の1秒あたりに1個のレートで
ラベルが生成されると仮定すると、Jの合理的な
値は100である。換言すると、1秒のオーダの音
声に対応するラベルが供給されて単音と単音マシ
ーンに入力されるラベルとの間のマツチング値が
決定される。考慮対象のラベル数を制限すると2
つの利点を得ることができる。第1に、デコード
遅延量を減少させることができ、第2に、短かい
単語のスコアを長い単語のスコアに比較する際の
問題が実質的に解消される。Jの値は必要に応じ
変更できることはもちろんである。
考慮対象のラベル数の制限がどのような効果を
もたらすかは第8図bのトレリスを参照して理解
できる。このような改善を加えないと、高精度マ
ツチングのスコアは図の最下位行に沿う確率θ′n
の合計である。すなわち時刻t=t0(Lnio=0の場
合)または時刻t=t4(Lnio=4の場合)に始まつ
て各時刻に状態S4にある確率はθnとして決定さ
れ、こののちθnのすべてが合計される。Ln=4
の場合、時刻t4の前の時刻では状態S4になる確率
はゼロである。改善を加えた場合にはθnの累積操
作は時刻Jで終了する。第8図bにおいて時刻J
は時刻to+2に対応する。
Jの時間間隔にわたるJ個のラベルのテストが
終了した時点で、つぎの2つの確率合計値を得て
マツチング・スコアの決定に用いることができ
る。第1に、上述したのと同様にトレリスの最下
位行に沿う行計算を行うことである。ただし時刻
J−1までである。時刻J−1までの各時点にお
いて状態S4である確率を合計して行スコアを形成
する。第2に、列スコアがある。これは、時刻J
において単音が状態S0〜S4のそれぞれにある確率
の合計である。すなわち列スコアは 列スコア=4f=0 Pr(Sf、J) である。
単音のマツチング・スコアは行スコアおよび列
スコアの合計をとり、こののちこの合計値の対数
をとることにより得られる。つぎの単音の高速マ
ツチングを続けるために、最下位行に沿う値、好
ましくは時刻Jを含むものを用いてつぎの単音の
開始時刻分布を得る。
先に融れたように、b個の継続した単音の各々
のマツチング・スコアを求めたのち、全単音のマ
ツチング・スコアを合計して全単音のトータルを
得る。
上に示した基本高速マツチングおよび代替高速
マツチングの例でどのような態様で終了時刻確率
が発生させられるかを検討すると、列スコアの決
定がそのまま高速マツチングの計算には適合しな
いということがわかる。考慮対象ラベルの数の制
限による改善をより良く基本高速マツチングおよ
び代替高速マツチングに適合させるために、この
発明では、列スコアを付加的な行スコアで置き換
える。すなわち時刻JおよびJ+Kの間で状態S4
(第8図b)になつている単音に対して付加的な
行スコアが求められる。ここでKは任意の単音マ
シーンにおける状態の最大個数である。したがつ
て、任意の単音マシーンが10個の状態を有してい
ると、この発明ではトレリスの最下位行に沿つて
10個の終了時間が付加され、これらについて確率
が求められる。最下位行に沿う時刻J+Kの確率
およびその時点までのすべての確率を加えて所定
の単音についてのマツチング・スコアを生成す
る。先と同様に、継続した単音マツチング値を合
計し単語マツチング・スコアを得る。
この具体例は先のようにFPS190LにAPALコ
ードで実現された。もちろん他のコードで他のシ
ステムに実現されてもよい。
E2F 木構造および高速マツチング 基本高速マツチングまたは代替高速マツチング
を採用すると、最大ラベル制約をとるにしろ、と
らないにしろ、単音マツチング値を求めるのに必
要な計算時間は著しく減少する。さらに、高速マ
ツチングで得られたリスト中の単語について高精
度マツチングを行う場合ですら計算量の削減とな
る。
単音マツチング値が一旦求められると、この単
音マツチング値は木構造の分岐に沿つて比較され
てどの単音パスが最も確からしいかが決定され
る。第1図においてDHおよびUH1の単音マツチ
ング値が合計されて、発音単語“the”に対する、
単音MXからの単音分岐の種々のシーケンスより
大きな値を得るにちがいない。この場合、最初の
単音MXはたつた一回しか計算されず、こののち
単音MXから伸びる基本形態の各々に用いられる
ことに留意されたい。さらに第1の分岐シーケン
スに沿つて計算されたトータル・スコアが所定の
しきい値より小さいかまたは他の分岐シーケンス
のトータル・スコアより小さい場合、第1の分岐
シーケンスから伸びる基本形態は同時に候補単語
から外される。
高速マツチングの例および木構造をともなつた
場合、順序付けられた候補単語のリストが生成さ
て計算量をかなり削減できる。
E2G 他の実施例 この発明は良好な実施例に基づいて説明された
が、この発明の趣旨を逸脱しない範囲で種々の変
更を行えることはもちろんである。たとえば、置
換値の各々は置換される実確率の最大のものより
小さくならないことが好ましいけれども、少なく
ともほとんどの時点でマツチング値を過大評価で
きるようにするという所期の目的を達成するもの
であれば他の手法を採用できる。
F 発明の効果 以上説明したようにこの発明によれば単音マシ
ーン中の実ラベル確率をラベルごとの所定の置換
値で置き換えているので計算および記憶上の要請
を著しく軽減することができる。
【図面の簡単な説明】
第1図はこの発明の一実施例の基本高速マツチ
ング単音マシーンを示す図、第2図は単音の木構
造を示す図、第3図は高精度マツチング単音マシ
ーンを示す図、第4図は第3図の単音マシーンを
説明するトレリス図、第5図は第1図の基本高速
マツチング単音マシーンによる計算を説明する
図、第6図は第1図の基本高速マツチング単音マ
シーンによる開始時刻分布の生成を説明する図、
第7図は代替高速マツチング単音マシーンの一例
を示す図、第8図は代替高速マツチング単音マシ
ーンの他の例を示す図である。 200……高精度マツチング単音マシーン、4
00……基本高速マツチング単音マシーン、70
0,800……代替高速マツチング単音マシー
ン。

Claims (1)

  1. 【特許請求の範囲】 1 音声を所定の微小時間間隔ごとに量子化し、
    量子化した音声データに応じたラベルを生成して
    音声認識の前処理を行うとともに、少なくとも1
    つの状態遷移と、これら状態遷移の各々において
    上記ラベルの各々が出力されるラベル出力確率と
    を有するマルコフ・モデルを単音ごとに設定し、
    認識対象の入力音声を上記ラベルのストリングに
    変換し、上記マルコフ・モデルの確率データを参
    照して上記ラベルのストリングと上記単音または
    上記単音のストリングとのマツチングを行い、こ
    のマツチングに基づいて上記入力音声の認識を行
    う音声認識方法において、上記ラベル出力確率を
    上記単音ごと、かつ上記ラベルごとに設定し、単
    音およびラベルが同じならば上記状態遷移が異な
    つても上記ラベル出力確率が同じになるようにし
    たことを特徴とする音声認識方法。 2 上記単音のストリング中の単音の各々が上記
    ラベルのストリングにどの時刻でマツチングする
    かを表す開始時刻確率分布に基づいて上記ラベル
    のストリングと上記単音の各々とのマツチングを
    行い、かつ先行する上記単音の終了時刻確率分布
    に基づいて後続の上記単音の開始時刻確率分布を
    生成する特許請求の範囲第1項記載の音声認識方
    法。 3 上記単音の各々について、当該単音が何個分
    のラベルで構成されるかを確率的に表すラベル長
    確率分布を用意し、このレベル長確率分布に基づ
    いて上記終了時刻確率分布を生成するようにした
    特許請求の範囲第2項記載の音声認識方法。 4 上記単音の各々に最短ラベル長(当該単音を
    構成するラベルの最少数)および最長ラベル長
    (当該単音を構成するラベルの最大数)を設定し、
    この間でラベル長確率が所定の一定の値となるよ
    うにした特許請求の範囲第3項記載の音声認識方
    法。
JP60255205A 1985-11-15 1985-11-15 音声認識方法 Granted JPS62118397A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60255205A JPS62118397A (ja) 1985-11-15 1985-11-15 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60255205A JPS62118397A (ja) 1985-11-15 1985-11-15 音声認識方法

Publications (2)

Publication Number Publication Date
JPS62118397A JPS62118397A (ja) 1987-05-29
JPH0372990B2 true JPH0372990B2 (ja) 1991-11-20

Family

ID=17275479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60255205A Granted JPS62118397A (ja) 1985-11-15 1985-11-15 音声認識方法

Country Status (1)

Country Link
JP (1) JPS62118397A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system

Also Published As

Publication number Publication date
JPS62118397A (ja) 1987-05-29

Similar Documents

Publication Publication Date Title
Soong et al. A Tree. Trellis based fast search for finding the n best sentence hypotheses in continuous speech recognition
US4819271A (en) Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US5949961A (en) Word syllabification in speech synthesis system
Jelinek Continuous speech recognition by statistical methods
US5787396A (en) Speech recognition method
US4741036A (en) Determination of phone weights for markov models in a speech recognition system
US5865626A (en) Multi-dialect speech recognition method and apparatus
EP0805434B1 (en) Method and system for speech recognition using continuous density hidden Markov models
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JPH0581918B2 (ja)
JPS62231996A (ja) 音声認識方法
EP0573553A1 (en) Method for recognizing speech using linguistically-motivated hidden markov models
JPS62231995A (ja) 音声認識方法
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
Knill et al. Hidden Markov models in speech and language processing
Thomas et al. Towards reducing the need for speech training data to build spoken language understanding systems
JP2662112B2 (ja) 発声された単語のモデル化方法および装置
US5764851A (en) Fast speech recognition method for mandarin words
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JPH0372990B2 (ja)
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
JP2005091504A (ja) 音声認識装置
De Mori et al. Search and learning strategies for improving hidden Markov models
JP3873418B2 (ja) 音声スポッティング装置
JPH1097275A (ja) 大語彙音声認識装置