JPH0422276B2

JPH0422276B2 -

Info

Publication number: JPH0422276B2
Application number: JP58191711A
Authority: JP
Inventors: Eriotsuto Reuinson Sutehen; Richaado Rabinaa Roorensu; Moohan Sondohi Man
Original assignee: AT&T Technologies Inc
Current assignee: AT&T Corp
Priority date: 1982-10-15
Filing date: 1983-10-15
Publication date: 1992-04-16
Also published as: JPS5991500A; FR2534719B1; DE3337353C2; US4587670A; FR2534719A1; CA1187995A; DE3337353A1

Description

【発明の詳細な説明】

本発明はパターン認識、特に自動的に音声パタ
ーンを識別するための装置に関する。発明の背景通信、データ処理およびそれと類似のシステム
においては、音声インタフエース装置を使用する
ことが期待されることが多い。音声入力および合
成音声出力は、問合せ、指令あるいはデータその
他の情報交換などのために利用することができ
る。音声形態のインタフエースをとることによ
り、手で端末を操作する必要なしに遠隔地からデ
ータ処理装置形態の機器との間の通信が可能とな
り、また利用者が他の機能を同時に行ない得るよ
うにできる。しかし話者の間での音声パターンの
複雑さと多様性により、正確な認識を得るのは困
難になつている。特定話者および制約された語い
に限つた特別な応用例については良好な結果が得
られているが、不特定話者の認識の不正確さのた
めに、利用範囲が限定されていた。一般に、音声認識装置は、未知の音声パターン
を定められた音響特性信号の系列に変換するよう
構成されている。その後、これらの特性信号は、
前もつて記憶されている識別された参照パターン
を表わす音響特性信号と比較される。比較の結果
として、未知の音声信号は、定められた認識基準
に従つて最もよく適合する参照パターンとして識
別される。このような認識システムの精度は、選
択された特徴と認識基準とに非常に依存する。入
力音声パターンの特徴系列と参照パターンとの間
の比較は直接的である場合もある。しかし音声速
度と分節は非常にまちまちであることは周知であ
る。既存の技術の認識手法の中に、比較過程のパタ
ーン間の最適列を決定するために動的計画法を利
用するものがある。このようにして、音声速度と
分節の差異の影響は緩和される。認識のために必
要な時間は、参照語いの数と各語いに対する参照
特徴パターンの数との関数であるから、動的な時
間軸変更と比較のための信号処理装置は複雑で時
間のかかるものとなる。その結果、50語程度の語
いに対する不特定話者の認識では、即時処理の実
現が困難になる。音声認識のもう一つの手法は、統計的推定に基
づく状態と状態遷移との集合を利用る確率的なマ
ルコフモデルに基づくものである。特定話者の認
識装置は、スペクトル特徴系列が生成され、特
徴、単語および言語の階層的マルコフモデルの系
列で評価するという形態で実現されている。特徴
系列は音素のマルコフモデルによつて分析され
る。モデルはより大きな音声要素、すなわち単語
として連結される。その次に、その結果はマルコ
フモデルの階層、すなわち、構文的文脈に適用さ
れ、音声パターンの識別がなされる。しかし、連
結音素モデルの使用と非限定的階層マルコフモデ
ルシステムの複雑さとによつて、マルコフモデル
が妥当性を持つよう十分な数のモデルパターンを
得るため識別された話者によるシステムの実質的
な訓練が必要になる。本発明の目的は、話者に依
存せずしかもより高速に動作可能な確率モデルに
基づく高機能自動音声認識の手法を与えるもので
ある。発明の要約本発明は複数個の記憶されている制約された隠
れマルコフモデルの参照パターン信号を含む音声
認識装置に関するものである。未知の発声はそれ
を表わす音響特性信号の時間フレーム系列を構成
するように解析される。未知の発声の音声パター
ンに対応する選択された既定の特性信号の系列
が、例えば記憶されている既知の特性信号と音声
パターン特性信号系列とから発生される。音声パ
ターンの選択された既定の特性信号系列と各参照
パターンに対する制約された隠れマルコフモデル
信号との両方に応答して、音声信号が参照パター
ンである確率を表わす信号が発生する。未知の音
声パターンは前記の確率表示信号に対応する参照
パターンの一つとして識別される。一般的な説明当業者には周知の隠れマルコフモデルは、観測
系列O₁，O₂，…O_Tにおいて各観測が有限の数の
シンボルの中の別個のシンボルであるような観測
系列を評価するのに用いられる。観測系列は、直
接的には観測可能でない状態遷移を持つ潜在的な
マルコフ鎖の確率的関数としてモデル化できる。
第１図はこのようなモデルを説明するものであ
る。第１図では、Ｎ、例えば５個の状態とＭ、例え
ば64個の出力シンボルがある。状態間の遷移は遷
移行列Ａ＝〔aij〕として表現される。aij項はそれ
ぞれモデルが状態ｉにいる場合に状態ｊへ遷移を
生ずる確率である。モデルの出力シンボルの確率
は行例Ｂ＝〔bj（Ot）〕で表わされ、bj（Ot）はモ
デルが状態ｊの場合にシンボルOtを出力する確
率である。隠れマルコフモデルは、語い集合の各
パターンに対して１つずつある。参照パターンモ
デルの集合を導出し、各参照パターンモデルから
未知の観測を発生する確率に基づいて参照パター
ンの１つとして観測系列を分類するために用いる
ことができる。音声認識では、入力音声パターンは音響特性の
系列を生成するよう解析される。各特徴は、当業
者には周知の線形予測係数ベクトルあるいはその
他の音響特性である。発生された特性ベクトルは
既に記憶されているLPC（線形予測係数）特性信
号の有限集合と比較され、入力音声パターンを表
わすベクトル量子化LPC信号の系列に変換され
る。量子化された特性信号のそれぞれは隠れマル
コフモデルで使われるＭ個のシンボルの有限集合
の１つである。認識モードでは、発声、例えば単
語あるいは句に対する量子化LPCベクトル特性
系列は観測系列Ｏを形成し、参照パターンモデル
Ｋ、例えば語い集合の単語あるいは句によつて生
成されるＯの確率はＰ（Ｏ｜Ｍ）＝P_i1b_i1（O₁）a_i1 _i2b_i2（O₂） …a_iT-1iTb_iT（O_T） (1) によつて与えられる。ここで、i₁，i₂，…i_Tはマ
ルコフモデルの状態の最尤系列であり、O₁，O₂，
…O_Tは観測された系列である。第１式は事後確
率φ_t(i)を φ_t(i)＝Ｐ（O₁O₂…O_tおよび時刻ｔに状態ｉで終
わる最尤系列｜Ｋ） (2) と定義すると書き換えられ、 φ_t+1(j)は φ_t+1(j)＝ maxⁱ ｛φt(i)a_ijb_j（O_t+1）｝ｔ＝１，２， …Ｔ−１と評価される。但し、１ｊＮかつ max｛１，ｊ−２｝ｉｊである。ここで φ₁(i)＝b₁（O₁）ｉ＝１のときＯその他 (3) である。すると第１式はＰ（Ｏ｜Ｋ）＝Ｐ＝φ_T（Ｎ） (4) となる。各参照パターンモデルに対する確率信号
が発生された後、最も高い確率信号に対応する参
照パターンモデルとして入力音声パターンは識別
される。第２図は隠れマルコフモデル音声認識装置の動
作を説明する概略フローチヤートである。認識装
置が動作可（２０５の箱）の時、入力音声パター
ンは箱２１０に示されるようにデイジタル信号の
系列に変換される。音声を表わすデイジタル信号
（箱２１０）はその後線形予測特性信号の時間フ
レーム系列に変換される（箱２１５）。箱２１５
の操作によつて発生する信号は入力音声パターン
の音響特性に対応しているが、その信号は有限集
合に限定されるわけではない。箱２２０の操作
は、音声パターン音響特性と線形予測特性ベクト
ルの有限集合とを比較し、各音声パターン特性信
号に対し最も良く対応する記憶されているベクト
ルを選択するのに有効である。このようにして、
既定の有限集合からのベクトル量子化特性信号は
音声パターンのいづれの連続するフレームｔに対
しても得られる。ベクトル量子化特性信号はその
後フレームｔの隠れマルコフモデル処理への観測
入力となる。既定のモデルの集合が記憶されている。認識装
置の語いの各参照パターンに対し、一つのモデル
が与えられている。参照パターンモデルは、各モ
デル状態に対し状態出力シンボル信号行列と、参
照パターンモデルに対する状態間のあらゆる可能
な遷移に対応する遷移確率信号行列とを含んでい
る。参照パターンモデルは箱２２５に示されるよ
うに順々に選択され、入力音声パターンのLPC
ベクトル量子化特徴系列が選択された参照単語モ
デルから得られる確率が生成され記憶される（箱
２３０）。最後の参照パターンモデルが選択され、
その確率信号が発生された後、確率信号の最大の
ものが選択され、最良の参照パターンを識別する
信号がデータ処理装置あるいは制御システムのよ
うな応用装置に転送される。ここでは、状態１は常に最初のフレームの初期
状態であつて、定められた形だけの左から右への
状態遷移だけが可能であり、既定の最終状態とは
他の状態への遷移が発生しえないものとして定義
されるように、各参照パターンの隠れマルコフモ
デルに制約を加える。このような制約は第１図の
状態図で説明されている。第１図において、状態
１は初期状態であり、状態５は最終あるいは吸収
状態であり、既定の左から右への遷移は状態間の
有向線によつて表示されている。第１図の状態図によれば、状態１からは経路１
１１により状態１へ再入し、経路１１２をへて状
態２へ進み、あるいは経路１１３をへて状態３へ
進むことだけが可能である。一般には、遷移は状
態への再入かあるいは次の２つの状態のうちの１
つへの移動に限定されている。本発明において、
これらの制約により音声パターンの迅速かつ正確
な認識が可能となつた。認識装置のための識別さ
れた発音参照パターンモデルの生成は一人の識別
された話者の音声パターンのみならず多くの異な
る話者の発声からの導出も可能であるためこの音
声認識は不特定話者用である。詳細な説明第３図は本発明を説明するための音声認識装置
の一般的なブロツク図を示すものである。第３図
の回路は電気音響変換器３００に印加される音声
パターンを認識し、識別されたパターンに応答し
てそれを利用する装置３８０に既定の制御信号を
与えるように構成されている。第３図において、
フイルタおよび標本化器３１０は電気的なアナロ
グ信号を変換器３００から受け、不要な高周波数
雑音を除去するため低域フイルタとして動作す
る。フイルタの遮断周波数は3.2KHzに設定され
ている。フイルタを通過した信号はその後当業者
には周知のような形で6.7KHzで標本化される。標本化信号はアナログ・デイジタル変換器３２
０に供給され、それぞれ連続して送られる標本
は、対応する標本の大きさを表わすデイジタル符
号の信号に変換される。符号化信号の列はLPC
特性信号発生器３３０に印加される。当業者には
周知のように、発生器３３０はデイジタル符号信
号列を一時的に記憶し、それらを45msの継続時
間からなる互いに連続的に重なり合うフレームに
グループ化し、各フレームに対しＰ線形予測パラ
メータ信号の集合を生成する。これらのLPC信
号の集合はそれぞれ対応するフレームの音響特性
を表わす。しかし、スペクトルあるいは他の音響
特性信号も利用できることは当業に熟知の者は理
解できよう。特性発生器３３０はまた、特性信号列のエネル
ギー分析に基いて変換器３００に印加される入力
音声パターンの終了点を検出するよう動作する。
終了点検出装置には、1975年９月30日にエル・ア
ール・ラビナー（L.R.Rabiner）等によつて提出
された米国特許3909532に発表されている例があ
る。あるいはまた、他の周知の終了点検出技術を
使用することも可能である。特性発生器３３０において音声信号の終了点を
検出すると、制御信号STが付勢され、認識処理
装置３４０に送られ動作を開始する。認識処理装
置は、Motorola社によつて1980年に発行された
MC68000 16ビツトマイクロプロセツサ利用者マ
ニユアル第２版に記載のMC68000マイクロプロ
セツサ・タイプのものから構成されている。処理
装置３４０の動作順序は、プログラム用ROM３
５５に格納された永久記憶命令列によつて制御さ
れる。音響特性信号記憶３７０は発生器３３０からの
入力音声パターンを表わすLPC係数信号のフレ
ーム系列を受け、認識処理装置３４０が使用する
ためにアドレス可能なフレーム系列の順序で特性
信号を記憶する。原形信号記憶３６５は、入力音
声パターンに予想されるLPC特性信号の範囲を
おおう既定のLPC原形特性信号の集合を表わす
信号を格納している。これらの原形信号は、マル
コフモデル処理のためのシンボルの有限集合を与
える。マルコフモデル記憶３６０は、変換器３００に
印加される未知の発声に対する可能な参照パター
ンの隠れマルコフモデルに対応する符号化信号の
集合を格納している。各マルコフモデルは、モデ
ルの状態間の遷移確率に対応する信号、a_ijと各状
態の出力シンボルの確率に対応する信号b_j（O_t）
との集合から成つている。音声パターンフレーム
ｔのそれぞれに対し一つづつの出力シンボルO_t
は記憶３６５内の原形信号に対応する。記憶３６
０および３６５はそれぞれ処理装置３４０によつ
てアドレス可能な読み出し専用メモリーから成
る。ROM３６０および３６５はモデルと原形信
号とを永久に記憶する。記憶３７０は処理装置３
４０によつてアドレス可能な書込み可能メモリー
である。RAM記憶３５０は認識処理装置の信号
処理操作に対する中間的な記憶として利用され、
インタフエース３４５は認識処理装置と第３図の
装置との間の通信インタフエースとなつている。
バス３４５はHybricon会社によつて製造された
HBFA−SBC614型のバツクプレーンからなつて
いる。さらに処理装置３４０、バス３４５、制御
記憶３５０およびRAM３５５はイリノイ州ウエ
ストシカゴのオムニバイト（Omnibyte）会社の
製造するOB68K1A MC68000／MULTIBUS型
のシングルボードコンピユータである。Ｑバス構
成も利用することができる。第３図の回路は多くの形の相異なるパターンを
認識するのに利用することができる。説明のため
に数字、例えば電話番号やクレジツトカード番号
を認識する装置を例にとつて述べる。「９」とい
う数字の発声が変換器３００に印加されたと仮定
する。第２図のフローチヤート箱２０７および２
１０に従つて、入力音声パターンはフイルタおよ
び標本化回路３１０でフイルタリングおよび標本
化され、Ａ／Ｄ変換器３２０でデイジタル信号の
形に変換される。デイジタル符号信号の系列は特
性信号発生器３３０の入力に与えられ、箱２１５
によつて音声パターン「９」の連続的フレームに
対しLPC係数特性信号が発生される。発生され
たLPC特性信号はフレームインデクスｔによつ
てアドレス付けされ線３３２を経て音響特性信号
記憶３７０に転送される。判定用の箱２１８には
パターンの終了点に到達したか否かを決定するた
めに各フレーム毎に入る。終了点の検出によつて
信号STが特性信号発生器で発生され、認識処理
装置３４０に送られる。信号STに応答して、処理装置３４０はベクト
ル量子化モードに置かれ、その間に記憶３７０内
のLPC特性信号は操作を示す箱２２０に従つて
ROM３６５内の原形信号に量子化される。量子
化モードは第４図のフローチヤートでさらに詳細
に説明される。第４図に関して、処理装置３４０のLPC特性
信号フレームインデクスｔは箱４０１に従つて最
初は０にリセツトされる。その後ループ４０３に
入つて原形インデクスｍの設定を初期化する。ル
ープ４０３ではフレームインデクスｔが１だけ増
加され（箱４０５）、増加されたフレームインデ
クスが入力音声パターンの最後のフレームＴと比
較される（箱４１０）。ｔ＞Ｔとなるまで、箱４
１５に入つて記憶３７０内の現在のフレーム入力
音声パターンLPC特性信号U_tが処理装置３４０
によつてアドレスされそこからRAM３５０に転
送される。原形信号と特性信号との間の最小距離
を表わす信号（D_nio）は最初無限大に設定され
（箱４２０）、原形インデクスｍは処理装置３４０
によつて０に設定される（箱４２５）。その後箱
４３０に入り原形インデクスｍが処理装置３４０
で増加される。増加されたインデクスｍ＋１はそ
の後箱４３５に従つて最後のインデクスＭ＝64と
比較される。この時点で、記憶３６５内の現在の原形信号が
アドレスされ認識処理装置を経てRAM３５０に
転送される（箱４４６）。現在の音声パターン特
性信号U_tに最もよく対応する原形信号R_nを決定
する過程が引続いて処理装置３４０で開始され
る。処理装置は周知のイタクラ距離評価信号を繰
返し発生するような動作条件となり、この距離信
号は、各原形信号に対しｄ（U_t，R_n）＝logaVa^t／aVa^t (5) の形で表わされる。ここで、a^はU_tからのLPCベ
クトルであり、ａはR_nからのLPCベクトルであ
り、ＶはR_nからの自己相関行列である。最初は、距離評価信号ｄ（U_t，R_n）および特性
インデクス信号ｐは箱４４５および４５０に従つ
て０に設定されている。その後で距離信号を生成
するループ４５２に入り、各特性インデクスに対
し操作を示す箱４５５に従つて距離信号が、ｄ（U_t，R_n）＝ln_P 〓^p-1 U_t（ｐ）・R_n（ｐ） (6) に従つて増加される。インデクス信号ｐは処理装
置３４０（箱４６０）で増加され、Ｐを最後の特
性インデクス信号とすればｐ＞Ｐとなるまで判定
用の箱４６５を経て箱４５５へ戻つていく。距離
信号は対数の形に変換され（箱４６８）、その後
判定用の箱４７０でD_nioと比較される。現在の原
形距離信号がD_nioと等しいかより大きい場合に
は、D_nioを変更せずに橋４３０に戻る。そうでな
ければ、原形インデクス信号ｍがフレームｔに対
する音声パターン量子化信号を表わすものとして
記憶され、原形ｍに対する距離信号がRAM３５
０にD_nioとして記憶される。その後箱４３０に戻
る。箱４３５でｍ＞Ｍの場合は、引続いてO_t＝
ｍが最も良く対応する量子化信号として選択さ
れ、箱４０５でループ４０３に入つて次のフレー
ムの量子化が起動される。音声パターンフレームインデクスｔが箱４１０
によつて最後の音声パターンフレームＴよりも大
きくなると、量子化信号インデクスO₁，O₂，…，
Ot，…O_Tという系列が処理装置３４０で音声パ
ターンに対し発生され、RAM３５０内に記憶さ
れる。例えば「９」の発声に対応する音声パター
ンは36個のフレームを持ち、各フレームに対し64
個の可能な原形信号のうちの１つが選択される。
このようにして音声パターンは有限集合の量子化
信号の系列に変換される。各量子化信号インデク
スO_tは、音声パターンの１つのフレームの量子
化音響特性を表わすｐ線形予測係数の集合に対応
する。未知の話者による数字「９」の発声に対
し、量子化特性信号の系列は表１に示されたよう
になる。

【表】

【表】量子化が完了すると、処理装置３４０は量子化
モードから抜け、第２図の箱２２５，２３０およ
び２３５のマルコフモデル評価モードに入る。モデル評価モードでは、参照パターン、例えば
数字０，１，２，…９の集合に対するマルコフモ
デルが次々と選択される。各モデルは遷移確率信
号の行列Ａとシンボル出力確率信号の行列Ｂとか
ら成る。例として数字０、５および９の行列Ａを
表２、３および４にそれぞれ示す。アステリスク
はモデルによつて禁じられている遷移を表わし、
０と評価される。行列Ａの表のそれぞれは、第１図のモデルの５
つの状態の間のすべての遷移の確率を表わす５×
５の行列である。表２、３および４に表わされて
いるように、モデルの制約として＊あるいは０の
値を持たない第１図における左から右への遷移の
みが許されている。数字０、５および９の行列Ｂ
は表５、６および７の通りである。表５の各列の
数値は、数字「０」の発声に対応する状態の原形
信号の確率を表わしている。

【表】

【表】各状態の列には64種の原形の確率があるので行
列の大きは５×64となる。数字「５」および
「９」に対応する表６および７は同様な方法でま
とめたものである。第２図のフローチヤートで示したように、
ROM３６０に記憶されるマルコフモデルは、パ
ターンインデクスｋによつてアドレス付けされそ
こから連続して検索される。各モデルに対し、音
声パターン量子化特性信号列がモデルに合致する
ような確率の信号が生成される。確率信号を生成
する装置は第５図および第６図でより詳細に示さ
れる。一般にはマルコフモデルが第一に選択され
る。認識される音声パターンに対し、モデルは１
フレーム毎に入力の量子化信号系列O₁、O₂、…、
Ot、…O_Tと比較・評価される。最後の音声パタ
ーンフレームに対する評価が完了すると、音声パ
ターン量子化信号系列がモデルから導出される最
大確率に対応する信号が発生される。第３図の回路で用いられる左から右への隠れマ
ルコフモデルの制約により、フレームｔ＝１の初
期状態は第１図の状態１だけであり、また初期状
態の対数確率信号は、 φ₁(1)＝l_o（b₁（O₁）） (7) と表わされるということが要求される。 φ₁(1)の値は、その数字の行列Ｂの状態１の列
のｍ＝14の場所から取り出される。フレームｔ＝
１の対数確率信号φ₁(i)、但しｉ＝２、３、４、
および５は、モデルではこれらの状態が許されな
いので、負に設定される。その後、数字に対する
行列Ａの遷移確率信号と表１の第２の音声パター
ンフレーム量子化信号インデクスｍに対応する行
列Ｂのシンボル生起確率信号とを用いて、l_o（φ₂
(j)）信号がｔ＝２のフレームに対し、 φ₂(j)＝ maxⁱ ｛φ₁(i)＋l_o（a_i1b_j（O₂）｝ (8) に従つて生成される。但しmax｛１，ｊ−２｝
ｉｊである。音声パターンフレーム２の各行き
先状態ｊに対し、信号φ₂(j)が記憶されている。
フレーム列の連続する状態に対する対数確率信号
はその後数字のモデルのＡおよびＢ行列信号と量
子化音声パターン信号インデクスｔのフレーム列
とを用いて発生される。最後のフレームＴの処理
の後、他の状態への遷移の許されない最終状態５
からの数字モデルに対する最大対数確率信号が得
られる。状態５は吸収状態である。数字の集合に
対する信号処理は、連続的に実行され、対応する
数字識別信号と同様に最大対数確率信号の最大の
ものが記憶に保持される。数字「９」に対するモ
デル処理の完了によつて、音声パターンは保持さ
れている最大対数確率信号に対する数字識別コー
ドとして識別される。処理回路３４０で実行される第２図の箱２２
５，２３０，２３５および２４０のマルコフモデ
ル処理は第５図のフローチヤートに示されてい
る。最初に量子化モードの終了とともに箱２２０
から箱５０１に入る。対数最大確率信号はその最
小値−∞に設定され、選択された参照パターンイ
ンデクスk^*は−１に設定される。参照パターン
インデクスｋは−１にリセツトされ（箱５０５）、
０に増加される（箱５０７）。その後、現在の参
照パターンインデクスｋは箱５１０に従つて最終
のインデクス値Ｋと比較される。この時点でｋ＝
０であるから、箱５１５が選ばれてｋ＝０の数
字、すなわち「０」に対する行列ＡおよびＢの信
号がアドレスされて参照パターンマルコフモデル
信号の記憶３６０から処理回路３４０を経て
RAM３５０へ転送される（箱５１５）。その後、
数字「０」に対する対数確率信号lnPcが箱５２
０によつて発生される。前述のようにlnP₀信号は
量子化入力音声パターンが数字「０」に対するマ
ルコフモデルから得られるという確率を表わす。
第６図のフローチヤートはlnP_k信号生成の詳細な
装置を示している。第６図では、表５の行列Ｂの第１列のｍ＝14の
信号に対応して信号φ₁(1)はln（b₁（O₁））に設定さ
れる（箱６０１）。現状態インデクスｉは１に設
定され（箱６０５）、増加される（箱６０７）。ｉ
＞Ｎの最終状態になるまで、ｉ＝２、３、…Ｎに
対するlnφ₁(i)は−∞に設定される。φ₁(1)、φ₁(2)、
…φ₁(5)信号の集合はRAM３５０に記憶される。
これらのφ₁(i)は、マルコフモデルはその第１の
音声パターンフレームの第１の状態から開始する
という制約に対応している。第７図は、連続する
入力音声時間フレーム１、２、３および４に対す
るマルコフモデルの状態系列を説明する格子状の
図である。列７１０は音声パターン量子化インデ
クス信号がO₁＝14である最初のフレームに対応
している。列７２０，７３０および７４０は第
２、第３および第４のフレームをそれぞれ表わし
ている。マルコフ状態は各列において上から下へ
の順序で並べられている。第７図に示す通り、状
態１だけが最初の時間フレームとして可能であ
る。最初の時間フレームφ₁(i)信号が生成された後、
入力音声時間フレームインデクスｔが１に設定さ
れ増加されるべく、箱６１５および６２０に順に
入る。時間フレームインデクスｔは最終時間フレ
ームＴよりも大きくないから（判断用の箱６２
５）、箱６３０によつて行き先状態インデクスｊ
は０に設定される。行き先インデクスｊは箱６３
５で１だけ増加され最終状態Ｎ＝５と比較される
（判断用の箱６４０）。第１図の隠れマルコフモデ
ルの制約に従つて、次の２つの隣接する状態への
遷移だけが可能である。結果的に、現状態インデ
クスｉは０に設定され（箱６５０）、マルコフモ
デルの制約に従がい１だけ増加される（箱６５
２）。最大のφ₂(i)、βは最初は−∞に設定される
（箱６５０）。増加された現状態インデクスｉは箱
６５４に従つて現在の行き先の状態インデクスｊ
＝１と比較され、音声パターン時間フレームｔ＝
２、前フレームの現状態インデクスｉ＝１および
行き先状態インデクスｊ＝１という形で信号を生
成する箱６６０に入る。箱６６０の信号αは列７
１０の状態１（ｔ＝１）から列７２０の状態２（ｔ
＝２）への経路に対応し、その値は以前に発生さ
れた信号φ₁(1)とln（a₁₁b₁（O₂））との和によつて得
られる。信号インデクスO₂は表１のフレームｔ
＝２に対する量子化音声パターン信号である。信
号a₁₁は、表２の行列Ａの信号の列ｉ＝１、行ｊ
＝１から得られ、ｂ（O₂）は表５の数字「０」の
行列Ｂの状態１の列のｍ＝14の場所から得られ
る。この時α＝−10.2で、βは箱６６５および６
７０によつてこの値に設定される。そして現状態
のインデクスの増加（箱６５２）に移り、ｉは２
になる。現状態インデクスｉは行き先状態インデクスｊ
＝１よりも大なのでφ₂(1)はβに設定され（箱６
５４および６５６）、行き先状態インデクスｊは
２に増加される（箱６３５）。現状態インデクス
ｉは箱６５０および６５２において０にリセツト
され１だけ増加される。ｔ＝２、ｉ＝１、ｊ＝２
のインデクスに対する信号αは箱６６０で生成さ
れる。このようにして、列７１０の状態１から列
７２０の状態２への経路は第７図のようにたどら
れる。ｔ＝２、ｉ＝１、ｊ＝２の値のαはβ＝−
∞の信号を置き換える（箱６６５および６７
０））。ｔ＝２、ｉ＝２、ｊ＝２に対して信号αが生成
されると、φ₁(2)＝−∞だからβより小となる。
従つて箱６７０ではβは変更されない。現状態イ
ンデクスｉはその後増加される（箱６５２）。増
加したインデクスｉ＝３はｉ＝２より大だから、
φ₂(2)はｔ＝２、ｉ＝１およびｊ＝２に対して得
られたβの値になる（箱６５６）。同様にφ₂(3)は
第７図に示されるようにｔ＝２、ｉ＝１およびｊ
＝３に対する信号αに設定される。ｉ＞１に対す
るφ₁(i)信号は−∞に設定される。従つてｊ＞３
に対するφ₂(j)信号は−∞に設定される。表８、
９および10は各時間フレームｔのマルコフモデル
状態に対する対数確率信号φ_t(j)を示すものであ
る。

【表】

【表】表８の第２行は、第２の音声フレームに対する
第６図に示したマルコフモデル信号処理で得られ
たφ₂(1)、φ₂(2)、φ₂(3)、φ₂(4)およびφ₂(5)に対す
る
値である。行き先状態ｊが判断用の箱６４０で最終状態Ｎ
＝５より大きくなると第２の音声フレームの処理
は完了する。この時点で、音声フレームインデク
スｔは３に増加され（箱６２０）、信号φ₃(j)の処
理が箱６３０で開始される。第７図に示すよう
に、ｔ＝３の音声パターンフレームの可能な遷移
には、フレーム２（列７２０）の状態１からフレ
ーム３（列７３０）の状態１、２および３、フレ
ーム２（列７２０）の状態２からフレーム３（列
７３０）の状態２、３および４そしてフレーム２
（列７２０）の状態３からフレーム３（列７３０）
の状態３、４および５への遷移が含まれる。信号
φ₃(j)の処理は、式(8)に従つて前の音声パターン
時間フレームに関して述べたように実行される。
しかしフレームｔ＝３およびそれに続くフレーム
には各行き先状態に対しｂ以上の元の状態があ
る。例えば、第７図において列７３０の状態２は
列７２０の状態１および２から到達でき、列７３
０の状態３は列７２０の状態１、２あるいは３か
ら到達できる。各行き先状態に対し、発生される
最大の信号αは箱６６５および６７０の操作を通
して信号φ₃(j)として保持される。列７３０の状
態２については、 φ₃(2)＝maxφ₂(1)＋ln（a₁₂b₂（O₃）） φ₂(2)＋ln（a₂₂b₂（O₃））ｔ＝３のフレームで得られるφ₃(1)、φ₃(2)、φ₃
(3)、φ₃(4)およびφ₃(5)の信号は表８の第３行に記
載されており、ｔ＝４のフレーム処理の結果であ
るφ₄(j)信号は表８の第４行に記載されている。連続する音声フレームについて第６図に示した
信号処理は隠れマルコフモデルの制約に従つて、
各音声パターン時間フレームの各状態に対し数字
「０」のモデルＡおよびＢ行列の信号から導出さ
れる。入力音声パターン「９」の最大確率を得る
ように実行される。インデクスｔ＝36、ｉ＝５、
ｊ＝５に対しαが得られた後、最後の時間フレー
ム（Ｔ＝36）の処理が箱６６５，６７０，６５
２，６５４および６５６を経て完了する。そして
最終状態Ｎ＝５に対する信号φ_T（Ｎ）＝158.0が生
成される（箱６５６）。この信号は、音声パター
ンが数字「０」のマルコフモデルから導出される
最大の対数確率を表わし、表８の最終行（ｔ＝
36）の最後の位置に記載されている。フレームｔが最後の音声パターンフレームＴ＝
36より大になると、判断用の箱６２５から箱６２
８に入り、「０」に対する最大確率信号が記憶さ
れる。それから第５図の箱５０７に戻り、数字
「１」に対するマルコフ処理が開始される。表９
および10は数字「５」および「９」に対するマル
コフモデル処理を説明している。箱５２５および５３０に示されているように、
各数字に対する最大対数確率信号が生成された
後、前の数字の確率の値の最大のものと比較され
最大の値とその識別コードk^*だけが記憶される。
数字「０」に対する処理が終了すると、箱５３０
に従つてlnPmaxは−158.0に設定され（表８）k^*
は０に設定される。入力音声パターン「９」に対
し第３図の装置で得られる数字の集合に対する
lnP_k信号はフレームｔ＝36での最後の吸収状態５
に対するものである。数字ｋ ln（Pk）数字ｋ ln（Pk）０ −158.0 ６ −175.3 １ −160.4 ７ −160.4 ２ −184.9 ８ −168.9 ３ −158.8 ９ −156.9 ４ −186.0 ５ −174.5 従つてlnPmaxとk^*は、数字「９」のモデルに
対する最大対数確率信号が判断用の箱５２５で
lnPmaxと比較されるまで数字「０」以来変更さ
れない。比較の箱での操作の結果として、箱５３
０に入る。lnPmax信号は−156.9に設定され、k^*
は９となる。マルコフモデル評価モードの終りで
記憶された最大確率信号は−156.9で選ばれた数
字はk^*＝９である。ここで述べられた数字認識装置は電話番号やク
レジツトカード番号などの文字、数字あるいは単
語の一連の発声を認識するのに利用することがで
きる。第２図の箱２４０による最大確率信号Ｐ
（Ｏ｜Ｋ）の参照モデルの選択の後、参照インデ
クス信号が発生され（箱２４５）、電話交換装置
あるいはビジネス処理用データ処理装置などの応
用装置２８０に転送される。そして判断用の箱２
０５に入り、音声入力の次の音声パターンを処理
する。第３図の装置は適当なマルコフモデル参照
パターンを選ぶことによつて句や文章のようなそ
の他の音声パターンの認識に拡張できる。例えば
音素のような小さな音声要素のモデルを使用する
従来のマルコフモデル音声認識装置と比較して、
本発明は参照パターンとして発声を識別するため
に例えば単語や句のような全参照パターンの単一
モデルを使用する。有利な点は認識に必要な状態
数が削減され、音素やその他の基本的な音声セグ
メントを連結する困難さが解消され、利用可能な
データベースにより不特定話者の操作が実現でき
ることである。ROM３６０に記憶されたマルコ
フモデルパターンは、いかなる音源やいかなる話
者からの識別された音声パターンの発声から生成
されたものである。すでに利用可能な録音された
発声のデータバンクからのパターンを第３図の不
特定話者認識装置のための話者のマルコフモデル
を生成するのに利用することができる。

【図面の簡単な説明】

第１図は、本発明で使用される制約された隠れ
マルコフモデルの一例を示す模式図、第２図は本
発明の実施例を説明する概略フローチヤート、第
３図は本発明を実現する音声認識回路のブロツク
図、第４，５および６図は第３図の音声認識回路
の動作の一部を説明するためのより詳細なフロー
チヤート、第７図は第３図の回路の動作を説明す
る格子状の図である。

Claims

【特許請求の範囲】１複数（例えばＫ）の参照パターンの１つとし
て発声を認識するための音声分析器であつて、前記参照パターンのｋ番目（ｋ＝１，２，…
…，Ｋ）に対し制約されたＮ状態の隠れマルコフ
モデル（HMM）に対応する複数の信号を記憶す
る手段（360）と、前記発声の音声特性を表す信号系列Ot（ｔ＝
１，２，……，Ｔ、なおＴとＮは互いに独立）を
形成するための手段（例えば310，320，330，
370，365，340，350，355）と、前記信号系列Ot及び前記参照パターンの各々
に対する複数の信号に対し共に応動して、各参照
パターン毎に、前記発声が前記ｋ番目の参照パタ
ーンであることの確率を表す信号P_nax(k)（ｋ＝
１，２，……，Ｋ）を発生する手段（340，350，
355）と、前記信号P_nax(k)に応動して、前記発声として参
照パターンの１つを選択するための手段（355，
340）とから成る、音声分析器。２特許請求の範囲第１項に記載の音声分析器に
おいて、各参照パターンの制約された隠れマルコフモデ
ル信号を記憶する前記の手段が、初期状態に対応する信号と、中間状態に対応す
る複数個の信号と、最終状態に対応する信号とを
含むマルコフモデルの状態に対応する信号の集合
を記憶する手段と、所定の状態の対の間の遷移確率に各々対応する
信号の集合を記憶する手段と、定められた状態に生起する所定の特性信号の確
率を各々表す信号の集合を記憶する手段とを含む
ことを特徴とする音声分析器。３特許請求の範囲第２項に記載の音声分析器に
おいて、各参照パターンモデルに対し前記の確率を表す
信号を発生する手段が、音声パターンフレーム処理間隔信号を連続的に
発生するよう動作し、現在の音声パターンフレーム処理間隔におい
て、現在の音声パターンフレームの選択された所
定の特性を表す信号と、参照パターンのマルコフ
モデル信号に応動して、参照パターンマルコフモ
デルが前記の音声フレーム間に定められた状態に
ある尤度を表す信号の集合を生じるよう動作し、最後の音声パターンフレーム処理間隔におい
て、最後の音声パターンフレーム間に参照パター
ンマルコフモデルに対応する信号は最終状態にあ
ることを表す尤度に応動して、音声パターンが参
照パターンマルコフモデルから得られる確率を表
す信号を形成するように動作することを特徴とす
る音声分析器。４特許請求の範囲第３項に記載の音声分析器に
おいて、各音声パターンフレーム処理間隔において、前
記の尤度を表す信号を作る前記の手段が、前記の
マルコフモデル状態信号と前記の遷移確率信号と
前記の特性信号生起確率信号とに応動して、現在
のフレームまでの音声パターン部分に対応する参
照パターンマルコフモデルが参照パターンマルコ
フモデルの状態のそれぞれにあるという確率を表
す信号の集合を発生することを特徴とする音声分
析器。５特許請求の範囲第４項に記載の音声分析器に
おいて、前記音声分析器が、前記の参照パターンの音響
特性の範囲をおおう定められた数の音響特性信号
を記憶する手段を含むような音響特性を表す信号
の定められた集合を記憶する手段を含むことを特
徴とする音声分析器。６特許請求の範囲第５項に記載の音声分析器に
おいて、定められた数の音響特性信号を記憶する前記の
手段が、前記の参照パターンの音響特性の範囲を
おおう定められた数の線形予測特性原形信号を記
憶する手段を含み、音声パターンを表す音響特性信号の系列を構成
する前記の手段が、音声パターンを表す線形予測
パラメータ特性信号の系列を構成する手段を含む
ことを特徴とする音声分析器。７特許請求の範囲第４項に記載の音声分析器に
おいて、第１の識別状態ｉから第２の識別状態ｊへの遷
移でｊ＜ｉかつｊ＞ｉ＋２の場合に対応する遷移
確率信号が０値の信号であることを特徴とする音
声分析器。８特許請求の範囲第１項乃至第７項のいずれか
に記載の音声分析器において、前記の音声パターンが単語の発声であり、前記
の参照パターンが識別された音声単語パターンで
あることを特徴とする音声分析器。