JPH06110493A

JPH06110493A - 音声モデルの構成方法及び音声認識装置

Info

Publication number: JPH06110493A
Application number: JP4259301A
Authority: JP
Inventors: Masafumi Nishimura; 雅史西村; Masaaki Okochi; 正明大河内
Original assignee: IBM Japan Ltd
Current assignee: IBM Japan Ltd
Priority date: 1992-09-29
Filing date: 1992-09-29
Publication date: 1994-04-22
Anticipated expiration: 2010-08-02
Also published as: JPH0772840B2; DE69324428T2; EP0590925B1; EP0590925A1; US5502791A; DE69324428D1

Abstract

(57)【要約】（修正有）【目的】種々の発声変形を少ない種類のＨＭＭの統計的
組み合わせにより効率よく表現した音声認識装置を実現
する。【構成】入力語を特徴抽出装置４で特徴解析し、対応す
る特徴ベクトル列、またはラベル付け装置８でラベル列
を得る。サブワードの音声として音声変形候補毎に、フ
ェノニック型ヒドウン・マルコフ・モデルを語中の先行
のサブワードの音声変形候補とのＮグラム関係(Ｎは２
以上の整数)を与えパラメータ・テーブル１８に保持す
る。認識装置１６によって、認識対象単語発音辞書１３
の記述候補語に対応し、Ｎグラム関係に基づいて音声変
形候補毎にＨＭＭをあてはめ、音声変形候補毎の各ＨＭ
Ｍをサブワード間で並列に連結させ音声モデルを構成
し、各候補語について構成音声モデルが音声入力された
語のラベル列または特徴ベクトル列を出力する確率を求
め、最も高い確率の音声モデルに対応する候補語を認識
結果として表示装置１９へ出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、音素などのサブワー
ド単位のヒドゥン・マルコフ・モデル（ＨＭＭ）を利用
した音声モデル及びこれを利用した音声認識に関し、発
声の変形(揺らぎ)にも対応して音声認識を効率よく行な
えるようにしたものである。

【０００２】

【従来の技術】マルコフ・モデルを利用した音声認識は
確率的な観点から音声の認識を行おうとするものであ
る。近年、音素や音節などのサブワード単位のＨＭＭを
ベースにして、大語彙音声認識や、連続音声認識を行う
システムが提案されている。

【０００３】従来の代表的な方法としては、音素ＨＭＭ
を直列結合して、認識対象の単語を表現する方法があ
る。どの音素ＨＭＭを連結するかは、認識対象単語の発
音辞書中の記述（ベースフォームと呼ぶ）に基づいて決
められるが、実際の音声は前後の音素の種類、発声速
度、アクセント位置などによって変形を受けるので、こ
のような変形を考慮せずに音素ＨＭＭを連結したのでは
高い認識率は得られない。

【０００４】そこで、前後の音素環境のみを考慮して、
音素環境毎に音素ＨＭＭを用意し、認識対象単語の発音
辞書に記述された音素環境に応じて音素ＨＭＭを選択
し、直列結合する方法がある。これについては文献
［１］に詳細が記載されている。この方法は、音素環境
毎の音声変形は反映しやすいが、音素環境の組み合わせ
は非常に多いため、種々の発声変形を扱うためには、多
数の音素ＨＭＭを用意しなければならず、また、大量の
訓練用音声データを必要とした。また、不特定話者の音
声認識では、話者の違いによる発声の揺らぎが大きい
が、この方法では各音素ＨＭＭは１つのモデルで話者に
よる揺らぎを全て包含するため、ゆるいモデルになって
しまい、音組織別能力が低下しやすい。［１］"Context-Dependent Modeling for Acoustic-Pho
netic Recognition ofContinuous Speech"(Proceedings
of ICASSP^85、 1985、 4月、 R.Schwartz、 Y.Chow、 O.Ki
mball、 S.Roucos、 M.Krasner、 J.Mkhoul)

【０００５】一方、各単語ごとに音声の変形や揺らぎに
関する知識をサブワードＨＭＭのネットワーク結合で表
現する方法もある。これについては文献［２］に詳細が
記載されている。［２］"A Maximum Likelihood Approach to Continuous
Speech Recognition"（IEEE Transactions on Pattern
Analysis and Machine Intelligence、PAMI-5(2)、pp.
179-190、1983、L.R.Bahl、 F.Jelinek、 R.L.Mercer）しかし、このようなネットワーク表現を単語ごとに人手
で用意するのは容易なことではなく、その上、人間の感
覚に基づく知識が個々の物理現象と正確に対応づく訳で
もない。

【０００６】また、各単語のネットワーク上のパラメー
タ（遷移確率）を単語ごとに訓練して求める方法もある
が、各単語のネットワーク表現を得るのに大量の訓練用
音声データが必要となるため、サブワードを単位として
いるにもかかわらず、認識対象単語を容易には変更でき
なかった。

【０００７】

【発明が解決しようとする課題】この発明は以上の事情
を考慮してなされたものであり、種々の発声変形を少な
い種類のＨＭＭの統計的組み合わせ（Ｎグラム）によっ
て効率よく表現した音声認識装置を実現することを目的
としている。

【０００８】

【課題を解決するための手段】本発明では、以上の目的
を達成するために、サブワードとして例えば音素の変形
（異音）を表現するＨＭＭとして、各音素に幾つかの代
表的なモデルを異音ＨＭＭとして用意する。これは、ク
ラスタリングの手法に基づき、自動的に行われる。そし
て、異音ＨＭＭ間の組み合わせをＮグラム（Ｎつ組の異
音ＨＭＭの生起確率）によって制約した音声モデルによ
って単語発声などの音声現象を表現し、これを使って音
声認識を行う。

【０００９】モデル訓練時には、訓練用音声のベースフ
ォームを参照して、各音素に対して複数の異音ＨＭＭを
Ｎグラムで制約して接続した訓練用の音声モデルを構成
し、最尤推定法などの手法によって、各異音ＨＭＭのパ
ラメータと同時に、異音ＨＭＭ間のＮグラム・モデルの
パラメータも自動推定し、ＨＭＭの音声認識性能を向上
させる。

【００１０】一例として、Ｎ＝２の場合のバイグラム
（２つ組の生起確率）で制約した単語音声モデルを考え
よう。ある単語の発音辞書(音素表記)が与えられると、
それに基づいて、音素単位のＨＭＭを連結し、単語音声
モデルを構成するが、それぞれの音素に対し、複数の異
音ＨＭＭ、A(p、i)を用意する。ここで、ｐは音素、iは
音素ｐの異音の種類を表す。音素毎にこれらの異音ＨＭ
Ｍを全て並列的に処理するが、統計的に不必要な異音Ｈ
ＭＭの組み合わせをバイグラムで制限する。つまり、あ
る単語音声モデルの音素系列がＰ＝ｐ(1)p(2)...p(W)で
与えられたとすると、j-1番目の音素の異音ＨＭＭモデ
ルA(p(j-1)、n)から、j番目の音素の異音ＨＭＭモデルA
(p(j)、m)への遷移の際には２つぐみの生起確率、Pr(A(p
(j),m)|A(p(j-1),n))を、通常のＨＭＭの尤度との積の
形で評価する。

【００１１】本明細書中に言うサブワードとは、音素、
音節、CVC、VCV（Ｃは子音、Ｖは母音を表す。）等、音
声を構成する部分であり、発音と直接のかかわりは持た
ないが、違う意味を表すのに役立つ音の単位を指す。音
声をどこで区切ってサブワードとするかは任意に設定さ
れる。また、本明細書中に言う語とは、単語、語句、文
等、認識対象の１単位であり、どの大きさを認識対象と
するかは任意に設定される。また、本明細書中に言う音
声変形候補とは、サブワードを音素とした場合は異音で
あり、要は、音声として発声した時に変形した各サブワ
ードである。また、ＨＭＭにはラベルを出力する離散Ｈ
ＭＭと特徴ベクトルを出力する連続ＨＭＭの２つのタイ
プがあり、本発明においてはいずれのタイプのＨＭＭを
用いてもよく、連続ＨＭＭの場合には入力音声を特徴解
析して得た特徴ベクトル列に基づいて音声認識を行い、
離散ＨＭＭの場合には特徴ベクトル列を更に変換して得
たラベル列に基づいて音声認識を行う。

【００１２】

【実施例】以下、本発明の一実施例について図面を参照
しながら説明する。この実施例では、本願発明を単語の
音声認識に適用し、ＨＭＭとしてはラベル単位のＨＭＭ
であるフェノニック・マルコフ・モデルを用い、Ｎグラ
ムとしてはバイグラム(すなわち、Ｎ＝２の場合)を用い
ている。

【００１３】フェノニック・マルコフ・モデルにおいて
は同じラベル名で対応付けられたモデルは、モデルの訓
練及び認識時に共通のモデルとして取り扱われるため、
必要とされる記憶量が少なく、訓練効率も良い。また、
発声から得られたラベル列を直接モデル列に対応させる
ことが出来るので、異音ＨＭＭの初期モデルが作成しや
すい。なお、モデル列を表わすこのラベル列を、音素モ
デルのベースフォームに対応させてフェノニック・ベー
スフォームと呼んでいる。フェノニック・マルコフ・モ
デルについては以下の論文に詳細が記載されている。 "Acoustic Markov Models Used in The Tangora Speech
Recognition System"(Proceedings of ICASSP^88、 198
8、 4月、 S11-3、 L.R.Bahl、 P.F.Brown、 P.V.deSouza、
R.L.Mercer and M.A.Picheny)

【００１４】図１はこの実施例に係る音声認識装置を全
体として示すものである。入力音声(単語)はマイクロホ
ン１および増幅器２を介してアナログ・デジタル（Ａ／
Ｄ）変換器３に供給され、ここでデジタル・データとさ
れる。デジタル化された音声データは特徴量抽出装置４
に供給される。この特徴量抽出装置４においては、まず
音声データが離散フーリエ変換された後、聴覚の特性を
反映した１９チャンネル分の臨界対域フィルターの出力
として、対数パワー値とともに取り出される。この出力
は例えば約１０ミリ秒毎（この単位をフレームと呼ぶ）
に単語音声区間検出装置５に送られ、単語音声区間内と
判断されたフレームの特徴量のみが次の切り換え装置６
に送られ、コードブック作成装置７あるいはラベル付け
装置８のいずれかに送られる。

【００１５】コードブック推定時には、切り換え装置６
がコードブック作成装置７側に切り替わり、特徴量抽出
装置４から特徴量がコードブック作成装置７へ供給され
る。コードブック作成装置７は、クラスタリングによっ
て１２８種類のラベル付けされた特徴量からなるコード
ブック９を作成する。

【００１６】一方、認識を行う場合やフェノニック異音
ベースフォームを登録する場合およびモデルのパラメー
ターを推定する場合には、切り換え装置６はラベル付け
装置８側に切り替わる。ラベル付け装置８はコードブッ
ク９を参照してフレーム毎にラベル付けを行う。

【００１７】上記のラベル付けは例えば図２に示すよう
に行われる。図２において、Ｘは入力音声(単語)のフレ
ームの特徴量、Ｙjはコードブックに保持されている特
徴量の内の第ｊ番目のラベルの特徴量、Ｒはコードブッ
クのサイズ（＝１２８）、dist(Ｘ、Ｙj)はＸとＹjとの
ユークリッド距離、ｍは各時点までの dist(Ｘ、Ｙj)の
最小値である。

【００１８】まず、特徴量Ｘの入力があると(ステップ
２０)、Ｊを１に、ｍを非常に大きな値Ｖに、入力され
た特徴量Ｘに対して最終的に付けられるラベルの番号ｌ
を１にそれぞれ初期設定する(ステップ２１)。次いで、
Ｊ＞Ｒとなってコードブック内の全ての特徴量について
検査したかを判断し(ステップ２２)、更に、ｍ＞dist
(Ｘ、Ｙj)となって今までに得られた距離より小さい距
離を呈するラベルが新たに見つかったかを判断する(ス
テップ２４)。そして、より小さい距離を呈するラベル
が見つかったときにはこのラベル番号ｊを一先ずｌとし
(ステップ２５)、このようなラベルがいまだ見つからな
いときにはそのまま、更に小さな距離を呈するラベルが
あるかどうかを番号Ｊを１つづつ繰り上げて(ステップ
２６)コードブック内の最後のラベル番号Ｒまで順次検
査を行い(ステップ２２)、最終的に距離の最も小さいも
の、すなわちラベル付けされているコードブック内の特
徴量の内で入力特徴量Ｘに最も似ているもののラベル番
号が観測されたラベル（ラベル番号）ｌとして出力され
る(ステップ２３)。

【００１９】再び図１を参照して、ラベル付け装置８か
ら出力されるフレーム毎のラベルは複数個がまとまった
ラベル列で音素に対応し、これら音素に対応するラベル
列が幾つかまとまったラベル列が入力音声単語に対応す
る。この単語に対応するラベル系列は切り換え装置１０
を介して、フノニック異音ベースフォーム作成装置１
４、モデルのパラメーター推定装置１５、認識装置１６
のいずれか一つに供給される。

【００２０】なお、この実施例では後述するように音声
モデルをラベル列を出力するものとしているため、入力
音声をラベル列に変換しているが、音声モデルを特徴ベ
クトル列を出力するものとしてもよく、この場合には認
識対象となる音声を特徴解析して得た特徴量をラベル変
換することなく認識装置１６へ供給する。

【００２１】フェノニック異音ベースフォームを作成す
る時には、切り換え装置１０がフェノニック異音ベース
フォーム作成装置１４側に切り替わって、ラベル系列が
フェノニック異音ベースフォーム作成装置１４に供給さ
れ、異音ベースフォーム作成用単語発音辞書１１および
特徴量抽出装置４の出力を参照して、フェノニック異音
ベースフォーム・テーブル１７が作成される。フェノニ
ック異音ベースフォーム作成装置１４の動作の詳細につ
いては、後に図５を参照して説明する。

【００２２】マルコフ・モデルのパラメーター推定時に
は、切り換え装置１０がモデルのパラメーター推定装置
１５に切り替わり、モデルのパラメーター推定装置１５
がラベル系列、フェノニック異音ベースフォーム・テー
ブル１７および、訓練用単語発音辞書１２を参照してモ
デルの訓練を行い、パラメーター・テーブル１８のパラ
メーター値（フェノニック・マルコフ・モデルおよびバ
イグラムのパラメータ）を決定する。モデルのパラメー
タ推定装置の動作の詳細については、後に図６及び図８
を参照して説明する。

【００２３】認識を行う時には、切り換え装置１０が認
識装置１６側に切り替わり、認識装置１３は入力ラベル
系列、フェノニック異音ベースフォーム・テーブル１
７、パラメーター・テーブル１８及び認識対象単語の発
音辞書１３に基づいて入力音声の認識を行う。認識装置
１６の動作の詳細については、後に図７及び図８を参照
して説明する。認識装置１６の出力はワークステーショ
ン１９に供給され、認識された単語がたとえばその表示
装置に表示される。尚、図１に示したマイクロホン１、
増幅器２、Ａ／Ｄ変換器３及び表示装置１６を除くすべ
ての装置は、ソフトウェアとしてワークステーション上
に実現されている。

【００２４】図３はこの実施例で用いられているフェノ
ニック型のＨＭＭの構造を示している。この図中の丸で
描いた部分は状態を示している。なお、鎖線で示す状態
遷移３はラベルを出力しないナル遷移である。この実施
例では、上記のようなフェノニックＨＭＭをラベル番号
に対応付けて１２８個用意してある。そして、それぞれ
のフェノニックＨＭＭは、図３中に１，２，３で示すそ
れぞれの状態遷移に図４(ａ)に示すような生起確率が設
定され、更に、１２８種類の各フェノニックＨＭＭがそ
れぞれ１２８種類のラベルを出力する確率が４図(ｂ)に
示すように設定されており、これらフェノニックＨＭＭ
のパラメータはパラメータ・テーブル１８に保持されて
いる。

【００２５】また、この実施例では、単語を発声した場
合にその中の音素の変形による揺らぎに対応できるよう
にするため、各音素の異音に対応するフェノニックＨＭ
Ｍも単語単位の音声モデルの構成に採り入れ、単語に沿
った音素の並びに対応して、異音を含めた各音素のフェ
ノニックＨＭＭを並列に連結するようにしている。この
ような異音を含めた各音素のフェノニックＨＭＭの連結
を制約するフェノニックＨＭＭ間のバイグラムも、図４
(ｃ)に示されるような、単語中の先行音素の異音の条件
を付けた後続音素の異音の生起確率というパラメータで
パラメータ・テーブル１８に保持されている。

【００２６】なお、この実施例では、異音の連結のみが
制約され、音素の組み合わせの確率は全ての音素間で同
一としている。前記した２つぐみの生起確率、 Pr(A(p(j),m)|A(p(j-1),n))＝Pr(m|p(j),A(p(j-1),n))Pr(p(j)|A(p(j-1),n)) ≒Pr(m|p(j),A(p(j-1),n))Pr(p(j)|p(j-1)) において、音素間のバイグラムPr(p(j)|p(j-1))は全て
の音素に対して常に一定値であるとしている。本発明で
は、この音素間のバイグラムを含めるようにしてもよ
く、この場合には各辞書を作成するための学習データを
かなり多く必要とすることとなる。

【００２７】また、本発明ではＮグラムの制約を付加せ
ずに音声モデルを構成するようにしてもよく(すなわち
Ｎ＝１として、パラメータ・テーブルの図４(ｃ)に示さ
れるようなパラメータを省く)、この場合においても、
後述するように、音声の変形を表現した音声認識装置の
実現や、モデルのための記憶容量の低減という、本発明
の所期の目的を達成することができる。

【００２８】例えば、「ＫＡＳＡ(かさ)」という単語に
対しては、例えば図８に示すように、音素Ｋに対してＫ
1とＫ2、音素Ａに対してＡ1とＡ2、音素Ｓに対してＳ1
とＳ2とＳ3、と言うように互いに異音の関係の音声変形
候補があり、単語「ＫＡＳＡ」に対する音声モデルはこ
れら音声変形候補に対応するフェノニックＨＭＭをバイ
グラムの生起確率をもって並列に連結させることにより
構成される。パラメータ・テーブル１８には各音素(音
声変形候補)毎に単語中の直前の音素(音声変形候補)に
連続して生じる確率として保持されている。

【００２９】なお、この実施例では、上記したように音
素間のバイグラムは全ての音素に対して一定値としてい
るため、／Ｋ／に／Ａ／が続く確率も／Ｋ／に／Ｉ／が
続く確率も同じとしてある。

【００３０】上記の構成を有する音声認識装置は、フェ
ノニック異音ベースフォームの作成、モデルパラメータ
の推定、音声認識と言った主要な３つの動作を行い、こ
の内前２者は音声認識のための準備動作に該当し、これ
ら動作はたとえば認識対象単語発音辞書１３に記述され
ている単語を入力としてなされる。

【００３１】フェノニック異音ベースフォームの作成
は、前記したフェノニック異音ベースフォーム作成装置
１４によって図５に示すような手順でなされる。まず、
マイクロホン１から入力されたフェノニック異音ベース
フォーム作成用の単語音声がラベル付け装置８で入力ラ
ベル列に変換され、この入力ラベル列が切り換え装置１
０からフェノニック異音ベースフォーム作成装置１４に
供給される。この入力ラベル列が、入力単語発声の音素
列を表記してあるフェノニック異音ベースフォーム作成
用単語発声辞書１１を参照して、音素単位に分割される
（ステップ２７）。この際、音素境界の決定には、特徴
量抽出装置４から出力される特徴量の変化量が利用され
る。この操作を全てのフェノニック異音ベースフォーム
作成用単語音声に対して行う。このようにして、全ての
入力ラベル列が音素ごとに分割、分類される。

【００３２】音素ｐに分類された部分のラベル列が全て
とりこまれる（ステップ２８）。このデータを使って音
素毎にクラスタリング処理が行われ、各クラスを代表す
るラベルが選択される（ステップ２９、ステップ３
０）。この結果、音素毎の全ての異音の候補(音声変形
候補)のラベル列が得られる。なお、クラスタリング時
に使用するラベル間の距離は、一方をフェノニック・マ
ルコフ音素ベースフォームと考え、他方を入力ラベル列
とすることで、モデルの尤度を使って定義する。この
際、フェノニック・マルコフ・モデルのパラメータは単
語発声等で既に訓練済みのものか、さもなくば初期値を
使う。

【００３３】音素毎に得られた音声変形候補の代表ラベ
ル列をそれぞれフェノニック異音ベースフォームとし
て、フェノニック異音ベースフォームテーブル１７に記
録する（ステップ３１）。入力された単語音声に含まれ
る全ての音素に対して上記した一連の処理を行い（ステ
ップ３２）、フェノニック異音ベースフォーム・テーブ
ル１７の作成を終了する。すなわち、作成されたフェノ
ニック異音ベースフォーム・テーブル１７には、音素毎
に音声変形候補(異音)のラベル列が記憶されている。

【００３４】なお、本実施例のようにフェノニックＨＭ
Ｍを用いて音声認識を行う場合、認識動作はラベル列ま
たは特徴ベクトル列のいずれに基づいても行えるが、フ
ェノニックＨＭＭはラベル単位のモデルであるのでフェ
ノニック異音ベースフォームはラベル列としておく必要
がある。一方、フェノニックＨＭＭと異なり、他の形式
のＨＭＭではラベル列に基づいてモデル列を構成するこ
とは行わないため、異音ベースフォーム・テーブル１７
は音声変形候補(異音)毎のＨＭＭを保持することとな
る。

【００３５】モデルのパラメータ推定は、図４（ａ）及
び（ｂ）に示したフェノニックＨＭＭ自体のパラメータ
と共に図４(ｃ)に示した音素間のバイグラムのパラメー
タを認識対象の単語がより出力され易いように変更(訓
練)するものであり、上記したモデルのパラメータ推定
装置１５によって図６に示す手順で行われる。

【００３６】まず、パラメータ・テーブル１８が初期化
される（ステップ３３）。この時、すでに訓練済みのパ
ラメータを初期値として使っても構わない。次に、訓練
用単語音声(例えばＫＡＳＡ)のラベル列を切り換え装置
１０から取り込む（ステップ３４）。この訓練用単語音
声に対応する、図８に示すような単語音声モデルを、訓
練用単語発声辞書１２、フェノニック異音ベースフォー
ムテーブル１７、更に、パラメータ・テーブル１８を参
照して構成した後（ステップ３５）、フォワード・バッ
クワード計算を行って各フェノニックＨＭＭの各パラメ
ータ及び各音素間のバイグラムを算出する（ステップ３
６）。

【００３７】この計算を全ての訓練用単語音声データに
対して行った後（ステップ３７）、この計算結果を用い
て全フェノニックＨＭＭ及びバイグラムのパラメータを
最尤推定し（ステップ３８）、その結果のパラメータで
パラメータ・テーブル１８を更新する。更に、新たに推
定されたパラメータ・テーブル１８を参照して、上記し
た一連のプロセスすなわちステップ３４〜３８を予定数
回、例えば５回、繰り返してモデルのパラメータ推定を
終了する（ステップ３９）。

【００３８】入力音声の認識は、認識装置１６によって
図７に示す手順で行われる。まず、認識対象の単語音声
の入力ラベル列が切り換え装置１０から読み込まれる
（ステップ４０）。認識対象となる複数の候補単語が記
載されている認識対象単語発声辞書１３、フェノニック
異音ベースフォーム１７、更に、パラメータ・テーブル
１８を参照して、図８に示すような単語音声モデルを構
成し（ステップ４１）、フォワード計算によってその単
語音声モデルが上記入力ラベル列を出力する尤度を求め
る（ステップ４２）。なお、尤度を求めるには、ビター
ビのアルゴリズムを用いることも出来る。

【００３９】上記一連の処理を認識対象単語辞書１３に
記述されている全ての候補単語についてそれぞれ行い
（ステップ４３）、上記の処理を行った単語音声モデル
中で最も大きな尤度を与えたモデルに対応する候補単語
が認識結果として表示装置１９へ出力されて（ステップ
４４）、表示画面上に表示される。

【００４０】上記した実施例では、認識対象を単語単位
とし、音素単位の異音を考慮したフェノニックＨＭＭの
バイグラムによる音声モデルを用いた例を説明したが、
本発明はこれに限定されるものではなく、種々な態様を
とることができる。

【００４１】認識対象は、単語以外に、例えば、語句や
文としてもよく、要は、処理の１単位として用途等に応
じて任意に設定することができる。また、音声として変
形した音声変形候補(異音)の単位は、音素以外に、音節
やＣＶＣ等、認識対象の語を構成する部分でよく、種々
な条件に応じて任意に設定できる。また、ＨＭＭもフェ
ノニック型のもの以外に、例えばフォネテック型のもの
を用いることができる。また、ＨＭＭ間の連結をバイグ
ラムで制約する以外に、種々なＮグラム(Ｎは３以上の
整数)で制約するようにしてもよい。

【００４２】

【発明の効果】以上説明したように、この発明によれば
発声により生ずる種々の音声的な変形(例えば異音)をＨ
ＭＭのＮグラムで制約した組み合わせによって効率よく
表現した音声認識装置を実現することができる。

【００４３】また、この発明によれば、不特定話者の音
声認識の場合でも、各話者の発声の揺らぎは異音のＮグ
ラムの制約によって絞り込むことができるので、サブワ
ードＨＭＭを直列結合する方法のように、各ＨＭＭで全
ての話者の発声揺らぎを含むようなゆるいモデルとなる
ことはない。また、本発明に係る音声モデルによれば、
音声モデルが構成部分のＨＭＭで保持されるため、この
ＨＭＭを種々の音声モデルの構成にも用いることがで
き、単語単位で音声モデルを用意しておく方式に比べ
て、モデルのための記憶容量を大幅に低減することがで
きる。

【００４４】また、ＨＭＭの訓練とともに、Ｎグラムの
パラメータが訓練され効率のよい訓練を行うことが出来
る。また、フェノニックＨＭＭを用いた場合には、ラベ
ル単位でＨＭＭが訓練されることとなるため、種々な訓
練用音声によって訓練される機会が多く、訓練回数が少
なくても最適なパラメータの設定がなされる。

【００４５】

【図面の簡単な説明】

【図１】この発明の一実施例に係る音声認識装置を示す
ブロック図である。

【図２】音声に対するラベル付けを説明するフローチャ
ートである。

【図３】フェノニック・マルコフ・モデルを説明する概
念図である。

【図４】図４(ａ)は、フェノニック・マルコフ・モデル
の状態遷移確率を示すテーブルの図であり、図４(ｂ)
は、フェノニック・マルコフ・モデルのラベル出力確率
を示すテーブルの図であり、図４(ｃ)は、フェノニック
・マルコフ・モデル間のバイグラムによる生起確率を示
すテーブルの図である。

【図５】フェノニック異音ベースフォーム作成を説明す
るフローチャートである。

【図６】モデルのパラメータ推定を説明するフローチャ
ートである。

【図７】音声認識の動作を説明するフローチャートであ
る。

【図８】単語を表現する音声モデルの一例を示す概念図
である。

【符号の説明】

１．．．マイクロホン４．．．特徴抽出装置８．．．ラベル付け装置１３．．．認識対象単語発音辞書１４．．．フェノニック異音ベースフォーム作成装置１５．．．モデルのパラメータ推定装置１６．．．認識装置１７．．．フェノニック異音ベースフォームテーブル１８．．．パラメータ・テーブル１９．．．表示装置

Claims

【特許請求の範囲】

【請求項１】音声として入力された語のラベル列または
特徴ベクトル列を出力する尤度の高い音声モデルを特定
することにより、当該語を認識する音声認識に用いる音
声モデルにおいて、語を構成するサブワードが音声として変形した音声変形
候補毎に、ヒドウン・マルコフ・モデルを語中で先行す
る他のサブワードの音声変形候補とのＮグラム関係(Ｎ
は２以上の整数)を与えて保持し、音声認識を行う際に、認識対象の語に対応し、且つ、前
記Ｎグラム関係に基づいて音声変形候補の各ヒドウン・
マルコフ・モデルをサブワード間で並列に連結させて音
声モデルを構成することを特徴とする音声モデルの構成
方法。
【請求項２】ヒドウン・マルコフ・モデルは、フェノニ
ック型のヒドウン・マルコフ・モデルからなることを特
徴とする請求項１に記載の音声モデル構成方法。
【請求項３】ヒドウン・マルコフ・モデルは、当該ヒドウ
ン・マルコフ・モデルにおける状態遷移確率と、ラベル
列または特徴ベクトル列の出力確率と、音声変形候補間
のＮグラムの生起確率とをパラメータとしてテーブルに
保持されることを特徴とする請求項１又は２に記載の音
声モデル構成方法。
【請求項４】音声として入力された語を特徴解析して、
当該語に対応するラベル列または特徴ベクトル列を得る
手段と、語を構成するサブワードの音声として変形した音声変形
候補毎のヒドウン・マルコフ・モデルを保持する手段
と、認識対象となる複数の候補語を保持する辞書手段と、候補語に対応して、音声変形候補毎の各ヒドウン・マル
コフ・モデル列をサブワード間で並列に連結させて音声
モデルを構成する手段と、各候補語について構成された音声モデルが音声入力され
た前記語のラベル列または特徴ベクトル列を出力する確
率を求め、最も高い確率の音声モデルに対応する候補語
を認識結果として出力する手段と、を備えたことを特徴とする音声認識装置。
【請求項５】音声として入力された語を特徴解析して、
当該語に対応するラベル列または特徴ベクトル列を得る
手段と、フェノニック型ヒドウン・マルコフ・モデルを保持する
手段と、語を構成するサブワードの音声として変形した音声変形
候補毎のラベル列を保持する手段と、認識対象となる複数の候補語を保持する辞書手段と、候補語に対応して音声変形候補毎にフェノニック型ヒド
ウン・マルコフ・モデルをあてはめ、これら音声変形候
補毎の各モデルをサブワード間で並列に連結させて音声
モデルを構成する手段と、各候補語について構成された音声モデルが音声入力され
た前記語のラベル列または特徴ベクトル列を出力する確
率を求め、最も高い確率の音声モデルに対応する候補語
を認識結果として出力する手段と、を備えたことを特徴とする音声認識装置。
【請求項６】音声として入力された語を特徴解析して、
当該語に対応するラベル列または特徴ベクトル列を得る
手段と、語を構成するサブワードの音声として変形した音声変形
候補毎に、ヒドウン・マルコフ・モデルを語中の先行す
る他のサブワードの音声変形候補とのＮグラム関係(Ｎ
は２以上の整数)を与えて保持する手段と、認識対象となる複数の候補語を保持する辞書手段と、候補語に対応し、且つ、前記Ｎグラム関係に基づいて音
声変形候補毎の各ヒドウン・マルコフ・モデルをサブワ
ード間で並列に連結させて音声モデルを構成する手段
と、各候補語について構成された音声モデルが音声入力され
た前記語のラベル列または特徴ベクトル列を出力する確
率を求め、最も高い確率の音声モデルに対応する候補語
を認識結果として出力する手段と、を備えたことを特徴とする音声認識装置。
【請求項７】音声として入力された語を特徴解析して、
当該語に対応するラベル列または特徴ベクトル列を得る
手段と、語を構成するサブワードの音声として変形した音声変形
候補毎に、フェノニック型ヒドウン・マルコフ・モデル
を語中の先行する他のサブワードの音声変形候補とのＮ
グラム関係(Ｎは２以上の整数)を与えて保持する手段
と、認識対象となる複数の候補語を保持する辞書手段と、候補語に対応し、且つ、前記Ｎグラム関係に基づいて音
声変形候補毎にヒドウン・マルコフ・モデルをあては
め、これら音声変形候補毎の各ヒドウン・マルコフ・モ
デルをサブワード間で並列に連結させて音声モデルを構
成する手段と、各候補語について構成された音声モデルが音声入力され
た前記語のラベル列または特徴ベクトル列を出力する確
率を求め、最も高い確率の音声モデルに対応する候補語
を認識結果として出力する手段と、を備えたことを特徴とする音声認識装置。
【請求項８】語を構成するサブワードの音声として変形
した音声変形候補毎に、フェノニック型のヒドウン・マ
ルコフ・モデルを語中の先行する他のサブワードの音声
変形候補とのＮグラム関係(Ｎは２以上の整数)を与えて
保持し、語を構成するサブワードの音声として変形した音声変形
候補毎のラベル列を保持し、認識対象となる複数の候補語を保持した後、音声として入力された語を特徴解析して、当該語に対応
するラベル列または特徴ベクトル列を得るステップと、候補語に対応し、且つ、前記Ｎグラム関係に基づいて音
声変形候補毎にフェノニック型のヒドウン・マルコフ・
モデルをあてはめるステップと、これら音声変形候補毎の各フェノニック型のヒドウン・
マルコフ・モデルをサブワード間で並列に連結させて音
声モデルを構成するステップと、各候補語について構成された音声モデルが音声入力され
た前記語のラベル列または特徴ベクトル列を出力する確
率を求め、最も高い確率の音声モデルに対応する候補語
を認識結果として出力するステップと、を備えたことを特徴とする音声認識方法。
【請求項９】音声モデルのパラメータを、訓練用の語の
音声入力を特徴解析することにより得られたラベル列ま
たは特徴ベクトル列を出力する尤度を高めるように変更
する音声モデルの訓練方法において、語を構成するサブワードの音声として変形した音声変形
候補毎に、語中で先行するサブワードの音声変形候補と
のＮグラム関係(Ｎは２以上の整数)をもってテーブルに
保持されている各ヒドウン・マルコフ・モデルを、訓練
用の語に対応し、且つ、前記Ｎグラム関係に基づいてサ
ブワード間で並列に連結させて音声モデルを構成し、訓練用の語の音声入力のラベル列または特徴ベクトル列
に対応したこの音声モデルのラベル列または特徴ベクト
ル列の出力尤度を高めるように、当該音声モデルを構成
するヒドウン・マルコフ・モデルにおける状態遷移確率
と、ラベル列または特徴ベクトル列の出力確率と、音声
変形候補間のＮグラムの生起確率とを求め、求められた上記各確率を新たなヒドウン・マルコフ・モ
デルのパラメータとして前記テーブルに保持することを
特徴とする音声モデルの訓練方法。
【請求項１０】ヒドウン・マルコフ・モデルは、フェノ
ニック型のヒドウン・マルコフ・モデルからなることを
特徴とする請求項８に記載の音声モデルの訓練方法。