JPH1097276A

JPH1097276A - 音声認識方法及び装置並びに記憶媒体

Info

Publication number: JPH1097276A
Application number: JP8249972A
Authority: JP
Inventors: Yasuhiro Komori; 康弘小森; Masaaki Yamada; 雅章山田; Tetsuo Kosaka; 哲夫小坂
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-09-20
Filing date: 1996-09-20
Publication date: 1998-04-14
Also published as: DE69726235D1; EP0831456A2; US6108628A; EP0831456A3; DE69726235T2; EP0831456B1

Abstract

(57)【要約】【課題】話者モデルを利用した高速でかつ高認識率の
音声認識処理を実現する。【解決手段】入力音声を音響処理したものを、不特定
話者のモデルで粗い出力確率を計算し（２０３−ａ）、
必要部分についてのみ、話者モデルで詳細な出力確率を
計算する（２０３−ｂ）ことによって、高認識率の認識
処理を高速で実現する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識方法及び
装置並びに記憶媒体に関し、特にモデルを利用して入力
音声を認識する音声認識方法及び装置並びに記憶媒体に
関するものである。

【０００２】

【従来の技術】従来の音声認識技術では、複数の話者ク
ラスモデルを用いるものはほとんどなく、また、複数の
話者クラスモデルを用いる場合でも男女性の性別モデル
を用い、認識を行なう前に事前にどのモデルを使用する
か選択する方法をとっており、不特定話者モデルを男性
モデル、女性モデルを同時に認識時に用いる方法はな
い。ましてや、その方法を用いた高速な処理方法は全く
存在しなかった。

【０００３】

【発明が解決しようとする課題】音声認識のモデル作成
において、ＨＭＭを音素環境方向に詳細化することによ
り高い認識性能が得られることが一般に知られている。
また、性別で代表される話者クラス方向の詳細化でも高
い認識性能が得られることが分かりつつある。しかし、
音素環境方法の詳細化においては、認識処理の増加はお
もにＨＭＭの出力確率計算が増加したのに対し、話者ク
ラス方向の詳細化では出力確率計算も言語探索も増加す
る問題が生じる。音声認識においては高い認識率ととも
に、実時処理は達成しなければならない非常に重要な要
素である。したがって、音声認識の認識率を向上しつ
つ、実時処理を実現しなければならない。このため、話
者クラスモデルを用いた高速な処理方法を実現する必要
がある。

【０００４】

【課題を解決するための手段】上記従来の課題を解決す
るために、本発明は、入力音声を分析し、不特定話者モ
デルと、複数の話者クラスごとにクラスタリングされた
複数の話者モデルの両モデルと前記入力音声の分析結果
の出力確率を求め、前記求めた出力確率に基づいて前記
入力音声の認識結果を決定する音声認識方法及び装置並
びに記憶媒体を提供する。

【０００５】上記従来の課題を解決するために、本発明
は、入力音声を分析し、前記入力音声の分析結果と不特
定話者モデルの出力確率を計算し、前記計算結果により
判断される部分について、前記入力音声の分析結果と話
者ごとに分類された話者モデルの出力確率を詳細に再計
算し、前記不特定話者モデルの出力確率計算結果及び前
記再計算された話者モデルの出力確率計算結果にしたが
って前記入力音声の認識結果を決定する音声認識方法及
び装置並びに記憶媒体を提供する。

【０００６】上記従来の課題を解決するために、本発明
は好ましくは、前記話者クラスは、階層構造で作成し、
かつ各話者が特定の階層において複数の話者クラスに属
するか、或は一つの話者クラスに属する状態で作成す
る。

【０００７】上記従来の課題を解決するために、本発明
は好ましくは、入力した音声より音韻性ごとのモデルを
作成し、前記作成されたモデル間距離により前記入力し
た音声の属する話者クラスを決定し、前記決定された話
者クラスとして前記入力した音声のモデルを記憶する。

【０００８】上記従来の課題を解決するために、本発明
は好ましくは、前記作成する音韻性ごとのモデルは、音
素ＨＭＭとする。

【０００９】上記従来の課題を解決するために、本発明
は好ましくは、前記音韻性ごとのモデルを音素モデルと
し、前記モデル間距離を計算する音素モデルの対応する
状態同士のモデル間距離の総和を前記話者クラスを決定
するためのモデル間距離とする。

【００１０】上記従来の課題を解決するために、本発明
は好ましくは、前記モデル間距離として、Ｂｈａｔｔａ
ｃｈａｒｙｙａ距離を用いる。

【００１１】上記従来の課題を解決するために、本発明
は好ましくは、前記モデル間距離として、Ｋｕｌｌｂａ
ｃｋ情報量を用いる。

【００１２】上記従来の課題を解決するために、本発明
は好ましくは、前記モデル間距離として、Ｅｕｃｌｉｄ
距離を用いる。

【００１３】上記従来の課題を解決するために、本発明
は好ましくは、前記出力確率の計算結果及び、予め定め
られた言語的制約による判断により言語探索を行い、前
記言語探索の結果を前記入力音声の認識結果として出力
する。

【００１４】上記従来の課題を解決するために、本発明
は好ましくは、前記出力確率計算及び言語探索におい
て、共通に計算する部分の出力確率計算を前方向の探索
で行い、前記共通に計算する部分以外の出力確率計算を
後ろ方向の探索で行うことにより前記入力音声の認識結
果を決定する。

【００１５】上記従来の課題を解決するために、本発明
は好ましくは、前記複数の話者クラスモデルの言語探索
において、複数の話者クラスの各時刻ごとに求めた出力
確率をもとに所定の出力確率を求め、前記求めた所定の
出力確率に基づいて共通な言語探索を行う。

【００１６】上記従来の課題を解決するために、本発明
は好ましくは、前記所定の出力確率を、不特定話者の出
力確率とする。

【００１７】上記従来の課題を解決するために、本発明
は好ましくは、前記所定の出力確率を、話者クラスの出
力確率の中の最大値とする。

【００１８】上記従来の課題を解決するために、本発明
は好ましくは、前記不特定話者モデルは、前記話者モデ
ルの上位モデルとする。

【００１９】上記従来の課題を解決するために、本発明
は好ましくは、前記出力確率の詳細な再計算は、すべて
の話者モデルに対して行う。

【００２０】上記従来の課題を解決するために、本発明
は好ましくは、前記入力音声の分析結果と不特定話者モ
デルの出力確率の計算は、スカラ量子化とＨＭＭの次元
独立高速出力確率計算方を用いる。

【００２１】

【発明の実施の形態】図１は本発明の実施の形態におけ
る装置の機能的な一構成図を示す。

【００２２】１０１はマイクやＡ／Ｄを含む音声入力部
であり、これより入力話者の音声を入力する。１０２は
音声パラメータを求める音響分析部であり、１０３は共
通の粗い出力確率を計算する出力確率計算部および話者
クラスごとの詳細な出力確率を計算する出力確率計算部
であり、１０４は話者クラスモデル（ＨＭＭ）であり、
１０５は共通の粗い言語処理を行なう言語探索部および
話者クラスごとの詳細な言語処理を行なう言語探索部で
あり、１０６は言語処理に用いる文法・辞書であり、１
０７は結果を出力する表示部である。

【００２３】図１は本発明の実施の形態における音声認
識装置の機能構成図を示したものであるが、図８はこの
音声認識装置のハード構成を示し、図１の各構成は、実
際にはこの図８に示す各構成により実現される。

【００２４】即ち、音声入力装置１０１は音声入力部８
４により実現される。音響処理部１０２、出力確率計算
部１０３、言語探索部１０５は各々ＲＯＭ８１或いはＲ
ＡＭ８２に格納された制御プログラムに従ったＣＰＵ８
３の制御のもと実行される。

【００２５】話者クラスＨＭＭ１０４、文法・辞書１０
６はＲＯＭ８１或いはＲＡＭ８２に格納される。尚、Ｒ
ＡＭ８２に格納される制御プログラム及び各ＨＭＭや辞
書・処理中に必要とするパラメータ等は、インターフェ
イス（Ｉ／Ｆ）８５を介してＣＤ−ＲＯＭ８４から、或
いは公衆回線を介して他の端末から（図示せず）インス
トールするものであっても良い。

【００２６】表示部１０７は、ＣＲＴや液晶表示器等の
表示器８７により実現され、また更に各種指示はキーボ
ードやマウス、タブレット等の入力手段８８により実現
される。

【００２７】音声認識装置は、上記の要素により構成さ
れ図２に示す流れに従って動作する。２０１（１０１に
対応）の音声入力部で切り出された音声は、２０２（１
０２に対応）の音響処理部にてフレーム毎に音声パラメ
ータに分析され、２０３（１０３に対応）の出力確率計
算部において、２０４（１０４に対応）のＨＭＭを用い
て、主力確率の計算を行なう。この２０４（１０４に対
応）のＨＭＭは複数の話者ごとにクラスタリングされた
話者クラスモデルが格納されている。２０３の出力確率
計算の時、まず共通の粗い出力確率を計算する出力確率
計算部で粗い出力確率を計算を行ない（２０３−ａ）、
その結果により認識結果に寄与しそうな状態の出力確率
を話者クラスごとの詳細な出力確率を出力確率計算部に
て再計算する（２０３−ｂ）。ここで、共通の出力確率
をこれらの出力確率を用いて決定し、２０５（１０５に
対応）の言語探索部にて、２０６（１０６に対応）の文
法・辞書および先ほど求めた共通の出力確率を用いて、
共通の言語探索を行ない認識候補を決定する（２０５−
ａ）。さらに、２０５（１０５に対応）の言語探索部で
は、これら認識候補に対して、話者クラスごとの詳細な
出力確率を用いて、話者クラスごとの詳細な言語探索を
行ない認識結果とその尤度を求める（２０５−ｂ）。こ
の結果を２０７（１０７に対応）に認識結果として出力
する。

【００２８】〔話者クラスを考慮した高精度ＨＭＭの作
成方法〕話者クラスの作成方法および話者クラスＨＭＭ
の作成方法について記す。

【００２９】Ｉ．話者クラスの作成方法以下に、話者クラスの作成方法を示す。話者クラスは、
当然のことながら音響的に類似した特徴を有する話者ど
うしをクラスタリングする。この話者性の音響的特徴の
類似度にはいろいろな方法が考えられる。例えば、１）各話者の音響特徴を１つの分布として考え、話者ご
との分布を作成し、その分布間の距離を用いて話者間の
類似度を測る方法。

【００３０】２）不特定話者空間を複数の代表点や代表
分布で表現し、話者ごとの不特定話空間代表点の偏りを
もとめ、この偏りを類似度として話者間の類似度を測る
方法。

【００３１】３）話者ごとに音韻性を考慮した部分空間
を作成し、音韻性を考慮した部分空間ごとの対応をとっ
た上で、それらの類似度をもとめ、その部分空間の類似
度の総和をもって話者間の類似度を測る方法。などが考
えられる。

【００３２】１）の方法は、話者ごとに全音声空間を用
いて１状態１分布の連続ＨＭＭを学習し、話者ごとのＨ
ＭＭ間の距離を求めることで話者間の類似度を測ること
で実現できる。しかし、本方法は話者ごとの全音声空間
を１分布で表すため話者ごとの分布の平均がＣｅｐｓｔ
ｒｕｍＭｅａｎとなり、あまり話者の違いが現れない
可能性がある。したがって、好ましい方法とは考えられ
ない。

【００３３】２）の方法は、不特定話者のｃｏｄｅｂｏ
ｏｋ（例えばｃｏｄｅｗｏｒｄｓｉｚｅ１０２４）を
作成（つまり、１状態１０２４ｃｏｄｅｗｏｒｄの離散
分布ＨＭＭを学習）し、話者ごとにその出現確率をもと
め、その出現確率の偏りによって話者間の類似度を測る
ことで実現できる。本方法は、音声空間を部分空間にわ
けて考えている点では、１）の方法より好ましいと考え
る。しかし、音韻性を考慮していないため、ある話者の
ある音韻と別の話者の他の音韻間の類似度をもとに話者
間の類似度を測っている可能性があり、この点ではあま
り好ましい方法ではないと考える。

【００３４】３）の方法は、話者ごとに音韻を考慮した
モデルを作成し、対応しているモデル間の類似度の総和
で、話者間の類似度を測ることにより実現できる。たと
えば、３状態１分布の音素ＨＭＭを各話者ごとに作成
し、話者間の類似度は各話者の対応する音素の対応する
状態間の類似度をもとめ、それらの総和をもとに話者間
の類似度を測る。本方法は、各話者の全音声空間を考慮
し、音素および状態で表した音素の部分空間の対応をも
取りつつ、話者間の類似度を測ることになり、音韻特徴
を考慮しながら、話者ごとの詳細な音響特徴の違いを反
映した話者間の類似度を測ることができる。音素モデル
をさらに詳細な音素環境依存型ＨＭＭに置きかえれば、
より詳細な話者間の類似度を測ることも可能となる。

【００３５】以上より、方法３）により話者間の類似度
を求める。また、この類似度をもとに話者クラスを作成
した。以下、話者クラス作成のアルゴリズムを記す。

【００３６】ＩＩ．話者クラス作成のアルゴリズム１）まず、話者ごとに３状態１分布の音素ＨＭＭを作成
する。

【００３７】無音を除いた音素が２４音素であるとする
と、各話者は２４音素×３状態＝７２の部分空間で表さ
れることになる。また、話者が２０４人であると４，８
９６個のＨＭＭが作成され、総分布数はその状態数倍
（３）で１４，６８８個となる。

【００３８】２）作成された話者ごとの音素ＨＭＭを用
いて話者間の類似度を測る。

【００３９】２名の話者Ｓ⁽¹⁾ ，Ｓ⁽²⁾ の音素ＨＭＭ
（２４種）の対応する音素ｍの対応する状態ｎをそれぞ
れφ_p ，φ_q とした時、これら状態間の類似度を距離ｄ
（φ_p，φ_q ）で表す。φ_p ，φ_q は、次の式（１）で
表される状態を示す。

【００４０】

【外１】各状態は１分布で表されているため、この距離尺度ｄ
（φ_p ，φ_q ）にＢｈａｔｔａｃｈａｒｙｙａ距離を用
いれば、状態間の距離は次の式（２）で計算される。

【００４１】

【外２】 μ_i ，Σ_i はそれぞれ平均値と分散である。

【００４２】話者間の対応する全音素の全状態間の距離
を上式で求め、その総和を話者間の距離Ｄ（Ｓ⁽¹⁾ ，Ｓ
⁽²⁾ ）とし、これをもって話者間の類似度とする。Ｄ
（Ｓ⁽¹⁾ ，Ｓ⁽²⁾ ）は次の式（３）より求める。

【００４３】

【外３】

【００４４】ここで、ＭはＨＭＭの種類数、ＮはＨＭＭ
あたりの状態数を表す。

【００４５】全２話者間の類似度を上述の方法で求め
る。

【００４６】３）全話者間の類似度を用いて、ＬＢＧア
ルゴリズムを用いて話者クラスタリングを行なう。ＬＢ
Ｇアルゴリズムは手順で実行される。

【００４７】１．全話者に対して類似度の総和が最小と
なる中心話者を用いる。中心話者とは、考えているクラ
ス内で類似度の総和が最小となる話者を指す。

【００４８】２．考えているクラス内で、中心話者より
最も遠い話者Ｓ_a を求める。

【００４９】３．考えているクラス内で、その遠い話者
Ｓ_a より最も遠い話者Ｓ_b を求める。

【００５０】４．考えているクラス内の話者を、話者Ｓ
_a 、話者Ｓ_b のいずれか近い方に全話者を分け、２つの
話者クラスを作成する。

【００５１】５．分かれた２話者クラスごとに中心話者
Ｓ_a １，Ｓ_b １を更新する。

【００５２】６．求まっている全ての中心話者（中心話
者数は、現在考えている話者クラス数と一致）を用い、
全話者を最も近い中心話者割り当てることにより、再ク
ラスタリングを行なう。この６．の処理を中心話者の更
新される間継続する。中心話者が更新されなければ、
７．に進む。話者クラスが所望の数ならば終了する。

【００５３】７．全ての話者クラスのうち最も中心話者
に対する類似度の総和が大きいクラスを求め、そのクラ
スについて２．，３．，４．，５．，６．の処理を行な
う。

【００５４】以上の方法により話者クラスを作成する。
作成した話者クラスはこのまま用いても良いのである
が、このように作成すると話者クラスによって、その話
者性の広がり方が話者クラスによって異なってくる。も
し、話者クラスの広がり方を同程度にしたい場合には、
最も広がっている（中心話者との類似度の総和が最大
の）話者クラスの広がり具合（中心話者との類似度の総
和）が同程度となるまで、各話者クラスごとに近い話者
を順次取り込む方法も考えられる。このように話者クラ
スを決定すれば、話者クラスの広がりも均一になり、境
界話者に関しては複数の話者クラスに属することにな
り、認識時における話者クラスの決定の誤りが大きく影
響することも避けられる。

【００５５】ＩＩＩ．話者クラスＨＭＭの作成方法作成された話者クラスごとに属する話者の音声データを
用いて、通常のＥＭ−ａｌｇｏｒｉｔｈｍを用い、音素
環境依存型ＨＭＭなどを作成する。例えば、４つの話者
クラスで、３状態１２分布の右音素環境依存型ＨＭＭ
（２３８種）を作成する。

【００５６】〔話者クラスＨＭＭを用いた高速な音声認
識方法〕本節では、話者クラスＨＭＭを用いた高速な音
声認識方法について記す。

【００５７】まずは、従来法による話者クラスＨＭＭを
用いた音声認識方法を図３に示す。基本的には、話者ク
ラスＨＭＭの種類（Ｎ）分だけ音声認識処理を並列にに
行なうことになるため、話者クラスが１つである不特定
話者クラスＨＭＭを用いた時のＮ倍の音声処理がかか
る。つまり、出力確率計算も言語探索もＮ倍になる。も
し、本計算量が必要であるとなると、実際の音声認識に
話者クラスＨＭＭを用いることは、現実問題として、音
声認識には実時間性が重要であるため、非常に高速な計
算機か並列計算機等を必要とすることになり、結果的に
は高価なものにつき、実用化は難しくなる。

【００５８】しかし、ここでは以下の方法により、上記
の計算量を大幅に軽減できる話者クラスＨＭＭを用いた
音声認識方法を提案する。提案する方法をこの方法を図
４に示す。提案する音声認識処理の特徴は、話者クラス
ＨＭＭの認識を行なう際にも、必ず不特定話者ＨＭＭを
用いることを特徴としている。不特定話者ＨＭＭは全て
の話者クラスＨＭＭの上位話者クラスに当たる。不特定
話者ＨＭＭの結果を各話者クラスＨＭＭの推定値として
用いることにより、出力確率の計算や言語探索の効率化
を測ることを狙っている。

【００５９】提案する話者クラスＨＭＭを用いた高速な
音声認識方法は以下の手順で動作する。

【００６０】１）音響分析された結果に対して、不特定
話者ＨＭＭ（ＳＩＨＭＭ）の状態出力確率の推定値を
スカラ量子化と次元独立出力確率計算を用いた高速出力
確率演算法ＩＤＭＭ＋ＳＱにより計算する。

【００６１】２）ＩＤＭＭ＋ＳＱで推定された不特定話
者ＨＭＭの出力確率の上位は認識結果に寄与する状態で
あると仮定し、不特定話者ＨＭＭおよび各話者クラスＨ
ＭＭを用いて、各話者クラスＨＭＭの状態出力確率の再
計算を行ない、精密な出力確率を求める。このとき、不
特定話者ＨＭＭは話者クラスＨＭＭの上位クラスである
ため、話者クラスＨＭＭの出力確率が高そうな状態で
は、不特定話者ＨＭＭにおいても比較的高い出力確率が
得られると考えられる。したがって、ＩＤＭＭ＋ＳＱで
推定された不特定話者ＨＭＭの出力確率を各話者クラス
ＨＭＭの状態出力確率に用いても良い。

【００６２】３）続いて、不特定話者ＨＭＭの全出力確
率を用いて、前方向の言語探索（ＦｏｒｗａｒｄＳｅ
ａｒｃｈ）を行なう。この際、他の話者クラスの言語探
索は行なわない。本音声認識方法では、Ａｓｔａｒ探索
に基づくｔｒｅｅ−ｔｒｅｌｌｉｓｂａｓｅｄｓｅａ
ｒｃｈにより後方向の言語探索（ＢａｃｋｗａｒｄＳｅ
ａｒｃｈ）により最終的な認識結果を求める。このＡｓ
ｔａｒ探索のｈｕｒｉｓｔｉｃｃｏｓｔには、不特定
話者のｆｏｒｗａｒｄｓｃｏｒｅを用いるため、話者
クラスごとのＦｏｒｗａｒｄＶｉｔｅｒｂｉＳｅａ
ｒｃｈは必要としない。この場合に、ｈｕｒｉｓｔｉｃ
ｃｏｓｔは、厳密な意味でのＡｓｔａｒ探索の条件を
満たしているわけではないが、不特定話者ＨＭＭは話者
クラスＨＭＭの上位クラスであるため、話者クラスＨＭ
Ｍのｈｕｒｉｓｔｉｃｃｏｓｔの推定値としては、比
較的良い推定値となっているので、実際問題としては、
最終のＮ−Ｂｅｓｔの結果をソートし直せばほとんど問
題にならない。また、複数の話者クラス間の結果を用い
ているため、いずれにしても最終のＮ−Ｂｅｓｔの結果
をソートし直す必要がある。

【００６３】４）最後に、各話者クラスごとに後方向言
語探索（ＢａｃｋｗａｒｄＳｅａｒｃｈ）を行ない最
終的な認識結果を求める。このときに、上述したように
各話者クラスのｈｕｒｉｓｔｉｃｃｏｓｔに不特定話
者のＦｏｒｗａｒｄＳｅａｒｃｈの結果を用いる。後
向きＶｉｔｅｒｂｉ探索には、２）で推定した話者クラ
スごとの出力確率を用いる。

【００６４】５）各話者クラスごとに求めた認識結果を
ソートし直し、最大尤度の結果を第一位の認識結果とす
る。

【００６５】本方法により、認識結果に寄与しそうなほ
とんどの計算は、全て各話者クラスごとの情報に基づい
て計算したことになる。

【００６６】従来法と提案法による話者クラスＨＭＭの
用いた音声認識処理時間の模式図を図５に示す。図５で
は、横軸に時間軸（処理時間）をとっている。一番上は
不特定話者１話者クラスの認識処理時間を示し、二番目
には、不特定話者１話者クラスをＩＤＭＭ＋ＳＱにより
高速化した場合の認識処理時間を示した。三番目には、
ＩＤＭＭ＋ＳＱを用い、３話者クラスの話者クラスＨＭ
Ｍを単に並列に用いた従来法の認識処理時間を示し、一
番下には、提案する話者クラスＨＭＭを用いた高速な音
声認識方法の３話者クラスの認識処理時間を示した、出
力確率計算（Ｂｊｏｔ）や言語探索（Ｆｏｒｗａｒｄ／
ＢａｃｋｗａｒｄＳｅａｒｃｈ）の処理時間は認識対
象であるタスクやＨＭＭの性能にも依存しその長さは異
なるが、我々が扱っている範囲では比較的妥当な長さを
表していると考え良い。但し、ＢａｃｋｗａｒｄＳｅ
ａｒｃｈの処理時間（図ではかなり大きく表されてい
る）は、実際には０．１秒もかからない。

【００６７】結局、話者クラスＨＭＭを単に並列に計算
する場合と比べて、ＩＤＭＭ＋ＳＱの計算とＦｏｒｗａ
ｒｄＶｉｔｅｒｂｉＳｅａｒｃｈのそれぞれを話者
クラス数（Ｎ）分だけ計算していたのが、それぞれ不特
定話者ＨＭＭのＩＤＭＭ＋ＳＱとＦｏｒｗａｒｄＳｅ
ａｒｃｈの各１回となり、Ｎが大きくなればなるほど、
提案方法のメリットも大きくなってくる。また、話者ク
ラスの数（Ｎ）に比例して増える各話者クラスごとの出
力確率再計算の計算とＢａｃｋｗａｒｄＳｅａｒｃｈ
の計算量は、全体の中で少ないため、本方法は全体とし
て非常に高速な処理となる。

【００６８】この結果、高速計算機や並列計算機などを
用いずとも、実時間性を実現できる可能性が高まり、実
用化を可能性とする。

【００６９】〔話者クラスＨＭＭを用いた音声認識実験
とその結果〕多数話者クラスを用いた実験を行なった。
その結果を図７に示す。階層的な話者クラス：ａ）不特
定話者クラス（ｇ１）、ｂ男女性の話者クラス（ｇ
２）、ｃ）男女性各４クラスの計８話者クラス（ｇ８）
を作成し、これらを用いて認識実験を行なった。これら
ａ〜ｃの話者クラスごとに、３状態６分布の右音素環境
依存型ＨＭＭ（２３８種）を作成し、男女性２０名が発
声した単語（電話音声）を用いて５２０単語の認識実験
を行なった。

【００７０】話者クラスを用いた効果が図７に示される
実験結果より示された。この結果では、話者クラスに不
特定話者クラスを共に用いた方が最大改悪話者（％）が
押さえられ、最大改善話者（％）および平均改善（％）
も向上した。

【００７１】先の説明では、話者クラスに不特定話者と
男女性話者クラスを用いた例について説明したが、さら
に多数の話者クラスを用いても一向に問題はない。

【００７２】先の説明では、共通の出力確率計算に不特
定話者のものを用いた例について説明したが、話者クラ
スの出力確率値から一つ決定できる手段があればそれを
用いても一向に問題はない。例えば、話者クラスＨＭＭ
の出力確率の最大値を用いるようにしても良い。

【００７３】先の説明では、粗い出力率の計算にＩＤＭ
Ｍ＋ＳＱを用いた例について説明したが、粗い出力確率
の計算に分布数の少ないＨＭＭを用い、詳細な出力確率
の計算には分布数の多いＨＭＭを用いる方法や、粗い出
力確率の計算に音素ＨＭＭを用い、詳細な出力確率の計
算に音素環境依存型ＨＭＭを用いる方法でも一向に問題
ない。

【００７４】先の説明では、話者クラスを階層ごとに２
倍の話者クラスとする例について説明したが如何ように
増やしても一向に問題ない。

【００７５】先の説明では、話者クラス内の話者が重な
らないようにした例について説明したが、重なるように
クラスタリングしても一向に問題はない。

【００７６】

【発明の効果】本発明を用いることにより高速かつ高い
認識率を示す音声認識を実現する。

【図面の簡単な説明】

【図１】本発明による実施の形態における機能構成図。

【図２】本発明による実施例の形態の処理の流れ図。

【図３】本発明の話者クラスモデルを用いた従来処理の
図。

【図４】本発明の話者クラスモデルを用いた高速処理の
図。

【図５】本発明の処理時間の比較の図。

【図６】発明の階層構造を持つ話者クラスの図。

【図７】話者クラスを用いた電話音声の認識結果を示す
図。

【図８】発明の実施の形態における装置のハード構成例
示図。

Claims

【特許請求の範囲】

【請求項１】入力音声を分析し、不特定話者モデルと、複数の話者クラスごとにクラスタ
リングされた複数の話者モデルの両モデルと前記入力音
声の分析結果の出力確率を求め、前記求めた出力確率に基づいて前記入力音声の認識結果
を決定することを特徴とする音声認識方法。
【請求項２】入力音声を分析し、前記入力音声の分析結果と不特定話者モデルの出力確率
を計算し、前記計算結果により判断される部分について、前記入力
音声の分析結果と話者ごとに分類された話者モデルの出
力確率を詳細に再計算し、前記不特定話者モデルの出力確率計算結果及び前記再計
算された話者モデルの出力確率計算結果にしたがって前
記入力音声の認識結果を決定することを特徴とする音声
認識方法。
【請求項３】前記話者クラスは、階層構造で作成し、
かつ各話者が特定の階層において複数の話者クラスに属
するか、或は一つの話者クラスに属する状態で作成する
ことを特徴とする請求項２に記載の音声認識方法。
【請求項４】入力した音声より音韻性ごとのモデルを
作成し、前記作成されたモデル間距離により前記入力した音声の
属する話者クラスを決定し、前記作成された話者クラスとして前記入力した音声のモ
デルを記憶することを特徴とする請求項２に記載の音声
認識方法。
【請求項５】前記作成する音韻性ごとのモデルは、音
素ＨＭＭとすることを特徴とする請求項４に記載の音声
認識方法。
【請求項６】前記音韻性ごとのモデルを音素モデルと
し、前記モデル間距離を計算する音素モデルの対応する状態
同士のモデル間距離の総和を前記話者クラスを決定する
ためのモデル間距離とすることを特徴とする請求項４に
記載の音声認識方法。
【請求項７】前記モデル間距離として、Ｂｈａｔｔａ
ｃｈａｒｙｙａ距離を用いることを特徴とする請求項４
に記載の音声認識方法。
【請求項８】前記モデル間距離として、Ｋｕｌｌｂａ
ｃｋ情報量を用いることを特徴とする請求項４に記載の
音声認識方法。
【請求項９】前記モデル間距離として、Ｅｕｃｌｉｄ
距離を用いることを特徴とする請求項４に記載の音声認
識方法。
【請求項１０】前記出力確率の計算結果及び、予め定
められた言語的制約による判断により言語探索を行い、前記言語探索の結果を前記入力音声の認識結果として出
力することを特徴とする請求項２に記載の音声認識方
法。
【請求項１１】前記出力確率計算及び言語探索におい
て、共通に計算する部分の出力確率計算を前方向の探索で行
い、前記共通に計算する部分以外の出力確率計算を後ろ方向
の探索で行うことにより前記入力音声の認識結果を決定
することを特徴とする請求項１０に記載の音声認識方
法。
【請求項１２】前記複数の話者クラスモデルの言語探
索において、複数の話者クラスの各時刻ごとに求めた出
力確率をもとに所定の出力確率を求め、前記求めた所定の出力確率に基づいて共通な言語探索を
行うことを特徴とする請求項１０に記載の音声認識方
法。
【請求項１３】前記所定の出力確率を、不特定話者の
出力確率とすることを特徴とする請求項１２に記載の音
声認識方法。
【請求項１４】前記所定の出力確率を、話者クラスの
出力確率の中の最大値とすることを特徴とする請求項１
２に記載の音声認識方法。
【請求項１５】前記不特定話者モデルは、前記話者モ
デルの上位モデルとすることを特徴とする請求項２に記
載の音声認識方法。
【請求項１６】前記出力確率の詳細な再計算は、すべ
ての話者モデルに対して行うことを特徴とする請求項２
に記載の音声認識方法。
【請求項１７】前記入力音声の分析結果と不特定話者
モデルの出力確率の計算は、スカラ量子化とＨＭＭの次
元独立高速出力確率計算方を用いることを特徴とする請
求項２に記載の音声認識方法。
【請求項１８】入力音声を分析する分析手段と、不特定話者モデルと、複数の話者クラスごとにクラスタ
リングされた複数の話者モデルの両モデルと前記入力音
声の分析結果の出力確率を導出する出力確率導出手段
と、前記求めた出力確率に基づいて前記入力音声の認識結果
を決定する認識結果決定手段とを有することを特徴とす
る音声認識装置。
【請求項１９】入力音声を分析する分析手段と、前記入力音声の分析結果と不特定話者モデルの出力確率
を計算する出力確率導出手段と、前記計算結果により判断される部分について、前記入力
音声の分析結果と話者ごとに分類された話者モデルの出
力確率を詳細に再計算する出力確率詳細導出手段と、前記不特定話者モデルの出力確率計算結果及び前記再計
算された話者モデルの出力確率計算結果にしたがって前
記入力音声の認識結果を決定する認識結果決定手段とを
有することを特徴とする音声認識装置。
【請求項２０】入力音声を分析し、不特定話者モデルと、複数の話者クラスごとにクラスタ
リングされた複数の話者モデルの両モデルと前記入力音
声の分析結果の出力確率を求め、前記求めた出力確率に基づいて前記入力音声の認識結果
を決定する為のプログラムを記憶した記憶媒体。
【請求項２１】入力音声を分析し、前記入力音声の分析結果と不特定話者モデルの出力確率
を計算し、前記計算結果により判断される部分について、前記入力
音声の分析結果と話者ごとに分類された話者モデルの出
力確率を詳細に再計算し、前記不特定話者モデルの出力確率計算結果及び前記再計
算された話者モデルの出力確率計算結果にしたがって前
記入力音声の認識結果を決定する為のプログラムを記憶
した記憶媒体。