JP2965537B2

JP2965537B2 - 話者クラスタリング処理装置及び音声認識装置

Info

Publication number: JP2965537B2
Application number: JP9339881A
Authority: JP
Inventors: 正樹内藤; リー・デン; 芳典匂坂
Original assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Current assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date: 1997-12-10
Filing date: 1997-12-10
Publication date: 1999-10-18
Anticipated expiration: 2017-12-10
Also published as: US5983178A; JPH11175090A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声波形データに
基づいて話者クラスタリングして複数のクラスタの隠れ
マルコフモデル（以下、ＨＭＭという。）を生成する話
者クラスタリング処理装置と、上記話者クラスタリング
処理装置によって生成された複数のクラスタのＨＭＭの
中から音声認識すべき話者に最適なＨＭＭを選択して音
声認識する音声認識装置とに関する。

【０００２】

【従来の技術】音声認識への男女別音響モデルの利用は
認識性能の向上を図る上で有効な手段である。しかし、
同性内においても、依然多くの異なる特徴を有した話者
が存在することから、さらに話者を細分化してモデル化
を行なうための話者クラスタリングの手法が提案されて
いる。例えば、特開平７−２６１７８５号公報において
は、木構造により表現される階層的な話者クラスタリン
グ手法と、木構造話者クラスタからの話者クラスタ選択
による高速な話者適応手法を提案しており、この手法は
話者適応を行う際の初期モデルとしても有効であること
が、例えば、特開平８−１１０７９２号公報において開
示されている。

【０００３】このような話者クラスタリング手法によ
り、効率の良い話者クラスタを得るためには、適切な話
者間距離を設定する必要がある。従来の話者クラスタリ
ングに関する研究においては、クラスタリングの際の話
者間の距離として、音響的な特徴量、特に特定話者ＨＭ
Ｍのような認識に用いる音響モデル間の距離が多く用ら
れてきた。

【０００４】

【発明が解決しようとする課題】しかしながら、これら
の従来技術のように、特定話者ＨＭＭのような認識に用
いる音響モデル間の距離を用いて話者クラスタリングす
る場合、より良い音声認識率を得るためには、大量の音
声波形データが必要であって大きな記憶容量のメモリを
必要とするとともに、話者クラスタリングするときの演
算量が非常に大きくなるという問題点があった。また、
比較的少量の音声波形データを用いて話者クラスタリン
グしたＨＭＭを用いて音声認識したときは、音声認識率
がいまだ低いという問題点があった。

【０００５】本発明の目的は以上の問題点を解決し、少
量の音声波形データを用いて話者クラスタリングしたＨ
ＭＭを用いて音声認識したときに、従来技術に比較して
より高い音声認識率を得ることができる話者クラスタリ
ング処理装置及び音声認識装置を提供することにある。

【０００６】

【課題を解決するための手段】本発明に係る請求項１記
載の話者クラスタリング処理装置は、複数Ｎ人の話者の
音声波形データを記憶する第１の記憶装置と、上記第１
の記憶装置に記憶された複数Ｎ人の話者の音声波形デー
タに基づいて、各話者の声道の解剖学的形状である声道
形状の特徴量を、所定の標準話者の声道モデルに基づい
て予め決められた声道形状パラメータとフォルマント周
波数との間の対応関係を参照して推定する第１の推定手
段と、上記第１の推定手段によって推定されたＮ人の声
道形状の特徴量に基づいて、Ｎ人の話者間相互の話者間
距離を計算し、計算された話者間距離に基づいて、所定
のクラスタリングアルゴリズムを用いて、Ｎ人の話者の
声道形状についてクラスタリングすることにより、所定
の複数Ｋ個のクラスタを生成し、生成されたＫ個のクラ
スタに属する話者の音声波形データに基づいて、所定の
学習アルゴリズムを用いて、所定の初期隠れマルコフモ
デルを学習することにより、複数Ｋ個のクラスタに対応
する複数Ｋ個の隠れマルコフモデルを生成するクラスタ
リング処理手段とを備えたことを特徴とする。

【０００７】また、請求項２記載の話者クラスタリング
処理装置は、請求項１記載の話者クラスタリング処理装
置において、上記声道形状の特徴量は、話者の声道の口
腔側の第１の長さと、その咽頭腔側の第２の長さとであ
ることを特徴とする。さらに、請求項３記載の話者クラ
スタリング処理装置は、請求項１記載の話者クラスタリ
ング処理装置において、上記声道形状の特徴量は、話者
の声道長であることを特徴とする。

【０００８】本発明に係る請求項４記載の音声認識装置
は、請求項１乃至３のうちの１つに記載のクラスタリン
グ処理装置によって生成された複数Ｋ個の隠れマルコフ
モデルを用いて、入力された発声音声を音声認識する音
声認識装置であって、請求項１記載のクラスタリング処
理手段によって生成された複数Ｋ個の隠れマルコフモデ
ルを記憶する第２の記憶装置と、上記第２の記憶装置に
記憶された複数Ｋ個の隠れマルコフモデルにそれぞれ属
する話者クラスタの声道形状の特徴量の情報を記憶する
第３の記憶装置と、音声認識すべき認識話者の発声音声
に基づいて、認識話者の声道形状の特徴量を、所定の標
準話者の声道モデルに基づいて予め決められた声道形状
パラメータとフォルマント周波数との間の対応関係を参
照して推定する第２の推定手段と、上記第２の推定手段
によって推定された認識話者の声道形状の特徴量と、上
記第３の記憶装置に記憶された話者クラスタの声道形状
の特徴量の情報とを比較することにより、認識話者の声
道形状の特徴量に最も近い話者クラスタの声道形状の特
徴量を有する少なくとも１つの隠れマルコフモデルを、
上記第２の記憶装置に記憶された複数Ｋ個の隠れマルコ
フモデルから選択する話者モデル選択手段と、上記話者
モデル選択手段によって選択された隠れマルコフモデル
を参照して、入力された認識話者の発声音声を音声認識
して、その音声認識結果を出力する音声認識手段とを備
えたことを特徴とする。

【０００９】また、本発明に係る請求項５記載の音声認
識装置は、請求項１乃至３のうちの１つに記載のクラス
タリング処理装置によって生成された複数Ｋ個の隠れマ
ルコフモデルを用いて、入力された発声音声を音声認識
する音声認識装置であって、請求項１記載のクラスタリ
ング処理手段によって生成された複数Ｋ個の隠れマルコ
フモデルを記憶する第２の記憶装置と、所定の不特定話
者の隠れマルコフモデルを参照して、入力された認識話
者の発声音声を音声認識する第１の音声認識手段と、上
記第１の音声認識手段による音声認識結果と、上記入力
された発声音声とに基づいて、上記第２の記憶装置に格
納された複数Ｋ個の隠れマルコフモデルのうち、最大の
尤度を有する最適な少なくとも１つの隠れマルコフモデ
ルを選択する話者モデル選択手段と、上記話者モデル選
択手段によって選択された隠れマルコフモデルを参照し
て、上記入力された発声音声を再び音声認識して、その
音声認識結果を出力する第２の音声認識手段とを備えた
ことを特徴とする。

【００１０】

【００１１】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００１２】図１は、本発明に係る一実施形態である音
声認識装置の構成を示すブロック図である。本実施形態
の音声認識装置は、声道形状推定部１０と、話者クラス
タリング処理部１１と、話者モデル選択部１２とを備え
たことを特徴とする。図１において、特に、本実施形態
の音声認識装置は、（ａ）複数Ｎ人の話者の音声波形データを記憶する音声
波形データメモリ２２と、（ｂ）音声波形データメモリ２２に記憶された複数Ｎ人
の話者の音声波形データに基づいて、各話者の声道の解
剖学的形状である声道形状の特徴量を、空間対応テーブ
ルメモリ２１に記憶され、所定の標準話者の声道モデル
に基づいて予め決められた声道形状パラメータとフォル
マント周波数との間の対応関係である空間対応テーブル
を参照して推定した後、上記推定されたＮ人の声道形状
の特徴量に基づいて、Ｎ人の話者間相互の話者間距離を
計算し、計算された話者間距離に基づいて、所定のクラ
スタリングアルゴリズムを用いて、Ｎ人の話者の声道形
状についてクラスタリングすることにより、所定の複数
Ｋ個のクラスタを生成し、生成されたＫ個のクラスタに
属する話者の音声波形データに基づいて、所定のＭＬ学
習アルゴリズムを用いて、初期ＨＭ網メモリ２５に記憶
された所定の初期隠れマルコフモデルを学習することに
より、複数Ｋ個のクラスタに対応する複数Ｋ個の隠れマ
ルコフモデルを生成する話者クラスタリング処理部１１
と、（ｃ）話者クラスタリング処理部１１によって生成され
た複数Ｋ個の隠れマルコフモデルを記憶する隠れマルコ
フ網メモリ（以下、ＨＭ網メモリという。）２４と、（ｄ）ＨＭ網メモリ２４に記憶された複数Ｋ個の隠れマ
ルコフモデルにそれぞれ属する話者クラスタの声道形状
の特徴量の情報を記憶する話者クラスタ情報メモリ２３
と、（ｅ）音声認識すべき認識話者の発声音声に基づいて、
認識話者の声道形状の特徴量を、所定の標準話者の声道
モデルに基づいて予め決められた声道形状パラメータと
フォルマント周波数との間の対応関係を参照して推定す
る声道形状推定部１０と、（ｆ）声道形状推定部１０によって推定された認識話者
の声道形状の特徴量と、話者クラスタ情報メモリ２３に
記憶された話者クラスタの声道形状の特徴量の情報とを
比較することにより、認識話者の声道形状の特徴量に最
も近い話者クラスタの声道形状の特徴量を有する少なく
とも１つの隠れマルコフモデルを、ＨＭ網２４に記憶さ
れた複数Ｋ個の隠れマルコフモデルから選択する話者モ
デル選択部１２と、（ｇ）話者モデル選択部１２によって選択された隠れマ
ルコフモデルを参照して、入力された認識話者の発声音
声を音声認識して、その音声認識結果を出力する音声認
識手段である音素照合部５及びＬＲパーザ６とを備えた
ことを特徴としている。ここで、本実施形態では、上記
声道形状の特徴量は、好ましくは、図４に示すように、
話者の声道の口腔側の第１の長さｌ₁と、その咽頭腔側
の第２の長さｌ₂とであり、もしくは、話者の声道長Ｖ
ＴＬである。

【００１３】まず、話者クラスタリングに用いる人間の
声道の解剖学的な形状（以下、声道形状という。）の特
徴量とその推定法について述べる。話者正規化に関する
研究においては、主に話者の声道長ＶＴＬ（Vocal Trac
t Length）に着目して正規化が行なわれる。しかしなが
ら、声道長ＶＴＬのみで特徴づけられる話者の音声の音
響的な特徴には限界がある（例えば、従来技術文献１
「G.Fant,“Non-uniformvowel normalization",Speech
Transmission Laboratory Quarterly Progressand Stat
us Report,Vol.2-3,1975,pp.1-19」参照。）。そこで、
本実施形態では話者クラスタリングに用いる声道形状の
特徴量として声道を、図４に示すように、前方（口腔
側）と後方（咽頭腔側）の２つの区間に分割し、そのそ
れぞれの長さｌ₁，ｌ₂（以下、声道パラメータとい
う。）の２つのパラメータを用いる。この声道パラメー
タを選択した理由は、以下の通りである。（１）声道の前方、後方の長さにより話者の発声する音
声は大きな影響を受ける（例えば、従来技術文献１参
照。）。（２）この声道パラメータの比較的簡単な推定法が提案
されている。（３）話者正規化の研究で一般に用いられる声道長から
の簡単な拡張である。なお、口腔側と咽頭腔側の２つの区間に分割する点は、
好ましくは、口腔と咽頭との間の中間点付近に定められ
る。

【００１４】本実施形態では、声道パラメータｌ₁，ｌ₂
の推定には、話者の２母音／ａ／，／ｉ／の各フォルマ
ント周波数Ｆ₁，Ｆ₂，Ｆ₃を用いて、以下に述べるフォ
ルマント周波数空間から声道パラメータ空間へのマッピ
ング手法により推定を行なう。声道パラメータｌ₁，ｌ₂
の推定には下記の声道モデルを使用する。

【００１５】人間の声道形状のモデル化を行う場合は、
一般に、図４に示すように。声道をｎ個所で輪切りにし
た際の各断面の面積と断面間の距離ｄｍ−１によりモデ
ル化される。このモデルを用いることで、各話者の声道
形状に基づいて、話者が発する音声を生成することが可
能である。一方、音声認識装置に用いる場合、このよう
な声道形状を測定することは困難であるため、各話者の
発した音声に基づいて、声道形状を推定する必要があ
る。このような声道形状の特徴量のうち、特に、声道の
口腔側の長さｌ₁と咽頭腔側の長さｌ₂や声道長ＶＴＬが
各話者が発する音声に大きな影響を与えるために、これ
らの特徴量を、声道形状の特徴量として用いる。

【００１６】ここで、話者の声道形状の特徴量として、
声道を断面ＳＭｍにおいて、口腔側と咽頭腔側の２つの
区間に分割した際の、それぞれの長さｌ₁，ｌ₂を用いる
場合、これらの特徴量は、前述した声道形状のモデルに
基づいて次式により計算される。

【００１７】

【数１】

【数２】

【００１８】また、話者の声道形状の特徴量として、声
道長ＶＴＬを用いる場合、この特徴量は、前述した声道
形状のモデルに基づいて次式により計算される。

【００１９】

【数３】

【００２０】上述のモデルは、話者の声道形状を発声す
る音素に依存しない２つのパラメータ、すなわち、声道
の口腔側の長さｌ₁と声道の咽頭腔側の長さｌ₂により表
す。この声道モデルにおいて、標準話者の声道パラメー
タｌ₁，ｌ₂と各母音に対応する声道面積関数を用意し、
２つの声道パラメータｌ₁，ｌ₂をそれぞれ独立に何倍か
に伸縮した後に、音声を生成することで、異なる形状の
声道から発せられる各母音のフォルマント周波数を得る
ことが可能である。さらに、本実施形態では、この声道
パラメータの伸縮率を何種類も変化させることにより、
標準話者の声道パラメータに対する伸縮率とそれに対応
する各母音フォルマント周波数を求める。これにより、
図５及び図６に示すように、２次元の声道パラメータの
伸縮率空間上の近接する３点により形成される小平面Ｐ
ＱＲと、それに対応するフォルマント周波数空間上の小
平面ｐｑｒが得られる。ここで、声道パラメータの伸縮
率空間は、声道パラメータの正規化空間ともいえる。な
お、図５（ｂ）において、フォルマント周波数空間は、
母音／ａ／のフォルマント周波数Ｆ₁，Ｆ₂，Ｆ₃と、母
音／ｉ／のフォルマント周波数Ｆ₁，Ｆ₂，Ｆ₃とで６次
元を有する空間である。

【００２１】声道パラメータの推定は、逆にこのフォル
マント周波数空間上の小平面から声道パラメータの伸縮
率空間上の小平面上へのマッピングにより行なう。声道
パラメータの推定手順を以下に示す。

【００２２】図２は、図１の声道形状推定部１０によっ
て実行される声道形状推定処理を示すフローチャートで
ある。この推定処理に先立って、標準話者の声道パラメ
ータに基づいて、声道パラメータの伸縮率空間上の小平
面とフォルマント周波数空間上の小平面との間の空間対
応テーブルを作成して空間対応テーブルメモリ２１に格
納する。当該空間対応テーブルにおいては、声道パラメ
ータの伸縮率空間上の小平面のパラメータセットと、フ
ォルマント周波数空間上の小平面のパラメータセットと
の複数の組が格納される。図２のステップＳ１で、ま
ず、音声認識すべき話者は、母音／ａ／，／ｉ／を発声
してその発声音声が図１のマイクロホン１に入力されて
音声信号に変換された後、Ａ／Ｄ変換器２によってディ
ジタル音声信号にＡ／Ｄ変換される。当該ディジタル音
声信号は、スイッチＳＷ１のｂ側を介して声道形状推定
部１０に入力される。これに応答して、声道形状推定部
１０は、図５に示すように、入力されたディジタル音声
信号に基づいて、声道パラメータｌ₁，ｌ₂を推定する話
者について、母音／ａ／，／ｉ／のフォルマント周波数
の組ｓ（Ｆ₁，Ｆ₂，Ｆ₃）を求める。次いで、ステップ
Ｓ２で、図６に示すように、フォルマント周波数の空間
上で、ステップＳ１で求めたフォルマント周波数の組ｓ
に最も近い小平面ｐｑｒを求める。さらに、ステップＳ
３で、図５及び図６に示すように、フォルマント周波数
の組ｓをステップＳ２で求めた小平面ｐｑｒに射影し
て、フォルマント周波数の組ｓを求めた後、空間対応テ
ーブルメモリ２１内の空間対応テーブルを参照して、対
応する声道パラメータの伸縮率空間上の小平面ＰＱＲ上
で線形関数（数５）により声道パラメータｌ₁，ｌ₂の伸
縮率Ｓを求める。

【００２３】

【数４】ｓ'＝ｐｑ＋ａ₁・→ｖ₁＋ａ₂・→ｖ₂

【数５】Ｓ＝ＰＱ＋Ａ₁・→Ｖ₁＋Ａ₂・→Ｖ₂

【数６】

【００２４】図６における線分ｐｑ（上線）及び線分Ｐ
Ｑ（上線）については、本明細書において、上線を用い
ることができないため、数４及び数５において下線を用
いている。また、→ｖ₁は、ベクトルｖ₁を示し、→
ｖ₂、→Ｖ₁、→Ｖ₂についてもベクトルを示す。数４
は、射影後のフォルマント周波数の組ｓ’は、線分ｐｑ
と、ベクトル→ｖ₁と、ベクトル→ｖ₂との線形結合で表
わすことができることを示し、数５は、変換後のフォル
マント周波数の組Ｓは、線分ＰＱと、ベクトル→Ｖ
₁と、ベクトル→Ｖ₂との線形結合で表わすことができる
ことを示し、数６は、フォルマント周波数空間上の小平
面ｐｑｒと、声道パラメータの伸縮率空間上の小平面Ｐ
ＱＲとの間の対応関係を表している。

【００２５】さらに、ステップＳ４では、標準話者の声
道パラメータｌ₁，ｌ₂に、ステップＳ３で求められた各
声道パラメータｌ₁，ｌ₂の伸縮率Ｓを掛け合わせ、目的
の話者の声道パラメータｌ₁，ｌ₂を得て、得られた声道
パラメータｌ₁，ｌ₂をバッファメモリ７を介して話者モ
デル選択部１２に出力する。

【００２６】次いで、話者クラスタリング処理部１１の
処理について述べる。本実施形態では、以下に話者間距
離を用い、公知のスプリット（ＳＰＬＩＴ）法で用いら
れたアルゴリズムによりクラスタリングを行った。この
手法では、あらかじめ全話者間の距離を計算しておき、
この結果を参照しながらクラスタ内の話者間距離の総和
が最大となるクラスタから順次分割を行う。スプリット
（ＳＰＬＩＴ）法は歪みが最大となるクラスタから順に
分割する点が一般的なＬＢＧアルゴリズムと異なり、ク
ラスタリングの終了条件としてクラスタの総数を指定す
ることで、任意の数の話者クラスタを生成することが可
能である。

【００２７】種々の話者間距離による話者クラスタの比
較を行うため、以下に示す４種類のパラメータを用い
て、話者間距離を求めクラスタリングに用いた。ここ
で、声道パラメータｌ₁，ｌ₂及び声道長ＶＴＬは本発明
に係る実施形態であるが、他の２つは比較例である。（１）声道パラメータｌ₁，ｌ₂、（２）声道長ＶＴＬ＝
ｌ₁＋ｌ₂、（３）上記（１），（２）の推定に用いた母
音／ａ／／ｉ／のフォルマント周波数、及び（４）特定
話者ＨＭＭ間の距離。

【００２８】上記（１），（２），（３）については、
各話者のパラメータ間のユークリッド距離を用いた。上
記（４）については、特開平０７−２６１７８５号公報
における装置で用いられたバタッチャリア（Ｂｈａｔｔ
ａｃｈａｒｙｙａ）距離に基づく以下の話者間距離を使
用する。話者間距離の計算に先立ち、まず、バーム・ウ
エルチ（Ｂａｕｍ−Ｗｅｌｃｈ）アルゴリズムや話者適
応手法を用い、同一の構造を持つ特定話者ＨＭＭを学習
する。構造の等しい２つのＨＭＭＭ₁とＭ₂の間の距離を
次式のように定義する。ここでは、ＨＭＭの状態遷移確
率等は考慮せず、ＨＭＭの出力確率間の距離ｄ
（ｂ_i ⁽¹⁾，ｂ_i ⁽²⁾）により定義している。

【００２９】

【数７】

【００３０】ここで、ｂ_i ^(j)はＭ_jの状態ｉにおける出
力確率分布を、ＮはＭ_jの状態数を示す。また、出力確
率分布を単一ガウス分布とし、出力確率間の距離ｄ（ｂ
_i ⁽¹⁾，ｂ_i ⁽²⁾）をバタッチャリア（Ｂｈａｔｔａｃｈａ
ｒｙｙａ）距離に基づく次式により定める。

【００３１】

【数８】ｄ（ｂ⁽¹⁾，ｂ⁽²⁾）＝（１／８）（μ₁−μ₂）
^t［（Σ₁＋Σ₂）／２］^-1（μ₁−μ₂）＋（１／２）ｌ
ｎ［｜（Σ₁＋Σ₂）／２｜／（｜Σ₁｜^1/2｜Σ
₂｜^1/2）］

【００３２】ここで、μ_j，Σ_jはそれぞれＨＭＭＭ_jの
平均ベクトル、共分散行列を表す。

【００３３】さらに、木構造の各ノードで行なう話者ク
ラスタリングのアルゴリズムについて詳述する。ここで
は、スプリット（ＳＰＬＩＴ）法で用いられたクラスタ
リングアルゴリズムに基づく方法を用いている。この方
法では、２のべき乗のクラスタを作成する一般的な従来
のＬＢＧアルゴリズムとは異なり、歪みが最大となるク
ラスタを順次分割する。従って任意の数のクラスタを作
成できる。またクラスタリングを行なう前に、あらかじ
め要素間の距離テーブルを作成する。これにより、クラ
スタ中心の初期値をヒューリスティックに（偶発的に又
は発見的に）与えなくとも良いという利点がある。結局
あらかじめ与える必要があるのは距離に対するしきい
値、又はクラスタ数のみで、この値さえ与えれば完全に
自動的に結果が得られる。

【００３４】上述の話者クラスタリング法を用いて話者
クラスタを生成する方法について述べる。ここでは、最
終的なクラスタ数Ｋを与えるだけで自動的にクラスタの
作成を行う。図３は、図１の話者クラスタリング処理部
１１によって実行される話者クラスタリング処理を示す
フローチャートである。まず、図３のステップＳ１１で
は、音声波形データメモリ２２内に予め格納された複数
Ｎ人の音声データから、声道形状推定部１０の推定法と
同様に、空間対応テーブルメモリ２１内の空間対応テー
ブルを参照して声道形状推定処理を実行することによ
り、各話者の声道形状の特徴量を推定する。次いで、ス
テップＳ１２で、次式を用いて、声道形状の特徴量に基
づいて、複数Ｎ人の話者間相互の話者間距離を計算す
る。ここで、例えば、話者Ｓ_jのＤ次元の声道形状の特
徴量のベクトルをＰ_j（ｉ）とすると、２人の話者Ｓ₁と
Ｓ₂との話者間の距離ｄ（Ｓ₁，Ｓ₂）は、例えばユーク
リッド距離を用いることで次式により求められる。本実
施形態において、例えば、声道形状の特徴量として声道
パラメータｌ₁，ｌ₂を用いるときは、Ｄ＝２となる。

【００３５】

【数９】

【００３６】次いで、ステップＳ１３で、上述のスプリ
ット法のクラスタリングアルゴリズムを用いて、声道形
状の特徴量による上記計算された話者間距離に基づい
て、複数Ｎ人の話者の声道形状についてクラスタリング
を行い、複数Ｋ個のクラスタを作成して、各クラスタの
上記特徴量のパラメータの平均値を演算して、話者クラ
スタ情報メモリ２３に格納する。すなわち、話者クラス
タ情報メモリ２３には、複数Ｋ個のクラスタの各クラス
タ毎に、例えば声道パラメータｌ₁，ｌ₂又は声道長ＶＴ
Ｌの平均値が格納される。さらに、ステップＳ１４にお
いて、ステップＳ１３で得られたＫ個のクラスタに属す
る話者の音声波形データ（音声波形データメモリ２２内
に格納された）に基づいて、最尤推定（ＭＬ）学習アル
ゴリズムを用いて、初期ＨＭ網メモリ２５内の所定の初
期ＨＭ網を学習することにより、各クラスタに対応する
Ｋ個のＨＭ網を作成して、ＨＭ網メモリ２４に格納す
る。

【００３７】さらに、話者モデル選択部１２、音素照合
部５及びＬＲパーザ６の処理、すなわち、本実施形態に
係る話者クラスタモデルによる不特定話者音声認識方法
について述べる。本実施形態では、まず話者に声道形状
の特徴量の推定に必要な音声の発声を依頼し、発声され
た音声をもとに最適な話者クラスタを選択する。上記話
者クラスタリングによる不特定話者音声認識のアルゴリ
ズムは次のステップによる。＜ステップＳＳ１＞スイッチＳＷ１をｂ側に切り換え、
認識すべき話者に指定した音声（例えば、母音／ａ／，
／ｉ／）の発声を要求する。＜ステップＳＳ２＞声道形状推定部１０では、入力され
た音声から話者の声道形状の推定を行う。＜ステップＳＳ３＞話者モデル選択部１２では、声道形
状推定部１０で推定された声道形状と、話者クラスタ情
報メモリ２３内の話者クラスタ情報に基づいて、話者モ
デルの選択を行う。上記（１）乃至（３）の処理を話者
モデル選択処理という。＜ステップＳＳ４＞スイッチＳＷ１をａ側に切り換え、
ステップＳＳ３で選択された話者モデルのＨＭ網を用い
て、音素照合部５及びＬＲパーザ６において話者が発声
した音声の音声認識を行う。当該処理を音声認識処理と
いう。

【００３８】次いで、本実施形態におけるＳＳＳ−ＬＲ
（left-to-right rightmost型）不特定話者連続音声認
識装置について説明する。この装置は、ＨＭ網メモリ２
４に格納されたＨＭ網と呼ばれる音素環境依存型の効率
のよいＨＭＭの表現形式を用いている。また、上記ＳＳ
Ｓにおいては、音素の特徴空間上に割り当てられた確率
的定常信号源（状態）の間の確率的な遷移により音声パ
ラメータの時間的な推移を表現した確率モデルに対し
て、尤度最大化の基準に基づいて個々の状態をコンテキ
スト方向又は時間方向へ分割するという操作を繰り返す
ことによって、モデルの精密化を逐次的に実行する。

【００３９】図１の音声認識装置の音声認識処理におい
て、話者の発声音声はマイクロホン１に入力されて音声
信号に変換された後、音声信号がＡ／Ｄ変換器２によっ
てディジタル音声信号にＡ／Ｄ変換される。当該ディジ
タル音声信号は、スイッチＳＷ１のａ側を介して特徴抽
出部３に入力される。特徴抽出部３は、入力されたディ
ジタル音声信号に対して、例えばＬＰＣ分析を実行し、
対数パワー、１６次ケプストラム係数、Δ対数パワー及
び１６次Δケプストラム係数を含む３４次元の特徴パラ
メータを抽出する。抽出された特徴パラメータの時系列
はバッファメモリ４を介して音素照合部５に入力され
る。

【００４０】音素照合部５に接続されるＨＭ網メモリ２
４内のＨＭ網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。（ａ）状態番号（ｂ）受理可能なコンテキストクラス（ｃ）先行状態、及び後続状態のリスト（ｄ）出力確率密度分布のパラメータ（ｅ）自己遷移確率及び後続状態への遷移確率なお、本実施形態において用いるＨＭ網は、各分布がど
の話者に由来するかを特定する必要があるため、所定の
話者混合ＨＭ網を変換して作成する。ここで、出力確率
密度関数は３４次元の対角共分散行列をもつ混合ガウス
分布であり、各分布はある特定の話者のサンプルを用い
て学習されている。また、文脈自由文法メモリ（ＣＦＧ
メモリ）９内の所定の文脈自由文法（ＣＦＧ）は、公知
の方法で自動的にＬＲテーブルに変換してＬＲテーブル
メモリ８に格納される。

【００４１】話者モデル選択部１２に接続される、話者
クラスタ情報メモリ３３内には各話者クラスタ内の話者
の標準的な声道形状の特徴量が予め格納される。標準的
な特徴量としては、各クラスタ内の話者の声道形状の特
徴量の平均値等が利用可能である。また、各話者クラス
タ内の標準的な声道形状とＨＭ網メモリ２４に格納され
ているＨＭ網が一対一に対応する。

【００４２】話者モデル選択処理において、声道形状推
定部１０では入力されたディジタル音声信号に基づい
て、話者の声道形状の推定を行う。話者モデル選択部１
２では、話者クラスタ情報メモリ３３に保存されている
各話者クラスタの標準的な声道形状と、声道形状推定部
１０で推定された話者の声道形状の比較を行い、最も近
い声道形状（例えば、声道パラメータｌ₁，ｌ₂又は声道
長ＶＴＬ）を有する話者クラスタを選択する。そして、
選択した話者クラスタモデル（ＨＭ網）の話者クラスタ
を示す選択信号をＨＭ網メモリ２４に出力して、音素照
合部５で用いる話者クラスタモデル（以下、指定話者モ
デルという。）のＨＭ網を指定する。

【００４３】そして、音声認識処理において、音素照合
部５は、音素コンテキスト依存型ＬＲパーザ６からの音
素照合要求に応じて音素照合処理を実行する。このとき
に、ＬＲパーザ６からは、音素照合区間及び照合対象音
素とその前後の音素から成る音素コンテキスト情報が渡
される。音素照合部５は、受け取った音素コンテキスト
情報に基づいて、上記指定話者モデルを用いて音素照合
区間内のデータに対する尤度が計算され、この尤度の値
が音素照合スコアとしてＬＲパーザ６に返される。これ
に応答して、ＬＲパーザ６は、ＬＲテーブルメモリ８内
のＬＲテーブルを参照して、入力された音素予測データ
について左から右方向に、後戻りなしに処理する。構文
的にあいまいさがある場合は、スタックを分割してすべ
ての候補の解析が平行して処理される。ＬＲパーザ６
は、ＬＲテーブルから次にくる音素を予測して音素予測
データを音素照合部５に出力する。これに応答して、音
素照合部５は、その音素に対応する上記指定話者モデル
に関するＨＭ網メモリ２４内の情報を参照して照合し、
その尤度を音声認識スコアとしてＬＲパーザ６に戻し、
順次音素を連接していくことにより、連続音声の認識を
行う。ここで、複数の音素が予測された場合は、これら
すべての存在をチェックし、ビームサーチの方法によ
り、部分的な音声認識の尤度の高い部分木を残すという
枝刈りを行って高速処理を実現する。入力された話者音
声の最後まで処理した後、全体の尤度が最大のもの又は
所定の上位複数個のものを、当該装置の認識結果データ
として外部装置に出力する。

【００４４】以上の実施形態において、特徴抽出部３、
音素照合部５、ＬＲパーザ６、声道形状推定部１０、話
者クラスタリング処理部１１と、及び話者モデル選択部
１２は、例えばディジタル計算機で構成され、また、バ
ッファメモリ４及び７空間対応テーブルメモリ２１、音
声波形データメモリ２２、話者クラスタ情報メモリ２
３、ＨＭ網メモリ２４、ＬＲテーブルメモリ８、ＣＦＧ
メモリ９、及び初期ＨＭ網メモリ２５は、例えばハード
デイスクメモリなどの記憶装置で構成される。

【００４５】以上説明したように、本発明に係る実施形
態によれば、声道形状推定部１０と話者クラスタリング
処理部１１と話者モデル選択部１２とを備えたので、各
話者の声道形状の特徴量は２母音程度の少量の音声から
推定可能であり、少ない音声データにより話者クラスタ
モデルを構築することが可能である。また、音声認識時
に少ない音声波形データに基づいて、話者クラスタモデ
ルの選択を行うことが可能であり高速な話者適応が実現
される。さらに、少量の音声波形データを用いて話者ク
ラスタリングしたＨＭＭを用いて音声認識したときに、
従来技術に比較してより高い音声認識率を得ることがで
きる。

【００４６】＜変形例＞当該変形例では、図１の音声認
識装置において、スイッチＳＷ１がａ側に固定され、声
道形状推定部１０は削除され、特徴抽出部３から出力さ
れる特徴パラメータは、バッファメモリ４を介して話者
モデル選択部１２にも入力され、さらに、認識結果の音
素系列がＬＲパーザ６から話者モデル選択部１２にフィ
ードバックされるように構成される。当該変形例では、
１発話のみの評価データで教師なし話者適応を行う。上
記話者クラスタリングによる不特定話者音声認識の方法
のアルゴリズムは、次のステップを含む。＜ステップＳＳＳ１＞音素照合部５とＬＲパーザ６
は、入力音声を不特定話者音素モデルを用いて認識す
る。以下、当該ステップの音声認識を第１の音声認識プ
ロセスという。＜ステップＳＳＳ２＞認識結果の音素系列をＬＲパー
ザ６から話者モデル選択部１２にフィードバックし、話
者モデル選択部１２は、上記ステップＳＳＳ１において
用いた入力音声と、この音素系列を入力として話者選択
を行なう。＜ステップＳＳＳ３＞そして、音素照合部５とＬＲパ
ーザ６は、選択後の音素モデルを用いて入力音声を再び
音声認識してその結果データを出力する。以下、当該ス
テップの音声認識を第２の音声認識プロセスという。

【００４７】上述のように、上記第１と第２の音声認識
プロセスの、２回の音声認識プロセスで最終的な音声認
識結果を確定する。本実施形態の音声認識方法で音声認
識率を向上するためには、誤認識するデータの認識率を
改善する必要がある。このため、誤った認識結果をフィ
ードバックしても、正しい方向へ学習をすすめる必要が
あるという本質的な問題がある。しかしながら、音声認
識結果データは文法などの知識によりある程度修正され
たものであり、さらに文節で評価した場合誤っているだ
けで、すべての音素系列が誤っているわけではない。実
際に音声認識誤りのデータを調べると、助詞の部分だけ
誤ったものが多い。このことから誤認識結果のフィード
バックでも話者適応は十分可能と考えられる。

【００４８】第１の音声認識プロセスにおいて、音素照
合部５は、音素コンテキスト依存型ＬＲパーザ６からの
音素照合要求に応じて音素照合処理を実行する。そし
て、例えば、最上層のレベル０の不特定話者モデルを用
いて音素照合区間内のデータに対する尤度が計算され、
この尤度の値が音素照合スコアとしてＬＲパーザ６に返
される。このときに用いられるモデルは、ＨＭＭと等価
であるために、尤度の計算には通常のＨＭＭで用いられ
ている前向きパスアルゴリズムをそのまま使用する。Ｌ
Ｒパーザ６は、上記ＬＲテーブル８を参照して、入力さ
れた音素予測データについて左から右方向に、後戻りな
しに処理する。構文的にあいまいさがある場合は、スタ
ックを分割してすべての候補の解析が平行して処理され
る。ＬＲパーザ６は、ＬＲテーブルメモリ８内のＬＲテ
ーブルから次にくる音素を予測して音素予測データを音
素照合部５に出力する。これに応答して、音素照合部５
は、その音素に対応するＨＭ網メモリ２４内の情報を参
照して照合し、その尤度を音声認識スコアとしてＬＲパ
ーザ６に戻し、順次音素を連接していくことにより、連
続音声の認識を行い、その音声認識結果データを話者モ
デル選択部１２にフィードバックして出力する。上記連
続音声の認識において、複数の音素が予測された場合
は、これらすべての存在をチェックし、ビームサーチの
方法により、部分的な音声認識の尤度の高い部分木を残
すという枝刈りを行って高速処理を実現する。

【００４９】次いで、これに応答して、話者モデル選択
部１２は、バッファメモリ４から入力される上記特徴パ
ラメータのデータと、ＬＲパーザ６からフィードバック
される第１の音声認識プロセスにおける音声認識結果デ
ータに基づいて、ＨＭ網メモリ２４内の話者クラスタモ
デル群の中から最大の尤度を有する話者クラスタモデル
を選択する。そして、選択した話者クラスタモデルの話
者クラスタを示す選択信号をＨＭ網メモリ２４に出力し
て、音素照合部５で用いる話者クラスタモデル（以下、
指定話者モデルという。）を指定する。

【００５０】そして、第２の音声認識プロセスにおい
て、音素照合部５は、音素コンテキスト依存型ＬＲパー
ザ６からの音素照合要求に応じて音素照合処理を実行す
る。このときに、ＬＲパーザ６からは、音素照合区間及
び照合対象音素とその前後の音素から成る音素コンテキ
スト情報が渡される。音素照合部５は、受け取った音素
コンテキスト情報に基づいて、上記指定話者モデルを用
いて音素照合区間内のデータに対する尤度が計算され、
この尤度の値が音素照合スコアとしてＬＲパーザ６に返
される。これに応答して、ＬＲパーザ６は、第１の音声
認識プロセスと同様に、上記ＬＲテーブル８を参照し
て、入力された音素予測データについて左から右方向
に、後戻りなしに処理する。構文的にあいまいさがある
場合は、スタックを分割してすべての候補の解析が平行
して処理される。ＬＲパーザ６は、ＬＲテーブルメモリ
８内のＬＲテーブルから次にくる音素を予測して音素予
測データを音素照合部５に出力する。これに応答して、
音素照合部５は、その音素に対応する上記指定話者モデ
ルに関するＨＭ網メモリ２４内の情報を参照して照合
し、その尤度を音声認識スコアとしてＬＲパーザ６に戻
し、順次音素を連接していくことにより、連続音声の認
識を行う。ここで、第１の音声認識プロセスと同様に、
複数の音素が予測された場合は、これらすべての存在を
チェックし、ビームサーチの方法により、部分的な音声
認識の尤度の高い部分木を残すという枝刈りを行って高
速処理を実現する。入力された話者音声の最後まで処理
した後、全体の尤度が最大のもの又は所定の上位複数個
のものを、当該装置の認識結果データとして外部装置に
出力する。＜変形例の説明終＞

【００５１】

【実施例】本発明者は、上述の音声認識装置の作用効果
を確かめるために以下の実験を行った。上述の話者間距
離を用い、男性話者１４８名を対象として話者クラスタ
リング処理を行った。まず、上述の声道形状推定処理の
方法により推定された各話者の声道の口腔側の長さ
ｌ₁，咽頭腔側の長さｌ₂，声道長ＶＴＬ（＝ｌ₁＋ｌ₂）
の分布をそれぞれ図７、図８及び図９に示す。ここで、
声道パラメータの推定に必要となる母音／ａ／，／ｉ／
のフォルマント周波数の計算においては、本特許出願人
の音声データベースＣｓｅｔ中の音素バランス文セット
Ａに含まれる２単語、“ｂ−ａ−ａ−ｉ”，“ｆ−ａ−
ｍ−ｉ−ｒ−ｉ−ｉ”内の長母音を用い、各母音区間の
中央５０％のフォルマント周波数の平均値を用いた。こ
れにより推定された各声道パラメータの平均値は、ｌ₁
＝９．０１ｃｍ，ｌ₂＝７．１０ｃｍ，ＶＴＬ＝１６．
１１ｃｍであり、図７乃至図９から明らかなように、い
ずれについても滑らかな分布を示している。

【００５２】本実験では、１４８名の話者を、３，５，
１０，２０，４０クラスタに分割した。なお、バタッチ
ャリア（Ｂｈａｔｔａｃｈａｒｙｙａ）距離の計算に必
要となる特定話者ＨＭＭの学習は次の表１の条件で行っ
た。全ての特定話者ＨＭＭは、同一の構造をもつ単一ガ
ウス分布２００状態ＨＭ網（ＨＭｎｅｔ）で、学習には
特許出願人が所有する音声データベースＣｓｅｔ中の音
素バランス文セットＡ５０文を用い、バーム・ウエルチ
（Ｂａｗｍ−Ｗｅｌｃｈ）アルゴリズムにより学習を行
った。ただし、学習に用いる音声データ量が十分でない
ことから、学習により出力確率分布の分散の値が極端に
小さな値となるのを防ぐため、学習時に分散値が初期モ
デルより小さい値とならないよう制限を加えている。

【００５３】

【表１】ＨＭＭ間の距離の算出に用いた特定話者ＨＭＭ学習条件 ─────────────────────────────────── 分析条件：サンプリング周波数：１２ＫＨｚ２０ｍｓハミング窓フレーム周期：５ｍｓ ─────────────────────────────────── 音響パラメータ：１６次ＬＰＣ−ケプストラム係数＋１６次Δケプストラム係数＋Δ対数パワー ─────────────────────────────────── 学習条件：学習データ：出願人が所有する音声データベースＣｓｅｔ中の音素バランス文セットＡ５０文ＨＭＭの構造：２００状態１混合ＨＭ網学習法：バーム・ウエルチ（Ｂａｕｍ−Ｗｅｌｃｈ）アルゴリズムによる学習、学習前より分散が小さくならないように制御初期モデル：特定話者モデル（ＭＨＴ） ───────────────────────────────────

【００５４】４種の話者間距離、すなわち、（１）声道
パラメータｌ₁，ｌ₂と、（２）声道長ＶＴＬ＝ｌ₁＋ｌ₂
と、（３）母音／ａ／／ｉ／のフォルマント周波数と、
（４）特定話者ＨＭＭ間の距離とを用いて５つのクラス
タに分割した結果をそれぞれ、図１０、図１１、図１２
及び図１３に示す。図中の各シンボルは、それぞれ異な
る話者の声道パラメータｌ₁，ｌ₂を表し、クラスタリン
グの結果、同じクラスタに属した話者を同一のシンボル
で示すことで（ｌ₁，ｌ₂）空間上での各クラスタの分布
を表している。

【００５５】図１０乃至図１３から明らかなように、用
いる話者間距離により生成されるクラスタは大きく異な
っている。声道パラメータｌ₁，ｌ₂や声道長ＶＴＬ間の
距離を用い得られたクラスタの場合は、クラスタリング
を行なった空間と、図中でクラスタリング結果を表示し
ている空間とが等しい、又は関連が強いため、明確なク
ラスタが観察できる（図１０及び図１１参照。）。ま
た、フォルマント周波数に基づいたクラスタ（図１２）
の場合には（ｌ₁，ｌ₂）空間上のＶＴＬ＝ｌ₁＋ｌ₂の値
の小さい領域、及び値の大きい領域とに、クラスタが形
成されており、若干ではあるが、声道長を用いたクラス
タリングに似た傾向が見られた。しかしながら、特定話
者ＨＭＭ間の距離を用いた場合（図１３）には、得られ
た話者クラスタと（ｌ₁，ｌ₂）空間との間にはほとんど
関連が見られなかった。

【００５６】次いで、本実施形態のクラスタリング手法
の評価を行なうため、各種話者間距離によるクラスタリ
ング結果に基づき作成された、話者クラスタＨＭＭを用
い音声認識実験を行った。実験条件を次の表２に示す。
実験においては、認識対象となる６話者それぞれについ
て、本特許出願人が所有する音声データベースＡｓｅｔ
ＳＢ１タスク中の７文節（５１音素）を用いて、尤度を
基準とした話者クラスタの選択（変形例の話者モデル選
択処理）を行い、選ばれた話者クラスタＨＭＭを用い、
そのＳＢ１タスク中の２４９文節（１９６３音素）を認
識対象として音素タイプライタによる認識を行った。

【００５７】

【表２】話者クラスタＨＭＭによる認識実験条件 ─────────────────────────────────── 分析条件：サンプリング周波数：１２ＫＨｚ２０ｍｓハミング窓フレーム周期：５ｍｓ ─────────────────────────────────── 音響パラメータ：１６次ＬＰＣ−ケプストラム係数＋１６次Δケプストラム係数＋Δ対数パワー ─────────────────────────────────── 話者クラスタＨＭＭの学習条件：学習データ：各話者クラスタに属する話者の音声波形データ各話者音素バランス文セットＡ５０文を発声ＨＭＭの構造：２００状態１混合ＨＭ網＋１状態１０混合無音モデル学習法：バーム・ウエルチ（Ｂａｕｍ−Ｗｅｌｃｈ）アルゴリズムによる学習、学習前より分散が小さくならないように制御初期モデル：男性不特定話者モデル（１４８話者で学習） ─────────────────────────────────── 話者クラスタ選択／認識対象データ：認識対象話者：男性６名（ＭＡＵ，ＭＭＳ，ＭＮＭ，ＭＴＭ，ＭＴＴ，ＭＸＭ）クラスタ選択：７文節（ＳＢ１タスク）認識データ：２４９文節（ＳＢ１タスク）音素タイプライタにより認識 ───────────────────────────────────

【００５８】実験により得られた音素認識率を次の表３
に示す。表３には、各話者間距離として、（１）声道パ
ラメータｌ₁，ｌ₂と、（２）声道長ＶＴＬと、（３）母
音／ａ／，／ｉ／のフォルマント周波数と、（４）特定
話者ＨＭＭ間の距離（ＨＭＭ）とを用いて、３，５，１
０，２０，４０クラスタに分割した結果に基づく話者ク
ラスタＨＭＭを用いた際の認識率を示している。比較の
ために、男性モデルによる認識結果（ＧＤ）も併せて記
した。

【００５９】

【表３】話者クラスタＨＭＭによる認識実験結果（％） ─────────────────────────────────── クラスタリングクラスタ数尺度ＧＤ３５１０２０４０ ─────────────────────────────────── ｌ₁，ｌ₂ ６６．５６７．７６８．４６８．３６８．０６７．５ＶＴＬ − ６７．７６７．５６８．０６７．２６６．７フォルマント − ６７．８６７．４６７．８６７．４６６．２複数のＨＭＭ − ６７．９６７．０６６．６６６．９６６．２ ─────────────────────────────────── （注）ＧＤは男性モデルによる音声認識率である。

【００６０】表３から明らかなように、どの話者間距離
においても、クラスタを過度に分割すると、モデルの頑
健性の低下から認識率の見られるが、適切な話者クラス
タ数を選択すれば、男性モデルにおける誤認識の３．８
−５．７％が削減されている。中でも、話者間距離とし
て声道パラメータｌ₁，ｌ₂を用いた、５クラスタの話者
クラスタＨＭＭが最も高い認識性能を示し、誤認識の
５．７％が削減された。声道長により得られた話者クラ
スタＨＭＭがそれに続いている。

【００６１】この声道パラメータを用い話者クラスタリ
ング実験を行なった結果、生成された話者クラスタの形
状は、音響的な距離尺度を基に得られたクラスタの形状
と大きく異なり、また、話者クラスタモデルの認識性能
の向上が見られた。本実施形態では、少量の音声波形デ
ータに基づいて、話者クラスタリングを行なうことが可
能であり、生成された話者クラスタに対して、声道形状
の類似という意味付けが可能となる。

【００６２】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の話者クラスタリング処理装置によれば、複数Ｎ
人の話者の音声波形データを記憶する第１の記憶装置
と、上記第１の記憶装置に記憶された複数Ｎ人の話者の
音声波形データに基づいて、各話者の声道の解剖学的形
状である声道形状の特徴量を、所定の標準話者の声道モ
デルに基づいて予め決められた声道形状パラメータとフ
ォルマント周波数との間の対応関係を参照して推定する
第１の推定手段と、上記第１の推定手段によって推定さ
れたＮ人の声道形状の特徴量に基づいて、Ｎ人の話者間
相互の話者間距離を計算し、計算された話者間距離に基
づいて、所定のクラスタリングアルゴリズムを用いて、
Ｎ人の話者の声道形状についてクラスタリングすること
により、所定の複数Ｋ個のクラスタを生成し、生成され
たＫ個のクラスタに属する話者の音声波形データに基づ
いて、所定の学習アルゴリズムを用いて、所定の初期隠
れマルコフモデルを学習することにより、複数Ｋ個のク
ラスタに対応する複数Ｋ個の隠れマルコフモデルを生成
するクラスタリング処理手段とを備える。従って、各話
者の声道形状の特徴量は２母音程度の少量の音声から推
定可能であり、少ない音声データにより話者クラスタモ
デルを構築することが可能である。また、音声認識時に
少ない音声波形データに基づいて、話者クラスタモデル
の選択を行うことが可能であり高速な話者適応が実現さ
れる。さらに、少量の音声波形データを用いて話者クラ
スタリングしたＨＭＭを用いて音声認識したときに、従
来技術に比較してより高い音声認識率を得ることができ
る。

【００６３】また、本発明に係る請求項４記載の音声認
識装置によれば、請求項１乃至３のうちの１つに記載の
クラスタリング処理装置によって生成された複数Ｋ個の
隠れマルコフモデルを用いて、入力された発声音声を音
声認識する音声認識装置であって、請求項１記載のクラ
スタリング処理手段によって生成された複数Ｋ個の隠れ
マルコフモデルを記憶する第２の記憶装置と、上記第２
の記憶装置に記憶された複数Ｋ個の隠れマルコフモデル
にそれぞれ属する話者クラスタの声道形状の特徴量の情
報を記憶する第３の記憶装置と、音声認識すべき認識話
者の発声音声に基づいて、認識話者の声道形状の特徴量
を、所定の標準話者の声道モデルに基づいて予め決めら
れた声道形状パラメータとフォルマント周波数との間の
対応関係を参照して推定する第２の推定手段と、上記第
２の推定手段によって推定された認識話者の声道形状の
特徴量と、上記第３の記憶装置に記憶された話者クラス
タの声道形状の特徴量の情報とを比較することにより、
認識話者の声道形状の特徴量に最も近い話者クラスタの
声道形状の特徴量を有する少なくとも１つの隠れマルコ
フモデルを、上記第２の記憶装置に記憶された複数Ｋ個
の隠れマルコフモデルから選択する話者モデル選択手段
と、上記話者モデル選択手段によって選択された隠れマ
ルコフモデルを参照して、入力された認識話者の発声音
声を音声認識して、その音声認識結果を出力する音声認
識手段とを備える。従って、少量の音声波形データを用
いて話者クラスタリングしたＨＭＭを用いて音声認識し
たときに、従来技術に比較してより高い音声認識率を得
ることができる。

【００６４】さらに、本発明に係る請求項５記載の音声
認識装置によれば、請求項１乃至３のうちの１つに記載
のクラスタリング処理装置によって生成された複数Ｋ個
の隠れマルコフモデルを用いて、入力された発声音声を
音声認識する音声認識装置であって、請求項１記載のク
ラスタリング処理手段によって生成された複数Ｋ個の隠
れマルコフモデルを記憶する第２の記憶装置と、所定の
不特定話者の隠れマルコフモデルを参照して、入力され
た認識話者の発声音声を音声認識する第１の音声認識手
段と、上記第１の音声認識手段による音声認識結果と、
上記入力された発声音声とに基づいて、上記第２の記憶
装置に格納された複数Ｋ個の隠れマルコフモデルのう
ち、最大の尤度を有する最適な少なくとも１つの隠れマ
ルコフモデルを選択する話者モデル選択手段と、上記話
者モデル選択手段によって選択された隠れマルコフモデ
ルを参照して、上記入力された発声音声を再び音声認識
して、その音声認識結果を出力する第２の音声認識手段
とを備える。従って、少量の音声波形データを用いて話
者クラスタリングしたＨＭＭを用いて音声認識したとき
に、従来技術に比較してより高い音声認識率を得ること
ができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である音声認識装置
の構成を示すブロック図である。

【図２】図１の声道形状推定部１０によって実行され
る声道形状推定処理を示すフローチャートである。

【図３】図１の話者クラスタリング処理部１１によっ
て実行される話者クラスタリング処理を示すフローチャ
ートである。

【図４】（ａ）は人間の声道形状を示す断面図であ
り、（ｂ）はそれをモデル化した、声道形状の断面ＳＭ
ｍのモデルＳＭｍ’を示す断面図である。

【図５】図２の声道形状推定処理によって実行される
声道パラメータの伸縮率空間とフォルマント周波数空間
のマッピング手法を示す図であって、（ａ）は声道パラ
メータの伸縮率空間を示す図であり、（ｂ）はフォルマ
ント周波数空間を示す図である。

【図６】図２の声道形状推定処理によって実行される
声道パラメータの推定方法を示す図であって、（ａ）は
声道パラメータの伸縮率空間を示す図であり、（ｂ）は
フォルマント周波数空間を示す図である。

【図７】声道パラメータｌ₁の分布を示すグラフであ
る。

【図８】声道パラメータｌ₂の分布を示すグラフであ
る。

【図９】声道長ＶＴＬの分布を示すグラフである。

【図１０】声道パラメータｌ₁，ｌ₂に基づく話者クラ
スタの一例を示すグラフである。

【図１１】声道長ＶＴＬに基づく話者クラスタの一例
を示すグラフである。

【図１２】フォルマント周波数に基づく話者クラスタ
の一例を示すグラフである。

【図１３】ＨＭＭ間の距離に基づく話者クラスタの一
例を示すグラフである。

【符号の説明】

１…マイクロホン、２…Ａ／Ｄ変換器、３…特徴抽出部、４，７…バッファメモリ、５…音素照合部、６…ＬＲパーザ、８…ＬＲテーブルメモリ、９…文脈自由文法メモリ（ＣＦＧメモリ）、１０…声道形状推定部、１１…話者クラスタリング処理部、１２…話者モデル選択部、２１…空間対応テーブルメモリ、２２…音声波形データメモリ、２３…話者クラスタ情報メモリ、２４…隠れマルコフ網メモリ（ＨＭ網メモリ）、２５…初期ＨＭ網メモリ、ＳＷ１…スイッチ。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ１０Ｌ 9/10 ３０１Ｇ１０Ｌ 9/10 ３０１Ｂ (72)発明者匂坂芳典京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (56)参考文献電子情報通信学技術研究報告［音声］Ｖｏｌ．97，Ｎｏ．441，ＳＰ97−40, 「声道の特徴量を用いた話者クラスタリング手法の検討」，ｐ．35−40，（1997 ／12／11) 電子情報通信学技術研究報告［言語理解とコミュニケーション］Ｖｏｌ．97, Ｎｏ．439，ＮＬＣ97−40，「声道の特徴量を用いた話者クラスタリング手法の検討」，ｐ．35−40，（1997／12／11) 情報処理学会研究報告［音声言語情報処理］Ｖｏｌ．97，Ｎｏ．120，ＳＬＰ 19，「声道の特徴量を用いた話者クラスタリング手法の検討」，ｐ．35−40, （1997／12／11) 電子技術総合研究所彙報Ｖｏｌ. 48，Ｎｏ．１＆２，”ＶｏｍｅｌＣｏｎｓｔａｎｃｙｏｎＡｎｔｉｍｅｔｒｉｃａｌＶｏｃａｌＴｒａｃｔＳｈａｐｅｓｂｅｔｗｅｅｎＭａｌｅｓａｎｄＦｅｍａｌｅｓ”，ｐ. 17−21，1984 電子技術総合研究所彙報Ｖｏｌ. 48，Ｎｏ．１＆２，”ＶｏｍｅｌＣｏｎｓｔａｎｃｙｏｎＡｎｔｉｍｅｔｒｉｃａｌＶｏｃａｌＴｒａｃｔＳｈａｐｅｓａｍｏｎｇＭａｌｅｓＦｅｍａｌｅｓａｎｄＣｈｉｌｄｒｅｎ”，ｐ．46−50，1984 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 535 G10L 3/00 521 G10L 9/10 301 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】複数Ｎ人の話者の音声波形データを記憶
する第１の記憶装置と、上記第１の記憶装置に記憶された複数Ｎ人の話者の音声
波形データに基づいて、各話者の声道の解剖学的形状で
ある声道形状の特徴量を、所定の標準話者の声道モデル
に基づいて予め決められた声道形状パラメータとフォル
マント周波数との間の対応関係を参照して推定する第１
の推定手段と、上記第１の推定手段によって推定されたＮ人の声道形状
の特徴量に基づいて、Ｎ人の話者間相互の話者間距離を
計算し、計算された話者間距離に基づいて、所定のクラ
スタリングアルゴリズムを用いて、Ｎ人の話者の声道形
状についてクラスタリングすることにより、所定の複数
Ｋ個のクラスタを生成し、生成されたＫ個のクラスタに
属する話者の音声波形データに基づいて、所定の学習ア
ルゴリズムを用いて、所定の初期隠れマルコフモデルを
学習することにより、複数Ｋ個のクラスタに対応する複
数Ｋ個の隠れマルコフモデルを生成するクラスタリング
処理手段とを備えたことを特徴とする話者クラスタリン
グ処理装置。
【請求項２】請求項１記載の話者クラスタリング処理
装置において、上記声道形状の特徴量は、話者の声道の口腔側の第１の
長さと、その咽頭腔側の第２の長さとであることを特徴
とする話者クラスタリング処理装置。
【請求項３】請求項１記載の話者クラスタリング処理
装置において、上記声道形状の特徴量は、話者の声道長であることを特
徴とする話者クラスタリング処理装置。
【請求項４】請求項１乃至３のうちの１つに記載のク
ラスタリング処理装置によって生成された複数Ｋ個の隠
れマルコフモデルを用いて、入力された発声音声を音声
認識する音声認識装置であって、請求項１記載のクラスタリング処理手段によって生成さ
れた複数Ｋ個の隠れマルコフモデルを記憶する第２の記
憶装置と、上記第２の記憶装置に記憶された複数Ｋ個の隠れマルコ
フモデルにそれぞれ属する話者クラスタの声道形状の特
徴量の情報を記憶する第３の記憶装置と、音声認識すべき認識話者の発声音声に基づいて、認識話
者の声道形状の特徴量を、所定の標準話者の声道モデル
に基づいて予め決められた声道形状パラメータとフォル
マント周波数との間の対応関係を参照して推定する第２
の推定手段と、上記第２の推定手段によって推定された認識話者の声道
形状の特徴量と、上記第３の記憶装置に記憶された話者
クラスタの声道形状の特徴量の情報とを比較することに
より、認識話者の声道形状の特徴量に最も近い話者クラ
スタの声道形状の特徴量を有する少なくとも１つの隠れ
マルコフモデルを、上記第２の記憶装置に記憶された複
数Ｋ個の隠れマルコフモデルから選択する話者モデル選
択手段と、上記話者モデル選択手段によって選択された隠れマルコ
フモデルを参照して、入力された認識話者の発声音声を
音声認識して、その音声認識結果を出力する音声認識手
段とを備えたことを特徴とする音声認識装置。
【請求項５】請求項１乃至３のうちの１つに記載のク
ラスタリング処理装置によって生成された複数Ｋ個の隠
れマルコフモデルを用いて、入力された発声音声を音声
認識する音声認識装置であって、請求項１記載のクラスタリング処理手段によって生成さ
れた複数Ｋ個の隠れマルコフモデルを記憶する第２の記
憶装置と、所定の不特定話者の隠れマルコフモデルを参照して、入
力された認識話者の発声音声を音声認識する第１の音声
認識手段と、上記第１の音声認識手段による音声認識結果と、上記入
力された発声音声とに基づいて、上記第２の記憶装置に
格納された複数Ｋ個の隠れマルコフモデルのうち、最大
の尤度を有する最適な少なくとも１つの隠れマルコフモ
デルを選択する話者モデル選択手段と、上記話者モデル選択手段によって選択された隠れマルコ
フモデルを参照して、上記入力された発声音声を再び音
声認識して、その音声認識結果を出力する第２の音声認
識手段とを備えたことを特徴とする音声認識装置。