JP2965537B2 - 話者クラスタリング処理装置及び音声認識装置 - Google Patents

話者クラスタリング処理装置及び音声認識装置

Info

Publication number
JP2965537B2
JP2965537B2 JP9339881A JP33988197A JP2965537B2 JP 2965537 B2 JP2965537 B2 JP 2965537B2 JP 9339881 A JP9339881 A JP 9339881A JP 33988197 A JP33988197 A JP 33988197A JP 2965537 B2 JP2965537 B2 JP 2965537B2
Authority
JP
Japan
Prior art keywords
speaker
vocal tract
hidden markov
model
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP9339881A
Other languages
English (en)
Other versions
JPH11175090A (ja
Inventor
正樹 内藤
リー・デン
芳典 匂坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Original Assignee
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk filed Critical Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority to JP9339881A priority Critical patent/JP2965537B2/ja
Priority to US09/208,590 priority patent/US5983178A/en
Publication of JPH11175090A publication Critical patent/JPH11175090A/ja
Application granted granted Critical
Publication of JP2965537B2 publication Critical patent/JP2965537B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Prostheses (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声波形データに
基づいて話者クラスタリングして複数のクラスタの隠れ
マルコフモデル(以下、HMMという。)を生成する話
者クラスタリング処理装置と、上記話者クラスタリング
処理装置によって生成された複数のクラスタのHMMの
中から音声認識すべき話者に最適なHMMを選択して音
声認識する音声認識装置とに関する。
【0002】
【従来の技術】音声認識への男女別音響モデルの利用は
認識性能の向上を図る上で有効な手段である。しかし、
同性内においても、依然多くの異なる特徴を有した話者
が存在することから、さらに話者を細分化してモデル化
を行なうための話者クラスタリングの手法が提案されて
いる。例えば、特開平7−261785号公報において
は、木構造により表現される階層的な話者クラスタリン
グ手法と、木構造話者クラスタからの話者クラスタ選択
による高速な話者適応手法を提案しており、この手法は
話者適応を行う際の初期モデルとしても有効であること
が、例えば、特開平8−110792号公報において開
示されている。
【0003】このような話者クラスタリング手法によ
り、効率の良い話者クラスタを得るためには、適切な話
者間距離を設定する必要がある。従来の話者クラスタリ
ングに関する研究においては、クラスタリングの際の話
者間の距離として、音響的な特徴量、特に特定話者HM
Mのような認識に用いる音響モデル間の距離が多く用ら
れてきた。
【0004】
【発明が解決しようとする課題】しかしながら、これら
の従来技術のように、特定話者HMMのような認識に用
いる音響モデル間の距離を用いて話者クラスタリングす
る場合、より良い音声認識率を得るためには、大量の音
声波形データが必要であって大きな記憶容量のメモリを
必要とするとともに、話者クラスタリングするときの演
算量が非常に大きくなるという問題点があった。また、
比較的少量の音声波形データを用いて話者クラスタリン
グしたHMMを用いて音声認識したときは、音声認識率
がいまだ低いという問題点があった。
【0005】本発明の目的は以上の問題点を解決し、少
量の音声波形データを用いて話者クラスタリングしたH
MMを用いて音声認識したときに、従来技術に比較して
より高い音声認識率を得ることができる話者クラスタリ
ング処理装置及び音声認識装置を提供することにある。
【0006】
【課題を解決するための手段】本発明に係る請求項1記
載の話者クラスタリング処理装置は、複数N人の話者の
音声波形データを記憶する第1の記憶装置と、上記第1
の記憶装置に記憶された複数N人の話者の音声波形デー
タに基づいて、各話者の声道の解剖学的形状である声道
形状の特徴量を、所定の標準話者の声道モデルに基づい
て予め決められた声道形状パラメータとフォルマント周
波数との間の対応関係を参照して推定する第1の推定手
段と、上記第1の推定手段によって推定されたN人の声
道形状の特徴量に基づいて、N人の話者間相互の話者間
距離を計算し、計算された話者間距離に基づいて、所定
のクラスタリングアルゴリズムを用いて、N人の話者の
声道形状についてクラスタリングすることにより、所定
の複数K個のクラスタを生成し、生成されたK個のクラ
スタに属する話者の音声波形データに基づいて、所定の
学習アルゴリズムを用いて、所定の初期隠れマルコフモ
デルを学習することにより、複数K個のクラスタに対応
する複数K個の隠れマルコフモデルを生成するクラスタ
リング処理手段とを備えたことを特徴とする。
【0007】また、請求項2記載の話者クラスタリング
処理装置は、請求項1記載の話者クラスタリング処理装
置において、上記声道形状の特徴量は、話者の声道の口
腔側の第1の長さと、その咽頭腔側の第2の長さとであ
ることを特徴とする。さらに、請求項3記載の話者クラ
スタリング処理装置は、請求項1記載の話者クラスタリ
ング処理装置において、上記声道形状の特徴量は、話者
の声道長であることを特徴とする。
【0008】本発明に係る請求項4記載の音声認識装置
は、請求項1乃至3のうちの1つに記載のクラスタリン
グ処理装置によって生成された複数K個の隠れマルコフ
モデルを用いて、入力された発声音声を音声認識する音
声認識装置であって、請求項1記載のクラスタリング処
理手段によって生成された複数K個の隠れマルコフモデ
ルを記憶する第2の記憶装置と、上記第2の記憶装置に
記憶された複数K個の隠れマルコフモデルにそれぞれ属
する話者クラスタの声道形状の特徴量の情報を記憶する
第3の記憶装置と、音声認識すべき認識話者の発声音声
に基づいて、認識話者の声道形状の特徴量を、所定の標
準話者の声道モデルに基づいて予め決められた声道形状
パラメータとフォルマント周波数との間の対応関係を参
照して推定する第2の推定手段と、上記第2の推定手段
によって推定された認識話者の声道形状の特徴量と、上
記第3の記憶装置に記憶された話者クラスタの声道形状
の特徴量の情報とを比較することにより、認識話者の声
道形状の特徴量に最も近い話者クラスタの声道形状の特
徴量を有する少なくとも1つの隠れマルコフモデルを、
上記第2の記憶装置に記憶された複数K個の隠れマルコ
フモデルから選択する話者モデル選択手段と、上記話者
モデル選択手段によって選択された隠れマルコフモデル
を参照して、入力された認識話者の発声音声を音声認識
して、その音声認識結果を出力する音声認識手段とを備
えたことを特徴とする。
【0009】また、本発明に係る請求項5記載の音声認
識装置は、請求項1乃至3のうちの1つに記載のクラス
タリング処理装置によって生成された複数K個の隠れマ
ルコフモデルを用いて、入力された発声音声を音声認識
する音声認識装置であって、請求項1記載のクラスタリ
ング処理手段によって生成された複数K個の隠れマルコ
フモデルを記憶する第2の記憶装置と、所定の不特定話
者の隠れマルコフモデルを参照して、入力された認識話
者の発声音声を音声認識する第1の音声認識手段と、上
記第1の音声認識手段による音声認識結果と、上記入力
された発声音声とに基づいて、上記第2の記憶装置に格
納された複数K個の隠れマルコフモデルのうち、最大の
尤度を有する最適な少なくとも1つの隠れマルコフモデ
ルを選択する話者モデル選択手段と、上記話者モデル選
択手段によって選択された隠れマルコフモデルを参照し
て、上記入力された発声音声を再び音声認識して、その
音声認識結果を出力する第2の音声認識手段とを備えた
ことを特徴とする。
【0010】
【0011】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0012】図1は、本発明に係る一実施形態である音
声認識装置の構成を示すブロック図である。本実施形態
の音声認識装置は、声道形状推定部10と、話者クラス
タリング処理部11と、話者モデル選択部12とを備え
たことを特徴とする。図1において、特に、本実施形態
の音声認識装置は、 (a)複数N人の話者の音声波形データを記憶する音声
波形データメモリ22と、 (b)音声波形データメモリ22に記憶された複数N人
の話者の音声波形データに基づいて、各話者の声道の解
剖学的形状である声道形状の特徴量を、空間対応テーブ
ルメモリ21に記憶され、所定の標準話者の声道モデル
に基づいて予め決められた声道形状パラメータとフォル
マント周波数との間の対応関係である空間対応テーブル
を参照して推定した後、上記推定されたN人の声道形状
の特徴量に基づいて、N人の話者間相互の話者間距離を
計算し、計算された話者間距離に基づいて、所定のクラ
スタリングアルゴリズムを用いて、N人の話者の声道形
状についてクラスタリングすることにより、所定の複数
K個のクラスタを生成し、生成されたK個のクラスタに
属する話者の音声波形データに基づいて、所定のML学
習アルゴリズムを用いて、初期HM網メモリ25に記憶
された所定の初期隠れマルコフモデルを学習することに
より、複数K個のクラスタに対応する複数K個の隠れマ
ルコフモデルを生成する話者クラスタリング処理部11
と、 (c)話者クラスタリング処理部11によって生成され
た複数K個の隠れマルコフモデルを記憶する隠れマルコ
フ網メモリ(以下、HM網メモリという。)24と、 (d)HM網メモリ24に記憶された複数K個の隠れマ
ルコフモデルにそれぞれ属する話者クラスタの声道形状
の特徴量の情報を記憶する話者クラスタ情報メモリ23
と、 (e)音声認識すべき認識話者の発声音声に基づいて、
認識話者の声道形状の特徴量を、所定の標準話者の声道
モデルに基づいて予め決められた声道形状パラメータと
フォルマント周波数との間の対応関係を参照して推定す
る声道形状推定部10と、 (f)声道形状推定部10によって推定された認識話者
の声道形状の特徴量と、話者クラスタ情報メモリ23に
記憶された話者クラスタの声道形状の特徴量の情報とを
比較することにより、認識話者の声道形状の特徴量に最
も近い話者クラスタの声道形状の特徴量を有する少なく
とも1つの隠れマルコフモデルを、HM網24に記憶さ
れた複数K個の隠れマルコフモデルから選択する話者モ
デル選択部12と、 (g)話者モデル選択部12によって選択された隠れマ
ルコフモデルを参照して、入力された認識話者の発声音
声を音声認識して、その音声認識結果を出力する音声認
識手段である音素照合部5及びLRパーザ6とを備えた
ことを特徴としている。ここで、本実施形態では、上記
声道形状の特徴量は、好ましくは、図4に示すように、
話者の声道の口腔側の第1の長さl1と、その咽頭腔側
の第2の長さl2とであり、もしくは、話者の声道長V
TLである。
【0013】まず、話者クラスタリングに用いる人間の
声道の解剖学的な形状(以下、声道形状という。)の特
徴量とその推定法について述べる。話者正規化に関する
研究においては、主に話者の声道長VTL(Vocal Trac
t Length)に着目して正規化が行なわれる。しかしなが
ら、声道長VTLのみで特徴づけられる話者の音声の音
響的な特徴には限界がある(例えば、従来技術文献1
「G.Fant,“Non-uniformvowel normalization",Speech
Transmission Laboratory Quarterly Progressand Stat
us Report,Vol.2-3,1975,pp.1-19」参照。)。そこで、
本実施形態では話者クラスタリングに用いる声道形状の
特徴量として声道を、図4に示すように、前方(口腔
側)と後方(咽頭腔側)の2つの区間に分割し、そのそ
れぞれの長さl1,l2(以下、声道パラメータとい
う。)の2つのパラメータを用いる。この声道パラメー
タを選択した理由は、以下の通りである。 (1)声道の前方、後方の長さにより話者の発声する音
声は大きな影響を受ける(例えば、従来技術文献1参
照。)。 (2)この声道パラメータの比較的簡単な推定法が提案
されている。 (3)話者正規化の研究で一般に用いられる声道長から
の簡単な拡張である。 なお、口腔側と咽頭腔側の2つの区間に分割する点は、
好ましくは、口腔と咽頭との間の中間点付近に定められ
る。
【0014】本実施形態では、声道パラメータl1,l2
の推定には、話者の2母音/a/,/i/の各フォルマ
ント周波数F1,F2,F3を用いて、以下に述べるフォ
ルマント周波数空間から声道パラメータ空間へのマッピ
ング手法により推定を行なう。声道パラメータl1,l2
の推定には下記の声道モデルを使用する。
【0015】人間の声道形状のモデル化を行う場合は、
一般に、図4に示すように。声道をn個所で輪切りにし
た際の各断面の面積と断面間の距離dm−1によりモデ
ル化される。このモデルを用いることで、各話者の声道
形状に基づいて、話者が発する音声を生成することが可
能である。一方、音声認識装置に用いる場合、このよう
な声道形状を測定することは困難であるため、各話者の
発した音声に基づいて、声道形状を推定する必要があ
る。このような声道形状の特徴量のうち、特に、声道の
口腔側の長さl1と咽頭腔側の長さl2や声道長VTLが
各話者が発する音声に大きな影響を与えるために、これ
らの特徴量を、声道形状の特徴量として用いる。
【0016】ここで、話者の声道形状の特徴量として、
声道を断面SMmにおいて、口腔側と咽頭腔側の2つの
区間に分割した際の、それぞれの長さl1,l2を用いる
場合、これらの特徴量は、前述した声道形状のモデルに
基づいて次式により計算される。
【0017】
【数1】
【数2】
【0018】また、話者の声道形状の特徴量として、声
道長VTLを用いる場合、この特徴量は、前述した声道
形状のモデルに基づいて次式により計算される。
【0019】
【数3】
【0020】上述のモデルは、話者の声道形状を発声す
る音素に依存しない2つのパラメータ、すなわち、声道
の口腔側の長さl1と声道の咽頭腔側の長さl2により表
す。この声道モデルにおいて、標準話者の声道パラメー
タl1,l2と各母音に対応する声道面積関数を用意し、
2つの声道パラメータl1,l2をそれぞれ独立に何倍か
に伸縮した後に、音声を生成することで、異なる形状の
声道から発せられる各母音のフォルマント周波数を得る
ことが可能である。さらに、本実施形態では、この声道
パラメータの伸縮率を何種類も変化させることにより、
標準話者の声道パラメータに対する伸縮率とそれに対応
する各母音フォルマント周波数を求める。これにより、
図5及び図6に示すように、2次元の声道パラメータの
伸縮率空間上の近接する3点により形成される小平面P
QRと、それに対応するフォルマント周波数空間上の小
平面pqrが得られる。ここで、声道パラメータの伸縮
率空間は、声道パラメータの正規化空間ともいえる。な
お、図5(b)において、フォルマント周波数空間は、
母音/a/のフォルマント周波数F1,F2,F3と、母
音/i/のフォルマント周波数F1,F2,F3とで6次
元を有する空間である。
【0021】声道パラメータの推定は、逆にこのフォル
マント周波数空間上の小平面から声道パラメータの伸縮
率空間上の小平面上へのマッピングにより行なう。声道
パラメータの推定手順を以下に示す。
【0022】図2は、図1の声道形状推定部10によっ
て実行される声道形状推定処理を示すフローチャートで
ある。この推定処理に先立って、標準話者の声道パラメ
ータに基づいて、声道パラメータの伸縮率空間上の小平
面とフォルマント周波数空間上の小平面との間の空間対
応テーブルを作成して空間対応テーブルメモリ21に格
納する。当該空間対応テーブルにおいては、声道パラメ
ータの伸縮率空間上の小平面のパラメータセットと、フ
ォルマント周波数空間上の小平面のパラメータセットと
の複数の組が格納される。図2のステップS1で、ま
ず、音声認識すべき話者は、母音/a/,/i/を発声
してその発声音声が図1のマイクロホン1に入力されて
音声信号に変換された後、A/D変換器2によってディ
ジタル音声信号にA/D変換される。当該ディジタル音
声信号は、スイッチSW1のb側を介して声道形状推定
部10に入力される。これに応答して、声道形状推定部
10は、図5に示すように、入力されたディジタル音声
信号に基づいて、声道パラメータl1,l2を推定する話
者について、母音/a/,/i/のフォルマント周波数
の組s(F1,F2,F3)を求める。次いで、ステップ
S2で、図6に示すように、フォルマント周波数の空間
上で、ステップS1で求めたフォルマント周波数の組s
に最も近い小平面pqrを求める。さらに、ステップS
3で、図5及び図6に示すように、フォルマント周波数
の組sをステップS2で求めた小平面pqrに射影し
て、フォルマント周波数の組sを求めた後、空間対応テ
ーブルメモリ21内の空間対応テーブルを参照して、対
応する声道パラメータの伸縮率空間上の小平面PQR上
で線形関数(数5)により声道パラメータl1,l2の伸
縮率Sを求める。
【0023】
【数4】s'=pq+a1・→v1+a2・→v2
【数5】S=PQ+A1・→V1+A2・→V2
【数6】
【0024】図6における線分pq(上線)及び線分P
Q(上線)については、本明細書において、上線を用い
ることができないため、数4及び数5において下線を用
いている。また、→v1は、ベクトルv1を示し、→
2、→V1、→V2についてもベクトルを示す。数4
は、射影後のフォルマント周波数の組s’は、線分pq
と、ベクトル→v1と、ベクトル→v2との線形結合で表
わすことができることを示し、数5は、変換後のフォル
マント周波数の組Sは、線分PQと、ベクトル→V
1と、ベクトル→V2との線形結合で表わすことができる
ことを示し、数6は、フォルマント周波数空間上の小平
面pqrと、声道パラメータの伸縮率空間上の小平面P
QRとの間の対応関係を表している。
【0025】さらに、ステップS4では、標準話者の声
道パラメータl1,l2に、ステップS3で求められた各
声道パラメータl1,l2の伸縮率Sを掛け合わせ、目的
の話者の声道パラメータl1,l2を得て、得られた声道
パラメータl1,l2をバッファメモリ7を介して話者モ
デル選択部12に出力する。
【0026】次いで、話者クラスタリング処理部11の
処理について述べる。本実施形態では、以下に話者間距
離を用い、公知のスプリット(SPLIT)法で用いら
れたアルゴリズムによりクラスタリングを行った。この
手法では、あらかじめ全話者間の距離を計算しておき、
この結果を参照しながらクラスタ内の話者間距離の総和
が最大となるクラスタから順次分割を行う。スプリット
(SPLIT)法は歪みが最大となるクラスタから順に
分割する点が一般的なLBGアルゴリズムと異なり、ク
ラスタリングの終了条件としてクラスタの総数を指定す
ることで、任意の数の話者クラスタを生成することが可
能である。
【0027】種々の話者間距離による話者クラスタの比
較を行うため、以下に示す4種類のパラメータを用い
て、話者間距離を求めクラスタリングに用いた。ここ
で、声道パラメータl1,l2及び声道長VTLは本発明
に係る実施形態であるが、他の2つは比較例である。 (1)声道パラメータl1,l2、(2)声道長VTL=
1+l2、(3)上記(1),(2)の推定に用いた母
音/a//i/のフォルマント周波数、及び(4)特定
話者HMM間の距離。
【0028】上記(1),(2),(3)については、
各話者のパラメータ間のユークリッド距離を用いた。上
記(4)については、特開平07−261785号公報
における装置で用いられたバタッチャリア(Bhatt
acharyya)距離に基づく以下の話者間距離を使
用する。話者間距離の計算に先立ち、まず、バーム・ウ
エルチ(Baum−Welch)アルゴリズムや話者適
応手法を用い、同一の構造を持つ特定話者HMMを学習
する。構造の等しい2つのHMMM1とM2の間の距離を
次式のように定義する。ここでは、HMMの状態遷移確
率等は考慮せず、HMMの出力確率間の距離d
(bi (1),bi (2))により定義している。
【0029】
【数7】
【0030】ここで、bi (j)はMjの状態iにおける出
力確率分布を、NはMjの状態数を示す。また、出力確
率分布を単一ガウス分布とし、出力確率間の距離d(b
i (1),bi (2))をバタッチャリア(Bhattacha
ryya)距離に基づく次式により定める。
【0031】
【数8】d(b(1),b(2))=(1/8)(μ1−μ2
t[(Σ1+Σ2)/2]-1(μ1−μ2)+(1/2)l
n[|(Σ1+Σ2)/2|/(|Σ11/2|Σ
21/2)]
【0032】ここで、μj,ΣjはそれぞれHMMMj
平均ベクトル、共分散行列を表す。
【0033】さらに、木構造の各ノードで行なう話者ク
ラスタリングのアルゴリズムについて詳述する。ここで
は、スプリット(SPLIT)法で用いられたクラスタ
リングアルゴリズムに基づく方法を用いている。この方
法では、2のべき乗のクラスタを作成する一般的な従来
のLBGアルゴリズムとは異なり、歪みが最大となるク
ラスタを順次分割する。従って任意の数のクラスタを作
成できる。またクラスタリングを行なう前に、あらかじ
め要素間の距離テーブルを作成する。これにより、クラ
スタ中心の初期値をヒューリスティックに(偶発的に又
は発見的に)与えなくとも良いという利点がある。結局
あらかじめ与える必要があるのは距離に対するしきい
値、又はクラスタ数のみで、この値さえ与えれば完全に
自動的に結果が得られる。
【0034】上述の話者クラスタリング法を用いて話者
クラスタを生成する方法について述べる。ここでは、最
終的なクラスタ数Kを与えるだけで自動的にクラスタの
作成を行う。図3は、図1の話者クラスタリング処理部
11によって実行される話者クラスタリング処理を示す
フローチャートである。まず、図3のステップS11で
は、音声波形データメモリ22内に予め格納された複数
N人の音声データから、声道形状推定部10の推定法と
同様に、空間対応テーブルメモリ21内の空間対応テー
ブルを参照して声道形状推定処理を実行することによ
り、各話者の声道形状の特徴量を推定する。次いで、ス
テップS12で、次式を用いて、声道形状の特徴量に基
づいて、複数N人の話者間相互の話者間距離を計算す
る。ここで、例えば、話者SjのD次元の声道形状の特
徴量のベクトルをPj(i)とすると、2人の話者S1
2との話者間の距離d(S1,S2)は、例えばユーク
リッド距離を用いることで次式により求められる。本実
施形態において、例えば、声道形状の特徴量として声道
パラメータl1,l2を用いるときは、D=2となる。
【0035】
【数9】
【0036】次いで、ステップS13で、上述のスプリ
ット法のクラスタリングアルゴリズムを用いて、声道形
状の特徴量による上記計算された話者間距離に基づい
て、複数N人の話者の声道形状についてクラスタリング
を行い、複数K個のクラスタを作成して、各クラスタの
上記特徴量のパラメータの平均値を演算して、話者クラ
スタ情報メモリ23に格納する。すなわち、話者クラス
タ情報メモリ23には、複数K個のクラスタの各クラス
タ毎に、例えば声道パラメータl1,l2又は声道長VT
Lの平均値が格納される。さらに、ステップS14にお
いて、ステップS13で得られたK個のクラスタに属す
る話者の音声波形データ(音声波形データメモリ22内
に格納された)に基づいて、最尤推定(ML)学習アル
ゴリズムを用いて、初期HM網メモリ25内の所定の初
期HM網を学習することにより、各クラスタに対応する
K個のHM網を作成して、HM網メモリ24に格納す
る。
【0037】さらに、話者モデル選択部12、音素照合
部5及びLRパーザ6の処理、すなわち、本実施形態に
係る話者クラスタモデルによる不特定話者音声認識方法
について述べる。本実施形態では、まず話者に声道形状
の特徴量の推定に必要な音声の発声を依頼し、発声され
た音声をもとに最適な話者クラスタを選択する。上記話
者クラスタリングによる不特定話者音声認識のアルゴリ
ズムは次のステップによる。 <ステップSS1>スイッチSW1をb側に切り換え、
認識すべき話者に指定した音声(例えば、母音/a/,
/i/)の発声を要求する。 <ステップSS2>声道形状推定部10では、入力され
た音声から話者の声道形状の推定を行う。 <ステップSS3>話者モデル選択部12では、声道形
状推定部10で推定された声道形状と、話者クラスタ情
報メモリ23内の話者クラスタ情報に基づいて、話者モ
デルの選択を行う。上記(1)乃至(3)の処理を話者
モデル選択処理という。 <ステップSS4>スイッチSW1をa側に切り換え、
ステップSS3で選択された話者モデルのHM網を用い
て、音素照合部5及びLRパーザ6において話者が発声
した音声の音声認識を行う。当該処理を音声認識処理と
いう。
【0038】次いで、本実施形態におけるSSS−LR
(left-to-right rightmost型)不特定話者連続音声認
識装置について説明する。この装置は、HM網メモリ2
4に格納されたHM網と呼ばれる音素環境依存型の効率
のよいHMMの表現形式を用いている。また、上記SS
Sにおいては、音素の特徴空間上に割り当てられた確率
的定常信号源(状態)の間の確率的な遷移により音声パ
ラメータの時間的な推移を表現した確率モデルに対し
て、尤度最大化の基準に基づいて個々の状態をコンテキ
スト方向又は時間方向へ分割するという操作を繰り返す
ことによって、モデルの精密化を逐次的に実行する。
【0039】図1の音声認識装置の音声認識処理におい
て、話者の発声音声はマイクロホン1に入力されて音声
信号に変換された後、音声信号がA/D変換器2によっ
てディジタル音声信号にA/D変換される。当該ディジ
タル音声信号は、スイッチSW1のa側を介して特徴抽
出部3に入力される。特徴抽出部3は、入力されたディ
ジタル音声信号に対して、例えばLPC分析を実行し、
対数パワー、16次ケプストラム係数、Δ対数パワー及
び16次Δケプストラム係数を含む34次元の特徴パラ
メータを抽出する。抽出された特徴パラメータの時系列
はバッファメモリ4を介して音素照合部5に入力され
る。
【0040】音素照合部5に接続されるHM網メモリ2
4内のHM網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施形態において用いるHM網は、各分布がど
の話者に由来するかを特定する必要があるため、所定の
話者混合HM網を変換して作成する。ここで、出力確率
密度関数は34次元の対角共分散行列をもつ混合ガウス
分布であり、各分布はある特定の話者のサンプルを用い
て学習されている。また、文脈自由文法メモリ(CFG
メモリ)9内の所定の文脈自由文法(CFG)は、公知
の方法で自動的にLRテーブルに変換してLRテーブル
メモリ8に格納される。
【0041】話者モデル選択部12に接続される、話者
クラスタ情報メモリ33内には各話者クラスタ内の話者
の標準的な声道形状の特徴量が予め格納される。標準的
な特徴量としては、各クラスタ内の話者の声道形状の特
徴量の平均値等が利用可能である。また、各話者クラス
タ内の標準的な声道形状とHM網メモリ24に格納され
ているHM網が一対一に対応する。
【0042】話者モデル選択処理において、声道形状推
定部10では入力されたディジタル音声信号に基づい
て、話者の声道形状の推定を行う。話者モデル選択部1
2では、話者クラスタ情報メモリ33に保存されている
各話者クラスタの標準的な声道形状と、声道形状推定部
10で推定された話者の声道形状の比較を行い、最も近
い声道形状(例えば、声道パラメータl1,l2又は声道
長VTL)を有する話者クラスタを選択する。そして、
選択した話者クラスタモデル(HM網)の話者クラスタ
を示す選択信号をHM網メモリ24に出力して、音素照
合部5で用いる話者クラスタモデル(以下、指定話者モ
デルという。)のHM網を指定する。
【0043】そして、音声認識処理において、音素照合
部5は、音素コンテキスト依存型LRパーザ6からの音
素照合要求に応じて音素照合処理を実行する。このとき
に、LRパーザ6からは、音素照合区間及び照合対象音
素とその前後の音素から成る音素コンテキスト情報が渡
される。音素照合部5は、受け取った音素コンテキスト
情報に基づいて、上記指定話者モデルを用いて音素照合
区間内のデータに対する尤度が計算され、この尤度の値
が音素照合スコアとしてLRパーザ6に返される。これ
に応答して、LRパーザ6は、LRテーブルメモリ8内
のLRテーブルを参照して、入力された音素予測データ
について左から右方向に、後戻りなしに処理する。構文
的にあいまいさがある場合は、スタックを分割してすべ
ての候補の解析が平行して処理される。LRパーザ6
は、LRテーブルから次にくる音素を予測して音素予測
データを音素照合部5に出力する。これに応答して、音
素照合部5は、その音素に対応する上記指定話者モデル
に関するHM網メモリ24内の情報を参照して照合し、
その尤度を音声認識スコアとしてLRパーザ6に戻し、
順次音素を連接していくことにより、連続音声の認識を
行う。ここで、複数の音素が予測された場合は、これら
すべての存在をチェックし、ビームサーチの方法によ
り、部分的な音声認識の尤度の高い部分木を残すという
枝刈りを行って高速処理を実現する。入力された話者音
声の最後まで処理した後、全体の尤度が最大のもの又は
所定の上位複数個のものを、当該装置の認識結果データ
として外部装置に出力する。
【0044】以上の実施形態において、特徴抽出部3、
音素照合部5、LRパーザ6、声道形状推定部10、話
者クラスタリング処理部11と、及び話者モデル選択部
12は、例えばディジタル計算機で構成され、また、バ
ッファメモリ4及び7空間対応テーブルメモリ21、音
声波形データメモリ22、話者クラスタ情報メモリ2
3、HM網メモリ24、LRテーブルメモリ8、CFG
メモリ9、及び初期HM網メモリ25は、例えばハード
デイスクメモリなどの記憶装置で構成される。
【0045】以上説明したように、本発明に係る実施形
態によれば、声道形状推定部10と話者クラスタリング
処理部11と話者モデル選択部12とを備えたので、各
話者の声道形状の特徴量は2母音程度の少量の音声から
推定可能であり、少ない音声データにより話者クラスタ
モデルを構築することが可能である。また、音声認識時
に少ない音声波形データに基づいて、話者クラスタモデ
ルの選択を行うことが可能であり高速な話者適応が実現
される。さらに、少量の音声波形データを用いて話者ク
ラスタリングしたHMMを用いて音声認識したときに、
従来技術に比較してより高い音声認識率を得ることがで
きる。
【0046】<変形例>当該変形例では、図1の音声認
識装置において、スイッチSW1がa側に固定され、声
道形状推定部10は削除され、特徴抽出部3から出力さ
れる特徴パラメータは、バッファメモリ4を介して話者
モデル選択部12にも入力され、さらに、認識結果の音
素系列がLRパーザ6から話者モデル選択部12にフィ
ードバックされるように構成される。当該変形例では、
1発話のみの評価データで教師なし話者適応を行う。上
記話者クラスタリングによる不特定話者音声認識の方法
のアルゴリズムは、次のステップを含む。 <ステップSSS1> 音素照合部5とLRパーザ6
は、入力音声を不特定話者音素モデルを用いて認識す
る。以下、当該ステップの音声認識を第1の音声認識プ
ロセスという。 <ステップSSS2> 認識結果の音素系列をLRパー
ザ6から話者モデル選択部12にフィードバックし、話
者モデル選択部12は、上記ステップSSS1において
用いた入力音声と、この音素系列を入力として話者選択
を行なう。 <ステップSSS3> そして、音素照合部5とLRパ
ーザ6は、選択後の音素モデルを用いて入力音声を再び
音声認識してその結果データを出力する。以下、当該ス
テップの音声認識を第2の音声認識プロセスという。
【0047】上述のように、上記第1と第2の音声認識
プロセスの、2回の音声認識プロセスで最終的な音声認
識結果を確定する。本実施形態の音声認識方法で音声認
識率を向上するためには、誤認識するデータの認識率を
改善する必要がある。このため、誤った認識結果をフィ
ードバックしても、正しい方向へ学習をすすめる必要が
あるという本質的な問題がある。しかしながら、音声認
識結果データは文法などの知識によりある程度修正され
たものであり、さらに文節で評価した場合誤っているだ
けで、すべての音素系列が誤っているわけではない。実
際に音声認識誤りのデータを調べると、助詞の部分だけ
誤ったものが多い。このことから誤認識結果のフィード
バックでも話者適応は十分可能と考えられる。
【0048】第1の音声認識プロセスにおいて、音素照
合部5は、音素コンテキスト依存型LRパーザ6からの
音素照合要求に応じて音素照合処理を実行する。そし
て、例えば、最上層のレベル0の不特定話者モデルを用
いて音素照合区間内のデータに対する尤度が計算され、
この尤度の値が音素照合スコアとしてLRパーザ6に返
される。このときに用いられるモデルは、HMMと等価
であるために、尤度の計算には通常のHMMで用いられ
ている前向きパスアルゴリズムをそのまま使用する。L
Rパーザ6は、上記LRテーブル8を参照して、入力さ
れた音素予測データについて左から右方向に、後戻りな
しに処理する。構文的にあいまいさがある場合は、スタ
ックを分割してすべての候補の解析が平行して処理され
る。LRパーザ6は、LRテーブルメモリ8内のLRテ
ーブルから次にくる音素を予測して音素予測データを音
素照合部5に出力する。これに応答して、音素照合部5
は、その音素に対応するHM網メモリ24内の情報を参
照して照合し、その尤度を音声認識スコアとしてLRパ
ーザ6に戻し、順次音素を連接していくことにより、連
続音声の認識を行い、その音声認識結果データを話者モ
デル選択部12にフィードバックして出力する。上記連
続音声の認識において、複数の音素が予測された場合
は、これらすべての存在をチェックし、ビームサーチの
方法により、部分的な音声認識の尤度の高い部分木を残
すという枝刈りを行って高速処理を実現する。
【0049】次いで、これに応答して、話者モデル選択
部12は、バッファメモリ4から入力される上記特徴パ
ラメータのデータと、LRパーザ6からフィードバック
される第1の音声認識プロセスにおける音声認識結果デ
ータに基づいて、HM網メモリ24内の話者クラスタモ
デル群の中から最大の尤度を有する話者クラスタモデル
を選択する。そして、選択した話者クラスタモデルの話
者クラスタを示す選択信号をHM網メモリ24に出力し
て、音素照合部5で用いる話者クラスタモデル(以下、
指定話者モデルという。)を指定する。
【0050】そして、第2の音声認識プロセスにおい
て、音素照合部5は、音素コンテキスト依存型LRパー
ザ6からの音素照合要求に応じて音素照合処理を実行す
る。このときに、LRパーザ6からは、音素照合区間及
び照合対象音素とその前後の音素から成る音素コンテキ
スト情報が渡される。音素照合部5は、受け取った音素
コンテキスト情報に基づいて、上記指定話者モデルを用
いて音素照合区間内のデータに対する尤度が計算され、
この尤度の値が音素照合スコアとしてLRパーザ6に返
される。これに応答して、LRパーザ6は、第1の音声
認識プロセスと同様に、上記LRテーブル8を参照し
て、入力された音素予測データについて左から右方向
に、後戻りなしに処理する。構文的にあいまいさがある
場合は、スタックを分割してすべての候補の解析が平行
して処理される。LRパーザ6は、LRテーブルメモリ
8内のLRテーブルから次にくる音素を予測して音素予
測データを音素照合部5に出力する。これに応答して、
音素照合部5は、その音素に対応する上記指定話者モデ
ルに関するHM網メモリ24内の情報を参照して照合
し、その尤度を音声認識スコアとしてLRパーザ6に戻
し、順次音素を連接していくことにより、連続音声の認
識を行う。ここで、第1の音声認識プロセスと同様に、
複数の音素が予測された場合は、これらすべての存在を
チェックし、ビームサーチの方法により、部分的な音声
認識の尤度の高い部分木を残すという枝刈りを行って高
速処理を実現する。入力された話者音声の最後まで処理
した後、全体の尤度が最大のもの又は所定の上位複数個
のものを、当該装置の認識結果データとして外部装置に
出力する。 <変形例の説明終>
【0051】
【実施例】本発明者は、上述の音声認識装置の作用効果
を確かめるために以下の実験を行った。上述の話者間距
離を用い、男性話者148名を対象として話者クラスタ
リング処理を行った。まず、上述の声道形状推定処理の
方法により推定された各話者の声道の口腔側の長さ
1,咽頭腔側の長さl2,声道長VTL(=l1+l2
の分布をそれぞれ図7、図8及び図9に示す。ここで、
声道パラメータの推定に必要となる母音/a/,/i/
のフォルマント周波数の計算においては、本特許出願人
の音声データベースCset中の音素バランス文セット
Aに含まれる2単語、“b−a−a−i”,“f−a−
m−i−r−i−i”内の長母音を用い、各母音区間の
中央50%のフォルマント周波数の平均値を用いた。こ
れにより推定された各声道パラメータの平均値は、l1
=9.01cm,l2=7.10cm,VTL=16.
11cmであり、図7乃至図9から明らかなように、い
ずれについても滑らかな分布を示している。
【0052】本実験では、148名の話者を、3,5,
10,20,40クラスタに分割した。なお、バタッチ
ャリア(Bhattacharyya)距離の計算に必
要となる特定話者HMMの学習は次の表1の条件で行っ
た。全ての特定話者HMMは、同一の構造をもつ単一ガ
ウス分布200状態HM網(HMnet)で、学習には
特許出願人が所有する音声データベースCset中の音
素バランス文セットA50文を用い、バーム・ウエルチ
(Bawm−Welch)アルゴリズムにより学習を行
った。ただし、学習に用いる音声データ量が十分でない
ことから、学習により出力確率分布の分散の値が極端に
小さな値となるのを防ぐため、学習時に分散値が初期モ
デルより小さい値とならないよう制限を加えている。
【0053】
【表1】 HMM間の距離の算出に用いた特定話者HMM学習条件 ─────────────────────────────────── 分析条件: サンプリング周波数:12KHz 20msハミング窓 フレーム周期:5ms ─────────────────────────────────── 音響パラメータ: 16次LPC−ケプストラム係数+16次Δケプストラム係数 +Δ対数パワー ─────────────────────────────────── 学習条件: 学習データ:出願人が所有する音声データベースCset中の 音素バランス文セットA50文 HMMの構造:200状態1混合HM網 学習法:バーム・ウエルチ(Baum−Welch)アルゴリズムによる 学習、学習前より分散が小さくならないように制御 初期モデル:特定話者モデル(MHT) ───────────────────────────────────
【0054】4種の話者間距離、すなわち、(1)声道
パラメータl1,l2と、(2)声道長VTL=l1+l2
と、(3)母音/a//i/のフォルマント周波数と、
(4)特定話者HMM間の距離とを用いて5つのクラス
タに分割した結果をそれぞれ、図10、図11、図12
及び図13に示す。図中の各シンボルは、それぞれ異な
る話者の声道パラメータl1,l2を表し、クラスタリン
グの結果、同じクラスタに属した話者を同一のシンボル
で示すことで(l1,l2)空間上での各クラスタの分布
を表している。
【0055】図10乃至図13から明らかなように、用
いる話者間距離により生成されるクラスタは大きく異な
っている。声道パラメータl1,l2や声道長VTL間の
距離を用い得られたクラスタの場合は、クラスタリング
を行なった空間と、図中でクラスタリング結果を表示し
ている空間とが等しい、又は関連が強いため、明確なク
ラスタが観察できる(図10及び図11参照。)。ま
た、フォルマント周波数に基づいたクラスタ(図12)
の場合には(l1,l2)空間上のVTL=l1+l2の値
の小さい領域、及び値の大きい領域とに、クラスタが形
成されており、若干ではあるが、声道長を用いたクラス
タリングに似た傾向が見られた。しかしながら、特定話
者HMM間の距離を用いた場合(図13)には、得られ
た話者クラスタと(l1,l2)空間との間にはほとんど
関連が見られなかった。
【0056】次いで、本実施形態のクラスタリング手法
の評価を行なうため、各種話者間距離によるクラスタリ
ング結果に基づき作成された、話者クラスタHMMを用
い音声認識実験を行った。実験条件を次の表2に示す。
実験においては、認識対象となる6話者それぞれについ
て、本特許出願人が所有する音声データベースAset
SB1タスク中の7文節(51音素)を用いて、尤度を
基準とした話者クラスタの選択(変形例の話者モデル選
択処理)を行い、選ばれた話者クラスタHMMを用い、
そのSB1タスク中の249文節(1963音素)を認
識対象として音素タイプライタによる認識を行った。
【0057】
【表2】 話者クラスタHMMによる認識実験条件 ─────────────────────────────────── 分析条件: サンプリング周波数:12KHz 20msハミング窓 フレーム周期:5ms ─────────────────────────────────── 音響パラメータ: 16次LPC−ケプストラム係数+16次Δケプストラム係数 +Δ対数パワー ─────────────────────────────────── 話者クラスタHMMの学習条件: 学習データ:各話者クラスタに属する話者の音声波形データ 各話者 音素バランス文セットA50文を発声 HMMの構造:200状態1混合HM網 +1状態10混合無音モデル 学習法:バーム・ウエルチ(Baum−Welch)アルゴリズムによる 学習、学習前より分散が小さくならないように制御 初期モデル:男性不特定話者モデル(148話者で学習) ─────────────────────────────────── 話者クラスタ選択/認識対象データ: 認識対象話者:男性6名 (MAU,MMS,MNM,MTM,MTT,MXM) クラスタ選択:7文節(SB1タスク) 認識データ:249文節(SB1タスク) 音素タイプライタにより認識 ───────────────────────────────────
【0058】実験により得られた音素認識率を次の表3
に示す。表3には、各話者間距離として、(1)声道パ
ラメータl1,l2と、(2)声道長VTLと、(3)母
音/a/,/i/のフォルマント周波数と、(4)特定
話者HMM間の距離(HMM)とを用いて、3,5,1
0,20,40クラスタに分割した結果に基づく話者ク
ラスタHMMを用いた際の認識率を示している。比較の
ために、男性モデルによる認識結果(GD)も併せて記
した。
【0059】
【表3】 話者クラスタHMMによる認識実験結果(%) ─────────────────────────────────── クラスタリング クラスタ数 尺度 GD 3 5 10 20 40 ─────────────────────────────────── l1,l2 66.5 67.7 68.4 68.3 68.0 67.5 VTL − 67.7 67.5 68.0 67.2 66.7 フォルマント − 67.8 67.4 67.8 67.4 66.2 複数のHMM − 67.9 67.0 66.6 66.9 66.2 ─────────────────────────────────── (注)GDは男性モデルによる音声認識率である。
【0060】表3から明らかなように、どの話者間距離
においても、クラスタを過度に分割すると、モデルの頑
健性の低下から認識率の見られるが、適切な話者クラス
タ数を選択すれば、男性モデルにおける誤認識の3.8
−5.7%が削減されている。中でも、話者間距離とし
て声道パラメータl1,l2を用いた、5クラスタの話者
クラスタHMMが最も高い認識性能を示し、誤認識の
5.7%が削減された。声道長により得られた話者クラ
スタHMMがそれに続いている。
【0061】この声道パラメータを用い話者クラスタリ
ング実験を行なった結果、生成された話者クラスタの形
状は、音響的な距離尺度を基に得られたクラスタの形状
と大きく異なり、また、話者クラスタモデルの認識性能
の向上が見られた。本実施形態では、少量の音声波形デ
ータに基づいて、話者クラスタリングを行なうことが可
能であり、生成された話者クラスタに対して、声道形状
の類似という意味付けが可能となる。
【0062】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の話者クラスタリング処理装置によれば、複数N
人の話者の音声波形データを記憶する第1の記憶装置
と、上記第1の記憶装置に記憶された複数N人の話者の
音声波形データに基づいて、各話者の声道の解剖学的形
状である声道形状の特徴量を、所定の標準話者の声道モ
デルに基づいて予め決められた声道形状パラメータとフ
ォルマント周波数との間の対応関係を参照して推定する
第1の推定手段と、上記第1の推定手段によって推定さ
れたN人の声道形状の特徴量に基づいて、N人の話者間
相互の話者間距離を計算し、計算された話者間距離に基
づいて、所定のクラスタリングアルゴリズムを用いて、
N人の話者の声道形状についてクラスタリングすること
により、所定の複数K個のクラスタを生成し、生成され
たK個のクラスタに属する話者の音声波形データに基づ
いて、所定の学習アルゴリズムを用いて、所定の初期隠
れマルコフモデルを学習することにより、複数K個のク
ラスタに対応する複数K個の隠れマルコフモデルを生成
するクラスタリング処理手段とを備える。従って、各話
者の声道形状の特徴量は2母音程度の少量の音声から推
定可能であり、少ない音声データにより話者クラスタモ
デルを構築することが可能である。また、音声認識時に
少ない音声波形データに基づいて、話者クラスタモデル
の選択を行うことが可能であり高速な話者適応が実現さ
れる。さらに、少量の音声波形データを用いて話者クラ
スタリングしたHMMを用いて音声認識したときに、従
来技術に比較してより高い音声認識率を得ることができ
る。
【0063】また、本発明に係る請求項4記載の音声認
識装置によれば、請求項1乃至3のうちの1つに記載の
クラスタリング処理装置によって生成された複数K個の
隠れマルコフモデルを用いて、入力された発声音声を音
声認識する音声認識装置であって、請求項1記載のクラ
スタリング処理手段によって生成された複数K個の隠れ
マルコフモデルを記憶する第2の記憶装置と、上記第2
の記憶装置に記憶された複数K個の隠れマルコフモデル
にそれぞれ属する話者クラスタの声道形状の特徴量の情
報を記憶する第3の記憶装置と、音声認識すべき認識話
者の発声音声に基づいて、認識話者の声道形状の特徴量
を、所定の標準話者の声道モデルに基づいて予め決めら
れた声道形状パラメータとフォルマント周波数との間の
対応関係を参照して推定する第2の推定手段と、上記第
2の推定手段によって推定された認識話者の声道形状の
特徴量と、上記第3の記憶装置に記憶された話者クラス
タの声道形状の特徴量の情報とを比較することにより、
認識話者の声道形状の特徴量に最も近い話者クラスタの
声道形状の特徴量を有する少なくとも1つの隠れマルコ
フモデルを、上記第2の記憶装置に記憶された複数K個
の隠れマルコフモデルから選択する話者モデル選択手段
と、上記話者モデル選択手段によって選択された隠れマ
ルコフモデルを参照して、入力された認識話者の発声音
声を音声認識して、その音声認識結果を出力する音声認
識手段とを備える。従って、少量の音声波形データを用
いて話者クラスタリングしたHMMを用いて音声認識し
たときに、従来技術に比較してより高い音声認識率を得
ることができる。
【0064】さらに、本発明に係る請求項5記載の音声
認識装置によれば、請求項1乃至3のうちの1つに記載
のクラスタリング処理装置によって生成された複数K個
の隠れマルコフモデルを用いて、入力された発声音声を
音声認識する音声認識装置であって、請求項1記載のク
ラスタリング処理手段によって生成された複数K個の隠
れマルコフモデルを記憶する第2の記憶装置と、所定の
不特定話者の隠れマルコフモデルを参照して、入力され
た認識話者の発声音声を音声認識する第1の音声認識手
段と、上記第1の音声認識手段による音声認識結果と、
上記入力された発声音声とに基づいて、上記第2の記憶
装置に格納された複数K個の隠れマルコフモデルのう
ち、最大の尤度を有する最適な少なくとも1つの隠れマ
ルコフモデルを選択する話者モデル選択手段と、上記話
者モデル選択手段によって選択された隠れマルコフモデ
ルを参照して、上記入力された発声音声を再び音声認識
して、その音声認識結果を出力する第2の音声認識手段
とを備える。従って、少量の音声波形データを用いて話
者クラスタリングしたHMMを用いて音声認識したとき
に、従来技術に比較してより高い音声認識率を得ること
ができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である音声認識装置
の構成を示すブロック図である。
【図2】 図1の声道形状推定部10によって実行され
る声道形状推定処理を示すフローチャートである。
【図3】 図1の話者クラスタリング処理部11によっ
て実行される話者クラスタリング処理を示すフローチャ
ートである。
【図4】 (a)は人間の声道形状を示す断面図であ
り、(b)はそれをモデル化した、声道形状の断面SM
mのモデルSMm’を示す断面図である。
【図5】 図2の声道形状推定処理によって実行される
声道パラメータの伸縮率空間とフォルマント周波数空間
のマッピング手法を示す図であって、(a)は声道パラ
メータの伸縮率空間を示す図であり、(b)はフォルマ
ント周波数空間を示す図である。
【図6】 図2の声道形状推定処理によって実行される
声道パラメータの推定方法を示す図であって、(a)は
声道パラメータの伸縮率空間を示す図であり、(b)は
フォルマント周波数空間を示す図である。
【図7】 声道パラメータl1の分布を示すグラフであ
る。
【図8】 声道パラメータl2の分布を示すグラフであ
る。
【図9】 声道長VTLの分布を示すグラフである。
【図10】 声道パラメータl1,l2に基づく話者クラ
スタの一例を示すグラフである。
【図11】 声道長VTLに基づく話者クラスタの一例
を示すグラフである。
【図12】 フォルマント周波数に基づく話者クラスタ
の一例を示すグラフである。
【図13】 HMM間の距離に基づく話者クラスタの一
例を示すグラフである。
【符号の説明】
1…マイクロホン、 2…A/D変換器、 3…特徴抽出部、 4,7…バッファメモリ、 5…音素照合部、 6…LRパーザ、 8…LRテーブルメモリ、 9…文脈自由文法メモリ(CFGメモリ)、 10…声道形状推定部、 11…話者クラスタリング処理部、 12…話者モデル選択部、 21…空間対応テーブルメモリ、 22…音声波形データメモリ、 23…話者クラスタ情報メモリ、 24…隠れマルコフ網メモリ(HM網メモリ)、 25…初期HM網メモリ、 SW1…スイッチ。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G10L 9/10 301 G10L 9/10 301B (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (56)参考文献 電子情報通信学技術研究報告[音声 ]Vol.97,No.441,SP97−40, 「声道の特徴量を用いた話者クラスタリ ング手法の検討」,p.35−40,(1997 /12/11) 電子情報通信学技術研究報告[言語理 解とコミュニケーション]Vol.97, No.439,NLC97−40,「声道の特 徴量を用いた話者クラスタリング手法の 検討」,p.35−40,(1997/12/11) 情報処理学会研究報告[音声言語情報 処理]Vol.97,No.120,SLP 19,「声道の特徴量を用いた話者クラス タリング手法の検討」,p.35−40, (1997/12/11) 電子技術総合研究所彙報 Vol. 48,No.1&2,”Vomel Co nstancy on Antimet rical Vocal Tract Shapes between Mal es and Females”,p. 17−21,1984 電子技術総合研究所彙報 Vol. 48,No.1&2,”Vomel Co nstancy on Antimet rical Vocal Tract Shapes among Males Females and Child ren”,p.46−50,1984 (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 535 G10L 3/00 521 G10L 9/10 301 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 複数N人の話者の音声波形データを記憶
    する第1の記憶装置と、 上記第1の記憶装置に記憶された複数N人の話者の音声
    波形データに基づいて、各話者の声道の解剖学的形状で
    ある声道形状の特徴量を、所定の標準話者の声道モデル
    に基づいて予め決められた声道形状パラメータとフォル
    マント周波数との間の対応関係を参照して推定する第1
    の推定手段と、 上記第1の推定手段によって推定されたN人の声道形状
    の特徴量に基づいて、N人の話者間相互の話者間距離を
    計算し、計算された話者間距離に基づいて、所定のクラ
    スタリングアルゴリズムを用いて、N人の話者の声道形
    状についてクラスタリングすることにより、所定の複数
    K個のクラスタを生成し、生成されたK個のクラスタに
    属する話者の音声波形データに基づいて、所定の学習ア
    ルゴリズムを用いて、所定の初期隠れマルコフモデルを
    学習することにより、複数K個のクラスタに対応する複
    数K個の隠れマルコフモデルを生成するクラスタリング
    処理手段とを備えたことを特徴とする話者クラスタリン
    グ処理装置。
  2. 【請求項2】 請求項1記載の話者クラスタリング処理
    装置において、 上記声道形状の特徴量は、話者の声道の口腔側の第1の
    長さと、その咽頭腔側の第2の長さとであることを特徴
    とする話者クラスタリング処理装置。
  3. 【請求項3】 請求項1記載の話者クラスタリング処理
    装置において、 上記声道形状の特徴量は、話者の声道長であることを特
    徴とする話者クラスタリング処理装置。
  4. 【請求項4】 請求項1乃至3のうちの1つに記載のク
    ラスタリング処理装置によって生成された複数K個の隠
    れマルコフモデルを用いて、入力された発声音声を音声
    認識する音声認識装置であって、 請求項1記載のクラスタリング処理手段によって生成さ
    れた複数K個の隠れマルコフモデルを記憶する第2の記
    憶装置と、 上記第2の記憶装置に記憶された複数K個の隠れマルコ
    フモデルにそれぞれ属する話者クラスタの声道形状の特
    徴量の情報を記憶する第3の記憶装置と、 音声認識すべき認識話者の発声音声に基づいて、認識話
    者の声道形状の特徴量を、所定の標準話者の声道モデル
    に基づいて予め決められた声道形状パラメータとフォル
    マント周波数との間の対応関係を参照して推定する第2
    の推定手段と、 上記第2の推定手段によって推定された認識話者の声道
    形状の特徴量と、上記第3の記憶装置に記憶された話者
    クラスタの声道形状の特徴量の情報とを比較することに
    より、認識話者の声道形状の特徴量に最も近い話者クラ
    スタの声道形状の特徴量を有する少なくとも1つの隠れ
    マルコフモデルを、上記第2の記憶装置に記憶された複
    数K個の隠れマルコフモデルから選択する話者モデル選
    択手段と、 上記話者モデル選択手段によって選択された隠れマルコ
    フモデルを参照して、入力された認識話者の発声音声を
    音声認識して、その音声認識結果を出力する音声認識手
    段とを備えたことを特徴とする音声認識装置。
  5. 【請求項5】 請求項1乃至3のうちの1つに記載のク
    ラスタリング処理装置によって生成された複数K個の隠
    れマルコフモデルを用いて、入力された発声音声を音声
    認識する音声認識装置であって、 請求項1記載のクラスタリング処理手段によって生成さ
    れた複数K個の隠れマルコフモデルを記憶する第2の記
    憶装置と、 所定の不特定話者の隠れマルコフモデルを参照して、入
    力された認識話者の発声音声を音声認識する第1の音声
    認識手段と、 上記第1の音声認識手段による音声認識結果と、上記入
    力された発声音声とに基づいて、上記第2の記憶装置に
    格納された複数K個の隠れマルコフモデルのうち、最大
    の尤度を有する最適な少なくとも1つの隠れマルコフモ
    デルを選択する話者モデル選択手段と、 上記話者モデル選択手段によって選択された隠れマルコ
    フモデルを参照して、上記入力された発声音声を再び音
    声認識して、その音声認識結果を出力する第2の音声認
    識手段とを備えたことを特徴とする音声認識装置。
JP9339881A 1997-12-10 1997-12-10 話者クラスタリング処理装置及び音声認識装置 Expired - Fee Related JP2965537B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP9339881A JP2965537B2 (ja) 1997-12-10 1997-12-10 話者クラスタリング処理装置及び音声認識装置
US09/208,590 US5983178A (en) 1997-12-10 1998-12-10 Speaker clustering apparatus based on feature quantities of vocal-tract configuration and speech recognition apparatus therewith

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9339881A JP2965537B2 (ja) 1997-12-10 1997-12-10 話者クラスタリング処理装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JPH11175090A JPH11175090A (ja) 1999-07-02
JP2965537B2 true JP2965537B2 (ja) 1999-10-18

Family

ID=18331709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9339881A Expired - Fee Related JP2965537B2 (ja) 1997-12-10 1997-12-10 話者クラスタリング処理装置及び音声認識装置

Country Status (2)

Country Link
US (1) US5983178A (ja)
JP (1) JP2965537B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2986792B2 (ja) 1998-03-16 1999-12-06 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化処理装置及び音声認識装置

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
JP3412496B2 (ja) * 1998-02-25 2003-06-03 三菱電機株式会社 話者適応化装置と音声認識装置
JP3000999B1 (ja) * 1998-09-08 2000-01-17 セイコーエプソン株式会社 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
US6526379B1 (en) * 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
EP1134725A1 (de) * 2000-03-15 2001-09-19 Siemens Aktiengesellschaft Anpassung automatischer Spracherkennungssysteme an spezifische Charakteristika von einzelnen Sprechergruppen zur Verbesserung der Erkennungsleistung
US6961703B1 (en) * 2000-09-13 2005-11-01 Itt Manufacturing Enterprises, Inc. Method for speech processing involving whole-utterance modeling
EP1349491B1 (en) 2000-12-07 2013-04-17 Children's Medical Center Corporation Automated interpretive medical care system
ATE335195T1 (de) * 2001-05-10 2006-08-15 Koninkl Philips Electronics Nv Hintergrundlernen von sprecherstimmen
JP2003058185A (ja) * 2001-08-09 2003-02-28 Matsushita Electric Ind Co Ltd 音声認識装置
US6941264B2 (en) * 2001-08-16 2005-09-06 Sony Electronics Inc. Retraining and updating speech models for speech recognition
US7209881B2 (en) 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
WO2003077423A2 (en) 2002-03-08 2003-09-18 Quellan, Inc. High speed analog-to-digital converter using a unique gray code having minimal bit transitions
KR100435440B1 (ko) * 2002-03-18 2004-06-10 정희석 화자간 변별력 향상을 위한 가변 길이 코드북 생성 장치및 그 방법, 그를 이용한 코드북 조합 방식의 화자 인식장치 및 그 방법
WO2004008782A2 (en) 2002-07-15 2004-01-22 Quellan, Inc. Adaptive noise filtering and equalization
US7620547B2 (en) * 2002-07-25 2009-11-17 Sony Deutschland Gmbh Spoken man-machine interface with speaker identification
WO2004045078A2 (en) 2002-11-12 2004-05-27 Quellan, Inc. High-speed analog-to-digital conversion with improved robustness to timing uncertainty
US7050388B2 (en) 2003-08-07 2006-05-23 Quellan, Inc. Method and system for crosstalk cancellation
US7804760B2 (en) 2003-08-07 2010-09-28 Quellan, Inc. Method and system for signal emulation
US7328154B2 (en) * 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
US8229744B2 (en) * 2003-08-26 2012-07-24 Nuance Communications, Inc. Class detection scheme and time mediated averaging of class dependent models
JP4510832B2 (ja) 2003-11-17 2010-07-28 ケラン インコーポレイテッド アンテナ干渉消去のための方法およびシステム
US7616700B2 (en) 2003-12-22 2009-11-10 Quellan, Inc. Method and system for slicing a communication signal
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
JP2005292770A (ja) * 2004-03-10 2005-10-20 Advanced Telecommunication Research Institute International 音響モデル生成装置及び音声認識装置
CN1755796A (zh) * 2004-09-30 2006-04-05 国际商业机器公司 文本到语音转换中基于统计技术的距离定义方法和系统
US7522883B2 (en) 2004-12-14 2009-04-21 Quellan, Inc. Method and system for reducing signal interference
US7725079B2 (en) 2004-12-14 2010-05-25 Quellan, Inc. Method and system for automatic control in an interference cancellation device
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
JP4745094B2 (ja) 2006-03-20 2011-08-10 富士通株式会社 クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
US9252983B2 (en) 2006-04-26 2016-02-02 Intersil Americas LLC Method and system for reducing radiated emissions from a communications channel
US7805308B2 (en) * 2007-01-19 2010-09-28 Microsoft Corporation Hidden trajectory modeling with differential cepstra for speech recognition
JP5418223B2 (ja) 2007-03-26 2014-02-19 日本電気株式会社 音声分類装置、音声分類方法、および音声分類用プログラム
US7797158B2 (en) 2007-06-20 2010-09-14 At&T Intellectual Property Ii, L.P. System and method for improving robustness of speech recognition using vocal tract length normalization codebooks
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US9305553B2 (en) * 2010-04-28 2016-04-05 William S. Meisel Speech recognition accuracy improvement through speaker categories
US8600750B2 (en) * 2010-06-08 2013-12-03 Cisco Technology, Inc. Speaker-cluster dependent speaker recognition (speaker-type automated speech recognition)
KR20120045582A (ko) * 2010-10-29 2012-05-09 한국전자통신연구원 음향 모델 생성 장치 및 방법
WO2012152290A1 (en) * 2011-05-11 2012-11-15 Mohsen Abdel-Razik Ali Rashwan A mobile device for literacy teaching
GB201114737D0 (en) 2011-08-26 2011-10-12 Univ Belfast Method and apparatus for acoustic source separation
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
CN105895078A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 动态选择语音模型的语音识别方法及装置
CN107564513B (zh) * 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
WO2021128003A1 (zh) * 2019-12-24 2021-07-01 广州国音智能科技有限公司 一种声纹同一性鉴定方法和相关装置
JP7015408B1 (ja) * 2021-10-07 2022-02-02 真旭 徳山 端末装置、情報処理方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3176210B2 (ja) * 1994-03-22 2001-06-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識方法及び音声認識装置
JPH08110792A (ja) * 1994-10-12 1996-04-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者適応化装置及び音声認識装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
情報処理学会研究報告[音声言語情報処理]Vol.97,No.120,SLP19,「声道の特徴量を用いた話者クラスタリング手法の検討」,p.35−40,(1997/12/11)
電子情報通信学技術研究報告[言語理解とコミュニケーション]Vol.97,No.439,NLC97−40,「声道の特徴量を用いた話者クラスタリング手法の検討」,p.35−40,(1997/12/11)
電子情報通信学技術研究報告[音声]Vol.97,No.441,SP97−40,「声道の特徴量を用いた話者クラスタリング手法の検討」,p.35−40,(1997/12/11)
電子技術総合研究所彙報 Vol.48,No.1&2,"Vomel Constancy on Antimetrical Vocal Tract Shapes among Males Females and Children",p.46−50,1984
電子技術総合研究所彙報 Vol.48,No.1&2,"Vomel Constancy on Antimetrical Vocal Tract Shapes between Males and Females",p.17−21,1984

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2986792B2 (ja) 1998-03-16 1999-12-06 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化処理装置及び音声認識装置

Also Published As

Publication number Publication date
US5983178A (en) 1999-11-09
JPH11175090A (ja) 1999-07-02

Similar Documents

Publication Publication Date Title
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
JP2986792B2 (ja) 話者正規化処理装置及び音声認識装置
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
US7162423B2 (en) Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
US20040215457A1 (en) Selection of alternative word sequences for discriminative adaptation
US8185393B2 (en) Human speech recognition apparatus and method
Rose Word spotting from continuous speech utterances
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP2002342323A (ja) 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP3444108B2 (ja) 音声認識装置
JP3176210B2 (ja) 音声認識方法及び音声認識装置
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
JP2905674B2 (ja) 不特定話者連続音声認識方法
JP2938865B1 (ja) 音声認識装置
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP2923243B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP3035239B2 (ja) 話者正規化装置、話者適応化装置及び音声認識装置
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JPH08241096A (ja) 音声認識方法
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置
JP2875179B2 (ja) 話者適応化装置及び音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080813

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110813

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120813

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees