JPH08123468A - 不特定話者モデル作成装置及び音声認識装置 - Google Patents

不特定話者モデル作成装置及び音声認識装置

Info

Publication number
JPH08123468A
JPH08123468A JP6257999A JP25799994A JPH08123468A JP H08123468 A JPH08123468 A JP H08123468A JP 6257999 A JP6257999 A JP 6257999A JP 25799994 A JP25799994 A JP 25799994A JP H08123468 A JPH08123468 A JP H08123468A
Authority
JP
Japan
Prior art keywords
hidden markov
model
clusters
speaker
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6257999A
Other languages
English (en)
Inventor
Shoichi Matsunaga
昭一 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP6257999A priority Critical patent/JPH08123468A/ja
Publication of JPH08123468A publication Critical patent/JPH08123468A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 学習の話者数を変更したり新たなデータを追
加する場合に、最初から学習をやり直す必要が無く、多
数の話者を処理することができる不特定話者モデル作成
装置及び音声認識装置を提供する。 【構成】 入力された複数の特定話者の単一ガウス分布
の隠れマルコフモデルを、所定のクラスタリング法によ
り、複数のクラスタにクラスタリングして分類し、分類
された複数のクラスタに属する隠れマルコフモデルをそ
れぞれ、複数のクラスタ毎の単一ガウス分布の隠れマル
コフモデルに合成し、合成された各クラスタの単一ガウ
ス分布の隠れマルコフモデルを、所定の話者混合法によ
り混合して、複数の混合分布の隠れマルコフモデルを作
成する。作成された隠れマルコフモデルを参照して、入
力された発声音声文を音声認識する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数の特定話者の隠れ
マルコフモデルに基づいて、不特定話者の隠れマルコフ
モデル(以下、HMMという。)を作成する不特定話者
モデル作成装置、及びその不特定話者モデル作成装置を
用いた音声認識装置に関する。
【0002】
【従来の技術】従来、学習用の特定話者モデルに基づい
て不特定話者のHMMを作成するために、バーム・ウェ
ルチ(Baum−Welch)の学習アルゴリズム(以
下、第1の従来例という。)が広く用いられている(例
えば、中川聖一著,“確率モデルによる音声認識”,p
p.55−64,電子情報通信学会,昭和63年7月発
行参照。)。この第1の従来例では、HMMにおいて時
刻1から時刻tまでの間部分観測列{y1,y2,y3
…,yt}を観測した後、時刻tには状態iにいる前向
き確率と、時刻tに状態iにいて時刻t+1から最後ま
での部分観測列{yt+1,yt+2,yt+3,…,yr}を観
測する後向き確率とを用いて、HMMのパラメータを再
推定して学習することにより、不特定話者のHMMを作
成する。
【0003】また、学習用の特定話者モデルに基づいて
不特定話者のHMMを作成するために、いわゆる話者混
合法(以下、第2の従来例という。)が提案されている
(例えば、小坂ほか,“話者混合逐次状態分割法による
不特定話者音声認識と話者適応”,電子情報通信学会論
文誌A,Vol.J77−A,No.2,1994年2
月参照。)。この第2の従来例では、話者でラベル付け
された単一ガウス分布のHMMを各状態毎にマージし、
混合ガウス分布のHMMを作成する。
【0004】
【発明が解決しようとする課題】しかしながら、第1の
従来例においては、学習の話者数を変更したり、新たな
データを追加する場合は、最初から学習をやり直す必要
があった。従って、大規模な不特定話者モデルを変更す
る場合、計算時間が大幅に増大するという問題点があっ
た。また、第2の従来例においては、混合数が話者数と
等しくなるために、処理装置のメモリの必要容量がきわ
めて大きくなり、かつその計算量も莫大なものとなるた
めに、多数の話者の処理を事実上実行することができな
いという問題点があった。
【0005】本発明の第1の目的は以上の問題点を解決
し、学習の話者数を変更したり、新たなデータを追加す
る場合は、最初から学習をやり直す必要が無く、しかも
多数の話者を処理する場合であっても、処理装置のメモ
リ容量の少なくてすみ、その計算時間を短縮することが
できる不特定話者モデル作成装置を提供することにあ
る。また、本発明の第2の目的は、上記第1の目的に加
えて、作成された不特定話者モデルを参照して音声認識
することができ、従来例に比較して音声認識率を改善す
ることができる音声認識装置を提供することにある。
【0006】
【課題を解決するための手段】本発明に係る請求項1記
載の不特定話者モデル作成装置は、入力された複数の特
定話者の単一ガウス分布の隠れマルコフモデルに基づい
て、不特定話者の混合ガウス分布の隠れマルコフモデル
を作成する不特定話者モデル作成装置において、入力さ
れた複数の特定話者の単一ガウス分布の隠れマルコフモ
デルを、所定のクラスタリング法により、複数のクラス
タにクラスタリングして分類する分類手段と、上記分類
手段によって分類された複数のクラスタに属する隠れマ
ルコフモデルをそれぞれ、複数のクラスタ毎の単一ガウ
ス分布の隠れマルコフモデルに合成する合成手段と、上
記合成手段によって合成された各クラスタの単一ガウス
分布の隠れマルコフモデルを、所定の話者混合法により
混合して、複数の混合分布の隠れマルコフモデルを作成
する混合手段とを備えたことを特徴とする。
【0007】また、請求項2記載の不特定話者モデル作
成装置は、請求項1記載の不特定話者モデル作成装置に
おいて、上記合成手段は、上記分類手段によって分類さ
れた複数のクラスタに属する隠れマルコフモデルに基づ
いて、合成後の隠れマルコフモデルの平均値と分散を、
各状態におけるサンプル数が大きいほど大きい重み係数
で重み付けされるように計算することにより、複数のク
ラスタ毎の単一ガウス分布の隠れマルコフモデルを合成
することを特徴とする。
【0008】さらに、請求項3記載の不特定話者モデル
作成装置は、請求項1記載の不特定話者モデル作成装置
において、上記合成手段は、上記分類手段によって分類
された複数のクラスタに属する隠れマルコフモデルを、
それぞれのクラスタに属する学習用特定話者の発声音声
データを用いて、所定の学習アルゴリズムにより、それ
ぞれのクラスタに属する話者で学習することにより、複
数のクラスタ毎の単一ガウス分布の隠れマルコフモデル
を合成することを特徴とする。
【0009】また、本発明に係る請求項4記載の音声認
識装置は、入力された複数の特定話者の単一ガウス分布
の隠れマルコフモデルに基づいて、複数の混合分布の隠
れマルコフモデルを作成する請求項1乃至3のうちの1
つに記載の不特定話者モデル作成装置と、入力された文
字列からなる発声音声文に基づいて、上記不特定話者モ
デル作成装置によって作成された複数の混合分布の隠れ
マルコフモデルを用いて、音声認識する音声認識手段と
を備えたことを特徴とする。
【0010】
【作用】以上のように構成された請求項1記載の不特定
話者モデル作成装置においては、上記分類手段は、入力
された複数の特定話者の単一ガウス分布の隠れマルコフ
モデルを、所定のクラスタリング法により、複数のクラ
スタにクラスタリングして分類する。次いで、上記合成
手段は、上記分類手段によって分類された複数のクラス
タに属する隠れマルコフモデルをそれぞれ、複数のクラ
スタ毎の単一ガウス分布の隠れマルコフモデルに合成す
る。さらに、上記混合手段は、上記合成手段によって合
成された各クラスタの単一ガウス分布の隠れマルコフモ
デルを、所定の話者混合法により混合して、複数の混合
分布の隠れマルコフモデルを作成する。
【0011】また、請求項2記載の不特定話者モデル作
成装置においては、上記合成手段は、好ましくは、上記
分類手段によって分類された複数のクラスタに属する隠
れマルコフモデルに基づいて、合成後の隠れマルコフモ
デルの平均値と分散を、各状態におけるサンプル数が大
きいほど大きい重み係数で重み付けされるように計算す
ることにより、複数のクラスタ毎の単一ガウス分布の隠
れマルコフモデルを合成する。
【0012】さらに、請求項3記載の不特定話者モデル
作成装置においては、上記合成手段は、好ましくは、上
記分類手段によって分類された複数のクラスタに属する
隠れマルコフモデルを、それぞれのクラスタに属する学
習用特定話者の発声音声データを用いて、所定の学習ア
ルゴリズムにより、それぞれのクラスタに属する話者で
学習することにより、複数のクラスタ毎の単一ガウス分
布の隠れマルコフモデルを合成する。
【0013】さらに、請求項4記載の音声認識装置にお
いては、上記不特定話者モデル作成装置は、入力された
複数の特定話者の単一ガウス分布の隠れマルコフモデル
に基づいて、複数の混合分布の隠れマルコフモデルを作
成する。そして、上記音声認識手段は、入力された文字
列からなる発声音声文に基づいて、上記不特定話者モデ
ル作成装置によって作成された複数の混合分布の隠れマ
ルコフモデルを用いて、音声認識する。
【0014】
【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図1は、本発明に係る一実施例である
音声認識装置のブロック図である。本実施例の音声認識
装置は、特に、特定話者の発声音声データメモリ30に
格納された複数N人の特定話者の発声音声データに基づ
いてそれぞれ複数N個の特定話者用単一ガウス分布の隠
れマルコフ網(以下、HM網という。)を作成し、作成
したN個のHM網をクラスタリングして不特定話者のH
M網を作成してHM網メモリ11に格納する不特定話者
モデル作成部31を備え、HM網メモリ11に格納され
たHM網を参照して音声認識を行うことを特徴とする。
この音声認識装置は、マイクロホン1と、特徴抽出部2
と、バッファメモリ3と、音素照合部4と、文脈自由文
法データベースメモリ20に格納された所定の文脈自由
文法に基づいて作成された、LRテーブルメモリ13内
のLRテーブルを参照して音声認識処理を実行する音素
コンテキスト依存型LRパーザ(以下、LRパーザとい
う。)5とを備える。
【0015】図2は、不特定話者モデル作成部31によ
って実行される不特定話者モデル作成処理を示すフロー
チャートである。当該作成処理においては、まず、ステ
ップS1において、複数N人の特定話者の発声音声デー
タメモリ30内の発声音声データに基づいてそれぞれ、
後述する所定の音声の特徴パラメータを抽出した後音素
を切り出して、従来の方法で、複数N個の特定話者用単
一ガウス分布HM網を作成する。次いで、ステップS2
において、ステップS1で作成されたN個のHM網を、
所定の話者クラスタリング法を用いて、複数K個のクラ
スタにクラスタリングして分類する。そして、ステップ
S3において、各クラスタに属するHM網を以下に示す
数1乃至数3を用いて、各クラスタ毎に単一ガウス分布
のHM網に合成する。さらに、ステップS4において、
ステップS3で合成されたK個の単一ガウス分布のHM
網を、第2の従来例の話者混合法を用いて、K混合分布
のHM網を不特定話者モデルのHM網として作成してH
M網メモリ11に格納する。ここでは、各クラスタ毎に
ラベル付けされた単一ガウス分布のモデルを各状態毎に
マージし、混合ガウス分布のHM網を作成する。
【0016】上記ステップS3において用いられる合成
後の平均値μhjと分散Shjは、次の数1及び数2で表
される。なお、重み係数wj (i)は次の数3で表される。
【0017】
【数1】
【数2】
【数3】
【0018】数1と数2はそれぞれ、複数のガウス分布
を単一ガウス分布と見なして求めた場合の平均値、分散
を表す。ここで、μj (i)とSj (i)は自然数i番目のHM
網のの状態jにおける単一ガウス分布である出力確率密
度関数の平均値と分散を表わす。また、nj (i)はi番目
のHM網の状態jにおけるサンプル数を表す。すなわ
ち、数1から明らかなように、合成後の平均値μhj
分散Shjとはそれぞれ、合成前の平均値μjと分散Sj
を、各状態におけるサンプル数nj (i)に応じてサンプル
数nj (i)が大きいほど大きい重み係数wj (i)で重み付け
されて計算される。
【0019】上記ステップS2において用いられたHM
網のクラスタリングアルゴリズムは、従来のスプリット
(SPLIT)法を用いて、歪みが最大となるクラスタ
を順次分割する方法をとった。特徴としてはクラスタリ
ングを行なう前に、あらかじめ要素間の距離テーブルを
作成する。これにより、クラスタ中心の初期値をヒュー
リスティックに与えなくとも良いという利点がある。H
M網間の距離尺度D(θ(1),θ(2))を次の数4に示
す。
【0020】
【数4】
【0021】ここで、bj (i)はi番目のHM網の状態j
における出力確率であり、Nは状態数である。数4によ
って、所定の2つのパラメータθ1,θ2を有する2つの
HM網の距離が定義される。本実施例においては、初期
状態確率や状態遷移確率を無視し、出力確率のみにより
定義した。出力分布が単一ガウス分布で表せる場合、数
4におけるd(bj (1),bj (2))は、従来のバターチャリ
ア(Bhattacharyya)距離を用いて計算することができ
る。
【0022】本実施例においては、音声認識のための統
計的音素モデルセットとしてHM網を使用している。当
該HM網は効率的に表現された音素環境依存モデルであ
る。1つのHM網は多数の音素環境依存モデルを包含す
る。HM網はガウス分布を含む状態の結合で構成され、
個々の音素環境依存モデル間で状態が共有される。この
ためパラメータ推定のためのデータ数が不足する場合
も、頑健なモデルを作成することができる。このHM網
は逐次状態分割法(Successive State Splitting:以
下、SSSという。)を用いて自動作成される。上記S
SSではHM網のトポロジーの決定、異音クラスの決
定、各々の状態におけるガウス分布のパラメータの推定
を同時に行なう。本実施例においては、HM網のパラメ
ータとして、ガウス分布で表現される出力確率及び遷移
確率を有する。このため認識時には一般のHMMと同様
に扱うことができる。
【0023】次いで、上述の本実施例の音声認識方法を
用いた、SSS−LR(left-to-right rightmost型)
不特定話者連続音声認識装置について説明する。この装
置は、メモリ11に格納されたHM網と呼ばれる音素環
境依存型の効率のよいHMMの表現形式を用いている。
また、上記SSSにおいては、音素の特徴空間上に割り
当てられた確率的定常信号源(状態)の間の確率的な遷
移により音声パラメータの時間的な推移を表現した確率
モデルに対して、尤度最大化の基準に基づいて個々の状
態をコンテキスト方向又は時間方向へ分割するという操
作を繰り返すことによって、モデルの精密化を逐次的に
実行する。
【0024】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。
【0025】音素照合部4に接続されるHM網メモリ1
1内のHM網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率
【0026】音素照合部4は、音素コンテキスト依存型
LRパーザ5からの音素照合要求に応じて音素照合処理
を実行する。そして、不特定話者モデルを用いて音素照
合区間内のデータに対する尤度が計算され、この尤度の
値が音素照合スコアとしてLRパーザ5に返される。こ
のときに用いられるモデルは、HMMと等価であるため
に、尤度の計算には通常のHMMで用いられている前向
きパスアルゴリズムをそのまま使用する。
【0027】一方、文脈自由文法データベースメモリ2
0内の所定の文脈自由文法(CFG)を公知の通り自動
的に変換してLRテーブルを作成してLRテーブルメモ
リ13に格納される。LRパーザ5は、上記LRテーブ
ル13を参照して、入力された音素予測データについて
左から右方向に、後戻りなしに処理する。構文的にあい
まいさがある場合は、スタックを分割してすべての候補
の解析が平行して処理される。LRパーザ5は、LRテ
ーブルメモリ13内のLRテーブルから次にくる音素を
予測して音素予測データを音素照合部4に出力する。こ
れに応答して、音素照合部4は、その音素に対応するH
M網メモリ11内の情報を参照して照合し、その尤度を
音声認識スコアとしてLRパーザ5に戻し、順次音素を
連接していくことにより、連続音声の認識を行い、その
音声認識結果データを出力する。上記連続音声の認識に
おいて、複数の音素が予測された場合は、これらすべて
の存在をチェックし、ビームサーチの方法により、部分
的な音声認識の尤度の高い部分木を残すという枝刈りを
行って高速処理を実現する。
【0028】本発明者は、本実施例の不特定話者作成処
理の有効性を確認するために、不特定話者音声認識の評
価を音素認識及び文節認識のシミュレーションにより行
なった。シミュレーションには、以下のパラメータを用
いた。 (a)12KHzのサンプリング周波数。 (b)20msのハミング窓。 (c)5msの周期。 (d)対数パワーと、16次LPCケプストラムと、1
6次ΔLPCケプストラムと、Δ対数パワーとを含む3
4次元の特徴パラメータ。 また、学習用特定話者モデルのテキストデータは、28
5人が発声した、文節発声による音素バランスを考慮し
た50文である。評価データは、男性3人、女性3人の
計6人の発声した、本出願人が所有の「国際会議予約」
に関する文節発声による会話(本出願人の所定のSB3
タスク)データ、及びそこから視察により切り出された
音素である。シミュレーションのために、285個の特
定話者用HM網をあらかじめ作成したが、データ数削減
及び学習時間短縮のために、移動ベクトル場平滑化法
(例えば、大倉ほか,“混合連続分布HMMを用いた移
動ベクトル場平滑化話者適応方式”,電子情報通信学会
技術研究報告,SP92−16,1992年6月参
照。)を利用してパラメータの推定を行なった。文節認
識のシミュレーションは、図1のSSS−LR連続音声
認識装置を用いて行なった。このときのビーム幅が12
00であり、規則数が1407であり、語彙数が103
5である文節内文法を用いた。
【0029】本実施例の不特定話者モデル作成処理で作
成した不特定話者モデルの有効性を音素認識による比較
シミュレーションで検討した。学習話者から15名を選
択し、それぞれの15個の話者用HM網を作成合成して
5混合、10混合、及び15混合のHM網を作成した。
比較のために、合成して作成したHM網を初期値として
通常のバーム・ウェルチの学習アルゴリズムで学習した
場合と、移動ベクトル場平滑化法で適応学習した場合と
の比較をした。また、学習の初期値がランダムであって
バーム・ウェルチの学習アルゴリズムを用いて学習した
場合についても、シミュレーションした。その結果を表
1に示す。表1において括弧は、ヒューレット・パッカ
ード製コンピュータHP9000/735による計算時
間(時間)を表す。表1においては次の4つの場合を示
す。 (A)ランダムな初期値の特定話者モデルを、第1の従
来例のバーム・ウェルチの学習アルゴリズムを用いて学
習したHM網を参照して音声認識したとき(以下、方法
Aという)。 (B)特定話者の発声音声データに基づいて本実施例の
モデル作成法を用いて作成したHM網を参照して音声認
識したとき(以下、方法Bという。)。 (C)本実施例のモデル作成法を用いて作成したHM網
を初期値の話者モデルとして、第1の従来例のバーム・
ウェルチの学習アルゴリズムを用いて学習したHM網を
参照して音声認識したとき(以下、方法Cという。)。 (D)本実施例のモデル作成法を用いて作成したHM網
を初期値の話者モデルとして、移動ベクトル場平滑化法
を用いて学習したHM網を参照して音声認識したとき
(以下、方法Dという。)。
【0030】
【表1】 ──────────────────────────── 混合数 ────────────────────── 方法 5 10 15 ──────────────────────────── 方法A 65.9 68.8 70.8 (102.0)(188.5)(276.1) ──────────────────────────── 方法B 75.3 75.4 75.5 (4.4) (4.4) (4.4) ──────────────────────────── 方法C 77.9 78.7 78.4 (100.7)(179.1)(259.6) ──────────────────────────── 方法D 75.6 77.1 77.3 (34.3) (62.5) (88.9) ────────────────────────────
【0031】表1からわかるように、移動ベクトル場平
滑化法及びバーム・ウェルチの学習アルゴリズムを用い
て合成した不特定話者モデルを初期値とした場合、さら
に認識率は上がるが、その差は大きくなく合成した不特
定話者モデルでも十分な認識率が得られることが分か
る。また、ランダムな初期値の話者モデルからバーム・
ウェルチの学習アルゴリズムを用いて学習すると認識率
は低く、本実施例のモデル作成処理の方法Bはより高い
精度の不特定話者モデルを作成する場合の初期値として
も役立つ。また、計算時間は非常に少なくて済むことが
わかる。なお、本実施例のモデル作成処理の方法Bにお
ける計算時間の大部分は特定話者モデルの作成にかかる
時間で、モデル合成自体は1分前後で終了する。
【0032】さらに、本実施例のモデル作成処理の方法
による不特定話者モデルを用いて文節認識を行なった結
果を表2に示す。このシミュレーションでは285人全
てのモデルをクラスタリングして、5及び10混合のH
M網を作成した。
【0033】
【表2】
【0034】表2から明らかなように、シミュレーショ
ンの結果は、1位の候補のみで約80%の高い文節認識
率が得られ、5位までの候補の場合、約96%と高い文
節認識率が得られた。
【0035】以上の実施例において、特定話者モデルを
本実施例のモデル作成法を用いてHM網を作成している
が、本発明はこれに限らず、本実施例のモデル作成法を
用いて作成したHM網を初期値の話者モデルとして、第
1の従来例のバーム・ウェルチの学習アルゴリズムを用
いて学習することによりHM網を作成してもよい。ま
た、本実施例のモデル作成法を用いて作成したHM網を
初期値の話者モデルとして、移動ベクトル場平滑化法を
用いて学習することによりHM網を作成してもよい。
【0036】また、上記のステップS3の処理に代え
て、各クラスタに属するHM網を、所定の各クラスタに
属する学習用特定話者の発声音声データに基づいて、バ
ーム・ウェルチの学習アルゴリズム又はベクトル場平滑
化法を用いて、各クラスタに属するHM網を各クラスタ
毎に単一ガウス分布のHM網を推定計算することにより
合成してもよい。この場合、本実施例に比較して計算時
間は比較的長くかかるが、本実施例に比較してより高い
音声認識率を得ることができる。
【0037】以上の実施例において、特徴抽出部2と、
音素照合部4と、LRパーザ5と、不特定話者モデル作
成部31とは、例えばディジタル計算機によって構成さ
れる。
【0038】以上説明したように、本発明に係る実施例
においては、HMMのパラメータの再推定をすることな
く、複数の特定話者モデルを合成することにより、不特
定話者音素モデルを作成する。すなわち、自然数N人の
特定話者の発声音声データからそれぞれ自然数N個の特
定話者用単一ガウス分布HM網を作成し、上記作成され
たN個のHM網を、自然数K個のクラスタにクラスタリ
ングして分類し、そして、各クラスタに属するHM網を
単一ガウス分布のHM網に合成し、さらには、上記合成
されたK個の単一ガウス分布のHM網を、話者混合法を
用いて、K混合分布のHM網を不特定話者モデルのHM
網として作成する。この方法により、話者の追加変更
は、例えば追加変更の話者のHM網のみについてステッ
プS1及びS2のみを行って、所望するすべての話者の
HM網についてステップS3及びS4の処理をすればよ
いことになる。従って、従来例に比較してはるかに簡便
に話者の追加変更が可能となり、学習の話者数を変更し
たり、新たなデータを追加する場合は、最初から学習を
やり直す必要が無く、計算時間を大幅に短縮することが
できる。さらに、多数の話者を処理する場合であって
も、処理装置のメモリ容量の少なくてすみ、その計算時
間を短縮することができる。さらには、本実施例のモデ
ル作成処理の方法で作成された不特定話者モデルを参照
して音声認識することによって、従来例に比較して高い
音声認識率を得ることができる。
【0039】以上の実施例において、話者音素モデルと
してHM網を用いているが、本発明はこれに限らず、H
MMを用いてもよい。以上の実施例において、不特定話
者モデル作成部31はステップS1乃至S4を実行する
ように構成しているが、本発明はこれに限らず、複数の
特定話者のHMMをメモリに記憶しておき、これに基づ
いてステップS2からステップS4までの処理を実行す
るように構成してもよい。
【0040】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の不特定話者モデル作成装置によれば、入力され
た複数の特定話者の単一ガウス分布の隠れマルコフモデ
ルを、所定のクラスタリング法により、複数のクラスタ
にクラスタリングして分類し、分類された複数のクラス
タに属する隠れマルコフモデルをそれぞれ、複数のクラ
スタ毎の単一ガウス分布の隠れマルコフモデルに合成
し、合成された各クラスタの単一ガウス分布の隠れマル
コフモデルを、所定の話者混合法により混合して、複数
の混合分布の隠れマルコフモデルを作成する。従って、
話者の追加変更は、例えば追加変更の話者の隠れマルコ
フモデルのみについて分類手段の処理のみを行って、所
望するすべての話者の隠れマルコフモデルについて合成
手段と混合手段の処理をすればよいことになる。従っ
て、従来例に比較してはるかに簡便に話者の追加変更が
可能となり、学習の話者数を変更したり、新たなデータ
を追加する場合は、最初から学習をやり直す必要が無
く、計算時間を大幅に短縮することができる。さらに、
多数の話者を処理する場合であっても、処理装置のメモ
リ容量の少なくてすみ、その計算時間を短縮することが
できる。
【0041】また、請求項2記載の不特定話者モデル作
成装置によれば、上記合成手段は、上記分類手段によっ
て分類された複数のクラスタに属する隠れマルコフモデ
ルに基づいて、合成後の隠れマルコフモデルの平均値と
分散を、各状態におけるサンプル数が大きいほど大きい
重み係数で重み付けされるように計算することにより、
複数のクラスタ毎の単一ガウス分布の隠れマルコフモデ
ルを合成する。これにより、従来例に比較して、より簡
単な処理で、不特定話者モデルを作成することができ、
計算時間を大幅に短縮することができる。
【0042】さらに、請求項3記載の不特定話者モデル
作成装置によれば、上記合成手段は、上記分類手段によ
って分類された複数のクラスタに属する隠れマルコフモ
デルを、それぞれのクラスタに属する学習用特定話者の
発声音声データを用いて、所定の学習アルゴリズムによ
り、それぞれのクラスタに属する話者で学習することに
より、複数のクラスタ毎の単一ガウス分布の隠れマルコ
フモデルを合成する。このとき、作成された不特定話者
モデルを音声認識装置に用いることにより、請求項2記
載の装置に比較して、より高い音声認識率を得ることが
できる。
【0043】また、本発明に係る請求項4記載の音声認
識装置によれば、入力された複数の特定話者の単一ガウ
ス分布の隠れマルコフモデルに基づいて、複数の混合分
布の隠れマルコフモデルを作成する請求項1乃至5のう
ちの1つに記載の不特定話者モデル作成装置と、入力さ
れた文字列からなる発声音声文に基づいて、上記不特定
話者モデル作成装置によって作成された複数の混合分布
の隠れマルコフモデルを用いて、音声認識する音声認識
手段とを備える。従って、従来例に比較してより高い音
声認識率で音声認識をすることができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施例である音声認識装置の
ブロック図である。
【図2】 図1の不特定話者モデル作成部によって実行
される不特定話者モデル作成処理を示すフローチャート
である。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…LRパーザ、 11…隠れマルコフ網メモリ、 13…LRテーブルメモリ、 20…文脈自由文法データベースメモリ、 30…特定話者の発声音声データメモリ、 31…不特定話者モデル作成部。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 入力された複数の特定話者の単一ガウス
    分布の隠れマルコフモデルに基づいて、不特定話者の混
    合ガウス分布の隠れマルコフモデルを作成する不特定話
    者モデル作成装置において、 入力された複数の特定話者の単一ガウス分布の隠れマル
    コフモデルを、所定のクラスタリング法により、複数の
    クラスタにクラスタリングして分類する分類手段と、 上記分類手段によって分類された複数のクラスタに属す
    る隠れマルコフモデルをそれぞれ、複数のクラスタ毎の
    単一ガウス分布の隠れマルコフモデルに合成する合成手
    段と、 上記合成手段によって合成された各クラスタの単一ガウ
    ス分布の隠れマルコフモデルを、所定の話者混合法によ
    り混合して、複数の混合分布の隠れマルコフモデルを作
    成する混合手段とを備えたことを特徴とする不特定話者
    モデル作成装置。
  2. 【請求項2】 上記合成手段は、上記分類手段によって
    分類された複数のクラスタに属する隠れマルコフモデル
    に基づいて、合成後の隠れマルコフモデルの平均値と分
    散を、各状態におけるサンプル数が大きいほど大きい重
    み係数で重み付けされるように計算することにより、複
    数のクラスタ毎の単一ガウス分布の隠れマルコフモデル
    を合成することを特徴とする請求項1記載の不特定話者
    モデル作成装置。
  3. 【請求項3】 上記合成手段は、上記分類手段によって
    分類された複数のクラスタに属する隠れマルコフモデル
    を、それぞれのクラスタに属する学習用特定話者の発声
    音声データを用いて、所定の学習アルゴリズムにより、
    それぞれのクラスタに属する話者で学習することによ
    り、複数のクラスタ毎の単一ガウス分布の隠れマルコフ
    モデルを合成することを特徴とする請求項1記載の不特
    定話者モデル作成装置。
  4. 【請求項4】 入力された複数の特定話者の単一ガウス
    分布の隠れマルコフモデルに基づいて、複数の混合分布
    の隠れマルコフモデルを作成する請求項1乃至3のうち
    の1つに記載の不特定話者モデル作成装置と、 入力された文字列からなる発声音声文に基づいて、上記
    不特定話者モデル作成装置によって作成された複数の混
    合分布の隠れマルコフモデルを用いて、音声認識する音
    声認識手段とを備えたことを特徴とする音声認識装置。
JP6257999A 1994-10-24 1994-10-24 不特定話者モデル作成装置及び音声認識装置 Pending JPH08123468A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6257999A JPH08123468A (ja) 1994-10-24 1994-10-24 不特定話者モデル作成装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6257999A JPH08123468A (ja) 1994-10-24 1994-10-24 不特定話者モデル作成装置及び音声認識装置

Publications (1)

Publication Number Publication Date
JPH08123468A true JPH08123468A (ja) 1996-05-17

Family

ID=17314134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6257999A Pending JPH08123468A (ja) 1994-10-24 1994-10-24 不特定話者モデル作成装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JPH08123468A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003524805A (ja) * 2000-02-25 2003-08-19 スピーチワークス インターナショナル,インク. 音声認識システムの自動的再学習
US7191417B1 (en) * 2004-06-04 2007-03-13 Sierra Design Automation, Inc. Method and apparatus for optimization of digital integrated circuits using detection of bottlenecks
US8630853B2 (en) 2007-03-26 2014-01-14 Nec Corporation Speech classification apparatus, speech classification method, and speech classification program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61163396A (ja) * 1985-01-14 1986-07-24 株式会社リコー 音声辞書パタ−ン作成方式
JPH04125599A (ja) * 1990-09-17 1992-04-27 Nec Corp 標準パターン作成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61163396A (ja) * 1985-01-14 1986-07-24 株式会社リコー 音声辞書パタ−ン作成方式
JPH04125599A (ja) * 1990-09-17 1992-04-27 Nec Corp 標準パターン作成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003524805A (ja) * 2000-02-25 2003-08-19 スピーチワークス インターナショナル,インク. 音声認識システムの自動的再学習
US7191417B1 (en) * 2004-06-04 2007-03-13 Sierra Design Automation, Inc. Method and apparatus for optimization of digital integrated circuits using detection of bottlenecks
US8630853B2 (en) 2007-03-26 2014-01-14 Nec Corporation Speech classification apparatus, speech classification method, and speech classification program
JP5418223B2 (ja) * 2007-03-26 2014-02-19 日本電気株式会社 音声分類装置、音声分類方法、および音声分類用プログラム

Similar Documents

Publication Publication Date Title
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
JP2986792B2 (ja) 話者正規化処理装置及び音声認識装置
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
US7587321B2 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP3176210B2 (ja) 音声認識方法及び音声認識装置
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
JP2905674B2 (ja) 不特定話者連続音声認識方法
JP3039399B2 (ja) 非母国語音声認識装置
JPH08123468A (ja) 不特定話者モデル作成装置及び音声認識装置
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
JPH08110792A (ja) 話者適応化装置及び音声認識装置
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP3035239B2 (ja) 話者正規化装置、話者適応化装置及び音声認識装置
JP2888781B2 (ja) 話者適応化装置及び音声認識装置
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置
Lei et al. DBN-based multi-stream models for Mandarin toneme recognition
JP2875179B2 (ja) 話者適応化装置及び音声認識装置
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JPH09114484A (ja) 音声認識装置
JPH0822296A (ja) パターン認識方法
JP3105708B2 (ja) 音声認識装置
JP2986703B2 (ja) 音声認識装置
JPH11190999A (ja) 音声スポッティング装置