JP2000305591A - 話者適応化音響モデル作成方法と音声認識装置 - Google Patents

話者適応化音響モデル作成方法と音声認識装置

Info

Publication number
JP2000305591A
JP2000305591A JP11118051A JP11805199A JP2000305591A JP 2000305591 A JP2000305591 A JP 2000305591A JP 11118051 A JP11118051 A JP 11118051A JP 11805199 A JP11805199 A JP 11805199A JP 2000305591 A JP2000305591 A JP 2000305591A
Authority
JP
Japan
Prior art keywords
acoustic model
feature vector
speech recognition
acoustic
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11118051A
Other languages
English (en)
Inventor
Tadashi Suzuki
鈴木  忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP11118051A priority Critical patent/JP2000305591A/ja
Publication of JP2000305591A publication Critical patent/JP2000305591A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 作成される音響モデルの精度が劣化してしま
うことのない話者適応化音響モデル作成方法および音声
認識装置を得る。 【解決手段】 音響分析を施し、特徴ベクトル時系列を
出力する音響分析手段2と、対応する音響モデルを音響
モデルメモリ16から読み出し、特徴ベクトル時系列と
の照合を行い、音響モデルの対応付けデータを出力する
照合手段5と、音響モデルを用いた連続音声認識を行
い、連続音声認識結果を出力する連続音声認識手段10
と、特徴ベクトル時系列と、音響モデル対応付けデータ
と、連続音声認識結果とを用い、重みデータメモリ13
に記憶されている重みデータに従って、音響モデルメモ
リ16に格納されている音響モデルを書き換えて適応化
音響モデルとして出力する重み付き適応化音響モデル生
成手段12を有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、任意の話者が発声
した発声内容既知の音声データを用いて、話者に適応し
た音響モデルを作成する話者適応化音響モデル作成方法
と、作成された音響モデルを用いて該話者が発声した音
声を認識する音声認識装置に関するものである。
【0002】
【従来の技術】図14は、文献「ディジタル信号処理シ
リーズ第5巻 音声・音情報のディジタル信号処理」
(鹿野清宏、中村哲、伊勢史郎 共著)の136頁から
137頁に示されている不特定話者モデルの適応的学習
による話者適応化方法の構成の一例である。図におい
て、2は音声信号入力端1より入力される発声内容既知
の音声信号に対し音響分析処理を行い、特徴ベクトル時
系列3を出力する音響分析手段(音響分析手順)、6は
あらかじめ多数の話者が発声した大量の音声データから
学習した音響モデルを格納する音響モデルメモリ、5は
入力された音声信号の発声内容データに対応する音響モ
デルを音響モデルメモリ6から読み出し、音響分析手段
2から出力される特徴ベクトル時系列3との照合を行
い、各特徴ベクトルに対する音響モデルの対応付けデー
タ7を出力する照合手段(照合手順)、8は音響分析手
段2の出力であるところの特徴ベクトル時系列3と、照
合手段5の出力であるところの音響モデル対応付けデー
タ7を用いて、音響モデルメモリ6に格納されている音
響モデルの一部もしくは全部を書き換えて適応化音響モ
デル9として出力する重み付き適応化音響モデル生成手
段である。
【0003】次に動作について説明する。ここでは音響
モデルとして、日本語音素のHMM(Hidden Markov Mo
del)を用いた場合を例に取る。各HMMは、4状態3
ループのLeft-to-right型で、同一状態への遷移と次の
状態への遷移における出力確率を共有するtied-arc構成
とする。出力確率として一つの平均ベクトルとベクトル
の各次元毎の分散値を持つ単一連続分布型のHMMとす
る。適応化所作は、前記平均ベクトルの再学習により行
い、分散値は元の音響モデルをそのまま用いるものとす
る。
【0004】ある話者が発声した、発声内容既知の音声
信号は音声信号入力端1より入力され、音響分析手段2
において、一定時間毎に設定される分析フレーム毎に音
響分析され、特徴ベクトル時系列3{X(1),X(2),・・
・,X(N)}(Nは系列数)として出力される。
【0005】照合手段5では、発声内容入力端4から入
力される前記音声信号の発声内容に沿って、特徴ベクト
ル時系列3と音響モデルメモリ6上の音響モデルとの照
合を行う。これにより、特徴ベクトル時系列3の各特徴
ベクトル毎に、対応する音素モデルとそのHMMの状態
番号が求められる。音素の種類pとHMMの状態番号mで
一意に決定されるラベルL(p,m)を定義すれば、特徴ベ
クトル時系列3{X(1),X(2),・・・,X(N)}に対する
ラベルの系列{D(1),D(2),・・・,D(N)}(ただし、
D(n)∈{L(p,m)|pは音素の種類、mはHMMの状態
番号1〜3}である)が求められ、これを音響モデル対
応付けデータ7として出力する。
【0006】図15は、音声「すし(寿司)」が入力さ
れた場合に得られる音響モデル対応付けデータの例を示
している。入力音声の特徴ベクトル時系列{X(n)|n
=1...N}において、n=1〜P1までが最初の音
素s、n=P1+1〜P2までが次の音素u、P2+1〜
P3が音素s、P3+1〜P4が音素iにあたるものとし
ている。音素モデルをs−u−s−iの順番に接続した
モデルとの照合により得られた音響モデル対応付けデー
タ{D(n)|n=1...N}は、各特徴ベクトルX(n)
に対応して、{L(s,1) L(s,1)...L(s,3) L(u,1) L
(u,2)...L(u,3)....}のように得られる。
【0007】適応化モデル生成手段8では、まず、特徴
ベクトル時系列3{X(1),X(2),・・・,X(N)}と音響
モデル対応付けデータ7{D(1),D(2),・・・,D(N)}
から、任意のラベルL(p,m)が付けられた特徴ベクトル
をすべて抽出し、次いで、音響モデルメモリ6に格納さ
れているところの音素pのHMMを読み出し、このHM
Mの状態mからの遷移に対する出力確率における平均ベ
クトルの更新を行う。平均ベクトルの更新は、たとえ
ば、該ラベルがつけられたすべての特徴ベクトルの平均
で、出力確率の平均ベクトルを置き換えることで行う。
図15の例で説明すると、音素sの状態1にあたるラベ
ルL(s,1)に対応付けされた特徴ベクトルであるところ
の{X(1) X(2) X(P2+1)}の3つベクトルを抽出し、
この3つの平均ベクトルを求める。得られた平均ベクト
ルで、音素sの状態1からの遷移に対する出力確率の平
均ベクトルを更新する。
【0008】発声内容の異なる種々の音声データを入力
することで、すべての音素pと状態mについて、音声デ
ータを発声した話者の音声における各音素の特徴ベクト
ルに適合した平均ベクトルを持つ適応化音響モデルが作
成される。
【0009】
【発明が解決しようとする課題】従来の装置は上記のよ
うに構成されているため、入力される音声データと発声
内容データが一致している場合は良好に動作するが、方
言や発声時のくせなどにより、発声内容データと音声デ
ータが音響的に一致しない場合、生成される適応化音響
モデルの精度が低下するという問題がある。
【0010】例えば図16には、「すし(寿司)」が
「すす」という発声になった場合の音響モデル対応付け
データの例を示している。入力音声の特徴ベクトル時系
列{X(n)|n=1...N}において、N=1〜P1ま
でが最初の音素s、n=P1+1〜P2までが次の音素
u、P2+1〜P3が音素s、P3+1〜P4が音素uにあ
たるものとする。そして、音素HMMをs−u−s−i
の順番に接続したモデルとの照合により得られた音響モ
デル対応付けデータ{D(n)|n=1...N}は、各
特徴ベクトルX(n)に対応して、{L(s,1) L(s,1)...
L(s,3) L(u,1)L(u,2)...L(u,3)....}のように得ら
れている。
【0011】4番目の音素uにあたる特徴ベクトルに対
し音素iのHMMが対応づけられることになるため、適
応化モデル生成手段において計算されるところの音素H
MMの各状態についての平均ベクトルが、音素iのHM
Mについては音素uにあたる特徴ベクトルにより計算さ
れることになり、適応化音響モデルの精度劣化が生じて
しまう。
【0012】また、「ふぃるむ(フィルム)」が「ふい
るむ」のように発声された場合、すなわち一音節「ふ
ぃ」が2音節の「ふい」になった場合も、同様な精度劣
化が生じる。図17は、入力音声「ふいるむ」の特徴ベ
クトル時系列{X(n)|n=1...N}の一部である
「ふいる」にあたる部分についての音響モデル対応付け
データの例を示している。n=1〜P1までが最初の音
素f、n=P1+1〜P2までが2番目の音素u、P2+
1〜P3が3番目の音素i、P3+1〜P4が4番目の音
素r、P4+1〜P5が5番目の音素uにあたるものとし
ている。音素HMMをf−i−r−u−m−uの順番に
接続したモデルとの照合により得られた音響モデル対応
付けデータ{D(n)|n=1...N}は、各特徴ベク
トルX(n)に対応して、{L(f,1) L(f,1)...L(f,2)
L(f,3) L(f,3)...L(i,1) L(i,1) L(i,2)...L(i,
3)...}のように得られている。この場合、音素fから
音素uの一部までの特徴ベクトルに音素fのHMMが対
応づけられ、また音素uの一部と音素iの特徴ベクトル
に対し音素iのHMMが対応づけられている。このた
め、適応化モデル生成手段において計算されるところの
音素HMMの各状態についての平均ベクトルが、音素f
のHMMについては音素fと音素uの一部にあたる特徴
ベクトルにより計算され、また音素iのHMMについて
は音素uの一部と音素iにあたる特徴ベクトルにより計
算されることになり、適応化モデルの精度劣化が生じ
る。
【0013】また、非母国語(すなわち外国語)音声の
発声においても非母国語話者には発声しにくい音素が母
国語において近い音素で発声してしまい、適応化モデル
の精度が劣化してしまう。図18は、英語の
【0014】
【外1】
【0015】が、
【0016】
【外2】
【0017】と発声された場合の音響モデル対応付けデ
ータの例である。入力音声の特徴ベクトル時系列{X
(n)|n=1...N}において、n=1〜P1までが最
初の音素s、n=P1+1〜P2までが次の音素i、P2
+1〜P3が音素b、P3+1〜P4が音素u、P4+1〜
P5が
【0018】
【外3】
【0019】にあたるものとしている。英語音素モデル
【0020】
【外4】
【0021】の順番に接続したモデルとの照合により得
られた音響モデル対応付けデータ{D(n)|n=
1...N}は、各特徴ベクトルX(n)に対応して、
{L(s,1) L(s,1)...L(s,3) L(e,1) L(e,2)...L
(e,3)....}のように得られている。この場合、2番目
の音素iにあたる特徴ベクトルに対し音素eのHMM
が、3番目の音素bにあたる特徴ベクトルに対し音素v
のHMMが、4番目の音素uにあたる特徴ベクトルに対
【0022】
【外5】
【0023】が、5番目の
【0024】
【外6】
【0025】にあたる特徴ベクトルに対し音素nが対応
づけられることになるため、適応化モデル生成手段にお
いて計算されるところの上記音素のHMMの各状態につ
いての平均ベクトルが、別の音素にあたる特徴ベクトル
によって計算されることになり、適応化モデルの精度が
劣化してしまう。
【0026】この発明は、上記のような課題を解決する
ためになされたもので、方言や発声時の癖、また非母国
語が正確に発声できない場合など、発声内容と音声デー
タが一致しない場合においても、作成される音響モデル
の精度が劣化してしまうことのない話者適応化音響モデ
ル作成方法および音声認識装置を得ることを目的とす
る。
【0027】
【課題を解決するための手段】この発明に係る話者適応
化音響モデル作成方法は、入力された音声信号に対し音
響分析を施し、特徴ベクトル時系列を出力する音響分析
手順と、入力音声の発声内容データに対応する音響モデ
ルを音響モデルメモリから読み出し、音響分析手順から
出力される特徴ベクトル時系列との照合を行い、各特徴
ベクトルに対する音響モデルの対応付けデータを出力す
る照合手順と、音響分析手順から出力される特徴ベクト
ル時系列を入力として、音響モデルメモリに格納されて
いる音響モデルを用いた連続音声認識を行い、連続音声
認識結果を出力する連続音声認識手順と、音響分析手順
の出力である特徴ベクトル時系列と、照合手順の出力で
ある音響モデル対応付けデータと、連続音声認識手順の
出力である連続音声認識結果とを用い、重みデータメモ
リに記憶されている重みデータに従って、音響モデルメ
モリに格納されている音響モデルの一部もしくは全部を
書き換えて適応化音響モデルとして出力する重み付き適
応化音響モデル生成手順を有する。
【0028】また、重み付き適応化音響モデル生成手順
は、照合手順から出力される音響モデルの対応付けデー
タに基づき、特徴ベクトル時系列から特徴ベクトルを抽
出する特徴ベクトル抽出ステップと、連続音声認識手順
の出力である連続音声認識結果に基づき、特徴ベクトル
抽出ステップにおいて抽出された特徴ベクトルに対応す
るラベルを求めるラベルステップと、特徴ベクトルにつ
いて、ラベルによって一意に決定される重みデータを重
みデータメモリから読み出し、重み付き平均ベクトルを
計算する重み付き平均ベクトル計算ステップと、重み付
き平均ベクトルに基づいて、音響モデルに格納されてい
る音響モデルの一部もしくは全部を書き換える書換ステ
ップを有する。
【0029】また、重み付き適応化音響モデル生成手順
は、連続音声認識手順の出力である連続音声認識結果に
基づき、特徴ベクトル時系列から特徴ベクトルを抽出す
る特徴ベクトル抽出ステップと、照合手順の出力である
音響モデルの対応付けデータに基づき、特徴ベクトル抽
出ステップにおいて抽出された特徴ベクトルに対応する
ラベルを求めるラベルステップと、特徴ベクトルについ
て、ラベルによって一意に決定される重みデータを重み
データメモリから読み出し、重み付き平均ベクトルを計
算する重み付き平均ベクトル計算ステップと、重み付き
平均ベクトルに基づいて、音響モデルに格納されている
音響モデルの一部もしくは全部を書き換える書換ステッ
プを有する。
【0030】また、重み付き適応化音響モデル生成手順
は、照合手順から出力される音響モデルの対応付けデー
タに基づき、特徴ベクトル時系列から特徴ベクトルを抽
出する特徴ベクトル抽出ステップと、連続音声認識手順
の出力である連続音声認識結果に基づき、前特徴ベクト
ル抽出ステップにおいて抽出された特徴ベクトルに対応
するラベルを求めるラベルステップと、連続音声認識手
順の出力である連続音声認識結果に基づき、特徴ベクト
ル時系列から特徴ベクトルを抽出する特徴ベクトル抽出
ステップと、照合手順の出力である音響モデルの対応付
けデータに基づき、特徴ベクトル抽出ステップにおいて
抽出された特徴ベクトルに対応するラベルを求めるラベ
ルステップと、特徴ベクトルについて、ラベルによって
一意に決定される重みデータを重みデータメモリから読
み出し、重み付き平均ベクトルを計算する重み付き平均
ベクトル計算ステップと、重み付き平均ベクトルに基づ
いて、音響モデルに格納されている音響モデルの一部も
しくは全部を書き換える書換ステップを有する。
【0031】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する2個のラベルデータ
において、2個のラベルが一致した場合に重みデータを
1、一致しなかった場合に重みデータを0とする。
【0032】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する2個のラベルデータ
において、各ラベルに対応する特徴ベクトル間の尤度を
計算し、この尤度に比例するパラメータを重みデータと
して用いる。
【0033】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する2個のラベルデータ
において、各ラベルに対応する音響モデル間の尤度を計
算し、この尤度に比例するパラメータを重みデータとし
て用いる。
【0034】また、連続音声認識手順は、音響分析手順
から出力される特徴ベクトル時系列に対して、音響モデ
ルメモリ上の音響モデルを用いて連続音声認識を行う際
に、同一音響モデルの接続を許さないことを拘束条件と
して、任意の音響モデルを任意の個数接続したモデルと
の照合を行う。
【0035】また、音響モデルメモリに格納されている
音響モデルに、英語を母国語とする話者が発声した英語
音声データを用いて学習した音響モデルを用い、連続音
声認識手順は、音響分析手順から出力される特徴ベクト
ル時系列に対して音響モデルメモリ上の音響モデルを用
いて連続音声認識を行う際に、任意の音素の後ろに同じ
音素が接続しないことを拘束条件として、任意の音響モ
デルを任意の個数接続したモデルとの照合を行う。
【0036】また、音響モデルメモリに格納されている
音響モデルに、日本人の話者が発声した日本語音声デー
タを用いて学習した音響モデルを用い、連続音声認識手
順は、音響分析手順から出力される特徴ベクトル時系列
に対して音響モデルメモリ上の音響モデルを用いて連続
音声認識を行う際に、音響モデルの接続における拘束条
件として、日本語に現れる任意の音節が1個以上接続さ
れたモデルとの照合を行う。
【0037】また、重み付き適応化モデル生成手順が生
成した適応化音響モデルを音響モデルメモリに書き込む
ことを可能にする切り替え手順をさらに有する。
【0038】また、重み付き適応化モデル生成手順が生
成した適応化音響モデルを記憶する適応化音響モデルメ
モリと、音響モデルメモリ上の音響モデルと、適応化音
響モデルメモリ上の適応化音響モデルとを入力して合成
し、合成音響モデルを出力する音響モデル合成手順と、
重み付き適応化モデル生成手順が生成した適応化音響モ
デルを適応化音響モデルメモリに書き込むことを可能に
する切り替え手順をさらに有し、照合手順は、入力音声
の発声内容データに対応する合成音響モデルを音響モデ
ル合成手順から入力し、音響分析手順から出力される特
徴ベクトル時系列との照合を行い、各特徴ベクトルに対
する音響モデルの対応付けデータを出力し、連続音声認
識手順は、音響分析手順から出力される特徴ベクトル時
系列に対し、音響モデル合成手順が出力する合成音響モ
デルを用いた連続音声認識を行い、連続音声認識結果を
出力し、重み付き適応化音響モデル生成手順は、音響分
析手順の出力である特徴ベクトル時系列と、照合手順の
出力である音響モデル対応付けデータと、連続音声認識
手順の出力である連続音声認識結果とを用い、重みデー
タメモリに記憶されている重みデータに従って、音響モ
デル合成手順が出力した合成音響モデルの一部もしくは
全部を書き換えて適応化音響モデルとして出力する。
【0039】また、重み付き適応化モデル生成手順が生
成した適応化音響モデルを適応化音響モデルメモリに書
き込めるように切り替え手順を切り替えた状態で繰り返
し行うところの適応化音響モデル生成所作、すなわち、
音響モデル合成手順における音響モデルの合成、照合手
順における音響モデル対応付けデータの作成、連続音声
認識手順における連続音声認識結果の出力、および、重
み付き適応化モデル生成手順における適応化音響モデル
の生成までの動作の繰り返し回数をカウントし、このカ
ウント値を用いて、音響モデル合成手順における適応音
響モデルメモリ上の適応化音響モデルと、音響モデルメ
モリ上の音響モデルとの合成所作の重みを変化させる。
【0040】また、他の発明に係る音声認識装置は、請
求項1乃至13のいずれか記載の話者適応化音響モデル
作成方法により作成された適応化音響モデルを用いて、
未知入力音声信号に対する音響分析手順の出力である特
徴ベクトル時系列に対し音声認識を行い認識結果を出力
する。
【0041】さらにまた、他の発明に係る音声認識装置
は、入力された音声信号に対し音響分析を施し、特徴ベ
クトル時系列を出力する音響分析手段と、入力音声の発
声内容データに対応する音響モデルを音響モデルメモリ
から読み出し、音響分析手段から出力される特徴ベクト
ル時系列との照合を行い、各特徴ベクトルに対する音響
モデルの対応付けデータを出力する照合手段と、音響分
析手段から出力される特徴ベクトル時系列を入力とし
て、音響モデルメモリに格納されている音響モデルを用
いた連続音声認識を行い、連続音声認識結果を出力する
連続音声認識手段と、音響分析手段の出力である特徴ベ
クトル時系列と、照合手段の出力である音響モデル対応
付けデータと、連続音声認識手段の出力である連続音声
認識結果とを用い、重みデータメモリに記憶されている
重みデータに従って、音響モデルメモリに格納されてい
る音響モデルの一部もしくは全部を書き換えて適応化音
響モデルとして出力する重み付き適応化音響モデル生成
手段を有し、未知入力音声信号に対する音響分析手段の
出力である特徴ベクトル時系列に対し音声認識を行い認
識結果を出力する。
【0042】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する2個のラベルデータ
において、2個のラベルが一致した場合に重みデータを
1、一致しなかった場合に重みデータを0とする。
【0043】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する2個のラベルデータ
において、各ラベルに対応する特徴ベクトル間の尤度を
計算し、この尤度に比例するパラメータを重みデータと
して用いる。
【0044】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する2個のラベルデータ
において、各ラベルに対応する音響モデル間の尤度を計
算し、この尤度に比例するパラメータを重みデータとし
て用いる。
【0045】また、連続音声認識手段は、音響分析手段
から出力される特徴ベクトル時系列に対して、音響モデ
ルメモリ上の音響モデルを用いて連続音声認識を行う際
に、同一音響モデルの接続を許さないことを拘束条件と
して、任意の音響モデルを任意の個数接続したモデルと
の照合を行う。
【0046】また、音響モデルメモリに格納されている
音響モデルに、英語を母国語とする話者が発声した英語
音声データを用いて学習した音響モデルを用い、連続音
声認識手段は、音響分析手段から出力される特徴ベクト
ル時系列に対して音響モデルメモリ上の音響モデルを用
いて連続音声認識を行う際に、任意の音素の後ろに同じ
音素が接続しないことを拘束条件として、任意の音響モ
デルを任意の個数接続したモデルとの照合を行う。
【0047】また、音響モデルメモリに格納されている
音響モデルに、日本人の話者が発声した日本語音声デー
タを用いて学習した音響モデルを用い、連続音声認識手
段は、音響分析手段から出力される特徴ベクトル時系列
に対して音響モデルメモリ上の音響モデルを用いて連続
音声認識を行う際に、音響モデルの接続における拘束条
件として、日本語に現れる任意の音節が1個以上接続さ
れたモデルとの照合を行う。
【0048】また、重み付き適応化音響モデル生成手段
が生成した適応化音響モデルを音響モデルメモリに書き
込むことを可能にする切り替えスイッチをさらに有す
る。
【0049】また、重み付き適応化音響モデル生成手段
が生成した適応化音響モデルを記憶する適応化音響モデ
ルメモリと、音響モデルメモリ上の音響モデルと、適応
化音響モデルメモリ上の適応化音響モデルとを入力して
合成し、合成音響モデルを出力する音響モデル合成手段
と、重み付き適応化音響モデル生成手段が生成した適応
化音響モデルを適応化音響モデルメモリに書き込むこと
を可能にする切り替えスイッチをさらに有し、照合手段
は、入力音声の発声内容データに対応する合成音響モデ
ルを音響モデル合成手段から入力し、音響分析手段から
出力される特徴ベクトル時系列との照合を行い、各特徴
ベクトルに対する音響モデルの対応付けデータを出力
し、連続音声認識手段は、音響分析手段から出力される
特徴ベクトル時系列に対し、音響モデル合成手段が出力
する合成音響モデルを用いた連続音声認識を行い、連続
音声認識結果を出力し、重み付き適応化音響モデル生成
手段は、音響分析手段の出力である特徴ベクトル時系列
と、照合手段の出力である音響モデル対応付けデータ
と、連続音声認識手段の出力である連続音声認識結果と
を用い、重みデータメモリに記憶されている重みデータ
に従って、音響モデル合成手段が出力した合成音響モデ
ルの一部もしくは全部を書き換えて適応化音響モデルと
して出力する。
【0050】
【発明の実施の形態】実施の形態1.図1は、本発明に
係る話者適応化音響モデル生成装置の一実施の形態の構
成をあらわすブロック図である。図において、10は音
響分析手段(音響分析手順)2が出力する特徴ベクトル
時系列3に対し、音響モデルメモリ6に格納されている
音響モデルを用いて連続音声認識を行いその結果を出力
する連続音声認識手段(連続音声認識手順)、12は音
響分析手段2の出力であるところの特徴ベクトル時系列
3と、照合手段(照合手順)5の出力であるところの音
響モデル対応付けデータ7と、前記連続音声認識手段1
0の出力であるところの連続音声認識結果11とを用
い、重みデータメモリ13に記憶されている重みデータ
に従って、音響モデルメモリ6に格納されている音響モ
デルの一部もしくは全部を書き換えて適応化音響モデル
9として出力する重み付き適応化音響モデル生成手段
(重み付き適応化音響モデル生成手順)である。他の構
成要素は従来例と同じである。
【0051】次に動作について説明する。従来例と同じ
く、音響モデルとして日本語音素のHMM(Hidden Mar
kov Model)を用いた場合を例に取る。各HMMは、4
状態3ループのLeft-to-right型で、同一の状態への遷
移と次の状態への遷移が同じ出力確率を持つtied-arc構
成、出力確率として一つの平均ベクトルとベクトルの各
次元毎の分散値を持つ単一連続分布型のHMMとする。
適応化所作は、前記平均ベクトルの再学習により行う事
とし、分散値は元の音響モデルをそのまま用いるものと
する。
【0052】連続音声認識手段10は特徴ベクトル時系
列3に対し、音響モデルメモリ6上の音素HMMによる
音素タイプライタ処理を行う。すなわち特徴ベクトル時
系列3に対し、任意の音素HMMの後に任意の音素HM
Mが接続可能でかつ接続回数の制限がない条件の下で、
音響モデルメモリ6上の音素HMMとの照合を行う。図
2は、音素が「a」「i」「u」の3つの場合を例に取
り、音素接続の規則を状態遷移図で示したものである。
初期状態最終状態共にS0で、この状態からの遷移にお
いて「a」「i」「u」の3つ音素のどれかが接続され
る。各遷移に対する確率はすべて等しくなっており、3
つの音素が自由にいくつでも接続可能となっている。実
際にはすべての音素に対応する遷移が定義されており、
任意の音素が任意の個数で接続できる。
【0053】このような規則に基づく照合により、特徴
ベクトル時系列3に対し最も尤度が高い音素系列と、こ
の音素系列を構成する音素HMMの各状態と特徴ベクト
ル時系列3との対応関係が得られる。照合手段5におけ
る所作と同じく、音素の種類pとHMMの状態番号mで
一意に決定されるラベルL(p,m)を定義すれば、前記対
応関係から、特徴ベクトル時系列3{X(1),X(2),…,
X(N)}に対するラベルの系列{R(1),R(2),…,R
(n)}(ただし、R(n)∈{L(p,m)|pは音素の種類、
mはHMMの状態番号1〜3}である)が求められ、こ
れを連続音声認識結果11として出力する。
【0054】図3は、「すし(寿司)」が「すす」とい
う発声になった場合の音声の特徴ベクトル時系列3から
得られた連続音声認識結果11の例を示している。図1
6と同じく、入力音声の特徴ベクトル時系列3{X(n)
|n=1...N}において、N=1〜P1までが最初
の音素s、n=P1+1〜P2までが次の音素u、P2+
1〜P3が音素s、P3+1〜P4が音素uにあたるもの
とする。
【0055】該特徴ベクトル時系列3に対し、最も尤度
が高くなる音素系列s−h−u−s−u−oの順に音素
HMMを接続したモデルとの照合により得られた連続音
声認識結果11{R(1),R(2),…,R(n)}は、各特徴ベ
クトルX(n)に対応して、{L(s,1) L(s,2)...L(h,1)
L(h,2) L(h,3)...L(u,3) L(s,1) L(s,2)...}の
ように求められている。
【0056】重み付き適応化音響モデル生成手段12に
おける処理手順を図4に示す。各処理の詳細を以下に示
す。
【0057】step1:特徴ベクトル時系列3{X(1),X
(2),・・・X(N)}と、各特徴ベクトルに対応したラベ
ルの系列であるところの音響モデル対応付けデータ7
{D(1),D(2),・・・,D(N)}から、任意のラベルL
(ただし、L∈{L(p,m)|pは音素の種類、mはHM
Mの状態番号1〜3})に対応づけられた特徴ベクトル
を抽出する。抽出された特徴ベクトルの集合を{XL
(1),XL(2),・・・, XL(K)}(Kは集合の要素数)と
する。
【0058】step2:同じく、特徴ベクトル時系列3の各
特徴ベクトルに対応したラベルの系列であるところの連
続音声認識結果11{R(1),R(2),・・・,R(N)}か
ら、上記特徴ベクトルの集合{XL(1),XL(2),・・・,
XL(K)}の各要素に対応するラベルを求め、ラベルの
集合{RL(1),RL(2),・・・, RL(K)}(Kは集合の
要素数)を求める。
【0059】step3:上記特徴ベクトルの集合{XL(1),
XL(2),・・・, XL(K)}の各要素XL(k)について、ラ
ベルLとラベルRL(k)によって一意に決定される重みデ
ータW(L,RL(k))を重みデータメモリ13から読み出
し、以下のように重み付き平均ベクトルVLを求める。
【0060】
【数1】
【0061】step4:音響モデルメモリ6に格納されてい
るところの音素pのHMMを読み出し、このHMMの状
態mからの遷移に対する出力確率における平均ベクトル
を、上記平均ベクトルVLで置き換える。
【0062】以上のstep1からstep4までの処理を、すべ
ての音素pとそのHMMのすべての状態mで定義される
ラベルLについて行い、平均ベクトルが置き換えられた
HMMを適応化音響モデルとして出力する。
【0063】重みデータメモリ13には、ラベルLとラ
ベルRL(k)によって一意に決定される重みデータW(L,
RL(k))が格納されている。重みデータはラベルLとラ
ベルRL(k)が一致したとき最大になるような値を取り、
たとえば、L=RL(k)ならばW(L,RL(k))=1、L≠
RL(k)ならばW(L,RL(k))=0というように定義され
ている。他の構成要素の動作は従来例と同じである。
【0064】以上のような構成と動作により、方言や発
声時のくせなどにより発声内容データと音声データが音
響的に一致しない場合、入力音声の特徴ベクトル時系列
において、照合手段での所作により発声内容データに従
って付された音素HMMのラベルと、連続音声認識手段
によって付されたラベルが一致しない特徴ベクトルは、
適応化音響モデルの生成に対する寄与率が小さくなるた
め適応化音響モデルの精度が向上し、これにより生成さ
れた適応化音響モデルによる音声認識においても認識精
度が向上する。
【0065】例えば、図5には「すし(寿司)」が「す
す」という発声になった場合の音声の特徴ベクトル時系
列3から得られた音響モデル対応付けデータ7と連続音
声認識結果11の例を示している。図16や図3と同じ
く、入力音声の特徴ベクトル時系列3{X(n)|n=
1...N}において、N=1〜P1までが最初の音素
s、n=P1+1〜P2までが次の音素u、P2+1〜P3
が音素s、P3+1〜P4が音素uにあたるものとする。
【0066】音響モデル対応付けデータ7{D(n)|n
=1...N}は図16と同じく、音素HMMをs−u
−s−iの順番に接続したモデルとの照合により、各特
徴ベクトルX(n)に対応して、{L(s,1) L(s,1)...L
(s,3) L(u,1) L(u,2)...L(u,3)....}のように得ら
れている。連続音声認識結果11{R(1),R(2),…,R
(n)}は、図3と同じく、音素系列s−h−u−s−u
−oの順に音素HMMを接続したモデルとの照合によ
り、各特徴ベクトルX(n)に対応して、{L(s,1) L(s,
2)...L(h,1) L(h,2) L(h,3)...L(u,3) L(s,1) L
(s,2)...}のように求められている。
【0067】この例に対し、重み付き適応化音響モデル
生成手段のstep1の処理の中の、音素pをs、HMMの
状態mを1とすると、ラベルLはL(s,1)となり、この
ラベルが対応付けられた特徴ベクトルの集合{XL(k)|
k=1...K}は、{X(1),X(2),X(P2+1)}とな
る。step2の処理ではラベルの集合{RL(k)|k=
1...K}は、{L(s,1), L(s,2),L(s,1)}とな
る。
【0068】重みデータメモリ13上の重みデータとし
て上記の例のように、L=RL(k)ならばW(L,RL(k))
=1、L≠RL(k)ならばW(L,RL(k))=0というよう
に定義すれば、step3の処理において、step1で抽出され
た特徴ベクトルの集合{X(1),X(2),X(P2+1)}のう
ち、特徴ベクトルX(1)とX(P2+1)については重みデー
タは1,特徴ベクトルX(2)に対しては0となる。よっ
て式1により計算される平均ベクトルVLには、特徴ベ
クトルX(2)は寄与せず、生成される適応化音響モデル
にも何の寄与もしないこととなる。
【0069】同様に、音素iとその音素HMMの状態1
について考えると、step1で抽出される特徴ベクトル
{X(P3+1)}は、音響モデル対応付けデータ7ではラベ
ルL(i,1)が付されているが、連続音声認識結果11で
はラベルL(u,1)がつけられており、この特徴ベクトル
は音素iのHMMの状態1に対応する平均ベクトルの更
新に寄与しない。
【0070】よって、特徴ベクトル時系列3において、
音響モデル対応付けデータ7におけるラベルと連続音声
認識結果11におけるラベルが一致しない特徴ベクトル
は、話者適応化所作に影響を与えないようにすることが
可能となり、結果として生成される適応化音響モデルの
精度劣化を抑制することができる。
【0071】また図6には、「ふぃるむ(フィルム)」
が「ふいるむ」というように、「ふぃ」という単音節が
「ふい」と2音節で発声された場合の音声の特徴ベクト
ル時系列3から得られた音響モデル対応付けデータ7と
連続音声認識結果11の例を示している。図17と同じ
く、入力音声「ふいるむ」の特徴ベクトル時系列{X
(n)|n=1...N}の一部である「ふいる」にあた
る部分についての音響モデル対応付けデータ7と連続音
声認識結果11である。n=1〜P1までが最初の音素
f、n=P1+1〜P2までが2番目の音素u、P2+1
〜P3が3番目の音素i、P3+1〜P4が4番目の音素
r、P4+1〜P5が5番目の音素uにあたるものとして
いる。音素HMMをf−i−r−u−m−uの順番に接
続したモデルとの照合により得られた音響モデル対応付
けデータ{D(n)|n=1...N}は、各特徴ベクト
ルX(n)に対応して、{L(f,1) L(f,1)...L(f,2) L
(f,3)L(f,3)...L(i,1) L(i,1) L(i,2)...L(i,
3)...}のように得られている。連続音声認識結果11
{R(1),R(2),…,R(n)}は、音素系列f−u−i−r
−m−u−mの順に音素HMMを接続したモデルとの照
合により、各特徴ベクトルX(n)に対応して、{L(f,1)
L(f,1)...L(f,3) L(u,1) L(u,2)...L(u,3) L(i,
1) L(i,2)...}のように求められている。
【0072】この例に対し、重み付き適応化音響モデル
生成手段のstep1の処理の中の、音素pをi、HMMの
状態mを1とすると、ラベルLはL(i,1)となり、この
ラベルが対応づけられた特徴ベクトルの集合{XL(k)|
k=1...K}は、{X(P2), X(P2+1)}となる。st
ep2の処理では、ラベルの集合{RL(k)|k=1...
K}は、{L(u,3), L(i,1)}となる。重みデータメモ
リ13上の重みデータとして上記の例のように、L=R
L(k)ならばW(L,RL(k))=1、L≠RL(k)ならばW
(L,RL(k))=0というように定義すれば、step3の処理
において、step1で抽出された特徴ベクトルの集合{X
(P2), X(P2+1)}のうち、特徴ベクトルX(P2+1)につい
ては重みデータは1,特徴ベクトルX(P2)に対しては0
となる。よって式1により計算される平均ベクトルVL
には、特徴ベクトルX(P2)は寄与しない。すなわち、音
素iの適応化音響モデルの更新において、音素uの特徴
ベクトルであるX(P2)の影響を抑制することとなり、適
応化音響モデルの精度劣化が抑えられる。
【0073】また、図7は非母国語(すなわち外国語)
音声の例として、英語の
【0074】
【外7】
【0075】が
【0076】
【外8】
【0077】と発声された音声の特徴ベクトル時系列3
から得られた音響モデル対応付けデータ7と連続音声認
識結果11の例である。図18と同じく、入力音声の特
徴ベクトル時系列{X(n)|n=1...N}におい
て、n=1〜P1までが最初の音素s、n=P1+1〜P
2までが次の音素i、P2+1〜P3が音素b、P3+1〜
P4が音素u、P4+1〜P5が
【0078】
【外9】
【0079】にあたるものとしている。英語音素モデル
【0080】
【外10】
【0081】の順番に接続したモデルとの照合により得
られた音響モデル対応付けデータ{D(n)|n=
1...N}は、各特徴ベクトルX(n)に対応して、
{L(s,1) L(s,1)...L(s,3) L(e,1) L(e,2)...L
(e,3)....}のように得られている。連続音声認識結果
11{R(1),R(2),…,R(n)}は、音素系列s−i−b
−m−m−gの順に英語音素HMMを接続したモデルと
の照合により、各特徴ベクトルX(n)に対応して、{L
(s,1) L(s,1)...L(s,3) L(i,1) L(i,1)...L(i,3)
L(b,1) L(b,2)...}のように求められている。
【0082】この例に対し、重み付き適応化音響モデル
生成手段のstep1の処理の中の、音素pをe、HMMの
状態mを1とすると、ラベルLはL(e,1)となり、この
ラベルが対応づけられた特徴ベクトルの集合{XL(k)|
k=1...K}は、{X(P1+1)}となる。step2の処
理では、ラベルの集合{RL(k)|k=1...K}は、
{L(i,1)}となる。重みデータメモリ13上の重みデ
ータとして上記の例のように、L=RL(k)ならばW(L,
RL(k))=1、L≠RL(k)ならばW(L,RL(k))=0とい
うように定義すれば、step3の処理において、step1で抽
出された特徴ベクトルの集合{X(P1+1)}の要素X(P1+
1)については重みデータは0となり、式1により計算さ
れる平均ベクトルVLには、特徴ベクトルX(P1+1)は寄
与しない。すなわち、音素eのHMMの平均ベクトルの
更新において、音素iの特徴ベクトルであるX(P1+1)の
影響を抑制することとなり、適応化音響モデルの精度劣
化が抑えられる。
【0083】また、音素eのHMMの状態3や、音素
v、
【0084】
【外11】
【0085】、音素nの各状態についても、step1で抽
出する特徴ベクトルの集合に対する音響モデル対応付け
データによるところのラベルと、step2において連続音
声認識結果11から求められるところの上記特徴ベクト
ルの集合に対するラベルが一致しないため、上記音素の
HMMの平均ベクトルの更新において、誤って発声され
た音声の特徴ベクトルが影響を与えることを抑制する効
果が働き、生成される適応化音響モデルの精度が向上す
ることとなる。
【0086】なお、この実施の形態における重みデータ
メモリ上の重みデータW(L,RL(k))は、ラベルLとラ
ベルRL(k)が一致したとき最大になるような値を取るな
らば、上記の例に限定されるものではなく、ラベルLと
ラベルRL(k)の間で定義される尤度に類するものであっ
てもよい。
【0087】例えば、音響モデルメモリ上に格納されて
いる音響モデルにおいて、ラベルLに対応する音素HM
Mの状態からの遷移に対応する出力確率の平均ベクトル
と、ラベルRL(k)に対応する音素HMMの状態からの遷
移に対応する出力確率の平均ベクトルとの任意の距離
(ユークリッド距離やチェビシェフ距離など)の逆数、
もしくはその逆数に正の定数をかけた値やα乗の値(α
は正の値)などを用いてもよい。また、この2つの出力
確率を表すそれぞれの確率分布間に定義される任意の尤
度や、距離の逆数であってもかまわない。
【0088】また、この実施の形態における音響モデル
は、音素HMMに限定されるものではなく、音素片や音
節、文節、半音節などの音声単位を表すものであっても
かまわない。またHMM以外のモデルやスペクトルパタ
ンの系列などを用いてもかまわない。この場合、話者適
応における置き換えや更新の対象となるスペクトルパタ
ンやスペクトルの確率分布モデルに対応するラベルを定
義し、そのラベルによって定義される重みデータが重み
データメモリに格納されることになる。
【0089】また、音響モデルを作成する言語が日本語
に限定されるものではなく、他の外国語であってもかま
わない。
【0090】実施の形態2.また別の発明では、重み付
き適応化音響モデル生成手段12において図8に示す手
順で処理を行う。各処理の詳細を以下に示す。
【0091】step1:特徴ベクトル時系列3{X(1),X
(2),・・・X(N)}と、各特徴ベクトルに対応したラベ
ルの系列であるところの連続音声認識結果11{R(1),
R(2),・・・,R(N)}から、任意のラベルL(ただし、
L∈{L(p,m)|pは音素の種類、mはHMMの状態番
号1〜3})に対応づけられた特徴ベクトルを抽出す
る。抽出された特徴ベクトルの集合を{XL(1),XL(2),
・・・, XL(K)}(Kは集合の要素数)とする。
【0092】step2:同じく、特徴ベクトル時系列3の各
特徴ベクトルに対応したラベルの系列であるところの音
響モデル対応付けデータ7{D(1),D(2),・・・,D
(N)}から、上記特徴ベクトルの集合{XL(1),XL(2),
・・・, XL(K)}の各要素に対応するラベルを求め、
ラベルの集合{DL(1),DL(2),・・・, DL(K)}(K
は集合の要素数)を求める。
【0093】step3:上記特徴ベクトルの集合{XL(1),
XL(2),・・・, XL(K)}の各要素XL(k)について、ラ
ベルLとラベルDL(k)によって一意に決定される重みデ
ータW(L,DL(k))を重みデータメモリ13から読み出
し、以下のように重み付き平均ベクトルVLを求める。
【0094】
【数2】
【0095】step4:音響モデルメモリ6に格納されてい
るところの音素pのHMMを読み出し、このHMMの状
態mからの遷移に対する出力確率における平均ベクトル
を、上記平均ベクトルVLで置き換える。
【0096】以上のstep1からstep4までの処理を、すべ
ての音素pとそのHMMのすべての状態mで定義される
ラベルLについて行い、平均ベクトルが置き換えられた
HMMを適応化音響モデルとして出力する。
【0097】この実施の形態における重みデータメモリ
13には、ラベルLとラベルDL(k)によって一意に決定
される重みデータW(L,DL(k))が格納されている。重
みデータはラベルLとラベルDL(k)が一致したとき最大
になるような値を取り、たとえば、L=DL(k)ならばW
(L,DL(k))=1、L≠DL(k)ならばW(L,DL(k))=0
というように定義されている。
【0098】以上のような構成と動作により、方言や発
声時のくせなどにより発声内容データと音声データが音
響的に一致しない場合、入力音声の特徴ベクトル時系列
において、照合手段での所作により発声内容データに従
って付された音素HMMのラベルと、連続音声認識手段
によって付されたラベルが一致しない特徴ベクトルは、
適応化音響モデルの生成に対する寄与率が小さくなるた
め適応化音響モデルの精度が向上し、これにより生成さ
れた適応化音響モデルによる音声認識においても認識精
度が向上する。
【0099】上記実施の形態と同じく図5の、「すし
(寿司)」が「すす」という発声になった場合の音声の
特徴ベクトル時系列3から得られた音響モデル対応付け
データ7と連続音声認識結果11の例を用いて説明を行
う。図16や図3と同じく、入力音声の特徴ベクトル時
系列3{X(n)|n=1...N}において、N=1〜
P1までが最初の音素s、n=P1+1〜P2までが次の
音素u、P2+1〜P3が音素s、P3+1〜P4が音素u
にあたるものとする。
【0100】音響モデル対応付けデータ7{D(n)|n
=1...N}は図16と同じく、音素HMMをs−u
−s−iの順番に接続したモデルとの照合により、各特
徴ベクトルX(n)に対応して、{L(s,1) L(s,1)...L
(s,3) L(u,1) L(u,2)...L(u,3)....}のように得ら
れている。連続音声認識結果11{R(1),R(2),…,R
(n)}は、図3と同じく、音素系列s−h−u−s−u
−oの順に音素HMMを接続したモデルとの照合によ
り、各特徴ベクトルX(n)に対応して、{L(s,1) L(s,
2)...L(h,1) L(h,2) L(h,3)...L(u,3) L(s,1) L
(s,2)...}のように求められている。
【0101】この例に対し、重み付き適応化音響モデル
生成手段のstep1の処理の中の、音素pをs、HMMの
状態mを2とすると、ラベルLはL(s,2)となり、この
ラベルが対応付けられた特徴ベクトルの集合{XL(k)|
k=1...K}は、{X(2),X(P2+2)}となる。step
2の処理ではラベルの集合{DL(k)|k=1...K}
は、{L(s,1), L(s,2)}となる。
【0102】重みデータメモリ13上の重みデータとし
て上記の例のように、L=RL(k)ならばW(L,RL(k))
=1、L≠RL(k)ならばW(L,RL(k))=0というよう
に定義すれば、step3の処理において、step1で抽出され
た特徴ベクトルの集合{X(2),X(P2+2)}のうち、特徴
ベクトルX(P2+2)については重みデータは1,特徴ベク
トルX(2)に対しては0となる。よって式2により計算
される平均ベクトルVLには、特徴ベクトルX(2)は寄与
せず、生成される適応化音響モデルにも何の寄与もしな
いこととなる。
【0103】同様に、音素hとその音素HMMの状態1
について考えると、step1で抽出される特徴ベクトル
{X(P1)}は、連続音声認識結果11ではラベルL(h,
1)が付されているが、音響モデル対応付けデータ7では
ラベルL(s,1)がつけられており、この特徴ベクトルは
音素hのHMMの状態1に対応する平均ベクトルの更新
に寄与しない。
【0104】よって、特徴ベクトル時系列3において、
連続音声認識結果11におけるラベルと音響モデル対応
付けデータ7におけるラベルが一致しない特徴ベクトル
は、話者適応化所作に影響を与えないようにすることが
可能となり、結果として生成される適応化音響モデルの
精度劣化を抑制することができる。
【0105】なお、この実施の形態における重みデータ
メモリ上の重みデータW(L,DL(k))は、ラベルLとラ
ベルDL(k)が一致したとき最大になるような値を取るな
らば、上記の例に限定されるものではなく、ラベルLと
ラベルDL(k)の間で定義される尤度に類するものであっ
てもよい。
【0106】例えば、音響モデルメモリ上に格納されて
いる音響モデルにおいて、ラベルLに対応する音素HM
Mの状態からの遷移に対応する出力確率の平均ベクトル
と、ラベルDL(k)に対応する音素HMMの状態からの遷
移に対応する出力確率の平均ベクトルとの任意の距離
(ユークリッド距離やチェビシェフ距離など)の逆数、
もしくはその逆数に正の定数をかけた値やα乗の値(α
は正の値)などを用いてもよい。また、この2つの出力
確率を表すそれぞれの確率分布間に定義される任意の尤
度や、距離の逆数であってもかまわない。
【0107】また、この実施の形態における音響モデル
は、音素HMMに限定されるものではなく、音素片や音
節、文節、半音節などの音声単位を表すものであっても
かまわない。またHMM以外のモデルやスペクトルパタ
ンの系列などを用いてもかまわない。この場合、話者適
応における置き換えや更新の対象となるスペクトルパタ
ンやスペクトルの確率分布モデルに対応するラベルを定
義し、そのラベルによって定義される重みデータが重み
データメモリに格納されることになる。
【0108】また、音響モデルを作成する言語が日本語
に限定されるものではなく、他の外国語であってもかま
わない。
【0109】実施の形態3.また別の発明では、重み付
き適応化音響モデル生成手段12において図9に示す手
順で処理を行う。各処理の詳細を以下に示す。
【0110】step1:特徴ベクトル時系列3{X(1),X
(2),・・・X(N)}と、各特徴ベクトルに対応したラベ
ルの系列であるところの音響モデル対応付けデータ7
{D(1),D(2),・・・,D(N)}から、任意のラベルL
(ただし、L∈{L(p,m)|pは音素の種類、mはHM
Mの状態番号1〜3})に対応づけられた特徴ベクトル
を抽出する。抽出された特徴ベクトルの集合を{XL
(1),XL(2),・・・, XL(K1)}(K1は集合の要素数)
とする。
【0111】step2:同じく、特徴ベクトル時系列3の各
特徴ベクトルに対応したラベルの系列であるところの連
続音声認識結果11{R(1),R(2),・・・,R(N)}か
ら、上記特徴ベクトルの集合{XL(1),XL(2),・・・,
XL(K1)}の各要素に対応するラベルを求め、ラベルの
集合{RL(1),RL(2),・・・, RL(K1)}(K1は集合
の要素数)を求める。
【0112】step3:前記特徴ベクトル時系列3{X(1),
X(2),・・・X(N)}と、各特徴ベクトルに対応したラ
ベルの系列であるところの前記連続音声認識結果11
{R(1),R(2),・・・,R(N)}から、ラベルLに対応づ
けられた特徴ベクトルを抽出する。抽出された特徴ベク
トルの集合を{YL(1),YL(2),・・・, YL(K2)}(K
2は集合の要素数)とする。
【0113】step4:同じく、特徴ベクトル時系列3の各
特徴ベクトルに対応したラベルの系列であるところの音
響モデル対応付けデータ7{D(1),D(2),・・・,D
(N)}から、上記特徴ベクトルの集合{YL(1),YL(2),
・・・, YL(K2)}の各要素に対応するラベルを求め、
ラベルの集合{DL(1),DL(2),・・・, DL(K2)}(K
2は集合の要素数)を求める。
【0114】step5:前記特徴ベクトルの集合{XL(1),
XL(2),・・・, XL(K1)}と{YL(1),YL(2),・・
・, YL(K2)}の各要素について、ラベルLとラベルR
L(k)によって一意に決定される重みデータW(L,RL
(k))、およびラベルLとラベルDL(k)によって一意に決
定される重みデータW(L,DL(k))を重みデータメモリ
13から読み出し、以下のように重み付き平均ベクトル
VLを求める。式中のβは音響モデル対応付けデータと
連続音声認識結果のどちらに重みをかけた重み付き平均
ベクトルを得るかを変えるパラメータで0から1の間の
値をとる。式中の分子分母の第1項目と第2項目の重み
を変える機能を果たすならば、他の重み付け手法を用い
てもかまわない。
【0115】
【数3】
【0116】step6:音響モデルメモリ6に格納されてい
るところの音素pのHMMを読み出し、このHMMの状
態mからの遷移に対する出力確率における平均ベクトル
を、上記平均ベクトルVLで置き換える。
【0117】以上のstep1からstep6までの処理を、すべ
ての音素pとそのHMMのすべての状態mで定義される
ラベルLについて行い、平均ベクトルが置き換えられた
HMMを適応化音響モデルとして出力する。
【0118】この実施の形態における重みデータメモリ
13には、ラベルLとラベルRL(k)によって一意に決定
される重みデータW(L,RL(k))と、ラベルLとラベル
DL(k)によって一意に決定される重みデータW(L,DL
(k))が格納されている。重みデータはラベルLとラベル
RL(k)(もしくはラベルDL(k))が一致したとき最大に
なるような値を取り、たとえば、L=DL(k)ならばW
(L,DL(k))=1、L≠DL(k)ならばW(L,DL(k))=
0、L=RL(k)ならばW(L,RL(k))=1、L≠RL(k)
ならばW(L,RL(k))=0というように定義されてい
る。
【0119】以上のような構成と動作により、方言や発
声時のくせなどにより発声内容データと音声データが音
響的に一致しない場合、入力音声の特徴ベクトル時系列
において、照合手段での所作により発声内容データに従
って付された音素HMMのラベルと、連続音声認識手段
によって付されたラベルが一致しない特徴ベクトルは、
適応化音響モデルの生成に対する寄与率が小さくなるた
め適応化音響モデルの精度が向上し、これにより生成さ
れた適応化音響モデルによる音声認識においても認識精
度が向上する。
【0120】前述の実施の形態と同じく図5の、「すし
(寿司)」が「すす」という発声になった場合の音声の
特徴ベクトル時系列3から得られた音響モデル対応付け
データ7と連続音声認識結果11の例を用いて説明を行
う。図16や図3と同じく、入力音声の特徴ベクトル時
系列3{X(n)|n=1...N}において、N=1〜
P1までが最初の音素s、n=P1+1〜P2までが次の
音素u、P2+1〜P3が音素s、P3+1〜P4が音素u
にあたるものとする。
【0121】音響モデル対応付けデータ7{D(n)|n
=1...N}は図16と同じく、音素HMMをs−u
−s−iの順番に接続したモデルとの照合により、各特
徴ベクトルX(n)に対応して、{L(s,1) L(s,1)...L
(s,3) L(u,1) L(u,2)...L(u,3)....}のように得ら
れている。連続音声認識結果11{R(1),R(2),…,R
(n)}は、図3と同じく、音素系列s−h−u−s−u
−oの順に音素HMMを接続したモデルとの照合によ
り、各特徴ベクトルX(n)に対応して、{L(s,1) L(s,
2)...L(h,1) L(h,2) L(h,3)...L(u,3) L(s,1) L
(s,2)...}のように求められている。
【0122】この例に対し、重み付き適応化音響モデル
生成手段のstep1の処理の中の、音素pをs、HMMの
状態mを1とすると、ラベルLはL(s,1)となり、この
ラベルが対応付けられた特徴ベクトルの集合{XL(k)|
k=1...K1}は、{X(1),X(2),X(P2+1)}とな
る。step2の処理ではラベルの集合{RL(k)|k=
1...K1}は、{L(s,1),L(s,2),L(s,1)}とな
る。
【0123】step3で抽出される特徴ベクトルの集合
{YL(k)|k=1...K2}は、{X(1),X(P2+1)}とな
る。step4の処理では、ラベルの集合{DL(k)|k=
1...K2}は、{L(s,1),L(s,1)}となる。
【0124】重みデータメモリ13上の重みデータとし
て上記の例のように、L=DL(k)ならばW(L,DL(k))
=1、L≠DL(k)ならばW(L,DL(k))=0、L=RL
(k)ならばW(L,RL(k))=1、L≠RL(k)ならばW(L,
RL(k))=0というように定義すれば、step5の処理にお
いて、step1で抽出された特徴ベクトルの集合{X(1),
X(2),X(P2+1)}のうち、特徴ベクトルX(1)とX(P2+
1)については重みデータは1,特徴ベクトルX(2)に対
しては0となる。また、step3で抽出された特徴ベクト
ルの集合{X(1),X(P2+1)}の各特徴ベクトルについて
の重みはともに1となる。よって式3により計算される
平均ベクトルVLには特徴ベクトルX(2)は寄与しない。
【0125】よって、特徴ベクトル時系列3において、
連続音声認識結果11におけるラベルと音響モデル対応
付けデータ7におけるラベルが一致しない特徴ベクトル
は、話者適応化所作に影響を与えないようにすることが
可能となり、結果として生成される適応化音響モデルの
精度劣化を抑制することができる。
【0126】なお、この実施の形態における重みデータ
メモリ上の重みデータW(L,RL(k))は、ラベルLとラ
ベルRL(k)が一致したとき最大になるような値を取るな
らば、上記の例に限定されるものではなく、ラベルLと
ラベルRL(k)の間で定義される尤度に類するものであっ
てもよい。同じく、重みデータW(L,DL(k))は、ラベ
ルLとラベルDL(k)が一致したとき最大になるような値
を取るならば、上記の例に限定されるものではなく、ラ
ベルLとラベルDL(k)の間で定義される尤度に類するも
のであってもよい。
【0127】例えば、音響モデルメモリ上に格納されて
いる音響モデルにおいて、ラベルLに対応する音素HM
Mの状態からの遷移に対応する出力確率の平均ベクトル
と、ラベルDL(k)(もしくはラベルDL(k))に対応する
音素HMMの状態からの遷移に対応する出力確率の平均
ベクトルとの任意の距離(ユークリッド距離やチェビシ
ェフ距離など)の逆数、もしくはその逆数に正の定数を
かけた値やα乗の値(αは正の値)などを用いてもよ
い。また、この2つの出力確率を表すそれぞれの確率分
布間に定義される任意の尤度や、距離の逆数であっても
かまわない。
【0128】また、この実施の形態における音響モデル
は、音素HMMに限定されるものではなく、音素片や音
節、文節、半音節などの音声単位を表すものであっても
かまわない。またHMM以外のモデルやスペクトルパタ
ンの系列などを用いてもかまわない。この場合、話者適
応における置き換えや更新の対象となるスペクトルパタ
ンやスペクトルの確率分布モデルに対応するラベルを定
義し、そのラベルによって定義される重みデータが重み
データメモリに格納されることになる。
【0129】また、音響モデルを作成する言語が日本語
に限定されるものではなく、他の外国語であってもかま
わない。
【0130】実施の形態4.また別の発明では、連続音
声認識手段10において、音響モデルメモリ6上の音素
HMMによる音素タイプライタ処理を行う際に、任意の
先行音素のHMMの後に、その先行音素以外の任意の音
素のHMMが接続可能でかつ接続回数の制限がない条件
のもとで、特徴ベクトル時系列3と音響モデルメモリ6
上の音素HMMとの連続照合を行う。
【0131】図10は、音素が「a」「i」「u」の3
つの場合を例に取り、音素接続の規則を状態遷移図で示
したものである。初期状態はS0で、最終状態はS1、
S2、S3のいずれかである。各状態からの遷移に対す
る確率は等確率である。S0から音素「a」を接続する
遷移をとってS1に状態遷移した場合、次には音素
「i」を接続してS2に遷移するか、音素「u」を接続
してS3に移るか、S1で最終状態とするかの選択とな
り、同一の音素「a」は接続されないようになってい
る。実際にはすべての音素に対応する遷移が定義されて
おり、任意の先行音素の後に、その先行音素以外の任意
の音素が任意の個数接続できる。
【0132】上記規則に基づいて、特徴ベクトル時系列
3と音素HMMとの照合を行い、最も尤度が高い音素系
列と、この音素系列を構成する音素HMMの各状態と特
徴ベクトル時系列3との対応関係を得る。その他の構成
要素は前記実施の形態と同一である。
【0133】本実施の形態の対象を英語を母国語としな
い日本人が発声した英語音声とし、音響モデルとして英
語音素のHMMを採用する場合、上述のような構成と所
作を実施することで、英語において現れない音素の系列
を排除できる。よって、より精度の高い連続音声認識結
果11が得られることになり、最終的に生成される適応
化音響モデルの精度が向上することとなる。
【0134】この実施の形態は、音響モデルとして英語
音素モデルに限定されるものではなく、英語音節モデル
など、同一音響モデルの繰り返しが起こり得ないような
モデルであれば他のものを用いても同様の効果が得られ
る。
【0135】また、音響モデルとして音素よりも短い音
響単位(たとえば音素片など)を用い、複数個接続した
音響モデルで音素モデルを表現するような場合において
も、本実施の形態と同様な音素接続上の制約を導入する
ことで、同じ効果を発揮することは明らかである。
【0136】実施の形態5.また別の発明では、音響モ
デルメモリ6に記憶される音響モデルとして、日本語音
声の音素やそれより短い音響単位のHMMを用い、連続
音声認識手段10において、音響モデルメモリ6上の音
響モデルにより音素タイプライタ処理を行う際に、日本
語に現れる任意の音節が任意の個数接続できる条件のも
とで、特徴ベクトル時系列3と音響モデルとの連続照合
を行う。
【0137】図11は、音節が「a」「ka」「sa」
の3つの場合を例に取り、音節接続の規則を状態遷移図
で示したものである。初期状態最終状態共にS0であ
る。S0からの遷移において、「a」という一つの母音
音素、あるいは「k」と「a」や、「s」と「a」とい
うような子音音素−母音音素という2つの音素が接続さ
れる。各遷移に対する確率はすべて等しくなっており、
3つの音節が自由にいくつでも接続可能である。実際に
はすべての日本語音節に対応する遷移が定義されてお
り、任意の音節が任意の個数で接続できる。
【0138】上記規則に基づいて、特徴ベクトル時系列
3と音素HMMとの照合を行い、最も尤度が高い音素系
列と、この音素系列を構成する音素HMMの各状態と特
徴ベクトル時系列3との対応関係を得る。その他の構成
要素は前記実施の形態と同一である。
【0139】このような構成と処理により、日本語にお
いて現れない音素の系列を排除でき、より精度の高い連
続音声認識結果11が得られることになり、最終的に生
成される適応化音響モデルの精度が向上することとな
る。
【0140】尚、この実施の形態の連続音声認識手段に
おける音響モデルの接続規則は、図11のような状態遷
移図に限定されるものではなく、同様の制約を果たす別
の規則であってもかまわない。たとえば子音音素が連続
しない、すなわち、任意の先行音素が子音であったとき
はかならず母音が後続し、先行音素が母音であったとき
は任意の音素が接続可能というような規則であってもか
まわない。
【0141】実施の形態6.また図12は、別の発明に
係る話者適応化音響モデル生成装置の一実施の形態の構
成を表すブロック図である。図において14は、重み付
き適応化音響モデル生成手段12が生成した適応化音響
モデル9を音響モデルメモリ6に書き込むことを可能に
する切り替えスイッチである。他の構成要素とその動作
は、上記実施の形態と同じである。
【0142】動作について説明する。上記実施の形態と
同じく、音響モデルとして日本語音素のHMM(Hidden
Markov Model)を用いた場合を例に取る。各HMM
は、4状態3ループのLeft-to-right型で、各状態での
自己遷移と次の状態に移る遷移の出力確率を共有するti
ed-arc構成、出力確率として一つの平均ベクトルとベク
トルの各次元毎の分散値を持つ単一連続分布型のHMM
とする。適応化所作は、前記平均ベクトルの再学習によ
り行う事とし、分散値は元の音響モデルをそのまま用い
るものとする。
【0143】まず切り替えスイッチ14のスイッチをb
側にしておくことで、上記実施の形態と同様の所作の結
果重み付き適応化音響モデル生成手段12が生成した新
しい音響モデルは、音響モデルメモリ6上に上書きされ
る。これにより音響モデルメモリ6上の音響モデルは、
音声データを発声した話者に適応化した音響モデルに書
き換えられる。
【0144】次いで、この新しい音響モデルを用いて再
び上記実施の形態と同様の所作を繰り返す。切り替えス
イッチ14は、この繰り返しが所定の回数に達したとこ
ろでa側に切り替えられ、最終的に得られた適応化音響
モデル9を出力する。
【0145】以上のような動作により、音響モデルメモ
リ上の音響モデルは、徐々に、音声データを発声してい
る話者の音声の特徴を反映した音響モデルへと置き換わ
っていくため、照合手段5において、音響モデルメモリ
上の音響モデルを用いて、特徴ベクトルとの照合を行う
ことで得られる音響モデル対応付けデータの精度が向上
する。同様に、連続音声認識手段10において、音響モ
デルメモリ上の音響モデルを用いて、特徴ベクトル時系
列との連続照合を行うことで得られる連続音声認識結果
11の精度も向上する。よって、重み付き適応化音響モ
デル生成手段において、音響モデル対応付けデータおよ
び連続音声認識結果を用いて生成する適応化音響モデル
9の精度が向上する。
【0146】上記実施の形態と同じくこの実施の形態に
おける音響モデルは、音素HMMに限定されるものでは
なく、音素片や音節、文節、半音節などの音声単位を表
すものであってもかまわない。またHMM以外のモデル
やスペクトルパタンの系列なども用いてもかまわない。
また、音響モデルを作成する言語が日本語に限定される
ものではなく、他の外国語であってもかまわない。
【0147】実施の形態7.また図13は、別の発明に
係る話者適応化音響モデル生成装置の一実施の形態の構
成を表すブロック図である。図において、14は、重み
付き適応化音響モデル生成手段12が生成した適応化音
響モデル9を適応化音響モデルメモリ16に書き込むこ
とを可能にする切り替えスイッチ、15は、音響モデル
メモリ6に格納されている音響モデルと、前記適応化音
響モデルメモリ16に格納されている適応化音響モデル
を入力として、音響モデルの合成を行い、合成音響モデ
ル17を出力する音響モデル合成手段(音響モデル合成
手順)である。
【0148】照合手段5および連続音声認識手段11、
重み付き適応化音響モデル生成手段は、音響モデルメモ
リ6上の音響モデルを読み出す代わりに、前記音響モデ
ル合成手段15が合成した合成音響モデル17を用い
て、それぞれの動作を行う。他の構成要素とその動作
は、上記実施の形態と同じである。
【0149】動作について説明する。上記実施の形態と
同じく、音響モデルとして日本語音素のHMM(Hidden
Markov Model)を用いた場合を例に取る。各HMM
は、4状態3ループのLeft-to-right型で、各状態での
自己遷移と次の状態に移る遷移の出力確率を共有するti
ed-arc構成、出力確率として一つの平均ベクトルとベク
トルの各次元毎の分散値を持つ単一連続分布型のHMM
とする。適応化所作は、前記平均ベクトルの再学習によ
り行う事とし、分散値は元の音響モデルをそのまま用い
るものとする。
【0150】初期状態では、適応化音響モデルメモリ1
6の中には音響モデルメモリ6に格納されている音響モ
デルと同じものが格納されている。そして、切り替えス
イッチ14のスイッチはb側にしておく。音響モデル合
成手段15は、前記音響モデルメモリ6に格納されてい
る音響モデルと、前記適応化音響モデルメモリ16上の
音響モデルの合成を行い、合成音響モデル17として出
力する。この処理の詳細を以下に示す。
【0151】step1:音響モデルメモリ6上の、音素pの
HMMの状態mに対応する出力確率の平均ベクトルCsi
(p,m)と、適応化音響モデルメモリ16上の、同音素p
と同状態mに対応する出力確率の平均ベクトルCsa(p,
m)を読み出し、2つの平均ベクトルの平均を以下の式で
合成し、合成平均ベクトルCmrg(p,m)を得る。
【0152】
【数4】
【0153】ここで、γは0から1の間の値を採り、音
響モデルメモリ上の音響モデルと適応化音響モデルメモ
リ上の音響モデルのどちらに重みをおいた合成平均ベク
トルを得るかを制御するパラメータである。γが1に近
いほど適応化音響モデルメモリ上の音響モデルに重みを
置いた合成が行われる。
【0154】step2:音響モデルメモリ6上の音素pのH
MMの状態mに対応する出力確率の平均ベクトルをstep
1で得られた合成平均ベクトルCmrg(p,m)で置き換え、
音素pのHMMの状態mに対応する合成音響モデルとす
る。
【0155】step3:step1およびstep2の処理をすべての
音素p、HMMの状態mについて行い、合成音響モデル
17として出力する。
【0156】照合手段5は、音響モデルメモリ6上の音
響モデルの代わりに、音響モデル合成手段15が出力す
る合成音響モデル17を用いる以外は、前述の実施の形
態と同じ動作を行い、音響モデル対応付けデータ7を出
力する。
【0157】連続音声認識手段10も、音響モデルメモ
リ6上の音響モデルの代わりに、音響モデル合成手段1
5が出力する合成音響モデル17を用いる以外は、前述
の実施の形態と同じ動作を行い、連続音声認識結果11
を出力する。
【0158】重み付き適応化音響モデル生成手段12
も、音響モデルメモリ6上の音響モデルの代わりに、音
響モデル合成手段15が出力する合成音響モデル17を
用いる以外は、前述の実施の形態と同じ動作を行い、適
応化音響モデルを出力する。切り替えスイッチ14がb
側になっているため、前記適応化音響モデルは、前記適
応化音響モデルメモリ16に格納される。
【0159】ついで、適応化音響モデルメモリ16に格
納された新しい適応化音響モデルを用いて、音響モデル
合成手段15での動作からの重み付き適応化音響モデル
生成手段12までの動作を繰り返す。切り替えスイッチ
14は、この繰り返しが所定の回数に達したところでa
側に切り替えられ、最終的に得られた適応化音響モデル
9を出力する。
【0160】このような所作を施すことで、照合手段や
連続音声認識手段において行われる照合で生じる誤差の
影響により、重み付き適応化音響モデル生成手段におい
て生成される適応化音響モデルに誤りが生じた場合で
も、音響モデル合成手段において、音響モデルメモリ上
の音響モデルとの合成を行うことで、誤差の影響を軽減
することが可能になり、最終的に生成される適応化音響
モデルの精度が向上する。
【0161】なお、音響モデル合成手段15における合
成の式中のγは、0から1の間の任意の固定値を用いて
もかまわないが、切り替えスイッチ14をb側にした状
態で、音響モデル合成手段15での動作からの重み付き
適応化音響モデル生成手段12までの動作の繰り返し所
作の回数の関数として定義してもかまわない。この場
合、上記繰り返し回数が増えるほどγが1に近くなるよ
うな任意の関数を用いることで、上記繰り返し所作によ
り徐々に精度が高くなる適応化音響モデルに重みを置い
た合成音響モデル17が得られることになり、最終的に
生成される適応化音響モデルの精度が向上する。
【0162】上記実施の形態と同じくこの実施の形態に
おける音響モデルは、音素HMMに限定されるものでは
なく、音素片や音節、文節、半音節などの音声単位を表
すものであってもかまわない。またHMM以外のモデル
やスペクトルパタンの系列なども用いてもかまわない。
また、音響モデルを作成する言語が日本語に限定される
ものではなく、他の外国語であってもかまわない。
【0163】
【発明の効果】この発明に係る話者適応化音響モデル作
成方法は、入力された音声信号に対し音響分析を施し、
特徴ベクトル時系列を出力する音響分析手順と、入力音
声の発声内容データに対応する音響モデルを音響モデル
メモリから読み出し、音響分析手順から出力される特徴
ベクトル時系列との照合を行い、各特徴ベクトルに対す
る音響モデルの対応付けデータを出力する照合手順と、
音響分析手順から出力される特徴ベクトル時系列を入力
として、音響モデルメモリに格納されている音響モデル
を用いた連続音声認識を行い、連続音声認識結果を出力
する連続音声認識手順と、音響分析手順の出力である特
徴ベクトル時系列と、照合手順の出力である音響モデル
対応付けデータと、連続音声認識手順の出力である連続
音声認識結果とを用い、重みデータメモリに記憶されて
いる重みデータに従って、音響モデルメモリに格納され
ている音響モデルの一部もしくは全部を書き換えて適応
化音響モデルとして出力する重み付き適応化音響モデル
生成手順を有する。そのため、方言や発声時の癖、また
非母国語が正確に発声できない場合など、発声内容と音
声データが一致しない場合においても、作成される音響
モデルの精度が劣化してしまうことがない。
【0164】また、重み付き適応化音響モデル生成手順
は、照合手順から出力される音響モデルの対応付けデー
タに基づき、特徴ベクトル時系列から特徴ベクトルを抽
出する特徴ベクトル抽出ステップと、連続音声認識手順
の出力である連続音声認識結果に基づき、特徴ベクトル
抽出ステップにおいて抽出された特徴ベクトルに対応す
るラベルを求めるラベルステップと、特徴ベクトルにつ
いて、ラベルによって一意に決定される重みデータを重
みデータメモリから読み出し、重み付き平均ベクトルを
計算する重み付き平均ベクトル計算ステップと、重み付
き平均ベクトルに基づいて、音響モデルに格納されてい
る音響モデルの一部もしくは全部を書き換える書換ステ
ップを有する。そのため、方言や発声時のくせなどによ
り発声内容データと音声データが音響的に一致しない場
合、入力音声の特徴ベクトル時系列において、照合手段
での所作により発声内容データに従って付された音素H
MMのラベルと、連続音声認識手段によって付されたラ
ベルが一致しない特徴ベクトルは、適応化音響モデルの
生成に対する寄与率が小さくなるため適応化音響モデル
の精度が向上し、これにより生成された適応化音響モデ
ルによる音声認識においても認識精度が向上する。
【0165】また、重み付き適応化音響モデル生成手順
は、連続音声認識手順の出力である連続音声認識結果に
基づき、特徴ベクトル時系列から特徴ベクトルを抽出す
る特徴ベクトル抽出ステップと、照合手順の出力である
音響モデルの対応付けデータに基づき、特徴ベクトル抽
出ステップにおいて抽出された特徴ベクトルに対応する
ラベルを求めるラベルステップと、特徴ベクトルについ
て、ラベルによって一意に決定される重みデータを重み
データメモリから読み出し、重み付き平均ベクトルを計
算する重み付き平均ベクトル計算ステップと、重み付き
平均ベクトルに基づいて、音響モデルに格納されている
音響モデルの一部もしくは全部を書き換える書換ステッ
プを有する。そのため、方言や発声時のくせなどにより
発声内容データと音声データが音響的に一致しない場
合、入力音声の特徴ベクトル時系列において、照合手段
での所作により発声内容データに従って付された音素H
MMのラベルと、連続音声認識手段によって付されたラ
ベルが一致しない特徴ベクトルは、適応化音響モデルの
生成に対する寄与率が小さくなるため適応化音響モデル
の精度が向上し、これにより生成された適応化音響モデ
ルによる音声認識においても認識精度が向上する。
【0166】また、重み付き適応化音響モデル生成手順
は、照合手順から出力される音響モデルの対応付けデー
タに基づき、特徴ベクトル時系列から特徴ベクトルを抽
出する特徴ベクトル抽出ステップと、連続音声認識手順
の出力である連続音声認識結果に基づき、前特徴ベクト
ル抽出ステップにおいて抽出された特徴ベクトルに対応
するラベルを求めるラベルステップと、連続音声認識手
順の出力である連続音声認識結果に基づき、特徴ベクト
ル時系列から特徴ベクトルを抽出する特徴ベクトル抽出
ステップと、照合手順の出力である音響モデルの対応付
けデータに基づき、特徴ベクトル抽出ステップにおいて
抽出された特徴ベクトルに対応するラベルを求めるラベ
ルステップと、特徴ベクトルについて、ラベルによって
一意に決定される重みデータを重みデータメモリから読
み出し、重み付き平均ベクトルを計算する重み付き平均
ベクトル計算ステップと、重み付き平均ベクトルに基づ
いて、音響モデルに格納されている音響モデルの一部も
しくは全部を書き換える書換ステップを有する。そのた
め、方言や発声時のくせなどにより発声内容データと音
声データが音響的に一致しない場合、入力音声の特徴ベ
クトル時系列において、照合手段での所作により発声内
容データに従って付された音素HMMのラベルと、連続
音声認識手段によって付されたラベルが一致しない特徴
ベクトルは、適応化音響モデルの生成に対する寄与率が
小さくなるため適応化音響モデルの精度が向上し、これ
により生成された適応化音響モデルによる音声認識にお
いても認識精度が向上する。
【0167】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する2個のラベルデータ
において、2個のラベルが一致した場合に重みデータを
1、一致しなかった場合に重みデータを0とする。その
ため、簡単な方法で生成される適応化音響モデルの精度
劣化を抑制することができる。
【0168】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する2個のラベルデータ
において、各ラベルに対応する特徴ベクトル間の尤度を
計算し、この尤度に比例するパラメータを重みデータと
して用いる。そのため、生成される適応化音響モデルの
精度劣化を抑制することができる。
【0169】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する2個のラベルデータ
において、各ラベルに対応する音響モデル間の尤度を計
算し、この尤度に比例するパラメータを重みデータとし
て用いる。そのため、生成される適応化音響モデルの精
度劣化を抑制することができる。
【0170】また、連続音声認識手順は、音響分析手順
から出力される特徴ベクトル時系列に対して、音響モデ
ルメモリ上の音響モデルを用いて連続音声認識を行う際
に、同一音響モデルの接続を許さないことを拘束条件と
して、任意の音響モデルを任意の個数接続したモデルと
の照合を行う。そのため、認識精度がさらに向上する。
【0171】また、音響モデルメモリに格納されている
音響モデルに、英語を母国語とする話者が発声した英語
音声データを用いて学習した音響モデルを用い、連続音
声認識手順は、音響分析手順から出力される特徴ベクト
ル時系列に対して音響モデルメモリ上の音響モデルを用
いて連続音声認識を行う際に、任意の音素の後ろに同じ
音素が接続しないことを拘束条件として、任意の音響モ
デルを任意の個数接続したモデルとの照合を行う。その
ため、日本語において現れない音素の系列を排除でき、
より精度の高い連続音声認識結果が得られることにな
り、最終的に生成される適応化音響モデルの精度が向上
することとなる。
【0172】また、音響モデルメモリに格納されている
音響モデルに、日本人の話者が発声した日本語音声デー
タを用いて学習した音響モデルを用い、連続音声認識手
順は、音響分析手順から出力される特徴ベクトル時系列
に対して音響モデルメモリ上の音響モデルを用いて連続
音声認識を行う際に、音響モデルの接続における拘束条
件として、日本語に現れる任意の音節が1個以上接続さ
れたモデルとの照合を行う。そのため、英語において現
れない音素の系列を排除でき、より精度の高い連続音声
認識結果が得られることになり、最終的に生成される適
応化音響モデルの精度が向上することとなる。
【0173】また、重み付き適応化モデル生成手順が生
成した適応化音響モデルを音響モデルメモリに書き込む
ことを可能にする切り替え手順をさらに有する。そのた
め、音響モデルメモリに書き込むことができる。
【0174】また、重み付き適応化モデル生成手順が生
成した適応化音響モデルを記憶する適応化音響モデルメ
モリと、音響モデルメモリ上の音響モデルと、適応化音
響モデルメモリ上の適応化音響モデルとを入力して合成
し、合成音響モデルを出力する音響モデル合成手順と、
重み付き適応化モデル生成手順が生成した適応化音響モ
デルを適応化音響モデルメモリに書き込むことを可能に
する切り替え手順をさらに有し、照合手順は、入力音声
の発声内容データに対応する合成音響モデルを音響モデ
ル合成手順から入力し、音響分析手順から出力される特
徴ベクトル時系列との照合を行い、各特徴ベクトルに対
する音響モデルの対応付けデータを出力し、連続音声認
識手順は、音響分析手順から出力される特徴ベクトル時
系列に対し、音響モデル合成手順が出力する合成音響モ
デルを用いた連続音声認識を行い、連続音声認識結果を
出力し、重み付き適応化音響モデル生成手順は、音響分
析手順の出力である特徴ベクトル時系列と、照合手順の
出力である音響モデル対応付けデータと、連続音声認識
手順の出力である連続音声認識結果とを用い、重みデー
タメモリに記憶されている重みデータに従って、音響モ
デル合成手順が出力した合成音響モデルの一部もしくは
全部を書き換えて適応化音響モデルとして出力する。そ
のため、音響モデル対応付けデータおよび連続音声認識
結果を用いて生成する適応化音響モデルの精度が向上す
る。
【0175】また、重み付き適応化モデル生成手順が生
成した適応化音響モデルを適応化音響モデルメモリに書
き込めるように切り替え手順を切り替えた状態で繰り返
し行うところの適応化音響モデル生成所作、すなわち、
音響モデル合成手順における音響モデルの合成、照合手
順における音響モデル対応付けデータの作成、連続音声
認識手順における連続音声認識結果の出力、および、重
み付き適応化モデル生成手順における適応化音響モデル
の生成までの動作の繰り返し回数をカウントし、このカ
ウント値を用いて、音響モデル合成手順における適応音
響モデルメモリ上の適応化音響モデルと、音響モデルメ
モリ上の音響モデルとの合成所作の重みを変化させる。
そのため、音響モデルメモリ上の音響モデルは、徐々
に、音声データを発声している話者の音声の特徴を反映
した音響モデルへと置き換わっていくため、照合手段に
おいて、音響モデルメモリ上の音響モデルを用いて、特
徴ベクトルとの照合を行うことで得られる音響モデル対
応付けデータの精度が向上する。同様に、連続音声認識
手段において、音響モデルメモリ上の音響モデルを用い
て、特徴ベクトル時系列との連続照合を行うことで得ら
れる連続音声認識結果の精度も向上する。よって、重み
付き適応化音響モデル生成手段において、音響モデル対
応付けデータおよび連続音声認識結果を用いて生成する
適応化音響モデルの精度が向上する。
【0176】また、他の発明に係る音声認識装置は、請
求項1乃至13のいずれか記載の話者適応化音響モデル
作成方法により作成された適応化音響モデルを用いて、
未知入力音声信号に対する音響分析手順の出力である特
徴ベクトル時系列に対し音声認識を行い認識結果を出力
する。そのため、方言や発声時の癖、また非母国語が正
確に発声できない場合など、発声内容と音声データが一
致しない場合においても、作成される音響モデルの精度
が劣化してしまうことがなく、精度の良い認識結果を得
ることができる。
【0177】さらにまた、他の発明に係る音声認識装置
は、入力された音声信号に対し音響分析を施し、特徴ベ
クトル時系列を出力する音響分析手段と、入力音声の発
声内容データに対応する音響モデルを音響モデルメモリ
から読み出し、音響分析手段から出力される特徴ベクト
ル時系列との照合を行い、各特徴ベクトルに対する音響
モデルの対応付けデータを出力する照合手段と、音響分
析手段から出力される特徴ベクトル時系列を入力とし
て、音響モデルメモリに格納されている音響モデルを用
いた連続音声認識を行い、連続音声認識結果を出力する
連続音声認識手段と、音響分析手段の出力である特徴ベ
クトル時系列と、照合手段の出力である音響モデル対応
付けデータと、連続音声認識手段の出力である連続音声
認識結果とを用い、重みデータメモリに記憶されている
重みデータに従って、音響モデルメモリに格納されてい
る音響モデルの一部もしくは全部を書き換えて適応化音
響モデルとして出力する重み付き適応化音響モデル生成
手段を有し、未知入力音声信号に対する音響分析手段の
出力である特徴ベクトル時系列に対し音声認識を行い認
識結果を出力する。そのため、方言や発声時の癖、また
非母国語が正確に発声できない場合など、発声内容と音
声データが一致しない場合においても、作成される音響
モデルの精度が劣化してしまうことがなく、精度の良い
認識結果を得ることができる。
【0178】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する2個のラベルデータ
において、2個のラベルが一致した場合に重みデータを
1、一致しなかった場合に重みデータを0とする。その
ため、簡単な方法で生成される適応化音響モデルの精度
劣化を抑制することができる。
【0179】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する2個のラベルデータ
において、各ラベルに対応する特徴ベクトル間の尤度を
計算し、この尤度に比例するパラメータを重みデータと
して用いる。そのため、生成される適応化音響モデルの
精度劣化を抑制することができる。
【0180】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する2個のラベルデータ
において、各ラベルに対応する音響モデル間の尤度を計
算し、この尤度に比例するパラメータを重みデータとし
て用いる。そのため、生成される適応化音響モデルの精
度劣化を抑制することができる。
【0181】また、連続音声認識手段は、音響分析手段
から出力される特徴ベクトル時系列に対して、音響モデ
ルメモリ上の音響モデルを用いて連続音声認識を行う際
に、同一音響モデルの接続を許さないことを拘束条件と
して、任意の音響モデルを任意の個数接続したモデルと
の照合を行う。そのため、認識精度がさらに向上する。
【0182】また、音響モデルメモリに格納されている
音響モデルに、英語を母国語とする話者が発声した英語
音声データを用いて学習した音響モデルを用い、連続音
声認識手段は、音響分析手段から出力される特徴ベクト
ル時系列に対して音響モデルメモリ上の音響モデルを用
いて連続音声認識を行う際に、任意の音素の後ろに同じ
音素が接続しないことを拘束条件として、任意の音響モ
デルを任意の個数接続したモデルとの照合を行う。その
ため、日本語において現れない音素の系列を排除でき、
より精度の高い連続音声認識結果が得られることにな
り、最終的に生成される適応化音響モデルの精度が向上
することとなる。
【0183】また、音響モデルメモリに格納されている
音響モデルに、日本人の話者が発声した日本語音声デー
タを用いて学習した音響モデルを用い、連続音声認識手
段は、音響分析手段から出力される特徴ベクトル時系列
に対して音響モデルメモリ上の音響モデルを用いて連続
音声認識を行う際に、音響モデルの接続における拘束条
件として、日本語に現れる任意の音節が1個以上接続さ
れたモデルとの照合を行う。そのため、英語において現
れない音素の系列を排除でき、より精度の高い連続音声
認識結果が得られることになり、最終的に生成される適
応化音響モデルの精度が向上することとなる。
【0184】また、重み付き適応化音響モデル生成手段
が生成した適応化音響モデルを音響モデルメモリに書き
込むことを可能にする切り替えスイッチをさらに有す
る。そのため、音響モデルメモリに書き込むことができ
る。
【0185】また、重み付き適応化音響モデル生成手段
が生成した適応化音響モデルを記憶する適応化音響モデ
ルメモリと、音響モデルメモリ上の音響モデルと、適応
化音響モデルメモリ上の適応化音響モデルとを入力して
合成し、合成音響モデルを出力する音響モデル合成手段
と、重み付き適応化音響モデル生成手段が生成した適応
化音響モデルを適応化音響モデルメモリに書き込むこと
を可能にする切り替えスイッチをさらに有し、照合手段
は、入力音声の発声内容データに対応する合成音響モデ
ルを音響モデル合成手段から入力し、音響分析手段から
出力される特徴ベクトル時系列との照合を行い、各特徴
ベクトルに対する音響モデルの対応付けデータを出力
し、連続音声認識手段は、音響分析手段から出力される
特徴ベクトル時系列に対し、音響モデル合成手段が出力
する合成音響モデルを用いた連続音声認識を行い、連続
音声認識結果を出力し、重み付き適応化音響モデル生成
手段は、音響分析手段の出力である特徴ベクトル時系列
と、照合手段の出力である音響モデル対応付けデータ
と、連続音声認識手段の出力である連続音声認識結果と
を用い、重みデータメモリに記憶されている重みデータ
に従って、音響モデル合成手段が出力した合成音響モデ
ルの一部もしくは全部を書き換えて適応化音響モデルと
して出力する。そのため、音響モデル対応付けデータお
よび連続音声認識結果を用いて生成する適応化音響モデ
ルの精度が向上する。
【図面の簡単な説明】
【図1】 本発明に係る話者適応化音響モデル生成装置
の一実施の形態の構成を示すブロック図である。
【図2】 音素が「a」「i」「u」の3つの場合を例
に取り、音素接続の規則を示す状態遷移図である。
【図3】 特徴ベクトル時系列に対する連続音声認識結
果の例(発声「すす(寿司)」)を示す図である。
【図4】 重み付き適応化音響モデル生成手段における
処理手順を示す処理フロー図である。
【図5】 特徴ベクトル時系列に対する音響モデル対応
付けデータと連続音声認識結果の例(発声「すす(寿
司)」)を示す図である。
【図6】 特徴ベクトル時系列に対する音響モデル対応
付けデータと連続音声認識結果の例(発声「ふいるむ
(フィルム)」)を示す図である。
【図7】 特徴ベクトル時系列に対する音響モデル対応
付けデータと連続音声認識結果の例(日本人英語)を示
す図である。
【図8】 重み付き適応化音響モデル生成手段における
処理手順を示す処理フロー図である。
【図9】 重み付き適応化音響モデル生成手段における
処理手順を示す処理フロー図である。
【図10】 音素が「a」「i」「u」の3つの場合を
例に取り、連続音声認識手段における音響モデルの接続
規則において、同一モデルの接続を許さない場合を示す
状態遷移図である。
【図11】 連続音声認識手段における音響モデルの接
続規則において、子音音素が連続しない場合を示す状態
遷移図である。
【図12】 本発明に係る話者適応化音響モデル生成装
置の他の実施の形態の構成を示すブロック図である。
【図13】 本発明に係る話者適応化音響モデル生成装
置の他の実施の形態の構成を示すブロック図である。
【図14】 従来の適応的学習による話者適応化方法の
構成の一例を示すブロック図である。
【図15】 特徴ベクトル時系列に対する音響モデル対
応付けデータの例(発声「すす(寿司)」)を示す図で
ある。
【図16】 発声内容と異なる音声の特徴ベクトル時系
列に対する音響モデル対応付けデータの例(発声「すす
(寿司)」)を示す図である。
【図17】 発声内容と異なる音声の特徴ベクトル時系
列に対する音響モデル対応付けデータの例(発声「ふい
るむ(フィルム)」)を示す図である。
【図18】 発声内容と異なる音声の特徴ベクトル時系
列に対する音響モデル対応付けデータの例(日本人英
語)を示す図である。
【符号の説明】
2 音響分析手段(音響分析手順)、5 照合手段(照
合手順)、6 音響モデルメモリ、10 連続音声認識
手段(連続音声認識手順)、12 重み付き適応化音響
モデル生成手段(重み付き適応化モデル生成手順)、1
3 重みデータメモリ、15 音響モデル合成手段(音
響モデル合成手順)、16 適応化音響モデルメモリ。

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声信号に対し音響分析を施
    し、特徴ベクトル時系列を出力する音響分析手順と、 入力音声の発声内容データに対応する音響モデルを音響
    モデルメモリから読み出し、前記音響分析手順から出力
    される特徴ベクトル時系列との照合を行い、各特徴ベク
    トルに対する音響モデルの対応付けデータを出力する照
    合手順と、 前記音響分析手順から出力される特徴ベクトル時系列を
    入力として、前記音響モデルメモリに格納されている音
    響モデルを用いた連続音声認識を行い、連続音声認識結
    果を出力する連続音声認識手順と、 前記音響分析手順の出力である特徴ベクトル時系列と、
    前記照合手順の出力である音響モデル対応付けデータ
    と、前記連続音声認識手順の出力である連続音声認識結
    果とを用い、重みデータメモリに記憶されている重みデ
    ータに従って、音響モデルメモリに格納されている音響
    モデルの一部もしくは全部を書き換えて適応化音響モデ
    ルとして出力する重み付き適応化音響モデル生成手順を
    有することを特徴とする話者適応化音響モデル作成方
    法。
  2. 【請求項2】 前記重み付き適応化音響モデル生成手順
    は、 前記照合手順から出力される音響モデルの対応付けデー
    タに基づき、前記特徴ベクトル時系列から特徴ベクトル
    を抽出する特徴ベクトル抽出ステップと、 前記連続音声認識手順の出力である連続音声認識結果に
    基づき、前記特徴ベクトル抽出ステップにおいて抽出さ
    れた前記特徴ベクトルに対応するラベルを求めるラベル
    ステップと、 前記特徴ベクトルについて、前記ラベルによって一意に
    決定される重みデータを前記重みデータメモリから読み
    出し、重み付き平均ベクトルを計算する重み付き平均ベ
    クトル計算ステップと、 前記重み付き平均ベクトルに基づいて、前記音響モデル
    に格納されている音響モデルの一部もしくは全部を書き
    換える書換ステップを有することを特徴とする請求項1
    記載の話者適応化音響モデル生成方法。
  3. 【請求項3】 前記重み付き適応化音響モデル生成手順
    は、 前記連続音声認識手順の出力である連続音声認識結果に
    基づき、前記特徴ベクトル時系列から特徴ベクトルを抽
    出する特徴ベクトル抽出ステップと、 前記照合手順の出力である音響モデルの対応付けデータ
    に基づき、前記特徴ベクトル抽出ステップにおいて抽出
    された前記特徴ベクトルに対応するラベルを求めるラベ
    ルステップと、 前記特徴ベクトルについて、前記ラベルによって一意に
    決定される重みデータを前記重みデータメモリから読み
    出し、重み付き平均ベクトルを計算する重み付き平均ベ
    クトル計算ステップと、 前記重み付き平均ベクトルに基づいて、前記音響モデル
    に格納されている音響モデルの一部もしくは全部を書き
    換える書換ステップを有することを特徴とする請求項1
    記載の話者適応化音響モデル生成方法。
  4. 【請求項4】 前記重み付き適応化音響モデル生成手順
    は、 前記照合手順から出力される音響モデルの対応付けデー
    タに基づき、前記特徴ベクトル時系列から特徴ベクトル
    を抽出する特徴ベクトル抽出ステップと、 前記連続音声認識手順の出力である連続音声認識結果に
    基づき、前特徴ベクトル抽出ステップにおいて抽出され
    た特徴ベクトルに対応するラベルを求めるラベルステッ
    プと、 前記連続音声認識手順の出力である連続音声認識結果に
    基づき、前記特徴ベクトル時系列から特徴ベクトルを抽
    出する特徴ベクトル抽出ステップと、 前記照合手順の出力である音響モデルの対応付けデータ
    に基づき、前記特徴ベクトル抽出ステップにおいて抽出
    された特徴ベクトルに対応するラベルを求めるラベルス
    テップと、 前記特徴ベクトルについて、前記ラベルによって一意に
    決定される重みデータを前記重みデータメモリから読み
    出し、重み付き平均ベクトルを計算する重み付き平均ベ
    クトル計算ステップと、 前記重み付き平均ベクトルに基づいて、前記音響モデル
    に格納されている音響モデルの一部もしくは全部を書き
    換える書換ステップを有することを特徴とする請求項1
    記載の話者適応化音響モデル生成方法。
  5. 【請求項5】 前記重みデータメモリ上に記憶される重
    みデータは、 重みデータを規定する2個のラベルデータにおいて、2
    個のラベルが一致した場合に重みデータを1、一致しな
    かった場合に重みデータを0とすることを特徴とする請
    求項1記載の話者適応化音響モデル生成方法。
  6. 【請求項6】 前記重みデータメモリ上に記憶される重
    みデータは、 重みデータを規定する2個のラベルデータにおいて、各
    ラベルに対応する特徴ベクトル間の尤度を計算し、この
    尤度に比例するパラメータを重みデータとして用いるこ
    とを特徴とする請求項1記載の話者適応化音響モデル生
    成方法。
  7. 【請求項7】 前記重みデータメモリ上に記憶される重
    みデータは、 重みデータを規定する2個のラベルデータにおいて、各
    ラベルに対応する音響モデル間の尤度を計算し、この尤
    度に比例するパラメータを重みデータとして用いること
    を特徴とする請求項1記載の話者適応化音響モデル生成
    方法。
  8. 【請求項8】 前記連続音声認識手順は、 前記音響分析手順から出力される前記特徴ベクトル時系
    列に対して、前記音響モデルメモリ上の音響モデルを用
    いて連続音声認識を行う際に、同一音響モデルの接続を
    許さないことを拘束条件として、任意の音響モデルを任
    意の個数接続したモデルとの照合を行うことを特徴とす
    る請求項1記載の話者適応化音響モデル生成方法。
  9. 【請求項9】 前記音響モデルメモリに格納されている
    音響モデルに、英語を母国語とする話者が発声した英語
    音声データを用いて学習した音響モデルを用い、 前記連続音声認識手順は、前記音響分析手順から出力さ
    れる前記特徴ベクトル時系列に対して音響モデルメモリ
    上の音響モデルを用いて連続音声認識を行う際に、任意
    の音素の後ろに同じ音素が接続しないことを拘束条件と
    して、任意の音響モデルを任意の個数接続したモデルと
    の照合を行うことを特徴とする請求項8記載の話者適応
    化音響モデル生成方法。
  10. 【請求項10】 前記音響モデルメモリに格納されてい
    る音響モデルに、日本人の話者が発声した日本語音声デ
    ータを用いて学習した音響モデルを用い、 前記連続音声認識手順は、前記音響分析手順から出力さ
    れる前記特徴ベクトル時系列に対して音響モデルメモリ
    上の音響モデルを用いて連続音声認識を行う際に、音響
    モデルの接続における拘束条件として、日本語に現れる
    任意の音節が1個以上接続されたモデルとの照合を行う
    ことを特徴とする請求項1記載の話者適応化音響モデル
    生成方法。
  11. 【請求項11】 前記重み付き適応化モデル生成手順が
    生成した適応化音響モデルを前記音響モデルメモリに書
    き込むことを可能にする切り替え手順をさらに有するこ
    とを特徴とする請求項1記載の話者適応化音響モデル生
    成方法。
  12. 【請求項12】 前記重み付き適応化モデル生成手順が
    生成した適応化音響モデルを記憶する適応化音響モデル
    メモリと、前記音響モデルメモリ上の音響モデルと、前
    記適応化音響モデルメモリ上の適応化音響モデルとを入
    力して合成し、合成音響モデルを出力する音響モデル合
    成手順と、 前記重み付き適応化モデル生成手順が生成した適応化音
    響モデルを前記適応化音響モデルメモリに書き込むこと
    を可能にする切り替え手順をさらに有し、 前記照合手順は、入力音声の発声内容データに対応する
    合成音響モデルを前記音響モデル合成手順から入力し、
    前記音響分析手順から出力される特徴ベクトル時系列と
    の照合を行い、各特徴ベクトルに対する音響モデルの対
    応付けデータを出力し、 前記連続音声認識手順は、前記音響分析手順から出力さ
    れる特徴ベクトル時系列に対し、前記音響モデル合成手
    順が出力する合成音響モデルを用いた連続音声認識を行
    い、連続音声認識結果を出力し、 前記重み付き適応化音響モデル生成手順は、前記音響分
    析手順の出力である特徴ベクトル時系列と、前記照合手
    順の出力である音響モデル対応付けデータと、前記連続
    音声認識手順の出力である連続音声認識結果とを用い、
    重みデータメモリに記憶されている重みデータに従っ
    て、前記音響モデル合成手順が出力した合成音響モデル
    の一部もしくは全部を書き換えて適応化音響モデルとし
    て出力することを特徴とする請求項1記載の話者適応化
    音響モデル生成方法。
  13. 【請求項13】 前記重み付き適応化モデル生成手順が
    生成した適応化音響モデルを適応化音響モデルメモリに
    書き込めるように切り替え手順を切り替えた状態で繰り
    返し行うところの適応化音響モデル生成所作、すなわ
    ち、前記音響モデル合成手順における音響モデルの合
    成、前記照合手順における音響モデル対応付けデータの
    作成、前記連続音声認識手順における連続音声認識結果
    の出力、および、前記重み付き適応化モデル生成手順に
    おける適応化音響モデルの生成までの動作の繰り返し回
    数をカウントし、このカウント値を用いて、前記音響モ
    デル合成手順における適応音響モデルメモリ上の適応化
    音響モデルと、音響モデルメモリ上の音響モデルとの合
    成所作の重みを変化させることを特徴とする請求項12
    記載の話者適応化音響モデル生成方法。
  14. 【請求項14】 請求項1乃至13のいずれか記載の話
    者適応化音響モデル作成方法により作成された適応化音
    響モデルを用いて、未知入力音声信号に対する前記音響
    分析手順の出力である特徴ベクトル時系列に対し音声認
    識を行い認識結果を出力する音声認識装置。
  15. 【請求項15】 入力された音声信号に対し音響分析を
    施し、特徴ベクトル時系列を出力する音響分析手段と、 入力音声の発声内容データに対応する音響モデルを音響
    モデルメモリから読み出し、前記音響分析手段から出力
    される特徴ベクトル時系列との照合を行い、各特徴ベク
    トルに対する音響モデルの対応付けデータを出力する照
    合手段と、 前記音響分析手段から出力される特徴ベクトル時系列を
    入力として、前記音響モデルメモリに格納されている音
    響モデルを用いた連続音声認識を行い、連続音声認識結
    果を出力する連続音声認識手段と、 前記音響分析手段の出力である特徴ベクトル時系列と、
    前記照合手段の出力である音響モデル対応付けデータ
    と、前記連続音声認識手段の出力である連続音声認識結
    果とを用い、重みデータメモリに記憶されている重みデ
    ータに従って、音響モデルメモリに格納されている音響
    モデルの一部もしくは全部を書き換えて適応化音響モデ
    ルとして出力する重み付き適応化音響モデル生成手段を
    有し、 未知入力音声信号に対する前記音響分析手段の出力であ
    る特徴ベクトル時系列に対し音声認識を行い認識結果を
    出力することを特徴とする音声認識装置。
  16. 【請求項16】 前記重みデータメモリ上に記憶される
    重みデータは、 重みデータを規定する2個のラベルデータにおいて、2
    個のラベルが一致した場合に重みデータを1、一致しな
    かった場合に重みデータを0とすることを特徴とする請
    求項15記載の音声認識装置。
  17. 【請求項17】 前記重みデータメモリ上に記憶される
    重みデータは、 重みデータを規定する2個のラベルデータにおいて、各
    ラベルに対応する特徴ベクトル間の尤度を計算し、この
    尤度に比例するパラメータを重みデータとして用いるこ
    とを特徴とする請求項15記載の音声認識装置。
  18. 【請求項18】 前記重みデータメモリ上に記憶される
    重みデータは、 重みデータを規定する2個のラベルデータにおいて、各
    ラベルに対応する音響モデル間の尤度を計算し、この尤
    度に比例するパラメータを重みデータとして用いること
    を特徴とする請求項15記載の音声認識装置。
  19. 【請求項19】 前記連続音声認識手段は、 前記音響分析手段から出力される前記特徴ベクトル時系
    列に対して、前記音響モデルメモリ上の音響モデルを用
    いて連続音声認識を行う際に、同一音響モデルの接続を
    許さないことを拘束条件として、任意の音響モデルを任
    意の個数接続したモデルとの照合を行うことを特徴とす
    る請求項15記載の音声認識装置。
  20. 【請求項20】 前記音響モデルメモリに格納されてい
    る音響モデルに、英語を母国語とする話者が発声した英
    語音声データを用いて学習した音響モデルを用い、 前記連続音声認識手段は、前記音響分析手段から出力さ
    れる前記特徴ベクトル時系列に対して音響モデルメモリ
    上の音響モデルを用いて連続音声認識を行う際に、任意
    の音素の後ろに同じ音素が接続しないことを拘束条件と
    して、任意の音響モデルを任意の個数接続したモデルと
    の照合を行うことを特徴とする請求項19記載の音声認
    識装置。
  21. 【請求項21】 前記音響モデルメモリに格納されてい
    る音響モデルに、日本人の話者が発声した日本語音声デ
    ータを用いて学習した音響モデルを用い、 前記連続音声認識手段は、前記音響分析手段から出力さ
    れる前記特徴ベクトル時系列に対して音響モデルメモリ
    上の音響モデルを用いて連続音声認識を行う際に、音響
    モデルの接続における拘束条件として、日本語に現れる
    任意の音節が1個以上接続されたモデルとの照合を行う
    ことを特徴とする請求項15記載の音声認識装置。
  22. 【請求項22】 前記重み付き適応化音響モデル生成手
    段が生成した適応化音響モデルを前記音響モデルメモリ
    に書き込むことを可能にする切り替えスイッチをさらに
    有することを特徴とする請求項15記載の音声認識装
    置。
  23. 【請求項23】 前記重み付き適応化音響モデル生成手
    段が生成した適応化音響モデルを記憶する適応化音響モ
    デルメモリと、前記音響モデルメモリ上の音響モデル
    と、前記適応化音響モデルメモリ上の適応化音響モデル
    とを入力して合成し、合成音響モデルを出力する音響モ
    デル合成手段と、 前記重み付き適応化音響モデル生成手段が生成した適応
    化音響モデルを前記適応化音響モデルメモリに書き込む
    ことを可能にする切り替えスイッチをさらに有し、 前
    記照合手段は、入力音声の発声内容データに対応する合
    成音響モデルを前記音響モデル合成手段から入力し、前
    記音響分析手段から出力される特徴ベクトル時系列との
    照合を行い、各特徴ベクトルに対する音響モデルの対応
    付けデータを出力し、 前記連続音声認識手段は、前記音響分析手段から出力さ
    れる特徴ベクトル時系列に対し、前記音響モデル合成手
    段が出力する合成音響モデルを用いた連続音声認識を行
    い、連続音声認識結果を出力し、 前記重み付き適応化音響モデル生成手段は、前記音響分
    析手段の出力である特徴ベクトル時系列と、前記照合手
    段の出力である音響モデル対応付けデータと、前記連続
    音声認識手段の出力である連続音声認識結果とを用い、
    重みデータメモリに記憶されている重みデータに従っ
    て、前記音響モデル合成手段が出力した合成音響モデル
    の一部もしくは全部を書き換えて適応化音響モデルとし
    て出力することを特徴とする請求項15記載の音声認識
    装置。
JP11118051A 1999-04-26 1999-04-26 話者適応化音響モデル作成方法と音声認識装置 Pending JP2000305591A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11118051A JP2000305591A (ja) 1999-04-26 1999-04-26 話者適応化音響モデル作成方法と音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11118051A JP2000305591A (ja) 1999-04-26 1999-04-26 話者適応化音響モデル作成方法と音声認識装置

Publications (1)

Publication Number Publication Date
JP2000305591A true JP2000305591A (ja) 2000-11-02

Family

ID=14726816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11118051A Pending JP2000305591A (ja) 1999-04-26 1999-04-26 話者適応化音響モデル作成方法と音声認識装置

Country Status (1)

Country Link
JP (1) JP2000305591A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182261A (ja) * 2012-03-05 2013-09-12 Nippon Hoso Kyokai <Nhk> 適応化装置、音声認識装置、およびそのプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182261A (ja) * 2012-03-05 2013-09-12 Nippon Hoso Kyokai <Nhk> 適応化装置、音声認識装置、およびそのプログラム

Similar Documents

Publication Publication Date Title
US8321222B2 (en) Synthesis by generation and concatenation of multi-form segments
EP2003572B1 (en) Language understanding device
US7136816B1 (en) System and method for predicting prosodic parameters
CN113470662A (zh) 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
JP2006038895A (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JPWO2008087934A1 (ja) 拡張認識辞書学習装置と音声認識システム
JP3092491B2 (ja) 記述長最小基準を用いたパターン適応化方式
JP4072718B2 (ja) 音声処理装置および方法、記録媒体並びにプログラム
US5864809A (en) Modification of sub-phoneme speech spectral models for lombard speech recognition
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
Manjunath et al. Development of phonetic engine for Indian languages: Bengali and Oriya
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP4283133B2 (ja) 音声認識装置
JP2000305591A (ja) 話者適応化音響モデル作成方法と音声認識装置
JPH0895592A (ja) パターン認識方法
Zhang et al. A frame level boosting training scheme for acoustic modeling.
JP3652753B2 (ja) 発声変形音声認識装置及び音声認識方法
JP2002372987A (ja) 音響モデル学習装置、音響モデル学習方法、およびそのプログラム
JPH09114482A (ja) 音声認識のための話者適応化方法
JP6995967B2 (ja) 生成装置、認識システム、および、有限状態トランスデューサの生成方法
Zhang et al. Application of pronunciation knowledge on phoneme recognition by lstm neural network
Kim et al. Deleted strategy for MMI-based HMM training
JP3090204B2 (ja) 音声モデル学習装置及び音声認識装置