JP2000305591A

JP2000305591A - 話者適応化音響モデル作成方法と音声認識装置

Info

Publication number: JP2000305591A
Application number: JP11118051A
Authority: JP
Inventors: Tadashi Suzuki; 鈴木　　忠
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-04-26
Filing date: 1999-04-26
Publication date: 2000-11-02

Abstract

(57)【要約】【課題】作成される音響モデルの精度が劣化してしま
うことのない話者適応化音響モデル作成方法および音声
認識装置を得る。【解決手段】音響分析を施し、特徴ベクトル時系列を
出力する音響分析手段２と、対応する音響モデルを音響
モデルメモリ１６から読み出し、特徴ベクトル時系列と
の照合を行い、音響モデルの対応付けデータを出力する
照合手段５と、音響モデルを用いた連続音声認識を行
い、連続音声認識結果を出力する連続音声認識手段１０
と、特徴ベクトル時系列と、音響モデル対応付けデータ
と、連続音声認識結果とを用い、重みデータメモリ１３
に記憶されている重みデータに従って、音響モデルメモ
リ１６に格納されている音響モデルを書き換えて適応化
音響モデルとして出力する重み付き適応化音響モデル生
成手段１２を有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、任意の話者が発声
した発声内容既知の音声データを用いて、話者に適応し
た音響モデルを作成する話者適応化音響モデル作成方法
と、作成された音響モデルを用いて該話者が発声した音
声を認識する音声認識装置に関するものである。

【０００２】

【従来の技術】図１４は、文献「ディジタル信号処理シ
リーズ第５巻音声・音情報のディジタル信号処理」
（鹿野清宏、中村哲、伊勢史郎共著）の１３６頁から
１３７頁に示されている不特定話者モデルの適応的学習
による話者適応化方法の構成の一例である。図におい
て、２は音声信号入力端１より入力される発声内容既知
の音声信号に対し音響分析処理を行い、特徴ベクトル時
系列３を出力する音響分析手段（音響分析手順）、６は
あらかじめ多数の話者が発声した大量の音声データから
学習した音響モデルを格納する音響モデルメモリ、５は
入力された音声信号の発声内容データに対応する音響モ
デルを音響モデルメモリ６から読み出し、音響分析手段
２から出力される特徴ベクトル時系列３との照合を行
い、各特徴ベクトルに対する音響モデルの対応付けデー
タ７を出力する照合手段（照合手順）、８は音響分析手
段２の出力であるところの特徴ベクトル時系列３と、照
合手段５の出力であるところの音響モデル対応付けデー
タ７を用いて、音響モデルメモリ６に格納されている音
響モデルの一部もしくは全部を書き換えて適応化音響モ
デル９として出力する重み付き適応化音響モデル生成手
段である。

【０００３】次に動作について説明する。ここでは音響
モデルとして、日本語音素のＨＭＭ（Hidden Markov Mo
del）を用いた場合を例に取る。各ＨＭＭは、４状態３
ループのLeft-to-right型で、同一状態への遷移と次の
状態への遷移における出力確率を共有するtied-arc構成
とする。出力確率として一つの平均ベクトルとベクトル
の各次元毎の分散値を持つ単一連続分布型のＨＭＭとす
る。適応化所作は、前記平均ベクトルの再学習により行
い、分散値は元の音響モデルをそのまま用いるものとす
る。

【０００４】ある話者が発声した、発声内容既知の音声
信号は音声信号入力端１より入力され、音響分析手段２
において、一定時間毎に設定される分析フレーム毎に音
響分析され、特徴ベクトル時系列３｛Ｘ(1),Ｘ(2),・・
・,Ｘ(N)｝（Ｎは系列数）として出力される。

【０００５】照合手段５では、発声内容入力端４から入
力される前記音声信号の発声内容に沿って、特徴ベクト
ル時系列３と音響モデルメモリ６上の音響モデルとの照
合を行う。これにより、特徴ベクトル時系列３の各特徴
ベクトル毎に、対応する音素モデルとそのＨＭＭの状態
番号が求められる。音素の種類pとＨＭＭの状態番号mで
一意に決定されるラベルＬ(p,m)を定義すれば、特徴ベ
クトル時系列３｛Ｘ(1),Ｘ(2),・・・,Ｘ(N)｝に対する
ラベルの系列｛Ｄ(1),Ｄ(2),・・・,Ｄ(N)｝（ただし、
Ｄ(n)∈｛Ｌ(p,m)｜ｐは音素の種類、ｍはＨＭＭの状態
番号１〜３｝である）が求められ、これを音響モデル対
応付けデータ７として出力する。

【０００６】図１５は、音声「すし（寿司）」が入力さ
れた場合に得られる音響モデル対応付けデータの例を示
している。入力音声の特徴ベクトル時系列｛Ｘ(n)｜ｎ
＝１．．．Ｎ｝において、ｎ＝１〜Ｐ1までが最初の音
素ｓ、ｎ＝Ｐ1＋１〜Ｐ2までが次の音素ｕ、Ｐ2＋１〜
Ｐ3が音素ｓ、Ｐ3＋１〜Ｐ4が音素ｉにあたるものとし
ている。音素モデルをｓ−ｕ−ｓ−ｉの順番に接続した
モデルとの照合により得られた音響モデル対応付けデー
タ｛Ｄ(n)｜ｎ＝１．．．Ｎ｝は、各特徴ベクトルＸ(n)
に対応して、｛Ｌ(s,1) Ｌ(s,1)...Ｌ(s,3) Ｌ(u,1) Ｌ
(u,2)...Ｌ(u,3)....｝のように得られる。

【０００７】適応化モデル生成手段８では、まず、特徴
ベクトル時系列３｛Ｘ(1),Ｘ(2),・・・,Ｘ(N)｝と音響
モデル対応付けデータ７｛Ｄ(1),Ｄ(2),・・・,Ｄ(N)｝
から、任意のラベルＬ(p,m)が付けられた特徴ベクトル
をすべて抽出し、次いで、音響モデルメモリ６に格納さ
れているところの音素ｐのＨＭＭを読み出し、このＨＭ
Ｍの状態ｍからの遷移に対する出力確率における平均ベ
クトルの更新を行う。平均ベクトルの更新は、たとえ
ば、該ラベルがつけられたすべての特徴ベクトルの平均
で、出力確率の平均ベクトルを置き換えることで行う。
図１５の例で説明すると、音素ｓの状態１にあたるラベ
ルＬ(s,1)に対応付けされた特徴ベクトルであるところ
の｛Ｘ(1) Ｘ(2) Ｘ(P2+1)｝の３つベクトルを抽出し、
この３つの平均ベクトルを求める。得られた平均ベクト
ルで、音素ｓの状態１からの遷移に対する出力確率の平
均ベクトルを更新する。

【０００８】発声内容の異なる種々の音声データを入力
することで、すべての音素ｐと状態ｍについて、音声デ
ータを発声した話者の音声における各音素の特徴ベクト
ルに適合した平均ベクトルを持つ適応化音響モデルが作
成される。

【０００９】

【発明が解決しようとする課題】従来の装置は上記のよ
うに構成されているため、入力される音声データと発声
内容データが一致している場合は良好に動作するが、方
言や発声時のくせなどにより、発声内容データと音声デ
ータが音響的に一致しない場合、生成される適応化音響
モデルの精度が低下するという問題がある。

【００１０】例えば図１６には、「すし（寿司）」が
「すす」という発声になった場合の音響モデル対応付け
データの例を示している。入力音声の特徴ベクトル時系
列｛Ｘ(n)｜ｎ＝１．．．Ｎ｝において、Ｎ＝１〜Ｐ1ま
でが最初の音素ｓ、ｎ＝Ｐ1＋１〜Ｐ2までが次の音素
ｕ、Ｐ2＋１〜Ｐ3が音素ｓ、Ｐ3＋１〜Ｐ4が音素ｕにあ
たるものとする。そして、音素ＨＭＭをｓ−ｕ−ｓ−ｉ
の順番に接続したモデルとの照合により得られた音響モ
デル対応付けデータ｛Ｄ(n)｜ｎ＝１．．．Ｎ｝は、各
特徴ベクトルＸ(n)に対応して、｛Ｌ(s,1) Ｌ(s,1)...
Ｌ(s,3) Ｌ(u,1)Ｌ(u,2)...Ｌ(u,3)....｝のように得ら
れている。

【００１１】４番目の音素ｕにあたる特徴ベクトルに対
し音素ｉのＨＭＭが対応づけられることになるため、適
応化モデル生成手段において計算されるところの音素Ｈ
ＭＭの各状態についての平均ベクトルが、音素ｉのＨＭ
Ｍについては音素ｕにあたる特徴ベクトルにより計算さ
れることになり、適応化音響モデルの精度劣化が生じて
しまう。

【００１２】また、「ふぃるむ（フィルム）」が「ふい
るむ」のように発声された場合、すなわち一音節「ふ
ぃ」が２音節の「ふい」になった場合も、同様な精度劣
化が生じる。図１７は、入力音声「ふいるむ」の特徴ベ
クトル時系列｛Ｘ(n)｜ｎ＝１．．．Ｎ｝の一部である
「ふいる」にあたる部分についての音響モデル対応付け
データの例を示している。ｎ＝１〜Ｐ1までが最初の音
素ｆ、ｎ＝Ｐ1＋１〜Ｐ2までが２番目の音素ｕ、Ｐ2＋
１〜Ｐ3が３番目の音素ｉ、Ｐ3＋１〜Ｐ4が４番目の音
素ｒ、Ｐ4＋１〜Ｐ5が５番目の音素ｕにあたるものとし
ている。音素ＨＭＭをｆ−ｉ−ｒ−ｕ−ｍ−ｕの順番に
接続したモデルとの照合により得られた音響モデル対応
付けデータ｛Ｄ(n)｜ｎ＝１．．．Ｎ｝は、各特徴ベク
トルＸ(n)に対応して、｛Ｌ(f,1) Ｌ(f,1)...Ｌ(f,2)
Ｌ(f,3) Ｌ(f,3)...Ｌ(i,1) Ｌ(i,1) Ｌ(i,2)...Ｌ(i,
3)...｝のように得られている。この場合、音素ｆから
音素ｕの一部までの特徴ベクトルに音素ｆのＨＭＭが対
応づけられ、また音素ｕの一部と音素ｉの特徴ベクトル
に対し音素ｉのＨＭＭが対応づけられている。このた
め、適応化モデル生成手段において計算されるところの
音素ＨＭＭの各状態についての平均ベクトルが、音素ｆ
のＨＭＭについては音素ｆと音素ｕの一部にあたる特徴
ベクトルにより計算され、また音素ｉのＨＭＭについて
は音素ｕの一部と音素ｉにあたる特徴ベクトルにより計
算されることになり、適応化モデルの精度劣化が生じ
る。

【００１３】また、非母国語（すなわち外国語）音声の
発声においても非母国語話者には発声しにくい音素が母
国語において近い音素で発声してしまい、適応化モデル
の精度が劣化してしまう。図１８は、英語の

【００１４】

【外１】

【００１５】が、

【００１６】

【外２】

【００１７】と発声された場合の音響モデル対応付けデ
ータの例である。入力音声の特徴ベクトル時系列｛Ｘ
(n)｜ｎ＝１．．．Ｎ｝において、ｎ＝１〜Ｐ1までが最
初の音素ｓ、ｎ＝Ｐ1＋１〜Ｐ2までが次の音素ｉ、Ｐ2
＋１〜Ｐ3が音素ｂ、Ｐ3＋１〜Ｐ4が音素ｕ、Ｐ4＋１〜
Ｐ5が

【００１８】

【外３】

【００１９】にあたるものとしている。英語音素モデル
を

【００２０】

【外４】

【００２１】の順番に接続したモデルとの照合により得
られた音響モデル対応付けデータ｛Ｄ(n)｜ｎ＝
１．．．Ｎ｝は、各特徴ベクトルＸ(n)に対応して、
｛Ｌ(s,1) Ｌ(s,1)...Ｌ(s,3) Ｌ(e,1) Ｌ(e,2)...Ｌ
(e,3)....｝のように得られている。この場合、２番目
の音素ｉにあたる特徴ベクトルに対し音素ｅのＨＭＭ
が、３番目の音素ｂにあたる特徴ベクトルに対し音素ｖ
のＨＭＭが、４番目の音素ｕにあたる特徴ベクトルに対
し

【００２２】

【外５】

【００２３】が、５番目の

【００２４】

【外６】

【００２５】にあたる特徴ベクトルに対し音素ｎが対応
づけられることになるため、適応化モデル生成手段にお
いて計算されるところの上記音素のＨＭＭの各状態につ
いての平均ベクトルが、別の音素にあたる特徴ベクトル
によって計算されることになり、適応化モデルの精度が
劣化してしまう。

【００２６】この発明は、上記のような課題を解決する
ためになされたもので、方言や発声時の癖、また非母国
語が正確に発声できない場合など、発声内容と音声デー
タが一致しない場合においても、作成される音響モデル
の精度が劣化してしまうことのない話者適応化音響モデ
ル作成方法および音声認識装置を得ることを目的とす
る。

【００２７】

【課題を解決するための手段】この発明に係る話者適応
化音響モデル作成方法は、入力された音声信号に対し音
響分析を施し、特徴ベクトル時系列を出力する音響分析
手順と、入力音声の発声内容データに対応する音響モデ
ルを音響モデルメモリから読み出し、音響分析手順から
出力される特徴ベクトル時系列との照合を行い、各特徴
ベクトルに対する音響モデルの対応付けデータを出力す
る照合手順と、音響分析手順から出力される特徴ベクト
ル時系列を入力として、音響モデルメモリに格納されて
いる音響モデルを用いた連続音声認識を行い、連続音声
認識結果を出力する連続音声認識手順と、音響分析手順
の出力である特徴ベクトル時系列と、照合手順の出力で
ある音響モデル対応付けデータと、連続音声認識手順の
出力である連続音声認識結果とを用い、重みデータメモ
リに記憶されている重みデータに従って、音響モデルメ
モリに格納されている音響モデルの一部もしくは全部を
書き換えて適応化音響モデルとして出力する重み付き適
応化音響モデル生成手順を有する。

【００２８】また、重み付き適応化音響モデル生成手順
は、照合手順から出力される音響モデルの対応付けデー
タに基づき、特徴ベクトル時系列から特徴ベクトルを抽
出する特徴ベクトル抽出ステップと、連続音声認識手順
の出力である連続音声認識結果に基づき、特徴ベクトル
抽出ステップにおいて抽出された特徴ベクトルに対応す
るラベルを求めるラベルステップと、特徴ベクトルにつ
いて、ラベルによって一意に決定される重みデータを重
みデータメモリから読み出し、重み付き平均ベクトルを
計算する重み付き平均ベクトル計算ステップと、重み付
き平均ベクトルに基づいて、音響モデルに格納されてい
る音響モデルの一部もしくは全部を書き換える書換ステ
ップを有する。

【００２９】また、重み付き適応化音響モデル生成手順
は、連続音声認識手順の出力である連続音声認識結果に
基づき、特徴ベクトル時系列から特徴ベクトルを抽出す
る特徴ベクトル抽出ステップと、照合手順の出力である
音響モデルの対応付けデータに基づき、特徴ベクトル抽
出ステップにおいて抽出された特徴ベクトルに対応する
ラベルを求めるラベルステップと、特徴ベクトルについ
て、ラベルによって一意に決定される重みデータを重み
データメモリから読み出し、重み付き平均ベクトルを計
算する重み付き平均ベクトル計算ステップと、重み付き
平均ベクトルに基づいて、音響モデルに格納されている
音響モデルの一部もしくは全部を書き換える書換ステッ
プを有する。

【００３０】また、重み付き適応化音響モデル生成手順
は、照合手順から出力される音響モデルの対応付けデー
タに基づき、特徴ベクトル時系列から特徴ベクトルを抽
出する特徴ベクトル抽出ステップと、連続音声認識手順
の出力である連続音声認識結果に基づき、前特徴ベクト
ル抽出ステップにおいて抽出された特徴ベクトルに対応
するラベルを求めるラベルステップと、連続音声認識手
順の出力である連続音声認識結果に基づき、特徴ベクト
ル時系列から特徴ベクトルを抽出する特徴ベクトル抽出
ステップと、照合手順の出力である音響モデルの対応付
けデータに基づき、特徴ベクトル抽出ステップにおいて
抽出された特徴ベクトルに対応するラベルを求めるラベ
ルステップと、特徴ベクトルについて、ラベルによって
一意に決定される重みデータを重みデータメモリから読
み出し、重み付き平均ベクトルを計算する重み付き平均
ベクトル計算ステップと、重み付き平均ベクトルに基づ
いて、音響モデルに格納されている音響モデルの一部も
しくは全部を書き換える書換ステップを有する。

【００３１】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータ
において、２個のラベルが一致した場合に重みデータを
１、一致しなかった場合に重みデータを０とする。

【００３２】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータ
において、各ラベルに対応する特徴ベクトル間の尤度を
計算し、この尤度に比例するパラメータを重みデータと
して用いる。

【００３３】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータ
において、各ラベルに対応する音響モデル間の尤度を計
算し、この尤度に比例するパラメータを重みデータとし
て用いる。

【００３４】また、連続音声認識手順は、音響分析手順
から出力される特徴ベクトル時系列に対して、音響モデ
ルメモリ上の音響モデルを用いて連続音声認識を行う際
に、同一音響モデルの接続を許さないことを拘束条件と
して、任意の音響モデルを任意の個数接続したモデルと
の照合を行う。

【００３５】また、音響モデルメモリに格納されている
音響モデルに、英語を母国語とする話者が発声した英語
音声データを用いて学習した音響モデルを用い、連続音
声認識手順は、音響分析手順から出力される特徴ベクト
ル時系列に対して音響モデルメモリ上の音響モデルを用
いて連続音声認識を行う際に、任意の音素の後ろに同じ
音素が接続しないことを拘束条件として、任意の音響モ
デルを任意の個数接続したモデルとの照合を行う。

【００３６】また、音響モデルメモリに格納されている
音響モデルに、日本人の話者が発声した日本語音声デー
タを用いて学習した音響モデルを用い、連続音声認識手
順は、音響分析手順から出力される特徴ベクトル時系列
に対して音響モデルメモリ上の音響モデルを用いて連続
音声認識を行う際に、音響モデルの接続における拘束条
件として、日本語に現れる任意の音節が１個以上接続さ
れたモデルとの照合を行う。

【００３７】また、重み付き適応化モデル生成手順が生
成した適応化音響モデルを音響モデルメモリに書き込む
ことを可能にする切り替え手順をさらに有する。

【００３８】また、重み付き適応化モデル生成手順が生
成した適応化音響モデルを記憶する適応化音響モデルメ
モリと、音響モデルメモリ上の音響モデルと、適応化音
響モデルメモリ上の適応化音響モデルとを入力して合成
し、合成音響モデルを出力する音響モデル合成手順と、
重み付き適応化モデル生成手順が生成した適応化音響モ
デルを適応化音響モデルメモリに書き込むことを可能に
する切り替え手順をさらに有し、照合手順は、入力音声
の発声内容データに対応する合成音響モデルを音響モデ
ル合成手順から入力し、音響分析手順から出力される特
徴ベクトル時系列との照合を行い、各特徴ベクトルに対
する音響モデルの対応付けデータを出力し、連続音声認
識手順は、音響分析手順から出力される特徴ベクトル時
系列に対し、音響モデル合成手順が出力する合成音響モ
デルを用いた連続音声認識を行い、連続音声認識結果を
出力し、重み付き適応化音響モデル生成手順は、音響分
析手順の出力である特徴ベクトル時系列と、照合手順の
出力である音響モデル対応付けデータと、連続音声認識
手順の出力である連続音声認識結果とを用い、重みデー
タメモリに記憶されている重みデータに従って、音響モ
デル合成手順が出力した合成音響モデルの一部もしくは
全部を書き換えて適応化音響モデルとして出力する。

【００３９】また、重み付き適応化モデル生成手順が生
成した適応化音響モデルを適応化音響モデルメモリに書
き込めるように切り替え手順を切り替えた状態で繰り返
し行うところの適応化音響モデル生成所作、すなわち、
音響モデル合成手順における音響モデルの合成、照合手
順における音響モデル対応付けデータの作成、連続音声
認識手順における連続音声認識結果の出力、および、重
み付き適応化モデル生成手順における適応化音響モデル
の生成までの動作の繰り返し回数をカウントし、このカ
ウント値を用いて、音響モデル合成手順における適応音
響モデルメモリ上の適応化音響モデルと、音響モデルメ
モリ上の音響モデルとの合成所作の重みを変化させる。

【００４０】また、他の発明に係る音声認識装置は、請
求項１乃至１３のいずれか記載の話者適応化音響モデル
作成方法により作成された適応化音響モデルを用いて、
未知入力音声信号に対する音響分析手順の出力である特
徴ベクトル時系列に対し音声認識を行い認識結果を出力
する。

【００４１】さらにまた、他の発明に係る音声認識装置
は、入力された音声信号に対し音響分析を施し、特徴ベ
クトル時系列を出力する音響分析手段と、入力音声の発
声内容データに対応する音響モデルを音響モデルメモリ
から読み出し、音響分析手段から出力される特徴ベクト
ル時系列との照合を行い、各特徴ベクトルに対する音響
モデルの対応付けデータを出力する照合手段と、音響分
析手段から出力される特徴ベクトル時系列を入力とし
て、音響モデルメモリに格納されている音響モデルを用
いた連続音声認識を行い、連続音声認識結果を出力する
連続音声認識手段と、音響分析手段の出力である特徴ベ
クトル時系列と、照合手段の出力である音響モデル対応
付けデータと、連続音声認識手段の出力である連続音声
認識結果とを用い、重みデータメモリに記憶されている
重みデータに従って、音響モデルメモリに格納されてい
る音響モデルの一部もしくは全部を書き換えて適応化音
響モデルとして出力する重み付き適応化音響モデル生成
手段を有し、未知入力音声信号に対する音響分析手段の
出力である特徴ベクトル時系列に対し音声認識を行い認
識結果を出力する。

【００４２】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータ
において、２個のラベルが一致した場合に重みデータを
１、一致しなかった場合に重みデータを０とする。

【００４３】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータ
において、各ラベルに対応する特徴ベクトル間の尤度を
計算し、この尤度に比例するパラメータを重みデータと
して用いる。

【００４４】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータ
において、各ラベルに対応する音響モデル間の尤度を計
算し、この尤度に比例するパラメータを重みデータとし
て用いる。

【００４５】また、連続音声認識手段は、音響分析手段
から出力される特徴ベクトル時系列に対して、音響モデ
ルメモリ上の音響モデルを用いて連続音声認識を行う際
に、同一音響モデルの接続を許さないことを拘束条件と
して、任意の音響モデルを任意の個数接続したモデルと
の照合を行う。

【００４６】また、音響モデルメモリに格納されている
音響モデルに、英語を母国語とする話者が発声した英語
音声データを用いて学習した音響モデルを用い、連続音
声認識手段は、音響分析手段から出力される特徴ベクト
ル時系列に対して音響モデルメモリ上の音響モデルを用
いて連続音声認識を行う際に、任意の音素の後ろに同じ
音素が接続しないことを拘束条件として、任意の音響モ
デルを任意の個数接続したモデルとの照合を行う。

【００４７】また、音響モデルメモリに格納されている
音響モデルに、日本人の話者が発声した日本語音声デー
タを用いて学習した音響モデルを用い、連続音声認識手
段は、音響分析手段から出力される特徴ベクトル時系列
に対して音響モデルメモリ上の音響モデルを用いて連続
音声認識を行う際に、音響モデルの接続における拘束条
件として、日本語に現れる任意の音節が１個以上接続さ
れたモデルとの照合を行う。

【００４８】また、重み付き適応化音響モデル生成手段
が生成した適応化音響モデルを音響モデルメモリに書き
込むことを可能にする切り替えスイッチをさらに有す
る。

【００４９】また、重み付き適応化音響モデル生成手段
が生成した適応化音響モデルを記憶する適応化音響モデ
ルメモリと、音響モデルメモリ上の音響モデルと、適応
化音響モデルメモリ上の適応化音響モデルとを入力して
合成し、合成音響モデルを出力する音響モデル合成手段
と、重み付き適応化音響モデル生成手段が生成した適応
化音響モデルを適応化音響モデルメモリに書き込むこと
を可能にする切り替えスイッチをさらに有し、照合手段
は、入力音声の発声内容データに対応する合成音響モデ
ルを音響モデル合成手段から入力し、音響分析手段から
出力される特徴ベクトル時系列との照合を行い、各特徴
ベクトルに対する音響モデルの対応付けデータを出力
し、連続音声認識手段は、音響分析手段から出力される
特徴ベクトル時系列に対し、音響モデル合成手段が出力
する合成音響モデルを用いた連続音声認識を行い、連続
音声認識結果を出力し、重み付き適応化音響モデル生成
手段は、音響分析手段の出力である特徴ベクトル時系列
と、照合手段の出力である音響モデル対応付けデータ
と、連続音声認識手段の出力である連続音声認識結果と
を用い、重みデータメモリに記憶されている重みデータ
に従って、音響モデル合成手段が出力した合成音響モデ
ルの一部もしくは全部を書き換えて適応化音響モデルと
して出力する。

【００５０】

【発明の実施の形態】実施の形態１．図１は、本発明に
係る話者適応化音響モデル生成装置の一実施の形態の構
成をあらわすブロック図である。図において、１０は音
響分析手段（音響分析手順）２が出力する特徴ベクトル
時系列３に対し、音響モデルメモリ６に格納されている
音響モデルを用いて連続音声認識を行いその結果を出力
する連続音声認識手段（連続音声認識手順）、１２は音
響分析手段２の出力であるところの特徴ベクトル時系列
３と、照合手段（照合手順）５の出力であるところの音
響モデル対応付けデータ７と、前記連続音声認識手段１
０の出力であるところの連続音声認識結果１１とを用
い、重みデータメモリ１３に記憶されている重みデータ
に従って、音響モデルメモリ６に格納されている音響モ
デルの一部もしくは全部を書き換えて適応化音響モデル
９として出力する重み付き適応化音響モデル生成手段
（重み付き適応化音響モデル生成手順）である。他の構
成要素は従来例と同じである。

【００５１】次に動作について説明する。従来例と同じ
く、音響モデルとして日本語音素のＨＭＭ（Hidden Mar
kov Model）を用いた場合を例に取る。各ＨＭＭは、４
状態３ループのLeft-to-right型で、同一の状態への遷
移と次の状態への遷移が同じ出力確率を持つtied-arc構
成、出力確率として一つの平均ベクトルとベクトルの各
次元毎の分散値を持つ単一連続分布型のＨＭＭとする。
適応化所作は、前記平均ベクトルの再学習により行う事
とし、分散値は元の音響モデルをそのまま用いるものと
する。

【００５２】連続音声認識手段１０は特徴ベクトル時系
列３に対し、音響モデルメモリ６上の音素ＨＭＭによる
音素タイプライタ処理を行う。すなわち特徴ベクトル時
系列３に対し、任意の音素ＨＭＭの後に任意の音素ＨＭ
Ｍが接続可能でかつ接続回数の制限がない条件の下で、
音響モデルメモリ６上の音素ＨＭＭとの照合を行う。図
２は、音素が「ａ」「ｉ」「ｕ」の３つの場合を例に取
り、音素接続の規則を状態遷移図で示したものである。
初期状態最終状態共にＳ０で、この状態からの遷移にお
いて「ａ」「ｉ」「ｕ」の３つ音素のどれかが接続され
る。各遷移に対する確率はすべて等しくなっており、３
つの音素が自由にいくつでも接続可能となっている。実
際にはすべての音素に対応する遷移が定義されており、
任意の音素が任意の個数で接続できる。

【００５３】このような規則に基づく照合により、特徴
ベクトル時系列３に対し最も尤度が高い音素系列と、こ
の音素系列を構成する音素ＨＭＭの各状態と特徴ベクト
ル時系列３との対応関係が得られる。照合手段５におけ
る所作と同じく、音素の種類ｐとＨＭＭの状態番号ｍで
一意に決定されるラベルＬ(p,m)を定義すれば、前記対
応関係から、特徴ベクトル時系列３｛Ｘ(1),Ｘ(2),…,
Ｘ(N)｝に対するラベルの系列｛Ｒ(1),Ｒ(2),…,Ｒ
(n)｝（ただし、Ｒ(n)∈｛Ｌ(p,m)｜ｐは音素の種類、
ｍはＨＭＭの状態番号１〜３｝である）が求められ、こ
れを連続音声認識結果１１として出力する。

【００５４】図３は、「すし（寿司）」が「すす」とい
う発声になった場合の音声の特徴ベクトル時系列３から
得られた連続音声認識結果１１の例を示している。図１
６と同じく、入力音声の特徴ベクトル時系列３｛Ｘ(n)
｜ｎ＝１．．．Ｎ｝において、Ｎ＝１〜Ｐ1までが最初
の音素ｓ、ｎ＝Ｐ1＋１〜Ｐ2までが次の音素ｕ、Ｐ2＋
１〜Ｐ3が音素ｓ、Ｐ3＋１〜Ｐ4が音素ｕにあたるもの
とする。

【００５５】該特徴ベクトル時系列３に対し、最も尤度
が高くなる音素系列ｓ−ｈ−ｕ−ｓ−ｕ−ｏの順に音素
ＨＭＭを接続したモデルとの照合により得られた連続音
声認識結果１１｛Ｒ(1),Ｒ(2),…,Ｒ(n)｝は、各特徴ベ
クトルＸ(n)に対応して、｛Ｌ(s,1) Ｌ(s,2)...Ｌ(h,1)
Ｌ(h,2) Ｌ(h,3)...Ｌ(u,3) Ｌ(s,1) Ｌ(s,2)...｝の
ように求められている。

【００５６】重み付き適応化音響モデル生成手段１２に
おける処理手順を図４に示す。各処理の詳細を以下に示
す。

【００５７】step1:特徴ベクトル時系列３｛Ｘ(1),Ｘ
(2),・・・Ｘ(N)｝と、各特徴ベクトルに対応したラベ
ルの系列であるところの音響モデル対応付けデータ７
｛Ｄ(1),Ｄ(2),・・・,Ｄ(N)｝から、任意のラベルＬ
（ただし、Ｌ∈｛Ｌ(p,m)｜ｐは音素の種類、ｍはＨＭ
Ｍの状態番号１〜３｝）に対応づけられた特徴ベクトル
を抽出する。抽出された特徴ベクトルの集合を｛ＸL
(1),ＸL(2),・・・，ＸL(K)｝（Ｋは集合の要素数）と
する。

【００５８】step2:同じく、特徴ベクトル時系列３の各
特徴ベクトルに対応したラベルの系列であるところの連
続音声認識結果１１｛Ｒ(1),Ｒ(2),・・・,Ｒ(N)｝か
ら、上記特徴ベクトルの集合｛ＸL(1),ＸL(2),・・・，
ＸL(K)｝の各要素に対応するラベルを求め、ラベルの
集合｛ＲL(1),ＲL(2),・・・，ＲL(K)｝（Ｋは集合の
要素数）を求める。

【００５９】step3:上記特徴ベクトルの集合｛ＸL(1),
ＸL(2),・・・，ＸL(K)｝の各要素ＸL(k)について、ラ
ベルＬとラベルＲL(k)によって一意に決定される重みデ
ータＷ(Ｌ,ＲL(k))を重みデータメモリ１３から読み出
し、以下のように重み付き平均ベクトルＶLを求める。

【００６０】

【数１】

【００６１】step4:音響モデルメモリ６に格納されてい
るところの音素ｐのＨＭＭを読み出し、このＨＭＭの状
態ｍからの遷移に対する出力確率における平均ベクトル
を、上記平均ベクトルＶLで置き換える。

【００６２】以上のstep1からstep4までの処理を、すべ
ての音素ｐとそのＨＭＭのすべての状態ｍで定義される
ラベルＬについて行い、平均ベクトルが置き換えられた
ＨＭＭを適応化音響モデルとして出力する。

【００６３】重みデータメモリ１３には、ラベルＬとラ
ベルＲL(k)によって一意に決定される重みデータＷ(Ｌ,
ＲL(k))が格納されている。重みデータはラベルＬとラ
ベルＲL(k)が一致したとき最大になるような値を取り、
たとえば、Ｌ＝ＲL(k)ならばＷ(Ｌ,ＲL(k))＝１、Ｌ≠
ＲL(k)ならばＷ(Ｌ,ＲL(k))＝０というように定義され
ている。他の構成要素の動作は従来例と同じである。

【００６４】以上のような構成と動作により、方言や発
声時のくせなどにより発声内容データと音声データが音
響的に一致しない場合、入力音声の特徴ベクトル時系列
において、照合手段での所作により発声内容データに従
って付された音素ＨＭＭのラベルと、連続音声認識手段
によって付されたラベルが一致しない特徴ベクトルは、
適応化音響モデルの生成に対する寄与率が小さくなるた
め適応化音響モデルの精度が向上し、これにより生成さ
れた適応化音響モデルによる音声認識においても認識精
度が向上する。

【００６５】例えば、図５には「すし（寿司）」が「す
す」という発声になった場合の音声の特徴ベクトル時系
列３から得られた音響モデル対応付けデータ７と連続音
声認識結果１１の例を示している。図１６や図３と同じ
く、入力音声の特徴ベクトル時系列３｛Ｘ(n)｜ｎ＝
１．．．Ｎ｝において、Ｎ＝１〜Ｐ1までが最初の音素
ｓ、ｎ＝Ｐ1＋１〜Ｐ2までが次の音素ｕ、Ｐ2＋１〜Ｐ3
が音素ｓ、Ｐ3＋１〜Ｐ4が音素ｕにあたるものとする。

【００６６】音響モデル対応付けデータ７｛Ｄ(n)｜ｎ
＝１．．．Ｎ｝は図１６と同じく、音素ＨＭＭをｓ−ｕ
−ｓ−ｉの順番に接続したモデルとの照合により、各特
徴ベクトルＸ(n)に対応して、｛Ｌ(s,1) Ｌ(s,1)...Ｌ
(s,3) Ｌ(u,1) Ｌ(u,2)...Ｌ(u,3)....｝のように得ら
れている。連続音声認識結果１１｛Ｒ(1),Ｒ(2),…,Ｒ
(n)｝は、図３と同じく、音素系列ｓ−ｈ−ｕ−ｓ−ｕ
−ｏの順に音素ＨＭＭを接続したモデルとの照合によ
り、各特徴ベクトルＸ(n)に対応して、｛Ｌ(s,1) Ｌ(s,
2)...Ｌ(h,1) Ｌ(h,2) Ｌ(h,3)...Ｌ(u,3) Ｌ(s,1) Ｌ
(s,2)...｝のように求められている。

【００６７】この例に対し、重み付き適応化音響モデル
生成手段のstep1の処理の中の、音素ｐをｓ、ＨＭＭの
状態ｍを１とすると、ラベルＬはＬ(s,1)となり、この
ラベルが対応付けられた特徴ベクトルの集合｛ＸL(k)｜
ｋ＝１．．．Ｋ｝は、｛Ｘ(1),Ｘ(2),Ｘ(P2+1)｝とな
る。step2の処理ではラベルの集合｛ＲL(k)｜ｋ＝
１．．．Ｋ｝は、｛Ｌ(s,1), Ｌ(s,2),Ｌ(s,1)｝とな
る。

【００６８】重みデータメモリ１３上の重みデータとし
て上記の例のように、Ｌ＝ＲL(k)ならばＷ(Ｌ,ＲL(k))
＝１、Ｌ≠ＲL(k)ならばＷ(Ｌ,ＲL(k))＝０というよう
に定義すれば、step3の処理において、step1で抽出され
た特徴ベクトルの集合｛Ｘ(1),Ｘ(2),Ｘ(P2+1)｝のう
ち、特徴ベクトルＸ(1)とＸ(P2+1)については重みデー
タは１，特徴ベクトルＸ(2)に対しては０となる。よっ
て式１により計算される平均ベクトルＶLには、特徴ベ
クトルＸ(2)は寄与せず、生成される適応化音響モデル
にも何の寄与もしないこととなる。

【００６９】同様に、音素ｉとその音素ＨＭＭの状態１
について考えると、step1で抽出される特徴ベクトル
｛Ｘ(P3+1)｝は、音響モデル対応付けデータ７ではラベ
ルＬ(i,1)が付されているが、連続音声認識結果１１で
はラベルＬ(u,1)がつけられており、この特徴ベクトル
は音素ｉのＨＭＭの状態１に対応する平均ベクトルの更
新に寄与しない。

【００７０】よって、特徴ベクトル時系列３において、
音響モデル対応付けデータ７におけるラベルと連続音声
認識結果１１におけるラベルが一致しない特徴ベクトル
は、話者適応化所作に影響を与えないようにすることが
可能となり、結果として生成される適応化音響モデルの
精度劣化を抑制することができる。

【００７１】また図６には、「ふぃるむ（フィルム）」
が「ふいるむ」というように、「ふぃ」という単音節が
「ふい」と２音節で発声された場合の音声の特徴ベクト
ル時系列３から得られた音響モデル対応付けデータ７と
連続音声認識結果１１の例を示している。図１７と同じ
く、入力音声「ふいるむ」の特徴ベクトル時系列｛Ｘ
(n)｜ｎ＝１．．．Ｎ｝の一部である「ふいる」にあた
る部分についての音響モデル対応付けデータ７と連続音
声認識結果１１である。ｎ＝１〜Ｐ1までが最初の音素
ｆ、ｎ＝Ｐ1＋１〜Ｐ2までが２番目の音素ｕ、Ｐ2＋１
〜Ｐ3が３番目の音素ｉ、Ｐ3＋１〜Ｐ4が４番目の音素
ｒ、Ｐ4＋１〜Ｐ5が５番目の音素ｕにあたるものとして
いる。音素ＨＭＭをｆ−ｉ−ｒ−ｕ−ｍ−ｕの順番に接
続したモデルとの照合により得られた音響モデル対応付
けデータ｛Ｄ(n)｜ｎ＝１．．．Ｎ｝は、各特徴ベクト
ルＸ(n)に対応して、｛Ｌ(f,1) Ｌ(f,1)...Ｌ(f,2) Ｌ
(f,3)Ｌ(f,3)...Ｌ(i,1) Ｌ(i,1) Ｌ(i,2)...Ｌ(i,
3)...｝のように得られている。連続音声認識結果１１
｛Ｒ(1),Ｒ(2),…,Ｒ(n)｝は、音素系列ｆ−ｕ−ｉ−ｒ
−ｍ−ｕ−ｍの順に音素ＨＭＭを接続したモデルとの照
合により、各特徴ベクトルＸ(n)に対応して、｛Ｌ(f,1)
Ｌ(f,1)...Ｌ(f,3) Ｌ(u,1) Ｌ(u,2)...Ｌ(u,3) Ｌ(i,
1) Ｌ(i,2)...｝のように求められている。

【００７２】この例に対し、重み付き適応化音響モデル
生成手段のstep1の処理の中の、音素ｐをｉ、ＨＭＭの
状態ｍを１とすると、ラベルＬはＬ(i,1)となり、この
ラベルが対応づけられた特徴ベクトルの集合｛ＸL(k)｜
ｋ＝１．．．Ｋ｝は、｛Ｘ(P2), Ｘ(P2+1)｝となる。st
ep2の処理では、ラベルの集合｛ＲL(k)｜ｋ＝１．．．
Ｋ｝は、｛Ｌ(u,3), Ｌ(i,1)｝となる。重みデータメモ
リ１３上の重みデータとして上記の例のように、Ｌ＝Ｒ
L(k)ならばＷ(Ｌ,ＲL(k))＝１、Ｌ≠ＲL(k)ならばＷ
(Ｌ,ＲL(k))＝０というように定義すれば、step3の処理
において、step1で抽出された特徴ベクトルの集合｛Ｘ
(P2), Ｘ(P2+1)｝のうち、特徴ベクトルＸ(P2+1)につい
ては重みデータは１，特徴ベクトルＸ(P2)に対しては０
となる。よって式１により計算される平均ベクトルＶL
には、特徴ベクトルＸ(P2)は寄与しない。すなわち、音
素ｉの適応化音響モデルの更新において、音素ｕの特徴
ベクトルであるＸ(P2)の影響を抑制することとなり、適
応化音響モデルの精度劣化が抑えられる。

【００７３】また、図７は非母国語（すなわち外国語）
音声の例として、英語の

【００７４】

【外７】

【００７５】が

【００７６】

【外８】

【００７７】と発声された音声の特徴ベクトル時系列３
から得られた音響モデル対応付けデータ７と連続音声認
識結果１１の例である。図１８と同じく、入力音声の特
徴ベクトル時系列｛Ｘ(n)｜ｎ＝１．．．Ｎ｝におい
て、ｎ＝１〜Ｐ1までが最初の音素ｓ、ｎ＝Ｐ1＋１〜Ｐ
2までが次の音素ｉ、Ｐ2＋１〜Ｐ3が音素ｂ、Ｐ3＋１〜
Ｐ4が音素ｕ、Ｐ4＋１〜Ｐ5が

【００７８】

【外９】

【００７９】にあたるものとしている。英語音素モデル
を

【００８０】

【外１０】

【００８１】の順番に接続したモデルとの照合により得
られた音響モデル対応付けデータ｛Ｄ(n)｜ｎ＝
１．．．Ｎ｝は、各特徴ベクトルＸ(n)に対応して、
｛Ｌ(s,1) Ｌ(s,1)...Ｌ(s,3) Ｌ(e,1) Ｌ(e,2)...Ｌ
(e,3)....｝のように得られている。連続音声認識結果
１１｛Ｒ(1),Ｒ(2),…,Ｒ(n)｝は、音素系列ｓ−ｉ−ｂ
−ｍ−ｍ−ｇの順に英語音素ＨＭＭを接続したモデルと
の照合により、各特徴ベクトルＸ(n)に対応して、｛Ｌ
(s,1) Ｌ(s,1)...Ｌ(s,3) Ｌ(i,1) Ｌ(i,1)...Ｌ(i,3)
Ｌ(b,1) Ｌ(b,2)...｝のように求められている。

【００８２】この例に対し、重み付き適応化音響モデル
生成手段のstep1の処理の中の、音素ｐをｅ、ＨＭＭの
状態ｍを１とすると、ラベルＬはＬ(e,1)となり、この
ラベルが対応づけられた特徴ベクトルの集合｛ＸL(k)｜
ｋ＝１．．．Ｋ｝は、｛Ｘ(P1+1)｝となる。step2の処
理では、ラベルの集合｛ＲL(k)｜ｋ＝１．．．Ｋ｝は、
｛Ｌ(i,1)｝となる。重みデータメモリ１３上の重みデ
ータとして上記の例のように、Ｌ＝ＲL(k)ならばＷ(Ｌ,
ＲL(k))＝１、Ｌ≠ＲL(k)ならばＷ(Ｌ,ＲL(k))＝０とい
うように定義すれば、step3の処理において、step1で抽
出された特徴ベクトルの集合｛Ｘ(P1+1)｝の要素Ｘ(P1+
1)については重みデータは０となり、式１により計算さ
れる平均ベクトルＶLには、特徴ベクトルＸ(P1+1)は寄
与しない。すなわち、音素ｅのＨＭＭの平均ベクトルの
更新において、音素ｉの特徴ベクトルであるＸ(P1+1)の
影響を抑制することとなり、適応化音響モデルの精度劣
化が抑えられる。

【００８３】また、音素ｅのＨＭＭの状態３や、音素
ｖ、

【００８４】

【外１１】

【００８５】、音素ｎの各状態についても、step1で抽
出する特徴ベクトルの集合に対する音響モデル対応付け
データによるところのラベルと、step2において連続音
声認識結果１１から求められるところの上記特徴ベクト
ルの集合に対するラベルが一致しないため、上記音素の
ＨＭＭの平均ベクトルの更新において、誤って発声され
た音声の特徴ベクトルが影響を与えることを抑制する効
果が働き、生成される適応化音響モデルの精度が向上す
ることとなる。

【００８６】なお、この実施の形態における重みデータ
メモリ上の重みデータＷ(Ｌ,ＲL(k))は、ラベルＬとラ
ベルＲL(k)が一致したとき最大になるような値を取るな
らば、上記の例に限定されるものではなく、ラベルＬと
ラベルＲL(k)の間で定義される尤度に類するものであっ
てもよい。

【００８７】例えば、音響モデルメモリ上に格納されて
いる音響モデルにおいて、ラベルＬに対応する音素ＨＭ
Ｍの状態からの遷移に対応する出力確率の平均ベクトル
と、ラベルＲL(k)に対応する音素ＨＭＭの状態からの遷
移に対応する出力確率の平均ベクトルとの任意の距離
（ユークリッド距離やチェビシェフ距離など）の逆数、
もしくはその逆数に正の定数をかけた値やα乗の値（α
は正の値）などを用いてもよい。また、この２つの出力
確率を表すそれぞれの確率分布間に定義される任意の尤
度や、距離の逆数であってもかまわない。

【００８８】また、この実施の形態における音響モデル
は、音素ＨＭＭに限定されるものではなく、音素片や音
節、文節、半音節などの音声単位を表すものであっても
かまわない。またＨＭＭ以外のモデルやスペクトルパタ
ンの系列などを用いてもかまわない。この場合、話者適
応における置き換えや更新の対象となるスペクトルパタ
ンやスペクトルの確率分布モデルに対応するラベルを定
義し、そのラベルによって定義される重みデータが重み
データメモリに格納されることになる。

【００８９】また、音響モデルを作成する言語が日本語
に限定されるものではなく、他の外国語であってもかま
わない。

【００９０】実施の形態２．また別の発明では、重み付
き適応化音響モデル生成手段１２において図８に示す手
順で処理を行う。各処理の詳細を以下に示す。

【００９１】step1:特徴ベクトル時系列３｛Ｘ(1),Ｘ
(2),・・・Ｘ(N)｝と、各特徴ベクトルに対応したラベ
ルの系列であるところの連続音声認識結果１１｛Ｒ(1),
Ｒ(2),・・・,Ｒ(N)｝から、任意のラベルＬ（ただし、
Ｌ∈｛Ｌ(p,m)｜ｐは音素の種類、ｍはＨＭＭの状態番
号１〜３｝）に対応づけられた特徴ベクトルを抽出す
る。抽出された特徴ベクトルの集合を｛ＸL(1),ＸL(2),
・・・，ＸL(K)｝（Ｋは集合の要素数）とする。

【００９２】step2:同じく、特徴ベクトル時系列３の各
特徴ベクトルに対応したラベルの系列であるところの音
響モデル対応付けデータ７｛Ｄ(1),Ｄ(2),・・・,Ｄ
(N)｝から、上記特徴ベクトルの集合｛ＸL(1),ＸL(2),
・・・，ＸL(K)｝の各要素に対応するラベルを求め、
ラベルの集合｛ＤL(1),ＤL(2),・・・，ＤL(K)｝（Ｋ
は集合の要素数）を求める。

【００９３】step3:上記特徴ベクトルの集合｛ＸL(1),
ＸL(2),・・・，ＸL(K)｝の各要素ＸL(k)について、ラ
ベルＬとラベルＤL(k)によって一意に決定される重みデ
ータＷ(Ｌ,ＤL(k))を重みデータメモリ１３から読み出
し、以下のように重み付き平均ベクトルＶLを求める。

【００９４】

【数２】

【００９５】step4:音響モデルメモリ６に格納されてい
るところの音素ｐのＨＭＭを読み出し、このＨＭＭの状
態ｍからの遷移に対する出力確率における平均ベクトル
を、上記平均ベクトルＶLで置き換える。

【００９６】以上のstep1からstep4までの処理を、すべ
ての音素ｐとそのＨＭＭのすべての状態ｍで定義される
ラベルＬについて行い、平均ベクトルが置き換えられた
ＨＭＭを適応化音響モデルとして出力する。

【００９７】この実施の形態における重みデータメモリ
１３には、ラベルＬとラベルＤL(k)によって一意に決定
される重みデータＷ(Ｌ,ＤL(k))が格納されている。重
みデータはラベルＬとラベルＤL(k)が一致したとき最大
になるような値を取り、たとえば、Ｌ＝ＤL(k)ならばＷ
(Ｌ,ＤL(k))＝１、Ｌ≠ＤL(k)ならばＷ(Ｌ,ＤL(k))＝０
というように定義されている。

【００９８】以上のような構成と動作により、方言や発
声時のくせなどにより発声内容データと音声データが音
響的に一致しない場合、入力音声の特徴ベクトル時系列
において、照合手段での所作により発声内容データに従
って付された音素ＨＭＭのラベルと、連続音声認識手段
によって付されたラベルが一致しない特徴ベクトルは、
適応化音響モデルの生成に対する寄与率が小さくなるた
め適応化音響モデルの精度が向上し、これにより生成さ
れた適応化音響モデルによる音声認識においても認識精
度が向上する。

【００９９】上記実施の形態と同じく図５の、「すし
（寿司）」が「すす」という発声になった場合の音声の
特徴ベクトル時系列３から得られた音響モデル対応付け
データ７と連続音声認識結果１１の例を用いて説明を行
う。図１６や図３と同じく、入力音声の特徴ベクトル時
系列３｛Ｘ(n)｜ｎ＝１．．．Ｎ｝において、Ｎ＝１〜
Ｐ1までが最初の音素ｓ、ｎ＝Ｐ1＋１〜Ｐ2までが次の
音素ｕ、Ｐ2＋１〜Ｐ3が音素ｓ、Ｐ3＋１〜Ｐ4が音素ｕ
にあたるものとする。

【０１００】音響モデル対応付けデータ７｛Ｄ(n)｜ｎ
＝１．．．Ｎ｝は図１６と同じく、音素ＨＭＭをｓ−ｕ
−ｓ−ｉの順番に接続したモデルとの照合により、各特
徴ベクトルＸ(n)に対応して、｛Ｌ(s,1) Ｌ(s,1)...Ｌ
(s,3) Ｌ(u,1) Ｌ(u,2)...Ｌ(u,3)....｝のように得ら
れている。連続音声認識結果１１｛Ｒ(1),Ｒ(2),…,Ｒ
(n)｝は、図３と同じく、音素系列ｓ−ｈ−ｕ−ｓ−ｕ
−ｏの順に音素ＨＭＭを接続したモデルとの照合によ
り、各特徴ベクトルＸ(n)に対応して、｛Ｌ(s,1) Ｌ(s,
2)...Ｌ(h,1) Ｌ(h,2) Ｌ(h,3)...Ｌ(u,3) Ｌ(s,1) Ｌ
(s,2)...｝のように求められている。

【０１０１】この例に対し、重み付き適応化音響モデル
生成手段のstep1の処理の中の、音素ｐをｓ、ＨＭＭの
状態ｍを２とすると、ラベルＬはＬ(s,2)となり、この
ラベルが対応付けられた特徴ベクトルの集合｛ＸL(k)｜
ｋ＝１．．．Ｋ｝は、｛Ｘ(2),Ｘ(P2+2)｝となる。step
2の処理ではラベルの集合｛ＤL(k)｜ｋ＝１．．．Ｋ｝
は、｛Ｌ(s,1), Ｌ(s,2)｝となる。

【０１０２】重みデータメモリ１３上の重みデータとし
て上記の例のように、Ｌ＝ＲL(k)ならばＷ(Ｌ,ＲL(k))
＝１、Ｌ≠ＲL(k)ならばＷ(Ｌ,ＲL(k))＝０というよう
に定義すれば、step3の処理において、step1で抽出され
た特徴ベクトルの集合｛Ｘ(2),Ｘ(P2+2)｝のうち、特徴
ベクトルＸ(P2+2)については重みデータは１，特徴ベク
トルＸ(2)に対しては０となる。よって式２により計算
される平均ベクトルＶLには、特徴ベクトルＸ(2)は寄与
せず、生成される適応化音響モデルにも何の寄与もしな
いこととなる。

【０１０３】同様に、音素ｈとその音素ＨＭＭの状態１
について考えると、step1で抽出される特徴ベクトル
｛Ｘ(P1)｝は、連続音声認識結果１１ではラベルＬ(h,
1)が付されているが、音響モデル対応付けデータ７では
ラベルＬ(s,1)がつけられており、この特徴ベクトルは
音素ｈのＨＭＭの状態１に対応する平均ベクトルの更新
に寄与しない。

【０１０４】よって、特徴ベクトル時系列３において、
連続音声認識結果１１におけるラベルと音響モデル対応
付けデータ７におけるラベルが一致しない特徴ベクトル
は、話者適応化所作に影響を与えないようにすることが
可能となり、結果として生成される適応化音響モデルの
精度劣化を抑制することができる。

【０１０５】なお、この実施の形態における重みデータ
メモリ上の重みデータＷ(Ｌ,ＤL(k))は、ラベルＬとラ
ベルＤL(k)が一致したとき最大になるような値を取るな
らば、上記の例に限定されるものではなく、ラベルＬと
ラベルＤL(k)の間で定義される尤度に類するものであっ
てもよい。

【０１０６】例えば、音響モデルメモリ上に格納されて
いる音響モデルにおいて、ラベルＬに対応する音素ＨＭ
Ｍの状態からの遷移に対応する出力確率の平均ベクトル
と、ラベルＤL(k)に対応する音素ＨＭＭの状態からの遷
移に対応する出力確率の平均ベクトルとの任意の距離
（ユークリッド距離やチェビシェフ距離など）の逆数、
もしくはその逆数に正の定数をかけた値やα乗の値（α
は正の値）などを用いてもよい。また、この２つの出力
確率を表すそれぞれの確率分布間に定義される任意の尤
度や、距離の逆数であってもかまわない。

【０１０７】また、この実施の形態における音響モデル
は、音素ＨＭＭに限定されるものではなく、音素片や音
節、文節、半音節などの音声単位を表すものであっても
かまわない。またＨＭＭ以外のモデルやスペクトルパタ
ンの系列などを用いてもかまわない。この場合、話者適
応における置き換えや更新の対象となるスペクトルパタ
ンやスペクトルの確率分布モデルに対応するラベルを定
義し、そのラベルによって定義される重みデータが重み
データメモリに格納されることになる。

【０１０８】また、音響モデルを作成する言語が日本語
に限定されるものではなく、他の外国語であってもかま
わない。

【０１０９】実施の形態３．また別の発明では、重み付
き適応化音響モデル生成手段１２において図９に示す手
順で処理を行う。各処理の詳細を以下に示す。

【０１１０】step1:特徴ベクトル時系列３｛Ｘ(1),Ｘ
(2),・・・Ｘ(N)｝と、各特徴ベクトルに対応したラベ
ルの系列であるところの音響モデル対応付けデータ７
｛Ｄ(1),Ｄ(2),・・・,Ｄ(N)｝から、任意のラベルＬ
（ただし、Ｌ∈｛Ｌ(p,m)｜ｐは音素の種類、ｍはＨＭ
Ｍの状態番号１〜３｝）に対応づけられた特徴ベクトル
を抽出する。抽出された特徴ベクトルの集合を｛ＸL
(1),ＸL(2),・・・，ＸL(K1)｝（Ｋ1は集合の要素数）
とする。

【０１１１】step2:同じく、特徴ベクトル時系列３の各
特徴ベクトルに対応したラベルの系列であるところの連
続音声認識結果１１｛Ｒ(1),Ｒ(2),・・・,Ｒ(N)｝か
ら、上記特徴ベクトルの集合｛ＸL(1),ＸL(2),・・・，
ＸL(K1)｝の各要素に対応するラベルを求め、ラベルの
集合｛ＲL(1),ＲL(2),・・・，ＲL(K1)｝（Ｋ1は集合
の要素数）を求める。

【０１１２】step3:前記特徴ベクトル時系列３｛Ｘ(1),
Ｘ(2),・・・Ｘ(N)｝と、各特徴ベクトルに対応したラ
ベルの系列であるところの前記連続音声認識結果１１
｛Ｒ(1),Ｒ(2),・・・,Ｒ(N)｝から、ラベルＬに対応づ
けられた特徴ベクトルを抽出する。抽出された特徴ベク
トルの集合を｛ＹL(1),ＹL(2),・・・，ＹL(K2)｝（Ｋ
2は集合の要素数）とする。

【０１１３】step4:同じく、特徴ベクトル時系列３の各
特徴ベクトルに対応したラベルの系列であるところの音
響モデル対応付けデータ７｛Ｄ(1),Ｄ(2),・・・,Ｄ
(N)｝から、上記特徴ベクトルの集合｛ＹL(1),ＹL(2),
・・・，ＹL(K2)｝の各要素に対応するラベルを求め、
ラベルの集合｛ＤL(1),ＤL(2),・・・，ＤL(K2)｝（Ｋ
2は集合の要素数）を求める。

【０１１４】step5:前記特徴ベクトルの集合｛ＸL(1),
ＸL(2),・・・，ＸL(K1)｝と｛ＹL(1),ＹL(2),・・
・，ＹL(K2)｝の各要素について、ラベルＬとラベルＲ
L(k)によって一意に決定される重みデータＷ(Ｌ,ＲL
(k))、およびラベルＬとラベルＤL(k)によって一意に決
定される重みデータＷ(Ｌ,ＤL(k))を重みデータメモリ
１３から読み出し、以下のように重み付き平均ベクトル
ＶLを求める。式中のβは音響モデル対応付けデータと
連続音声認識結果のどちらに重みをかけた重み付き平均
ベクトルを得るかを変えるパラメータで０から１の間の
値をとる。式中の分子分母の第１項目と第２項目の重み
を変える機能を果たすならば、他の重み付け手法を用い
てもかまわない。

【０１１５】

【数３】

【０１１６】step6:音響モデルメモリ６に格納されてい
るところの音素ｐのＨＭＭを読み出し、このＨＭＭの状
態ｍからの遷移に対する出力確率における平均ベクトル
を、上記平均ベクトルＶLで置き換える。

【０１１７】以上のstep1からstep6までの処理を、すべ
ての音素ｐとそのＨＭＭのすべての状態ｍで定義される
ラベルＬについて行い、平均ベクトルが置き換えられた
ＨＭＭを適応化音響モデルとして出力する。

【０１１８】この実施の形態における重みデータメモリ
１３には、ラベルＬとラベルＲL(k)によって一意に決定
される重みデータＷ(Ｌ,ＲL(k))と、ラベルＬとラベル
ＤL(k)によって一意に決定される重みデータＷ(Ｌ,ＤL
(k))が格納されている。重みデータはラベルＬとラベル
ＲL(k)（もしくはラベルＤL(k)）が一致したとき最大に
なるような値を取り、たとえば、Ｌ＝ＤL(k)ならばＷ
(Ｌ,ＤL(k))＝１、Ｌ≠ＤL(k)ならばＷ(Ｌ,ＤL(k))＝
０、Ｌ＝ＲL(k)ならばＷ(Ｌ,ＲL(k))＝１、Ｌ≠ＲL(k)
ならばＷ(Ｌ,ＲL(k))＝０というように定義されてい
る。

【０１１９】以上のような構成と動作により、方言や発
声時のくせなどにより発声内容データと音声データが音
響的に一致しない場合、入力音声の特徴ベクトル時系列
において、照合手段での所作により発声内容データに従
って付された音素ＨＭＭのラベルと、連続音声認識手段
によって付されたラベルが一致しない特徴ベクトルは、
適応化音響モデルの生成に対する寄与率が小さくなるた
め適応化音響モデルの精度が向上し、これにより生成さ
れた適応化音響モデルによる音声認識においても認識精
度が向上する。

【０１２０】前述の実施の形態と同じく図５の、「すし
（寿司）」が「すす」という発声になった場合の音声の
特徴ベクトル時系列３から得られた音響モデル対応付け
データ７と連続音声認識結果１１の例を用いて説明を行
う。図１６や図３と同じく、入力音声の特徴ベクトル時
系列３｛Ｘ(n)｜ｎ＝１．．．Ｎ｝において、Ｎ＝１〜
Ｐ1までが最初の音素ｓ、ｎ＝Ｐ1＋１〜Ｐ2までが次の
音素ｕ、Ｐ2＋１〜Ｐ3が音素ｓ、Ｐ3＋１〜Ｐ4が音素ｕ
にあたるものとする。

【０１２１】音響モデル対応付けデータ７｛Ｄ(n)｜ｎ
＝１．．．Ｎ｝は図１６と同じく、音素ＨＭＭをｓ−ｕ
−ｓ−ｉの順番に接続したモデルとの照合により、各特
徴ベクトルＸ(n)に対応して、｛Ｌ(s,1) Ｌ(s,1)...Ｌ
(s,3) Ｌ(u,1) Ｌ(u,2)...Ｌ(u,3)....｝のように得ら
れている。連続音声認識結果１１｛Ｒ(1),Ｒ(2),…,Ｒ
(n)｝は、図３と同じく、音素系列ｓ−ｈ−ｕ−ｓ−ｕ
−ｏの順に音素ＨＭＭを接続したモデルとの照合によ
り、各特徴ベクトルＸ(n)に対応して、｛Ｌ(s,1) Ｌ(s,
2)...Ｌ(h,1) Ｌ(h,2) Ｌ(h,3)...Ｌ(u,3) Ｌ(s,1) Ｌ
(s,2)...｝のように求められている。

【０１２２】この例に対し、重み付き適応化音響モデル
生成手段のstep1の処理の中の、音素ｐをｓ、ＨＭＭの
状態ｍを１とすると、ラベルＬはＬ(s,1)となり、この
ラベルが対応付けられた特徴ベクトルの集合｛ＸL(k)｜
ｋ＝１．．．Ｋ1｝は、｛Ｘ(1),Ｘ(2),Ｘ(P2+1)｝とな
る。step2の処理ではラベルの集合｛ＲL(k)｜ｋ＝
１．．．Ｋ1｝は、｛Ｌ(s,1),Ｌ(s,2),Ｌ(s,1)｝とな
る。

【０１２３】step3で抽出される特徴ベクトルの集合
｛ＹL(k)｜ｋ＝１...Ｋ2｝は、｛Ｘ(1),Ｘ(P2+1)｝とな
る。step4の処理では、ラベルの集合｛ＤL(k)｜ｋ＝
１．．．Ｋ2｝は、｛Ｌ(s,1),Ｌ(s,1)｝となる。

【０１２４】重みデータメモリ１３上の重みデータとし
て上記の例のように、Ｌ＝ＤL(k)ならばＷ(Ｌ,ＤL(k))
＝１、Ｌ≠ＤL(k)ならばＷ(Ｌ,ＤL(k))＝０、Ｌ＝ＲL
(k)ならばＷ(Ｌ,ＲL(k))＝１、Ｌ≠ＲL(k)ならばＷ(Ｌ,
ＲL(k))＝０というように定義すれば、step5の処理にお
いて、step1で抽出された特徴ベクトルの集合｛Ｘ(1),
Ｘ(2),Ｘ(P2+1)｝のうち、特徴ベクトルＸ(1)とＸ(P2+
1)については重みデータは１，特徴ベクトルＸ(2)に対
しては０となる。また、step3で抽出された特徴ベクト
ルの集合｛Ｘ(1),Ｘ(P2+1)｝の各特徴ベクトルについて
の重みはともに１となる。よって式３により計算される
平均ベクトルＶLには特徴ベクトルＸ(2)は寄与しない。

【０１２５】よって、特徴ベクトル時系列３において、
連続音声認識結果１１におけるラベルと音響モデル対応
付けデータ７におけるラベルが一致しない特徴ベクトル
は、話者適応化所作に影響を与えないようにすることが
可能となり、結果として生成される適応化音響モデルの
精度劣化を抑制することができる。

【０１２６】なお、この実施の形態における重みデータ
メモリ上の重みデータＷ(Ｌ,ＲL(k))は、ラベルＬとラ
ベルＲL(k)が一致したとき最大になるような値を取るな
らば、上記の例に限定されるものではなく、ラベルＬと
ラベルＲL(k)の間で定義される尤度に類するものであっ
てもよい。同じく、重みデータＷ(Ｌ,ＤL(k))は、ラベ
ルＬとラベルＤL(k)が一致したとき最大になるような値
を取るならば、上記の例に限定されるものではなく、ラ
ベルＬとラベルＤL(k)の間で定義される尤度に類するも
のであってもよい。

【０１２７】例えば、音響モデルメモリ上に格納されて
いる音響モデルにおいて、ラベルＬに対応する音素ＨＭ
Ｍの状態からの遷移に対応する出力確率の平均ベクトル
と、ラベルＤL(k)（もしくはラベルＤL(k)）に対応する
音素ＨＭＭの状態からの遷移に対応する出力確率の平均
ベクトルとの任意の距離（ユークリッド距離やチェビシ
ェフ距離など）の逆数、もしくはその逆数に正の定数を
かけた値やα乗の値（αは正の値）などを用いてもよ
い。また、この２つの出力確率を表すそれぞれの確率分
布間に定義される任意の尤度や、距離の逆数であっても
かまわない。

【０１２８】また、この実施の形態における音響モデル
は、音素ＨＭＭに限定されるものではなく、音素片や音
節、文節、半音節などの音声単位を表すものであっても
かまわない。またＨＭＭ以外のモデルやスペクトルパタ
ンの系列などを用いてもかまわない。この場合、話者適
応における置き換えや更新の対象となるスペクトルパタ
ンやスペクトルの確率分布モデルに対応するラベルを定
義し、そのラベルによって定義される重みデータが重み
データメモリに格納されることになる。

【０１２９】また、音響モデルを作成する言語が日本語
に限定されるものではなく、他の外国語であってもかま
わない。

【０１３０】実施の形態４．また別の発明では、連続音
声認識手段１０において、音響モデルメモリ６上の音素
ＨＭＭによる音素タイプライタ処理を行う際に、任意の
先行音素のＨＭＭの後に、その先行音素以外の任意の音
素のＨＭＭが接続可能でかつ接続回数の制限がない条件
のもとで、特徴ベクトル時系列３と音響モデルメモリ６
上の音素ＨＭＭとの連続照合を行う。

【０１３１】図１０は、音素が「ａ」「ｉ」「ｕ」の３
つの場合を例に取り、音素接続の規則を状態遷移図で示
したものである。初期状態はＳ０で、最終状態はＳ１、
Ｓ２、Ｓ３のいずれかである。各状態からの遷移に対す
る確率は等確率である。Ｓ０から音素「ａ」を接続する
遷移をとってＳ１に状態遷移した場合、次には音素
「ｉ」を接続してＳ２に遷移するか、音素「ｕ」を接続
してＳ３に移るか、Ｓ１で最終状態とするかの選択とな
り、同一の音素「ａ」は接続されないようになってい
る。実際にはすべての音素に対応する遷移が定義されて
おり、任意の先行音素の後に、その先行音素以外の任意
の音素が任意の個数接続できる。

【０１３２】上記規則に基づいて、特徴ベクトル時系列
３と音素ＨＭＭとの照合を行い、最も尤度が高い音素系
列と、この音素系列を構成する音素ＨＭＭの各状態と特
徴ベクトル時系列３との対応関係を得る。その他の構成
要素は前記実施の形態と同一である。

【０１３３】本実施の形態の対象を英語を母国語としな
い日本人が発声した英語音声とし、音響モデルとして英
語音素のＨＭＭを採用する場合、上述のような構成と所
作を実施することで、英語において現れない音素の系列
を排除できる。よって、より精度の高い連続音声認識結
果１１が得られることになり、最終的に生成される適応
化音響モデルの精度が向上することとなる。

【０１３４】この実施の形態は、音響モデルとして英語
音素モデルに限定されるものではなく、英語音節モデル
など、同一音響モデルの繰り返しが起こり得ないような
モデルであれば他のものを用いても同様の効果が得られ
る。

【０１３５】また、音響モデルとして音素よりも短い音
響単位（たとえば音素片など）を用い、複数個接続した
音響モデルで音素モデルを表現するような場合において
も、本実施の形態と同様な音素接続上の制約を導入する
ことで、同じ効果を発揮することは明らかである。

【０１３６】実施の形態５．また別の発明では、音響モ
デルメモリ６に記憶される音響モデルとして、日本語音
声の音素やそれより短い音響単位のＨＭＭを用い、連続
音声認識手段１０において、音響モデルメモリ６上の音
響モデルにより音素タイプライタ処理を行う際に、日本
語に現れる任意の音節が任意の個数接続できる条件のも
とで、特徴ベクトル時系列３と音響モデルとの連続照合
を行う。

【０１３７】図１１は、音節が「ａ」「ｋａ」「ｓａ」
の３つの場合を例に取り、音節接続の規則を状態遷移図
で示したものである。初期状態最終状態共にＳ０であ
る。Ｓ０からの遷移において、「ａ」という一つの母音
音素、あるいは「ｋ」と「ａ」や、「ｓ」と「ａ」とい
うような子音音素−母音音素という２つの音素が接続さ
れる。各遷移に対する確率はすべて等しくなっており、
３つの音節が自由にいくつでも接続可能である。実際に
はすべての日本語音節に対応する遷移が定義されてお
り、任意の音節が任意の個数で接続できる。

【０１３８】上記規則に基づいて、特徴ベクトル時系列
３と音素ＨＭＭとの照合を行い、最も尤度が高い音素系
列と、この音素系列を構成する音素ＨＭＭの各状態と特
徴ベクトル時系列３との対応関係を得る。その他の構成
要素は前記実施の形態と同一である。

【０１３９】このような構成と処理により、日本語にお
いて現れない音素の系列を排除でき、より精度の高い連
続音声認識結果１１が得られることになり、最終的に生
成される適応化音響モデルの精度が向上することとな
る。

【０１４０】尚、この実施の形態の連続音声認識手段に
おける音響モデルの接続規則は、図１１のような状態遷
移図に限定されるものではなく、同様の制約を果たす別
の規則であってもかまわない。たとえば子音音素が連続
しない、すなわち、任意の先行音素が子音であったとき
はかならず母音が後続し、先行音素が母音であったとき
は任意の音素が接続可能というような規則であってもか
まわない。

【０１４１】実施の形態６．また図１２は、別の発明に
係る話者適応化音響モデル生成装置の一実施の形態の構
成を表すブロック図である。図において１４は、重み付
き適応化音響モデル生成手段１２が生成した適応化音響
モデル９を音響モデルメモリ６に書き込むことを可能に
する切り替えスイッチである。他の構成要素とその動作
は、上記実施の形態と同じである。

【０１４２】動作について説明する。上記実施の形態と
同じく、音響モデルとして日本語音素のＨＭＭ（Hidden
Markov Model）を用いた場合を例に取る。各ＨＭＭ
は、４状態３ループのLeft-to-right型で、各状態での
自己遷移と次の状態に移る遷移の出力確率を共有するti
ed-arc構成、出力確率として一つの平均ベクトルとベク
トルの各次元毎の分散値を持つ単一連続分布型のＨＭＭ
とする。適応化所作は、前記平均ベクトルの再学習によ
り行う事とし、分散値は元の音響モデルをそのまま用い
るものとする。

【０１４３】まず切り替えスイッチ１４のスイッチをｂ
側にしておくことで、上記実施の形態と同様の所作の結
果重み付き適応化音響モデル生成手段１２が生成した新
しい音響モデルは、音響モデルメモリ６上に上書きされ
る。これにより音響モデルメモリ６上の音響モデルは、
音声データを発声した話者に適応化した音響モデルに書
き換えられる。

【０１４４】次いで、この新しい音響モデルを用いて再
び上記実施の形態と同様の所作を繰り返す。切り替えス
イッチ１４は、この繰り返しが所定の回数に達したとこ
ろでａ側に切り替えられ、最終的に得られた適応化音響
モデル９を出力する。

【０１４５】以上のような動作により、音響モデルメモ
リ上の音響モデルは、徐々に、音声データを発声してい
る話者の音声の特徴を反映した音響モデルへと置き換わ
っていくため、照合手段５において、音響モデルメモリ
上の音響モデルを用いて、特徴ベクトルとの照合を行う
ことで得られる音響モデル対応付けデータの精度が向上
する。同様に、連続音声認識手段１０において、音響モ
デルメモリ上の音響モデルを用いて、特徴ベクトル時系
列との連続照合を行うことで得られる連続音声認識結果
１１の精度も向上する。よって、重み付き適応化音響モ
デル生成手段において、音響モデル対応付けデータおよ
び連続音声認識結果を用いて生成する適応化音響モデル
９の精度が向上する。

【０１４６】上記実施の形態と同じくこの実施の形態に
おける音響モデルは、音素ＨＭＭに限定されるものでは
なく、音素片や音節、文節、半音節などの音声単位を表
すものであってもかまわない。またＨＭＭ以外のモデル
やスペクトルパタンの系列なども用いてもかまわない。
また、音響モデルを作成する言語が日本語に限定される
ものではなく、他の外国語であってもかまわない。

【０１４７】実施の形態７．また図１３は、別の発明に
係る話者適応化音響モデル生成装置の一実施の形態の構
成を表すブロック図である。図において、１４は、重み
付き適応化音響モデル生成手段１２が生成した適応化音
響モデル９を適応化音響モデルメモリ１６に書き込むこ
とを可能にする切り替えスイッチ、１５は、音響モデル
メモリ６に格納されている音響モデルと、前記適応化音
響モデルメモリ１６に格納されている適応化音響モデル
を入力として、音響モデルの合成を行い、合成音響モデ
ル１７を出力する音響モデル合成手段（音響モデル合成
手順）である。

【０１４８】照合手段５および連続音声認識手段１１、
重み付き適応化音響モデル生成手段は、音響モデルメモ
リ６上の音響モデルを読み出す代わりに、前記音響モデ
ル合成手段１５が合成した合成音響モデル１７を用い
て、それぞれの動作を行う。他の構成要素とその動作
は、上記実施の形態と同じである。

【０１４９】動作について説明する。上記実施の形態と
同じく、音響モデルとして日本語音素のＨＭＭ（Hidden
Markov Model）を用いた場合を例に取る。各ＨＭＭ
は、４状態３ループのLeft-to-right型で、各状態での
自己遷移と次の状態に移る遷移の出力確率を共有するti
ed-arc構成、出力確率として一つの平均ベクトルとベク
トルの各次元毎の分散値を持つ単一連続分布型のＨＭＭ
とする。適応化所作は、前記平均ベクトルの再学習によ
り行う事とし、分散値は元の音響モデルをそのまま用い
るものとする。

【０１５０】初期状態では、適応化音響モデルメモリ１
６の中には音響モデルメモリ６に格納されている音響モ
デルと同じものが格納されている。そして、切り替えス
イッチ１４のスイッチはｂ側にしておく。音響モデル合
成手段１５は、前記音響モデルメモリ６に格納されてい
る音響モデルと、前記適応化音響モデルメモリ１６上の
音響モデルの合成を行い、合成音響モデル１７として出
力する。この処理の詳細を以下に示す。

【０１５１】step1:音響モデルメモリ６上の、音素ｐの
ＨＭＭの状態ｍに対応する出力確率の平均ベクトルＣsi
(p,m)と、適応化音響モデルメモリ１６上の、同音素ｐ
と同状態ｍに対応する出力確率の平均ベクトルＣsa(p,
m)を読み出し、２つの平均ベクトルの平均を以下の式で
合成し、合成平均ベクトルＣmrg(p,m)を得る。

【０１５２】

【数４】

【０１５３】ここで、γは０から１の間の値を採り、音
響モデルメモリ上の音響モデルと適応化音響モデルメモ
リ上の音響モデルのどちらに重みをおいた合成平均ベク
トルを得るかを制御するパラメータである。γが１に近
いほど適応化音響モデルメモリ上の音響モデルに重みを
置いた合成が行われる。

【０１５４】step2:音響モデルメモリ６上の音素ｐのＨ
ＭＭの状態ｍに対応する出力確率の平均ベクトルをstep
1で得られた合成平均ベクトルＣmrg(p,m)で置き換え、
音素ｐのＨＭＭの状態ｍに対応する合成音響モデルとす
る。

【０１５５】step3:step1およびstep2の処理をすべての
音素ｐ、ＨＭＭの状態ｍについて行い、合成音響モデル
１７として出力する。

【０１５６】照合手段５は、音響モデルメモリ６上の音
響モデルの代わりに、音響モデル合成手段１５が出力す
る合成音響モデル１７を用いる以外は、前述の実施の形
態と同じ動作を行い、音響モデル対応付けデータ７を出
力する。

【０１５７】連続音声認識手段１０も、音響モデルメモ
リ６上の音響モデルの代わりに、音響モデル合成手段１
５が出力する合成音響モデル１７を用いる以外は、前述
の実施の形態と同じ動作を行い、連続音声認識結果１１
を出力する。

【０１５８】重み付き適応化音響モデル生成手段１２
も、音響モデルメモリ６上の音響モデルの代わりに、音
響モデル合成手段１５が出力する合成音響モデル１７を
用いる以外は、前述の実施の形態と同じ動作を行い、適
応化音響モデルを出力する。切り替えスイッチ１４がｂ
側になっているため、前記適応化音響モデルは、前記適
応化音響モデルメモリ１６に格納される。

【０１５９】ついで、適応化音響モデルメモリ１６に格
納された新しい適応化音響モデルを用いて、音響モデル
合成手段１５での動作からの重み付き適応化音響モデル
生成手段１２までの動作を繰り返す。切り替えスイッチ
１４は、この繰り返しが所定の回数に達したところでａ
側に切り替えられ、最終的に得られた適応化音響モデル
９を出力する。

【０１６０】このような所作を施すことで、照合手段や
連続音声認識手段において行われる照合で生じる誤差の
影響により、重み付き適応化音響モデル生成手段におい
て生成される適応化音響モデルに誤りが生じた場合で
も、音響モデル合成手段において、音響モデルメモリ上
の音響モデルとの合成を行うことで、誤差の影響を軽減
することが可能になり、最終的に生成される適応化音響
モデルの精度が向上する。

【０１６１】なお、音響モデル合成手段１５における合
成の式中のγは、０から１の間の任意の固定値を用いて
もかまわないが、切り替えスイッチ１４をｂ側にした状
態で、音響モデル合成手段１５での動作からの重み付き
適応化音響モデル生成手段１２までの動作の繰り返し所
作の回数の関数として定義してもかまわない。この場
合、上記繰り返し回数が増えるほどγが１に近くなるよ
うな任意の関数を用いることで、上記繰り返し所作によ
り徐々に精度が高くなる適応化音響モデルに重みを置い
た合成音響モデル１７が得られることになり、最終的に
生成される適応化音響モデルの精度が向上する。

【０１６２】上記実施の形態と同じくこの実施の形態に
おける音響モデルは、音素ＨＭＭに限定されるものでは
なく、音素片や音節、文節、半音節などの音声単位を表
すものであってもかまわない。またＨＭＭ以外のモデル
やスペクトルパタンの系列なども用いてもかまわない。
また、音響モデルを作成する言語が日本語に限定される
ものではなく、他の外国語であってもかまわない。

【０１６３】

【発明の効果】この発明に係る話者適応化音響モデル作
成方法は、入力された音声信号に対し音響分析を施し、
特徴ベクトル時系列を出力する音響分析手順と、入力音
声の発声内容データに対応する音響モデルを音響モデル
メモリから読み出し、音響分析手順から出力される特徴
ベクトル時系列との照合を行い、各特徴ベクトルに対す
る音響モデルの対応付けデータを出力する照合手順と、
音響分析手順から出力される特徴ベクトル時系列を入力
として、音響モデルメモリに格納されている音響モデル
を用いた連続音声認識を行い、連続音声認識結果を出力
する連続音声認識手順と、音響分析手順の出力である特
徴ベクトル時系列と、照合手順の出力である音響モデル
対応付けデータと、連続音声認識手順の出力である連続
音声認識結果とを用い、重みデータメモリに記憶されて
いる重みデータに従って、音響モデルメモリに格納され
ている音響モデルの一部もしくは全部を書き換えて適応
化音響モデルとして出力する重み付き適応化音響モデル
生成手順を有する。そのため、方言や発声時の癖、また
非母国語が正確に発声できない場合など、発声内容と音
声データが一致しない場合においても、作成される音響
モデルの精度が劣化してしまうことがない。

【０１６４】また、重み付き適応化音響モデル生成手順
は、照合手順から出力される音響モデルの対応付けデー
タに基づき、特徴ベクトル時系列から特徴ベクトルを抽
出する特徴ベクトル抽出ステップと、連続音声認識手順
の出力である連続音声認識結果に基づき、特徴ベクトル
抽出ステップにおいて抽出された特徴ベクトルに対応す
るラベルを求めるラベルステップと、特徴ベクトルにつ
いて、ラベルによって一意に決定される重みデータを重
みデータメモリから読み出し、重み付き平均ベクトルを
計算する重み付き平均ベクトル計算ステップと、重み付
き平均ベクトルに基づいて、音響モデルに格納されてい
る音響モデルの一部もしくは全部を書き換える書換ステ
ップを有する。そのため、方言や発声時のくせなどによ
り発声内容データと音声データが音響的に一致しない場
合、入力音声の特徴ベクトル時系列において、照合手段
での所作により発声内容データに従って付された音素Ｈ
ＭＭのラベルと、連続音声認識手段によって付されたラ
ベルが一致しない特徴ベクトルは、適応化音響モデルの
生成に対する寄与率が小さくなるため適応化音響モデル
の精度が向上し、これにより生成された適応化音響モデ
ルによる音声認識においても認識精度が向上する。

【０１６５】また、重み付き適応化音響モデル生成手順
は、連続音声認識手順の出力である連続音声認識結果に
基づき、特徴ベクトル時系列から特徴ベクトルを抽出す
る特徴ベクトル抽出ステップと、照合手順の出力である
音響モデルの対応付けデータに基づき、特徴ベクトル抽
出ステップにおいて抽出された特徴ベクトルに対応する
ラベルを求めるラベルステップと、特徴ベクトルについ
て、ラベルによって一意に決定される重みデータを重み
データメモリから読み出し、重み付き平均ベクトルを計
算する重み付き平均ベクトル計算ステップと、重み付き
平均ベクトルに基づいて、音響モデルに格納されている
音響モデルの一部もしくは全部を書き換える書換ステッ
プを有する。そのため、方言や発声時のくせなどにより
発声内容データと音声データが音響的に一致しない場
合、入力音声の特徴ベクトル時系列において、照合手段
での所作により発声内容データに従って付された音素Ｈ
ＭＭのラベルと、連続音声認識手段によって付されたラ
ベルが一致しない特徴ベクトルは、適応化音響モデルの
生成に対する寄与率が小さくなるため適応化音響モデル
の精度が向上し、これにより生成された適応化音響モデ
ルによる音声認識においても認識精度が向上する。

【０１６６】また、重み付き適応化音響モデル生成手順
は、照合手順から出力される音響モデルの対応付けデー
タに基づき、特徴ベクトル時系列から特徴ベクトルを抽
出する特徴ベクトル抽出ステップと、連続音声認識手順
の出力である連続音声認識結果に基づき、前特徴ベクト
ル抽出ステップにおいて抽出された特徴ベクトルに対応
するラベルを求めるラベルステップと、連続音声認識手
順の出力である連続音声認識結果に基づき、特徴ベクト
ル時系列から特徴ベクトルを抽出する特徴ベクトル抽出
ステップと、照合手順の出力である音響モデルの対応付
けデータに基づき、特徴ベクトル抽出ステップにおいて
抽出された特徴ベクトルに対応するラベルを求めるラベ
ルステップと、特徴ベクトルについて、ラベルによって
一意に決定される重みデータを重みデータメモリから読
み出し、重み付き平均ベクトルを計算する重み付き平均
ベクトル計算ステップと、重み付き平均ベクトルに基づ
いて、音響モデルに格納されている音響モデルの一部も
しくは全部を書き換える書換ステップを有する。そのた
め、方言や発声時のくせなどにより発声内容データと音
声データが音響的に一致しない場合、入力音声の特徴ベ
クトル時系列において、照合手段での所作により発声内
容データに従って付された音素ＨＭＭのラベルと、連続
音声認識手段によって付されたラベルが一致しない特徴
ベクトルは、適応化音響モデルの生成に対する寄与率が
小さくなるため適応化音響モデルの精度が向上し、これ
により生成された適応化音響モデルによる音声認識にお
いても認識精度が向上する。

【０１６７】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータ
において、２個のラベルが一致した場合に重みデータを
１、一致しなかった場合に重みデータを０とする。その
ため、簡単な方法で生成される適応化音響モデルの精度
劣化を抑制することができる。

【０１６８】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータ
において、各ラベルに対応する特徴ベクトル間の尤度を
計算し、この尤度に比例するパラメータを重みデータと
して用いる。そのため、生成される適応化音響モデルの
精度劣化を抑制することができる。

【０１６９】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータ
において、各ラベルに対応する音響モデル間の尤度を計
算し、この尤度に比例するパラメータを重みデータとし
て用いる。そのため、生成される適応化音響モデルの精
度劣化を抑制することができる。

【０１７０】また、連続音声認識手順は、音響分析手順
から出力される特徴ベクトル時系列に対して、音響モデ
ルメモリ上の音響モデルを用いて連続音声認識を行う際
に、同一音響モデルの接続を許さないことを拘束条件と
して、任意の音響モデルを任意の個数接続したモデルと
の照合を行う。そのため、認識精度がさらに向上する。

【０１７１】また、音響モデルメモリに格納されている
音響モデルに、英語を母国語とする話者が発声した英語
音声データを用いて学習した音響モデルを用い、連続音
声認識手順は、音響分析手順から出力される特徴ベクト
ル時系列に対して音響モデルメモリ上の音響モデルを用
いて連続音声認識を行う際に、任意の音素の後ろに同じ
音素が接続しないことを拘束条件として、任意の音響モ
デルを任意の個数接続したモデルとの照合を行う。その
ため、日本語において現れない音素の系列を排除でき、
より精度の高い連続音声認識結果が得られることにな
り、最終的に生成される適応化音響モデルの精度が向上
することとなる。

【０１７２】また、音響モデルメモリに格納されている
音響モデルに、日本人の話者が発声した日本語音声デー
タを用いて学習した音響モデルを用い、連続音声認識手
順は、音響分析手順から出力される特徴ベクトル時系列
に対して音響モデルメモリ上の音響モデルを用いて連続
音声認識を行う際に、音響モデルの接続における拘束条
件として、日本語に現れる任意の音節が１個以上接続さ
れたモデルとの照合を行う。そのため、英語において現
れない音素の系列を排除でき、より精度の高い連続音声
認識結果が得られることになり、最終的に生成される適
応化音響モデルの精度が向上することとなる。

【０１７３】また、重み付き適応化モデル生成手順が生
成した適応化音響モデルを音響モデルメモリに書き込む
ことを可能にする切り替え手順をさらに有する。そのた
め、音響モデルメモリに書き込むことができる。

【０１７４】また、重み付き適応化モデル生成手順が生
成した適応化音響モデルを記憶する適応化音響モデルメ
モリと、音響モデルメモリ上の音響モデルと、適応化音
響モデルメモリ上の適応化音響モデルとを入力して合成
し、合成音響モデルを出力する音響モデル合成手順と、
重み付き適応化モデル生成手順が生成した適応化音響モ
デルを適応化音響モデルメモリに書き込むことを可能に
する切り替え手順をさらに有し、照合手順は、入力音声
の発声内容データに対応する合成音響モデルを音響モデ
ル合成手順から入力し、音響分析手順から出力される特
徴ベクトル時系列との照合を行い、各特徴ベクトルに対
する音響モデルの対応付けデータを出力し、連続音声認
識手順は、音響分析手順から出力される特徴ベクトル時
系列に対し、音響モデル合成手順が出力する合成音響モ
デルを用いた連続音声認識を行い、連続音声認識結果を
出力し、重み付き適応化音響モデル生成手順は、音響分
析手順の出力である特徴ベクトル時系列と、照合手順の
出力である音響モデル対応付けデータと、連続音声認識
手順の出力である連続音声認識結果とを用い、重みデー
タメモリに記憶されている重みデータに従って、音響モ
デル合成手順が出力した合成音響モデルの一部もしくは
全部を書き換えて適応化音響モデルとして出力する。そ
のため、音響モデル対応付けデータおよび連続音声認識
結果を用いて生成する適応化音響モデルの精度が向上す
る。

【０１７５】また、重み付き適応化モデル生成手順が生
成した適応化音響モデルを適応化音響モデルメモリに書
き込めるように切り替え手順を切り替えた状態で繰り返
し行うところの適応化音響モデル生成所作、すなわち、
音響モデル合成手順における音響モデルの合成、照合手
順における音響モデル対応付けデータの作成、連続音声
認識手順における連続音声認識結果の出力、および、重
み付き適応化モデル生成手順における適応化音響モデル
の生成までの動作の繰り返し回数をカウントし、このカ
ウント値を用いて、音響モデル合成手順における適応音
響モデルメモリ上の適応化音響モデルと、音響モデルメ
モリ上の音響モデルとの合成所作の重みを変化させる。
そのため、音響モデルメモリ上の音響モデルは、徐々
に、音声データを発声している話者の音声の特徴を反映
した音響モデルへと置き換わっていくため、照合手段に
おいて、音響モデルメモリ上の音響モデルを用いて、特
徴ベクトルとの照合を行うことで得られる音響モデル対
応付けデータの精度が向上する。同様に、連続音声認識
手段において、音響モデルメモリ上の音響モデルを用い
て、特徴ベクトル時系列との連続照合を行うことで得ら
れる連続音声認識結果の精度も向上する。よって、重み
付き適応化音響モデル生成手段において、音響モデル対
応付けデータおよび連続音声認識結果を用いて生成する
適応化音響モデルの精度が向上する。

【０１７６】また、他の発明に係る音声認識装置は、請
求項１乃至１３のいずれか記載の話者適応化音響モデル
作成方法により作成された適応化音響モデルを用いて、
未知入力音声信号に対する音響分析手順の出力である特
徴ベクトル時系列に対し音声認識を行い認識結果を出力
する。そのため、方言や発声時の癖、また非母国語が正
確に発声できない場合など、発声内容と音声データが一
致しない場合においても、作成される音響モデルの精度
が劣化してしまうことがなく、精度の良い認識結果を得
ることができる。

【０１７７】さらにまた、他の発明に係る音声認識装置
は、入力された音声信号に対し音響分析を施し、特徴ベ
クトル時系列を出力する音響分析手段と、入力音声の発
声内容データに対応する音響モデルを音響モデルメモリ
から読み出し、音響分析手段から出力される特徴ベクト
ル時系列との照合を行い、各特徴ベクトルに対する音響
モデルの対応付けデータを出力する照合手段と、音響分
析手段から出力される特徴ベクトル時系列を入力とし
て、音響モデルメモリに格納されている音響モデルを用
いた連続音声認識を行い、連続音声認識結果を出力する
連続音声認識手段と、音響分析手段の出力である特徴ベ
クトル時系列と、照合手段の出力である音響モデル対応
付けデータと、連続音声認識手段の出力である連続音声
認識結果とを用い、重みデータメモリに記憶されている
重みデータに従って、音響モデルメモリに格納されてい
る音響モデルの一部もしくは全部を書き換えて適応化音
響モデルとして出力する重み付き適応化音響モデル生成
手段を有し、未知入力音声信号に対する音響分析手段の
出力である特徴ベクトル時系列に対し音声認識を行い認
識結果を出力する。そのため、方言や発声時の癖、また
非母国語が正確に発声できない場合など、発声内容と音
声データが一致しない場合においても、作成される音響
モデルの精度が劣化してしまうことがなく、精度の良い
認識結果を得ることができる。

【０１７８】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータ
において、２個のラベルが一致した場合に重みデータを
１、一致しなかった場合に重みデータを０とする。その
ため、簡単な方法で生成される適応化音響モデルの精度
劣化を抑制することができる。

【０１７９】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータ
において、各ラベルに対応する特徴ベクトル間の尤度を
計算し、この尤度に比例するパラメータを重みデータと
して用いる。そのため、生成される適応化音響モデルの
精度劣化を抑制することができる。

【０１８０】また、重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータ
において、各ラベルに対応する音響モデル間の尤度を計
算し、この尤度に比例するパラメータを重みデータとし
て用いる。そのため、生成される適応化音響モデルの精
度劣化を抑制することができる。

【０１８１】また、連続音声認識手段は、音響分析手段
から出力される特徴ベクトル時系列に対して、音響モデ
ルメモリ上の音響モデルを用いて連続音声認識を行う際
に、同一音響モデルの接続を許さないことを拘束条件と
して、任意の音響モデルを任意の個数接続したモデルと
の照合を行う。そのため、認識精度がさらに向上する。

【０１８２】また、音響モデルメモリに格納されている
音響モデルに、英語を母国語とする話者が発声した英語
音声データを用いて学習した音響モデルを用い、連続音
声認識手段は、音響分析手段から出力される特徴ベクト
ル時系列に対して音響モデルメモリ上の音響モデルを用
いて連続音声認識を行う際に、任意の音素の後ろに同じ
音素が接続しないことを拘束条件として、任意の音響モ
デルを任意の個数接続したモデルとの照合を行う。その
ため、日本語において現れない音素の系列を排除でき、
より精度の高い連続音声認識結果が得られることにな
り、最終的に生成される適応化音響モデルの精度が向上
することとなる。

【０１８３】また、音響モデルメモリに格納されている
音響モデルに、日本人の話者が発声した日本語音声デー
タを用いて学習した音響モデルを用い、連続音声認識手
段は、音響分析手段から出力される特徴ベクトル時系列
に対して音響モデルメモリ上の音響モデルを用いて連続
音声認識を行う際に、音響モデルの接続における拘束条
件として、日本語に現れる任意の音節が１個以上接続さ
れたモデルとの照合を行う。そのため、英語において現
れない音素の系列を排除でき、より精度の高い連続音声
認識結果が得られることになり、最終的に生成される適
応化音響モデルの精度が向上することとなる。

【０１８４】また、重み付き適応化音響モデル生成手段
が生成した適応化音響モデルを音響モデルメモリに書き
込むことを可能にする切り替えスイッチをさらに有す
る。そのため、音響モデルメモリに書き込むことができ
る。

【０１８５】また、重み付き適応化音響モデル生成手段
が生成した適応化音響モデルを記憶する適応化音響モデ
ルメモリと、音響モデルメモリ上の音響モデルと、適応
化音響モデルメモリ上の適応化音響モデルとを入力して
合成し、合成音響モデルを出力する音響モデル合成手段
と、重み付き適応化音響モデル生成手段が生成した適応
化音響モデルを適応化音響モデルメモリに書き込むこと
を可能にする切り替えスイッチをさらに有し、照合手段
は、入力音声の発声内容データに対応する合成音響モデ
ルを音響モデル合成手段から入力し、音響分析手段から
出力される特徴ベクトル時系列との照合を行い、各特徴
ベクトルに対する音響モデルの対応付けデータを出力
し、連続音声認識手段は、音響分析手段から出力される
特徴ベクトル時系列に対し、音響モデル合成手段が出力
する合成音響モデルを用いた連続音声認識を行い、連続
音声認識結果を出力し、重み付き適応化音響モデル生成
手段は、音響分析手段の出力である特徴ベクトル時系列
と、照合手段の出力である音響モデル対応付けデータ
と、連続音声認識手段の出力である連続音声認識結果と
を用い、重みデータメモリに記憶されている重みデータ
に従って、音響モデル合成手段が出力した合成音響モデ
ルの一部もしくは全部を書き換えて適応化音響モデルと
して出力する。そのため、音響モデル対応付けデータお
よび連続音声認識結果を用いて生成する適応化音響モデ
ルの精度が向上する。

【図面の簡単な説明】

【図１】本発明に係る話者適応化音響モデル生成装置
の一実施の形態の構成を示すブロック図である。

【図２】音素が「ａ」「ｉ」「ｕ」の３つの場合を例
に取り、音素接続の規則を示す状態遷移図である。

【図３】特徴ベクトル時系列に対する連続音声認識結
果の例（発声「すす（寿司）」）を示す図である。

【図４】重み付き適応化音響モデル生成手段における
処理手順を示す処理フロー図である。

【図５】特徴ベクトル時系列に対する音響モデル対応
付けデータと連続音声認識結果の例（発声「すす（寿
司）」）を示す図である。

【図６】特徴ベクトル時系列に対する音響モデル対応
付けデータと連続音声認識結果の例（発声「ふいるむ
（フィルム）」）を示す図である。

【図７】特徴ベクトル時系列に対する音響モデル対応
付けデータと連続音声認識結果の例（日本人英語）を示
す図である。

【図８】重み付き適応化音響モデル生成手段における
処理手順を示す処理フロー図である。

【図９】重み付き適応化音響モデル生成手段における
処理手順を示す処理フロー図である。

【図１０】音素が「ａ」「ｉ」「ｕ」の３つの場合を
例に取り、連続音声認識手段における音響モデルの接続
規則において、同一モデルの接続を許さない場合を示す
状態遷移図である。

【図１１】連続音声認識手段における音響モデルの接
続規則において、子音音素が連続しない場合を示す状態
遷移図である。

【図１２】本発明に係る話者適応化音響モデル生成装
置の他の実施の形態の構成を示すブロック図である。

【図１３】本発明に係る話者適応化音響モデル生成装
置の他の実施の形態の構成を示すブロック図である。

【図１４】従来の適応的学習による話者適応化方法の
構成の一例を示すブロック図である。

【図１５】特徴ベクトル時系列に対する音響モデル対
応付けデータの例（発声「すす（寿司）」）を示す図で
ある。

【図１６】発声内容と異なる音声の特徴ベクトル時系
列に対する音響モデル対応付けデータの例（発声「すす
（寿司）」）を示す図である。

【図１７】発声内容と異なる音声の特徴ベクトル時系
列に対する音響モデル対応付けデータの例（発声「ふい
るむ（フィルム）」）を示す図である。

【図１８】発声内容と異なる音声の特徴ベクトル時系
列に対する音響モデル対応付けデータの例（日本人英
語）を示す図である。

【符号の説明】

２音響分析手段（音響分析手順）、５照合手段（照
合手順）、６音響モデルメモリ、１０連続音声認識
手段（連続音声認識手順）、１２重み付き適応化音響
モデル生成手段（重み付き適応化モデル生成手順）、１
３重みデータメモリ、１５音響モデル合成手段（音
響モデル合成手順）、１６適応化音響モデルメモリ。

Claims

【特許請求の範囲】

【請求項１】入力された音声信号に対し音響分析を施
し、特徴ベクトル時系列を出力する音響分析手順と、入力音声の発声内容データに対応する音響モデルを音響
モデルメモリから読み出し、前記音響分析手順から出力
される特徴ベクトル時系列との照合を行い、各特徴ベク
トルに対する音響モデルの対応付けデータを出力する照
合手順と、前記音響分析手順から出力される特徴ベクトル時系列を
入力として、前記音響モデルメモリに格納されている音
響モデルを用いた連続音声認識を行い、連続音声認識結
果を出力する連続音声認識手順と、前記音響分析手順の出力である特徴ベクトル時系列と、
前記照合手順の出力である音響モデル対応付けデータ
と、前記連続音声認識手順の出力である連続音声認識結
果とを用い、重みデータメモリに記憶されている重みデ
ータに従って、音響モデルメモリに格納されている音響
モデルの一部もしくは全部を書き換えて適応化音響モデ
ルとして出力する重み付き適応化音響モデル生成手順を
有することを特徴とする話者適応化音響モデル作成方
法。
【請求項２】前記重み付き適応化音響モデル生成手順
は、前記照合手順から出力される音響モデルの対応付けデー
タに基づき、前記特徴ベクトル時系列から特徴ベクトル
を抽出する特徴ベクトル抽出ステップと、前記連続音声認識手順の出力である連続音声認識結果に
基づき、前記特徴ベクトル抽出ステップにおいて抽出さ
れた前記特徴ベクトルに対応するラベルを求めるラベル
ステップと、前記特徴ベクトルについて、前記ラベルによって一意に
決定される重みデータを前記重みデータメモリから読み
出し、重み付き平均ベクトルを計算する重み付き平均ベ
クトル計算ステップと、前記重み付き平均ベクトルに基づいて、前記音響モデル
に格納されている音響モデルの一部もしくは全部を書き
換える書換ステップを有することを特徴とする請求項１
記載の話者適応化音響モデル生成方法。
【請求項３】前記重み付き適応化音響モデル生成手順
は、前記連続音声認識手順の出力である連続音声認識結果に
基づき、前記特徴ベクトル時系列から特徴ベクトルを抽
出する特徴ベクトル抽出ステップと、前記照合手順の出力である音響モデルの対応付けデータ
に基づき、前記特徴ベクトル抽出ステップにおいて抽出
された前記特徴ベクトルに対応するラベルを求めるラベ
ルステップと、前記特徴ベクトルについて、前記ラベルによって一意に
決定される重みデータを前記重みデータメモリから読み
出し、重み付き平均ベクトルを計算する重み付き平均ベ
クトル計算ステップと、前記重み付き平均ベクトルに基づいて、前記音響モデル
に格納されている音響モデルの一部もしくは全部を書き
換える書換ステップを有することを特徴とする請求項１
記載の話者適応化音響モデル生成方法。
【請求項４】前記重み付き適応化音響モデル生成手順
は、前記照合手順から出力される音響モデルの対応付けデー
タに基づき、前記特徴ベクトル時系列から特徴ベクトル
を抽出する特徴ベクトル抽出ステップと、前記連続音声認識手順の出力である連続音声認識結果に
基づき、前特徴ベクトル抽出ステップにおいて抽出され
た特徴ベクトルに対応するラベルを求めるラベルステッ
プと、前記連続音声認識手順の出力である連続音声認識結果に
基づき、前記特徴ベクトル時系列から特徴ベクトルを抽
出する特徴ベクトル抽出ステップと、前記照合手順の出力である音響モデルの対応付けデータ
に基づき、前記特徴ベクトル抽出ステップにおいて抽出
された特徴ベクトルに対応するラベルを求めるラベルス
テップと、前記特徴ベクトルについて、前記ラベルによって一意に
決定される重みデータを前記重みデータメモリから読み
出し、重み付き平均ベクトルを計算する重み付き平均ベ
クトル計算ステップと、前記重み付き平均ベクトルに基づいて、前記音響モデル
に格納されている音響モデルの一部もしくは全部を書き
換える書換ステップを有することを特徴とする請求項１
記載の話者適応化音響モデル生成方法。
【請求項５】前記重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータにおいて、２
個のラベルが一致した場合に重みデータを１、一致しな
かった場合に重みデータを０とすることを特徴とする請
求項１記載の話者適応化音響モデル生成方法。
【請求項６】前記重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータにおいて、各
ラベルに対応する特徴ベクトル間の尤度を計算し、この
尤度に比例するパラメータを重みデータとして用いるこ
とを特徴とする請求項１記載の話者適応化音響モデル生
成方法。
【請求項７】前記重みデータメモリ上に記憶される重
みデータは、重みデータを規定する２個のラベルデータにおいて、各
ラベルに対応する音響モデル間の尤度を計算し、この尤
度に比例するパラメータを重みデータとして用いること
を特徴とする請求項１記載の話者適応化音響モデル生成
方法。
【請求項８】前記連続音声認識手順は、前記音響分析手順から出力される前記特徴ベクトル時系
列に対して、前記音響モデルメモリ上の音響モデルを用
いて連続音声認識を行う際に、同一音響モデルの接続を
許さないことを拘束条件として、任意の音響モデルを任
意の個数接続したモデルとの照合を行うことを特徴とす
る請求項１記載の話者適応化音響モデル生成方法。
【請求項９】前記音響モデルメモリに格納されている
音響モデルに、英語を母国語とする話者が発声した英語
音声データを用いて学習した音響モデルを用い、前記連続音声認識手順は、前記音響分析手順から出力さ
れる前記特徴ベクトル時系列に対して音響モデルメモリ
上の音響モデルを用いて連続音声認識を行う際に、任意
の音素の後ろに同じ音素が接続しないことを拘束条件と
して、任意の音響モデルを任意の個数接続したモデルと
の照合を行うことを特徴とする請求項８記載の話者適応
化音響モデル生成方法。
【請求項１０】前記音響モデルメモリに格納されてい
る音響モデルに、日本人の話者が発声した日本語音声デ
ータを用いて学習した音響モデルを用い、前記連続音声認識手順は、前記音響分析手順から出力さ
れる前記特徴ベクトル時系列に対して音響モデルメモリ
上の音響モデルを用いて連続音声認識を行う際に、音響
モデルの接続における拘束条件として、日本語に現れる
任意の音節が１個以上接続されたモデルとの照合を行う
ことを特徴とする請求項１記載の話者適応化音響モデル
生成方法。
【請求項１１】前記重み付き適応化モデル生成手順が
生成した適応化音響モデルを前記音響モデルメモリに書
き込むことを可能にする切り替え手順をさらに有するこ
とを特徴とする請求項１記載の話者適応化音響モデル生
成方法。
【請求項１２】前記重み付き適応化モデル生成手順が
生成した適応化音響モデルを記憶する適応化音響モデル
メモリと、前記音響モデルメモリ上の音響モデルと、前
記適応化音響モデルメモリ上の適応化音響モデルとを入
力して合成し、合成音響モデルを出力する音響モデル合
成手順と、前記重み付き適応化モデル生成手順が生成した適応化音
響モデルを前記適応化音響モデルメモリに書き込むこと
を可能にする切り替え手順をさらに有し、前記照合手順は、入力音声の発声内容データに対応する
合成音響モデルを前記音響モデル合成手順から入力し、
前記音響分析手順から出力される特徴ベクトル時系列と
の照合を行い、各特徴ベクトルに対する音響モデルの対
応付けデータを出力し、前記連続音声認識手順は、前記音響分析手順から出力さ
れる特徴ベクトル時系列に対し、前記音響モデル合成手
順が出力する合成音響モデルを用いた連続音声認識を行
い、連続音声認識結果を出力し、前記重み付き適応化音響モデル生成手順は、前記音響分
析手順の出力である特徴ベクトル時系列と、前記照合手
順の出力である音響モデル対応付けデータと、前記連続
音声認識手順の出力である連続音声認識結果とを用い、
重みデータメモリに記憶されている重みデータに従っ
て、前記音響モデル合成手順が出力した合成音響モデル
の一部もしくは全部を書き換えて適応化音響モデルとし
て出力することを特徴とする請求項１記載の話者適応化
音響モデル生成方法。
【請求項１３】前記重み付き適応化モデル生成手順が
生成した適応化音響モデルを適応化音響モデルメモリに
書き込めるように切り替え手順を切り替えた状態で繰り
返し行うところの適応化音響モデル生成所作、すなわ
ち、前記音響モデル合成手順における音響モデルの合
成、前記照合手順における音響モデル対応付けデータの
作成、前記連続音声認識手順における連続音声認識結果
の出力、および、前記重み付き適応化モデル生成手順に
おける適応化音響モデルの生成までの動作の繰り返し回
数をカウントし、このカウント値を用いて、前記音響モ
デル合成手順における適応音響モデルメモリ上の適応化
音響モデルと、音響モデルメモリ上の音響モデルとの合
成所作の重みを変化させることを特徴とする請求項１２
記載の話者適応化音響モデル生成方法。
【請求項１４】請求項１乃至１３のいずれか記載の話
者適応化音響モデル作成方法により作成された適応化音
響モデルを用いて、未知入力音声信号に対する前記音響
分析手順の出力である特徴ベクトル時系列に対し音声認
識を行い認識結果を出力する音声認識装置。
【請求項１５】入力された音声信号に対し音響分析を
施し、特徴ベクトル時系列を出力する音響分析手段と、入力音声の発声内容データに対応する音響モデルを音響
モデルメモリから読み出し、前記音響分析手段から出力
される特徴ベクトル時系列との照合を行い、各特徴ベク
トルに対する音響モデルの対応付けデータを出力する照
合手段と、前記音響分析手段から出力される特徴ベクトル時系列を
入力として、前記音響モデルメモリに格納されている音
響モデルを用いた連続音声認識を行い、連続音声認識結
果を出力する連続音声認識手段と、前記音響分析手段の出力である特徴ベクトル時系列と、
前記照合手段の出力である音響モデル対応付けデータ
と、前記連続音声認識手段の出力である連続音声認識結
果とを用い、重みデータメモリに記憶されている重みデ
ータに従って、音響モデルメモリに格納されている音響
モデルの一部もしくは全部を書き換えて適応化音響モデ
ルとして出力する重み付き適応化音響モデル生成手段を
有し、未知入力音声信号に対する前記音響分析手段の出力であ
る特徴ベクトル時系列に対し音声認識を行い認識結果を
出力することを特徴とする音声認識装置。
【請求項１６】前記重みデータメモリ上に記憶される
重みデータは、重みデータを規定する２個のラベルデータにおいて、２
個のラベルが一致した場合に重みデータを１、一致しな
かった場合に重みデータを０とすることを特徴とする請
求項１５記載の音声認識装置。
【請求項１７】前記重みデータメモリ上に記憶される
重みデータは、重みデータを規定する２個のラベルデータにおいて、各
ラベルに対応する特徴ベクトル間の尤度を計算し、この
尤度に比例するパラメータを重みデータとして用いるこ
とを特徴とする請求項１５記載の音声認識装置。
【請求項１８】前記重みデータメモリ上に記憶される
重みデータは、重みデータを規定する２個のラベルデータにおいて、各
ラベルに対応する音響モデル間の尤度を計算し、この尤
度に比例するパラメータを重みデータとして用いること
を特徴とする請求項１５記載の音声認識装置。
【請求項１９】前記連続音声認識手段は、前記音響分析手段から出力される前記特徴ベクトル時系
列に対して、前記音響モデルメモリ上の音響モデルを用
いて連続音声認識を行う際に、同一音響モデルの接続を
許さないことを拘束条件として、任意の音響モデルを任
意の個数接続したモデルとの照合を行うことを特徴とす
る請求項１５記載の音声認識装置。
【請求項２０】前記音響モデルメモリに格納されてい
る音響モデルに、英語を母国語とする話者が発声した英
語音声データを用いて学習した音響モデルを用い、前記連続音声認識手段は、前記音響分析手段から出力さ
れる前記特徴ベクトル時系列に対して音響モデルメモリ
上の音響モデルを用いて連続音声認識を行う際に、任意
の音素の後ろに同じ音素が接続しないことを拘束条件と
して、任意の音響モデルを任意の個数接続したモデルと
の照合を行うことを特徴とする請求項１９記載の音声認
識装置。
【請求項２１】前記音響モデルメモリに格納されてい
る音響モデルに、日本人の話者が発声した日本語音声デ
ータを用いて学習した音響モデルを用い、前記連続音声認識手段は、前記音響分析手段から出力さ
れる前記特徴ベクトル時系列に対して音響モデルメモリ
上の音響モデルを用いて連続音声認識を行う際に、音響
モデルの接続における拘束条件として、日本語に現れる
任意の音節が１個以上接続されたモデルとの照合を行う
ことを特徴とする請求項１５記載の音声認識装置。
【請求項２２】前記重み付き適応化音響モデル生成手
段が生成した適応化音響モデルを前記音響モデルメモリ
に書き込むことを可能にする切り替えスイッチをさらに
有することを特徴とする請求項１５記載の音声認識装
置。
【請求項２３】前記重み付き適応化音響モデル生成手
段が生成した適応化音響モデルを記憶する適応化音響モ
デルメモリと、前記音響モデルメモリ上の音響モデル
と、前記適応化音響モデルメモリ上の適応化音響モデル
とを入力して合成し、合成音響モデルを出力する音響モ
デル合成手段と、前記重み付き適応化音響モデル生成手段が生成した適応
化音響モデルを前記適応化音響モデルメモリに書き込む
ことを可能にする切り替えスイッチをさらに有し、前
記照合手段は、入力音声の発声内容データに対応する合
成音響モデルを前記音響モデル合成手段から入力し、前
記音響分析手段から出力される特徴ベクトル時系列との
照合を行い、各特徴ベクトルに対する音響モデルの対応
付けデータを出力し、前記連続音声認識手段は、前記音響分析手段から出力さ
れる特徴ベクトル時系列に対し、前記音響モデル合成手
段が出力する合成音響モデルを用いた連続音声認識を行
い、連続音声認識結果を出力し、前記重み付き適応化音響モデル生成手段は、前記音響分
析手段の出力である特徴ベクトル時系列と、前記照合手
段の出力である音響モデル対応付けデータと、前記連続
音声認識手段の出力である連続音声認識結果とを用い、
重みデータメモリに記憶されている重みデータに従っ
て、前記音響モデル合成手段が出力した合成音響モデル
の一部もしくは全部を書き換えて適応化音響モデルとし
て出力することを特徴とする請求項１５記載の音声認識
装置。