JP2002372987A

JP2002372987A - 音響モデル学習装置、音響モデル学習方法、およびそのプログラム

Info

Publication number: JP2002372987A
Application number: JP2001179125A
Authority: JP
Inventors: Masaru Takano; 優高野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-06-13
Filing date: 2001-06-13
Publication date: 2002-12-26
Anticipated expiration: 2021-06-13
Also published as: JP4779239B2

Abstract

(57)【要約】【課題】観測された音声サンプルのうち音響モデルの
作成に有用なものだけを抽出し、信頼性の高い音響モデ
ルを作成する音響モデル学習装置、音響モデル学習方
法、およびプログラムを提供する。【解決手段】再評価部１０４は、音声分析部１０１に
より抽出された学習用音声の特徴量と、フォワード・バ
ックワード計算部１０３により算出された対応確率と、
重み計算部１０６により算出された重み係数Ｒ_tと、に
基づいて統計量を算出し、音響モデルの再推定を行い、
出力音響モデルを出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音響モデル学習装
置、音響モデル学習方法、およびそのプログラムに関
し、特に、音声サンプルの特性に応じて音声サンプルに
重み付けを行い、信頼性の高い音響モデルを作成する音
響モデル学習装置、音響モデル学習方法、およびそのプ
ログラムに関する。

【０００２】

【従来の技術】音響モデル学習装置は、実際の音声を用
いて、音声認識に使用される音響モデルを学習すること
が多い。一般に、学習される音響モデルとして、Ｈｉｄ
ｄｅｎＭａｒｋｏｖＭｏｄｅｌ（隠れマルコフモデ
ル、以下、ＨＭＭとする）が用いられる。また、ＨＭＭ
における状態を表す確率分布としては、連続混合分布が
用いられる場合が多い。また、多くの場合、ＨＭＭの学
習には、フォワード・バックワード法が用いられる。上
記のようなＨＭＭによる音響モデルのパラメータの推定
について記載されている文献としては、Ｌａｗｒａｎｃ
ｅＬａｂｉｎｅｒ，Ｂｉｉｎｇ−ＨｗａｎｇＪｕａ
ｎｇ「ＦｕｎｄａｍｅｎｔａｌｓｏｆＳｐｅｅｃｈ
Ｒｅｃｏｇｎｉｔｉｏｎ１９９３ｐ．３３３〜
ｐ．３８９」（以下、従来例１）があった。

【０００３】従来例１では、ＨＭＭに用いられる連続混
合確率分布を構成する複数の確率分布それぞれに、連続
混合確率分布における混合比を示す混合重みを付加して
いた。

【０００４】以下、フォワード・バックワード法を用い
たＨＭＭにおけるパラメータの計算方法について説明す
る。

【０００５】時刻（フレーム）ｔごとの特徴量をＯ
_t（ｔは１以上Ｔ以下の整数）とすると、フォワード・
バックワード法におけるフォワード確率αは、以下に示
す（式１．１）および（式１．２）により示される。

【０００６】

【数１】

【０００７】なお、フォワード確率α（ｔ，ｉ）は、特
徴量Ｏ_tを観測し、状態Ｓ_iにある確率を示す。同様
に、フォワード確率α（１，ｉ）は、特徴量Ｏ₁を観測
し、状態Ｓ_iにある確率、フォワード確率α（ｔ＋１，
ｊ）は、特徴量Ｏ_t+1を観測し、状態Ｓ_jにある確率を
示す。

【０００８】また、状態遷移確率ａ_ijは、状態Ｓ_iから
状態Ｓ_jへ遷移する確率を表す。観測確率ｂ（ｉ，
Ｏ₁）は、状態Ｓ_iに遷移する際に、フレームｔにおけ
る特徴量Ｏ_tが観測される確率を示す。

【０００９】また、フォワード・バックワード法におけ
るバックワード確率βは、以下に示す（式２．１）およ
び（式２．２）により示される。

【００１０】

【数２】

【００１１】なお、バックワード確率β（ｔ，ｉ）は、
フレームｔにおいて状態Ｓ_iにあり、以後フレーム（ｔ
＋１）において特徴量Ｏ_t+1を観測する確率を示す。フ
レームＴは、最終状態におけるフレームを表す。

【００１２】また、フォワード・バックワード法におけ
る対応確率γは、フォワード確率αとバックワード確率
βとに基づいて、計算される。対応確率γは、以下に示
す（式３．１）により示される。

【００１３】

【数３】

【００１４】なお、対応確率γ（ｔ，ｊ，ｋ）は、フレ
ームｔに状態Ｓ_jに遷移した際、状態Ｓ_jにおけるｋ番
目の混合分布要素において特徴量Ｏ_tを観測する確率で
ある。また、Ｎ（Ｏ_t，μ_jk，Ｕ_jk）は、状態Ｓ_jのｋ
番目の混合分布要素で、モデル化される特徴量がＯ_t、
平均ベクトルがμ_jk、共分散行列がＵ_jkの確率分布であ
る。また、ｃ_jkは、Ｎ（Ｏ_t，μ_jk，Ｕ_jk）に対する混
合重み係数である。

【００１５】また、ＨＭＭにおける状態Ｓ_jのｋ番目の
混合分布要素のパラメータである混合重みｃ_jk、平均ベ
クトルμ（ｔ，ｊ，ｋ）、および共分散行列Ｕ（ｊ，
ｋ）の各平均は、以下に示す（式４．１）、（式４．
２）、および（式４．３）により計算される。

【００１６】

【数４】

【００１７】なお、混合重みｃ_jkは、ＨＭＭにおける状
態Ｓ_jのｋ番目の混合分布要素に対する混合重みであ
る。また、平均ベクトルμ（ｔ，ｊ，ｋ）は、ＨＭＭに
おける状態Ｓ_jのｋ番目の混合分布要素の平均ベクトル
である。また、共分散行列Ｕ（ｊ，ｋ）は、ＨＭＭにお
ける状態Ｓ_jのｋ番目の混合分布要素の共分散行列であ
る。また、Ｖ_kは、文字列Ｖにおける所定の文字を示
す。また、（Ｏ_t−μ_jk）’は、ベクトル（Ｏ_t−
μ_jk）の対置ベクトルを表す。

【００１８】また、特開平５−２３２９８９号公報が開
示するところの音響モデルの話者適応化法（以下、従来
例２）では、ＨＭＭに用いられる連続混合確率分布を構
成する複数の確率分布それぞれの混合比を決める重み係
数だけを再推定していた。

【００１９】また、特開平１０−１１０８６号公報が開
示するところの隠れマルコフモデルの計算方式（以下、
従来例３）には、フォワードバックワード法を用いたＨ
ＭＭの計算方式が記載されていた。

【００２０】

【発明が解決しようとする課題】一般に、信頼性の高い
確率モデルの学習には、大量の音声データが必要とな
る。特に、不特定話者用の音響モデルには、話者の個人
差による音声の変動を吸収する必要がある。従って、不
特定話者用の音響モデルには、話者の発声による音声デ
ータが多数必要となる。しかしながら、大量の音声サン
プルを収集する際には、話者の誤発声あるいは低品質の
音声が混入する可能性がある。

【００２１】さらに、確率モデル（音響モデル）の推定
を行う場合に、以下に示すような問題が生じてしまう。
通常、音声データを収集する際、話者の自然な発声によ
る音声データを得る必要がある。従って、音声データと
して収集される話者の発声内容は、実際に存在する単語
が用いられる。また、実際に存在する単語を構成する音
素（文字）の分布には必然的に偏りが生じる。例えば、
日本語の場合は、母音、特に「あ」の出現頻度が非常に
高い。確率モデルを推定する場合、確率分布を推定する
サンプル数によって確率分布の信頼性に格差が生じてし
まう。従って、単語を構成する音素を音響モデルを構築
する音声データとして用いる場合、音素の出現頻度の偏
りを修正する必要がある。

【００２２】本発明は、上記問題点に鑑みてなされたも
のであり、従来例１、従来例２、および従来例２と従来
例３とを組み合わせたものにおいてＨＭＭの各混合分布
要素に付加されている重みに加え、収集した音声サンプ
ルの特性に応じて設定された重み係数を、音声サンプル
の各フレームにさらに付加することによって、特定の音
声サンプルあるいは音声サンプルの特定部分を音響モデ
ルの学習の際に増幅あるいは除去し、音声サンプルを構
成する音素の出現頻度の偏りを修正し、信頼性の高い音
響モデルを提供する音響モデル学習装置を提供すること
を目的とする。

【００２３】

【課題を解決するための手段】かかる目的を達成するた
め、請求項１記載の発明は、入力される学習用音声から
フレームごとに特徴量を抽出する音声分析手段と、所定
の音声からフレームごとに抽出された特徴量を示す確率
分布を用いて、所定の音声におけるフレームごとに分割
された所定の音声の断片を状態として表現し、状態を構
成単位とする入力音響モデルと、学習用音声の内容を示
す文字列情報である正解列と、に基づいて、入力音響モ
デルにおける状態に正解列を割り当てた状態列の情報で
ある学習用辞書を生成する辞書生成手段と、辞書生成手
段により生成された学習用辞書を参照し、学習用音声の
特徴量と入力音響モデルにおける状態との対応確率を学
習用音声のフレームごとに算出する対応確率算出手段
と、所定の文字列を用いて、入力音響モデルにより表現
される状態あるいは複数の状態からなる状態列を、学習
用音声のフレームごとに最尤に割り当て、所定の最尤状
態列を生成する最尤状態列生成手段と、最尤状態列生成
手段により生成された所定の最尤状態列に基づいて、対
応確率に重み付けする際に付加する係数である重み係数
を、学習用音声のフレームごとに算出する重み計算手段
と、対応確率算出手段により算出された対応確率と、重
み計算手段により算出された重み係数と、音声分析手段
により算出された特徴量と、に基づいて統計量を算出
し、算出した統計量に基づいて、入力音響モデルのパラ
メータを再推定し、出力音響モデルを作成する再評価手
段と、を有することを特徴とする。

【００２４】また、請求項２記載の発明によれば、請求
項１記載の音響モデル学習装置において、再評価手段
は、学習用音声のフレームごとの対応確率に、重み係数
を乗算し、学習用音声のフレームごとの対応確率に重み
付けを行い、重み付けされた対応確率を用いて統計量を
算出し、算出した統計量に基づいて、入力音響モデルの
パラメータを再推定し、出力音響モデルを作成すること
を特徴とする。

【００２５】また、請求項３記載の発明によれば、請求
項１または２記載の音響モデル学習装置において、重み
計算手段は、最尤状態列生成手段により、学習用辞書を
用いて生成された最尤状態列を第１の最尤状態列とし、
任意の文字列を用いて生成された最尤状態列を第２の最
尤状態列とした場合、学習用音声のフレームごとに、第
１の最尤状態列と第２の最尤状態列とを比較し、比較に
基づいて、学習用音声のフレームごとに重み係数を算出
することを特徴とする。

【００２６】また、請求項４記載の発明によれば、請求
項３記載の音響モデル学習装置において、重み計算手段
は、学習用音声のフレームごとに、第１の最尤状態列と
第２の最尤状態列とを比較し、割り当てられた状態ある
いは複数の状態からなる状態列が一致したフレームでは
重み係数を１とし、互いに異なるフレームでは重み係数
を１より小さな値として算出することを特徴とする。

【００２７】また、請求項５記載の発明によれば、請求
項３記載の音響モデル学習装置において、重み計算手段
は、学習用音声のフレームごとに、第１の最尤状態列と
第２の最尤状態列とを比較し、割り当てられた状態ある
いは複数の状態からなる状態列が一致したフレームでは
重み係数を１とし、互いに異なるフレームでは重み係数
を１より大きな値として算出することを特徴とする。

【００２８】また、請求項６記載の発明によれば、請求
項１から５のいずれか１項に記載の音響モデル学習装置
において、重み計算手段は、割り当てられた状態ごと
に、算出した重み係数の和をそれぞれ算出し、算出した
重み係数の和が、それぞれ等しい値となるように算出し
た重み係数を設定することを特徴とする。

【００２９】また、請求項７記載の発明は、入力される
学習用音声からフレームごとに特徴量を抽出する音声分
析工程と、所定の音声からフレームごとに抽出された特
徴量を示す確率分布を用いて、所定の音声におけるフレ
ームごとに分割された所定の音声の断片を状態として表
現し、状態を構成単位とする入力音響モデルと、学習用
音声の内容を示す文字列情報である正解列と、に基づい
て、入力音響モデルにおける状態に正解列を割り当てた
状態列の情報である学習用辞書を生成する辞書生成工程
と、辞書生成工程により生成された学習用辞書を参照
し、学習用音声の特徴量と入力音響モデルにおける状態
との対応確率を学習用音声のフレームごとに算出する対
応確率算出工程と、所定の文字列を用いて、入力音響モ
デルにより表現される状態あるいは複数の状態からなる
状態列を、学習用音声のフレームごとに最尤に割り当
て、所定の最尤状態列を生成する最尤状態列生成工程
と、最尤状態列生成工程により生成された所定の最尤状
態列に基づいて、対応確率に重み付けする際に付加する
係数である重み係数を、学習用音声のフレームごとに算
出する重み計算工程と、対応確率算出工程により算出さ
れた対応確率と、重み計算工程により算出された重み係
数と、音声分析工程により算出された特徴量と、に基づ
いて統計量を算出し、算出した統計量に基づいて、入力
音響モデルのパラメータを再推定し、出力音響モデルを
作成する再評価工程と、を有することを特徴とする音響
モデル学習方法。

【００３０】また、請求項８記載の発明によれば、請求
項７記載の音響モデル学習方法において、再評価工程
は、学習用音声のフレームごとの対応確率に、重み係数
を乗算し、学習用音声のフレームごとの対応確率に重み
付けを行い、重み付けされた対応確率を用いて統計量を
算出し、算出した統計量に基づいて、入力音響モデルの
パラメータを再推定し、出力音響モデルを作成すること
を特徴とする。

【００３１】また、請求項９記載の発明によれば、請求
項７または８記載の音響モデル学習方法において、重み
計算工程は、最尤状態列生成工程により、学習用辞書を
用いて生成された最尤状態列を第１の最尤状態列とし、
任意の文字列を用いて生成された最尤状態列を第２の最
尤状態列とした場合、学習用音声のフレームごとに、第
１の最尤状態列と第２の最尤状態列とを比較し、比較に
基づいて、学習用音声のフレームごとに重み係数を算出
することを特徴とする。

【００３２】また、請求項１０記載の発明によれば、請
求項９記載の音響モデル学習方法において、重み計算工
程は、学習用音声のフレームごとに、第１の最尤状態列
と第２の最尤状態列とを比較し、割り当てられた状態あ
るいは複数の状態からなる状態列が一致したフレームで
は重み係数を１とし、互いに異なるフレームでは重み係
数を１より小さな値として算出することを特徴とする。

【００３３】また、請求項１１記載の発明によれば、請
求項９記載の音響モデル学習方法において、重み計算工
程は、学習用音声のフレームごとに、第１の最尤状態列
と第２の最尤状態列とを比較し、割り当てられた状態あ
るいは複数の状態からなる状態列が一致したフレームで
は重み係数を１とし、互いに異なるフレームでは重み係
数を１より大きな値として算出することを特徴とする。

【００３４】また、請求項１２記載の発明によれば、請
求項７から１１のいずれか１項に記載の音響モデル学習
方法において、重み計算工程は、割り当てられた状態ご
とに、算出した重み係数の和をそれぞれ算出し、算出し
た重み係数の和が、それぞれ等しい値となるように算出
した重み係数を設定することを特徴とする。

【００３５】また、請求項１３記載の発明は、入力され
る学習用音声からフレームごとに特徴量を抽出する音声
分析処理と、所定の音声からフレームごとに抽出された
特徴量を示す確率分布を用いて、所定の音声におけるフ
レームごとに分割された所定の音声の断片を状態として
表現し、状態を構成単位とする入力音響モデルと、学習
用音声の内容を示す文字列情報である正解列と、に基づ
いて、入力音響モデルにおける状態に正解列を割り当て
た状態列の情報である学習用辞書を生成する辞書生成処
理と、辞書生成処理により生成された学習用辞書を参照
し、学習用音声の特徴量と入力音響モデルにおける状態
との対応確率を学習用音声のフレームごとに算出する対
応確率算出処理と、所定の文字列を用いて、入力音響モ
デルにより表現される状態あるいは複数の状態からなる
状態列を、学習用音声のフレームごとに最尤に割り当
て、所定の最尤状態列を生成する最尤状態列生成処理
と、最尤状態列生成処理により生成された所定の最尤状
態列に基づいて、対応確率に重み付けする際に付加する
係数である重み係数を、学習用音声のフレームごとに算
出する重み計算処理と、対応確率算出処理により算出さ
れた対応確率と、重み計算処理により算出された重み係
数と、音声分析処理により算出された特徴量と、に基づ
いて統計量を算出し、算出した統計量に基づいて、入力
音響モデルのパラメータを再推定し、出力音響モデルを
作成する再評価処理と、を実行させることを特徴とす
る。

【００３６】また、請求項１４記載の発明によれば、請
求項１３記載のプログラムにおいて、再評価処理は、学
習用音声のフレームごとの対応確率に、重み係数を乗算
し、学習用音声のフレームごとの対応確率に重み付けを
行い、重み付けされた対応確率を用いて統計量を算出
し、算出した統計量に基づいて、入力音響モデルのパラ
メータを再推定し、出力音響モデルを作成することを特
徴とする。

【００３７】また、請求項１５記載の発明によれば、請
求項１３または１４記載のプログラムにおいて、重み計
算処理は、最尤状態列生成処理により、学習用辞書を用
いて生成された最尤状態列を第１の最尤状態列とし、任
意の文字列を用いて生成された最尤状態列を第２の最尤
状態列とした場合、学習用音声のフレームごとに、第１
の最尤状態列と第２の最尤状態列とを比較し、比較に基
づいて、学習用音声のフレームごとに重み係数を算出す
ることを特徴とする。

【００３８】また、請求項１６記載の発明によれば、請
求項１５記載のプログラムにおいて、重み計算処理は、
学習用音声のフレームごとに、第１の最尤状態列と第２
の最尤状態列とを比較し、割り当てられた状態あるいは
複数の状態からなる状態列が一致したフレームでは重み
係数を１とし、互いに異なるフレームでは重み係数を１
より小さな値として算出することを特徴とする。

【００３９】また、請求項１７記載の発明によれば、請
求項１５記載の音響モデル学習装置において、重み計算
処理は、学習用音声のフレームごとに、第１の最尤状態
列と第２の最尤状態列とを比較し、割り当てられた状態
あるいは複数の状態からなる状態列が一致したフレーム
では重み係数を１とし、互いに異なるフレームでは重み
係数を１より大きな値として算出することを特徴とす
る。

【００４０】また、請求項１８記載の発明によれば、請
求項１３から１７のいずれか１項に記載の音響モデル学
習装置において、重み計算処理は、割り当てられた状態
ごとに、算出した重み係数の和をそれぞれ算出し、算出
した重み係数の和が、それぞれ等しい値となるように算
出した重み係数を設定することを特徴とする。

【００４１】

【発明の実施の形態】（第１の実施形態）図１は、本発
明の第１の実施形態における音響モデル学習装置の構成
を示す図である。以下、図１を用いて、本実施形態にお
ける音響モデル学習装置の構成について説明する。な
お、本実施形態では、音響モデルとして連続混合確率分
布によるＨＭＭを用いる。上記の音響モデルでは、所定
の音声からフレームごとに抽出された特徴量を示す確率
分布を用いることによって、上記のフレームごとに分割
された音声の断片が状態として表現され、その状態が構
成単位となる。

【００４２】音響モデル学習装置は、音声分析部１０１
と、辞書部１０２と、フォワード・バックワード計算部
１０３と、再評価部１０４と、ビタビ計算部１０５と、
重み計算部１０６と、を有する。以下、図１を用いて音
響モデル学習装置の各部位について説明する。

【００４３】音声分析部１０１には、音響モデルの学習
に用いられる音声情報である学習用音声が入力される。
なお、上記の学習用音声は、ビタビ計算部１０５にも入
力される。

【００４４】音声分析部１０１は、入力された学習用音
声を所定周期ごとに区切り、その区間を「フレーム」と
して、フレームごとに学習用音声の周波数分析を行う。
上記の分析の結果抽出されたフレームごとの学習用音声
の（音響的）特徴量は、フォワード・バックワード計算
部１０３および再評価部１０４に入力される。なお、特
徴量としては、音声のパワーを用いてもよいし、パワー
の変化量、ケプストラム、あるいはケプストラム変化量
等を用いてもよい。

【００４５】辞書部１０２には、音響モデルおよび正解
列が入力される。上記の正解列は、所定の入力手段（図
示せず）により入力される文字列の情報としてもよい。
所定の入力手段は、音声分析部１０１およびビタビ計算
部１０５に入力された学習用音声の内容を示す文字情報
を正解列として辞書部１０２に入力する。

【００４６】また、辞書部１０２は、入力された音響モ
デル（以下、入力音響モデル）と入力された正解列とに
基づいて、サブワードモデルによる学習用辞書を作成
し、格納する。なお、サブワードモデルによる学習用辞
書とは、入力された正解列（例えば、実際に存在する単
語等）を、音素あるいは音節単位（サブワード単位）等
に分割した状態列の情報である。また、辞書部１０２
は、学習用辞書とは別に、任意の文字列の情報である
「任意の文字列を表す辞書」を予め格納している。

【００４７】フォワード・バックワード計算部１０３
は、辞書部１０２に格納されている学習用辞書を参照
し、音声分析部１０１により抽出された学習用音声の特
徴量と、入力された入力音響モデルと、に基づいて、フ
ォワード・バックワード法によるフォワード確率とバッ
クワード確率とを算出する。さらに、フォワード・バッ
クワード計算部１０３は、算出したフォワード確率とバ
ックワード確率とに基づいて、学習用音声の特徴量と入
力音響モデルの状態との間の対応確率を算出する。フォ
ワード・バックワード計算部１０３は、算出した対応確
率を再評価部１０４へ出力する。

【００４８】フォワード・バックワード計算部１０３
は、入力された学習用音声から変換されたフレームｔご
との特徴量をＯ_t（ｔは１以上Ｔ以下の整数）として、
フォワード確率αを、以下に示す（式１．１）および
（式１．２）に基づいて算出する。また、フォワード・
バックワード計算部１０３は、バックワード確率βを、
（式２．１）および（式２．２）により示されている式
に基づいて算出する。

【００４９】また、フォワード・バックワード計算部１
０３は、算出したフォワード確率αとバックワード確率
βとを用いて、対応確率γを、（式３．１）により示さ
れる式に基づいて算出する。

【００５０】ビタビ計算部１０５には、音声分析部１０
１と同様の学習用音声が入力される。また、ビタビ計算
部１０５には、辞書部１０２を介して入力音響モデルが
入力される。

【００５１】ビタビ計算部１０５は、入力された学習用
音声を所定時間（フレーム）ごとに分割する。次に、ビ
タビ計算部１０５は、所定の文字情報を参照して、上記
の各フレームに入力音響モデルに基づく状態あるいは複
数の状態からなる状態列を最尤に割り当て、ビタビマッ
チング（ＶｉｔｅｒｂｉＭａｔｃｈｉｎｇ）を行い、
所定の最尤状態列を作成する。

【００５２】重み計算部１０６は、ビタビ計算部１０５
により複数種類の所定の文字情報を参照して作成された
複数種類の最尤状態列に基づいて重み係数Ｒ_tを算出す
る。

【００５３】再評価部１０４は、重み計算部１０６によ
り算出された重み係数Ｒ_tと、フォワード・バックワー
ド計算部１０３により算出された対応確率と、音声分析
部１０１により抽出された特徴量と、フォワード・バッ
クワード計算部１０３を介して入力された入力音響モデ
ルと、に基づいて、音響モデルの各状態の統計量（混合
重み、平均ベクトル、および共分散行列の各平均）を計
算する。再評価部１０４は、抽出された統計量に基づい
て、入力音響モデルの各パラメータ（混合重み、平均ベ
クトル、および共分散行列の各平均）を再評価する。再
評価部１０４は、入力音響モデルの各パラメータの再評
価に基づいて、音響モデルを作成する。再評価部１０４
は、作成した音響モデルを、出力音響モデルとして出力
する。

【００５４】再評価部１０４は、対応確率γに重み係数
Ｒ_tを積算して重み付けを行う。再評価部１０４は、重
み付けされた対応確率γ・Ｒ_tを用いて、混合重み
ｃ_jk、平均ベクトルμ（ｔ，ｊ，ｋ）、および共分散行
列Ｕ（ｊ，ｋ）の各平均を統計量として算出する。上記
の統計量は、以下に示す（式５．１）、（式５．２）、
および（式５．３）により与えられる。

【００５５】

【数５】

【００５６】なお、混合重みｃ_jkは、ＨＭＭにおける状
態Ｓ_jのｋ番目の混合分布要素に対する混合重みであ
る。また、平均ベクトルμ（ｔ，ｊ，ｋ）は、ＨＭＭに
おける状態Ｓ_jのｋ番目の混合分布要素の平均ベクトル
である。また、共分散行列Ｕ（ｊ，ｋ）は、ＨＭＭにお
ける状態Ｓ_jのｋ番目の混合分布要素の共分散行列であ
る。また、Ｖ_kは、文字列Ｖにおける所定の文字を示
す。また、（Ｏ_t−μ_jk）’は、ベクトル（Ｏ_t−
μ_jk）の対置ベクトルを表す。

【００５７】図２は、本発明の第１の実施形態における
入力音響モデルが表現可能な音素セットを示す図であ
る。また、図３は、本発明の第１の実施形態における音
響モデル学習装置が作成する学習用辞書を示す図であ
る。また、図４は、本発明の第１の実施形態における重
み係数Ｒ_tを示す図である。また、図９は、本発明の第
１の実施形態における音響モデル学習装置の動作の流れ
を示すフローチャートである。以下、図１〜４を用い、
図９に沿って本実施形態における音響モデル学習装置の
動作について説明する。

【００５８】本実施形態では、学習用音声の一例とし
て、所定の話者による「加藤今太郎（かとうこんたろ
う）」の発声を用いる。また、本実施形態では、入力音
響モデル（初期モデル）として、上記の所定の話者によ
る「かとうこんたろう」の発声を、「さとうこんたろ
う」と認識する音響モデルが与えられたとする。

【００５９】なお、ＨＭＭでは、１状態に対応する音声
の長さは可変であり、ビタビマッチング等を用いること
により、ＨＭＭにおける最尤な状態系列が得られる。し
かしながら、本実施形態では、簡単のために、入力音声
は１４フレームの音声であり、１フレームにつき１状態
が割り当てられているものとする。

【００６０】まず、所定の制御手段（図示せず）は、学
習用音声が音声分析部１０１に入力されたか否かを判断
する（ステップＳ９０１）。学習用音声が音声分析部１
０１に入力されていないと判断された場合（ステップＳ
９０１／Ｎｏ）、ステップＳ９０１の工程が繰り返され
る。

【００６１】学習用音声が音声分析部１０１に入力され
たと判断された場合（ステップＳ９０１／Ｙｅｓ）、音
声分析部１０１は、フレームごとに学習用音声の周波数
を分析し、その分析した学習用音声の周波数に基づいて
学習用音声の特徴量を抽出する（ステップＳ９０２）。
抽出した学習用音声の特徴量は、フォワード・バックワ
ード計算部１０３および再評価部１０４へ出力される。

【００６２】次に、所定の制御手段は、正解列および入
力音響モデルが辞書部１０２に入力されたか否かを判断
する（ステップＳ９０３）。正解列および入力音響モデ
ルが入力されていないと判断された場合（ステップＳ９
０３／Ｎｏ）、ステップＳ９０３の工程が繰り返され
る。

【００６３】正解列および入力音響モデルが辞書部１０
２に入力されたと判断された場合（ステップＳ９０３／
Ｙｅｓ）、辞書部１０２は、入力された正解列と入力音
響モデルとに基づいて学習用辞書を作成し、作成した学
習用辞書を格納する（ステップＳ９０４）。

【００６４】ここで、図２および図３を用いて、辞書部
１０２が学習用辞書を作成する工程について説明する。
図２には、本実施形態における入力音響モデルが表現で
きる音素の列（音素セット）が示されている。上記の音
素セットは、入力音響モデルに含まれている。辞書部１
０２は、上記の音素セットを用いて、学習用音声「かと
うこんたろう」を「ｋ−ａ−ｔ−ｏ−ｕ−ｋ−ｏ−ｎｇ
−ｔ−ａ−ｒ−ｏ−ｕ」と音素単位に分割する。分割し
た音素を、状態Ｓ_i（ｉは１以上１３以下の整数）にそ
れぞれ割り当て、図３に示されるような状態列、すなわ
ち学習用音声に対応する学習用辞書を作成する。辞書部
１０２は、作成した学習用辞書を格納する。

【００６５】辞書部１０２による学習用辞書作成後、フ
ォワード・バックワード計算部１０３は、辞書部１０２
により作成された学習用辞書を参照し、音声分析部１０
１により抽出された特徴量に基づいて、フォワード確率
およびバックワード確率を算出する（ステップＳ９０
５）。

【００６６】次に、フォワード・バックワード計算部１
０３は、算出したフォワード確率とバックワード確率と
に基づいて対応確率を算出する（ステップＳ９０６）。

【００６７】所定の制御手段は、音声分析部１０１に入
力された学習用音声と同様の学習用音声がビタビ計算部
１０５に入力されたか否かを判断する。また、所定の制
御手段は、入力音響モデルが辞書部１０２を介してビタ
ビ計算部１０５に入力されたか否かを判断する（ステッ
プＳ９０７）。学習用音声および入力音響モデルがビタ
ビ計算部１０５に入力されていないと判断された場合
（ステップＳ９０７／Ｎｏ）、ステップＳ９０７の工程
が繰り返される。

【００６８】学習用音声および入力音響モデルがビタビ
計算部１０５に入力されたと判断された場合（ステップ
Ｓ９０７／Ｙｅｓ）、ビタビ計算部１０５は、入力され
た学習用音声および入力音響モデルを用い、辞書部１０
２により作成された学習用辞書を参照して、ビタビマッ
チングにより最尤状態列を生成する（ステップＳ９０
８）。なお、学習用辞書を参照して生成された上記の最
尤状態列を第１の最尤状態列とする。

【００６９】さらに、ビタビ計算部１０５は、入力され
た学習用音声および入力音響モデルを用い、辞書部１０
２に格納されている任意の文字列を表す辞書を参照し
て、ビタビマッチングにより最尤状態列を生成する（ス
テップＳ９０９）。なお、任意の文字を表す辞書を参照
して生成された上記の最尤状態列を第２の最尤状態列と
する。

【００７０】次に、重み計算部１０６は、ビタビ計算部
１０５により生成された第１の最尤状態列の各状態と第
２の最尤状態列の各状態を比較し、以下に示す（式６．
１）および（式６．２）により与えられる重み係数Ｒ_t
を算出する（ステップＳ９１０）。なお、重み係数Ｒ_t
は、学習用音声の各フレームにそれぞれ対応するように
算出される。

【００７１】

【数６】

【００７２】話者による誤発声あるいは品質の低い音声
を学習用音声として用いた場合、入力された正解列と入
力音響モデルにより認識される学習用音声との間で差異
が発生する可能性、つまり、入力された学習用音声によ
る所定の言語単位（例えば、音素単位、音節単位等）の
音声サンプルが音響モデルにより誤認識される可能性が
高い。上記の誤認識された音声サンプルが出力音響モデ
ルに大きく反映しないようすることによって、信頼性の
高い出力音響モデルを得ることが可能となる。

【００７３】重み計算部１０６は、第１の最尤状態列に
おける各状態と、第２の最尤状態列における各状態と、
をフレームごとに比較し、上記の（式６．１）および
（式６．２）に基づいて重み係数Ｒ_tを算出する。

【００７４】（式６．１）は、所定のフレームにおい
て、第１の最尤状態列と第２の最尤状態列との間に差異
が発生した場合の重み係数Ｒ_tを与える式であり、上記
の場合、重み係数Ｒ_tは「０」として算出される。

【００７５】（式６．２）は、全てのフレームにおい
て、第１の最尤状態列と第２の最尤状態列とが一致した
場合の重み係数Ｒ_tを与える式であり、上記の場合、重
み係数Ｒ_tは「１」として算出される。

【００７６】話者の誤発声等により学習用音声の品質が
低下した場合、その品質低下が生じた部分に対応するフ
レームに割り当てられている第１の最尤状態列の状態
と、第２の最尤状態列の状態との間に差異が発生する。
従って、信頼性の高い出力音響モデルを得るためには、
上記の差異が生じた部分が出力音響モデルに反映されな
いようにする必要がある。

【００７７】本実施形態では、学習用音声における高品
質部分（所定のフレームにおいて第１の最尤状態列の状
態と第２の最尤状態列とが一致した状態）の重み係数Ｒ
_tを「１」とし、低品質部分の重み係数Ｒ_tを高品質部
分の重み係数Ｒ_tよりも低い値である「０」とすること
によって、学習用音声の低品質部分、すなわち学習用音
声が入力音響モデルにより誤認識されている部分が出力
音響モデルに反映されないようにしている。

【００７８】本実施形態における入力音響モデルでは、
学習用音声「かとうこんたろう」は、「さとうこんたろ
う」と認識される。上記のような場合、「か」の部分が
実際にどのような発声であったか不明であるが、「か」
の部分における音素「ｋ」が入力音響モデルにより誤認
識されている。音素「ｋ」のモデルが正しく認識される
出力音響モデルを作成するためには、「か」の部分の音
素「ｋ」が出力音響モデルに反映しないように設定され
る必要がある。

【００７９】図１４は、（式６．１）および（式６．
２）により図３の学習用辞書に与えられる重み係数Ｒ_t
を示す図である。Ｒ_t（ｔ＝１〜１３）は、それぞれＳ
_i（ｉ＝１〜１３）における重み係数である。図１４に
示されているように、「か」の部分の音素「ｋ」（＝Ｓ
₁）における重み係数Ｒ₁を「０」とし、他の音素（Ｓ
₂〜Ｓ₁₃）における重み係数Ｒ₂〜Ｒ₁₃を「１」とする
ことによって、「か」の部分の音素「ｋ」が出力音響モ
デルに反映しないようにすることが可能となり、信頼性
の高い音響モデルを作成することが可能となる。

【００８０】なお、本実施形態では、重み係数Ｒ₁を
「０」とすることにより、「か」の部分の音素「ｋ」が
出力音響モデルに反映しないようにしたが、重み係数Ｒ
₁を「０以上１未満の任意の値」に設定することによっ
て、「か」の部分の音素「ｋ」が出力音響モデルに与え
る影響を調整することが可能となる。

【００８１】以下、再び図９のフローチャートに沿って
音響モデル学習装置の動作について説明を進める。再評
価部１０４は、重み計算部１０６により算出された重み
係数Ｒ_tと、音声分析部１０１により抽出された特徴量
と、フォワード・バックワード計算部１０３により算出
された対応確率と、に基づいて、音響モデルの各統計量
（混合重み、平均ベクトル、および共分散行列の各平
均）を算出する（ステップＳ９１１）。

【００８２】再評価部１０４は、音響モデルの各統計量
算出後、算出した統計量に基づいて、フォワード・バッ
クワード計算部１０３を介して入力された入力音響モデ
ルの各パラメータ（混合重み分布、平均ベクトル、およ
び共分散行列の各平均）を再評価し、出力音響モデルを
作成する（ステップＳ９１２）。作成された出力音響モ
デルは、再評価部１０４から出力される（ステップＳ９
１３）。出力音響モデル出力後、音響モデル学習装置
は、動作を終了する。

【００８３】（第２の実施形態）以下、特記しない限
り、本発明の第２の実施形態における音響モデル学習装
置の構成および動作は、本発明の第１の実施形態におけ
る音響モデル学習装置の構成および動作と同様であると
する。

【００８４】一般に、騒音環境が学習用音声の品質を低
下させる場合、学習用音声の誤認識は、単一の音素にと
どまらず、その音素の周辺音素にも影響を与える。第１
の実施形態では、重み係数Ｒ_tを音素ごとに設定してい
たが、環境騒音などの理由により複数の音素にわたって
誤認識される場合、音節単位で重み付けを行うことによ
って、より信頼性の高い出力音響モデルを作成すること
が可能となる。

【００８５】図５は、本発明の第２の実施形態における
重み係数Ｒ_tを示す図である。第１の実施形態と同様に
重み係数Ｒ_t（ｔ＝１〜１３）は、それぞれ図３におけ
る状態Ｓ_i（ｉ＝１〜１３）に対応する。

【００８６】第１の実施形態では、「か」の音素「ｋ」
（＝Ｓ₁）の重み係数Ｒ₁を「０」に設定していた。本
実施形態では、学習用音声「かとうこんたろう」におけ
る音節「か（ｋ−ａ）」において、品質が低下し、第１
の最尤状態列と第２の最尤状態列との間に差異が生じて
いる。上記のように音節単位で学習用音声の品質低下が
生じている場合、「か」の音素「ｋ」（＝Ｓ₁）の重み
係数Ｒ₁と、音素「ａ」（＝Ｓ₂）の重み係数Ｒ₂と、
をそれぞれ「０」に設定することによって、音素「ｋ」
（＝Ｓ₁）の重み係数Ｒ₁のみを「０」とする場合と比
較して、より信頼性の高い出力音響モデルを作成するこ
とが可能となる。

【００８７】なお、本実施形態では、重み係数Ｒ₁およ
びＲ₂を「０」とすることにより、「か」の部分の音素
「ｋ」および音素「ａ」が出力音響モデルに反映しない
ようにしたが、重み係数Ｒ₁およびＲ₂を「０以上１未
満の任意の値」に設定することによって、「か」の部分
の音素「ｋ」および音素「ａ」が出力音響モデルに与え
る影響を調整することが可能となる。

【００８８】（第３の実施形態）以下、特記しない限
り、本発明の第３の実施形態における音響モデル学習装
置の構成および動作は、本発明の第１の実施形態におけ
る音響モデル学習装置の構成および動作と同様であると
する。

【００８９】第２の実施形態では、騒音環境による学習
用音声の誤認識は、単一の音素にとどまらず、その音素
の周辺音素にも影響を与える場合について説明した。第
２の実施形態では、重み係数Ｒ_tを音節ごとに設定して
いたが、環境騒音などの理由により誤認識される音素の
範囲が音節単位よりもさらに広い範囲にわたって存在す
る場合、重み付けする音素の範囲を音節単位よりもさら
に拡大し、単語単位とすることによって、より信頼性の
高い出力音響モデルを作成することが可能となる。

【００９０】図６は、本発明の第３の実施形態における
重み係数Ｒ_tを示す図である。第１の実施形態と同様に
重み係数Ｒ_t（ｔ＝１〜１３）は、それぞれ図３におけ
る状態Ｓ_i（ｉ＝１〜１３）に対応する。

【００９１】第１の実施形態では、「か」の音素「ｋ」
（＝Ｓ₁）の重み係数Ｒ₁を「０」に設定していた。ま
た、第２の実施形態では、「か」の音素「ｋ」（＝
Ｓ₁）の重み係数Ｒ₁と、音素「ａ」（＝Ｓ₂）の重み
係数Ｒ₂と、をそれぞれ「０」に設定していた。本実施
形態では、学習用音声「かとうこんたろう」における単
語「かとう（ｋ−ａ−ｔ−ｏ−ｕ）」において、品質が
低下し、第１の最尤状態列と第２の最尤状態列との間に
差異が生じている。上記のように単語単位で学習用音声
の品質低下が生じている場合、単語「かとう（ｋ−ａ−
ｔ−ｏ−ｕ）」における音素「ｋ」（＝Ｓ₁）、音素
「ａ」（＝Ｓ₂）、音素「ｔ」（＝Ｓ₃）、音素「ｏ」
（＝Ｓ₄）、および音素「ｕ」（＝Ｓ₅）それぞれに対
応する重み係数Ｒ₁〜Ｒ₅を「０」とすることによっ
て、音素単位あるいは音節単位で重み係数Ｒ_tを「０」
とする場合と比較して、より信頼性の高い出力音響モデ
ルを作成することが可能となる。

【００９２】なお、本実施形態では、重み係数Ｒ₁〜Ｒ
₅を「０」とすることにより、「かとう」の部分の音素
「ｋ−ａ−ｔ−ｏ−ｕ」が出力音響モデルに反映しない
ようにしたが、重み係数Ｒ₁〜Ｒ₅を０以上１未満の任
意の値に設定することによって、「かとう」の部分の音
素「ｋ−ａ−ｔ−ｏ−ｕ」が出力音響モデルに与える影
響を調整することが可能となる。

【００９３】（第４の実施形態）以下、特記しない限
り、本発明の第４の実施形態における音響モデル学習装
置の構成および動作は、本発明の第１の実施形態におけ
る音響モデル学習装置の構成および動作と同様であると
する。

【００９４】上記の第１から第３の実施形態では、第１
の最尤状態列と第２の最尤状態列との間で差異が生じた
部分（学習用音声の品質が低下した部分）の重み係数Ｒ
_tを「０」に設定し、出力音響モデルに反映されないよ
うにしていた。本実施形態における音響モデル学習装置
は、学習用音声における誤発声あるいは品質の低い音声
が生じた部分を発声の一変化として積極的に取り入れ、
学習用音声の高品質部分よりも高い重み係数Ｒ_tを設定
することによって、低品質の学習用音声のサンプル数を
増加させ、低品質の学習用音声に対する認識性能を向上
させる。

【００９５】図７は、本発明の第４の実施形態における
重み係数Ｒ_tを示す図である。図７に示される重み係数
Ｒ_tは、以下に示す（式７．１）および（式７．２）に
より与えられる。

【００９６】

【数７】

【００９７】本実施形態では、第１の実施形態と同様
に、所定の話者により入力された「かとうこんたろう」
という学習用音声を、「さとうこんたろう」と認識する
音響モデルが入力される。第１の実施形態では、「か」
の音素「ｋ」（＝Ｓ₁）に対応する重み係数Ｒ₁を
「０」に設定し、出力音響モデルに反映しないようにす
ることによって、信頼性の高い出力音響モデルを作成し
ていた。本実施形態では、第１の最尤状態列と第２の最
尤状態列との間で差異が発生した「か」の音素「ｋ」
（＝Ｓ₁）に、第１の最尤状態列と第２の最尤状態列と
の間で一致した他の音素に設定された「重み係数Ｒ_t＝
１（ｔ＝２〜１３）」よりも高い「重み係数Ｒ₁＝１
０」を設定する。

【００９８】上記のように、「重み係数Ｒ₁＝１０」と
設定することによって、十分に学習されていない稀な特
徴と考えられる「か」の音素「ｋ」（＝Ｓ₁）を、他の
音素よりも出力音響モデルに大きく反映させることが可
能となる。

【００９９】なお、本実施形態では、重み係数Ｒ_tによ
る重み付けを音素単位で行ったが、第２の実施形態のよ
うに音節単位で行ってもよいし、第３の実施形態のよう
に単語単位で行ってもよい。

【０１００】また、本実施形態では、正解列と入力音響
モデルにより認識された学習用音声との間で差異が生じ
た音素に対応する重み係数Ｒ_tを「１０」としたが、正
解列と学習用音声との間で一致した音素と比較して大き
な数値であれば、差異が生じた音素に対応する重み係数
Ｒ_tは、他の値であってもよい。

【０１０１】（第５の実施形態）以下、特記しない限
り、本発明の第５の実施形態における音響モデル学習装
置の構成および動作は、本発明の第１の実施形態におけ
る音響モデル学習装置の構成および動作と同様であると
する。

【０１０２】統計モデルの信頼性は、統計モデルのパラ
メータ学習に用いられた音声サンプル（音素、音節、あ
るいは単語）の量により大きく影響される。従って、各
音響モデルにおける信頼性を均一化するためには、入力
される各音声サンプルの量に著しい偏りが生じないよう
にする必要がある。

【０１０３】本実施形態では、第１の最尤状態列におけ
る各状態ごとの重み係数Ｒ_tの和を一定にし、入力され
る所定の言語単位（音素、音節、あるいは単語等）の各
音声サンプルにおけるサンプル数を均一化する。

【０１０４】図１０は、本発明の第５の実施形態におけ
る音響モデル学習装置の動作の流れを示すフローチャー
トである。以下、図１を用い、図１０に沿って、本実施
形態における音響モデル学習装置の動作について説明す
る。

【０１０５】本実施形態では、第１の実施形態と同様
に、学習用音声の一例として、所定の話者による「加藤
今太郎（かとうこんたろう）」の発声を用いる。

【０１０６】まず、所定の制御手段（図示せず）は、学
習用音声が音声分析部１０１に入力されたか否かを判断
する（ステップＳ１００１）。学習用音声が音声分析部
１０１に入力されていないと判断された場合（ステップ
Ｓ１００１／Ｎｏ）、ステップＳ１００１の工程が繰り
返される。

【０１０７】学習用音声が音声分析部１０１に入力され
たと判断された場合（ステップＳ１００１／Ｙｅｓ）、
音声分析部１０１は、フレームごとに学習用音声の周波
数を分析し、その分析した学習用音声の周波数に基づい
て学習用音声の特徴量を抽出する（ステップＳ１００
２）。抽出した学習用音声の特徴量は、フォワード・バ
ックワード計算部１０３および再評価部１０４へ出力さ
れる。

【０１０８】次に、所定の制御手段は、正解列および入
力音響モデルが辞書部１０２に入力されたか否かを判断
する（ステップＳ１００３）。正解列および入力音響モ
デルが入力されていないと判断された場合（ステップＳ
１００３／Ｎｏ）、ステップＳ１００３の工程が繰り返
される。

【０１０９】正解列および入力音響モデルが辞書部１０
２に入力されたと判断された場合（ステップＳ１００３
／Ｙｅｓ）、辞書部１０２は、入力された正解列と入力
音響モデルとに基づいて学習用辞書を作成し、作成した
学習用辞書を格納する（ステップＳ１００４）。

【０１１０】辞書部１０２による学習用辞書作成後、フ
ォワード・バックワード計算部１０３は、辞書部１０２
により作成された学習用辞書を参照し、音声分析部１０
１により抽出された特徴量に基づいて、フォワード確率
およびバックワード確率を算出する（ステップＳ１００
５）。

【０１１１】次に、フォワード・バックワード計算部１
０３は、算出したフォワード確率とバックワード確率と
に基づいて対応確率を算出する（ステップＳ１００
６）。

【０１１２】所定の制御手段は、音声分析部１０１に入
力された学習用音声と同様の学習用音声がビタビ計算部
１０５に入力されたか否かを判断する。また、所定の制
御手段は、入力音響モデルが辞書部１０２を介してビタ
ビ計算部１０５に入力されたか否かを判断する（ステッ
プＳ１００７）。学習用音声および入力音響モデルがビ
タビ計算部１０５に入力されていないと判断された場合
（ステップＳ１００７／Ｎｏ）、ステップＳ１００７の
工程が繰り返される。

【０１１３】学習用音声および入力音響モデルがビタビ
計算部１０５に入力されたと判断された場合（ステップ
Ｓ１００７／Ｙｅｓ）、ビタビ計算部１０５は、入力さ
れた学習用音声および入力音響モデルを用い、辞書部１
０２により作成された学習用辞書を参照して、ビタビマ
ッチングにより最尤状態列を生成する（ステップＳ１０
０８）。なお、学習用辞書を参照して生成された上記の
最尤状態列を第１の最尤状態列とする。

【０１１４】次に、重み計算部１０６は、ビタビ計算部
１０５により生成された第１の最尤状態列の各状態を参
照し、以下に示す（式８．１）、（式９．１）、（式
９．２）、および（式９．３）に基づいて、重み係数Ｒ
_tを算出する（ステップＳ１００９）。

【０１１５】

【数８】

【０１１６】

【数９】

【０１１７】本実施形態では、上記の（式８．１）で与
えられる条件により、学習用音声を構成する同一の音声
サンプル（音素、音節、あるいは単語単位）が割り当て
られている状態ごとに重み係数Ｒ_tの和をとり、重み係
数Ｒ_tの和が等しくなるように、重み係数Ｒ_tを算出す
ることによって、各音声サンプルがそれぞれ出力音響モ
デルに与える影響が均一になる。

【０１１８】本実施形態では、本発明の第１の実施形態
と同様に図３に示される学習用辞書が生成されるとす
る。図８は、本発明の第５の実施形態における重み係数
Ｒ_tを示す図である。図８に示される重み係数Ｒ_tは、
上記の（式９．１）、（式９．２）および（式９．３）
に基づいて設定されている。なお、図８における重み係
数Ｒ_t（ｔ＝１〜１３）は、図３に示されている状態Ｓ
_i（ｉ＝１〜１３）にそれぞれ対応している。

【０１１９】本実施形態では、割り当てられたフレーム
の値が小さなものから順に、学習用音声を構成する音素
を観測した場合、初めて観測された種類の音素に対応す
る重み係数Ｒ_tを「１」とし、以前観測された種類の音
素に対応する重み係数Ｒ_tを「０」としている。

【０１２０】以下、図３および図８を用いて説明する
と、例えば、Ｓ₆の音素「ｋ」は、すでにＳ₁において
観測されているので重み係数Ｒ₆は「０」に設定されて
いる。一方、Ｓ₁₁の音素「ｒ」は、Ｓ₁〜Ｓ₁₀において
観測されていないので重み係数Ｒ₁₁は「１」に設定され
ている。

【０１２１】上記のように重み係数Ｒ_tが算出されるこ
とによって、同一種類の音素に付加されている重み係数
Ｒ_tの和は、それぞれ「１」となり、各音素が音声サン
プルとして収集される回数が均等となる。

【０１２２】以下、再び図１０のフローチャートに沿っ
て音響モデル学習装置の動作について説明を進める。再
評価部１０４は、重み計算部１０６により算出された重
み係数Ｒ_tと、音声分析部１０１により抽出された特徴
量と、フォワード・バックワード計算部１０３により算
出された対応確率と、に基づいて、音響モデルの各統計
量（混合重み、平均ベクトル、および共分散行列の各平
均）を算出する（ステップＳ１０１０）。

【０１２３】再評価部１０４は、音響モデルの各統計量
算出後、算出した統計量に基づいて、フォワード・バッ
クワード計算部１０３を介して入力された入力音響モデ
ルの各パラメータ（混合重み分布、平均ベクトル、およ
び共分散行列の各平均）を再評価し、出力音響モデルを
作成する（ステップＳ１０１１）。作成された出力音響
モデルは、再評価部１０４から出力される（ステップＳ
１０１２）。出力音響モデル出力後、音響モデル学習装
置は、動作を終了する。

【０１２４】本実施形態では、以上説明したように、同
一の音声サンプル（音素、音節、あるいは単語）が割り
当てられた状態ごとの重み係数Ｒ_tの和を一定とするこ
とによって、各音声サンプル（音素、音節、あるいは単
語単位）のサンプル量および出力音響モデルに与える影
響を均一化し、信頼性の高い出力音響モデルを作成する
ことを可能としている。

【０１２５】また、音響モデル学習装置は、入力される
学習用音声からフレームごとに特徴量を抽出する音声分
析処理と、所定の音声からフレームごとに抽出された特
徴量を示す確率分布を用いて、所定の音声におけるフレ
ームごとの特徴量を状態として表現し、状態を構成単位
とする入力音響モデルと、学習用音声の内容を示す文字
列情報である正解列と、に基づいて、入力音響モデルに
おける状態に正解列を割り当てた状態列の情報である学
習用辞書を生成する辞書生成処理と、辞書生成処理によ
り生成された学習用辞書を参照し、学習用音声の特徴量
と入力音響モデルにおける状態との対応確率を学習用音
声のフレームごとに算出する対応確率算出処理と、所定
の文字列を用いて、入力音響モデルにより表現される状
態あるいは複数の状態からなる状態列を、学習用音声の
フレームごとに最尤に割り当て、所定の最尤状態列を生
成する最尤状態列生成処理と、最尤状態列生成処理によ
り生成された所定の最尤状態列に基づいて、対応確率に
重み付けする際に付加する係数である重み係数を、学習
用音声のフレームごとに算出する重み計算処理と、対応
確率算出処理により算出された対応確率と、重み計算処
理により算出された重み係数と、音声分析処理により算
出された特徴量と、に基づいて統計量を算出し、算出し
た統計量に基づいて、入力音響モデルのパラメータを再
推定し、出力音響モデルを作成する再評価処理と、を行
う。上記の処理は、音響モデル学習装置が有するコンピ
ュータプログラムにより実行されるが、上記のプログラ
ムは、光ディスクあるいは磁気ディスク等の記録媒体に
記録され、上記の記録媒体からロードされるようにして
もよい。

【０１２６】なお、上記の実施形態は本発明の好適な実
施の一例であり、本発明の実施形態は、これに限定され
るものではなく、本発明の要旨を逸脱しない範囲におい
て種々変形して実施することが可能となる。

【０１２７】

【発明の効果】以上説明したように、本発明は、学習用
音声のフレームごとに重み係数を算出し、上記の重み係
数による重み付けを出力音響モデルに反映させることに
よって、観測された音声サンプルのうち音響モデルの作
成に有用なものだけを抽出し、信頼性の高い音響モデル
を作成することが可能となる。

【０１２８】また、本発明は、品質の高い所定の言語単
位（音素、音節、あるいは単語等）の音声サンプルの重
み付け係数を「１」とし、品質の低い音声サンプルの重
み付け係数を「０」とすることによって、品質の低い音
声サンプルが出力音響モデルに反映しないようにするこ
とが可能となる。

【０１２９】また、本発明は、品質の高い所定の言語単
位の音声サンプルの重み付け係数を「１」とし、品質の
低い音声サンプルの重み付け係数を「１より大きな任意
の値」とすることによって、品質の低い音声サンプルに
対する音声認識の精度が高い出力音響モデルを作成する
ことが可能となる。

【０１３０】また、本発明は、同一の音声サンプル（音
素、音節、あるいは単語）が割り当てられた状態ごとの
重み係数の和を一定とすることによって、各音声サンプ
ル（音素、音節、あるいは単語単位）のサンプル量およ
び出力音響モデルに与える影響を均一化し、信頼性の高
い出力音響モデルを作成することが可能となる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態における音響モデル学
習装置の構成を示す図である。

【図２】本発明の第１の実施形態における入力音響モデ
ルが表現可能な音素セットを示す図である。

【図３】本発明の第１の実施形態における音響モデル学
習装置が作成する学習用辞書を示す図である。

【図４】本発明の第１の実施形態における重み係数Ｒ_t
を示す図である。

【図５】本発明の第２の実施形態における重み係数Ｒ_t
を示す図である。

【図６】本発明の第３の実施形態における重み係数Ｒ_t
を示す図である。

【図７】本発明の第４の実施形態における重み係数Ｒ_t
を示す図である。

【図８】本発明の第５の実施形態における重み係数Ｒ_t
を示す図である。

【図９】本発明の第１の実施形態における音響モデル学
習装置の動作の流れを示すフローチャートである。

【図１０】本発明の第５の実施形態における音響モデル
学習装置の動作の流れを示すフローチャートである。

【符号の説明】

１０１音声分析部１０２辞書部１０３フォワード・バックワード計算部１０４再評価部１０５ビタビ計算部１０６重み計算部

Claims

【特許請求の範囲】

【請求項１】入力される学習用音声からフレームごと
に特徴量を抽出する音声分析手段と、所定の音声からフレームごとに抽出された特徴量を示す
確率分布を用いて、前記所定の音声のフレームごとに分
割された前記所定の音声の断片を状態として表現し、該
状態を構成単位とする入力音響モデルと、前記学習用音
声の内容を示す文字列情報である正解列と、に基づい
て、前記入力音響モデルにおける前記状態に前記正解列
を割り当てた状態列の情報である学習用辞書を生成する
辞書生成手段と、該辞書生成手段により生成された学習用辞書を参照し、
前記学習用音声の特徴量と前記入力音響モデルにおける
状態との対応確率を前記学習用音声のフレームごとに算
出する対応確率算出手段と、所定の文字列を用いて、前記入力音響モデルにより表現
される前記状態あるいは複数の前記状態からなる状態列
を、前記学習用音声のフレームごとに最尤に割り当て、
所定の最尤状態列を生成する最尤状態列生成手段と、該最尤状態列生成手段により生成された所定の最尤状態
列に基づいて、前記対応確率に重み付けする際に付加す
る係数である重み係数を、前記学習用音声のフレームご
とに算出する重み計算手段と、前記対応確率算出手段により算出された対応確率と、前
記重み計算手段により算出された重み係数と、前記音声
分析手段により算出された特徴量と、に基づいて統計量
を算出し、該算出した統計量に基づいて、前記入力音響
モデルのパラメータを再推定し、出力音響モデルを作成
する再評価手段と、を有することを特徴とする音響モデル学習装置。
【請求項２】前記再評価手段は、前記学習用音声のフレームごとの前記対応確率に、前記
重み係数を乗算し、前記学習用音声のフレームごとの対
応確率に重み付けを行い、該重み付けされた対応確率を
用いて前記統計量を算出し、該算出した統計量に基づい
て、前記入力音響モデルのパラメータを再推定し、前記
出力音響モデルを作成することを特徴とする請求項１記
載の音響モデル学習装置。
【請求項３】前記重み計算手段は、前記最尤状態列生
成手段により、前記学習用辞書を用いて生成された最尤
状態列を第１の最尤状態列とし、任意の文字列を用いて
生成された最尤状態列を第２の最尤状態列とした場合、前記学習用音声のフレームごとに、前記第１の最尤状態
列と前記第２の最尤状態列とを比較し、該比較に基づい
て、前記学習用音声のフレームごとに前記重み係数を算
出することを特徴とする請求項１または２記載の音響モ
デル学習装置。
【請求項４】前記重み計算手段は、前記学習用音声のフレームごとに、前記第１の最尤状態
列と前記第２の最尤状態列とを比較し、前記割り当てら
れた状態あるいは複数の状態からなる状態列が一致した
フレームでは前記重み係数を１とし、互いに異なるフレ
ームでは前記重み係数を１より小さな値として算出する
ことを特徴とする請求項３記載の音響モデル学習装置。
【請求項５】前記重み計算手段は、前記学習用音声のフレームごとに、前記第１の最尤状態
列と前記第２の最尤状態列とを比較し、前記割り当てら
れた状態あるいは複数の状態からなる状態列が一致した
フレームでは前記重み係数を１とし、互いに異なるフレ
ームでは前記重み係数を１より大きな値として算出する
ことを特徴とする請求項３記載の音響モデル学習装置。
【請求項６】前記重み計算手段は、前記割り当てられた状態ごとに、算出した前記重み係数
の和をそれぞれ算出し、該算出した重み係数の和が、そ
れぞれ等しい値となるように前記算出した重み係数を設
定することを特徴とする請求項１から５のいずれか１項
に記載の音響モデル学習装置。
【請求項７】入力される学習用音声からフレームごと
に特徴量を抽出する音声分析工程と、所定の音声からフレームごとに抽出された特徴量を示す
確率分布を用いて、前記所定の音声におけるフレームご
とに分割された前記所定の音声の断片を状態として表現
し、該状態を構成単位とする入力音響モデルと、前記学
習用音声の内容を示す文字列情報である正解列と、に基
づいて、前記入力音響モデルにおける前記状態に前記正
解列を割り当てた状態列の情報である学習用辞書を生成
する辞書生成工程と、該辞書生成工程により生成された学習用辞書を参照し、
前記学習用音声の特徴量と前記入力音響モデルにおける
状態との対応確率を前記学習用音声のフレームごとに算
出する対応確率算出工程と、所定の文字列を用いて、前記入力音響モデルにより表現
される前記状態あるいは複数の前記状態からなる状態列
を、前記学習用音声のフレームごとに最尤に割り当て、
所定の最尤状態列を生成する最尤状態列生成工程と、該最尤状態列生成工程により生成された所定の最尤状態
列に基づいて、前記対応確率に重み付けする際に付加す
る係数である重み係数を、前記学習用音声のフレームご
とに算出する重み計算工程と、前記対応確率算出工程により算出された対応確率と、前
記重み計算工程により算出された重み係数と、前記音声
分析工程により算出された特徴量と、に基づいて統計量
を算出し、該算出した統計量に基づいて、前記入力音響
モデルのパラメータを再推定し、出力音響モデルを作成
する再評価工程と、を有することを特徴とする音響モデル学習方法。
【請求項８】前記再評価工程は、前記学習用音声のフレームごとの前記対応確率に、前記
重み係数を乗算し、前記学習用音声のフレームごとの対
応確率に重み付けを行い、該重み付けされた対応確率を
用いて前記統計量を算出し、該算出した統計量に基づい
て、前記入力音響モデルのパラメータを再推定し、前記
出力音響モデルを作成することを特徴とする請求項７記
載の音響モデル学習方法。
【請求項９】前記重み計算工程は、前記最尤状態列生成工程により、前記学習用辞書を用い
て生成された最尤状態列を第１の最尤状態列とし、任意
の文字列を用いて生成された最尤状態列を第２の最尤状
態列とした場合、前記学習用音声のフレームごとに、前記第１の最尤状態
列と前記第２の最尤状態列とを比較し、該比較に基づい
て、前記学習用音声のフレームごとに前記重み係数を算
出することを特徴とする請求項７または８記載の音響モ
デル学習方法。
【請求項１０】前記重み計算工程は、前記学習用音声のフレームごとに、前記第１の最尤状態
列と前記第２の最尤状態列とを比較し、前記割り当てら
れた状態あるいは複数の状態からなる状態列が一致した
フレームでは前記重み係数を１とし、互いに異なるフレ
ームでは前記重み係数を１より小さな値として算出する
ことを特徴とする請求項９記載の音響モデル学習方法。
【請求項１１】前記重み計算工程は、前記学習用音声のフレームごとに、前記第１の最尤状態
列と前記第２の最尤状態列とを比較し、前記割り当てら
れた状態あるいは複数の状態からなる状態列が一致した
フレームでは前記重み係数を１とし、互いに異なるフレ
ームでは前記重み係数を１より大きな値として算出する
ことを特徴とする請求項９記載の音響モデル学習方法。
【請求項１２】前記重み計算工程は、前記割り当てられた状態ごとに、算出した前記重み係数
の和をそれぞれ算出し、該算出した重み係数の和が、そ
れぞれ等しい値となるように前記算出した重み係数を設
定することを特徴とする請求項７から１１のいずれか１
項に記載の音響モデル学習方法。
【請求項１３】入力される学習用音声からフレームご
とに特徴量を抽出する音声分析処理と、所定の音声からフレームごとに抽出された特徴量を示す
確率分布を用いて、前記所定の音声におけるフレームご
とに分割された前記所定の音声の断片を状態として表現
し、該状態を構成単位とする入力音響モデルと、前記学
習用音声の内容を示す文字列情報である正解列と、に基
づいて、前記入力音響モデルにおける前記状態に前記正
解列を割り当てた状態列の情報である学習用辞書を生成
する辞書生成処理と、該辞書生成処理により生成された学習用辞書を参照し、
前記学習用音声の特徴量と前記入力音響モデルにおける
状態との対応確率を前記学習用音声のフレームごとに算
出する対応確率算出処理と、所定の文字列を用いて、前記入力音響モデルにより表現
される前記状態あるいは複数の前記状態からなる状態列
を、前記学習用音声のフレームごとに最尤に割り当て、
所定の最尤状態列を生成する最尤状態列生成処理と、該最尤状態列生成処理により生成された所定の最尤状態
列に基づいて、前記対応確率に重み付けする際に付加す
る係数である重み係数を、前記学習用音声のフレームご
とに算出する重み計算処理と、前記対応確率算出処理により算出された対応確率と、前
記重み計算処理により算出された重み係数と、前記音声
分析処理により算出された特徴量と、に基づいて統計量
を算出し、該算出した統計量に基づいて、前記入力音響
モデルのパラメータを再推定し、出力音響モデルを作成
する再評価処理と、を実行させるためのプログラム。
【請求項１４】前記再評価処理は、前記学習用音声のフレームごとの前記対応確率に、前記
重み係数を乗算し、前記学習用音声のフレームごとの対
応確率に重み付けを行い、該重み付けされた対応確率を
用いて前記統計量を算出し、該算出した統計量に基づい
て、前記入力音響モデルのパラメータを再推定し、前記
出力音響モデルを作成することを特徴とする請求項１３
記載のプログラム。
【請求項１５】前記重み計算処理は、前記最尤状態列生成処理により、前記学習用辞書を用い
て生成された最尤状態列を第１の最尤状態列とし、任意
の文字列を用いて生成された最尤状態列を第２の最尤状
態列とした場合、前記学習用音声のフレームごとに、前記第１の最尤状態
列と前記第２の最尤状態列とを比較し、該比較に基づい
て、前記学習用音声のフレームごとに前記重み係数を算
出することを特徴とする請求項１３または１４記載のプ
ログラム。
【請求項１６】前記重み計算処理は、前記学習用音声のフレームごとに、前記第１の最尤状態
列と前記第２の最尤状態列とを比較し、前記割り当てら
れた状態あるいは複数の状態からなる状態列が一致した
フレームでは前記重み係数を１とし、互いに異なるフレ
ームでは前記重み係数を１より小さな値として算出する
ことを特徴とする請求項１５記載のプログラム。
【請求項１７】前記重み計算処理は、前記学習用音声のフレームごとに、前記第１の最尤状態
列と前記第２の最尤状態列とを比較し、前記割り当てら
れた状態あるいは複数の状態からなる状態列が一致した
フレームでは前記重み係数を１とし、互いに異なるフレ
ームでは前記重み係数を１より大きな値として算出する
ことを特徴とする請求項１５記載の音響モデル学習装
置。
【請求項１８】前記重み計算処理は、前記割り当てられた状態ごとに、算出した前記重み係数
の和をそれぞれ算出し、該算出した重み係数の和が、そ
れぞれ等しい値となるように前記算出した重み係数を設
定することを特徴とする請求項１３から１７のいずれか
１項に記載の音響モデル学習装置。