JP4909318B2

JP4909318B2 - 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体

Info

Publication number: JP4909318B2
Application number: JP2008156458A
Authority: JP
Inventors: 哲小橋川; 浩和政瀧; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-06-16
Filing date: 2008-06-16
Publication date: 2012-04-04
Anticipated expiration: 2028-06-16
Also published as: JP2009300830A

Description

この発明は、例えば、音声認識処理で用いられる音響モデルを作成する音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体に関する。

従来の音響モデルの作成技術では、両側環境依存音素（ｔｒｉｐｈｏｎｅ）と同時に、片側環境依存音素（ｂｉｏｐｈｏｎｅ）、環境独立音素（ｍｏｎｏｐｈｏｎｅ）についても学習を行っていた。

図１に従来の音響モデル作成装置１００の機能構成例を示す（詳細は特許文献１に記載）。音響モデル作成装置１００は、音響モデル学習部１２、音声データベース記憶部１４、音響分析部１５、音声ラベルデータベース記憶部１６、音声ラベルデータ変換部１７とにより構成される。音声データベース記憶部１４には、音響モデルの学習に用いる音声データが格納されている。音声ラベルデータベース記憶部１６には音声データに対応するラベルデータが格納されている。ラベルデータとは、例えば、音声データの発声内容をカナ、ローマ字、音素などで記述したものである。音響分析部１５は、音声データベース記憶部１４に記憶されている音声データを音響モデルの学習に用いる音響特徴量（スペクトラム、ＬＰＣケプストラムなど）へと変換する。音声ラベルデータ変換部１７は、音声ラベルデータベースよりのラベルデータを１種類あるいは複数の詳細度のラベルへと変換する。音響モデル学習部１２は、音響分析部１５よりの音響特徴量と、音声ラベルデータ変換部１７よりのラベルデータから初期音響モデル１１に対する更新情報を計算し、当該更新情報を反映した目的音響モデル１３を出力する。繰り返し学習を行う場合には、出力された目的音響モデル１３を初期音響モデル１１に書き換えて同じ処理を繰り返す。
特開２００４−１１７４７６号公報

上述の音響モデル作成装置１００であると、片側環境依存音素、環境独立音素についても、学習する必要があり、学習時の処理時間が大きいという問題があった。また、入力される初期音響モデル１１が、両側環境依存音素のみしか持たない場合や、環境依存音素のみが学習されている場合には、著しく精度が下がるという問題があった。

この発明の音響モデル作成方法は、入力された第１音響モデルを用いて、当該第１音響モデルより詳細度が低い第２音響モデルを生成して、第１音響モデルと第２音響モデルとをまとめて目的音響モデルとして出力する音響モデル生成方法である。第２音響モデルが有する第２音素モデルについての第２音素を決定する。第１音響モデルから、第２音素と同一の音素環境に属する第１音素についての第１音素モデルを取得する。第２音素モデルの各状態毎に、前記第１音素モデルの当該状態と同一の状態の全ての遷移確率の合計値を、当該第１音素モデルの数で除算することで、第２音素モデルの遷移確率（以下、「第２音素モデル遷移確率」という。）を求める。第２音素モデルの各状態毎に、前記第１音素モデルの当該状態と同一の状態の全ての混合分布を統合することで、第２音素モデルの混合分布（以下、「第２音素モデル混合分布」という。）を生成する統合過程と、
前記第２音素モデル遷移確率と前記第２音素モデル混合分布とから求まる第２音響モデルと前記第１音響モデルとをまとめて前記目的音響モデルとして出力する。

この発明によれば、詳細度が高い入力された第１音響モデル（例えば、両側環境依存音素についての音素モデルのみを有する音響モデル）から詳細度が低い第２音響モデル（例えば、片側環境依存音素、環境独立音素のうち少なくとも一方についての音素モデルを有する音響モデル）を生成し、第１音響モデルおよび生成された第２音響モデルをまとめて出力する。従って、両側環境依存音素および片側環境依存音素についての学習時間を削減できる。また、初期音響モデル１１が、両側環境依存音素についての音素モデルのみを持つ音響モデルである場合でも、短時間で片側環境依存音素、環境独立音素についての音素モデルを有する音響モデルを生成できる。

以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。

図２に実施例１の音響モデル作成装置２００の機能構成例を示し、図３に処理フローを示し、図４に音響モデルの概念図を示す。まず音モデルについて簡単に説明する。図４Aに示すように、一般的に、音響モデルは複数の音素モデルを有する。図４Ｂは、（＊−ａ＋＊）についての音素モデルの概念図の例を示し、図４Ｃには、各音素モデルの各状態（図４Ｃの例では第２状態）の概念図の例を示す。ただし「＊」は任意の音素を示す。現在、一般的に用いられている音素モデルは図４Ｂ記載のように３状態のｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型ＨＭＭと呼ばれるもので、３つの状態Ｓ１（第１状態）、Ｓ２（第２状態）、Ｓ３（第３状態）、を左から右に並べたものであり、状態の確率連鎖（状態遷移）としては、自分自身の遷移（自己遷移）Ｓ１→Ｓ１、Ｓ２→Ｓ２、Ｓ３→Ｓ３と、次の状態への遷移Ｓ１→Ｓ２、Ｓ２→Ｓ３、Ｓ３→Ｓｘがある。Ｓｘは違う音素モデルの状態を示す。Ｓ１→Ｓ１、Ｓ２→Ｓ２、Ｓ３→Ｓ３についての自己遷移確率をＡ１１、Ａ２２、Ａ３３、とし、Ｓ１→Ｓ２、Ｓ２→Ｓ３、Ｓ３→Ｓｘについての状態間遷移確率をＡ１２、Ａ２３、Ａ３ｘとする。また、自己遷移確率＋状態間遷移確率＝１が成り立つ。ここでは、Ａ１１＋Ａ１２＝１、Ａ２２＋Ａ２３＝１、Ａ３３＋Ａ３ｘ＝１、となる。

各状態Ｓ１〜Ｓ３は混合確率分布Ｍとして表現される。図４Ｃに第２状態Ｓ２の混合正規分布Ｍを示す。現在よく用いられているのは、多次元正規分布（ガウス分布）であり、そのうちでも次元間の相関がない（共分散行列の対角行列が０である）多次元無相関正規分布が最も用いられる。図４Ｃには、混合数３の場合を示す。そして、それぞれの基底正規分布Ｘ（ｉ）（ｉ＝０、１、２）は、パラメータとして分散σ（ｉ）、平均μ（ｉ）、混合重みｃ（ｉ）を有する。ここで、分散σ（ｉ）、平均μ（ｉ）は、ベクトルである。以下では、音素モデルが図４に示すものであるとして説明するが、音素モデルがこれに示すものに限られるものではない。

図２に示すように音響モデル作成装置２００は、入力部２０２、決定部２０４、取得部２０５、遷移確率計算部２０６、混合分布生成部２０８、出力部２１０、記憶部２１２とを有する。また、本実施例１の音響モデル作成装置２００は、入力された第１音響モデル３００を用いて、第２音響モデル４００を生成し、第１音響モデル３００と第２音響モデル４００とをまとめて、生成目的である目的音響モデル５００を生成、出力する。ここで、第１音響モデル３００とは、詳細度が高い音響モデル（以下、「高詳細度音響モデル」という。）とし、詳細度が高い音素モデル（以下、「高詳細度音素モデル」という。」で構成されている。そして、高詳細度音素モデルを両側環境依存音素（例えばｔｒｉｐｈｏｎｅであり、以下、「高詳細度音素」という。）についての音素モデルとする。第２音響モデル４００は、第１音響モデル３００より詳細度が低い音響モデルであり、第２音素モデルで構成されている。以下の説明では第２音響モデルは「詳細度が低である音素モデルを低詳細度音響モデル」および「詳細度が中である音素モデルを中詳細度音響モデル」まとめられたものとする。そして低詳細度音響モデル、中詳細度音響モデルを構成する音素モデルをそれぞれ低詳細度音素モデル、中詳細度音素モデルとする。低詳細度音素モデル、中詳細度音素モデルはそれぞれ、環境独立音素（例えば、ｍｏｎｏｐｈｏｎｅであり、以下、「低詳細度音素」という。）および片側環境依存音素（ｂｉｏｐｈｏｎｅ、以下、「中詳細度音素」という。）についての音素モデルである。また、低詳細度音素モデルは、片側環境依存音素または環境独立音素のうち、少なくとも一方でよい。第１音響モデル３００は事前に公知の音響モデル作成手法により生成されているものとする。念のため、以下に用語の対応関係を示す。

第１音響モデル→高詳細度音響モデル
第１音素モデル→高詳細度音素モデル
第１音素 →高詳細度音素
第２音響モデル→中詳細度音響モデル、低詳細度音響モデル
第２音素モデル→中詳細度音素モデル、低詳細度音素モデル
第２音素 →中詳細度音素、低詳細度音素

入力部２０２から第１音響モデル３００が入力されると、第１音響モデル３００は取得部２０５、出力部２１０に入力される。決定部２０４は、生成対象である第２音響モデル４００を構成する低詳細度音素モデル、中詳細度音素モデルについての音素を決定する。以下の説明では、環境独立音素については、周囲の環境（音素）を「＊」とし、例えば「＊−ａ＋＊」と示す。また、片側環境依存音素のうち、左側依存音素については「ｋ−ａ＋＊」と示し、右側依存音素については例えば「＊−ａ＋ｉ」と示す。音素の種類は「ａ」や「ｉ」など約３０あり、決定部２０４はこれら全てを第２音素として決定してもよく、あまり使用しない音素については第２音素として決定しなくても良い。

次に、決定部２０４は、生成対象の第２音素モデルを保存するメモリを確保する。この確保処理は、決定部２０４とは別個のモデル準備部（図示せず）が行っても良い。

次に、取得部２０５は高詳細度音響モデル（第１音響モデル）３００から、決定部２０４により決定された低詳細度音素や中詳細度音素（第２音素）と同一の音素環境に属する高詳細度音素（第１音素）についての高詳細度音素モデル（第１音素モデル）に取得する。まず、取得部２０５は、決定された低詳細度音素や中詳細度音素と同一の音素環境に属する高詳細度音素を決める。

ここで、「同一の音素環境に属する高詳細度音素」について説明する。例えば、低詳細度音素「＊−ａ＋＊」と同一の音素環境に属する高詳細度音素とは、「ａ」を中心音素とする高詳細度音素（ａ−ａ＋ａ、ｉ−ａ＋ａ、ａ−ａ＋ｉ、ｋ−ａ＋ｉ・・・）などであり、これらの高詳細度音素を決定する。その他、低詳細度音素「＊−ｉ＋＊」については、高詳細度音素（ａ−ｉ＋ａ、ｉ−ｉ＋ａ、ａ−ｉ＋ｉ、ｋ−ｉ＋ｉ・・・）を決定する。このように、これらの決定処理を決定部２０４で決定された全ての音素ω_１について高詳細度音素（＊−ω_１＋＊）を決定する。

また中詳細度音素「ｋ−ａ＋＊」と同一の音素環境に属する高詳細度音素とは「ｋ」を左側音素、「ａ」を中心音素とする高詳細度音素（ｋ−ａ＋ａ、ｋ−ａ＋ｉ、ｋ−ｕ＋ｉ、・・・）などであり、当該高詳細度音素を決定する。このように、決定部で決定された全ての音素ω_１、ω_２について高詳細度音素（ω_１−ω_２＋＊）を決定する。

そして、取得部２０５は、高詳細度音響モデル３００から、決定された高詳細度音素についての音素モデルを取得する。取得部２０５の「高詳細度音素の決定処理」と「第１音素モデルの取得処理」は別個に行ってもよく、例えば、それぞれの処理を「決定処理部」「取得処理部」（両者とも図示せず）にさせても良い。

次に、遷移確率計算部２０６は、第２音素モデル（低詳細度音素モデルや中詳細度音素モデル）の各状態毎に、高詳細度音素モデルの当該状態と同一の状態の全ての遷移確率の合計値を、当該高詳細度音素モデルの数で除算することで、低詳細度音素モデルや中詳細度音素モデルの遷移確率を求める。図５に遷移確率計算部２０６の演算の概念図を示す。ここで、遷移確率とは、自己遷移確率と状態間遷移確率の両方を示す。上述のように、自己遷移確率＋状態間遷移確率＝１となるので、各状態ごとに、自己遷移確率もしくは状態間遷移確率のうち何れか一方を求めると、もう一方も求めることが出来る。以下の説明では、低詳細度音素モデルや中詳細度音素モデルの各状態の状態間遷移確率を求める場合を説明する。上述のように低詳細度音素モデルの各状態についての自己遷移確率を求めるには、高詳細度音素モデルの同一状態についての自己遷移確率の総和を演算し、音素モデルの数で除算する、つまり平均値を求める。具体的には以下の式（１）で表すことが出来る。

ここで、取得部２０５で取得された高詳細度音素モデルを（ｘ−ｚ＋ｙ）と表し、ｘ、ｙ、ｚは音素を示し、取得部２０５で取得された音素モデルの個数を♯（ｘ−ｚ＋ｙ）とする。第２音素モデルＸの状態Ｙの遷移確率をＰ（Ｘ、Ｙ）とし、第１音素モデル（ここでは、両側環境依存音素（ｔｒｉｐｈｏｎｅ））の状態Ｙの状態間遷移確率をＰ（Ｔ、Ｙ）と表す。状態Ｙについては、例えば、状態１から状態１へ遷移する自己遷移確率については「１→１」が引き数となり、状態１から状態２へ遷移する状態間遷移確率については「１→２」が引き数となる。式（１）の右辺の分子は、♯｛ｘ−ｚ＋ｙ｝個分の遷移確率Ｐ（Ｔ、Ｙ）の総和を示し、つまり、右辺は遷移確率Ｐ（Ｔ、Ｙ）の平均を示す。

音素ｚを音素ａとし、つまり「＊−ａ＋＊」の低詳細度音素モデルの第１状態Ｓ１の自己遷移確率Ａ１１の演算手法を例にとって説明する。取得部２０５で取得した第１音素モデルは、上述のように中心音素が「ａ」である全ての音素モデル（ａ−ａ＋ａ、ａ−ａ＋ｉ、ａ−ａ＋ｕ、・・・、ｋ−ａ＋ａ、ｋ−ａ＋ｉ、ｋ−ａ＋ｕ、・・・、ｉ−ａ＋ｅ・・・についての音素モデルであり、図５の左端の記載に相当）を用いる。上記式（１）を元に以下の式（２）により求めることが出来る。

同様に、第２状態Ｓ２、第３状態Ｓ３の自己遷移確率を求める。

図６に、中詳細度音素モデルの自己遷移確率についての遷移確率計算部２０６の演算の概念図を示す。中詳細度音素モデルの各状態についても上記式（１）を元にした以下の式（３）を用いて求めることが出来る。式（３）は、左側音素が「ｋ」中心音素が「ａ」の全ての中詳細度音素モデル（ｋ−ａ＋ａ、ｋ−ａ＋ｉ・・・についての音素モデル、図６では左端の四角で囲っている箇所）の状態１についての自己遷移確率Ａ１１を求める式である。

同様に、状態２、状態３の自己遷移確率を求める。

このように、低詳細度音素モデルの各状態Ｓ１〜Ｓ３についての遷移確率、中詳細度音素モデルの各状態Ｓ１〜Ｓ３についての遷移確率、についてそれぞれ求める。求められた遷移確率は記憶部２１２に記憶される。

次に、混合分布生成部２０８は、第２音素モデルの各状態毎に、高詳細度音素モデルの当該状態と同一の状態の全ての混合分布を統合することで、低詳細度音素モデル、中詳細度音素モデルの各状態毎の混合分布を生成する。図５に示すように、例えば、低詳細度音素モデルの第１状態Ｓ１の混合分布を求めるには、高詳細度音素モデルの第１状態Ｓ１と同一の状態の♯（＊−ａ＋＊）個全ての混合分布を統合することで求めることができる。また、低詳細度音素モデルの第２状態Ｓ２については、高詳細度音素モデルの第２状態Ｓ２の全ての混合分布を統合することで求められ、低詳細度音素モデルの第３状態Ｓ３については、高詳細度音素モデルの第３状態Ｓ３の全ての混合分布を統合することで求められる。

また、同様に、図６に示すように中詳細度音素モデルの各状態Ｓ１〜Ｓ３はそれぞれ、高詳細度音素モデルの♯（ｋ−ａ＋＊）個全ての各状態Ｓ１〜Ｓ３それぞれの混合分布を統合することで求められる。音素モデルＸの状態Ｙについての混合分布Ｆ_Ｘ、Ｙ（Ｎ（μ、Ｕ）、ｃ）を求める式は以下のようになる。

Ｆ_Ｘ、Ｙ（Ｎ（μ、Ｕ）、ｃ）＝ｆ（高詳細度音素モデルの状態Ｙの全ての混合分布）（４）
ただし、ｆ（）は混合分布の統合を行う関数であり、μは平均ベクトル、Ｕは分散ベクトル、ｃは重みベクトルを示す。以下に一例として、「＊−ａ＋＊」の低詳細度モデルについての第１状態Ｓ１の混合分布を求める式を示す。この場合は、
Ｆ_{＊−ａ＋＊、１}（Ｎ（μ、Ｕ）、ｃ）＝
ｆ（Ｆ_{ａ−ａ＋ａ、１}（Ｎ（μ、Ｕ）、ｃ）、Ｆ_{ａ−ａ＋ｉ、１}（Ｎ（μ、Ｕ）、ｃ）、
ｆ（Ｆ_{ａ−ａ＋ｕ、１}（Ｎ（μ、Ｕ）、ｃ）、．．．、ｆ（Ｆ_{ａ−ａ＋ｎ、１}（Ｎ（μ、Ｕ）、ｃ）、．．．）
ここで、Ｎ（）は正規分布を示す。

混合分布の統合方法に関しては、基底分布の分布間距離の近いものから統合させればよい。そして分布間距離に関しては、バタチャリア距離やＫＬダイバージェンスなどを用いれば良い。混合分布の統合方法については、「特開２００６−８４７８９号」や「小川厚徳、高橋敏、音響モデルの分布数削減のための混合重み係数を考慮した分布間距離尺度、電子情報通信学会誌、ｖｏｌ．Ｊ９０−Ｄ、ｐ２９４０−ｐ２９４４（以下、「非特許文献１」という。）」に記載されている。

そして、求められた混合分布は記憶部２１２に記憶される。そして、決定部２０４で決定された低詳細度音素、中詳細度音素について全ての低詳細度音素モデルや中詳細度音素モデルの遷移確率および混合分布が求まると、出力部２１０は、低詳細度音響モデルや中詳細度音響モデルを求める。そして、高詳細度音響モデル、中詳細度音響モデル、低詳細度音響モデルをまとめて、目的音響モデル５００として出力する。

このように、音響モデル作成装置２００を用いれば、高詳細度音響モデルのみの学習により、中詳細度音響モデル、低詳細度音響モデルを求めることが出来、中詳細度音響モデル、低詳細度音響モデルの学習コストを減らしつつ、高詳細度音響、中詳細度音響モデル、低詳細度音響モデルをまとめた音響モデルを作成できる。また、高詳細度音響モデルしか学習できない状況であっても、中詳細度音響モデル、低詳細度音響モデルを求めることができ、結果として、高詳細度音響、中詳細度音響モデル、低詳細度音響モデルをまとめた音響モデルを作成できる。

実施例１の混合分布生成部２０８による正規分布の統合処理は、一度全ての混合分布を集めてそれら混合分布間の分布間距離を用いるので、膨大な計算コストと混合分布の保存コストが必要である。そこで、この実施例２では、２つ以上の混合分布を１つの混合分布に統合する処理を繰り返すことにより、混合分布統合の計算コスト、混合分布の保存コストを下げて、実施例１と同様な統合処理の効果を得ることができる。

図７に実施例２の混合分布の統合処理の概念図を示し、図８に当該統合処理の処理フローを示す。混合分布には、混合分布を識別するための混合分布番号が任意に付されているものとする。統合すべき混合分布はＩ個存在するものとし、Ｉ個の混合分布をA（ｉ）（ｉ＝０〜Ｉ−１、ｉを混合分布番号という）とする。また統合される際の混合分布A（ｉ）の重み係数をｗ（ｉ）とし、統合元の重み係数をｗとする。そして、図７に示すように、混合分布A（０）についての音素モデルを音素「ｋ−ａ＋ｕ」の音素モデルとし、混合分布A（１）についての音素モデルを音素「ｋ−ａ＋ｅ」の音素モデルとする。また図７の記載では、それぞれの正規分布A（ｉ）の第１状態のみを示す。

まず、初期化処理としてｉ＝０、ｗ＝ｗ（０）とする（ステップＳ２０２）。ｗ＝ｗ（０）の処理は、混合分布Ａ（０）を統合元の混合分布とする。そして、統合元の混合分布A（０）と統合対象の混合分布A（１）とをそれぞれ統合する。当該統合処理の際の混合分布A（０）、統合対象の混合分布A（１）の重み係数をそれぞれ、ｗ（０）、ｗ（１）とする。次に統合処理について詳細に説明する。ここでは、図４Ｃに示すように、それぞれの混合分布は３つの基底正規分布からなるものとする。混合分布A（０）（音素（ｋ−ａ＋ｅ）についての音素モデル）のそれぞれの分布重みを
ｃ１（ｋ−ａ＋ｕ［１］）（以下、ｃ１と示す。）
ｃ２（ｋ−ａ＋ｕ［１］）（以下、ｃ２と示す。）
ｃ３（ｋ−ａ＋ｕ［１］）（以下、ｃ３と示す。）とする。
［１］は混合分布の状態１であることを示す。

一方、混合分布A（１）（音素（ｋ−ａ＋ｕ）についての音素モデル）のそれぞれの分布重みを
ｃ１（ｋ−ａ＋ｅ［１］）（以下、ｃ４と示す。）
ｃ２（ｋ−ａ＋ｅ［１］）（以下、ｃ５と示す。）
ｃ３（ｋ−ａ＋ｅ［１］）（以下、ｃ６と示す。）とする。

そうすると、重み係数ｗ（０）、ｗ（１）を用いて、ｃ１〜ｃ６は以下のように演算されることでｃ１’〜ｃ６’が求められる。
ｃ１’＝ｃ１・ｗ（０）／｛ｗ（０）＋ｗ（１）｝
ｃ２’＝ｃ２・ｗ（０）／｛ｗ（０）＋ｗ（１）｝
ｃ３’＝ｃ３・ｗ（０）／｛ｗ（０）＋ｗ（１）｝
ｃ４’＝ｃ４・ｗ（１）／｛ｗ（０）＋ｗ（１）｝
ｃ５’＝ｃ５・ｗ（１）／｛ｗ（０）＋ｗ（１）｝
ｃ６’＝ｃ６・ｗ（１）／｛ｗ（０）＋ｗ（１）｝

ただし、演算子「・」は乗算を示し、「／」は除算を示す。図７のαに示すように、分布重みｃ１’からｃ６’として６状態の混合分布が生成される。そして、この６状態の混合分布において、分布を削減することで、３状態の混合分布を生成する（ステップＳ２０４）。この分布削減処理については、上記非特許文献１のｐ２９４２に記載されている。この生成された混合分布が統合元の混合分布Aとなる（ステップＳ２０４）。そして、当該混合分布Aの統合重み係数ｗをｗ＋ｗ（１）により更新する（ステップＳ２０６）。当該更新処理他の例として、統合重み係数ｗをｗ・ｗ（１）などでもよい。統合重み係数ｗの当該更新処理の趣旨は、新しく生成された統合元混合分布Aと、統合対象の混合分布A（２）〜A（Ｉ−１）とを比較して、新しく生成された統合元混合分布Aに対して大きな重みをつけるという趣旨である。

次に、正規分布番号ｉを「１」インクリメントする（ステップＳ２１０）。そして、上記と同様の統合処理を用いて、統合元混合分布Aと正規分布A（２）を統合して、新たな統合元混合分布Aを生成する（ステップS２０４）。そして生成された統合元混合分布Aの重み係数ｗをｗ＋ｗ（２）により更新する（ステップS２０６）。このようにして、残りの正規分布A（３）〜A（Ｉ−１）についても、統合処理（ステップＳ２０４）、重み係数更新処理（ｗをｗ＋ｗ（ｉ）に更新、ステップＳ２０６）を行う（ステップＳ２０８）。つまり、同じ音素環境を持つ高詳細度音素モデルの同じ位置状態にある状態の正規分布について全て統合したか否かを検討する。そして、これらの処理をそのほかの状態である第２状態Ｓ２、第３状態Ｓ３についても行う。また、上記の説明、図８の説明では、統合対象混合分布を１つずつ統合した例を説明したが、一度に２以上の混合分布を統合しても良い。

この実施例２のような統合手法を用いることで、全ての統合対象の正規分布を集めずに正規分布を統合できる。従って、実施例１の音響作成装置と比較して、正規分布の記憶コスト、計算コストを削減できる。

この実施例３では、統合元混合分布の重み係数ｗ（＝ｗ（０））と統合対象混合分布の重み係数ｗ（ｉ）の決定方法について説明する。例えば、低詳細度音素モデルを生成する際に、上述のように、混合分布の統合処理を行わなければならないのであるが、音声認識の際に頻繁に用いる音素についての混合分布についてはより大きな重み係数にすることが好ましい。このように、用いる音素が重要であれば当該音素の重み係数ｗ（ｉ）を大きくすることで、より精度の高い音素モデル（音響モデル）を生成できる。この実施例３では、重み係数ｗ（ｉ）は、混合分布Ａ（ｉ）を有する音素モデルの音素列の継続長を用いて求める場合を説明する。例えば、図７の例では、統合元混合分布Ａ（０）の重み係数ｗ（０）は、混合分布Ａ（０）を有する音素モデルの音素列（ｋ−ａ＋ｕ）の継続長に寄るものであり、統合対象混合分布Ａ（１）の重み係数ｗ（１）とは、混合分布Ａ（１）を有する音素モデルの音素列（ｋ−ａ−ｅ）の継続長に寄るものである。そして、混合分布Ａ（０）の重み係数ｗ（０）は例えば以下の式で求める。ｗ（ｉ）、ｗ（０）を求める式については、例えば以下の式（５）（６）により求められる。

ｗ（ｉ）＝混合分布Ａ（ｉ）を有する音素モデルの音素列の継続長
／全音素の継続長の総和（５）
ｗ（０）＝音素列（ｋ−ａ＋ｕ）の継続長／全音素の継続長の総和（６）

また、統合処理の重みつけにおいて、正規化を行う場合には、上記式（５）（６）のように、「全音素の継続長の総和」で除算する必要はない。音素列の継続長、全音素の継続長の総和については、予め、記憶部２１２に記憶させておけば良い。

実施例３では、重要度を判別するパラメータとして「継続長」を用いたが、この実施例４では、「出現頻度」を用いて、重み係数ｗ（ｉ）を求める。以下に具体的な式の例を示す。

ｗ（ｉ）＝混合分布Ａ（ｉ）を有する音素モデルの音素列の出現頻度
／全音素の出現頻度の総和（７）

また、統合処理の重みつけにおいて、正規化を行う場合には、上記式（７）のように、「全音素の出現頻度の総和」で除算する必要はない。音素列の出現頻度、全音素の出現頻度の総和については、予め、記憶部２１２に記憶させておけば良い。

実施例５では、重要度を判別するパラメータとして「第１音響モデルの学習時のフレーム数の期待値」を用いる。以下に具体的な式の例を示す。

ｗ（ｉ）＝混合分布Ａ（ｉ）を有する音素モデルの学習時のフレーム数の期待値／全音素の学習時のフレーム数の期待値の総和（８）

また、統合処理の重みつけにおいて、正規化を行う場合には、上記式（８）のように、「全音素の学習時のフレーム数の期待値の総和」で除算する必要はない。音素列の学習時のフレーム数の期待値の総和、全音素の学習時のフレーム数の期待値の総和については、予め、記憶部２１２に記憶させておけば良い。

実施例３〜５では、音素モデルの重要度を用いて混合分布の重み係数を求める例を説明した。しかし、実施例３〜５の手法であると、第１音素モデルについての音素列の継続長、または出現頻度、または学習時フレーム数の記憶が必要であり、多大な記憶コストを必要とする。この実施例６では、低詳細度音素モデルについての音素の継続長、または出現頻度、または学習時フレーム数のみを用いるものである。従って、実施例３〜５と比較して、記憶コストを下げつつ、実施例３〜５と同様の効果を得ることができる。

具体的な手法としては、混合分布Ａ（ｉ）についての音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素と仮定する。そして、当該環境独立音素の継続長、当該環境独立音素の出現頻度、当該環境独立音素の第１音響モデル学習時フレーム数の期待値のうち、何れかの当該環境独立音素のそれぞれの合計から重み係数ｗ（ｉ）を求める。混合分布Ａ（ｉ）を有する音素モデルについての音素列が「ｋ−ａ＋ｕ」である場合に、重み係数ｗ（ｋ−ａ＋ｕ）を求める場合を例にとって説明する。この場合に、「音素列の左右両端に位置しない音素」とは中心音素である「ａ」である。そして、中心音素「ａ」の左側に位置する音素列は「ｋ」であり、右側に位置する音素列は「ｕ」である。そして、「ｋ」「ｕ」を環境独立音素とした場合、つまり、「＊−ｋ＋＊」、「＊−ｕ＋＊」とした場合のこれらの重み係数ｗ（＊−ｋ＋＊）、ｗ（＊−ｕ＋＊）を求める。これらの重み係数の求め方は、これらの当該環境独立音素の継続長またはこの平均（実施例３で説明）、これらの当該環境独立音素の出現頻度またはこの平均（実施例４で説明）、これらの当該環境独立音素の学習時フレーム数の期待値またはこの平均（実施例５で説明）により求めればよい。そして、ｗ（＊−ｋ＋＊）、ｗ（＊−ｕ＋＊）が求められると、これらの平均値をｗ（ｋ−ａ＋ｕ）として算出する。具体的に式で示すと、
ｗ（ｋ−ａ＋ｕ）＝｛ｗ（＊−ｋ＋＊）＋ｗ（＊−ｕ＋＊）｝／２
となる。

また、第１音素モデルが中詳細度音素である場合に、例えば音素列（ｋ−ａ−＊）の重み係数ｗ（ｋ−ａ＋＊）は、例えば以下の通りにより求められる。

ｗ（ｋ−ａ＋＊）＝ｗ（＊−ｋ＋＊）
つまり、この場合は、「音素モデルの音素列の左右両端に位置しない音素」とは、「ａ」であり、左側または右側の少なくとも一方に位置する音素「ｋ」のそれぞれを環境独立音素とした場合、つまり、（＊−ｋ＋＊）の継続長またはこれの平均、出現頻度またはこれの平均、学習時フレーム数の期待値またはこれの平均、を用いて求めれば良い。

また、第１音素モデルが音素列「ａ−ｓ−ｏ＋ｂ＋ｕ」についての音素モデルである場合には、当該音素列の重み係数ｗ（ａ−ｓ−ｏ＋ｂ＋ｕ）は以下の式により求められる。

ｗ（ａ−ｓ−ｏ＋ｂ＋ｕ）＝｛ｗ（＊−ａ＋＊）＋ｗ（＊−ｓ＋＊）＋ｗ（＊−ｏ＋＊）＋ｗ（＊−ｂ＋＊）＋ｗ（＊−ｕ＋＊）｝／５
この場合には、音素モデルの音素列の左右両端に位置しない音素とは「ｏ」となり、音素「ｏ」の左側または右側の少なくとも一方に位置する音素列とは、「ａ−ｓ」および「ｂ−ｕ」となり、それぞれを独立環境音素とすると、（＊−ａ＋＊）、（＊−ｓ＋＊）、（＊−ｏ＋＊）、（＊−ｂ＋＊）、（＊−ｕ＋＊）となり、これら独立環境音素の継続長またはこれの平均、出現頻度またはこれの平均、学習時フレーム数の期待値またはこれの平均からｗ（＊−ａ＋＊）、ｗ（＊−ｓ＋＊）、ｗ（＊−ｏ＋＊）、ｗ（＊−ｂ＋＊）、ｗ（＊−ｕ＋＊）をそれぞれ求めればよい。

この手法であれば、環境独立音素の「継続長」「出現頻度」「学習時フレーム数の期待値」および、これらの全音素の総和を予め用意しておけばよく、記憶コスト、事前にこれらの情報を取得するための演算コストも実施例３〜５と比較して、格段に下げることが出来る。そして、実施例３〜５と同様な効果を得ることが出来る。

一般的に音声認識では、中詳細度音素や低詳細度音素は、単語境界のみで使用される。実施例７はこの概念を用いた実施例である。以下に、「私は特許を書きます」という具体例を用いて説明する。この文章を単語ごとに分割すると以下のようになる。

私／は／特許／を／書き／ます
そして音素を用いて表すと以下の音素列で表すことができる。

ｗａｔａｓｈｉ／ｈａ／ｔｏｑｋｙｏ／ｏ／ｋａｋｉ／ｍａｓｕ（９）
（９）の音素列の例から明らかなように、単語の最後の音素（単語境界「／」の左側の音素）は母音（「ａ」や「ｉ」などの音素）、母音以外に撥音「ん」、側音「っ」等になる場合が多く、子音（「ｋ」や「ｓ」などの音素）になる場合はほとんどない。従って、中詳細度音素である右側依存音素（上記（９）に示した音素列の例では、Ｘ−ｈ＋ａ、Ｘ−ｔ＋ｏ、Ｘ−ｏ＋ｏ、Ｘ−ｍ＋ａ）において左側の音素Ｘに子音が位置することはほとんどないということが言える。よって、生成対象の第２音素モデルが右側依存音素である場合において、左側の音素が子音になる右側依存音素についての音素モデル（つまり、音声認識において、あまり使用しない音素モデル）を含ませずに第２音素モデルを求め、更に全ての音素についての第２音素モデルから第２音響モデルを求める。

このように、生成する音素モデルを単語境界に位置する音素に絞ることで不要な音素モデルを排除でき、生成される目的音響モデルの精度を向上させることができる。また、不必要な第２音素モデルの生成コストについても削減できる。

［変形例］
次に、変形例を説明する。上述では、第２音素モデルに関して、中詳細度音素（ｂｉｏｐｈｏｎｅ）モデルや低詳細度音素（ｍｏｎｏｐｈｏｎｅ）モデルを想定して記述したが、低詳細度音素モデルの代わりに、音声ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）を用いてもよい。ここで、音声ＧＭＭは、通常、１状態で表現されることが多く、無音以外の音声区間から学習して構築される場合が多く、音声／非音声判定などに用いられることがある。３状態で表される他の音素（ｂｉｏｐｈｏｎｅ／ｍｏｎｏｐｈｏｎｅ）モデルでは、状態位置を固定していた。一方、音声ＧＭＭでは、高詳細度音素モデルの全ての状態（上記の例では第１状態Ｓ１〜第３状態Ｓ３）の混合分布や（自己／状態間）遷移確率を元に、音声ＧＭＭの混合分布や遷移確率を求めることとする。また、音声ＧＭＭの構築の際には第１音素モデルを高詳細音素モデルではなく、低詳細度音素モデルを用いても良い。

＜ハードウェア構成＞
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、音響モデル作成装置２００が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

また、本実施例で説明した音響モデル作成装置２００は、ＣＰＵ（Central Processing Unit）、入力部、出力部、補助記憶装置、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）及びバスを有している（何れも図示せず）。

ＣＰＵは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、ＲＡＭは、ＳＲＡＭ(Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等である。また、バスは、ＣＰＵ、入力部、出力部、補助記憶装置、ＲＡＭ及びＲＯＭを通信可能に接続している。

＜ハードウェアとソフトウェアとの協働＞
本実施例の単語追加装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、ＣＰＵがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。

音響モデル作成装置２００の入力部２０２、出力部２１０は、所定のプログラムが読み込まれたＣＰＵの制御のもと駆動するＬＡＮカード、モデム等の通信装置である。決定部２０４、取得部２０５、遷移確率計算部２０６、混合分布生成部２０８は、所定のプログラムがＣＰＵに読み込まれ、実行されることによって構築される演算部である。記憶部２１２は上記補助記憶装置として機能する。

従来の音響モデル作成装置の機能構成例を示したブロック図。本実施例の音響モデル作成装置の機能構成例を示したブロック図。本実施例の処理フローを示した図。音響モデルの概念図。低詳細度音素モデルの各状態の遷移確率、混合分布を求める様子を模式的に示した図。中詳細度音素モデルの各状態の遷移確率、混合分布を求める様子を模式的に示した図。実施例２の混合分布の統合を模式的に示した図。実施例２の統合処理の処理フローを示した図。

Claims

入力された第１音響モデルを用いて、当該第１音響モデルより詳細度が低い第２音響モデルを生成して、第１音響モデルと第２音響モデルとをまとめて目的音響モデルとして出力する音響モデル生成方法であって、
第２音響モデルが有する第２音素モデルについての第２音素を決定する決定過程と、
第１音響モデルから、第２音素と同一の音素環境に属する第１音素についての第１音素モデルを取得する取得過程と、
第２音素モデルの各状態毎に、前記第１音素モデルの当該状態と同一の状態の全ての遷移確率の合計値を、当該第１音素モデルの数で除算することで、第２音素モデルの遷移確率（以下、「第２音素モデル遷移確率」という。）を求める計算過程と、
第２音素モデルの各状態毎に、前記第１音素モデルの当該状態と同一の状態の全ての混合分布を統合することで、第２音素モデルの混合分布（以下、「第２音素モデル混合分布」という。）を生成する統合過程と、
前記第２音素モデル遷移確率と前記第２音素モデル混合分布とから求まる第２音響モデルと前記第１音響モデルとをまとめて前記目的音響モデルとして出力する出力過程と、
を有し、
前記統合過程は、
Ｉ個（Ｉは整数）の混合分布のうち、統合重み係数ｗの統合元混合分布Ａと、当該統合元混合分布Ａ以外の統合重み係数ｗ（ｉ）の統合対象混合分布Ａ（ｉ）（ただし、ｉ＝１、．．．、Ｉ−１）のうち少なくとも１つとから、前記統合重み係数ｗと前記統合重み係数ｗ（ｉ）とを用いて、統合後の混合分布Ａ’を生成する統合ステップと、
前記統合元混合分布Ａの統合重み係数ｗよりも大きな値を、前記統合後の混合分布Ａ’の統合重み係数ｗ’として求める更新ステップとを有し、
前記統合後の混合分布Ａ’を統合元混合分布Ａとして、前記統合後の混合分布Ａ’の統合重み係数ｗ’を前記統合元混合分布Ａの統合重み係数ｗとして、前記統合ステップと前記更新ステップとを、前記第２音素モデルの各状態毎に統合される前記第１音素モデルの全ての統合対象混合分布Ａ（ｉ）について行うことを特徴とする音響モデル作成方法。
請求項１記載の音響モデル作成方法において、
前記更新ステップは、前記統合元混合分布Ａの統合重み係数ｗと前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）とを加算したものを前記統合後の混合分布Ａ’の統合重み係数ｗ’とすることを特徴とする音響モデル作成方法。
請求項１または２記載の音響モデル作成方法であって、
前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）は、当該混合分布を有する音素モデルの音素列の継続長を、全音素の継続長の総和で除算した値であることを特徴とする音響モデル作成方法。
請求項１または２記載の音響モデル作成方法であって、
前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）は、当該混合分布を有する音素モデルの音素列の出現頻度を、全音素の出現頻度の総和で除算した値であることを特徴とする音響モデル作成方法。
請求項１または２記載の音響モデル作成方法であって、
前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）は、当該混合分布を有する音素モデルの音素列の第１音響モデル学習時のフレーム数の期待値を、全音素の第１音響モデル学習時のフレーム数の期待値の総和で除算した値であることを特徴とする音響モデル作成方法。
請求項１または２記載の音響モデル作成方法であって、
前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の継続長の平均であることを特徴とする音響モデル作成方法。
請求項１または２記載の音響モデル作成方法であって、
前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の出現頻度の平均であることを特徴とする音響モデル作成方法。
請求項１または２記載の音響モデル作成方法であって、
前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の第１音響モデル学習時のフレーム数の期待値の平均であることを特徴とする音響モデル作成方法。
請求項１〜８何れかに記載の音響モデル作成方法であって、
生成対象の第２音素モデルが右側依存音素である場合において、左側の音素が子音になる右側依存音素についての音素モデルを含ませずに第２音響モデルを求めることを特徴とする音響モデル作成方法。
入力された第１音響モデルを用いて、当該第１音響モデルより詳細度が低い第２音響モデルを生成して、第１音響モデルと第２音響モデルとをまとめて目的音響モデルとして出力する音響モデル生成装置であって、
第２音響モデルが有する第２音素モデルについての第２音素を決定する決定部と、
第１音響モデルから、第２音素と同一の音素環境に属する第１音素についての第１音素モデルを取得する取得部と、
第２音素モデルの各状態毎に、前記第１音素モデルの当該状態と同一の状態の全ての遷移確率の合計値を、当該第１音素モデルの数で除算することで、第２音素モデルの遷移確率（以下、「第２音素モデル遷移確率」という。）を求める遷移確率計算部と、
第２音素モデルの各状態毎に、前記第１音素モデルの当該状態と同一の状態の全ての混合分布を統合することで、第２音素モデルの混合分布（以下、「第２音素モデル混合分布」という。）を生成する混合分布生成部と、
前記第２音素モデル遷移確率と前記第２音素モデル混合分布とから求まる第２音響モデルと前記第１音響モデルとをまとめて前記目的音響モデルとして出力する出力部と、
を具備し、
前記混合分布生成部は、
Ｉ個（Ｉは整数）の混合分布のうち、統合重み係数ｗの統合元混合分布Ａと、当該統合元混合分布Ａ以外の統合重み係数ｗ（ｉ）の統合対象混合分布Ａ（ｉ）（ただし、ｉ＝１、．．．、Ｉ−１）のうち少なくとも１つとから、前記統合重み係数ｗと前記統合重み係数ｗ（ｉ）とを用いて、統合後の混合分布Ａ’を生成する統合手段と、
前記統合元混合分布Ａの統合重み係数ｗよりも大きな値を、前記統合後の混合分布Ａ’の統合重み係数ｗ’として求める更新手段とを有し、
前記統合後の混合分布Ａ’を統合元混合分布Ａとして、前記統合後の混合分布Ａ’の統合重み係数ｗ’を前記統合元混合分布Ａの統合重み係数ｗとして、前記統合手段と前記更新手段とを、前記第２音素モデルの各状態毎に統合される前記第１音素モデルの全ての統合対象混合分布Ａ（ｉ）について行うことを特徴とする音響モデル作成装置。
請求項１０記載の音響モデル作成装置であって、
前記更新手段は、前記統合元混合分布Ａの統合重み係数ｗと前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）とを加算したものを前記統合後の混合分布Ａ’の統合重み係数ｗ’とすることを特徴とする音響モデル作成装置。
請求項１０または１１記載の音響モデル作成装置であって、
前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）は、当該混合分布を有する音素モデルの音素列の継続長を、全音素の継続長の総和で除算した値であることを特徴とする音響モデル作成装置。
請求項１０または１１記載の音響モデル作成装置であって、
前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）は、当該混合分布を有する音素モデルの音素列の出現頻度を、全音素の出現頻度の総和で除算した値であることを特徴とする音響モデル作成装置。
請求項１０または１１記載の音響モデル作成装置であって、
前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）は、当該混合分布を有する音素モデルの音素列の第１音響モデル学習時のフレーム数の期待値を、全音素の第１音響モデル学習時のフレーム数の期待値の総和で除算した値であることを特徴とする音響モデル作成装置。
請求項１０または１１記載の音響モデル作成装置であって、
前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の継続長の平均であることを特徴とする音響モデル作成装置。
請求項１０または１１記載の音響モデル作成装置であって、
前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の出現頻度の平均であることを特徴とする音響モデル作成装置。
請求項１０または１１記載の音響モデル作成装置であって、
前記統合対象混合分布Ａ（ｉ）の統合重み係数ｗ（ｉ）は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の学習時のフレーム数の期待値の平均であることを特徴とする音響モデル作成装置。
請求項１０〜１７何れかに記載の音響モデル作成装置であって、
生成対象の第２音素モデルが右側依存音素である場合において、左側の音素が子音になる右側依存音素についての音素モデルを含ませずに第２音響モデルを求めることを特徴とする音響モデル作成装置。
請求項１〜９何れかに記載の音響モデル作成方法の各過程をコンピュータに実行させるためのプログラム。
請求項１９に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。