JP2010096899A

JP2010096899A - 音響モデル作成方法、その装置、プログラム、その記録媒体

Info

Publication number: JP2010096899A
Application number: JP2008266288A
Authority: JP
Inventors: Satoru Kobashigawa; 哲小橋川; Yoshikazu Yamaguchi; 義和山口; Hirokazu Masataki; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-10-15
Filing date: 2008-10-15
Publication date: 2010-04-30
Anticipated expiration: 2028-10-15
Also published as: JP5155811B2

Abstract

【課題】全体的な認識精度が向上された音響モデルを作成する。
【解決手段】発音辞書記憶部に記憶されている発音辞書を用いて、言語モデル記憶部に記憶されている言語モデル中の単語を音素系列に変換し、全ての対象音素ごとに、当該対象音素を含む音素系列の出現確率の総和を当該対象音素の音素出現確率を求め、音素出現確率が高い高出現確率音素を選択し、学習データ記憶部から、高出現確率音素を含む音素系列についての学習データを抽出して、強化学習データとし、強化学習データとベース音響モデルから強化統計量を計算し、学習データ記憶部からの学習データについての十分統計量と強化統計量とから強化音響モデルを作成する。
【選択図】図２

Description

本発明は、入力された音声信号から計算した音響特徴パラメータ系列に対して、各音素の音響的特徴を表現した確率モデルを作成する音響モデル作成方法、装置、プログラム及びその記録媒体に関する。

図１に従来の音響モデル作成装置１００の機能構成例を示す。音響モデル作成装置１００は、変換部３１、強化学習データ選択部３２、学習データ記憶部１１、学習部１３、十分統計量記憶部１４、強化学習データ記憶部２３、強化学習部２４、強化統計量記憶部２５、合成部２６、強化音響モデル記憶部２７で構成されている。また、各構成部の処理内容、十分統計量、強化統計量については、この［背景技術］では簡単に説明し、以下の［発明を実施するための最良の形態］で詳細に説明する。

学習データ記憶部１１には、音声データとこの音声データに音素等を対応付けたラベルとから構成される学習データが複数予め格納されている。ベース音響モデル記憶部１２には、学習前の音響モデルであるベース音響モデルが予め格納されている。学習部１３は、学習データ記憶部１１から読み出した学習データと、ベース音響モデル記憶部１２から読み出したベース音響モデルとから、十分統計量を計算して十分統計量記憶部１４に格納する。

一方、強化キーワードリスト記憶部２１には、所定のキーワードのリストが記憶されている。所定のキーワードとは、例えば、認識性能を改善したいキーワードや、誤認識となったキーワードである。

強化学習データ選択部３２は、強化キーワードリスト記憶部２１から読み出したキーワードと同一及び／又は類似のキーワードを含む学習データを、学習データ記憶部１１から抽出して、強化学習データを作成する。作成された強化学習データは、強化学習データ記憶部２３に記憶される。

強化学習部２４は、強化学習データ記憶部２３から読み出した強化学習データから、強化統計量を計算する。計算された強化統計量は、強化統計量記憶部２５に格納される。強化統計量は、強化学習データ記憶部２３から読み出した強化学習データに基づいて計算された十分統計量のことである。

合成部２６は、十分統計量記憶部１４から読み出した十分統計量と、強化統計量記憶部２５から読み出した強化統計量に重みをかけたものとから強化音響モデルを作成する。作成された強化音響モデルは、強化音響モデル記憶部２７に格納される。なお、音響モデル作成装置１００の詳細については、特許文献１、非特許文献１に記載されている。
特開２００８−１２９５２７号公報小橋川哲、小川厚徳、政瀧浩和、高橋敏、「キーワードに関する十分統計量増強による精度向上の検討」、日本音響学会講演論文集、２００８年３月、ｐｐ２１３−２１４

従来の音響モデル作成装置は、キーワードに含まれる音素のみの認識精度を向上させるものであった。従って、全体的な単語や音素の認識精度の向上を行うことができないという問題があった。また、強化するキーワードリストが必要であるという問題があった。
この発明は、キーワードリストを必要とすることなく、全体的な単語や音素の認識精度の向上を行う音響モデル作成方法、音響モデル作成装置、そのプログラム、記録媒体を提供するものである。

この発明の音響モデル作成方法は、変換過程と、出現確率計算過程と、音素選択過程と、強化学習データ選択過程と、強化学習過程と、合成過程と、を有する。変換過程は、発音辞書記憶部に記憶されている発音辞書を用いて、言語モデルに記憶されている言語モデル中の単語を音素系列に変換する。出現確率計算過程は全ての対象音素ごとに、当該対象音素を含む音素系列の出現確率の総和を当該対象音素の音素出現確率として求める。音素選択過程は、音素出現確率が高い高出現確率音素を選択する。強化学習データ選択過程は、学習データ記憶部から、前記高出現確率音素を含む音素系列についての学習データを抽出して、強化学習データとする。強化学習過程は、前記強化学習データと前記ベース音響モデルから強化統計量を計算する。合成過程は、学習データ記憶部からの学習データについての十分統計量と前記強化統計量とから強化音響モデルを作成する。

この発明によれば、キーワードリストではなく、言語モデルを用いるので、当該言語モデルに含まれている全体的な単語や音素の認識精度の向上を行う。また、キーワードリストを必要としないという効果も有する。

以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。

図２に実施例１の音響モデル作成装置２００の機能構成例を示し、図３に処理フローを示す。この実施例の音響モデル作成装置２００は、言語モデル記憶部４１、変換部４２、音素系列言語モデル記憶部４３、出現確率計算部４４、発音辞書記憶部４６、音素選択部４８、学習データ記憶部１１、強化学習データ記憶部２３、ベース音響モデル記憶部１２、学習部１３、強化学習部２４、強化統計量記憶部２５、合成部２６、強化音響モデル記憶部２７、とで構成されている。

まず、言語モデル記憶部４１には、予め言語モデルを記憶させる。ここで言語モデルについて説明する。この音響モデル作成装置２００から出力される（後述する強化音響モデル記憶部２７に記憶される）強化音響モデルを用いて、音声認識処理を行うのであるが、当該音声認識処理に係る分野（例えば、電話番号案内）の言語的な出現頻度を反映した言語モデルを用いる。

図４に言語モデルの一例を示す。この例では、言語モデルは、Nグラムで表されるとし、Nグラムの例として、ユニグラム（ｕｎｉｇｒａｍまたは１−ｇｒａｍ）、バイグラム（ｂｉｇｒａｍまたは２−ｇｒａｍ）、トライグラム（ｔｒｉｇｒａｍまたは３−ｇｒａｍ）であるとし、つまり、単語の頻度（出現確率）が、ユニグラム確率、バイグラム確率、トライグラム確率により表されているとする。また、言語モデルには、複数の文章が格納されているが、当該複数の文章のうちの一文の例を「私は発明をします」であるとし、「私／は／発明／を／します」というように、単語で区切られているとする。以下では、単語とは、１つの単語（例えば、「私」）を示し、単語系列とは、１つの単語または１つ以上の単語の組（例えば、「私→は」や「私→は→発明」等）を示す。また、図４の例では、例えば「私」のユニグラム確率は０．０００１とし、「私→は」のバイグラム確率は０．０００００８とし、「私→は→発明」のトライグラム確率は０．００００００４とする。

変換部４２は、発音辞書記憶部４６に記憶されている発音辞書を用いて、言語モデル中の単語を音素系列に変換する（ステップＳ２）。この例では、発音辞書は、「単語」と「その単語の読み」とが対応されて格納されているものである。図５に発音辞書の一例を示す。図５に示すように、例えば、単語「私」とその単語の読み「わたし」とが対応された発音辞書が、発音辞書記憶部４６に格納されている。変換部４２は言語モデル中の全ての単語について、読みに変換される。そして変換部４２は、変換部４２自身が保持している文節表を用いて、この読みを音素系列に変換する。文節表については、例えば「鹿野清宏他著「ＩＴ TEXT 音声認識システム」、２００１年ｐ４５の表３．１」に記載されている。このようにして言語モデル中の全ての単語が、読み→音素系列、に変換され、音素系列言語モデルとして音素系列言語モデル記憶部４３に記憶される。図６に音素系列言語モデルの一例を示す。図６に示すように、例えば、音素系列「ｗａｔａｓｈｉ」と出現確率「０．０００１０」とが対応して記憶されている。また、図６の記載「＊」は、単語と他の単語の区切りを示す。

次に、出現確率計算部４４は、全ての対象音素ごとに、当該対象音素を含む音素系列の出現確率の総和を当該対象音素の出現確率（以下、「音素出現確率」という。）として求める（ステップＳ４）。ここで、音素系列とは、１つの音素、または、２つ以上の音素の系列を意味する。また、対象音素とは、音素出現確率を求める対象となる音素であり、存在する全ての音素をいう。そして、対象音素は、環境独立音素（ｍｏｎｏｐｈｏｎｅ）、片側環境依存音素（ｂｉｐｈｏｎｅ）、両側環境依存音素（ｔｒｉｐｈｏｎｅ）などがある。例えば、対象音素を環境独立音素とすると、対象音素はａ、ｉ、ｕ・・・であり、音素体系にも依るが、約３０〜５０個程度存在する。対象音素の数をΩ（例えば、３０〜５０）個とし、対象音素を片側環境依存音素とすると、対象音素はａ−ａ＋＊、ａ−ｉ＋＊、．．．や＊−ａ＋ａ、＊−ａ＋ｉ、などであり、約Ω×Ω×２個存在する。また、対象音素が、両側環境依存音素（ｔｒｉｐｈｏｎｅ）とすると、対象音素はａ−ａ＋ａ、ａ−ａ＋ｉ、．．．やｎ−ａ＋ａ、ｎ−ａ＋ｉ、．．．等があり、約Ω×Ω×Ω個存在する。この発明では、言語モデルをＮモデル、対象音素をＮｐｈｏｎｅ（ｍｏｎｏｐｈｏｎｅやｂｉｐｈｏｎｅ）として、出現確率計算部４４は演算可能であるが、この実施例１では対象音素を環境独立音素として、説明をする。

対象音素を環境独立音素とした場合には、出現確率計算部４４は第１確率計算手段４４２を有する。第１確率計算手段４４２は、音素系列中の全ての環境独立音素ごとに、当該環境独立音素を含む単語のユニグラム確率の総和、当該環境独立音素を含む単語のバイグラム確率の総和、当該環境独立音素を含む単語のトライグラム確率の総和、のうち少なくとも１つを用いて、音素出現確率を求める。また、以下の説明では、対象音素の一般的な表記を「α」とし、音素αの出現確率をＰ（α）とし、音素αを含む単語のユニグラム確率の総和をΣｕｎｉ（α）とし、音素αを含む単語のバイグラム確率の総和をΣｂｉ（α）とし、音素αを含む単語のトライグラム確率の総和をΣｔｒｉ（α）とする。そうすると、音素αの出現確率は以下の式で表すことができる。
Ｐ（α）＝ｗ_１Σｕｎｉ（α）＋ｗ_２Σｂｉ（α）＋ｗ_３Σｔｒｉ（α）（１）
ここで、ｗ_１、ｗ_２、ｗ_３はそれぞれ、重み係数を示す。状況に応じて、重み係数ｗ_１、ｗ_２、ｗ_３を調整する。例えば、ｗ_１＝１、ｗ_２＝ｗ_３＝０とすると、ユニグラム確率のみを使用して求めることができる。対象音素αを例えば音素「ａ」とし、重み係数をｗ_１＝１、ｗ_２＝ｗ_３＝０（つまり、ユニグラム確率のみ用いる）とし、図５記載の音素系列言語モデルを用いる場合を考える。そうすると、ユニグラム確率に記載されている「ａ」を含む単語は、図５記載の音素系列の単語では、
「ｗａｔａｓｈｉ（出現確率は０．０００１）」
「ｗａ（出現確率は０．０００２５）」
「ｈａｔｓｕｍｅｉ（出現確率は０．００００２）」
「ｓｈｉｍａｓｕ（出現確率は０．００００５）」
である。そして、これらの音素系列の出現確率の合計（つまり、０．０００１＋０．０００２５＋０．００００２＋０．００００５）が対象音素「ａ」の音素出現確率として、出現確率計算部４４から出力される。このように、出現確率計算部４４は、その他の全ての環境独立音素を対象音素として「ｉ」「ｕ」・・・の音素出現確率を求める。図７に出現確率計算部４４から出力される音素出現確率の例を示す。図７に記載のように、全ての対象音素と、当該対象音素の音素出現確率と、が対応されたものが、音素選択部４８に入力される。図７の記載では、「ｗ−ａ＋＊」「ｈ−ａ＋ｔ」の音素出現確率が記載されているが、これらは、それぞれ対象音素を両側環境依存音素、片側環境依存音素にした場合の音素出現確率である（それぞれ実施例３、実施例２で説明）。

音素選択部４８は、音素出現確率が大きい対象音素（以下、「高出現確率音素」という。）を選択する（ステップＳ６）。音素出現確率の大小の判定手法例として、予め音素出現確率についての閾値Ｔｈ_１を定め、音素出現確率が閾値Ｔｈ_１より大きい対象音素のみを選択する。選択された高出現確率音素は強化学習データ選択部３２に入力される。

一方、学習データ記憶部１１には、音声データとこの音声データに音素等を対応付けたラベルとから構成される学習データが複数予め格納されている。ベース音響モデル記憶部１２には、学習前の音響モデルであるベース音響モデルが予め格納されている。学習部１３は、学習データ記憶部１１から読み出した学習データと、ベース音響モデルから読み出したベース音響モデルとから、十分統計量を計算して十分統計量記憶部１４に記憶させる。

以下、十分統計量について説明する。十分統計量とは、ＨＭＭを特徴付けるパラメータであり、遷移確率に関わる統計量、混合正規分布の混合重み、平均、分散に関わる統計量等である。具体的には、音響モデルλと、観測系列Ｏが与えられたとき、時刻ｔに状態ｉに存在し、時刻ｔ＋１に状態ｊに存在する確率ξ_ｔ（ｉ，ｊ）、また音響モデルλと観測系列Ｏが与えられ、状態はＮ個の状態から構成されるとき、時刻ｔに状態ｉに存在する確率γ_ｔ（ｉ）をそれぞれ、

とする。また、式中のベクトル、行列を太字で記載するものとし、文中のベクトル、行列を標準書体で記載するものとする。このとき、音響モデルパラメータである、時刻ｔ＝１に状態ｉに存在すると期待される頻度（回数）π_ｉ、状態遷移確率ａ_ｉｊ、状態ｊで特徴ベクトルｖ_ｋが観測される確率ｂ_ｊ（ｋ）、状態ｉのｍ番目の混合分布に対する混合重み係数ｃ_ｉｍ、状態ｉのｍ番目の混合分布の平均ベクトルμ_ｉｍ、共分散行列Ｕ_ｉｍは、例えば、それぞれ次のように定義される。

ここで、プライムはベクトルの転置を表し、γ_ｔ（ｉ，ｍ）は、観測された観測信号の特徴ベクトルｏ_ｔを考慮したときに、時刻ｔに状態ｉのｍ番目の混合要素に存在する確率である。

このとき、前記式の分子と分母に記載された各数式で定義される値がそれぞれ十分統計量となる。すなわち、ａ_ｉｊについては、Σ_ｔ＝１ ^Ｔξ_ｔ（ｉ，ｊ）と、Σ_ｔ＝１ ^Ｔγ_ｔ（ｉ）とがそれぞれ十分統計量となる。また、ｂ_ｊ（ｋ）については、Σ_{ｔ＝１（ｓ．ｔ．ｏｔ＝Ｖｋ）} ^Ｔγ_ｔ（ｊ）と、Σ_ｔ＝１ ^Ｔγ_ｔ（ｊ）とがそれぞれ十分統計量となる。ｃ_ｉｍ，μ_ｉｍ，Ｕ_ｊｋについても同様である。なお、π_ｉについては、γ_１（ｉ）が十分統計量となる。これらの十分統計量は、学習データ記憶部１１から読み出した学習データを用いて、例えば、Ｂａｕｍ−Ｗｅｌｃｈアルゴリズム等の既存のアルゴリズムを用いて推定することができる。Ｂａｕｍ−Ｗｅｌｃｈアルゴリズムは、文献「Lawrence Rabiner, Biing-Hwang Juang 共著，古井貞熙監訳，「音声認識の基礎（下）」，ＮＴＴアドバンステクノロジ、１９９５年」に詳しい。なお、十分統計量は、学習データ記憶部１１に記憶された学習データ毎に計算される。

一方、強化学習データ選択部３２は、学習データ記憶部１１から高出現確率音素と同一の音素を含む音素系列についての学習データを抽出して、強化学習データとして強化学習データ記憶部２３に記憶させる（ステップＳ８）。ここで音素系列とは、音素系列（例えば、ａ−ｉ＋ｕ）の他に、単一の音素（例えば、ａ）も含むものとする。そして、強化学習部２４は、強化学習データ記憶部２３から読み出した強化学習データから、強化統計量を計算する（ステップＳ１０）。計算された強化統計量は、強化統計量記憶部２５に格納される。強化統計量は、強化学習データ記憶部２３から読み出した強化学習データに基づいて計算された十分統計量のことである。すなわち、十分統計量と強化統計量は、数式で表現した定義は同じであるが、十分統計量は学習データ記憶部１１から読み出した学習データに基づいて計算されたものであるのに対し、強化統計量は強化学習データ記憶部２３から読み出した強化学習データに基づいて計算されたものである点において異なる。強化統計量の計算方法は、学習部１３によるものと同一なので省略する。

また、強化学習データ選択部３２は、ベース音響モデル記憶部１２から読み出したベース音響モデルにおいて、高出現確率音素とベース音響モデル内の音素との分布間距離を求め、当該分布間距離の総和が閾値Ｔｈ_２以上であるかどうかで判断してもよい。すなわち、分布間距離の和を求めることにより状態間距離を求め、その状態間距離の和を求めることにより音素間の距離を求め、その音素間の距離から類似の判断を行う。

合成部２６は、十分統計量記憶部１４から読み出した十分統計量と、強化統計量記憶部２５から読み出した強化統計量に重みをかけたものとから強化音響モデルを作成する。作成された強化音響モデルは、強化音響モデル記憶部２７に格納される。

学習部１３により複数の学習データからＧ個の十分統計量が得られたとする。このとき、十分統計量は、ｇ＝１，…，Ｇとして、

と表現される。

また、強化学習部２４は複数の強化学習データからＨ個の強化統計量が得られたとする。このとき、強化統計量は、ｈ＝１，…，Ｈとして、

と表現される。

このとき、合成部２６は、下式で各音響パラメータを計算することにより、強化音響モデルを作成する（ステップＳ１２）。

ここで、ｗ^ｈ（ｈ＝１，…，Ｈ）は、強化統計量にかけられる重みであり１以上の数である。重みｗ^ｈ（ｈ＝１，…，Ｈ）は、同一の値であってもよいし、互いに異なる値であってもよい。求められた強化音響モデルは強化音響モデル記憶部２７に記憶される。

また、学習部１３を具備しない構成とすることが出来る。当該構成とするには、学習データ記憶部１１に格納されている学習データについての十分統計量を別途の学習により求めておき、予め格納させておけばよい。

このように、音声認識処理に係る分野の言語的な出現頻度を反映した言語モデルを用いて、言語モデルに含まれる単語の出現確率（頻度）を利用して擬似的な音素の出現確率を求めることで、ベース音響モデルの全体的な単語や音素の認識精度の向上を行うことが出来る。また、従来のようにキーワードリストを用いる必要もない。

実施例１の出現確率計算部４４は第１確率計算手段を備え、対象音素を環境独立音素として、対象音素の音素出現確率を求めた。この実施例２の出現確率計算部４４は、対象音素が両側環境依存音素（ｔｒｉｐｈｏｎｅ例えばａ−ｉ＋ｉ）として、音素出現確率を求める。この実施例２の出現確率計算部４４は、第３確率計算手段４４６を有する。第３確率計算手段４４６は、対象音素を両側環境依存音素として、音素系列中の全ての両側環境依存音素ごとに、当該両側環境依存音素を含む単語のユニグラム確率の総和、当該両側環境依存音素を含む単語のバイグラム確率の総和、当該両側環境依存音素を含む単語のトライグラム確率の総和、のうち少なくとも１つを用いて、音素出現確率を求める。

両側環境依存音素の一般的な表記を「α−β＋γ」とし、対象音素「α−β＋γ」の出現確率をＰ（α−β＋γ）とし、音素「α−β＋γ」を含む単語のユニグラム確率の総和をΣｕｎｉ（α−β＋γ）とし、音素「α−β＋γ」を含む単語のバイグラム確率の総和をΣｂｉ（α−β＋γ）とし、音素αを含む単語のトライグラム確率の総和をΣｔｒｉ（α−β＋γ）とする。そうすると、音素「α−β＋γ」の出現確率は以下の式（４）で表すことができる。
Ｐ（α−β＋γ）＝ｗ_１Σｕｎｉ（α−β＋γ）＋ｗ_２Σｂｉ（α−β＋γ）
＋ｗ_３Σｔｒｉ（α−β＋γ）（４）

上述のように、ｗ_１、ｗ_２、ｗ_３は重み係数である。例えば、言語モデルが図６
の例において、対象音素を「ｈ−ａ＋ｔ」とした場合、対象音素「ｈ−ａ＋ｔ」
を含む単語は「ｈａｔｓｕｍｅｉ」である。従って、図６に記載の単語のみで考
えると、対象音素「ｈ−ａ＋ｔ」の音素出現確率Ｐ（ｈ−ａ＋ｔ）は前記式（４
）を用いて以下のようになる。
Ｐ（ｈ−ａ＋ｔ）＝ｗ_１・０．００００２
＋ｗ_２（０．０００００１＋０．０００００５）
＋ｗ_３（０．００００００４＋０．００００００２＋０．００００００５）になる。
そして、出現確率計算部４４からは、図７記載の両側環境依存音素（図７の例では、「ｈ−ａ＋ｔ」）と当該音素出現確率（図７の例では、０．００００８）とが対応付けられ、出力される。

この実施例２のように、対象音素を両側環境依存音素とすることで、ベース音響モデルの両側環境依存音素についての全体的な認識精度の向上を図ることが出来る。

この実施例３の出現確率計算部４４は、対象音素が片側環境依存音素（ｂｉｐｈｏｎｅ例えばａ−ｉ＋＊）として、音素出現確率を求める。この実施例３の出現確率計算部４４は、第２確率計算手段４４４を有する。第２確率計算手段４４４は、対象音素を片側環境依存音素として、音素系列中の全ての片側環境依存音素ごとに、当該片側環境依存音素を含む単語のユニグラム確率の総和、当該片側環境依存音素を含む単語のバイグラム確率の総和、当該片側環境依存音素を含む単語のトライグラム確率の総和、のうち少なくとも１つを用いて、前記音素出現確率を求める。片側環境依存音素の一般的な表記を「α−β＋＊」とし、対象音素「α−β＋＊」の出現確率をＰ（α−β＋＊）とし、音素「α−β＋＊」を含む単語のユニグラム確率の総和をΣｕｎｉ（α−β＋＊）とし、音素「α−β＋＊」を含む単語のバイグラム確率の総和をΣｂｉ（α−β＋＊）とし、音素αを含む単語のトライグラム確率の総和をΣｔｒｉ（α−β＋＊）とする。そうすると、音素「α−β＋＊」の出現確率は以下の式（５）で表すことができる。
Ｐ（α−β＋＊）＝ｗ_１Σｕｎｉ（α−β＋＊）＋ｗ_２Σｂｉ（α−β＋＊）
＋ｗ_３Σｔｒｉ（α−β＋＊）（５）

上述のように、ｗ_１、ｗ_２、ｗ_３は重み係数である。そして、言語モデルが図６
の例において、対象音素を「ｗ−ａ＋＊」とした場合、対象音素「ｗ−ａ＋＊」
を含む単語は「ｗａｔａｓｈｉ」と「ｗａ」である。従って、図６に記載の単語
のみで考えると、対象音素「ｗ−ａ＋＊」の音素出現確率Ｐ（ｗ−ａ＋＊）は上
記式（５）を用いて以下のようになる。
Ｐ（ｗ−ａ＋＊）＝ｗ_１（０．００００２＋０．０００２５）
＋ｗ_２（０．０００００８＋０．０００００１）
＋ｗ_３（０．００００００４＋０．００００００２）になる。
この実施例３のように、対象音素を片側環境依存音素とすることで、ベース音響モデルの片側環境依存音素についての全体的な認識精度の向上を図ることが出来る。

また、上述の、第１確率計算手段４４２、第２確率計算手段４４４、第３確率計算手段４４６のうちの２つの組み合わせを用いてもよく、３つ用いてもよい。

一般的に、音素数が少ない単語（例えば、助詞「は」や「を」等）は頻度（出現確率）が大きい。従って、音素系列言語モデルにおいて、音素数が少ない単語（「ｗａ」や「ｗｏ」）は出現確率が高い傾向にある。図６のユニグラム確率の記載についても、単語「ｗａ」や「ｗｏ」のユニグラム確率（出現確率）は他の単語のユニグラム確率（出現確率）よりも高い。従って、音素数が少ない単語の出現確率を対象にして、対象音素の音素出現確率を計算すると、正確でない音素出現確率が求められる可能性がある。従って、この実施例４の出現確率計算部４４は、予め定められた閾値以上の音素数を持つ音素系列の出現確率の総和を演算することを特徴とすることで、より正確な音素出現確率を求めることが出来る。

例えば、予め閾値Ｔｈ_３を定めておき、出現確率計算部４４は、閾値Ｔｈ_３個以上の音素を含む音素系列のみを音素出現確率の計算の対象にする。図６の例でのユニグラム確率の場合において、閾値Ｔｈ_３を「３」とすると、出現確率計算部４４は、音素数が３以上である単語の出現確率のみを演算の対象とする。逆に言えば出現確率計算部４４が音素閾値Ｔｈ_３（＝３）未満の単語（つまり、ｗａとｗｏ）の出現確率を演算の対象としないことになる。

このように、出現確率計算部４４は、音素数が多い音素系列の出現確率の総和を演算するようにすると、より正確な音素出現確率を求めることが出来る。

実施例１〜４で説明した出現確率計算部４４から出力される音素出現確率は、値の幅が不明である。従って、音素選択部４８の音素選択処理に用いる閾値Ｔｈ_１を定めがたいという問題が生じる場合がある。この実施例５の出現確率計算部４４は、正規化手段４４８を有する。当該正規化手段４４８は求められた音素出現確率を正規化することにより、各対象音素について、全体に対する音素出現確率の比率を求めることが出来る。正規化手段４４８は、音素出現確率Ｐ（α）、Ｐ（α−β＋γ）、Ｐ（α−β＋＊）について、それぞれ正規化して、正規化音素出現確率Ｐ’（α）、Ｐ’（α−β＋γ）、Ｐ’（α−β＋＊）を求める。正規化の具体的手法は、例えば、計算された音素出現確率を、対象音素の全ての出現確率で除算する。つまり以下の式により正規化音素出現確率Ｐ’（α）、Ｐ’（α−β＋γ）、Ｐ’（α−β＋＊）は求められる。ただしｘ、ｙ、ｚはそれぞれ全ての音素を示し、Σ（ｘ）、Σ（ｘ−ｙ＋ｚ）、Σ（ｘ−ｙ＋＊）はそれぞれ音素ｘ、音素ｘ−ｙ＋ｚ、音素ｘ−ｙ＋＊の出現確率の和を示す。
Ｐ’（α）＝Ｐ（α）／Σ（ｘ）
Ｐ’（α−β＋γ）＝Ｐ（α−β＋γ）／Σ（ｘ−ｙ＋ｚ）
Ｐ’（α−β＋＊）＝Ｐ（α−β＋＊）／Σ（ｘ−ｙ＋＊）
である。

求められた正規化音素出現確率は、音素選択部４８に入力される。そして、音素選択部４８は、正規化音素出現確率が大きい対象音素を選択し、高出現確率音素を出力する。
このように、音素出現確率を正規化することで、音素出現確率の幅を０〜１にすることができ、結果として閾値Ｔｈ_１を定めやすくなるという効果を得ることができる。

図８に音響モデル作成装置３００の機能構成例を示す。実施例６の音響モデル作成装置３００は、音響モデル作成装置２００と比較して、統計量強化部５１、重み増強強化統計量記憶部５２を具備する点で異なる。統計量強化部５１は、音素毎に、強化統計量に対して、当該音素の音素出現確率から求まる値を重み係数として、重み付けして、前記強化統計量として出力する。このようにすることで、音素出現確率が高い対象音素の強化統計量を重みを付けることができ、実施例１〜５で説明した音響モデル作成装置より、音素出現確率を反映した強化音響モデルを求めることができる。音素出現確率Ｐ（α）から求まる値とは、音素出現確率Ｐ（α）そのものでもよく、音素出現確率Ｐ（α）と比例関係にある関数Ｗ（Ｐ（α））でもよい。関数Ｗ（Ｐ（α））とは例えば、以下の式で表される。
Ｗ（Ｐ（α））＝Ｐ（α）／ΣＰ（ｘ）
ただし、ΣＰ（ｘ）は、全ての対象音素ｘの音素出現確率の総和を示す。

上記式（２）の事後確率ｒ_ｔの記載について以下のように変更する。音素αについて、元の状態ｊ、現在の状態ｉ、混合分布ｍの事後確率をｒ（α、ｉ、ｊ、ｍ）とする。そうすると、統計量強化部５１は、事後確率ｒ（α、ｉ、ｊ、ｍ）に対して重み係数Ｐ（α）またはＷ（Ｐ（α））を乗算する（重みつけする）ことで重み増強事後確率を求め、当該重み増強事後確率からそのほかの統計量（例えば、分散や平均ベクトル）を求め、強化統計量として出力する。なお、以下の式は重み係数として関数Ｗ（Ｐ（α））を用いた場合を示す。
ｒ’（α、ｉ、ｊ、ｍ）＝Ｗ（Ｐ（α））・ｒ（α、ｉ、ｊ、ｍ）
そして、重み増強強化統計量は重み増強強化統計量記憶部５２に記憶される。合成部２６は、十分統計量と重み増強強化統計量とから強化音響モデルを作成する。

図９に、音素α_１と他の音素α_２の音素モデルの概念図を示す。図９に示すように音素α_１と音素α_２を音素モデルとして表した際に、音素α_１と音素α_２がそれぞれ、３つの状態を有している場合を考える。音素α_１が有する３つの状態を第１状態Ｓ_１１、第２状態Ｓ_１２、第３状態Ｓ_１３とし、音素α_２が有する３つの状態を第１状態Ｓ_２１、第２状態Ｓ_２２、第３状態Ｓ_２３とする。状態共有により、異なる音素α_１、α_２であっても、同じ状態として扱われる場合がある。また、上述のように、強化統計量に関わる重みは音素で計算される。また、強化統計量は状態毎に存在する。

図９に示すように例えば、音素α_１についての第２状態Ｓ_１２と音素α_２についての第２状態Ｓ_２２が、状態共有により、同じ状態として扱われるとする。音素α_１の第２状態Ｓ_１２の重み係数をＷ（Ｓ_１２）とし、音素α_２の第２状態Ｓ_２２の重み係数をＷ（Ｓ_２２）とする。そうすると、音素α_２の第２状態Ｓ_２２の重み係数は以下のように新しく求められる。ただし、新しく求められた重み係数をＷ’（Ｓ_{１２＋２２}）とする。
Ｗ’（Ｓ_{１２＋２２}）＝Ｗ（Ｓ_１２）＋Ｗ（Ｓ_２２）

具体的な手法として、音素α_１と第ｐ状態Ｓ_１ｐの組から、状態ＩＤ：ｑへマッピングするテーブルを出現確率計算部４４中の記憶部（図示せず）に記憶しておき、状態共有により同一の状態ＩＤ：ｑとなる音素α_２と状態Ｓ_１ｑがあれば、それぞれの重み係数の和を計算すればよい。この概念は音素が２つ（α_１とα_２）のみではなく、音素が３つ以上ある場合にも適用できる。また、環境独立音素についてのみ説明したが、片側依存音素、両側依存音素についても適用できる。

このように、音素出現確率から求まる値（音素出現確率Ｐ（α）または音素出現確率に比例する関数Ｗ（Ｐ（α））を重み係数として、強化統計量に乗算することで、実施例１〜６で説明した音響モデル作成装置より、音素出現確率を反映した強化音響モデルを求めることができる。

＜ハードウェア構成＞
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、音響モデル作成装置２００が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記憶しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記憶装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記憶したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記憶されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、本実施例で説明した音響モデル作成装置２００は、ＣＰＵ（Central Processing Unit）、入力部、出力部、補助記憶装置、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）及びバスを有している（何れも図示せず）。

ＣＰＵは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、ＲＡＭは、ＳＲＡＭ(Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等である。また、バスは、ＣＰＵ、入力部、出力部、補助記憶装置、ＲＡＭ及びＲＯＭを通信可能に接続している。

＜ハードウェアとソフトウェアとの協働＞
本実施例の単語追加装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、ＣＰＵがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。
音響モデル作成装置２００の図示しない入力部、出力部は、所定のプログラムが読み込まれたＣＰＵの制御のもと駆動するＬＡＮカード、モデム等の通信装置である。その他の出現確率計算部４４などは、所定のプログラムがＣＰＵに読み込まれ、実行されることによって構築される演算部である。記憶部は前記補助記憶装置として機能する。

従来の音響モデル作成装置の機能構成例を示したブロック図。実施例１の音響モデル作成装置の機能構成例を示したブロック図。本実施例の処理フローを示した図。発音辞書の一例を示した図。言語モデルの一例を示した図。音素系列言語モデルの一例を示した図。音素出現確率の一例を示した図。実施例６の音響モデル作成装置の機能構成例を示したブロック図。状態共有を示した概念図。

Claims

発音辞書記憶部に記憶されている発音辞書を用いて、言語モデル記憶部に記憶されている言語モデル中の単語を音素系列に変換する変換過程と、
全ての対象音素ごとに、当該対象音素を含む音素系列の出現確率の総和を当該対象音素の出現確率（以下、「音素出現確率」という。）として求める出現確率計算過程と、
音素出現確率が高い対象音素（以下、「高出現確率音素」という。）を選択する音素選択過程と、
学習データ記憶部から、前記高出現確率音素を含む音素系列についての学習データを抽出して、強化学習データとする強化学習データ選択過程と、
前記強化学習データと前記ベース音響モデルから強化統計量を計算する強化学習過程と、
学習データ記憶部からの学習データについての十分統計量と前記強化統計量とから強化音響モデルを作成する合成過程と、
を備える音響モデル作成方法。
請求項１記載の音響モデル作成方法であって、
前記出現確率計算過程は、前記対象音素を環境独立音素として、前記音素系列中の全ての環境独立音素ごとに、当該環境独立音素を含む単語のユニグラム確率の総和、当該環境独立音素を含む単語のバイグラム確率の総和、当該環境独立音素を含む単語のトライグラム確率の総和、のうち少なくとも１つを用いて、音素出現確率を求める第１確率計算ステップを有するものであることを特徴とする音響モデル作成方法。
請求項１または２記載の音響モデル作成方法であって、
前記出現確率計算過程は、前記対象音素を片側環境依存音素として、前記音素系列中の全ての片側環境依存音素ごとに、当該片側環境依存音素を含む単語のユニグラム確率の総和、当該片側環境依存音素を含む単語のバイグラム確率の総和、当該片側環境依存音素を含む単語のトライグラム確率の総和、のうち少なくとも１つを用いて、音素出現確率を求める第２確率計算ステップを有するものであることを特徴とする音響モデル作成方法。
請求項１〜３何れかに記載の音響モデル作成方法であって、
前記出現確率計算過程は、前記対象音素を両側環境依存音素として、前記音素系列中の全ての両側環境依存音素ごとに、当該両側環境依存音素を含む単語のユニグラム確率の総和、当該両側環境依存音素を含む単語のバイグラム確率の総和、当該両側環境依存音素を含む単語のトライグラム確率の総和、のうち少なくとも１つを用いて、音素出現確率を求める第３確率計算ステップを有するものであることを特徴とする音響モデル作成方法。
請求項１〜４何れかに記載の音響モデル作成方法であって、
前記出現確率計算過程は、予め定められた閾値以上の音素数を持つ音素系列の出現確率の総和を演算することを特徴とする音響モデル作成方法。
請求項１〜５何れかに記載の音響モデル作成方法であって、
前記確率計算過程は、計算された音素出現確率を、対象音素の全ての出現確率で除算することで、正規化音素出現確率を求める正規化ステップを有し、
前記音素選択過程は、正規化音素出現確率が大きい対象音素を選択することを特徴とする音響モデル作成方法。
請求項１〜６何れかに記載の音響モデル作成方法であって、
更に、音素毎に、前記強化統計量に対して、当該音素の音素出現確率から求まる値を重み係数として、重み付けして、前記強化統計量として出力する統計量強化過程を有することを特徴とする音響モデル作成方法。
言語モデルを記憶する言語モデル記憶部と、
発音辞書記憶部に記憶されている発音辞書を用いて、前記言語モデル中の単語を音素系列に変換する変換部と、
全ての対象音素ごとに、当該対象音素を含む音素系列の出現確率の総和を当該対象音素の出現確率（以下、「音素出現確率」という。）として求める出現確率計算部と、
音素出現確率が高い対象音素（以下、「高出現確率音素」という。）を選択する音素選択部と、
学習データ記憶部から、前記高出現確率音素を含む音素系列についての学習データを抽出して、強化学習データとする強化学習データ選択部と、
前記強化学習データと前記ベース音響モデルから強化統計量を計算する強化学習部と、
学習データ記憶部からの学習データについての十分統計量と前記強化統計量とから強化音響モデルを作成する合成部と、
を備える音響モデル作成装置。
請求項８記載の音響モデル作成装置であって、
更に、音素毎に、前記強化統計量に対して、当該音素の音素出現確率から求まる値を重み係数として、重み付けして、前記強化統計量として出力する統計量強化部を有することを特徴とする音響モデル作成装置。
請求項１〜７何れかに記載の音響モデル作成方法の各過程をコンピュータに実行させるためのプログラム。
請求項１０に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。