JP4705557B2

JP4705557B2 - 音響モデル生成装置、方法、プログラム及びその記録媒体

Info

Publication number: JP4705557B2
Application number: JP2006317361A
Authority: JP
Inventors: 哲小橋川; 克年大附
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-11-24
Filing date: 2006-11-24
Publication date: 2011-06-22
Anticipated expiration: 2026-11-24
Also published as: JP2008129527A

Description

本発明は、入力された音声信号から計算した音響特徴パラメータ系列に対して、各音素の音響的特徴を表現した確率モデルを作成する音響モデル生成装置、方法、プログラム及びその記録媒体に関する。

従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル（Hidden Markov Model；以下「ＨＭＭ」と表す。）によってモデル化して音響モデルを作成する手法は、認識性能が高く、現在の音声認識技術の主流となっている。ＨＭＭについては、例えば非特許文献１に詳しい。

図３を参照して、従来技術による音響モデル生成装置の例について説明する。図３は、従来技術による音響モデル生成装置９の機能構成を例示する図である。図４は、従来技術による音響モデル生成方法の処理手順を例示する図である。
音響モデル生成装置９は、音声データとこの音声データに音素等を対応付けたラベルとから構成される学習データが記録された学習データ記録部１１、学習前の音響モデルであるベース音響モデルが記録されたベース音響モデル記録部１２、学習部１３、音響パラメータを計算するために必要な統計量である十分統計量が記録された十分統計量記録部１４、モデル合成部１５、学習後の音響モデルが記録される音響モデル記録部１６から構成される。

学習部１３は、学習データ記録部１１から読み出した学習データと、ベース音響モデル記録部１２から読み出したベース音響モデルとから統計量の蓄積を行って十分統計量を計算する（ステップＳ９１）。計算された十分統計量は十分統計量記録部１４に格納される。十分統計量については、例えば非特許文献２に詳しい。
モデル合成部１５は、十分統計量記録部１４から読み出した十分統計量を用いて学習後の音響モデルを生成する（ステップＳ９２）。生成された音響モデルは音響モデル記録部１６に記録される。学習部１３の処理とモデル合成部１５の処理は、例えば非特許文献２に詳しい。
中川聖一著，「確率モデルによる音声認識」，電子情報通信学会編，コロナ社，１９８８年７月 Lawrence Rabiner, Biing-Hwang Juang 共著，古井貞熙監訳，「音声認識の基礎（下）」，ＮＴＴアドバンステクノロジ、１９９５年

従来技術の音響モデル生成装置９では、学習データにおける出現頻度が高い音素系列を持つ単語ほど、認識されやすいように音響モデルが生成される。逆に言えば、学習データにおける出現頻度が低い音素系列を持つ単語ほど、音響モデルで認識されづらくなる。このため、認識しようとする重要単語・キーワードの音素系列が、学習データに含まれる割合が小さい場合には、この重要単語・キーワードの認識性能が低くなるという問題があった。

本発明は、学習データ記録手段から読み出した学習データと、ベース音響モデルとから十分統計量を計算する。所定のキーワードと称呼が同一及び／又は類似のキーワードを含む学習データを上記学習データ記録手段から抽出して、強化学習データとする。上記強化学習データと上記ベース音響モデルから強化十分統計量を計算する。上記十分統計量と、上記強化十分統計量に重みをかけたものとから強化音響モデルを生成する。

所定のキーワードと同一及び／又は類似のキーワードを含む学習データから計算した強化十分統計量に重みを付けて強化音響モデルを生成することにより、その所定のキーワードの認識性能を改善することができる。また、これにより、誤って認識する単語の数が減少するため、音声認識性能を改善することができる。

図１と図２を参照して、本発明による音響モデル生成装置１について説明する。図１は、音響モデル生成装置１の機能構成を例示する図である。図２は、音響モデル生成装置１の処理を例示する図である。
図１に例示するように、音響モデル生成装置１は、学習データ記録部１１、ベース音響モデル記録部１２、学習部１３、音響パラメータを計算するために必要な統計量である十分統計量が記録された十分統計量記録部１４、強化キーワードリスト記録部２１、強化学習データ選択部２２、強化学習データ記録部２３、強化学習部２４、強化十分統計量記録部２５、強化モデル合成部２６、学習後の音響モデルである音響モデルが記録される強化音響モデル記録部２７、から構成される。

＜ステップＳ１＞
学習データ記録部１１には、音声データとこの音声データに音素等を対応付けたラベルとから構成される学習データが複数予め格納されている。ベース音響モデルには、学習前の音響モデルであるベース音響モデルが予め格納されている。
学習部１３は、学習データ記録部１１から読み出した学習データと、ベース音響モデルから読み出したベース音響モデルとから、十分統計量を計算して十分統計量記録部１４に格納する（ステップＳ１）。

以下、十分統計量について説明する。十分統計量とは、ＨＭＭを特徴付けるパラメータであり、遷移確率に関わる統計量、混合正規分布の混合重み、平均、分散に関わる統計量等である。具体的には、音響モデルλと、観測系列Ｏが与えられたとき、時刻ｔに状態ｉに存在し、時刻ｔ＋１に状態ｊに存在する確率ξ_ｔ（ｉ，ｊ）、また、音響モデルλと観測系列Ｏが与えられ、状態はＮ個の状態から構成されるとき、時刻ｔに状態ｉに存在する確率γ_ｔ（ｉ）をそれぞれ、

とする。このとき、音響モデルパラメータである、時刻ｔ＝１に状態ｉに存在すると期待される頻度（回数）π_ｊ、状態遷移確率ａ_ｉｊ、状態ｊで特徴ベクトルｖ_ｋが観測される確率ｂ_ｊ（ｋ）、状態ｉのｍ番目の混合分布に対する混合重み係数ｃ_ｊｍ、状態ｉのｍ番目の混合分布の平均ベクトルμ_ｊｍ、共分散行列Ｕ_ｊｍは、例えば、それぞれ次のように定義される。

ここで、プライムはベクトルの転置を表し、γ_ｔ（ｉ，ｋ）は、観測された特徴量ｏ_ｔを考慮したときに、時刻ｔに状態ｉのｍ番目の混合要素に存在する確率である。

このとき、上記式の分子と分母に記載された各数式で定義される値がそれぞれ十分統計量となる。すなわち、ａ_ｉｊについては、Σ_ｔ＝１ ^Ｔ−１ξ_ｔ（ｉ，ｊ）と、Σ_ｔ＝１ ^Ｔ−１γ_ｔ（ｉ）とがそれぞれ十分統計量となる。また、ｂ_ｊ（ｋ）についは、Σ_{ｔ＝１（ｓ．ｔ．ｏｔ＝Ｖｋ）} ^Ｔγ_ｔ（ｊ）と、Σ_ｔ＝１ ^Ｔγ_ｔ（ｊ）とがそれぞれ十分統計量となる。ｃ_ｉｍ，μ_ｉｍ，Ｕ_ｊｋについても同様である。なお、π_ｉについては、γ_１（ｉ）が十分統計量となる。これらの十分統計量は、学習データ記録部１１から読み出した学習データを用いて、例えば、Ｂａｕｍ−Ｗｅｌｃｈアルゴリズム等の既存のアルゴリズムを用いて推定することができる。Ｂａｕｍ−Ｗｅｌｃｈアルゴリズムは、非特許文献２に詳しい。
なお、後述するように、十分統計量は、学習データ記録部１１に記録された学習データ毎に計算される。

＜ステップＳ２＞
強化キーワードリスト記録部２１には、所定のキーワードのリストが記録されている。所定のキーワードとは、例えば、認識性能を改善したいキーワードや、誤認識キーワードであり、ステップＳ２の処理に先立ち予め登録しておく。ここで、本発明において、キーワードとは、ひとつの単語に限らず、複数の単語から構成される分節や、キーフレーズをも意味することにする。

強化学習データ選択部２２は、強化キーワードリスト記録部２１から読み出したキーワードと同一及び／又は類似のキーワードを含む学習データを、学習データ記録部１１から抽出して、強化学習データを作成する（ステップＳ２）。作成された強化学習データは、強化学習データ記録部２３に記録される。

例えば、強化学習データ選択部２２は、ある学習データの一部に所定のキーワードと同一及び／又は類似のキーワードが含まれている場合には、その学習データのうち所定のキーワードと同一及び／又は類似のキーワードに係る部分の学習データを抜き出して強化学習データとする。また、所定のキーワードと同一及び／又は類似のキーワードが含まれている文節や文や発話や発声を抜き出して、強化学習データとしてもよい。さらに、例えば、学習データが、発話・発声毎に作成されている場合には、所定のキーワードと同一及び／又は類似のキーワード含まれている学習データの全体を抜き出して強化学習データを作成しても良い。

「同一及び／類似のキーワード」とは、同一のキーワードと類似のキーワードの何れか一方のキーワード、又は、同一のキーワードと類似のキーワードの両方のキーワードを意味する。すなわち、「強化キーワードリスト記録部２１から読み出したキーワードと同一及び／類似のキーワード」とは、強化キーワードリスト記録部２１から読み出したキーワードと同一のキーワードと強化キーワードリスト記録部２１から読み出したキーワードと類似のキーワードとの何れか一方のキーワード、又は、強化キーワードリスト記録部２１から読み出したキーワードと同一のキーワードと強化キーワードリスト記録部２１から読み出したキーワードと類似のキーワードの両方のキーワードを意味する。

学習データの中に所定のキーワードと同一のキーワードが含まれていない場合に、又は、学習データの中に含まれている、所定のキーワードと同一のキーワードの数が少ない場合に、所定のキーワードと類似のキーワードを含む学習データを抽出することにするとよい。これにより、後述する強化十分統計量の量を確保することができ、認識性能を向上することができる。もちろん、学習データの中に含まれている、所定のキーワードと同一のキーワードの数が多い場合も、所定のキーワードと類似のキーワードを含む学習データを抽出してもよい。

なお、所定のキーワードと同一のキーワードとは、称呼と観念が共通しているキーワードだけではなく、称呼が共通しているが観念が異なるキーワードを含んでもよい。例えば、「雲」と「蜘蛛」は、称呼が「クモ」で共通しているが、観念が異なる。所定のキーワードである「雲」と称呼と観念が共通するキーワード「蜘蛛」が含まれている学習データの数が少ない場合には、「雲」と称呼が共通しているが観念が異なるキーワード「蜘蛛」を含む学習データを抽出することにしてもよい。このように、観念が異なるが称呼が共通するキーワードを含む学習データも抽出することにより、後述する強化十分統計量の量を確保することができ、認識性能を向上することができる。

なお、所定のキーワードと類似しているかどうかの類比判断は例えば以下のようにして行うことができる。所定のキーワードを構成する音素と、類比判断の対象となるキーワードを構成する音素を比較して、一致する音素の割合が閾値ｚ_１以上である場合に類似していると判断する。かかる場合には、強化学習データ選択部２２の音素系列変換部３１が、強化キーワードリスト記録部２１から読み出した各キーワードを音素系列に変換する。強化学習データ選択部２２は、所定のキーワードを構成する音素と、類比判断の対象となるキーワードを構成する音素を比較して、一致する音素の割合が閾値ｚ_１以上である場合に類似していると判断する。

また、強化学習データ選択部２２が、所定のキーワードと、類比判断の対象となるキーワードとについて音韻論上の音素間類似距離を求め、その距離の総和の逆数が閾値ｚ_２以上であるかどうかにより類比を判断してもよい。かかる場合、音素系列変換部３１が所定のキーワードを音素系列に変換し、強化学習データ選択部２２の距離計算部３２が音韻論上の音素間類似距離を計算する。

さらに、強化学習データ選択部２２が、ベース音響モデル記録部１２から読み出したベース音響モデルにおいて、所定のキーワードを構成する音素と、類比判断の対象となるキーワードを構成する音素との分布間距離を求め、その距離の総和の逆数が閾値ｚ_３以上であるかどうかにより類比を判断してもよい。すなわち、分布間距離の和を求めることにより状態間距離を求め、その状態間距離の和を求めることにより音素間の距離を求め、その音素間の距離から類比の判断を行う。かかる場合、音素系列変換部３１が強化キーワードリスト記録部２１から読み出した所定のキーワードを音素系列に変換し、距離計算部３２’が分布間距離を計算する。

＜ステップＳ３＞
強化学習部２４は、強化学習データ記録部２３から読み出した強化学習データから、強化十分統計量を計算する（ステップＳ３）。計算された強化十分統計量は、強化十分統計量記録部２５に格納される。
強化十分統計量は、強化学習データ記録部２３から読み出した強化学習データに基づいて計算された十分統計量のことである。すなわち、十分統計量と強化十分統計量は、数式で表現した定義は同じであるが、十分統計量は学習データ記録部１１から読み出した学習データに基づいて計算されたものであるのに対し、強化十分統計量は強化学習データ記録部２３から読み出した強化学習データに基づいて計算されたものである点において異なる。強化十分統計量の計算方法は、ステップＳ１で説明した十分統計量の計算方法と同様である。

＜ステップＳ４＞
強化モデル合成部２６は、十分統計量記録部１４から読み出した十分統計量と、強化十分統計量記録部２５から読み出した強化十分統計量に重みをかけたものとから強化音響モデルを生成する（ステップＳ４）。生成された強化音響モデルは、強化音響モデル記録部２７に格納される。
ステップＳ１の処理において複数の学習データからＧ個の十分統計量が得られたとする。このとき、十分統計量は、ｇ＝１，…，Ｇとして、

と表現される。

また、ステップＳ３の処理において複数の強化学習データからＨ個の強化十分統計量が得られたとする。このとき、強化十分統計量は、ｈ＝１，…，Ｈとして、

と表現される。

このとき、強化モデル合成部２６は、下式で各音響パラメータを計算することにより、強化音響モデルを生成する。

ここで、ｗ^ｈ（ｈ＝１，…，Ｈ）は、強化十分統計量にかけられる重みであり１以上の数である。重みｗ^ｈ（ｈ＝１，…，Ｈ）は、同一の値であってもよいし、互いに異なる値であってもよい。例えば、所定のキーワードと同一のキーワードに係る学習データから計算された十分統計量にかける重みを、所定のキーワードと類似のキーワードに係る学習データから計算された強化十分統計量にかける重みよりも大きくすることができる。このように、より信頼性が高いデータにより大きな重みをつけることにより、さらに認識性能を向上させた音響モデルを生成することができる。

≪変形例等≫
図１に破線で示すように、生成された音響モデルの認識性能を評価する評価部４１、強化十分統計量にかける適切な重みを計算する重み決定部４０、評価対象データを近似した開発データが記録された開発データ記録部４２を設けて、強化十分統計量にかける適切な重みを決定するようにしてもよい。

音響モデル生成装置１は、予め定められた複数の重みに基づいてそれぞれ強化音響モデルを生成して、強化音響モデル記録部２７に格納する。評価部４１は、生成された強化音響モデル毎に、開発データ記録部４２から読み出した、評価対象データを近似した開発データについての認識精度を調べ、その認識精度についての評価値を重み決定部４０に出力する。重み決定部４０は、最も良い認識精度が得られた強化音響モデルに対応した重みを決定する。すなわち、重み決定部４０は、最も高い評価値が得られた強化音響モデルを生成するために用いた重みを選択して、その重みを強化モデル合成部２６に設定する。重み決定部４０で決定された重みについての情報は、強化モデル合成部２６に出力される。

また、閾値決定部４３を設けて、強化学習データ選択部２２の処理で用いる閾値についての適切な値を決定することができる。適切な閾値の決定方法は、上記説明した適切な重みの決定方法と同様である。すなわち、予め定められた複数の閾値に基づいてそれぞれ生成された強化音響モデル毎に、開発データについての認識精度を調べ、最も良い認識精度が得られた強化音響モデルを生成するために用いた閾値を、強化学習データ選択部２２で用いる閾値として設定する。なお、図１において、閾値決定部４３から出力され強化学習データ選択部２２に入力されているアスタリスク「＊」は、閾値決定部４３で決定された閾値についての情報が、強化学習データ選択部２２に入力されることを意味する。

なお、ステップＳ１の処理よりも、ステップＳ２とＳ３の処理を先に行ってもよいし、ステップＳ１の処理と、ステップＳ２とＳ３の処理を並列して行ってもよい。
上記音響モデル生成装置１の処理機能をコンピュータによって実現することができる。この場合、音響モデル生成装置１の処理機能の内容はプログラムによって記述される。そして、このプログラムを、図５に示すようなコンピュータで実行することにより、上記音響モデル生成装置１の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音響モデル生成装置１を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
以上の各実施形態の他、本発明である音響モデル生成装置、方法、プログラム及びその記録媒体は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

［実験例］
学習データ全４５２６４発話から、開発データにおける音声認識結果から誤認識となった６つのキーワードを含む２７１８発話を選択し、強化十分統計量の重みを５０倍とし、ベースとなる十分統計量と統合（マージ）して作成した強化音響モデルを用いることで、キーワード再現率を８２．４％から８３．６％へと改善した（誤り削減率６．５％）。

本発明による音響モデル生成装置の機能構成を例示する図。本発明による音響モデル生成装置の処理を例示する図。従来技術による音響モデル生成装置の機能構成を例示する図。従来技術による音響モデル生成装置の処理を例示する図。本発明による音響モデル生成装置をコンピュータに実行させる場合の機能構成を例示する図。

符号の説明

１音響モデル生成装置
９音響モデル生成装置
１１学習データ記録部
１２ベース音響モデル記録部
１３学習部
１４十分統計量記録部
１５モデル合成部
１６音響モデル記録部
２１強化キーワードリスト記録部
２２強化学習データ選択部
２３強化学習データ記録部
２４強化学習部
２５強化十分統計量記録部
２６強化モデル合成部
２７強化音響モデル記録部
３１音素系列変換部
３２距離計算部
４０決定部
４１評価部
４２開発データ記録部
４３閾値決定部

Claims

学習データ記録手段から読み出した学習データと、ベース音響モデルとから十分統計量を計算する学習手段と、
所定のキーワードと称呼が同一及び／又は類似のキーワードを含む学習データを上記学習データ記録手段から抽出して、強化学習データとする強化学習データ選択手段と、
上記強化学習データと上記ベース音響モデルから強化十分統計量を計算する強化学習手段と、
上記十分統計量と、上記強化十分統計量に重みをかけたものとから強化音響モデルを生成する強化モデル合成手段と、
を有する音響モデル生成装置。
請求項１に記載の音響モデル生成装置において、
上記強化学習データ選択手段は、
上記所定のキーワードを音素系列に変換し、上記変換された音素系列と他の音素系列を音素毎に一致しているかどうかを比較することにより、上記所定のキーワードと称呼が同一及び／又は類似のキーワードを含む学習データを抽出する手段である、
ことを特徴とする音響モデル生成装置。
請求項１に記載の音響モデル生成装置において、
上記強化学習データ選択手段は、
上記所定のキーワードと、類比判断の対象となるキーワードとについて音韻論上の音素間類似距離を求めることにより、上記所定のキーワードと称呼が同一及び／類似のキーワードを含む学習データを抽出する手段である、
ことを特徴とする音響モデル生成装置。
請求項１に記載の音響モデル生成装置において、
上記強化学習データ選択手段は、
上記所定のキーワードを音素系列に変換し、上記変換された音素系列と他の音素系列の、上記ベース音響モデルにおける音素毎の分布間距離の和を計算することにより、上記所定のキーワードと称呼が同一及び／又は類似のキーワードを含む学習データを抽出する手段である、
ことを特徴とする音響モデル生成装置。
請求項１から４の何れかに記載の音響モデル生成装置において、
上記所定のキーワードと称呼が同一のキーワードには、観念が異なるが称呼が共通しているキーワードが含まれる、
ことを特徴とする音響モデル生成装置。
請求項１から５の何れかに記載の音響モデル生成装置において、
上記強化モデル合成手段における、上記所定のキーワードと称呼が同一のキーワードを含む学習データから計算された強化十分統計量にかける重みの方が、上記所定のキーワードと称呼が類似のキーワードを含む学習データから計算された強化十分統計量にかける重みよりも大きい、
ことを特徴とする音響モデル生成装置。
請求項１から６の何れかに記載の音響モデル生成装置において、
請求項１から６の何れかに記載の音響モデル生成装置により複数の重みに基づいてそれぞれ生成された強化音響モデル毎に、評価対象データを近似したデータについての認識精度を調べ、最も良い認識精度が得られた強化音響モデルに対応した重みを、上記強化十分統計量にかける重みとする重み決定手段を有する、
ことを特徴とする音響モデル生成装置。
学習データ記録手段から読み出した学習データと、ベース音響モデルとから十分統計量を計算する学習ステップと、
所定のキーワードと称呼が同一及び／又は類似のキーワードを含む学習データを上記学習データ記録手段から抽出して、強化学習データとする強化学習データ選択ステップと、
上記強化学習データと上記ベース音響モデルから強化十分統計量を計算する強化学習ステップと、
上記十分統計量と、上記強化十分統計量に重みをかけたものとから強化音響モデルを生成する強化モデル合成ステップと、
を有する音響モデル生成方法。
請求項１から７に記載の何れかの音響モデル生成装置の各手段としてコンピュータを機能させるための音響モデル生成プログラム。
請求項９に記載の音響モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体。