JP6216809B2

JP6216809B2 - パラメータ調整システム、パラメータ調整方法、プログラム

Info

Publication number: JP6216809B2
Application number: JP2016013093A
Authority: JP
Inventors: 智子川瀬; 隆朗福冨; 岡本　学; 学岡本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-01-27
Filing date: 2016-01-27
Publication date: 2017-10-18
Anticipated expiration: 2036-01-27
Also published as: JP2017134197A

Description

本発明は、発話データの音声信号を音声認識する技術に関し、特に雑音抑圧処理や音声認識処理に係る各パラメータを最適化する技術に関する。

雑音下で音声認識精度を向上させる技術として、複数用意した適応用データセット各々とベースとなる音響モデル（以下、ベース音響モデルという）から合成した複数の合成後音響モデル各々に対して、調整用データを入力し、音声認識精度が最も高い合成後音響モデルを最適音響モデルとして選択する技術がある（特許文献１）。ここでは、音響モデルとして広く用いられているＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（ＨＭＭ）を採用、適応用データセットを音響分析した結果をＨＭＭの出力確率とし、ベース音響モデルのＨＭＭをもとにＨＭＭの状態遷移確率を学習することで利用環境に適応した合成後音響モデルが構成される。このとき、適応用データセットを複数に分割しているため、ベース音響モデルとの合成を別々の計算機で並列実行できる上、合成後音響モデルの中から調整用データに適するものを選択するため、音声認識精度が向上する。

また、雑音抑圧を目的とした収音処理側のパラメータ最適化技術として、反復スペクトルサブトラクションの反復回数を、ミュージカルノイズや音声歪みが小さくなるように、雑音の定常性に応じて最適に決定する技術もある（非特許文献１）。

特開２００５−３２６６７２号公報

三宅亮太、福森隆寛、中山雅人、西浦敬信、"反復スペクトル減算のための連検定に基づく雑音環境識別手法の検討"、信学技報IEICE Technical Report SIP2014-73、電子情報通信学会、２０１４年８月、pp.7-12．

しかし、音声認識精度をより向上させるには、多様な収音処理側のパラメータや音声認識処理側のパラメータを調整する必要がある。調整対象となるパラメータの例として、ウィーナーフィルタリング時のフロアリング係数、信号のパワーを時間平均する際の平均時間、信号のパワーを時間平均する際の重みづけ係数、雑音パワー計算時の信号の時間平滑化に用いる平滑化係数、ディップホールド時の推定雑音レベルの上昇係数、尤度計算時の音響尤度と言語尤度の比がある。しかも、これらのパラメータを周波数帯域毎に調整する必要があるため、調整すべきパラメータは数十種類以上にもなる。

パラメータの値と音声認識精度の関係は決定論的に求められないため、音声認識精度を向上させるようなパラメータ値を計算により求めることができない。したがって、音声認識装置のパラメータの調整に非常に手間がかかってしまうという問題がある。

そこで、音声認識精度を最大化するように音声認識装置のパラメータを調整するパラメータ調整システムを提供することを目的とする。

本発明の一態様は、ｉを１以上の整数として、音声認識精度を最適化するために用いる学習データを用いて、第ｉパラメータセット候補群のパラメータセット値の評価指標の値の集合である第ｉ評価指標群を生成する音声認識装置と、前記第ｉ評価指標群を用いて、前記評価指標の値が最も高い最適パラメータセット値を生成するパラメータ調整装置とからなるパラメータ調整システムであって、前記パラメータ調整装置は、前記第ｉ評価指標群を用いて、前記第ｉパラメータセット候補群から評価指標の値が上位のパラメータセット値を要素とする第ｉパラメータセット群を生成するパラメータセット群生成部と、終了条件を満たしているか否かを示す判定結果を生成する終了条件判定部と、前記判定結果が継続を示す場合、前記第ｉパラメータセット群から第ｉ＋１パラメータセット候補群を生成し、前記音声認識装置に出力するパラメータセット候補群生成部と、前記判定結果が終了を示す場合、前記第ｉパラメータセット群から評価指標の値が最も高いパラメータセット値を選択し、前記最適パラメータセット値として出力する出力生成部とを有する。

本発明によれば、多数のパラメータを要素として含むパラメータセットの値を繰り返し調整することにより、学習データの音声信号の音声認識精度を最大化する最適パラメータセット値を生成することが可能となる。

パラメータ調整システム２００の構成を示すブロック図。パラメータ調整システム２００の動作を示すフローチャート。パラメータ調整装置１００の構成を示すブロック図。パラメータ調整装置１００の動作を示すフローチャート。パラメータ調整装置３００の構成を示すブロック図。パラメータ調整装置３００の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１、２を参照して音声認識装置９００とパラメータ調整装置１００を含むパラメータ調整システム２００について説明する。図１は、パラメータ調整システム２００の構成を示すブロック図である。図２は、パラメータ調整システム２００の動作を示すフローチャートである。図１に示すようにパラメータ調整システム２００は、音声認識装置９００と、パラメータ調整装置１００を含む。パラメータ調整システム２００は、学習データ記録部２０１、第１パラメータセット候補群記録部２０２と接続している。

パラメータセットは調整対象となる音声認識装置９００のＫ個のパラメータを要素として含む。このＫ個のパラメータは整列されており、それぞれ第１パラメータ要素、…、第Ｋパラメータ要素と呼び、ｐ_１、…、ｐ_Ｋと表すこととする。また、パラメータセットを［ｐ_１，…，ｐ_Ｋ］と表す。なお、第ｋパラメータ要素ｐ_ｋ（１≦ｋ≦Ｋ）のｋのことをパラメータ要素番号という。

本実施形態では、Ｋが数十から数百の値をとり、人手での調整が困難であることを想定している。パラメータ調整装置１００を用いてパラメータセット値を自動調整するために、各パラメータの取り得る値を定義しておく。パラメータには離散値をとるものと連続値をとるものとがあるが、本実施形態では、簡単のため連続値をとるパラメータについては離散値に量子化して扱う。連続値を離散値とするために用いる量子化ステップは人手により適当な値を設定する。

学習データ記録部２０１には、調整対象である音声認識装置９００の最適なパラメータ値の組（最適パラメータセット値）を生成するために用いる学習データを記録しておく。最適パラメータセット値とは、学習データの音声信号の音声認識精度を最大化するパラメータの値の組のことである。学習データの集合Ｄは式（１）で表される。

ただし、Ｓ_ｑは雑音混入音声信号、Ｔ_ｑは発話の文字列（発話データ）、Ｑは学習データの集合Ｄの濃度である学習データ量である（ｑ＝１，…，Ｑ）。Ｓ_ｑはＴ_ｑを読み上げた音声信号である。つまり、Ｔ_ｑはＳ_ｑの正解文字列に相当するものである。

第１パラメータセット候補群記録部２０２には、音声認識装置９００の各パラメータ要素の初期値の組（パラメータセットの初期値）を記録しておく。このパラメータセットの初期値のことを第１パラメータセット候補群といい、その値は人手で決定する。Ｎ_ｉｎｉ個（Ｎ_ｉｎｉは２以上の整数）のパラメータセット値を第１パラメータセット候補群として用意し第１パラメータセット候補群記録部２０２に記録しておく。

また、音声認識装置９００は、収音処理部９１０と、音声認識部９２０を含む。収音処理部９１０と音声認識部９２０は、特許文献１や非特許文献１のような既存の技術を用いて構成されるものである。どのような既存技術を採用するかにより、収音処理部９１０を構成するために必要なパラメータ、音声認識部９２０を構成するために必要なパラメータが決まることになる。

音声認識装置９００には第ｉパラメータセット候補群（ｉは１以上の整数）が設定される。つまり、パラメータ調整システム２００の処理開始時に、先ほどの第１パラメータセット候補群が設定されることになる。

収音処理部９１０は、学習データの音声信号である雑音混入音声信号Ｓ_ｑ（ｑ＝１，…，Ｑ）から雑音を抑圧した雑音抑圧音声信号を生成する。音声認識部９２０は、雑音抑圧音声信号を音声認識し、第ｉ評価指標群を生成する（Ｓ９００）。評価指標はパラメータセットの適切さを評価する指標であり、音声認識精度の程度を示す指標である。音声認識精度そのものは評価指標の例である。また、計算量削減のために、評価指標として音声認識精度と相関のある別の指標を用いてもよい。例えば、学習データの雑音混入音声信号に対応するクリーン音声信号が入手できる場合には、ケプストラム距離やＰＥＳＱ（ＰｅｒｃｅｐｔｕａｌＥｖａｌｕａｔｉｏｎｏｆＳｐｅｅｃｈＱｕａｌｉｔｙ）を評価指標として利用することができる。

第ｉ評価指標群は、第ｉパラメータセット候補群に含まれるパラメータセット値の数の評価指標の値を含むものとなる。したがって、第１パラメータセット候補群については、各パラメータセット値に対応する形で第１評価指標値がＮ_ｉｎｉ個得られる。

パラメータ調整装置１００は、音声認識装置９００が出力した第ｉパラメータセット候補群と第ｉ評価指標群を用いて第ｉパラメータセット群を生成し、終了条件を満たす場合は、第ｉパラメータセット群の中で評価指標の値が最も高いパラメータセット値を最適パラメータセット値として出力する（Ｓ１００）。

なお、第ｉパラメータセット候補群は、ｉ＝１のときはパラメータ調整システム２００の外部の第１パラメータセット候補群記録部２０２から、ｉ＞１のときはパラメータ調整装置１００の出力として与えられるものである。したがって、第１パラメータセット候補群を処理開始時点でパラメータ調整装置１００に保持するようにしておけば、音声認識装置９００の出力（つまり、パラメータ調整装置１００の入力）を第ｉ評価指標群のみとすることもできる。

以下、図３、４を参照してパラメータ調整装置１００について説明する。図３は、パラメータ調整装置１００の構成を示すブロック図である。図４は、パラメータ調整装置１００の動作を示すフローチャートである。図３に示すようにパラメータ調整装置１００は、パラメータセット群生成部１１０と、パラメータセット群記録部１０１と、終了条件判定部１２０と、パラメータセット候補群生成部１３０と、出力生成部１４０を含む。

パラメータセット群生成部１１０は、第ｉパラメータセット候補群と第ｉ評価指標群の組を用いて第ｉパラメータセット群を生成する（Ｓ１１０）。パラメータセット群生成部１１０はその内部に第１パラメータセット候補群と第１評価指標群の組、…、第ｉ−１パラメータセット候補群と第ｉ−１評価指標群の組（ｉ＝１のときはＮＵＬＬ）を保持しており、評価指標の値が高い上位Ｍ個（Ｍは１以上の整数）のパラメータセット値を第ｉパラメータセット群として生成する。

生成した第ｉパラメータセット群はパラメータセット群記録部１０１に記録される。その際、各パラメータセット値に対応する評価指標の値も組にして記録しておく。つまり、パラメータセット群記録部１０１には、第１パラメータセット群と対応する評価指標の値の集合、第２パラメータセット群と対応する評価指標の値の集合、…、第ｉパラメータセット群と対応する評価指標の値の集合が記録されている。

終了条件判定部１２０は、終了条件を満たしているか否かを示す判定結果を生成する（Ｓ１２０）。終了条件としては、“繰り返し回数があらかじめ設定した値Ｉ（Ｉは１以上の整数）に達した（終了条件１）”、“あらかじめ設定した値Ｊ（Ｊは１以上の整数）だけ、パラメータセット群に変動がない（上位Ｍ個に変動がない）状態が続いた（終了条件２）”またはその組み合わせ“終了条件１または終了条件２のいずれかが満たされた（ＪはＩ以下の整数）”などを用いればよい。

判定結果が継続を示す（終了条件を満たさない）場合、パラメータセット候補群生成部１３０は、第ｉパラメータセット群から、Ｎ個（Ｎは２以上の整数）のパラメータセット値からなる第ｉ+１パラメータセット候補群を生成する（Ｓ１３０）。生成された第ｉ+１パラメータセット候補群は音声認識装置９００に設定される。音声認識装置９００は先ほどの学習データに対して収音処理部９１０による処理、音声認識部９２０による処理を繰り返し、第ｉ+１評価指標群を生成する。

一方、判定結果が終了を示す（終了条件を満たした）場合は、出力生成部１４０は、パラメータセット群記録部１０１に記録されている第１パラメータセット群から第ｉパラメータセット群の中で評価指標の値が最も高いパラメータセット値を最適パラメータセット値として出力する（Ｓ１４０）。

なお、第ｉパラメータセット群に含まれるパラメータセット値の個数Ｍは、典型的にはＮ_ｉｎｉやＮより小さい値となる。より多くのパラメータセット値の候補を生成し、評価指標値が高いパラメータセット値を選択できるようにした方が、よりよい最適パラメータセット値が得られることが期待できるからである。
（パラメータセット候補群生成部１３０の動作）
以下、パラメータセット候補群生成部１３０の動作の詳細について説明する。パラメータセット候補群生成部１３０では、以下に述べる２つのパラメータセット値生成方法（方法Ｉ、方法ＩＩ）により第ｉパラメータセット群から第ｉ+１パラメータセット候補群を生成する。

第ｉパラメータセット群のＭ個のパラメータセット値から、方法Ｉのみを用いて第ｉ+１パラメータセット候補群のＮ個のパラメータセット値を生成してもよい。また、方法ＩＩのみを用いてＮ個のパラメータセット値を生成してもよい。Ｎ_１、Ｎ_２をＮ_１＋Ｎ_２＝Ｎ、１≦Ｎ_１，Ｎ_２≦Ｎを満たす整数とし、方法Ｉを用いてＮ_１個のパラメータセット値を生成、方法ＩＩを用いてＮ_２個のパラメータセット値を生成してもよい。

（方法Ｉ）
Ｍ個のパラメータセット値を含む第ｉパラメータセット群に含まれる少なくとも２つのパラメータセット値から、パラメータ要素ごとにその値をランダムに選択し、１つのパラメータセット値（以下、第ｉ+１パラメータセット候補群の要素を第ｉ+１パラメータセット値という）を生成する。

第ｉパラメータセット群に含まれるｍ番目（ｍは１以上Ｍ以下の整数）のパラメータセット値ｐ^ｉ,ｍは、第ｉパラメータセット群に含まれるｍ番目のパラメータセット値ｐ^ｉ,ｍの第ｋパラメータ要素の値をｐ_ｋ ^ｉ,ｍとすると、式（２）と表現できる。

このとき、｛ｐ^ｉ,１，…, ｐ^ｉ,Ｍ｝から生成されるｎ番目（ｎは１以上Ｎ以下の整数）のパラメータセット値ｐ^{〜ｉ＋１,ｎ}は式（３）と表される。

ここで、ｒ１,ｒ２,…,ｒＫはいずれも１以上Ｍ以下の整数であり、［ｒ１,ｒ２,…,ｒＫ］はランダムに生成されるものである。例えば、集合として｛ｒ１,ｒ２,…,ｒＫ｝＝｛ｍ１，ｍ２｝のときは、第ｉパラメータセット群に含まれるｍ１番目のパラメータセット値とｍ２番目のパラメータセット値（ｍ１、ｍ２は１以上Ｍ以下の整数）とからパラメータセット値ｐ^{〜ｉ＋１,ｎ}が生成されたことになる。

式（３）は、パラメータセット値ｐ^{〜ｉ＋１,ｎ}のパラメータ要素の値を、第ｉパラメータセット群のいずれかのパラメータセットの値から選択することを表している。

方法Ｉで生成する第ｉ＋１パラメータセット値の個数がＭでよい場合、式（３）で生成される１つのパラメータセット値を用いて式（４）のようにｎ番目のパラメータセット値（１≦ｎ≦Ｍ）を生成してもよい。

このようにすることにより、［ｒ１,ｒ２,…,ｒＫ］の生成が１回で済み、簡単にＭ個のパラメータセット値が得られる。

また、方法Ｉで生成する第ｉ＋１パラメータセット値の個数をＭ＋１個以上とする場合は、式（４）を用いてＭ個のパラメータセット値を生成した上で、式（３）を用いて残りのパラメータセット値を生成してもよい。もちろん、式（３）のみを用いてすべてのパラメータセット値を生成してもよい。

（方法ＩＩ）
第ｉパラメータセット群に含まれるパラメータセット値から、当該パラメータセット値の少なくとも１つのパラメータ要素の値を所定のステップだけ変動させることにより第ｉ＋１パラメータセット値を生成する。

ｐ^ｉ,ｍ（ｍは１以上Ｍ以下の整数）から生成される第ｉ＋１パラメータセット値は式（５）で表される。

ただし、δ_ｋ ^ｉ,ｍ（ｋは１以上Ｋ以下の整数）は変動ステップであり、以下の式（６）を満たす。

δ_ｋ ^ｉ,ｍ,＋（＞０）、δ_ｋ ^ｉ,ｍ,−（＜０）はいずれも離散値をとるパラメータの量子化ステップの値と等しい。

なお、１、−１以外の整数を用いて、δ_ｋ ^ｉ,ｍ,＋、δ_ｋ ^ｉ,ｍ,−を量子化ステップの整数倍となるように決定してもよい。この場合、変動ステップが大きくなるため、量子化ステップそのものを用いる場合に比べて、粗い近傍探索を行うことになる。

以下、δ_ｋ ^ｉ,ｍの決定方法を説明する。ｐ^ｉ,ｍからｐ＾^{ｉ＋１,ｍ}を生成する場合のδ_ｋ ^ｉ,ｍ（１≦ｋ≦Ｋ）の決定方法は、以下の２つの場合に応じて異なる方法をとる。
（場合１：ｉ＝１またはｐ^ｉ,ｍが第ｉパラメータセット候補群に含まれるパラメータセット値として方法Ｉにより生成されたものである場合）
ｐ^ｉ,ｍが第ｉパラメータセット候補群に含まれるパラメータセット値として方法Ｉにより生成されたものであるとは、ｐ^ｉ,ｍが第ｉパラメータセット候補群に含まれるパラメータセット値として第ｉ−１パラメータセット群から方法Ｉにより生成されたものであり、上位Ｍ個として第ｉパラメータセット群のパラメータセット値として残ったことを意味する。

なお、ｐ^ｉ,ｍが第ｉパラメータセット候補群に含まれるパラメータセット値として方法Ｉにより生成されたものであるのか、方法ＩＩにより生成されたものであるのかを示すフラグ、方法ＩＩで生成された場合は、ｐ^ｉ,ｍの生成元となった第ｉ−１パラメータセット群のパラメータセット値（以下、生成元第ｉ−１パラメータセット値という）、生成元第ｉ−１パラメータセット値に加えた変動ステップセットδ^{ｉ−１,ｍ}、生成元第ｉ−１パラメータセット値の第ｉ−１評価指標の値については、パラメータ調整装置１００が備える記録部に記録しておくものとする。もちろん、パラメータセット候補群生成部１３０の内部に記録しておいてもよい。

場合１では、ｐ^ｉ,ｍを第ｉパラメータセット群の平均ｔ^ｉに近づける方向へ移動するよう、δ_ｋ ^ｉ,ｍ（１≦ｋ≦Ｋ）を決定する。第ｉパラメータセット群の平均ｔ^ｉとは、第ｉパラメータセット群に含まれるパラメータセット値についてパラメータ要素ごとに求めた平均ｔ_ｋ ^ｉの組であり、式（７）で表せる。

このとき、δ_ｋ ^ｉ,ｍは式（８）で表せる。

つまり、ｐ^ｉ,ｍをパラメータ要素ごとに平均ｔ^ｉに近づけるよう、各δ_ｋ ^ｉ,ｍを決定する。

（場合２：場合１以外の場合）
場合１以外の場合とは、ｉ＞１かつｐ^ｉ,ｍが第ｉパラメータセット候補群に含まれるパラメータセット値として方法ＩＩにより生成されたものである場合を意味する。また、ｐ^ｉ,ｍが第ｉパラメータセット候補群に含まれるパラメータセット値として方法ＩＩにより生成されたものであるとは、ｐ^ｉ,ｍが第ｉパラメータセット候補群に含まれるパラメータセット値として第ｉ−１パラメータセット群のあるパラメータセット値（生成元第ｉ−１パラメータセット）から方法ＩＩにより生成されたものであり、上位Ｍ個として第ｉパラメータセット群のパラメータセット値として残ったことを意味する。

そこで、場合２では、変動結果と評価結果に基づいて変動コストを定義し、変動コストが低い方へ確率的に変動させるよう、δ_ｋ ^ｉ,ｍ（１≦ｋ≦Ｋ）を決定する。

まず、第ｋパラメータ要素ｐ_ｋの変動コストＪ_ｋを定義することを考える。一つのパラメータ要素に着目すると変動方向は正負の二択となるので、変動コストＪ_ｋを正方向の変動成分Ｊ_ｋ＋と負方向の変動成分Ｊ_ｋ−とに分解し（Ｊ_ｋ＋＞０、Ｊ_ｋ−＞０）、式（９）のように表すこととする。

次に、変動結果と評価結果に基づいて変動コストＪ_ｋを決定するか方法について説明する。ここで、先ほど説明したｐ^ｉ,ｍの生成元第ｉ−１パラメータセット値、ｐ^ｉ,ｍの生成元第ｉ−１パラメータセット値に加えた変動ステップセットδ^{ｉ−１,ｍ}、ｐ^ｉ,ｍの生成元第ｉ−１パラメータセット値の第ｉ−１評価指標値に加えて、ｐ^ｉ,ｍの第ｉ評価指標値を用いて、変動結果と評価結果について説明する。δ^{ｉ−１,ｍ}の要素δ_ｋ ^{ｉ−１,ｍ}がδ_ｋ ^ｉ,ｍ,＋のに等しいとき、第ｋパラメータ要素ｐ_ｋは正の方向へ変動したといい、δ_ｋ ^ｉ,ｍ,−のに等しいとき、第ｋパラメータ要素ｐ_ｋは負の方向へ変動したという。また、ｐ^ｉ,ｍの第ｉ評価指標値からｐ^ｉ,ｍの生成元第ｉ−１パラメータセット値の第ｉ−１評価指標値を減じた値を評価結果といい、評価結果が正の場合は改善したといい、評価結果が負の場合は改悪したという。

第ｋパラメータ要素ｐ_ｋの正方向への変動により、評価結果が改善した場合にはその評価結果の値に応じてＪ_ｋ＋を減算し、評価結果が改悪した場合にはその評価結果の値に応じてＪ_ｋ＋を加算する。第ｋパラメータ要素ｐ_ｋの負方向への変動についても同様にＪ_ｋ−を変更する。つまり、第ｋパラメータ要素ｐ_ｋの負方向への変動により、評価結果が改善した場合にはその評価結果の値に応じてＪ_ｋ−を減算し、評価結果が改悪した場合にはその評価結果の値に応じてＪ_ｋ−を加算する。

ρ（ｘ）をｘの絶対値｜ｘ｜に関して単調増大であり、その値域が［０，１］である関数とする。このとき、第ｋパラメータ要素ｐ_ｋの値を次のように変動させる。Ｊ_ｋ＞０である場合、確率ρ（Ｊ_ｋ）で正方向へδ_ｋ ^ｉ,ｍ,＋だけ変動、確率１−ρ（Ｊ_ｋ）で負方向へδ_ｋ ^ｉ,ｍ,−だけ変動する。同様に、Ｊ_ｋ＜０である場合、確率ρ（Ｊ_ｋ）で負方向へδ_ｋ ^ｉ,ｍ,−だけ変動、確率１−ρ（Ｊ_ｋ）で正方向へδ_ｋ ^ｉ,ｍ,＋だけ変動する。

つまり、第ｋパラメータ要素ｐ_ｋの変動コストＪ_ｋを求め、その値に応じて確率的にδ_ｋ ^ｉ,ｍを決定する。

場合１では、ｐ^ｉ,ｍが方法Ｉにより生成される。この場合、ｐ^ｉ,ｍは１つの第ｉ−１パラメータセット値から生成されたものではないため、どのパラメータ要素をどの方向（正または負の方向）に変動させればよいかわからない。そこで、平均は評価指標の値が改善する可能性がある値であるとして、これに近づくようにδ_ｋ ^ｉ,ｍを決定している。

一方、場合２では、評価結果の値が得られるので、変動結果との関係を見定めてδ_ｋ ^ｉ,ｍを決定するようにしている。

本実施形態では、雑音抑圧機能を有する音声認識装置９００のパラメータを調整するものとして説明したが、これに限るものではない。音声認識部９２０のみからなる音声認識装置に学習データと第１パラメータセット候補群を与えて、パラメータ調整装置１００でパラメータを調整するのでもよい。

本実施形態では、パラメータ調整装置１００によるパラメータセット値の生成、生成したパラメータセット値を設定した音声認識装置９００による音声認識結果の評価を繰り返す。このとき、これまでの処理で生成したパラメータセット値のうち、相対的に評価の高いものを用いて、新しいパラメータセット値を生成していく。相対的に評価の高いパラメータセット値の集合を更新することにより多数のパラメータ要素を含むパラメータセットの値を生成していくことにより、グリッドサーチによるパラメータの調整が現実的に不可能な音声認識装置に対しても、音声認識精度を最大化するパラメータ値（最適パラメータ値）を生成することが可能となる。

また、パラメータセット値の集合の更新に際して、方法Ｉを用いることにより広域な探索が行われ、局所最適に陥る可能性を軽減している。一方、方法ＩＩを用いることにより細かく着実な局所探索が行われ、人手により初期値として与えられた第１パラメータセット候補群のパラメータセット値の組み合わせより適切なパラメータセット値が得られないという可能性を軽減している。これにより、第１パラメータセット候補群のパラメータセット値より適切なパラメータセット値を現実的な計算量で生成することができる。

音声認識装置９００のパラメータセットには、取り得る値が近い値になるパラメータ要素が複数含まれることがある。この場合は、パラメータセット候補群生成部１３０での処理コストが軽減するようパラメータ調整装置を構成することができる。

例えば、以下のようにすればよい。まず、取り得る値が近いと考えられるパラメータ要素同士を事前にグループ化する。第ｋパラメータ要素ｐ_ｋに対してグループを示すＩＤを付与し、当該ＩＤが同一の値を有するパラメータ要素については、パラメータ要素番号が最も若いものを代表として選定する。そして、繰り返し処理の前半では（例えば、第Ｉ／２パラメータセット候補群生成前までは）、グループの代表となるパラメータ要素に対してのみパラメータ調整を行い、繰り返し処理の後半では（例えば、第Ｉ／２パラメータセット候補群生成以降は）、同一グループに属するパラメータ要素を個々に調整する。また、繰り返し処理の後半で、先ほどの終了条件２を組み合わせて終了か継続かの判定を行ってもよい。一般に、Ｉ_１、Ｉ_２、Ｊ_１、Ｊ_２、Ｍ_１、Ｍ_２を１以上の整数とし、繰り返し処理の前半では、終了条件を、“繰り返し回数があらかじめ設定した値Ｉ_１に達した（終了条件３）”、“あらかじめ設定した値Ｊ_１だけ、パラメータセット群に変動がない（上位Ｍ_１個に変動がない）状態が続いた（終了条件４）”またはその組み合わせ“終了条件３または終了条件４のいずれかが満たされた（Ｊ_１はＩ_１以下の整数）”とし、繰り返し処理の後半では、終了条件を、“繰り返し回数があらかじめ設定した値Ｉ_２に達した（終了条件５）”、“あらかじめ設定した値Ｊ_２だけ、パラメータセット群に変動がない（上位Ｍ_２個に変動がない）状態が続いた（終了条件６）”またはその組み合わせ“終了条件５または終了条件６のいずれかが満たされた（Ｊ_２はＩ_２以下の整数）”としてもよい。

繰り返し処理の前半、繰り返し処理の後半の終了条件をそれぞれ第１の終了条件、第２の終了条件という。また、第１の終了条件の判定結果、第２の終了条件の判定結果をそれぞれ第１の判定結果、第２の判定結果という。

以下、図５、６を参照してパラメータ調整装置３００について説明する。図５は、パラメータ調整装置３００の構成を示すブロック図である。図６は、パラメータ調整装置３００の動作を示すフローチャートである。図５に示すようにパラメータ調整装置３００は、パラメータセット群生成部１１０と、パラメータセット群記録部１０１と、終了条件判定部３２０と、パラメータセット候補群生成部３３０と、出力生成部１４０を含む。

パラメータセット群生成部１１０、パラメータセット群記録部１０１は、実施例１と同様である。

終了条件判定部３２０は、繰り返し処理の前半では第１の終了条件を満たしているか否かを示す第１の判定結果を、繰り返し処理の後半では第２の終了条件を満たしているか否かを示す第２の判定結果を生成する（Ｓ３２０）。終了条件判定部３２０は繰り返し処理の前半では第１の終了条件について、繰り返し処理の後半では第２の終了条件について判定結果を出す必要があるが、例えば、第１の終了条件、第２の終了条件のいずれについて判定結果を生成するのかを示すフラグ（以下、処理識別フラグという）をパラメータ調整装置３００に保持するようにすればよい。

終了条件判定部３２０の出力である判定結果が、第１の判定結果でありその値が継続を示す場合、第１の判定結果でありその値が終了を示す場合、第２の判定結果でありその値が継続を示す場合のいずれかである場合は、パラメータセット候補群生成部３３０は、実施例１のパラメータセット候補群生成部１３０と同様、第ｉパラメータセット群から第ｉ+１パラメータセット候補群を生成する（Ｓ３３０）。ただし、上記３つの場合に応じて第ｉ+１パラメータセット候補群の生成方法が異なる。

具体的な生成方法を説明する前に先ほど述べたグループ化について詳細に説明しておく。パラメータセットのパラメータ要素各々にグループを識別するためのグループＩＤが紐づけられる。グループＩＤの値が同じパラメータ要素の集合が近い値をとるパラメータ要素の集合となる。グループＩＤの値が同じパラメータ要素の集合に対して、先ほど述べたようにパラメータ要素番号が最も若いものを代表パラメータ要素とする。なお、グループＩＤの値が同じパラメータ要素の集合の濃度が１となる、つまりそのパラメータ要素と同じ値のグループＩＤを有するパラメータ要素がないこともあり、この場合はそのパラメータ要素が代表パラメータ要素となる。この代表パラメータ要素の値を集めたものを代表パラメータセット値という。第ｉパラメータセット群に含まれるパラメータセット値から生成した代表パラメータセット値の集合を第ｉ代表パラメータセット群という。

第ｉ+１パラメータセット候補群の生成方法について説明する。第１の判定結果でありその値が継続を示す場合は、第ｉパラメータセット群から第ｉ代表パラメータセット群を生成し、この第ｉ代表パラメータセット群から方法Ｉ、方法ＩＩを用いて第ｉ＋１代表パラメータセット候補群を生成する。グループＩＤの値が同じパラメータ要素に対してそのグループの代表パラメータ要素の値を設定することにより、第ｉ＋１代表パラメータセット候補群から第ｉ＋１パラメータセット候補群を生成する。このとき、処理識別フラグは第１の終了条件を示すもののままとする。

第１の判定結果でありその値が終了を示す場合は、第１の判定結果でありその値が継続を示す場合と同様の方法で第ｉ＋１パラメータセット候補群を生成する。ただし、処理識別フラグは第２の終了条件を示すものに変更する。なお、実施例１と同様の方法で第ｉ＋１パラメータセット候補群を生成してもよい。

第２の判定結果でありその値が継続を示す場合は、実施例１と同様の方法で第ｉ＋１パラメータセット候補群を生成する。このとき、処理識別フラグは第２の終了条件を示すもののままとする。

いずれかの方法で生成された第ｉ+１パラメータセット候補群に対して、第ｉ+１評価指標群を生成するのは、実施例１と同様である。

一方、終了条件判定部３２０の出力である判定結果が第２の判定結果でありその値が終了を示す場合は、出力生成部１４０が実施例１と同様の方法にて最適パラメータセット値を決定し出力する（Ｓ１４０）。

なお、第１パラメータセット候補群に含まれるパラメータセット値は、代表パラメータ要素の値だけ人手で設定するようにして生成することができる。

このように取り得る値が近いパラメータ要素についてグループ化し代表パラメータ要素の値のみ算出することにより、パラメータセット候補群生成部３３０での処理コストを軽減することができる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

ｉを１以上の整数として、
音声認識精度を最適化するために用いる学習データを用いて、第ｉパラメータセット候補群のパラメータセット値の評価指標の値の集合である第ｉ評価指標群を生成する音声認識装置と、
前記第ｉ評価指標群を用いて、前記評価指標の値が最も高い最適パラメータセット値を生成するパラメータ調整装置と
からなるパラメータ調整システムであって、
前記パラメータ調整装置は、
前記第ｉ評価指標群を用いて、前記第ｉパラメータセット候補群から評価指標の値が上位Ｍ個（Ｍは１以上の整数）のパラメータセット値を要素とする第ｉパラメータセット群を生成するパラメータセット群生成部と、
終了条件を満たしているか否かを示す判定結果を生成する終了条件判定部と、
前記判定結果が継続を示す場合、前記第ｉパラメータセット群から第ｉ＋１パラメータセット候補群を生成し、前記音声認識装置に出力するパラメータセット候補群生成部と、
前記判定結果が終了を示す場合、前記第ｉパラメータセット群から評価指標の値が最も高いパラメータセット値を選択し、前記最適パラメータセット値として出力する出力生成部と
を含み、
前記パラメータセット候補群生成部は、
前記第ｉパラメータセット群の少なくとも２つのパラメータセット値から、パラメータ要素ごとにその値をランダムに選択することにより前記第ｉ＋１パラメータセット候補群に含まれるパラメータセット値を生成する第１のパラメータセット値生成方法と、前記第ｉパラメータセット群のパラメータセット値から、当該パラメータセット値の少なくとも１つのパラメータ要素の値を所定のステップだけ変動させることにより前記第ｉ＋１パラメータセット候補群に含まれるパラメータセット値を生成する第２のパラメータセット値生成方法を用いて、前記第ｉ＋１パラメータセット候補群を生成し、
ｍを１以上Ｍ以下の整数、ｐ ^ｉ,ｍを次式で表される前記第ｉパラメータセット群に含まれるｍ番目のパラメータセット値とし、

（ただし、ｐ _ｋ ^ｉ,ｍ（１≦ｋ≦Ｋ、Ｋはパラメータ要素の数を表す１以上の整数）は、前記パラメータセット値ｐ ^ｉ,ｍの第ｋパラメータ要素の値）
前記第１のパラメータセット値生成方法は、前記第ｉ＋１パラメータセット候補群に含まれるパラメータセット値ｐ ^{〜ｉ＋１,ｎ} （１≦ｎ≦Ｍ）を次式で生成する

（ただし、ｒ１,ｒ２,…,ｒＫは、いずれも１以上Ｍ以下の整数で、ランダムに生成されるもの）
ことを特徴とするパラメータ調整システム。
ｉを１以上の整数として、
音声認識精度を最適化するために用いる学習データを用いて、第ｉパラメータセット候補群のパラメータセット値の評価指標の値の集合である第ｉ評価指標群を生成する音声認識装置と、
前記第ｉ評価指標群を用いて、前記評価指標の値が最も高い最適パラメータセット値を生成するパラメータ調整装置と
からなるパラメータ調整システムであって、
前記パラメータ調整装置は、
前記第ｉ評価指標群を用いて、前記第ｉパラメータセット候補群から評価指標の値が上位Ｍ個（Ｍは１以上の整数）のパラメータセット値を要素とする第ｉパラメータセット群を生成するパラメータセット群生成部と、
終了条件を満たしているか否かを示す判定結果を生成する終了条件判定部と、
前記判定結果が継続を示す場合、前記第ｉパラメータセット群から第ｉ＋１パラメータセット候補群を生成し、前記音声認識装置に出力するパラメータセット候補群生成部と、
前記判定結果が終了を示す場合、前記第ｉパラメータセット群から評価指標の値が最も高いパラメータセット値を選択し、前記最適パラメータセット値として出力する出力生成部と
を含み、
前記パラメータセット候補群生成部は、
前記第ｉパラメータセット群の少なくとも２つのパラメータセット値から、パラメータ要素ごとにその値をランダムに選択することにより前記第ｉ＋１パラメータセット候補群に含まれるパラメータセット値を生成する第１のパラメータセット値生成方法と、前記第ｉパラメータセット群のパラメータセット値から、当該パラメータセット値の少なくとも１つのパラメータ要素の値を所定のステップだけ変動させることにより前記第ｉ＋１パラメータセット候補群に含まれるパラメータセット値を生成する第２のパラメータセット値生成方法を用いて、前記第ｉ＋１パラメータセット候補群を生成し、
ｍを１以上Ｍ以下の整数、ｐ ^ｉ,ｍを次式で表される前記第ｉパラメータセット群に含まれるｍ番目のパラメータセット値とし、

（ただし、ｐ _ｋ ^ｉ,ｍ（１≦ｋ≦Ｋ、Ｋはパラメータ要素の数を表す１以上の整数）は、前記パラメータセット値ｐ ^ｉ,ｍの第ｋパラメータ要素の値）
前記第２のパラメータセット値生成方法は、ｉ＞１かつ前記パラメータセット値ｐ ^ｉ,ｍが第２のパラメータセット値生成方法により生成されたものである場合、第ｋパラメータ要素の変動結果と、前記パラメータセット値ｐ ^ｉ,ｍの第ｉ評価指標値から前記パラメータセット値ｐ ^ｉ,ｍの生成元第ｉ−１パラメータセット値の第ｉ−１評価指標値を減じた値である評価結果とに基づいて定義される第ｋパラメータ要素の変動コストＪ _ｋの値に応じて確率的に前記所定のステップδ _ｋ ^ｉ,ｍを決定する
ことを特徴とするパラメータ調整システム。
ｉを１以上の整数として、
音声認識精度を最適化するために用いる学習データを用いて、第ｉパラメータセット候補群のパラメータセット値の評価指標の値の集合である第ｉ評価指標群を生成する音声認識装置と、
前記第ｉ評価指標群を用いて、前記評価指標の値が最も高い最適パラメータセット値を生成するパラメータ調整装置と
からなるパラメータ調整システムであって、
前記パラメータ調整装置は、
前記第ｉ評価指標群を用いて、前記第ｉパラメータセット候補群から評価指標の値が上位のパラメータセット値を要素とする第ｉパラメータセット群を生成するパラメータセット群生成部と、
第１の終了条件を満たしているか否かを示す第１の判定結果及び第２の終了条件を満たしているか否かを示す第２の判定結果を生成する終了条件判定部と、
前記第１の判定結果が継続を示す場合、前記第１の判定結果が終了を示す場合、前記第２の判定結果が継続を示す場合のいずれかである場合、前記第ｉパラメータセット群から第ｉ＋１パラメータセット候補群を生成し、前記音声認識装置に出力するパラメータセット候補群生成部と、
前記第２の判定結果が終了を示す場合、前記第ｉパラメータセット群から評価指標の値が最も高いパラメータセット値を選択し、前記最適パラメータセット値として出力する出力生成部と
を含み、
互いに近い値をとるパラメータセットのパラメータ要素からなる集合に属するパラメータ要素のひとつを代表パラメータ要素とし、
前記パラメータセット候補群生成部は、
前記第１の判定結果が継続を示す場合には、代表パラメータ要素に対してのみパラメータ調整を行うことで、前記第ｉ＋１パラメータセット候補群を生成し、前記第２の判定結果が継続を示す場合には、すべてのパラメータ要素に対してパラメータ調整を行うことで、前記第ｉ＋１パラメータセット候補群を生成する
ことを特徴とするパラメータ調整システム。
ｉを１以上の整数として、
音声認識精度を最適化するために用いる学習データを用いて、第ｉパラメータセット候補群のパラメータセット値の評価指標の値の集合である第ｉ評価指標群を生成する音声認識装置と、
前記第ｉ評価指標群を用いて、前記評価指標の値が最も高い最適パラメータセット値を生成するパラメータ調整装置と
からなるパラメータ調整システムにおけるパラメータ調整方法であって、
前記パラメータ調整装置は、
前記第ｉ評価指標群を用いて、前記第ｉパラメータセット候補群から評価指標の値が上位Ｍ個（Ｍは１以上の整数）のパラメータセット値を要素とする第ｉパラメータセット群を生成するパラメータセット群生成ステップと、
終了条件を満たしているか否かを示す判定結果を生成する終了条件判定ステップと、
前記判定結果が継続を示す場合、前記第ｉパラメータセット群から第ｉ＋１パラメータセット候補群を生成し、前記音声認識装置に出力するパラメータセット候補群生成ステップと、
前記判定結果が終了を示す場合、前記第ｉパラメータセット群から評価指標の値が最も高いパラメータセット値を選択し、前記最適パラメータセット値として出力する出力生成ステップと
を実行し、
前記パラメータセット候補群生成ステップは、
前記第ｉパラメータセット群の少なくとも２つのパラメータセット値から、パラメータ要素ごとにその値をランダムに選択することにより前記第ｉ＋１パラメータセット候補群に含まれるパラメータセット値を生成する第１のパラメータセット値生成方法と、前記第ｉパラメータセット群のパラメータセット値から、当該パラメータセット値の少なくとも１つのパラメータ要素の値を所定のステップだけ変動させることにより前記第ｉ＋１パラメータセット候補群に含まれるパラメータセット値を生成する第２のパラメータセット値生成方法を用いて、前記第ｉ＋１パラメータセット候補群を生成し、
ｍを１以上Ｍ以下の整数、ｐ ^ｉ,ｍを次式で表される前記第ｉパラメータセット群に含まれるｍ番目のパラメータセット値とし、

（ただし、ｐ _ｋ ^ｉ,ｍ（１≦ｋ≦Ｋ、Ｋはパラメータ要素の数を表す１以上の整数）は、前記パラメータセット値ｐ ^ｉ,ｍの第ｋパラメータ要素の値）
前記第１のパラメータセット値生成方法は、前記第ｉ＋１パラメータセット候補群に含まれるパラメータセット値ｐ ^{〜ｉ＋１,ｎ} （１≦ｎ≦Ｍ）を次式で生成する

（ただし、ｒ１,ｒ２,…,ｒＫは、いずれも１以上Ｍ以下の整数で、ランダムに生成されるもの）
ことを特徴とするパラメータ調整方法。
ｉを１以上の整数として、
音声認識精度を最適化するために用いる学習データを用いて、第ｉパラメータセット候補群のパラメータセット値の評価指標の値の集合である第ｉ評価指標群を生成する音声認識装置と、
前記第ｉ評価指標群を用いて、前記評価指標の値が最も高い最適パラメータセット値を生成するパラメータ調整装置と
からなるパラメータ調整システムにおけるパラメータ調整方法であって、
前記パラメータ調整装置は、
前記第ｉ評価指標群を用いて、前記第ｉパラメータセット候補群から評価指標の値が上位Ｍ個（Ｍは１以上の整数）のパラメータセット値を要素とする第ｉパラメータセット群を生成するパラメータセット群生成ステップと、
終了条件を満たしているか否かを示す判定結果を生成する終了条件判定ステップと、
前記判定結果が継続を示す場合、前記第ｉパラメータセット群から第ｉ＋１パラメータセット候補群を生成し、前記音声認識装置に出力するパラメータセット候補群生成ステップと、
前記判定結果が終了を示す場合、前記第ｉパラメータセット群から評価指標の値が最も高いパラメータセット値を選択し、前記最適パラメータセット値として出力する出力生成ステップと
を実行し、
前記パラメータセット候補群生成ステップは、
前記第ｉパラメータセット群の少なくとも２つのパラメータセット値から、パラメータ要素ごとにその値をランダムに選択することにより前記第ｉ＋１パラメータセット候補群に含まれるパラメータセット値を生成する第１のパラメータセット値生成方法と、前記第ｉパラメータセット群のパラメータセット値から、当該パラメータセット値の少なくとも１つのパラメータ要素の値を所定のステップだけ変動させることにより前記第ｉ＋１パラメータセット候補群に含まれるパラメータセット値を生成する第２のパラメータセット値生成方法を用いて、前記第ｉ＋１パラメータセット候補群を生成し、
ｍを１以上Ｍ以下の整数、ｐ ^ｉ,ｍを次式で表される前記第ｉパラメータセット群に含まれるｍ番目のパラメータセット値とし、

（ただし、ｐ _ｋ ^ｉ,ｍ（１≦ｋ≦Ｋ、Ｋはパラメータ要素の数を表す１以上の整数）は、前記パラメータセット値ｐ ^ｉ,ｍの第ｋパラメータ要素の値）
前記第２のパラメータセット値生成方法は、ｉ＞１かつ前記パラメータセット値ｐ ^ｉ,ｍが第２のパラメータセット値生成方法により生成されたものである場合、第ｋパラメータ要素の変動結果と、前記パラメータセット値ｐ ^ｉ,ｍの第ｉ評価指標値から前記パラメータセット値ｐ ^ｉ,ｍの生成元第ｉ−１パラメータセット値の第ｉ−１評価指標値を減じた値である評価結果とに基づいて定義される第ｋパラメータ要素の変動コストＪ _ｋの値に応じて確率的に前記所定のステップδ _ｋ ^ｉ,ｍを決定する
ことを特徴とするパラメータ調整方法。
ｉを１以上の整数として、
音声認識精度を最適化するために用いる学習データを用いて、第ｉパラメータセット候補群のパラメータセット値の評価指標の値の集合である第ｉ評価指標群を生成する音声認識装置と、
前記第ｉ評価指標群を用いて、前記評価指標の値が最も高い最適パラメータセット値を生成するパラメータ調整装置と
からなるパラメータ調整システムにおけるパラメータ調整方法であって、
前記パラメータ調整装置は、
前記第ｉ評価指標群を用いて、前記第ｉパラメータセット候補群から評価指標の値が上位のパラメータセット値を要素とする第ｉパラメータセット群を生成するパラメータセット群生成ステップと、
第１の終了条件を満たしているか否かを示す第１の判定結果及び第２の終了条件を満たしているか否かを示す第２の判定結果を生成する終了条件判定ステップと、
前記第１の判定結果が継続を示す場合、前記第１の判定結果が終了を示す場合、前記第２の判定結果が継続を示す場合のいずれかである場合、前記第ｉパラメータセット群から第ｉ＋１パラメータセット候補群を生成し、前記音声認識装置に出力するパラメータセット候補群生成ステップと、
前記第２の判定結果が終了を示す場合、前記第ｉパラメータセット群から評価指標の値が最も高いパラメータセット値を選択し、前記最適パラメータセット値として出力する出力生成ステップと
を実行し、
互いに近い値をとるパラメータセットのパラメータ要素からなる集合に属するパラメータ要素のひとつを代表パラメータ要素とし、
前記パラメータセット候補群生成ステップは、
前記第１の判定結果が継続を示す場合には、代表パラメータ要素に対してのみパラメータ調整を行うことで、前記第ｉ＋１パラメータセット候補群を生成し、前記第２の判定結果が継続を示す場合には、すべてのパラメータ要素に対してパラメータ調整を行うことで、前記第ｉ＋１パラメータセット候補群を生成する
ことを特徴とするパラメータ調整方法。
請求項１ないし３のいずれか１項に記載のパラメータ調整システムとしてコンピュータを機能させるためのプログラム。