JP6067760B2

JP6067760B2 - パラメータ決定装置、パラメータ決定方法、およびプログラム

Info

Publication number: JP6067760B2
Application number: JP2015014188A
Authority: JP
Inventors: 智子川瀬; 小林　和則; 和則小林; 仲大室
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-01-28
Filing date: 2015-01-28
Publication date: 2017-01-25
Anticipated expiration: 2035-01-28
Also published as: JP2016139025A

Description

この発明は、音声認識技術に関し、特に、音声認識の前処理に用いるパラメータセットを決定する技術に関する。

雑音や残響、音声の大きさ、マイクによる歪みなど収音環境の影響が大きいと音声のクリアな収音は困難になる。音声のクリアな収音が困難なシーンで音声認識する場合、入力音響信号に音声強調などの前処理を施すことが有効である。

シングルチャネル音声強調では、入力信号を複数の帯域に分割し、各帯域の信号を占める雑音の比率に基づいて雑音を低減する手法がある（特許文献１参照）。マイクロホンアレイを用いた収音の場合、ビームフォーミングの後にウィーナーフィルタに基づくポストフィルタリングにより音声強調を施す手法がある（特許文献２、非特許文献１参照）。

特開平９−２５８７９２号公報特開２００７−３３６２３２号公報

K. Niwa, Y. Hioka , K. Kobayashi, "Post-filter design for speech enhancement in various noisy environments", 14th International Workshop on Acoustic Signal Enhancement (IWAENC), pp. 35-39, 2014.

しかしながら、音声強調などの前処理に用いるパラメータセットには固定値が設定されている。このようなパラメータセットの要素としては、例えば、信号パワーレベルを時間平均する際の平均時間、信号パワーレベルを時間平均する際の重みづけ係数、雑音レベル計算時の音響信号レベルの時間平滑化に用いる平滑化係数、ディップホールド時の推定雑音レベルの上昇係数、雑音抑圧の処理強度係数、などが挙げられる。したがって、収音環境が変動する場面で利用すると、設定された固定値が収音環境に最適なパラメータセットの値と異なってしまい、音声認識精度が低下してしまう課題がある。

この発明の目的は、このような点に鑑みて、収音環境の変動に応じて最適な前処理パラメータセットを選択することができるパラメータ決定技術を提供することである。

上記の課題を解決するために、この発明のパラメータ決定装置は、複数の前処理パラメータセットを記憶するパラメータセット記憶部と、複数の音響信号を複数の前処理パラメータセットそれぞれを用いて音声認識した認識結果を記憶する認識結果記憶部と、音響信号から帯域ごとの雑音レベルを推定し、雑音レベル情報を生成する雑音レベル推定部と、複数の音響信号を雑音レベル情報に基づいてグループ分けし、認識結果からグループごとに算出した認識精度が最大となるようにグループの境界面を最適化する境界面最適化部と、複数の前処理パラメータセットからグループごとに認識精度が最大となる最適前処理パラメータセットを選択するパラメータセット選択部と、を含む。

この発明によれば、雑音レベルが変動する収音環境での音声認識時に、音響信号の帯域ごとの雑音レベルに基づいて最適なパラメータセットを選択することができる。これにより、収音環境と不適合なパラメータセットで前処理が行われることを防止し、事前に用意したパラメータセットの範囲で音声認識にとって最適な処理後信号を出力することができる。また、学習時に候補となるパラメータセットを多数用意した後は、雑音レベルに応じて最適なパラメータセットの値が自動的に選定されるため、パラメータ調整のコストを削減できる。

図１は、パラメータ決定装置の機能構成を例示する図である。図２は、パラメータ決定方法の処理フローを例示する図である。図３は、雑音レベル推定部の機能構成を例示する図である。図４は、グループ境界面最適化の処理フローを例示する図である。図５は、グループ境界面の初期値を例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

実施形態のパラメータ決定装置および方法は、入力音響信号から帯域ごとの雑音レベルを推定し、マルチチャネル雑音抑圧のパラメータ適応を行う。パラメータ適応では、雑音レベルの範囲に応じて音響信号を複数のグループに分類し、グループごとに最適なパラメータセットを選択する。グループ分けの境界面とグループごとのパラメータセットの値を事前学習により用意する。

雑音環境下での一発話を一ファイルとして音声を収録し、そのデータセットを学習データとする。学習データに対して、多種の値を設定したパラメータセットを用いてマルチチャネル雑音抑圧処理を施した上で音声認識し、認識精度Jを評価しておく。パラメータセットの値は、様々な収音環境を想定して、その収音環境に適した値を設定しておく。認識精度Jは文字正解精度であり、式（１）で算出される。

ただし、nは学習データの文章数、Cは正解文字列の文字数、Sは置換誤り文字数、Dは脱落誤り文字数、Iは挿入誤り文字数を示す。置換誤りとは、異なる単語や音節に置き換えられて認識されてしまう認識誤りである。脱落誤りとは、実際に発話したのに認識されない認識誤りである。挿入誤りとは、実際には発話していない単語や音節が認識結果に現れる認識誤りである。Cは学習データ固有の数値であり、認識結果によらず、パラメータにもよらない。一方、S, D, Iは認識結果によって変動する数値であるため、パラメータが異なると変動する場合がある。Jには音声認識の音響尤度を代用してもよい。

学習データの各ファイルについて帯域ごとの雑音レベルを推定し、各学習データをグループ分けするための入力とする。また、各学習データの付加情報として認識結果のS, D, Iの値を保存しておく。グループの境界面は、学習データセット全体で認識精度Jを最大化するように、帯域ごとの雑音レベルの空間上で決定する。

実施形態のパラメータ決定装置は、例えば、図１に示すように、パラメータセット記憶部１、認識結果記憶部２、FFT部３、雑音レベル推定部４、境界面最適化部５、パラメータセット選択部６、収音処理部７、および音声認識部８を含む。

パラメータ決定装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。パラメータ決定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。パラメータ決定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、パラメータ決定装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

パラメータ決定装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。パラメータ決定装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

パラメータセット記憶部１には、様々な収音環境を想定して多種の値が設定された複数の前処理パラメータセットが記憶されている。本形態では、L（≧2）個の異なるパラメータセットP₁,…,P_Lが作成され、記憶されているものとする。

認識結果記憶部２には、パラメータセット記憶部１に記憶された前処理パラメータセットP₁,…,P_Lそれぞれを用いて、学習データそれぞれを音声認識した認識結果が記憶されている。認識結果には、置換誤り文字数S、脱落誤り文字数D、および挿入誤り文字数Iを予め計算し、これらを付加情報として関連付けて記憶しておく。

図２を参照して、実施形態のパラメータ決定方法の処理手続きを説明する。

ステップＳ１において、FFT部３は、学習データの音響信号を周波数領域の信号に変換する。音響信号は、例えばサンプリング周波数16kHzで離散化されたディジタル信号である。入力される音響信号がアナログ信号である場合、FFT部３の前段に音響信号をディジタル化するA/D変換器を備えればよい。FFT部３は、離散化された音響信号を、短時間高速フーリエ変換（FFT: Fast Fourier Transform）によって、例えば128個集めたフレーム単位（t=8ms）の間隔、ウィンドウサイズ16msで周波数領域信号に変換する。ウィンドウにはハニングウィンドウの平方根をとったものなどを用いる。周波数領域信号は雑音レベル推定部４へ送られる。

ステップＳ２において、雑音レベル推定部４は、FFT部３が出力する周波数領域信号から周波数ごとに雑音レベルを推定し、雑音レベル情報を生成する。本形態の雑音レベル情報は、帯域ごとの雑音レベルを要素とするベクトルである。雑音レベル情報は境界面最適化部５へ送られる。

雑音レベル推定部４は、図３に示すように、レベル計算部４１、時間平滑部４２、ディップホールド部４３、および帯域集約部４４を含む。雑音レベル推定部４は、周波数領域信号X(ω, n)を入力とし、推定雑音レベルN(ω, n)を出力する。ここで、ωは周波数を表し、nはフレームの番号を表す。レベル計算部４１は、FFT部３の出力する周波数領域信号X(ω, n)の絶対値|X(ω, n)|を計算する。時間平滑部４２は、周波数領域信号のレベル|X(ω, n)|から式（２）により時間平滑化したレベル|X(ω, n)|'を求める。

ただし、αは平滑化係数であり、0以上1未満の値をとる。αが1に近いほど長い時間で平滑化される。

ディップホールド部４３は、時間平滑化したレベル|X(ω, n)|'に対して式（３）によりディップホールド処理を施し、推定ノイズレベルN(ω, n)を求める。

すなわち、1フレーム前の推定雑音レベルN(ω, n-1)が時間平滑化したレベル|X(ω, n)|'よりも大きいか等しい場合は、推定雑音レベルに時間平滑化したレベル|X(ω, n)|'を代入し、それ以外の場合は、1フレーム前の推定雑音レベルN(ω, n-1)に上昇係数uを乗じ、わずかに雑音レベルを上昇させる。ここで、uは1以上の定数であり、事前に設定する。uは推定雑音レベルの上昇係数であり、1に近いほど緩やかな雑音レベル上昇となり、ディップホールドの効果が得られる。

帯域集約部４４は、推定雑音レベルN(ω, n)を、所定の帯域ごとに集約した雑音レベル情報を生成する。本形態では、３帯域に集約するものとして説明するが、帯域数は特に限定されない。例えば、周波数ビンの0番目から7番目（帯域１とする）、8番目から21番目（帯域２とする）、22番目から65番目（帯域３とする）でそれぞれ平均し、N₁(n), N₂(n), N₃(n)とする。さらに、例えば一ファイルの冒頭１秒で平均してそれぞれ一つの数値とし、学習データ一つひとつに対応づける。これをN_i=(N₁, N₂, N₃)_iとする。ただし下添え字のiは学習データの番号である。

ステップＳ３において、境界面最適化部５は、学習データの音響信号を雑音レベル情報に基づいてグループ分けし、認識結果記憶部２に記憶された認識結果からグループごとに認識精度を算出し、その認識精度が最大となるようにグループの境界面を最適化する。以下では、説明の便宜上、グループ数を２グループとするが、グループ数は特に限定されない。グループ数を３以上に構成する場合には、ある境界面で分割される学習データのグループに対して、さらに新たな境界面でグループ分けして最適化することを繰り返せばよい。

本形態の境界面最適化部５は、学習データを「パラメータセットP_Aで音声認識精度が高くなるグループG_A」と、「パラメータセットP_Bで音声認識精度が高くなるグループG_B」とに分割する境界面μを求める。パラメータセットP_A、P_Bはパラメータセット選択部６で決定される。パラメータセット選択部６は、初回実行時には境界面の初期値に対して最適なパラメータセットを選択する。二回目以降の実行時には最適化された境界面に対して最適なパラメータセットを選択する。はじめに、境界面μを表す方程式の初期値として式（４）を与える。

境界面μは、帯域ごとの雑音レベルを軸として生成される空間を分割する平面である。本形態では、N₁をx軸、N₂をy軸、N₃をz軸とする。式（５）を満たす区間に属する学習データはグループG_Aとし、式（６）を満たす区間に属する学習データはグループG_Bとする。

境界面最適化部５は、境界面μを初期値から変動させ、各グループの認識精度を最大化する境界面を探索する。境界面の最適化の評価値は学習データの認識精度Jである。認識精度Jは式（７）により算出され、境界面の変動に伴って値が変化する。

ただし、S_PA, D_PA, I_PA（下添え字のPAはP_Aを表す）はそれぞれパラメータセットP_Aで音声認識した場合の置換誤り文字数、削除誤り文字数、挿入誤り文字数を表す。同様に、S_PB, D_PB, I_PB（下添え字のPBはP_Bを表す）はそれぞれパラメータセットP_Bで音声認識した場合の置換誤り文字数、削除誤り文字数、挿入誤り文字数を表す。Cは正解文字列の文字数であるため分離していない。

認識精度Jの値は境界面に対して一意に定まるが、雑音レベルの関数として数式では表現できず、かつ不連続に変化する。そこで、本形態では山登り法（もしくはヒルクライミング法）を適用して探索を行う。境界面最適化の処理手続きを図４に示す。本形態では、境界面μは式（４）のように三次元空間で表しているため、式（８）に示すように四次元ベクトルとして扱うことができる。

最適化のために境界面μを微小に移動させる（ステップＳ５１）。まず、微小ベクトル(Δa, Δb, Δc, Δd)の各成分を乱数で生成する。このとき生成される微小ベクトルの大きさにより、認識精度Jの最大値を探索する細かさが決まる。そこで、生成する乱数の範囲を、式（９）を満たすように制限する。

ただし、a_min, a_max, b_min, b_max, c_min, c_max, d_min, d_maxの値は、例えば帯域ごとの平均雑音レベルの最大値に依存する値である。例えば、N₁, N₂, N₃の値域がそれぞれ0から60程度であれば、a_min, b_min, c_min, d_min=0、a_max, b_max, c_max=3、d_maxは任意の正の値、などに設定する。さらに、微小ベクトル(Δa, Δb, Δc, Δd)の各要素の符号を反転し、式（10）に示すように、2⁴=16通りすべての組み合わせを生成する。

この目的は、認識精度Jの勾配が最大の方向を求める代わりに、2⁴通りのεから移動するべき方向を選択することである。移動後の境界面μ’_k（k=1,2,3,…,2⁴）は、式（11）で表すことができる。

境界面が移動すると、移動前にグループG_Aに属していた学習データのいくつかでは式（６）が満たされるため、これらはグループG_Bへ移動する。同様に、移動前にグループG_Bに属していた学習データのいくつかでは式（５）が満たされるため、これらはグループG_Aへ移動する。移動した学習データのグループを更新して、グループG_Aの学習データにはパラメータセットP_Aを、グループG_Bの学習データにはパラメータセットP_Bを使ったとする。全学習データに対する認識精度を式（７）により再計算し、これをJ’_kとする（ステップＳ５２）。音声認識自体はすでに実施してあるので、式（７）では結果の文字列を集計するだけでよい。本形態では、J’_kは2⁴個存在することになるが、そのうち式（７）を最大にするものをJ_maxとする（ステップＳ５３）。

最大の認識精度J_maxを前回求めた認識精度Jと比較し、境界面の移動によって認識精度の最尤化が進んでいるかを確認する（ステップＳ５４、Ｓ５６）。最尤化が進んでいれば（すなわち、J_maxがJよりも大きければ）認識精度JにJ_maxを代入し、境界面μを式（11）によって移動して、認識精度Jを再計算する処理を継続する（ステップＳ５５）。最大の認識精度J_maxが前回の認識精度Jと等しくなった場合には、式（９）の制約を外してεを再生成し、認識精度Jを再計算する処理を継続する（ステップＳ５７）。境界面を移動させても認識精度Jの値が変わらないということは現実的ではないため、εを再生成して境界面を移動させることを繰り返せば、いずれ認識精度Jの値が変化すると考えられるからである。最大の認識精度J_maxが前回の認識精度J未満になれば、処理を終了して境界面μを確定する。

上述の反復処理により、初期値近傍の最適解が求まる。ただし、認識精度Jには複数の極大値があるため、局所最適に陥るのを防ぐために、複数の境界面を初期値として与える。広い範囲を効率よく探索するために、境界面の初期値を格子状に設定する。３つの帯域の雑音レベルを軸として用いる場合、境界面は式（４）で表される三次元平面である。境界面の初期値には、例えば各軸に平行な平面と、各軸に45°、135°で交わる平面を用意する。図５に、z軸に平行な境界面の初期値を一点鎖線で示す。これらの平面は、a, b, cの値に0, 1, -1のいずれかを代入するすべての組み合わせにより作成できる。dは原点と平面との距離を表すため、学習データの雑音レベルの値の範囲に応じて変更する。また、dの増加分は格子の幅に相当する。

すべての境界面の初期値に対して初期値近傍の最適境界面を求め、その中から認識精度Jが最も高い結果を選ぶ。ここまでの一連の処理で最適境界面が決定すると、ステップＳ３の処理を終了し、ステップＳ４へ進む。なお、境界面の初期値を与えてから最適境界面が求まるまでの間は、パラメータセットP_A, P_Bの中身は固定である。

ステップＳ４において、パラメータセット選択部６は、パラメータセット記憶部１に記憶されている複数のパラメータセットからパラメータセットP_A, P_Bの中身を決定する。認識結果記憶部２に各パラメータセットを用いて学習データすべてを音声認識した結果が記憶されているため、認識精度Jの計算は、単に置換誤り文字数、削除誤り文字数、挿入誤り文字数を集計するだけである。

パラメータセット選択部６には、境界面最適化部５から境界面μの値が渡される。境界面μの一方の側にある学習データはグループG_A、他方の側にある学習データはグループG_Bである。パラメータセット選択部６では、式（12）に従って、各グループについてパラメータセットP₁,…,P_Lそれぞれに対して認識精度J_A,λ, J_B,λ（λ=1,2,…,L）を計算する。

ここで、λはパラメータセットの番号であり、S_Pλ, D_Pλ, I_Pλ（下添え字のPλはP_λを表す）はそれぞれパラメータセットP_λで音声認識した場合の置換誤り文字数、削除誤り文字数、挿入誤り文字数を表す。パラメータセットP_A, P_Bは、式（13）に従って決定する。

仮に、式（13）でパラメータセットP_A, P_Bの中身に同じものが選ばれた場合、その学習データセットはその境界面で分割する必要がなかったことを意味するため、その境界面は削除する。

ステップＳ５において、パラメータ決定装置は、境界面とパラメータセットの最適化が収束したかどうかを判定する。収束条件は、ステップＳ４においてパラメータセットP_A, P_Bの中身が更新されなくなることである。境界面とパラメータセットの最適化が収束していない場合、ステップＳ３の処理を再度実行する。境界面とパラメータセットの最適化が収束した場合、そのパラメータセットを最適パラメータセットとして境界面μと関連付けて記憶し、処理を終了する。

収音処理部７および音声認識部８は、上述のように選択される最適パラメータセットを用いて音声認識を行う。収音処理部７は、入力された音響信号に対して、パラメータセット選択部６により出力される最適パラメータセットの値を用いて音声強調などの前処理を行う。音声認識部８は、処理後音響信号に対して音声認識を行い、認識結果の単語列を出力する。

上記のように、この発明のパラメータ決定技術は、音声強調技術などのパラメータセットが帯域ごとの雑音レベルによって適切な値が変化する傾向に注目して、パラメータセットの値を単一ではなく複数用意しておき、音響信号の雑音レベルに応じて最適なパラメータセットを選択する。パラメータセットの選択は、学習データの音響信号に対してすべてのパラメータセットを用いて前処理をした上で認識結果を生成し、パラメータセットを切り替えるべき雑音レベルの境界面を、ヒルクライミング法で探索することにより行う。このように構成することにより、雑音レベルの変動がある環境での音声認識において、最適なパラメータセットを選択することができる。また、雑音レベルに応じた最適なパラメータセットの値が自動で選定されるため、パラメータ調整のコストを削減できる。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１パラメータセット記憶部
２認識結果記憶部
３ FFT部
４雑音レベル推定部
５境界面最適化部
６パラメータセット選択部
７収音処理部
８音声認識部

Claims

複数の前処理パラメータセットを記憶するパラメータセット記憶部と、
複数の音響信号を上記複数の前処理パラメータセットそれぞれを用いて音声認識した認識結果を記憶する認識結果記憶部と、
上記音響信号から帯域ごとの雑音レベルを推定し、雑音レベル情報を生成する雑音レベル推定部と、
上記複数の音響信号を上記雑音レベル情報に基づいてグループ分けし、上記認識結果から上記グループごとに算出した認識精度が最大となるように上記グループの境界面を最適化する境界面最適化部と、
上記複数の前処理パラメータセットから上記グループごとに上記認識精度が最大となる最適前処理パラメータセットを選択するパラメータセット選択部と、
を含むパラメータ決定装置。
請求項１に記載のパラメータ決定装置であって、
上記雑音レベル推定部は、上記音響信号から周波数ごとに推定した雑音レベルを所定の周波数帯域で集約した複数の値を要素とするベクトルとして上記雑音レベル情報を生成するものであり、
上記境界面最適化部は、上記境界面を上記周波数帯域の各値を変数とする線形方程式で表し、上記雑音レベル情報の各値を上記線形方程式の各変数に代入した結果により上記複数の音響信号をグループ分けし、上記線形方程式の各係数を変動させた前後の上記グループごとの認識精度を比較することで上記境界面を最適化するものであり、
上記パラメータセット選択部により選択される上記最適前処理パラメータセットが更新されなくなるまで、上記境界面最適化部と上記パラメータセット選択部とを繰り返し実行するものである
パラメータ決定装置。
請求項１または２に記載のパラメータ決定装置であって、
上記認識精度は、上記音響信号に関する正解文字列の文字数から上記認識結果における認識誤り文字数を減算した値を上記正解文字列の文字数で除算した値である
パラメータ決定装置。
パラメータセット記憶部に、複数の前処理パラメータセットが記憶されており、
認識結果記憶部に、複数の音響信号を上記複数の前処理パラメータセットそれぞれを用いて音声認識した認識結果が記憶されており、
雑音レベル推定部が、上記音響信号から帯域ごとの雑音レベルを推定し、雑音レベル情報を生成する雑音レベル推定ステップと、
境界面最適化部が、上記複数の音響信号を上記雑音レベル情報に基づいてグループ分けし、上記認識結果から上記グループごとに算出した認識精度が最大となるように上記グループの境界面を最適化する境界面最適化ステップと、
パラメータセット選択部が、上記複数の前処理パラメータセットから上記グループごとに上記認識精度が最大となる最適前処理パラメータセットを選択するパラメータセット選択ステップと、
を含むパラメータ決定方法。
請求項１から３のいずれかに記載のパラメータ決定装置としてコンピュータを機能させるためのプログラム。