JP6067760B2 - パラメータ決定装置、パラメータ決定方法、およびプログラム - Google Patents
パラメータ決定装置、パラメータ決定方法、およびプログラム Download PDFInfo
- Publication number
- JP6067760B2 JP6067760B2 JP2015014188A JP2015014188A JP6067760B2 JP 6067760 B2 JP6067760 B2 JP 6067760B2 JP 2015014188 A JP2015014188 A JP 2015014188A JP 2015014188 A JP2015014188 A JP 2015014188A JP 6067760 B2 JP6067760 B2 JP 6067760B2
- Authority
- JP
- Japan
- Prior art keywords
- noise level
- boundary surface
- parameter set
- parameter
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
この発明は、音声認識技術に関し、特に、音声認識の前処理に用いるパラメータセットを決定する技術に関する。
雑音や残響、音声の大きさ、マイクによる歪みなど収音環境の影響が大きいと音声のクリアな収音は困難になる。音声のクリアな収音が困難なシーンで音声認識する場合、入力音響信号に音声強調などの前処理を施すことが有効である。
シングルチャネル音声強調では、入力信号を複数の帯域に分割し、各帯域の信号を占める雑音の比率に基づいて雑音を低減する手法がある(特許文献1参照)。マイクロホンアレイを用いた収音の場合、ビームフォーミングの後にウィーナーフィルタに基づくポストフィルタリングにより音声強調を施す手法がある(特許文献2、非特許文献1参照)。
K. Niwa, Y. Hioka , K. Kobayashi, "Post-filter design for speech enhancement in various noisy environments", 14th International Workshop on Acoustic Signal Enhancement (IWAENC), pp. 35-39, 2014.
しかしながら、音声強調などの前処理に用いるパラメータセットには固定値が設定されている。このようなパラメータセットの要素としては、例えば、信号パワーレベルを時間平均する際の平均時間、信号パワーレベルを時間平均する際の重みづけ係数、雑音レベル計算時の音響信号レベルの時間平滑化に用いる平滑化係数、ディップホールド時の推定雑音レベルの上昇係数、雑音抑圧の処理強度係数、などが挙げられる。したがって、収音環境が変動する場面で利用すると、設定された固定値が収音環境に最適なパラメータセットの値と異なってしまい、音声認識精度が低下してしまう課題がある。
この発明の目的は、このような点に鑑みて、収音環境の変動に応じて最適な前処理パラメータセットを選択することができるパラメータ決定技術を提供することである。
上記の課題を解決するために、この発明のパラメータ決定装置は、複数の前処理パラメータセットを記憶するパラメータセット記憶部と、複数の音響信号を複数の前処理パラメータセットそれぞれを用いて音声認識した認識結果を記憶する認識結果記憶部と、音響信号から帯域ごとの雑音レベルを推定し、雑音レベル情報を生成する雑音レベル推定部と、複数の音響信号を雑音レベル情報に基づいてグループ分けし、認識結果からグループごとに算出した認識精度が最大となるようにグループの境界面を最適化する境界面最適化部と、複数の前処理パラメータセットからグループごとに認識精度が最大となる最適前処理パラメータセットを選択するパラメータセット選択部と、を含む。
この発明によれば、雑音レベルが変動する収音環境での音声認識時に、音響信号の帯域ごとの雑音レベルに基づいて最適なパラメータセットを選択することができる。これにより、収音環境と不適合なパラメータセットで前処理が行われることを防止し、事前に用意したパラメータセットの範囲で音声認識にとって最適な処理後信号を出力することができる。また、学習時に候補となるパラメータセットを多数用意した後は、雑音レベルに応じて最適なパラメータセットの値が自動的に選定されるため、パラメータ調整のコストを削減できる。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
実施形態のパラメータ決定装置および方法は、入力音響信号から帯域ごとの雑音レベルを推定し、マルチチャネル雑音抑圧のパラメータ適応を行う。パラメータ適応では、雑音レベルの範囲に応じて音響信号を複数のグループに分類し、グループごとに最適なパラメータセットを選択する。グループ分けの境界面とグループごとのパラメータセットの値を事前学習により用意する。
雑音環境下での一発話を一ファイルとして音声を収録し、そのデータセットを学習データとする。学習データに対して、多種の値を設定したパラメータセットを用いてマルチチャネル雑音抑圧処理を施した上で音声認識し、認識精度Jを評価しておく。パラメータセットの値は、様々な収音環境を想定して、その収音環境に適した値を設定しておく。認識精度Jは文字正解精度であり、式(1)で算出される。
ただし、nは学習データの文章数、Cは正解文字列の文字数、Sは置換誤り文字数、Dは脱落誤り文字数、Iは挿入誤り文字数を示す。置換誤りとは、異なる単語や音節に置き換えられて認識されてしまう認識誤りである。脱落誤りとは、実際に発話したのに認識されない認識誤りである。挿入誤りとは、実際には発話していない単語や音節が認識結果に現れる認識誤りである。Cは学習データ固有の数値であり、認識結果によらず、パラメータにもよらない。一方、S, D, Iは認識結果によって変動する数値であるため、パラメータが異なると変動する場合がある。Jには音声認識の音響尤度を代用してもよい。
学習データの各ファイルについて帯域ごとの雑音レベルを推定し、各学習データをグループ分けするための入力とする。また、各学習データの付加情報として認識結果のS, D, Iの値を保存しておく。グループの境界面は、学習データセット全体で認識精度Jを最大化するように、帯域ごとの雑音レベルの空間上で決定する。
実施形態のパラメータ決定装置は、例えば、図1に示すように、パラメータセット記憶部1、認識結果記憶部2、FFT部3、雑音レベル推定部4、境界面最適化部5、パラメータセット選択部6、収音処理部7、および音声認識部8を含む。
パラメータ決定装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。パラメータ決定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。パラメータ決定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、パラメータ決定装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
パラメータ決定装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。パラメータ決定装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
パラメータセット記憶部1には、様々な収音環境を想定して多種の値が設定された複数の前処理パラメータセットが記憶されている。本形態では、L(≧2)個の異なるパラメータセットP1,…,PLが作成され、記憶されているものとする。
認識結果記憶部2には、パラメータセット記憶部1に記憶された前処理パラメータセットP1,…,PLそれぞれを用いて、学習データそれぞれを音声認識した認識結果が記憶されている。認識結果には、置換誤り文字数S、脱落誤り文字数D、および挿入誤り文字数Iを予め計算し、これらを付加情報として関連付けて記憶しておく。
図2を参照して、実施形態のパラメータ決定方法の処理手続きを説明する。
ステップS1において、FFT部3は、学習データの音響信号を周波数領域の信号に変換する。音響信号は、例えばサンプリング周波数16kHzで離散化されたディジタル信号である。入力される音響信号がアナログ信号である場合、FFT部3の前段に音響信号をディジタル化するA/D変換器を備えればよい。FFT部3は、離散化された音響信号を、短時間高速フーリエ変換(FFT: Fast Fourier Transform)によって、例えば128個集めたフレーム単位(t=8ms)の間隔、ウィンドウサイズ16msで周波数領域信号に変換する。ウィンドウにはハニングウィンドウの平方根をとったものなどを用いる。周波数領域信号は雑音レベル推定部4へ送られる。
ステップS2において、雑音レベル推定部4は、FFT部3が出力する周波数領域信号から周波数ごとに雑音レベルを推定し、雑音レベル情報を生成する。本形態の雑音レベル情報は、帯域ごとの雑音レベルを要素とするベクトルである。雑音レベル情報は境界面最適化部5へ送られる。
雑音レベル推定部4は、図3に示すように、レベル計算部41、時間平滑部42、ディップホールド部43、および帯域集約部44を含む。雑音レベル推定部4は、周波数領域信号X(ω, n)を入力とし、推定雑音レベルN(ω, n)を出力する。ここで、ωは周波数を表し、nはフレームの番号を表す。レベル計算部41は、FFT部3の出力する周波数領域信号X(ω, n)の絶対値|X(ω, n)|を計算する。時間平滑部42は、周波数領域信号のレベル|X(ω, n)|から式(2)により時間平滑化したレベル|X(ω, n)|'を求める。
ただし、αは平滑化係数であり、0以上1未満の値をとる。αが1に近いほど長い時間で平滑化される。
ディップホールド部43は、時間平滑化したレベル|X(ω, n)|'に対して式(3)によりディップホールド処理を施し、推定ノイズレベルN(ω, n)を求める。
すなわち、1フレーム前の推定雑音レベルN(ω, n-1)が時間平滑化したレベル|X(ω, n)|'よりも大きいか等しい場合は、推定雑音レベルに時間平滑化したレベル|X(ω, n)|'を代入し、それ以外の場合は、1フレーム前の推定雑音レベルN(ω, n-1)に上昇係数uを乗じ、わずかに雑音レベルを上昇させる。ここで、uは1以上の定数であり、事前に設定する。uは推定雑音レベルの上昇係数であり、1に近いほど緩やかな雑音レベル上昇となり、ディップホールドの効果が得られる。
帯域集約部44は、推定雑音レベルN(ω, n)を、所定の帯域ごとに集約した雑音レベル情報を生成する。本形態では、3帯域に集約するものとして説明するが、帯域数は特に限定されない。例えば、周波数ビンの0番目から7番目(帯域1とする)、8番目から21番目(帯域2とする)、22番目から65番目(帯域3とする)でそれぞれ平均し、N1(n), N2(n), N3(n)とする。さらに、例えば一ファイルの冒頭1秒で平均してそれぞれ一つの数値とし、学習データ一つひとつに対応づける。これをNi=(N1, N2, N3)iとする。ただし下添え字のiは学習データの番号である。
ステップS3において、境界面最適化部5は、学習データの音響信号を雑音レベル情報に基づいてグループ分けし、認識結果記憶部2に記憶された認識結果からグループごとに認識精度を算出し、その認識精度が最大となるようにグループの境界面を最適化する。以下では、説明の便宜上、グループ数を2グループとするが、グループ数は特に限定されない。グループ数を3以上に構成する場合には、ある境界面で分割される学習データのグループに対して、さらに新たな境界面でグループ分けして最適化することを繰り返せばよい。
本形態の境界面最適化部5は、学習データを「パラメータセットPAで音声認識精度が高くなるグループGA」と、「パラメータセットPBで音声認識精度が高くなるグループGB」とに分割する境界面μを求める。パラメータセットPA、PBはパラメータセット選択部6で決定される。パラメータセット選択部6は、初回実行時には境界面の初期値に対して最適なパラメータセットを選択する。二回目以降の実行時には最適化された境界面に対して最適なパラメータセットを選択する。はじめに、境界面μを表す方程式の初期値として式(4)を与える。
境界面μは、帯域ごとの雑音レベルを軸として生成される空間を分割する平面である。本形態では、N1をx軸、N2をy軸、N3をz軸とする。式(5)を満たす区間に属する学習データはグループGAとし、式(6)を満たす区間に属する学習データはグループGBとする。
境界面最適化部5は、境界面μを初期値から変動させ、各グループの認識精度を最大化する境界面を探索する。境界面の最適化の評価値は学習データの認識精度Jである。認識精度Jは式(7)により算出され、境界面の変動に伴って値が変化する。
ただし、SPA, DPA, IPA(下添え字のPAはPAを表す)はそれぞれパラメータセットPAで音声認識した場合の置換誤り文字数、削除誤り文字数、挿入誤り文字数を表す。同様に、SPB, DPB, IPB(下添え字のPBはPBを表す)はそれぞれパラメータセットPBで音声認識した場合の置換誤り文字数、削除誤り文字数、挿入誤り文字数を表す。Cは正解文字列の文字数であるため分離していない。
認識精度Jの値は境界面に対して一意に定まるが、雑音レベルの関数として数式では表現できず、かつ不連続に変化する。そこで、本形態では山登り法(もしくはヒルクライミング法)を適用して探索を行う。境界面最適化の処理手続きを図4に示す。本形態では、境界面μは式(4)のように三次元空間で表しているため、式(8)に示すように四次元ベクトルとして扱うことができる。
最適化のために境界面μを微小に移動させる(ステップS51)。まず、微小ベクトル(Δa, Δb, Δc, Δd)の各成分を乱数で生成する。このとき生成される微小ベクトルの大きさにより、認識精度Jの最大値を探索する細かさが決まる。そこで、生成する乱数の範囲を、式(9)を満たすように制限する。
ただし、amin, amax, bmin, bmax, cmin, cmax, dmin, dmaxの値は、例えば帯域ごとの平均雑音レベルの最大値に依存する値である。例えば、N1, N2, N3の値域がそれぞれ0から60程度であれば、amin, bmin, cmin, dmin=0、amax, bmax, cmax=3、dmaxは任意の正の値、などに設定する。さらに、微小ベクトル(Δa, Δb, Δc, Δd)の各要素の符号を反転し、式(10)に示すように、24=16通りすべての組み合わせを生成する。
境界面が移動すると、移動前にグループGAに属していた学習データのいくつかでは式(6)が満たされるため、これらはグループGBへ移動する。同様に、移動前にグループGBに属していた学習データのいくつかでは式(5)が満たされるため、これらはグループGAへ移動する。移動した学習データのグループを更新して、グループGAの学習データにはパラメータセットPAを、グループGBの学習データにはパラメータセットPBを使ったとする。全学習データに対する認識精度を式(7)により再計算し、これをJ’kとする(ステップS52)。音声認識自体はすでに実施してあるので、式(7)では結果の文字列を集計するだけでよい。本形態では、J’kは24個存在することになるが、そのうち式(7)を最大にするものをJmaxとする(ステップS53)。
最大の認識精度Jmaxを前回求めた認識精度Jと比較し、境界面の移動によって認識精度の最尤化が進んでいるかを確認する(ステップS54、S56)。最尤化が進んでいれば(すなわち、JmaxがJよりも大きければ)認識精度JにJmaxを代入し、境界面μを式(11)によって移動して、認識精度Jを再計算する処理を継続する(ステップS55)。最大の認識精度Jmaxが前回の認識精度Jと等しくなった場合には、式(9)の制約を外してεを再生成し、認識精度Jを再計算する処理を継続する(ステップS57)。境界面を移動させても認識精度Jの値が変わらないということは現実的ではないため、εを再生成して境界面を移動させることを繰り返せば、いずれ認識精度Jの値が変化すると考えられるからである。最大の認識精度Jmaxが前回の認識精度J未満になれば、処理を終了して境界面μを確定する。
上述の反復処理により、初期値近傍の最適解が求まる。ただし、認識精度Jには複数の極大値があるため、局所最適に陥るのを防ぐために、複数の境界面を初期値として与える。広い範囲を効率よく探索するために、境界面の初期値を格子状に設定する。3つの帯域の雑音レベルを軸として用いる場合、境界面は式(4)で表される三次元平面である。境界面の初期値には、例えば各軸に平行な平面と、各軸に45°、135°で交わる平面を用意する。図5に、z軸に平行な境界面の初期値を一点鎖線で示す。これらの平面は、a, b, cの値に0, 1, -1のいずれかを代入するすべての組み合わせにより作成できる。dは原点と平面との距離を表すため、学習データの雑音レベルの値の範囲に応じて変更する。また、dの増加分は格子の幅に相当する。
すべての境界面の初期値に対して初期値近傍の最適境界面を求め、その中から認識精度Jが最も高い結果を選ぶ。ここまでの一連の処理で最適境界面が決定すると、ステップS3の処理を終了し、ステップS4へ進む。なお、境界面の初期値を与えてから最適境界面が求まるまでの間は、パラメータセットPA, PBの中身は固定である。
ステップS4において、パラメータセット選択部6は、パラメータセット記憶部1に記憶されている複数のパラメータセットからパラメータセットPA, PBの中身を決定する。認識結果記憶部2に各パラメータセットを用いて学習データすべてを音声認識した結果が記憶されているため、認識精度Jの計算は、単に置換誤り文字数、削除誤り文字数、挿入誤り文字数を集計するだけである。
パラメータセット選択部6には、境界面最適化部5から境界面μの値が渡される。境界面μの一方の側にある学習データはグループGA、他方の側にある学習データはグループGBである。パラメータセット選択部6では、式(12)に従って、各グループについてパラメータセットP1,…,PLそれぞれに対して認識精度JA,λ, JB,λ(λ=1,2,…,L)を計算する。
ここで、λはパラメータセットの番号であり、SPλ, DPλ, IPλ(下添え字のPλはPλを表す)はそれぞれパラメータセットPλで音声認識した場合の置換誤り文字数、削除誤り文字数、挿入誤り文字数を表す。パラメータセットPA, PBは、式(13)に従って決定する。
仮に、式(13)でパラメータセットPA, PBの中身に同じものが選ばれた場合、その学習データセットはその境界面で分割する必要がなかったことを意味するため、その境界面は削除する。
ステップS5において、パラメータ決定装置は、境界面とパラメータセットの最適化が収束したかどうかを判定する。収束条件は、ステップS4においてパラメータセットPA, PBの中身が更新されなくなることである。境界面とパラメータセットの最適化が収束していない場合、ステップS3の処理を再度実行する。境界面とパラメータセットの最適化が収束した場合、そのパラメータセットを最適パラメータセットとして境界面μと関連付けて記憶し、処理を終了する。
収音処理部7および音声認識部8は、上述のように選択される最適パラメータセットを用いて音声認識を行う。収音処理部7は、入力された音響信号に対して、パラメータセット選択部6により出力される最適パラメータセットの値を用いて音声強調などの前処理を行う。音声認識部8は、処理後音響信号に対して音声認識を行い、認識結果の単語列を出力する。
上記のように、この発明のパラメータ決定技術は、音声強調技術などのパラメータセットが帯域ごとの雑音レベルによって適切な値が変化する傾向に注目して、パラメータセットの値を単一ではなく複数用意しておき、音響信号の雑音レベルに応じて最適なパラメータセットを選択する。パラメータセットの選択は、学習データの音響信号に対してすべてのパラメータセットを用いて前処理をした上で認識結果を生成し、パラメータセットを切り替えるべき雑音レベルの境界面を、ヒルクライミング法で探索することにより行う。このように構成することにより、雑音レベルの変動がある環境での音声認識において、最適なパラメータセットを選択することができる。また、雑音レベルに応じた最適なパラメータセットの値が自動で選定されるため、パラメータ調整のコストを削減できる。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 パラメータセット記憶部
2 認識結果記憶部
3 FFT部
4 雑音レベル推定部
5 境界面最適化部
6 パラメータセット選択部
7 収音処理部
8 音声認識部
2 認識結果記憶部
3 FFT部
4 雑音レベル推定部
5 境界面最適化部
6 パラメータセット選択部
7 収音処理部
8 音声認識部
Claims (5)
- 複数の前処理パラメータセットを記憶するパラメータセット記憶部と、
複数の音響信号を上記複数の前処理パラメータセットそれぞれを用いて音声認識した認識結果を記憶する認識結果記憶部と、
上記音響信号から帯域ごとの雑音レベルを推定し、雑音レベル情報を生成する雑音レベル推定部と、
上記複数の音響信号を上記雑音レベル情報に基づいてグループ分けし、上記認識結果から上記グループごとに算出した認識精度が最大となるように上記グループの境界面を最適化する境界面最適化部と、
上記複数の前処理パラメータセットから上記グループごとに上記認識精度が最大となる最適前処理パラメータセットを選択するパラメータセット選択部と、
を含むパラメータ決定装置。 - 請求項1に記載のパラメータ決定装置であって、
上記雑音レベル推定部は、上記音響信号から周波数ごとに推定した雑音レベルを所定の周波数帯域で集約した複数の値を要素とするベクトルとして上記雑音レベル情報を生成するものであり、
上記境界面最適化部は、上記境界面を上記周波数帯域の各値を変数とする線形方程式で表し、上記雑音レベル情報の各値を上記線形方程式の各変数に代入した結果により上記複数の音響信号をグループ分けし、上記線形方程式の各係数を変動させた前後の上記グループごとの認識精度を比較することで上記境界面を最適化するものであり、
上記パラメータセット選択部により選択される上記最適前処理パラメータセットが更新されなくなるまで、上記境界面最適化部と上記パラメータセット選択部とを繰り返し実行するものである
パラメータ決定装置。 - 請求項1または2に記載のパラメータ決定装置であって、
上記認識精度は、上記音響信号に関する正解文字列の文字数から上記認識結果における認識誤り文字数を減算した値を上記正解文字列の文字数で除算した値である
パラメータ決定装置。 - パラメータセット記憶部に、複数の前処理パラメータセットが記憶されており、
認識結果記憶部に、複数の音響信号を上記複数の前処理パラメータセットそれぞれを用いて音声認識した認識結果が記憶されており、
雑音レベル推定部が、上記音響信号から帯域ごとの雑音レベルを推定し、雑音レベル情報を生成する雑音レベル推定ステップと、
境界面最適化部が、上記複数の音響信号を上記雑音レベル情報に基づいてグループ分けし、上記認識結果から上記グループごとに算出した認識精度が最大となるように上記グループの境界面を最適化する境界面最適化ステップと、
パラメータセット選択部が、上記複数の前処理パラメータセットから上記グループごとに上記認識精度が最大となる最適前処理パラメータセットを選択するパラメータセット選択ステップと、
を含むパラメータ決定方法。 - 請求項1から3のいずれかに記載のパラメータ決定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015014188A JP6067760B2 (ja) | 2015-01-28 | 2015-01-28 | パラメータ決定装置、パラメータ決定方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015014188A JP6067760B2 (ja) | 2015-01-28 | 2015-01-28 | パラメータ決定装置、パラメータ決定方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016139025A JP2016139025A (ja) | 2016-08-04 |
JP6067760B2 true JP6067760B2 (ja) | 2017-01-25 |
Family
ID=56559177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015014188A Active JP6067760B2 (ja) | 2015-01-28 | 2015-01-28 | パラメータ決定装置、パラメータ決定方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6067760B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6367993B1 (ja) * | 2017-02-16 | 2018-08-01 | 日本電信電話株式会社 | 学習装置、雑音抑圧パラメータセット切替規則学習装置、音声認識装置、学習方法、雑音抑圧パラメータセット切替規則学習方法、音声認識方法、プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3309895B2 (ja) * | 1996-03-25 | 2002-07-29 | 日本電信電話株式会社 | 雑音低減方法 |
JP5916054B2 (ja) * | 2011-06-22 | 2016-05-11 | クラリオン株式会社 | 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム |
JPWO2014049944A1 (ja) * | 2012-09-27 | 2016-08-22 | 日本電気株式会社 | 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置 |
-
2015
- 2015-01-28 JP JP2015014188A patent/JP6067760B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016139025A (ja) | 2016-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3479377B1 (en) | Speech recognition | |
US9767790B2 (en) | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium | |
JP4548646B2 (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
KR102399535B1 (ko) | 음성 인식을 위한 학습 방법 및 장치 | |
JP4245617B2 (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
JP7218601B2 (ja) | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム | |
KR102410850B1 (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
JP2016143042A (ja) | 雑音除去装置及び雑音除去プログラム | |
JP6216809B2 (ja) | パラメータ調整システム、パラメータ調整方法、プログラム | |
JP6067760B2 (ja) | パラメータ決定装置、パラメータ決定方法、およびプログラム | |
JPWO2019044401A1 (ja) | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム | |
JP5191500B2 (ja) | 雑音抑圧フィルタ算出方法と、その装置と、プログラム | |
JP2019035862A (ja) | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム | |
JP2018180045A (ja) | 音響モデル学習装置、モデル学習装置、モデル学習方法、およびプログラム | |
JP7222277B2 (ja) | 雑音抑圧装置、その方法、およびプログラム | |
KR101862352B1 (ko) | 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법 | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
JP6466762B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP5498452B2 (ja) | 背景音抑圧装置、背景音抑圧方法、およびプログラム | |
JP6376486B2 (ja) | 音響モデル生成装置、音響モデル生成方法、およびプログラム | |
JP5647159B2 (ja) | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム | |
CN113744754B (zh) | 语音信号的增强处理方法和装置 | |
JP6734233B2 (ja) | 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6067760 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |