JP5262713B2

JP5262713B2 - ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム

Info

Publication number: JP5262713B2
Application number: JP2008520138A
Authority: JP
Inventors: 隆行荒川; 剛範辻川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-06-02
Filing date: 2007-01-16
Publication date: 2013-08-14
Anticipated expiration: 2027-01-16
Also published as: US8401844B2; CN101460996B; US20090259461A1; CN101460996A; WO2007141923A1; JPWO2007141923A1

Description

本発明は、入力信号の音圧に依存せず出力信号の音圧を一定にするゲイン制御システム、ゲイン制御方法、ゲイン制御プログラム、及びこのゲイン制御方法を用いた音声認識システム、音声認識方法、音声認識プログラムに関する。

本明細書で用いる用語について定義しておく。

「音圧」とは、その音声があるときの気圧の上昇分とする。単位は[N/m2]。この量は、音声の持つエネルギーの平方根、音声波形の振幅値に比例する。

「音圧レベル」とは、対象とする音声の音圧と基準音圧との比の対数値とする。単位は[dB]。具体的には、次式（１）のように定義される。

音圧レベル＝20 log10(対象とする音声の音圧／基準音圧) ・・・(1)

「ゲイン」とは、出力信号の音圧と入力信号の音圧との比とする。具体的には次式（２）のように定義される。

ゲイン＝出力信号の音圧／入力信号の音圧・・・(2)

通常の音声通信用又は音声録音用に用いられるゲイン制御装置の目的は、入力信号を人が聞きやすい音圧に変形して出力することにある。

これに対して、音声認識用に用いられるゲイン制御装置の目的は、入力信号の音圧と予め学習によって用意された音声モデルの音圧とを一致させる、ことにある。

音声モデルとは、非特許文献１に記載されているように、音声スペクトルを特徴量に変換し、その出現確率をＨＭＭ（Hidden Markov Model）やＧＭＭ（Gaussian Mixture Model）のような確率モデルで表したものである。

図９は、特許文献１に記載の、音声通信用又は音声録音用に用いられる、ゲイン制御装置の構成を示す図である。図９のゲイン補正装置では、音声信号が入力される入力信号取得部１と、予め設定された互いに異なった周波数帯域の信号のみ通過させる複数の帯域分割フィルタ手段１１と、帯域分割フィルタ手段１１それぞれの出力する信号を絶対値変換する絶対値変換手段１２と、帯域分割フィルタ手段１１で分割された周波数帯域毎に重み付けするデータを格納しておく重み付けデータ格納手段１３と、絶対値変換された値に重み付けデータを乗算する乗算部１４と、重み付けした値を加算する加算部１５と、加算された値を補正するゲイン補正手段１６と、補正された値と比較されるスレッシュルドレベルデータを格納しておくスレッシュルドレベル格納手段１７と、補正された値とスレッシュルドレベルデータを比較する比較手段１８と、比較手段１８の比較結果によりゲイン値を発生するゲイン発生手段１９と、ゲイン値の変動量を緩やかにする放絡線発生手段２０と、放絡線発生手段２０が出力するゲイン値を入力信号に乗算し音圧レベルを補正する音圧補正部７と、を備えている。このような構成とすることにより、入力信号が音声である可能性の高い周波数帯域毎に重み付けができ、重み付けされた信号に基づいてゲイン制御が行われる。

しかしながら、図９の構成では、図１０に示すように、音素毎の音圧の違いを考慮せず常に一定の音圧の出力とするために、不自然な音声が出力される可能性がある。

例えば、母音と子音であれば、母音の方が一般的に大きな音圧、子音の方が小さな音圧と考えられるが、図９の構成では、この差を考慮せず、一定の音圧の出力としてしまう為に、過度に子音が強調された音声となる。

このことは、ゲイン制御装置を、音圧の情報を必要とする音声認識装置と組み合わせて使用する場合に、大きな問題となり、認識性能の劣化につながる。

さらに、雑音の周波数帯域が目的とする音声の周波数帯域と重なるような場合には、雑音を強調してしまうという問題もある。

次に、音声認識用に用いられるゲイン制御装置について説明する。通常の音声認識では、音圧の変動に頑健な認識とするために、音圧に依存するケプストラムの０次成分やパワー特徴量などを使わずに認識を行う。

しかし、雑音下での有効な音声認識手法として知られる、ＰＭＣ（Parallel Model Combination）法などのように、音声モデルを雑音に適応させる手法では、音圧に依存するケプストラムの０次の情報が必要となるため、ゲイン制御法が必要となる（非特許文献２）。

図１１に、クリーン音響モデル（クリーン音声モデル）と雑音モデルから雑音適応モデルを合成する手法の一例であるＰＭＣ法を例示する。

予めクリーンな音声をケプストラムの形で学習した音声モデルに対し、逆コサイン変換、指数変換を施すことで、スペクトルの形に変形し、クリーン音声スペクトルを得る。

発声前の無音区間などで学習した雑音モデルに対し、逆コサイン変換、指数変換を施すことで、スペクトルの形に変形し、雑音スペクトルを得る。

次に、上記クリーン音声スペクトルに対し、レベル調整係数g（「レベル補正係数」ともいう）を乗じ、上記雑音スペクトルと足し合わせ、雑音適応音声スペクトルを算出する。

続いて、上記雑音適応スペクトルに、対数変換、コサイン変換を施すことで、雑音適応音声モデルを得る。

認識時には、入力信号と、雑音適応音声モデルを比較照合することにより認識を行う。

ＰＭＣ法では、レベル補正係数gを乗することで、音声モデルの音圧と入力信号から算出した雑音モデルの音圧の混合比を調整している。

したがって、レベル調整係数gを乗することは、一種のゲイン制御と考えることができる。

非特許文献３や非特許文献４では、上記レベル調整係数gを、尤度最大化の指針に基づき推定している。

具体的には、
（A）予め複数の音圧の音声モデルを用意しておき、尤度が最大となるものを選択する方法や、
（B）ゲインの値を変数として扱い、音声モデルを構成する各ガウス分布毎に尤度が最大となるように繰り返し推定する方法
がある。

上記２つの方法では、学習時の音声の音圧に基づいて、ゲインの制御を行うために、音素ごとの音圧の違いを反映したゲインの制御が可能となる。

しかしながら、予め複数の音圧の音声モデルを用意しておく方法（A）では、正確な推定を行うために全ての音素毎に音圧を変えた多くの音声モデルを用意しておく必要があり、容量や計算量の面で多くのコストがかかる。

ゲインを変数として扱い繰り返し推定する方法（B）では、繰り返し推定を行うことで、多くの計算コストがかかる、という問題と、最初に設定したゲインの値が異なるとまったく違う音素に引き込まれてしまう、という問題がある。

特開２００４−１５１２５号公報 Guorong Xuan, Wei Zhang, Peiqi Chai, "EM Algorithms of Gaussian Mixture Model and Hidden Markov Model",IEEE International Conference on Image Processing ICIP 2001,vol.1,pp.145-148.2001年 M.J.F.Gales and S.J.Young,"Robust Continuous Speech Recognition Using Parallel Model Combination",IEEE Trans.SAP-4,No.5,pp.352-359．１９９６年９月 Y.Minami and S.Furui, "A Maximum Likelihood Procedure for a Universal Adaptation Method Based on HMM Composition", IEEE ICASSP'95,129-132.１９９５年高田健司，外山淳，"Ｓ／Ｎ比に自動適合するＨＭＭ合成法を用いた単語認識"，電子情報通信学会技術研究報告，ＳＰ２００２−９７ｐｐ・１９−２４２００２年 Richard O.Duda, Petter E.Hart, David G.Stork 著，尾上守夫監訳，"パターン識別"，Joh Willey &Sons．新技術コミュニケーション，ｐｐ．５２８−５２９ Steven F.Boll,"Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEE Trans. ASSP 27, pp.113-120, 1979年

上記したように、従来のシステムは、下記記載の課題を有している。

第１の問題点は、従来の音声通信用又は音声録音用に用いられているゲイン制御技術では、音素毎の音圧の違いが考慮されていないため、不自然な音声が出力される、ということである。

第２の問題点は、従来の音声通信用又は音声録音用に用いられているゲイン制御技術では、雑音の周波数帯域が目的とする音声の周波数帯域と重なるような場合には、雑音を強調してしまう、ということである。

第３の問題点は、従来の音声認識用に用いられている尤度最大化の指針に基づくゲイン制御技術では、音声認識用に用意する全ての音素毎に複数の音圧の音声モデルを用意する、又は音素それぞれに対し複数回の推定を行うために、容量や計算量の面で多くのコストがかかる、ということである。

第４の問題点は、従来の音声認識用に用いられている尤度最大化の指針に基づくゲイン制御技術では、最初に設定したゲインの値が異なると、全く違う音素に引き込まれてしまう、ということである。

したがって、本発明の目的は、音素毎の音圧の違いを反映することにより、自然な音声を出力可能とするゲイン制御装置、プログラムを提供することにある。

本発明の別の目的は、不要な雑音を強調することなく、目的とする音声を正しく強調するゲイン制御装置、プログラムを提供することにある。

本発明のさらに別の目的は、少ない容量及び計算コストでゲイン制御装置、プログラムを提供することにある。

本発明のさらに別の目的は、音素の特徴を維持したまま音圧の制御を行うゲイン制御装置、プログラムを提供することにある。

本願で開示される発明は、上記課題を解決するため、概略以下のように構成される。

本発明に係る第１のゲイン制御システムは、入力信号取得部と、特徴量変換部と、音声モデル格納部と、音圧比較部と、距離算出部と、ゲイン値算出手段と、音圧補正手段を備える。上記音声モデル格納部には複数の音素毎又は特徴量の距離に応じて、音声をクラスターに分割した単位毎に用意した特徴量と音圧とを持つ音声モデルを格納する。

本発明に係る第１のゲイン制御方法は、
入力信号を取得し単位時間毎に切り分ける入力信号取得工程と、
上記単位時間毎に切り分けられた入力信号から特徴量を算出する特徴量変換工程と、
音素毎又は音声をクラスターに分割した単位毎に特徴量と音圧の情報を持つ音声モデルを格納する音声モデル格納工程と、
上記単位時間毎に切り分けられた入力信号と上記音声モデルそれぞれとの音圧の比を算出する音圧比較工程と、
上記単位時間毎に切り分けられた入力信号と上記音声モデルそれぞれとの特徴量の距離を算出する距離算出工程と、
上記音圧の比を音声モデルについて重み付き平均することでゲインを算出するゲイン値算出工程と、
算出されたゲインを用いて入力信号の音圧を補正する音圧補正工程と、を含む。

本発明に係る第１のゲイン制御プログラムは、
入力信号を取得し単位時間毎に切り分ける処理と、単位時間毎の入力信号を特徴量に変換する処理と、
単位時間毎の入力信号と音声モデルそれぞれとの音圧を比較する処理と、
単位時間毎の入力信号と音声モデルそれぞれとの特徴量の距離を算出する処理と、
音圧の比を複数の音声モデルについて重み付き平均することでゲイン値を算出する処理と、
算出されたゲイン値を用いて入力音声の音圧レベルを補正する処理と、を実行させるプログラムよりなる。

かかる構成としたことで、音素又はクラスター単位毎に特徴量と音圧の情報を持つ音声モデルを使用することにより、音素毎の音圧の違いを反映することができ、第１の目的を達成することができる。

また、音素又はクラスター単位毎に特徴量と音圧の情報を持つ音声モデルを使用することにより、不要な雑音を強調することなく、目的とする音声を正しく強調することができ、第２の目的を達成することができる。

また、音素又はクラスター単位毎に特徴量と音圧の情報を持つ音声モデルを用意し、入力信号と音声モデルそれぞれとの音圧の比を複数音素モデルに対して距離に応じた重み付き平均をすることによってゲインを算出することで、全ての音素毎に音圧の異なる複数のモデルを用意する、又は複数回の推定を行う必要が無くなるために、少ない容量及び計算コストで済み、第３の目的を達成することができる。

また、ゲイン制御用の音声モデルは音声認識用の音声モデルとは別に用意することができる為、容量、計算量の制約に応じて適切な大きさの音声モデルを用意でき、第３の目的を達成することができる。

本発明に係る第２のゲイン制御方法は、第１のゲイン制御方法において、
ゲイン値算出工程において上記音圧の比を複数の音声モデルに対して距離に応じた重み付き平均をすることでゲイン値を算出する代わりに、
上記音圧の比を複数の音声モデルに対して上記距離と音素又はクラスター単位の出現頻度情報の両方を考慮して重み付き平均をすることでゲイン値を算出する。

このような構成とすることにより、音素の特徴を正確に推定することができ、第４の目的を達成することができる。

本発明に係る第３のゲイン制御方法は、第１のゲイン制御方法において、
入力信号から雑音成分を推定する工程と、
入力信号から上記雑音成分を抑圧し、音声信号を算出する工程とを含み、
第１のゲイン制御方法における特徴量変換工程に対して、入力信号から特徴量を算出する代わりに、入力信号から雑音成分を抑圧した音声信号から特徴量を算出する。

かかる構成としたことで、第１のゲイン制御方法に比べて、より雑音成分を強調することなく目的とする音声を正しく強調することができる。

本発明に係る第４のゲイン制御方法は、
第３のゲイン制御方法における音圧補正工程に対して、
算出されたゲインを用いて入力信号の音圧を補正する代わりに、算出されたゲインを用いて入力信号から雑音成分を抑圧したクリーンな成分のみを取り出したクリーン音声信号の音圧を補正する。

本発明に係る第５のゲイン制御方法は、
第１のゲイン制御方法における音圧補正工程の代わりに、算出されたゲインと入力信号から音圧の調整がなされた特徴量を算出する特徴量変換工程を含む。

本発明の第１の効果は、予め所定の音圧の音声で学習された音声モデルを使用することにより、音素毎の音圧の違いを反映することができる、ということである。

本発明の第２の効果は、音素毎又は音声をクラスターに分割した単位毎に音声モデルを使用することにより、不要な雑音を強調することなく、目的とする音声を正しく強調することができる。

本発明の第３の効果は、ゲインの算出に音素毎又は音声をクラスターに分割した単位毎に用意した音声モデルに対して距離による重み付き平均を行うことにより、音素全てに対して音圧の異なる複数のモデルを用意する、又は複数回の推定を行う必要が無くなるために、少ない容量及び計算コストで済む。

本発明の第４の効果は、ゲインの算出に音素毎又は音声をクラスターに分割した単位毎に用意した音声モデルに対して距離による重み付き平均を行うことにより、音素の特徴を維持したまま音圧の制御が行うことができる。

本発明の第１の実施例のシステムの構成を示す図である。本発明の第１の発明の実施例における処理手順を示す流れ図である。本発明の第１の実施例における入力音圧と出力音圧の特性を示す図である。本発明の第２の実施例のシステムの構成を示す図である。本発明の第３の実施例のシステムの構成を示す図である。本発明の第４の実施例のシステムの構成を示す図である。本発明の第５の実施例のシステムの構成を示す図である。本発明の第６の実施例のシステムの構成を示す図である。従来のゲイン制御システム雑音抑圧システムの構成を示すブロック図である。従来のゲイン制御システムの入力音圧と出力音圧の特性を示す図である。従来の音声モデルと雑音モデルの合成法を示す図である。

符号の説明

１入力信号取得部
２特徴量変換部
３音声モデル格納部
３’ 音声モデル格納部
３ａ音声モデルの音圧値
３ｂ音声モデルの特徴量
３ｃ音声モデルの出現頻度（事前確率）
４音圧比較部
５距離算出部
６ゲイン値算出部
６’ ゲイン値算出部
７音圧補正部
８雑音推定部
９クリーン音声推定部
１０第二の特徴量変換手段
１１帯域分割フィルタ手段
１２絶対値変換手段
１３重み付けデータ格納手段
１４乗算部
１５加算部
１６ゲイン補正手段
１７スレッシュルドレベル格納手段
１８比較手段
１９ゲイン発生手段
２０放絡線発生手段

次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。本発明は、予め所定の音圧の音声で学習され、それぞれ音圧情報と特徴量を含む音声モデルを、音素毎又はクラスター単位で記憶する音声モデル格納部（３）と、入力信号を単位時間毎に切り出して分析し特徴量を導出する手段（２）と、前記音声モデル格納部に格納されている前記音声モデルの特徴量（μj）と前記入力信号の特徴量（C(t)）の距離から、それぞれの音声モデルｊが選ばれる確率（P(j|C(t))）を算出し、前記入力信号の特徴量のうち音圧に依存する特徴量と、前記音声モデル格納部に格納されている前記音声モデルの音圧情報との差（μ0,j-C(0,t)）を、前記確率を用いて音声モデルそれぞれに対して重み付けしてゲイン(g)を算出する手段（４、５、６）を、備え、入力信号の音圧を予め学習によって用意された音声モデルの音素又はクラスター毎の音圧に一致させる制御が行われる。本発明は、入力信号の音圧を調整し出力するゲイン制御システムであって、入力デバイスから入力される音声信号を取得し単位時間毎に切り出す入力信号取得部（１）と、前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する特徴量変換部（２）と、複数の音素毎、又は音声をクラスターに分割した単位毎に、特徴量と音圧（音圧に依存する特徴量：例えばケプストラムの０次成分）の情報を持つ音声モデルを格納する音声モデル格納部（３）と、前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する距離算出部（５）と、前記単位時間毎に切り出された入力信号の音圧（音圧に依存する特徴量）と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する音圧比較部（４）と、前記音声モデルそれぞれに対して算出された、距離と、音圧の比とに基づき、ゲインを算出するゲイン値算出部（６）と、前記ゲイン値算出部で算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する音圧補正部（７）と、を含む。

本発明の別の実施の形態において、音声モデル格納部（図４の３’）が、音声モデルの出現頻度情報をさらに記憶保持しており、前記ゲイン値算出部（６'）は、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、からゲインを算出する。

本発明においては、前記ゲイン値算出部において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出するようにしてもよい。

本発明の別の実施の形態においては、前記入力信号から雑音成分を取得する雑音推定部(図５の８)と、前記入力信号から前記雑音推定部で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力するクリーン音声推定部(図５の９)と、を備え、前記特徴量変換部（２）は、前記クリーン音声推定部から出力される、雑音成分を抑圧した信号を入力し、入力した信号の特徴量及び音圧を取り出すようにしてもよい。

本発明の別の実施の形態においては、前記音圧補正部（７）が、前記クリーン音声推定部（９）から出力される、雑音成分を抑圧した信号を入力し、音圧を補正するようにしてもよい。

本発明の別の実施の形態においては、前記音圧補正部（７）が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御するようにしてもよい。

本発明のさらに別の実施の形態においては、前記音圧補正部（７）のかわりに、前記ゲイン値算出部で算出されたゲインと、前記入力信号とから音声認識で使用する特徴量を算出する第二の特徴量変換部（図７の１０）を備え、前記第二の特徴量変換部で算出された特徴量を用いて音声認識を行うようにしてもよい。

本発明のさらに別の実施の形態においては、前記音圧補正部のかわりに、前記ゲイン値算出部で算出されたゲインを用いて、前記特徴量変換部で求められた特徴量を補正し、音声認識で使用する特徴量を算出する第二の特徴量変換部（図８の１０）を備え、前記第二の特徴量変換部で算出された特徴量を用いて音声認識を行うようにしてもよい。以下、実施例に即して説明する。

＜実施例１＞
図１は、本発明の第１の実施例の構成を示す図である。図１を参照すると、本発明の第１の実施例は、入力信号を取得し単位時間毎に切り出す入力信号取得部１と、単位時間毎の入力信号から特徴量と音圧を算出する特徴量変換部２と、音声モデルを格納する音声モデル格納部３と、単位時間毎の入力信号と上記音声モデルそれぞれとの音圧を比較し音圧の比を求める音圧比較部４と、単位時間毎の入力信号と音声モデルそれぞれとの特徴量の距離を求める距離算出部５と、音圧比較部４によって算出された音圧の比と距離算出部で算出された距離とからゲインを算出するゲイン値算出部６と、ゲイン値算出部６で算出されたゲインを用いて入力信号の音圧を補正する音圧補正部７と、を備えている。

音声モデル格納部３は、複数の音素毎又は音声をクラスターに分割した単位毎に用意された複数の音声モデルが格納されている。

ここで、「音素」とは、母音や子音、無声音や有声音、又は、同じ“あ”の音であっても、前後の音の並びなどによって音声を分類したものである。

また、「クラスター」とは、音素をまとめあげたもの、及び、音声を特徴量の距離に応じて分割したものである。

クラスター分割法としては、例えば「Ｋ−ｍｅａｎｓ法」（非特許文献５）を用いることができる。「Ｋ−ｍｅａｎｓ法」とは、与えられたデータを距離に応じて、Ｋ個のクラスターに分類する手法である。

音声モデルは、音圧３ａと、特徴量３ｂとから構成される。音圧３ａとしては、ケプストラムの０次成分を用いる。特徴量３ｂとしては、音声を特徴量に変換した値そのものを用いても良いし、その値を出力する確率密度分布を用いても良い。

音圧３ａと特徴量３ｂは、“Expectation Maximization”（ＥＭ）アルゴリズムなどを用いて予め学習して用意する（非特許文献１）。また、ＥＭアルゴリズムを用いてクラスターを決定することもできる。

次に、図１及び図２のフローチャートを参照して、本実施例の全体の動作について詳細に説明する。

入力信号を単位時間周期ごとに窓掛けして切り出し、フーリエ解析することによって算出されたスペクトル量を、X(f,t)で表す。ただし、fは周波数方向の番号、tは時間方向の番号（フレーム番号）を示す。

特徴量変換部２で、入力信号から特徴量を算出する。ここで、特徴量として使用するのは、
・スペクトル、
・対数スペクトル、
・ケプストラム、
・ピッチ、
・パワー、
・このΔ（一階差分）量、
・ΔΔ（二階差分量）
などの量である。

本実施例では、ケプストラムを特徴量とすることとする。ケプストラムは式（３）で算出される（ステップＳ１）。

C(t) = DCT[ log[X(t)] ] ・・・(3)

ただし、
X(t)はX(f,t)を要素として持つベクトルである。
C(t)はC(i,t)を要素として持つベクトルである（ただし、iはケプストラム次元を示す）。
DCT[ ]は離散コサイン変換を示す。

次のステップＳ２及びステップＳ３は、音声モデル格納部３に格納されている音声モデルそれぞれに対して行われるものとする。音圧比較部４において、入力信号の音圧と音声モデルとの音圧の比較を行う（ステップＳ２）。

具体的には、ケプストラムの０次成分が音圧の対数値の情報を表すことから、音声モデルの持つケプストラムの０次成分（音声モデル格納部３の音圧３ａ）と、特徴量変換部２で算出された入力信号のケプストラムの０次成分C(0,t)との差を算出する。

μ_0,j - C(0,t) ・・・(4)

ただし、μ_0,jは、j番目の音声モデルが持つケプストラムの０次成分（音声モデル格納部３の音圧３ａ）を示す。

次に、距離算出部５において、入力信号の特徴量と音声モデルの持つ特徴量との距離を算出する。(ステップＳ３)。

次に、ゲイン値算出部６において、モデルそれぞれに対し音圧比較部４で算出されケプストラムの０次成分の差と、距離算出部５で算出された距離とからゲインを推定する（ステップＳ４）。

具体的には、まず音声モデルｊの選ばれる確率（正規化された尤度）Ｐ（ｊ｜Ｃ（ｔ））を次式で求める。

Ｐ（ｊ｜Ｃ（ｔ））＝ｅｘｐ（−ｄ［Ｃ（ｔ），μ_ｊ］）／Σ_ｊ’ｅｘｐ（−ｄ［Ｃ（ｔ），μ_ｊ’］）・・・（５）

式（５）において、ｄ［Ｃ（ｔ），μ_ｊ］は、入力信号の特徴量（ケプストラム）と、ｊ番目の音声モデルの持つ特徴量との距離を示す。この距離は距離算出部５で計算される（０次ケプストラムは含まない）。また、式（５）の分母のｊ’は、音声モデルを示し、ｊ’に関する距離ｄ［Ｃ（ｔ），μ_ｊ］の和は、複数の音声モデルに関しての和を示す。この和は、音声モデル格納部３に格納されている、全ての音声モデルに対して行っても良い。あるいは、距離の近い上位数個に関して行うなどしても良い。なお、式（５）の確率の導出は、ケプストラム以外の特徴量を用いて計算してもよいことは勿論である。

次に、この確率Ｐ（ｊ｜Ｃ（ｔ））を用いて音声モデルそれぞれに対し重み付き平均（期待値）を取ることで、ゲインｇ（ｔ）の値を算出する。

ｇ（ｔ）＝ｅｘｐ［Σ_ｊ｛（μ_０，ｊ−Ｃ（０，ｔ））Ｐ（ｊ｜Ｃ（ｔ））｝］・・・（６）

上式（６）において、ｅｘｐ［］を施すのは、式（３）でｌｏｇ［］を施し対数領域の量に変形しているのを、元に戻すためである。

上式（６）において、ｊに関する和は、複数のモデルに関しての和を示す。この和は、式（５）と同じモデルに関して行われる。

また、本実施例では、ケプストラムの０次の項の差を、単位時間毎の入力信号と音声モデルそれぞれとの距離に応じて、重み付け平均する例を示したが、式（６）の代わりに、次式（７）に示すように、ケプストラムの０次の項の差に、ｅｘｐ［］を施し、音圧の比に戻してから、単位時間毎の入力信号と音声モデルそれぞれとの距離に応じて重み付け平均するようにしてもよい。

ｇ（ｔ）＝Σ_ｊ｛ｅｘｐ［μ_０，ｊ−Ｃ（０，ｔ）］Ｐ（ｊ｜Ｃ（ｔ））｝・・・（７）

また、単位時間毎の入力信号（の特徴量）との距離が最も近い音声モデルに対するケプストラムの０次の項の差から、ゲインｇ（ｔ）を算出しても良い。

ｇ（ｔ）＝ｅｘｐ［μ_０，ｋ−Ｃ（０，ｔ）］・・・（８）

ただし、ｋは単位時間毎の入力信号との距離が最も近い音声モデルを示す。

最後に、音圧補正部７は、ゲイン値算出部６で算出されたゲインg (t)と、入力信号X(f,t)の積を取り、入力信号の音圧レベルを補正する（ステップＳ５）。

Y(f,t) = g(t) X(f,t) ・・・(9)

ただし、Y(f,t)は補正された信号を示す。Y(f,t)において、X(f,t)と同様、fは周波数方向の番号、tは時間方向の番号（フレーム番号）を示す。

本実施例では、入力信号を単位時間毎に切り出した単位であるフレーム毎に音圧レベルを補正する例を示したが、ゲインg(t)に関して複数のフレームに対して、平滑化又は平均を取るなどして、複数のフレームに対して音圧レベルを補正しても良い。

次に、本実施例の作用効果について説明する。

本実施例によれば、予め所定の音圧の音声で学習された音声モデルを使用することにより、図３に示すように、音素毎の音圧の違いを反映することができる。

また、本実施例によれば、音声モデルを使用することにより、不要な雑音を強調することなく、目的とする音声を正しく強調することができる。

さらに、本実施例によれば、ゲインの算出に、単位時間毎の入力信号と音声モデルそれぞれとの距離に応じた重み付き平均を用いることにより、全ての音素毎に、複数の音圧のモデルを用意する、あるいは、複数回の推定を行う必要が無くなるために、少ない容量及び計算コストで済む。

＜実施例２＞
図４は、本発明の第２の実施例の構成を示す図である。図４を参照すると、本発明の第２の実施例において、音声モデル格納部３’は、音素毎又は音声を分割したクラスター単位毎に、音圧と特徴量と、音声モデルの出現頻度（事前確率）とを含む。すなわち、音声モデル格納部３’には、第１の実施例の音声モデル格納部３に、出力頻度情報が追加されている。また、本発明の第２の実施例において、ゲイン値算出部６’は、音声モデルそれぞれに対し、音圧比較部４によって算出された音圧の比と、音圧モデルそれぞれに対し、距離算出部５で算出された距離と、音声モデルそれぞれの出現頻度（事前確率）と、からゲインを算出する。

音声モデル格納部３’に格納されている音声モデルは、それぞれ音圧３ａと特徴量３ｂと出現頻度 (事前確率)３ｃと、から構成される。特に制限されないが、本実施例では、音声モデルとして、ＧＭＭを用いる。ＧＭＭ以外にも、音声認識用に用いられるＨＭＭなどを用いることもできる。

音圧３ａとしては、前記実施例と同様、ケプストラムの０次を用いる。また、特徴量３ｂとしては、音声を特徴量に変換した値そのものを用いても良いし、その値を出力する確率密度分布を屈いても良い。

また、出現頻度（事前確率）３ｃは、複数の音声モデルの中で、対象とする音声モデルが出現する頻度である。

音圧３ａ、特徴量３ｂ、出現頻度（事前確率）３ｃは、ＥｘｐｅｃｔａｔｉｏｎＭａｘｉｍｉｚａｔｉｏｎ（ＥＭ）アルゴリズムなどを用いて学習しておく（非特許文献１）。

本実施例は、前記第１の実施例に対し、ステップＳ４のゲイン値算出での処理が置き換わったものになっている。

ゲイン値算出部６’では、音声モデルそれぞれに対し音圧比較部４で算出されケプストラムの０次成分の差と、音声モデルそれぞれに対して、距離算出部５で算出された距離と、対応する音声モデルの出現頻度３ｃとから、ゲインを推定する。

具体的には、まず音声モデルｊの選ばれる確率（事後確率）を算出する。

Ｐ（ｊ｜Ｃ（ｔ））＝Ｐ（ｊ）ｅｘｐ（−ｄ［Ｃ（ｔ），μ_ｊ］）／Σ_ｊ’Ｐ（ｊ’）ｅｘｐ（−ｄ［Ｃ（ｔ），μ_ｊ’］）・・・（１０）

式（１０）において、ｄ［Ｃ（ｔ），μ_ｊ］は、入力信号の特徴量（ケプストラム）とｊ番目の音声モデルの持つ特徴量との距離を示す（Ｃ（ｔ）においてＣ（０，ｔ）は除かれる）。

Ｐ（ｊ）は、ｊ番目の音声モデルの出現頻度を示す。

分母のｊ’に関する和｛Σ_ｊ’Ｐ（ｊ’）ｅｘｐ（−ｄ［Ｃ（ｔ），μ_ｊ’］）｝は、複数の音声モデルに関しての和を示す。この和は、音声モデル格納部３’に格納されている全ての音声モデルに対して行っても良いし、距離の近い上位数個に関して行うなどしても良い。

この確率Ｐ（ｊ｜Ｃ（ｔ））を用いて音声モデルそれぞれに対し重み付き平均（期待値）を取ることでゲイン値を算出する。具体的には、前記第１の実施例と同様、式（６）、（７）又は式（８）を用いて算出する。

次に、本実施例の作用効果について説明する。

前記第１の実施例に対して、音声モデルの選ばれる確率を求める際に、予め学習によって用意した出現頻度（事前確率）の情報を用いることで、音素の特徴を正確に推定できる。

＜実施例３＞
図５は、本発明の第３の実施例の構成を示す図である。図５を参照すると、本発明の第３の実施例は、前記第１の実施例に加えて、入力信号から雑音成分を取得する雑音推定部８と、入力信号と雑音推定部８で推定された雑音から、音声を推定して出力するクリーン音声推定部９をさらに備えている。

雑音推定部８では、例えば入力信号の最初の数フレームを非音声区間とみなし、この区間での入力信号の平均値から雑音を推定する。

クリーン音声推定部９では、非特許文献６に示すスペクトル減算法などの雑音抑圧手法を用いて、入力音声と、雑音推定部８で得られた雑音成分の情報から、雑音成分を除去したクリーンな音声を推定して出力する。なお、スペクトル減算法とは、スペクトル領域で周波数成分毎に入力信号から雑音成分を減算する手法である。

特徴量変換部２は、クリーン音声推定部９から出力される、雑音成分を抑圧したクリーン音声を入力し、クリーン音声の特徴量及び音圧を取り出す。

本発明の第３の実施例によれば、図１の第１の実施例（雑音推定部８、クリーン音声推定部９を無し）と比べて、雑音成分を強調することなく、目的とする音声を正しく強調することができる。

＜実施例４＞
次に、本発明の第４の実施例について説明する。図５に示した前記第３の実施例では、音圧補正部７は、ゲイン値算出部６で算出されたゲインを用いて入力信号の音圧を補正している。これに対して、図６を参照すると、本発明の第４の実施例では、音圧補正部７は、ゲイン値算出部６で算出されたゲインを用いて、クリーン音声推定部９で推定されたクリーン音声の音圧を補正する。

＜実施例５＞
次に、本発明の第５の実施例について説明する。図７を参照すると、本発明の第５の実施例は、図１の第１の実施例において、ゲインを用いて入力信号の音圧を補正する音圧補正部７を、ゲインと入力信号とから、音声認識で使用する特徴量を算出する第二の特徴量変換部１０に置き換えたものである。他の構成は、前記第１の実施例と同様である。

入力信号から特徴量を算出する特徴量変換部２と、ゲインと入力信号から特徴量を算出する第二の特徴量変換部１０とでは、異なる特徴量を使用しても良い。

例えば、特徴量変換部１０では、音圧に依存しない量を特徴量とし、ゲイン制御をした上で、特徴量変換部２では音圧に依存する特徴量を使用することもできる。

＜実施例６＞
次に、本発明の第６の実施例について説明する。前記第５の実施例では、第二の特徴量変換部１０は、ゲイン値算出部６で算出されたゲインと入力信号とから音声認識で使用する特徴量を算出している。図８を参照すると、本発明の第６の実施例では、第二の特徴量変換部１０は、ゲイン値算出部６によって算出されたゲインを用いて、特徴量変換部２で算出された特徴量を補正し、音声認識で使用する第二の特徴量とする。例えば第二の特徴量変換部１０は、特徴量変換部２で算出された特徴量に、ゲインを乗する等の処理を行う。

＜実施例７＞
次に、本発明の第７の実施例について説明する。本発明の第７の実施例は、図１１に示すような音声モデルを雑音に適応させる手法において、前記第１の実施例のゲイン算出部６で算出されたゲインを用いて、図１１に示すレベル調整係数を求める構成となっている。また、入力信号を切り出した時間単位毎にゲイン値算出部６で算出されたゲインを直接用いるのではなく、複数フレーム及び複数発声に渡って平均化しても良い。また、前記第１乃至第６までの実施例は、互いに組み合わせて使用することもできる。

本発明によれば、音声の音圧を一定にでき、聞き易い明瞭な音声の通信及び録音ができる。

また、音声認識システムと組み合わせて用いることで、音声の音圧の変動に頑健な認識が可能となる。また、補聴器などにも応用可能である。

以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみ制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims

入力信号の音圧を調整し出力するゲイン制御システムであって、
前記入力信号を単位時間毎に切り出す手段と、
前記単位時間毎の入力信号から、音圧に依存しない特徴量と音圧に依存する特徴量を算出する手段と、
前記単位時間毎の入力信号の音圧に依存しない特徴量と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧に依存しない特徴量と、の間の距離を算出する手段と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行いゲインを算出する手段と、
前記算出されたゲインに応じて、前記単位時間毎、又は複数単位時間に渡って、前記入力信号の音圧を制御する手段と、
を備えていることを特徴とするゲイン制御システム。
入力信号の音圧を調整し出力するゲイン制御システムであって、
入力デバイスから入力される音声信号を取得し単位時間毎に切り出す入力信号取得部と、
前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する特徴量変換部と、
複数の音素毎、又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを格納する音声モデル格納部と、
前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する距離算出部と、
前記単位時間毎に切り出された入力信号の音圧と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する音圧比較部と、
前記距離算出部で算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出するゲイン値算出部と、
前記ゲイン値算出部で算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する音圧補正部と、
を含む、ことを特徴とするゲイン制御システム。
前記音声モデル格納部が、音声モデルの出現頻度情報をさらに記憶保持しており、
前記ゲイン値算出部は、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、からゲインを算出する、ことを特徴とする請求項２記載のゲイン制御システム。
前記ゲイン値算出部において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出する、ことを特徴とする請求項２又は３記載のゲイン制御システム。
前記入力信号から雑音成分を取得する雑音推定部と、
前記入力信号から前記雑音推定部で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力するクリーン音声推定部と、
を備え、
前記特徴量変換部は、前記クリーン音声推定部から出力される、雑音成分を抑圧した信号を入力し、入力した信号の特徴量及び音圧を取り出す、ことを特徴とする請求項２乃至４のいずれか一記載のゲイン制御システム。
前記音圧補正部が、前記クリーン音声推定部から出力される、雑音成分を抑圧した信号を入力し、音圧を補正する、ことを特徴とする請求項５記載のゲイン制御システム。
前記音圧補正部が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御する、ことを特徴とする請求項２乃至４のいずれか一記載のゲイン制御システム。
請求項２乃至７のいずれか一に記載のゲイン制御システムが、
前記音圧補正部のかわりに、
前記ゲイン値算出部で算出されたゲインと、前記入力信号とから音声認識で使用する特徴量を算出する第二の特徴量変換部を備え、
前記第二の特徴量変換部で算出された特徴量を用いて音声認識を行う、ことを特徴とする音声認識システム。
請求項２乃至７のいずれか一に記載の前記ゲイン制御システムが、
前記音圧補正部のかわりに、
前記ゲイン値算出部で算出されたゲインを用いて、前記特徴量変換部で求められた特徴量を補正し、音声認識で使用する特徴量を算出する第二の特徴量変換部を備え、
前記第二の特徴量変換部で算出された特徴量を用いて音声認識を行う、ことを特徴とする音声認識システム。
算出されたゲインを基に、音声モデルを雑音に適応させ、前記雑音に適応した音声モデルを用いて音声認識を行う手段を備えている、ことを特徴とする請求項８又は９記載の音声認識システム。
入力信号の音圧を調整し出力するゲイン制御方法であって、
前記入力信号を単位時間毎に切り出す工程と、
前記単位時間毎の入力信号から、音圧に依存しない特徴量と音圧に依存する特徴量を算出する工程と、
前記単位時間毎の入力信号の音圧に依存しない特徴量と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧に依存しない特徴量と、の間の距離を算出する工程と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行いゲインを算出する工程と、
前記算出されたゲインに応じて、前記単位時間毎、又は複数単位時間に渡って、前記入力信号の音圧を制御する工程と、
を含む、ことを特徴とするゲイン制御方法。
入力信号の音圧を調整し出力するゲイン制御方法であって、
音素毎又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを音声モデル格納部に格納しておき、
入力デバイスから入力される音声信号を取得し単位時間毎に切り出す工程と、
前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する工程と、
前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する工程と、
前記単位時間毎に切り出された入力信号の音圧と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する工程と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する工程と、
前記算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する工程と、
を含む、ことを特徴とするゲイン制御方法。
前記音声モデル格納部が、音声モデルの出現頻度情報をさらに記憶保持しており、
前記ゲインを算出する工程において、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、からゲインを算出する、ことを特徴とする請求項１２記載のゲイン制御方法。
前記ゲインを算出する工程において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出する、ことを特徴とする請求項１２又は１３記載のゲイン制御方法。
前記入力信号から雑音成分を取得する雑音推定工程と、
前記入力信号から前記雑音推定工程で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力する工程と、
を含み、
前記特徴量を算出する工程では、前記雑音成分を抑圧した信号を前記入力信号として入力し、特徴量及び音圧を取り出す、ことを特徴とする請求項１２乃至１４のいずれか一記載のゲイン制御方法。
前記音圧を補正する工程が、前記雑音成分を抑圧した信号を入力し、音圧を補正する、ことを特徴とする請求項１５記載のゲイン制御方法。
前記音圧を補正する工程が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御する、ことを特徴とする請求項１２乃至１４のいずれか一記載のゲイン制御方法。
前記音圧を補正する工程の代わりに、前記算出されたゲインと前記入力信号から音圧の調整がなされた特徴量を算出する工程を含む、ことを特徴とする請求項１２記載のゲイン制御方法。
入力信号の音圧を調整し出力するゲイン制御を行うコンピュータに、
前記入力信号を単位時間毎に切り出す処理と、
前記単位時間毎の入力信号から、音圧に依存しない特徴量と音圧に依存する特徴量を算出する処理と、
前記単位時間毎の入力信号の音圧に依存しない特徴量と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧に依存しない特徴量と、の間の距離を算出する処理と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行いゲインを算出する処理と、
前記算出されたゲインに応じて、前記単位時間毎、又は複数単位時間に渡って、前記入力信号の音圧を制御する処理と、
を実行させるプログラム。
入力信号の音圧を調整し出力するゲイン制御を行うコンピュータであって、
音素毎又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを格納している音声モデル格納部を備え、
音素毎又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを音声モデル格納部に格納しておく処理と、
入力デバイスから入力される音声信号を取得し単位時間毎に切り出す処理と、
前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する処理と、
前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する処理と、
前記単位時間毎に切り出された入力信号の音圧と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する処理と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する処理と、
前記算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する処理と、
を前記コンピュータに実行させるプログラム。
請求項２０記載のプログラムにおいて、
前記音声モデル格納部が、音声モデルの出現頻度情報をさらに記憶保持しており、
前記ゲインを算出する処理において、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、からゲインを算出する処理を、前記コンピュータに実行させるプログラム。
請求項２０記載のプログラムにおいて、
前記ゲインを算出する処理において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出する処理を、前記コンピュータに実行させるプログラム。
請求項２０記載のプログラムにおいて、
前記入力信号から雑音成分を取得する雑音推定処理と、
前記入力信号から前記雑音推定処理で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力する処理と、
前記特徴量を算出する処理において、前記雑音成分を抑圧した信号を前記入力信号として入力し、特徴量及び音圧を取り出す処理と、
を、前記コンピュータに実行させるプログラム。
請求項２３記載のプログラムにおいて、
前記音圧を補正する処理が、前記雑音成分を抑圧した信号を入力し、音圧を補正する処理を、前記コンピュータに実行させるプログラム。
請求項２０記載のプログラムにおいて、
前記音圧を補正する処理が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御する処理を、前記コンピュータに実行させるプログラム。
請求項２０記載のプログラムにおいて、
前記音圧を補正する処理の代わりに、前記算出されたゲインと前記入力信号から音圧の調整がなされた特徴量を算出する処理を、前記コンピュータに実行させるプログラム。
予め所定の音圧の音声で学習され、各々が、音圧に依存する第１の特徴量と第２の特徴量とを含む音声モデルを、音素毎又はクラスター単位で記憶する音声モデル格納部と、
入力信号を単位時間毎に切り出して分析し特徴量を導出する手段と、
前記音声モデル格納部に格納されている前記音声モデルの第２の特徴量と、前記入力信号の対応する特徴量との距離に基づき、それぞれの音声モデルが選ばれる確率を算出し、前記距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する第１の特徴量に対して前記確率を用いて重み付けしてゲインを算出する手段を、
備え、入力信号の音圧を予め学習によって用意された音声モデルの音素又はクラスター毎の音圧に一致させる制御が行われる、ことを特徴とする、音声認識用のゲイン制御装置。
前記音声モデル格納部が、音声モデルの出現頻度をさらに記憶し、
前記音声モデル格納部に格納されている音声モデルの前記第２の特徴量と、前記入力信号の対応する特徴量との距離と、音声モデルの出現頻度を用いて、それぞれの音声モデルが選ばれる確率を算出する、ことを特徴とする、請求項２７記載の音声認識用のゲイン制御装置。
前記音圧に依存する第１の特徴量としてケプストラムの０次成分を用い、
前記第２の特徴量として、０次成分以外のケプストラム、スペクトル、対数スペクトル、ピッチ、パワー、これらのいずれかの一階又は二階の差分量のうち、少なくとも１つを用いる、請求項２７又は２８に記載の音声認識用のゲイン制御装置。
予め所定の音圧の音声で学習された音声モデルを音声モデル格納部に記憶しておき、
前記音声モデル格納部を参照し、入力信号の音圧と音声モデルの音圧の比較、及び、前記入力信号の特徴量と音声モデルの持つ特徴量との距離の算出を、前記音声モデル格納部に格納されている音声モデルそれぞれに対して行う手段と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する手段と、
を備えている、ことを特徴とするゲイン制御装置。
予め所定の音圧の音声で学習された音声モデルを記憶している音声モデル格納部を参照し、入力信号の音圧と音声モデルの音圧の比較、及び、前記入力信号の特徴量と音声モデルの持つ特徴量との距離の算出を、前記音声モデル格納部に格納されている音声モデルそれぞれに対して行い、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する、
上記各工程を含む、ことを特徴とするゲイン制御方法。
予め所定の音圧の音声で学習された音声モデルを記憶している音声モデル格納部を参照可能なコンピュータに、
前記音声モデル格納部を参照し、入力信号の音圧と音声モデルの音圧の比較、及び、前記入力信号の特徴量と音声モデルの持つ特徴量との距離の算出を、前記音声モデル格納部に格納されている音声モデルそれぞれに対して行う処理と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する処理と、
を実行させるプログラム。