JP5262713B2 - ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム - Google Patents

ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム Download PDF

Info

Publication number
JP5262713B2
JP5262713B2 JP2008520138A JP2008520138A JP5262713B2 JP 5262713 B2 JP5262713 B2 JP 5262713B2 JP 2008520138 A JP2008520138 A JP 2008520138A JP 2008520138 A JP2008520138 A JP 2008520138A JP 5262713 B2 JP5262713 B2 JP 5262713B2
Authority
JP
Japan
Prior art keywords
sound pressure
input signal
speech
unit
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008520138A
Other languages
English (en)
Other versions
JPWO2007141923A1 (ja
Inventor
隆行 荒川
剛範 辻川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008520138A priority Critical patent/JP5262713B2/ja
Publication of JPWO2007141923A1 publication Critical patent/JPWO2007141923A1/ja
Application granted granted Critical
Publication of JP5262713B2 publication Critical patent/JP5262713B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

本発明は、入力信号の音圧に依存せず出力信号の音圧を一定にするゲイン制御システム、ゲイン制御方法、ゲイン制御プログラム、及びこのゲイン制御方法を用いた音声認識システム、音声認識方法、音声認識プログラムに関する。
本明細書で用いる用語について定義しておく。
「音圧」とは、その音声があるときの気圧の上昇分とする。単位は[N/m2]。この量は、音声の持つエネルギーの平方根、音声波形の振幅値に比例する。
「音圧レベル」とは、対象とする音声の音圧と基準音圧との比の対数値とする。単位は[dB]。具体的には、次式(1)のように定義される。
音圧レベル=20 log10(対象とする音声の音圧/基準音圧) ・・・(1)
「ゲイン」とは、出力信号の音圧と入力信号の音圧との比とする。具体的には次式(2)のように定義される。
ゲイン=出力信号の音圧/入力信号の音圧 ・・・(2)
通常の音声通信用又は音声録音用に用いられるゲイン制御装置の目的は、入力信号を人が聞きやすい音圧に変形して出力することにある。
これに対して、音声認識用に用いられるゲイン制御装置の目的は、入力信号の音圧と予め学習によって用意された音声モデルの音圧とを一致させる、ことにある。
音声モデルとは、非特許文献1に記載されているように、音声スペクトルを特徴量に変換し、その出現確率をHMM(Hidden Markov Model)やGMM(Gaussian Mixture Model)のような確率モデルで表したものである。
図9は、特許文献1に記載の、音声通信用又は音声録音用に用いられる、ゲイン制御装置の構成を示す図である。図9のゲイン補正装置では、音声信号が入力される入力信号取得部1と、予め設定された互いに異なった周波数帯域の信号のみ通過させる複数の帯域分割フィルタ手段11と、帯域分割フィルタ手段11それぞれの出力する信号を絶対値変換する絶対値変換手段12と、帯域分割フィルタ手段11で分割された周波数帯域毎に重み付けするデータを格納しておく重み付けデータ格納手段13と、絶対値変換された値に重み付けデータを乗算する乗算部14と、重み付けした値を加算する加算部15と、加算された値を補正するゲイン補正手段16と、補正された値と比較されるスレッシュルドレベルデータを格納しておくスレッシュルドレベル格納手段17と、補正された値とスレッシュルドレベルデータを比較する比較手段18と、比較手段18の比較結果によりゲイン値を発生するゲイン発生手段19と、ゲイン値の変動量を緩やかにする放絡線発生手段20と、放絡線発生手段20が出力するゲイン値を入力信号に乗算し音圧レベルを補正する音圧補正部7と、を備えている。このような構成とすることにより、入力信号が音声である可能性の高い周波数帯域毎に重み付けができ、重み付けされた信号に基づいてゲイン制御が行われる。
しかしながら、図9の構成では、図10に示すように、音素毎の音圧の違いを考慮せず常に一定の音圧の出力とするために、不自然な音声が出力される可能性がある。
例えば、母音と子音であれば、母音の方が一般的に大きな音圧、子音の方が小さな音圧と考えられるが、図9の構成では、この差を考慮せず、一定の音圧の出力としてしまう為に、過度に子音が強調された音声となる。
このことは、ゲイン制御装置を、音圧の情報を必要とする音声認識装置と組み合わせて使用する場合に、大きな問題となり、認識性能の劣化につながる。
さらに、雑音の周波数帯域が目的とする音声の周波数帯域と重なるような場合には、雑音を強調してしまうという問題もある。
次に、音声認識用に用いられるゲイン制御装置について説明する。通常の音声認識では、音圧の変動に頑健な認識とするために、音圧に依存するケプストラムの0次成分やパワー特徴量などを使わずに認識を行う。
しかし、雑音下での有効な音声認識手法として知られる、PMC(Parallel Model Combination)法などのように、音声モデルを雑音に適応させる手法では、音圧に依存するケプストラムの0次の情報が必要となるため、ゲイン制御法が必要となる(非特許文献2)。
図11に、クリーン音響モデル(クリーン音声モデル)と雑音モデルから雑音適応モデルを合成する手法の一例であるPMC法を例示する。
予めクリーンな音声をケプストラムの形で学習した音声モデルに対し、逆コサイン変換、指数変換を施すことで、スペクトルの形に変形し、クリーン音声スペクトルを得る。
発声前の無音区間などで学習した雑音モデルに対し、逆コサイン変換、指数変換を施すことで、スペクトルの形に変形し、雑音スペクトルを得る。
次に、上記クリーン音声スペクトルに対し、レベル調整係数g(「レベル補正係数」ともいう)を乗じ、上記雑音スペクトルと足し合わせ、雑音適応音声スペクトルを算出する。
続いて、上記雑音適応スペクトルに、対数変換、コサイン変換を施すことで、雑音適応音声モデルを得る。
認識時には、入力信号と、雑音適応音声モデルを比較照合することにより認識を行う。
PMC法では、レベル補正係数gを乗することで、音声モデルの音圧と入力信号から算出した雑音モデルの音圧の混合比を調整している。
したがって、レベル調整係数gを乗することは、一種のゲイン制御と考えることができる。
非特許文献3や非特許文献4では、上記レベル調整係数gを、尤度最大化の指針に基づき推定している。
具体的には、
(A)予め複数の音圧の音声モデルを用意しておき、尤度が最大となるものを選択する方法や、
(B)ゲインの値を変数として扱い、音声モデルを構成する各ガウス分布毎に尤度が最大となるように繰り返し推定する方法
がある。
上記2つの方法では、学習時の音声の音圧に基づいて、ゲインの制御を行うために、音素ごとの音圧の違いを反映したゲインの制御が可能となる。
しかしながら、予め複数の音圧の音声モデルを用意しておく方法(A)では、正確な推定を行うために全ての音素毎に音圧を変えた多くの音声モデルを用意しておく必要があり、容量や計算量の面で多くのコストがかかる。
ゲインを変数として扱い繰り返し推定する方法(B)では、繰り返し推定を行うことで、多くの計算コストがかかる、という問題と、最初に設定したゲインの値が異なるとまったく違う音素に引き込まれてしまう、という問題がある。
特開2004−15125号公報 Guorong Xuan, Wei Zhang, Peiqi Chai, "EM Algorithms of Gaussian Mixture Model and Hidden Markov Model",IEEE International Conference on Image Processing ICIP 2001,vol.1,pp.145-148.2001年 M.J.F.Gales and S.J.Young,"Robust Continuous Speech Recognition Using Parallel Model Combination",IEEE Trans.SAP-4,No.5,pp.352-359.1996年9月 Y.Minami and S.Furui, "A Maximum Likelihood Procedure for a Universal Adaptation Method Based on HMM Composition", IEEE ICASSP'95,129-132.1995年 高田健司,外山淳,"S/N比に自動適合するHMM合成法を用いた単語認識",電子情報通信学会技術研究報告,SP2002−97 pp・19−24 2002年 Richard O.Duda, Petter E.Hart, David G.Stork 著, 尾上守夫 監訳,"パターン識別",Joh Willey &Sons. 新技術コミュニケーション,pp.528−529 Steven F.Boll,"Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEE Trans. ASSP 27, pp.113-120, 1979年
上記したように、従来のシステムは、下記記載の課題を有している。
第1の問題点は、従来の音声通信用又は音声録音用に用いられているゲイン制御技術では、音素毎の音圧の違いが考慮されていないため、不自然な音声が出力される、ということである。
第2の問題点は、従来の音声通信用又は音声録音用に用いられているゲイン制御技術では、雑音の周波数帯域が目的とする音声の周波数帯域と重なるような場合には、雑音を強調してしまう、ということである。
第3の問題点は、従来の音声認識用に用いられている尤度最大化の指針に基づくゲイン制御技術では、音声認識用に用意する全ての音素毎に複数の音圧の音声モデルを用意する、又は音素それぞれに対し複数回の推定を行うために、容量や計算量の面で多くのコストがかかる、ということである。
第4の問題点は、従来の音声認識用に用いられている尤度最大化の指針に基づくゲイン制御技術では、最初に設定したゲインの値が異なると、全く違う音素に引き込まれてしまう、ということである。
したがって、本発明の目的は、音素毎の音圧の違いを反映することにより、自然な音声を出力可能とするゲイン制御装置、プログラムを提供することにある。
本発明の別の目的は、不要な雑音を強調することなく、目的とする音声を正しく強調するゲイン制御装置、プログラムを提供することにある。
本発明のさらに別の目的は、少ない容量及び計算コストでゲイン制御装置、プログラムを提供することにある。
本発明のさらに別の目的は、音素の特徴を維持したまま音圧の制御を行うゲイン制御装置、プログラムを提供することにある。
本願で開示される発明は、上記課題を解決するため、概略以下のように構成される。
本発明に係る第1のゲイン制御システムは、入力信号取得部と、特徴量変換部と、音声モデル格納部と、音圧比較部と、距離算出部と、ゲイン値算出手段と、音圧補正手段を備える。上記音声モデル格納部には複数の音素毎又は特徴量の距離に応じて、音声をクラスターに分割した単位毎に用意した特徴量と音圧とを持つ音声モデルを格納する。
本発明に係る第1のゲイン制御方法は、
入力信号を取得し単位時間毎に切り分ける入力信号取得工程と、
上記単位時間毎に切り分けられた入力信号から特徴量を算出する特徴量変換工程と、
音素毎又は音声をクラスターに分割した単位毎に特徴量と音圧の情報を持つ音声モデルを格納する音声モデル格納工程と、
上記単位時間毎に切り分けられた入力信号と上記音声モデルそれぞれとの音圧の比を算出する音圧比較工程と、
上記単位時間毎に切り分けられた入力信号と上記音声モデルそれぞれとの特徴量の距離を算出する距離算出工程と、
上記音圧の比を音声モデルについて重み付き平均することでゲインを算出するゲイン値算出工程と、
算出されたゲインを用いて入力信号の音圧を補正する音圧補正工程と、を含む。
本発明に係る第1のゲイン制御プログラムは、
入力信号を取得し単位時間毎に切り分ける処理と、単位時間毎の入力信号を特徴量に変換する処理と、
単位時間毎の入力信号と音声モデルそれぞれとの音圧を比較する処理と、
単位時間毎の入力信号と音声モデルそれぞれとの特徴量の距離を算出する処理と、
音圧の比を複数の音声モデルについて重み付き平均することでゲイン値を算出する処理と、
算出されたゲイン値を用いて入力音声の音圧レベルを補正する処理と、を実行させるプログラムよりなる。
かかる構成としたことで、音素又はクラスター単位毎に特徴量と音圧の情報を持つ音声モデルを使用することにより、音素毎の音圧の違いを反映することができ、第1の目的を達成することができる。
また、音素又はクラスター単位毎に特徴量と音圧の情報を持つ音声モデルを使用することにより、不要な雑音を強調することなく、目的とする音声を正しく強調することができ、第2の目的を達成することができる。
また、音素又はクラスター単位毎に特徴量と音圧の情報を持つ音声モデルを用意し、入力信号と音声モデルそれぞれとの音圧の比を複数音素モデルに対して距離に応じた重み付き平均をすることによってゲインを算出することで、全ての音素毎に音圧の異なる複数のモデルを用意する、又は複数回の推定を行う必要が無くなるために、少ない容量及び計算コストで済み、第3の目的を達成することができる。
また、ゲイン制御用の音声モデルは音声認識用の音声モデルとは別に用意することができる為、容量、計算量の制約に応じて適切な大きさの音声モデルを用意でき、第3の目的を達成することができる。
本発明に係る第2のゲイン制御方法は、第1のゲイン制御方法において、
ゲイン値算出工程において上記音圧の比を複数の音声モデルに対して距離に応じた重み付き平均をすることでゲイン値を算出する代わりに、
上記音圧の比を複数の音声モデルに対して上記距離と音素又はクラスター単位の出現頻度情報の両方を考慮して重み付き平均をすることでゲイン値を算出する。
このような構成とすることにより、音素の特徴を正確に推定することができ、第4の目的を達成することができる。
本発明に係る第3のゲイン制御方法は、第1のゲイン制御方法において、
入力信号から雑音成分を推定する工程と、
入力信号から上記雑音成分を抑圧し、音声信号を算出する工程とを含み、
第1のゲイン制御方法における特徴量変換工程に対して、入力信号から特徴量を算出する代わりに、入力信号から雑音成分を抑圧した音声信号から特徴量を算出する。
かかる構成としたことで、第1のゲイン制御方法に比べて、より雑音成分を強調することなく目的とする音声を正しく強調することができる。
本発明に係る第4のゲイン制御方法は、
第3のゲイン制御方法における音圧補正工程に対して、
算出されたゲインを用いて入力信号の音圧を補正する代わりに、算出されたゲインを用いて入力信号から雑音成分を抑圧したクリーンな成分のみを取り出したクリーン音声信号の音圧を補正する。
本発明に係る第5のゲイン制御方法は、
第1のゲイン制御方法における音圧補正工程の代わりに、算出されたゲインと入力信号から音圧の調整がなされた特徴量を算出する特徴量変換工程を含む。
本発明の第1の効果は、予め所定の音圧の音声で学習された音声モデルを使用することにより、音素毎の音圧の違いを反映することができる、ということである。
本発明の第2の効果は、音素毎又は音声をクラスターに分割した単位毎に音声モデルを使用することにより、不要な雑音を強調することなく、目的とする音声を正しく強調することができる。
本発明の第3の効果は、ゲインの算出に音素毎又は音声をクラスターに分割した単位毎に用意した音声モデルに対して距離による重み付き平均を行うことにより、音素全てに対して音圧の異なる複数のモデルを用意する、又は複数回の推定を行う必要が無くなるために、少ない容量及び計算コストで済む。
本発明の第4の効果は、ゲインの算出に音素毎又は音声をクラスターに分割した単位毎に用意した音声モデルに対して距離による重み付き平均を行うことにより、音素の特徴を維持したまま音圧の制御が行うことができる。
本発明の第1の実施例のシステムの構成を示す図である。 本発明の第1の発明の実施例における処理手順を示す流れ図である。 本発明の第1の実施例における入力音圧と出力音圧の特性を示す図である。 本発明の第2の実施例のシステムの構成を示す図である。 本発明の第3の実施例のシステムの構成を示す図である。 本発明の第4の実施例のシステムの構成を示す図である。 本発明の第5の実施例のシステムの構成を示す図である。 本発明の第6の実施例のシステムの構成を示す図である。 従来のゲイン制御システム雑音抑圧システムの構成を示すブロック図である。 従来のゲイン制御システムの入力音圧と出力音圧の特性を示す図である。 従来の音声モデルと雑音モデルの合成法を示す図である。
符号の説明
1 入力信号取得部
2 特徴量変換部
3 音声モデル格納部
3’ 音声モデル格納部
3a 音声モデルの音圧値
3b 音声モデルの特徴量
3c 音声モデルの出現頻度(事前確率)
4 音圧比較部
5 距離算出部
6 ゲイン値算出部
6’ ゲイン値算出部
7 音圧補正部
8 雑音推定部
9 クリーン音声推定部
10 第二の特徴量変換手段
11 帯域分割フィルタ手段
12 絶対値変換手段
13 重み付けデータ格納手段
14 乗算部
15 加算部
16 ゲイン補正手段
17 スレッシュルドレベル格納手段
18 比較手段
19 ゲイン発生手段
20 放絡線発生手段
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。本発明は、予め所定の音圧の音声で学習され、それぞれ音圧情報と特徴量を含む音声モデルを、音素毎又はクラスター単位で記憶する音声モデル格納部(3)と、入力信号を単位時間毎に切り出して分析し特徴量を導出する手段(2)と、前記音声モデル格納部に格納されている前記音声モデルの特徴量(μj)と前記入力信号の特徴量(C(t))の距離から、それぞれの音声モデルjが選ばれる確率(P(j|C(t)))を算出し、前記入力信号の特徴量のうち音圧に依存する特徴量と、前記音声モデル格納部に格納されている前記音声モデルの音圧情報との差(μ0,j-C(0,t))を、前記確率を用いて音声モデルそれぞれに対して重み付けしてゲイン(g)を算出する手段(4、5、6)を、備え、入力信号の音圧を予め学習によって用意された音声モデルの音素又はクラスター毎の音圧に一致させる制御が行われる。本発明は、入力信号の音圧を調整し出力するゲイン制御システムであって、入力デバイスから入力される音声信号を取得し単位時間毎に切り出す入力信号取得部(1)と、前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する特徴量変換部(2)と、複数の音素毎、又は音声をクラスターに分割した単位毎に、特徴量と音圧(音圧に依存する特徴量:例えばケプストラムの0次成分)の情報を持つ音声モデルを格納する音声モデル格納部(3)と、前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する距離算出部(5)と、前記単位時間毎に切り出された入力信号の音圧(音圧に依存する特徴量)と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する音圧比較部(4)と、前記音声モデルそれぞれに対して算出された、距離と、音圧の比とに基づき、ゲインを算出するゲイン値算出部(6)と、前記ゲイン値算出部で算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する音圧補正部(7)と、を含む。
本発明の別の実施の形態において、音声モデル格納部(図4の3’)が、音声モデルの出現頻度情報をさらに記憶保持しており、前記ゲイン値算出部(6')は、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、からゲインを算出する。
本発明においては、前記ゲイン値算出部において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出するようにしてもよい。
本発明の別の実施の形態においては、前記入力信号から雑音成分を取得する雑音推定部(図5の8)と、前記入力信号から前記雑音推定部で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力するクリーン音声推定部(図5の9)と、を備え、前記特徴量変換部(2)は、前記クリーン音声推定部から出力される、雑音成分を抑圧した信号を入力し、入力した信号の特徴量及び音圧を取り出すようにしてもよい。
本発明の別の実施の形態においては、前記音圧補正部(7)が、前記クリーン音声推定部(9)から出力される、雑音成分を抑圧した信号を入力し、音圧を補正するようにしてもよい。
本発明の別の実施の形態においては、前記音圧補正部(7)が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御するようにしてもよい。
本発明のさらに別の実施の形態においては、前記音圧補正部(7)のかわりに、前記ゲイン値算出部で算出されたゲインと、前記入力信号とから音声認識で使用する特徴量を算出する第二の特徴量変換部(図7の10)を備え、前記第二の特徴量変換部で算出された特徴量を用いて音声認識を行うようにしてもよい。
本発明のさらに別の実施の形態においては、前記音圧補正部のかわりに、前記ゲイン値算出部で算出されたゲインを用いて、前記特徴量変換部で求められた特徴量を補正し、音声認識で使用する特徴量を算出する第二の特徴量変換部(図8の10)を備え、前記第二の特徴量変換部で算出された特徴量を用いて音声認識を行うようにしてもよい。以下、実施例に即して説明する。
<実施例1>
図1は、本発明の第1の実施例の構成を示す図である。図1を参照すると、本発明の第1の実施例は、入力信号を取得し単位時間毎に切り出す入力信号取得部1と、単位時間毎の入力信号から特徴量と音圧を算出する特徴量変換部2と、音声モデルを格納する音声モデル格納部3と、単位時間毎の入力信号と上記音声モデルそれぞれとの音圧を比較し音圧の比を求める音圧比較部4と、単位時間毎の入力信号と音声モデルそれぞれとの特徴量の距離を求める距離算出部5と、音圧比較部4によって算出された音圧の比と距離算出部で算出された距離とからゲインを算出するゲイン値算出部6と、ゲイン値算出部6で算出されたゲインを用いて入力信号の音圧を補正する音圧補正部7と、を備えている。
音声モデル格納部3は、複数の音素毎又は音声をクラスターに分割した単位毎に用意された複数の音声モデルが格納されている。
ここで、「音素」とは、母音や子音、無声音や有声音、又は、同じ“あ”の音であっても、前後の音の並びなどによって音声を分類したものである。
また、「クラスター」とは、音素をまとめあげたもの、及び、音声を特徴量の距離に応じて分割したものである。
クラスター分割法としては、例えば「K−means法」(非特許文献5)を用いることができる。「K−means法」とは、与えられたデータを距離に応じて、K個のクラスターに分類する手法である。
音声モデルは、音圧3aと、特徴量3bとから構成される。音圧3aとしては、ケプストラムの0次成分を用いる。特徴量3bとしては、音声を特徴量に変換した値そのものを用いても良いし、その値を出力する確率密度分布を用いても良い。
音圧3aと特徴量3bは、“Expectation Maximization”(EM)アルゴリズムなどを用いて予め学習して用意する(非特許文献1)。また、EMアルゴリズムを用いてクラスターを決定することもできる。
次に、図1及び図2のフローチャートを参照して、本実施例の全体の動作について詳細に説明する。
入力信号を単位時間周期ごとに窓掛けして切り出し、フーリエ解析することによって算出されたスペクトル量を、X(f,t)で表す。ただし、fは周波数方向の番号、tは時間方向の番号(フレーム番号)を示す。
特徴量変換部2で、入力信号から特徴量を算出する。ここで、特徴量として使用するのは、
・スペクトル、
・対数スペクトル、
・ケプストラム、
・ピッチ、
・パワー、
・このΔ(一階差分)量、
・ΔΔ(二階差分量)
などの量である。
本実施例では、ケプストラムを特徴量とすることとする。ケプストラムは式(3)で算出される(ステップS1)。
C(t) = DCT[ log[X(t)] ] ・・・(3)
ただし、
X(t)はX(f,t)を要素として持つベクトルである。
C(t)はC(i,t)を要素として持つベクトルである(ただし、iはケプストラム次元を示す)。
DCT[ ]は離散コサイン変換を示す。
次のステップS2及びステップS3は、音声モデル格納部3に格納されている音声モデルそれぞれに対して行われるものとする。音圧比較部4において、入力信号の音圧と音声モデルとの音圧の比較を行う(ステップS2)。
具体的には、ケプストラムの0次成分が音圧の対数値の情報を表すことから、音声モデルの持つケプストラムの0次成分(音声モデル格納部3の音圧3a)と、特徴量変換部2で算出された入力信号のケプストラムの0次成分C(0,t)との差を算出する。
μ0,j - C(0,t) ・・・(4)
ただし、μ0,jは、j番目の音声モデルが持つケプストラムの0次成分(音声モデル格納部3の音圧3a)を示す。
次に、距離算出部5において、入力信号の特徴量と音声モデルの持つ特徴量との距離を算出する。(ステップS3)。
次に、ゲイン値算出部6において、モデルそれぞれに対し音圧比較部4で算出されケプストラムの0次成分の差と、距離算出部5で算出された距離とからゲインを推定する(ステップS4)。
具体的には、まず音声モデルjの選ばれる確率(正規化された尤度)P(j|C(t))を次式で求める。
P(j|C(t))=exp(−d[C(t),μ])/Σj’exp(−d[C(t),μj’]) ・・・(5)
式(5)において、d[C(t),μ]は、入力信号の特徴量(ケプストラム)と、j番目の音声モデルの持つ特徴量との距離を示す。この距離は距離算出部5で計算される(0次ケプストラムは含まない)。また、式(5)の分母のj’は、音声モデルを示し、j’に関する距離d[C(t),μ]の和は、複数の音声モデルに関しての和を示す。この和は、音声モデル格納部3に格納されている、全ての音声モデルに対して行っても良い。あるいは、距離の近い上位数個に関して行うなどしても良い。なお、式(5)の確率の導出は、ケプストラム以外の特徴量を用いて計算してもよいことは勿論である。
次に、この確率P(j|C(t))を用いて音声モデルそれぞれに対し重み付き平均(期待値)を取ることで、ゲインg(t)の値を算出する。
g(t)=exp[Σ{(μ0,j−C(0,t))P(j|C(t))}] ・・・(6)
上式(6)において、exp[ ]を施すのは、式(3)でlog[ ]を施し対数領域の量に変形しているのを、元に戻すためである。
上式(6)において、jに関する和は、複数のモデルに関しての和を示す。この和は、式(5)と同じモデルに関して行われる。
また、本実施例では、ケプストラムの0次の項の差を、単位時間毎の入力信号と音声モデルそれぞれとの距離に応じて、重み付け平均する例を示したが、式(6)の代わりに、次式(7)に示すように、ケプストラムの0次の項の差に、exp[ ]を施し、音圧の比に戻してから、単位時間毎の入力信号と音声モデルそれぞれとの距離に応じて重み付け平均するようにしてもよい。
g(t)=Σ{exp[μ0,j−C(0,t)]P(j|C(t))} ・・・(7)
また、単位時間毎の入力信号(の特徴量)との距離が最も近い音声モデルに対するケプストラムの0次の項の差から、ゲインg(t)を算出しても良い。
g(t)=exp[μ0,k−C(0,t)] ・・・(8)
ただし、kは単位時間毎の入力信号との距離が最も近い音声モデルを示す。
最後に、音圧補正部7は、ゲイン値算出部6で算出されたゲインg (t)と、入力信号X(f,t)の積を取り、入力信号の音圧レベルを補正する(ステップS5)。
Y(f,t) = g(t) X(f,t) ・・・(9)
ただし、Y(f,t)は補正された信号を示す。Y(f,t)において、X(f,t)と同様、fは周波数方向の番号、tは時間方向の番号(フレーム番号)を示す。
本実施例では、入力信号を単位時間毎に切り出した単位であるフレーム毎に音圧レベルを補正する例を示したが、ゲインg(t)に関して複数のフレームに対して、平滑化又は平均を取るなどして、複数のフレームに対して音圧レベルを補正しても良い。
次に、本実施例の作用効果について説明する。
本実施例によれば、予め所定の音圧の音声で学習された音声モデルを使用することにより、図3に示すように、音素毎の音圧の違いを反映することができる。
また、本実施例によれば、音声モデルを使用することにより、不要な雑音を強調することなく、目的とする音声を正しく強調することができる。
さらに、本実施例によれば、ゲインの算出に、単位時間毎の入力信号と音声モデルそれぞれとの距離に応じた重み付き平均を用いることにより、全ての音素毎に、複数の音圧のモデルを用意する、あるいは、複数回の推定を行う必要が無くなるために、少ない容量及び計算コストで済む。
<実施例2>
図4は、本発明の第2の実施例の構成を示す図である。図4を参照すると、本発明の第2の実施例において、音声モデル格納部3’は、音素毎又は音声を分割したクラスター単位毎に、音圧と特徴量と、音声モデルの出現頻度(事前確率)とを含む。すなわち、音声モデル格納部3’には、第1の実施例の音声モデル格納部3に、出力頻度情報が追加されている。また、本発明の第2の実施例において、ゲイン値算出部6’は、音声モデルそれぞれに対し、音圧比較部4によって算出された音圧の比と、音圧モデルそれぞれに対し、距離算出部5で算出された距離と、音声モデルそれぞれの出現頻度(事前確率)と、からゲインを算出する。
音声モデル格納部3’に格納されている音声モデルは、それぞれ音圧3aと特徴量3bと出現頻度 (事前確率)3cと、から構成される。特に制限されないが、本実施例では、音声モデルとして、GMMを用いる。GMM以外にも、音声認識用に用いられるHMMなどを用いることもできる。
音圧3aとしては、前記実施例と同様、ケプストラムの0次を用いる。また、特徴量3bとしては、音声を特徴量に変換した値そのものを用いても良いし、その値を出力する確率密度分布を屈いても良い。
また、出現頻度(事前確率)3cは、複数の音声モデルの中で、対象とする音声モデルが出現する頻度である。
音圧3a、特徴量3b、出現頻度(事前確率)3cは、Expectation Maximization(EM)アルゴリズムなどを用いて学習しておく(非特許文献1)。
本実施例は、前記第1の実施例に対し、ステップS4のゲイン値算出での処理が置き換わったものになっている。
ゲイン値算出部6’では、音声モデルそれぞれに対し音圧比較部4で算出されケプストラムの0次成分の差と、音声モデルそれぞれに対して、距離算出部5で算出された距離と、対応する音声モデルの出現頻度3cとから、ゲインを推定する。
具体的には、まず音声モデルjの選ばれる確率(事後確率)を算出する。
P(j|C(t))=P(j)exp(−d[C(t),μ])/Σj’P(j’)exp(−d[C(t),μj’]) ・・・(10)
式(10)において、d[C(t),μ]は、入力信号の特徴量(ケプストラム)とj番目の音声モデルの持つ特徴量との距離を示す(C(t)においてC(0,t)は除かれる)。
P(j)は、j番目の音声モデルの出現頻度を示す。
分母のj’に関する和{Σj’P(j’)exp(−d[C(t),μj’])}は、複数の音声モデルに関しての和を示す。この和は、音声モデル格納部3’に格納されている全ての音声モデルに対して行っても良いし、距離の近い上位数個に関して行うなどしても良い。
この確率P(j|C(t))を用いて音声モデルそれぞれに対し重み付き平均(期待値)を取ることでゲイン値を算出する。具体的には、前記第1の実施例と同様、式(6)、(7)又は式(8)を用いて算出する。
次に、本実施例の作用効果について説明する。
前記第1の実施例に対して、音声モデルの選ばれる確率を求める際に、予め学習によって用意した出現頻度(事前確率)の情報を用いることで、音素の特徴を正確に推定できる。
<実施例3>
図5は、本発明の第3の実施例の構成を示す図である。図5を参照すると、本発明の第3の実施例は、前記第1の実施例に加えて、入力信号から雑音成分を取得する雑音推定部8と、入力信号と雑音推定部8で推定された雑音から、音声を推定して出力するクリーン音声推定部9をさらに備えている。
雑音推定部8では、例えば入力信号の最初の数フレームを非音声区間とみなし、この区間での入力信号の平均値から雑音を推定する。
クリーン音声推定部9では、非特許文献6に示すスペクトル減算法などの雑音抑圧手法を用いて、入力音声と、雑音推定部8で得られた雑音成分の情報から、雑音成分を除去したクリーンな音声を推定して出力する。なお、スペクトル減算法とは、スペクトル領域で周波数成分毎に入力信号から雑音成分を減算する手法である。
特徴量変換部2は、クリーン音声推定部9から出力される、雑音成分を抑圧したクリーン音声を入力し、クリーン音声の特徴量及び音圧を取り出す。
本発明の第3の実施例によれば、図1の第1の実施例(雑音推定部8、クリーン音声推定部9を無し)と比べて、雑音成分を強調することなく、目的とする音声を正しく強調することができる。
<実施例4>
次に、本発明の第4の実施例について説明する。図5に示した前記第3の実施例では、音圧補正部7は、ゲイン値算出部6で算出されたゲインを用いて入力信号の音圧を補正している。これに対して、図6を参照すると、本発明の第4の実施例では、音圧補正部7は、ゲイン値算出部6で算出されたゲインを用いて、クリーン音声推定部9で推定されたクリーン音声の音圧を補正する。
<実施例5>
次に、本発明の第5の実施例について説明する。図7を参照すると、本発明の第5の実施例は、図1の第1の実施例において、ゲインを用いて入力信号の音圧を補正する音圧補正部7を、ゲインと入力信号とから、音声認識で使用する特徴量を算出する第二の特徴量変換部10に置き換えたものである。他の構成は、前記第1の実施例と同様である。
入力信号から特徴量を算出する特徴量変換部2と、ゲインと入力信号から特徴量を算出する第二の特徴量変換部10とでは、異なる特徴量を使用しても良い。
例えば、特徴量変換部10では、音圧に依存しない量を特徴量とし、ゲイン制御をした上で、特徴量変換部2では音圧に依存する特徴量を使用することもできる。
<実施例6>
次に、本発明の第6の実施例について説明する。前記第5の実施例では、第二の特徴量変換部10は、ゲイン値算出部6で算出されたゲインと入力信号とから音声認識で使用する特徴量を算出している。図8を参照すると、本発明の第6の実施例では、第二の特徴量変換部10は、ゲイン値算出部6によって算出されたゲインを用いて、特徴量変換部2で算出された特徴量を補正し、音声認識で使用する第二の特徴量とする。例えば第二の特徴量変換部10は、特徴量変換部2で算出された特徴量に、ゲインを乗する等の処理を行う。
<実施例7>
次に、本発明の第7の実施例について説明する。本発明の第7の実施例は、図11に示すような音声モデルを雑音に適応させる手法において、前記第1の実施例のゲイン算出部6で算出されたゲインを用いて、図11に示すレベル調整係数を求める構成となっている。また、入力信号を切り出した時間単位毎にゲイン値算出部6で算出されたゲインを直接用いるのではなく、複数フレーム及び複数発声に渡って平均化しても良い。また、前記第1乃至第6までの実施例は、互いに組み合わせて使用することもできる。
本発明によれば、音声の音圧を一定にでき、聞き易い明瞭な音声の通信及び録音ができる。
また、音声認識システムと組み合わせて用いることで、音声の音圧の変動に頑健な認識が可能となる。また、補聴器などにも応用可能である。
以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみ制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims (32)

  1. 入力信号の音圧を調整し出力するゲイン制御システムであって、
    前記入力信号を単位時間毎に切り出す手段と、
    前記単位時間毎の入力信号から、音圧に依存しない特徴量と音圧に依存する特徴量を算出する手段と、
    前記単位時間毎の入力信号の音圧に依存しない特徴量と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧に依存しない特徴量と、の間の距離を算出する手段と、
    前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行いゲインを算出する手段と、
    前記算出されたゲインに応じて、前記単位時間毎、又は複数単位時間に渡って、前記入力信号の音圧を制御する手段と、
    を備えていることを特徴とするゲイン制御システム。
  2. 入力信号の音圧を調整し出力するゲイン制御システムであって、
    入力デバイスから入力される音声信号を取得し単位時間毎に切り出す入力信号取得部と、
    前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する特徴量変換部と、
    複数の音素毎、又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを格納する音声モデル格納部と、
    前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する距離算出部と、
    前記単位時間毎に切り出された入力信号の音圧と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する音圧比較部と、
    前記距離算出部で算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧の比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出するゲイン値算出部と、
    前記ゲイン値算出部で算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する音圧補正部と、
    を含む、ことを特徴とするゲイン制御システム。
  3. 前記音声モデル格納部が、音声モデルの出現頻度情報をさらに記憶保持しており、
    前記ゲイン値算出部は、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、からゲインを算出する、ことを特徴とする請求項記載のゲイン制御システム。
  4. 前記ゲイン値算出部において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出する、ことを特徴とする請求項又は記載のゲイン制御システム。
  5. 前記入力信号から雑音成分を取得する雑音推定部と、
    前記入力信号から前記雑音推定部で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力するクリーン音声推定部と、
    を備え、
    前記特徴量変換部は、前記クリーン音声推定部から出力される、雑音成分を抑圧した信号を入力し、入力した信号の特徴量及び音圧を取り出す、ことを特徴とする請求項乃至のいずれか一記載のゲイン制御システム。
  6. 前記音圧補正部が、前記クリーン音声推定部から出力される、雑音成分を抑圧した信号を入力し、音圧を補正する、ことを特徴とする請求項記載のゲイン制御システム。
  7. 前記音圧補正部が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御する、ことを特徴とする請求項乃至のいずれか一記載のゲイン制御システム。
  8. 請求項乃至のいずれか一に記載のゲイン制御システムが、
    前記音圧補正部のかわりに、
    前記ゲイン値算出部で算出されたゲインと、前記入力信号とから音声認識で使用する特徴量を算出する第二の特徴量変換部を備え、
    前記第二の特徴量変換部で算出された特徴量を用いて音声認識を行う、ことを特徴とする音声認識システム。
  9. 請求項乃至のいずれか一に記載の前記ゲイン制御システムが、
    前記音圧補正部のかわりに、
    前記ゲイン値算出部で算出されたゲインを用いて、前記特徴量変換部で求められた特徴量を補正し、音声認識で使用する特徴量を算出する第二の特徴量変換部を備え、
    前記第二の特徴量変換部で算出された特徴量を用いて音声認識を行う、ことを特徴とする音声認識システム。
  10. 算出されたゲインを基に、音声モデルを雑音に適応させ、前記雑音に適応した音声モデルを用いて音声認識を行う手段を備えている、ことを特徴とする請求項又は記載の音声認識システム。
  11. 入力信号の音圧を調整し出力するゲイン制御方法であって、
    前記入力信号を単位時間毎に切り出す工程と、
    前記単位時間毎の入力信号から、音圧に依存しない特徴量と音圧に依存する特徴量を算出する工程と、
    前記単位時間毎の入力信号の音圧に依存しない特徴量と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧に依存しない特徴量と、の間の距離を算出する工程と、
    前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行いゲインを算出する工程と、
    前記算出されたゲインに応じて、前記単位時間毎、又は複数単位時間に渡って、前記入力信号の音圧を制御する工程と、
    を含む、ことを特徴とするゲイン制御方法。
  12. 入力信号の音圧を調整し出力するゲイン制御方法であって、
    音素毎又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを音声モデル格納部に格納しておき、
    入力デバイスから入力される音声信号を取得し単位時間毎に切り出す工程と、
    前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する工程と、
    前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する工程と、
    前記単位時間毎に切り出された入力信号の音圧と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する工程と、
    前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧の比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する工程と、
    前記算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する工程と、
    を含む、ことを特徴とするゲイン制御方法。
  13. 前記音声モデル格納部が、音声モデルの出現頻度情報をさらに記憶保持しており、
    前記ゲインを算出する工程において、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、からゲインを算出する、ことを特徴とする請求項1記載のゲイン制御方法。
  14. 前記ゲインを算出する工程において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出する、ことを特徴とする請求項1又は1記載のゲイン制御方法。
  15. 前記入力信号から雑音成分を取得する雑音推定工程と、
    前記入力信号から前記雑音推定工程で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力する工程と、
    を含み、
    前記特徴量を算出する工程では、前記雑音成分を抑圧した信号を前記入力信号として入力し、特徴量及び音圧を取り出す、ことを特徴とする請求項1乃至1のいずれか一記載のゲイン制御方法。
  16. 前記音圧を補正する工程が、前記雑音成分を抑圧した信号を入力し、音圧を補正する、ことを特徴とする請求項1記載のゲイン制御方法。
  17. 前記音圧を補正する工程が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御する、ことを特徴とする請求項1乃至1のいずれか一記載のゲイン制御方法。
  18. 前記音圧を補正する工程の代わりに、前記算出されたゲインと前記入力信号から音圧の調整がなされた特徴量を算出する工程を含む、ことを特徴とする請求項1記載のゲイン制御方法。
  19. 入力信号の音圧を調整し出力するゲイン制御を行うコンピュータに、
    前記入力信号を単位時間毎に切り出す処理と、
    前記単位時間毎の入力信号から、音圧に依存しない特徴量と音圧に依存する特徴量を算出する処理と、
    前記単位時間毎の入力信号の音圧に依存しない特徴量と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧に依存しない特徴量と、の間の距離を算出する処理と、
    前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行いゲインを算出する処理と、
    前記算出されたゲインに応じて、前記単位時間毎、又は複数単位時間に渡って、前記入力信号の音圧を制御する処理と、
    を実行させるプログラム。
  20. 入力信号の音圧を調整し出力するゲイン制御を行うコンピュータであって、
    音素毎又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを格納している音声モデル格納部を備え、
    音素毎又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを音声モデル格納部に格納しておく処理と、
    入力デバイスから入力される音声信号を取得し単位時間毎に切り出す処理と、
    前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する処理と、
    前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する処理と、
    前記単位時間毎に切り出された入力信号の音圧と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する処理と、
    前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧の比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する処理と、
    前記算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する処理と、
    を前記コンピュータに実行させるプログラム。
  21. 請求項2記載のプログラムにおいて、
    前記音声モデル格納部が、音声モデルの出現頻度情報をさらに記憶保持しており、
    前記ゲインを算出する処理において、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、からゲインを算出する処理を、前記コンピュータに実行させるプログラム。
  22. 請求項2記載のプログラムにおいて、
    前記ゲインを算出する処理において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出する処理を、前記コンピュータに実行させるプログラム。
  23. 請求項2記載のプログラムにおいて、
    前記入力信号から雑音成分を取得する雑音推定処理と、
    前記入力信号から前記雑音推定処理で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力する処理と、
    前記特徴量を算出する処理において、前記雑音成分を抑圧した信号を前記入力信号として入力し、特徴量及び音圧を取り出す処理と、
    を、前記コンピュータに実行させるプログラム。
  24. 請求項2記載のプログラムにおいて、
    前記音圧を補正する処理が、前記雑音成分を抑圧した信号を入力し、音圧を補正する処理を、前記コンピュータに実行させるプログラム。
  25. 請求項2記載のプログラムにおいて、
    前記音圧を補正する処理が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御する処理を、前記コンピュータに実行させるプログラム。
  26. 請求項20記載のプログラムにおいて、
    前記音圧を補正する処理の代わりに、前記算出されたゲインと前記入力信号から音圧の調整がなされた特徴量を算出する処理を、前記コンピュータに実行させるプログラム。
  27. 予め所定の音圧の音声で学習され、各々が、音圧に依存する第1の特徴量と第2の特徴量とを含む音声モデルを、音素毎又はクラスター単位で記憶する音声モデル格納部と、
    入力信号を単位時間毎に切り出して分析し特徴量を導出する手段と、
    前記音声モデル格納部に格納されている前記音声モデルの第2の特徴量と、前記入力信号の対応する特徴量との距離に基づき、それぞれの音声モデルが選ばれる確率を算出し、前記距離に応じて、前記入力信号の音圧と音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧の比又は、差に依存する第1の特徴量に対して前記確率を用いて重み付けしてゲインを算出する手段を、
    備え、入力信号の音圧を予め学習によって用意された音声モデルの音素又はクラスター毎の音圧に一致させる制御が行われる、ことを特徴とする、音声認識用のゲイン制御装置。
  28. 前記音声モデル格納部が、音声モデルの出現頻度をさらに記憶し、
    前記音声モデル格納部に格納されている音声モデルの前記第2の特徴量と、前記入力信号の対応する特徴量との距離と、音声モデルの出現頻度を用いて、それぞれの音声モデルが選ばれる確率を算出する、ことを特徴とする、請求項2記載の音声認識用のゲイン制御装置。
  29. 前記音圧に依存する第1の特徴量としてケプストラムの0次成分を用い、
    前記第2の特徴量として、0次成分以外のケプストラム、スペクトル、対数スペクトル、ピッチ、パワー、これらのいずれかの一階又は二階の差分量のうち、少なくとも1つを用いる、請求項2又は2に記載の音声認識用のゲイン制御装置。
  30. 予め所定の音圧の音声で学習された音声モデルを音声モデル格納部に記憶しておき、
    前記音声モデル格納部を参照し、入力信号の音圧と音声モデルの音圧の比較、及び、前記入力信号の特徴量と音声モデルの持つ特徴量との距離の算出を、前記音声モデル格納部に格納されている音声モデルそれぞれに対して行う手段と、
    前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧の比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する手段と、
    を備えている、ことを特徴とするゲイン制御装置。
  31. 予め所定の音圧の音声で学習された音声モデルを記憶している音声モデル格納部を参照し、入力信号の音圧と音声モデルの音圧の比較、及び、前記入力信号の特徴量と音声モデルの持つ特徴量との距離の算出を、前記音声モデル格納部に格納されている音声モデルそれぞれに対して行い、
    前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧の比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する、
    上記各工程を含む、ことを特徴とするゲイン制御方法。
  32. 予め所定の音圧の音声で学習された音声モデルを記憶している音声モデル格納部を参照可能なコンピュータに、
    前記音声モデル格納部を参照し、入力信号の音圧と音声モデルの音圧の比較、及び、前記入力信号の特徴量と音声モデルの持つ特徴量との距離の算出を、前記音声モデル格納部に格納されている音声モデルそれぞれに対して行う処理と、
    前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧の比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する処理と、
    を実行させるプログラム。
JP2008520138A 2006-06-02 2007-01-16 ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム Active JP5262713B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008520138A JP5262713B2 (ja) 2006-06-02 2007-01-16 ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006154994 2006-06-02
JP2006154994 2006-06-02
PCT/JP2007/050491 WO2007141923A1 (ja) 2006-06-02 2007-01-16 ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム
JP2008520138A JP5262713B2 (ja) 2006-06-02 2007-01-16 ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム

Publications (2)

Publication Number Publication Date
JPWO2007141923A1 JPWO2007141923A1 (ja) 2009-10-15
JP5262713B2 true JP5262713B2 (ja) 2013-08-14

Family

ID=38801190

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008520138A Active JP5262713B2 (ja) 2006-06-02 2007-01-16 ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム

Country Status (4)

Country Link
US (1) US8401844B2 (ja)
JP (1) JP5262713B2 (ja)
CN (1) CN101460996B (ja)
WO (1) WO2007141923A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101771390B (zh) * 2008-12-30 2013-03-06 英业达股份有限公司 声音输出输入系统及其音量输出调整方法
JP2011053569A (ja) * 2009-09-03 2011-03-17 Nippon Hoso Kyokai <Nhk> 音響処理装置およびプログラム
KR101726738B1 (ko) * 2010-12-01 2017-04-13 삼성전자주식회사 음성처리장치 및 그 방법
JP2013153307A (ja) * 2012-01-25 2013-08-08 Sony Corp 音声処理装置および方法、並びにプログラム
US8880393B2 (en) * 2012-01-27 2014-11-04 Mitsubishi Electric Research Laboratories, Inc. Indirect model-based speech enhancement
JP6065308B2 (ja) * 2012-09-07 2017-01-25 パナソニックIpマネジメント株式会社 音量補正装置
US9336775B2 (en) * 2013-03-05 2016-05-10 Microsoft Technology Licensing, Llc Posterior-based feature with partial distance elimination for speech recognition
US9933990B1 (en) * 2013-03-15 2018-04-03 Sonitum Inc. Topological mapping of control parameters
CN108702578B (zh) * 2016-02-09 2021-06-04 索诺瓦公司 执行真耳测量的方法以及测量系统
CN108024186B (zh) * 2016-11-02 2020-07-10 宏碁股份有限公司 助听器及其宽动态范围压缩的恢复时间动态调整方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01236000A (ja) * 1988-03-16 1989-09-20 Nec Corp 音声認識装置
JPH06149289A (ja) * 1992-11-09 1994-05-27 Ricoh Co Ltd 音声認識装置
JPH10254493A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 録音音声の音量正規化方法およびこの方法を実施する装置
JP2000259177A (ja) * 1999-03-05 2000-09-22 Omron Corp 音声出力装置
JP2000349865A (ja) * 1999-06-01 2000-12-15 Matsushita Electric Works Ltd 音声通信装置
JP2005070430A (ja) * 2003-08-25 2005-03-17 Alpine Electronics Inc 音声出力装置および方法
JP2007511793A (ja) * 2003-11-14 2007-05-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号処理システム及び方法
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0424697A (ja) * 1990-05-18 1992-01-28 Matsushita Electric Ind Co Ltd 音声認識装置
US6154549A (en) * 1996-06-18 2000-11-28 Extreme Audio Reality, Inc. Method and apparatus for providing sound in a spatial environment
US6353671B1 (en) * 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
CN1207664C (zh) 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
US7027981B2 (en) * 1999-11-29 2006-04-11 Bizjak Karl M System output control method and apparatus
JP4256631B2 (ja) 2002-06-03 2009-04-22 パナソニック株式会社 オートゲインコントロール装置
JP4449380B2 (ja) * 2002-09-24 2010-04-14 パナソニック株式会社 話者正規化方法及びそれを用いた音声認識装置
CN1312656C (zh) 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
JP4282317B2 (ja) * 2002-12-05 2009-06-17 アルパイン株式会社 音声通信装置
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
JP4583781B2 (ja) * 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
US7483831B2 (en) * 2003-11-21 2009-01-27 Articulation Incorporated Methods and apparatus for maximizing speech intelligibility in quiet or noisy backgrounds
JP4517163B2 (ja) * 2004-03-12 2010-08-04 株式会社国際電気通信基礎技術研究所 周波数特性等化装置
US8103007B2 (en) * 2005-12-28 2012-01-24 Honeywell International Inc. System and method of detecting speech intelligibility of audio announcement systems in noisy and reverberant spaces

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01236000A (ja) * 1988-03-16 1989-09-20 Nec Corp 音声認識装置
JPH06149289A (ja) * 1992-11-09 1994-05-27 Ricoh Co Ltd 音声認識装置
JPH10254493A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 録音音声の音量正規化方法およびこの方法を実施する装置
JP2000259177A (ja) * 1999-03-05 2000-09-22 Omron Corp 音声出力装置
JP2000349865A (ja) * 1999-06-01 2000-12-15 Matsushita Electric Works Ltd 音声通信装置
JP2005070430A (ja) * 2003-08-25 2005-03-17 Alpine Electronics Inc 音声出力装置および方法
JP2007511793A (ja) * 2003-11-14 2007-05-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号処理システム及び方法
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法

Also Published As

Publication number Publication date
US8401844B2 (en) 2013-03-19
CN101460996B (zh) 2012-10-31
US20090259461A1 (en) 2009-10-15
CN101460996A (zh) 2009-06-17
WO2007141923A1 (ja) 2007-12-13
JPWO2007141923A1 (ja) 2009-10-15

Similar Documents

Publication Publication Date Title
JP5262713B2 (ja) ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム
JP4765461B2 (ja) 雑音抑圧システムと方法及びプログラム
JP6169849B2 (ja) 音響処理装置
JP5875414B2 (ja) 雑音抑制方法、プログラム及び装置
JP2005249816A (ja) 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
JP5949553B2 (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP5242782B2 (ja) 音声認識方法
JP5150542B2 (ja) パターン認識装置、パターン認識方法、及び、プログラム
US20120065978A1 (en) Voice processing device
JP2011215317A (ja) 信号処理装置、および信号処理方法、並びにプログラム
US7930178B2 (en) Speech modeling and enhancement based on magnitude-normalized spectra
Wolfel Enhanced speech features by single-channel joint compensation of noise and reverberation
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2007156364A (ja) 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP3587966B2 (ja) 音声認識方法、装置そよびその記憶媒体
JP2008216488A (ja) 音声処理装置及び音声認識装置
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JPH1195786A (ja) パターン認識方法および装置とパターン認識プログラムを格納した記録媒体
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
WO2022190615A1 (ja) 信号処理装置および方法、並びにプログラム
JP6000094B2 (ja) 話者適応化装置、話者適応化方法、プログラム
Gu et al. An improved voice conversion method using segmental GMMs and automatic GMM selection
BabaAli et al. A model distance maximizing framework for speech recognizer-based speech enhancement
Machado et al. Spectral envelope representation using sums of gaussians

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130415

R150 Certificate of patent or registration of utility model

Ref document number: 5262713

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150