JP5262713B2 - ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム - Google Patents
ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム Download PDFInfo
- Publication number
- JP5262713B2 JP5262713B2 JP2008520138A JP2008520138A JP5262713B2 JP 5262713 B2 JP5262713 B2 JP 5262713B2 JP 2008520138 A JP2008520138 A JP 2008520138A JP 2008520138 A JP2008520138 A JP 2008520138A JP 5262713 B2 JP5262713 B2 JP 5262713B2
- Authority
- JP
- Japan
- Prior art keywords
- sound pressure
- input signal
- speech
- unit
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 78
- 238000004364 calculation method Methods 0.000 claims description 47
- 238000006243 chemical reaction Methods 0.000 claims description 34
- 238000012937 correction Methods 0.000 claims description 26
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000012935 Averaging Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 9
- 230000001629 suppression Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 6
- 230000009466 transformation Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 101000704910 Saponaria officinalis Ribosome-inactivating protein saporin-4 Proteins 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Description
(A)予め複数の音圧の音声モデルを用意しておき、尤度が最大となるものを選択する方法や、
(B)ゲインの値を変数として扱い、音声モデルを構成する各ガウス分布毎に尤度が最大となるように繰り返し推定する方法
がある。
入力信号を取得し単位時間毎に切り分ける入力信号取得工程と、
上記単位時間毎に切り分けられた入力信号から特徴量を算出する特徴量変換工程と、
音素毎又は音声をクラスターに分割した単位毎に特徴量と音圧の情報を持つ音声モデルを格納する音声モデル格納工程と、
上記単位時間毎に切り分けられた入力信号と上記音声モデルそれぞれとの音圧の比を算出する音圧比較工程と、
上記単位時間毎に切り分けられた入力信号と上記音声モデルそれぞれとの特徴量の距離を算出する距離算出工程と、
上記音圧の比を音声モデルについて重み付き平均することでゲインを算出するゲイン値算出工程と、
算出されたゲインを用いて入力信号の音圧を補正する音圧補正工程と、を含む。
入力信号を取得し単位時間毎に切り分ける処理と、単位時間毎の入力信号を特徴量に変換する処理と、
単位時間毎の入力信号と音声モデルそれぞれとの音圧を比較する処理と、
単位時間毎の入力信号と音声モデルそれぞれとの特徴量の距離を算出する処理と、
音圧の比を複数の音声モデルについて重み付き平均することでゲイン値を算出する処理と、
算出されたゲイン値を用いて入力音声の音圧レベルを補正する処理と、を実行させるプログラムよりなる。
ゲイン値算出工程において上記音圧の比を複数の音声モデルに対して距離に応じた重み付き平均をすることでゲイン値を算出する代わりに、
上記音圧の比を複数の音声モデルに対して上記距離と音素又はクラスター単位の出現頻度情報の両方を考慮して重み付き平均をすることでゲイン値を算出する。
入力信号から雑音成分を推定する工程と、
入力信号から上記雑音成分を抑圧し、音声信号を算出する工程とを含み、
第1のゲイン制御方法における特徴量変換工程に対して、入力信号から特徴量を算出する代わりに、入力信号から雑音成分を抑圧した音声信号から特徴量を算出する。
第3のゲイン制御方法における音圧補正工程に対して、
算出されたゲインを用いて入力信号の音圧を補正する代わりに、算出されたゲインを用いて入力信号から雑音成分を抑圧したクリーンな成分のみを取り出したクリーン音声信号の音圧を補正する。
第1のゲイン制御方法における音圧補正工程の代わりに、算出されたゲインと入力信号から音圧の調整がなされた特徴量を算出する特徴量変換工程を含む。
2 特徴量変換部
3 音声モデル格納部
3’ 音声モデル格納部
3a 音声モデルの音圧値
3b 音声モデルの特徴量
3c 音声モデルの出現頻度(事前確率)
4 音圧比較部
5 距離算出部
6 ゲイン値算出部
6’ ゲイン値算出部
7 音圧補正部
8 雑音推定部
9 クリーン音声推定部
10 第二の特徴量変換手段
11 帯域分割フィルタ手段
12 絶対値変換手段
13 重み付けデータ格納手段
14 乗算部
15 加算部
16 ゲイン補正手段
17 スレッシュルドレベル格納手段
18 比較手段
19 ゲイン発生手段
20 放絡線発生手段
図1は、本発明の第1の実施例の構成を示す図である。図1を参照すると、本発明の第1の実施例は、入力信号を取得し単位時間毎に切り出す入力信号取得部1と、単位時間毎の入力信号から特徴量と音圧を算出する特徴量変換部2と、音声モデルを格納する音声モデル格納部3と、単位時間毎の入力信号と上記音声モデルそれぞれとの音圧を比較し音圧の比を求める音圧比較部4と、単位時間毎の入力信号と音声モデルそれぞれとの特徴量の距離を求める距離算出部5と、音圧比較部4によって算出された音圧の比と距離算出部で算出された距離とからゲインを算出するゲイン値算出部6と、ゲイン値算出部6で算出されたゲインを用いて入力信号の音圧を補正する音圧補正部7と、を備えている。
・スペクトル、
・対数スペクトル、
・ケプストラム、
・ピッチ、
・パワー、
・このΔ(一階差分)量、
・ΔΔ(二階差分量)
などの量である。
X(t)はX(f,t)を要素として持つベクトルである。
C(t)はC(i,t)を要素として持つベクトルである(ただし、iはケプストラム次元を示す)。
DCT[ ]は離散コサイン変換を示す。
図4は、本発明の第2の実施例の構成を示す図である。図4を参照すると、本発明の第2の実施例において、音声モデル格納部3’は、音素毎又は音声を分割したクラスター単位毎に、音圧と特徴量と、音声モデルの出現頻度(事前確率)とを含む。すなわち、音声モデル格納部3’には、第1の実施例の音声モデル格納部3に、出力頻度情報が追加されている。また、本発明の第2の実施例において、ゲイン値算出部6’は、音声モデルそれぞれに対し、音圧比較部4によって算出された音圧の比と、音圧モデルそれぞれに対し、距離算出部5で算出された距離と、音声モデルそれぞれの出現頻度(事前確率)と、からゲインを算出する。
図5は、本発明の第3の実施例の構成を示す図である。図5を参照すると、本発明の第3の実施例は、前記第1の実施例に加えて、入力信号から雑音成分を取得する雑音推定部8と、入力信号と雑音推定部8で推定された雑音から、音声を推定して出力するクリーン音声推定部9をさらに備えている。
次に、本発明の第4の実施例について説明する。図5に示した前記第3の実施例では、音圧補正部7は、ゲイン値算出部6で算出されたゲインを用いて入力信号の音圧を補正している。これに対して、図6を参照すると、本発明の第4の実施例では、音圧補正部7は、ゲイン値算出部6で算出されたゲインを用いて、クリーン音声推定部9で推定されたクリーン音声の音圧を補正する。
次に、本発明の第5の実施例について説明する。図7を参照すると、本発明の第5の実施例は、図1の第1の実施例において、ゲインを用いて入力信号の音圧を補正する音圧補正部7を、ゲインと入力信号とから、音声認識で使用する特徴量を算出する第二の特徴量変換部10に置き換えたものである。他の構成は、前記第1の実施例と同様である。
次に、本発明の第6の実施例について説明する。前記第5の実施例では、第二の特徴量変換部10は、ゲイン値算出部6で算出されたゲインと入力信号とから音声認識で使用する特徴量を算出している。図8を参照すると、本発明の第6の実施例では、第二の特徴量変換部10は、ゲイン値算出部6によって算出されたゲインを用いて、特徴量変換部2で算出された特徴量を補正し、音声認識で使用する第二の特徴量とする。例えば第二の特徴量変換部10は、特徴量変換部2で算出された特徴量に、ゲインを乗する等の処理を行う。
次に、本発明の第7の実施例について説明する。本発明の第7の実施例は、図11に示すような音声モデルを雑音に適応させる手法において、前記第1の実施例のゲイン算出部6で算出されたゲインを用いて、図11に示すレベル調整係数を求める構成となっている。また、入力信号を切り出した時間単位毎にゲイン値算出部6で算出されたゲインを直接用いるのではなく、複数フレーム及び複数発声に渡って平均化しても良い。また、前記第1乃至第6までの実施例は、互いに組み合わせて使用することもできる。
Claims (32)
- 入力信号の音圧を調整し出力するゲイン制御システムであって、
前記入力信号を単位時間毎に切り出す手段と、
前記単位時間毎の入力信号から、音圧に依存しない特徴量と音圧に依存する特徴量を算出する手段と、
前記単位時間毎の入力信号の音圧に依存しない特徴量と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧に依存しない特徴量と、の間の距離を算出する手段と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行いゲインを算出する手段と、
前記算出されたゲインに応じて、前記単位時間毎、又は複数単位時間に渡って、前記入力信号の音圧を制御する手段と、
を備えていることを特徴とするゲイン制御システム。 - 入力信号の音圧を調整し出力するゲイン制御システムであって、
入力デバイスから入力される音声信号を取得し単位時間毎に切り出す入力信号取得部と、
前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する特徴量変換部と、
複数の音素毎、又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを格納する音声モデル格納部と、
前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する距離算出部と、
前記単位時間毎に切り出された入力信号の音圧と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する音圧比較部と、
前記距離算出部で算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出するゲイン値算出部と、
前記ゲイン値算出部で算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する音圧補正部と、
を含む、ことを特徴とするゲイン制御システム。 - 前記音声モデル格納部が、音声モデルの出現頻度情報をさらに記憶保持しており、
前記ゲイン値算出部は、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、からゲインを算出する、ことを特徴とする請求項2記載のゲイン制御システム。 - 前記ゲイン値算出部において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出する、ことを特徴とする請求項2又は3記載のゲイン制御システム。
- 前記入力信号から雑音成分を取得する雑音推定部と、
前記入力信号から前記雑音推定部で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力するクリーン音声推定部と、
を備え、
前記特徴量変換部は、前記クリーン音声推定部から出力される、雑音成分を抑圧した信号を入力し、入力した信号の特徴量及び音圧を取り出す、ことを特徴とする請求項2乃至4のいずれか一記載のゲイン制御システム。 - 前記音圧補正部が、前記クリーン音声推定部から出力される、雑音成分を抑圧した信号を入力し、音圧を補正する、ことを特徴とする請求項5記載のゲイン制御システム。
- 前記音圧補正部が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御する、ことを特徴とする請求項2乃至4のいずれか一記載のゲイン制御システム。
- 請求項2乃至7のいずれか一に記載のゲイン制御システムが、
前記音圧補正部のかわりに、
前記ゲイン値算出部で算出されたゲインと、前記入力信号とから音声認識で使用する特徴量を算出する第二の特徴量変換部を備え、
前記第二の特徴量変換部で算出された特徴量を用いて音声認識を行う、ことを特徴とする音声認識システム。 - 請求項2乃至7のいずれか一に記載の前記ゲイン制御システムが、
前記音圧補正部のかわりに、
前記ゲイン値算出部で算出されたゲインを用いて、前記特徴量変換部で求められた特徴量を補正し、音声認識で使用する特徴量を算出する第二の特徴量変換部を備え、
前記第二の特徴量変換部で算出された特徴量を用いて音声認識を行う、ことを特徴とする音声認識システム。 - 算出されたゲインを基に、音声モデルを雑音に適応させ、前記雑音に適応した音声モデルを用いて音声認識を行う手段を備えている、ことを特徴とする請求項8又は9記載の音声認識システム。
- 入力信号の音圧を調整し出力するゲイン制御方法であって、
前記入力信号を単位時間毎に切り出す工程と、
前記単位時間毎の入力信号から、音圧に依存しない特徴量と音圧に依存する特徴量を算出する工程と、
前記単位時間毎の入力信号の音圧に依存しない特徴量と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧に依存しない特徴量と、の間の距離を算出する工程と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行いゲインを算出する工程と、
前記算出されたゲインに応じて、前記単位時間毎、又は複数単位時間に渡って、前記入力信号の音圧を制御する工程と、
を含む、ことを特徴とするゲイン制御方法。 - 入力信号の音圧を調整し出力するゲイン制御方法であって、
音素毎又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを音声モデル格納部に格納しておき、
入力デバイスから入力される音声信号を取得し単位時間毎に切り出す工程と、
前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する工程と、
前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する工程と、
前記単位時間毎に切り出された入力信号の音圧と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する工程と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する工程と、
前記算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する工程と、
を含む、ことを特徴とするゲイン制御方法。 - 前記音声モデル格納部が、音声モデルの出現頻度情報をさらに記憶保持しており、
前記ゲインを算出する工程において、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、からゲインを算出する、ことを特徴とする請求項12記載のゲイン制御方法。 - 前記ゲインを算出する工程において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出する、ことを特徴とする請求項12又は13記載のゲイン制御方法。
- 前記入力信号から雑音成分を取得する雑音推定工程と、
前記入力信号から前記雑音推定工程で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力する工程と、
を含み、
前記特徴量を算出する工程では、前記雑音成分を抑圧した信号を前記入力信号として入力し、特徴量及び音圧を取り出す、ことを特徴とする請求項12乃至14のいずれか一記載のゲイン制御方法。 - 前記音圧を補正する工程が、前記雑音成分を抑圧した信号を入力し、音圧を補正する、ことを特徴とする請求項15記載のゲイン制御方法。
- 前記音圧を補正する工程が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御する、ことを特徴とする請求項12乃至14のいずれか一記載のゲイン制御方法。
- 前記音圧を補正する工程の代わりに、前記算出されたゲインと前記入力信号から音圧の調整がなされた特徴量を算出する工程を含む、ことを特徴とする請求項12記載のゲイン制御方法。
- 入力信号の音圧を調整し出力するゲイン制御を行うコンピュータに、
前記入力信号を単位時間毎に切り出す処理と、
前記単位時間毎の入力信号から、音圧に依存しない特徴量と音圧に依存する特徴量を算出する処理と、
前記単位時間毎の入力信号の音圧に依存しない特徴量と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧に依存しない特徴量と、の間の距離を算出する処理と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行いゲインを算出する処理と、
前記算出されたゲインに応じて、前記単位時間毎、又は複数単位時間に渡って、前記入力信号の音圧を制御する処理と、
を実行させるプログラム。 - 入力信号の音圧を調整し出力するゲイン制御を行うコンピュータであって、
音素毎又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを格納している音声モデル格納部を備え、
音素毎又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを音声モデル格納部に格納しておく処理と、
入力デバイスから入力される音声信号を取得し単位時間毎に切り出す処理と、
前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する処理と、
前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する処理と、
前記単位時間毎に切り出された入力信号の音圧と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する処理と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する処理と、
前記算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する処理と、
を前記コンピュータに実行させるプログラム。 - 請求項20記載のプログラムにおいて、
前記音声モデル格納部が、音声モデルの出現頻度情報をさらに記憶保持しており、
前記ゲインを算出する処理において、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、からゲインを算出する処理を、前記コンピュータに実行させるプログラム。 - 請求項20記載のプログラムにおいて、
前記ゲインを算出する処理において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出する処理を、前記コンピュータに実行させるプログラム。 - 請求項20記載のプログラムにおいて、
前記入力信号から雑音成分を取得する雑音推定処理と、
前記入力信号から前記雑音推定処理で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力する処理と、
前記特徴量を算出する処理において、前記雑音成分を抑圧した信号を前記入力信号として入力し、特徴量及び音圧を取り出す処理と、
を、前記コンピュータに実行させるプログラム。 - 請求項23記載のプログラムにおいて、
前記音圧を補正する処理が、前記雑音成分を抑圧した信号を入力し、音圧を補正する処理を、前記コンピュータに実行させるプログラム。 - 請求項20記載のプログラムにおいて、
前記音圧を補正する処理が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御する処理を、前記コンピュータに実行させるプログラム。 - 請求項20記載のプログラムにおいて、
前記音圧を補正する処理の代わりに、前記算出されたゲインと前記入力信号から音圧の調整がなされた特徴量を算出する処理を、前記コンピュータに実行させるプログラム。 - 予め所定の音圧の音声で学習され、各々が、音圧に依存する第1の特徴量と第2の特徴量とを含む音声モデルを、音素毎又はクラスター単位で記憶する音声モデル格納部と、
入力信号を単位時間毎に切り出して分析し特徴量を導出する手段と、
前記音声モデル格納部に格納されている前記音声モデルの第2の特徴量と、前記入力信号の対応する特徴量との距離に基づき、それぞれの音声モデルが選ばれる確率を算出し、前記距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する第1の特徴量に対して前記確率を用いて重み付けしてゲインを算出する手段を、
備え、入力信号の音圧を予め学習によって用意された音声モデルの音素又はクラスター毎の音圧に一致させる制御が行われる、ことを特徴とする、音声認識用のゲイン制御装置。 - 前記音声モデル格納部が、音声モデルの出現頻度をさらに記憶し、
前記音声モデル格納部に格納されている音声モデルの前記第2の特徴量と、前記入力信号の対応する特徴量との距離と、音声モデルの出現頻度を用いて、それぞれの音声モデルが選ばれる確率を算出する、ことを特徴とする、請求項27記載の音声認識用のゲイン制御装置。 - 前記音圧に依存する第1の特徴量としてケプストラムの0次成分を用い、
前記第2の特徴量として、0次成分以外のケプストラム、スペクトル、対数スペクトル、ピッチ、パワー、これらのいずれかの一階又は二階の差分量のうち、少なくとも1つを用いる、請求項27又は28に記載の音声認識用のゲイン制御装置。 - 予め所定の音圧の音声で学習された音声モデルを音声モデル格納部に記憶しておき、
前記音声モデル格納部を参照し、入力信号の音圧と音声モデルの音圧の比較、及び、前記入力信号の特徴量と音声モデルの持つ特徴量との距離の算出を、前記音声モデル格納部に格納されている音声モデルそれぞれに対して行う手段と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する手段と、
を備えている、ことを特徴とするゲイン制御装置。 - 予め所定の音圧の音声で学習された音声モデルを記憶している音声モデル格納部を参照し、入力信号の音圧と音声モデルの音圧の比較、及び、前記入力信号の特徴量と音声モデルの持つ特徴量との距離の算出を、前記音声モデル格納部に格納されている音声モデルそれぞれに対して行い、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する、
上記各工程を含む、ことを特徴とするゲイン制御方法。 - 予め所定の音圧の音声で学習された音声モデルを記憶している音声モデル格納部を参照可能なコンピュータに、
前記音声モデル格納部を参照し、入力信号の音圧と音声モデルの音圧の比較、及び、前記入力信号の特徴量と音声モデルの持つ特徴量との距離の算出を、前記音声モデル格納部に格納されている音声モデルそれぞれに対して行う処理と、
前記算出された距離に応じて、前記入力信号の音圧と、音素毎又は音声をクラスターに分割した単位毎に予め設定された音圧との比又は、差に依存する特徴量に対して重み付けを行い、ゲインを算出する処理と、
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008520138A JP5262713B2 (ja) | 2006-06-02 | 2007-01-16 | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006154994 | 2006-06-02 | ||
JP2006154994 | 2006-06-02 | ||
PCT/JP2007/050491 WO2007141923A1 (ja) | 2006-06-02 | 2007-01-16 | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム |
JP2008520138A JP5262713B2 (ja) | 2006-06-02 | 2007-01-16 | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007141923A1 JPWO2007141923A1 (ja) | 2009-10-15 |
JP5262713B2 true JP5262713B2 (ja) | 2013-08-14 |
Family
ID=38801190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008520138A Active JP5262713B2 (ja) | 2006-06-02 | 2007-01-16 | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US8401844B2 (ja) |
JP (1) | JP5262713B2 (ja) |
CN (1) | CN101460996B (ja) |
WO (1) | WO2007141923A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101771390B (zh) * | 2008-12-30 | 2013-03-06 | 英业达股份有限公司 | 声音输出输入系统及其音量输出调整方法 |
JP2011053569A (ja) * | 2009-09-03 | 2011-03-17 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびプログラム |
KR101726738B1 (ko) * | 2010-12-01 | 2017-04-13 | 삼성전자주식회사 | 음성처리장치 및 그 방법 |
JP2013153307A (ja) * | 2012-01-25 | 2013-08-08 | Sony Corp | 音声処理装置および方法、並びにプログラム |
US8880393B2 (en) * | 2012-01-27 | 2014-11-04 | Mitsubishi Electric Research Laboratories, Inc. | Indirect model-based speech enhancement |
JP6065308B2 (ja) * | 2012-09-07 | 2017-01-25 | パナソニックIpマネジメント株式会社 | 音量補正装置 |
US9336775B2 (en) * | 2013-03-05 | 2016-05-10 | Microsoft Technology Licensing, Llc | Posterior-based feature with partial distance elimination for speech recognition |
US9933990B1 (en) * | 2013-03-15 | 2018-04-03 | Sonitum Inc. | Topological mapping of control parameters |
CN108702578B (zh) * | 2016-02-09 | 2021-06-04 | 索诺瓦公司 | 执行真耳测量的方法以及测量系统 |
CN108024186B (zh) * | 2016-11-02 | 2020-07-10 | 宏碁股份有限公司 | 助听器及其宽动态范围压缩的恢复时间动态调整方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01236000A (ja) * | 1988-03-16 | 1989-09-20 | Nec Corp | 音声認識装置 |
JPH06149289A (ja) * | 1992-11-09 | 1994-05-27 | Ricoh Co Ltd | 音声認識装置 |
JPH10254493A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 録音音声の音量正規化方法およびこの方法を実施する装置 |
JP2000259177A (ja) * | 1999-03-05 | 2000-09-22 | Omron Corp | 音声出力装置 |
JP2000349865A (ja) * | 1999-06-01 | 2000-12-15 | Matsushita Electric Works Ltd | 音声通信装置 |
JP2005070430A (ja) * | 2003-08-25 | 2005-03-17 | Alpine Electronics Inc | 音声出力装置および方法 |
JP2007511793A (ja) * | 2003-11-14 | 2007-05-10 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号処理システム及び方法 |
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0424697A (ja) * | 1990-05-18 | 1992-01-28 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
US6154549A (en) * | 1996-06-18 | 2000-11-28 | Extreme Audio Reality, Inc. | Method and apparatus for providing sound in a spatial environment |
US6353671B1 (en) * | 1998-02-05 | 2002-03-05 | Bioinstco Corp. | Signal processing circuit and method for increasing speech intelligibility |
CN1207664C (zh) | 1999-07-27 | 2005-06-22 | 国际商业机器公司 | 对语音识别结果中的错误进行校正的方法和语音识别系统 |
US7027981B2 (en) * | 1999-11-29 | 2006-04-11 | Bizjak Karl M | System output control method and apparatus |
JP4256631B2 (ja) | 2002-06-03 | 2009-04-22 | パナソニック株式会社 | オートゲインコントロール装置 |
JP4449380B2 (ja) * | 2002-09-24 | 2010-04-14 | パナソニック株式会社 | 話者正規化方法及びそれを用いた音声認識装置 |
CN1312656C (zh) | 2002-09-24 | 2007-04-25 | 松下电器产业株式会社 | 说话人标准化方法及用该方法的语音识别装置 |
JP4282317B2 (ja) * | 2002-12-05 | 2009-06-17 | アルパイン株式会社 | 音声通信装置 |
JP2004325897A (ja) * | 2003-04-25 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
JP4583781B2 (ja) * | 2003-06-12 | 2010-11-17 | アルパイン株式会社 | 音声補正装置 |
US7483831B2 (en) * | 2003-11-21 | 2009-01-27 | Articulation Incorporated | Methods and apparatus for maximizing speech intelligibility in quiet or noisy backgrounds |
JP4517163B2 (ja) * | 2004-03-12 | 2010-08-04 | 株式会社国際電気通信基礎技術研究所 | 周波数特性等化装置 |
US8103007B2 (en) * | 2005-12-28 | 2012-01-24 | Honeywell International Inc. | System and method of detecting speech intelligibility of audio announcement systems in noisy and reverberant spaces |
-
2007
- 2007-01-16 JP JP2008520138A patent/JP5262713B2/ja active Active
- 2007-01-16 US US12/227,902 patent/US8401844B2/en active Active
- 2007-01-16 WO PCT/JP2007/050491 patent/WO2007141923A1/ja active Application Filing
- 2007-01-16 CN CN2007800204844A patent/CN101460996B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01236000A (ja) * | 1988-03-16 | 1989-09-20 | Nec Corp | 音声認識装置 |
JPH06149289A (ja) * | 1992-11-09 | 1994-05-27 | Ricoh Co Ltd | 音声認識装置 |
JPH10254493A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 録音音声の音量正規化方法およびこの方法を実施する装置 |
JP2000259177A (ja) * | 1999-03-05 | 2000-09-22 | Omron Corp | 音声出力装置 |
JP2000349865A (ja) * | 1999-06-01 | 2000-12-15 | Matsushita Electric Works Ltd | 音声通信装置 |
JP2005070430A (ja) * | 2003-08-25 | 2005-03-17 | Alpine Electronics Inc | 音声出力装置および方法 |
JP2007511793A (ja) * | 2003-11-14 | 2007-05-10 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号処理システム及び方法 |
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
Also Published As
Publication number | Publication date |
---|---|
US8401844B2 (en) | 2013-03-19 |
CN101460996B (zh) | 2012-10-31 |
US20090259461A1 (en) | 2009-10-15 |
CN101460996A (zh) | 2009-06-17 |
WO2007141923A1 (ja) | 2007-12-13 |
JPWO2007141923A1 (ja) | 2009-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5262713B2 (ja) | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム | |
JP4765461B2 (ja) | 雑音抑圧システムと方法及びプログラム | |
JP6169849B2 (ja) | 音響処理装置 | |
JP5875414B2 (ja) | 雑音抑制方法、プログラム及び装置 | |
JP2005249816A (ja) | 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム | |
JP5949553B2 (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
JP5242782B2 (ja) | 音声認識方法 | |
JP5150542B2 (ja) | パターン認識装置、パターン認識方法、及び、プログラム | |
US20120065978A1 (en) | Voice processing device | |
JP2011215317A (ja) | 信号処理装置、および信号処理方法、並びにプログラム | |
US7930178B2 (en) | Speech modeling and enhancement based on magnitude-normalized spectra | |
Wolfel | Enhanced speech features by single-channel joint compensation of noise and reverberation | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP2007156364A (ja) | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 | |
JP3587966B2 (ja) | 音声認識方法、装置そよびその記憶媒体 | |
JP2008216488A (ja) | 音声処理装置及び音声認識装置 | |
CN109155128B (zh) | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
JPH1195786A (ja) | パターン認識方法および装置とパターン認識プログラムを格納した記録媒体 | |
WO2016092837A1 (ja) | 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 | |
WO2022190615A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP6000094B2 (ja) | 話者適応化装置、話者適応化方法、プログラム | |
Gu et al. | An improved voice conversion method using segmental GMMs and automatic GMM selection | |
BabaAli et al. | A model distance maximizing framework for speech recognizer-based speech enhancement | |
Machado et al. | Spectral envelope representation using sums of gaussians |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5262713 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |