JP2002091478A - 音声認識システム - Google Patents
音声認識システムInfo
- Publication number
- JP2002091478A JP2002091478A JP2000282348A JP2000282348A JP2002091478A JP 2002091478 A JP2002091478 A JP 2002091478A JP 2000282348 A JP2000282348 A JP 2000282348A JP 2000282348 A JP2000282348 A JP 2000282348A JP 2002091478 A JP2002091478 A JP 2002091478A
- Authority
- JP
- Japan
- Prior art keywords
- cep
- speech
- noise
- multiplicative distortion
- lin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000996 additive effect Effects 0.000 claims abstract description 53
- 239000000654 additive Substances 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000002194 synthesizing effect Effects 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 9
- 230000001568 sexual effect Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 abstract description 58
- 238000007476 Maximum Likelihood Methods 0.000 abstract description 3
- 230000010485 coping Effects 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 27
- 230000003595 spectral effect Effects 0.000 description 20
- 238000012545 processing Methods 0.000 description 18
- 238000012935 Averaging Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000001308 synthesis method Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000007429 general method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101100512186 Pisum sativum HMM1 gene Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Abstract
声認識システムを提供する。 【解決手段】 HMM法で作成した音声HMM5から乗
法性歪Hm(cep)を減算(合成)し、HMM法で作成した
雑音HMM6から発話音声の乗法性歪Ha(cep)を減算
(合成)し、それぞれの減算結果Sm(cep)と{Nm(cep)
−Ha(cep)}を合成することによってケプストラム領域
での合成HMM18を作成する。発話音声のケプストラ
ムRa(cep)から乗法性歪Ha(cep)を減算(合成)するこ
とで得られるケプストラムR^a(cep)と合成HMM18
のケプストラム領域での分布R^m(cep)とを照合し、最
大尤度を与える合成HMMを音声認識結果とする。
Description
の歪みに対してロバスト(頑健)な音声認識システムに
関する。
等の電子機器では、マンマシンコニュニケーション等を
可能にする音声認識システムが注目され、図4に示すよ
うな情報処理アルゴリズムに基づいて構成された音声認
識システムが知られている。
デル(Hidden Markov Model:HMM)を用いて単語や
サブワード(音素、音節など)単位の音響モデル(音声
HMM)を作成しておき、認識すべき音声が発話される
と、その発話音声のケプストラムの時系列である観測値
系列を生成して、観測値系列と音声HMMとを照合し、
最大尤度を与える音声HMMを選んでこれを認識結果と
して出力する。
的に収集して記憶しておいた大量の音声データRmを1
0〜20msec程度のフレーム単位に区分けし、各フレー
ム単位のデータを順次にケプストラム(Cepstrum)演算
することにより、ケプストラムの時系列を求め、更にこ
のケプストラムの時系列を音声の特徴量として学習処理
し、音響モデル(音声HMM)のパラメータに反映させ
ることで、単語やサブワード単位の音声HMMを作成し
ている。
データRaを上記同様のフレーム単位に区分けして入力
し、各フレーム単位の発話音声データを順次にケプスト
ラム演算することによってケプストラムの時系列である
観測値系列を生成し、観測値系列と音声HMMとを単語
やサブワード単位で照合して、観測値系列と最も尤度の
高い音声HMMを音声認識結果として出力することによ
り、音声認識が行われている。
声データRmを収集する際、マイクロフォンや電気伝送
系等における乗法性歪の影響を受けた音声データRmが
収集されてしまい、精度の良い音声HMMを生成するこ
とが困難になる場合や、認識すべき発話音声が発話され
た際、室内雑音や背景雑音等の加法性雑音と、口元から
マイクロフォンまでの空間的伝達特性、マイクロフォン
や電気伝送系等における乗法性歪などが発話データRa
に悪影響を及ぼす場合があることから、加法性雑音と乗
法性歪の影響を受け難い音声認識システム、すなわちロ
バスト(robust)な音声認識システムの構築が重要な課
題となっている。
対してはHMM合成法、乗法性歪に対してはケプストラ
ム平均正規化法(Cepstrum Mean Normalization:CM
N)が提案されている。
は、図5に示すように、HMM法で作成した音声の音響
モデル(音声HMM)と加法性雑音の音響モデル(雑音
HMM)とを備え、更に音声HMMと雑音HMMを合成
することによって加法性雑音を含んだ音声の雑音重畳音
響モデル(合成HMM)を作成し、その合成HMMと発
話音声データに基づいて生成した観測値系列とを照合し
て、最も尤度の高い合成HMMを音声認識結果として出
力するようになっている。
ないクリーンな音声のデータSmをフレーム化し、ケプ
ストラム演算及び学習処理することによって作成されて
いる。
音データNmを上記同様にフレーム化し、ケプストラム
演算及び学習処理することによって作成されている。
を線形領域で足し合わせることによって作成されてい
る。ただし、音声HMMと雑音HMMはケプストラム領
域(cep)での分布Sm(cep)とNm(cep)として表される
ため、ケプストラム領域のまま合成HMMを求めること
はできない。
p)と雑音HMMの分布Nm(cep)をそれぞれコサイン変換
することによって対数スペクトル領域(log)での分布
Sm(log)とNm(log)に変換し、更に指数変換することに
よって線形スペクトル領域(lin)での分布Sm(lin)と
Nm(lin)に変換した後、音声データベース2の音声Rm
の平均パワーと加法性雑音Nmの平均パワーの比、及び
発話音声RaのSN比で決まる所定係数kを分布Nm(li
n)に乗算して分布Sm(lin)に加算することにより、雑音
付加音声の線形スペクトル領域での分布Rm(lin)=Sm
(lin)+k・Nm(lin)を求めている。そして、雑音付加音
声の分布Rm(lin)を対数変換することによって対数スペ
クトル領域(log)での分布Rm(log)に変換し、更に逆
コサイン変換して雑音付加音声のケプストラム領域(ce
p)での分布Rm(cep)を求めることにより、合成HMM
を作成している。
声Raは、線形スペクトル領域(lin)ではクリーンな音
声Sa(lin)と加法性雑音Na(lin)との加算Ra(lin)=S
a(lin)+Na(lin)で表されるのに対し、雑音付加音声モ
デル(合成HMM)も線形スペクトル領域(lin)では
クリーンな音声Sm(lin)と加法性雑音k・Nm(lin)との
加算Rm(lin)=Sm(lin)+k・Nm(lin)で表されること
から、観測値系列Ra(cep)と合成HMMの分布Rm(cep)
とを照合する際に、加法性雑音の影響を抑えることがで
きるとされている。尚、係数kは所定の定数である。
ムは、図6に示すように、乗法性歪を含んだ音声データ
Rmを予め収集して音声データベースに記憶しておき、
その音声データRmをフレーム化しケプストラム演算及
び学習処理することによって音声HMMが作成されてい
る。すなわち、乗法性歪をHm、乗法性歪の無いクリー
ンな音声をSmとすると、音声HMMはケプストラム領
域(cep)での分布Rm(cep)=Hm(cep)+Sm(cep)とし
て構成されている。
プストラムの長時間平均で推定され得るという仮定に基
づいて、音声HMMの分布Rm(cep)を所定時間平均する
ことにより乗法性歪Hm(cep)を求めると共に、分布Rm
(cep)から乗法性歪Hm(cep)を減算することにより、ク
リーンな音声のケプストラム領域(cep)での分布Sm
(cep)を生成している。
データSaをフレーム化してケプストラム演算すること
により、クリーンな音声Saに実際の乗法性歪Haが含ま
れた発話音声のケプストラムRa(cep)=Sa(cep)+Ha
(cep)を求め、更に、乗法性歪のケプストラムは音声の
ケプストラムの長時間平均で推定され得るという仮定に
基づいて、発話音声のケプストラムRa(cep)を所定時間
平均することによって乗法性歪Ha(cep)を求め、更に発
話音声のケプストラムRa(cep)から乗法性歪Ha(cep)を
減算することにより、クリーンな音声Saのケプストラ
ムSa(cep)を生成し、そのケプストラムSa(cep)と音声
HMMから求めた分布Sm(cep)とを照合して、最も尤
度の高い音声HMMを認識結果として出力している。
(cep)を取り除いたケプストラム領域(cep)での分布
Sm(cep)と、乗法性歪Ha(cep)を取り除いた発話音声の
ケプストラムSa(cep)とを照合するので、乗法性歪に対
してロバストな音声認識が可能であるとされている。
テムとして、図7に示す構成のものも知られている。こ
の音声認識システムでは、図6に示した音声認識システ
ムと同様に、音声HMMの分布Rm(cep)を所定時間平均
することにより乗法性歪Hm(cep)を求めている。更に、
発話音声のケプストラムRa(cep)=Sa(cep)+Ha(cep)
を求めると共に、この発話音声のケプストラムRa(cep)
を所定時間平均することによって乗法性歪Ha(cep)を求
め、更に発話音声のケプストラムRa(cep)から乗法性歪
Ha(cep)を減算することによってクリーンな発話音声の
ケプストラムSa(cep)を生成している。
めた乗法性歪Hm(cep)とクリーンな発話音声のケプスト
ラムSa(cep)とを加算することで、乗法性歪Hm(cep)を
含んだケプストラムSa(cep)+Hm(cep)を生成し、音声
HMMの分布Rm(cep)=Hm(cep)+Sm(cep)とケプスト
ラムSa(cep)+Hm(cep)とを照合して、最も尤度の高い
音声HMMを認識結果として出力するようになってい
る。
ムも、図6に示した音声認識システムと同様に、乗法性
歪のケプストラムは音声のケプストラムの長時間平均で
推定され得るという仮定に基づいた処理を行うことで、
乗法性歪に対してロバストな音声認識が可能であるとさ
れている。
CMN法とを併用することで、拡張性を持たせた音声認
識システムも知られている。
と同様に音声の音響モデル(音声HMM)と雑音の音響
モデル(雑音HMM)を作成し、音声HMMのケプスト
ラム領域(cep)での分布Rm(cep)を所定時間平均する
ことによって得られる乗法性歪Hm(cep)を分布Rm(cep)
から減算することにより、乗法性歪を除いた音声の分布
Sm(cep)を求めている。
ム領域での分布Sm(cep)と雑音HMMのケプストラム領
域での分布Nm(cep)とをそれぞれコサイン変換すること
で対数スペクトル領域での分布Sm(log)とNm(log)を求
め、更に指数変換することで線形スペクトル領域(li
n)での分布Sm(lin)とNm(lin)を求めた後、SN比で
決まる所定係数kを分布Nm(lin)に乗算して分布Sm(li
n)に加算することにより、雑音付加音声の分布R'm(li
n)=Sm(lin)+k・Nm(lin)を求めている。
対数変換することによって対数スペクトル領域(log)
での分布R'm(log)に変換し、更に逆コサイン変換して
雑音付加音声のケプストラム領域(cep)での分布R'm
(cep)を求めることにより、合成HMMを作成してい
る。
性歪Hmが除去され、その乗法性歪Hmの除去された音声
に加法性雑音Nmを付加することによって生じる雑音付
加音声のケプストラムとして構成されている。
データRaをフレーム化してケプストラム演算すること
により、クリーンな音声Saに実際の乗法性歪Haと加法
性雑音Naが含まれた発話音声のケプストラムRa(cep)
=Ha(cep)+R^a(cep)を求めた後、ケプストラムRa(c
ep)を所定時間平均することによって乗法性歪Ha(cep)
を求めると共に、発話音声のケプストラムRa(cep)から
乗法性歪Ha(cep)を減算することにより、乗法性歪Ha
(cep)を除いた発話音声のケプストラムR^a(cep)を生
成している。つまり、ケプストラムR^a(cep)は、乗法
性歪Haが除去されているが加法性雑音Naを含んでいる
発話音声のケプストラムとなっている。
成HMMの分布Rm(cep)とを照合して、最も尤度の高い
合成HMMを認識結果として出力している。
示したCMN法とHMM合成法とを適用した音声認識シ
ステムにあっては、合成HMMと発話音声のケプストラ
ムR^a(cep)とを照合することで音声認識を行うことに
しているが、合成HMMが発話音声に対して適切な照合
対象としてモデル化されていないという問題があった。
に乗法性歪Haと加法性雑音Naが含まれている場合、そ
の発話音声Raは、クリーンな発話音声Saに乗法性歪み
Haと加法性雑音Naが重畳しているものとして、次式
(1)に示すような線形スペクトル領域(lin)で表す
ことができる。 Ra(lin)=Ha(lin)Sa(lin)+Na(lin) =Ha(lin){Sa(lin)+Na(lin)/Ha(lin)} =Ha(lin)R^a(lin) …(1) 図8に示した音声認識システムでは、この線形スペクト
ル領域(lin)で表される発話音声Raをフレーム化して
ケプストラム演算を施すことで、次式(2)に示すよう
な発話音声RaのケプストラムRa(cep)を求めている。 Ra(cep)=Ha(cep)+R^a(cep) …(2) そして、ケプストラム領域(cep)での乗法性歪Ha(ce
p)をCMN法によって除去することにより、照合すべき
ケプストラムR^a(cep) を求めている。尚、ケプストラ
ムR^a(cep)は、上記式(1)中の線形スペクトル{Sa
(lin)+Na(lin)/Ha(lin)}に対応している。
て説明したように、雑音付加音声に基づいて生成されて
おり、その雑音付加音声を線形スペクトル領域(lin)
で表すと次式(3)、合成HMMのケプストラム領域
(cep)での表記は次式(4)となる。 R'm(lin)=Sm(lin)+k・Nm(lin) …(3) R'm(cep)=IDCT〔log{R'm(lin)}〕 =cep〔R'm(lin)〕 …(4) 尚、演算子logは対数変換、IDCTは逆コサイン変
換、cepは対数変換の逆コサイン変換、すなわちID
CT〔log{ }〕である。
と、まず、上記式(2)に示した発話音声Raに基づい
て生成されるケプストラムR^a(cep)は、式(1)中の
線形スペクトル{Sa(lin)+Na(lin)/Ha(lin)}に対
応していることから、加法性雑音Na(lin)を乗法性歪H
a(lin)で割算した成分が含まれるのに対し、上記式
(4)に示した合成HMMのケプストラムR'm(cep)
は、式(3)に示した線形スペクトルSm(lin)+k・Nm
(lin) に対応していることから、加法性雑音Nm(lin)を
何らかの乗法性歪で割算するようなことは行われていな
い。
声を認識するための照合対象として適切にモデル化され
ていないという問題があった。
共に、加法性雑音と乗法性歪に対してロバストな音声認
識システムを提供することを目的とする。
本発明は、少なくとも乗法性歪を含んだ音声に基づいて
作成された音響モデルと雑音モデルを合成することで得
られる合成モデルと、乗法性歪と加法性雑音を含んだ発
話音声とを照合することで音声認識を行う音声認識シス
テムであって、上記発話音声に含まれる乗法性歪の特徴
成分を抽出する第1の抽出手段と、上記音響モデルに含
まれる乗法性歪の特徴成分を抽出する第2の抽出手段
と、上記発話音声と上記第1の抽出手段の抽出した上記
乗法性歪の特徴成分とを合成する第1の演算手段と、上
記音響モデルと上記第2の抽出手段の抽出した上記乗法
性歪の特徴成分とを合成する第2の演算手段と、上記雑
音モデルと上記第1の抽出手段の抽出した上記乗法性歪
の特徴成分とを合成する第3の演算手段と、上記第2の
演算手段の演算結果と上記第3の演算手段の演算結果と
を合成することにより上記合成モデルを作成する作成手
段とを備え、上記第1の演算手段の演算結果と上記合成
モデルとを照合することにより、音声認識を行うことを
特徴とする。
ると、第2の演算手段は音響モデルに乗法性歪を合成し
た演算結果を出力し、第3の演算手段は雑音モデルに乗
法性歪を合成した演算結果を出力する。これら第2,第
3の演算手段の演算結果を作成手段が合成することによ
り、音響モデルと雑音モデルと上記乗法性歪との情報を
有する合成モデルを作成する。
を含んだ発話音声に、第1の抽出手段の抽出した乗法性
歪を合成することにより、合成モデルの有する音響モデ
ルに相当する発話音声と、雑音モデルに相当する加法性
雑音と、乗法性歪に相当する乗法性歪との情報を有する
演算結果を出力する。
モデルは、共通した情報を有することになり、第1の演
算手段の演算結果と合成モデルとを照合することによ
り、加法性雑音と乗法性歪に対してロバストで、適切な
音声認識が実現される。
少なくとも乗法性歪を含んだ音声に基づいて作成された
音響モデルと雑音モデルを合成することで得られる合成
モデルと、乗法性歪と加法性雑音を含んだ発話音声とを
照合することで音声認識を行う音声認識システムであっ
て、上記発話音声に含まれる乗法性歪の特徴成分を抽出
する第1の抽出手段と、上記音響モデルに含まれる乗法
性歪の特徴成分を抽出する第2の抽出手段と、上記発話
音声と上記第1の抽出手段の抽出した上記乗法性歪の特
徴成分を合成する第1の演算手段と、上記雑音モデルと
上記第1の抽出手段の抽出した上記乗法性歪の特徴成分
と上記雑音モデルに上記第2の抽出手段の抽出した上記
乗法性歪の特徴成分とを合成する第2の演算手段と、上
記音響モデルと上記第2の演算手段の演算結果とを合成
することにより上記合成モデルを作成する作成手段と、
上記合成モデルと上記第2の抽出手段の抽出した上記乗
法性歪の特徴成分とを合成する第3の演算手段とを備
え、上記第1の演算手段の演算結果と上記第3の演算手
段の演算結果とを照合することにより、音声認識を行う
ことを特徴とする。
ると、第2の演算手段は雑音モデルに第1の抽出手段の
抽出した乗法性歪を合成し、且つ雑音モデルに第2の抽
出手段の抽出した乗法性歪を合成する。この第2の演算
手段による演算結果と音響モデルを作成手段が合成する
ことにより、音響モデルと雑音モデルと上記乗法性歪と
の情報を有する合成モデルを作成し、更に、第3の演算
手段が合成モデルから第2の抽出手段の抽出した乗法性
歪を合成して出力する。
を含んだ発話音声に、第1の抽出手段の抽出した乗法性
歪を合成することにより、合成モデルの有する音響モデ
ルに相当する発話音声と、雑音モデルに相当する加法性
雑音と、乗法性歪に相当する乗法性歪との情報を有する
演算結果を出力する。
の演算手段の演算結果は、共通した情報を有することに
なり、これらの演算結果を照合することで、加法性雑音
と乗法性歪に対してロバストで、適切な音声認識が実現
される。
少なくとも乗法性歪を含んだ音声に基づいて作成された
音響モデルと雑音モデルを合成することで得られる合成
モデルと、乗法性歪と加法性雑音を含んだ発話音声とを
照合することで音声認識を行う音声認識システムであっ
て、上記発話音声に含まれる乗法性歪の特徴成分を抽出
する第1の抽出手段と、上記音響モデルに含まれる乗法
性歪の特徴成分を抽出する第2の抽出手段と、上記発話
音声と上記第1の抽出手段の抽出した上記乗法性歪の特
徴成分と上記発話音声に上記第2の抽出手段の抽出した
上記乗法性歪の特徴成分とを合成する第1の演算手段
と、上記雑音モデルと上記第1の抽出手段の抽出した上
記乗法性歪の特徴成分と上記雑音モデルに上記第2の抽
出手段の抽出した上記乗法性歪の特徴成分とを合成する
第2の演算手段と、上記音響モデルと上記第2の演算手
段の演算結果とを合成することにより上記合成モデルを
作成する作成手段とを備え、上記第1の演算手段の演算
結果と上記合成モデルとを照合することにより、音声認
識を行うことを特徴とする。
ると、第2の演算手段は雑音モデルに第1の抽出手段の
抽出した乗法性歪を合成し、且つ雑音モデルに第2の抽
出手段の抽出した乗法性歪を合成する。この第2の演算
手段による演算結果と音響モデルを作成手段が合成する
ことにより、音響モデルと雑音モデルと上記乗法性歪と
の情報を有する合成モデルを作成する。
を含んだ発話音声に、第1の抽出手段の抽出した乗法性
歪を合成すると共に、第2の抽出手段の抽出した乗法性
歪を合成することで、合成モデルの有する音響モデルに
相当する発話音声と、雑音モデルに相当する加法性雑音
と、乗法性歪に相当する乗法性歪との情報を有する演算
結果を出力する。
モデルとが共通した情報を有することになり、第1の演
算手段の演算結果と合成モデルとを照合することで、加
法性雑音と乗法性歪に対してロバストで、適切な音声認
識が実現される。
を参照して説明する。尚、図1は本発明の音声認識シス
テムの第1の実施の形態の構成を示すブロック図、図2
は第2の実施の形態の構成を示すブロック図、図3は第
3の実施の形態の構成を示すブロック図である。
するに当たり、符号を説明する。音声認識システムが音
響モデル(音声HMM)を生成するために用いる音声デ
ータをRm、雑音モデル(雑音HMM)を生成するため
に用いる加法性雑音をNm、実際に発話された発話音声
のデータをRaとする。上記音声データRmは、雑音を含
まないクリーンな音声Smに乗法性歪Hmが重畳したもの
として表す。また、発話音声Raは、雑音を含まないク
リーンな発話音声Smに乗法性歪Haと加法性雑音Naが
重畳したものとして表す。
n)、対数スペクトル領域の情報には(log)、ケプスト
ラム領域の情報には(cep)を付加して示すこととす
る。例えば、音響モデル(音声HMM)を生成するため
に用いる音声データRmの線形スペクトルを、Rm(lin)
=Hm(lin)Sm(lin)のようにして示すこととする。
の実施形態の音声認識システムには、実験的に収集され
た多量の音声データRmを記憶する音声データベース1
と、実験的に収集された加法性雑音のデータNmを記憶
する雑音データベース2とが備えられている。
の発話した音声をマイクロフォンで集音し、所定のサン
プリング周波数でA/D変換する等の一般的な手法によ
って収集される。このため、音声データRmは、加法性
雑音を殆ど含まないが、マイクロフォンや電気伝送系等
による乗法性歪Hmを含む可能性のあるデータである。
に時非音声区間から収集した雑音に基づいて生成したデ
ータである。
作成された音声の音響モデル(音声HMM)5及び雑音
の音響モデル(雑音HMM)6が備えられている。
1中の音声データRmを10〜20msec程度のフレーム
単位に区分けして入力し、各フレーム単位のデータを順
次にケプストラム(Cepstrum)演算することにより、ケ
プストラムの時系列を求め、更にこのケプストラムの時
系列を音声の特徴量として学習処理することにより、単
語やサブワード単位の音声HMM5を作成している。
中の加法性雑音のデータNmを上記同様にフレーム単位
に区分けして入力し、各フレーム単位のデータを順次に
ケプストラム演算することによりケプストラムの時系列
を求め、更にこのケプストラムの時系列を加法性雑音の
特徴量として学習処理することにより、雑音HMM6を
作成している。
MM6に対して、平均演算部7、減算器8,9、コサイ
ン変換部10,11、指数変換部12,13、乗算器1
4、加算器15が図示するように所定の関係で接続さ
れ、更に、加算器15の出力には、対数変換部16と逆
コサイン変換部17、及び雑音付加音声の音響モデルで
ある合成HMM18が従属に接続され、合成HMM18
のケプストラム領域(cep)での分布R^m(cep)を認識部
22に供給するようになっている。
音声をマイクロフォン(図示省略)で集音し、所定のサ
ンプリング周波数でA/D変換する等の一般的な手法を
施すことにより、デジタルの発話音声データRaにして
信号処理部19に入力するようになっている。
イクロフォンや電気伝送系等による乗法性歪Haと、背
景雑音や室内雑音(例えば自動車の車室内で生じる雑
音)等の加法性雑音Naとを含んだデータである。
ータRaを10〜20msec程度のフレーム単位に区分け
して入力し、各フレーム単位のデータを順次にケプスト
ラム演算することにより、ケプストラムの時系列Ra(ce
p)を求めて出力する。
20と減算器21が設けられており、減算器21が出力
する観測値系列R^a(cep)を認識部22に供給するよう
になっている。
プストラム領域(cep)での分布Rm(cep)を所定時間平
均することで、分布Rm(cep)に含まれている乗法性歪H
m(cep)を求め、減算器8は、分布Rm(cep)から、平均演
算部7で求められた乗法性歪Hm(cep)を減算することに
より、乗法性歪を除去したクリーンな音声のケプストラ
ム領域(cep)での分布Sm(cep)を生成する。
p)をコサイン変換することで対数スペクトル領域(li
n)での分布Sm(log)に変換し、指数変換部12は、分
布Sm(log)を指数変換することで、線形スペクトル領域
(lin)での分布Sm(lin)を求める。
域(cep)での分布Nm(cep)から、平均演算部20で求
められた乗法性歪Ha(cep)を減算処理するようになって
いる。すなわち、平均演算部20は、実際に発話が行わ
れて信号処理部19から出力されるフレーム単位毎の発
話音声データRaのケプストラムRa(cep)を所定時間
(所定フレーム分)平均することで乗法性歪Ha(cep)を
求め、更にこの乗法性歪Ha(cep)を減算器9に供給する
ことで、上記の減算処理を行わせるようになっている。
算結果Nm(cep)−Ha(cep)をコサイン変換することで、
対数スペクトル領域(log)での減算結果Nm(log)−Ha
(log)を求め、更に指数変換部13は、減算結果Nm(lo
g)−Ha(log)を指数変換することで、線形スペクトル領
域(lin)での除算結果Nm(lin)/Ha(lin)を求める。
2の音声Rmの平均パワーと加法性雑音Nmの平均パワー
の比、及び発話音声RaのSN比で決まる所定値の係数
kを除算結果Nm(lin)/Ha(lin)に乗算して加算器15
に供給することで、加算器15では、乗算器14の出力
k・{Nm(lin)/Ha(lin)}と指数変換部12の出力Sm
(lin)との加算が行われ、この結果、線形スペクトル領
域での加算結果R^m(lin)が生成される。
表されるように、乗法性歪Hmの取り除かれた音声Smに
加法性雑音Nmと乗法性歪Haとを重畳させることによっ
て得られる雑音付加音声R^mの線形スペクトルとなる。 R^m(lin)=Sm(lin)+k・{Nm(lin)/Ha(lin)} …(5) 対数変換部16は、加算器15で生成された雑音付加音
声の線形スペクトルR^m(lin)を対数変換することで、
雑音付加音声の対数スペクトルR^m(log)を求め、更に
逆コサイン変換部17がこの対数スペクトルR^m(log)
を逆コサイン変換することによって雑音付加音声のケプ
ストラムR^m(cep)を求めることにより、雑音付加音声
の音響モデル(ケプストラム領域での音響モデル)であ
る合成HMM18を作成している。そして、合成HMM
18のケプストラム領域での分布R^m(cep)が単語やサ
ブワード単位で認識部22に供給される。
ら出力されるケプストラム領域(cep)での乗法性歪Ha
(cep)と、信号処理部19からフレーム単位で出力され
るケプストラム領域(cep)での発話音声Ra(cep)とを
入力し、次式(6)で表されるように、発話音声Ra(ce
p)から乗法性歪Ha(cep)を減算することによって、乗法
性歪が除去されたケプストラム領域(cep)での発話音
声R^a(cep)の時系列、すなわち観測値系列R^a(ce
p)を生成して認識部22に供給する。 R^a(cep)=Ra(cep)−Ha(cep) …(6) 認識部22は、観測値系列R^a(cep)と合成HMM1
8のケプストラム領域での分布R^m(cep)とを照合し、
最も尤度の高いHMMを音声認識結果として出力する。
システムは、減算器9を備えて、雑音HMM6のケプス
トラム領域(cep)での分布Nm(cep)から、発話音声
Raのケプストラム領域(cep)での平均値(すなわち、
乗法性歪)Ha(cep)を減算するようにしたので、上記
式(5)の右辺第2項に示されるように、上記雑音付加
音声の線形スペクトルR^m(lin)には、加法性雑音Nm(l
in)を乗法性歪Ha(lin)で割算した成分が含まれること
になり、更に、この成分を含んだ合成HMM18がモデ
ル化されることになる。
線形スペクトル領域(lin)で表記すると、Ra(lin)=
Ha(lin){Sa(lin)+Na(lin)/Ha(lin)}=Ha(lin)
R^a(lin)であるから、上記式(6)で表される観測値
系列R^a(cep)は、線形スペクトル領域では、R^a(lin)
=Sa(lin)+Na(lin)/Ha(lin)となり、上記雑音付加
音声の線形スペクトルR^m(lin)と同様に、加法性雑音
Na(lin)を乗法性歪Ha(lin)で割算した成分が含まれる
ことになるから、合成HMM18は発話音声を音声認識
するための照合対象として適切にモデル化されている。
ムによれば、音声認識に用いるための合成HMM18を
適切にモデル化することができると共に、加法性雑音と
乗法性歪に対処した構成としているため、加法性雑音と
乗法性歪に対してロバストで音声認識率の向上を図るこ
とができる。
態の音声認識システムを図2に基づいて説明する。尚、
図2中、図1と同一又は相当する部分を同一符号で示し
ている。
を述べると、本実施形態の音声認識システムでは、平均
演算部7が音声HMM5のケプストラム領域(cep)で
の分布Rm(cep)を所定時間平均して乗法性歪のケプスト
ラムHm(cep)を求めると、このケプストラムHm(cep)を
加減算器200に供給するようになっている。また、コ
サイン変換部10には、音声HMM5のケプストラム領
域(cep)での分布Rm(cep)がそのまま供給され、指数
変換器12の出力が線形スペクトル音声HMM100を
介して加算器15に供給されている。
プストラムHm(cep)の他、雑音HMM6のケプストラム
領域(cep)での分布Nm(cep)と、平均演算部20から
の乗法性歪のケプストラムHa(cep)が供給され、次式
(7)で表されるように、加減算結果σ(cep)が求めら
れる。 σ(cep)=Hm(cep)+Nm(cep)−Ha(cep) …(7) また、減算器300が備えられ、合成HMM18のケプ
ストラム領域(cep)での分布Hm(cep)+R^m(cep)から
平均演算部7の乗法性歪のケプストラムHm(cep)を減算
して認識部22に供給するようになっている。
は、音声HMM5のケプストラム領域(cep)での分布
Rm(cep)をコサイン変換部10がコサイン変換して指数
変換部12が指数変換することにより、線形スペクトル
領域での分布Rm(lin)=Hm(lin)Sm(lin)を求め、音声
HMM100が求まる。
領域での分布Rm(lin)=Hm(lin)Sm(lin)が加算器15
に供給される。
ム領域(cep)の加減算結果σ(cep)は、コサイン変換部
11でコサイン変換されて指数変換部13で指数変換さ
れることにより、線形スペクトル領域(lin)での加減
算結果Hm(lin)Nm(lin)/Ha(lin)に変換され、更に乗
算器14で所定係数kが乗算されることにより、k・
{Hm(lin)Nm(lin)/Ha(lin)}となって加算器15に
供給される。
表されるように、音声Rmに乗法性歪Hm,Haと加法性
雑音Nmとを重畳させることによって得られる雑音付加
音声の線形スペクトルHm(lin)R^m(lin)となる。 Hm(lin)R^m(lin) =Hm(lin)Sm(lin)+k・{Hm(lin)Nm(lin)/Ha(lin)} =Hm(lin){Sm(lin)+k・Nm(lin)/Ha(lin)} …(8) この雑音付加音声の線形スペクトルHm(lin)R^m(lin)
を対数変換部16が対数変換し更に逆コサイン変換部1
8が逆コサイン変換することで、雑音付加音声のケプス
トラムHm(cep)+R^m(cep)を求め、雑音付加音声の音
響モデル(ケプストラム領域での音響モデル)である合
成HMM18が作成されている。
のケプストラム領域での分布Hm(cep)+R^m(cep)か
ら、平均演算部7の求めた乗法性歪のケプストラムHm
(cep)を減算することで、乗法性歪Hmの除かれた雑音付
加音声のケプストラムR^m(cep)を認識部22に供給し
ている。このように、本実施形態の音声認識システムに
よれば、認識部22では、雑音付加音声のケプストラム
R^m(cep)と発話音声のケプストラムR^a(cep)とが照合
されるようになっている。
(cep)は、上記式(8)に示した線形スペクトルk・Nm
(lin)/Ha(lin)に相当する成分が含まれ、発話音声の
ケプストラムR^a(cep)にも線形スペクトルNa(lin)/
Ha(lin)に相当する成分が含まれることから、合成HM
M18は発話音声を音声認識するための照合対象として
適切にモデル化されている。
ムによれば、音声認識に用いるための合成HMM18を
適切にモデル化することができると共に、加法性雑音と
乗法性歪に対して対処した構成としているため、加法性
雑音と乗法性歪に対してロバストで音声認識率の向上を
図ることができる。
態の音声認識システムを図3に基づいて説明する。尚、
図3中、図2と同一又は相当する部分を同一符号で示し
ている。
の実施形態との相違点を述べると、第2の実施形態の音
声認識システムでは、平均演算部7が求めた乗法性歪の
ケプストラムHm(cep)を減算器300に供給し、その減
算器300が合成HMM18のケプストラム領域(ce
p)での分布Hm(cep)+R^m(cep)から乗法性歪のケプス
トラムHm(cep)を減算して認識部22に供給している。
更に、減算器21が求めた発話音声のケプストラムR^a
(cep)を認識部22に供給し、認識部22が発話音声の
ケプストラムR^a(cep)と減算器300からのケプスト
ラムR^m(cep)とを照合して、音声認識を行う構成とな
っている。
では、図3に示すように、減算器21と認識部22との
間に加算器400が設けられ、平均演算部7の求めた乗
法性歪のケプストラムHm(cep)と減算器21からの発話
音声のケプストラムR^a(cep)とを加算することで得ら
れるケプストラム領域(cep)での加算結果Hm(cep)+
R^a(cep)を認識部22に供給するようになっている。
更に、図2に示した減算器300は本音声認識システム
には設けられておらず、合成HMM18のケプストラム
領域(cep)での分布Hm(cep)+R^m(cep)を認識部22
に供給し、認識部22が上記の加算結果Hm(cep)+R^a
(cep)と分布Hm(cep)+R^m(cep)とを照合することによ
って、音声認識を行う構成となっている。
(lin)は、上記式(1)に示したように、Ra(lin)=Ha
(lin)Sa(lin)+Na(lin)=Ha(lin){Sa(lin)+Na(l
in)/Ha(lin)}=Ha(lin)R^a(lin) で表されること
から、減算器21は線形スペクトル{Sa(lin)+Na(li
n)/Ha(lin)}に対応したケプストラムR^a(cep)を出
力し、更に加算器400は、線形スペクトルHm(lin)
{Sa(lin)+Na(lin)/Ha(lin)}に対応するケプスト
ラムHm(cep)+R^a(cep)を生成して認識部22に供給
する。
は、上記式(8)に示したように、雑音付加音声の線形
スペクトルHm(lin)R^m(lin)=Hm(lin)Sm(lin)+k・
{Hm(lin)Nm(lin)/Ha(lin)}=Hm(lin){Sm(lin)
+k・Nm(lin)/Ha(lin)}に対応したケプストラムHm
(cep)+R^m(cep)が供給される。
によれば、線形スペクトル{k・Na(lin)/Ha(lin)}
で表される成分を含んだケプストラムHm(cep)+R^a(c
ep)と、線形スペクトル{k・Nm(lin)/Ha(lin)}で表
される成分を含んだケプストラムHm(cep)+R^m(cep)
とを認識部22が照合することから、音声認識率の向上
を図ることができ、更に加法性雑音と乗法性歪に対して
ロバストな音声認識システムを実現することができる。
は、音声と雑音との加算や、音声から雑音を減算する等
の演算処理を、スペクトル領域又はケプルトラム領域に
おいて行うこととしているが、これらの加算と減算の演
算処理は、音声と雑音等をスペクトル領域又はケプスト
ラム領域にて合成することを意味している。例えば、図
3中の加算器400が発話音声のケプストラムR^a(ce
p)と平均演算部7からの乗法性歪のケプストラムHm(ce
p)とを加算することで、それらの加算結果Hm(cep)+R
^a(cep)を求めているが、かかるケプストラム領域での
加算は、R^a(cep)とHm(cep)とを合成することを意味
している。また、図3中の減算器21が発話音声のケプ
ストラムRa(cep)から平均演算部20の生成した乗法性
歪のケプストラムHa(cep)を減算することで、それらの
減算結果R^a(cep)=Ra(cep)−Hm(cep)を求めている
が、かかるケプストラム領域での減算は、Ra(cep)とH
a(cep)とを合成することを意味している。
ステムによれば、音響モデルと雑音モデルとを合成する
ことによって作成する合成モデルを、発話音声に含まれ
ている乗法性歪と加法性雑音の情報に合わせて作成し、
その合成モデルに基づいて発話音声との照合を行うよう
にしたので、整合のとれた照合が可能となって、乗法性
歪と加法性雑音に対してロバストな音声認識が可能とな
る。
すブロック図である。
すブロック図である。
すブロック図である。
図である。
ムの構成を示すブロック図である。
構成を示すブロック図である。
ムの構成を示すブロック図である。
認識システムの構成を示すブロック図である。
Claims (3)
- 【請求項1】 少なくとも乗法性歪を含んだ音声に基づ
いて作成された音響モデルと雑音モデルを合成すること
で得られる合成モデルと、乗法性歪と加法性雑音を含ん
だ発話音声とを照合することで音声認識を行う音声認識
システムであって、 前記発話音声に含まれる乗法性歪の特徴成分を抽出する
第1の抽出手段と、 前記音響モデルに含まれる乗法性歪の特徴成分を抽出す
る第2の抽出手段と、 前記発話音声と前記第1の抽出手段の抽出した前記乗法
性歪の特徴成分とを合成する第1の演算手段と、 前記音響モデルと前記第2の抽出手段の抽出した前記乗
法性歪の特徴成分とを合成する第2の演算手段と、 前記雑音モデルと前記第1の抽出手段の抽出した前記乗
法性歪の特徴成分とを合成する第3の演算手段と、 前記第2の演算手段の演算結果と前記第3の演算手段の
演算結果とを合成することにより前記合成モデルを作成
する作成手段とを備え、 前記第1の演算手段の演算結果と前記合成モデルとを照
合することにより、音声認識を行うことを特徴とする音
声認識システム。 - 【請求項2】 少なくとも乗法性歪を含んだ音声に基づ
いて作成された音響モデルと雑音モデルを合成すること
で得られる合成モデルと、乗法性歪と加法性雑音を含ん
だ発話音声とを照合することで音声認識を行う音声認識
システムであって、 前記発話音声に含まれる乗法性歪の特徴成分を抽出する
第1の抽出手段と、 前記音響モデルに含まれる乗法性歪の特徴成分を抽出す
る第2の抽出手段と、 前記発話音声と前記第1の抽出手段の抽出した前記乗法
性歪の特徴成分を合成する第1の演算手段と、 前記雑音モデルと、前記第1の抽出手段の抽出した前記
乗法性歪の特徴成分と、前記雑音モデルに前記第2の抽
出手段の抽出した前記乗法性歪の特徴成分とを合成する
第2の演算手段と、 前記音響モデルと前記第2の演算手段の演算結果とを合
成することにより前記合成モデルを作成する作成手段
と、 前記合成モデルと前記第2の抽出手段の抽出した前記乗
法性歪の特徴成分とを合成する第3の演算手段とを備
え、 前記第1の演算手段の演算結果と前記第3の演算手段の
演算結果とを照合することにより、音声認識を行うこと
を特徴とする音声認識システム。 - 【請求項3】 少なくとも乗法性歪を含んだ音声に基づ
いて作成された音響モデルと雑音モデルを合成すること
で得られる合成モデルと、乗法性歪と加法性雑音を含ん
だ発話音声とを照合することで音声認識を行う音声認識
システムであって、 前記発話音声に含まれる乗法性歪の特徴成分を抽出する
第1の抽出手段と、 前記音響モデルに含まれる乗法性歪の特徴成分を抽出す
る第2の抽出手段と、 前記発話音声と、前記第1の抽出手段の抽出した前記乗
法性歪の特徴成分と、 前記発話音声に前記第2の抽出手段の抽出した前記乗法
性歪の特徴成分とを合成する第1の演算手段と、 前記雑音モデルと、前記第1の抽出手段の抽出した前記
乗法性歪の特徴成分と、前記雑音モデルに前記第2の抽
出手段の抽出した前記乗法性歪の特徴成分とを合成する
第2の演算手段と、 前記音響モデルと前記第2の演算手段の演算結果とを合
成することにより前記合成モデルを作成する作成手段と
を備え、 前記第1の演算手段の演算結果と前記合成モデルとを照
合することにより、音声認識を行うことを特徴とする音
声認識システム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000282348A JP2002091478A (ja) | 2000-09-18 | 2000-09-18 | 音声認識システム |
EP01307875A EP1189204B1 (en) | 2000-09-18 | 2001-09-17 | HMM-based noisy speech recognition |
DE60124192T DE60124192T2 (de) | 2000-09-18 | 2001-09-17 | HMM-basierte Erkennung von verrauschter Sprache |
US09/954,151 US6937981B2 (en) | 2000-09-18 | 2001-09-18 | Voice recognition system |
CN01135734.7A CN1249666C (zh) | 2000-09-18 | 2001-09-18 | 语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000282348A JP2002091478A (ja) | 2000-09-18 | 2000-09-18 | 音声認識システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002091478A true JP2002091478A (ja) | 2002-03-27 |
Family
ID=18766886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000282348A Pending JP2002091478A (ja) | 2000-09-18 | 2000-09-18 | 音声認識システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US6937981B2 (ja) |
EP (1) | EP1189204B1 (ja) |
JP (1) | JP2002091478A (ja) |
CN (1) | CN1249666C (ja) |
DE (1) | DE60124192T2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004325897A (ja) * | 2003-04-25 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
KR100464420B1 (ko) * | 2002-06-28 | 2005-01-03 | 삼성전자주식회사 | 은닉 마코프 모델 탐색을 위한 관측 확률 연산 장치 |
WO2006030551A1 (ja) * | 2004-09-15 | 2006-03-23 | The University Of Tokyo | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
JP2007156364A (ja) * | 2005-12-08 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 |
JP2013120379A (ja) * | 2011-12-09 | 2013-06-17 | Nippon Telegr & Teleph Corp <Ntt> | スペクトル歪みパラメータ推定値補正装置とその方法とプログラム |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100915387B1 (ko) * | 2006-06-22 | 2009-09-03 | 삼성전자주식회사 | 병렬 인터페이스의 데이터 신호와 클럭 신호 간의 스큐를보상하는 방법 및 장치 |
US7885812B2 (en) * | 2006-11-15 | 2011-02-08 | Microsoft Corporation | Joint training of feature extraction and acoustic model parameters for speech recognition |
US8306817B2 (en) * | 2008-01-08 | 2012-11-06 | Microsoft Corporation | Speech recognition with non-linear noise reduction on Mel-frequency cepstra |
WO2014189486A1 (en) | 2013-05-20 | 2014-11-27 | Intel Corporation | Natural human-computer interaction for virtual personal assistant systems |
CN103280215B (zh) * | 2013-05-28 | 2016-03-23 | 北京百度网讯科技有限公司 | 一种音频特征库建立方法及装置 |
CN103714818B (zh) * | 2013-12-12 | 2016-06-22 | 清华大学 | 基于噪声屏蔽核的说话人识别方法 |
EP2980801A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
CN105355199B (zh) * | 2015-10-20 | 2019-03-12 | 河海大学 | 一种基于gmm噪声估计的模型组合语音识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
JPH10161692A (ja) * | 1996-12-03 | 1998-06-19 | Canon Inc | 音声認識装置及び音声認識方法 |
-
2000
- 2000-09-18 JP JP2000282348A patent/JP2002091478A/ja active Pending
-
2001
- 2001-09-17 DE DE60124192T patent/DE60124192T2/de not_active Expired - Lifetime
- 2001-09-17 EP EP01307875A patent/EP1189204B1/en not_active Expired - Lifetime
- 2001-09-18 US US09/954,151 patent/US6937981B2/en not_active Expired - Fee Related
- 2001-09-18 CN CN01135734.7A patent/CN1249666C/zh not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100464420B1 (ko) * | 2002-06-28 | 2005-01-03 | 삼성전자주식회사 | 은닉 마코프 모델 탐색을 위한 관측 확률 연산 장치 |
JP2004325897A (ja) * | 2003-04-25 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
WO2006030551A1 (ja) * | 2004-09-15 | 2006-03-23 | The University Of Tokyo | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
JP2007156364A (ja) * | 2005-12-08 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 |
JP4728791B2 (ja) * | 2005-12-08 | 2011-07-20 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 |
JP2013120379A (ja) * | 2011-12-09 | 2013-06-17 | Nippon Telegr & Teleph Corp <Ntt> | スペクトル歪みパラメータ推定値補正装置とその方法とプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20020035472A1 (en) | 2002-03-21 |
EP1189204A3 (en) | 2002-08-28 |
EP1189204A2 (en) | 2002-03-20 |
CN1343968A (zh) | 2002-04-10 |
DE60124192T2 (de) | 2007-08-30 |
EP1189204B1 (en) | 2006-11-02 |
CN1249666C (zh) | 2006-04-05 |
DE60124192D1 (de) | 2006-12-14 |
US6937981B2 (en) | 2005-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5230103B2 (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
CN106971741B (zh) | 实时将语音进行分离的语音降噪的方法及系统 | |
EP0831461B1 (en) | Scheme for model adaptation in pattern recognition based on taylor expansion | |
US7890321B2 (en) | Noise reduction device, program and method | |
JP4169921B2 (ja) | 音声認識システム | |
JP4297602B2 (ja) | 音声認識システム | |
JP5089295B2 (ja) | 音声処理システム、方法及びプログラム | |
JP3584458B2 (ja) | パターン認識装置およびパターン認識方法 | |
JP2002091478A (ja) | 音声認識システム | |
JP2004325897A (ja) | 音声認識装置及び音声認識方法 | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
Saleem et al. | Spectral phase estimation based on deep neural networks for single channel speech enhancement | |
JP2836271B2 (ja) | 雑音除去装置 | |
JP3587966B2 (ja) | 音声認識方法、装置そよびその記憶媒体 | |
JP3102195B2 (ja) | 音声認識装置 | |
JP3250604B2 (ja) | 音声認識方法および装置 | |
JPH07121197A (ja) | 学習式音声認識方法 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
KR20130125014A (ko) | 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 | |
JP2003177781A (ja) | 音響モデル生成装置及び音声認識装置 | |
JPH06214592A (ja) | 耐雑音音韻モデルの作成方式 | |
JP2000075888A (ja) | ヒドン・マルコフ・モデルの学習方法及び音声認識システム | |
JPH11327593A (ja) | 音声認識システム | |
Techini et al. | Robust Front-End Based on MVA and HEQ Post-processing for Arabic Speech Recognition Using Hidden Markov Model Toolkit (HTK) | |
JPH11154000A (ja) | 雑音抑圧装置及び該装置を用いた音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080513 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080729 |