JP2002091485A - 音声認識システム - Google Patents

音声認識システム

Info

Publication number
JP2002091485A
JP2002091485A JP2000282349A JP2000282349A JP2002091485A JP 2002091485 A JP2002091485 A JP 2002091485A JP 2000282349 A JP2000282349 A JP 2000282349A JP 2000282349 A JP2000282349 A JP 2000282349A JP 2002091485 A JP2002091485 A JP 2002091485A
Authority
JP
Japan
Prior art keywords
noise
speech
cep
hmm
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000282349A
Other languages
English (en)
Other versions
JP4297602B2 (ja
Inventor
Hiroshi Seo
尋 瀬尾
Teruya Komamura
光弥 駒村
Soichi Toyama
聡一 外山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP2000282349A priority Critical patent/JP4297602B2/ja
Priority to EP01307890A priority patent/EP1189205A3/en
Priority to US09/953,905 priority patent/US7016837B2/en
Priority to CNB011406151A priority patent/CN1159703C/zh
Publication of JP2002091485A publication Critical patent/JP2002091485A/ja
Application granted granted Critical
Publication of JP4297602B2 publication Critical patent/JP4297602B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 乗法性歪と加法性雑音に対してロバストな音
声認識システムを提供する。 【解決手段】 乗法性歪を有する音声HMM10と加法
性雑音の初期雑音HMM17から、初期合成HMM16
を生成すると共に、ヤコビアン行列算出部19によりヤ
コビアン行列〔J〕ijを算出しておく。実際に発話され
た発話音声から求めた乗法性歪の推定値Ha^(cep)と、
非発話期間に得られる加法性雑音Na(cep)と、初期雑音
HMM17の加法性雑音Nm(cep)とを合成した雑音変動
分Namh(cep)にヤコビアン行列を乗算し、その乗算結果
と初期合成HMM16を合成して、適応HMM26を生
成する。こうすることにより、実際の発話音声から生成
される観測値系列RNa(cep)と整合性のとれた適応HM
M26を予め生成しておくことができ、観測値系列RN
a(cep)と適応HMM26とを照合して音声認識を行う際
に、乗法性歪と加法性歪の影響を相殺して、クリーンな
音声だけで音声認識を行ったのと等価な効果が得られ、
ロバストな音声認識システムが実現される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、雑音や、伝送系等
の歪みに対してロバスト(頑健)な音声認識システムに
関する。
【0002】
【従来の技術】従来、例えば車載用ナビゲーション装置
等の電子機器では、マンマシンコニュニケーション等を
可能にする音声認識システムが注目され、図3に示すよ
うな情報処理アルゴリズムに基づいて構成された音声認
識システムが知られている。
【0003】この音声認識システムは、隠れマルコフモ
デル(Hidden Markov Model:HMM)を用いて単語や
サブワード(音素、音節など)単位の音響モデル(音声
HMM)を予め生成しておき、認識すべき音声Raが発
話されると、その発話音声Raのケプストラムの時系列
である観測値系列Ra(cep)を生成して、観測値系列Ra
(cep)と音声HMMとを照合し、最大尤度を与える音声
HMMを選んでこれを認識結果として出力する。
【0004】より具体的に述べると、この音声認識シス
テムには、HMM法によって上記の音声HMMを生成す
る音声HMM生成部5が備えられ、この音声HMM生成
部5は、音声データベース1とフレーム化部2とケプス
トラム演算部3及び学習部4を備えて構成されている。
【0005】音声データベース1に実験的に収集して記
憶しておいた被験者の大量の音声データRmをフレーム
化部2が10〜20msec程度のフレーム単位に区分け
し、各フレーム単位のデータをケプストラム演算部3が
順次にケプストラム(Cepstrum)演算することにより、
ケプストラムの時系列Rm(cep)を求める。
【0006】更に、学習部4がこのケプストラムの時系
列Rm(cep)を音声の特徴量(特徴ベクトルとする)として
学習処理し、音響モデル(音声HMM)のパラメータに
反映させることで、単語やサブワード単位の音声HMM
6を予め生成している。
【0007】実際に発話が行われると、その発話音声の
データRaをフレーム化部7がフレーム化部2と同様の
フレーム単位で区分けして入力し、各フレーム単位の発
話音声データをケプストラム演算部8が順次にケプスト
ラム演算することによってケプストラムの時系列である
観測値系列Ra(cep)を生成する。
【0008】そして、照合部9が観測値系列Ra(cep)と
音声HMM6とを単語やサブワード単位で照合し、観測
値系列Ra(cep)と最も尤度の高い音声HMMを音声認識
結果として出力する。
【0009】ところが、図3の音声認識システムでは、
音声HMM6を生成するための音声データRmを収集す
る際、マイクロフォンや電気伝送系等における乗法性歪
の影響を受けた音声データRmが収集されてしまい、精
度の良い音声HMM6を生成することが困難になるとい
う問題があった。
【0010】更に、認識すべき発話音声Raが発話され
た際、室内雑音や背景雑音等の加法性雑音と、口元から
マイクロフォンまでの空間的伝達特性、マイクロフォン
や電気伝送系等における乗法性歪などが観測値系列Ra
(cep)に悪影響を及ぼすことになり、音声認識率の低下
を招来するという問題があった。
【0011】こうした問題のため、加法性雑音と乗法性
歪の影響を受け難い音声認識システム、すなわちロバス
ト(robust)な音声認識システムの構築が重要な課題と
なっていた。
【0012】本願発明者は、上記のような課題に対処す
べく、加法性雑音に対してはHMM合成法、乗法性歪に
対してはケプストラム平均正規化法(Cepstrum Mean No
rmalization:CMN)を適用することにより、ロバス
トな音声認識システムの実現を試みた。
【0013】図4は、その音声認識システムの構成を示
すブロック図である。この音声認識システムは、音声H
MM10と初期雑音HMM17と初期合成HMM16及
び適応HMM26を備え、認識すべき音声が発話される
と、その発話音声から求めたケプストラム時系列である
観測値系列RNa(cep)と適応HMM26とを単語やサ
ブワード単位で照合部29が照合し、観測値系列RNa
(cep)と最も尤度の高い適応HMMを音声認識結果と
して出力する。
【0014】更に、HMM合成法を適用すると演算量が
多くなることから、その演算量を削減して処理の高速化
を実現するために、テイラー展開に基づくモデル適応法
が用いられている。すなわち、ヤコビアン行列Jと呼ば
れるテイラー展開の一次微係数行列を算出するヤコビア
ン行列算出部19を設けることによって、演算量の削減
を行うこととしている。
【0015】上記の音声HMM10は、実験的に収集し
た加法性雑音を含まない発話音声Rmを用いてHMM法
により予め生成される音響モデルである。すなわち、音
声HMM10は、図3に示した音声HMM生成部5と同
様なHMM法の処理によって予め生成されている。
【0016】尚、無響室内などで被験者の発話音声Rm
を実験的に収集することにより、加法性雑音の影響の無
い音声HMM10を生成しているが、マイクロフォンや
電気伝送系等における乗法性歪の影響は除去されないた
め、音声HMM10は乗法性歪の影響が残された音響モ
デルとなっている。
【0017】したがって、実験的に収集した発話音声R
mを、クリーンな音声(加法性雑音及び乗法性歪を有さ
ない音声)Smと乗法性歪Hmとからなるものとして、線
形スペクトル領域(lin)で表記すれば、クリーンな音
声Smと乗法性歪Hmとの線形スペクトルの積Rm(lin)=
Sm(lin)Hm(lin)で表され、また、ケプストラム領域
(cep)で表記すれば、クリーンな音声Smと乗法性歪H
mとのケプストラムの和Rm(cep)=Sm (cep)+Hm(cep)
で表される。
【0018】更に、音声HMM10を線形スペクトル領
域(lin)で表せば、Rm(lin)=Sm(lin)Hm(lin)で表
され、また、ケプストラムル領域(cep)で表せば、Rm
(cep)=Sm (cep)+Hm(cep)で表される。
【0019】上記の初期雑音HMM17は、非音声区間
の音(加法性雑音に相当する)を初期雑音データNmと
して収集し、その初期雑音データNmを用いて学習され
る音響モデルであり、図3に示した音声HMM生成部5
と同様な処理によって予め生成されている。したがっ
て、初期雑音HMM17を線形スペクトル領域(lin)
で表せばNm(lin)となり、また、ケプストラム領域(ce
p)で表せば、Nm(cep)となっている。
【0020】初期合成HMM16は、次の処理によって
生成されている。音声HMM10から平均演算部11と
減算器12へ、ケプストラム領域(cep)での音声(音
響モデル)Rm(cep)=Sm(cep)+Hm(cep)を供給し、平
均演算部11がCMN法によって、音響モデル学習用の
音声データベース内の特徴ベクトルを平均することや音
声HMMの平均ベクトルの平均をとること等によって乗
法性歪の推定値Hm^(cep)を求めて、減算器12へ供給
するようになっている。これにより、減算器12では、
Rm(cep)−Hm^(cep)の演算が行われ、乗法性歪の推定
値Hm^(cep)が除かれた音声Sm'(cep)を出力する。
【0021】ここで、推定値Hm^(cep)と乗法性歪Hm(c
ep)とがほぼ等しいと近似することで、乗法性歪の無い
音声Sm'(cep)が得られたとしている。
【0022】次に、逆ケプストラム変換部13がケプス
トラム領域の音声Sm'(cep)を線形スペクトル領域の音
声Sm'(lin)に変換して加算器14に供給すると共に、
逆ケプストラム変換部18が初期雑音HMM17から出
力されるケプストラム領域の初期雑音(初期雑音の音響
モデル)Nm(cep)を線形スペクトル領域の初期雑音Nm
(lin)に変換して加算器14に供給する。これにより、
加算器14は、線形スペクトル領域の音声Sm'(lin)と
合成雑音Nm(lin)とを加算することにより、加法性雑音
付加音声Rm'(lin)=Sm'(lin)+Nm(lin)を生成し、ケ
プストラム変換部15に供給する。
【0023】そして、ケプストラム変換部15が加法性
雑音付加音声Rm'(lin)をケプストラム領域の加法性雑
音付加音声Rm'(cep)に変換し、初期合成HMM16を
生成することとしている。
【0024】従って、初期合成HMM16は、加法性雑
音付加音声Rm'(cep)によって特徴付けられた音響モデ
ルとなっており、次式(1)のように表される。
【0025】
【数1】 尚、上記式(1)中の、cep〔 〕は、ケプストラム
変換部15で行われるケプストラム変換、cep
-1〔 〕は、逆ケプストラム変換部13,18で行われ
る逆ケプストラム変換を表している。
【0026】次に、ヤコビアン行列算出部19の機能を
説明する。上記したように、演算量を削減するために、
ヤコビアン行列算出部19が設けられており、実使用環
境における加法性雑音Na(cep)と初期雑音HMM17か
らの初期雑音のスペクトルNm(cep)との間の変動ΔNm
(cep)=Na(cep)−Nm(cep)は小さいと仮定し、テイラ
ー展開を用いてその雑音スペクトルの変動分ΔNm(cep)
に対応する合成モデルの変動分を求め、求めた変動分に
応じて初期合成モデル16を補償し、その補償によって
求めた音響モデルを適応HMM26としている。
【0027】より詳細に述べれば、仮に、乗法性歪及び
加法性雑音を含まないクリーンな音声Smの線形スペク
トルをSm(lin)、乗法性歪は重畳しないが加法性雑音の
重畳した音声Rmの線形スペクトルをRm(lin)、加法性
雑音Nmの線形スペクトルをNm(lin)とすると、線形ス
ペクトルRm(lin)は、
【数2】 となる。更に、加法性雑音の重畳した音声Rmをケプス
トラム領域で表すと、
【数3】 となる。ここで、IDCT〔 〕は、離散逆コサイン変
換、DCT〔 〕は、離散コサイン変換、log( )
は、対数変換、exp( )は、指数変換である。
【0028】上記式(3)において、仮にクリーンな音
声Smは変動せず、加法性雑音NmがNaに変動した場合
の音声Rmcを考えることとし、その音声RmcとRmとの
ケプストラム領域での変動ΔRm(cep)と、変動後の音声
のケプストラムRmc(cep)をテイラー展開の一次微分項
のみで見ると、次式(4),(5)の関係が得られる。
【数4】
【数5】
【0029】そこで、ヤコビアン行列算出部19は、テ
イラー展開の一次微係数J=∂Rm(cep)/∂Nm(cep)
に、加算器14からの線形スペクトル領域の加法性雑音
付加音声Rm'(lin)と逆ケプストラム変換部18からの
線形スペクトル領域の初期雑音Nm(lin)とをそれぞれケ
プストラム領域に変換して適用することにより、次式
(6)で表されるi行j列のヤコビアン行列〔J〕ij
予め算出しておき、実際の発話環境で生じる加法性雑音
のモデルに基づいて初期合成HMM16を適応的に補償
して適応HMM26を生成する際に、加法性雑音の変動
分にヤコビアン行列〔J〕ijを乗算するだけで、合成モ
デルの変動分が求まり、この合成モデルの変動分を初期
合成モデルに加えることで適応モデルを簡単に生成する
ことができるようにしている。
【0030】
【数6】 尚、上記式(6)中のFikは、コサイン変換行列、F
kj-1 は、逆コサイン変換行列である。
【0031】次に、適応HMM26の生成工程を説明す
る。この音声認識システムに設けられている発話開始ス
イッチ(図示省略)をユーザーがオン操作すると、マイ
クロフォン(図示省略)によって発話音声を収集すると
共に、フレーム化部20が収集した発話音声のデータR
aを所定時間毎にフレーム化し、更にケプストラム演算
部21がケプストラム領域(cep)の発話音声データRa
(cep)にして、音声認識の処理を行うようになってい
る。
【0032】まず、ユーザーが上記の発話開始スイッチ
をオン操作すると、実際に発話が開始されるまでの非発
話期間内に、スイッチ素子22が接点a側に切り替わる
ようになっている。従って、ユーザーが発話しようとす
る環境内の背景雑音等(加法性雑音)Naのケプストラ
ムNa(cep)がスイッチ素子22を介して減算器23に供
給される。
【0033】減算器23は、背景雑音Naのケプストラ
ムNa(cep)から初期雑音HmのケプストラムNm(cep)を
減算し、その減算結果Na(cep)−Nm(cep)を掛け算器2
4に供給し、掛け算器24は、上記の減算結果Na(cep)
−Nm(cep)にヤコビアン行列〔J〕ijを乗算し、その乗
算結果J〔Na(cep)−Nm(cep)〕を加算器25に供給
し、加算器25は、乗算結果J〔Na(cep)−Nm(cep)〕
と初期合成HMM16の音響モデルRm^(cep)を単語や
サブワード単位で加算する。これにより、実際の発話環
境における背景雑音Naによって適応的に補償された適
応HMM26が生成される。つまり、適応HMM26を
ケプストラム領域(cep)で表すと、
【数7】 となる。尚、式(7)中のcep〔 〕はケプストラム
変換を表している。
【0034】こうして、適応HMM26の生成が行われ
ると、スイッチ素子22が接点b側に切り替わり、認識
すべき発話音声Raをケプストラム領域の発話音声Ra(c
ep)として入力する。ここで、発話音声Raはクリーンな
音声Saと乗法性歪Haと加法性雑音Naの各線形スペク
トルSa(lin)とHa(lin)とNa(lin)の成分を含んでいる
ものとすると、ケプストラム領域の発話音声Ra(cep)
は、Ra(cep)=cep〔Sa(lin)Ha(lin)+Na(lin)〕
で表される。
【0035】そこで、平均演算部27がCMN法によっ
て乗法性歪Ha(cep)の推定値Ha^(cep)を求め、減算器
28が発話音声Ra(cep)から推定値Ha^(cep)を減算
し、その減算結果Ra(cep)−Ha^(cep)を観測値系列R
Na(cep)として照合部29に供給している。
【0036】そして、照合部29が、観測値系列RNa
(cep)と適応HMM26とを単語やサブワード単位で照
合し、観測値系列RNa(cep)と最も尤度の高い適応HM
Mを認識結果として出力する。すなわち、観測値系列R
Na(cep)は、
【数8】 となり、この式(8)で表される観測値系列RNa(cep)
と上記式(7)で表される適応HMM26の特徴ベクト
ルRadp(cep)とを照合することで、音声認識を行ってい
る。
【0037】
【発明が解決しようとする課題】ところで、図4に示し
た本願発明者が提案した音声認識システムでは、適応H
MM26と発話音声の観測値系列RNa(cep)とを照合す
ることで音声認識を行うことにしているが、適応HMM
26が観測値系列RNa(cep)に対して適切な照合対象と
して未だ十分にモデル化されていないという問題があっ
た。
【0038】すなわち、上記式(7)と(8)を対比す
ると、適応HMM26は、クリーンな音声の線形スペク
トルSm(lin)に加法性雑音の線形スペクトルNa(lin)を
加算し、それをケプストラム変換することで特徴付けら
れているのに対し、観測値系列RNa(cep)は、クリーン
な音声の線形スペクトルSa(lin)に、加法性雑音の線形
スペクトルNa(lin)と乗法性歪の線形スペクトルHa^(l
in)との比Na(lin)/Ha^(lin)を加算し、それをケプス
トラム変換することで特徴付けられている。
【0039】したがって、適応HMM26は、乗法性歪
の影響を除くことが可能な十分なモデルとはなっておら
ず、このため、適応HMM26と観測値系列RNa(cep)
とを照合部29が照合した場合に、観測値系列RNa(ce
p)と最も尤度の高い適応HMM26を求めることができ
ない場合が発生し、ひいては音声認識率の向上を図るこ
とができなくなる場合があるという問題があった。
【0040】本発明は、上記従来の問題点を克服すると
共に、加法性雑音と乗法性歪に対してロバストな音声認
識システムを提供することを目的とする。
【0041】
【課題を解決するための手段】上記目的を達成するため
本発明の音声認識システムは、予め収集した乗法性歪を
含んだ音声から生成された音声モデルと、予め収集した
加法性雑音から生成された雑音モデルと、上記音声モデ
ルに含まれる上記乗法性歪を推定する第1の推定手段
と、上記音声モデルと上記第1の推定手段で推定された
上記乗法性歪の第1の推定値と上記雑音モデルの加法性
雑音とを合成処理することによって得られる雑音付加音
声に基づいて生成された合成音声モデルと、上記雑音モ
デルの加法性雑音と上記雑音付加音声とからヤコビアン
行列を算出する算出手段と、発話音声に含まれる乗法性
歪を推定する第2の推定手段と、非発話期間に生じる加
法性雑音と、上記雑音モデルの加法性雑音と、上記第2
の推定手段で推定された上記乗法性歪の第2の推定値と
を合成処理することで雑音変化分を求めると共に、上記
雑音変化分に上記算出手段で算出されたヤコビアン行列
を乗算する第1の演算手段と、上記演算手段の求めた乗
算結果と上記合成音声モデルとを合成処理することによ
って生成された適応モデルと、発話音声と上記第2の推
定手段で推定された上記乗法性歪の第2の推定値とを合
成処理することにより観測値系列を生成する第2の演算
手段とを備え、上記観測値系列と上記適応モデルとを照
合することにより音声認識を行うことを特徴とする。
【0042】かかる構成の音声認識システムによると、
乗法性歪を有する音声モデルと、第1の推定手段で推定
された雑音(乗法性歪)の第1の推定値と、雑音モデル
の加法性雑音とを合成処理することによって雑音付加音
声が生成され、その雑音付加音声から合成音声モデルが
生成されている。
【0043】また、雑音変化分は、非発話期間に生じる
加法性雑音と、雑音モデルの加法性雑音と、第2の推定
手段で推定された雑音(乗法性歪)の第2の推定値とを
合成処理することによって生成される。
【0044】また、ヤコビアン行列は、雑音モデルの加
法性雑音と、雑音付加音声(すなわち、乗法性歪を有す
る音声モデルと、第1の推定手段で推定された雑音(乗
法性歪)の第1の推定値と、雑音モデルの加法性雑音と
を合成処理することによって求められる音声)とから算
出される。
【0045】適応モデルは、雑音変化分とヤコビアン行
列との乗算結果と、合成音声モデルとを合成処理するこ
とで生成される。すなわち、適応モデルは、合成音声モ
デルと雑音変化分とヤコビアン行列との情報を有するモ
デルとなる。
【0046】発話がなされると、第2の演算手段が、乗
法性歪及び加法性歪みを含んだ発話音声に、上記第2の
推定手段で推定された雑音(乗法性歪)の第2の推定値
を合成処理することにより観測値系列を生成する。
【0047】そして、観測値系列と適応モデルとを照合
することで音声認識が行われる。
【0048】ここで、観測値系列と照合される適応モデ
ルは、観測値系列に含まれる雑音成分と整合性のとれた
雑音成分が含まれる。このため、上記の観測値系列と適
応モデルとの照合を行うと、雑音成分の影響を相殺し
て、音声モデルのクリーンな音声と発話されたクリーン
な発話音声との照合を行ったのと同等の効果が得られ
る。このため、乗法性歪と加法性歪に対してロバスト
で、適切な音声認識が実現される。
【0049】また、上記目的を達成するため本発明の音
声認識システムは、予め収集した乗法性歪を含んだ音声
から生成された音声モデルと、予め収集した加法性雑音
から生成された雑音モデルと、上記音声モデルに含まれ
る上記乗法性歪を推定する第1の推定手段と、認識結果
に基づいて上記音声モデルに含まれる発話音声毎の誤差
を含んだ上記乗法性歪を推定する第2の推定手段と、上
記雑音モデルの加法性雑音と上記第1の推定手段で推定
された上記乗法性歪に第1の推定値を合成する第1の演
算手段と、上記第1の演算手段の合成結果と上記音声モ
デルとを合成処理することによって得られる雑音付加音
声に基づいて生成された合成音声モデルと、上記第1の
演算手段の合成結果と上記雑音付加音声とからヤコビア
ン行列を算出する算出手段と、発話音声に含まれる発話
音声毎の誤差を含んだ乗法性歪を推定する第3の推定手
段と、非発話期間に生じる加法性雑音と上記第1の演算
手段の合成結果と上記第2の推定手段で推定された上記
発話音声毎の誤差を含んだ上記乗法性歪の第2の推定値
と上記第3の推定手段で推定された上記発話音声毎の誤
差を含んだ上記乗法性歪の第3の推定値とを合成処理す
ることで雑音変化分を求めると共に、上記雑音変化分に
上記算出手段で算出されたヤコビアン行列を乗算する第
2の演算手段と、上記第2の演算手段の求めた乗算結果
と上記合成音声モデルとを合成処理することによって生
成された適応モデルと、発話音声と上記第3の推定手段
で推定された上記発話音声毎の誤差を含んだ上記乗法性
歪の第3の推定値とを合成処理することにより観測値系
列を生成する第3の演算手段とを備え、上記観測値系列
と上記適応モデルとを照合することにより音声認識を行
うことを特徴とする。
【0050】かかる構成の音声認識システムによると、
適応モデルは、雑音変化分とヤコビアン行列との乗算結
果と、合成音声モデルとを合成処理することで生成され
る。すなわち、適応モデルは、合成音声モデルと雑音変
化分とヤコビアン行列との情報を有するモデルとなる。
【0051】そして、発話がなされると、第3の演算手
段が、乗法性歪及び加法性歪みを含んだ発話音声に、上
記第3の推定手段で推定された雑音(乗法性歪)の第3
の推定値を合成処理することにより観測値系列を生成
し、その観測値系列と適応モデルとを照合することで音
声認識が行われる。
【0052】ここで、観測値系列と照合される適応モデ
ルは、観測値系列に含まれる雑音成分と整合性のとれた
雑音成分が含まれる。このため、上記の観測値系列と適
応モデルとの照合を行うと、雑音成分の影響を相殺し
て、音声モデルのクリーンな音声と発話されたクリーン
な発話音声との照合を行ったのと同等の効果が得られ
る。このため、乗法性歪と加法性歪に対してロバスト
で、適切な音声認識が実現される。
【0053】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。尚、図1は本発明の音声認識シス
テムの第1の実施の形態の構成を示すブロック図、図2
は第2の実施の形態の構成を示すブロック図である。
【0054】まず、これら第1,第2の実施形態を説明
するに当たり、符号の説明をする。
【0055】後述する音声HMM10を生成するために
用いられる時間領域の音声をRm、初期雑音HMM17
を生成するために用いられる時間領域の加法性雑音をN
m、実際に発話された時間領域の発話音声をRaとする。
【0056】また、上記の音声Rmは、予め実験的に収
集され、雑音を含まないクリーンな音声Smに乗法性歪
Hmが重畳したものとする。また、発話音声Raは、雑音
を含まないクリーンな発話音声Saに乗法性歪Haと加法
性雑音Naが重畳したものとする。また、実際に発話が
行われていないときの室内雑音等の背景雑音も符号Na
で示すこととする。
【0057】更に、線形スペクトル領域の情報には(li
n)、ケプストラム領域の情報には(cep)を付加して示
すこととする。例えば、初期雑音HMM17の音響モデ
ルのケプストラム領域での表記をNm(cep)、線形スペク
トル領域での表記をNm(lin)のようにして示すこととす
る。
【0058】(第1の実施の形態)第1の実施形態を図
1を参照して説明する。尚、図1中、図4と同一又は相
当する部分を同一符号で示している。
【0059】この音声認識システムには、音声HMM1
0と、初期雑音HMM17、初期合成HMM16、適応
HMM26及び、適応HMM26を生成する際の演算量
を大幅に削減するためのヤコビアン行列算出部19が備
えられ、認識すべき音声が発話されると、その発話音声
から求めたケプストラム時系列である観測値系列RNa
(cep)と適応HMM26とを単語やサブワード単位で
照合部29が照合し、観測値系列RNa(cep)と最も尤
度の高い適応HMMを音声認識結果として出力する。
【0060】音声HMM10は、実験的に収集した加法
性雑音を含まない音声Rmを用いてHMM法により予め
生成された音響モデルである。ただし、無響室内などで
被験者の音声Rmを実験的に収集することにより、加法
性雑音の影響の無い音声HMM10を生成しているが、
マイクロフォンや電気伝送系等における乗法性歪の影響
は除去されないため、音声HMM10は乗法性歪Hmの
影響が残された音響モデルとなっている。
【0061】したがって、音声HMM10を線形スペク
トル領域(lin)で表記すれば、クリーンな音声Smと乗
法性歪Hmとの線形スペクトルSm(lin),Hm(lin)の積
Rm(lin)=Sm(lin)Hm(lin)で表され、ケプストラム領
域(cep)で表記すれば、クリーンな音声Smと乗法性歪
HmとのケプストラムSm(cep),Hm(cep)の和Rm(cep)
=Sm(cep)+Hm(cep)で表される。
【0062】初期雑音HMM17は、上記の実験によっ
て非音声区間の音(加法性雑音に相当する)を初期雑音
データNmとして収集し、その初期雑音データNmを用い
てあらかじめ学習された音響モデルである。したがっ
て、初期雑音HMM17を線形スペクトル領域(lin)
で表せばNm(lin)となり、また、ケプストラム領域(ce
p)で表せばNm(cep)となっている。
【0063】初期合成HMM16は、音声HMM10と
初期雑音HMM17との音響モデルを線形スペクトル領
域で加算し、更にその加算結果をケプストラム領域の音
響モデルに変換することによって予め生成されている。
【0064】つまり、実際に音声認識すべき音声が発話
される前に、音声HMM10から平均演算部11と減算
器12へ、ケプストラム領域(cep)での音声(音響モ
デル)Rm(cep)=Sm(cep)+Hm(cep)を供給し、平均演
算部11がCMN法によって乗法性歪Hm(cep)の推定値
Hm^(cep)を求め、更に、減算器12がRm(cep)−Hm^
(cep)の演算を行うことによって、乗法性歪の推定値Hm
^(cep)を除いた音声Sm'(cep)を生成する。更に、逆ケ
プストラム変換部13がケプストラム領域の音声Sm'(c
ep)を線形スペクトル領域の音声Sm'(lin)に変換すると
共に、逆ケプストラム変換部18が初期雑音HMM17
からのケプストラム領域の初期雑音(初期雑音の音響モ
デル)Nm(cep)を線形スペクトル領域の初期雑音Nm(li
n)に変換し、更に、加算器14が線形スペクトル領域の
音声Sm'(lin)と初期雑音Nm(lin)とを加算することに
より、加法性雑音付加音声Rm'(lin)=Sm'(lin)+Nm
(lin)を生成する。そして、ケプストラム変換部15が
加法性雑音付加音声Rm'(lin)をケプストラム領域の加
法性雑音付加音声Rm'(cep)に変換し、初期合成HMM
16を生成する。
【0065】したがって、初期合成HMM16は、上記
式(1)で表記されるように、加法性雑音付加音声Rm'
(cep)によって特徴付けられた音響モデルとなってい
る。
【0066】ヤコビアン行列算出部19は、逆ケプスト
ラム変換部18にて生成される初期雑音Nm(lin)と加算
器14にて生成される加法性雑音付加音声Rm'(lin)と
を入力し、これら線形スペクトル領域の初期雑音Nm(li
n)と加法性雑音付加音声Rm'(lin)とをケプストラム領
域に変換して上記式(6)に導入することにより、テイ
ラー展開の一次微係数行列であるヤコビアン行列J=∂
Rm'(cep)/∂Nm(cep)を各サブワード合成HMM毎に
予め作成する。
【0067】適応HMM26は、本音声認識システムに
設けられている発話開始スイッチ(図示省略)をユーザ
ーがオン操作し、ユーザーが実際に発話を開始するまで
にマイクロフォン(図示省略)で集音される加法性雑音
に相当する背景雑音Naに応じて、初期合成HMM16
を適応的に補償することによって生成される音響モデル
であり、上記した実際の発話開始前に予め生成されるよ
うになっている。
【0068】更に、フレーム化部20と、ケプストラム
演算部21、スイッチ素子22、加減算器23、掛け算
器24、加算器25、平均演算部27、減算器28が備
えられている。
【0069】フレーム化部20は、上記の発話開始スイ
ッチがオン操作されて上記のマイクロフォンが集音状態
となると、そのマイクロフォンから出力されアナログデ
ジタル変換された背景雑音(加法性雑音に相当する)N
aや発話音声Raを入力し、所定時間ずつのフレーム単位
に区分けして出力する。
【0070】ケプストラム演算部21は、フレーム単位
の背景雑音Naや発話音声Raをケプストラム演算するこ
とにより、背景雑音Naや発話音声Raのケプケプストラ
ムNa(cep),Ra(cep)を生成して出力する。
【0071】スイッチ素子22は、上記発話開始スイッ
チがオン操作されて実際に発話が行われるまでの非発話
期間内に接点a側に切り替わることで、背景雑音のケプ
ストラムNa(cep)を加減算器23側へ供給する。また、
実際に発話が行われる期間では接点b側に切り替わり、
発話音声のケプストラムRa(cep)を平均演算部27及び
加算器28側へ供給する。
【0072】平均演算部27は、発話音声のケプストラ
ムRa(cep)をCMN法によって平均演算し、そのケプス
トラムRa(cep)に含まれている乗法性歪Haのケプスト
ラムの推定値Ha^(cep)を求める。
【0073】尚、平均演算部27には、推定値Ha^(ce
p)を記憶する半導体メモリ等の記憶部(図示省略)が備
えられており、発話開始スイッチが操作される毎に、前
回発話されたときに求めた推定値Ha^(cep)を出力する
と共に、今回の発話の際に求めた推定値Ha^(cep)に更
新して記憶するようになっている。
【0074】加減算器23は、ケプストラム領域での演
算により、背景雑音Na(cep)から乗法性歪の推定値Ha^
(cep)と初期雑音Nm(cep)とを減算する。これにより、
次式(9)で表される加法性雑音ケプストラム変化分N
amh(cep)を求めて、掛け算器24に供給する。
【数9】 掛け算器24は、加法性雑音ケプストラム変化分Namh
(cep)にヤコビアン行列Jを乗算し、その乗算結果J
〔Namh(cep)〕=J〔Na(cep)−Ha^(cep)−Nm(ce
p)〕を加算器25に供給する。
【0075】加算器25は、上記の乗算結果J〔Namh
(cep)〕と初期合成HMM16の音響モデルRm'(cep)を
単語やサブワード単位で加算する。これにより、実際の
発話環境における背景雑音Naによって適応的に補償さ
れた適応HMM26を生成する。つまり、適応HMM2
6をケプストラム領域(cep)で表すと、
【数10】 となる。尚、上記式(10)のcep〔 〕は、ケプス
トラム変換を表している。
【0076】次に、かかる構成の音声認識システムの動
作を説明する。まず、上記したように、実際の音声認識
を開始する前に、音声HMM10と初期雑音HMM17
と初期合成HMM16が予め作成され、更にヤコビアン
行列算出部19によってヤコビアン行列Jが作成され
る。
【0077】次に、ユーザーにより発話開始スイッチが
オン操作されると、図示しないマイクロフォンが集音状
態になり、実際に発話が開始される前の非発話期間に、
スイッチ素子22が接点a側に切り替わり、背景雑音N
aを入力する。これにより、フレーム化部20とケプス
トラム演算部21及びスイッチ素子22を通じて、背景
雑音NaのケプストラムNa(cep)が加減算器23に供給
される。更に、加減算器23には、平均演算部27から
前回の発話時に求めた乗法性歪の推定値Ha^(cep)が供
給されると共に、初期雑音HMM17から初期雑音Nm
(cep)が供給される。
【0078】そして、加減算器23が上記式(9)で表
される加法性雑音ケプストラム変化分Namh(cep)を求
め、掛け算器24が加法性雑音ケプストラム変化分Nam
h(cep)にヤコビアン行列Jを乗算し、更に、加算器25
がその乗算結果J〔Namh(cep)〕と初期合成HMM16
を単語やサブワード単位で加算することにより、適応H
MM26を生成する。
【0079】次に、適応HMM26の生成が終了する
と、スイッチ素子22は接点b側に切り替わる。そし
て、ユーザーが実際に発話すると、フレーム化部20及
びケプストラム演算部21がその発話音声Raをケプス
トラム領域の発話音声Ra(cep)にし、スイッチ素子22
を介して平均演算部27と減算器28に供給する。
【0080】これにより、平均演算部27が、CMN法
によって発話音声Ra(cep)に含まれている乗法性歪Ha
のケプストラム領域での推定値Ha^(cep)を新たに生成
して記憶すると共に、その新たに生成した推定値Ha^(c
ep)を加減算器28に供給する。
【0081】そして、加減算器28が、発話音声Ra(ce
p)から推定値Ha^(cep)を減算することで、乗法性歪を
除いた観測値系列RNa(cep)=Ra(cep)−Ha^(cep)を
生成し、照合部29が、観測値系列RNa(cep)と適応H
MM26とを単語やサブワード単位で照合し、最大尤度
の得られる適応HMMを音声認識結果として出力する。
【0082】ここで、観測値系列RNa(cep)は、上記式
(8)に示したように、クリーンな音声の線形スペクト
ルSa(lin)に、加法性雑音の線形スペクトルNa(lin)と
乗法性歪の線形スペクトルHa^(lin)との比Na(lin)/
Ha^(lin)を加算し、それをケプストラム変換すること
で特徴付けられている。一方、適応HMM26は、上記
式(10)に示したように、クリーンな音声の線形スペ
クトルSm(lin)に、加法性雑音の線形スペクトルNa(li
n)と乗法性歪の線形スペクトルHa^(lin)との比Na(li
n)/Ha^(lin)を加算し、それをケプストラム変換する
ことで特徴付けられている。
【0083】つまり、適応HMM26と観測値系列RN
a(cep)の雑音のスペクトルが共にNa(lin)/Ha^(lin)
となることから、適応HMM26は、観測値系列RNa
(cep)に対して整合性のとれた音響モデルとなってい
る。
【0084】更に、照合部29が観測値系列RNa(cep)
と適応HMM26を照合する際、雑音のスペクトルが共
にNa(lin)/Ha^(lin)であることから、これら適応H
MM26と観測値系列RNa(cep)の雑音(加法性雑音と
乗法性歪)の影響を実質的に相殺して、クリーンな音声
Sm(cep)とクリーンな発話音声Sa(cep)とを照合するこ
とになるため、音声認識率を向上することができる。
【0085】このように、本実施形態の音声認識システ
ムによれば、適応HMM26を実際の発話の際に求まる
観測値系列RNa(cep)に対して整合性のとれた音響モデ
ルとすることができると共に、加法性雑音と乗法性歪に
対処した構成としているため、加法性雑音と乗法性歪に
対してロバストで音声認識率の向上を図ることができ
る。更に、ヤコビアン行列を適用するための適切な構成
を実現しており、音声認識に要する時間の大幅短縮が可
能となっている。
【0086】(第2の実施の形態)次に、第2の実施形
態の音声認識システムを図2に基づいて説明する。尚、
図2中、図1と同一又は相当する部分を同一符号で示し
ている。
【0087】図2において、第1の実施形態との相違点
を述べると、本実施形態の音声認識システムでは、2つ
の平均演算部11a,11bと、加算器12a、減算器
23a、加算器30が備えられている。
【0088】尚、図1中の加算器12は設けられておら
ず、音声HMM10のケプストラム領域の音声Rm(cep)
が逆ケプストラム変換部13に直接供給されるようにな
っている。
【0089】第1の平均演算部11aは、音声HMM1
0の平均ベクトルの全平均を求める等、大量な音声HM
Mの情報量の平均を求めることにより、乗法性歪の推定
値Hm1^(cep)を求める。
【0090】第2の平均演算部11bは、1つ前の発話
時においてHa^(後述)推定に使用された発話音声区間
(過去数発話分)の、認識結果に対応するサブワード音声
HMMの平均ベクトルを平均することで、真の乗法性歪
Hm(cep)に発話音声に応じて異なる乗法性歪の誤差分H
me(cep)を含んだ形の、推定値Hm1^(cep)とも推定値Hm
^(cep)とも異なる新たな乗法性歪の推定値Hm2^(cep)=
Hm(cep)+Hme(cep)を生成する。
【0091】加算器12aは、初期雑音HMM17から
の初期雑音Nm(cep)と第1の平均演算部11aからの推
定値Hm1^(cep)とを加算し、その加算結果Nmh(cep)=
Nm(cep)+Hm1^(cep)を加減算器23a及び逆ケプスト
ラム変換部18に供給する。
【0092】加減算器23aは、上記の加減算器23a
からの加算結果Nmh(cep)の他、第2の平均演算部11
bからの推定値Hm2^(cep)が供給され、更に非発話期間
中に、平均演算部27からの推定値Ha^(cep)と背景雑
音Na(cep)が供給される。これにより、加減算器23a
では、次式(11)で表されるように、適応HMM26
を生成するために用いる加法性雑音ケプストラム変化分
Namh'(cep)が生成される。
【数11】
【0093】本実施形態の初期合成HMM16は、図示
するように、加算器12aで生成される加算結果Nmh(c
ep)と、音声HMM10からの乗法性歪Hmの除かれてい
ない音声Rm(cep)とによって予め生成されている。すな
わち、乗法性歪Hmの除かれていない音声Rm(cep)を逆
ケプストラム変換部13が線形スペクトル領域の音声R
m(lin)に変換し、逆ケプストラム変換部18が上記の加
算結果Nmh(cep)を線形スペクトル領域の加算結果Nmh
(lin)に変換する。そして、加算器14がRm(lin)とNm
h(lin)を加算し、その加算演算によって生成される加法
性雑音付加音声Rmh(lin)=Rm(lin)+Nmh(lin)をケプ
ストラム変換部15がケプストラム領域の加法性雑音付
加音声Rmh(cep)に変換することにより、初期合成HM
M16が生成されている。したがって、初期合成HMM
16は、次式(12)で表される。
【数12】 尚、式(12)中のcep〔 〕はケプストラム変換を
表している。
【0094】本実施形態の平均演算部27は、発話期間
中に発話音声RaのケプストラムRa(cep)がスイッチ素
子22の接点bを経由して供給されると、Ra(cep)に含
まれている真の乗法性歪Ha(cep)に、発話音声に応じて
異なる乗法性歪の誤差分Hae(cep)が含まれた形とな
り、乗法性歪の推定値はHa^(cep)=Ha(cep)+Hae(ce
p)と表される。
【0095】したがって、図1に示した第1の実施形態
の平均演算部27は、乗法性歪Ha(cep)の時間平均をH
a^(cep)としているのに対し、図2に示す本実施形態の
平均演算部27は、上記Ha(cep)+Hae(cep)をHa^(ce
p)としている点が異なっている。ここで、Haeは発話内
容によって変動する乗法性歪推定値の誤差である。発話
内容は認識結果が正しければ認識結果に一致する。Hm2
^推定時にも認識結果を用いてHa^推定時の発話内容を
対応させている。よって、Hae≒Hmeとなり発話音声に
応じて異なる乗法性歪の誤差の対応が取れることにな
る。
【0096】本実施形態のヤコビアン行列算出部19
は、逆ケプストラム変換部18にて生成される雑音Nmh
(lin)と加算器14にて生成される加法性雑音付加音声
Rmh(lin)とを入力し、これら線形スペクトル領域の雑
音Nmh(lin)と加法性雑音付加音声Rmh(lin)とをケプス
トラム領域に変換して上記式(6)に導入することによ
り、テイラー展開の一次微係数J=∂Rmh(cep)/∂Nm
h(cep)をヤコビアン行列Jとして予め作成する。
【0097】そして、掛け算器24が、このヤコビアン
行列Jと加減算器23aからの加法性雑音ケプストラム
変化分Namh'(cep)とを乗算することにより、その乗算
結果J〔Namh'(cep)〕を加算器25に供給し、更に加
算器25が乗算結果J〔Namh'(cep)〕と初期合成HM
M16を加算することで、適応HMM26を生成する。
【0098】尚、乗算結果J〔Namh'(cep)〕は、上記
式(11)の関係から、J〔Na(cep)+Hm2^(cep)−H
a^(cep)−Nm(cep)−Hm1^(cep)〕となり、適応HMM
26は、
【数13】 となる。
【0099】加算器30は、発話時に加減算器28から
供給される発話音声Ra(cep)と推定値Ha^(cep)との差
Ra(cep)−Ha^(cep)に、第2の平均演算部11bから
の推定値Hm2^(cep)を加算することで、観測値系列RN
ah(cep)=Ra(cep)−Ha^(cep)+Hm2^(cep)を生成して
照合部29に供給する。したがって、観測値系列RNah
(cep)は、次式(14)で表記されるように、
【数14】 となる。
【0100】次に、かかる構成の本音声認識システムの
動作を説明する。まず、上記したように、実際の音声認
識を開始する前に、音声HMM10と初期雑音HMM1
7と初期合成HMM16が予め作成され、更にヤコビア
ン行列算出部19によってヤコビアン行列Jが作成され
る。
【0101】次に、ユーザーにより発話開始スイッチが
オン操作されると、図示しないマイクロフォンが集音状
態になり、実際に発話が開始される前の非発話期間に、
スイッチ素子22が接点a側に切り替わり、背景雑音N
aを入力する。これにより、フレーム化部20とケプス
トラム演算部21及びスイッチ素子22を通じて、背景
雑音NaのケプストラムNa(cep)が加減算器23aに供
給される。更に、加減算器23aには、平均演算部27
から前回の発話時に求めた乗法性歪の推定値Ha^(cep)
が供給されると共に、加算器12aからの雑音Nmh(ce
p)と、第2の平均演算部11bからの推定値Hm2^(cep)
が供給される。Hm2^(cep)は1つ前の発話時においてHa
^(後述)推定に使用された発話音声区間(過去数発話分)
の、認識結果に対応するサブワード音声HMMの平均ベ
クトルを平均することで、推定される。
【0102】そして、加減算器23aが上記式(11)
で表される加法性雑音ケプストラム変化分Namh'(cep)
を求め、掛け算器24が加法性雑音ケプストラム変化分
Namh'(cep)にヤコビアン行列Jを乗算し、更に、加算
器25がその乗算結果J〔Namh'(cep)〕と初期合成H
MM16を単語やサブワード単位で加算することによ
り、適応HMM26を生成する。
【0103】次に、適応HMM26の生成が終了する
と、スイッチ素子22は接点b側に切り替わる。そし
て、ユーザーが実際に発話すると、フレーム化部20及
びケプストラム演算部21がその発話音声Raをケプス
トラム領域の発話音声Ra(cep)にし、スイッチ素子22
を介して平均演算部27と減算器28に供給する。
【0104】これにより、平均演算部27が、乗法性歪
Haのケプストラム領域での推定値Ha^(cep)を新たに生
成して記憶する。加減算器28には1つ前の発話時に推
定した、更新前のHa^(cep)を供給する。
【0105】そして、加減算器28が、発話音声Ra(ce
p)から推定値Ha^(cep)を減算することで、乗法性歪を
除いた観測値系列RNah(cep)=Ra(cep)−Ha^(cep)を
生成し、照合部29が、観測値系列RNah(cep)と適応
HMM26とを単語やサブワード単位で照合し、最大尤
度の得られる適応HMMを音声認識結果として出力す
る。
【0106】ここで、観測値系列RNah(cep)は上記式
(14)で表され、適応HMM26は上記式(13)で
表される。すなわち、観測値系列RNah(cep)と適応H
MM26の雑音スペクトルが共にNa(lin)Hm2^(lin)/
Ha^(lin)となることから、適応HMM26は、観測値
系列RNa(cep)に対して整合性のとれた音響モデルとな
っている。
【0107】更に、照合部29が観測値系列RNa(cep)
と適応HMM26を照合する際、雑音のスペクトルが共
にNa(lin)Hm2^(lin)/Ha^(lin)であることから、ク
リーンな音声Sm(cep)に乗法性歪Hm(cep)が重畳した音
声Sm(cep)Hm(cep)とクリーンな発話音声Sa(cep)に乗
法性歪Ha(cep)が重畳した音声Sa(cep)Ha(cep)とを照
合することになる。このため、Na(lin)Hm2^(lin)/H
a^(lin)の影響を実質的に相殺して照合することが可能
となり、更に、乗法性歪Hm(cep)とHa(cep)の影響を実
質的に相殺して照合することが可能となる。つまり、加
法性雑音と乗法性歪みとの両者の影響を実質的に相殺す
ることが可能となり、クリーンな音声Sm(cep)とクリー
ンな発話音声Sa(cep)とを照合することになるため、音
声認識率を向上することができる。
【0108】このように、本実施形態の音声認識システ
ムによれば、適応HMM26を実際の発話の際に求まる
観測値系列RNah(cep)に対して整合性のとれた音響モ
デルとすることができると共に、加法性雑音と乗法性歪
に対処した構成としているため、加法性雑音と乗法性歪
に対してロバストで音声認識率の向上を図ることができ
る。更に、ヤコビアン行列を適用するための適切な構成
を実現しており、音声認識に要する時間の大幅短縮が可
能となっている。
【0109】尚、以上の第1,第2の実施形態の説明で
は、音声と雑音との加算や、音声から雑音を減算する等
の演算処理を、スペクトル領域又はケプルトラム領域に
おいて行うこととしているが、これらの加算と減算の演
算処理は、音声と雑音等をスペクトル領域又はケプスト
ラム領域にて合成することを意味している。例えば、図
2中の加減算器28が、発話音声Ra(cep)から推定値H
a^(cep)を減算することで、それらの差Ra(cep)−Ha^
(cep)を求めているが、かかるケプストラム領域での減
算は、Ra(cep)とHa^(cep)とを合成することを意味し
ている。また、図2中の加算器30が、加減算器28か
らの差Ra(cep)−Ha^(cep)に第2の平均演算部11b
からの推定値Hm2^(cep)を加算することで、観測値系列
RNah(cep)を求めているが、かかるケプストラム領域
での加算は、差Ra(cep)−Ha^(cep)と推定値Hm2^(ce
p)とを合成することを意味している。
【0110】
【発明の効果】以上説明したように本発明の音声認識シ
ステムによれば、音声モデルと雑音モデルから合成音声
モデルを生成すると共に、その合成音声モデルを基準の
モデルとして乗法性歪と加法性雑音の情報を予め含んだ
適応モデルを生成しておき、実際に発話がなされると、
発話音声から生成する観測値系列と適応モデルとを照合
することで音声認識を行う構成とし、更に、適応モデル
を観測値系列と整合性のとれる構成にしたので、乗法性
歪と加法性歪に対してロバストで、適切な音声認識を行
うことが可能な音声認識システムを提供することができ
る。
【0111】また、ヤコビアン行列を適用して演算量の
大幅低減を実現するのに好適な構成の音声認識システム
を提供することができ、よって、高速な音声認識システ
ムを提供することができる。
【図面の簡単な説明】
【図1】第1の実施形態の音声認識システムの構成を示
すブロック図である。
【図2】第2の実施形態の音声認識システムの構成を示
すブロック図である。
【図3】従来の音声認識システムの構成を示すブロック
図である。
【図4】本発明の音声認識システムを開発するに当た
り、本願発明者が考案及び検討した音声認識システムの
構成を示すブロック図である。
【符号の説明】
10…音声HMM 11,11a,11b,27…平均演算部 12…減算器 13,18…逆ケプストラム変換部 14,25,12a,30…加算器 15…ケプストラム変換部 16…初期合成HMM 17…初期雑音HMM 19…ヤコビアン行列算出部 20…フレーム化部 21…ケプストラム演算部 22…スイッチ素子 23,23a,28…加減算器 24…掛け算器 26…適応HMM 29…照合部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) // G10L 101:04 (72)発明者 外山 聡一 埼玉県鶴ヶ島市富士見6丁目1番1号 パ イオニア株式会社総合研究所内 Fターム(参考) 5D015 EE05 GG01 GG05 HH11

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 予め収集した乗法性歪を含んだ音声から
    生成された音声モデルと、 予め収集した加法性雑音から生成された雑音モデルと、 前記音声モデルに含まれる前記乗法性歪を推定する第1
    の推定手段と、 前記音声モデルと、前記第1の推定手段で推定された前
    記乗法性歪の第1の推定値と、前記雑音モデルの加法性
    雑音とを合成処理することによって得られる雑音付加音
    声に基づいて生成された合成音声モデルと、 前記雑音モデルの加法性雑音と前記雑音付加音声とから
    ヤコビアン行列を算出する算出手段と、 発話音声に含まれる乗法性歪を推定する第2の推定手段
    と、 非発話期間に生じる加法性雑音と、前記雑音モデルの加
    法性雑音と、前記第2の推定手段で推定された前記乗法
    性歪の第2の推定値とを合成処理することで雑音変化分
    を求めると共に、前記雑音変化分に前記算出手段で算出
    されたヤコビアン行列を乗算する第1の演算手段と、 前記演算手段の求めた乗算結果と前記合成音声モデルと
    を合成処理することによって生成された適応モデルと、 発話音声と前記第2の推定手段で推定された前記乗法性
    歪の第2の推定値とを合成処理することにより観測値系
    列を生成する第2の演算手段とを備え、 前記観測値系列と前記適応モデルとを照合することによ
    り音声認識を行うことを特徴とする音声認識システム。
  2. 【請求項2】 前記演算手段は、ケプストラム領域にお
    いて、前記加法性雑音から、前記雑音モデルの加法性雑
    音と、前記第2の推定手段で推定された前記雑音の第2
    の推定値とを減算することにより、前記合成処理を行う
    ことを特徴とする請求項1記載の音声認識システム。
  3. 【請求項3】 予め収集した乗法性歪を含んだ音声から
    生成された音声モデルと、 予め収集した加法性雑音から生成された雑音モデルと、 前記音声モデルに含まれる前記乗法性歪を推定する第1
    の推定手段と、 認識結果に基づいて前記音声モデルに含まれる発話音声
    毎の誤差を含んだ前記乗法性歪を推定する第2の推定手
    段と、 前記雑音モデルの加法性雑音と前記第1の推定手段で推
    定された前記乗法性歪に第1の推定値を合成する第1の
    演算手段と、 前記第1の演算手段の合成結果と前記音声モデルとを合
    成処理することによって得られる雑音付加音声に基づい
    て生成された合成音声モデルと、 前記第1の演算手段の合成結果と前記雑音付加音声とか
    らヤコビアン行列を算出する算出手段と、 発話音声に含まれる発話音声毎の誤差を含んだ乗法性歪
    を推定する第3の推定手段と、 非発話期間に生じる加法性雑音と、前記第1の演算手段
    の合成結果と、前記第2の推定手段で推定された前記発
    話音声毎の誤差を含んだ前記乗法性歪の第2の推定値
    と、前記第3の推定手段で推定された前記発話音声毎の
    誤差を含んだ前記乗法性歪の第3の推定値とを合成処理
    することで雑音変化分を求めると共に、前記雑音変化分
    に前記算出手段で算出されたヤコビアン行列を乗算する
    第2の演算手段と、 前記第2の演算手段の求めた乗算結果と前記合成音声モ
    デルとを合成処理することによって生成された適応モデ
    ルと、 発話音声と前記第3の推定手段で推定された前記発話音
    声毎の誤差を含んだ前記乗法性歪の第3の推定値とを合
    成処理することにより観測値系列を生成する第3の演算
    手段とを備え、 前記観測値系列と前記適応モデルとを照合することによ
    り音声認識を行うことを特徴とする音声認識システム。
  4. 【請求項4】 前記演算手段は、ケプストラム領域にお
    いて、前記加法性雑音に対し、前記第2の推定手段で推
    定された前記発話音声毎の誤差を含んだ前記乗法性歪の
    第2の推定値を加算すると共に、前記第1の演算手段の
    合成結果と前記第3の推定手段で推定された前記発話音
    声毎の誤差を含んだ前記乗法性歪の第3の推定値とを減
    算することにより、前記合成処理を行うことを特徴とす
    る請求項3記載の音声認識システム。
JP2000282349A 2000-09-18 2000-09-18 音声認識システム Expired - Fee Related JP4297602B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2000282349A JP4297602B2 (ja) 2000-09-18 2000-09-18 音声認識システム
EP01307890A EP1189205A3 (en) 2000-09-18 2001-09-17 HMM-based noisy speech recognition
US09/953,905 US7016837B2 (en) 2000-09-18 2001-09-18 Voice recognition system
CNB011406151A CN1159703C (zh) 2000-09-18 2001-09-18 声音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000282349A JP4297602B2 (ja) 2000-09-18 2000-09-18 音声認識システム

Publications (2)

Publication Number Publication Date
JP2002091485A true JP2002091485A (ja) 2002-03-27
JP4297602B2 JP4297602B2 (ja) 2009-07-15

Family

ID=18766887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000282349A Expired - Fee Related JP4297602B2 (ja) 2000-09-18 2000-09-18 音声認識システム

Country Status (4)

Country Link
US (1) US7016837B2 (ja)
EP (1) EP1189205A3 (ja)
JP (1) JP4297602B2 (ja)
CN (1) CN1159703C (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100464420B1 (ko) * 2002-06-28 2005-01-03 삼성전자주식회사 은닉 마코프 모델 탐색을 위한 관측 확률 연산 장치
WO2005098820A1 (ja) * 2004-03-31 2005-10-20 Pioneer Corporation 音声認識装置及び音声認識方法
JP2006349723A (ja) * 2005-06-13 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体
WO2009133719A1 (ja) * 2008-04-30 2009-11-05 日本電気株式会社 音響モデル学習装置および音声認識装置
JP2012504250A (ja) * 2008-09-29 2012-02-16 株式会社東芝 音声認識方法
JP2013120379A (ja) * 2011-12-09 2013-06-17 Nippon Telegr & Teleph Corp <Ntt> スペクトル歪みパラメータ推定値補正装置とその方法とプログラム

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
JP4061094B2 (ja) * 2002-03-15 2008-03-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US8825482B2 (en) * 2005-09-15 2014-09-02 Sony Computer Entertainment Inc. Audio, video, simulation, and user interface paradigms
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
EP1933303B1 (en) * 2006-12-14 2008-08-06 Harman/Becker Automotive Systems GmbH Speech dialog control based on signal pre-processing
CA2676380C (en) * 2007-01-23 2015-11-24 Infoture, Inc. System and method for detection and analysis of speech
KR101009854B1 (ko) * 2007-03-22 2011-01-19 고려대학교 산학협력단 음성 신호의 하모닉스를 이용한 잡음 추정 방법 및 장치
US8180637B2 (en) * 2007-12-03 2012-05-15 Microsoft Corporation High performance HMM adaptation with joint compensation of additive and convolutive distortions
JP6391895B2 (ja) * 2016-05-20 2018-09-19 三菱電機株式会社 音響モデル学習装置、音響モデル学習方法、音声認識装置、および音声認識方法
CN106792140A (zh) * 2016-12-12 2017-05-31 合肥华耀广告传媒有限公司 一种基于声音识别的广播电视广告监测系统
US10529357B2 (en) 2017-12-07 2020-01-07 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
JP2022080074A (ja) * 2020-11-17 2022-05-27 トヨタ自動車株式会社 情報処理システム、情報処理方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100464420B1 (ko) * 2002-06-28 2005-01-03 삼성전자주식회사 은닉 마코프 모델 탐색을 위한 관측 확률 연산 장치
WO2005098820A1 (ja) * 2004-03-31 2005-10-20 Pioneer Corporation 音声認識装置及び音声認識方法
US7813921B2 (en) 2004-03-31 2010-10-12 Pioneer Corporation Speech recognition device and speech recognition method
JP2006349723A (ja) * 2005-06-13 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体
JP4705414B2 (ja) * 2005-06-13 2011-06-22 日本電信電話株式会社 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
WO2009133719A1 (ja) * 2008-04-30 2009-11-05 日本電気株式会社 音響モデル学習装置および音声認識装置
JP5423670B2 (ja) * 2008-04-30 2014-02-19 日本電気株式会社 音響モデル学習装置および音声認識装置
US8751227B2 (en) 2008-04-30 2014-06-10 Nec Corporation Acoustic model learning device and speech recognition device
JP2012504250A (ja) * 2008-09-29 2012-02-16 株式会社東芝 音声認識方法
JP2013120379A (ja) * 2011-12-09 2013-06-17 Nippon Telegr & Teleph Corp <Ntt> スペクトル歪みパラメータ推定値補正装置とその方法とプログラム

Also Published As

Publication number Publication date
EP1189205A2 (en) 2002-03-20
JP4297602B2 (ja) 2009-07-15
EP1189205A3 (en) 2002-08-28
US20020052741A1 (en) 2002-05-02
CN1159703C (zh) 2004-07-28
US7016837B2 (en) 2006-03-21
CN1345030A (zh) 2002-04-17

Similar Documents

Publication Publication Date Title
JP4297602B2 (ja) 音声認識システム
EP1195744B1 (en) Noise robust voice recognition
EP0831461B1 (en) Scheme for model adaptation in pattern recognition based on taylor expansion
EP0660300B1 (en) Speech recognition apparatus
US8595006B2 (en) Speech recognition system and method using vector taylor series joint uncertainty decoding
JP5242782B2 (ja) 音声認識方法
JPH0850499A (ja) 信号識別方法
JP2004325897A (ja) 音声認識装置及び音声認識方法
GB2482874A (en) A speech processing system that applies speaker adaptation techniques into an environment mismatch function
US8401844B2 (en) Gain control system, gain control method, and gain control program
JPH1069290A (ja) 音声処理装置
JP2002091478A (ja) 音声認識システム
JP3907194B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5344251B2 (ja) 雑音除去システム、雑音除去方法および雑音除去プログラム
JP3587966B2 (ja) 音声認識方法、装置そよびその記憶媒体
JP4275353B2 (ja) 音声認識装置及び音声認識方法
JP2962572B2 (ja) 雑音除去装置
Wang et al. Improving reverberant VTS for hands-free robust speech recognition
JPH07121197A (ja) 学習式音声認識方法
JPH1097278A (ja) 音声認識方法および装置
Yu et al. Discriminative training of variable-parameter HMMs for noise robust speech recognition.
Bellot et al. Additive and convolutional noises compensation for speaker recognition.
JP3790155B2 (ja) 音声認識装置、音声認識方式及び音声認識プログラム
JPH1185200A (ja) 音声認識のための音響分析方法
Wang et al. Model-based approaches to adaptive training in reverberant environments.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090414

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4297602

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140424

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees