JP2002091485A

JP2002091485A - 音声認識システム

Info

Publication number: JP2002091485A
Application number: JP2000282349A
Authority: JP
Inventors: Hiroshi Seo; 尋瀬尾; Teruya Komamura; 光弥駒村; Soichi Toyama; 聡一外山
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2000-09-18
Filing date: 2000-09-18
Publication date: 2002-03-27
Anticipated expiration: 2020-09-18
Also published as: US20020052741A1; EP1189205A2; CN1159703C; JP4297602B2; CN1345030A; EP1189205A3; US7016837B2

Abstract

(57)【要約】【課題】乗法性歪と加法性雑音に対してロバストな音
声認識システムを提供する。【解決手段】乗法性歪を有する音声ＨＭＭ１０と加法
性雑音の初期雑音ＨＭＭ１７から、初期合成ＨＭＭ１６
を生成すると共に、ヤコビアン行列算出部１９によりヤ
コビアン行列〔Ｊ〕_ijを算出しておく。実際に発話され
た発話音声から求めた乗法性歪の推定値Ｈa^(cep)と、
非発話期間に得られる加法性雑音Ｎa(cep)と、初期雑音
ＨＭＭ１７の加法性雑音Ｎm(cep)とを合成した雑音変動
分Ｎamh(cep)にヤコビアン行列を乗算し、その乗算結果
と初期合成ＨＭＭ１６を合成して、適応ＨＭＭ２６を生
成する。こうすることにより、実際の発話音声から生成
される観測値系列ＲＮa(cep)と整合性のとれた適応ＨＭ
Ｍ２６を予め生成しておくことができ、観測値系列ＲＮ
a(cep)と適応ＨＭＭ２６とを照合して音声認識を行う際
に、乗法性歪と加法性歪の影響を相殺して、クリーンな
音声だけで音声認識を行ったのと等価な効果が得られ、
ロバストな音声認識システムが実現される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、雑音や、伝送系等
の歪みに対してロバスト（頑健）な音声認識システムに
関する。

【０００２】

【従来の技術】従来、例えば車載用ナビゲーション装置
等の電子機器では、マンマシンコニュニケーション等を
可能にする音声認識システムが注目され、図３に示すよ
うな情報処理アルゴリズムに基づいて構成された音声認
識システムが知られている。

【０００３】この音声認識システムは、隠れマルコフモ
デル（Hidden Markov Model：ＨＭＭ）を用いて単語や
サブワード（音素、音節など）単位の音響モデル（音声
ＨＭＭ）を予め生成しておき、認識すべき音声Ｒaが発
話されると、その発話音声Ｒaのケプストラムの時系列
である観測値系列Ｒa(cep)を生成して、観測値系列Ｒa
(cep)と音声ＨＭＭとを照合し、最大尤度を与える音声
ＨＭＭを選んでこれを認識結果として出力する。

【０００４】より具体的に述べると、この音声認識シス
テムには、ＨＭＭ法によって上記の音声ＨＭＭを生成す
る音声ＨＭＭ生成部５が備えられ、この音声ＨＭＭ生成
部５は、音声データベース１とフレーム化部２とケプス
トラム演算部３及び学習部４を備えて構成されている。

【０００５】音声データベース１に実験的に収集して記
憶しておいた被験者の大量の音声データＲmをフレーム
化部２が１０〜２０msec程度のフレーム単位に区分け
し、各フレーム単位のデータをケプストラム演算部３が
順次にケプストラム（Cepstrum）演算することにより、
ケプストラムの時系列Ｒm(cep)を求める。

【０００６】更に、学習部４がこのケプストラムの時系
列Ｒm(cep)を音声の特徴量(特徴ベクトルとする)として
学習処理し、音響モデル（音声ＨＭＭ）のパラメータに
反映させることで、単語やサブワード単位の音声ＨＭＭ
６を予め生成している。

【０００７】実際に発話が行われると、その発話音声の
データＲaをフレーム化部７がフレーム化部２と同様の
フレーム単位で区分けして入力し、各フレーム単位の発
話音声データをケプストラム演算部８が順次にケプスト
ラム演算することによってケプストラムの時系列である
観測値系列Ｒa(cep)を生成する。

【０００８】そして、照合部９が観測値系列Ｒa(cep)と
音声ＨＭＭ６とを単語やサブワード単位で照合し、観測
値系列Ｒa(cep)と最も尤度の高い音声ＨＭＭを音声認識
結果として出力する。

【０００９】ところが、図３の音声認識システムでは、
音声ＨＭＭ６を生成するための音声データＲmを収集す
る際、マイクロフォンや電気伝送系等における乗法性歪
の影響を受けた音声データＲmが収集されてしまい、精
度の良い音声ＨＭＭ６を生成することが困難になるとい
う問題があった。

【００１０】更に、認識すべき発話音声Ｒaが発話され
た際、室内雑音や背景雑音等の加法性雑音と、口元から
マイクロフォンまでの空間的伝達特性、マイクロフォン
や電気伝送系等における乗法性歪などが観測値系列Ｒa
(cep)に悪影響を及ぼすことになり、音声認識率の低下
を招来するという問題があった。

【００１１】こうした問題のため、加法性雑音と乗法性
歪の影響を受け難い音声認識システム、すなわちロバス
ト（robust）な音声認識システムの構築が重要な課題と
なっていた。

【００１２】本願発明者は、上記のような課題に対処す
べく、加法性雑音に対してはＨＭＭ合成法、乗法性歪に
対してはケプストラム平均正規化法（Cepstrum Mean No
rmalization：ＣＭＮ）を適用することにより、ロバス
トな音声認識システムの実現を試みた。

【００１３】図４は、その音声認識システムの構成を示
すブロック図である。この音声認識システムは、音声Ｈ
ＭＭ１０と初期雑音ＨＭＭ１７と初期合成ＨＭＭ１６及
び適応ＨＭＭ２６を備え、認識すべき音声が発話される
と、その発話音声から求めたケプストラム時系列である
観測値系列ＲＮa（cep）と適応ＨＭＭ２６とを単語やサ
ブワード単位で照合部２９が照合し、観測値系列ＲＮa
（cep）と最も尤度の高い適応ＨＭＭを音声認識結果と
して出力する。

【００１４】更に、ＨＭＭ合成法を適用すると演算量が
多くなることから、その演算量を削減して処理の高速化
を実現するために、テイラー展開に基づくモデル適応法
が用いられている。すなわち、ヤコビアン行列Ｊと呼ば
れるテイラー展開の一次微係数行列を算出するヤコビア
ン行列算出部１９を設けることによって、演算量の削減
を行うこととしている。

【００１５】上記の音声ＨＭＭ１０は、実験的に収集し
た加法性雑音を含まない発話音声Ｒmを用いてＨＭＭ法
により予め生成される音響モデルである。すなわち、音
声ＨＭＭ１０は、図３に示した音声ＨＭＭ生成部５と同
様なＨＭＭ法の処理によって予め生成されている。

【００１６】尚、無響室内などで被験者の発話音声Ｒm
を実験的に収集することにより、加法性雑音の影響の無
い音声ＨＭＭ１０を生成しているが、マイクロフォンや
電気伝送系等における乗法性歪の影響は除去されないた
め、音声ＨＭＭ１０は乗法性歪の影響が残された音響モ
デルとなっている。

【００１７】したがって、実験的に収集した発話音声Ｒ
mを、クリーンな音声（加法性雑音及び乗法性歪を有さ
ない音声）Ｓmと乗法性歪Ｈmとからなるものとして、線
形スペクトル領域（lin）で表記すれば、クリーンな音
声Ｓmと乗法性歪Ｈmとの線形スペクトルの積Ｒm(lin)＝
Ｓm(lin)Ｈm(lin)で表され、また、ケプストラム領域
（cep）で表記すれば、クリーンな音声Ｓmと乗法性歪Ｈ
mとのケプストラムの和Ｒm(cep)＝Ｓm (cep)＋Ｈm(cep)
で表される。

【００１８】更に、音声ＨＭＭ１０を線形スペクトル領
域（lin）で表せば、Ｒm(lin)＝Ｓm(lin)Ｈm(lin)で表
され、また、ケプストラムル領域（cep）で表せば、Ｒm
(cep)＝Ｓm (cep)＋Ｈm(cep)で表される。

【００１９】上記の初期雑音ＨＭＭ１７は、非音声区間
の音（加法性雑音に相当する）を初期雑音データＮmと
して収集し、その初期雑音データＮmを用いて学習され
る音響モデルであり、図３に示した音声ＨＭＭ生成部５
と同様な処理によって予め生成されている。したがっ
て、初期雑音ＨＭＭ１７を線形スペクトル領域（lin）
で表せばＮm(lin)となり、また、ケプストラム領域（ce
p）で表せば、Ｎm(cep)となっている。

【００２０】初期合成ＨＭＭ１６は、次の処理によって
生成されている。音声ＨＭＭ１０から平均演算部１１と
減算器１２へ、ケプストラム領域（cep）での音声（音
響モデル）Ｒm(cep)＝Ｓm(cep)＋Ｈm(cep)を供給し、平
均演算部１１がＣＭＮ法によって、音響モデル学習用の
音声データベース内の特徴ベクトルを平均することや音
声ＨＭＭの平均ベクトルの平均をとること等によって乗
法性歪の推定値Ｈm^(cep)を求めて、減算器１２へ供給
するようになっている。これにより、減算器１２では、
Ｒm(cep)−Ｈm^(cep)の演算が行われ、乗法性歪の推定
値Ｈm^(cep)が除かれた音声Ｓm'(cep)を出力する。

【００２１】ここで、推定値Ｈm^(cep)と乗法性歪Ｈm(c
ep)とがほぼ等しいと近似することで、乗法性歪の無い
音声Ｓm'(cep)が得られたとしている。

【００２２】次に、逆ケプストラム変換部１３がケプス
トラム領域の音声Ｓm'(cep)を線形スペクトル領域の音
声Ｓm'(lin)に変換して加算器１４に供給すると共に、
逆ケプストラム変換部１８が初期雑音ＨＭＭ１７から出
力されるケプストラム領域の初期雑音（初期雑音の音響
モデル）Ｎm(cep)を線形スペクトル領域の初期雑音Ｎm
(lin)に変換して加算器１４に供給する。これにより、
加算器１４は、線形スペクトル領域の音声Ｓm'(lin)と
合成雑音Ｎm(lin)とを加算することにより、加法性雑音
付加音声Ｒm'(lin)＝Ｓm'(lin)＋Ｎm(lin)を生成し、ケ
プストラム変換部１５に供給する。

【００２３】そして、ケプストラム変換部１５が加法性
雑音付加音声Ｒm'(lin)をケプストラム領域の加法性雑
音付加音声Ｒm'(cep)に変換し、初期合成ＨＭＭ１６を
生成することとしている。

【００２４】従って、初期合成ＨＭＭ１６は、加法性雑
音付加音声Ｒm'(cep)によって特徴付けられた音響モデ
ルとなっており、次式（１）のように表される。

【００２５】

【数１】尚、上記式（１）中の、ｃｅｐ〔〕は、ケプストラム
変換部１５で行われるケプストラム変換、ｃｅｐ
^-1〔〕は、逆ケプストラム変換部１３，１８で行われ
る逆ケプストラム変換を表している。

【００２６】次に、ヤコビアン行列算出部１９の機能を
説明する。上記したように、演算量を削減するために、
ヤコビアン行列算出部１９が設けられており、実使用環
境における加法性雑音Ｎa(cep)と初期雑音ＨＭＭ１７か
らの初期雑音のスペクトルＮm(cep)との間の変動ΔＮm
(cep)＝Ｎa(cep)−Ｎm(cep)は小さいと仮定し、テイラ
ー展開を用いてその雑音スペクトルの変動分ΔＮm(cep)
に対応する合成モデルの変動分を求め、求めた変動分に
応じて初期合成モデル１６を補償し、その補償によって
求めた音響モデルを適応ＨＭＭ２６としている。

【００２７】より詳細に述べれば、仮に、乗法性歪及び
加法性雑音を含まないクリーンな音声Ｓmの線形スペク
トルをＳm(lin)、乗法性歪は重畳しないが加法性雑音の
重畳した音声Ｒmの線形スペクトルをＲm(lin)、加法性
雑音Ｎmの線形スペクトルをＮm(lin)とすると、線形ス
ペクトルＲm(lin)は、

【数２】となる。更に、加法性雑音の重畳した音声Ｒmをケプス
トラム領域で表すと、

【数３】となる。ここで、ＩＤＣＴ〔〕は、離散逆コサイン変
換、ＤＣＴ〔〕は、離散コサイン変換、ｌｏｇ（）
は、対数変換、ｅｘｐ（）は、指数変換である。

【００２８】上記式（３）において、仮にクリーンな音
声Ｓmは変動せず、加法性雑音ＮmがＮaに変動した場合
の音声Ｒmcを考えることとし、その音声ＲmcとＲmとの
ケプストラム領域での変動ΔＲm(cep)と、変動後の音声
のケプストラムＲmc(cep)をテイラー展開の一次微分項
のみで見ると、次式（４），（５）の関係が得られる。

【数４】

【数５】

【００２９】そこで、ヤコビアン行列算出部１９は、テ
イラー展開の一次微係数Ｊ＝∂Ｒm(cep)／∂Ｎm(cep)
に、加算器１４からの線形スペクトル領域の加法性雑音
付加音声Ｒm'(lin)と逆ケプストラム変換部１８からの
線形スペクトル領域の初期雑音Ｎm(lin)とをそれぞれケ
プストラム領域に変換して適用することにより、次式
（６）で表されるｉ行ｊ列のヤコビアン行列〔Ｊ〕_ijを
予め算出しておき、実際の発話環境で生じる加法性雑音
のモデルに基づいて初期合成ＨＭＭ１６を適応的に補償
して適応ＨＭＭ２６を生成する際に、加法性雑音の変動
分にヤコビアン行列〔Ｊ〕_ijを乗算するだけで、合成モ
デルの変動分が求まり、この合成モデルの変動分を初期
合成モデルに加えることで適応モデルを簡単に生成する
ことができるようにしている。

【００３０】

【数６】尚、上記式（６）中のＦ_ikは、コサイン変換行列、Ｆ
_kj-1 は、逆コサイン変換行列である。

【００３１】次に、適応ＨＭＭ２６の生成工程を説明す
る。この音声認識システムに設けられている発話開始ス
イッチ（図示省略）をユーザーがオン操作すると、マイ
クロフォン（図示省略）によって発話音声を収集すると
共に、フレーム化部２０が収集した発話音声のデータＲ
aを所定時間毎にフレーム化し、更にケプストラム演算
部２１がケプストラム領域（cep）の発話音声データＲa
（cep）にして、音声認識の処理を行うようになってい
る。

【００３２】まず、ユーザーが上記の発話開始スイッチ
をオン操作すると、実際に発話が開始されるまでの非発
話期間内に、スイッチ素子２２が接点ａ側に切り替わる
ようになっている。従って、ユーザーが発話しようとす
る環境内の背景雑音等（加法性雑音）Ｎaのケプストラ
ムＮa(cep)がスイッチ素子２２を介して減算器２３に供
給される。

【００３３】減算器２３は、背景雑音Ｎaのケプストラ
ムＮa(cep)から初期雑音ＨmのケプストラムＮm(cep)を
減算し、その減算結果Ｎa(cep)−Ｎm(cep)を掛け算器２
４に供給し、掛け算器２４は、上記の減算結果Ｎa(cep)
−Ｎm(cep)にヤコビアン行列〔Ｊ〕_ijを乗算し、その乗
算結果Ｊ〔Ｎa(cep)−Ｎm(cep)〕を加算器２５に供給
し、加算器２５は、乗算結果Ｊ〔Ｎa(cep)−Ｎm(cep)〕
と初期合成ＨＭＭ１６の音響モデルＲm^(cep)を単語や
サブワード単位で加算する。これにより、実際の発話環
境における背景雑音Ｎaによって適応的に補償された適
応ＨＭＭ２６が生成される。つまり、適応ＨＭＭ２６を
ケプストラム領域（cep）で表すと、

【数７】となる。尚、式（７）中のｃｅｐ〔〕はケプストラム
変換を表している。

【００３４】こうして、適応ＨＭＭ２６の生成が行われ
ると、スイッチ素子２２が接点ｂ側に切り替わり、認識
すべき発話音声Ｒaをケプストラム領域の発話音声Ｒa(c
ep)として入力する。ここで、発話音声Ｒaはクリーンな
音声Ｓaと乗法性歪Ｈaと加法性雑音Ｎaの各線形スペク
トルＳa(lin)とＨa(lin)とＮa(lin)の成分を含んでいる
ものとすると、ケプストラム領域の発話音声Ｒa(cep)
は、Ｒa(cep)＝ｃｅｐ〔Ｓa(lin)Ｈa(lin)＋Ｎa(lin)〕
で表される。

【００３５】そこで、平均演算部２７がＣＭＮ法によっ
て乗法性歪Ｈa(cep)の推定値Ｈa^(cep)を求め、減算器
２８が発話音声Ｒa(cep)から推定値Ｈa^(cep)を減算
し、その減算結果Ｒa(cep)−Ｈa^(cep)を観測値系列Ｒ
Ｎa(cep)として照合部２９に供給している。

【００３６】そして、照合部２９が、観測値系列ＲＮa
(cep)と適応ＨＭＭ２６とを単語やサブワード単位で照
合し、観測値系列ＲＮa(cep)と最も尤度の高い適応ＨＭ
Ｍを認識結果として出力する。すなわち、観測値系列Ｒ
Ｎa(cep)は、

【数８】となり、この式（８）で表される観測値系列ＲＮa(cep)
と上記式（７）で表される適応ＨＭＭ２６の特徴ベクト
ルＲadp(cep)とを照合することで、音声認識を行ってい
る。

【００３７】

【発明が解決しようとする課題】ところで、図４に示し
た本願発明者が提案した音声認識システムでは、適応Ｈ
ＭＭ２６と発話音声の観測値系列ＲＮa(cep)とを照合す
ることで音声認識を行うことにしているが、適応ＨＭＭ
２６が観測値系列ＲＮa(cep)に対して適切な照合対象と
して未だ十分にモデル化されていないという問題があっ
た。

【００３８】すなわち、上記式（７）と（８）を対比す
ると、適応ＨＭＭ２６は、クリーンな音声の線形スペク
トルＳm(lin)に加法性雑音の線形スペクトルＮa(lin)を
加算し、それをケプストラム変換することで特徴付けら
れているのに対し、観測値系列ＲＮa(cep)は、クリーン
な音声の線形スペクトルＳa(lin)に、加法性雑音の線形
スペクトルＮa(lin)と乗法性歪の線形スペクトルＨa^(l
in)との比Ｎa(lin)／Ｈa^(lin)を加算し、それをケプス
トラム変換することで特徴付けられている。

【００３９】したがって、適応ＨＭＭ２６は、乗法性歪
の影響を除くことが可能な十分なモデルとはなっておら
ず、このため、適応ＨＭＭ２６と観測値系列ＲＮa(cep)
とを照合部２９が照合した場合に、観測値系列ＲＮa(ce
p)と最も尤度の高い適応ＨＭＭ２６を求めることができ
ない場合が発生し、ひいては音声認識率の向上を図るこ
とができなくなる場合があるという問題があった。

【００４０】本発明は、上記従来の問題点を克服すると
共に、加法性雑音と乗法性歪に対してロバストな音声認
識システムを提供することを目的とする。

【００４１】

【課題を解決するための手段】上記目的を達成するため
本発明の音声認識システムは、予め収集した乗法性歪を
含んだ音声から生成された音声モデルと、予め収集した
加法性雑音から生成された雑音モデルと、上記音声モデ
ルに含まれる上記乗法性歪を推定する第１の推定手段
と、上記音声モデルと上記第１の推定手段で推定された
上記乗法性歪の第１の推定値と上記雑音モデルの加法性
雑音とを合成処理することによって得られる雑音付加音
声に基づいて生成された合成音声モデルと、上記雑音モ
デルの加法性雑音と上記雑音付加音声とからヤコビアン
行列を算出する算出手段と、発話音声に含まれる乗法性
歪を推定する第２の推定手段と、非発話期間に生じる加
法性雑音と、上記雑音モデルの加法性雑音と、上記第２
の推定手段で推定された上記乗法性歪の第２の推定値と
を合成処理することで雑音変化分を求めると共に、上記
雑音変化分に上記算出手段で算出されたヤコビアン行列
を乗算する第１の演算手段と、上記演算手段の求めた乗
算結果と上記合成音声モデルとを合成処理することによ
って生成された適応モデルと、発話音声と上記第２の推
定手段で推定された上記乗法性歪の第２の推定値とを合
成処理することにより観測値系列を生成する第２の演算
手段とを備え、上記観測値系列と上記適応モデルとを照
合することにより音声認識を行うことを特徴とする。

【００４２】かかる構成の音声認識システムによると、
乗法性歪を有する音声モデルと、第１の推定手段で推定
された雑音（乗法性歪）の第１の推定値と、雑音モデル
の加法性雑音とを合成処理することによって雑音付加音
声が生成され、その雑音付加音声から合成音声モデルが
生成されている。

【００４３】また、雑音変化分は、非発話期間に生じる
加法性雑音と、雑音モデルの加法性雑音と、第２の推定
手段で推定された雑音（乗法性歪）の第２の推定値とを
合成処理することによって生成される。

【００４４】また、ヤコビアン行列は、雑音モデルの加
法性雑音と、雑音付加音声（すなわち、乗法性歪を有す
る音声モデルと、第１の推定手段で推定された雑音（乗
法性歪）の第１の推定値と、雑音モデルの加法性雑音と
を合成処理することによって求められる音声）とから算
出される。

【００４５】適応モデルは、雑音変化分とヤコビアン行
列との乗算結果と、合成音声モデルとを合成処理するこ
とで生成される。すなわち、適応モデルは、合成音声モ
デルと雑音変化分とヤコビアン行列との情報を有するモ
デルとなる。

【００４６】発話がなされると、第２の演算手段が、乗
法性歪及び加法性歪みを含んだ発話音声に、上記第２の
推定手段で推定された雑音（乗法性歪）の第２の推定値
を合成処理することにより観測値系列を生成する。

【００４７】そして、観測値系列と適応モデルとを照合
することで音声認識が行われる。

【００４８】ここで、観測値系列と照合される適応モデ
ルは、観測値系列に含まれる雑音成分と整合性のとれた
雑音成分が含まれる。このため、上記の観測値系列と適
応モデルとの照合を行うと、雑音成分の影響を相殺し
て、音声モデルのクリーンな音声と発話されたクリーン
な発話音声との照合を行ったのと同等の効果が得られ
る。このため、乗法性歪と加法性歪に対してロバスト
で、適切な音声認識が実現される。

【００４９】また、上記目的を達成するため本発明の音
声認識システムは、予め収集した乗法性歪を含んだ音声
から生成された音声モデルと、予め収集した加法性雑音
から生成された雑音モデルと、上記音声モデルに含まれ
る上記乗法性歪を推定する第１の推定手段と、認識結果
に基づいて上記音声モデルに含まれる発話音声毎の誤差
を含んだ上記乗法性歪を推定する第２の推定手段と、上
記雑音モデルの加法性雑音と上記第１の推定手段で推定
された上記乗法性歪に第１の推定値を合成する第１の演
算手段と、上記第１の演算手段の合成結果と上記音声モ
デルとを合成処理することによって得られる雑音付加音
声に基づいて生成された合成音声モデルと、上記第１の
演算手段の合成結果と上記雑音付加音声とからヤコビア
ン行列を算出する算出手段と、発話音声に含まれる発話
音声毎の誤差を含んだ乗法性歪を推定する第３の推定手
段と、非発話期間に生じる加法性雑音と上記第１の演算
手段の合成結果と上記第２の推定手段で推定された上記
発話音声毎の誤差を含んだ上記乗法性歪の第２の推定値
と上記第３の推定手段で推定された上記発話音声毎の誤
差を含んだ上記乗法性歪の第３の推定値とを合成処理す
ることで雑音変化分を求めると共に、上記雑音変化分に
上記算出手段で算出されたヤコビアン行列を乗算する第
２の演算手段と、上記第２の演算手段の求めた乗算結果
と上記合成音声モデルとを合成処理することによって生
成された適応モデルと、発話音声と上記第３の推定手段
で推定された上記発話音声毎の誤差を含んだ上記乗法性
歪の第３の推定値とを合成処理することにより観測値系
列を生成する第３の演算手段とを備え、上記観測値系列
と上記適応モデルとを照合することにより音声認識を行
うことを特徴とする。

【００５０】かかる構成の音声認識システムによると、
適応モデルは、雑音変化分とヤコビアン行列との乗算結
果と、合成音声モデルとを合成処理することで生成され
る。すなわち、適応モデルは、合成音声モデルと雑音変
化分とヤコビアン行列との情報を有するモデルとなる。

【００５１】そして、発話がなされると、第３の演算手
段が、乗法性歪及び加法性歪みを含んだ発話音声に、上
記第３の推定手段で推定された雑音（乗法性歪）の第３
の推定値を合成処理することにより観測値系列を生成
し、その観測値系列と適応モデルとを照合することで音
声認識が行われる。

【００５２】ここで、観測値系列と照合される適応モデ
ルは、観測値系列に含まれる雑音成分と整合性のとれた
雑音成分が含まれる。このため、上記の観測値系列と適
応モデルとの照合を行うと、雑音成分の影響を相殺し
て、音声モデルのクリーンな音声と発話されたクリーン
な発話音声との照合を行ったのと同等の効果が得られ
る。このため、乗法性歪と加法性歪に対してロバスト
で、適切な音声認識が実現される。

【００５３】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。尚、図１は本発明の音声認識シス
テムの第１の実施の形態の構成を示すブロック図、図２
は第２の実施の形態の構成を示すブロック図である。

【００５４】まず、これら第１，第２の実施形態を説明
するに当たり、符号の説明をする。

【００５５】後述する音声ＨＭＭ１０を生成するために
用いられる時間領域の音声をＲm、初期雑音ＨＭＭ１７
を生成するために用いられる時間領域の加法性雑音をＮ
m、実際に発話された時間領域の発話音声をＲaとする。

【００５６】また、上記の音声Ｒmは、予め実験的に収
集され、雑音を含まないクリーンな音声Ｓmに乗法性歪
Ｈmが重畳したものとする。また、発話音声Ｒaは、雑音
を含まないクリーンな発話音声Ｓaに乗法性歪Ｈaと加法
性雑音Ｎaが重畳したものとする。また、実際に発話が
行われていないときの室内雑音等の背景雑音も符号Ｎa
で示すこととする。

【００５７】更に、線形スペクトル領域の情報には（li
n）、ケプストラム領域の情報には（cep）を付加して示
すこととする。例えば、初期雑音ＨＭＭ１７の音響モデ
ルのケプストラム領域での表記をＮm(cep)、線形スペク
トル領域での表記をＮm(lin)のようにして示すこととす
る。

【００５８】（第１の実施の形態）第１の実施形態を図
１を参照して説明する。尚、図１中、図４と同一又は相
当する部分を同一符号で示している。

【００５９】この音声認識システムには、音声ＨＭＭ１
０と、初期雑音ＨＭＭ１７、初期合成ＨＭＭ１６、適応
ＨＭＭ２６及び、適応ＨＭＭ２６を生成する際の演算量
を大幅に削減するためのヤコビアン行列算出部１９が備
えられ、認識すべき音声が発話されると、その発話音声
から求めたケプストラム時系列である観測値系列ＲＮa
（cep）と適応ＨＭＭ２６とを単語やサブワード単位で
照合部２９が照合し、観測値系列ＲＮa（cep）と最も尤
度の高い適応ＨＭＭを音声認識結果として出力する。

【００６０】音声ＨＭＭ１０は、実験的に収集した加法
性雑音を含まない音声Ｒmを用いてＨＭＭ法により予め
生成された音響モデルである。ただし、無響室内などで
被験者の音声Ｒmを実験的に収集することにより、加法
性雑音の影響の無い音声ＨＭＭ１０を生成しているが、
マイクロフォンや電気伝送系等における乗法性歪の影響
は除去されないため、音声ＨＭＭ１０は乗法性歪Ｈmの
影響が残された音響モデルとなっている。

【００６１】したがって、音声ＨＭＭ１０を線形スペク
トル領域（lin）で表記すれば、クリーンな音声Ｓmと乗
法性歪Ｈmとの線形スペクトルＳm(lin)，Ｈm(lin)の積
Ｒm(lin)＝Ｓm(lin)Ｈm(lin)で表され、ケプストラム領
域（cep）で表記すれば、クリーンな音声Ｓmと乗法性歪
ＨmとのケプストラムＳm(cep)，Ｈm(cep)の和Ｒm(cep)
＝Ｓm(cep)＋Ｈm(cep)で表される。

【００６２】初期雑音ＨＭＭ１７は、上記の実験によっ
て非音声区間の音（加法性雑音に相当する）を初期雑音
データＮmとして収集し、その初期雑音データＮmを用い
てあらかじめ学習された音響モデルである。したがっ
て、初期雑音ＨＭＭ１７を線形スペクトル領域（lin）
で表せばＮm(lin)となり、また、ケプストラム領域（ce
p）で表せばＮm(cep)となっている。

【００６３】初期合成ＨＭＭ１６は、音声ＨＭＭ１０と
初期雑音ＨＭＭ１７との音響モデルを線形スペクトル領
域で加算し、更にその加算結果をケプストラム領域の音
響モデルに変換することによって予め生成されている。

【００６４】つまり、実際に音声認識すべき音声が発話
される前に、音声ＨＭＭ１０から平均演算部１１と減算
器１２へ、ケプストラム領域（cep）での音声（音響モ
デル）Ｒm(cep)＝Ｓm(cep)＋Ｈm(cep)を供給し、平均演
算部１１がＣＭＮ法によって乗法性歪Ｈm(cep)の推定値
Ｈm^(cep)を求め、更に、減算器１２がＲm(cep)−Ｈm^
(cep)の演算を行うことによって、乗法性歪の推定値Ｈm
^(cep)を除いた音声Ｓm'(cep)を生成する。更に、逆ケ
プストラム変換部１３がケプストラム領域の音声Ｓm'(c
ep)を線形スペクトル領域の音声Ｓm'(lin)に変換すると
共に、逆ケプストラム変換部１８が初期雑音ＨＭＭ１７
からのケプストラム領域の初期雑音（初期雑音の音響モ
デル）Ｎm(cep)を線形スペクトル領域の初期雑音Ｎm(li
n)に変換し、更に、加算器１４が線形スペクトル領域の
音声Ｓm'(lin)と初期雑音Ｎm(lin)とを加算することに
より、加法性雑音付加音声Ｒm'(lin)＝Ｓm'(lin)＋Ｎm
(lin)を生成する。そして、ケプストラム変換部１５が
加法性雑音付加音声Ｒm'(lin)をケプストラム領域の加
法性雑音付加音声Ｒm'(cep)に変換し、初期合成ＨＭＭ
１６を生成する。

【００６５】したがって、初期合成ＨＭＭ１６は、上記
式（１）で表記されるように、加法性雑音付加音声Ｒm'
(cep)によって特徴付けられた音響モデルとなってい
る。

【００６６】ヤコビアン行列算出部１９は、逆ケプスト
ラム変換部１８にて生成される初期雑音Ｎm(lin)と加算
器１４にて生成される加法性雑音付加音声Ｒm'(lin)と
を入力し、これら線形スペクトル領域の初期雑音Ｎm(li
n)と加法性雑音付加音声Ｒm'(lin)とをケプストラム領
域に変換して上記式（６）に導入することにより、テイ
ラー展開の一次微係数行列であるヤコビアン行列Ｊ＝∂
Ｒm'(cep)／∂Ｎm(cep)を各サブワード合成ＨＭＭ毎に
予め作成する。

【００６７】適応ＨＭＭ２６は、本音声認識システムに
設けられている発話開始スイッチ（図示省略）をユーザ
ーがオン操作し、ユーザーが実際に発話を開始するまで
にマイクロフォン（図示省略）で集音される加法性雑音
に相当する背景雑音Ｎaに応じて、初期合成ＨＭＭ１６
を適応的に補償することによって生成される音響モデル
であり、上記した実際の発話開始前に予め生成されるよ
うになっている。

【００６８】更に、フレーム化部２０と、ケプストラム
演算部２１、スイッチ素子２２、加減算器２３、掛け算
器２４、加算器２５、平均演算部２７、減算器２８が備
えられている。

【００６９】フレーム化部２０は、上記の発話開始スイ
ッチがオン操作されて上記のマイクロフォンが集音状態
となると、そのマイクロフォンから出力されアナログデ
ジタル変換された背景雑音（加法性雑音に相当する）Ｎ
aや発話音声Ｒaを入力し、所定時間ずつのフレーム単位
に区分けして出力する。

【００７０】ケプストラム演算部２１は、フレーム単位
の背景雑音Ｎaや発話音声Ｒaをケプストラム演算するこ
とにより、背景雑音Ｎaや発話音声Ｒaのケプケプストラ
ムＮa(cep)，Ｒa(cep)を生成して出力する。

【００７１】スイッチ素子２２は、上記発話開始スイッ
チがオン操作されて実際に発話が行われるまでの非発話
期間内に接点ａ側に切り替わることで、背景雑音のケプ
ストラムＮa(cep)を加減算器２３側へ供給する。また、
実際に発話が行われる期間では接点ｂ側に切り替わり、
発話音声のケプストラムＲa(cep)を平均演算部２７及び
加算器２８側へ供給する。

【００７２】平均演算部２７は、発話音声のケプストラ
ムＲa(cep)をＣＭＮ法によって平均演算し、そのケプス
トラムＲa(cep)に含まれている乗法性歪Ｈaのケプスト
ラムの推定値Ｈa^(cep)を求める。

【００７３】尚、平均演算部２７には、推定値Ｈa^(ce
p)を記憶する半導体メモリ等の記憶部（図示省略）が備
えられており、発話開始スイッチが操作される毎に、前
回発話されたときに求めた推定値Ｈa^(cep)を出力する
と共に、今回の発話の際に求めた推定値Ｈa^(cep)に更
新して記憶するようになっている。

【００７４】加減算器２３は、ケプストラム領域での演
算により、背景雑音Ｎa(cep)から乗法性歪の推定値Ｈa^
(cep)と初期雑音Ｎm(cep)とを減算する。これにより、
次式（９）で表される加法性雑音ケプストラム変化分Ｎ
amh(cep)を求めて、掛け算器２４に供給する。

【数９】掛け算器２４は、加法性雑音ケプストラム変化分Ｎamh
(cep)にヤコビアン行列Ｊを乗算し、その乗算結果Ｊ
〔Ｎamh(cep)〕＝Ｊ〔Ｎa(cep)−Ｈa^(cep)−Ｎm(ce
p)〕を加算器２５に供給する。

【００７５】加算器２５は、上記の乗算結果Ｊ〔Ｎamh
(cep)〕と初期合成ＨＭＭ１６の音響モデルＲm'(cep)を
単語やサブワード単位で加算する。これにより、実際の
発話環境における背景雑音Ｎaによって適応的に補償さ
れた適応ＨＭＭ２６を生成する。つまり、適応ＨＭＭ２
６をケプストラム領域（cep）で表すと、

【数１０】となる。尚、上記式（１０）のｃｅｐ〔〕は、ケプス
トラム変換を表している。

【００７６】次に、かかる構成の音声認識システムの動
作を説明する。まず、上記したように、実際の音声認識
を開始する前に、音声ＨＭＭ１０と初期雑音ＨＭＭ１７
と初期合成ＨＭＭ１６が予め作成され、更にヤコビアン
行列算出部１９によってヤコビアン行列Ｊが作成され
る。

【００７７】次に、ユーザーにより発話開始スイッチが
オン操作されると、図示しないマイクロフォンが集音状
態になり、実際に発話が開始される前の非発話期間に、
スイッチ素子２２が接点ａ側に切り替わり、背景雑音Ｎ
aを入力する。これにより、フレーム化部２０とケプス
トラム演算部２１及びスイッチ素子２２を通じて、背景
雑音ＮaのケプストラムＮa(cep)が加減算器２３に供給
される。更に、加減算器２３には、平均演算部２７から
前回の発話時に求めた乗法性歪の推定値Ｈa^(cep)が供
給されると共に、初期雑音ＨＭＭ１７から初期雑音Ｎm
(cep)が供給される。

【００７８】そして、加減算器２３が上記式（９）で表
される加法性雑音ケプストラム変化分Ｎamh(cep)を求
め、掛け算器２４が加法性雑音ケプストラム変化分Ｎam
h(cep)にヤコビアン行列Ｊを乗算し、更に、加算器２５
がその乗算結果Ｊ〔Ｎamh(cep)〕と初期合成ＨＭＭ１６
を単語やサブワード単位で加算することにより、適応Ｈ
ＭＭ２６を生成する。

【００７９】次に、適応ＨＭＭ２６の生成が終了する
と、スイッチ素子２２は接点ｂ側に切り替わる。そし
て、ユーザーが実際に発話すると、フレーム化部２０及
びケプストラム演算部２１がその発話音声Ｒaをケプス
トラム領域の発話音声Ｒa(cep)にし、スイッチ素子２２
を介して平均演算部２７と減算器２８に供給する。

【００８０】これにより、平均演算部２７が、ＣＭＮ法
によって発話音声Ｒa(cep)に含まれている乗法性歪Ｈa
のケプストラム領域での推定値Ｈa^(cep)を新たに生成
して記憶すると共に、その新たに生成した推定値Ｈa^(c
ep)を加減算器２８に供給する。

【００８１】そして、加減算器２８が、発話音声Ｒa(ce
p)から推定値Ｈa^(cep)を減算することで、乗法性歪を
除いた観測値系列ＲＮa(cep)＝Ｒa(cep)−Ｈa^(cep)を
生成し、照合部２９が、観測値系列ＲＮa(cep)と適応Ｈ
ＭＭ２６とを単語やサブワード単位で照合し、最大尤度
の得られる適応ＨＭＭを音声認識結果として出力する。

【００８２】ここで、観測値系列ＲＮa(cep)は、上記式
（８）に示したように、クリーンな音声の線形スペクト
ルＳa(lin)に、加法性雑音の線形スペクトルＮa(lin)と
乗法性歪の線形スペクトルＨa^(lin)との比Ｎa(lin)／
Ｈa^(lin)を加算し、それをケプストラム変換すること
で特徴付けられている。一方、適応ＨＭＭ２６は、上記
式（１０）に示したように、クリーンな音声の線形スペ
クトルＳm(lin)に、加法性雑音の線形スペクトルＮa(li
n)と乗法性歪の線形スペクトルＨa^(lin)との比Ｎa(li
n)／Ｈa^(lin)を加算し、それをケプストラム変換する
ことで特徴付けられている。

【００８３】つまり、適応ＨＭＭ２６と観測値系列ＲＮ
a(cep)の雑音のスペクトルが共にＮa(lin)／Ｈa^(lin)
となることから、適応ＨＭＭ２６は、観測値系列ＲＮa
(cep)に対して整合性のとれた音響モデルとなってい
る。

【００８４】更に、照合部２９が観測値系列ＲＮa(cep)
と適応ＨＭＭ２６を照合する際、雑音のスペクトルが共
にＮa(lin)／Ｈa^(lin)であることから、これら適応Ｈ
ＭＭ２６と観測値系列ＲＮa(cep)の雑音（加法性雑音と
乗法性歪）の影響を実質的に相殺して、クリーンな音声
Ｓm(cep)とクリーンな発話音声Ｓa(cep)とを照合するこ
とになるため、音声認識率を向上することができる。

【００８５】このように、本実施形態の音声認識システ
ムによれば、適応ＨＭＭ２６を実際の発話の際に求まる
観測値系列ＲＮa(cep)に対して整合性のとれた音響モデ
ルとすることができると共に、加法性雑音と乗法性歪に
対処した構成としているため、加法性雑音と乗法性歪に
対してロバストで音声認識率の向上を図ることができ
る。更に、ヤコビアン行列を適用するための適切な構成
を実現しており、音声認識に要する時間の大幅短縮が可
能となっている。

【００８６】（第２の実施の形態）次に、第２の実施形
態の音声認識システムを図２に基づいて説明する。尚、
図２中、図１と同一又は相当する部分を同一符号で示し
ている。

【００８７】図２において、第１の実施形態との相違点
を述べると、本実施形態の音声認識システムでは、２つ
の平均演算部１１ａ，１１ｂと、加算器１２a、減算器
２３ａ、加算器３０が備えられている。

【００８８】尚、図１中の加算器１２は設けられておら
ず、音声ＨＭＭ１０のケプストラム領域の音声Ｒm(cep)
が逆ケプストラム変換部１３に直接供給されるようにな
っている。

【００８９】第１の平均演算部１１ａは、音声ＨＭＭ１
０の平均ベクトルの全平均を求める等、大量な音声ＨＭ
Ｍの情報量の平均を求めることにより、乗法性歪の推定
値Ｈm1^(cep)を求める。

【００９０】第２の平均演算部１１ｂは、1つ前の発話
時においてＨa^(後述)推定に使用された発話音声区間
(過去数発話分)の、認識結果に対応するサブワード音声
ＨＭＭの平均ベクトルを平均することで、真の乗法性歪
Ｈm(cep)に発話音声に応じて異なる乗法性歪の誤差分Ｈ
me(cep)を含んだ形の、推定値Ｈm1^(cep)とも推定値Ｈm
^(cep)とも異なる新たな乗法性歪の推定値Ｈm2^(cep)＝
Ｈm(cep)＋Ｈme(cep)を生成する。

【００９１】加算器１２ａは、初期雑音ＨＭＭ１７から
の初期雑音Ｎm(cep)と第１の平均演算部１１ａからの推
定値Ｈm1^(cep)とを加算し、その加算結果Ｎmh(cep)＝
Ｎm(cep)＋Ｈm1^(cep)を加減算器２３ａ及び逆ケプスト
ラム変換部１８に供給する。

【００９２】加減算器２３ａは、上記の加減算器２３ａ
からの加算結果Ｎmh(cep)の他、第２の平均演算部１１
ｂからの推定値Ｈm2^(cep)が供給され、更に非発話期間
中に、平均演算部２７からの推定値Ｈa^(cep)と背景雑
音Ｎa(cep)が供給される。これにより、加減算器２３ａ
では、次式（１１）で表されるように、適応ＨＭＭ２６
を生成するために用いる加法性雑音ケプストラム変化分
Ｎamh'(cep)が生成される。

【数１１】

【００９３】本実施形態の初期合成ＨＭＭ１６は、図示
するように、加算器１２ａで生成される加算結果Ｎmh(c
ep)と、音声ＨＭＭ１０からの乗法性歪Ｈmの除かれてい
ない音声Ｒm(cep)とによって予め生成されている。すな
わち、乗法性歪Ｈmの除かれていない音声Ｒm(cep)を逆
ケプストラム変換部１３が線形スペクトル領域の音声Ｒ
m(lin)に変換し、逆ケプストラム変換部１８が上記の加
算結果Ｎmh(cep)を線形スペクトル領域の加算結果Ｎmh
(lin)に変換する。そして、加算器１４がＲm(lin)とＮm
h(lin)を加算し、その加算演算によって生成される加法
性雑音付加音声Ｒmh(lin)＝Ｒm(lin)＋Ｎmh(lin)をケプ
ストラム変換部１５がケプストラム領域の加法性雑音付
加音声Ｒmh(cep)に変換することにより、初期合成ＨＭ
Ｍ１６が生成されている。したがって、初期合成ＨＭＭ
１６は、次式（１２）で表される。

【数１２】尚、式（１２）中のｃｅｐ〔〕はケプストラム変換を
表している。

【００９４】本実施形態の平均演算部２７は、発話期間
中に発話音声ＲaのケプストラムＲa(cep)がスイッチ素
子２２の接点ｂを経由して供給されると、Ｒa(cep)に含
まれている真の乗法性歪Ｈa(cep)に、発話音声に応じて
異なる乗法性歪の誤差分Ｈae(cep)が含まれた形とな
り、乗法性歪の推定値はＨa^(cep)＝Ｈa(cep)＋Ｈae(ce
p)と表される。

【００９５】したがって、図１に示した第１の実施形態
の平均演算部２７は、乗法性歪Ｈa(cep)の時間平均をＨ
a^(cep)としているのに対し、図２に示す本実施形態の
平均演算部２７は、上記Ｈa(cep)＋Ｈae(cep)をＨa^(ce
p)としている点が異なっている。ここで、Ｈaeは発話内
容によって変動する乗法性歪推定値の誤差である。発話
内容は認識結果が正しければ認識結果に一致する。Ｈm2
＾推定時にも認識結果を用いてＨa^推定時の発話内容を
対応させている。よって、Ｈae≒Ｈmeとなり発話音声に
応じて異なる乗法性歪の誤差の対応が取れることにな
る。

【００９６】本実施形態のヤコビアン行列算出部１９
は、逆ケプストラム変換部１８にて生成される雑音Ｎmh
(lin)と加算器１４にて生成される加法性雑音付加音声
Ｒmh(lin)とを入力し、これら線形スペクトル領域の雑
音Ｎmh(lin)と加法性雑音付加音声Ｒmh(lin)とをケプス
トラム領域に変換して上記式（６）に導入することによ
り、テイラー展開の一次微係数Ｊ＝∂Ｒmh(cep)／∂Ｎm
h(cep)をヤコビアン行列Ｊとして予め作成する。

【００９７】そして、掛け算器２４が、このヤコビアン
行列Ｊと加減算器２３ａからの加法性雑音ケプストラム
変化分Ｎamh'(cep)とを乗算することにより、その乗算
結果Ｊ〔Ｎamh'(cep)〕を加算器２５に供給し、更に加
算器２５が乗算結果Ｊ〔Ｎamh'(cep)〕と初期合成ＨＭ
Ｍ１６を加算することで、適応ＨＭＭ２６を生成する。

【００９８】尚、乗算結果Ｊ〔Ｎamh'(cep)〕は、上記
式（１１）の関係から、Ｊ〔Ｎa(cep)＋Ｈm2^(cep)−Ｈ
a^(cep)−Ｎm(cep)−Ｈm1^(cep)〕となり、適応ＨＭＭ
２６は、

【数１３】となる。

【００９９】加算器３０は、発話時に加減算器２８から
供給される発話音声Ｒa(cep)と推定値Ｈa^(cep)との差
Ｒa(cep)−Ｈa^(cep)に、第２の平均演算部１１ｂから
の推定値Ｈm2^(cep)を加算することで、観測値系列ＲＮ
ah(cep)＝Ｒa(cep)−Ｈa^(cep)＋Ｈm2^(cep)を生成して
照合部２９に供給する。したがって、観測値系列ＲＮah
(cep)は、次式（１４）で表記されるように、

【数１４】となる。

【０１００】次に、かかる構成の本音声認識システムの
動作を説明する。まず、上記したように、実際の音声認
識を開始する前に、音声ＨＭＭ１０と初期雑音ＨＭＭ１
７と初期合成ＨＭＭ１６が予め作成され、更にヤコビア
ン行列算出部１９によってヤコビアン行列Ｊが作成され
る。

【０１０１】次に、ユーザーにより発話開始スイッチが
オン操作されると、図示しないマイクロフォンが集音状
態になり、実際に発話が開始される前の非発話期間に、
スイッチ素子２２が接点ａ側に切り替わり、背景雑音Ｎ
aを入力する。これにより、フレーム化部２０とケプス
トラム演算部２１及びスイッチ素子２２を通じて、背景
雑音ＮaのケプストラムＮa(cep)が加減算器２３ａに供
給される。更に、加減算器２３ａには、平均演算部２７
から前回の発話時に求めた乗法性歪の推定値Ｈa^(cep)
が供給されると共に、加算器１２ａからの雑音Ｎmh(ce
p)と、第２の平均演算部１１ｂからの推定値Ｈm2^(cep)
が供給される。Ｈm2^(cep)は1つ前の発話時においてＨa
^(後述)推定に使用された発話音声区間(過去数発話分)
の、認識結果に対応するサブワード音声ＨＭＭの平均ベ
クトルを平均することで、推定される。

【０１０２】そして、加減算器２３ａが上記式（１１）
で表される加法性雑音ケプストラム変化分Ｎamh'(cep)
を求め、掛け算器２４が加法性雑音ケプストラム変化分
Ｎamh'(cep)にヤコビアン行列Ｊを乗算し、更に、加算
器２５がその乗算結果Ｊ〔Ｎamh'(cep)〕と初期合成Ｈ
ＭＭ１６を単語やサブワード単位で加算することによ
り、適応ＨＭＭ２６を生成する。

【０１０３】次に、適応ＨＭＭ２６の生成が終了する
と、スイッチ素子２２は接点ｂ側に切り替わる。そし
て、ユーザーが実際に発話すると、フレーム化部２０及
びケプストラム演算部２１がその発話音声Ｒaをケプス
トラム領域の発話音声Ｒa(cep)にし、スイッチ素子２２
を介して平均演算部２７と減算器２８に供給する。

【０１０４】これにより、平均演算部２７が、乗法性歪
Ｈaのケプストラム領域での推定値Ｈa^(cep)を新たに生
成して記憶する。加減算器２８には１つ前の発話時に推
定した、更新前のＨa^(cep)を供給する。

【０１０５】そして、加減算器２８が、発話音声Ｒa(ce
p)から推定値Ｈa^(cep)を減算することで、乗法性歪を
除いた観測値系列ＲＮah(cep)＝Ｒa(cep)−Ｈa^(cep)を
生成し、照合部２９が、観測値系列ＲＮah(cep)と適応
ＨＭＭ２６とを単語やサブワード単位で照合し、最大尤
度の得られる適応ＨＭＭを音声認識結果として出力す
る。

【０１０６】ここで、観測値系列ＲＮah(cep)は上記式
（１４）で表され、適応ＨＭＭ２６は上記式（１３）で
表される。すなわち、観測値系列ＲＮah(cep)と適応Ｈ
ＭＭ２６の雑音スペクトルが共にＮa(lin)Ｈm2^(lin)／
Ｈa^(lin)となることから、適応ＨＭＭ２６は、観測値
系列ＲＮa(cep)に対して整合性のとれた音響モデルとな
っている。

【０１０７】更に、照合部２９が観測値系列ＲＮa(cep)
と適応ＨＭＭ２６を照合する際、雑音のスペクトルが共
にＮa(lin)Ｈm2^(lin)／Ｈa^(lin)であることから、ク
リーンな音声Ｓm(cep)に乗法性歪Ｈm(cep)が重畳した音
声Ｓm(cep)Ｈm(cep)とクリーンな発話音声Ｓa(cep)に乗
法性歪Ｈa(cep)が重畳した音声Ｓa(cep)Ｈa(cep)とを照
合することになる。このため、Ｎa(lin)Ｈm2^(lin)／Ｈ
a^(lin)の影響を実質的に相殺して照合することが可能
となり、更に、乗法性歪Ｈm(cep)とＨa(cep)の影響を実
質的に相殺して照合することが可能となる。つまり、加
法性雑音と乗法性歪みとの両者の影響を実質的に相殺す
ることが可能となり、クリーンな音声Ｓm(cep)とクリー
ンな発話音声Ｓa(cep)とを照合することになるため、音
声認識率を向上することができる。

【０１０８】このように、本実施形態の音声認識システ
ムによれば、適応ＨＭＭ２６を実際の発話の際に求まる
観測値系列ＲＮah(cep)に対して整合性のとれた音響モ
デルとすることができると共に、加法性雑音と乗法性歪
に対処した構成としているため、加法性雑音と乗法性歪
に対してロバストで音声認識率の向上を図ることができ
る。更に、ヤコビアン行列を適用するための適切な構成
を実現しており、音声認識に要する時間の大幅短縮が可
能となっている。

【０１０９】尚、以上の第１，第２の実施形態の説明で
は、音声と雑音との加算や、音声から雑音を減算する等
の演算処理を、スペクトル領域又はケプルトラム領域に
おいて行うこととしているが、これらの加算と減算の演
算処理は、音声と雑音等をスペクトル領域又はケプスト
ラム領域にて合成することを意味している。例えば、図
２中の加減算器２８が、発話音声Ｒa(cep)から推定値Ｈ
a^(cep)を減算することで、それらの差Ｒa(cep)−Ｈa^
(cep)を求めているが、かかるケプストラム領域での減
算は、Ｒa(cep)とＨa^(cep)とを合成することを意味し
ている。また、図２中の加算器３０が、加減算器２８か
らの差Ｒa(cep)−Ｈa^(cep)に第２の平均演算部１１ｂ
からの推定値Ｈm2^(cep)を加算することで、観測値系列
ＲＮah(cep)を求めているが、かかるケプストラム領域
での加算は、差Ｒa(cep)−Ｈa^(cep)と推定値Ｈm2^(ce
p)とを合成することを意味している。

【０１１０】

【発明の効果】以上説明したように本発明の音声認識シ
ステムによれば、音声モデルと雑音モデルから合成音声
モデルを生成すると共に、その合成音声モデルを基準の
モデルとして乗法性歪と加法性雑音の情報を予め含んだ
適応モデルを生成しておき、実際に発話がなされると、
発話音声から生成する観測値系列と適応モデルとを照合
することで音声認識を行う構成とし、更に、適応モデル
を観測値系列と整合性のとれる構成にしたので、乗法性
歪と加法性歪に対してロバストで、適切な音声認識を行
うことが可能な音声認識システムを提供することができ
る。

【０１１１】また、ヤコビアン行列を適用して演算量の
大幅低減を実現するのに好適な構成の音声認識システム
を提供することができ、よって、高速な音声認識システ
ムを提供することができる。

【図面の簡単な説明】

【図１】第１の実施形態の音声認識システムの構成を示
すブロック図である。

【図２】第２の実施形態の音声認識システムの構成を示
すブロック図である。

【図３】従来の音声認識システムの構成を示すブロック
図である。

【図４】本発明の音声認識システムを開発するに当た
り、本願発明者が考案及び検討した音声認識システムの
構成を示すブロック図である。

【符号の説明】

１０…音声ＨＭＭ１１，１１ａ，１１ｂ，２７…平均演算部１２…減算器１３，１８…逆ケプストラム変換部１４，２５，１２ａ，３０…加算器１５…ケプストラム変換部１６…初期合成ＨＭＭ１７…初期雑音ＨＭＭ１９…ヤコビアン行列算出部２０…フレーム化部２１…ケプストラム演算部２２…スイッチ素子２３，２３ａ，２８…加減算器２４…掛け算器２６…適応ＨＭＭ２９…照合部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考） // Ｇ１０Ｌ 101:04 (72)発明者外山聡一埼玉県鶴ヶ島市富士見６丁目１番１号パイオニア株式会社総合研究所内Ｆターム(参考） 5D015 EE05 GG01 GG05 HH11

Claims

【特許請求の範囲】

【請求項１】予め収集した乗法性歪を含んだ音声から
生成された音声モデルと、予め収集した加法性雑音から生成された雑音モデルと、前記音声モデルに含まれる前記乗法性歪を推定する第１
の推定手段と、前記音声モデルと、前記第１の推定手段で推定された前
記乗法性歪の第１の推定値と、前記雑音モデルの加法性
雑音とを合成処理することによって得られる雑音付加音
声に基づいて生成された合成音声モデルと、前記雑音モデルの加法性雑音と前記雑音付加音声とから
ヤコビアン行列を算出する算出手段と、発話音声に含まれる乗法性歪を推定する第２の推定手段
と、非発話期間に生じる加法性雑音と、前記雑音モデルの加
法性雑音と、前記第２の推定手段で推定された前記乗法
性歪の第２の推定値とを合成処理することで雑音変化分
を求めると共に、前記雑音変化分に前記算出手段で算出
されたヤコビアン行列を乗算する第１の演算手段と、前記演算手段の求めた乗算結果と前記合成音声モデルと
を合成処理することによって生成された適応モデルと、発話音声と前記第２の推定手段で推定された前記乗法性
歪の第２の推定値とを合成処理することにより観測値系
列を生成する第２の演算手段とを備え、前記観測値系列と前記適応モデルとを照合することによ
り音声認識を行うことを特徴とする音声認識システム。
【請求項２】前記演算手段は、ケプストラム領域にお
いて、前記加法性雑音から、前記雑音モデルの加法性雑
音と、前記第２の推定手段で推定された前記雑音の第２
の推定値とを減算することにより、前記合成処理を行う
ことを特徴とする請求項１記載の音声認識システム。
【請求項３】予め収集した乗法性歪を含んだ音声から
生成された音声モデルと、予め収集した加法性雑音から生成された雑音モデルと、前記音声モデルに含まれる前記乗法性歪を推定する第１
の推定手段と、認識結果に基づいて前記音声モデルに含まれる発話音声
毎の誤差を含んだ前記乗法性歪を推定する第２の推定手
段と、前記雑音モデルの加法性雑音と前記第１の推定手段で推
定された前記乗法性歪に第１の推定値を合成する第１の
演算手段と、前記第１の演算手段の合成結果と前記音声モデルとを合
成処理することによって得られる雑音付加音声に基づい
て生成された合成音声モデルと、前記第１の演算手段の合成結果と前記雑音付加音声とか
らヤコビアン行列を算出する算出手段と、発話音声に含まれる発話音声毎の誤差を含んだ乗法性歪
を推定する第３の推定手段と、非発話期間に生じる加法性雑音と、前記第１の演算手段
の合成結果と、前記第２の推定手段で推定された前記発
話音声毎の誤差を含んだ前記乗法性歪の第２の推定値
と、前記第３の推定手段で推定された前記発話音声毎の
誤差を含んだ前記乗法性歪の第３の推定値とを合成処理
することで雑音変化分を求めると共に、前記雑音変化分
に前記算出手段で算出されたヤコビアン行列を乗算する
第２の演算手段と、前記第２の演算手段の求めた乗算結果と前記合成音声モ
デルとを合成処理することによって生成された適応モデ
ルと、発話音声と前記第３の推定手段で推定された前記発話音
声毎の誤差を含んだ前記乗法性歪の第３の推定値とを合
成処理することにより観測値系列を生成する第３の演算
手段とを備え、前記観測値系列と前記適応モデルとを照合することによ
り音声認識を行うことを特徴とする音声認識システム。
【請求項４】前記演算手段は、ケプストラム領域にお
いて、前記加法性雑音に対し、前記第２の推定手段で推
定された前記発話音声毎の誤差を含んだ前記乗法性歪の
第２の推定値を加算すると共に、前記第１の演算手段の
合成結果と前記第３の推定手段で推定された前記発話音
声毎の誤差を含んだ前記乗法性歪の第３の推定値とを減
算することにより、前記合成処理を行うことを特徴とす
る請求項３記載の音声認識システム。