JPH1097278A

JPH1097278A - 音声認識方法および装置

Info

Publication number: JPH1097278A
Application number: JP8250537A
Authority: JP
Inventors: Satoshi Takahashi; 敏高橋; Yoshikazu Yamaguchi; 義和山口; Shigeki Sagayama; 茂樹嵯峨山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-09-20
Filing date: 1996-09-20
Publication date: 1998-04-14
Anticipated expiration: 2016-09-20
Also published as: JP3250604B2

Abstract

(57)【要約】【課題】雑音除去法とＨＭＭ合成法を併用することに
より高い認識性能で雑音重畳音声を適確かつ高速に認識
することができる音声認識方法および装置を提供する。【解決手段】雑音のない音声データをもとに音声単位
のＨＭＭを作成してクリーン音声モデルとして記憶して
おき、雑音を減算した雑音重畳音声パワースペクトルか
ら音声特徴パラメータを音響パラメータ抽出部１１０で
抽出し、雑音パワースペクトルから平均雑音パワースペ
クトルを減算して、消し残りパワースペクトルを算出
し、雑音ＨＭＭを雑音モデル学習部１１４で学習し、こ
の学習した雑音ＨＭＭをクリーン音声モデルとモデル合
成部１１５で合成して合成モデルを作成し、この合成モ
デルを用いて音声特徴パラメータに対する各モデルの尤
度を計算し、尤度の最も大きなモデルを認識結果として
出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、確率モデルを用い
て各カテゴリの特徴量をモデル化しておき、入力特徴量
系列に対する各モデルの尤度を求めて入力データの認識
を行う音声認識方法および装置に関する。

【０００２】

【従来の技術】従来の音声認識において、認識すべき音
声単位（音素、音節、単語など）を隠れマルコフモデル
（Hidden Markov Model ，以下ＨＭＭと記す）を用いて
モデル化しておく方法は、性能が高く、現在の主流にな
っている。このＨＭＭ法の詳細は例えば文献１（中川聖
一：確率モデルによる音声認識、電子情報通信学会）に
示されている。図５に従来のＨＭＭを用いた音声認識装
置の構成例を示す。入力端子２１から入力された音声
は、Ａ／Ｄ変換部２２においてディジタル信号に変換さ
れる。そのディジタル信号から音声特徴パラメータ抽出
部２３において音声特徴パラメータを抽出する。予め、
認識しようとする音声単位（例えば音素、音節、単語）
ごとに作成したＨＭＭをＨＭＭメモリ２４から読み出
し、モデル尤度計算部２５において、入力音声に対する
各モデルの尤度を計算する。最も大きな尤度を示すモデ
ルが表現する音声単位を認識結果として認識結果出力部
２６より出力する。

【０００３】背景雑音などの加算性雑音が重畳した音声
の認識方法を２つ説明する。１つは入力音声に重畳した
雑音を除去した後に認識する方法である。雑音除去方法
はいろいろと考案されているが、ここでは、スペクトル
サブトラクション法（以下、ＳＳ法と記す）について説
明する（例えば、S.F.Boll: "Suppression of Acoustic
Noise in Speech Using Spectral Subtraction," IEEE
Transaction on Acousitcs,Speech and Signal Proces
sing,Vol.27,No.2,pp.113-120,1979）。時間領域で加算
性の２つの信号は、線形パワースペクトル上でも加算的
であることから、ＳＳ法では、雑音重畳音声から雑音成
分をパワースペクトル上で差し引き、音声成分を抽出す
る。

【０００４】図６にスペクトルサブトラクションを用い
た音声認識装置の構成例を示す。Ａ／Ｄ変換部３２にお
いてディジタル信号に変換された入力信号は、雑音であ
るか雑音重畳音声であるかを雑音・音声判定部３３で判
定される。雑音であるならば音声雑音スイッチ３４を雑
音端子側３６に接続し、雑音区間の平均パワースペクト
ルを計算する。認識対象である雑音重畳音声区間である
と判定された場合は、音声雑音スイッチ３４を音声端子
側３５に接続する。そして、スペクトルサブトラクショ
ン部３９において、各時刻で計算された雑音重畳音声の
パワースペクトルから、平均雑音パワースペクトル計算
部３７で計算された平均雑音パワースペクトルを差し引
く。時刻ｔのパワースペクトルの周波数帯域（チャンネ
ル）ｉの雑音除去後のパワースペクトルＹ^D _t,iは以下
のように計算される。

【０００５】

【数１】である。

【０００６】スペクトルサブトラクション部３９から出
力されるパワースペクトルから、次数の少ない音声特徴
パラメータ（例えば、１６次ケプストラムなど）を音響
パラメータ抽出部３１０で計算する。これ以後の処理は
図５で説明した通りである。なお、パワースペクトルで
はなく振幅スペクトルを用いる場合もある。

【０００７】次に、他方のＨＭＭの合成による雑音重畳
音声の認識手法（例えば、F.Martin，他：Recognition
of Noizy Speech by Using the Composition of Hidden
Morkov Models，音響学会平成４年度秋季研究発表会講
演論文集 1-7-10,1992）について説明する。雑音重畳音
声に対しては、原理的には、認識対象音声に重畳する雑
音をすべての学習データに重畳し、ＨＭＭを作成し、こ
れを用いて認識すれば性能は向上する。しかし、一般に
ＨＭＭを作成するための学習データ量は膨大であり、モ
デル作成のための計算時間がかかる（例えば、１００時
間）。そこで、雑音のない大量の音声データをもとに予
めクリーン音声ＨＭＭを作成しておく。認識時には背景
雑音を観測してＨＭＭを作成し直し、クリーン音声ＨＭ
Ｍと合成する。得られた雑音重畳音声ＨＭＭは、認識時
の背景雑音を含む音声モデルの近似であり、これを用い
て認識する。雑音モデルの作成、モデルの合成にかかる
時間は例えば３０秒程度である。確率モデルであるＨＭ
Ｍを用いるので、音声の変動、雑音の変動を考慮するこ
とができる。

【０００８】

【発明が解決しようとする課題】一般に、どのような優
れた雑音除去法を用いても、背景雑音が重畳した音声か
ら、音声のみを完全に抽出することは困難である。例え
ばＳＳ法では、パワースペクトルの推定に統計的誤差が
必ず生じることや、雑音が時間的に変動する場合がある
ことなどから、雑音成分の引き残りが生じる。また、雑
音パワースペクトルの推定結果によっては、音声のパワ
ースペクトルを歪ませる場合もある。よって、ＳＳ法を
適用しても、十分に満足できる認識性能が得られないと
いう問題があった。

【０００９】また、ＨＭＭ合成では雑音成分を音声モデ
ルに重畳するため、ＳＮ比が悪くなるに従い、合成され
た雑音重畳音声モデルは雑音が過度に重畳した複雑なス
ペクトル形状を表現する必要が出てくる。このスペクト
ルを次数を打ち切ったケプストラム（例えば、１６次）
で表現すると、打ち切り誤差が生じ、含まれる音素情報
も失われる。従って、ＳＮ比が悪くなるにつれ、認識性
能も徐々に悪くなるという問題があった。更に、確率モ
デルを用いて雑音を表現するため、雑音モデルの学習デ
ータ長が比較的長く（例えば、５秒程度）必要であり、
時間的に変動する雑音に瞬時に対処できないという問題
もあった。

【００１０】本発明は、上記に鑑みてなされたもので、
その目的とするところは、雑音除去法とＨＭＭ合成法を
併用することにより高い認識性能で雑音重畳音声を適確
かつ高速に認識することができる音声認識方法および装
置を提供することにある。

【００１１】

【課題を解決するための手段】上記目的を達成するた
め、請求項１記載の本発明は、入力音声特徴ベクトル時
系列に対して各認識カテゴリの特徴を表現した確率モデ
ルの確率を計算し、最も高い確率を示すモデルが表現す
るカテゴリを認識結果として出力する音声認識方法にお
いて、背景雑音を観測し、観測された雑音に雑音除去法
を適用し、消し残った雑音データをもとに確率モデルを
作成し、雑音のない音声データをもとに予め作成してお
いた音声モデルと前記確率モデルとの合成を行い、雑音
が重畳した認識対象の音声に対して雑音除去法を適用
し、出力された信号を前記モデル合成で得られたモデル
を用いて認識することを要旨とする。

【００１２】請求項１記載の本発明にあっては、観測さ
れた雑音に雑音除去法を適用し、消し残った雑音データ
をもとに確率モデルを作成し、雑音のない音声データを
もとに予め作成しておいた音声モデルと前記確率モデル
との合成を行い、雑音が重畳した認識対象の音声に対し
て雑音除去法を適用し、出力された信号を合成モデルを
用いて認識する。

【００１３】また、請求項２記載の本発明は、請求項１
記載の発明において、前記雑音除去に際し、観測された
雑音の一部または全部を用いて平均スペクトルを計算
し、この平均スペクトルを観測された雑音または雑音重
畳音声のスペクトルから差し引くスペクトルサブトラク
ション法を用いることを要旨とする。

【００１４】請求項２記載の本発明にあっては、雑音除
去に際し、雑音の平均スペクトルを計算し、この平均ス
ペクトルを雑音または雑音重畳音声のスペクトルから差
し引くスペクトルサブトラクション法を用いている。

【００１５】更に、請求項３記載の本発明は、雑音のな
い音声データをもとに音声単位のＨＭＭを作成してクリ
ーン音声モデルとして記憶するクリーン音声モデルメモ
リと、入力音声信号をディジタル信号に変換するＡ／Ｄ
変換手段と、該Ａ／Ｄ変換手段で変換されたディジタル
信号が雑音である場合、雑音のパワースペクトルおよび
平均パワースペクトルを計算する雑音パワースペクトル
計算手段と、前記Ａ／Ｄ変換手段で変換されたディジタ
ル信号が雑音重畳音声である場合、雑音重畳音声のパワ
ースペクトルを計算する雑音重畳音声パワースペクトル
計算手段と、この計算した雑音重畳音声パワースペクト
ルから前記平均雑音パワースペクトルを減算する減算手
段と、この雑音を減算された雑音重畳音声パワースペク
トルから音声特徴パラメータを計算する音声特徴パラメ
ータ抽出手段と、前記雑音パワースペクトルから前記平
均雑音パワースペクトルを減算し、消し残りパワースペ
クトルを算出し、雑音ＨＭＭを学習する雑音モデル学習
手段と、該雑音モデル学習手段で学習した雑音ＨＭＭを
前記クリーン音声モデルと合成し、合成モデルを作成す
るモデル合成手段と、該モデル合成手段で作成した合成
モデルを用いて前記音声特徴パラメータ抽出手段で抽出
された音声特徴パラメータに対する各モデルの尤度を計
算する尤度計算手段と、該尤度計算手段で計算された尤
度の最も大きなモデルを認識結果として出力する認識結
果出力手段とを有することを要旨とする。

【００１６】請求項３記載の本発明にあっては、雑音の
ない音声データをもとに音声単位のＨＭＭを作成してク
リーン音声モデルとして記憶しておき、雑音を減算した
雑音重畳音声パワースペクトルから音声特徴パラメータ
を計算するとともに、雑音パワースペクトルから平均雑
音パワースペクトルを減算して、消し残りパワースペク
トルを算出し、雑音ＨＭＭを学習し、この学習した雑音
ＨＭＭをクリーン音声モデルと合成して、合成モデルを
作成し、この合成モデルを用いて音声特徴パラメータに
対する各モデルの尤度を計算し、尤度の最も大きなモデ
ルを認識結果として出力する。

【００１７】

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。

【００１８】図１は、本発明の一実施形態に係る音声認
識装置の構成を示すブロック図である。同図に示す音声
認識装置は、雑音除去法とＨＭＭ合成法を併用すること
を最も主要な特徴とするものであり、入力された雑音重
畳音声から雑音除去法によって雑音成分を取り除くと同
時に、観測した雑音に対しても同様に雑音除去法を適用
し、引き残り雑音を得る。そして、この引き残り雑音を
用いて雑音ＨＭＭを作成し、予め作成したクリーン音声
モデルと合成して、合成モデルを作成し、この合成モデ
ルを用いて引き残り雑音が重畳した音声を認識するもの
である。なお、雑音除去法の多くは、時間領域やスペク
トル領域で重畳した雑音を消去する。このとき雑音成分
の引き残りが生じる場合や雑音成分を引き過ぎて音声が
歪む場合がある。しかし、これらはすべて、加算性雑音
と考えることができる。従って、雑音除去法適用後に音
声に重畳している雑音成分はＨＭＭ合成で対処すること
ができる。雑音除去法適用後の雑音重畳音声は、ＳＮ比
が改善されている。従って、音響パラメータの次数が打
ち切られても、失われる音素情報は少ない。また、引き
残り雑音を確率モデルで表現するので、雑音の分散（変
動）を考慮することができる。

【００１９】具体的に説明すると、図１に示すように、
本実施形態の音声認識装置は、信号入力端子１１から入
力される音声信号をディジタル信号に変換するＡ／Ｄ変
換部１２、該Ａ／Ｄ変換部１２で変換されたディジタル
信号が雑音であるか雑音重畳音声であるかを判定する雑
音音声判定部１３、雑音であるか雑音重畳音声であるか
によってルートを切り替える音声雑音スイッチ１４、入
力音声信号が雑音である場合、雑音区間の平均パワース
ペクトルを計算する平均雑音パワースペクトル計算部１
７、入力音声信号が雑音重畳音声である場合、雑音重畳
音声のパワースペクトルを計算する雑音重畳音声パワー
スペクトル計算部１８、この計算した雑音重畳音声パワ
ースペクトルから前記平均雑音パワースペクトル計算部
１７で計算した平均雑音パワースペクトルを減算するス
ペクトルサブトラクション部１９、該スペクトルサブト
ラクション部１９から出力されるパワースペクトルから
音声特徴パラメータを計算する音響パラメータ抽出部１
１０、雑音区間の全部または一部の区間のフレームの雑
音パワースペクトルを計算し、この雑音パワースペクト
ルから前記平均雑音パワースペクトル計算部１７で計算
した平均雑音パワースペクトルを減算するスペクトルサ
ブトラクション部１１３、消し残ったパワースペクトル
を特徴分析し、複数フレームの特徴パラメータを用いて
雑音ＨＭＭを学習する雑音モデル学習部１１４、雑音の
ない音声データを基に認識する音声単位のＨＭＭを作成
し、クリーン音声ＨＭＭとして記憶するクリーン音声モ
デルメモリ１１６、雑音モデル学習部１１４からの雑音
ＨＭＭとクリーン音声モデルメモリ１１６からのクリー
ン音声ＨＭＭとを合成するモデル合成部１１５、該モデ
ル合成部１１５で合成された合成モデルを用いて、前記
音声特徴パラメータ抽出手段で抽出された音声特徴パラ
メータに対する各モデルの尤度を計算するモデル尤度計
算部１１１、該尤度計算部１１１で計算された尤度の最
も大きなモデルを認識結果として出力する認識結果出力
部１１２から構成されている。

【００２０】以上のように構成される音声認識装置にお
いては、予め雑音のない音声データをもとに認識する音
声単位のＨＭＭを作成し、クリーン音声モデルメモリ１
１６に格納しておく。認識時には、はじめに背景雑音を
観測する。背景雑音の観測は、システムのアイドリング
時に行ってもよいし、発声直前の区間を利用してもよ
い。入力信号が背景雑音であるならば音声雑音スイッチ
１４を雑音端子側１６に接続し、平均雑音パワースペク
トル計算部１７で雑音区間の平均パワースペクトルを計
算する。平均パワースペクトルの計算は観測した雑音の
全区間を用いても一部の区間を用いてもよい。次に、雑
音区間の全部、あるいは一部の区間のフレームの雑音パ
ワースペクトルを計算し、平均雑音パワースペクトルを
スペクトルサブトラクション部１１３で差し引く。この
ときの計算は、例えば式（１）に従う。消し残った雑音
をもとに雑音ＨＭＭを雑音モデル学習部１１４で作成
し、メモリ１１６からのクリーン音声ＨＭＭとモデル合
成部１１５で合成する。

【００２１】一方、認識対象である雑音重畳音声が入力
された場合は、音声雑音スイッチ１４を音声端子側１５
に接続する。そして、スペクトルサブトラクション部１
９において、各時刻で計算された雑音重畳音声のパワー
スペクトルから、平均雑音パワースペクトル計算部１７
で計算された平均雑音パワースペクトルを差し引く。消
し残り雑音の重畳した音声をモデル合成部１１５で得ら
れたモデルを用いて認識し、結果を認識結果出力部１１
２から出力する。

【００２２】次に、図２に示すフローチャートを参照し
て、図１に示す音声認識装置の作用を説明する。

【００２３】本音声認識装置においては、音声モデルは
学習に時間がかかるので、上述したように、予め雑音の
ない大量の音声データをもとに認識する音声単位のＨＭ
Ｍを作成し、クリーン音声モデルとして前記クリーン音
声モデルメモリ１１６に記憶しておく。

【００２４】このような状態において、図２の処理で
は、雑音重畳音声のパワースペクトルを計算する（ステ
ップＳ１１）。また、音声区間が開始したか否かを雑音
音声判定部１３で判定する（ステップＳ１２）。本実施
形態では、まず背景雑音を観測するので、雑音音声判定
部１３を雑音端子側１６に切り替え、入力信号が背景雑
音であると判定されたフレームを複数個集めて、平均雑
音パワースペクトル計算部１７において雑音パワースペ
クトルを平均し、平均雑音パワースペクトルを計算する
（ステップＳ１３）。なお、平均パワースペクトルの計
算に用いるフレーム数は多い方が結果がよいが、処理時
間の都合上、観測した雑音の一部の区間を用いてもよ
い。雑音の種類にもよるが、最低３００ｍｓ程度の時間
長の雑音から平均を求めてもよい。

【００２５】次に、入力信号が雑音重畳音声であると雑
音音声判定部１３で判定された各フレーム区間について
はそのパワースペクトルから前記平均雑音パワースペク
トルを減算する（ステップＳ１４）。この時、パワース
ペクトルの各周波数帯域（チャンネル）について、例え
ば式（１）で示した演算を行う。この式は各周波数帯域
で入力スペクトルに応じたフロアリング値を設けること
を意味している。

【００２６】上述したように、雑音を引かれた雑音重畳
音声パワースペクトルは、音響パラメータ抽出部１１０
で特徴量を分析されて音響パラメータが抽出され（ステ
ップＳ１６−Ｓ１９）、認識モデルの入力としてモデル
尤度計算部１１１に入力される。

【００２７】一方、背景雑音であると判別された各フレ
ームについて上述したようにステップＳ１５において平
均雑音パワースペクトルを減算されて得られた消し残り
雑音パワースペクトルは特徴分析され、複数個のフレー
ムの特徴パラメータを用いて雑音モデル学習部１１４で
雑音ＨＭＭを学習する（ステップＳ２０）。この学習し
た雑音ＨＭＭは上述したように予め作成されクリーン音
声モデルメモリ１１６に記憶されているクリーン音声モ
デルとモデル合成部１１５でモデル合成される（ステッ
プＳ２１）。このモデル合成によって変更すべきパラメ
ータは、従来のモデル合成法（例えば、F.Martin，他：
Recognition of Noisy Speech by Usingthe Compositio
n of Hidden Morkov Models，音響学会平成４年度秋季
研究発表会講演論文集 1-7-10,1992）で行われているよ
うに、ＨＭＭの各状態に存在する正規分布の平均値ベク
トルまたは共分散行列またはその両方である。ＨＭＭの
共分散行列は対角分散行列にした方が計算量的にも性能
的にもよいという結果がこれまでに得られている。

【００２８】次に、モデル尤度計算部１１１では、上述
したステップＳ２１において合成したモデルを認識モデ
ルとして使用し、モデルの尤度を計算する（ステップＳ
２２）。この計算した尤度が最も大きなモデルを認識結
果として認識結果出力部１１２から出力する（ステップ
Ｓ２３）。

【００２９】次に、本実施形態に基づく雑音下音声認識
実験例について述べ、本実施形態の効果を明らかにす
る。音響モデルは、ＨＭｎｅｔ型４１２状態４混合分布
モデルを用いた。学習には５２４０単語セットと２１６
単語セットの男女性２０名分、および連続音声データベ
ース９，６００文章を使用した。特徴パラメータは１６
次ＬＰＣケプストラム、Δケプストラム、Δパワーであ
る。サンプリング周波数は１２ｋＨｚ、ＳＬＰ分析によ
り１００Ｈｚから６ｋＨｚに帯域制限した。評価音声デ
ータは男女各２名が発声した１００都市名単語である。
これに、電子協雑音データベースから“自動車走行雑
音”、“人混み雑音”、“展示ホール雑音”を計算機上
で重畳した。認識語彙数は１００都市名に３００地名を
加え４００単語とした。ＨＭＭ合成のための雑音モデル
は、各認識対象単語の発声直前の区間から雑音を切り出
して作成した。雑音ＨＭＭの構成は１状態１分布であ
る。ＳＳのための平均雑音スペクトルは１６０ｍｓｅｃ
の雑音区間から計算した。平均雑音スペクトルを引く場
合、認識対象の雑音重畳音声に対してはα＝２．５，β
＝０．３とし、学習用雑音に対してはα＝１．５，β＝
０．１とした。

【００３０】図３に雑音の種類とＳＮ比を変えたとき
の、各手法の認識率を示す。雑音重畳音声をクリーン音
声ＨＭＭで認識した場合、ＨＭＭ合成モデルで認識した
場合、ＳＳを適用した雑音重畳音声をクリーン音声ＨＭ
Ｍで認識した場合と本発明による手法で認識した場合に
ついて調べた。「ＳＳ法＋ＨＭＭ合成法」と示した結果
が本発明による方法の結果である。本発明による手法の
性能が最もよいことが確認された。

【００３１】また、雑音モデルを学習するための雑音デ
ータ長を変えたときの認識率も調べた。展示ホール雑音
の１０ｄＢについて、雑音学習データ長を２００ｍｓか
ら５ｓｅｃまで変えて調べた。結果を図４に示す。「Ｓ
Ｓ法＋ＨＭＭ合成法」と示した結果が本発明による方法
の結果である。従来法であるＨＭＭ合成法は学習雑音デ
ータ長を１ｓｅｃよりも短くすると急激に性能が劣化す
るのに対し、本発明による手法では２００ｍｓでも劣化
が少ないことがわかる。効果としては、雑音学習データ
長が短くてすむので、時々刻々と変化する雑音に追従す
ることが可能となる。本実施形態ではＳＳ法を用いるこ
とで、雑音スペクトルの分散を小さくできることがこの
効果をもたらしたと考えられる。

【００３２】上記実施形態ではパワースペクトルを用い
たが振幅スペクトルでもよい。

【００３３】なお、上記実施形態は雑音除去法にスペク
トルサブトラクション法を用いた例について述べたが、
本発明はこれに限定されるものではなく、ＭＭＳＥ法、
ＨＭＭを用いた雑音除去法、ＶＱを用いた雑音除去法な
ど広範囲の雑音除去法とともに利用できる。すなわち、
音声に重畳した雑音を完全に消し去ることができない場
合のすべてにおいて、適応可能である。

【００３４】

【発明の効果】以上説明したように、本発明によれば、
雑音除去法とＨＭＭ合成法を併用するので、認識対象の
雑音重畳音声のＳＮ比を改善することができ、更に、消
し残った雑音をＨＭＭで表現し、クリーン音声ＨＭＭと
モデル合成することで、消し残り雑音や音声の分散を考
慮した確率理論に基づくパターンマッチングが可能とな
る。よって、従来法に比べ、高い認識性能が得られる。
また、雑音除去法により、音声に重畳する雑音成分の分
散が小さくなるので、雑音ＨＭＭの学習に必要なデータ
量を少なくすることができ、よって、変動する雑音に追
従できる高速なモデル適応が可能となる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る音声認識装置の構成
を示すブロック図である。

【図２】図１に示す音声認識装置の作用を示すフローチ
ャートである。

【図３】図１に示す音声認識装置の効果を示すグラフで
ある。

【図４】図１に示す音声認識装置の効果を示すグラフで
ある。

【図５】従来のＨＭＭを用いた音声認識装置の構成を示
すブロック図である。

【図６】スペクトルサブトラクションを用いた従来の音
声認識装置の構成を示すブロック図である。

【符号の説明】

１２Ａ／Ｄ変換部１３雑音音声判定部１４音声雑音スイッチ１７平均雑音パワースペクトル計算部１８雑音重畳音声パワースペクトル計算部１９，１１３スペクトルサブトラクション部１１０音響パラメータ抽出部１１１モデル尤度計算部１１２認識結果出力部１１４雑音モデル学習部１１５モデル合成部１１６クリーン音声モデルメモリ

Claims

【特許請求の範囲】

【請求項１】入力音声特徴ベクトル時系列に対して各
認識カテゴリの特徴を表現した確率モデルの確率を計算
し、最も高い確率を示すモデルが表現するカテゴリを認
識結果として出力する音声認識方法において、背景雑音を観測し、観測された雑音に雑音除去法を適用
し、消し残った雑音データをもとに確率モデルを作成
し、雑音のない音声データをもとに予め作成しておいた
音声モデルと前記確率モデルとの合成を行い、雑音が重
畳した認識対象の音声に対して雑音除去法を適用し、出
力された信号を前記モデル合成で得られたモデルを用い
て認識することを特徴とする音声認識方法。
【請求項２】前記雑音除去に際し、観測された雑音の
一部または全部を用いて平均スペクトルを計算し、この
平均スペクトルを観測された雑音または雑音重畳音声の
スペクトルから差し引くスペクトルサブトラクション法
を用いることを特徴とする請求項１記載の音声認識方
法。
【請求項３】雑音のない音声データをもとに音声単位
のＨＭＭを作成してクリーン音声モデルとして記憶する
クリーン音声モデルメモリと、入力音声信号をディジタル信号に変換するＡ／Ｄ変換手
段と、該Ａ／Ｄ変換手段で変換されたディジタル信号が雑音で
ある場合、雑音のパワースペクトルおよび平均パワース
ペクトルを計算する雑音パワースペクトル計算手段と、前記Ａ／Ｄ変換手段で変換されたディジタル信号が雑音
重畳音声である場合、雑音重畳音声のパワースペクトル
を計算する雑音重畳音声パワースペクトル計算手段と、この計算した雑音重畳音声パワースペクトルから前記平
均雑音パワースペクトルを減算する減算手段と、この雑音を減算された雑音重畳音声パワースペクトルか
ら音声特徴パラメータを計算する音声特徴パラメータ抽
出手段と、前記雑音パワースペクトルから前記平均雑音パワースペ
クトルを減算し、消し残りパワースペクトルを算出し、
雑音ＨＭＭを学習する雑音モデル学習手段と、該雑音モデル学習手段で学習した雑音ＨＭＭを前記クリ
ーン音声モデルと合成し、合成モデルを作成するモデル
合成手段と、該モデル合成手段で作成した合成モデルを用いて前記音
声特徴パラメータ抽出手段で抽出された音声特徴パラメ
ータに対する各モデルの尤度を計算する尤度計算手段
と、該尤度計算手段で計算された尤度の最も大きなモデルを
認識結果として出力する認識結果出力手段とを有するこ
とを特徴とする音声認識装置。