JP2005084653A

JP2005084653A - 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム

Info

Publication number: JP2005084653A
Application number: JP2003320183A
Authority: JP
Inventors: Akira Saso; 晃佐宗
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2003-09-11
Filing date: 2003-09-11
Publication date: 2005-03-31
Anticipated expiration: 2023-09-11
Also published as: JP4058521B2

Abstract

【課題】雑音信号が変化する場合でも、補正精度を向上させることができる背景雑音歪みの補正処理方法及びそれを用いた音声認識システムを提供する。
【解決手段】マイクロホン（Ａ／Ｄ変換器を内蔵）１から入力された雑音信号を含む音声信号は、音声情報処理部２に取り込まれる。この音声情報処理部２は、入力信号のパワーに基づく区間（フレーム）検出部３、入力特徴量時系列の算出部４、ビタビアルゴリズムにより算出したＨＭＭの累積出力確率の算出部５、入力特徴量時系列とＨＭＭの累積出力確率をフレーム数で除算し、真数値に換算した値により重み付けするＨＭＭの分布の事後確率算出部６、雑音信号を含む音声特徴量の歪み抑圧部７、音声認識部８を備えている。
【選択図】図１

Description

本発明は、音声の雑音成分を抑圧する背景雑音歪みの補正処理方法及びそれを用いた音声認識システムに関するものである。

雑音環境下において頑健な音声認識を実現するためのアプローチの１つに、フロントエンドにおける音声特徴量の補正処理がある。例えば下記の非特許文献１に記載されている手法では、フレーム毎の雑音重畳音声の特徴量から、ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ（ＧＭＭ）に基づいて推定した雑音成分の期待値を取り除くことで、音声認識精度が改善されることを示している。

また、隠れマルコフモデル（ＨＭＭ）に基づくパターン間の類似度（累積尤度）とそれを与える状態遷移系列を与えるビタビ（Ｖｉｔｅｒｂｉ）アルゴリズムについては、下記の非特許文献２に開示されている。

なお、雑音に対する対策を講じた音声情報処理装置については、下記特許文献１〜３に開示されている。
特開２００３−１４０６８６号公報特開２００３−１７７７８３号公報特開２００３−１９５８８２号公報Ｊ．Ｃ．Ｓｅｇｕｒａ，Ｍｏｄｅｌ−ｂａｓｅｄｃｏｍｐｅｎｓａｔｉｏｎｏｆｔｈｅａｄｄｉｔｉｖｅｎｏｉｓｅｆｏｒｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ，ＰｒｏｃｏｆＥＵＲＯＳＰＥＥＣＨ２００１，Ｖｏｌ．１，ｐｐ．２２１−２２３「音声情報処理」、著者春日正男他３名、発行者（株）コロナ社、発行日２００１年７月１７日、ｐ．１３７−１４４

しかしながら、ＧＭＭに基づいた特徴量補正手法では、ＬｏｇＦｉｌｔｅｒＢａｎｋ領域で、クリーン音声の特徴ベクトルから学習したＧＭＭに、入力音声の開始数フレームから求めた雑音の特徴量を混合することで、雑音適応化ＧＭＭを生成する。そして、過去のフレームで得られた入力音声の情報とは独立に、ＧＭＭの全分布を用いてフレーム毎に補正処理を行っている。雑音が定常的であれば良好な結果が得られるが、非定常に変化する場合、入力音声の特徴量と雑音適応化ＧＭＭとの間でミスマッチが生じてしまう。このため、ＧＭＭの分布の中で、入力音声の特徴量に本来対応しない分布の事後確率が大きく評価され、結果的に補正精度が劣化してしまう。

このように、上記した従来の手法は、入力音声の開始数フレームから雑音の特徴を推定し、以後、これを用いてフレーム毎に雑音重畳音声の特徴量補正を行う。このため、雑音が変化することにより、先に推定した雑音の特徴量と実際の雑音とのミスマッチが大きくなるフレームでは、補正精度が劣化するという問題点がある。

本発明は、上記状況に鑑みて、雑音信号が変化する場合でも、補正精度を向上させることができる背景雑音歪みの補正処理方法及びそれを用いた音声認識システムを提供することを目的とする。

本発明は、上記目的を達成するために、
〔１〕背景雑音歪みの補正処理方法において、隠れマルコフモデル（ＨＭＭ）を音響モデルとする音声認識システムを用いて、ビタビ（Ｖｉｔｅｒｂｉ）アルゴリズムにより算出される入力特徴量時系列と隠れマルコフモデル（ＨＭＭ）の累積出力確率を、フレーム数で除算し、真数値に換算した値により重み付けした隠れマルコフモデル（ＨＭＭ）の分布の事後確率を用いて、背景雑音による音声特徴量の歪みを抑圧することを特徴とする。

〔２〕隠れマルコフモデル（ＨＭＭ）を音響モデルとする音声認識システムにおいて、雑音信号を含む音声信号を入力する手段と、入力信号のパワーに基づく区間（フレーム）検出部と、入力特徴量時系列の算出部と、ビタビアルゴリズムにより算出した前記入力特徴量時系列とＨＭＭの累積出力確率をフレーム数で除算し、真数値に換算した値により重み付けされるＨＭＭの分布の事後確率の算出部と、雑音信号を含む音声特徴量の歪み抑圧部と、この抑圧部に接続される音声認識部とを具備することを特徴とする。

本発明によれば、隠れマルコフモデル（ＨＭＭ）に基づいて音声の特徴量補正をすることにより、雑音の変化に対してより頑健な音声の特徴量補正を実現することができる。ＨＭＭを用いることにより、音声特徴量の時間的構造が利用できるようになり、また、ビタビアルゴリズムに補正処理を組み込むことで、観測フレームまでの累積出力確率を利用できるようになる。

これらの点を利用することで、ＧＭＭのようにフレーム毎で独立に全分布を用いた補正処理を行うのではなく、過去のフレームで得られた特徴量の変遷に沿って、分布の選択的な重み付けが可能となる。これより、雑音の突発的な変化による補正精度の劣化を抑えることができる。また、ＧＭＭのように新たにパラメータを用意することなく、音響モデルのＨＭＭをそのまま利用できるなどの利点も挙げられる。

マイクロホン（Ａ／Ｄ変換器を内蔵）から入力された雑音信号を含む音声信号は、音声情報処理部に取り込まれる。この音声情報処理部は、入力信号のパワーに基づく区間（フレーム）検出部、入力特徴量時系列の算出部、ビタビアルゴリズムにより算出したＨＭＭの累積出力確率の算出部、入力特徴量時系列と隠れマルコフモデル（ＨＭＭ）の累積出力確率をフレーム数で除算し、真数値に換算した値により重み付けするＨＭＭの分布の事後確率算出部、雑音信号を含む音声特徴量の歪み抑圧部、音声認識部を備えており、雑音が変化する場合でも、補正精度を向上させることができる。

本発明では、従来の問題点として示したＧＭＭに基づいた特徴量補正手法を改善するために、ＨＭＭに基づいて音声特徴量の補正を行う。ＨＭＭを用いることで、ＧＭＭでは表現できない特徴量時系列の時間的構造と累積出力確率を用いて、雑音適応化分布の選択的な重み付けができるようになる。そして、これにより、一時的な雑音変化による補正精度の劣化を抑制することができる。

また、本発明は、Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ（ＭＦＣＣ）領域で、クリーン音声から学習した既存の音響ＨＭＭを補正処理に用いる。

図１は本発明の実施例を示す音声認識のための模式的システム構成図である。この図において、１はマイクロホン（Ａ／Ｄ変換器を内蔵）であり、話者からの音声信号と雑音源からの雑音信号が入力される。２は音声情報処理部であり、この音声情報処理部２は、入力信号のパワーに基づく区間（フレーム）検出部３、入力特徴量時系列の算出部４、ビタビアルゴリズムにより算出したＨＭＭの累積出力確率の算出部５、入力特徴量時系列と隠れマルコフモデル（ＨＭＭ）の累積出力確率をフレーム数で除算し、真数値に換算した値により重み付けするＨＭＭの分布の事後確率算出部６、雑音信号を含む音声特徴量の歪み抑圧部７、音声認識部８からなっている。

以下、本発明の実施の形態について詳細に説明する。

ここで、ＨＭＭの状態の集合をＳ、初期確率をπ_s、状態ｊからｑへの遷移確率をａ_jq、状態ｊにおける特徴ベクトルｘの出力確率をｂ_j（ｘ）で表す。出力確率は混合数をＭとすると、

で与えられるとする( Σ_jmは対角行列とする）。以後、ＨＭＭに関するパラメータの集合をθで表す。

入力音声の特徴ベクトルｘは、一般的に、ベースのＭＦＣＣ以外にΔやΔΔを組み合わせて用いられるが、以下では補正処理の対象をベースのＭＦＣＣだけに限定する。このベースのＭＦＣＣをｚとし、ＨＭＭの全ての分布に対してベースの部分だけを抜きだした分布を

で表す。入力音声の開始Ｎフレームは無音区間と仮定し、雑音適応化分布

を次式に従い求める。

ここでｌｏｇ，ｅｘｐはベクトルの各要素に対する演算で、Ｃは離散コサイン変換行列を表す。

予備実験結果によると、通常のｌｏｇ−ａｄｄ方式より、上記式（４）による分布の適応を実施した方が認識率は若干良くなる。しかし、上記式（４）は、通常のｌｏｇ−ａｄｄより演算量が増えるため、演算量コストを優先させる場合は、ｌｏｇ−ａｄｄ方式を採用する。

一方、ビタビアルゴリズムによる確率計算は、以下の手順で行われる。

はじめに、フォワード係数に初期確率を入れる。

その後、各フレーム時刻ｔ＝１，２，…，Ｔの各状態ｓについて、

を求める。

このようにして得られるフォワード係数は、特徴ベクトルｘ₁，…，ｘ_tを出力し、フレーム時刻ｔにおいて状態ｓにある累積出力確率を表す。そして、最終フレームにおいて最大確率を選択する。

このようにして観測ベクトル時系列に対するＨＭＭの最大尤度が求められる。

本発明では、このフォワード係数を用いて、各フレーム時刻の各状態における雑音適応化分布の重み付けを行うことで、過去の特徴量の変遷に沿った分布選択による特徴量補正を実現する。そして、得られた補正特徴ベクトルでベースのＭＦＣＣを置き換えて、上記式（６）により確率の逐次計算を行う。つまり、本発明は特徴量の補正処理と音響ＨＭＭの尤度計算を同時に行う。

以下に、フォワード係数と雑音適応化分布を用いたベースＭＦＣＣの補正手法について述べる。現在のフレーム時刻をｔとし、フレーム時刻ｔ−１のフォワード係数が既に計算されている状態を想定する。フォワード係数はフレーム時刻が進むにつれて単調減少し、現時刻の出力確率とのバランスがとれなくなる。これを避けるために、フレーム数で除算し、単位フレーム当たりの値に換算した値を用いることにする。更に、上記ビタビアルゴリズム中ではフォワード係数を対数値として計算しているが、真数に戻した値を求める。

次に、特徴ベクトルｚ_tが観測された条件での、各分布の事後確率を次式により求める。

最後に、クリーン音声分布〔上記式（２）〕の期待値ベクトルを、事後確率〔上記式（９）〕で重み付け平均することで、補正特徴ベクトルｙ_tを得る。

評価実験には、ある程度定常的な雑音としてＡＵＲＯＲＡ２データベースのテストセットＡを用いた実験と、突発性雑音を用いた実験を行った。

フロントエンドにおけるＭＦＣＣの抽出手順は以下の通りである。

（１）フレーム長２５ｍｓのハミング窓を用いて、フレーム周期１０ｍｓ、高域強調１−ｚ^-1でフレームを切り出す。

（２）その後、ＦＦＴを計算し、各係数の自乗振幅値に対してＭｅｌＦｉｌｔｅｒＢａｎｋの三角窓をかけ、対数を求めた後、離散コサイン変換を計算する。

（３）Ｃ０を含む１３次元のベースＭＦＣＣに、そのΔとΔΔを組み合わて、計３９次元の特徴ベクトルを生成する。

ＡＵＲＯＲＡ２のタスクにおける語彙数は、数字（１〜９）, ｏｈ, ｚｅｒｏ, ｓｉｌ，ｓｐの１３であり、各語彙でＨＭＭを学習する。各ＨＭＭの構成は、ｓｉｌが５状態３ループ、ｓｐは３状態１ループ、混合数は共に３６である。その他の数字は、１８状態１６ループで、混合数は２０である。ＨＭＭの学習は、クリーン音声だけを用いるＣｌｅａｎＣｏｎｄｉｔｉｏｎＴｒａｉｎｉｎｇとする。

ＡＵＲＯＲＡ２を用いた実験では、特徴量補正処理を行わない時の認識率（Ｂａｓｅｌｉｎｅ）と本発明の方法による認識率（Ｈｍｍ）に加え、ＧＭＭで特徴量補正した時の認識率も比較のために求める。ＧＭＭの混合数は６４（Ｇｍｍ６４）と１２８（Ｇｍｍ１２８）とする。また、ＧＭＭの実験では、他の実験とは異なり、ＧＭＭで処理したクリーン音声の特徴量を用いてＨＭＭの学習を行う。本発明の方法およびＧＭＭを用いた手法においては、分布の雑音適応化に用いるフレーム数を、入力音声の開始１０フレームとする。テストセットＡの認識結果を表１に示す。

この表１は、テストセットＡに含まれる４種類の雑音重畳音声の各ＳＮＲにおける平均認識率を手法毎に示している。評価実験で用いたＨＭＭの構成は、全ての実験で同じである。つまり、本発明の方法は、Ｇｍｍ６４とＧｍｍ１２８に比べてＧＭＭの分だけ少ないパラメータで、Ｇｍｍ１２８とほぼ同程度の精度を実現している。

次に、突発性雑音を用いた実験では、ＲＷＣＰ（新情報処理開発機構）の実環境音声・音響データベースに収録されている木質の衝突系音源（ｃｈｅｒｒｙ，ｍａｇｎｏ，ｔｅａｋ）を、１２５ｍｓ前後の間隔でＡＵＲＯＲＡ２のクリーン音声に混合することで雑音重畳音声を生成した。突発性雑音の場合は、雑音の定常成分はないと考えて、先頭数フレームを用いた分布の雑音適応化は行わない。ＧＭＭに基づいた手法では、分布の雑音適応化で求めた歪み成分を事後確率で重み付け平均し、観測特徴量からそれを差し引くことで補正を行う。しかし、定常的な雑音成分を零とすると、歪みも零となるため、補正処理の意味がなくなってしまう。従って、本実験では、Ｂａｓｅｌｉｎｅと本発明の方法（Ｈｍｍ）の認識実験のみを行うこととする。表２に認識結果を示す。これにより、本発明の方法は突発性雑音に対しても有効であると言える。

なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づいて種々の変形が可能であり、これらを本発明の範囲から排除するものではない。

背景雑音のある環境下での音声認識に用いることができる。

本発明の実施例を示す音声認識のための模式的システム構成図である。

符号の説明

１マイクロホン（Ａ／Ｄ変換器を内蔵）
２音声情報処理部
３入力信号のパワーに基づく区間（フレーム）検出部
４入力特徴量時系列の算出部
５ビタビアルゴリズムにより算出したＨＭＭの累積出力確率の算出部
６ＨＭＭの分布の事後確率算出部
７雑音信号を含む音声特徴量の歪み抑圧部
８音声認識部

Claims

隠れマルコフモデル（ＨＭＭ）を音響モデルとする音声認識システムを用いて、ビタビ（Ｖｉｔｅｒｂｉ）アルゴリズムにより算出される入力特徴量時系列と隠れマルコフモデル（ＨＭＭ）の累積出力確率を、フレーム数で除算し、真数値に換算した値により重み付けした隠れマルコフモデル（ＨＭＭ）の分布の事後確率を用いて、背景雑音による音声特徴量の歪みを抑圧することを特徴とする背景雑音歪みの補正処理方法。
隠れマルコフモデル（ＨＭＭ）を音響モデルとする音声認識システムにおいて、
（ａ）雑音信号を含む音声信号を入力する入力部と、
（ｂ）入力信号のパワーに基づく区間（フレーム）検出部と、
（ｃ）入力特徴量時系列の算出部と、
（ｄ）ビタビアルゴリズムにより算出した前記入力特徴量時系列とＨＭＭの累積出力確率をフレーム数で除算し、真数値に換算した値により重み付けされるＨＭＭの分布の事後確率の算出部と、
（ｅ）雑音信号を含む音声特徴量の歪み抑圧部と、
（ｆ）該抑圧部に接続される音声認識部とを具備することを特徴とする音声認識システム。