JP4590692B2

JP4590692B2 - 音響モデル作成装置及びその方法

Info

Publication number: JP4590692B2
Application number: JP2000194196A
Authority: JP
Inventors: 麻紀山田; 昌克星見
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2000-06-28
Filing date: 2000-06-28
Publication date: 2010-12-01
Anticipated expiration: 2020-06-28
Also published as: EP1168301B1; CN1162839C; JP2002014692A; DE60110315T2; DE60110315D1; EP1168301A1; US6842734B2; CN1331467A; US20020055840A1

Description

【０００１】
【発明の属する技術分野】
本発明は、雑音環境下でも高い認識率が得られる音声認識用の音響モデル作成装置及びその方法に関する。
【０００２】
【従来の技術】
雑音環境下での音声認識において、従来、雑音を重畳させた音声を用いて音響モデルの学習を行っていた（日本音響学会講演論文集,昭和63年3月, 3-P-8「ノイズ付加データに対する音素認識システムの評価」）。
【０００３】
従来の音響モデル作成装置の構成図を図８に示し、以下に説明する。
【０００４】
図８において、２０１はメモリ、２０２はＣＰＵ、２０３キーボード／ディスプレイ、２０４はＣＰＵバス、２０５は学習用音声サンプル、２０６は学習用雑音サンプル、２０７は音響モデルである。
【０００５】
図９に示すフローチャートに従って従来の音響モデル作成装置の音響モデルの学習方法について説明する。
【０００６】
図９において、Ｓは各処理ステップを表す。まず、学習用音声サンプル２０５に学習用雑音サンプル２０６を重畳し（Ｓ８１）、一定時間長（以下フレームと呼ぶ。ここでは１フレームは１０ミリ秒とする）ごとに音響分析を行い（Ｓ８２）、音響モデルを学習する（Ｓ８３）。学習用雑音サンプル２０６は、会場雑音や車内雑音などを数十秒収録した１種類のデータである。
【０００７】
この方法では、認識時の雑音環境と同じような雑音を重畳させた音声で音響モデルの学習を行えば、比較的高い認識率が得られる。
【０００８】
【発明が解決しようとする課題】
しかしながら、一般には認識時の雑音環境は未知であり、上記の構成では、音響モデルの学習時の雑音環境と、認識時の雑音環境が異なる場合には認識率の劣化を招くという課題があった。
【０００９】
しかし、認識時に出くわし得る雑音すべてを、学習用雑音サンプルとして集めることは不可能である。そこで実際には、ある程度認識時に出くわし得る雑音を想定して、多数の雑音サンプルを集めて学習を行う方法が考えられる。しかし、集めた雑音サンプルすべてに対して音響モデルの学習を行うのは、膨大な時間がかかるため非効率的である。しかも、集めた多数の雑音サンプルの特徴が偏っていた場合、特徴の偏った雑音サンプルを用いて学習しても、未知の雑音まで広くカバーすることはできない。
【００１０】
本発明は、上記従来の課題を解決するもので、比較的少ない複数の雑音を用いて音響モデルの学習を行い、未知の雑音環境下においても高い認識性能が得られるような音響モデルを作成することを目的とする。
【００１１】
【課題を解決するための手段】
この課題を解決するために、本発明は、認識時に出くわし得る雑音を想定した多数の雑音サンプルをクラスタリングし、各クラスから１つずつ雑音サンプルを選択し学習用複数雑音サンプルとして学習音声に重畳し、音響モデルを作成する。
【００１２】
これにより、未知の雑音環境においても高い認識性能が得られる音響モデルを作成することができる。
【００１３】
【発明の実施の形態】
本願の第１の発明は、音声認識用の音響モデルを作成する装置において、多数の雑音サンプルをクラスタリングする手段と、各クラスから１つずつ雑音サンプルを選択し、学習用音声サンプルに当該選択された雑音サンプルを重畳して学習用複数雑音サンプルとする手段と、その学習用複数雑音サンプルを用いて、１つの音響モデルの学習を行う手段とを備えたものであり、多数の雑音サンプルをクラスタリングして、それぞれのクラスから１つずつ学習に用いる雑音を選択して音響モデルを学習することにより、少ない雑音サンプルで学習でき、しかも偏り無くさまざまな雑音を広くカバーすることができるため、未知雑音環境下においても高い認識性能が得られる音響モデルを作成できるという作用を有する。
【００１７】
以下、本発明の実施の形態について、図を用いて説明する。
【００１８】
（実施の形態１）
図１に、本発明の実施の形態１における音響モデル作成装置の構成図を示し、説明する。図１において、１０１はメモリ、１０２はＣＰＵ、１０３はキーボード／ディスプレイ、１０４はＣＰＵバス、１０５は学習用音声サンプル、１０６は多数雑音サンプル、１０７は学習用複数雑音サンプル、１０８は音響モデルである。
【００１９】
本実施の形態では、図１の構成のもとに、最初に図２に示したフローチャートに従って学習用複数雑音サンプルを選択し、次に図３に示したフローチャートに従って音響モデルを作成する。
【００２０】
最初に、学習用複数雑音サンプルの選択方法について説明する。
【００２１】
図２において、まずできる限り多くの多数雑音サンプル１０６を用意する。ここではＭ個の雑音サンプルがあるものとする。これらＭ個の雑音サンプルのそれぞれに対し、一定時間長（以下フレームという）ごとに音響分析し（Ｓ２１）、フレームごとにｋ次元の特徴パラメータを求める。本実施の形態では、１フレームを１０ミリ秒とし、特徴パラメータとして７次までのＬＰＣケプストラム係数（Ｃ１，Ｃ２，…，Ｃ７）を用いる。これを特徴ベクトルと呼ぶ。各雑音ごとにｋ次元特徴ベクトルの時間平均ベクトルを求める（Ｓ２２）。
【００２２】
そして、Ｍ個の時間平均特徴ベクトルをクラスタリング手法により、Ｎ個のカテゴリーに分類する（Ｓ２３）。本実施の形態では、クラスタリング手法として、階層的クラスター分析を行う。２つの雑音間の距離は、２つの時間平均特徴ベクトル間の重み付きユークリッド距離を距離尺度とする。２つの雑音間の距離としては他に、ユークリッド距離や、マハラノビスの汎距離、個体間積和、分散を考慮したバッタチャリヤ距離などを用いてもかまわない。２つのクラスター間の距離は、その２つクラスターに属する雑音間の距離の最小値とする（最近隣法）。２つのクラスター間の距離としては他に、２つクラスターに属する雑音間の距離の最大値とする最遠隣法や、２つのクラスターの重心間の距離とする方法や、２つのクラスターに属する個体間の距離の平均とする方法を用いてもかまわない。
【００２３】
これにより、Ｍ個の雑音をＮ個のクラスに分類することができる。
【００２４】
本実施の形態ではＭ＝１７とし、Ｎ＝５とする。多数雑音サンプルは図４に示した４０秒分の雑音データである。これらを階層的クラスター分析した結果得られる樹形図を図５に示す。
【００２５】
図５の樹形図では、横方向の長さが個体間あるいはクラスター間の距離をあらわしており、クラスターは樹形図を適当な長さで縦に切断したときに、そこまでで互いに接続している個体によって構成される。図５において☆印で切れば、５つのクラス（Ｎ＝５）に分類することができる。そこで、
クラス１｛川、音楽｝
クラス２｛マークＩＩ、カローラ、エスティマ、マジェスタ、ポートピア会場｝
クラス３｛データショウ会場、地下鉄｝
クラス４｛事業部、営業所、実験室、ざわめき、事務所、町工場｝
クラス５｛幼稚園、東京駅｝
と定義する。
【００２６】
そして各クラスから１つずつ任意の雑音を選択し（Ｓ２４）、Ｎ個の学習用複数雑音サンプル１０７とする（雑音１〜Ｎとする）。クラス内から１つの雑音を選択する方法としては、クラス内の重心に最も近いものを選択しても良いし、ランダムに選んでも良い。
【００２７】
ここでは、クラス１から「川」、クラス２から「マークＩＩ」、クラス３から「データショウ会場」、クラス４から「事業部」、クラス５から「幼稚園」を選択し、これら雑音を学習用複数雑音サンプル１０７とする。
【００２８】
次に、図３に基づいて音響モデルを作成する方法に付いて説明する。
【００２９】
まず、最初に学習用音声サンプル１０５に、あらかじめ学習用複数雑音サンプル１０７に登録されているN個の雑音（ｎ＝１〜Ｎ）の内１つの雑音を重畳する（Ｓ３１）。本実施の形態では学習用音声サンプルとして、音韻バランス単語セット５４３単語×８０名分を音声データとして用いた。雑音の重畳方法は以下に説明する。
【００３０】
学習用の音声をA/D変換して得られる信号をS(i)(i=1,…,I)、雑音ｎをA/D変換して得られる信号をNn(i)(i=1,…,I)とするとき、この雑音を重畳した雑音重畳音声Sn(i)(i=1,…,I)は（数１）で表される。ただし、IはA/D変換時のサンプリング周波数(Hz)にデータの秒数をかけた値である。
【００３１】
【数１】

【００３２】
次に、このようにして得られる雑音を重畳した学習用音声サンプルについて、一定時間（フレームと呼ぶ）ごとに音響分析を行う（Ｓ３２）。ここでは、LPC分析を行いフレームごとにLPCケプストラム係数とその時間回帰係数を求め、特徴パラメータとする。ここではLPCケプストラムを用いるが、FFTケプストラム、MFCC、メルLPCケプストラムなどを用いても良い。このようにして、学習用雑音重畳音声サンプルに対し特徴パラメータの時系列が得られる。
【００３３】
次に、P個の特徴パラメータからなるベクトルを特徴パラメータベクトルとして、音響モデルの学習を行う（Ｓ３３）。本実施の形態では、特徴パラメータベクトルは1フレーム分の特徴パラメータからなるとするが、複数フレーム分の特徴パラメータを並べて特徴パラメータベクトルとする方法もある。
【００３４】
学習用複数雑音サンプル１０７に登録されているN個の雑音（ｎ＝１〜Ｎ）のすべてについて学習が終了したかを判断し、終了するまでＳ３１〜Ｓ３３の処理を繰り返し、音響モデル１０８を作成する（Ｓ３４）。
【００３５】
音響モデルとしては、DPマッチング用の特徴ベクトルの時系列パターン（標準パターンと呼ぶ）や、HMMなどの確率モデルがある。本実施の形態１では、DPマッチング用の標準パターンを学習するものとする。DPマッチングは時間軸の伸縮を考慮しながら2つのパターンの類似度を計算する効率的な方法である。
【００３６】
標準パターンの単位は、一般に音素、音節、半音節、CV/VC(子音+母音、母音+子音)などが用いられる。本実施の形態では音節を標準パターンの単位として説明する。標準パターンのフレーム数は、平均音節フレーム数と同じに設定する。学習用音声サンプルを音節単位に切り出して、DPマッチングにより時間伸縮を考慮しながらフレーム整合を取り、標準パターンのどのフレームに対応するかを求める。図６はフレーム整合の様子を表した図である。ここで、特徴ベクトルが単一ガウス分布に従うと仮定し、標準パターンのそれぞれのフレームについて、対応する学習データの特徴ベクトルの平均値ベクトルおよび共分散を求める。これが標準パターンとなる。本実施の形態１では単一ガウス分布とするが混合ガウス分布としても良い。
【００３７】
以上を、N種の雑音すべてについて行う。最終的には、N種の雑音を重畳したデータにたいする平均値ベクトル及び共分散行列が求まる。
【００３８】
このようにして、多数の雑音サンプルをクラスタリングしてそれぞれのクラスから１つずつ学習に用いる雑音を選択することにより決定される複数の雑音を重畳した学習用音声サンプルを用いて音響モデルの学習を行うことにより、少ない雑音サンプルで学習でき、しかも偏り無くさまざまな雑音を広くカバーすることができるため、未知雑音環境下においても高い認識性能が得られる音響モデルを作成できる。
【００３９】
（実施の形態２）
実施の形態２は、実施の形態１で作成された音響モデルを用いて、入力された音声を認識する音声認識装置について説明する。図８に、本発明の実施の形態２における音声認識装置の動作フローチャートを示し、以下に説明する。
【００４０】
図８において、音響モデル１０８は実施の形態１で作成されたものを用いる。
【００４１】
まず最初に、未知入力音声をフレームごとに音響分析し、特徴パラメータを抽出する（S６１）。特徴パラメータは音響モデル作成時と同じものである。
【００４２】
認識対象語彙辞書１０９には、認識対象となる語彙の音節列が表記されている。この認識対象語彙辞書にしたがって、あらかじめ作成されている音節単位の音響モデル１０８を接続し、これと、上記未知入力音声の特徴パラメータ時系列とをDP照合する（S６２）。その結果、最も類似度の大きかった語彙を認識結果として出力する。
【００４３】
このようにして動作する音声認識装置では、音響モデルが、多数の雑音サンプルをクラスタリングすることにより決定される複数の雑音を重畳した学習用音声サンプルを用いて学習されているため、未知雑音環境下においても高い認識性能が得られる。
【００４４】
以下に、認識実験について説明する。
【００４５】
本発明の効果を検証するため、本実施の形態によって得られる音響モデルを用いて音声認識実験を行った。評価データは１０名分の１００地名音声データとした。評価データに、学習用に用いなかった雑音サンプルを重畳し、１００単語認識を行った。学習用複数雑音サンプルは、「川」、「マークＩＩ」、「データショウ会場」、「事業部」、「幼稚園」である。
【００４６】
評価データへ重畳する雑音サンプルは、クラス１からは「音楽」、クラス２からは「マジェスタ」、クラス３からは「地下鉄」、クラス４からは「事務所」、クラス５からは「東京駅」とした。また、まったく未知の雑音として、「道路」（道路わきで収録した騒音）、「テレビＣＭ」（テレビのコマーシャル音を収録したもの）をそれぞれ評価データに重畳して、単語認識実験を行った。
【００４７】
また、本発明の対照実験として、従来例に相当する、１種類の雑音のみ（「マークＩＩ」）で学習した音響モデルを用いた単語認識実験も同様に行った。
【００４８】
その結果を（表１）に示す。
【００４９】
【表１】

【００５０】
（表１）から、（１）において、学習時の雑音と認識時の雑音が同じクラス内（クラス２同士）の場合、高い認識性能が得られる（マジェスタ９４．８％）が、他のクラスに属する雑音環境下では認識性能が悪い。これに対し、本発明の実験（２）では、クラス２以外のすべてのクラスで（１）よりも高い認識性能を示している。さらに、未知雑音環境に対する実験では、「道路」に対しても「テレビＣＭ」に対しても、本発明の方が認識性能が高いことがわかる。
【００５１】
このことから、本発明は未知雑音に関しても高い認識性能が得られるといえる。
【００５２】
なお、本実施の形態では、クラスタリングによって選択したＮ個の学習用雑音サンプルをそれぞれ学習用音声サンプルに重畳して、音響モデルの各状態を単一ガウス分布として学習を行ったが、雑音ごとに別々にＮ個のガウス分布の混合分布としても良い。また、単一ガウス分布で表されるＮ個の音響モデルを学習して、認識時にＮ個の音響モデルと照合を行い、最も類似度の高い音響モデルに対するスコアを最終スコアとしても良い。
【００５３】
【発明の効果】
以上のように本発明は、クラスタリングにより選択した雑音を学習データに重畳することにより、比較的少ない複数の雑音で学習できるため効率的であり、しかも偏り無く、広く雑音環境をカバーできるため、未知の雑音に対しても高い認識性能が得られる音響モデルが作成できる。
【図面の簡単な説明】
【図１】本発明の実施の形態１における音響モデル作成装置の構成図
【図２】本発明の実施の形態１における学習用複数雑音サンプルの選択方法を表すフローチャート
【図３】本発明の実施の形態１における音響モデルの作成方法を表すフローチャート
【図４】多数雑音サンプルの詳細を説明する図
【図５】樹形図
【図６】フレーム整合のイメージ図
【図７】本発明の実施の形態２における音声認識方法を表すフローチャート
【図８】従来例の音響モデル作成装置の構成図
【図９】従来例の音響モデルの作成方法を表すフローチャート
【符号の説明】
１０１メモリ
１０２ＣＰＵ
１０３キーボード／ディスプレイ
１０４ＣＰＵバス
１０５学習用音声サンプル
１０６多数雑音サンプル
１０７学習用複数雑音サンプル
１０８音響モデル
１０９認識対象語彙辞書

Claims

音声認識用の音響モデルを作成する装置において、多数の雑音サンプルをクラスタリングする手段と、各クラスから１つずつ雑音サンプルを選択し、学習用音声サンプルに当該選択された雑音サンプルを重畳して学習用複数雑音サンプルとする手段と、その学習用複数雑音サンプルを用いて、１つの音響モデルの学習を行う手段とを備えた音響モデル作成装置。
前記雑音サンプルを重畳して学習用複数雑音サンプルとする手段は、クラスタリングされた複数の雑音サンプル間の近さを距離とした場合に、クラスタリングされた複数の雑音サンプル内の重心に最も近い雑音サンプルを選択する、請求項１に記載の音響モデル作成装置。
学習用複数雑音サンプルを用いて音響モデルの学習を行う手段は、選択された雑音サンプルをクラス毎に学習用音声サンプルに重畳し、当該クラス毎の雑音が重畳された学習用音声サンプルから音響モデルも学習を行う、請求項１に記載の音響モデル作成装置。
請求項１から３までのいずれか一つに記載の音響モデル作成装置で作成された音響モデルを用いて、入力された音声を認識することを特徴とする音声認識装置。
音声認識用の音響モデルを作成する方法において、多数雑音サンプル記憶手段に記憶された多数の雑音サンプルをクラスタリングして多数雑音サンプル記憶手段へ記憶するステップと、多数雑音サンプル記憶手段に記憶されたクラスタリングされた各クラスから１つずつ雑音サンプルを選択し、学習用音声サンプル記憶手段に記憶された学習用音声サンプルに当該選択された雑音サンプルを重畳して学習用複数雑音サンプルとして学習用複数雑音サンプル記憶手段へ記憶するステップと、学習用複数雑音サンプル記憶手段に記憶された学習用複数雑音サンプルを用いて、１つの音響モデルの学習を行うステップと、を含む音響モデル作成方法。
多数雑音サンプル記憶手段に記憶された多数の雑音サンプルをクラスタリングして多数雑音サンプル記憶手段へ記憶するステップと、多数雑音サンプル記憶手段に記憶されたクラスタリングされた各クラスから１つずつ雑音サンプルを選択し、学習用音声サンプル記憶手段に記憶された学習用音声サンプルに当該選択された雑音サンプルを重畳して学習用複数雑音サンプルとして学習用複数雑音サンプル記憶手段へ記憶するステップと、学習用複数雑音サンプル記憶手段に記憶された学習用複数雑音サンプルを用いて、１つの音響モデルの学習を行うステップと、を含む音響モデル作成方法を、コンピュータに実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。