JP2011039434A

JP2011039434A - 音声認識装置およびその特徴量正規化方法

Info

Publication number: JP2011039434A
Application number: JP2009189159A
Authority: JP
Inventors: Kengo Fujita; 顕吾藤田; Masaki Naito; 正樹内藤; Tsuneo Kato; 恒夫加藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-08-18
Filing date: 2009-08-18
Publication date: 2011-02-24
Anticipated expiration: 2029-08-18
Also published as: JP5473116B2

Abstract

【課題】応答遅延を生じること無く、入力音声の音響特徴量と音響モデルとのミスマッチを解消できるCM値を算出する音声認識装置およびその特徴量正規化方法を提供する。
【解決手段】初期補正値蓄積部１０１には正規化用CM値の初期値cm_initが蓄積されている。各時刻補正値算出部１０２は、音声認識ごとに所定の時刻周期で入力される音響特徴量x(t)の、認識開始時刻sから現在時刻cまでの経過期間TcにおけるCM値[cm_current(c)]を算出する。補正値更新部１０３は、現在の初期CM値cm_initおよび各時刻CM値cm_current(c)に基づいて正規化用CM値cm(c)を算出し、これを特徴量正規化部２で用いるCM値として更新登録する。音響特徴量蓄積部１０４は、音響特徴量を入力音声全体にわたって蓄積する。初期補正値算出部１０５は、音響特徴量蓄積部１０４に蓄積された音響特徴量を用いて、初期補正値蓄積部１０１に蓄積する初期CM値cm_initを算出する。
【選択図】図２

Description

本発明は、音声認識装置およびその特徴量正規化方法に係り、特に、音声信号から抽出された音響特徴量を正規化して音声認識に用いる音声認識装置およびその特徴量正規化方法に関する。

従来の音声認識装置は、図３に一例を示したように、マイクロフォン（図示せず）で検出されてA/D変換された入力音声を分析して音響特徴量を抽出する音響分析部１と、この音響特徴量と音響モデルとのミスマッチを解消するために、予め記憶されている固定補正値６を用いて音響特徴量を正規化する特徴量正規化部２と、辞書４による制限下で正規化後の音響特徴量と音響モデル５とを比較・照合し、入力音声として尤もらしい音(素)の並びを出力する辞書探索部３とから構成される。

音響特徴量は、MFCC(Mel-Frequency Cepstrum Coefficient)等の次元ベクトルであり、入力音声から単位時間毎に得られる時系列データである。音声認識で用いる音素(子音や母音など）に多数の音声データから分析された音響特徴量の分布を集計すると、次元毎に複数の正規分布の重み付け和で近似される統計モデルが作成できる。このように学習された統計モデルは音響モデルと呼ばれ、音声認識処理においては、入力音声から分析された音響特徴量と音響モデルとの照合が行われる。

しかしながら、マイク特性、背景雑音、話者等の特性差が入力音声と音響モデル学習用音声データとで異なることから、入力音声の音響特徴量の分布と音響モデルの確率密度分布との間にミスマッチが生じ、認識精度が低下するという問題がある。このミスマッチを解消するために、入力音声全体にわたって各時刻の音響特徴量の平均値(CM値)を算出し、音響特徴量を各時刻において音響モデルと照合する際に、音響特徴量からCM値を減算した正規化後の音響特徴量を用いるCMN(Cepstral Mean Normalization)が広く利用されている。CMNでは、次式(1)で算出されるCM値を音響特徴量x(t)から減算し、音響特徴量の平均値をゼロとすることで、入力音声の音響特徴量と音響モデルとのミスマッチを解消するようにしている。

ここで、Tは入力音声全体の単位時間数、x(t)は時刻tにおける音響特徴量を表す。また、入力音声の音響特徴量の平均値に加えて分散値を用いるMVN(Mean and Variance Normalization)も提案されている。以下ではCMNについて述べるが、MVNで用いる平均値についてもCMNにおけるCM値と同様に取り扱うことができる。

特許文献１には、入力発声全体の特徴量を用いてCM値を算出することによる処理遅延を回避するため、１つ以上前に入力された音声の音響特徴量を用いて算出したCM値を正規化処理に利用する方法が開示されている。また、１つ以上前に入力された複数音声を用いてそれぞれCM値を算出し、それらの平均CM値を正規化処理に利用することで、単一音声を用いる場合と比較してCM値の精度を向上させる技術も開示されている。

特許文献２には、入力発声の特徴量の平均値であるCM値に加えて分散値を正規化に用いるMVNにおいて、局所的な分散値の算出を繰り返すことで認識精度を改善する正規化法が開示されている。CM値に関しては、入力発声全体の特徴量により算出されたCM値、または予め多数の発声データ等により算出されたCM値を用いる方法と、分散値同様局所的なCM値を用いる方法とが開示されている。局所的なCM値は、直前局所CM値と現在の局所CM値との重み付け和をとることにより算出される。

特開平９−９０９９０号公報特開２００８−２３３７８２号公報

音響特徴量を正規化後に音響モデルと比較、照合すれば、CMNにより入力音声と音響特徴量とのミスマッチが解消されるために音声認識精度の低下を防ぐことができる。しかしながら、上式(1)に示したように、CM値の算出には入力音声全体にわたる音響特徴量が必要となるため、入力音声全体の音響特徴量が得られるまで辞書探索処理が開始できず、応答遅延が生じてしまう。

このような技術課題を解決するために、入力開始から一定時間分の音響特徴量のみを用いてCM値を算出する方法、予め算出しておいた固定CM値を用いる方法、あるいは現入力音声以前の１つ以上のユーザ入力音声の特徴量を用いてCM値を算出する方法も提案されている。

しかしながら、一定時間分のみの音響特徴量を用いる場合でも応答遅延は生じる。また、使用する一定の区間に実際にユーザ発声が含まれていない、あるいは突発的に過大な背景雑音が含まれている、といった場合、CM値の精度が低くなるので認識精度が低下する。また、予め算出しておいた固定CM値を用いる場合、応答遅延は生じないものの、入力音声と固定補正値を算出するために用いた音声データとの特性差が大きい場合、認識精度が低下してしまう。現入力音声以前の１つ以上のユーザ入力音声の音響特徴量を用いる場合も同様に、応答遅延は生じないものの、現入力以前と現入力時点で音声認識使用環境が大きく変動するなど、過去の入力音声と現入力音声との特性差が大きい場合には認識精度が低下してしまう。

本発明の目的は、上記した従来技術の課題を全て解決し、応答遅延を生じさせること無く、CMNにおいて入力音声の音響特徴量と音響モデルとのミスマッチを十分に解消できる音声認識装置およびその特徴量正規化方法を提供することにある。

上記の目的を達成するために、本発明は、音声信号から抽出された音響特徴量を正規化して音声認識に用いる音声認識装置において、正規化用の補正値を音響特徴量の時系列に基づいて適応的に決定する補正値適応的決定手段を設け、この補正値適応的決定手段が、以下の構成を具備した点に特徴がある。

(1)補正値の初期値を記憶する手段と、所定の時刻周期で音声認識の開始時刻から現在時刻までの音響特徴量の時系列に基づいて各時刻補正値を算出する手段と、現在時刻における補正値を、前記初期値および各時刻補正値の重み付け和として算出する手段とを具備したことを特徴とする。

(2)音響特徴量の時系列を蓄積する手段と、蓄積された音響特徴量の少なくとも一つの時系列に基づいて補正値の初期値を算出する手段と、算出された初期値を前記初期値を記憶する手段に更新登録する手段とを具備したことを特徴とする。

(3)正規化された音響特徴量が音響モデルと照合されるようにしたことを特徴とする。

(4)正規化された音響特徴量を用いて音響モデルを入力音声に適応させるようにしたことを特徴とする。

(5)各時刻補正値を算出する手段は、音声認識の開始時刻から現在時刻までの音響特徴量の平均値を算出することを特徴とする。

(6)音声認識の開始時刻が、音声の入力が最初に検出された時刻であることを特徴とする。

(7)各時刻補正値を算出する手段は、音声認識の開始時刻から現在時刻までの音響特徴量の時系列から無音区間を除いた発声区間の平均値を算出することを特徴とする。

(8)初期値を記憶する手段には、音声信号の入力デバイスごとに初期値が記憶されており、入力デバイスに対応した初期値が前記補正値の算出に用いられることを特徴とする。

(9)初期値を記憶する手段には、発話者ごとに初期値が記憶されており、発話者に対応した初期値が前記補正値の算出に用いられることを特徴とする。
(10)初期値を記憶する手段には、音声に含まれる背景雑音の種類やレベルといった特性ごとに初期値が記憶されており、背景雑音特性に対応した初期値が前記補正値の算出に用いられることを特徴とする。

本発明によれば、以下のような効果が達成される。

(1)音響特徴量を正規化するための補正値が、音声認識の開始時刻から現在時刻までの音響特徴量の時系列に基づいて算出されるので、応答遅延を生じさせること無く、入力音声の音響特徴量と音響モデルとのミスマッチを十分に解消できるようになり、その結果、音声認識の精度を向上させることが可能になる。

(2)正規化用の補正値の初期値が音響特徴量の履歴情報に基づいて更新されるようにしたので、周囲環境の変動が大きな場所での音響認識においても、入力音声の音響特徴量と音響モデルとのミスマッチを十分に解消できるようになる。

(3)正規化された音響特徴量が音響モデルと照合されるようにしたので、発話後の早い段階から音響特徴量と音響モデルとのミスマッチを解消することが可能となり、その結果、発話後の早い段階から認識精度を向上させることができるようになる。

(4)正規化された音響特徴量を用いて音響モデルを入力音声に適応させるようにしたので、発声終了とほぼ同時に音響モデルを発話者や環境音に適応させることができるようになる。したがって、同一話者あるいは同一環境で音声認識が連続して行われるような場合には、次の音声認識から発話者や環境音に対して最適化された音響モデルによる音声認識が可能になり、その結果、次回以降の音声認識では発話の最初から認識精度を向上させることができるようになる。

(5)正規化用の補正値が、音声認識の開始時刻から現在時刻までの音響特徴量の平均値に基づいて算出されるので、一時的な外乱やノイズにかかわらず、入力音声の音響特徴量と音響モデルとのミスマッチを十分に解消できるようになる。

(6)音声認識の開始時刻を音声の入力が最初に検出された時刻としたので、真の音声入力のみに基づいて正規化を行えるようになる。

(7)音声認識の開始時刻から現在時刻までの音響特徴量の時系列から無音区間を除いた発声区間の平均値に基づいて正規化用の補正値を算出するようにしたので、真の音声入力のみに基づいて正規化を行えるようになる。

(8)正規化用の補正値の初期値を入力デバイスごとに用意すれば、入力デバイスの電気特性に依存しない正規化が可能になる。

(9)正規化用の補正値の初期値を発話者ごとに用意すれば、発話者の音声特性に依存しない正規化が可能になる。

(10)正規化用の補正値の初期値を音声に含まれる背景雑音の種類やレベルといった特性ごとに用意すれば、背景雑音特性に依存しない正規化が可能になる。

本発明を適用した音声認識装置の主要部の構成を示したブロック図である。本発明の一実施形態の動作を示したフローチャートである。従来の音声認識装置の構成を示したブロック図である。

以下、図面を参照して本発明の実施形態について詳細に説明する。図１は、本発明を適用した音声認識装置の主要部の構成を示したブロック図であり、前記と同一の符号は同一または同等部分を表している。本実施形態では、特徴量正規化部２において音響特徴量を正規化するための補正値(CM値)が、補正値適応的決定部１０により音響特徴量の時系列データに基づいて適応的に決定されるようにした点に特徴がある。

補正値適応的決定部１０において、初期補正値蓄積部１０１には、正規化用CM値の初期値cm_initが予め蓄積されている。この初期CM値cm_initは、後に詳述するように、音響特徴量の履歴に基づいて周期的あるいは所定のイベントを契機に更新される。

なお、音声信号を検出するマイクロフォンやA/D変換器等の入力デバイスが複数種用意されている場合には、入力デバイスごとに初期CM値cm_initを蓄積しておき、使用する入力デバイスに対応した初期CM値cm_initが用いられるようにすることが望ましい。同様に、音声認識の対象者が限られている場合には、発話者ごとに初期CM値cm_initを蓄積しておき、発話者に対応した初期CM値cm_initが用いられるようにすることが望ましい。

各時刻補正値算出部１０２は、音声認識ごとに所定の時刻周期で入力される音響特徴量x(t)の、認識開始時刻sから現在時刻cまでの経過期間Tc(＝c−s+1)におけるCM値[cm_current(c)]を次式(2)に基づいて算出する。

前記認識開始時刻sは、入力音声が検知された時刻であっても良いし、入力音声が検知されてから所定の期間が経過した時刻であっても良いし、あるいは音声認識装置によりユーザ発声の入力が検出された時刻であっても良い。

なお、音声認識装置により認識されたユーザ発声の開始時刻と現在時刻との間であっても、息継ぎ等による無音区間が挿入されている場合があり、これがCM値に誤差を生じさせる原因となることがある。したがって、例えば入力音声のパワー変化を閾値処理する等により前記無音区間を検出し、この無音区間を除外した厳密なユーザ発声区間Tdのみを対象に、CM値[cm_current(c)]を次式(3)に基づいて算出するようにしても良い。

補正値更新部１０３は、初期補正値蓄積部１０１に蓄積されている現在の初期CM値cm_init、および前記各時刻補正値算出部１０２で算出された現在時刻cにおける各時刻CM値cm_current(c)を次式(4)に適用して現在時刻cにおける正規化用CM値cm(c)を算出し、これを特徴量正規化部２で用いるCM値として更新登録する。

ここで、符号τは単位時間当たりのCM値更新度を決定する重み係数であり、τにより現入力音声へのCM値の適応速度を調節することができるため、例えば背景雑音レベルの大きさに応じて異なるτを用いるようにしても良い。すなわち、音声認識では始めに背景雑音レベルが計測され、この背景雑音レベルを基準に設定される所定の閾値を超える入力信号がユーザ発声と認識される。一般的に初期CM値cm_initは背景雑音レベルが低い環境を想定して設定されるので、前記計測された背景雑音レベルが小さければ重み係数τを大きめの値に設定して初期値の影響を大きくする一方、背景雑音レベルが大きければ重み係数τを小さめ値に設定して現入力音声の影響を大きくすることが望ましい。

特徴量正規化部２は、前記補正値更新部１０３により更新された現在時刻cにおけるCM値cm(c)および音響特徴量x(c)を単位時間毎に次式(5)に適用し、正規化された音響特徴量x'(c)を得る。

音響特徴量蓄積部１０４は、音声認識ごとに音響特徴量を入力音声全体にわたって蓄積する。このとき、音声認識装置により検出されたユーザ発声の始端時刻および終端時刻も併せて記憶される。初期補正値算出部１０５は、音響特徴量蓄積部１０４に蓄積された１つ以上の音声の音響特徴量を用いて、初期補正値蓄積部１０１に蓄積する初期CM値cm_initを次式(6)に従って算出する。ここで、符号Mは算出に用いる音声データ数であり、符号eは音声データにおいて算出に用いる最終時刻である。

なお、前記初期CM値cm_initが入力デバイス毎あるいは発話者毎に蓄積されている場合には、初期補正値算出部１０５も音響特徴量xi(t)を入力デバイス毎あるいは発話者毎に上式(6)に適用し、初期CM値cm_initを入力デバイス毎あるいは発話者毎に算出して初期補正値蓄積部１０１に更新登録することが望ましい。

図２は、本発明の一実施形態の動作を示したフローチャートであり、主に前記補正値適応的決定部１０におけるCM値cm(c)の決定手順を示している。

ステップＳ１において音声認識の開始が検知され、ステップＳ２において、時刻tjで検出された入力音声の音響特徴量x(tj)が補正値適応的決定部１０へ入力されると、ステップＳ３では、当該音響特徴量x(tj)が蓄積部１０４に蓄積される。各音響特徴量x(tj)には、その検出時刻tjと共に今回の入力音声系列に固有の識別子iが記述されており、各音響特徴量x(tj)は、その検出時刻tjおよび入力音声系列識別子iと共に蓄積される。また、音声分析部１により検出されたユーザ発声の始端時刻tsおよび終端時刻teも、所定のタイミングで補正値適応的決定部１０に通知され、入力音声系列識別子iと対応付けられて蓄積部１０４に蓄積される。

ステップＳ４では、前記各時刻補正値算出部１０２により現在時刻cに固有の各時刻CM値cm_current(c)が上式(2)または(3)に基づいて算出される。ステップＳ５では、補正値更新部１０３により初期補正値蓄積部１０１から初期CM値cm_initが読み込まれる。ステップＳ６では、前記各時刻補正値算出部１０２により算出された各時刻CM値cm_current(c)と前記初期CM値cm_initとが上式(4)に適用されて現在時刻cにおけるCM値cm(c)が算出される。ステップＳ７では、前記CM値cm(c)が特徴量正規化部２へ通知されて音響特徴量の正規化に利用される。ステップＳ８では、今回の音声認識に関する音声入力が完了したか否かが判定される。完了していなければステップＳ２へ戻り、続いて入力される音響特徴量に関して上記の各処理が繰り返される。

音声入力が完了し、これがステップＳ８で検知されるとステップＳ９へ進む。ステップＳ９では、初期CM値cm_initに関して所定の更新タイミングであるか否かが判定される。更新タイミングであればステップＳ１０へ進み、音響特徴量蓄積部１０４に蓄積されている正規化前の音響特徴量（履歴情報）が初期補正値算出部１０５に取り込まれる。ステップＳ１１では、音響特徴量の履歴情報が上式(6)に適用されて初期CM値cm_initが算出される。ステップＳ１２では、前記初期補正値蓄積部１０１に既登録の初期CM値cm_initが、前記ステップＳ１１で新たに算出された初期CM値cm_initに更新登録される。

上記のCM値cm(c)の算出を含む一連の手順は、コンピュータにより実行可能なプログラム言語で記述することができ、当該プログラムをCD-ROMやDVDなどの記憶媒体に記録し、これをコンピュータに読み込ませて実行させることにより音声認識装置を構成することができる。

なお、上記の実施形態では、本発明を音声認識用に入力音声の音響特徴量を正規化する場合を例にして説明したが、本発明はこれのみに限定されるものではなく、汎用の音響モデルを発話者や環境音に適応させて話者／環境適応モデルを構築する最尤線形回帰MLLR（Maximum Likelihood Linear Regression）適応法、最大事後確率MAP（Maximum a Posterior）適応法あるいは他の適応法において、入力音声の音響特徴量を正規化する場合にも同様に適用できる。

このようにすれば、音響モデルを発話者や環境音にほぼリアルタイムで適応させることができるようになるので、発声終了とほぼ同時に音響モデルを発話者や環境音に適応させることができるようになる。したがって、同一話者あるいは同一環境で音声認識が連続して行われるような場合には、次の音声認識から発話者や環境音に対して最適化された音響モデルによる音声認識が可能になる。

１…音響分析部，２…特徴量正規化部，３…辞書探索部，４…辞書，５…音響モデル，６…固定補正値，１０…補正値適応的決定部，１０１…初期補正値蓄積部，１０２…各時刻補正値算出部，１０３…補正値更新部，１０４…音響特徴量蓄積部，１０５…初期補正値算出部

Claims

音声信号から抽出された音響特徴量を正規化して音声認識に用いる音声認識装置において、
前記正規化用の補正値を音響特徴量の時系列に基づいて適応的に決定する補正値適応的決定手段を具備し、
前記補正値適応的決定手段は、
補正値の初期値を記憶する手段と、
所定の時刻周期で音声認識の開始時刻から現在時刻までの音響特徴量の時系列に基づいて各時刻補正値を算出する手段と、
現在時刻における補正値を、前記初期値および各時刻補正値の重み付け和として算出する手段とを具備したことを特徴とする音声認識装置。
前記音響特徴量の時系列を蓄積する手段と、
前記蓄積された音響特徴量の少なくとも一つの時系列に基づいて補正値の初期値を算出する手段と、
前記算出された初期値を前記初期値を記憶する手段に更新登録する手段とを具備したことを特徴とする請求項１に記載の音声認識装置。
前記正規化された音響特徴量が音響モデルと照合されることを特徴とする請求項１または２に記載の音声認識装置。
前記正規化された音響特徴量を用いて音響モデルを入力音声に適応させる手段をさらに具備したことを特徴とする請求項１または２に記載の音声認識装置。
前記音響モデルを入力音声に適応させる手段がＭＡＰ適応法およびＭＬＬＲ適応法のいずれかであることを特徴とする請求項４に記載の音声認識装置。
前記各時刻補正値を算出する手段は、音声認識の開始時刻から現在時刻までの音響特徴量の平均値を算出することを特徴とする請求項１ないし５のいずれかに記載の音声認識装置。
前記音声認識の開始時刻が、音声の入力が最初に検出された時刻であることを特徴とする請求項１ないし６のいずれかに記載の音声認識装置。
前記各時刻補正値を算出する手段は、音声認識の開始時刻から現在時刻までの音響特徴量の時系列から無音区間を除いた発声区間の平均値を算出することを特徴とする請求項１ないし７のいずれかに記載の音声認識装置。
前記初期値を記憶する手段には、音声信号の入力デバイスごとに初期値が記憶されており、入力デバイスに対応した初期値が前記補正値の算出に用いられることを特徴とする請求項１ないし８のいずれかに記載の音声認識装置。
前記初期値を記憶する手段には、入力音声の発話者ごとに初期値が記憶されており、発話者に対応した初期値が前記補正値の算出に用いられることを特徴とする請求項１ないし８のいずれかに記載の音声認識装置。
前記初期値を記憶する手段には、音声に含まれる背景雑音特性ごとに初期値が記憶されており、背景雑音特性に対応した初期値が前記補正値の算出に用いられることを特徴とする請求項１ないし８のいずれかに記載の音声認識装置。
音声信号から抽出された音響特徴量を正規化して音響モデルと照合する音声認識装置の特徴量正規化方法において、
補正値の初期値を記憶する手順と、
所定の時刻周期で音声認識の開始時刻から現在時刻までの音響特徴量の時系列に基づいて各時刻補正値を算出する手順と、
現在時刻における補正値を、前記初期値および各時刻補正値の重み付け和として算出する手順とを含むことを特徴とする音声認識装置の特徴量正規化方法。