JP5423670B2

JP5423670B2 - 音響モデル学習装置および音声認識装置

Info

Publication number: JP5423670B2
Application number: JP2010510052A
Authority: JP
Inventors: 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-04-30
Filing date: 2009-02-10
Publication date: 2014-02-19
Anticipated expiration: 2029-02-10
Also published as: US8751227B2; US20110046952A1; JPWO2009133719A1; WO2009133719A1

Description

本発明は、音響モデルを構築するための学習技術に関する。

情報入力、情報検索、音声入力支援、映像インデクシングに加え、話者認識、音声による個人認証、音質測定、環境測定などの広範囲において、音声認識技術が利用されている。音声認識の精度を高めるために、音響モデルを学習することにより、伝送チャネルや雑音などに起因する変動要因の影響を軽減する試みがなされている。

図１０は、非特許文献１と非特許文献２に開示された音響モデル学習技術を実現する音響モデル学習装置の模式の例を示す。図示のように、音響モデル学習装置１は、音声データ記憶手段１１と、チャネルラベル記憶手段１２と、不特定話者モデル学習手段１３と、チャネルモデル学習手段１４と、不特定話者モデル記憶手段１５と、チャネルモデル記憶手段１６を備える。

音声データ記憶手段１１は、様々な伝送チャネルを介して取得されたサンプル音声データを記憶している。伝送チャネルとは、話者などの音声ソースから、該音声が録音されるまでに通った物理的装置の種類を意味し、固定電話（固定電話端末と固定電話通信回線を含む）や、携帯電話（携帯電話端末と携帯電話回線を含む）や、ボーカルマイクなどを例として挙げることができる。以下、伝送チャネルを単にチャネルともいう。

また、音声の内容が同一であっても、話者が女性であるか男性であるかによってデータとしての音声が異なる。同様に、同一の音声内容、同一の話者であっても、固定電話を介して録音したか携帯電話を介して録音したかによってデータとしての音声が異なる。複数の種類を有し、種類が異なることにより音声に変動が生じる音声ソースや、伝送チャネルなどは音環境と呼ばれる。

音響モデル学習装置１のチャネルラベル記憶手段１２は、音声データ記憶手段１１に記憶されたサンプル音声データに夫々対応した、該サンプル音声データが通ったチャネルを示すラベルデータを記憶している。

不特定話者モデル学習手段１３は、音声データ記憶手段１１とチャネルラベル記憶手段１２からサンプル音声データとラベルデータを受け取り、サンプル音声データからチャネルという音環境に依存する変動成分を除去して、話者という音環境に依存する変動成分のみを抽出することにより、不特定話者音響モデルを学習する。以下の説明において、「不特定話者音響モデル」を「不特定話者モデル」ともいう。

チャネルモデル学習手段１４は、音声データ記憶手段１１とチャネルラベル記憶手段１２からサンプル音声データとラベルデータを受け取り、チャネル毎に、該チャネルの音響モデルに相当するアフィン変換のパラメータを学習する。すなわち、チャネル音響モデルは、不特定話者モデルにアフィン変換を施すことにより得られるとの仮定に基づき、そのパラメータを学習することにより求められる。以下の説明において、「チャネル音響モデル」を「チャネルモデル」ともいう。

なお、不特定話者モデル学習手段１３とチャネルモデル学習手段１４は、互いに連動して非特許文献３に記載された反復解法を行い、不特定話者音響モデルとアフィン変換パラメータ（チャネル音響モデル）を更新し、反復解法が収束した後に、最終的な不特定話者音響モデルとアフィン変換パラメータを出力する。

不特定話者モデル記憶手段１５は、不特定話者モデル学習手段１３から不特定話者モデルを受け取って記憶し、チャネルモデル記憶手段１６は、チャネルモデル学習手段１４からチャネルモデルを受け取って記憶する。

音響モデル学習装置１によれば、チャネル毎に該チャネル固有のアフィン変換パラメータを取得することができる。従って、既知のいずれかのチャネルから入力された音声データに対して、アフィン変換を施した音響モデルを適用するか、音声データに対して逆アフィン変換を施すことにより、チャネルによる変動要因を軽減し、認識対象を正しく認識することができると考えられている。
D. A. Reynolds, "Channel robust speaker verification via feature mapping," Proc. ICASSP2003, Vol.II, pp.53−56, 2003 D. Zhu et al., "A generalized feature transformation approach for channel robust speaker verification," Proc. ICASSP2007, Vol.IV, pp.61−64, 2007 T. Anastasakos et al., "A compact model for speaker-adaptive training," Proc. ICSLP96, 1996

ところで、図１０に示す音響モデル学習装置１では、チャネルモデル学習手段１４は、チャネル毎にアフィン変換のパラメータを正確に推定するために、不特定話者モデル学習手段１３が話者という音環境に起因する変動成分が無視できることを前提とするが、この前提は、必ず成立するとは限らない。

例えば、図１１に示すようなサンプルデータ例の場合、すべての種類の話者について、すべてのチャネルを介した音声データが取得されている。この場合、同一の種類の話者がすべてのチャネルを通して発声した音声データを利用することができるため、どの話者が発声した音声であるかが未知であっても、チャネルの変化により音声の正味がどのように変わるかを知ることができる。これは、チャネル毎にまとめた音声データの集合をチャネル間で比較する場合にも同じである。

しかし、通常収集できるサンプルデータは、図１１に示すような完璧なものではない。図１２に示すサンプルデータの例を参照して、一部のチャネルで発声しなかった話者が存在する場合を考える。図１２に示す例では、「女性」である話者が、「固定電話」と「携帯電話」の２つのチャネルを介した音声データがあるものの、「マイク」チャネルを介した音声データが無い。また、「高齢者」である話者が、「マイク」と「固定電話」の２つのチャネルを介した音声データがあるものの、「携帯電話」チャネルを介した音声データが無い。また、「男性」である発話者が、「携帯電話」チャネルを介した音声データのみがあり、「マイク」と「固定電話」の２つのチャネルを介した音声データが無い。

このような場合、例えば、「女性」である発話者について、「固定電話」チャネルと「携帯電話」チャネル間で音声がどのように異なるかを知ることができるが、「マイク」チャネルでの音声がどのようになるかについては把握することができない。

また、チャネル毎にまとめた音声データの集合についても同様のことが言える。たとえば、図１２に示す例では、「マイク」チャネルの音声データの集合は、「高齢者」の音声データのみで構成、高齢者の音声の特徴を含んでいる。一方、「携帯電話」チャネルの音声データの集合には、「高齢者」の音声データが無いため、高齢者の音声の特徴を含まない。このような状況では、チャネルの違いによる変動要因と、話者の種類の違いによる変動要因が混ざっているため、チャネルの違いによる変動要因を把握することが困難である。

この状況は、収集方法を注意深く設計すると共に実行することによって収集されたサンプルデータではない限り、ごく普通に発生する。一方、収集方法を注意深く設計すると共に実行することは、計画や、被験者の確保に莫大なコストがかかり、現実的ではない。

本発明は、上記事情に鑑みてなされたものであり、完璧ではないサンプルデータの場合でも、精度の良い音響モデルを学習することができ、ひいては精度の良い音声認識ができる技術を提供する。

本発明の一つの態様は、音響モデル学習装置である。この音響モデル学習装置は、第１の変動モデル学習部と、第２の変動モデル学習部と、不特定音響モデル学習部を備える。

第１の変動モデル学習部は、複数の種類を有し、種類が異なることにより音声に変動が生じる第１の音環境のいずれか１種と、複数の種類を有し、種類が異なることにより音声に変動が生じる第２の音環境のいずれか１種とを介して取得されたサンプル音声データを用いて、第１の音環境の種類毎に、該種類の第１の音環境が音声に生じさせる変動を示す第１の変動モデルを規定するパラメータを推定する。

第２の変動モデル学習部は、上記複数のサンプル音声データを用いて、第２の音環境の種類毎に、該種類の第２の音環境が音声に生じさせる変動を示す第２の変動モデルを規定するパラメータを推定する。

不特定音響モデル学習部は、上記複数のサンプル音声データを用いて、第１の音環境の種類と第２の音環境の種類のいずれにも特定しない音響モデル（不特定音響モデル）を規定するパラメータを推定する。

これらの３つの学習部は、第１の変動モデルのサンプル音声データへの適合度と、第２の変動モデルのサンプル音声データへの適合度と、不特定音響モデルのサンプル音声データへの適合度を統合した統合適応度が最も高くなるように、それぞれのパラメータを推定する。

本発明の別の態様は、音声認識装置である。この音声認識装置は、本発明の上記態様の音響モデル学習装置により得られた各第１の変動モデルのうちの、所定種類の第１の音環境を介して取得された認識対象の音声データの当該所定種類に対応した第１の変動モデルが示す変動と逆の変換を、該認識対象の音声データに対して施す音声変換部を備え、該音声変換部により得た音声データに対して音声認識を行う。

本発明のまた別の態様も、音声認識装置である。この音声認識装置は、本発明の上記態様の音響モデル学習装置により得られた各第２の変動モデルのうちの、所定種類の第２の音環境を介して取得された認識対象の音声データの該所定種類に対応した第２の変動モデルが示す変動と逆の変換を、該認識対象の音声データに対して施す音声変換部を備え、該音声変換部により得た音声データに対して音声認識を行う。

本発明のさらなる別の態様は、音環境認識装置である。この音環境認識装置は、第２の音声変換部と、第１の音声変換部と、識別部を備える。
第２の音声変換部は、本発明の上記態様の音響モデル学習装置により得られた各第２の変動モデルのうちの、所定種類の第２の音環境を介して取得された認識対象の音声データの当該所定種類に対応した第２の変動モデルが示す変動と逆の変換を、該認識対象の音声データに対して施す。

第１の音声変換部は、本発明の上記態様の音響モデル学習装置により得られた各第１の変動モデルが示す変動と逆の変換を、第２の音声変換部により得た音声データに対して夫々行って複数の音声データを得る。

識別部は、上記第１の音声変換部が得た複数の音声データと、本発明の上記態様の音響モデル学習装置により得られた不特定音響モデルとを用いて、認識対象の音声データが通った第１の音環境の種類を識別する。

なお、上記各態様の装置を方法やシステム、またはコンピュータを当該装置として動作せしめるプログラムとして置き換えて表現したものも、本発明の態様として有効である。

本発明にかかる技術によれば、完璧ではないサンプルデータの場合でも、精度の良い音響モデルを学習することができ、ひいては音声認識の精度を高めることができる。

本発明にかかる技術を説明するための音響モデル学習装置の模式図である。図１における音響モデル学習装置のサンプルデータ記憶部に記憶されたデータの構成例を示す図である。音声データの生成過程を表すモデルの概念図である。図１に示す音響モデル学習装置のおける処理の流れを示すフローチャートである。本発明の第１の実施の形態にかかる音響モデル学習装置を示す図である。本発明の第２の実施の形態にかかる音声認識装置を示す図である。図６に示す音声認識装置における処理の流れを示すフローチャートである。本発明の第３の実施の形態にかかる音声認識装置を示す図である。図８に示す音声認識装置における処理の流れを示すフローチャートである。従来の音響モデル学習方法の説明するための音響モデル学習装置の模式図である。サンプル音声データの例を示す図である（その１）。サンプル音声データの例を示す図である（その２）。

符号の説明

１音響モデル学習装置１１音声データ記憶手段
１２チャネルラベル記憶手段１３不特定話者モデル学習手段
１４チャネルモデル学習手段１５不特定話者モデル記憶手段
１６チャネルモデル記憶手段１００音響モデル学習装置
１１０サンプルデータ記憶部１２０第１の変動モデル学習部
１３０第２の変動モデル学習部１４０不特定音響モデル学習部
２００音響モデル学習装置２１２サンプルデータ記憶部
２１４話者ラベル記憶部２１６チャネルラベル記憶部
２２０話者の変動モデル学習部２３０チャネルの変動モデル学習部
２４０不特定音響モデル学習部２５２話者の変動モデル記憶部
２５４チャネルの変動モデル記憶部２５６不特定音響モデル記憶部
３００音声認識装置３１２チャネル入力部
３１４音声入力部３２４チャネルの変動モデル記憶部
３２６不特定音響モデル記憶部３３０音声変換部
３４０音声認識部４００音声認識装置
４１２チャネル入力部４１４音声入力部
４２２チャネルの変動モデル記憶部４２４話者の変動モデル記憶部
４２６不特定音響モデル記憶部４３０第２の音声変換部
４４０第１の音声変換部４５０話者識別部

以下の説明に用いられる図面に、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、プロセッサ、メモリ、その他の回路で構成することができ、ソフトウェア的には、メモリに記録された、またはロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。また、分かりやすいように、これらの図面において、本発明の技術を説明するために必要なもののみを示す。

本発明の具体的な実施の形態を説明する前に、まず、本発明の原理を説明する。
図１は、本発明にかかる技術に基づく音響モデル学習装置１００の模式図の例である。音響モデル学習装置１００は、サンプルデータ記憶部１１０と、第１の変動モデル学習部１２０と、第２の変動モデル学習部１３０と、不特定音響モデル学習部１４０を備える。

サンプルデータ記憶部１１０は、様々なサンプル音声データ（以下単にサンプルデータという）と、該サンプルデータが取得された第１の音環境の種類と、第２の音環境の種類とを対応付けて記憶している。第１の音環境は、複数の種類を有し、この種類が異なることにより音声に変動が生じる。第２の音環境も、複数の種類を有し、この種類が異なることにより音声に変動が生じる。

図２は、サンプルデータ記憶部１１０に記憶されたデータの例を示す。図示のように、サンプルデータ記憶部１１０において、サンプルデータと、該サンプルデータがどの第１の音環境で取得されたかを示す第１の音環境ラベルＡと、該サンプルデータがどの第２の音環境で取得されたかを示す第２の音環境ラベルＢとを対応付けて記憶されている。各第１の音環境ラベルは、第１の音環境の複数の種類とそれぞれ対応し、各第２の音環境ラベルは、第２の音環境の複数の種類とそれぞれ対応する。

例えば、第１の音環境と第２の音環境をそれぞれ「話者」と「チャネル」とした場合、サンプルデータ１は、チャネルＢ３を介して取得した話者Ａ２の音声データであり、サンプルデータ２は、チャネルＢ２を介して取得した話者Ａ１の音声データである。

第１の変動モデル学習部１２０は、第１の音環境の種類毎に、該種類の第１の音環境が音声に生じさせる変動を示す第１の変動モデルを規定するパラメータを推定する。例えば、第１の音環境が話者である場合には、各第１の変動モデルは、話者の変動モデルとなる。

第２の変動モデル学習部１３０は、第２の音環境の種類毎に、該種類の第２の音環境が音声に生じさせる変動を示す第２の変動モデルを規定するパラメータを推定する。たとえば、第２の音環境がチャネルである場合には、各第２の変動モデルは、チャネルの変動モデルとなる。

不特定音響モデル学習部１４０は、第１の音環境と第２の音環境のいずれにも依存しない音響モデルを学習する。以下、この音響モデルを不特定音響モデルという。

まず、不特定音響モデル学習部１４０について説明する。
不特定音響モデル学習部１４０は、不特定音響モデルを初期化して、サンプルデータ記憶部１１０に記憶された各サンプルデータおよび２種類の音環境ラベルを読み出して、不特定音響モデルのパラメータを更新する。この不特定音響モデルは、従来知られているガウス混合モデル（ＧＭＭ）や隠れマルコフモデル（ＨＭＭ）などを用いることができる。以下の説明においてＧＭＭを例にするが、他のモデルを用いた場合も同様の動作を導出することができる。

ＧＭＭでは、混合数をＭとした場合、モデルを規定するパラメータは、式（１）により表すことができる。

式（１）において、μ_ＫとΣ_Ｋはそれぞれ第ｋ番目のガウス分布の平均および分散であり、Ｃ_Ｋは第ｋ番目のガウス分布にかかる混合係数（重み係数）である。

これらのパラメータの初期化は、各パラメータに適当な値をセットすることにより行われる。たとえば、音声データが特徴ベクトルの時系列の形で与えられるとして、Ｃ_Ｋには「１／Ｍ」、μ_ＫとΣ_Ｋには、特徴ベクトルの平均と分散をそれぞれセットすればよい。以下、モデルを規定するパラメータをモデルパラメータという。

特徴ベクトルとしてメルケプストラム係数（ＭＦＣＣ）を用いて、式（２）に示すように、第１の音環境がｉ番目であり、第２の音環境がｊ番目である音声データを特徴ベクトルの時系列で表すことができる。

なお、式中Ｔ_ｉ，ｊは、特徴ベクトルのフレーム数（個数）である。

次に第１の変動モデルを学習する第１の変動モデル学習部１２０を説明する。
第１の変動モデル学習部１２０は、各第１の変動モデルを初期化して、サンプルデータ記憶部１１０に記憶されたサンプルデータと音環境ラベルＡを読み出してモデルパラメータを更新する。第１の変動モデルのモデルパラメータは、例えば式（３）に示すアフィン変換のパラメータセット{Ｖ_ｉ、λ_ｉ｜ｉ＝１，２，・・・，Ｎ}（Ｎ：第１の音環境の種類の数）を用いることができる。

第１の変動モデルの初期化は、各パラメータに適当な値をセットすることにより行われる。たとえば、アフィン変換が恒等変換となるように、「Ｖ_ｉ＝Ｉ、λ_ｉ＝０」（Ｉ：単位行列）とすればよい。

第２の変動モデルを学習する第２の変動モデル学習部１３０は、第２の変動モデルを初期化して、サンプルデータ記憶部１１０に記憶されたサンプルデータと音環境ラベルＢを読み出してモデルパラメータを更新する。第２の変動モデルのモデルパラメータは、例えば式（４）に示すアフィン変換のパラメータセット{Ｗ_ｊ、ν_ｊ｜ｊ＝１，２，・・・，Ｃ}（Ｃ：第２の音環境の種類の数）を用いることができる。

第２の変動モデルの初期化は、各パラメータに適当な値をセットすることにより行われる。たとえば、第１の変動モデルの初期化と同様に、アフィン変換が恒等変換となるように、「Ｗ_ｊ＝Ｉ、ν_ｊ＝０」（Ｉ：単位行列）とすればよい。

第１の変動モデル学習部１２０、第２の変動モデル学習部１３０、不特定音響モデル学習部１４０は、第１の変動モデルのサンプル音声データへの適合度と、第２の変動モデルのサンプル音声データへの適合度と、不特定音響モデルのサンプル音声データへの適合度とを統合した統合適合度が最も高くなるように、それぞれのパラメータを推定する。

統合適合度は、例えば、これらの３つのモデルのパラメータにより表わされる、サンプル音声データが観測される確率を用いることができる。サンプル音声データの生成過程を参照して、この確率について説明する。

図３は、第１の音環境、第２の音環境の順で該２つの音環境を通ることにより変動が生じた音声データが観測されるという現象を表現したサンプル音声データの生成モデルの概念図である。まず、変動が生じる前の音声が、不特定音響モデルの確率分布に従い、「ｚ_１，ｚ_２，・・・，ｚ_Ｔ」のような特徴ベクトル系列として生成される。この音声は、種類ｉの第１の音環境（１≦ｉ≦Ｎ）を通ることによって、式（５）に示す変換がなされ、元とは異なる音声「ｙ_１，ｙ_２，・・・，ｙ_Ｔ」になる。

第１の音環境を通った音声は、さらに種類ｊの第２の音環境（１≦ｊ≦Ｃ）を通ることによって、式（６）に示す変換がなされ、音声「ｘ_１，ｘ_２，・・・，ｘ_Ｔ」になる。

一般に、観測できる音声は、音声「ｘ_１，ｘ_２，・・・，ｘ_Ｔ」であり、「ｚ_１，ｚ_２，・・・，ｚ_Ｔ」や「ｙ_１，ｙ_２，・・・，ｙ_Ｔ」は観測不可能である。

図３に示す生成モデルの場合、ある音声データＸ＝（ｘ_１，ｘ_２，・・・，ｘ_Ｔ）が観測される確率は、式（７）で表すことができる。

なお、式（７）におけるθは、不特定音響モデル、第１の変動モデル、第２の変動モデルのパラメータ、すなわちＣ_Ｋ、μ_Ｋ、Σ_Ｋ、Ｖ_ｉ、λ_ｉ、Ｗ_ｊ、ν_ｊのいずれかを表す。また、ｆ（ｘ｜μ，Σ）は、平均μ、分散Σのガウス分布を表す。

第１の変動モデルと第２の変動モデル、および不特定音響モデルが、式（２）で表される、種々の第１の音環境ｉおよび第２の音環境ｊで観測されたサンプル音声データに適合するほど、これらのモデルが正確である。しかし、サンプル音声データに第１の音環境の影響と第２の音環境の影響が混ざっているため、各モデル個々について、サンプル音声データへ最も適合するように求められたモデルパラメータは、精度に欠けてしまう。

そこで、本願発明者が提案した、第１の変動モデルのサンプル音声データへの適合度と、第２の変動モデルのサンプル音声データへの適合度と、不特定音響モデルのサンプル音声データへの適合度を統合して得た統合適合度が最も高くなるようにそれぞれのパラメータを推定する手法を用いれば、最も正確な音響モデルを推定することができる。この統合適合度として、式（７）で表される確率を用いることができる。すなわち、式（７）で表わされる確率が最も大きくなるように、第１の変動モデル、第２の変動モデル、および不特定音響モデルのパラメータθを推定すれば、最も正確な音響モデルを得ることができる。

そのため、本発明にかかる技術において、各学習部は、下記の式（８）に従ってそれぞれのパラメータθを更新する。

式（８）において、ａｒｇｍａｘは、与えられた関数の値が最大となるように変数（ここではθ）の値を求めることを意味する。式（８）に示す演算は、最尤推定法としてよく知られており、期待値最大化（ＥＭ）法として知られる反復計算アルゴリズムによる数値解法を適用することができる。
また、パラメータθの更新は、最尤推定法以外にも、よく知られた最大事後確率（ＭＡＰ）推定法、ベイズ推定法などの手法により行うことができる。

ここで、図４に示すフローチャートを参照して、音響モデル学習装置１００における第１の変動モデル学習部１２０、第２の変動モデル学習部１３０、不特定音響モデル学習部１４０によるパラメータの推定処理の流れを説明する。

図４に示すように、まず、各学習部は、サンプルデータ記憶部１１０からサンプルデータ、第１の音環境ラベル、第２の音環境ラベルを読み込む（Ｓ１０、Ｓ１２、Ｓ１４）。なお、ステップＳ１０、Ｓ１２、Ｓ１４の実行順序は図示に限らず、任意である。

そして、各学習部は、それぞれのモデルパラメータを初期化する（Ｓ１６）。具体的には、不特定音響モデル学習部１４０は、パラメータＣ_Ｋ、μ_Ｋ、Σ_Ｋを初期化し、第１の変動モデル学習部１２０はパラメータＶ_ｉ、λ_ｉを初期化し、第２の変動モデル学習部１３０はパラメータＷ_ｊ、ν_ｊを初期化する。初期化により各パラメータにセットされる値の例は、前に述べた通りであり、ここで詳細を省略する。

なお、ステップＳ１６における初期化は、ステップＳ１０〜Ｓ１４の前に実行されてもよい。この場合、サンプルデータを参照することができないので、不特定音響モデル学習部１４０は、乱数でμ_Ｋ、Σ_Ｋを初期化するなどの手法を用いる。

次に、不特定音響モデル学習部１４０は、式（９）、（１０）、（１１）に従って、不特定音響モデルのパラメータＣ_Ｋ、μ_Ｋ、Σ_Ｋを更新する（Ｓ１８）。

なお、式（９）、（１０）、（１１）におけるγ_ｉｊｋｔは、不特定音響モデルの第ｋ番目のガウス分布に属する確率として式（１２）に従って予め算出されたものである。

ステップＳ１８における不特定音響モデル学習部１４０のパラメータ更新は、１回のみ行ってもよく、所定の回数繰り返してもよい。さらに、収束判定例えば式（８）の右辺の対数確率を指標とした収束判定を導入して、収束するまで繰り返すようにしてもよい。

次に、第１の変動モデル学習部１２０は、式（１３）と式（１４）に従って、第１の変動モデルのパラメータＶ_ｉ、λ_ｉを更新する（Ｓ２０）。

なお、式（７）と式（８）におけるγ_ｉｊｋｔも、不特定音響モデル学習部１４０のときと同じように式（１２）に従って予め算出されたものである。また、パラメータの更新回数は、不特定音響モデル学習部１４０の場合と同様に決めればよい。

そして、第２の変動モデル学習部１３０は、式（１５）と式（１６）に従って、第２の変動モデルのパラメータν_ｊ、Ｗ_ｊを更新する（Ｓ２２）。

なお、式（１５）と式（１６）におけるγ_ｉｊｋｔも、不特定音響モデル学習部１４０のときと同じように式（１２）に従って予め算出されたものである。また、パラメータの更新回数も、不特定音響モデル学習部１４０の場合と同様に決めればよい。

ステップＳ１８〜Ｓ２２までの更新処理は、収束するまで繰り返される（Ｓ２４：Ｎｏ、Ｓ１８〜）。なお、収束した時点で（Ｓ２４：Ｙｅｓ）、第１の変動モデル学習部１２０、第２の変動モデル学習部１３０、不特定音響モデル学習部１４０から、第１の変動モデル、第２の変動モデル、不特定音響モデルのパラメータがそれぞれ出力され、音響モデル学習装置１００による学習処理は終了する。

このように、本発明にかかる技術によれば、第１の変動モデル学習部１２０は第１の音環境に起因する変動要因のみを抽出することができ、第２の変動モデル学習部１３０は第２の音環境に起因する変動要因のみを抽出することができ、完璧ではないサンプルデータでも、精度の良い音響モデルを構築することができる。ひいては、これらの音響モデルを用いた音声認識も、精度良くできる。

以上の説明を踏まえて本発明の実施の形態を説明する。
＜第１の実施の形態＞
図５は、本発明の第１の実施の形態にかかる音響モデル学習装置２００を示す。音響モデル学習装置２００は、サンプルデータ記憶部２１２と、話者ラベル記憶部２１４と、チャネルラベル記憶部２１６と、話者の変動モデル学習部２２０と、チャネルの変動モデル学習部２３０と、不特定音響モデル学習部２４０と、話者の変動モデル記憶部２５２と、チャネルの変動モデル記憶部２５４と、不特定音響モデル記憶部２５６を備える。

サンプルデータ記憶部２１２は、様々なチャネルを介して録音した複数の話者のサンプル音声データを記憶している。

話者ラベル記憶部２１４は、サンプルデータ記憶部２１２に記憶された各サンプルデータの夫々の話者を示すラベル（話者ラベル）のデータを記憶している。

チャネルラベル記憶部２１６は、サンプルデータ記憶部２１２に記憶された各サンプルデータのそれぞれのチャネルを示すラベル（チャネルラベル）のデータを記憶している。

なお、サンプルデータ記憶部２１２と、話者ラベル記憶部２１４と、チャネルラベル記憶部２１６は、サンプルデータと、話者ラベルと、チャネルラベルとを対応付けできるように記憶している。

話者の変動モデル学習部２２０は、図１に示す音響モデル学習装置１００の第１の変動モデル学習部１２０に対応する。ここで、話者が第１の音環境であり、話者の変動モデル学習部２２０は、話者毎の第１の変動モデルを得る。この第１の変動モデルを以下話者の変動モデルという。
チャネルの変動モデル学習部２３０は、音響モデル学習装置１００の第２の変動モデル学習部１３０に対応する。ここで、チャネルが第２の音環境であり、チャネルの変動モデル学習部２３０は、チャネル毎の第２の変動モデルを得る。この第２の変動モデルを以下チャネルの変動モデルという。

不特定音響モデル学習部２４０は、音響モデル学習装置１００の不特定音響モデル学習部１４０に対応し、話者とチャネルのいずれにも依存しない不特定音響モデルを学習する。

この３つの学習部は、話者の変動モデルのサンプル音声データへの適合度と、チャネルの変動モデルのサンプル音声データへの適合度と、不特定音響モデルのサンプル音声データへの適合度を統合して得た統合適合度が最も高くなるように、それぞれのパラメータを推定する。各学習部の具体的な処理は、音響モデル学習装置１００における相対応の学習部と同様であるので、ここで詳細な説明を省略する。

話者の変動モデル記憶部２５２と、チャネルの変動モデル記憶部２５４と、不特定音響モデル記憶部２５６は、話者の変動モデル学習部２２０、チャネルの変動モデル学習部２３０、不特定音響モデル学習部２４０が得た話者の変動モデルと、チャネルの変動モデルと、不特定音響モデルをそれぞれ格納する。

本実施の形態の音響モデル学習装置２００は、本発明の原理を具現化したものであり、音響モデル学習装置１００と同様の効果を発揮することができる。

次いで、第２の実施の形態と第３の実施の形態と用いて、本発明の音響モデル学習技術により得られた音響モデルの使用例を説明する。
＜第２の実施の形態＞
図６は、本発明の第２の実施の形態にかかる音声認識装置３００を示す。この音声認識装置３００は、チャネル入力部３１２と、音声入力部３１４と、チャネルの変動モデル記憶部３２４と、不特定音響モデル記憶部３２６と、音声変換部３３０と、音声認識部３４０を備える。

音声入力部３１４は、音声認識の対象となる音声データを音声変換部３３０に入力する。
チャネル入力部３１２は、音声入力部３１４により入力される音声データが通ったチャネルを示すラベルを入力する。なお、チャネル入力部３１２が入力するラベルは、チャネルの種類を示すデータであり、チャネルの変動モデル記憶部３２４に記憶されたチャネル毎のモデルを指定することができれば、ラベルに限られず、任意の名前や番号でもよい。

チャネルの変動モデル記憶部３２４は、図５に示す音響モデル学習装置２００におけるチャネルの変動モデル記憶部２５４に該当し、チャネルの変動モデル学習部２３０が得たチャネルの変動モデルを格納する。具体的には、Ｃ種類のチャネル毎に、該種類のチャネルを示すラベルに対応付けて、パラメータν_ｊ、Ｗ_ｊを記憶している。

不特定音響モデル記憶部３２６は、図５に示す音響モデル学習装置２００における不特定音響モデル記憶部２５６に該当し、不特定音響モデル学習部２４０が得た不特定音響モデルを格納している。

音声変換部３３０は、音声入力部３１４が入力された音声データに対して、チャネルによる影響を取り除くための変換を行う。具体的には、チャネル入力部３１２が入力したラベルに対応するパラメータν_ｊ、Ｗ_ｊをチャネルの変動モデル記憶部３２４から読み出して、式（１７）に従って、入力された音声データ「ｘ_１，ｘ_２，・・・，ｘ_Ｔ」を「ｙ_１，ｙ_２，・・・，ｙ_Ｔ」に変換する。

前述したように、種類ｊのチャネルを通ることで音声データが前述した下記の式（６）のように変化する。

式（１７）と式（６）を比較して分かるように、音声変換部３３０が行った変換は、式（６）が示す、種類ｊのチャネルが音声へ与える影響の逆変換に相当する。すなわち、この変換によって、音声入力部３１４が入力した音声データから、チャネル入力部３１２が入力した、この音声データが通った種類ｊのチャネルの影響は取り除かれる。

音声変換部３３０がチャネルの影響を取り除いて得た音声データ「ｙ_１，ｙ_２，・・・，ｙ_Ｔ」を音声認識部３４０に出力する。

音声認識部３４０は、不特定音響モデル記憶部３２６から不特定音響モデルを読出し、音声変換部３３０からの音声データ「ｙ_１，ｙ_２，・・・，ｙ_Ｔ」に対して、図示しない辞書、言語モデル、文法規則などを用いて、従来知られている音声認識手法により音声認識を行って結果である文字列を出力する。

図７は、図６に示す音声認識装置３００の処理の流れを示すフローチャートである。音声認識を行うにあたり、音声認識部３４０は、不特定音響モデル記憶部３２６から不特定音響モデルを読み込む（Ｓ５０）。なお、ステップＳ５０の処理は、不特定音響モデル記憶部３２６が音声認識を開始する前であれば、いつ実行されてもよい。

音声変換部３３０は、音声入力部３１４から音声データを読み込むと共に、チャネル入力部３１２から、該音声データの音声が通ったチャネルを示すチャネルラベルを読み込む（Ｓ５２、Ｓ５４）。そして、音声変換部３３０は、チャネル入力部３１２から読み込んだチャネルラベルに対応するチャネルの変動モデルのパラメータをチャネルの変動モデル記憶部３２４から読み出して、音声入力部３１４から読み込んだ音声データに対して音声変換を行って、チャネルによる影響を取り除く（Ｓ５８）。

最後に、音声認識部３４０は、音声変換部３３０によりチャネルの影響が取り除かれた音声データに対して音声認識を行って文字列を得る（Ｓ６０）。

本実施の形態の音声認識装置３００によれば、チャネルの変動モデルがチャネルという音環境による変動成分のみを抽出しているため、認識対象の音声データに対して、チャネルの影響を取り除いた上で音声認識を行うことができ、音声認識の精度を高めることができる。

なお、本実施の形態では、音声変換部３３０により音声データに対してアフィン変換をすることによってチャネルの影響を取り除くようにしているが、音響モデルの話者適応化技術の分野でよく行われるように、音声データに対する変換の代わりに、不特定音響モデルに対して相当の変換を行うようにしても、同様の効果を得ることができる。

なお、音声認識装置３００は、本発明にかかる音響モデル学習技術により得られたチャネルの変動モデルを音声認識に適用した例である。勿論、本発明にかかる音響モデル学習技術により得られた話者の変動モデル話者の変動モデルを、音声入力装置などに適用してもよい。この場合も、話者の変動モデルが話者という音環境に起因する変動成分のみを抽出しているので、認識対象の音声データに対して、話者の影響を取り除いた上で音声認識を行うことができ、精度が良い。
＜第３の実施の形態＞

図８は、本発明の第３の実施の形態にかかる音声認識装置４００を示す。この音声認識装置４００は、入力された音声の話者を識別するものであり、チャネル入力部４１２と、音声入力部４１４と、話者の変動モデル記憶部４２４と、不特定音響モデル記憶部４２６と、チャネルの変動モデル記憶部４２２と、第２の音声変換部４３０と、第１の音声変換部４４０と、話者識別部４５０を備える。

チャネル入力部４１２、音声入力部４１４、チャネルの変動モデル記憶部４２２、不特定音響モデル記憶部４２６、第２の音声変換部４３０は、図６に示す音声認識装置３００におけるチャネル入力部３１２と、音声入力部３１４と、チャネルの変動モデル記憶部３２４と、不特定音響モデル記憶部３２６、音声変換部３３０とそれぞれ同様の機能および構成を有し、ここで説明を省略する。

話者の変動モデル記憶部４２４は、図５に示す音響モデル学習装置２００における話者の変動モデル記憶部２５２に該当し、話者の変動モデル特定学習部２２０が得た話者の変動モデルを格納している。具体的には、Ｎ人の話者毎にパラメータセット「Ｖ_ｉ、λ_ｉ」を記憶している。

音声認識装置４００において、第２の音声変換部４３０によりチャネルの影響が取り除かれた音声データは、第１の音声変換部４４０に出力される。

第１の音声変換部４４０は、話者の変動モデル記憶部４２４からＮ人の話者にそれぞれ対応するパラメータセット「Ｖ_ｉ、λ_ｉ」を読み出して、それぞれのパラメータセットを用いて下記の式（１８）が示す変換を行って、Ｎ個の音声データ「ｚ_１，１，ｚ_１，２，・・・，ｚ_１，Ｔ」、「ｚ_２，１，ｚ_２，２，・・・，ｚ_２，Ｔ」、・・・、「ｚ_Ｎ，１，ｚ_Ｎ，２，・・・，ｚ_Ｎ，Ｔ」を取得する。

前述したように、種類ｉの話者による発声により音声データが前述した下記の式（５）のように変化する。

式（１８）と式（５）を比較して分かるように、第１の音声変換部４４０が行った変換は、式（５）が示す、種類ｉの話者が音声へ与える影響の逆変換に相当する。すなわち、この変換によって、音声入力部３１４が入力した音声データが、話者ｉが発声したものでれば、この音声データから話者ｉによる影響が取り除かれる。

話者識別部４５０は、第１の音声変換部４４０が得られた各音声データ「ｚ_ｉ，１，ｚ_ｉ，２，・・・，ｚ_ｉ，Ｔ」（ｉ＝１、２、・・・、Ｎ）について、不特定音響モデル記憶部４２６に記憶されたモデルとの類似度Ｓ_１、Ｓ、_２，・・・，Ｓ_Ｎをそれぞれ算出する。そして、これらの類似度のうちの最も大きい類似度の番号ｉを出力する。これにより、音声入力部４１４から入力された音声データの話者が認識される。
なお、話者識別部４５０による類似度Ｓiの算出は、例えば下記の式（１９）に従って行うことができる。

または、対数をとった下記の式（２０）を用いてもよい。

図９は、図８に示す音声認識装置４００の処理の流れを示すフローチャートである。ステップＳ８０〜Ｓ８８までの処理は、図７に示す音声認識装置３００のステップＳ５０〜Ｓ５８までの処理を同様であり、ここで詳細な説明を省略する。ステップＳ９０において、第１の音声変換部４４０は、話者の変動モデル記憶部４２４に記憶された話者の変動モデルのすべてのパラメータを読出し、話者が話者ｉ〜話者Ｎであるとそれぞれ仮定して、第２の音声変換部４３０からの音声データに対して、当該話者の影響を取り除く第１の音声変換を行ってＮ個の音声データを得る（Ｓ９２）。話者識別部４５０は、第１の音声変換部４４０によりステップＳ９２で得られたＮ個の音声データと不特定音響モデルの類似度Ｓｉ（ｉ＝１〜Ｎ）をそれぞれ算出し、類似度が最も大きい音声データに対応するｉを得ることにより、音声入力部４１４から入力された音声が、話者ｉにより発声したものであるとの認識結果を得る（Ｓ９４）。

本実施の形態の音声認識装置４００によれば、第２の音声変換部４３０によりチャネルが音声データに与えた影響を取り除いた上で話者の認識を行うので、認識精度を高めることができる。

以上、実施の形態（および実施例）を参照して本願発明を説明したが、本願発明は上記実施の形態（および実施例）に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

例えば、上述した各実施の形態による音響モデル学習処理または音声認識処理の手順を記述したプログラムをコンピュータに実装し、コンピュータを上述した各実施の形態の音響モデル学習装置または音声認識装置として動作せしめるようにしてもよい。この場合、各モデルを記憶する記憶部としては、コンピュータの記憶装置例えばハードディスクなどを用いればよい。

この出願は、２００８年４月３０日に出願された日本出願特願２００８−１１８６６２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、例えば、音響モデルを構築するための学習技術に使用される。

Claims

変化することにより音声に変動を生じさせる複数の環境要因のうちの１つである第１の環境要因の複数の種類のうちのいずれか１種と、前記複数の環境要因のうちの別の１つである第２の環境要因の複数の種類のうちのいずれか１種との組わせ毎に取得された複数のサンプル音声データを用いて、前記第１の環境要因の種類毎に、音声の変動を示す第１の変動モデルを規定するパラメータを推定する第１の変動モデル学習部と、
前記複数のサンプル音声データを用いて、前記第２の環境要因の種類毎に、音声の変動を示す第２の変動モデルを規定するパラメータを推定する第２の変動モデル学習部と、
前記複数のサンプル音声データを用いて、前記第１の環境要因の種類と前記第２の環境要因の種類のいずれにも特定しない不特定音響モデルを規定するパラメータを推定する不特定音響モデル学習部とを備え、
各前記学習部は、前記第１の変動モデルの前記サンプル音声データへの適合度と、前記第２の変動モデルの前記サンプル音声データへの適合度と、前記不特定音響モデルの前記サンプル音声データへの適合度を統合した統合適応度が最も高くなるように、それぞれのパラメータを推定することを特徴とする音響モデル学習装置。
各前記学習部は、前記第１の変動モデルと前記第２の変動モデルと前記不特定音響モデルのパラメータにより表わされる、前記サンプル音声データが観測される確率を前記統合適合度として用いることを特徴とする請求項１に記載の音響モデル学習装置。
各前記学習部は、最尤推定法、最大事後確率推定法、及びベイズ推定法のいずれかに基づく反復解法を用いてパラメータを推定することを特徴とする請求項１または２に記載の音響モデル学習装置。
前記第１の変動モデルと前記第２の変動モデルは、アフィン変換で定義されることを特徴とする請求項３に記載の音響モデル学習装置。
前記不特定音響モデルは、ガウス混合モデルまたは隠れマルコフモデルであることを特徴とする請求項３または４に記載の音響モデル学習装置。
請求項１から５のいずれか１項に記載の音響モデル学習装置により得られた各前記第１の変動モデルのうちの、所定種類の前記第１の環境要因を介して取得された認識対象の音声データの前記所定種類に対応した第１の変動モデルが示す変動と逆の変換を、前記音声データに対して施す音声変換部を備え、
該音声変換部により得た音声データに対して音声認識を行う特徴とする音声認識装置。
請求項１から５のいずれか１項に記載の音響モデル学習装置により得られた各前記第２の変動モデルのうちの、所定種類の前記第２の環境要因を介して取得された認識対象の音声データの前記所定種類に対応した第２の変動モデルが示す変動と逆の変換を、前記音声データに対して施す音声変換部を備え、
該音声変換部により得た音声データに対して音声認識を行う特徴とする音声認識装置。
請求項１から５のいずれか１項に記載の音響モデル学習装置により得られた各前記第２の変動モデルのうちの、所定種類の前記第２の環境要因を介して取得された認識対象の音声データの前記所定種類に対応した第２の変動モデルが示す変動と逆の変換を、前記音声データに対して施す第２の音声変換部と、
請求項１から５のいずれか１項に記載の音響モデル学習装置により得られた各前記第１の変動モデルが示す変動と逆の変換を、前記第２の音声変換部により得た音声データに対して夫々行って複数の音声データを得る第１の音声変換部と、
該第１の音声変換部が得た前記複数の音声データと、請求項１から５のいずれか１項に記載の音響モデル学習装置により得られた不特定音響モデルとを用いて、前記認識対象の音声データが通った第１の環境要因の種類を識別する識別部とを備えることを特徴とする音環境認識装置。
前記第１の環境要因は話者であり、前記第２の環境要因は伝送チャネルであることを特徴とする請求項８に記載の音環境認識装置。
変化することにより音声に変動を生じさせる複数の環境要因のうちの１つである第１の環境要因の複数の種類のうちのいずれか１種と、前記複数の環境要因のうちの別の１つである第２の環境要因の複数の種類のうちのいずれか１種との組わせ毎に取得された複数のサンプル音声データを用いて、前記第１の環境要因の種類毎に、音声の変動を示す第１の変動モデルを規定するパラメータを推定する第１の変動モデル学習工程と、
前記複数のサンプル音声データを用いて、前記第２の環境要因の種類毎に、音声の変動を示す第２の変動モデルを規定するパラメータを推定する第２の変動モデル学習工程と、
前記複数のサンプル音声データを用いて、前記第１の環境要因の種類と前記第２の環境要因の種類のいずれにも特定しない不特定音響モデルを規定するパラメータを推定する不特定音響モデル学習工程とを備え、
各前記音響モデル学習工程は、前記第１の変動モデルの前記サンプル音声データへの適合度と、前記第２の変動モデルの前記サンプル音声データへの適合度と、前記不特定音響モデルの前記サンプル音声データへの適合度を統合した統合適応度が最も高くなるように、それぞれのパラメータを推定することを特徴とする音響モデル学習方法。
各前記音響モデル学習工程は、前記第１の変動モデルと前記第２の変動モデルと前記不特定音響モデルのパラメータにより表わされる、前記サンプル音声データが観測される確率を前記統合適合度として用いることを特徴とする請求項１０に記載の音響モデル学習方法。
変化することにより音声に変動を生じさせる複数の環境要因のうちの１つである第１の環境要因の複数の種類のうちのいずれか１種と、前記複数の環境要因のうちの別の１つである第２の環境要因の複数の種類のうちのいずれか１種との組わせ毎に取得された複数のサンプル音声データを用いて、前記第１の環境要因の種類毎に、音声の変動を示す第１の変動モデルを規定するパラメータを推定する第１の変動モデル学習ステップと、
前記複数のサンプル音声データを用いて、前記第２の環境要因の種類毎に、音声の変動を示す第２の変動モデルを規定するパラメータを推定する第２の変動モデル学習ステップと、
前記複数のサンプル音声データを用いて、前記第１の環境要因の種類と前記第２の環境要因の種類のいずれにも特定しない不特定音響モデルを規定するパラメータを推定する不特定音響モデル学習ステップとをコンピュータに実行せしめるプログラムであって、
各前記音響モデル学習ステップは、前記第１の変動モデルの前記サンプル音声データへの適合度と、前記第２の変動モデルの前記サンプル音声データへの適合度と、前記不特定音響モデルの前記サンプル音声データへの適合度を統合した統合適応度が最も高くなるように、それぞれのパラメータを推定することを特徴とするプログラム。
各前記音響モデル学習ステップは、前記第１の変動モデルと前記第２の変動モデルと前記不特定音響モデルのパラメータにより表わされる、前記サンプル音声データが観測される確率を前記統合適合度として用いることを特徴とする請求項１２に記載のプログラム。