JP2005062866A

JP2005062866A - コンパクトな音響モデルを作成するためのバブル分割方法

Info

Publication number: JP2005062866A
Application number: JP2004231021A
Authority: JP
Inventors: Ambroise Mutel; ミューテルアンブロワーズ; Patrick Nguyen; グエンパトリック; Luca Rigazio; リガツィオルカ
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2003-08-13
Filing date: 2004-08-06
Publication date: 2005-03-10
Also published as: US20050038655A1; EP1507255A2; EP1507255A3; CN1591570A; US7328154B2

Abstract

【課題】大語彙連続音声認識システムに使用されるコンパクトな音響モデルを構築する改良技術を提供する。
【解決手段】コンパクトな音響モデルを構築する方法は、複数の学習用話者の音声データを少なくとも１つの音声関連基準（例えば、声道長）に従って区分けする工程と、上記区分けされた学習用話者の音声データを類似した音声上の特徴を有する音声データごとにグループ化する工程と、各グループの音響バブルモデルに対してそのグループ内の音声データを用いて学習をさせる工程を含んでいる。
【選択図】図１

Description

本発明は音声認識に関し、特に、音声認識器に使用されるコンパクトな音響モデルに学習をさせる最適の技術に関する。

大語彙連続音声認識システムのアプリケーションには、マルチメディア索引作成やコールセンター自動応答などがある。そのような音声認識システムに採用される１個の音響モデルに学習をさせるためには、非常に大規模な音声データベースが必要である。一般に、そのような音響モデルは話者不特定であり、性別不特定である。すなわち、モデルは、男女両方の多様な話者から得たデータを用いて学習されていた。不特定話者の連続音声をモデル化する際の大きな問題は、話者間の個人差によって音声信号に大きなばらつきが生じ、スペクトル分布の分散がそれに対応する特定話者の分布の分散に比べて強くなることである。その結果、異なる音声単位同士が重なり合うことによって識別能力が弱まってしまう。

話者適応学習法は、不特定話者連続音声認識において連続分布型隠れマルコフモデル（ＨＭＭ）のパラメータを推定する方法であり、高度な不特定話者モデルを得るために話者間の個人差を低減することを目的としている。話者間の個人差を低減することにより、話者適応学習によって、データベース内のコンパクトな中心点とみなすことができる不特定話者音響モデルを得ることができる。このモデルは、分散が削減されてコンパクトになり、適応化にとって大変都合が良い。しかしながら、この音響モデル構築方法は強力な方法であるが、極めて大規模なデータベースに対して話者適応学習を実行することは、まもなく限界に達する。直観的に言えば、データベース全体を正確にモデル化する唯一のコンパクトな音響モデルを発見することは不可能である。

したがって、大語彙連続音声認識システムに使用されるコンパクトな音響モデルを構築する改良技術を提供することが望ましい。

本発明によれば、音声認識器に使用されるコンパクトな音響モデルを構築する方法が提供される。この方法は、複数の学習用話者の音声データを少なくとも１つの音声関連基準に従って区分けする工程と、上記区分けされた学習用話者の音声データを類似した音声上の特徴を有する音声データごとにグループ化する工程と、各グループの音響バブルモデルに対してそのグループ内の音声データを用いて学習をさせる工程を含んでいる。各音響バブルモデルは、様々な正規化手法を用いてさらにコンパクト化されてもよい。

本発明の別の側面では、音声処理に使用される声道長正規化変換を求める方法が提供される。この方法は、既知の声道長を示す話者による学習用音声から第１の音響ベクトル集合を抽出する工程と、上記学習用音声のパワースペクトルの周波数軸を伸縮させることにより、上記声道長と異なる声道長を示す伸縮された音声を形成する工程と、上記伸縮された音声から第２の音響ベクトル集合を抽出する工程と、最小二乗手法を用いて上記第１および第２の音響ベクトル集合の線形変換行列を推定する工程を含んでいる。

本発明のさらに他の利用可能な分野は、以下に示す詳細な説明から明らかになるであろう。

以下、本発明の実施形態を図面に基づいて詳細に説明する。

なお、以下の詳細な説明と具体的な実施例は、本発明の好ましい実施形態を示すが、例示に過ぎず、本発明の範囲を限定するものではない。

図１は、本発明にかかるコンパクトな音響モデルの構築方法を示す。この技術は、音声データベースの個人差をより効率的に取り扱うことによって音響モデルの学習を最適化しようとするものである。この方法の基礎となっている考え方は、学習用データ集合を分割して均等な話者グループを形成した後、各グループの音響モデルに対してそのグループ内の音声データを用いて学習をさせることによって付加利得を得ることである。

コンパクトな音響モデルを構築するにあたって、比較的大規模な学習用データベース（ＴＤＴ）１２が出発点となる。学習用データベース１２は、公知の技術として、複数の学習用話者による音声データを内蔵している。学習用データベース内の音声データは、まず、符号１６で示すように、１次元音声パラメータに従って「分割」すなわち区分けされる。

声道長正規化（ＶＴＬＮ）は、音声認識において、話者間の個人差を補償するために広く利用されている。本発明では、声道長は、学習用データベースを分割するために使用する音声関連基準として好ましい。しかしながら、データベースを分割するために他の音声関連基準も利用可能であることは容易に理解される。音声関連基準は、以下に限定されるものではないが、環境関連基準（例えば、背景雑音）、話者関連基準（例えば、話者の母国語、話者の方言、話者の年齢、話者の性別）、音声入力伝送系基準（例えば、マイクロホンの種類）およびそれらの組合せからなる群から選択されてもよい。

概略すれば、声道長正規化は、話者または発話毎に声道長換算率（伸縮率とも言う）を推定した後、パラメータ化された音声がこの種の話者間変動に依存しないように、音声信号を平均声道長に正規化する。具体的には、声道長正規化は、各話者の声道長によって生じる話者間の個人差を、以下の伸縮関数に従ってパワースペクトルの周波数軸を伸縮させることによって解消する。

但し、φは伸縮関数、αは伸縮率である。

声道長正規化がケプストラム領域での線形変換に等価であると仮定することにより、声道長正規化の枠組みに対する新しい手法が提案される。実際に、ωが単に真の物理的な周波数尺度を示すとき、［０・・・Ｋ］のｋについてケプストラム係数ｃ_kを考えると、伸縮されたスペクトルのｎ番目のケプストラム係数との間に以下のように記述される線形の関係が存在する。

但し、ω〜＝φα（ω）のとき、

である。線形形式Ａ_nk（α）が、選択された伸縮関数に依存し、区分的な場合も双一次の場合にも閉じた形式の解を引き出すことは容易に理解される。しかしながら、周波数領域における区分的／双一次伸縮声道長正規化よりも、話者固有のメル尺度のほうが優れていることも知られている。

ケプストラム係数ｃ_kと伸縮されたスペクトルのケプストラム係数との間に線形変換が存在するが、残念ながら、メル尺度を考えた場合、上記の方程式に対する閉じた形式の解は存在しない。しかしながら、先述の式を伸縮関数とみなせば、近似値または数値解のみを求めることができる以下の方程式を導き出すことは簡単である。

声道長正規化はケプストラム領域での線形変換に相当し、枠組み全体が所定数の線形変換と置換可能であることを意味する。例えば、０．０２刻みの伸縮率α∈[0.86; 1.14]に相当する１５個の線形変換を採用する。メル尺度の場合、閉じた形式の線形の解が存在しないが、その解を推定することができる。一実施形態では、その特徴空間は、３９次元の観測値ベクトルを含んでいる（すなわち、２３個のフィルタバンク係数を算出し、離散コサイン変換とフィルタリングによって１３個のケプストラム係数を導出する）。これらのケプストラム係数は、その一次導関数（x'(t)）および二次導関数（x"(t)）と組み合わされて３９次元のベクトルが生成される。ｏ〜（ｔ）が伸張または圧縮されたスペクトルに由来するベクトルを示し、ｏ（ｔ）がα＝１のときの同じベクトルを示すならば、方程式（２）に従って、線形関係は以下のように表現することができる。

但し、Ａαは両ベクトル間の３９ｘ３９線形変換である。観測値ベクトルを特定の構成に基づいて説明したが、他の構成も本発明の範囲に包含されることは容易に理解される。

よりロバストな結果を得るため、単純なベクトルではなく、パラメータファイル全体について考える。そのような各パラメータファイルは、１時間を超える音声から構成されている。ここで、Ｘがα＝１のときのパラメータファイル全体を示し、Ｙが別のα値でメル尺度を直接修正することによって生成されたファイルを示すならば、以下のように線形関係を表現することができる。

この場合、最小二乗法を用いて声道長正規化行列を推定することは簡単である。

図２に示すように、声道長正規化変換は、実験データから直接推定されてもよい。声道長正規化の伸縮の問題に対する線形の解は存在し、一意であり、実験的に算出できるので、その解が存在することは分かっている。

最初に、声道長が既知の学習用話者の音声データから、音響ベクトル集合が抽出される。一実施形態では、特徴空間には、３９次元の観測値ベクトルが含まれている。具体的には、ベクトルは、算出された２３個のフィルタバンク係数と、離散コサイン変換とフィルタリングにより導出された１２個のケプストラム係数を含んでいる。さらに、エネルギー係数が追加されて、１３個のケプストラム係数が得られる。そして、これらのケプストラム係数がその一次および二次導関数と組み合わされ、３９次元のベクトルが生成される。このようにして、音声データから、７２９個の３９次元ベクトルからなるフレームが構築される。伸縮のない（すなわち、α＝１）音声データに基づくそのようなフレームを視覚化したものを図３に示す。

次に、音声データをパワースペクトルの周波数軸に沿って伸縮させることによって、声道長特性が異なる音声データを生成する。しかしながら、他の公知の技術を用いて伸縮された音声を獲得してもよい。その後、伸縮された音声から、第２の音響ベクトル集合が抽出される。

伸縮に対する線形の解が存在するので、最小二乗法を用いてその変換行列を推定することができる。それを実行するため、未伸縮の音声から抽出された係数が７２９ｘ３９行列Ｙに配置され、伸縮された音声から抽出された他方の係数がもう１つの行列Ｘに配置される。Ｙ＝ＮＸと仮定すれば、直接最小二乗式は、以下のようなＸとＹ間の線形変換Ｎとなる。

しかしながら、最小二乗式を行列全体にわたって計算すれば（一次および二次微分係数を考慮すれば）、推定不良の行列となる。したがって、最小二乗推定を静的パラメータに対してのみ行うことが都合よい場合がある。この場合、恒等により近いブロック対角行列になる。これにより、１３ｘ１３行列が推定され、下記に示す方程式の行列と同様にして、３９ｘ３９行列が構築される。最後に、導関数を含む全ての係数に対して最小二乗推定を行い、相対的に長い期間（例えば、１時間を超える期間）にわたってそれを行うことによって、最適解が得られる。図４に示すように、結果得られる行列は以下のとおりである。

声道長正規化の場合、話者正規化は、通常、音響ベクトルの変換の形ではなく、信号解析時にパワースペクトルを伸縮させることによって行われる。伸縮率は、通常、最尤基準によって求められる。声道長正規化を音響ベクトルの行列変換（ｘ→Ａｘ）の形で表現することにより、ヤコビ行列式を考えることができる。

但し、

比較すれば、真の伸縮率に対する線形の仮定の場合と、従来の声道長正規化の実行により圧縮されたスペクトルの場合とで、不正確に復号化された単語数は同じである。さらに、線形の手法は、間違った伸縮率で復号化する場合にロバスト性がより高い。したがって、行列集合の最小二乗推定と組み合わされた線形の手法は、真の伸縮率に対する声道長正規化の従来の実施方法と等価である。さらに、伸縮率は計算で求めるのが非常に簡単である。

一部の話者適応化手法や環境適応化手法は、ケプストラムパラメータの非線形変換をもたらす推定式を採用している。そのような手法としては、累積密度関数（ＣＤＦ）マッチングやヒストグラム補正、双一次変換などがある。声道長正規化の場合と同様に、これらの手法も信頼性のない推定になりやすい場合がある。そのため、対応する線形変換を推定する手法があれば、結果を安定化させることができる。変換された特徴量がＹと呼ばれるパラメータ行列に収められ、本来のケプストラム特徴量が行列Ｘに収められると、周波数伸縮を非線形変換に置き換えて、上述の最小二乗手法を使用することができる。

いかなる場合でも、声道長正規化は見かけほど簡単ではない。換算率の変動が１人の話者の音声の範囲内で観測される場合もある。その場合、残念ながら、各パラメータを復号化してその話者の平均伸縮率を算出することは、計算上困難である。いずれにせよ、算出に最小二乗行列が組み込まれたＱ関数最大化を用いることができる。複数の混合ガウス分布を有するＨＭＭの補助関数は、γ_mを状態の事後確率、Ｒ_mをガウス成分ｍに対応する正確な行列、μ_mをガウス成分ｍに対応する平均ベクトルとすると、

である。Ａに関してＱを最大化したいので、

となる。

計算上の必要条件を最適化するため、問題の十分統計量Ｓ＝｛Acc₀;Acc₁;Acc₂｝を用いてＱを分解する。この場合、最大化アルゴリズムは計算量が非常に軽い。学習用データ集合の各話者に関して、各α∈[0.86; 1.14]についてＱ（Ｓ，ａ）を算出した後、最大化の結果に応じて話者を分類する。それにより、学習用データ集合全体にわたるαヒストグラムとαリストが生成される。以下のアキュムレータは、問題の十分統計量である。

まず、学習時に、以下の十分統計量Ｓ＝｛Acc₀;Acc₁;Acc₂｝を用いてＱを分解し、算出する。

このように、上述の最大化アルゴリズムを用いて、学習用データベースの音声データを分割することができる。

その後、区分けされた学習用話者の音声データを類似した音声上の特徴を有する音声データごとにグループ化する。この実施形態では、１５人の話者のαリストによる音声データがマージされて、「バブル」と称する複数の音声データグループが形成される。グループ化の手法は、経験的に導き出されている。しかしながら、認識耐性のある音響モデルに対して学習をさせるのに十分なデータを確保するためには、複数の学習用話者の音声データをマージして、均衡したバブル群を形成することが好ましい。したがって、１人の学習用話者による音声データは、どのバブルにも出現しない場合もあれば、バブル１つだけに出現する場合もあり、２つ以上のバブルに出現する場合もある。

さらに、音声データがグループ化される前に２回以上区分けされる場合も考えられる。図１に示すように、音声データは、まず、符号１４で示すように話者の性別に基づいて区分けされる。音声データに話者の性別の標識を付けることは容易に理解される。その後、音声データは、符号１６において、上述の最大化アルゴリズムを用いて声道長に基づいてさらに区分けされる。上記の説明は特定の音声関連基準に基づいてなされているが、別の音声関連基準を用いて音声データを分割してもよいことは容易に理解される。

最後に、符号１８で示すように、音声データがグループ化される。この実施形態では、音声データは、３個の男性バブルと３個の女性バブルからなる６個のグループにグループ化される。具体的には、声道長正規化率が約１である男性音声データがグループ化され、声道長正規化率が１より小さい男性音声データがグループ化され、声道長正規化率が１より大きい男性音声データがグループ化される。女性音響モデルも同様にグループ化される。このバブル分割処理は図５にも示されている。このグループ化手法は、現時点で好ましいものであるが、本発明のより広い側面に対して限定することを意図するものではない。逆に、様々な異なるグループ化手法を適宜利用してもよく、それらも本発明の範囲に包含される。さらには、音声データを分割するために使用されたものと同じ音声関連基準や音声データを評価する別の既知の類似尺度を用いて、音声データをグループ化してもよい。

その後、バブルごとに、符号２０で示すように、そのバブル内の音声データを用いて音響バブルモデルに学習をさせる。音響バブルモデルに対して、様々な周知の手法を用いて学習をさせてもよい。例えば、最尤推定法を用いて音響バブルモデルに学習をさせてもよい。あるいは、様々な話者適応化手法を用いて音響バブルモデルを構築してもよい。話者適応化手法の例としては、以下に限られるものではないが、最大事後確率推定法（ＭＡＰ）や最尤線形回帰法（ＭＬＬＲ）などがある。

話者間のばらつきは音響バブルモデル内で低減されるが、そのようなモデルを正規化手法を用いてさらにコンパクトにしてもよい。音響バブルモデルに対して、話者適応学習法（ＳＡＴ）や逆変換話者適応学習法（ＩＴ−ＳＡＴ）などの正規化手法を適用すれば、非常にコンパクトな音響モデル集合が得られる。他の既知の正規化手法も本発明の範囲内であることは容易に理解される。以下にさらに説明するように、その後、コンパクト化された音響モデルを用いて音声認識を実行することができる。

以下に、さらに別の２つの正規化手法を紹介する。第１の手法は、本明細書では、話者正規化学習法（ＳＮＴ）と称する。基本的な考え方は、話者適応学習法の適応化の枠組みを正規化の枠組みに置き換えることである。さらに詳細に言えば、枠組みの適応学習推定段階が、最尤ＬＵ行列（ＭＬＬＵ(Maximum Likelihood Lower-Upper)）特徴量変換枠組みに置き換えられる。

図６Ａおよび図６Ｂは、話者正規化学習法の学習サイクルと復号化サイクルをそれぞれ示す。学習サイクルは、正規化学習累積（ＮＴＡ）段階と合成段階の主要な２段階からなる。各段階を以下に説明する。

正規化学習累積段階では、学習用データ集合ｓ∈[1…Ｓ]の各話者ｓについて、前回の反復学習の不特定話者モデルλ_i-1を与え、最初に、ＭＬＬＵ特徴量変換を実行する。すなわち、Ａ_i ^(s)を推定する。次に、正規化された特徴量に対して最尤適応化

を実行し、その後、ｓ番目の特定話者モデルλ_i ^(s)を累算する。すなわち、｛μ_jk ^(s)；Σ_jk ^(s)；γ_jk ^(s)｝。より詳細には、以下に示すように、０次アキュムレータにγ_jk ^(s)を格納し、１次アキュムレータにμ_jk ^(s)を格納する。

最後に、２次アキュムレータに分散を格納する。それを行う前に、少し数学的な展開が必要である。

ここで、混合ガウス分布モデルを以下のように処理する。

したがって、２次アキュムレータには、Acc2の上記の方程式の結果が累進的に格納される。

前回の正規化学習累算段階の後に、合成段階実現への入力として使用されるアキュムレータが格納されている。

図７は、学習過程（例えば、モデル構築過程）の中で早期にこの話者正規化学習手法を利用できることを示している。クラスタリングに階層的二分法を利用することは、周知の効率的な立証済みの手法である。その手法は、分類・回帰木（ＣＡＲＴ）と呼ばれる。データを正規化すると、より信頼性の高いクラスターが得られ、それは、ＣＡＲＴ段階を通じてより正確なガウス分布仮定となると思われる。理論上は、話者正規化学習を実行した後により純粋なクラスター構造が得られることが期待される。実際には、これにより、間違ったパラメータに応じてクラスター化される恐れのある一部の寄生環境上の不一致を消去することができる一方、ＣＡＲＴ手法はより優れたデータ（すなわち、正規化されたデータ）に作用する。

第２の手法は、正規化話者適応学習法（ＮＳＡＴ）と称される。同様に、正規化話者適応学習法の基本的な考え方は、話者適応学習法の学習手順および復号化手順に正規化段階を加えることである。正規化話者適応学習法の場合、正規化された特徴量に対して話者適応学習を実行する。理論上は、クラスターがより純粋になり、最良のパラメータに従って形成され、他のあらゆる種類の寄生環境のパラメータに従って形成されるパラメータがはるかに少なくなることが期待できる。

通常、この段階は、まさに、正規化された特徴量を考慮する逆変換話者適応学習法の適応学習推定段階の実行にあたる。方程式（１２）によれば、逆変換話者適応学習法による平均の再推定は、以下のようになる。

但し、βはバイアスベクトルであり、μ_jk ^(s)は以下のとおりである。

図８のＮＡＴＥＡは、正規化、適応、学習、推定および累算を意味する。この段階は、話者適応学習法と同じであり、その学習サイクル全体のブロック図を図８に示す。同様に、この学習法の原理は話者適応学習法の枠組みと非常に類似しており、正規化された特徴量に対して逆変換話者適応学習が実行される。この段階の後に、話者適応学習の合成段階が続く。復号化処理は、入力された特徴量を正規化することからなるこの正規化段階で始まり、最尤線形回帰適応化からのみ構成される適応化段階に続く。これらさらに別の２つの正規化手法のどちらかを利用して、音響バブルモデルをコンパクト化してもよい。

音声認識を実行するには、まず、学習用データを区分けするために使用されたものと同じ基準を用いて、コンパクトな音響モデルが選択される。例えば、学習用データが声道長に基づいて区分けされた場合は、入力音声に対応する声道長に基づいて、適用可能なコンパクトな音響モデルが選択される。この場合、入力音声の声道長は、上述した最大化アルゴリズムを用いて求められてもよい。その後、適用可能なコンパクトな音響モデルを選択するために、声道長換算率が、経験的に導き出された閾値と比較される。次に、選択されたコンパクトな音響モデルを用いて、入力音声が復号化される。

一実施形態では、Ｑは、リスト（パラメータ群）の各エンティティについて、伸縮率αの１５個の値まで評価される。そのことは、各行列について方程式（９）のＱ値を評価したことを意味する。この計算はかなり重いので、不要な場合が多い。したがって、ブレント(Brent)の探索法など様々な公知の手法を用いてこの処理を最適化できることは容易に理解される。しかしながら、最大化すべき関数の事前の知識と、学習用データベースの最大値の分布（αヒストグラム）とに基づいて、新規の収束推定手法を提案する。

図９Ａないし図９Ｃに示すように、最初に、αの最尤値に関してＱが評価される。具体的には、α＝０．９８、１．０および１．０２に関してＱが評価される。ほとんどの場合、この計算は、最大値が１．０であることを確認することになる。残りの場合では、この最初の計算は、次の評価に進むのが曲線のどちら側かを示す。Ｑは、最大値が見つかるまで評価されつづける。最悪の場合でも、９回の評価しか実行されない。要するに、α＝１の時に最大値に達する場合に、Ｎ（α＝ｉ）がＱの評価回数であって、Ｐ（α＝ｉ）がその伸縮率に割り当てられるべきパラメータの事後確率であるとすれば、所与のパラメータの伸縮率を推定するＱの平均評価回数ε（Ｎ）は、以下のようになる。

これにより、計算時間が３倍短縮される。

本発明の説明は、本質的に例示に過ぎず、したがって、本発明の主旨から逸脱しない変形は、本発明の範囲に包含されるものである。そのような変形は、本発明の精神および範囲を逸脱するものとみなすべきではない。

本発明にかかるコンパクトな音響モデルの構築方法を説明する図。本発明にかかる声道長正規化変換を求める方法を説明するフロー図。伸縮のない音声データに由来するケプストラム係数とその一次および二次導関数のフレームを視覚化したグラフ。本発明の最小二乗推定手法の結果として得られた変換行列の例を示すグラフ。本発明の一実施形態にかかるバブル分割処理を説明する図。本発明の話者正規化学習手法の学習サイクルを示すブロック図。本発明の話者正規化学習手法の復号化処理を示すブロック図。本発明の話者正規化学習手法を組み込んだ音声学習処理を示すブロック図。本発明の正規化話者適応学習手法の学習サイクルを示すブロック図。本発明にかかるＱの収束評価手法を説明する図。

Claims

音声認識器に使用される音響モデルを構築する方法であって、
複数の学習用話者の音声データを少なくとも１つの音声関連基準に従って区分けする工程と、
上記区分けされた学習用話者の音声データを類似した音声上の特徴を有する音声データごとにグループ化する工程と、
上記各グループの音響バブルモデルに対して該グループ内の音声データを用いて学習をさせる工程とを含む方法。
上記音声関連基準は、環境に関連する基準、話者に関連する基準、音声入力伝送路の基準およびそれら基準の組合せからなる群から選択される請求項１記載の方法。
上記音声データを区分けする工程は、上記学習用話者の声道長に基づいて音声データを区分けする工程をさらに含んでいる請求項１記載の方法。
上記音声データを区分けする工程は、第１の音声基準に従って上記音声データを区分けする工程と、上記第１の音声基準と異なる第２の音声基準に従って上記音声データを区分けする工程をさらに含んでいる請求項１記載の方法。
上記音声データを区分けする工程は、上記学習用話者の性別に基づいて上記音声データを区分けする工程と、上記学習用話者の声道長に基づいて上記音声データを区分けする工程をさらに含んでいる請求項１記載の方法。
上記区分けされた音声データをグループ化する工程は、上記音声関連基準を用いて上記区分けされた音声データをグループ化する工程をさらに含んでいる請求項１記載の方法。
上記区分けされた音声データをグループ化する工程は、声道長に基づいて上記区分けされた音声データをグループ化する工程をさらに含んでいる請求項１記載の方法。
声道長正規化率が約１の学習用話者の音声データをグループ化する工程と、声道長正規化率が１より小さい学習用話者の音声データをグループ化する工程と、声道長正規化率が１より大きい学習用話者の音声データをグループ化する工程をさらに含んでいる請求項７記載の方法。
上記区分けされた音声データをグループ化する工程は、所定の話者の音声データが２つ以上の音声データグループ内に含まれるように上記音声データをグループ化する工程をさらに含んでいる請求項１記載の方法。
上記音響バブルモデルに学習をさせる工程は、各音声データグループに対して最尤推定法を適用する工程をさらに含んでいる請求項１記載の方法。
上記音響バブルモデルに学習をさせる工程は、各音声データグループに対して最大事後確率推定法（ＭＡＰ）を適用する工程をさらに含んでいる請求項１記載の方法。
上記音響バブルモデルに学習をさせる工程は、各音声データグループに対して最尤線形回帰法（ＭＬＬＲ）を適用する工程をさらに含んでいる請求項１記載の方法。
上記音響バブルモデルを正規化することによって、コンパクトな音響バブルモデルの集合を作成する工程をさらに含んでいる請求項１記載の方法。
上記音響バブルモデルを正規化する工程は、上記各音響バブルモデルに対して話者適応学習をさせる工程をさらに含んでいる請求項１３記載の方法。
上記音響バブルモデルを正規化する工程は、上記各音響バブルモデルに対して逆変換話者適応学習をさせる工程をさらに含んでいる請求項１３記載の方法。
上記音響バブルモデルを正規化する工程は、上記各音響バブルモデルに対して話者正規化学習をさせる工程をさらに含んでいる請求項１３記載の方法。
上記音響バブルモデルを正規化する工程は、上記各音響バブルモデルに対して正規化話者適応学習をさせる工程をさらに含んでいる請求項１３記載の方法。
未知の音声発話を受け取る工程と、
上記未知の音声発話に最も密接に関連する音響バブルモデルを選択する工程と、
上記選択された音響バブルモデルを用いて上記未知の音声発話を復号化する工程をさらに含んでいる請求項１記載の方法。
上記音響バブルモデルを選択する工程は、上記音声データを区分けするのに使用された音声関連基準を用いて音響バブルモデルを選択する工程をさらに含んでいる請求項１８記載の方法。
音声処理に使用される声道長正規化変換を求める方法であって、
既知の声道長を示す話者による学習用音声から第１の音響ベクトル集合を抽出する工程と、
上記学習用音声のパワースペクトルの周波数軸を伸縮させることにより、上記声道長とは異なる声道長を示す伸縮された音声を形成する工程と、
上記伸縮された音声から第２の音響ベクトル集合を抽出する工程と、
最小二乗法を用いて上記第１および第２の音響ベクトル集合の線形変換行列を推定する工程とを含む方法。
上記第１の音響ベクトル集合を抽出する工程は、上記音声からケプストラム係数を抽出する工程と、上記ケプストラム係数に基づいて上記第１の音響ベクトル集合を作成する工程をさらに含んでいる請求項２０記載の方法。
音声処理に使用される線形変換行列を求める方法であって、
既知の音声上の特徴を示す話者による学習用音声から第１の音響ベクトル集合を抽出する工程と、
上記学習用音声を上記既知の音声上の特徴とは異なる音声上の特徴を有する変換音声に変換する工程と、
上記変換音声から第２の音響ベクトル集合を抽出する工程と、
最小二乗法を用いて上記第１および第２の音響ベクトル集合の線形変換行列を推定する工程とを含む方法。
話者の声道長正規化率を推定する方法であって、
それぞれが声道長正規化率の推定値を示すとともに、伸縮された音響ベクトルと正規化された声道長を示す音響ベクトルとの間の線形の関係を規定するように、線形変換の集合を設定する工程と、
上記話者の音声発話を受け取る工程と、
上記線形変換の集合に関して上記音声発話の尤度関数を最大化することにより、上記話者の声道長正規化率推定値を特定する工程とを含む方法。
上記尤度関数を最大化する工程は、上記話者の声道長正規化率に対応する確率が最も高い３つの線形変換に関して尤度関数を最大化する工程をさらに含んでいる請求項２３記載の方法。
上記尤度関数の最大値が求められなかった場合に、上記対応する確率が最も高い３つの線形変換に関して求めた最大値に基づいて、さらに別の線形変換に関して上記尤度関数を最大化する工程をさらに含んでいる請求項２４記載の方法。
上記尤度関数の最大値が求められるまで、さらに別の線形変換に関して上記尤度関数を最大化する工程をさらに含んでいる請求項２５記載の方法。