JP2005062866A - コンパクトな音響モデルを作成するためのバブル分割方法 - Google Patents

コンパクトな音響モデルを作成するためのバブル分割方法 Download PDF

Info

Publication number
JP2005062866A
JP2005062866A JP2004231021A JP2004231021A JP2005062866A JP 2005062866 A JP2005062866 A JP 2005062866A JP 2004231021 A JP2004231021 A JP 2004231021A JP 2004231021 A JP2004231021 A JP 2004231021A JP 2005062866 A JP2005062866 A JP 2005062866A
Authority
JP
Japan
Prior art keywords
speech
learning
acoustic
speaker
vocal tract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004231021A
Other languages
English (en)
Inventor
Ambroise Mutel
ミューテル アンブロワーズ
Patrick Nguyen
グエン パトリック
Luca Rigazio
リガツィオ ルカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JP2005062866A publication Critical patent/JP2005062866A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Toys (AREA)

Abstract

【課題】 大語彙連続音声認識システムに使用されるコンパクトな音響モデルを構築する改良技術を提供する。
【解決手段】 コンパクトな音響モデルを構築する方法は、複数の学習用話者の音声データを少なくとも1つの音声関連基準(例えば、声道長)に従って区分けする工程と、上記区分けされた学習用話者の音声データを類似した音声上の特徴を有する音声データごとにグループ化する工程と、各グループの音響バブルモデルに対してそのグループ内の音声データを用いて学習をさせる工程を含んでいる。
【選択図】 図1

Description

本発明は音声認識に関し、特に、音声認識器に使用されるコンパクトな音響モデルに学習をさせる最適の技術に関する。
大語彙連続音声認識システムのアプリケーションには、マルチメディア索引作成やコールセンター自動応答などがある。そのような音声認識システムに採用される1個の音響モデルに学習をさせるためには、非常に大規模な音声データベースが必要である。一般に、そのような音響モデルは話者不特定であり、性別不特定である。すなわち、モデルは、男女両方の多様な話者から得たデータを用いて学習されていた。不特定話者の連続音声をモデル化する際の大きな問題は、話者間の個人差によって音声信号に大きなばらつきが生じ、スペクトル分布の分散がそれに対応する特定話者の分布の分散に比べて強くなることである。その結果、異なる音声単位同士が重なり合うことによって識別能力が弱まってしまう。
話者適応学習法は、不特定話者連続音声認識において連続分布型隠れマルコフモデル(HMM)のパラメータを推定する方法であり、高度な不特定話者モデルを得るために話者間の個人差を低減することを目的としている。話者間の個人差を低減することにより、話者適応学習によって、データベース内のコンパクトな中心点とみなすことができる不特定話者音響モデルを得ることができる。このモデルは、分散が削減されてコンパクトになり、適応化にとって大変都合が良い。しかしながら、この音響モデル構築方法は強力な方法であるが、極めて大規模なデータベースに対して話者適応学習を実行することは、まもなく限界に達する。直観的に言えば、データベース全体を正確にモデル化する唯一のコンパクトな音響モデルを発見することは不可能である。
したがって、大語彙連続音声認識システムに使用されるコンパクトな音響モデルを構築する改良技術を提供することが望ましい。
本発明によれば、音声認識器に使用されるコンパクトな音響モデルを構築する方法が提供される。この方法は、複数の学習用話者の音声データを少なくとも1つの音声関連基準に従って区分けする工程と、上記区分けされた学習用話者の音声データを類似した音声上の特徴を有する音声データごとにグループ化する工程と、各グループの音響バブルモデルに対してそのグループ内の音声データを用いて学習をさせる工程を含んでいる。各音響バブルモデルは、様々な正規化手法を用いてさらにコンパクト化されてもよい。
本発明の別の側面では、音声処理に使用される声道長正規化変換を求める方法が提供される。この方法は、既知の声道長を示す話者による学習用音声から第1の音響ベクトル集合を抽出する工程と、上記学習用音声のパワースペクトルの周波数軸を伸縮させることにより、上記声道長と異なる声道長を示す伸縮された音声を形成する工程と、上記伸縮された音声から第2の音響ベクトル集合を抽出する工程と、最小二乗手法を用いて上記第1および第2の音響ベクトル集合の線形変換行列を推定する工程を含んでいる。
本発明のさらに他の利用可能な分野は、以下に示す詳細な説明から明らかになるであろう。
以下、本発明の実施形態を図面に基づいて詳細に説明する。
なお、以下の詳細な説明と具体的な実施例は、本発明の好ましい実施形態を示すが、例示に過ぎず、本発明の範囲を限定するものではない。
図1は、本発明にかかるコンパクトな音響モデルの構築方法を示す。この技術は、音声データベースの個人差をより効率的に取り扱うことによって音響モデルの学習を最適化しようとするものである。この方法の基礎となっている考え方は、学習用データ集合を分割して均等な話者グループを形成した後、各グループの音響モデルに対してそのグループ内の音声データを用いて学習をさせることによって付加利得を得ることである。
コンパクトな音響モデルを構築するにあたって、比較的大規模な学習用データベース(TDT)12が出発点となる。学習用データベース12は、公知の技術として、複数の学習用話者による音声データを内蔵している。学習用データベース内の音声データは、まず、符号16で示すように、1次元音声パラメータに従って「分割」すなわち区分けされる。
声道長正規化(VTLN)は、音声認識において、話者間の個人差を補償するために広く利用されている。本発明では、声道長は、学習用データベースを分割するために使用する音声関連基準として好ましい。しかしながら、データベースを分割するために他の音声関連基準も利用可能であることは容易に理解される。音声関連基準は、以下に限定されるものではないが、環境関連基準(例えば、背景雑音)、話者関連基準(例えば、話者の母国語、話者の方言、話者の年齢、話者の性別)、音声入力伝送系基準(例えば、マイクロホンの種類)およびそれらの組合せからなる群から選択されてもよい。
概略すれば、声道長正規化は、話者または発話毎に声道長換算率(伸縮率とも言う)を推定した後、パラメータ化された音声がこの種の話者間変動に依存しないように、音声信号を平均声道長に正規化する。具体的には、声道長正規化は、各話者の声道長によって生じる話者間の個人差を、以下の伸縮関数に従ってパワースペクトルの周波数軸を伸縮させることによって解消する。
Figure 2005062866
但し、φは伸縮関数、αは伸縮率である。
声道長正規化がケプストラム領域での線形変換に等価であると仮定することにより、声道長正規化の枠組みに対する新しい手法が提案される。実際に、ωが単に真の物理的な周波数尺度を示すとき、[0・・・K]のkについてケプストラム係数ckを考えると、伸縮されたスペクトルのn番目のケプストラム係数との間に以下のように記述される線形の関係が存在する。
Figure 2005062866
但し、ω〜=φα(ω)のとき、
Figure 2005062866
である。線形形式Ank(α)が、選択された伸縮関数に依存し、区分的な場合も双一次の場合にも閉じた形式の解を引き出すことは容易に理解される。しかしながら、周波数領域における区分的/双一次伸縮声道長正規化よりも、話者固有のメル尺度のほうが優れていることも知られている。
Figure 2005062866
ケプストラム係数ckと伸縮されたスペクトルのケプストラム係数との間に線形変換が存在するが、残念ながら、メル尺度を考えた場合、上記の方程式に対する閉じた形式の解は存在しない。しかしながら、先述の式を伸縮関数とみなせば、近似値または数値解のみを求めることができる以下の方程式を導き出すことは簡単である。
Figure 2005062866
声道長正規化はケプストラム領域での線形変換に相当し、枠組み全体が所定数の線形変換と置換可能であることを意味する。例えば、0.02刻みの伸縮率α∈[0.86; 1.14]に相当する15個の線形変換を採用する。メル尺度の場合、閉じた形式の線形の解が存在しないが、その解を推定することができる。一実施形態では、その特徴空間は、39次元の観測値ベクトルを含んでいる(すなわち、23個のフィルタバンク係数を算出し、離散コサイン変換とフィルタリングによって13個のケプストラム係数を導出する)。これらのケプストラム係数は、その一次導関数(x'(t))および二次導関数(x"(t))と組み合わされて39次元のベクトルが生成される。o〜(t)が伸張または圧縮されたスペクトルに由来するベクトルを示し、o(t)がα=1のときの同じベクトルを示すならば、方程式(2)に従って、線形関係は以下のように表現することができる。
Figure 2005062866
但し、Aαは両ベクトル間の39x39線形変換である。観測値ベクトルを特定の構成に基づいて説明したが、他の構成も本発明の範囲に包含されることは容易に理解される。
よりロバストな結果を得るため、単純なベクトルではなく、パラメータファイル全体について考える。そのような各パラメータファイルは、1時間を超える音声から構成されている。ここで、Xがα=1のときのパラメータファイル全体を示し、Yが別のα値でメル尺度を直接修正することによって生成されたファイルを示すならば、以下のように線形関係を表現することができる。
Figure 2005062866
この場合、最小二乗法を用いて声道長正規化行列を推定することは簡単である。
Figure 2005062866
図2に示すように、声道長正規化変換は、実験データから直接推定されてもよい。声道長正規化の伸縮の問題に対する線形の解は存在し、一意であり、実験的に算出できるので、その解が存在することは分かっている。
最初に、声道長が既知の学習用話者の音声データから、音響ベクトル集合が抽出される。一実施形態では、特徴空間には、39次元の観測値ベクトルが含まれている。具体的には、ベクトルは、算出された23個のフィルタバンク係数と、離散コサイン変換とフィルタリングにより導出された12個のケプストラム係数を含んでいる。さらに、エネルギー係数が追加されて、13個のケプストラム係数が得られる。そして、これらのケプストラム係数がその一次および二次導関数と組み合わされ、39次元のベクトルが生成される。このようにして、音声データから、729個の39次元ベクトルからなるフレームが構築される。伸縮のない(すなわち、α=1)音声データに基づくそのようなフレームを視覚化したものを図3に示す。
次に、音声データをパワースペクトルの周波数軸に沿って伸縮させることによって、声道長特性が異なる音声データを生成する。しかしながら、他の公知の技術を用いて伸縮された音声を獲得してもよい。その後、伸縮された音声から、第2の音響ベクトル集合が抽出される。
伸縮に対する線形の解が存在するので、最小二乗法を用いてその変換行列を推定することができる。それを実行するため、未伸縮の音声から抽出された係数が729x39行列Yに配置され、伸縮された音声から抽出された他方の係数がもう1つの行列Xに配置される。Y=NXと仮定すれば、直接最小二乗式は、以下のようなXとY間の線形変換Nとなる。
Figure 2005062866
しかしながら、最小二乗式を行列全体にわたって計算すれば(一次および二次微分係数を考慮すれば)、推定不良の行列となる。したがって、最小二乗推定を静的パラメータに対してのみ行うことが都合よい場合がある。この場合、恒等により近いブロック対角行列になる。これにより、13x13行列が推定され、下記に示す方程式の行列と同様にして、39x39行列が構築される。最後に、導関数を含む全ての係数に対して最小二乗推定を行い、相対的に長い期間(例えば、1時間を超える期間)にわたってそれを行うことによって、最適解が得られる。図4に示すように、結果得られる行列は以下のとおりである。
Figure 2005062866
声道長正規化の場合、話者正規化は、通常、音響ベクトルの変換の形ではなく、信号解析時にパワースペクトルを伸縮させることによって行われる。伸縮率は、通常、最尤基準によって求められる。声道長正規化を音響ベクトルの行列変換(x→Ax)の形で表現することにより、ヤコビ行列式を考えることができる。
Figure 2005062866
但し、
Figure 2005062866
比較すれば、真の伸縮率に対する線形の仮定の場合と、従来の声道長正規化の実行により圧縮されたスペクトルの場合とで、不正確に復号化された単語数は同じである。さらに、線形の手法は、間違った伸縮率で復号化する場合にロバスト性がより高い。したがって、行列集合の最小二乗推定と組み合わされた線形の手法は、真の伸縮率に対する声道長正規化の従来の実施方法と等価である。さらに、伸縮率は計算で求めるのが非常に簡単である。
一部の話者適応化手法や環境適応化手法は、ケプストラムパラメータの非線形変換をもたらす推定式を採用している。そのような手法としては、累積密度関数(CDF)マッチングやヒストグラム補正、双一次変換などがある。声道長正規化の場合と同様に、これらの手法も信頼性のない推定になりやすい場合がある。そのため、対応する線形変換を推定する手法があれば、結果を安定化させることができる。変換された特徴量がYと呼ばれるパラメータ行列に収められ、本来のケプストラム特徴量が行列Xに収められると、周波数伸縮を非線形変換に置き換えて、上述の最小二乗手法を使用することができる。
いかなる場合でも、声道長正規化は見かけほど簡単ではない。換算率の変動が1人の話者の音声の範囲内で観測される場合もある。その場合、残念ながら、各パラメータを復号化してその話者の平均伸縮率を算出することは、計算上困難である。いずれにせよ、算出に最小二乗行列が組み込まれたQ関数最大化を用いることができる。複数の混合ガウス分布を有するHMMの補助関数は、γmを状態の事後確率、Rmをガウス成分mに対応する正確な行列、μmをガウス成分mに対応する平均ベクトルとすると、
Figure 2005062866
である。Aに関してQを最大化したいので、
Figure 2005062866
となる。
計算上の必要条件を最適化するため、問題の十分統計量S={Acc0;Acc1;Acc2}を用いてQを分解する。この場合、最大化アルゴリズムは計算量が非常に軽い。学習用データ集合の各話者に関して、各α∈[0.86; 1.14]についてQ(S,a)を算出した後、最大化の結果に応じて話者を分類する。それにより、学習用データ集合全体にわたるαヒストグラムとαリストが生成される。以下のアキュムレータは、問題の十分統計量である。
Figure 2005062866
まず、学習時に、以下の十分統計量S={Acc0;Acc1;Acc2}を用いてQを分解し、算出する。
Figure 2005062866
このように、上述の最大化アルゴリズムを用いて、学習用データベースの音声データを分割することができる。
その後、区分けされた学習用話者の音声データを類似した音声上の特徴を有する音声データごとにグループ化する。この実施形態では、15人の話者のαリストによる音声データがマージされて、「バブル」と称する複数の音声データグループが形成される。グループ化の手法は、経験的に導き出されている。しかしながら、認識耐性のある音響モデルに対して学習をさせるのに十分なデータを確保するためには、複数の学習用話者の音声データをマージして、均衡したバブル群を形成することが好ましい。したがって、1人の学習用話者による音声データは、どのバブルにも出現しない場合もあれば、バブル1つだけに出現する場合もあり、2つ以上のバブルに出現する場合もある。
さらに、音声データがグループ化される前に2回以上区分けされる場合も考えられる。図1に示すように、音声データは、まず、符号14で示すように話者の性別に基づいて区分けされる。音声データに話者の性別の標識を付けることは容易に理解される。その後、音声データは、符号16において、上述の最大化アルゴリズムを用いて声道長に基づいてさらに区分けされる。上記の説明は特定の音声関連基準に基づいてなされているが、別の音声関連基準を用いて音声データを分割してもよいことは容易に理解される。
最後に、符号18で示すように、音声データがグループ化される。この実施形態では、音声データは、3個の男性バブルと3個の女性バブルからなる6個のグループにグループ化される。具体的には、声道長正規化率が約1である男性音声データがグループ化され、声道長正規化率が1より小さい男性音声データがグループ化され、声道長正規化率が1より大きい男性音声データがグループ化される。女性音響モデルも同様にグループ化される。このバブル分割処理は図5にも示されている。このグループ化手法は、現時点で好ましいものであるが、本発明のより広い側面に対して限定することを意図するものではない。逆に、様々な異なるグループ化手法を適宜利用してもよく、それらも本発明の範囲に包含される。さらには、音声データを分割するために使用されたものと同じ音声関連基準や音声データを評価する別の既知の類似尺度を用いて、音声データをグループ化してもよい。
その後、バブルごとに、符号20で示すように、そのバブル内の音声データを用いて音響バブルモデルに学習をさせる。音響バブルモデルに対して、様々な周知の手法を用いて学習をさせてもよい。例えば、最尤推定法を用いて音響バブルモデルに学習をさせてもよい。あるいは、様々な話者適応化手法を用いて音響バブルモデルを構築してもよい。話者適応化手法の例としては、以下に限られるものではないが、最大事後確率推定法(MAP)や最尤線形回帰法(MLLR)などがある。
話者間のばらつきは音響バブルモデル内で低減されるが、そのようなモデルを正規化手法を用いてさらにコンパクトにしてもよい。音響バブルモデルに対して、話者適応学習法(SAT)や逆変換話者適応学習法(IT−SAT)などの正規化手法を適用すれば、非常にコンパクトな音響モデル集合が得られる。他の既知の正規化手法も本発明の範囲内であることは容易に理解される。以下にさらに説明するように、その後、コンパクト化された音響モデルを用いて音声認識を実行することができる。
以下に、さらに別の2つの正規化手法を紹介する。第1の手法は、本明細書では、話者正規化学習法(SNT)と称する。基本的な考え方は、話者適応学習法の適応化の枠組みを正規化の枠組みに置き換えることである。さらに詳細に言えば、枠組みの適応学習推定段階が、最尤LU行列(MLLU(Maximum Likelihood Lower-Upper))特徴量変換枠組みに置き換えられる。
図6Aおよび図6Bは、話者正規化学習法の学習サイクルと復号化サイクルをそれぞれ示す。学習サイクルは、正規化学習累積(NTA)段階と合成段階の主要な2段階からなる。各段階を以下に説明する。
正規化学習累積段階では、学習用データ集合s∈[1…S]の各話者sについて、前回の反復学習の不特定話者モデルλi-1を与え、最初に、MLLU特徴量変換を実行する。すなわち、Ai (s)を推定する。次に、正規化された特徴量に対して最尤適応化
Figure 2005062866
を実行し、その後、s番目の特定話者モデルλi (s)を累算する。すなわち、{μjk (s);Σjk (s);γjk (s)}。より詳細には、以下に示すように、0次アキュムレータにγjk (s)を格納し、1次アキュムレータにμjk (s)を格納する。
Figure 2005062866
最後に、2次アキュムレータに分散を格納する。それを行う前に、少し数学的な展開が必要である。
Figure 2005062866
ここで、混合ガウス分布モデルを以下のように処理する。
Figure 2005062866
したがって、2次アキュムレータには、Acc2の上記の方程式の結果が累進的に格納される。
前回の正規化学習累算段階の後に、合成段階実現への入力として使用されるアキュムレータが格納されている。
Figure 2005062866
図7は、学習過程(例えば、モデル構築過程)の中で早期にこの話者正規化学習手法を利用できることを示している。クラスタリングに階層的二分法を利用することは、周知の効率的な立証済みの手法である。その手法は、分類・回帰木(CART)と呼ばれる。データを正規化すると、より信頼性の高いクラスターが得られ、それは、CART段階を通じてより正確なガウス分布仮定となると思われる。理論上は、話者正規化学習を実行した後により純粋なクラスター構造が得られることが期待される。実際には、これにより、間違ったパラメータに応じてクラスター化される恐れのある一部の寄生環境上の不一致を消去することができる一方、CART手法はより優れたデータ(すなわち、正規化されたデータ)に作用する。
第2の手法は、正規化話者適応学習法(NSAT)と称される。同様に、正規化話者適応学習法の基本的な考え方は、話者適応学習法の学習手順および復号化手順に正規化段階を加えることである。正規化話者適応学習法の場合、正規化された特徴量に対して話者適応学習を実行する。理論上は、クラスターがより純粋になり、最良のパラメータに従って形成され、他のあらゆる種類の寄生環境のパラメータに従って形成されるパラメータがはるかに少なくなることが期待できる。
通常、この段階は、まさに、正規化された特徴量を考慮する逆変換話者適応学習法の適応学習推定段階の実行にあたる。方程式(12)によれば、逆変換話者適応学習法による平均の再推定は、以下のようになる。
Figure 2005062866
但し、βはバイアスベクトルであり、μjk (s)は以下のとおりである。
Figure 2005062866
図8のNATEAは、正規化、適応、学習、推定および累算を意味する。この段階は、話者適応学習法と同じであり、その学習サイクル全体のブロック図を図8に示す。同様に、この学習法の原理は話者適応学習法の枠組みと非常に類似しており、正規化された特徴量に対して逆変換話者適応学習が実行される。この段階の後に、話者適応学習の合成段階が続く。復号化処理は、入力された特徴量を正規化することからなるこの正規化段階で始まり、最尤線形回帰適応化からのみ構成される適応化段階に続く。これらさらに別の2つの正規化手法のどちらかを利用して、音響バブルモデルをコンパクト化してもよい。
音声認識を実行するには、まず、学習用データを区分けするために使用されたものと同じ基準を用いて、コンパクトな音響モデルが選択される。例えば、学習用データが声道長に基づいて区分けされた場合は、入力音声に対応する声道長に基づいて、適用可能なコンパクトな音響モデルが選択される。この場合、入力音声の声道長は、上述した最大化アルゴリズムを用いて求められてもよい。その後、適用可能なコンパクトな音響モデルを選択するために、声道長換算率が、経験的に導き出された閾値と比較される。次に、選択されたコンパクトな音響モデルを用いて、入力音声が復号化される。
一実施形態では、Qは、リスト(パラメータ群)の各エンティティについて、伸縮率αの15個の値まで評価される。そのことは、各行列について方程式(9)のQ値を評価したことを意味する。この計算はかなり重いので、不要な場合が多い。したがって、ブレント(Brent)の探索法など様々な公知の手法を用いてこの処理を最適化できることは容易に理解される。しかしながら、最大化すべき関数の事前の知識と、学習用データベースの最大値の分布(αヒストグラム)とに基づいて、新規の収束推定手法を提案する。
図9Aないし図9Cに示すように、最初に、αの最尤値に関してQが評価される。具体的には、α=0.98、1.0および1.02に関してQが評価される。ほとんどの場合、この計算は、最大値が1.0であることを確認することになる。残りの場合では、この最初の計算は、次の評価に進むのが曲線のどちら側かを示す。Qは、最大値が見つかるまで評価されつづける。最悪の場合でも、9回の評価しか実行されない。要するに、α=1の時に最大値に達する場合に、N(α=i)がQの評価回数であって、P(α=i)がその伸縮率に割り当てられるべきパラメータの事後確率であるとすれば、所与のパラメータの伸縮率を推定するQの平均評価回数ε(N)は、以下のようになる。
Figure 2005062866
これにより、計算時間が3倍短縮される。
本発明の説明は、本質的に例示に過ぎず、したがって、本発明の主旨から逸脱しない変形は、本発明の範囲に包含されるものである。そのような変形は、本発明の精神および範囲を逸脱するものとみなすべきではない。
本発明にかかるコンパクトな音響モデルの構築方法を説明する図。 本発明にかかる声道長正規化変換を求める方法を説明するフロー図。 伸縮のない音声データに由来するケプストラム係数とその一次および二次導関数のフレームを視覚化したグラフ。 本発明の最小二乗推定手法の結果として得られた変換行列の例を示すグラフ。 本発明の一実施形態にかかるバブル分割処理を説明する図。 本発明の話者正規化学習手法の学習サイクルを示すブロック図。 本発明の話者正規化学習手法の復号化処理を示すブロック図。 本発明の話者正規化学習手法を組み込んだ音声学習処理を示すブロック図。 本発明の正規化話者適応学習手法の学習サイクルを示すブロック図。 本発明にかかるQの収束評価手法を説明する図。

Claims (26)

  1. 音声認識器に使用される音響モデルを構築する方法であって、
    複数の学習用話者の音声データを少なくとも1つの音声関連基準に従って区分けする工程と、
    上記区分けされた学習用話者の音声データを類似した音声上の特徴を有する音声データごとにグループ化する工程と、
    上記各グループの音響バブルモデルに対して該グループ内の音声データを用いて学習をさせる工程とを含む方法。
  2. 上記音声関連基準は、環境に関連する基準、話者に関連する基準、音声入力伝送路の基準およびそれら基準の組合せからなる群から選択される請求項1記載の方法。
  3. 上記音声データを区分けする工程は、上記学習用話者の声道長に基づいて音声データを区分けする工程をさらに含んでいる請求項1記載の方法。
  4. 上記音声データを区分けする工程は、第1の音声基準に従って上記音声データを区分けする工程と、上記第1の音声基準と異なる第2の音声基準に従って上記音声データを区分けする工程をさらに含んでいる請求項1記載の方法。
  5. 上記音声データを区分けする工程は、上記学習用話者の性別に基づいて上記音声データを区分けする工程と、上記学習用話者の声道長に基づいて上記音声データを区分けする工程をさらに含んでいる請求項1記載の方法。
  6. 上記区分けされた音声データをグループ化する工程は、上記音声関連基準を用いて上記区分けされた音声データをグループ化する工程をさらに含んでいる請求項1記載の方法。
  7. 上記区分けされた音声データをグループ化する工程は、声道長に基づいて上記区分けされた音声データをグループ化する工程をさらに含んでいる請求項1記載の方法。
  8. 声道長正規化率が約1の学習用話者の音声データをグループ化する工程と、声道長正規化率が1より小さい学習用話者の音声データをグループ化する工程と、声道長正規化率が1より大きい学習用話者の音声データをグループ化する工程をさらに含んでいる請求項7記載の方法。
  9. 上記区分けされた音声データをグループ化する工程は、所定の話者の音声データが2つ以上の音声データグループ内に含まれるように上記音声データをグループ化する工程をさらに含んでいる請求項1記載の方法。
  10. 上記音響バブルモデルに学習をさせる工程は、各音声データグループに対して最尤推定法を適用する工程をさらに含んでいる請求項1記載の方法。
  11. 上記音響バブルモデルに学習をさせる工程は、各音声データグループに対して最大事後確率推定法(MAP)を適用する工程をさらに含んでいる請求項1記載の方法。
  12. 上記音響バブルモデルに学習をさせる工程は、各音声データグループに対して最尤線形回帰法(MLLR)を適用する工程をさらに含んでいる請求項1記載の方法。
  13. 上記音響バブルモデルを正規化することによって、コンパクトな音響バブルモデルの集合を作成する工程をさらに含んでいる請求項1記載の方法。
  14. 上記音響バブルモデルを正規化する工程は、上記各音響バブルモデルに対して話者適応学習をさせる工程をさらに含んでいる請求項13記載の方法。
  15. 上記音響バブルモデルを正規化する工程は、上記各音響バブルモデルに対して逆変換話者適応学習をさせる工程をさらに含んでいる請求項13記載の方法。
  16. 上記音響バブルモデルを正規化する工程は、上記各音響バブルモデルに対して話者正規化学習をさせる工程をさらに含んでいる請求項13記載の方法。
  17. 上記音響バブルモデルを正規化する工程は、上記各音響バブルモデルに対して正規化話者適応学習をさせる工程をさらに含んでいる請求項13記載の方法。
  18. 未知の音声発話を受け取る工程と、
    上記未知の音声発話に最も密接に関連する音響バブルモデルを選択する工程と、
    上記選択された音響バブルモデルを用いて上記未知の音声発話を復号化する工程をさらに含んでいる請求項1記載の方法。
  19. 上記音響バブルモデルを選択する工程は、上記音声データを区分けするのに使用された音声関連基準を用いて音響バブルモデルを選択する工程をさらに含んでいる請求項18記載の方法。
  20. 音声処理に使用される声道長正規化変換を求める方法であって、
    既知の声道長を示す話者による学習用音声から第1の音響ベクトル集合を抽出する工程と、
    上記学習用音声のパワースペクトルの周波数軸を伸縮させることにより、上記声道長とは異なる声道長を示す伸縮された音声を形成する工程と、
    上記伸縮された音声から第2の音響ベクトル集合を抽出する工程と、
    最小二乗法を用いて上記第1および第2の音響ベクトル集合の線形変換行列を推定する工程とを含む方法。
  21. 上記第1の音響ベクトル集合を抽出する工程は、上記音声からケプストラム係数を抽出する工程と、上記ケプストラム係数に基づいて上記第1の音響ベクトル集合を作成する工程をさらに含んでいる請求項20記載の方法。
  22. 音声処理に使用される線形変換行列を求める方法であって、
    既知の音声上の特徴を示す話者による学習用音声から第1の音響ベクトル集合を抽出する工程と、
    上記学習用音声を上記既知の音声上の特徴とは異なる音声上の特徴を有する変換音声に変換する工程と、
    上記変換音声から第2の音響ベクトル集合を抽出する工程と、
    最小二乗法を用いて上記第1および第2の音響ベクトル集合の線形変換行列を推定する工程とを含む方法。
  23. 話者の声道長正規化率を推定する方法であって、
    それぞれが声道長正規化率の推定値を示すとともに、伸縮された音響ベクトルと正規化された声道長を示す音響ベクトルとの間の線形の関係を規定するように、線形変換の集合を設定する工程と、
    上記話者の音声発話を受け取る工程と、
    上記線形変換の集合に関して上記音声発話の尤度関数を最大化することにより、上記話者の声道長正規化率推定値を特定する工程とを含む方法。
  24. 上記尤度関数を最大化する工程は、上記話者の声道長正規化率に対応する確率が最も高い3つの線形変換に関して尤度関数を最大化する工程をさらに含んでいる請求項23記載の方法。
  25. 上記尤度関数の最大値が求められなかった場合に、上記対応する確率が最も高い3つの線形変換に関して求めた最大値に基づいて、さらに別の線形変換に関して上記尤度関数を最大化する工程をさらに含んでいる請求項24記載の方法。
  26. 上記尤度関数の最大値が求められるまで、さらに別の線形変換に関して上記尤度関数を最大化する工程をさらに含んでいる請求項25記載の方法。

JP2004231021A 2003-08-13 2004-08-06 コンパクトな音響モデルを作成するためのバブル分割方法 Pending JP2005062866A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/639,974 US7328154B2 (en) 2003-08-13 2003-08-13 Bubble splitting for compact acoustic modeling

Publications (1)

Publication Number Publication Date
JP2005062866A true JP2005062866A (ja) 2005-03-10

Family

ID=33565245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004231021A Pending JP2005062866A (ja) 2003-08-13 2004-08-06 コンパクトな音響モデルを作成するためのバブル分割方法

Country Status (4)

Country Link
US (1) US7328154B2 (ja)
EP (1) EP1507255A3 (ja)
JP (1) JP2005062866A (ja)
CN (1) CN1591570A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008088154A1 (en) * 2007-01-18 2008-07-24 Korea Institute Of Science And Technology Apparatus for detecting user and method for detecting user by the same
JP2009527801A (ja) * 2006-02-21 2009-07-30 株式会社ソニー・コンピュータエンタテインメント 話者適応を用いた音声認識とピッチによる登録
JP2011022555A (ja) * 2009-07-15 2011-02-03 Toshiba Corp 音声認識システム、方法及びプログラム
US7957959B2 (en) 2006-08-30 2011-06-07 Nuance Communications, Inc. Method and apparatus for processing speech data with classification models
US10930268B2 (en) 2018-05-31 2021-02-23 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
CN101578659B (zh) * 2007-05-14 2012-01-18 松下电器产业株式会社 音质转换装置及音质转换方法
US7797158B2 (en) 2007-06-20 2010-09-14 At&T Intellectual Property Ii, L.P. System and method for improving robustness of speech recognition using vocal tract length normalization codebooks
CN101447182B (zh) * 2007-11-28 2011-11-09 中国科学院声学研究所 一种快速可在线应用的声道长度归整方法
US8645135B2 (en) * 2008-09-12 2014-02-04 Rosetta Stone, Ltd. Method for creating a speech model
US8639502B1 (en) 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8892436B2 (en) * 2010-10-19 2014-11-18 Samsung Electronics Co., Ltd. Front-end processor for speech recognition, and speech recognizing apparatus and method using the same
US8756062B2 (en) * 2010-12-10 2014-06-17 General Motors Llc Male acoustic model adaptation based on language-independent female speech data
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
ES2605779T3 (es) * 2012-09-28 2017-03-16 Agnitio S.L. Reconocimiento de orador
US9263030B2 (en) * 2013-01-23 2016-02-16 Microsoft Technology Licensing, Llc Adaptive online feature normalization for speech recognition
CN104392718B (zh) * 2014-11-26 2017-11-24 河海大学 一种基于声学模型阵列的鲁棒语音识别方法
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
CA3036561C (en) 2016-09-19 2021-06-29 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
US10553218B2 (en) * 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
US11087766B2 (en) * 2018-01-05 2021-08-10 Uniphore Software Systems System and method for dynamic speech recognition selection based on speech rate or business domain
CN110164445B (zh) * 2018-02-13 2023-06-16 阿里巴巴集团控股有限公司 语音识别方法、装置、设备及计算机存储介质
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2965537B2 (ja) * 1997-12-10 1999-10-18 株式会社エイ・ティ・アール音声翻訳通信研究所 話者クラスタリング処理装置及び音声認識装置
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
TW440810B (en) * 1999-08-11 2001-06-16 Ind Tech Res Inst Method of speech recognition
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009527801A (ja) * 2006-02-21 2009-07-30 株式会社ソニー・コンピュータエンタテインメント 話者適応を用いた音声認識とピッチによる登録
US7957959B2 (en) 2006-08-30 2011-06-07 Nuance Communications, Inc. Method and apparatus for processing speech data with classification models
WO2008088154A1 (en) * 2007-01-18 2008-07-24 Korea Institute Of Science And Technology Apparatus for detecting user and method for detecting user by the same
US8326457B2 (en) 2007-01-18 2012-12-04 Korea Institute Of Science And Technology Apparatus for detecting user and method for detecting user by the same
JP2011022555A (ja) * 2009-07-15 2011-02-03 Toshiba Corp 音声認識システム、方法及びプログラム
US10930268B2 (en) 2018-05-31 2021-02-23 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Also Published As

Publication number Publication date
US20050038655A1 (en) 2005-02-17
EP1507255A2 (en) 2005-02-16
EP1507255A3 (en) 2005-04-20
CN1591570A (zh) 2005-03-09
US7328154B2 (en) 2008-02-05

Similar Documents

Publication Publication Date Title
JP2005062866A (ja) コンパクトな音響モデルを作成するためのバブル分割方法
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
EP2189976B1 (en) Method for adapting a codebook for speech recognition
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
JP4218982B2 (ja) 音声処理
JP4217275B2 (ja) 個別話者に適応した音声認識のための方法及び装置
US8566093B2 (en) Intersession variability compensation for automatic extraction of information from voice
Wu et al. Stimulated deep neural network for speech recognition
Shinoda Speaker adaptation techniques for automatic speech recognition
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP2011065120A (ja) すべての言語の音声識別及び音声識別を利用した単字入力の方法
KR102406512B1 (ko) 음성인식 방법 및 그 장치
KR100574769B1 (ko) 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
Lee et al. The estimating optimal number of Gaussian mixtures based on incremental k-means for speaker identification
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
Daoudi et al. Continuous multi-band speech recognition using Bayesian Networks
Kleijn et al. Salient speech representations based on cloned networks
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
Kumar Feature normalisation for robust speech recognition
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
Li Speech recognition of mandarin monosyllables
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
Ogawa et al. Improved Example-Based Speech Enhancement by Using Deep Neural Network Acoustic Model for Noise Robust Example Search.