JP6110945B2 - 自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム - Google Patents

自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム Download PDF

Info

Publication number
JP6110945B2
JP6110945B2 JP2015528672A JP2015528672A JP6110945B2 JP 6110945 B2 JP6110945 B2 JP 6110945B2 JP 2015528672 A JP2015528672 A JP 2015528672A JP 2015528672 A JP2015528672 A JP 2015528672A JP 6110945 B2 JP6110945 B2 JP 6110945B2
Authority
JP
Japan
Prior art keywords
matrix
scatterplot
training data
class
triphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015528672A
Other languages
English (en)
Other versions
JP2015526766A (ja
Inventor
ティアギ,ビベク
ガナパティラジュ,アラビンド
ワイス,フェリックス,イマニュエル
Original Assignee
インタラクティブ・インテリジェンス・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インタラクティブ・インテリジェンス・インコーポレイテッド filed Critical インタラクティブ・インテリジェンス・インコーポレイテッド
Publication of JP2015526766A publication Critical patent/JP2015526766A/ja
Application granted granted Critical
Publication of JP6110945B2 publication Critical patent/JP6110945B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Character Discrimination (AREA)

Description

本発明は、概して、遠隔通信システム及び方法、並びに、自動音声認識システムに関する。より詳細には、本発明は、自動音声認識システム内での線形判別分析に関する。
自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析のシステム及び方法が提示される。線形判別分析(Linear Discriminant Analysis:LDA)が、音響的特徴空間内での隠れマルコフモデル(hidden Markov model:HMM)結合状態の間での判別を改善するために使用され得る。最尤基準を使用して音声訓練データの強制アラインメントが実施され得る。データは、散布図行列を得るためにさらに処理され得る。行列は、コンテキスト依存トライフォン音響モデルの共有されているHMM状態のような、結合状態の観測される認識エラーに基づいてバイアスをかけられ得る。認識誤りは、その後LDA分析においてクラスとして使用され得る結合状態を利用して、訓練された最尤音響モデルから得られ得る。
一実施形態において、最尤基準を使用して音響モデルを訓練するための方法であって、a)音声訓練データの強制アラインメントを実施するステップと、b)訓練データを処理して推定散布図行列を得るステップであって、上記散布図行列は、平均ベクトルを推定し得るクラス間散布図行列及びクラス内散布図行列のうちの1つ又は複数を含み得る、ステップと、c)クラス間散布図行列及びクラス内散布図行列にバイアスをかけるステップと、d)クラス間散布図行列及びクラス内散布図行列を対角化して、変換散布図行列を生成するための固有ベクトルを推定するステップと、e)推定されたベクトルを使用して新たな識別的特徴を得るステップであって、上記ベクトルは新たな空間における最も大きい判別に対応する、ステップと、f)上記新たな識別的特徴に基づいて新たな音響モデルを訓練するステップと、g)上記音響モデルを保存するステップとを含む、方法が提供される。
別の実施形態において、音響モデルを訓練するための方法であって、a)音声訓練データの強制アラインメントを実施するステップと、b)上記訓練データに対して認識を実施して、各結合状態トライフォンの誤り率を推定するステップと、c)訓練データを処理して、平均ベクトルを推定し得る1つ又は複数の推定散布図行列を得るステップと、d)1つ又は複数の推定散布図行列にバイアスをかけるステップと、e)1つ又は複数の推定散布図行列に対して対角化を実施して、1つ又は複数の変換散布図行列を生成するためのベクトルを推定するステップと、f)変換された1つ又は複数の推定散布図行列をベクトルの線形変換として使用して新たな識別的特徴を得るステップと、g)新たな音響モデルを訓練するステップと、h)上記音響モデルを保存するステップとを含む、方法が提供される。
別の実施形態において、音響モデルを訓練するためのシステムであって、a)音声訓練データの強制アラインメントを実施するための手段と、b)訓練データを処理して推定散布図行列を得るための手段であって、上記散布図行列は、平均ベクトルを推定し得るクラス間散布図行列及びクラス内散布図行列のうちの1つ又は複数を含み得る、処理して得るための手段と、c)クラス間散布図行列及びクラス内散布図行列にバイアスをかけるための手段と、d)クラス間散布図行列及びクラス内散布図行列を対角化して、変換散布図行列を生成するための固有ベクトルを推定するための手段と、e)変換散布図行列をスーパーベクトルの線形変換として使用して新たな識別的特徴を得るための手段と、f)新たな音響モデルを訓練するための手段と、g)上記音響モデルを保存するための手段とを備える、システムが提示される。
キーワードスポッタ内の基本構成要素の一実施形態を示す図である。 訓練パターンの一実施形態を示す流れ図である。 認識の一実施形態を示す流れ図である。
本発明の原理の理解を促進する目的のために、ここで、図面に示されている実施形態が参照され、これを説明するために特定の文言が使用される。それにもかかわらず、それによって本発明の範囲の限定は意図されていないことは理解されよう。当業者に通常想起されるような、説明されている実施形態における任意の変更及びさらなる修正、並びに、本発明に記載されているような本発明の原理の任意のさらなる応用が企図されている。
自動音声認識(Automatic speech recognition:ASR)システムは、人間の発話を認識して発話をテキスト又は単語に変換する。これらのシステムの性能は、精度、信頼性、言語サポート、及び、発話を認識することができる速度に基づいて評価され得る。アクセント、アーティキュレーション、話速、発音、背景雑音などのような要因が、ASRシステムの精度に悪影響を及ぼす可能性がある。システムは、チャネル状態、及び、現代の電話チャネル、特にVoIPによって導入される様々なアーティファクトに関係なく、一貫して信頼可能に機能することを期待されている。一度にリアルタイムで数百の電話会話を分析するための迅速な処理速度が必要とされている。
LDAは、音響的特徴空間内のHMM結合状態間での判別を改善することによって、システムの精度を向上させることができる。一実施形態において、クラス間及びクラス内共分散行列が、結合状態の観測される認識誤りに基づいてバイアスをかけられ得る。結合状態は、コンテキスト依存トライフォン音響モデルの共有されているHMM状態から構成され得る。認識誤りは、その後LDA分析において「クラス」として使用される同じ結合状態を使用して、すでに訓練された最尤音響モデルから得られる。
当業者は本開示から、本明細書に開示されている様々な方法は、多くの異なる形態のデータ処理機器、例えば、適切なソフトウェアプログラム(複数可)を実行するデジタルマイクロプロセッサ及び関連メモリを使用してコンピュータによってされてもよいことを認識しよう。
図1は、概して100で示される、キーワードスポッタの基本構成要素を示す図である。キーワードスポッタ100の基本構成要素は、音響モデル110及び発音辞書/予測器115を含んでもよい知識源105と、音響ストリーム120と、フロントエンド特徴計算器125と、音声認識エンジン130と、結果135とを含んでもよい。
音素が音声の基本単位であると仮定される。そのような音素の所定のセットが、特定の言語の全ての音声を完全に記述すると仮定される。知識源105は、発音(音素)と、音声信号から抽出される一連の特直ベクトルのような、音響事象との間の関係の確率モデル、例えば、隠れマルコフモデル−ガウス混合モデル(hidden Markov model‐Gaussian mixture model:HMM−GMM)を記憶し得る。 HMMは、観測される音響信号と、観測されない音素との間の関係を符号化する。 その後、訓練プロセスによって、転写された訓練データの大きい集合にわたって所与の音素に対応するHMM状態によって放出される特徴ベクトルの統計的特性を研究することができる。音素の所与のHMM状態における特徴ベクトルの放出確率密度が、訓練プロセスを通じて学習される。このプロセスは、音響モデル訓練とも称される場合がある。訓練はまた、トライフォンについても実施され得る。トライフォンの一例は、中心音素に対応する発音転写シーケンス内の3つの音素から成るタプルであり得る。トライフォンのいくつかのHMM状態はともに結合されて、共通の放出確率密度関数を共有する。一般的に、放出確率密度関数は、ガウス混合モデル(GMM)を使用してモデル化される。これらのGMM及びHMMのセットは、音響モデルと称される。
知識源105は、多量の音響データを分析することによって発展することができる。 例えば、音響モデル及び発音辞書/予測器は、「Hello」のような単語を見て、その単語を含む音素を調べることによって作成される。音声認識システム内の各単語は、音素と呼ばれるその構成部分単語単位の統計モデルによって表される。標準的な音素辞書において定義されるところの「Hello」の音素は、「hh」、「eh」、「l」、及び「ow」である。その後、これらは、一連のトライフォン、例えば、「sil−hh+eh」、「hh−eh+l」、「eh−l+ow」、及び「l−ow+sil」に変換され、「sil」は無音である。最後に、すでに説明したように、全ての可能性のあるトライフォンのHMM状態が、結合状態にマッピングされる。結合状態は、音響モデル訓練が実施される特有の状態である。これらのモデルは言語依存である。多言語サポートも提供するために、複数の知識源が提供されてもよい。
音響モデル110は、特定の言語に存在する様々な音声を統計的にモデル化することによって形成され得る。発音辞書115は、単語を一連の音素に分解する役割を担い得る。 例えば、ユーザから提示される単語は、特定の言語の書記素/文字のような、人間が読解可能な形態にあり得る。しかしながら、パターンマッチングアルゴリズムは、キーワードの発音を表す一連の音素に依拠し得る。一連の音素が得られると、音響モデル内の音素(又は対応するトライフォン)の各々に対する、対応する統計モデルが調べられ得る。これらの統計モデルの連結が、音声認識を実施するのに使用され得る。辞書に存在しない単語について、言語学的規則に基づく予測器が、発音を解決するために使用され得る。
音響ストリーム120はフロントエンド特徴計算器125に供給され得、フロントエンド特徴計算器125は、音響ストリームを音響ストリームの表現、すなわち一連のスペクトル特徴に変換することができる。音響ストリームは、ユーザによってシステムに対して話された単語から構成され得る。スペクトル特徴、例えば、メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficients:MFCC)及び/又はその変換を計算することによって、音響分析が実施され得る。
フロントエンド特徴計算器125からの信号が、その後、音声認識エンジン130に供給され得る。例えば、認識エンジンの役割は、語彙とも称される単語のセットを取り出し、音響モデルからの確率を使用して提示されている音響ストリームを通じて検索して、その音響信号の中で話されている最も可能性のある文を判定することであり得る。音声認識エンジンの一例は、限定ではないが、キーワードスポッティングシステムを含み得る。例えば、特徴計算器によって構築される多次元空間において、話された単語は、音響空間内の軌跡を形成する一連のMFCCベクトルになり得る。キーワードスポッティングは現在、単純に、キーワードモデルを所与として軌跡を生成する確率を計算する問題になり得る。この演算は、キーワードモデルを音響信号の最良のセグメントに整列させて、結果として一致スコアをもたらす、動的プログラミングの既知の原理、具体的にはビタビアルゴリズムを使用することによって達成することができる。一致スコアが大きい場合、キーワードスポッティングアルゴリズムは、キーワードが話されたと推測し、キーワードスポット事象を報告する。
結果としてもたらされた一連の単語135が、その後、リアルタイムに報告され得る。例えば、報告は、単語が見つかったことの信頼値を有する音響ストリームにおけるキーワード又は文の開始時刻及び終了時刻として提示されてもよい。主信頼値は、キーワードがどのように話されているかの関数であってもよい。例えば、単一の単語に複数の発音がある場合、キーワード「tomato」は、「tuh−mah−tow」及び「tuh−may−tow」のように話される場合がある。単語があまり一般的でない発音で話されるとき、又は、単語があまり明瞭に発音されないとき、主信頼値は低くなり得る。特定の認識の一部分である発音の特定の変異も、報告に表示される。
図2に示すように、訓練パターンの一実施形態を示すプロセス200が提供される。プロセス200は、システム100の知識源115構成要素の音響モデル120(図1)において機能し得る。 音響モデルは、プロセス200において既知の最尤(maximum likelihood:ML)基準を使用して所望の言語の訓練データセットに対して訓練され得る。
動作205において、訓練データの強制アラインメントが実施され得る。例えば、強制アラインメントは、音声訓練データコーパス上の現在の最尤音響モデルMMLによって実行されてもよい。一実施形態において、訓練データは、P個の音素及びP個の可能性のあるトライフォン(3つの音素タプル)から構成され得る。既存のアルゴリズム、例えば、結合されていないトライフォンの音声知識及び単一のガウス確率密度関数に基づいて訓練される決定木を使用して、P個のトライフォンのHMM状態が、K個の結合状態にマッピングされ得る。各特徴フレームが、結合状態クラスラベルを有し得る。これらのK個の結合状態が、その後隠れマルコフモデル−ガウス混合モデル(HMM−GMM)による最尤(ML)基準を使用して訓練され得る特有のHMM状態を形成し得る。これらのK個の結合状態は、特有のクラスの間で音響特徴空間における判別が選択的にバイアスをかけられたLDAを通じて増大される特有のクラスを含み得る。制御は動作210に引き継がれて、プロセス200は継続する。
動作210において、訓練データが処理される。例えば、データ処理は、一連の数学演算を通じて実施されてもよい。訓練データセット全体に対する結合トライフォン認識が、音響モデルMMLを使用して実施され得る。トライフォン結合状態の各々の認識誤り率が、グランドトゥルース、又は訓練データの転写を使用して記録され得る。結合状態iの誤り率はeとして定義され得、i・(1,2,...,K)である。39次元MFCC特徴ベクトルx(t)(タイムフレームtにおける)が、その一次及び二次導関数とともに、トライフォンに対応する音響のセグメントを表すのに使用され得る。音響セグメントは、例えば、20ミリ秒のような、指定される任意の長さであってもよい。その後、訓練データは、HMM−GMMシステム内の結合トライフォン状態(すなわち、Kの中からの1つ)に内部マッピングされ得る。5個の隣接するMFCC特徴(x(t−2)、x(t−1)、x(t)、x(t+1)、x(t+2))が連結されて、n=39×5=195次元スーパーベクトルy(t)が形成される。結合状態ラベルを訓練データ内の各フレームx(t)に割り当てるために、強制ビタビアラインメントが実施され得る。スーパーベクトルy(t)は、各フレームx(t)と同じ「結合状態」ラベルを有すると仮定される。
訓練データはその後、クラス間(S)及びクラス内(S)散布図行列を推定するためにさらに処理され得る。例えば、訓練データ全体の結合状態ラベルを使用して、スーパーベクトルy(t)の平均が、以下の式においてμ、k・(1,2,...,K)、によって示されている各結合状態クラス「k」にわたる平均によって推定され得る。

スーパーベクトルy(t)は、強制アラインメントにより、結合状態「k」に属する。全体にわたって、訓練データ全体においてクラス「k」に属するN個のフレームがある。
同様に、グローバル平均ベクトルμが、以下の数学的方程式において推定され得る。

式中、「T」は訓練データセット全体にあるフレームの総数である。制御は動作215に引き継がれて、プロセス200は継続する。
動作215において、散布図行列がバイアスをかけられる。散布図行列は、クラス間散布図行列及びクラス内散布図行列を含み得る。一実施形態において、クラス間散布図行列「S」がバイアスをかけられる。例えば、クラス間散布図行列「S」は、音響モデルMMLによる結合状態クラスの誤り率に基づいてバイアスをかけられてもよい。結合状態の各々の誤り率eは、音響モデルMMLを使用した訓練データの認識を通じて以前に記録されているものであり得る。クラス間(S)散布図行列は、以下の式において結合状態クラスの誤り率を考慮にいれることによって推定及びバイアスをかけられ得る。

式中、(μ−μ)は、列ベクトル(μ−μ)の転置行列である。
一実施形態において、クラス内(S)散布図行列が、以下の式において誤り率を考慮にいれることによって推定及びバイアスをかけられ得る。

式中、(y(t)−μ)は、ベクトル(y(t)−μ)の転置行列であり、Tは訓練データセット内のフレームの総数を表し、μはグローバル平均ベクトルを表す。
誤り率「ek」を乗算することによって、クラス間散布図行列におけるk番目の結合状態の寄与を選択的に強調することができる。クラス間散布図行列Sは、音響モデルMMLにおいてより高い誤り率を有するクラス(すなわち、結合状態)により敏感になり得る。新たな投影判別空間において、現在モデルMMLによって機能が不十分であるクラスの誤り率を低減することが所望される。制御はステップ220に引き継がれて、プロセス200は継続する。
動作220において、固有ベクトルの対角化及び推定が実施される。以下の例において、以下の基準を最大化するために、線形変換Uが考えられる。

行列S及びSの同時の対角化が実施され得る。 一実施形態において、最初に行列Sの主成分分析(PCA)が実施され得る。SのPCA変換行列は、以下をもたらす「A」によって表され得る。
AS=I
式中「I」はn×nのサイズの恒等行列を表し、上付き文字「t」は、この行列の転置行列を表す。対角化行列Aによる変換の後、新たなクラス間散布図行列

が以下の式によって見いだされ得、

新たなクラス内散布図行列

は以下のようになり得る。

この中間変換Aによって、新たな最適化関数は、「以下の関数を最大化する行列「V」を見いだすもの」になる。

上記の式に対する解は、n×nのサイズの行列

の既知のPCAによって得られ得る。行列

の「d」個の最も大きい固有値に対応する、PCA行列「V」内の「d」個の固有ベクトルが選択される。d×nのサイズに切り詰められた行列は、Vtrunによって示され得る。
保存された最後の選択的にバイアスをかけられた線形判別分析(Selectively Biased Linear Discriminant Analysis:SB−LDA)変換行列Gは、以下のように表すことができる。
G=Vtrun×A
一実施形態において、この行列のサイズはd×nである。制御は動作225に引き継がれて、プロセス200は継続する。
動作225において、変換が保存される。制御はステップ230に引き継がれて、プロセス200は継続する。
動作230において、新たな識別的特徴z(t)が得られ得る。例えば、SB−LDA変換行列「G」が、以下のような、スーパーベクトルy(t)の線形変換としての新たな特徴を得るために使用され得る。
z(t)=Gy(t)
式中、z(t)は次元(d×1)の新たな識別的特徴ベクトルである。制御はステップ235に引き継がれて、プロセス200は継続する。
動作235において、新たな音響モデルが訓練される。例えば、LDA変換行列を通じて得られた、結果としての新たな特徴(すなわち、z(t))によって新たな音響モデルのパラメータが推定され得る。LDA変換行列が、新たな音響モデルを訓練するために使用され得る。 新たな特徴ベクトルによって、最大尤度推定式を使用してHMM−GMM訓練が再び実施される。その結果が、新たな音響モデルMselectiveLDAである。制御はステップ240に引き継がれて、プロセス200は継続する。
動作240において、新たな音響モデルが保存され、プロセスは終了する。少なくとも1つの実施形態において、これらの新たな音響モデルは、キーワードスポッタにおける音声認識のために、その知識源の1つとして使用され得る。
図3に示すように、認識の一実施形態を示すプロセス300が提供される。プロセス300は、システム100の認識エンジン140(図1)において機能し得る。
ステップ305において、テストデータセットの特徴が変換される。例えば、プロセス200において推定されたSB−LDA行列(すなわち、G=Vtrun×A)が、テストデータのスプライシングされている5つの隣接するMFCC特徴(すなわち、y(t))を変換するために使用され得る。制御はステップ310に引き継がれて、プロセス300は継続する。
動作310において、新たな識別的特徴z(t)=Gy(t)が得られ得る。例えば、ここで特徴空間はz(t)から構成され、これは、スプライシングされている元の特徴ベクトル、例えば、y(t)が変換された特徴である。制御はステップ315に引き継がれて、プロセス300は継続する。
ステップ315において、変換された特徴z(t)が種々のトライフォンによって放出されている尤度が推定される。例えば、尤度は音響モデルMselectiveLDAを使用して推定され得る。これらの尤度はその後、音声認識システム内の認識器の対応するビタビ検索パターン認識モジュールによって使用され得、プロセス300は終了する。
本発明が図面及び上記の説明において詳細に図示及び説明されてきたが、これは例示と考えられるべきであり、文字通りに限定されると考えられるべきではなく、好ましい実施形態のみが図示及び説明されていること、並びに、本明細書においてかつ/又は添付の特許請求の範囲によって説明されているような本発明の精神の範疇に入る全ての均等形態、変化形態、及び変更形態が保護されることが所望されていることが理解される。
したがって、本発明の適切な範囲は、全てのそのような変更形態及び図面に示され明細書に記載されているものと均等な全ての関係を包含するように、添付の特許請求の範囲の最も広い解釈のみによって判断されるべきである。
本明細書において2つの非常に狭い特許請求の範囲が提示されているが、本発明の範囲は、その特許請求の範囲によって提示されているよりもはるかに広いことが認識されるべきである。本出願からの優先権の利益を主張する特許出願において、より広い特許請求の範囲が提出されることが意図されている。

Claims (30)

  1. 最尤基準を使用して音響モデルを訓練するためにコンピュータにより実行される方法であって、
    a.音声訓練データの強制アラインメントを実施するステップと、
    b.前記音声訓練データを処理して推定散布図行列を得るステップであって、前記推定散布図行列が平均ベクトルを推定し得るクラス間散布図行列及びクラス内散布図行列のうちの1つ又は複数を含み得る、ステップと、
    c.前記クラス間散布図行列及び前記クラス内散布図行列のうちの前記1つ又は前記複数にバイアスをかけるステップと、
    d.前記クラス間散布図行列及び前記クラス内散布図行列のうちの前記1つ又は前記複数を対角化して、変換散布図行列を生成するための固有ベクトルを推定するステップと、
    e.定された前記固有ベクトルを使用して新たな識別的特徴を得るステップ
    f.前記新たな識別的特徴に基づいて新たな音響モデルを訓練するステップと、
    g.前記音響モデルを保存するステップと、
    を含み、
    前記音声訓練データは、複数の音素及びトライフォンから構成され得、
    a.トライフォンの隠れマルコフモデル状態が結合状態にマッピングされ得、
    b.各特徴フレームが結合状態クラスラベルを有し得、
    c.前記結合状態は、特有のクラスの間で音響特徴空間における判別が、選択的にバイアスをかけられた線形判別分析を通じて増大される、特有のクラスを有し得る、
    ことを特徴とする方法。
  2. ステップ(a)は、隠れマルコフモデル−ガウス混合モデルによる、前記音声訓練データ全体に対する現在の最大尤度音響モデルを使用するステップをさらに含む、請求項1に記載の方法。
  3. ステップ(b)は、
    a.訓練されたモデルを使用して前記音声訓練データに対して結合トライフォン認識を実施するステップと、
    b.前記音声訓練データの転写を使用して各トライフォン結合状態の認識誤り率を記録するステップと、
    c.トライフォンに対応する音響のセグメントを、39次元メル周波数ケプストラム係数特徴ベクトル並びに一次導関数及び二次導関数によって表すステップと、
    d.前記音声訓練データを結合トライフォン状態の内部にマッピングするステップと、
    e.前記39次元メル周波数ケプストラム係数特徴を用いてスーパーベクトルを形成するステップと、
    f.結合状態ラベルを前記音声訓練データ内の各フレームに割り当てるために強制ビタビアラインメントを実施するステップと、
    g.前記クラス間散布図行列及びクラス内散布図行列のうちの前記1つ又は前記複数を推定するステップと、
    をさらに含む、請求項1に記載の方法。
  4. 前記ステップ(b)の誤り率は、i・(1,2,...,K)であることを含み、前記フレームの部分は、前記強制アラインメントによりクラスラベル「k」を有するが、認識器によって誤認された前記フレームの部分である、請求項に記載の方法。
  5. ステップ(g)は、
    a.各結合状態クラスにわたって平均することによって前記音声訓練データの前記結合状態ラベルを使用して前記スーパーベクトルの平均を推定するステップと、
    b.グローバル平均ベクトルを推定するステップと、
    をさらに含む、請求項に記載の方法。
  6. ステップ(a)は、数学的方程式
    を使用して判断される、請求項に記載の方法。
  7. ステップ(b)は、数学的方程式
    を使用して判断される、請求項に記載の方法。
  8. ステップ(c)は音響モデルにより結合状態クラスの誤り率に基づいて実施される、請求項1に記載の方法。
  9. 前記クラス間散布図行列の前記誤り率は、数学的方程式
    を使用して判断される、請求項に記載の方法。
  10. 前記クラス散布図行列は、数学的方程式
    において前記結合状態クラスの前記誤り率を考慮に入れることによって推定され及びバイアスをかけられる、請求項に記載の方法。
  11. ステップ(d)は、
    a.線形変換を実施するステップと、
    b.対角化を実施するステップと、
    c.PCAを実施するステップと、
    d.新たな行列を保存するステップと、
    をさらに含む、請求項1に記載の方法。
  12. ステップ(a)は、数学的方程式
    を使用して実施される、請求項11に記載の方法。
  13. ステップ(f)は、
    a.変換行列を通じて得られた新たな特徴を用いてパラメータを推定するステップと、
    b.訓練を実施するために新たな特徴を有する最大尤度式を使用するステップと、
    をさらに含む、請求項1に記載の方法。
  14. ステップ(b)における前記訓練は、隠れマルコフモデル−ガウス混合モデルを使用して実施される、請求項13に記載の方法。
  15. 音響モデルを訓練するためにコンピュータにより実行される方法であって、
    a.音声訓練データの強制アラインメントを実施するステップと、
    b.前記音声訓練データに対して認識を実施して、各結合状態トライフォンの誤り率を推定するステップと、
    c.前記音声訓練データを処理して、平均ベクトルを推定し得る1つ又は複数の推定散布図行列を得るステップと、
    d.前記1つ又は複数の推定散布図行列にバイアスをかけるステップと、
    e.1つ又は複数の散布図行列に対して対角化を実施して、1つ又は複数の変換散布図行列を生成するためのベクトルを推定するステップと、
    f.前記つ又は複数の変換散布図行列をスーパーベクトルの線形変換として使用して新たな識別的特徴を得るステップと、
    g.新たな音響モデルを訓練するステップと、
    h.前記音響モデルを保存するステップと、
    を含
    前記音声訓練データは、複数の音素及びトライフォンから構成され得、
    a.トライフォンの隠れマルコフモデル状態が結合状態にマッピングされ得、
    b.各特徴フレームが結合状態クラスラベルを有し得、
    c.前記結合状態は、特有のクラスの間で音響特徴空間における判別が、選択的にバイアスをかけられた線形判別分析を通じて増大される、特有のクラスを有し得る、
    方法。
  16. ステップ(a)は、隠れマルコフモデル−ガウス混合モデルによる、前記音声訓練データ全体に対する現在の最大尤度音響モデルを使用するステップをさらに含む、請求項15に記載の方法。
  17. ステップ(b)は、
    a.訓練されたモデルを使用して前記音声訓練データに対して結合トライフォン認識を実施するステップと、
    b.前記音声訓練データの転写を使用して各トライフォン結合状態の認識誤り率を記録するステップと、
    c.トライフォンに対応する音響のセグメントを、39次元メル周波数ケプストラム係数特徴ベクトル並びに一次導関数及び二次導関数によって表すステップと、
    d.前記音声訓練データセットを結合トライフォン状態の内部にマッピングするステップと、
    e.前記39次元メル周波数ケプストラム係数特徴を用いてスーパーベクトルを形成するステップと、
    f.結合状態ラベルを前記音声訓練データセット内の各フレームに割り当てるために強制ビタビアラインメントを実施するステップと、
    g.前記1つ又は複数の散布図行列を推定するステップと、
    をさらに含む、請求項15に記載の方法。
  18. ステップ(b)の前記誤り率は、i・(1,2,...,K)として定義される、請求項17に記載の方法。
  19. ステップ(g)は、
    a.各結合状態クラスにわたって平均することによって前記音声訓練データの前記結合状態ラベルを使用して前記スーパーベクトルの平均を推定するステップと、
    b.グローバル平均ベクトルを推定するステップと、
    をさらに含む、請求項17に記載の方法。
  20. ステップ(a)は、数学的方程式
    を使用して判断される、請求項19に記載の方法。
  21. ステップ(b)は、数学的方程式
    を使用して判断される、請求項19に記載の方法。
  22. ステップ(c)は音響モデルにより結合状態クラスの誤り率に基づいて実施される、請求項15に記載の方法。
  23. 前記1つ又は複数の推定散布図行列は、2つの散布図行列を含み、一方はクラス間散布図行列であり、他方はクラス内散布図行列である、請求項15に記載の方法。
  24. 前記クラス間散布図行列の前記誤り率は、数学的方程式
    を使用して判断される、請求項23に記載の方法。
  25. 前記クラス散布図行列、数学的方程式
    において前記結合状態クラスの前記誤り率を考慮に入れることによって推定され及びバイアスをかけられる、請求項22に記載の方法。
  26. ステップ(d)は、
    a.線形変換を実施するステップと、
    b.対角化を実施するステップであって、前記対角化は前記線形変換と同時に行われる、ステップと、
    c.PCAを実施するステップと、
    d.新たな行列を保存するステップと、
    をさらに含む、請求項15に記載の方法。
  27. ステップ(a)は、数学的方程式
    を使用して実施される、請求項25に記載の方法。
  28. ステップ(f)は、
    a.前記1つ又は複数の変換行列を通じて得られた新たな特徴を用いてパラメータを推定するステップと、
    b.訓練を実施するために新たな特徴を有する最大尤度式を使用するステップと、
    をさらに含む、請求項15に記載の方法。
  29. ステップ(b)における前記訓練は、隠れマルコフモデル−ガウス混合モデルを使用して実施される、請求項28に記載の方法。
  30. 音響モデルを訓練するためのシステムであって、
    a.音声訓練データの強制アラインメントを実施するための手段と、
    b.前記音声訓練データを処理して推定散布図行列を得るための手段であって、前記散布図行列は、平均ベクトルを推定し得るクラス間散布図行列及びクラス内散布図行列のうちの1つ又は複数を含み得る、処理して得るための手段と、
    c.前記クラス間散布図行列及び前記クラス内散布図行列のうちの前記1つ又は前記複数にバイアスをかけるための手段と、
    d.前記クラス間散布図行列及び前記クラス内散布図行列のうちの前記1つ又は前記複数を対角化して、変換散布図行列を生成するための固有ベクトルを推定するための手段と、
    e.前記変換散布図行列をスーパーベクトルの線形変換として使用して新たな識別的特徴を得るための手段と、
    f.新たな音響モデルを訓練するための手段と、
    g.前記音響モデルを保存するための手段と、
    を備え
    前記音声訓練データは、複数の音素及びトライフォンから構成され得、
    a.トライフォンの隠れマルコフモデル状態が結合状態にマッピングされ得、
    b.各特徴フレームが結合状態クラスラベルを有し得、
    c.前記結合状態は、特有のクラスの間で音響特徴空間における判別が、選択的にバイアスをかけられた線形判別分析を通じて増大される、特有のクラスを有し得る、
    ることを特徴とするシステム。
JP2015528672A 2012-08-24 2013-08-23 自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム Active JP6110945B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261692934P 2012-08-24 2012-08-24
US61/692,934 2012-08-24
PCT/US2013/056313 WO2014031918A2 (en) 2012-08-24 2013-08-23 Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems

Publications (2)

Publication Number Publication Date
JP2015526766A JP2015526766A (ja) 2015-09-10
JP6110945B2 true JP6110945B2 (ja) 2017-04-05

Family

ID=50148791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015528672A Active JP6110945B2 (ja) 2012-08-24 2013-08-23 自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム

Country Status (10)

Country Link
US (1) US9679556B2 (ja)
EP (1) EP2888669B1 (ja)
JP (1) JP6110945B2 (ja)
AU (1) AU2013305615B2 (ja)
BR (1) BR112015003833B1 (ja)
CA (1) CA2882569C (ja)
CL (1) CL2015000445A1 (ja)
NZ (2) NZ705075A (ja)
WO (1) WO2014031918A2 (ja)
ZA (1) ZA201501228B (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
US10447315B2 (en) * 2016-08-15 2019-10-15 Seagate Technologies Llc Channel error rate optimization using Markov codes
DE212016000292U1 (de) * 2016-11-03 2019-07-03 Bayerische Motoren Werke Aktiengesellschaft System zur Text-zu-Sprache-Leistungsbewertung
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
US10446136B2 (en) * 2017-05-11 2019-10-15 Ants Technology (Hk) Limited Accent invariant speech recognition
CN107680582B (zh) * 2017-07-28 2021-03-26 平安科技(深圳)有限公司 声学模型训练方法、语音识别方法、装置、设备及介质
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
CN111798868B (zh) * 2020-09-07 2020-12-08 北京世纪好未来教育科技有限公司 语音强制对齐模型评价方法、装置、电子设备及存储介质
US11626112B1 (en) 2021-02-05 2023-04-11 Wells Fargo Bank, N.A. Bias detection in speech recognition models

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5572624A (en) * 1994-01-24 1996-11-05 Kurzweil Applied Intelligence, Inc. Speech recognition system accommodating different sources
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
US6609093B1 (en) 2000-06-01 2003-08-19 International Business Machines Corporation Methods and apparatus for performing heteroscedastic discriminant analysis in pattern recognition systems
US6754628B1 (en) * 2000-06-13 2004-06-22 International Business Machines Corporation Speaker recognition using cohort-specific feature transforms
US6567771B2 (en) * 2000-08-29 2003-05-20 International Business Machines Corporation Weighted pair-wise scatter to improve linear discriminant analysis
TW473704B (en) * 2000-08-30 2002-01-21 Ind Tech Res Inst Adaptive voice recognition method with noise compensation
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
US6964023B2 (en) 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US6996527B2 (en) * 2001-07-26 2006-02-07 Matsushita Electric Industrial Co., Ltd. Linear discriminant based sound class similarities with unit value normalization
JP2005257917A (ja) * 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 音声解釈方法、音声解釈装置、音声解釈プログラム
US20060136178A1 (en) * 2004-12-21 2006-06-22 Young Joon Kim Linear discriminant analysis apparatus and method for noisy environments
WO2008137616A1 (en) * 2007-05-04 2008-11-13 Nuance Communications, Inc. Multi-class constrained maximum likelihood linear regression
US20090030676A1 (en) * 2007-07-26 2009-01-29 Creative Technology Ltd Method of deriving a compressed acoustic model for speech recognition
EP2161718B1 (en) 2008-09-03 2011-08-31 Harman Becker Automotive Systems GmbH Speech recognition
CN101393740B (zh) * 2008-10-31 2011-01-19 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法

Also Published As

Publication number Publication date
AU2013305615A1 (en) 2015-03-05
BR112015003833B1 (pt) 2021-11-03
US20140058731A1 (en) 2014-02-27
AU2013305615B2 (en) 2018-07-05
CA2882569A1 (en) 2014-02-27
WO2014031918A3 (en) 2014-05-01
EP2888669B1 (en) 2021-03-31
EP2888669A2 (en) 2015-07-01
ZA201501228B (en) 2021-08-25
CA2882569C (en) 2021-11-23
JP2015526766A (ja) 2015-09-10
CL2015000445A1 (es) 2015-06-19
EP2888669A4 (en) 2016-03-30
NZ730641A (en) 2018-08-31
BR112015003833A2 (pt) 2019-11-19
US9679556B2 (en) 2017-06-13
NZ705075A (en) 2017-11-24
WO2014031918A2 (en) 2014-02-27

Similar Documents

Publication Publication Date Title
JP6110945B2 (ja) 自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム
US9812122B2 (en) Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
US10157610B2 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
Stolcke et al. Speaker recognition with session variability normalization based on MLLR adaptation transforms
Sainath et al. Exemplar-based sparse representation features: From TIMIT to LVCSR
US9099082B2 (en) Apparatus for correcting error in speech recognition
US20140025379A1 (en) Method and System for Real-Time Keyword Spotting for Speech Analytics
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
AU2018271242A1 (en) Method and system for real-time keyword spotting for speech analytics
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
He et al. Minimum classification error linear regression for acoustic model adaptation of continuous density HMMs
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
Pinto et al. Exploiting phoneme similarities in hybrid HMM-ANN keyword spotting
Kaewtip et al. A Hierarchical Classification Framework for Phonemes and Broad Phonetic Groups (BPGs): a Discriminative Template-Based Approach
Lachhab Improved feature vectors using N-to-1 Gaussian MFCC transformation for automatic speech recognition system
Sun et al. On the effectiveness of statistical modeling based template matching approach for continuous speech recognition
Gibson et al. Confidence-informed unsupervised minimum Bayes risk acoustic model adaptation
Zheng et al. Effective acoustic modeling for rate-of-speech variation in large vocabulary conversational speech recognition
Cernak et al. Diagnostics of speech recognition: on evaluating feature set performance
Raut Discriminative adaptive training and Bayesian inference for speech recognition
Bocchieri et al. Rejection using rank statistics based on HMM state shortlists
Aradilla et al. Posterior Features Applied to Speech Recognition Tasks with Limited Training Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160923

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170310

R150 Certificate of patent or registration of utility model

Ref document number: 6110945

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250