JP2002358096A - リストからの一パターンの一実現変形例にそれぞれが厳密に関連付けられたパターン認識システムのパラメータを訓練する方法及びシステム - Google Patents

リストからの一パターンの一実現変形例にそれぞれが厳密に関連付けられたパターン認識システムのパラメータを訓練する方法及びシステム

Info

Publication number
JP2002358096A
JP2002358096A JP2002118437A JP2002118437A JP2002358096A JP 2002358096 A JP2002358096 A JP 2002358096A JP 2002118437 A JP2002118437 A JP 2002118437A JP 2002118437 A JP2002118437 A JP 2002118437A JP 2002358096 A JP2002358096 A JP 2002358096A
Authority
JP
Japan
Prior art keywords
word
parameters
training
recognition system
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002118437A
Other languages
English (en)
Inventor
Hauke Schramm
シュラム ハオケ
Peter Beyerlein
バイエルライン ペーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2002358096A publication Critical patent/JP2002358096A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】 【課題】 語彙からの一ワードの一発音変形例にそれぞ
れが厳密に関連付けられた音声認識システムのパラメー
タを訓練する方法及びシステムを提供すること。 【解決手段】 本発明は、リストからの一パターンの一
実現変形例にそれぞれが厳密に関連付けられたパターン
認識システムのパラメータを訓練する方法であって、パ
ターンの訓練群を使用可能にし、目標関数の選択的最適
化を通じて前記パラメータを決定することを特徴とする
方法に関する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、リストからの一パ
ターンの一実現変形例にそれぞれが厳密に関連付けられ
たパターン認識システムのパラメータを訓練する方法及
びシステムに係り、特に、語彙からの一ワードの一発音
変形例にそれぞれが厳密に関連付けられた音声認識シス
テムのパラメータを訓練する方法及びシステムに関す
る。
【0002】
【従来の技術】パターン認識システム、特に音声認識シ
ステムは、多くの用途に用いられている。例えば、独国
の航空会社であるルフトハンザ(Lufthansa)
のフライト情報サービスなどの自動電話情報システム
や、フィリップス(Philips)社のFreeSp
eechなどの自動口述筆記システム、German
Postal Servicesによって用いられてい
る自動住所認識システムなどの手書き認識システム、個
人の識別用としてしばしば提案される例えば指紋、虹
彩、若しくは顔など生体システム、などが挙げられる。
更に、このようなパターン認識システムは、上述の個人
識別の例より明らかであるが、より一般的なパターン処
理システムの構成要素として用いられてもよい。
【0003】
【発明が解決しようとする課題】多くの既知システム
は、これらパターンを認識するために、未知のテスト・
パターンを該システムにとって既知の参照パターンと比
較する統計的方法を用いる。この参照パターンは、適切
なパラメータによって特徴付けられる。このパラメータ
は、パターン認識システムに記録されている。したがっ
て、例えば多くのパターン認識システムは、一ワードの
語彙を認識単位として用いる。この認識単位は、次い
で、未知の音声発音との音響的比較のためにいわゆるサ
ブワード単位へ再分割される。これら「ワード」は、言
語学的な意味でのワードでもよいが、通常、音声認識に
おいては「ワード」という概念をより幅広く解釈する。
スペリング用途において、例えば、一文字が一ワードを
構成してもよく、音節又は統計的に決定された言語学上
のワードの一部を認識語彙のためのワードとして用いて
もよい。
【0004】自動音声認識における問題は、特に、ワー
ドが非常に様々に発音されるという事実にある。一方
で、話者間におけるこのような差異は、話者の心理状態
に依存するか、又はワードの呂律において話者によって
用いられる方言によって影響を受ける。他方で、特に非
常に頻出ワードは、慎重に朗読された際の音声シーケン
スと比較すると、自然に話されたときの音声シーケンス
では異なる音で発音されることがある。このように、例
えば、「would」が「d」となったり、「can」
が「c’n」となるなど、ワードの発音を縮めることが
よくある。
【0005】多くのシステムは、1つの同じワードの異
なる発音をモデル化したいわゆる発音変形例を用いる。
例えば、語彙Vのl番目のワードwが様々に発音され
得る場合、このワードのj番目の発音方法が発音vlj
の導入を通じてモデル化され得る。すると、この発音変
形例vljは、wのj番目の発音方法に適合するサブ
ワード単位によって構成される。言語の基本的な音をモ
デル化する音素を発音変形例を構成するサブワード単位
として用いてもよい。しかし、統計的に導かれたサブワ
ードが用いられてもよい。いわゆるHidden Ma
rkov Modelが音響学的モデル化の最低レベル
としてしばしば用いられる。
【0006】音声認識において用いられるワードの発音
変形例の概念を上のように分類した。しかし、この概念
は、同様に、パターン認識システムのリストからパター
ンの実現変形例に対しても用いられ得る。音声認識シス
テムにおける語彙からのワードは、パターン認識システ
ムのリストからのパターン、すなわち認識単位に対応す
る。ワードが異なる発音で発せられると、リストからの
パターンは異なって実現され得る。このように、ワード
は、手動又はタイプライタで異なって書かれ、例えばス
マイルなどの所定の顔の表情が個人毎及び状況毎に異な
って構成される。したがって、本発明の考察は、経済的
理由から本ドキュメントには音声認識システムを用いる
場合しか主として開示されていないが、一般的なパター
ン認識システムにおいてリストからの一パターンの一実
現変形例と厳密に関連付けられたパラメータを訓練する
ことに適用可能である。
【0007】上述のように、多くのパターン認識システ
ムは、未知のテスト・パターンをリストに記録された参
照パターンと比較し、該テスト・パターンが参照パター
ンのいずれかに対応するか、対応するとすればどの参照
パターンに対応するかを判断する。このため、上記参照
パターンには適切なパラメータが備えられる。このパラ
メータは、パラメータ認識システムに記録される。特に
統計的方法に基づいたパターン認識システムは、次い
で、参照パターンがどの程度良好にテスト・パターンと
一致するかを示すスコアを計算する。次いで、該システ
ムは、最高の起こり得るスコアを有する参照パターンを
見つけることを試みる。該スコアを有する参照パターン
は、次いで、該テスト・パターンに対する認識結果とし
て出力される。このような一般的手順を通じて、用いら
れた発音変形例に応じたスコアが得られる。このスコア
は、音声発音が発音変形例にいかに良好に一致するか、
及びその発音変形例がいかに良好にワードに一致するか
を示す。すなわち、後者の場合のスコアは、この発音変
形例に応じて該ワードを話者が発音したか否かに関する
ものである。
【0008】多くの音声認識システムは、スコアとし
て、確率モデルに密接に関連した量を用いる。これは、
例えば以下のように構成され得る。音声認識システムの
タスクは、音声発音xに対するワード・シーケンス
【0009】
【数8】 を見つけることである。ここで、このワード・シーケン
スはN(未知数)個のワードから成るシーケンスであ
り、音声発音xに最適に一致する(すなわち、条件xの
観点から最高の条件確率を有する)すべての考えられる
長さN’を有するすべての考えられるワード・シーケン
【0010】
【数9】
【0011】
【数10】 の中のシーケンスである。
【0012】ベイズの定理を適用すると、既知モデル・
パーティション:
【0013】
【数11】 が得られる。
【0014】このワード・シーケンス
【0015】
【数12】 に関連付けられた考えられる発音変形例
【0016】
【数13】 は、合計:
【0017】
【数14】 によって導入され得る。なぜなら、音声発音xの発音変
形例
【0018】
【数15】 及びワード・シーケンス
【0019】
【数16】 への依存はもっぱら発音変形例
【0020】
【数17】 のシーケンスによってのみ定義されることが想定される
からである。
【0021】別の依存モデル化
【0022】
【数18】 について、いわゆるユニグラム(unigram)合計
が通常行われる。このユニグラム合計は、コンテキスト
の影響:
【0023】
【数19】 を無視する。
【0024】音声認識システムの語彙Vのl番目のワー
ドをwで表し、このワードのj番目の発音変形例をv
ljで表し、発音変形例vljが発音変形例
【0025】
【数20】 のシーケンスにおいて発生するときの周波数を、
【0026】
【数21】 で表す(例えば、「give me a cuppa
coffee」という発音における発音変形例「cup
pa」の周波数は1であり、変形例「cup of」の
それは0である)場合、後者の表現は、
【0027】
【数22】 とも書くことができる。ここで、右式において、語彙V
のD個のワードすべてについて解が計算される。
【0028】量
【0029】
【数23】 、すなわちワードwに対して発音変形例vljが発音
される条件確率は、この場合、それぞれが語彙からの一
ワードの一発音変形例に厳密に関連付けられた音声認識
システムのパラメータである。それらは、音響学的音声
信号の形で利用可能な訓練用の音声発音群を用いて音声
認識システムの訓練を行う過程において適切な方法で推
定され、それら推定された値は上記数式に基づく未知の
テスト・パラメータの認識処理における認識代替物のス
コアへ導入される。
【0030】パターン認識において一般的な確率手順は
上記説明において用いられたため、確率の条件が満たさ
れない一般的な評価関数が実際には適用されるのが通常
であることは当業者には明らかであろう。したがって、
例えば、標準化条件は条件を満たすのに必要なものとみ
なされないこともしばしばあり、確率pの代わりにパラ
メータλを用いて指数的に修正された量pλがしばしば
用いられる。多くのシステムは、これら量の負の対数:
−λlogpを用いても動作する。この負の対数はしば
しば「スコア」と見なされる。したがって、本ドキュメ
ントにおいて確率と言ったとき、当業者には馴染みのよ
り一般的な評価関数がその語に含まれるものと見なされ
る。
【0031】語彙からのワードwの発音変形例vlj
とそれぞれが厳密に関連付けられた音声認識システムの
パラメータ
【0032】
【数24】 の訓練は、多くの音声認識システムにおいて「最大尤
度」方法の使用を含む。ワードwの個々の変形例v
ljがどの程度頻繁に発音されたかは、例えば訓練群に
おいて決定され得る。次いで、この訓練群から観測され
る関連する周波数
【0033】
【数25】 が、例えばパラメータ
【0034】
【数26】 に対する推定値として直接的に用いられるか、或いは、
例えばディスカウンティングなどの既知の統計的スムー
ジング演算を最初に受ける。
【0035】米国特許第6,076,053号は、対照
的に、語彙からのワードの発音変形例が発音ネットワー
ク構造へマージされる方法について開示している。この
ような発音ネットワーク構造の弧は、例えば、発音変形
例のHMMの形をした音素であるサブワードから成る
(「サブワード(音素)HMMは固有の弧へ割り当てら
れる」)。語彙からのワードwの発音変形例vlj
話されたか否かという問題に答えるために、重み乗算
子、重み加算子、及び電話長さに依存した重みパラメー
タが発音ネットワークの弧のレベルで、又は弧のHHM
状態のサブレベルで導入される。
【0036】米国特許第6,076,053号において
提案されている方法において、スコア
【0037】
【数27】 は使用されない。代わりに、例えば弧レベルで重みパラ
メータを用いる際に、スコア
【0038】
【数28】 がk番目のワードに対する発音ネットワークにおける弧
jに割り当てられる。ここで、
【0039】
【数29】 は、例えば、確率の(負の)対数である。弧レベルでの
重み付けにおいて、弧jにはスコア
【0040】
【数30】 が割り当てられる。現在最も好ましい実施形態におい
て、このスコアは尤度の対数である。このスコアは、次
いで、重みパラメータを用いて修正される(「弧レベル
重み付けを適用すると、修正されたスコア:
【0041】
【数31】 が得られる」)。この重みパラメータ自体は、例えば訓
練群における分類誤り率を最小化することを通じた選択
的訓練によって決定される(「最小分類誤り基準を用い
たパラメータの最適化は異なる発音ネットワーク間の弁
別を最大化する」)。
【0042】本発明は、リストからの一パターンの一実
現変形例にそれぞれが厳密に関連付けられたパターン認
識システムのパラメータを訓練する方法及びシステム、
特に、語彙からの一ワードの一発音変形例にそれぞれが
厳密に関連付けられた音声認識システムのパラメータを
訓練する方法及びシステムを提供することを目的とす
る。ここで、パターン認識システムには未知のテスト・
パターンの認識において高度な精度が与えられる。
【0043】
【課題を解決するための手段】上記目的は、リストから
の一パターンの一実現変形例にそれぞれが厳密に関連付
けられたパターン認識システムのパラメータを訓練する
方法であって、パターンの訓練群を使用可能にし、目標
関数の選択的最適化を通じて前記パラメータを決定する
ことを特徴とする方法によって実現される。
【0044】また、上記目的は、リストからの一パター
ンの一実現変形例にそれぞれが厳密に関連付けられたパ
ターン認識システムのパラメータを訓練するシステムで
あって、パターンの訓練群を使用可能にし、目標関数の
選択的最適化を通じて前記パラメータを決定することを
特徴とするシステムによって実現される。
【0045】また、上記目的は、特に、語彙からの一ワ
ードの一発音変形例にそれぞれが厳密に関連付けられた
音声認識システムのパラメータを訓練する方法であっ
て、音響学的音声信号の訓練群を使用可能にし、目標関
数の選択的最適化を通じて前記パラメータを決定するこ
とを特徴とする方法によって実現される。
【0046】さらに、上記目的は、語彙からの一ワード
の一発音変形例にそれぞれが厳密に関連付けられた音声
認識システムのパラメータを訓練するシステムであっ
て、音響学的音声信号の訓練群を使用可能にし、目標関
数の選択的最適化を通じて前記パラメータを決定するこ
とを特徴とするシステムによって実現される。
【0047】従属項である請求項2乃至5は、本発明の
有益的な別の実施形態に関連する。それらは、パラメー
タが、スコア
【0048】
【数32】 、目標関数の詳細、様々なスコアの性質、及び目標関数
を最適化する方法に対して割り当てられる形に関連す
る。
【0049】しかし、請求項9及び10において、本発
明は、請求項7記載の方法によって訓練されたパラメー
タ自体、及び該パラメータがその上に記録されたデータ
・キャリアに関連する。
【0050】
【発明の実施の形態】本発明の上記及び別の態様を、実
施形態及び添付図面を参照して以下に詳細に説明する。
【0051】語彙からのワードwの発音変形例vlj
に厳密に関連付けられた音声認識システムのパラメータ
【0052】
【数33】 は、目標関数の選択的最適化へ直接的にフィードされて
もよい。適切な目標関数は、特に、文章誤り率(すなわ
ち、誤っている(最小分類誤り)と認識された音声発音
の割合)、及び、ワード誤り率(すなわち、誤っている
と認識されたワードの割合)である。これらは離散関数
であるため、当業者は、通常、実際の誤り率の代わりに
スムージングされたバージョンを適用するであろう。例
えばスムージングされた誤り率を最小化する、使用可能
な最適化手順は、特に「汎用確率下降(general
ized probabilistic descen
t:GPD)」である傾き手順や、例えばシンプレック
ス法などの他のすべての非線形最適化用の手順である。
【0053】しかし、本発明の好ましい実施形態におい
て、最適化問題は、選択モデル合成(discrimi
native model combination)
方法を用いることを可能にする形へ持って来られる。こ
の選択モデル合成は、個々のモデルの対数−線形合成を
形成し、それらの重み因子の選択的最適化を行うWO9
9/31654から知られた一般的な方法である。した
がって、WO99/31654は、選択モデル合成方法
の反復記載を避けるために、参考文献として本願に組み
込まれる。
【0054】スコア
【0055】
【数34】 は、それ自体が選択モデル合成方法の実行においてパラ
メータとして直接的に用いられないが、代わりに、それ
らは新しいパラメータλljを有する指数の形:
【0056】
【数35】 で表される。
【0057】非線形最適化の既知の方法におけるパラメ
ータλljは目標関数を最適化するのに直接的に用いる
ことができるため、選択モデル合成は、モデル・スコア
【0058】
【数36】 の対数−線形の形を達成することを狙いとする。このた
め、式(3)の合計は、近似:
【0059】
【数37】 におけるその主たる寄与に制限される。ここで、
【0060】
【数38】 である。
【0061】前述のベイズの定理(式(2)参照)と式
(5)及び(7)とを考慮すると、所望の対数−線形表
現は、
【0062】
【数39】 となる。
【0063】最適化されるパラメータΛ=(λ
λ,・・・,λlj,・・・)についての個々の語の
依存を分類するために、関連場所における指数としてΛ
が導入された。さらに、選択モデル合成においては一般
的なように、残りの2つの加数
【0064】
【数40】 及び
【0065】
【数41】 にも適切なパラメータλ及びλが備えられた。しか
し、これらはかならずしも最適化される必要はなく、1
に等しくなるように選ばれてもよい(λ=λ
1)。それにもかかわらず、それらの最適化は、通常、
音声認識システムの品質を向上させる。品質Zλ(x)
は、音声発音x(及びパラメータΛ)のみに依存し、ス
コア
【0066】
【数42】 を確率モデルとして解釈することが望まれる限り正規化
のためのみに役立つ。すなわち、Zλ(x)は、正規化
条件
【0067】
【数43】 に適合するように決定される。
【0068】選択モデル合成は、特に、目標関数として
訓練中に決定されたスムージングされたワード誤り率の
様々な形を利用する。このため、訓練群は、H個の音声
発音x(n=1,・・・,H)から成る必要がある。
このような発音xのそれぞれは、割り当てられた長さ
を有する音声ワード・シーケンス
【0069】
【数44】 (ここでは便宜上ワード・シーケンスkと呼ぶ)を有
する。kはかならずしも実際に話されたワード・シー
ケンスでなくてもよい。いわゆる非監視適合(unmo
nitored adaptation)の場合、k
は例えば予備的な認識工程によって決定され得る。さら
に、認識処理において最高スコアについて音声ワード・
シーケンスkと競合するK個の別のワード・シーケ
ンスの量
【0070】
【数45】 (i=1,・・・,K)は、例えばいわゆるワード・
グラフ若しくはN個のベスト・リストを計算する認識工
程によって、各発音xに対して決定される。これら競
合するワード・シーケンスは、便宜上、k≠kで表さ
れ、シンボルkがk及びk≠kに対するフラフィッ
ク・シンボルとして用いられる。
【0071】本音声認識システムは、ワード・シーケン
スk及びk(≠k)に対するスコア
【0072】
【数46】 及び
【0073】
【数47】 を決定する。これらスコアは、それらがどの程度良好に
音声発音xに一致するかを示す。本音声認識システム
は、最高スコアを有するワード・シーケンスk若しく
はkを認識結果として選ぶため、話された(又は話され
たと仮定された)ワード・シーケンスkと選ばれたワ
ード・シーケンスとの間のリーベンシュタイン距離Γと
してワード誤りE(Λ):
【0074】
【数48】 が計算される。
【0075】このワード誤り率は、「インジケータ関
数」S(k,n,Λ)によって弁別が可能な連続関数E
(Λ):
【0076】
【数49】 へとスムージングされる。このインジケータ関数S
(k,n,Λ)は、本音声認識システムによって選ばれ
た最高スコアを有するワード・シーケンスに対して1に
近く、他のすべてのワード・シーケンスに対しては0に
近くなるようにすべきである。考えられる選択は、
【0077】
【数50】 である。ここで、ηは適切な定数である。ηは、最もシ
ンプルなケースにおいて、1となるように選ばれてもよ
い。
【0078】式(11)の目標関数は、個々の偏微分を
実行した後で発音変形例のパラメータλljに対する以
下の反復式:
【0079】
【数51】 が当業者によって得られるように、例えば反復傾斜法に
よって、最適化されてもよい。
【0080】ステップ幅εを有する反復工程は、I番目
の反復工程に対するパラメータ
【0081】
【数52】 から(I+1)番目のダイ・パラメータ
【0082】
【数53】 を得る。
【0083】
【数54】 及び
【0084】
【数55】 は、ワード・シーケンスk及びkに対して(式(8)
によると)最高スコアを有する発音変形例を示す。
【0085】
【数56】 は、
【0086】
【数57】 の省略形である。
【0087】量
【0088】
【数58】 は、S(k’,n,Λ)で重み付けされたすべてのワー
ド・シーケンスの誤り率周辺の誤り率Γ(k,k)の
偏差であるため、
【0089】
【数59】 となるワード・シーケンスkを正しいワード・シーケン
スとして特徴付けることができる。なぜなら、それらは
S(k’,n,Λ)で重み付けされたものよりも低い誤
り率を示すからである。したがって、式(13)の反復
規則は、パラメータλlj及びスコア
【0090】
【数60】 が、音声ワード・シーケンスkから判断して、正しい
ワード・シーケンスにおいて頻出する、すなわち正しい
ワード・シーケンスにおいて
【0091】
【数61】 を保持する発音変形例vljに対して拡大されることを
明らかにする。同様の規則は、悪いワード・シーケンス
においてめったに登場しない変形例に対して適用され
る。他方、上記スコアは、良好なワード・シーケンスに
おいてめったに登場せず、悪いワード・シーケンスにお
いて頻出する変形例に対して下げられる。この解釈は、
本発明の有益的な効果のよい例である。
【0092】図1は、一ワードの一発音変形例が厳密に
一パラメータと関連付けられた音声認識システムのパラ
メータを訓練する本発明に掛かるシステムの一実施形態
を示す。一ワードの一発音変形例に厳密に関連付けられ
た音声認識システムのパラメータを訓練する本発明に係
る方法は、プログラム・メモリ2に記録されたプログラ
ムの制御下でコンピュータ1上で実行される。マイク3
は、音声発音を音声メモリ4に記録する。別の方法とし
て、このような音声発音が又はマイク3を通じた記録の
代わりに、ネットワークを通じて他のデータ・キャリア
から音声メモリ内へ転送されることも可能である。
【0093】パラメータ・メモリ5及び6は、パラメー
タを記憶する。本実施形態において、前述の種類の反復
最適化処理が実行されるものと仮定する。すると、パラ
メータ・メモリ5は、例えば、(I+1)番目の反復工
程の計算のために、該ステージにおいて既知のI番目の
反復工程のパラメータを含み、パラメータ・メモリ6
は、(I+1)番目の反復工程の新しいパラメータを受
信する。本例において、次のステージ、すなわち(I+
2)番目の反復工程において、パラメータ・メモリ5及
び6は役割を交換する。
【0094】本発明に係る方法は、本実施形態におい
て、汎用コンピュータ1上で実行される。該コンピュー
タは、通常、メモリ2、5、及び6を1つの共通構成と
して有するであろうが、音声メモリ4は、ネットワーク
を通じてアクセス可能な中央サーバに配置されると考え
られる。しかし、別の方法として、本方法を実行するた
めに特殊なハードウェアが用いられてもよい。この特殊
なハードウェアは、本方法の全部又は一部が特に素早く
実行され得るように構成されてもよい。
【0095】図2は、それぞれが語彙からの一ワードの
一発音変形例に関連付けられた音声認識システムのパラ
メータを訓練する本発明に係る方法の一実施形態のフロ
ーチャートを示す。一般的な準備的措置が採られる開始
ブロック101の後、ブロック102において、パラメ
ータに対する初期値Λ(0)が選ばれ、反復計数変数I
が0にセットされる(I=0)。スコア
【0096】
【数62】 を推定するのに前述の「最大尤度」方法が用いられても
よい。次いで、
【0097】
【数63】 の初期値は、対数関数の形成を通じて、該スコアから得
られる。
【0098】ブロック103は、計数変数nが1にセッ
トされる(n=1)音声発音の訓練群を通じた処理を開
始する。ブロック104において、音声発音xに一致
するように競合ワード・シーケンスk≠kが選ばれ
る。音声発音xと一致する音声ワード・シーケンスk
が訓練データにとっていまだ知られていないものであ
れば、ブロック104において、本音声認識システムが
更新されたパラメータを形成することによって推定され
てもよい。しかし、このような推定は、例えばブロック
102において、一度だけ前もって実行することも可能
である。さらに、個々の音声認識システムが音声ワード
・シーケンスkを推定するのに択一的に用いられても
よい。
【0099】ブロック105において、競合ワード・シ
ーケンスk≠kの量を通じた処理が開始される。この
ため、計数変数kは1にセットされる(k=1)。個々
の語の計算と、計数変数n及びkによって式(13)に
おいて生じる二重合計の累積とがブロック106で行わ
れる。競合ワード・シーケンスk≠kの量を通じた処
理を制限する判断ブロック107において、あらゆる別
の競合ワード・シーケンスk≠kが存在するか否かが
テストされる。存在する場合、本制御は、計数変数kが
1つインクリメントされる(k=k+1)ブロック10
8へ切り替えられ、その後すぐにブロック106へ戻
る。存在しなければ、本制御は、あらゆる別の訓練発音
が使用可能か否かがテストされるために、音声発音の訓
練群を通じた処理を制限する判断ブロック109へ進
む。使用可能である場合、ブロック110において計数
変数nが1つインクリメントされ(n=n+1)、本制
御はブロック104へ戻る。使用可能でなければ、音声
発音の訓練群を通じた処理は終了し、本制御はブロック
111へ進む。
【0100】ブロック111において、パラメータΛの
新しい値、すなわち最初の反復工程I=1における値Λ
(1)が計算される。続く判断ブロック112におい
て、最適化が十分に集束したか否かを確認するために、
停止基準が適用される。このための様々な方法が知られ
ている。例えば、パラメータの相対変化若しくは目標関
数の相対変化が所定の閾値を下回るべきであることが要
求されてもよい。しかし、いずれの場合においても、上
記反復は、反復工程の所定の最大数後に終了してもよ
い。
【0101】反復がいまだ十分に集束していない場合、
ブロック113において、反復計数変数Iが1つインク
リメントされ(I=I+1)、その後すぐに、ブロック
103において、反復ループに再び入る。反対のケース
においては、ブロック114において、一般的な再構成
方法を用いて、反復が終了する。
【0102】パラメータλljを決定する特別な反復最
適化処理を上述のように詳細に説明した。しかし、他の
最適化方法を代わりに用いることも可能であることは当
業者には明らかである。特に、選択モデル合成と関連し
て知られているすべての方法が適用可能である。ここ
で、WO99/31654に開示された方法について再
び特別に触れる。この引用文献は、パラメータを閉じた
系で非反復的に決定することを可能にする方法について
も特に開示している。すると、パラメータ・ベクトルΛ
が、形Λ=Q−1Pを有する線形連立方程式を解くこと
によって得られる。より詳しくはWO99/31654
を参照のこと。
【0103】パラメータλljが決定されると、それら
は同じく発音語彙集に含まれる発音変形例vljを選択
するのに用いられ得る。したがって、例えば、所定の閾
値より低いスコア
【0104】
【数64】 を有する変形例vljが発音語彙集から削除されてもよ
い。さらに、発音語彙集は、最も低いスコア
【0105】
【数65】 を有する適切な数の変形例vljが消去されるため、所
定数の変形例vljを用いて作成されてもよい。
【0106】
【発明の効果】本発明によれば、リストからの一パター
ンの一実現変形例にそれぞれが厳密に関連付けられたパ
ターン認識システムのパラメータを訓練する方法及びシ
ステム、特に、語彙からの一ワードの一発音変形例にそ
れぞれが厳密に関連付けられた音声認識システムのパラ
メータを訓練する方法及びシステムを提供することがで
きる。
【図面の簡単な説明】
【図1】語彙からの一ワードの一発音変形例にそれぞれ
が厳密に関連付けられた音声認識システムのパラメータ
を訓練する本発明に係るシステムの一実施形態を示す図
である。
【図2】語彙からの一ワードの一発音変形例にそれぞれ
が厳密に関連付けられた音声認識システムのパラメータ
を訓練する本発明に係る方法の一実施形態を示すフロー
チャートである。
【符号の説明】
1 コンピュータ 2 プログラム・メモリ 3 マイク 4 音声メモリ 5、6 パラメータ・メモリ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ハオケ シュラム ドイツ連邦共和国,52159 レートゲン− ムラートシュッテ,ツヴァイファラー シ ュトラーセ 51 (72)発明者 ペーター バイエルライン ドイツ連邦共和国,52080 アーヘン,フ ォン−ケールス−シュトラーセ 232 Fターム(参考) 5D015 CC00

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 語彙からの一ワードの一発音変形例にそ
    れぞれが厳密に関連付けられた音声認識システムのパラ
    メータを訓練する方法であって、 音響学的音声信号の訓練群を使用可能にし、 目標関数の選択的最適化を通じて前記パラメータを決定
    することを特徴とする方法。
  2. 【請求項2】 請求項1記載の方法であって、 前記語彙からのl番目のワードwのj番目の発音変形
    例に関連付けられたパラメータλljは、前記ワードw
    が発音変形例vljとして発音されるように、スコア 【数1】 と指数関数関係: 【数2】 を有することを特徴とする方法。
  3. 【請求項3】 請求項1又は2記載の方法であって、 前記目標関数は、 前記訓練群からの対応する音響学的音声信号xに関連
    付けられた音声ワード・シーケンスkと、該音声信号
    に関連付けられたkと競合する別のワード・シーケン
    スk≠kとの間の個別のリーベンシュタイン距離Γ
    (k,k)と、 前記別のワード・シーケンスk≠k及び前記音声ワー
    ド・シーケンスkが前記音声信号xにどの程度良好
    に一致するかを示す個別のスコア 【数3】 及び 【数4】 と、について微分可能な連続関数として計算されること
    を特徴とする方法。
  4. 【請求項4】 請求項1乃至3のいずれか一項記載の方
    法であって、 確率モデルが、 ワードwが発音変形例vljとして発音された確率を
    示す前記個別のスコア 【数5】 として、 前記訓練群からの対応する音響学的音声信号xに関連
    付けられた音声ワード・シーケンスkが前記音声信号
    として話された確率を示す前記個別のスコア 【数6】 として、及び/又は、 前記関連する競合ワード・シーケンスk≠kが前記音
    声信号xとして話された確率を示す前記個別のスコア 【数7】 として用いられること特徴とする方法。
  5. 【請求項5】 請求項1乃至4のいずれか一項記載の方
    法であって、 前記目標関数の選択的最適化は、選択的モデル合成方法
    の1つによって実行されることを特徴とする方法。
  6. 【請求項6】 語彙からの一ワードの一発音変形例にそ
    れぞれが厳密に関連付けられた音声認識システムのパラ
    メータを訓練するシステムであって、 音響学的音声信号の訓練群を使用可能にし、 目標関数の選択的最適化を通じて前記パラメータを決定
    することを特徴とするシステム。
  7. 【請求項7】 リストからの一パターンの一実現変形例
    にそれぞれが厳密に関連付けられたパターン認識システ
    ムのパラメータを訓練する方法であって、 パターンの訓練群を使用可能にし、 目標関数の選択的最適化を通じて前記パラメータを決定
    することを特徴とする方法。
  8. 【請求項8】 リストからの一パターンの一実現変形例
    にそれぞれが厳密に関連付けられたパターン認識システ
    ムのパラメータを訓練するシステムであって、 パターンの訓練群を使用可能にし、 目標関数の選択的最適化を通じて前記パラメータを決定
    することを特徴とするシステム。
  9. 【請求項9】 パターン認識システムのパラメータであ
    って、 リストからの一パターンの一実現変形例にそれぞれが厳
    密に関連付けられ、 請求項7記載の方法によって生成されたことを特徴とす
    るパラメータ。
  10. 【請求項10】 請求項9記載のパラメータ認識システ
    ムのパラメータを保持するデータ・キャリア。
JP2002118437A 2001-04-20 2002-04-19 リストからの一パターンの一実現変形例にそれぞれが厳密に関連付けられたパターン認識システムのパラメータを訓練する方法及びシステム Pending JP2002358096A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10119284.3 2001-04-20
DE10119284A DE10119284A1 (de) 2001-04-20 2001-04-20 Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems

Publications (1)

Publication Number Publication Date
JP2002358096A true JP2002358096A (ja) 2002-12-13

Family

ID=7682030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002118437A Pending JP2002358096A (ja) 2001-04-20 2002-04-19 リストからの一パターンの一実現変形例にそれぞれが厳密に関連付けられたパターン認識システムのパラメータを訓練する方法及びシステム

Country Status (5)

Country Link
US (1) US20030023438A1 (ja)
EP (1) EP1251489A3 (ja)
JP (1) JP2002358096A (ja)
CN (1) CN1391211A (ja)
DE (1) DE10119284A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10304460B3 (de) * 2003-02-04 2004-03-11 Siemens Ag Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
US7464031B2 (en) * 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features
CN1296887C (zh) * 2004-09-29 2007-01-24 上海交通大学 用于嵌入式自动语音识别系统的训练方法
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7680659B2 (en) * 2005-06-01 2010-03-16 Microsoft Corporation Discriminative training for language modeling
JP4820870B2 (ja) * 2005-06-13 2011-11-24 エーエスエムエル ネザーランズ ビー.ブイ. アクティブレチクルツールおよびリソグラフィ装置
US20070083373A1 (en) * 2005-10-11 2007-04-12 Matsushita Electric Industrial Co., Ltd. Discriminative training of HMM models using maximum margin estimation for speech recognition
EP3627497B1 (en) * 2006-04-03 2024-07-24 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7680663B2 (en) * 2006-08-21 2010-03-16 Micrsoft Corporation Using a discretized, higher order representation of hidden dynamic variables for speech recognition
CN101546556B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类系统
US20100281435A1 (en) * 2009-04-30 2010-11-04 At&T Intellectual Property I, L.P. System and method for multimodal interaction using robust gesture processing
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
CN110992777B (zh) * 2019-11-20 2020-10-16 华中科技大学 多模态融合的示教方法、装置、计算设备及存储介质
CN116807479B (zh) * 2023-08-28 2023-11-10 成都信息工程大学 一种基于多模态深度神经网络的驾驶注意力检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076053A (en) * 1998-05-21 2000-06-13 Lucent Technologies Inc. Methods and apparatus for discriminative training and adaptation of pronunciation networks

Also Published As

Publication number Publication date
EP1251489A3 (de) 2004-03-31
US20030023438A1 (en) 2003-01-30
CN1391211A (zh) 2003-01-15
EP1251489A2 (de) 2002-10-23
DE10119284A1 (de) 2002-10-24

Similar Documents

Publication Publication Date Title
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
JP2002358096A (ja) リストからの一パターンの一実現変形例にそれぞれが厳密に関連付けられたパターン認識システムのパラメータを訓練する方法及びシステム
JP3549681B2 (ja) 連結数字の認識のための発声識別立証
US6226612B1 (en) Method of evaluating an utterance in a speech recognition system
US7813927B2 (en) Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US7340396B2 (en) Method and apparatus for providing a speaker adapted speech recognition model set
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
JP2002500779A (ja) 識別訓練されたモデルを用いる音声認識システム
JPH0612093A (ja) 音声認識装置およびそのトレーニング方法ならびに装置
EP1205906B1 (en) Reference templates adaptation for speech recognition
JPH06332497A (ja) ニューラル・ネットワークを使用する話者非依存隔離単語音声認識システム
EP1385147A2 (en) Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
JP2002149186A (ja) 識別可能な適合に関する代替の単語列の選択
Herbig et al. Self-learning speaker identification for enhanced speech recognition
JPH08211889A (ja) 木構造を用いたパターン適応化方式
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP3868798B2 (ja) 音声認識装置
JP2001109491A (ja) 連続音声認識装置および方法
JP7216348B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JPH08241096A (ja) 音声認識方法
Raut et al. Adaptive training using discriminative mapping transforms.
JP3841342B2 (ja) 音声認識装置および音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070911

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080226