JP3672595B2

JP3672595B2 - 結合されたストリングモデルの最小誤認率訓練

Info

Publication number: JP3672595B2
Application number: JP16986594A
Authority: JP
Inventors: チョーウー; ジョアンビーイング−フワン; リーチン−フィ
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1993-07-22
Filing date: 1994-07-22
Publication date: 2005-07-20
Anticipated expiration: 2020-07-20
Also published as: US5606644A; JPH07152394A; DE69422097T2; DE69422097D1; CA2126380A1; EP0635820B1; CA2126380C; EP0635820A1

Description

【０００１】
【産業上の利用分野】
本発明は一般的にはパターンデータベース（pattern database）の訓練、より詳細には、音声認識などの音声処理タスクのための音声パターンデータベースの訓練に関する。
【０００２】
【従来の背景】
連続音声認識の目的は入力音声発声からの底辺に横たわるワードシーケンス（underlying word sequence）を識別（つまり、認識）することにある。認識は、セットの音声認識パターンあるいはモデル（以降モデルと呼ばれる）を使用して遂行される。これらの基本音声認識モデルは、句（phrase）あるいは文（sentence）等のワードやワードストリングに対する構築ブロックである。近年、これらの基本音声認識ユニットを連続音声認識のためにいかに選択及び表現するかの問題に大きな研究努力が集中されている。
【０００３】
連続音声認識問題に対する一つの従来の手法は、例えば、テンプレートあるいは隠れマルコフモデル（hidden Markov model（ＨＭＭ））等の音響認識モデルを使用する統計的パターン認識手法である。語彙の辞書的記述（lexical description）に基づいて音響音声認識モデルが規定され、これらのパラメータが次に「訓練（training）」として知られているプロセスを通じて統計的に決定される。これらの基本モデルは語彙表上のワード（word:単語）あるいはサブワード(subword：例えば、言語学に基づく音素の音響的表明である単音など）を反映する。連続音声認識に対するこの手法において一般的に行なわれる一つの想定は、流暢に話されたワードのシーケンス、つまり、ワード「ストリング（string）」は、そのストリング内のワードの辞書的記述に従って（ワードあるいはサブワードの）基本音声認識モデルの線形連結（linear concatenation）によって十分に表現できるという想定である。慣習的には、これは、音声認識モデルの連結が訓練トークン（例えば、ワード）から直接に推定できることを意味する。音響認識モデルの連結はワードストリングのモデルを形成し、ワード「ストリング・モデル（string model）」の形式である。連続的な音声認識においては、ある与えられた認識タスクに対して複数のストリングモデルを仮定する。個々の比較の一致の程度が認識スコア（recognition score）によって示される。連続発声と最も良く一致するストリングモデルがその発声を「認識（recognizes）」するものとされる。
【０００４】
連続音声認識に対するもう一つの従来の手法は、ワードストリングモデルを「非」音響認識モデルにて補強（augment）する方法である。この非音響認識モデルは様々あるが、強いて挙げれば、言語モデル、音韻に基づくモデル、意味論的モデル、統語論的モデル（syntactic models）、及び他の認識源（例えば、ピッチ、エネルギ、会話速度、継続期間等）が含まれる。このような手法の一つにおいては、あるワード・ストリングは音響モデル、言語モデル等のある一つの結合としてモデル化される。個々のモデルからの認識スコアが一つの全体としてのストリングモデル認識スコアと合体される。複数のスコアをある一つのストリングモデル認識スコアへ合体させることは、例えば、個々の複数のストリングモデルからの個々の複数の認識スコアの重み付けされた総和（weighted sum）によって達成される。
【０００５】
従来的には、個々の複数の認識モデルの訓練は、個別ベースで遂行される。例えば、音響モデル訓練においては、訓練音声が、個別の複数のワードあるいはサブワードの訓練トークン（training tokens）にセグメント化される。従って、個々の複数の音響モデルが、より長い訓練発声から隔離した複数の訓練トークンにて訓練される。さらに、音響と他の複数のモデルとが個別に訓練され、認識の目的でこれら複数のモデルを結合するために使用される複数のパラメータが発見論的に選択され、他のモデルの訓練から分離され隔離される。
【０００６】
これら個別化された訓練の全ては、このような複数のモデルが連続音声認識の目的に対して「一体となって」使用できるという事実を「信じて」行なわれる。即ち、連続的な音声認識は、複数のモデルの「結合」（つまり、ストリングモデル）がいかにして良好に全体として未知のストリングと一致するかに立脚する。複数のモデルのある一つの結合が各ストリングモデルがその「集団（aggregate）」内の未知のストリングとどれぐらい良く一致するかに基づいて他の結合に優先して選択される。この集団比較（aggregate comparison）はその結合の「グローバルスコア（global score）」と呼ばれる。従って、ある連続音声認識器が誤認を行なったような場合でも、これは、グローバルあるいは「ストリングレベル（string level）」において行なわれた比較において誤認を起こしたものであり、複数のモデルあるいは他の情報源が訓練された個別化されたレベルにおいて誤認を起こしたものではないと信じられる。この訓練思想と認識思想との間のレベルの「食い違い（discrepacy）」のために、連続音声認識の性能は要求されるものよりも低いのが現状である。
【０００７】
【発明の概要】
本発明は、ワードストリング誤認率をグローバルストリングレベルにて低減、例えば、最小化するための複数の音声認識モデル（複数の音響モデル、言語モデル、及び他の認識源を含む）を訓練するために適当な技法を提供する。本発明はストリングレベルモデルのマッチングに対して差別的分析（discriminative analysis ）を適用する。
【０００８】
本発明の一例としての実現によると、訓練データベースからの単一の辞書的ストリング（lexical string）に基づいて、混同し易いストリングモデル（confusable string models）のセットが生成される。各ストリングモデルは複数の音響と言語モデルとの結合から構成される。訓練データベースからある訓練ストリング・トークンを与えられると、音響、言語及び結合モデルのパラメータが推定され、その辞書的ストリングモデルがそのセットの複数の混同し易いストリングモデル間で最良の認識スコアを示す確率を改善させる。このようにして、ストリング誤認率が低減される。
【０００９】
最小の誤認率を提供するパラメータ推定はある特別に設計された損失関数（loss function）の使用によって得られる。この損失関数は競合する複数のストリングモデルを考慮に入れることによって複数の音声認識ユニットモデル内のストリングレベルの異音変化（allophonic variations）を収容する。競合するストリングモデルのスコアリング差（scoring differential）と期待されるストリング誤認との間の関係を確立することによって、期待される誤差の最小化が、辞書的ストリングモデルと他の複数の混同し易いストリングモデルとの間に正しいスコアランク順位（crrect score rank order）を有する確率の最大化と直接に関係付けられる。
【００１０】
【発明の詳細な記述】
Ａ．一例としてのハードウエア実現
説明を簡潔にするために、本発明の一例としての実現は個々の機能ブロック（「プロセッサ（processors）」と呼ばれる機能ブロックを含む）から構成されるものとして説明される。これらブロックが表す機能は共有のあるいは専用のハードウエアの使用を通じて提供され、これらハードウエアには、これに限定されるものではないが、ソフトウエアを実行する能力のあるハードウエアが含まれる。例えば、図１、２、あるいは３に表わされるプロセッサの機能は、単一の共有プロセッサによって提供される。（用語「プロセッサ」の使用は、ソフトウエアを実行する能力をハードウエアを排他的に指すものと解釈されるべきではない。）
【００１１】
一例としての実現は、例えば、以下に述べられる動作を遂行するソフトウエアを格納するデジタル信号プロセッサ（digital signal processor、ＤＳＰ）ハードウエア、例えば、AT&T DSP16あるいはDSP32C読出し専用メモリ（ＲＯＭ）、及びＤＳＰの結果を格納するランダムアクセスメモリ（ＲＡＭ）から構成される。大規模集積（ＶＬＳＩ）ハードウエアの実装、及び汎用ＤＳＰ回路と組合わせられたカスタムＶＬＳＩ回路を提供することもできる。
【００１２】
Ｂ．一例としての実現
音声認識は、これによって未知の音声発声（unknown speech utterance、通常、デジタルＰＣＭ信号の形式である）で識別されるプロセスである。一般的には、音声認識は「未知」の発声の特徴を「既知」のワードあるいはワードストリングの特徴と比較することによって遂行される。
【００１３】
未知の発声を認識するために、音声認識器はそれを特徴化するために発声から特徴を抽出する。未知の発声の特徴は「テストパターン」と呼ばれる。認識器は次にデータベース内の一つあるいは複数の参照パターン(reference pattern)の複数の結合を未知の発声のテストパターンと比較する。参照パターンの個々の結合がテストパターンとどれくらい良く一致するかの相対的尺度を提供するためにスコアリング技法が使用される。未知の発声は一つまたはそれ以上の参照パターンのその未知の発声と最も良く一致する結合と関連する複数のワードであると認識される。
【００１４】
図１は本発明に従う一例としての解説のための音声認識システム１を示す。このシステムは、訓練音声データベース(training speech database)１０、特徴抽出器(feature extractor)２０、モードスイッチ１５、３０、スコアリング比較器(scoring comparator)４０、スコアプロセッサ(score processor)５０、従来のＨＭＭトレイナ６０、認識モデルパラメータデータベース(recognition model parameter database)７０、Ｎ−最良ストリングモデル発生器(N-best string model generator)、及び改善されたトレイナ（enhanced trainer）８０を含む。
【００１５】
システム１の訓練音声データベース１０は、デジタル形式の既知の音声信号のサンプルを含む。個々の音声信号は一つまたはそれ以上の発声されたワードのストリングに対応する。これらサンプルは、それぞれ、従来のトレイナ６０及び改善されたトレイナ８０の目的のために使用される。データベース１０からの既知の音声ストリングのサンプルがモードスイッチ１５を介してシステム１の他の要素に提供される。
【００１６】
モードスイッチ１５はシステム１の２つの動作モード：つまり、訓練（Ｔ）モード及び認識（Ｒ）モードを反映する。スイッチ１５がＴ位置（あるいは状態）にあるときは、データベース１０からの訓練音声は、訓練セクション９０によって訓練が遂行されるようなシステム１のバランスに対して提供される。スイッチ１５がＲ位置にあるときは、デジタル形式での未知の音声発声（信号）が認識セクション９５にって認識されるようなシステム１のバランスに対して提供される。
【００１７】
システム１の特徴抽出器２０はモードスイッチ１５に結合される。モードスイッチ１５の状態に依存して、抽出器２０は、訓練あるいは未知の音声信号ストリングを受信する。受信された音声信号に基づいて、抽出器２０は、受信された音声を特性化する一つまたはそれ以上の特徴ベクルトＸを生成する。特徴抽出器２０は、例えば、フィルタバンク特徴抽出器（filter bank feature extractor ）、線型予測符号化（linear predictive coding、ＬＰＣ）特徴抽出器、あるいは離散フーリエ変換（discrete Fourier transform、ＤＦＴ）特徴抽出器などのような任意の従来の特徴抽出器であり得る。
【００１８】
抽出器２０からの特徴ベクトル出力は第２のモードスイッチ３０に提供される。このモードスイッチ３０はモードスイッチ１５と協調動作する。つまり、両方のスイッチ１５、３０に提供されるモード信号に基づいて、同時に、同一状態、ＴあるいはＲに両方のスイッチがセットされる。モードスイッチ３０は、抽出器２０の出力をシステム１の認識セクションあるいは訓練セクションのいずれかに向ける。
【００１９】
システム１の認識セクション９５はスコアリング比較器４０及びスコアプロセッサ５０を含む。スコアリング比較器４０は従来のものである。比較器４０はストリングモデルを未知の音声信号ストリングと関連付け、一致の程度を示すスコアを決定する。これらストリングモデルは、例えば、複数の音響ストリングモデル及び複数の言語ストリングモデルの結合から構成される。複数の音響モデル及び言語モデルのための従来のスコアリング比較器を比較器４０のために使用することができる。これに関しては、例えば、ここにあたかも完全に明らかにされているものとして参考のために編入される、Lee 及びRabiner による「接続されたワード認識のためのフレーム同期網探索アルゴリズム（A Frame Synchronous Network Search Algorithm for Connected Word Recognition ）」（IEEE Trans. Acoust., Speech ,Sig. Pro. Vol.37、No.4、1649-58(1989)）に掲載の論文を参照されたい。また、本出願人と譲受人を同一とし、ここにあたかも完全に明らかにされているものとして参考のために導入される「隠れマルコフモデル音声認識構成（Hidden Markov Model Speech Recognition Arrangement）」という名称の合衆国特許第4,783,804号を参照されたい。比較器４０によって生成されるスコアはスコアプロセッサ５０に提供される。スコアプロセッサ５０は提供されたスコアのどちらが大きいかを決定し、そのスコアに対するワードのストリングを識別する。プロセッサ５０によって、識別されたストリングモデルと関連する既知の音声として未知の音声信号ストリングが認識される。プロセッサ５０は出力のための識別された音声の表現をモデルパラメータデータベース７０（以下を参照）から得る。
【００２０】
システム１の訓練セクション９０は、従来のＨＭＭトレイナ６０、モデムパラメータデータベース７０、Ｎ−最良ストリングモデル発生器７５、及び改善されたトレイナ８０から構成される。例えば、合衆国特許第4,783,804号において説明されているようなＨＭＭトレイナ６０が音響ＨＭＭの従来の訓練を提供する。
【００２１】
モデルパラメータデータベース７０は、例えば、音響、言語等に基づいた、複数の認識モデルのｍ個のセットの収集Λ＝｛Λ₁ 、．．．、Λ_m ｝を格納する。本発明のこの一例としての実現においては、Λ＝｛Λ_A 、Λ_L 、Λ_C ｝であり、ここで、Λ_A はセットの複数の音響モデル、Λ_L はセットの複数の言語モデル、そしてΛ_C は結合モデルを表す。（Λ_C はグローバル・ストリングモデルを形成する目的でΛ_A 及びΛ_L を結合するときに使用されるパラメータのセットから構成される。）
【００２２】
トレイナ６０の出力は、従来のように訓練された１またはそれ以上のセット音響ＨＭＭ、Λ_A 、及びＨＭＭのセットが基礎となる訓練音声ストリングの特徴ベクトルＸから構成される。本発明のこの一例としての実施例の目的に対しては、従来のトレイナ６０によって提供される訓練の程度は特に重要ではない。事実、従来のトレイナ６０は（ささいなものであっても）ＨＭＭパラメータの初期セットΛ_I を提供すること以上は要求されず、これは、読出し専用メモリから検索される。
【００２３】
トレイナ６０の出力Λ_A（０）は、初期化パラメータとして発生器７５及び改善されたトレイナ８０によって使用されるためにモデルデータベース７０に記録される。改善されたトレイナ８０はデータベース７０からΛ及びＸを受信し、データベース７０にセットの「改善された」あるいは「更新された（updated）」ＨＨＭモデルΛ_U を帰す。最終的に、改善されたモデルΛ_U は、認識モードの際にスコアリング比較器４０に提供される。このスコアリング比較器４０は改善されたモデルΛ_U を使用し、低減されたストリング認識エラー率を提供する。
【００２４】
Ｎ−最良ストリングモデル発生器７５はモデルΛ及び訓練音声ストリングＸを受信し、辞書的ストリングモデルと高度に競合する複数のストリングモデルのセットを生成する。これら競合する複数のストリングモデルが改善されたトレイナ８０の弁別訓練（discriminative training）に対する基礎を提供する。
【００２５】
発生器７５は、Ｎ個の最良（あるいは最も混同しやすい）ストリングモデルをＮ個の最良（混同しやすい）ワードストリング、及びこれら個々のワードストリングに対する複数の対応するストリングモデルを決定することによって生成する。このＮ個の最良ワードストリングの決定は、ここにあたかも完全に説明されているかのように編入されるF.K.Soog及びE.F.Huang による論文『連続音声認識においてＮ個の最良文仮説を発見するための木格子に基づく高速探索（A tree-trellis based fast search for finding N-best sentence hypotheses in continuous speech recognition）』（Proc.ICASSP(1991)）において説明されるタイプの修正ビタビ復号器（modified Viterbi decorder）の使用を通じて行なわれる。この復号器は、部分パスマップ（partial path map）、つまり、個々の時間瞬間において任意の文法ノード（つまり、ワード接合点）へと導く全ての部分パスの全てのスコア（あるいはマトリクスのリストを準備する。文法ノード（grammar nodes）において、ユニグラムタイプ（uingram-type）の言語モデルスコアがこのパススコアに加えられる。例えば、任意のワードに対するユニグラム確率の対数がこのパスがその与えられたワードの終端状態に到達したときにパススコアに加えられる。修正ビタビ前向き探索（modified Viterbi forward search）の終端において、復号器はＡ^*トレースバック木探索手順（Ａ^* traceback tree-search procedure）を使用する。発生器７５は木探索を遂行することによって「スタック（stack）」（ランク順に並べられたデータリスト）の最上部の所に最上（最良）部分パスを成長させる。スタック上の全ての部分パスのランク順序はある部分パスが完結したとき達成することができる最良の可能なスコアによって決定される。前向きビタビ探索において準備されたこの部分パスマップは後ろ向き木探索（backward tree search）における任意の完結されてないパスに対するスコアを提供する。Ａ^* 手順の「最良優先（best first）」性質のために、最上のＮ個のストリングが順次に生成される。
【００２６】
Ａ^* アルゴリズムの認容性（admissibility）、あるいは最適パス（optimal path）の確かな発見は、スタックの深さが任意の探索エラーを回避するために十分に深いという条件の下、部分パスの完結されてない部分の上側境界がスタック復号器内で使用された場合に保証される。この木格子アルゴリズムにおいては、同一のＨＭＭ及び言語モデルがその探索内で両方向に沿って使用されたとき、パスの最も固い上側境界(tightest upper bound）あるいは実スコア（actual score）が得られ、結果として、アルゴリズムの探索効率が最大にされるが、このためにＮ個の項目のスタックが必要とされる。
【００２７】
発生器７５は入力音声ストリングＸをＮ個の最良ストリングリスト内の個々の与えられたワードストリングに対するモデルセットに対してビタビ整合することによって、Ｎ個の最良ストリングモデルをＮ個の最良ワードストリングに基づいて生成する。このステップは、同一ワードストリングに対応する多くのストリングモデルが存在するが、但しある与えられたモデルセットに対する入力発声に最も良く一致するストリングモデルは唯一であることを利用して発生器７５によって遂行される。
【００２８】
発生器７５は「未見（unseen）」の複数の競合ストリングをモデル化する能力も提供することに注意する。これは、Ｎ個の最良復号化を通じて生成される複数の競合ワードストリングが訓練教材によって制約されることがないという事実に起因する。ある訓練発声はある単一のワードストリングに対応するが、その発声と関連するＮ個の最良ストリングリストは動的であり、与えられた音声認識ユニットモデルセットに基づくストリング・レベル・モデル分解能を反映する。基本認識ユニットモデルは、従って、Ｎ個の最良ストリングモデル発生器によって生成されたワードストリングによって訓練される。これらワードストリングには、元の訓練教材内には存在しないが、そのストリングモデルを認識器が辞書的ストリングのストリングモデルと混乱しやすいと発見したワードストリングが含まれる。認識器が辞書的ワードストリングと混乱し易いと発見した未見のワードストリングが差別的にモデル化される。こうして、未見のストリングに対するモデル化の範囲（modeling coverage）が改善される。未見のストリングのモデル化は、このようなモデル化が訓練教材の乏しいストリングの範囲（string coverage）に起因して連続音声認識において遭遇する困難を低減するのに有効である。
【００２９】
上に説明の発生器７５の動作は以下のように要約することができる。Ｓ＝Ｗ₁、．．．、Ｗ_lsを任意のワードストリングであるものとする。音響モデル、言語及びその他の認識ソースを含むモデルセットΛが与えられた場合、最適状態シーケンスΘ_S は観察Ｘ及びワードストリングＳの関数である。このＮ最良ストリング仮説｛Ｓ₁ 、．．．Ｓ_N ｝は帰納的に数式［数１］のように定義することができる。
【数１】

ここで、log ｆ(Ｘ、Θｓ、Ｓ｜Λ）は音響モデルスコアリングを表し、logｆ(Ｓ｜Λ）は言語モデル及び他の認識ソーススコアリングを表す。最小ストリングエラー率訓練においては、これらのストリングレベル音響訓練トークンがストリングエラーを表すために特別に設計されたセットの差別的関数(discriminant function)内に組み込まれる。これは、以下に説明されるように、改善されたトレイナ８０の動作によって行なわれる。
【００３０】
図２は図１内に現われる改善されたトレイナ８０の一例としての実現を表す。改善されたトレイナ８０はデータベース７０によって提供される訓練音声に作用を及ぼす。改善されたトレイナ８０の動作の結果として、更新された認識モデルのセットΛ_Uをデータベース７０に返す。Λ_uは、その後、認識モードの際に認識器１のセットの参照パターンとして使用され、あるいは同一あるいは追加の訓練音声の処理の結果としてさらに更新されるべき新たなΛとして使用される。
【００３１】
説明の明快さ及び計算の単純化のために、更新プロセッサ８８は、一例として、一度に一つの訓練ストリングを処理するものとして説明される。下に説明されるのとは少し異なり、この実現は複数の訓練音声サンプルに基づいてΛを更新することも可能である（議論のセクションを参照）。
【００３２】
図２に示されるように、改善されたトレイナ８０は、ストリング誤認尺度プロセッサ（string misrecognition measure processor）８２、ストリングモデル損失関数プロセッサ（string model loss function processor）８４、及びストリングモデル更新プロセッサ８８を含む。
【００３３】
１．ストリング誤認尺度プロセッサ
ストリング誤認尺度プロセッサ８２は、データベース７０からモデルΛ、及び訓練音声ストリングサンプルＸを受信する。ストリングサンプルＸ、及びΛに基づいて、プロセッサ８２はストリング誤認尺度ｄ（Ｘ、Λ）を以下のように決定する。
【数２】

ここで、ｇ（Ｘ、Ｓ_lex 、Λ₁ 、．．．、Λ_m ）はＳ_lex を正しいストリングとして与えられたときの入力発声Ｘの認識器スコアであり、ｇ（Ｘ、Ｓ_k 、Λ₁ 、．．．、Λ_m ）は各競合ストリングに対する認識器ソースであり、ηは一例として２にセットされた正の数であり、そしてＮは発生器７５によって提供された競合ストリングの総数である。一例として、ｇは以下のような認識器スコアの重み付けされた総和の形式をとる。
【数３】

あるいは、この実装の場合は、
【数４】

ここで、α_A、α_Lは結合モデルΛｃのパラメータであり、
【数５】

であり、そしてＡ_Lはバイグラムに基づく言語モデルであり、ＳはＷ１、Ｗ２、・・・、Ｗｎに並べられた単語から構成される、順位付けされた単語ストリングであり、Ｐ（Ｗ）はユニグラム言語モデルからの確率であり、そしてＰ（Ｗ_τ｜Ｗ_τ _-1）はバイグラム言語モデルからの確率である。
【００３４】
ストリング誤認尺度プロセッサ８２は図２に示される後続のプロセッサによって使用されるためのスカラ値ｄを決定する。
【００３５】
２．ストリングモデル損失関数プロセッサ
ストリングモデル損失関数プロセッサ８４はプロセッサ８２から受信されたスカラ値ｄ（Ｘ、Λ）に基づいて平滑ストリング損失関数（smooth string loss function ）ｌを評価する。
【数６】

ここで、γは、一例として１にセットされ、ｄ₀ は、一例として零にセットされるバイアス項である。
プロセッサ８４はスカラｌを出力としてストリングモデル更新プロセッサ８８に提供する。
【００３６】
パラメータγ及びη（上述）はストリング損失関数ｌへ平滑にされた近似を提供することを助ける。ストリング損失関数（１１）の勾配はストリングモデル更新プロセッサ８８によってモデルパラメータΛを更新するために使用される。従って、この損失関数の期待されるストリング損失の最小化はストリングエラー確率の最小化に直接にリンクされる。バイアスパラメータｄ0 は訓練プロセスにおいて競合ストリングモデルの影響を改善するために使用される。
【００３７】
３．ストリングモデル更新プロセッサ
図３はストリングモデル更新プロセッサ８８の一例としてのブロック図を表す。図面に示されるように、プロセッサ８８は、Λ、Ｘ及びｌに基づいて、音響ＨＭＭパラメータμ、σ² 、ｃ、及びａ、言語モデルパラメータＰ（Ｗ_j）及びＰ（Ｗ_j｜Ｗ_j-1）、並びに結合モデルパラメータα_iを更新する。プロセッサ８８は更新されたパラメータΛ_u をパラメータデータベース７０に返す。Λ及びΛ_U の両者は、パラメータμ、σ² 、ｃ、ａ、Ｐ（Ｗ_j）、Ｐ（Ｗ_j｜Ｗ_j-1）、及びα_iを含むが、Λ及びΛ_U は、それぞれ、未更新及び更新された量を表す。
【００３８】
プロセッサ８８によるモデルパラメータ更新の詳細な説明を行なう前に、この動作に対する幾らかな背景について説明する。
【００３９】
ストリングエラー率と関連する期待される損失は、以下の式(12)によって与えられる。
【数７】

最小ストリングエラー率訓練においては、目標は訓練サンプルを通じて期待される損失(12)を最小にすることにある。期待される損失式(12)は更新されたパラメータによって以下のように最小にされる。
【数８】

【外１】

【００４０】
図２の一例としての実現においては、モデルΛは、更新プロセッサ８８によって式(13）に従って適応的に調節される。
【００４１】
ａ．音響モデルの更新
音響ＨＭＭの構造のために、それらのパラメータは幾つかの制約を満たさなければならない。ストリングモデル更新プロセッサ８８は、これらの全ての制約を満足させるために音響モデルパラメータ更新プロセスの一部として変換ＨＭＭパラメータを採用する。以下の変換がプロセッサ８８によって遂行される。
【００４２】
（１）分散の対数
【数９】

ここで、σ² _i,j,k,dは、ある特徴ベクトルのｉ番目の認識ユニットモデル、ｊ番目の状態、ｋ番目の混合成分（mixture component）及びｄ番目の次元の分散であり、ここで、個々の認識ユニットモデルは、例えば、あるワードあるいはサブワードを反映する。
【００４３】
（２）混合重みの変換された対数
【外２】

【数１０】

ここで、Ｌはｉ番目の認識ユニットモデル内のｊ番目の状態内の混合重みの総数である。
【００４４】
（３）遷移確率の変換された対数
元の遷移確率ａ_i,j は以下のように変換された遷移確率と関連付けられる。
【数１１】

ここで、Ｍはｉ番目の認識ユニットモデル内の状態の総数である。
【００４５】
この一例としての実現の重要な特徴は小さな分散(small variance)の取り扱いに関する。過去において提案された幾つかの修正訓練アルゴリズムにおいては、分散の調節は、誤って扱われた場合に悪影響を与えることがあるために回避されてきた。
【００４６】
【外３】

【００４７】
この感度における膨大な差異を補償するために、この実現は正の有限行列Ｕｎを採用する。この正の有限行列Ｕｎは、各状態に対する対角行列：
【数１２】

である。ここで、σ² （ｎ）は時刻ｎにおけるＨＭＭの分散である。
【００４８】
【外４】

【００４９】
更新プロセッサ８８によって提供される音響モテルパラメータの更新は以下の通りである。
【００５０】
（４）平均の更新
【数１３】

ここで、ｘ_nn（ｄ）は特徴ベクトルｘ_nnのｄ次元成分であり、θ_jは最適パスが最初に状態ｊに入る時間フレームに対応し、θ_j+1は最適パスが状態ｊ＋１に入る時間フレームに対応し、ｌ（Ｘ、Λ）は数式(11)に従って構成された損失関数であり、ε_n はステップサイズであり、そして、
【数１４】

である。ここで、Ｄは特徴ベクトルの次元である。平均の更新は図３のブロック８８−１によって提供される。
【００５１】
（５）分散の更新
【外５】

【数１５】

ここで、γ_i,j,kが式(19)に定義されるとおりである。従って、時刻ｎ＋１における分散は以下によって与えられる。
【数１６】

分散は１０^-6以下において切り取られ、これは、σ² _i,j,k,d（ｎ）＞１０^-6の制約を満足する。この分散の更新は図３のブロック８８−２によって提供される。
【００５２】
（６）混合重みの更新
パラメータ化された重みは以下に従って調節される。
【数１７】

従って、時刻ｎ＋１における混合重みは以下によって与えられる。
【数１８】

こうして、調節された混合重みは、訓練プロセスの際にΣ_k ｃ_i,j,k （ｎ）＝１及びｃ_i,j,k （ｎ）＞０の制約を満たす。混合重みの更新は図３のブロック８８−３によって提供される。
【００５３】
（７）状態遷移確率の更新：
左から右へのＨＭＭにおいては、ｌ番目のワードモデルのパラメータ化された遷移確率は以下によって調節される。
【数１９】

【外６】

【００５４】
従って、時刻（ｎ＋１）における遷移確率は以下によって与えられる。
【数２０】

【外７】

【００５５】
更新プロセッサ８８によって計算される更新式（２０−２３）は、ｉ番目の状態内でのｉ−番目の音響ＨＭＭ認識ユニットモデルの更新された観察確率密度関数に、
【数２１】

に従って関連付けられる。ここで、ｃ_i,j,k は混合重みであり、Ｎ（ｘ、μ_i,j,k,Ｖ_i,j,k ）はｉ番目の認識ユニットモデル、ｊ番目の状態、及び対角共分散行列Ｖ_i,j,k を持つｋ番目の混合に対するＤ次元正規ガウス分布である。
【００５６】
ｂ．言語モデルの更新
言語モデルに対しては、音響モデルと同様に、更新は変換領域内で起こる。例えば、以下の変換がプロセッサ８８によって使用される。
【００５７】
（１）ユニグラム言語モデルからの確率の変換
【数２２】

【外８】

【００５８】
（２）バイグラム言語モデルからの確率の変換
【数２３】

【外９】

【００５９】
プロセッサ８８によって遂行される言語モデルパラメータの更新は以下のように遂行される。
【外１０】

【００６０】
（３）ユニグラム言語モデル確率の更新：
【数２４】

このユニグラム確率の更新は図３のブロック８８−５によって提供される。
【００６１】
（４）バイグラム言語モデル確率の更新：
【数２５】

このバイグラム確率の更新は図３のブロック８８−６によって提供される。
【００６２】
ｃ．結合モデルパラメータの更新
【外１１】

【数２６】

この結合モデルパラメータの更新は、図３のブロック８８−７によって提供される。
【００６３】
μ（ｎ＋１）、σ²（ｎ＋１）、ｃ（ｎ＋１）、ａ（ｎ＋１）、Ｐ（Ｗ_i）（ｎ＋１）、Ｐ（Ｗ_i｜Ｗ_j）（ｎ＋１）、及びα_i（ｎ＋１）に対する値はブロック８８−１乃至８８−７によって出力される。図３に示されるように、Λ_u はμ、σ²、ｃ、ａＰ（Ｗ_i）、Ｐ（Ｗ_i｜Ｗ_j）、及びα_iから構成される。
【００６４】
上に提供されるパラメータ更新に対する式はモデルパラメータを改善（enchance）するデータベース７０からの単一音声訓練ストリングサンプルの使用に関する。ただし、改善されたトレイナ８０はモデルパラメータを改善させるために複数回反復することも可能である。例えば、改善されたトレイナ８０は、データベース７０内の全ての訓練ストリングサンプルについて動作することもできる。但し、必要であれば、トレイナ８０は、データベース７０全体を通じて数回のパスについてあるいは「数ラウンド（rounds）」動作される。トレイナ８０はサンプルの処理を複数の方法の任意の一つを使用して停止することができる。例えば、トレイナ８０はサンプルのデータベース７０を通じて固定されたランウド数が完了したとき停止する。但し、好ましくは、トレイナ８０は、現ラウンドの全ての音声訓練ストリングの処理によってストリングエラー率が増分的にどれだけ改善されたかの記録を保持する。
【００６５】
Ｃ．議論
本発明による実現の音響モデルは、特にＨＭＭと関連するが、他のタイプの音響モデルを採用する認識器、例えば、スコアリングの方法として時間軸正規化法（Ｄ ynamic Ｔ ime Ｗ arping ：ＤＴＷ法）を採用するテンプレートに基づく音響認識器にも適用する。本発明を他のタイプの認識器に適応させるためには、式(8)内に関数ｇによって表わされるスコアリングの方法がその認識器のタイプを反映するように修正されなければならない。この修正はまたｌの項内の認識ユニットモデルの更新プロセスにも影響を与える。
【００６６】
上に説明の実施例においては、訓練音声の各サンプルストリングが順番に使用される。ストリングモデル更新プロセッサ８８は識別器によって提供された情報を現サンプルストリングに取り入れ、上に提供された更新式に従ってモデルパラメータを更新する。プロセッサ８８の計算上の複雑さは、主に、幾つの競合する候補ストリングモデルがモデルパラメータの推定のために使用されるべきかを決定する誤認尺度（misrecognition measure）の形式に依存する。
上に説明のように、改善されたトレイナ８０の各反復は単一の音声訓練サンプルに関して動作する。但し、トレイナが複数のサンプルに基づいて更新されたセットのモデルパラメータΛ_U を提供するようにすることも可能である。これを行なうためには、ストリング誤認尺度プロセッサ８２はｄに対する値のベクトルを得るために音声ストリングサンプルのベクトルに関して動作し、ここで、各値はある与えられたストリングサンプルに対応する。ストリングモデル損失関数プロセッサ８４はｄ値のベクトルを受信し、ｌ値のベクトルを得るが、これらの各々は対応するｄの値に基づく。ストリングモデル更新プロセッサ８８は、上に説明のようにパラメータを更新するが、ここで、Λ（ｎ）からΛ（ｎ＋１）への各更新は（Ｎ個のストリングサンプルの）単一の音声ストリングサンプルによって提供される。但し、全てのストリングサンプルは、一つのサンプルを処理した結果としてのΛ（ｎ＋１）が後続のサンプルを処理するためのΛ（ｎ）として機能するように順番に使用される。複数のストリングサンプルに基づくΛの更新においては、（式１８、２０、２２、２４、３０、３１及び３２）の右側のΛの値は一定に留まることに注意する。全てのストリングサンプルが処理された後に初めてΛ_I がＡ_u としてデータベースに更新される。
【００６７】
式(11)内に与えられた損失関数は本発明に適用される関数の一つのタイプにすぎないことに注意する。他のタイプの関数、例えば、双曲線正接（hyperbolic tangent）に基づく関数も提供可能である。即ち、ｌ(ｄ(Ｘ,Λ))＝tanh(γd(Ｘ、Λ）である。
【００６８】
式(13)によって一般的に、そして式(１８、２０、２２、２４、３０、３１及び３２)によって具体的に記述されるプロセスは、ストリング損失関数の局所極小の識別を提供する。但し、損失関数のグローバル極小を見つけるための従来の技法、例えば、シミュレーテッド・アニーリング (simulated annealing)を適用することもできる。
【００６９】
上記の観点から、当業者においては、本発明は話者に依存する音声認識及び話者とは独立の音声認識の両方に適用することが明らかである。
【００７０】
加えて、本発明のこの一例としての実現は、音響及び言語モデルを線型的に結合するストリングモデルに関するが、当業者においては、本発明は、意味論モデル、音声学的モデル、シンタックスモデルなどの他の／追加の認識ソース及びモデルタイプ、並びに、非線型結合モデルを含む他の結合モデルを導入するストリングモデルにも適用できることが明白である。
【図面の簡単な説明】
【図１】本発明に従う一例としての音声認識システムを示す図である。
【図２】図１に現われる改善されたトレイナの一例としての実現を示す図である。
【図３】図２に現われるストリングモデル更新プロセッサの一つの実現を示す図である。
【符号の説明】
１０訓練音声
１５、３０モードスイッチ
２０抽出器
４０比較器
５０スコアプロセッサ
６０従来のＨＭＭトレイナ
７０認識モデルパラメータデータベース
７５発生器
８０改善されたトレイナ
９０訓練セクション
９５認識セクション

Claims

訓練音声発声信号と現在の音声認識モデルの複数のセットとに基づいて音声認識モデルデータベースを作成する方法であって、この方法が、
ａ．１つ以上の混同し易いストリングモデルのセットを生成する段階からなり、該混同し易いストリングモデルは、該現在の音声認識モデルの２つ以上のセットからの複数の現在の音声認識モデルからなり、該モデルの少なくとも２つのセットの各々は異なる音声特性に相当し、該混同し易いストリングモデルは、訓練音声発声を表すことを選択したときには、訓練音声発声の誤認識となるであろうモデルであり、該方法はさらに、
ｂ．訓練音声発声信号とその発声に対するストリングモデルとに基づいて第１のスコアリング信号を生成する段階からなり、該発声に対するストリングモデルは、該現在の音声認識モデルの２つ以上のセットからの複数の音声認識モデルからなり、該方法はさらに、
ｃ．１つ以上の第２のスコアリング信号を生成する段階からなり、該第２のスコアリング信号は、訓練音声発声信号と混同し易いストリングモデルとに基づいており、該方法はさらに、
ｄ．訓練音声発声を正確に認識する可能性と訓練音声発声を誤って認識する可能性との比較を反映した信号を生成する段階からなり、該訓練音声発声を正確に認識する該可能性は該第１のスコアリング信号に基づいており、該訓練音声発声を誤って認識する可能性は１つ以上の第２のスコアリング信号に基づいており、該方法は更に、
ｅ．該発声に対するストリングモデルが該混同し易いストリングモデルよりも高いランク順位を有する確率を増加するよう、該可能性の比較を反映する信号に基づいて、該現在の音声認識モデルの１つ以上を修正する段階からなることを特徴とする方法。
請求項１に記載の方法において、該１つ以上の混同し易いストリングモデルのセットを生成する段階は、Ｎ個の最良ワードストリングモデルを生成する段階からなることを特徴とする方法。
請求項１に記載の方法において、該第１のスコアリング信号は、訓練音声発声信号とその発声に対するストリングモデルとの間の類似の尺度を反映することを特徴とする方法。
請求項１に記載の方法において、該第２のスコアリング信号は、訓練音声発声信号と該混同し易いストリングモデルの１つとの間の類似の尺度を反映することを特徴とする方法。
請求項１に記載の方法において、該比較を反映した信号を生成する段階は、該第１のスコアリング信号と該１つ以上の第２のスコアリング信号の結合との差異を形成する段階からなることを特徴とする方法。
請求項１に記載の方法において、該現在の音声認識モデルの１つ以上を修正する段階は、
１．ある関数の勾配を反映する認識モデル修正信号を生成する段階からなり、該関数は、その発声に対するストリングモデルに基づく訓練音声発声の認識スコアと、１つ以上の混同し易いストリングモデルに基づく訓練音声発声の１つ以上の認識スコアとを反映するものであり、該段階はさらに、
２．修正信号に基づいて該１つ以上の現在の音声認識モデルを適合する段階からなることを特徴とする方法。
訓練音声発声信号と現在の音声認識モデルの複数のセットとに基づいて音声認識モデルデータベースを作成する音声認識トレイナであって、
ａ．１つ以上の混同し易いストリングモデルのセットを生成する手段からなり、該混同し易いストリングモデルは、該現在の音声認識モデルの２つ以上のセットからの複数の現在の音声認識モデルからなり、該モデルの少なくとも２つのセットの各々は異なる音声特性に相当し、該混同し易いストリングモデルは、訓練音声発声を表すことを選択したときには、訓練音声発声の誤認識となるであろうモデルであり、該トレイナはさらに、
ｂ．音声発声信号とその発声に対するストリングモデルとに基づいて第１のスコアリング信号を生成する手段からなり、該発声に対するストリングモデルは、該現在の音声認識モデルの２つ以上のセットからの複数の音声認識モデルからなり、該トレイナがさらに、
ｃ．１つ以上の第２のスコアリング信号を生成する手段からなり、該第２のスコアリング信号は、訓練音声発声信号と混同し易いストリングモデルとに基づいており、該トレイナはさらに、
ｄ．訓練音声発声を正確に認識する可能性と訓練音声発声を誤って認識する可能性との比較を反映した信号を生成する手段からなり、該訓練音声発声を正確に認識する可能性は該第１のスコアリング信号に基づいており、該訓練音声発声を誤って認識する可能性は１つ以上の第２のスコアリング信号に基づいており、該トレイナはさらに、
ｅ．該発声に対するストリングモデルが該混同し易いストリングモデルよりも高いランク順位を有する確率を増加するよう、該可能性の比較を反映する信号に応動して、該現在の音声認識モデルの１つ以上を修正する手段とからなることを特徴とするトレイナ。
請求項７に記載のトレイナにおいて、該比較を反映した信号を生成する手段は、該第１のスコアリング信号と該１つ以上の第２のスコアリング信号の結合との間の差異を形成する手段からなることを特徴とするトレイナ。
請求項７に記載のトレイナにおいて、該１つ以上の現在の音声認識モデルを修正する手段は、
１．ある関数の勾配を反映する認識モデル修正信号を生成する手段からなり、該関数は、その発声に対するストリングモデルに基づく訓練音声発声の認識スコアと、１つ以上の混同し易いストリングモデルに基づく訓練音声発声の１つ以上の認識スコアとを反映するものであり、該トレイナはさらに、
２．修正信号に基づいて１つ以上の該現在の音声認識モデルを適合する手段からなることを特徴とするトレイナ。
音声認識システムであって、
ａ．未知の音声信号を受信して、該未知の音声信号を特性化する特徴信号を生成する特徴抽出器と、
ｂ．音声認識モデルの複数のセットを格納するメモリからなり、正しいストリングモデルが他の複数の混同し易いストリングモデルよりも高いランク順位を有する確率を増加するよう、予め定められた音声認識モデルのパラメータを修正するプロセスに従って、１つ以上の該音声認識モデルが生成されるものであり、
該音声認識モデルの該少なくとも２つのセットの各々は異なる音声特性に相当し、該混同し易いストリングモデルは、訓練音声発声を表すことを選択したときには、訓練音声発声の誤認識となるであろうモデルであり、
該パラメータの修正は、訓練音声発声を正確に認識する可能性と訓練音声発声を誤って認識する可能性との比較に基づくものであり、該訓練音声発声を正確に認識する可能性は該第１のスコアリング信号に基づいており、該訓練音声発声を誤って認識する可能性は１つ以上の第２のスコアリング信号に基づいており、
該第１のスコアリング信号は、訓練音声発声信号とその発声に対するストリングモデルとに基づいており、該発声に対するストリングモデルは、該音声認識モデルの該少なくとも２つのセットからの複数の該音声認識モデルからなり、そして、
該第２のスコアリング信号の各々は、訓練音声発声信号と該混同しやすいストリングモデルの１つとに基づいて生成されており、該システムはさらに、
ｃ．機能抽出器とメモリとに結合されたスコアプロセッサからなり、該スコアプロセッサは、音声認識モデルの該複数のセットからの１つ以上の該音声認識モデルからなるストリングモデルを未知の音声信号の特徴と比較し、そして未知の音声信号の特徴と最も良く一致する複数のストリングモデルの１つに基づいて未知の音声信号を認識する、ことを特徴とする音声認識システム。