JP3685972B2

JP3685972B2 - 音声認識装置および音声モデル適応方法

Info

Publication number: JP3685972B2
Application number: JP2000014485A
Authority: JP
Inventors: パトリック・ヌグイェン; フィリップ・ジェラン; ジャン−クロード・ジュンカ
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1999-01-25
Filing date: 2000-01-24
Publication date: 2005-08-24
Anticipated expiration: 2020-01-24
Also published as: ES2174797T3; EP1022723A2; EP1022723B1; DE60000134T2; EP1022723A3; JP2000214883A; US6205426B1; DE60000134D1

Description

【０００１】
【発明の属する技術分野】
本発明は、一般に、音声認識技術に関し、とりわけ、個々のユーザの音声に対して音声認識装置の音声モデルを適応するための話者適応技術に関する。この適応技術は教師つきでない、すなわち、適応音声に関する優先（priori：プライオリ）情報をもたないこの適応システムに関する。認識装置に適用可能な話者不特定モデルを用いて、適応データが適応音声から抽出されるのである。
【０００２】
【従来の技術】
現在一般に普及している音声認識装置は、訓練話者から得られたデータを有する音声モデルを採用している。多くの場合、これらの話者から事前に収集された訓練用音声を用いて、訓練話者の母集団の見本を表現する話者不特定モデルが形成される。後に、実際に使用されるとき、音声認識装置は、新規話者の音声から抽出されたデータを話者不特定モデルと比較して、新規音声と音声モデルとの間で最もぴったり適応する単語を、認識装置が有するレキシコン（語彙集）の中から特定する。
【０００３】
ありがちなことではあるが、新規話者が元々の音声モデルの学習処理に携わることはない。つまり、話者不特定音声モデルを用いる限り、新規話者の音声は、正確に表現されない可能性がある。新規話者の音声パターンが訓練用母集団の音声パターンに十分似通ったものである場合、音声認識装置は、新規話者が与える音声をかなりうまく認識することができる。しかしながら、新規話者の地方訛りがひどかったり、訓練用母集団に含まれない特異の発音であったりすると、認識精度は相当に落ちる。
【０００４】
音声認識装置の信頼性を改善するために、多くの認識システムにおいて適応プロセスが採用されている。新規話者が適応用音声を与えると、この音声モデルは新規話者の音声をより正確に表現することができるように、この適応用音声を用いて音声モデルのパラメータを調整する。相当大量の適応用音声を必要とするシステムもある。適応システムが音声モデルを適応するのに必要な適応データを抽出できるように、新規話者はテキストの長い一節を読む必要が生じる。適応システムが予め認知しているテキストを新規話者に読ませることを、「教師あり」適応と呼ぶ。教師あり適応モデルを形成する方が、より容易である。なぜなら、この適応モデルは、新規話者が発声するだろう内容を予め知っていて、これと実際の新規話者の発声とどう違っているかをより簡単に判断することができるためである。
【０００５】
【発明が解決しようとする課題】
しかしながら、多くの場合、新規話者が長時間に亙る適応作業を前もって行うことは、不可能であるし、不便である。実際、ユーザが音声認識装置を利用する前に、ユーザに対して適応用の文章を読むように要求することはまったく不可能であることが多い。したがって、このような場合においては、「教師なし」適応が必須となる。
【０００６】
適応データの内容を予め承知していないので、教師なし適応を実行するにはより多くの困難が伴う。さらに、適応データの字訳（トランスクリプション：適応データに付随するラベル）も予め知ることができない。したがって、音声認識装置は、入力された発声の字訳を既存の音声モデルを用いて自ら見出す必要がある。認識装置に用いられるモデルの善し悪しによるが、字訳を見出す際にはたくさんのエラーが発生する。すると、これらのエラーが適応システムを介して伝播して、適応された音声モデルが新規話者の音声を正確に捉えられなくなることがある。適応されたモデルが不特定話者モデルよりも改善されないばかりか、むしろ悪くなることさえある。
【０００７】
本発明は、教師なし適応処理に特に適した話者適応システムを実現するものであり、これによれば、適応データは極めて少量で済む。本発明に係る認識装置に適応データが与えられると、この認識装置は（たった１つの最良解釈を形成するのではなく）最良Ｎ組の解釈を構成する。その後、これら最良Ｎ組の解釈は、荷重処理技術または非線形閾値技術を用いて、信頼性の高い情報を抽出するように処理される。次に、モデル適応システムが音声モデルをどのように処理するかを修正するために、この信頼性の高い情報を用いる。最尤線形回帰推定法
（Maximum Likelihood Linear Regression: ＭＬＬＲ）などの変換型適応技術
（Transformation-based Adaptation Techniques）または最大事後確率推定法
（Maximum A Posteriori: ＭＡＰ）などのベイズ技術（Bayesian Techniques）
を含む、さまざまな技術を用いて音声モデルを適応することができる。
【０００８】
最良Ｎ組の解釈から抽出される信頼性の高い情報を単一パスモデルの適応システムで利用することができるが、これらの技術を用いた処理を反復して実行することもできる。この反復処理は、最初の適応モデルを推定した後、上述のように適応データに対して後の認識サイクルを実行するとき、この適応モデルを利用する。適応サイクルは、何度も繰り返して実行することができる。その都度、最良Ｎ組の解釈が決定され、これらの解釈から信頼性の高い情報が抽出され、これを用いて、このモデル適応プロセスをどのように実行すべきか調整する。収束検知メカニズムが最良Ｎ組の解釈をモニタしていて、反復処理をいつ停止すべきかを決定する。
【０００９】
【課題を解決するための手段】
本発明に係る請求項１に記載された、ユーザが入力する音声に基づいて初期音声モデルを適応するための音声認識装置によれば、複数の音素に関する複数の音素モデルとして、音声を表現する音声モデルと、音声モデルを用いてユーザが入力する音声を処理して、正解である可能性を示す確率度数を有する複数の最良Ｎ組の認識解釈を形成する音声認識部と、最良Ｎ組の認識解釈を分析して、各認識解釈に重みを与え、各認識解釈に対して重み付けされた確率度数を有する一連の信頼性の高い認識候補を、最良Ｎ組の認識解釈から抽出する高信頼性情報抽出部と、一連の信頼性の高い認識候補を用いて、音声モデルを適応する適応部と、を備える。
【００１０】
本発明に係る請求項２の音声認識装置によれば、各認識解釈の重みは、最良１番目および最良ｎ番目（１≦ｎ≦Ｎ）の確率度数の差に応じて与えられる。
【００１１】
本発明に係る請求項３の音声認識装置によれば、各認識解釈の重みは、非線形閾値関数を用いて与えられる。
【００１６】
本発明に係る請求項４の音声認識装置は、ユーザが入力した音声を記憶するバッファと、バッファに記憶された入力音声を用いて、適応化された音声モデルを反復して適応することを制御する反復部とをさらに備える。
【００１７】
本発明に係る請求項５の音声認識装置によれば、さらに、最良Ｎ組の認識解釈をモニタして、反復処理を終了させる時期を決定する収束検出部を備える。
【００１８】
本発明に係る請求項６の音声認識装置によれば、各認識解釈の重みは、最良１番目および最良ｎ番目（１≦ｎ≦Ｎ）の確率度数の差の対数値に応じて与えられる。
【００１９】
本発明に係る請求項７の音声認識装置によれば、各認識解釈が一連の音素として表現されるとき、高信頼性情報抽出部は、対応する位置における各認識解釈の各音素の出現回数を計測し、所定の閾値より小さい出現回数の音素を含む認識解釈に対して０の重みを与え、所定の閾値以上の出現回数の音素を含む認識解釈に対して１の重みを与える。
【００２３】
本発明に係る請求項８の音声認識装置によれば、入力された音声が教師なし音声として供給される。
【００２４】
本発明に係る請求項９に記載された、ユーザが入力する音声に基づいて音声認識部の音声モデルを適応する方法によれば、ａ）音声認識部を用いて、音声モデルを用いてユーザが入力する音声を処理して、正解である可能性を示す確率度数を有する複数の最良Ｎ組の認識解釈を形成するステップと、ｂ）最良Ｎ組の認識解釈を分析して、各認識解釈に重みを与え、各認識解釈に対して重み付けされた確率度数を有する一連の信頼性の高い認識候補を、最良Ｎ組の認識解釈から抽出するステップと、ｃ）一連の信頼性の高い認識候補を用いて、音声モデルを適応するステップと、を備える。
【００２５】
本発明に係る請求項１０の方法によれば、各認識解釈の重みは、最良１番目および最良ｎ番目（１≦ｎ≦Ｎ）の確率度数の差に応じて与えられる。
【００２６】
本発明に係る請求項１１の方法によれば、各認識解釈の重みは、非線形閾値関数を用いて与えられる。
【００３１】
本発明に係る請求項１２の方法によれば、さらに、上記のａ）形成ステップ、ｂ）抽出ステップ、およびｃ）適応ステップを反復して実行するステップを備える。
【００３２】
本発明に係る請求項１３の方法によれば、音声モデルを適応するステップと、および入力された音声を認識部に提供するステップとを複数回反復して実行する。
【００３３】
本発明に係る請求項１４の方法によれば、最良Ｎ組の認識解釈が収束したかどうか検出しながら、上記のａ）形成ステップ、ｂ）抽出ステップ、およびｃ）適応ステップを反復して実行するステップを備える。
【００３４】
本発明に係る請求項１５の方法によれば、各認識解釈の重みは、最良１番目および最良ｎ番目（１≦ｎ≦Ｎ）の確率度数の差の対数値に応じて与えられる。
【００３５】
本発明に係る請求項１６の方法によれば、各認識解釈が一連の音素として表現されるとき、高信頼性情報抽出部は、対応する位置における各認識解釈の各音素の出現回数を計測し、所定の閾値より小さい出現回数の音素を含む認識解釈に対して０の重みを与え、所定の閾値以上の出現回数の音素を含む認識解釈に対して１の重みを与える。
【００３６】
本発明に係る請求項２８の方法によれば、教師なし音声である入力音声を提供するステップを有する。
【００３７】
本発明に係る請求項１７の方法によれば、教師なし音声である入力音声を提供するステップを有する。
【００３８】
【発明の実施の形態】
本発明の適応システムは、数多くの異なる音声認識装置と共に動作することができる。説明のために、モデルを用いた認識装置を図１の符号１０で示す。音声認識装置１０は、一連の音声モデル１２と協働して動作する。このモデルは、初期形態のモデル、つまり、一般には話者不特定モデルとして与えられる。新規話者が入力して与えた適応データに基づいて、適応システムはこれらのモデルを適応する。可聴音声をモデル化するさまざまな方法が数多くあるが、現在普及している多くの認識装置は、隠れマルコフモデルを用いて認識装置が有するレキシコン内にある音素（例えば、単語）を表現する。
【００３９】
認識技術が応用されるほとんどの場合、認識装置は、最良の解釈、つまり入力された発声に最もよく対応するモデルを選択するように設計されている。しかしながら、本出願における認識装置は、予定された複数の固定数の解釈、あるいは、予定の閾値より大きい認識点数を有する複数の解釈である最良Ｎ組の解釈１４を構成する。いずれの場合であっても、認識装置１０は、各音声モデルに対して点数を付ける。この点数は、所与のモデルが入力された発声に付与する確率度数（尤度）を意味する。従来式の音声認識装置では、この確率度数を用いて、たった１つの最良解釈を選別する。この適応システムにおいては、最良Ｎ組の確率を有する最良Ｎ組の解釈１４が選別される。
【００４０】
いくつか例において、入力として与えられた適応データにより、正しい解釈と共に、間違っていながら高い確率度数を有する複数の解釈が選別されることがある。発声の品質に左右されるが、正しい解釈が必ずしも最も高い確率度数を有するとは限らない。入力された発声の品質が粗悪であると、最良Ｎ組の解釈リストの中に、特に高い確率をもつ解釈がまったく含まれない場合もある。これは、認識装置が認識結果の信頼性の善し悪しを判断することに関して、いかに難しいことであるかを、物語るものである。
【００４１】
この適応システムは、最良Ｎ組の解釈を処理して、最良Ｎ組の解釈から信頼性の高い情報を抽出することにより、この問題に対処する。ダイアグラムを用いて図示する図１において、信頼性の高い情報を抽出する機能を有するモジュール１６が示されている。モジュール１６は、いくつかの実施形態をとり得る。第１に、目下の好適な実施形態において、荷重処理法が採用され、これにより、第１番目および第ｎ番目の解釈に対する確率度数の差に依存する重みが、最良Ｎ組の解釈の各々に与えられる。この好適な実施形態においては、最良Ｎ組の解釈の各々に重みを与えるために、次の方程式１で示される計算を実行する。
【００４２】
方程式１
【数１】

【００４３】
この方程式１において、Ｌ₁は第１番目の最良解釈（仮説）に関する対数表示の確率度数で、Ｌ_nは第ｎ番目の最良解釈（仮説）に関する対数表示の確率度数である。ψ_nは定義上１以下で、ηは帰納的なパラメータであって、デコードされたラベルに対する先の確信度を意味する。ηが無限大に近づくと、その最良仮説が正しいことが期待され、最良１組の仮説による適応処理が実行される。逆にηがゼロに近づくと、第Ｎ番目の仮説に対してゼロの重みが与えられる。所与の一連の解釈（仮説）のために選択されたηの値を帰納的に決定してもよい。この実施形態では、我々はηの値として、０．０１ないし０．１の範囲を用いた。しかしながら、ηは、デコードプロセス全体に対して与えられる確信度の測定値であるので、用いられる認識装置に適合するようにηを緻密に調整する必要がある。
【００４４】
方程式１で決まる指数関数表示の重みは、本質的に、信頼性の高い情報を抽出する。相対的に高い確率を有する解釈には高い重みが与えられ、低い確率を有する解釈は本質的に削除される。
【００４５】
荷重技術処理の代わりに、目下の好適な別の実施形態において、モジュール１６に含まれる非線形関数が利用される。所与の音素（例えば、単語）が所与のストリング（例えば、文章）に対する最良Ｎ組の解釈の中で出現する回数を、非線形関数によりカウントされる。そこで、閾値関数を用いて、信頼性の低い情報から信頼性の高い情報を選別することができる。
【００４６】
非線形関数の概念を説明する上で、次の一例を想定されたい。すなわち、音素が独立した文字に対応してモデル化されており、入力されたストリングまたは「文章」が、スペルしたときのように、一連の口述された文字で構成されている場合について考えて頂きたい。仮に、最初の３組の最良Ｎ組の解釈が、「ａ，ａ，ｃ」、「ｂ，ｂ，ｃ」、そして「ａ，ｂ，ｃ」であったとしよう。さらに、実際の入力観測の正しいラベルが「ａ，ｂ，ｃ」であったとする。校正閾値を２以上と設定することにより、このシステムは、これら一連の解釈の中から不正確な解釈を取り除くことができる。つまり、第２の解釈における第１番目の位置にある音素「ｂ」、および第１の解釈における第２番目の位置にある音素「ａ」は、出現頻度が十分でないので、信頼性が低いとして排除される。
【００４７】
これまで、計算を用いて得た重み係数、および非線形な情報抽出関数について説明してきたが、その他の信頼性の高い情報を抽出するプロセスを用いることもできる。この点に関して、方程式１で示す対数表示の確率計算は、文法またはレキシコンの中にある可能性のある音素すべてに亙って計算された確率の近似値であることを了解されたい。換言すると、方程式１の計算は、最良Ｎ組の解釈のことしか考慮しておらず、最良Ｎ組の解釈に対する累積された重みに基づいている。最良Ｎ組の解釈よりも多い、または少ない数の解釈に対して重みが与えられるように、その他のシステムを設計することができる。
【００４８】
符号１６において、信頼性の高い情報を抽出する方法に関係なく、モデル適応モジュール１８は、この信頼性の高い情報を用いて、選択的に音声モデル１２を適応することができる。適応処理の方法は、選択する適応技術に左右される。ＭＬＬＲなどの変換型適応技術を選択した場合は、平均ベクトルに変形するために、方程式２が用いられる。
【００４９】
方程式２
【数２】
μ^*＝Ｗμ＋ｂ
上記方程式において、μ^*およびμは各々、適応されたベクトル、および元々の平均ベクトルである。Ｗおよびｂは各々、方程式３のバウムの「補助関数」を最適化することにより最大確率を最適化して得られた変形行列、およびバイアスである。
【００５０】
方程式３
【数３】

ここでＬ（Ｏ，θ｜μ）は、特定の平均ベクトルμ、および状態遷移系列θが与えられたときの観測Ｏの確率を意味する。
【００５１】
この適応技術が、ＭＡＰなどのベイズ技術であれば、方程式４を用いて音声モデルを適応することができる。
【００５２】
方程式４
【数４】

上記方程式において、τは先のものに対する確信度測定値（我々の装置では、τ＝１５）で、検証された観測の事後確率である。
【００５３】
両方の適応処理を順次行うことができる。つまり、最初のものの次にその他のものを行う。本発明の技術において、このように処理することに問題はない。本発明に係るモデル適応処理技術によれば、モジュール１６により抽出される情報がどれほど信頼性が高くとも、信頼性の低い情報の効果を排除、または最小化して、最良Ｎ組の解釈から抽出された信頼性の高い情報に基づいてのみ適応処理を行うように、適応処理手法を変えることができる。
【００５４】
この適応システムは、図１に示すように、単一パスの実施形態で用いることができるが、入力された適応データに基づき、マルチパス適応処理を行うこともできる。マルチパスの１つの実施形態を図２に示す。図２の実施形態は、必ず上述のように形成される。つまり、認識装置１０は最良Ｎ組の解釈１４を構成し、その後、符号１６においてこの解釈を処理して信頼性の高い情報を抽出する。そして、符号１８において、この情報と上述のいずれかの技術を用いて、音声モデルを適応する。
【００５５】
マルチパスの実施形態において、入力された適応データを入力バッファ２０で記憶してもよい。これにより、連続的にモデルを適応するたびに、適応データを複数回処理することができる。こうして、入力された適応データは、まず、初期音声モデル１２を用いて認識装置１０により分析される。そして、上述のように音声モデルに修正が加えられる。そして、適応された音声モデルを用いて、入力バッファ２０からの適応用データが再度システム内に供給され、２番目の一連の音声モデルが形成される。このシステムが最終的な解釈に収束するまで何度も適応サイクルを反復させる反復装置が、この処理の途上に設けてある。収束検知モジュール２４は、今回のパスにおける最良Ｎ組の解釈と、これと対応する前回のパスにおける最良Ｎ組の解釈とを比較して、最良Ｎ組の解釈を評価査定する。収束検知モジュールが、最良Ｎ組の解釈、または各々の確率の変化が極めて小さいと判断したとき、反復処理が終了する。
【００５６】
マルチパスのアプローチの別の好適な実施形態においては、収束検知モジュールを単なるカウンタとして、予定された固定回数だけ反復させる。
【００５７】
単一パスまたはマルチパスの実施形態のいずれの場合であっても、本発明に係る適応システムは、最良Ｎ組の解釈から抽出された信頼性の高い情報に基づいて適応技術（または複数の適応技術）を選択的に適用する。本発明の動作をより十分に理解するために、例示的な応用例として次の具体例を検討されたい。スペルされた単語、または名前を入力するために、文字列が口述される。このようなシステムは、例えばカーナビゲーションシステムで用いることができる。この文脈において、この認識装置は、独立した文字列（単語として機能）を認識するように学習させる。すると、スペルされた名前の全体シーケンスが一連の文字列を表現することになる（口述された文章を構成する）。
【００５８】
ユーザは、入力文章：b-o-b（「Bob's Bar and Grill」と言うときにスペルするように）発声する。認識装置１０は、口述された単語「b-o-b」を有する文書を事前に処理して、認識された音素（この場合、口述されたアルファベット）に対応する特徴あるベクトルを抽出する。
【００５９】
この認識装置は最良Ｎ組の解釈を構成する。この実施例に関しては、認識装置が次の最良４個の解釈を構成し、認識装置の抽出する信頼性の高い情報であると考えられる確率が以下の通りであったとする。
b-o-b Ｌ₁＝１０
c-o-b Ｌ₂＝６
t-o-b Ｌ₃＝３
d-e-b Ｌ₄＝１
【００６０】
この実施例においては、荷重処理が次のような単純な比で処理されたとする。
【００６１】
【数５】

すると、ｗ₁＝０．５
ｗ₂＝０．３
ｗ₃＝０．１５
ｗ₄＝０．０５となる。
つまり、上述の例において、「ｂ」には０．５の重みが与えられ、「ｏ」には０．９５の重みが与えられる。（文字「ｏ」は最初の３つの解釈で出現しているので、その重みは合算した値＝０．５＋０．３＋０．１５＝０．９５となる。）重みが与えられると、従来式の手法でモデル適応処理される。しかし、モデル適応の結果は、従来式の手法で得られた結果とは異なる。というのも、モデル適応システムは、特定の解釈に対して重みを変えているためで、これにより（信頼性が高ければ）好意的に評価するし、（信頼性が低ければ）あまり強調しないことになる。
【００６２】
本発明について、目下の好適な実施形態を用いて説明してきたが、本発明の原理をさまざまな異なる認識装置に採用できることが理解されよう。さらに、ここではＭＡＰ法やＭＬＬＲ法を２通りの適応技術として説明してきたが、本発明はこれに限定されるものではない。むしろ、最良Ｎ組の解釈から信頼性の高い情報を抽出する原理は、広い範囲にあるさまざまな適応技術を用いることができる。その他の種類の適応技術を用いて、本発明の原理を実現するために、例えば所与のエンティティまたは変数に対して、適応技術の実行回数を決めるために、抽出された信頼性の高い情報を用いることができる。一般に、適応技術が実行される回数が多いほど、適応データに付与される強調度合いは大きくなる。つまり、信頼性の高い情報の抽出結果を用いて、適応データが何度適応されたか、どの程度の強調が適応データに付与されたかを知ることができる。
【図面の簡単な説明】
【図１】図１は、本発明に係る単一パスの実施形態の適応システムを示すブロック図である。
【図２】図２は、マルチパスシステムにおいてどのように反復処理されるかを示すブロック図である。
【符号の説明】
１０…認識装置、１２…音声モデル、１４…最良Ｎ組の解釈（仮説）、１６…信頼性の高い情報の抽出、１８…モデル適応、２０…入力バッファ、２２…収束検出部、２４…反復装置

Claims

ユーザが入力する音声に基づいて、初期音声モデルを適応するための音声認識装置であって、
複数の音素に関する複数の音素モデルとして、音声を表現する音声モデルと、
音声モデルを用いてユーザが入力する音声を処理して、正解である可能性を示す確率度数を有する複数の最良Ｎ組の認識解釈を形成する音声認識部と、
最良Ｎ組の認識解釈を分析して、各認識解釈に重みを与え、各認識解釈に対して重み付けされた確率度数を有する一連の信頼性の高い認識候補を、最良Ｎ組の認識解釈から抽出する高信頼性情報抽出部と、
一連の信頼性の高い認識候補を用いて、音声モデルを適応する適応部と、を備えたことを特徴とする音声認識装置。
各認識解釈の重みは、最良１番目および最良ｎ番目（１≦ｎ≦Ｎ）の確率度数の差に応じて与えられることを特徴とする請求項１の音声認識装置。
各認識解釈の重みは、非線形閾値関数を用いて与えられることを特徴とする請求項１の音声認識装置。
ユーザが入力した音声を記憶するバッファと、
バッファに記憶された入力音声を用いて、適応化された音声モデルを反復して適応することを制御する反復部とをさらに備えたことを特徴とする請求項１の音声認識装置。
さらに、最良Ｎ組の認識解釈をモニタして、反復処理を終了させる時期を決定する収束検出部を備えたことを特徴とする請求項４の音声認識装置。
各認識解釈の重みは、最良１番目および最良ｎ番目（１≦ｎ≦Ｎ）の確率度数の差の対数値に応じて与えられることを特徴とする請求項１の音声認識装置。
各認識解釈が一連の音素として表現されるとき、高信頼性情報抽出部は、対応する位置における各認識解釈の各音素の出現回数を計測し、所定の閾値より小さい出現回数の音素を含む認識解釈に対して０の重みを与え、所定の閾値以上の出現回数の音素を含む認識解釈に対して１の重みを与えることを特徴とする請求項１の音声認識装置。
入力された音声が教師なし音声として与えられることを特徴とする請求項１の音声認識装置。
ユーザが入力する音声に基づいて、音声認識部の音声モデルを適応する方法であって、
ａ）音声認識部を用いて、音声モデルを用いてユーザが入力する音声を処理して、正解である可能性を示す確率度数を有する複数の最良Ｎ組の認識解釈を形成するステップと、
ｂ）最良Ｎ組の認識解釈を分析して、各認識解釈に重みを与え、各認識解釈に対して重み付けされた確率度数を有する一連の信頼性の高い認識候補を、最良Ｎ組の認識解釈から抽出するステップと、
ｃ）一連の信頼性の高い認識候補を用いて、音声モデルを適応するステップと、を有することを特徴とする方法。
各認識解釈の重みは、最良１番目および最良ｎ番目（１≦ｎ≦Ｎ）の確率度数の差に応じて与えられることを特徴とする請求項９の方法。
各認識解釈の重みは、非線形閾値関数を用いて与えられることを特徴とする請求項９の方法。
さらに、上記のａ）形成ステップ、ｂ）抽出ステップ、およびｃ）適応ステップを反復して実行するステップを備えたことを特徴とする請求項９の方法。
さらに、音声モデルを適応するステップと、および入力された音声を認識部に提供するステップとを複数回反復して実行することを特徴とする請求項９の方法。
最良Ｎ組の認識解釈が収束したかどうか検出しながら、上記のａ）形成ステップ、ｂ）抽出ステップ、およびｃ）適応ステップを反復して実行するステップを備えたことを特徴とする請求項９の方法。
各認識解釈の重みは、最良１番目および最良ｎ番目（１≦ｎ≦Ｎ）の確率度数の差の対数値に応じて与えられることを特徴とする請求項９の方法。
各認識解釈が一連の音素として表現されるとき、高信頼性情報抽出部は、対応する位置における各認識解釈の各音素の出現回数を計測し、所定の閾値より小さい出現回数の音素を含む認識解釈に対して０の重みを与え、所定の閾値以上の出現回数の音素を含む認識解釈に対して１の重みを与えることを特徴とする請求項９の方法。
教師なし音声である入力音声を提供するステップを有することを特徴とする請求項９の方法。