JP3685972B2 - 音声認識装置および音声モデル適応方法 - Google Patents
音声認識装置および音声モデル適応方法 Download PDFInfo
- Publication number
- JP3685972B2 JP3685972B2 JP2000014485A JP2000014485A JP3685972B2 JP 3685972 B2 JP3685972 B2 JP 3685972B2 JP 2000014485 A JP2000014485 A JP 2000014485A JP 2000014485 A JP2000014485 A JP 2000014485A JP 3685972 B2 JP3685972 B2 JP 3685972B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- speech
- interpretation
- interpretations
- given
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000006978 adaptation Effects 0.000 title claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 7
- 238000012804 iterative process Methods 0.000 claims description 4
- 230000003252 repetitive effect Effects 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 description 28
- 238000012545 processing Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Description
【発明の属する技術分野】
本発明は、一般に、音声認識技術に関し、とりわけ、個々のユーザの音声に対して音声認識装置の音声モデルを適応するための話者適応技術に関する。この適応技術は教師つきでない、すなわち、適応音声に関する優先(priori:プライオリ)情報をもたないこの適応システムに関する。認識装置に適用可能な話者不特定モデルを用いて、適応データが適応音声から抽出されるのである。
【0002】
【従来の技術】
現在一般に普及している音声認識装置は、訓練話者から得られたデータを有する音声モデルを採用している。多くの場合、これらの話者から事前に収集された訓練用音声を用いて、訓練話者の母集団の見本を表現する話者不特定モデルが形成される。後に、実際に使用されるとき、音声認識装置は、新規話者の音声から抽出されたデータを話者不特定モデルと比較して、新規音声と音声モデルとの間で最もぴったり適応する単語を、認識装置が有するレキシコン(語彙集)の中から特定する。
【0003】
ありがちなことではあるが、新規話者が元々の音声モデルの学習処理に携わることはない。つまり、話者不特定音声モデルを用いる限り、新規話者の音声は、正確に表現されない可能性がある。新規話者の音声パターンが訓練用母集団の音声パターンに十分似通ったものである場合、音声認識装置は、新規話者が与える音声をかなりうまく認識することができる。しかしながら、新規話者の地方訛りがひどかったり、訓練用母集団に含まれない特異の発音であったりすると、認識精度は相当に落ちる。
【0004】
音声認識装置の信頼性を改善するために、多くの認識システムにおいて適応プロセスが採用されている。新規話者が適応用音声を与えると、この音声モデルは新規話者の音声をより正確に表現することができるように、この適応用音声を用いて音声モデルのパラメータを調整する。相当大量の適応用音声を必要とするシステムもある。適応システムが音声モデルを適応するのに必要な適応データを抽出できるように、新規話者はテキストの長い一節を読む必要が生じる。適応システムが予め認知しているテキストを新規話者に読ませることを、「教師あり」適応と呼ぶ。教師あり適応モデルを形成する方が、より容易である。なぜなら、この適応モデルは、新規話者が発声するだろう内容を予め知っていて、これと実際の新規話者の発声とどう違っているかをより簡単に判断することができるためである。
【0005】
【発明が解決しようとする課題】
しかしながら、多くの場合、新規話者が長時間に亙る適応作業を前もって行うことは、不可能であるし、不便である。実際、ユーザが音声認識装置を利用する前に、ユーザに対して適応用の文章を読むように要求することはまったく不可能であることが多い。したがって、このような場合においては、「教師なし」適応が必須となる。
【0006】
適応データの内容を予め承知していないので、教師なし適応を実行するにはより多くの困難が伴う。さらに、適応データの字訳(トランスクリプション:適応データに付随するラベル)も予め知ることができない。したがって、音声認識装置は、入力された発声の字訳を既存の音声モデルを用いて自ら見出す必要がある。認識装置に用いられるモデルの善し悪しによるが、字訳を見出す際にはたくさんのエラーが発生する。すると、これらのエラーが適応システムを介して伝播して、適応された音声モデルが新規話者の音声を正確に捉えられなくなることがある。適応されたモデルが不特定話者モデルよりも改善されないばかりか、むしろ悪くなることさえある。
【0007】
本発明は、教師なし適応処理に特に適した話者適応システムを実現するものであり、これによれば、適応データは極めて少量で済む。本発明に係る認識装置に適応データが与えられると、この認識装置は(たった1つの最良解釈を形成するのではなく)最良N組の解釈を構成する。その後、これら最良N組の解釈は、荷重処理技術または非線形閾値技術を用いて、信頼性の高い情報を抽出するように処理される。次に、モデル適応システムが音声モデルをどのように処理するかを修正するために、この信頼性の高い情報を用いる。最尤線形回帰推定法
(Maximum Likelihood Linear Regression: MLLR)などの変換型適応技術
(Transformation-based Adaptation Techniques)または最大事後確率推定法
(Maximum A Posteriori: MAP)などのベイズ技術(Bayesian Techniques)
を含む、さまざまな技術を用いて音声モデルを適応することができる。
【0008】
最良N組の解釈から抽出される信頼性の高い情報を単一パスモデルの適応システムで利用することができるが、これらの技術を用いた処理を反復して実行することもできる。この反復処理は、最初の適応モデルを推定した後、上述のように適応データに対して後の認識サイクルを実行するとき、この適応モデルを利用する。適応サイクルは、何度も繰り返して実行することができる。その都度、最良N組の解釈が決定され、これらの解釈から信頼性の高い情報が抽出され、これを用いて、このモデル適応プロセスをどのように実行すべきか調整する。収束検知メカニズムが最良N組の解釈をモニタしていて、反復処理をいつ停止すべきかを決定する。
【0009】
【課題を解決するための手段】
本発明に係る請求項1に記載された、ユーザが入力する音声に基づいて初期音声モデルを適応するための音声認識装置によれば、複数の音素に関する複数の音素モデルとして、音声を表現する音声モデルと、音声モデルを用いてユーザが入力する音声を処理して、正解である可能性を示す確率度数を有する複数の最良N組の認識解釈を形成する音声認識部と、最良N組の認識解釈を分析して、各認識解釈に重みを与え、各認識解釈に対して重み付けされた確率度数を有する一連の信頼性の高い認識候補を、最良N組の認識解釈から抽出する高信頼性情報抽出部と、一連の信頼性の高い認識候補を用いて、音声モデルを適応する適応部と、を備える。
【0010】
本発明に係る請求項2の音声認識装置によれば、各認識解釈の重みは、最良1番目および最良n番目(1≦n≦N)の確率度数の差に応じて与えられる。
【0011】
本発明に係る請求項3の音声認識装置によれば、各認識解釈の重みは、非線形閾値関数を用いて与えられる。
【0016】
本発明に係る請求項4の音声認識装置は、ユーザが入力した音声を記憶するバッファと、バッファに記憶された入力音声を用いて、適応化された音声モデルを反復して適応することを制御する反復部とをさらに備える。
【0017】
本発明に係る請求項5の音声認識装置によれば、さらに、最良N組の認識解釈をモニタして、反復処理を終了させる時期を決定する収束検出部を備える。
【0018】
本発明に係る請求項6の音声認識装置によれば、各認識解釈の重みは、最良1番目および最良n番目(1≦n≦N)の確率度数の差の対数値に応じて与えられる。
【0019】
本発明に係る請求項7の音声認識装置によれば、各認識解釈が一連の音素として表現されるとき、高信頼性情報抽出部は、対応する位置における各認識解釈の各音素の出現回数を計測し、所定の閾値より小さい出現回数の音素を含む認識解釈に対して0の重みを与え、所定の閾値以上の出現回数の音素を含む認識解釈に対して1の重みを与える。
【0023】
本発明に係る請求項8の音声認識装置によれば、入力された音声が教師なし音声として供給される。
【0024】
本発明に係る請求項9に記載された、ユーザが入力する音声に基づいて音声認識部の音声モデルを適応する方法によれば、a)音声認識部を用いて、音声モデルを用いてユーザが入力する音声を処理して、正解である可能性を示す確率度数を有する複数の最良N組の認識解釈を形成するステップと、b)最良N組の認識解釈を分析して、各認識解釈に重みを与え、各認識解釈に対して重み付けされた確率度数を有する一連の信頼性の高い認識候補を、最良N組の認識解釈から抽出するステップと、c)一連の信頼性の高い認識候補を用いて、音声モデルを適応するステップと、を備える。
【0025】
本発明に係る請求項10の方法によれば、各認識解釈の重みは、最良1番目および最良n番目(1≦n≦N)の確率度数の差に応じて与えられる。
【0026】
本発明に係る請求項11の方法によれば、各認識解釈の重みは、非線形閾値関数を用いて与えられる。
【0031】
本発明に係る請求項12の方法によれば、さらに、上記のa)形成ステップ、b)抽出ステップ、およびc)適応ステップを反復して実行するステップを備える。
【0032】
本発明に係る請求項13の方法によれば、音声モデルを適応するステップと、および入力された音声を認識部に提供するステップとを複数回反復して実行する。
【0033】
本発明に係る請求項14の方法によれば、最良N組の認識解釈が収束したかどうか検出しながら、上記のa)形成ステップ、b)抽出ステップ、およびc)適応ステップを反復して実行するステップを備える。
【0034】
本発明に係る請求項15の方法によれば、各認識解釈の重みは、最良1番目および最良n番目(1≦n≦N)の確率度数の差の対数値に応じて与えられる。
【0035】
本発明に係る請求項16の方法によれば、各認識解釈が一連の音素として表現されるとき、高信頼性情報抽出部は、対応する位置における各認識解釈の各音素の出現回数を計測し、所定の閾値より小さい出現回数の音素を含む認識解釈に対して0の重みを与え、所定の閾値以上の出現回数の音素を含む認識解釈に対して1の重みを与える。
【0036】
本発明に係る請求項28の方法によれば、教師なし音声である入力音声を提供するステップを有する。
【0037】
本発明に係る請求項17の方法によれば、教師なし音声である入力音声を提供するステップを有する。
【0038】
【発明の実施の形態】
本発明の適応システムは、数多くの異なる音声認識装置と共に動作することができる。説明のために、モデルを用いた認識装置を図1の符号10で示す。音声認識装置10は、一連の音声モデル12と協働して動作する。このモデルは、初期形態のモデル、つまり、一般には話者不特定モデルとして与えられる。新規話者が入力して与えた適応データに基づいて、適応システムはこれらのモデルを適応する。可聴音声をモデル化するさまざまな方法が数多くあるが、現在普及している多くの認識装置は、隠れマルコフモデルを用いて認識装置が有するレキシコン内にある音素(例えば、単語)を表現する。
【0039】
認識技術が応用されるほとんどの場合、認識装置は、最良の解釈、つまり入力された発声に最もよく対応するモデルを選択するように設計されている。しかしながら、本出願における認識装置は、予定された複数の固定数の解釈、あるいは、予定の閾値より大きい認識点数を有する複数の解釈である最良N組の解釈14を構成する。いずれの場合であっても、認識装置10は、各音声モデルに対して点数を付ける。この点数は、所与のモデルが入力された発声に付与する確率度数(尤度)を意味する。従来式の音声認識装置では、この確率度数を用いて、たった1つの最良解釈を選別する。この適応システムにおいては、最良N組の確率を有する最良N組の解釈14が選別される。
【0040】
いくつか例において、入力として与えられた適応データにより、正しい解釈と共に、間違っていながら高い確率度数を有する複数の解釈が選別されることがある。発声の品質に左右されるが、正しい解釈が必ずしも最も高い確率度数を有するとは限らない。入力された発声の品質が粗悪であると、最良N組の解釈リストの中に、特に高い確率をもつ解釈がまったく含まれない場合もある。これは、認識装置が認識結果の信頼性の善し悪しを判断することに関して、いかに難しいことであるかを、物語るものである。
【0041】
この適応システムは、最良N組の解釈を処理して、最良N組の解釈から信頼性の高い情報を抽出することにより、この問題に対処する。ダイアグラムを用いて図示する図1において、信頼性の高い情報を抽出する機能を有するモジュール16が示されている。モジュール16は、いくつかの実施形態をとり得る。第1に、目下の好適な実施形態において、荷重処理法が採用され、これにより、第1番目および第n番目の解釈に対する確率度数の差に依存する重みが、最良N組の解釈の各々に与えられる。この好適な実施形態においては、最良N組の解釈の各々に重みを与えるために、次の方程式1で示される計算を実行する。
【0042】
方程式1
【数1】
【0043】
この方程式1において、L1は第1番目の最良解釈(仮説)に関する対数表示の確率度数で、Lnは第n番目の最良解釈(仮説)に関する対数表示の確率度数である。ψnは定義上1以下で、ηは帰納的なパラメータであって、デコードされたラベルに対する先の確信度を意味する。ηが無限大に近づくと、その最良仮説が正しいことが期待され、最良1組の仮説による適応処理が実行される。逆にηがゼロに近づくと、第N番目の仮説に対してゼロの重みが与えられる。所与の一連の解釈(仮説)のために選択されたηの値を帰納的に決定してもよい。この実施形態では、我々はηの値として、0.01ないし0.1の範囲を用いた。しかしながら、ηは、デコードプロセス全体に対して与えられる確信度の測定値であるので、用いられる認識装置に適合するようにηを緻密に調整する必要がある。
【0044】
方程式1で決まる指数関数表示の重みは、本質的に、信頼性の高い情報を抽出する。相対的に高い確率を有する解釈には高い重みが与えられ、低い確率を有する解釈は本質的に削除される。
【0045】
荷重技術処理の代わりに、目下の好適な別の実施形態において、モジュール16に含まれる非線形関数が利用される。所与の音素(例えば、単語)が所与のストリング(例えば、文章)に対する最良N組の解釈の中で出現する回数を、非線形関数によりカウントされる。そこで、閾値関数を用いて、信頼性の低い情報から信頼性の高い情報を選別することができる。
【0046】
非線形関数の概念を説明する上で、次の一例を想定されたい。すなわち、音素が独立した文字に対応してモデル化されており、入力されたストリングまたは「文章」が、スペルしたときのように、一連の口述された文字で構成されている場合について考えて頂きたい。仮に、最初の3組の最良N組の解釈が、「a,a,c」、「b,b,c」、そして「a,b,c」であったとしよう。さらに、実際の入力観測の正しいラベルが「a,b,c」であったとする。校正閾値を2以上と設定することにより、このシステムは、これら一連の解釈の中から不正確な解釈を取り除くことができる。つまり、第2の解釈における第1番目の位置にある音素「b」、および第1の解釈における第2番目の位置にある音素「a」は、出現頻度が十分でないので、信頼性が低いとして排除される。
【0047】
これまで、計算を用いて得た重み係数、および非線形な情報抽出関数について説明してきたが、その他の信頼性の高い情報を抽出するプロセスを用いることもできる。この点に関して、方程式1で示す対数表示の確率計算は、文法またはレキシコンの中にある可能性のある音素すべてに亙って計算された確率の近似値であることを了解されたい。換言すると、方程式1の計算は、最良N組の解釈のことしか考慮しておらず、最良N組の解釈に対する累積された重みに基づいている。最良N組の解釈よりも多い、または少ない数の解釈に対して重みが与えられるように、その他のシステムを設計することができる。
【0048】
符号16において、信頼性の高い情報を抽出する方法に関係なく、モデル適応モジュール18は、この信頼性の高い情報を用いて、選択的に音声モデル12を適応することができる。適応処理の方法は、選択する適応技術に左右される。MLLRなどの変換型適応技術を選択した場合は、平均ベクトルに変形するために、方程式2が用いられる。
【0049】
方程式2
【数2】
μ*=Wμ+b
上記方程式において、μ*およびμは各々、適応されたベクトル、および元々の平均ベクトルである。Wおよびbは各々、方程式3のバウムの「補助関数」を最適化することにより最大確率を最適化して得られた変形行列、およびバイアスである。
【0050】
方程式3
【数3】
ここでL(O,θ|μ)は、特定の平均ベクトルμ、および状態遷移系列θが与えられたときの観測Oの確率を意味する。
【0051】
この適応技術が、MAPなどのベイズ技術であれば、方程式4を用いて音声モデルを適応することができる。
【0052】
方程式4
【数4】
上記方程式において、τは先のものに対する確信度測定値(我々の装置では、τ=15)で、検証された観測の事後確率である。
【0053】
両方の適応処理を順次行うことができる。つまり、最初のものの次にその他のものを行う。本発明の技術において、このように処理することに問題はない。本発明に係るモデル適応処理技術によれば、モジュール16により抽出される情報がどれほど信頼性が高くとも、信頼性の低い情報の効果を排除、または最小化して、最良N組の解釈から抽出された信頼性の高い情報に基づいてのみ適応処理を行うように、適応処理手法を変えることができる。
【0054】
この適応システムは、図1に示すように、単一パスの実施形態で用いることができるが、入力された適応データに基づき、マルチパス適応処理を行うこともできる。マルチパスの1つの実施形態を図2に示す。図2の実施形態は、必ず上述のように形成される。つまり、認識装置10は最良N組の解釈14を構成し、その後、符号16においてこの解釈を処理して信頼性の高い情報を抽出する。そして、符号18において、この情報と上述のいずれかの技術を用いて、音声モデルを適応する。
【0055】
マルチパスの実施形態において、入力された適応データを入力バッファ20で記憶してもよい。これにより、連続的にモデルを適応するたびに、適応データを複数回処理することができる。こうして、入力された適応データは、まず、初期音声モデル12を用いて認識装置10により分析される。そして、上述のように音声モデルに修正が加えられる。そして、適応された音声モデルを用いて、入力バッファ20からの適応用データが再度システム内に供給され、2番目の一連の音声モデルが形成される。このシステムが最終的な解釈に収束するまで何度も適応サイクルを反復させる反復装置が、この処理の途上に設けてある。収束検知モジュール24は、今回のパスにおける最良N組の解釈と、これと対応する前回のパスにおける最良N組の解釈とを比較して、最良N組の解釈を評価査定する。収束検知モジュールが、最良N組の解釈、または各々の確率の変化が極めて小さいと判断したとき、反復処理が終了する。
【0056】
マルチパスのアプローチの別の好適な実施形態においては、収束検知モジュールを単なるカウンタとして、予定された固定回数だけ反復させる。
【0057】
単一パスまたはマルチパスの実施形態のいずれの場合であっても、本発明に係る適応システムは、最良N組の解釈から抽出された信頼性の高い情報に基づいて適応技術(または複数の適応技術)を選択的に適用する。本発明の動作をより十分に理解するために、例示的な応用例として次の具体例を検討されたい。スペルされた単語、または名前を入力するために、文字列が口述される。このようなシステムは、例えばカーナビゲーションシステムで用いることができる。この文脈において、この認識装置は、独立した文字列(単語として機能)を認識するように学習させる。すると、スペルされた名前の全体シーケンスが一連の文字列を表現することになる(口述された文章を構成する)。
【0058】
ユーザは、入力文章:b-o-b(「Bob's Bar and Grill」と言うときにスペルするように)発声する。認識装置10は、口述された単語「b-o-b」を有する文書を事前に処理して、認識された音素(この場合、口述されたアルファベット)に対応する特徴あるベクトルを抽出する。
【0059】
この認識装置は最良N組の解釈を構成する。この実施例に関しては、認識装置が次の最良4個の解釈を構成し、認識装置の抽出する信頼性の高い情報であると考えられる確率が以下の通りであったとする。
b-o-b L1=10
c-o-b L2=6
t-o-b L3=3
d-e-b L4=1
【0060】
この実施例においては、荷重処理が次のような単純な比で処理されたとする。
【0061】
【数5】
すると、w1=0.5
w2=0.3
w3=0.15
w4=0.05 となる。
つまり、上述の例において、「b」には0.5の重みが与えられ、「o」には0.95の重みが与えられる。(文字「o」は最初の3つの解釈で出現しているので、その重みは合算した値=0.5+0.3+0.15=0.95となる。)重みが与えられると、従来式の手法でモデル適応処理される。しかし、モデル適応の結果は、従来式の手法で得られた結果とは異なる。というのも、モデル適応システムは、特定の解釈に対して重みを変えているためで、これにより(信頼性が高ければ)好意的に評価するし、(信頼性が低ければ)あまり強調しないことになる。
【0062】
本発明について、目下の好適な実施形態を用いて説明してきたが、本発明の原理をさまざまな異なる認識装置に採用できることが理解されよう。さらに、ここではMAP法やMLLR法を2通りの適応技術として説明してきたが、本発明はこれに限定されるものではない。むしろ、最良N組の解釈から信頼性の高い情報を抽出する原理は、広い範囲にあるさまざまな適応技術を用いることができる。その他の種類の適応技術を用いて、本発明の原理を実現するために、例えば所与のエンティティまたは変数に対して、適応技術の実行回数を決めるために、抽出された信頼性の高い情報を用いることができる。一般に、適応技術が実行される回数が多いほど、適応データに付与される強調度合いは大きくなる。つまり、信頼性の高い情報の抽出結果を用いて、適応データが何度適応されたか、どの程度の強調が適応データに付与されたかを知ることができる。
【図面の簡単な説明】
【図1】 図1は、本発明に係る単一パスの実施形態の適応システムを示すブロック図である。
【図2】 図2は、マルチパスシステムにおいてどのように反復処理されるかを示すブロック図である。
【符号の説明】
10…認識装置、12…音声モデル、14…最良N組の解釈(仮説)、16…信頼性の高い情報の抽出、18…モデル適応、20…入力バッファ、22…収束検出部、24…反復装置
Claims (17)
- ユーザが入力する音声に基づいて、初期音声モデルを適応するための音声認識装置であって、
複数の音素に関する複数の音素モデルとして、音声を表現する音声モデルと、
音声モデルを用いてユーザが入力する音声を処理して、正解である可能性を示す確率度数を有する複数の最良N組の認識解釈を形成する音声認識部と、
最良N組の認識解釈を分析して、各認識解釈に重みを与え、各認識解釈に対して重み付けされた確率度数を有する一連の信頼性の高い認識候補を、最良N組の認識解釈から抽出する高信頼性情報抽出部と、
一連の信頼性の高い認識候補を用いて、音声モデルを適応する適応部と、を備えたことを特徴とする音声認識装置。 - 各認識解釈の重みは、最良1番目および最良n番目(1≦n≦N)の確率度数の差に応じて与えられることを特徴とする請求項1の音声認識装置。
- 各認識解釈の重みは、非線形閾値関数を用いて与えられることを特徴とする請求項1の音声認識装置。
- ユーザが入力した音声を記憶するバッファと、
バッファに記憶された入力音声を用いて、適応化された音声モデルを反復して適応することを制御する反復部とをさらに備えたことを特徴とする請求項1の音声認識装置。 - さらに、最良N組の認識解釈をモニタして、反復処理を終了させる時期を決定する収束検出部を備えたことを特徴とする請求項4の音声認識装置。
- 各認識解釈の重みは、最良1番目および最良n番目(1≦n≦N)の確率度数の差の対数値に応じて与えられることを特徴とする請求項1の音声認識装置。
- 各認識解釈が一連の音素として表現されるとき、高信頼性情報抽出部は、対応する位置における各認識解釈の各音素の出現回数を計測し、所定の閾値より小さい出現回数の音素を含む認識解釈に対して0の重みを与え、所定の閾値以上の出現回数の音素を含む認識解釈に対して1の重みを与えることを特徴とする請求項1の音声認識装置。
- 入力された音声が教師なし音声として与えられることを特徴とする請求項1の音声認識装置。
- ユーザが入力する音声に基づいて、音声認識部の音声モデルを適応する方法であって、
a) 音声認識部を用いて、音声モデルを用いてユーザが入力する音声を処理して、正解である可能性を示す確率度数を有する複数の最良N組の認識解釈を形成するステップと、
b) 最良N組の認識解釈を分析して、各認識解釈に重みを与え、各認識解釈に対して重み付けされた確率度数を有する一連の信頼性の高い認識候補を、最良N組の認識解釈から抽出するステップと、
c) 一連の信頼性の高い認識候補を用いて、音声モデルを適応するステップと、を有することを特徴とする方法。 - 各認識解釈の重みは、最良1番目および最良n番目(1≦n≦N)の確率度数の差に応じて与えられることを特徴とする請求項9の方法。
- 各認識解釈の重みは、非線形閾値関数を用いて与えられることを特徴とする請求項9の方法。
- さらに、上記のa)形成ステップ、b)抽出ステップ、およびc)適応ステップを反復して実行するステップを備えたことを特徴とする請求項9の方法。
- さらに、音声モデルを適応するステップと、および入力された音声を認識部に提供するステップとを複数回反復して実行することを特徴とする請求項9の方法。
- 最良N組の認識解釈が収束したかどうか検出しながら、上記のa)形成ステップ、b)抽出ステップ、およびc)適応ステップを反復して実行するステップを備えたことを特徴とする請求項9の方法。
- 各認識解釈の重みは、最良1番目および最良n番目(1≦n≦N)の確率度数の差の対数値に応じて与えられることを特徴とする請求項9の方法。
- 各認識解釈が一連の音素として表現されるとき、高信頼性情報抽出部は、対応する位置における各認識解釈の各音素の出現回数を計測し、所定の閾値より小さい出現回数の音素を含む認識解釈に対して0の重みを与え、所定の閾値以上の出現回数の音素を含む認識解釈に対して1の重みを与えることを特徴とする請求項9の方法。
- 教師なし音声である入力音声を提供するステップを有することを特徴とする請求項9の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/237170 | 1999-01-25 | ||
US09/237,170 US6205426B1 (en) | 1999-01-25 | 1999-01-25 | Unsupervised speech model adaptation using reliable information among N-best strings |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000214883A JP2000214883A (ja) | 2000-08-04 |
JP3685972B2 true JP3685972B2 (ja) | 2005-08-24 |
Family
ID=22892612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000014485A Expired - Fee Related JP3685972B2 (ja) | 1999-01-25 | 2000-01-24 | 音声認識装置および音声モデル適応方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6205426B1 (ja) |
EP (1) | EP1022723B1 (ja) |
JP (1) | JP3685972B2 (ja) |
DE (1) | DE60000134T2 (ja) |
ES (1) | ES2174797T3 (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6587824B1 (en) * | 2000-05-04 | 2003-07-01 | Visteon Global Technologies, Inc. | Selective speaker adaptation for an in-vehicle speech recognition system |
US7580836B1 (en) * | 2000-06-15 | 2009-08-25 | Intel Corporation | Speaker adaptation using weighted feedback |
JP2002073072A (ja) * | 2000-08-31 | 2002-03-12 | Sony Corp | モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置 |
FR2814625B1 (fr) * | 2000-09-25 | 2003-01-03 | Prosodie | Systeme de telephonie avec sous-titrage et/ou traduction |
DE60029456T2 (de) * | 2000-12-11 | 2007-07-12 | Sony Deutschland Gmbh | Verfahren zur Online-Anpassung von Aussprachewörterbüchern |
US6970818B2 (en) * | 2001-12-07 | 2005-11-29 | Sony Corporation | Methodology for implementing a vocabulary set for use in a speech recognition system |
US7006972B2 (en) * | 2002-03-20 | 2006-02-28 | Microsoft Corporation | Generating a task-adapted acoustic model from one or more different corpora |
US7031918B2 (en) * | 2002-03-20 | 2006-04-18 | Microsoft Corporation | Generating a task-adapted acoustic model from one or more supervised and/or unsupervised corpora |
US7676366B2 (en) * | 2003-01-13 | 2010-03-09 | Art Advanced Recognition Technologies Inc. | Adaptation of symbols |
DE60316912T2 (de) * | 2003-04-29 | 2008-07-31 | Sony Deutschland Gmbh | Verfahren zur Spracherkennung |
US7835910B1 (en) * | 2003-05-29 | 2010-11-16 | At&T Intellectual Property Ii, L.P. | Exploiting unlabeled utterances for spoken language understanding |
DE102004029873B3 (de) * | 2004-06-16 | 2005-12-29 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme |
US20060058999A1 (en) * | 2004-09-10 | 2006-03-16 | Simon Barker | Voice model adaptation |
GB2418764B (en) * | 2004-09-30 | 2008-04-09 | Fluency Voice Technology Ltd | Improving pattern recognition accuracy with distortions |
DE102004048348B4 (de) * | 2004-10-01 | 2006-07-13 | Daimlerchrysler Ag | Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8200495B2 (en) * | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7865362B2 (en) * | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
WO2007105409A1 (ja) * | 2006-02-27 | 2007-09-20 | Nec Corporation | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム |
US8781837B2 (en) * | 2006-03-23 | 2014-07-15 | Nec Corporation | Speech recognition system and method for plural applications |
JP5041934B2 (ja) * | 2006-09-13 | 2012-10-03 | 本田技研工業株式会社 | ロボット |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
DK2797078T3 (en) * | 2013-04-26 | 2017-01-23 | Agnitio S L | Assessment of reliability in speech recognition |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10832679B2 (en) | 2018-11-20 | 2020-11-10 | International Business Machines Corporation | Method and system for correcting speech-to-text auto-transcription using local context of talk |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US5737489A (en) * | 1995-09-15 | 1998-04-07 | Lucent Technologies Inc. | Discriminative utterance verification for connected digits recognition |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
US5930753A (en) * | 1997-03-20 | 1999-07-27 | At&T Corp | Combining frequency warping and spectral shaping in HMM based speech recognition |
US5970239A (en) * | 1997-08-11 | 1999-10-19 | International Business Machines Corporation | Apparatus and method for performing model estimation utilizing a discriminant measure |
US6076053A (en) * | 1998-05-21 | 2000-06-13 | Lucent Technologies Inc. | Methods and apparatus for discriminative training and adaptation of pronunciation networks |
-
1999
- 1999-01-25 US US09/237,170 patent/US6205426B1/en not_active Expired - Lifetime
-
2000
- 2000-01-18 ES ES00300315T patent/ES2174797T3/es not_active Expired - Lifetime
- 2000-01-18 EP EP00300315A patent/EP1022723B1/en not_active Expired - Lifetime
- 2000-01-18 DE DE60000134T patent/DE60000134T2/de not_active Expired - Fee Related
- 2000-01-24 JP JP2000014485A patent/JP3685972B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
ES2174797T3 (es) | 2002-11-16 |
EP1022723A2 (en) | 2000-07-26 |
EP1022723B1 (en) | 2002-04-24 |
DE60000134T2 (de) | 2002-12-12 |
EP1022723A3 (en) | 2001-05-30 |
JP2000214883A (ja) | 2000-08-04 |
US6205426B1 (en) | 2001-03-20 |
DE60000134D1 (de) | 2002-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3685972B2 (ja) | 音声認識装置および音声モデル適応方法 | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
EP1557822B1 (en) | Automatic speech recognition adaptation using user corrections | |
US8315870B2 (en) | Rescoring speech recognition hypothesis using prosodic likelihood | |
US6487532B1 (en) | Apparatus and method for distinguishing similar-sounding utterances speech recognition | |
US6539353B1 (en) | Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition | |
US6272462B1 (en) | Supervised adaptation using corrective N-best decoding | |
CN111326148B (zh) | 置信度校正及其模型训练方法、装置、设备及存储介质 | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
Schlüter et al. | Interdependence of language models and discriminative training | |
JPH0962291A (ja) | 記述長最小基準を用いたパターン適応化方式 | |
JP3876703B2 (ja) | 音声認識のための話者学習装置及び方法 | |
JPH1097285A (ja) | 音声認識装置 | |
JP4638970B2 (ja) | 音声認識装置の適応化方法 | |
KR100612843B1 (ko) | 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치 | |
JPH10254477A (ja) | 音素境界検出装置及び音声認識装置 | |
JPH09114482A (ja) | 音声認識のための話者適応化方法 | |
Rigazio et al. | Multilevel discriminative training for spelled word recognition | |
JP3698511B2 (ja) | 音声認識方法 | |
JP3105708B2 (ja) | 音声認識装置 | |
JPH10207485A (ja) | 音声認識装置及び話者適応方法 | |
KR19980013825A (ko) | 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법 | |
JPH08248974A (ja) | 音声認識装置および標準パタンの学習方法 | |
JPH08171398A (ja) | データ認識装置、辞書作成装置及び学習装置 | |
JPH0962288A (ja) | 音声認識装置および標準パタンの学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050601 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080610 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090610 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |