JP2001188557A - 最大エントロピ音声モデルの生成方法 - Google Patents
最大エントロピ音声モデルの生成方法Info
- Publication number
- JP2001188557A JP2001188557A JP2000364135A JP2000364135A JP2001188557A JP 2001188557 A JP2001188557 A JP 2001188557A JP 2000364135 A JP2000364135 A JP 2000364135A JP 2000364135 A JP2000364135 A JP 2000364135A JP 2001188557 A JP2001188557 A JP 2001188557A
- Authority
- JP
- Japan
- Prior art keywords
- value
- speech model
- maximum entropy
- speech
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 239000000463 material Substances 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- NLINVDHEDVEOMJ-UHFFFAOYSA-N 1-Methylamino-1-(3,4-Methylenedioxyphenyl)Propane Chemical compound CCC(NC)C1=CC=C2OCOC2=C1 NLINVDHEDVEOMJ-UHFFFAOYSA-N 0.000 claims 1
- 238000011156 evaluation Methods 0.000 claims 1
- 230000003252 repetitive effect Effects 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 101100121123 Caenorhabditis elegans gap-1 gene Proteins 0.000 description 1
- 101100282111 Caenorhabditis elegans gap-2 gene Proteins 0.000 description 1
- 241000700145 Petromus typicus Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Complex Calculations (AREA)
Abstract
(57)【要約】 (修正有)
【課題】 音声認識システム用の最大エントロピ音声モ
デルを生成する方法において、生成された音声モデルの
統計的性質を改善する。 【解決手段】 音声モデルの統計的性質を改善するため
に、次のステップを実行する。 −学習言語音声資料を評価することによって、N≧0な
るn−グラムに対する第1確率値pind(w|h)を求める; −第1確率値に応じて、最大エントロピ音声モデルの音
声モデル値を表現する第2確率値pλ(w|h)の推定を行
う; −次式に従って境界値mαを決定し、 ここでN(h)は、学習言語音声資料内でのそれぞれの履
歴hの発生率であり、f α(h,w)は、先験的に予め規定
され、かつ指標αによって特徴づけられた所定のN−グ
ラムに対してのみ0と異なる値を有し、他の場合には値
0を有するフィルタ関数であり; −次式に従って最大エントロピ音声モデルの音声モデル
値の反復計算を行い、 所定の収束基準に従い、n回目の反復ステップで決定さ
れる値mα (n)が境界値mαに十分な精度で接近するま
で、この反復計算を継続する。
デルを生成する方法において、生成された音声モデルの
統計的性質を改善する。 【解決手段】 音声モデルの統計的性質を改善するため
に、次のステップを実行する。 −学習言語音声資料を評価することによって、N≧0な
るn−グラムに対する第1確率値pind(w|h)を求める; −第1確率値に応じて、最大エントロピ音声モデルの音
声モデル値を表現する第2確率値pλ(w|h)の推定を行
う; −次式に従って境界値mαを決定し、 ここでN(h)は、学習言語音声資料内でのそれぞれの履
歴hの発生率であり、f α(h,w)は、先験的に予め規定
され、かつ指標αによって特徴づけられた所定のN−グ
ラムに対してのみ0と異なる値を有し、他の場合には値
0を有するフィルタ関数であり; −次式に従って最大エントロピ音声モデルの音声モデル
値の反復計算を行い、 所定の収束基準に従い、n回目の反復ステップで決定さ
れる値mα (n)が境界値mαに十分な精度で接近するま
で、この反復計算を継続する。
Description
【0001】
【発明の属する技術分野】本発明は、音声認識システム
用の最大エントロピ音声モデルを生成する方法に関する
ものである。
用の最大エントロピ音声モデルを生成する方法に関する
ものである。
【0002】
【従来の技術】音声認識システム用に音声モデルを生成
する際には、学習言語音声資料が限られた量の学習材料
しか含んでいないという問題がある。従って学習言語音
声資料内でのそれぞれの発生率のみから導出した音声発
声の確率には、例えばバッキングオフ技法による平滑化
手続きを施していた。しかし、N−グラムの未知の履歴
は、考慮しているそれぞれのN−グラムを、学習言語音
声資料内で0でない発生率が得られるまで短縮すること
によってのみ補われるので、バッキングオフ音声モデル
は一般に、利用可能な学習データを最適に利用していな
い。この問題には、最大エントロピ音声モデルで対処す
ることができる(R.Rosenfeld,"A maximumentropy appr
oach to adaptive statistical language modeling", C
omputer,Speech and Language, 1996年の187〜228ペー
ジを参照)。こうした音声モデルによって、バッキング
オフ音声モデルの場合を除いて、学習言語音声資料内で
のN−グラム及びギャップN−グラムの発生率を共に音
声モデル確率の推定に用いることができる。しかし最大
エントロピ音声モデルの生成中に適切な境界値を推定す
べきであり、最大エントロピ音声モデルの反復計算され
る音声モデル値は、これらの境界値の選択に依存すると
いう問題が発生する。学習中に、こうした音声モデルの
音声モデル確率pλ(w|h)(w:語彙要素、h:wに関
する語彙要素の履歴)を、次の形式の境界値式をできる
限り良好に満足するように決定することができる。
する際には、学習言語音声資料が限られた量の学習材料
しか含んでいないという問題がある。従って学習言語音
声資料内でのそれぞれの発生率のみから導出した音声発
声の確率には、例えばバッキングオフ技法による平滑化
手続きを施していた。しかし、N−グラムの未知の履歴
は、考慮しているそれぞれのN−グラムを、学習言語音
声資料内で0でない発生率が得られるまで短縮すること
によってのみ補われるので、バッキングオフ音声モデル
は一般に、利用可能な学習データを最適に利用していな
い。この問題には、最大エントロピ音声モデルで対処す
ることができる(R.Rosenfeld,"A maximumentropy appr
oach to adaptive statistical language modeling", C
omputer,Speech and Language, 1996年の187〜228ペー
ジを参照)。こうした音声モデルによって、バッキング
オフ音声モデルの場合を除いて、学習言語音声資料内で
のN−グラム及びギャップN−グラムの発生率を共に音
声モデル確率の推定に用いることができる。しかし最大
エントロピ音声モデルの生成中に適切な境界値を推定す
べきであり、最大エントロピ音声モデルの反復計算され
る音声モデル値は、これらの境界値の選択に依存すると
いう問題が発生する。学習中に、こうした音声モデルの
音声モデル確率pλ(w|h)(w:語彙要素、h:wに関
する語彙要素の履歴)を、次の形式の境界値式をできる
限り良好に満足するように決定することができる。
【数3】 ここでmαは先験的に設定されるべき条件αに対する境
界値を表わし、フィルタ関数fα(h,w)が値1をとるか
値0をとるかは、この式の満足度に依存する。そこで条
件αは、考慮している語彙要素の列(h,w)が所定のN−
グラム(N−グラムとは、ギャップN−グラムも含む)
であるか、あるいは所定のN−グラム(N≧1)で終わ
るかということであり、N−グラム要素も、相互に特定
の関係を有する語彙要素を含む複数のクラスでありう
る。N(h)は学習言語音声資料内での履歴hの発生率を
表わす。
界値を表わし、フィルタ関数fα(h,w)が値1をとるか
値0をとるかは、この式の満足度に依存する。そこで条
件αは、考慮している語彙要素の列(h,w)が所定のN−
グラム(N−グラムとは、ギャップN−グラムも含む)
であるか、あるいは所定のN−グラム(N≧1)で終わ
るかということであり、N−グラム要素も、相互に特定
の関係を有する語彙要素を含む複数のクラスでありう
る。N(h)は学習言語音声資料内での履歴hの発生率を
表わす。
【0003】前記境界値式を満足するすべての確率分布
から、最大エントロピモデル化のために、特定のエント
ロピを最大化する分布
から、最大エントロピモデル化のために、特定のエント
ロピを最大化する分布
【数4】 を選択することができる。この特定の分布は、適切なパ
ラメータλαに対して次の形式を有する。
ラメータλαに対して次の形式を有する。
【数5】
【0004】
【発明が解決しようとする課題】最大エントロピ音声モ
デルの反復計算用には、特にいわゆるGIS(Generali
zed Iterative Scaling)アルゴリズムが用いられ、そ
の基本構造は、J.N.Darroch, D.Ratcliff: "Generalize
d iterative scaling for log-linear models", The An
nals of Mathematical Statistics, 43(5)、1972年の14
70〜1480ページに記載されている。前記境界値mαの決
定における試みは、例えば使用する学習言語音声資料の
確率の最大化にもとづくものであり、これにより境界値
mα=N(α)が導かれ、即ち学習言語音声資料内で条件
αが満足される頻度が決定される。このことは例えば、
S.A.Della Pietra, V.J.Della Pietra J.Lafferty, "In
ducing Features of random fields", Technical repor
t, CMU-CS-95-114, 1995年に記載されている。しかし境
界値mαが、前記境界値式によって制限されるモデルの
いくつかの確率値pλ(w|h)を強制的に消滅させ(即ち
0にし)、より詳しくは列(h,w)が学習言語音声資料内
で見られなくなる。しかし、音声モデル確率値pλ(w|
h)が消滅することは、次の2つの理由から回避すべきこ
とであり:第1の理由は、もっともらしい認識結果では
あるが、その単語列が学習言語音声資料内で見られない
という理由だけで、音声認識システムが単語列(h|w)を
有する行を認識できないことである。他の理由は、パラ
メータλαが有限値に限定される限りにおいては、値p
λ(w|h)=0が、上記のpλ(w|h)についての式から得ら
れる解の関数型と矛盾するということである。このいわ
ゆる非一貫性(上述のJ.N.Darroch, D.Ratcliffを参
照)は、今のところ既知の学習方法でありながら、境界
値式を解くことの妨げになる。
デルの反復計算用には、特にいわゆるGIS(Generali
zed Iterative Scaling)アルゴリズムが用いられ、そ
の基本構造は、J.N.Darroch, D.Ratcliff: "Generalize
d iterative scaling for log-linear models", The An
nals of Mathematical Statistics, 43(5)、1972年の14
70〜1480ページに記載されている。前記境界値mαの決
定における試みは、例えば使用する学習言語音声資料の
確率の最大化にもとづくものであり、これにより境界値
mα=N(α)が導かれ、即ち学習言語音声資料内で条件
αが満足される頻度が決定される。このことは例えば、
S.A.Della Pietra, V.J.Della Pietra J.Lafferty, "In
ducing Features of random fields", Technical repor
t, CMU-CS-95-114, 1995年に記載されている。しかし境
界値mαが、前記境界値式によって制限されるモデルの
いくつかの確率値pλ(w|h)を強制的に消滅させ(即ち
0にし)、より詳しくは列(h,w)が学習言語音声資料内
で見られなくなる。しかし、音声モデル確率値pλ(w|
h)が消滅することは、次の2つの理由から回避すべきこ
とであり:第1の理由は、もっともらしい認識結果では
あるが、その単語列が学習言語音声資料内で見られない
という理由だけで、音声認識システムが単語列(h|w)を
有する行を認識できないことである。他の理由は、パラ
メータλαが有限値に限定される限りにおいては、値p
λ(w|h)=0が、上記のpλ(w|h)についての式から得ら
れる解の関数型と矛盾するということである。このいわ
ゆる非一貫性(上述のJ.N.Darroch, D.Ratcliffを参
照)は、今のところ既知の学習方法でありながら、境界
値式を解くことの妨げになる。
【0005】本発明の目的は、最大エントロピ音声モデ
ルを生成する方法を提供して、生成された音声モデルの
統計的性質を改善することにある。
ルを生成する方法を提供して、生成された音声モデルの
統計的性質を改善することにある。
【0006】
【課題を解決するための手段】この目的は: −学習言語音声資料を評価することによって、N≧0な
るN−グラムに対する第1確率値pind(w|h)を求めるス
テップと; −この第1確率値に応じて、最大エントロピ音声モデル
の音声モデル値を表現する第2確率値pλ(w|h)の推定
を行うステップと; −次式に相当する境界値mαを決定するステップを実行
し、
るN−グラムに対する第1確率値pind(w|h)を求めるス
テップと; −この第1確率値に応じて、最大エントロピ音声モデル
の音声モデル値を表現する第2確率値pλ(w|h)の推定
を行うステップと; −次式に相当する境界値mαを決定するステップを実行
し、
【数6】 ここでN(h)は、学習言語音声資料内でのそれぞれの履
歴hの発生率であり、f α(h|w)は先験的に予め規定さ
れ、かつ指標αによって特徴づけられた特定のN−グラ
ムに対しては0と異なる値を有し、他の場合には値0を
有するフィルタ関数であり; −さらに、次式に従って最大エントロピ音声モデルの音
声モデル値の反復計算を行い、
歴hの発生率であり、f α(h|w)は先験的に予め規定さ
れ、かつ指標αによって特徴づけられた特定のN−グラ
ムに対しては0と異なる値を有し、他の場合には値0を
有するフィルタ関数であり; −さらに、次式に従って最大エントロピ音声モデルの音
声モデル値の反復計算を行い、
【数7】 所定の収束基準に従い、n回目の反復ステップで決定さ
れる値mα (n)が境界値mαに十分な精度で接近するま
で、この反復計算を継続するステップとを実行すること
によって達成される。
れる値mα (n)が境界値mαに十分な精度で接近するま
で、この反復計算を継続するステップとを実行すること
によって達成される。
【0007】この方法で音声モデルを形成することによ
って、未知の単語遷移(h,w)用の学習言語音声資料の異
なる統計量を確率pλ(w|h)の推定に用いる点で、学習
言語音声資料の統計量を認識すべき音声の統計量に近づ
けてより一般化した音声モデルが得られ:より短いレン
ジ(バッキングオフ音声モデルが有するような)を有す
るN−グラムに加えて、値pλ(w|h)を推定する際に、
ギャップN−グラム統計量、及び単語クラス間の相関を
考慮に入れることも可能である。
って、未知の単語遷移(h,w)用の学習言語音声資料の異
なる統計量を確率pλ(w|h)の推定に用いる点で、学習
言語音声資料の統計量を認識すべき音声の統計量に近づ
けてより一般化した音声モデルが得られ:より短いレン
ジ(バッキングオフ音声モデルが有するような)を有す
るN−グラムに加えて、値pλ(w|h)を推定する際に、
ギャップN−グラム統計量、及び単語クラス間の相関を
考慮に入れることも可能である。
【0008】特に、最大エントロピ音声モデルの音声モ
デル値の反復計算用に、即ち反復学習用にGISアルゴ
リズムを用いる。確率値pind(w|h)は、バッキングオフ
音声モデル確率値であることが好ましい。
デル値の反復計算用に、即ち反復学習用にGISアルゴ
リズムを用いる。確率値pind(w|h)は、バッキングオフ
音声モデル確率値であることが好ましい。
【0009】また本発明は、以上に従って構築した音声
認識システムにも関するものである。
認識システムにも関するものである。
【0010】
【発明の実施の形態】以下、本発明の実施例について図
面を参照して説明する。図1に音声認識システム1を示
し、その入力2には、音声信号が電気的形態で供給され
る。関数ブロック3は音響分析をまとめて表わしたもの
であり、音響分析によって、音声信号を記述する属性ベ
クトルが出力4上に連続的に生成されることになる。音
響分析中には、電気的形態で発生する音声信号をサンプ
リング及び量子化して、その後に複数のフレームに組合
わせる。そして連続するフレームが部分的に重複してい
ることが好ましい。各フレーム毎に属性ベクトルを求め
る。関数ブロック5は、属性ベクトルの入力列に対して
最も確からしい音声語彙要素の列の探索をまとめて表わ
したものである。音声認識システムでは慣例のように、
いわゆるベイズ公式を利用して認識結果の確率を最大化
する。関数ブロック5に従った処理では、音声信号の音
響モデル(関数ブロック6)及び言語音声モデル(関数
ブロック7)を共に用いる。関数ブロック6による音響
モデルは、個々の語彙要素をモデル化するために、ある
いはまた複数の語彙要素を組合わせるために、いわゆる
HMMモデル(隠れマルコフモデル)の慣例的な使用を
含む。音声モデル(関数ブロック7)は、語彙要素また
は語彙要素の列に対する推定確率値を含む。以下の説明
ではこのことを参照し、これにより出力8に出力される
認識結果のエラー率が低減されることになる。さらに、
システムの複雑性が低減される。
面を参照して説明する。図1に音声認識システム1を示
し、その入力2には、音声信号が電気的形態で供給され
る。関数ブロック3は音響分析をまとめて表わしたもの
であり、音響分析によって、音声信号を記述する属性ベ
クトルが出力4上に連続的に生成されることになる。音
響分析中には、電気的形態で発生する音声信号をサンプ
リング及び量子化して、その後に複数のフレームに組合
わせる。そして連続するフレームが部分的に重複してい
ることが好ましい。各フレーム毎に属性ベクトルを求め
る。関数ブロック5は、属性ベクトルの入力列に対して
最も確からしい音声語彙要素の列の探索をまとめて表わ
したものである。音声認識システムでは慣例のように、
いわゆるベイズ公式を利用して認識結果の確率を最大化
する。関数ブロック5に従った処理では、音声信号の音
響モデル(関数ブロック6)及び言語音声モデル(関数
ブロック7)を共に用いる。関数ブロック6による音響
モデルは、個々の語彙要素をモデル化するために、ある
いはまた複数の語彙要素を組合わせるために、いわゆる
HMMモデル(隠れマルコフモデル)の慣例的な使用を
含む。音声モデル(関数ブロック7)は、語彙要素また
は語彙要素の列に対する推定確率値を含む。以下の説明
ではこのことを参照し、これにより出力8に出力される
認識結果のエラー率が低減されることになる。さらに、
システムの複雑性が低減される。
【0011】本発明による音声認識システム1では、確
率値pλ(w|h)を有する音声モデル、即ちN≧0なる所
定のN−グラム確率を、N−グラム(h,w)(hは語彙要
素wに関するN−1要素の履歴)用に用い、このことは
最大エントロピ推定にもとづいている。そして探索され
る分布は、所定の周辺分布によって限定され、これらの
周辺条件の下で最大エントロピモデルを選定する。周辺
条件は、種々の長さのN−グラム(N=1、2、
3、...)及び例えば(u,*,w)の形式のギャップバイグラ
ムのようなギャップN−グラムに共に関連しうるもので
あり、ここで*は、要素uとwの間の少なくとも1つの
任意のN−グラム要素用の位置保持子である。同様に、
N−グラム要素はクラスCの要素でありうるものであ
り、これらは例えば、文法的関係あるいは意味的関係の
ような特定の関係を相互に有する語彙要素をまとめたも
のである。
率値pλ(w|h)を有する音声モデル、即ちN≧0なる所
定のN−グラム確率を、N−グラム(h,w)(hは語彙要
素wに関するN−1要素の履歴)用に用い、このことは
最大エントロピ推定にもとづいている。そして探索され
る分布は、所定の周辺分布によって限定され、これらの
周辺条件の下で最大エントロピモデルを選定する。周辺
条件は、種々の長さのN−グラム(N=1、2、
3、...)及び例えば(u,*,w)の形式のギャップバイグラ
ムのようなギャップN−グラムに共に関連しうるもので
あり、ここで*は、要素uとwの間の少なくとも1つの
任意のN−グラム要素用の位置保持子である。同様に、
N−グラム要素はクラスCの要素でありうるものであ
り、これらは例えば、文法的関係あるいは意味的関係の
ような特定の関係を相互に有する語彙要素をまとめたも
のである。
【0012】確率pλ(w|h)は学習中に、学習言語音声
資料(例えばNAB(North AmericanBusiness News)言
語音声資料)にもとづいて、次式に従って推定される。
資料(例えばNAB(North AmericanBusiness News)言
語音声資料)にもとづいて、次式に従って推定される。
【数8】
【0013】このようにして形成した音声モデルの品質
要素は、境界値mαの選択によって決定され、音声モデ
ルに対する確率値pλ(w|h)はこの境界値に依存し、こ
の境界値は次式で表現される。
要素は、境界値mαの選択によって決定され、音声モデ
ルに対する確率値pλ(w|h)はこの境界値に依存し、こ
の境界値は次式で表現される。
【数9】
【0014】境界値mαは、予め計算され、かつ利用可
能な、音声モデル確率pind(w|h)を有する音声モデルに
よって推定される。この目的のために式(2)を使用し、
この式ではpλ(w|h)のみがpind(w|h)で置き換えら
れ、次式に従ってmαの推定を行う。
能な、音声モデル確率pind(w|h)を有する音声モデルに
よって推定される。この目的のために式(2)を使用し、
この式ではpλ(w|h)のみがpind(w|h)で置き換えら
れ、次式に従ってmαの推定を行う。
【数10】
【0015】値pind(w|h)は特に、学習言語音声資料
(例えばR.Kneser, H.Ney, "Improvedbacking-off for
M-gram language modeling", ICASSP 1995、181〜185ペ
ージ)にもとづいて決定されるいわゆるバッキングオフ
音声モデルの確率値である。しかし値pind(w|h)はま
た、規定されているものとみなされる他の(既に計算さ
れた)音声モデルからも採用することができ、これらは
例えば、A.Nadas:"Estimation of Probabilities in t
he Language Model of the IBM Speech Recognition Sy
stem", IEEE Trans. on Acoustics, Speech and Signal
Proc., Vol.ASSP-32、859〜861ページ、1984年8月、
及びS.M.Katz:"Estimation of Probabilities from Sp
arse Data for the Language Model Component of a Sp
eech Recognizer", IEEE Trans. on Acoustics, Speech
and Signal Proc., Vol.ASSP-35、400〜401ページ、19
87年3月に記載されている。
(例えばR.Kneser, H.Ney, "Improvedbacking-off for
M-gram language modeling", ICASSP 1995、181〜185ペ
ージ)にもとづいて決定されるいわゆるバッキングオフ
音声モデルの確率値である。しかし値pind(w|h)はま
た、規定されているものとみなされる他の(既に計算さ
れた)音声モデルからも採用することができ、これらは
例えば、A.Nadas:"Estimation of Probabilities in t
he Language Model of the IBM Speech Recognition Sy
stem", IEEE Trans. on Acoustics, Speech and Signal
Proc., Vol.ASSP-32、859〜861ページ、1984年8月、
及びS.M.Katz:"Estimation of Probabilities from Sp
arse Data for the Language Model Component of a Sp
eech Recognizer", IEEE Trans. on Acoustics, Speech
and Signal Proc., Vol.ASSP-35、400〜401ページ、19
87年3月に記載されている。
【0016】N(h)は、学習言語音声資料内でのそれぞ
れの履歴hの率を示すものである。fα(h,w)は条件α
に対応するフィルタ関数であり、このフィルタ関数は、
条件αが満足される場合にはゼロと異なる値(ここでは
値1)を有し、他の場合には0に等しい。条件α及びこ
れに関連するフィルタ関数fαは、それぞれの学習言語
音声資料に対して自ずと決定される。より詳細には、こ
こではどの単語またはどのクラスN−グラムまたはどの
ギャップN−グラムに対して境界値を固定するかの選定
を行う。
れの履歴hの率を示すものである。fα(h,w)は条件α
に対応するフィルタ関数であり、このフィルタ関数は、
条件αが満足される場合にはゼロと異なる値(ここでは
値1)を有し、他の場合には0に等しい。条件α及びこ
れに関連するフィルタ関数fαは、それぞれの学習言語
音声資料に対して自ずと決定される。より詳細には、こ
こではどの単語またはどのクラスN−グラムまたはどの
ギャップN−グラムに対して境界値を固定するかの選定
を行う。
【0017】fα(h,w)が値1を有するための条件αは
次のようであることが好ましい。 −考慮しているN−グラムが、所定の語彙要素wで終了
する; −考慮しているN−グラム(h,w)が所定のクラスCに属
する語彙要素wで終了し、このクラスが相互に特定の関
係を有する語彙要素をまとめたものである(上述のこと
を参照); −考慮しているN−グラム(h,w)が、所定のバイグラム
(v,w)またはギャップバイグラム(u,*,w)、あるいは所定
のトリグラム(u,v,w)等で終了する; −考慮しているN−グラム(h,w)が、バイグラム(v,w)ま
たはギャップバイグラム(u,*,w)等で終了し、語彙要素
u、v及びwが所定の単語クラスC、D及びE内に存在
する。
次のようであることが好ましい。 −考慮しているN−グラムが、所定の語彙要素wで終了
する; −考慮しているN−グラム(h,w)が所定のクラスCに属
する語彙要素wで終了し、このクラスが相互に特定の関
係を有する語彙要素をまとめたものである(上述のこと
を参照); −考慮しているN−グラム(h,w)が、所定のバイグラム
(v,w)またはギャップバイグラム(u,*,w)、あるいは所定
のトリグラム(u,v,w)等で終了する; −考慮しているN−グラム(h,w)が、バイグラム(v,w)ま
たはギャップバイグラム(u,*,w)等で終了し、語彙要素
u、v及びwが所定の単語クラスC、D及びE内に存在
する。
【0018】式(3)に従って、確率値pind(w|h)を有す
る所定の先験的音声モデルすべての境界値mαを導出す
ることに加えて、条件αの所定のグループ毎にそれぞ
れ、確率値pind(w|h)を有する各グループ自身の先験的
音声モデルを予め規定することができ、そしてこの場合
には、式(3)に従って各グループ毎に別個に、関連する
先験的音声モデルから境界値を計算することができる。
可能なグループは例えば、詳しくは次のものによって形
成することができる: −単語ユニグラム、単語バイグラム、単語トリグラム; −単語ギャップ−1バイグラム(1単語に相当するギャ
ップを有する); −単語ギャップ−2バイグラム(2単語に相当するギャ
ップを有する); −クラスユニグラム、クラスバイグラム、クラストリグ
ラム; −クラスギャップ−1バイグラム; −クラスギャップ−2バイグラム。
る所定の先験的音声モデルすべての境界値mαを導出す
ることに加えて、条件αの所定のグループ毎にそれぞ
れ、確率値pind(w|h)を有する各グループ自身の先験的
音声モデルを予め規定することができ、そしてこの場合
には、式(3)に従って各グループ毎に別個に、関連する
先験的音声モデルから境界値を計算することができる。
可能なグループは例えば、詳しくは次のものによって形
成することができる: −単語ユニグラム、単語バイグラム、単語トリグラム; −単語ギャップ−1バイグラム(1単語に相当するギャ
ップを有する); −単語ギャップ−2バイグラム(2単語に相当するギャ
ップを有する); −クラスユニグラム、クラスバイグラム、クラストリグ
ラム; −クラスギャップ−1バイグラム; −クラスギャップ−2バイグラム。
【0019】音声モデルパラメータλαはここでは、G
ISアルゴリズムを利用して決定することができ、この
アルゴリズムの基本構造は例えば、J.N.Darroch、D.Rat
cliffよって記述されている。そして値Mを次式のよう
に推定することができる。
ISアルゴリズムを利用して決定することができ、この
アルゴリズムの基本構造は例えば、J.N.Darroch、D.Rat
cliffよって記述されている。そして値Mを次式のよう
に推定することができる。
【数11】 さらに、Nは使用する学習言語音声資料の大きさ、即ち
学習言語音声資料が含んでいる語彙要素の数を表わすも
のである。これにより、使用するGISアルゴリズムを
次のように記述することができる: ステップ1:任意の開始値pλ (0)(w|h)から開始する; ステップ2:反復ループのn回目の周回において、境界
値を次式のように更新する:
学習言語音声資料が含んでいる語彙要素の数を表わすも
のである。これにより、使用するGISアルゴリズムを
次のように記述することができる: ステップ1:任意の開始値pλ (0)(w|h)から開始する; ステップ2:反復ループのn回目の周回において、境界
値を次式のように更新する:
【数12】 ここでpλ (n)(w|h)は、ステップ3で式(1)に値を代入
することによって決定されるパラメータλα (n)から計
算する; ステップ3:パラメータλαを次式のように更新する:
することによって決定されるパラメータλα (n)から計
算する; ステップ3:パラメータλαを次式のように更新する:
【数13】 ここで最後の減算項は脱落する。またMは次式を満た
す。
す。
【数14】 mαまたはmβ(βは他の動的変数に過ぎない)は、確
率値pind(w|h)にもとづいて式(3)に従って推定される
境界値である。 ステップ4:アルゴリズムが収束するまで、アルゴリズ
ムをステップ2から繰り返し継続する。
率値pind(w|h)にもとづいて式(3)に従って推定される
境界値である。 ステップ4:アルゴリズムが収束するまで、アルゴリズ
ムをステップ2から繰り返し継続する。
【0020】アルゴリズムの収束は、式(3)で推定した
mαと反復計算値mα (n)との差の値が、十分小さい所
定の限界値εより小さくなることとして考えることがで
きる。
mαと反復計算値mα (n)との差の値が、十分小さい所
定の限界値εより小さくなることとして考えることがで
きる。
【0021】GISアルゴリズムを使用することの代わ
りとして、例えばS.A.Della Pietra、V.J.Della Pietr
a、J.Lafferty(上記を参照)によって記述された改良
反復スケーリング法のような、所定の境界条件に対する
最大エントロピ解を計算するいずれの方法を使用するこ
ともできる。
りとして、例えばS.A.Della Pietra、V.J.Della Pietr
a、J.Lafferty(上記を参照)によって記述された改良
反復スケーリング法のような、所定の境界条件に対する
最大エントロピ解を計算するいずれの方法を使用するこ
ともできる。
【図1】 電気的音声信号が入力に供給される音声認識
システムを示すブロック図である。
システムを示すブロック図である。
1 音声認識システム 2 入力 3 関数ブロック 4 出力 5 関数ブロック 6 音声信号の音響モデル 7 言語音声モデル 8 出力
───────────────────────────────────────────────────── フロントページの続き (71)出願人 590000248 Groenewoudseweg 1, 5621 BA Eindhoven, Th e Netherlands
Claims (5)
- 【請求項1】 学習言語音声資料を評価することによっ
て、N≧0なるN−グラムに対する第1確率値pind(w|
h)を求めるステップと;前記第1確率値に応じて、前記
最大エントロピ音声モデルの音声モデル値を表現する第
2確率値pλ(w|h)の推定を行うステップと;次式に相
当する境界値mαを決定するステップとを具え、 【数1】 ここでN(h)は、学習言語音声資料内でのそれぞれの履
歴hの発生率であり、f α(h,w)は先験的に予め規定さ
れ、かつ指標αによって特徴づけられた特定のN−グラ
ムに対しては0と異なる値を有し、他の場合には値0を
有するフィルタ関数であり;さらに、次式に従って最大
エントロピ音声モデルの音声モデル値の反復計算を行
い、 【数2】 所定の収束基準に従い、n回目の反復ステップで決定さ
れる値mα (n)が境界値mαに十分な精度で接近するま
で、この反復計算を継続するステップを具えた音声認識
システム用の最大エントロピ音声モデルの生成方法。 - 【請求項2】 前記最大エントロピ音声モデルの音声モ
デル値の前記反復計算に、GISアルゴリズムを使用す
ることを特徴とする請求項1に記載の方法。 - 【請求項3】 前記第1確率値を生成するために、バッ
キングオフ音声モデルを用意することを特徴とする請求
項1または請求項2に記載の方法。 - 【請求項4】 特定のαのグループをまとめた種々のサ
ブグループに対する境界値mαを計算するために、種々
の第1確率値pind(w|h)を使用することを特徴とする請
求項1に記載の方法。 - 【請求項5】 請求項1から請求項4までのいずれかに
記載の方法により生成した音声モデルを有する音声認識
システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19957430:8 | 1999-11-30 | ||
DE19957430A DE19957430A1 (de) | 1999-11-30 | 1999-11-30 | Verfahren zur Erzeugung eines Maximum-Entropie-Sprachmodells |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001188557A true JP2001188557A (ja) | 2001-07-10 |
Family
ID=7930746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000364135A Pending JP2001188557A (ja) | 1999-11-30 | 2000-11-30 | 最大エントロピ音声モデルの生成方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20010003174A1 (ja) |
EP (1) | EP1107228A3 (ja) |
JP (1) | JP2001188557A (ja) |
DE (1) | DE19957430A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10120513C1 (de) | 2001-04-26 | 2003-01-09 | Siemens Ag | Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache |
US7107207B2 (en) | 2002-06-19 | 2006-09-12 | Microsoft Corporation | Training machine learning by sequential conditional generalized iterative scaling |
US20040205064A1 (en) * | 2003-04-11 | 2004-10-14 | Nianjun Zhou | Adaptive search employing entropy based quantitative information measurement |
US20070276419A1 (en) | 2006-05-26 | 2007-11-29 | Fox Hollow Technologies, Inc. | Methods and devices for rotating an active element and an energy emitter on a catheter |
US7925602B2 (en) * | 2007-12-07 | 2011-04-12 | Microsoft Corporation | Maximum entropy model classfier that uses gaussian mean values |
US20100256977A1 (en) * | 2009-04-01 | 2010-10-07 | Microsoft Corporation | Maximum entropy model with continuous features |
US10685183B1 (en) * | 2018-01-04 | 2020-06-16 | Facebook, Inc. | Consumer insights analysis using word embeddings |
CN109374299B (zh) * | 2018-12-13 | 2020-06-26 | 西安理工大学 | 一种用于印刷单元的滚动轴承故障诊断方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5467425A (en) * | 1993-02-26 | 1995-11-14 | International Business Machines Corporation | Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models |
DE19708183A1 (de) * | 1997-02-28 | 1998-09-03 | Philips Patentverwaltung | Verfahren zur Spracherkennung mit Sprachmodellanpassung |
-
1999
- 1999-11-30 DE DE19957430A patent/DE19957430A1/de not_active Withdrawn
-
2000
- 2000-11-22 EP EP00204115A patent/EP1107228A3/de not_active Withdrawn
- 2000-11-29 US US09/725,419 patent/US20010003174A1/en not_active Abandoned
- 2000-11-30 JP JP2000364135A patent/JP2001188557A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP1107228A9 (de) | 2002-02-27 |
DE19957430A1 (de) | 2001-05-31 |
EP1107228A2 (de) | 2001-06-13 |
US20010003174A1 (en) | 2001-06-07 |
EP1107228A3 (de) | 2001-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bengio et al. | Word embeddings for speech recognition. | |
US5787396A (en) | Speech recognition method | |
Baker | Stochastic modeling for automatic speech understanding | |
US5710866A (en) | System and method for speech recognition using dynamically adjusted confidence measure | |
Odell | The use of context in large vocabulary speech recognition | |
US5467425A (en) | Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models | |
US5050215A (en) | Speech recognition method | |
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
EP0303022B1 (en) | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker | |
US6178401B1 (en) | Method for reducing search complexity in a speech recognition system | |
US20110077943A1 (en) | System for generating language model, method of generating language model, and program for language model generation | |
EP0570660A1 (en) | Speech recognition system for natural language translation | |
EP1528538B1 (en) | System and Method for Using Meta-Data Dependent Language Modeling for Automatic Speech Recognition | |
JPH05289692A (ja) | ワードを予測する会話認識装置用言語生成装置及び方法 | |
JP2002041080A (ja) | 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置 | |
JPH1063291A (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JPH0581918B2 (ja) | ||
WO2001065541A1 (fr) | Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement | |
JPWO2007142102A1 (ja) | 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
EP0241183B1 (en) | Speech recognition system | |
Knill et al. | Hidden Markov models in speech and language processing | |
EP1887562B1 (en) | Speech recognition by statistical language model using square-root smoothing | |
JP2001188557A (ja) | 最大エントロピ音声モデルの生成方法 | |
Robinson | The 1994 ABBOT hybrid connectionist-HMM large-vocabulary recognition system |