JP5513439B2

JP5513439B2 - 単語関連度テーブル作成装置とその方法と音声認識装置とプログラム

Info

Publication number: JP5513439B2
Application number: JP2011118144A
Authority: JP
Inventors: 太一浅見; 浩和政瀧; 義和山口; 哲小橋川; 済央野本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-05-26
Filing date: 2011-05-26
Publication date: 2014-06-04
Anticipated expiration: 2031-05-26
Also published as: JP2012247555A

Description

この発明は、音声認識結果の確からしさを表す認識信頼度の計算に用いる単語関連度テーブルを作成する単語関連度テーブル作成装置と、その方法と、単語関連度テーブルを用いた音声認識装置と、プログラムに関する。

音声認識結果の確からしさを表す認識信頼度を算出するための従来技術として、音声文書認識結果内の単語の文脈的な一貫性を、信頼度計算に利用する方法がある（非特許文献１）。この方法は、文脈的な一貫性を音声文書内の各単語ペアの関連度の平均値を算出して利用する。単語xとyの関連度S(x,y)として自己相互情報量（PMI:Pointwise Mutual Information）の値を用いる。

式（１）に単語xとyの関連度S(x,y)の計算を示す。

ここで、Nは単語集合の個数、C(x,y)は単語xとyが共に含まれる単語集合の個数、C(x),C(y)は、それぞれ単語xが含まれる単語集合の個数と単語yが含まれる単語集合の個数である。

自己相互情報量PMI(x,y)の値は、単語xとyに関連が無い（独立に現れる）場合に０、一方の単語が現れた時に他方も現れ易い（独立よりも共起し易い）傾向がある場合に正の値、一方の単語が現れた時に他方が現れ難い（独立よりも共起し難い）傾向がある場合に負の値となる。傾向が強くなるにつれて、正の値の場合、負の値の場合、共に絶対値が大きくなる。

この自己相互情報量PMI(x,y)は、取り扱う単語集合の全ての単語間の関連度として単語関連度テーブル作成装置によって計算される。図９に、従来の単語関連度テーブル作成装置９００の機能構成例を示してその動作を簡単に説明する。単語関連度テーブル作成装置９００は、学習コーパス９０と、形態素解析部９１と、学習コーパス単語集合取得部９２と、単語リスト９３と、単語カウント部９４と、単語関連度計算部９５と、テーブル配列部９６と、を具備する。

学習コーパス９０は音声文書を大規模に集積したものである。形態素解析部９１は、学習コーパス９０から音声文書を読み出して単語に分割する周知の形態素解析処理を行い、各単語の前後に単語境界を表す記号、例えば「\n」を付与した単語境界付き学習コーパスを出力する。

学習コーパス単語集合取得部９２は、形態素解析部９１が出力する単語境界付き学習コーパスの先頭から末尾まで、窓幅n単語、窓シフト量m単語で窓かけを行い、各窓に含まれる単語リスト９３に記載された単語をまとめて単語集合とし、窓ごとの単語集合を出力する。単語リスト９３は、音声認識結果に出現し得る全ての単語が記載されたものであり、事前に作成しておく。図１０に、単語集合を概念的に示す。横方向は時間経過であり、単語集合をN₁〜N_hで示す。mは窓シフト量であり、nは窓幅である。隣り合う単語集合は、n-m個の単語を共有する関係にある。

単語カウント部９４は、学習コーパス単語集合取得部９２が出力する単語集合を入力として、単語集合内の各単語の単独生起回数C(w)、各単語ペアの生起回数C(w_i,w_j)、単語集合の個数Nをカウントして出力する。単語wの生起回数C(w)とは、単語wを含む単語集合の個数である。単語ペア（w_i,w_j）の生起回数C(w_i,w_j)とは、w_iとw_jを共に含む単語集合の個数である。

単語関連度計算部９５は、各単語ペア（w_i,w_j）の関連度S（w_i,w_j）を例えば上記した式（１）で計算する。テーブル配列部９６は、単語w_iとw_jから計算した関連度S（w_i,w_j）を参照できるテーブルの形式に配列する。図１１に単語関連度テーブル９７の一例を示す。最上列と最左列は単語w₁〜w_Nであり、各行と各列の交差する欄にそれぞれの単語の関連度S（w_i,w_j）が配列される。

浅見太一、小橋川哲、山口義和、政瀧浩和、高橋敏、「単語の文脈一貫性と音響尤度を用いた音声ドキュメント認識信頼度推定」信学技報、電子情報通信学会、2010年7月 Gang Guo他、「A COMPARATIVE STUDY ON VARIOUS CONFIDENCE MEASURES IN LARGE VOCABULARY SPEECH RECOGNITION」 International Symposium on Chinese Spoken Language Processing(ISCSLP 2004) December 15-18,2004 I.J.Good 「The Population Frequencies of Species and the Estimation of Population Parameters」,http://www.jstor.org Thu Feb 7 2008

関連度S（w_i,w_j）を表す自己相互情報量PMI(x,y)には２つの問題がある。その１つは、共起頻度０回の単語ペアの自己相互情報量PMI(x,y)の計算が出来ない。C(x,y)=0の時、PMI(x,y)=-∞となる。計算機では-∞を表現できないため、関連度が不明であることを示す０が一般的に用いられる。例えば、単語xとyが多数出現しており、かつ共起していない場合（例えばC(x)=C(y)=10000,C(x,y)=0）は、単語xとyは非常に共起し難いと考えられるため、自己相互情報量PMI(x,y)は大きな負の値とすべきであるが、上記したようにPMI(x,y)=0となってしまう。このような自己相互情報量PMI(x,y)を用いて音声文書認識結果の信頼度を計算すると、実際には認識精度が低いのに信頼度の値が高く算出されてしまう場合がある。

２つ目は、頻度の低い単語同士が共起した場合に自己相互情報量PMI(x,y)の値が非常に大きくなる問題がある。例えば、N=500000の時、単語xとyが１回ずつしか現れず、且つ共起していた（C(x)=C(y)=C(x,y)=1）場合、PMI(x,y)=log(500000)となる。一方、単語xとyが５０回ずつ現れ、且つ常に共起していた（C(x)=C(y)=C(x,y)=50）場合、１回ずつしか現れない場合よりもxとyの関連度は強いと言えるにも関わらず、PMI(x,y)=log(10000)と低い値となる。

上記した２つの問題点により、正しい認識信頼度を計算することが出来ない。１つ目の共起頻度０回の単語ペアの自己相互情報量PMI(x,y)が計算できない問題については、その都度、パラメータを手動で調整する方法（非特許文献２）や、共起頻度０の単語ペアの共起頻度を補正する考え（非特許文献３）が検討されている。しかしながら、これらの方法では、２つ目の「頻度の低い単語同士が共起した場合に自己相互情報量PMI(x,y)の値が非常に大きくなる」課題を、解決することが出来ない。

この発明は、このような課題に鑑みてなされたものであり、単語の共起回数を補正すると共に、単語xとyの関係が独立かどうかを判断してその単語間の関連度を計算して単語関連度テーブルを作成する単語関連度テーブル作成装置と、その単語関連度テーブルを用いて音声認識処理を行う音声認識装置と、それらの方法とプログラムを提供することを目的とする。

この発明の単語関連度テーブル作成装置は、音声文書を集積した学習コーパスと、学習コーパスから音声文書を読み出して音声文書を単語に分割して単語境界付き学習コーパスを出力する形態素解析部と、単語境界付き学習コーパスを入力として単語境界付き学習コーパスの先頭から末尾まで、窓幅n単語、窓シフト量m単語で窓掛けを行い、各窓に含まれる単語リストに記載された単語をまとめて単語集合とし、窓ごとの単語集合を出力する学習コーパス単語集合取得部と、単語集合を入力として単語集合内の各単語wの単独生起回数C(w)と、各単語ペアの生起回数C(w_i,w_j)と、単語集合の個数Nとをカウントして出力する単語カウント部と、単語集合内の各単語の単独生起回数C(w)と上記各単語ペアの生起回数C(w_i,w_j)と上記単語集合の個数Nを入力として、２個の単語間の単語関連度を計算する単語関連度計算部と、２個の単語間の関連度を参照できるテーブルの形式に配列するテーブル配列部と、を具備する単語関連度テーブル作成装置であって、単語関連度計算部は、生起回数補正手段と、検定値計算手段と、補正関連度計算手段とを備える。

生起回数補正手段は、各単語の単独生起回数C(w)と各単語ペアの生起回数C(w_i,w_j)を入力として、生起回数C(w_i,w_j)がr回となっている単語ペア(w_i,w_j)の種類数N_rと、生起回数C(w_i,w_j)がr-1回となっている単語ペア(w_i,w_j)の種類数N_r-1を数え、生起回数C(w_i,w_j)がr-1回より大きな単語ペア(w_i,w_j)の生起回数C(w_i,w_j)をそのまま補正後の生起回数C′(w_i,w_j)とし、生起回数C(w_i,w_j)がr-1回の単語ペア(w_i,w_j)の補正後の生起回数C′(w_i,w_j)を、r-1回に種類数N_rを種類数N_r-1で除した値を乗じた値として出力する。検定値計算手段は、各単語の単独生起回数C(w)と補正後の生起回数C′(w_i,w_j)を入力として、単語ペア(w_i,w_j)が同時に発生する回数と各単語が単独で発生する回数の積との差を統計的手法に基づいて検定する検定値を、計算する。補正関連度計算手段は、単独生起回数C(w)と補正後の生起回数C′(w_i,w_j)と検定値を入力として、検定値が閾値より大きな単語ペア(w_i,w_j)の関連度を、補正後の生起回数C′(w_i,w_j)に単語集合の個数Nを乗じた値を各単語の単独生起回数の積で除した値の対数値として出力し、検定値が閾値よりも小さな単語ペア(w_i,w_j)の関連度をそのまま出力する。

また、この発明の音声認識装置は、音声認識部と、単語関連度テーブルと、音声文書認識信頼度計算部と、を具備する。音声認識部は、入力される音声文書を音声認識処理した単語集合毎に単語認識信頼度を付与した音声認識結果を出力する。単語関連度テーブルは、上記した単語関連度テーブル作成装置を用いて音声認識部で扱う単語集合の各単語ペア（w_i,w_j）の単語間の関連度を各単語C(w)から参照できるテーブル形式に配列したものである。音声文書認識信頼度計算部は、各単語集合に含まれる全ての単語ペア（w_i,w_j）に対して、その単語間の関連の強さを表す関連度Ｓ（w_i,w_j）を、単語関連度テーブルを参照して求め、その平均値を上記音声文書の音声文書認識信頼度として計算する。

この発明の単語関連度テーブル作成装置の単語関連度計算部は、単語ペア（w_i,w_j）の生起回数がr-1回の生起回数を、０では無い小さな値(r-1)N_r/N_r-1に補正すると共に、単語ペア（w_i,w_j）が共起する回数と各単語が単独で発生する回数との積の差を統計的に検定する検定値を求め、検定値が大きな単語ペア（w_i,w_j）の関連度を、補正した生起回数に基づいて計算する。その結果、認識精度が低いのに信頼度の値が高く算出されてしまう課題と、頻度が低い単語同士が共起した場合に自己相互情報量PMI(x,y)の値が非常に大きくなる課題を、解決することが出来る。

また、この発明の音声認識装置は、この発明の単語関連度テーブル作成装置で作成した単語関連度テーブルを用いて音声文書認識信頼度を求めるので、その値の精度を高めることが出来る。その結果、この発明の音声認識装置は、従来よりも正確に認識精度の高い音声文書認識結果を収集することを可能にするので、テキストマイニング処理や検索の精度を向上させることが出来る。

この発明の単語関連度テーブル作成装置１００の機能構成例を示す図。単語関連度計算部１０の機能構成例を示す図。単語関連度計算部１０の動作フローを示す図。この発明の音声認識装置２００の機能構成例を示す図。音声認識装置２００の動作フローを示す図。Ｎベスト候補と単語認識信頼度について説明する図。音声文書認識信頼度計算部２２の機能構成例を示す図。音声文書認識信頼度計算部４０の機能構成例を示す図。従来の単語関連度テーブル作成装置９００の機能構成例を示す図。単語集合を概念的に示す図。単語関連度テーブルの一例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の単語関連度テーブル作成装置１００の機能構成例を示す。単語関連度テーブル作成装置１００は、従来の単語関連度テーブル作成装置９００に対して単語関連度計算部１０のみの構成が異なるものである。単語関連度テーブル作成装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

学習コーパス９０、形態素解析部９１、学習コーパス単語集合取得部９２、単語リスト９３、単語カウント部９４、テーブル配列部９６は、単語関連度テーブル作成装置９００（図９）と同じであるのでその説明は省略する。図２に、より具体的な単語関連度計算部１０の機能構成例を示してその動作を説明する。その動作フローを図３に示す。

単語関連度計算部１０は、生起回数補正手段１１と、検定値計算手段１２と、補正関連度計算手段１３と、を具備する。生起回数補正手段１０は、単語カウント部９４が出力する各単語wの単独生起回数C(w)と各単語ペアの生起回数C(w_i,w_j)を入力として、生起回数C(w_i,w_j)がr回となっている単語ペア(w_i,w_j)の種類数N_r（ステップＳ１１１）と、生起回数C(w_i,w_j)がr-1回となっている単語ペア(w_i,w_j)の種類数N_r-1を数える（ステップＳ１１２）。そして、生起回数C(w_i,w_j)がr-1回より大きな単語ペア(w_i,w_j)の生起回数C(w_i,w_j)をそのまま補正後の生起回数C′(w_i,w_j)とし（ステップＳ１１４）、生起回数C(w_i,w_j)がr-1回の単語ペア(w_i,w_j)の補正後の生起回数C′(w_i,w_j)を、r-1回に上記種類数N_rを上記種類数N_r-1で除した値を乗じた値とする（式（２））（ステップＳ１１５）。

ここで生起回数のr回は、例えばr=1とすることが考えられる。これは、共起しない単語の数が最も大きいので、r＝1とすることで、殆んどの単語の生起回数が補正されることになるためである。また、rは２以上の整数に設定しても良い。その場合はr-１回から０回の生起回数C′(w_i,w_j)が補正される。

検定値計算手段１２は、生起回数補正手段１１が出力する単語集合の個数N、各単語の単独生起回数C(w)、単語ペアの補正後の生起回数C′(w_i,w_j)を入力として、上記単語ペア(w_i,w_j)が同時に発生する回数と各単語が単独で発生する回数の積との差を、統計的手法に基づいて検定する検定値を計算する（ステップＳ１２）。検定値には例えばt値（式３）を用いることが出来る。

補正関連度計算手段１３は、検定値計算手段１２が出力する例えばt値と、生起回数補正手段１１が出力する単語集合の個数N、各単語の単独生起回数C(w)、単語ペアの補正後の生起回数C′(w_i,w_j)を入力として、t値と閾値θを比較する（ステップＳ１３１）。そして、t値が閾値θより大きな単語ペア(w_i,w_j)の関連度S（w_i,w_j）を、補正後の生起回数C′（w_i,w_j）に単語集合の個数Nを乗じた値を各単語の単独生起回数の積C(w_i）・C(w_j）で除した値の対数値（式（４））として出力する（ステップＳ１３３）。また、t値が閾値θより小さな単語ペア(w_i,w_j)の関連度S（w_i,w_j）は、関連度S（w_i,w_j）=0として出力する（ステップＳ１３２）。閾値θは、補正関連度計算手段１３に予め設定しておいても良いし、外部から設定できるようにしても良い。

閾値θは、統計的手法のt検定の有意水準によって定める。閾値θを高く設定すると、より多くの単語ペア(w_i,w_j)が独立（関連なし）だと判定される。閾値θを高くし過ぎると、実際には関連のある単語ペア(w_i,w_j)まで独立だと判定するようになり、低くし過ぎると実際には独立な単語ペア(w_i,w_j)を独立でないと判定するようになる。閾値θには、例えば有意水準５％の場合の値である閾値θ=1.65を用いると良い。

このようにt値の値に応じて関連度S（w_i,w_j）を補正することで、解決すべき課題のところで述べた２つ目の課題である「頻度の低い単語同士が共起した場合に自己相互情報量PMI(x,y)の値が非常に大きくなる」現象を、抑制することが出来る。例えば、単語xとyが１回ずつしか現れず、且つ共起していた（C(x)=C(y)=C(x,y)=1）場合のt値は、t値t(w_i,w_j)=1-1/Nとなり、閾値θ=1.65とするとt(w_i,w_j)<θであるので関連度S（w_i,w_j）=0とされ、その単語ペアには関連性が無いとされる。

このように処理された関連度S（w_i,w_j）は、各単語C(w)から参照できるテーブル形式に配列され単語関連度テーブル作成装置１００の出力となる。この単語関連度テーブル２０を利用することで、より適切な認識信頼度を付与することが可能な音声認識装置を実現することが出来る。なお、検定値としてt値を用いる例で説明を行ったが、カイ二乗検定に基づくカイ二乗値χ²を用いても良い。その場合、検定値計算手段１２はカイ二乗値χ²を計算する。次に、その音声認識装置２００について説明する。

〔音声認識装置〕
図４に、この発明の音声認識装置２００の機能構成例を示す。その動作フローを図５に示す。音声認識装置２００は、音声認識部２１と、音声文書認識信頼度計算部２２と、単語関連度テーブル２０と、制御部２３と、を具備する。音声認識装置２００の各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

音声認識部２１は、入力される音声文書を音声認識処理した単語w_k毎に単語認識信頼度D(w_k)を付与した音声認識結果を出力する（ステップＳ２１）。音声認識部２１は、図示しない内部の音響分析部によって、音声文書を数十msecのフレームと呼ばれる単位でＬＰＣケプストラム、ＭＦＣＣ、その他の音響特徴パラメータ系列に分析する。そして、辞書と言語モデルを用いて入力音声に対する認識結果候補の探索を、音響特徴パラメータ系列について行う。探索の結果、上位Ｎ位までのＮベスト候補が、単語認識信頼度D(w_k)と共に音声認識結果w_kとして出力される。なお、音声文書とは、例えば、コールセンターにおける顧客とオペレータとの間で交わされる会話の集合のことであり、一要件についてまとめられた音声データである。または、例えば一つの講義が１個の音声ファイルにまとめられた様なものである。

ここで、図６を参照してＮベスト候補と単語認識信頼度D(w_k)について説明する。なお、Ｎベスト候補と単語認識信頼度D(w_k)については従来技術である。図６の横軸は、経過時間でありフレームで表す。縦軸は、フレーム単位で探索された単語列候補を、スコアの高い順番に並べたＮベスト候補である。スコアとは探索時の尤度のことである。

単語認識信頼度D(w_k)は、フレームt_＊において単語w_＊＊（＊は任意の整数）と異なる単語がＮベスト候補中に存在する場合、単語w_＊＊のフレームt_＊におけるスコアと対立候補単語のフレームt_＊における次の順位のスコアとの間のスコア差によって与えられる。図６に示す例では、フレームt₁〜t₄の音響特徴パラメータ系列で探索された第１位候補の単語w₁₁（１１は第１候補の１番目の単語であることを表す）の単語認識信頼度D(w_k)は、対抗する単語が第３位候補の単語w₃₁と第２位候補の単語w₂₁であるので、それぞれのスコア差（●）の合計をフレーム数で除した値が単語認識信頼度D(w_k)となる。対立候補が存在しない単語w₁₃については、予め決められた固定値（○）が用いられて単語認識信頼度D(w_k)となる。この単語認識信頼度D(w_k)が候補毎に累積されて単語列の認識信頼度となる。

音声文書認識信頼度計算部２２は、各単語集合に含まれる全ての２単語の組み合わせ（w_i,w_j）に対して単語の関連の強さを表す関連度Ｓ（w_i,w_j）を、単語関連度テーブル２０を参照して求め、その平均値を各単語集合の文脈信頼度CL(N_k)として計算する。図７に、音声文書認識信頼度計算部２２のより具体的な機能構成例を示す。音声文書認識信頼度計算部２２は、認識結果単語集合取得手段２２１と、単語集合文脈信頼度計算手段２２２と、を備える。

認識結果単語集合取得手段２２１は、音声認識部２１が出力する単語を所定数まとめて単語集合N_kとして出力する。単語を所定数まとめて単語集合N_kとする動作は、上記した学習コーパス単語集合取得部９２と同じである。

単語集合文脈信頼度計算手段２２２は、各単語集合N_kに含まれる全ての２単語の組み合わせ（w_i,w_j）に対して単語の関連の強さを表す関連度Ｓ（w_i,w_j）を、単語関連度テーブル２０を参照して求め、その平均値を各単語集合の文脈信頼度CL(N_k)として計算する。

この文脈信頼度CL(N_k)は、頻度の低い単語同士が共起した場合の自己相互情報量PMI(x,y)を抑制した値に基づいて求められるので音声認識の信頼度をより適切に表す値となる。

〔変形例〕
音声文書認識信頼度を、上記した文脈信頼度CL(N_k)と音響信頼度CA(N_k)とを統合した値としても良い。その場合の音声文書認識信頼度計算部４０の機能構成例を図８に示す。音声文書認識信頼度計算部４０は、上記した音声文書認識信頼度計算部２２に対して単語集合音響信頼度計算手段４０１と信頼度統合手段４０２を備える点で異なる。

単語集合音響信頼度計算手段４０１は、各単語集合(N_k)に含まれる全ての単語の単語認識信頼度D(w_k)と単語時間長wd_kを取得して単語集合(N_k)毎に音響信頼度CA(N_k)を計算する。信頼度統合手段４０２は、N_k個の音響信頼度CA(N_k)とN_k個の文脈信頼度CL(N_k)を、音声文書単位で平均して音声文書認識信頼度として出力する。

このように文脈信頼度CL(N_k)と音響信頼度CA(N_k)とを統合して音声文書の認識信頼度を計算するので、より精度の高い音声文書認識信頼度とすることが出来る。

〔評価実験〕
この発明の単語関連度テーブルを用いた音声文書認識信頼度の有効性を確認する目的で評価実験を行った。実験には、話者４８名（男性１７名、女声３１名）による電話会話をマイクで収録した音声７８２通話、計６１時間の評価セットを用い、音声認識エンジンにはVoicerex（参考文献、政瀧ほか、「顧客との自然な会話を聞き取る自由発話音声技術Voicerex,NTT Tech.rev.,5(1):22-27,2007.」を用いた。検定値にはt値を用い、閾値θは有意水準５％の場合の閾値θ=1.65を用いた。

表１に実験結果を示す。

表１中の数値は、文脈信頼度と認識信頼度との相関係数であり、この発明の方が相関係数が高い結果となり、その有効性を確認することが出来た。

上記装置における処理手段をコンピュータによって実現する場合、各機能部が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各機能部における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD（Digital Versatile Disc）、DVD-RAM（Random Access Memory）、CD-ROM（Compact Disc Read Only Memory）、CD-R（Recordable）/RW（ReWritable）等を、光磁気記録媒体として、MO（Magneto Optical disc）等を、半導体メモリとしてEEP-ROM（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェアで実現することとしてもよい。

Claims

音声文書を集積した学習コーパスと、
上記学習コーパスから音声文書を読み出して音声文書を単語に分割して単語境界付き学習コーパスを出力する形態素解析部と、
上記単語境界付き学習コーパスを入力として上記単語境界付き学習コーパスの先頭から末尾まで、窓幅n単語、窓シフト量m単語で窓掛けを行い、各窓に含まれる単語リストに記載された単語をまとめて単語集合とし、窓ごとの単語集合を出力する学習コーパス単語集合取得部と、
上記単語集合を入力として単語集合内の各単語の単独生起回数C(w)と、各単語ペアの生起回数C(w_i,w_j)と、単語集合の個数Nとをカウントして出力する単語カウント部と、
上記単語集合内の各単語の単独生起回数C(w)と上記各単語ペアの生起回数C(w_i,w_j)と上記単語集合の個数Nを入力として、２個の単語間の単語関連度を計算する単語関連度計算
部と、
２個の単語間の関連度を参照できるテーブルの形式に配列するテーブル配列部と、を具備する単語関連度テーブル作成装置であって、
上記単語関連度計算部は、
各単語の単独生起回数C(w)と各単語ペアの生起回数C(w_i,w_j)を入力として、上記生起回数C(w_i,w_j)がr回となっている単語ペア(w_i,w_j)の種類数N_rと、生起回数C(w_i,w_j)がr-1回
となっている単語ペア(w_i,w_j)の種類数N_r-1を数え、生起回数C(w_i,w_j)がr-1回より大きな単語ペア(w_i,w_j)の生起回数C(w_i,w_j)をそのまま補正後の生起回数C′(w_i,w_j)とし、それ以外の補正後の生起回数C′(w_i,w_j)を、ｒ回に上記種類数N_rを上記種類数N_r-1で除した値を乗じた値として出力する生起回数補正手段と、
上記各単語の単独生起回数C(w)と補正後の生起回数C′(w_i,w_j)を入力として、上記単語ペア(w_i,w_j)が同時に発生する回数と各単語が単独で発生する回数の積との差を、統計的
手法に基づいて検定する検定値を計算する検定値計算手段と、
上記単独生起回数C(w)と上記補正後の生起回数C′(w_i,w_j)と上記検定値を入力として、上記検定値が閾値より大きな単語ペア(w_i,w_j)の関連度を、補正後の生起回数C′(w_i,w_j)
に単語集合の個数Nを乗じた値を各単語の単独生起回数の積で除した値の対数値として出
力し、上記検定値が閾値よりも小さな単語ペア(w_i,w_j)の関連度を０として出力する補正関連度計算手段と、
を具備することを特徴とする単語関連度テーブル作成装置。
入力される音声文書を音声認識処理した単語集合毎に単語認識信頼度を付与した音声認識結果を出力する音声認識部と、
請求項１に記載した単語関連度テーブル作成装置を用いて上記音声認識部で扱う単語集合の各単語ペア（w_i,w_j）の単語間の関連度を各単語C(w)から参照できるテーブル形式に
配列した単語関連度テーブルと、
各単語集合に含まれる全ての上記単語ペア（w_i,w_j）に対して、その単語間の関連の強
さを表す関連度Ｓ（w_i,w_j）を、上記単語関連度テーブルを参照して求め、その平均値を
上記音声文書の音声文書認識信頼度として計算する音声文書認識信頼度計算部と、
を具備する音声認識装置。
音声文書を集積した学習コーパスから音声文書を読み出して音声文書を単語に分割して単語境界付き学習コーパスを出力する形態素解析過程と、
上記単語境界付き学習コーパスを入力として上記単語境界付き学習コーパスの先頭から末尾まで、窓幅n単語、窓シフト量m単語で窓掛けを行い、各窓に含まれる単語リストに記載された単語をまとめて単語集合とし、窓ごとの単語集合を出力する学習コーパス単語集合取得過程と、
上記単語集合を入力として単語集合内の各単語の単独生起回数C(w)と、各単語ペアの生起回数C(w_i,w_j)と、単語集合の個数Nとをカウントして出力する単語カウント過程と、
上記単語集合内の各単語の単独生起回数C(w)と上記各単語ペアの生起回数C(w_i,w_j)と上記単語集合の個数Nを入力として。２個の単語間の単語関連度を計算する単語関連度計算
過程と、
２個の単語間の関連度を参照できるテーブルの形式に配列するテーブル配列過程と、を備える単語関連度テーブル作成方法であって、
上記単語関連度計算過程は、
各単語の単独生起回数C(w)と各単語ペアの生起回数C(w_i,w_j)を入力として、上記生起回数C(w_i,w_j)がr回となっている単語ペア(w_i,w_j)の種類数N_rと、生起回数C(w_i,w_j)がr-1回
となっている単語ペア(w_i,w_j)の種類数N_r-1を数え、生起回数C(w_i,w_j)がr-1回より大きな単語ペア(w_i,w_j)の生起回数C(w_i,w_j)をそのまま補正後の生起回数C′(w_i,w_j)とし、それ以外の補正後の生起回数C′(w_i,w_j)を、r回に上記種類数N_rを上記種類数N_r-1で除した値を乗じた値として出力する生起回数補正ステップと、
上記各単語の単独生起回数C(w)と補正後の生起回数C′(w_i,w_j)を入力として、上記単語ペア(w_i,w_j)が同時に発生する回数と各単語が単独で発生する回数の積との差を、統計的
手法に基づいて検定する検定値を計算する検定値計算ステップと、
上記単独生起回数C(w)と上記補正後の生起回数C′(w_i,w_j)と上記検定値を入力として、上記検定値が閾値より大きな単語ペア(w_i,w_j)の関連度を、補正後の生起回数C′(w_i,w_j)
に単語集合の個数Nを乗じた値を各単語の単独生起回数の積で除した値の対数値として出
力し、上記検定値が閾値よりも小さな単語ペア(w_i,w_j)の関連度を０として出力する補正関連度計算ステップと、
を含むことを特徴とする単語関連度テーブル作成方法。
請求項１に記載した単語関連度テーブル作成装置又は請求項２に記載した音声認識装置としてコンピュータを機能させるためのプログラム。