JP5406797B2

JP5406797B2 - 音声認識方法とその装置とプログラム

Info

Publication number: JP5406797B2
Application number: JP2010158472A
Authority: JP
Inventors: 太一浅見; 哲小橋川; 義和山口; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-07-13
Filing date: 2010-07-13
Publication date: 2014-02-05
Anticipated expiration: 2030-07-13
Also published as: JP2012022069A

Description

この発明は、例えばデータマイニングに用いるテキストを生成するのに好適な音声認識方法とその装置と、プログラムに関する。

テキストデータとして収集されたデータを統計的に分析する手法を、一般的にテキストマイニングと称する。そのテキストデータを得る目的で音声認識を用いる場合がある。音声認識には、誤認識が付き物である。そこで、従来から、この音声認識誤りを減らす工夫が試みられている。

例えば、音声認識結果に、その認識結果の確からしさを表す認識信頼度を付与する方法がある。特許文献１に、音声認識処理の探索の結果の上位Ｎ位までのＮベスト候補のスコア１位の単語w₁の認識信頼度を、単語w₁のスコアとスコア２位以下でw₁と異なる単語w₂とのスコア差を単語w₁の継続時間長で正規化した値とする考えが示されている。

また、別の方法として、音声認識結果中の各単語間の関連の強さを計測して周囲の単語と関連の強い単語に、高い認識信頼度を付与し、関連の弱い単語に低い認識信頼度を付与する方法がある（非特許文献１）。この方法は、単語w及び単語wの直前k個の単語と直後の１単語とのn個の単語集合N(w)を音声認識結果から取得する。そして、その単語集合N(w)に含まれる全ての２単語の組み合わせ（w_i,w_j）に対して、事前に学習コーパス上で算出した相互情報量MI（w_i,w_j）を用いて単語間の強さS（w_i,w_j）を計算する。また、単語集合N(w)中の全ての単語tについての関連の強さS（t,w_i）の平均値を文脈一貫性尺度SC(t)として計算する。

大量に蓄積された音声文書をデータマイニング処理する際は、上記したような認識信頼度が付与されたテキストが用いられる。

特開２００５−１４８３４２号公報

D. Inkpen, A. Desilets, "Semantic Similarity for Detecting Recognition Errors in Automatic Speech Transcripts,"Proceedings of HLT/EMNLP, pp.49-56, October 2005.

大量に蓄積された音声文書を音声認識によってテキスト化し、全文検索・文書分類・パターン抽出などのテキストマイニング処理を行う際、実際には発声されていない単語が音声認識誤りによってテキスト中に現れることにより、誤った情報がテキストマイニング結果に含まれてしまう問題がある。テキストマイニング結果に誤った情報が多数含まれる場合、テキストマイニング利用者が得られた結果を見て有用な知見を得ることは難しい。

上記したように、音声認識結果の各単語に認識信頼度を付与して認識信頼度の低い単語をテキストマイニング処理の対象から除外することで、誤った情報の抽出量を削減することが可能である。しかし、音声認識結果全体の認識精度が低い場合、単語に対する認識信頼度は認識の確からしさを正しく表さない傾向がある。例えば、周囲雑音の大きな環境で収録された音声文書の認識誤り単語に適切に認識信頼度を付与することは難しい。また、話者の話し方の差異を原因とする場合も、音声文書全体の認識信頼度が低くなり各単語に適切な認識信頼度を付与できない。

この発明は、このような課題に鑑みてなされたものであり、音声認識によってテキストデータに認識誤り単語が含まれ難いようにした音声認識方法とその装置と、プログラムを提供することを目的とする。

この発明の音声認識方法は、音声認識過程と、音声文書認識信頼度計算過程と、音声文書除去過程と、単語除去過程と、を含む。音声認識過程は、入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する。音声文書認識信頼度計算過程は、音声認識結果を入力として音声文書全体の認識信頼度である音声文書認識信頼度を計算して出力する。音声文書除去過程は、音声認識結果と音声文書認識信頼度とを入力として所定の音声文書認識信頼度閾値未満の音声文書を除去する。単語除去過程は、音声文書除去過程で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値未満の単語認識信頼度の単語を除去する。上記音声認識信頼度計算過程は、上記音声認識結果の単語を、その先頭から所定の数n個ずつｎより小さい数のm個移動させながら単語集合に分割する単語集合取得ステップと、上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値を足し合わせ、その足し合わせた値を上記単語集合の全単語の継続時間長の総和で除算して単語集合音響信頼度として求める単語集合音響信頼度計算ステップと、上記音声認識結果に含まれる全ての単語間の組み合わせの２単語間の関連度を表した単語関連度テーブルを参照して上記単語集合に含まれる２単語の組み合わせの関連の強さの平均値を単語集合文脈信頼度として求める単語集合文脈信頼度計算ステップと、上記音声文書全体の上記単語集合音響信頼度と上記単語集合文脈信頼度とを平均した値を、音声文書認識信頼度として求める信頼度統合ステップと、を含む。

この発明の音声認識方法は、音声文書単位での除去を行った後に、残った音声文書に対して単語単位の除去を行うので、認識信頼度が全体的に低い単語単位での除去が難しい音声認識結果を適切に除去することができる。したがって、例えば、テキストマイニング処理対象となるテキストデータに含まれる認識誤り単語の数を、効果的に削減することができる。その結果、テキストマイニングの利用者が有用な知見を得ることが可能となる。

また、この発明の音声認識方法を、音声認識に用いる確率モデルの教師なし適応に利用しても効果的である。つまり、認識誤り単語の少ない音声認識結果を収集することが可能であるので、収集した認識誤りの少ない音声認識結果を教師なし適応に用いれば音声認識精度を向上させることができる。

この発明の音声認識装置１００の機能構成例を示す図。音声認識装置１００の動作フローを示す図。Ｎベスト候補と単語認識信頼度について説明する図。音声文書認識信頼度計算部２０の機能構成例を示す図。音声文書認識信頼度計算部２０の動作フローを示す図。音声認識部１０が出力する単語w_n、単語認識信頼度D(w_n)の例を示す図。この発明の音声認識装置２００の機能構成例を示す図。音声認識装置２００の動作フローを示す図。単語関連度テーブル作成装置１５０の機能構成例を示す図。単語集合を概念的に示す図。単語関連度テーブルの一例を示す図。音声文書認識信頼度計算部７０の機能構成例を示す図。この発明の音声認識装置３００の機能構成例を示す図。音声文書認識信頼度高速計算部９０の機能構成例を示す図。音声文書認識信頼度高速計算部９０の動作フローを示す図。単語集合と直前重複フラグと直後重複フラグの例を示す図。単語集合取得ステップの動作フローの例を示す図。単語集合音響信頼度高速計算ステップの動作フローの例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の音声認識装置１００の機能構成例を示す。その動作フローを図２に示す。音声認識装置１００は、音声認識部１０と、音声文書認識信頼度計算部２０と、音声文書除去部３０と、単語除去部４０と、制御部５０と、を具備する。音声認識装置１００の各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

音声認識部１０は、入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する（ステップＳ１０）。音声認識部１０は、図示しない内部の音響分析部によって、音声文書を、数十msecのフレームと呼ばれる単位でＬＰＣケプストラム、ＭＦＣＣ、その他の音響特徴パラメータ系列に分析する。そして、辞書と言語モデルを用いて入力音声に対する認識結果候補の探索を、音響特徴パラメータ系列について行う。探索の結果、上位Ｎ位までのＮベスト候補が、単語認識信頼度と共に音声認識結果として出力される。なお、音声文書とは、例えば、コールセンターにおける顧客とオペレータとの間で交わされる会話の集合のことであり、一要件についてまとめられた音声データである。また、例えば一つの講義が１個の音声ファイルにまとめられた様なものである。

ここで、図３を参照してＮベスト候補と単語認識信頼度について説明する。なお、Ｎベスト候補と単語認識信頼度については従来技術である。単語認識信頼度については、例えば特許文献１に記載されている。

図３の横軸は、経過時間でありフレームで表す。縦軸は、フレーム単位で探索された単語列候補を、スコアの高い順番に並べたＮベスト候補である。スコアとは探索時の尤度のことである。

単語認識信頼度は、フレームt_*において単語w_**(*は任意の整数)と異なる単語がＮベスト候補中に存在する場合、単語w_**のフレームt_*におけるスコアと対立候補単語のフレームt_*における次の順位のスコアとの間のスコア差によって与えられる。図３に示す例では、フレームt₁〜t₄の音響特徴パラメータ系列で探索された第１位候補の単語w₁₁（11は第１候補の１番目の単語であることを表す）の単語認識信頼度は、対向する単語が第３位候補の単語w₃₁と第２位候補の単語w₂₁であるので、それぞれのスコア差（●）の合計をフレーム数で除した値が単語認識信頼度となる。対立候補が存在しない単語w₁₃については、予め決められた固定値（○）が用いられて単語認識信頼度となる。この単語認識信頼度が候補毎に累積されて単語列の認識信頼度となる。

音声文書認識信頼度計算部２０は、単語毎の単語認識信頼度及び単語列の認識信頼度から音声文書全体の認識信頼度である音声文書認識信頼度を計算して出力する（ステップＳ２０）。

音声文書除去部３０は、音声認識部１０が出力する音声認識結果と音声文書認識信頼度計算部２０が出力する音声文書認識信頼度とを入力として、所定の音声文書認識信頼度閾値θ_d未満の音声文書を除去する（ステップＳ３０）。

単語除去部４０は、音声文書除去部３０で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値θ_w未満の単語認識信頼度の単語を除去する（ステップＳ４０）。音声文書認識信頼度閾値θ_dと単語認識信頼度閾値θ_wは、予め定数として各部に備えておいても良いし、外部から与えても良い。

このように、音声認識装置１００は、音声文書単位での除去を行った後に、残った音声文書に対して単語単位の除去した音声認識結果を出力するので、音声認識結果に含まれる誤認識単語を削減することができる。

図４に音声文書認識信頼度計算部２０の機能構成を示して更に詳しく動作を説明する。その動作フローを図５に示す。音声文書認識信頼度計算部２０は、単語時間長取得手段２１と、正規化解除手段２２と、音声文書総時間長計算手段２３と、信頼度累積手段２４と、音声文書認識信頼度算出手段２５と、を備える。

単語時間長取得手段２１は、音声認識部２０が出力する単語の単語時間長を求める（ステップＳ２１）。単語時間長取得手段２１は、最初に音声文書の信頼度合計値D(W)と音声文書の総時間長WDを０に初期化する（ステップＳ５０）。ステップＳ５０〜Ｓ５２は、図１に示した制御部５０が処理する。

図６に、音声認識部２０が出力する単語w_n、単語認識信頼度D(w_n)の例を示す。ここでは、音声ファイルが１個のＮベスト候補から成る例で説明する。つまり添え字は一桁で説明する。例えば、単語w₁は名詞「本日」であり、単語認識信頼度D(w_n)は９８９１であり、その始端時刻（wd_nsFn）と終端時刻(wd_neFn)は０．００−０.９８[秒]である。単語認識信頼度D(w_n)の値は、マイナスの値もあり得る。図６の例では、「おいたわしい」がそれに該当する。第１位候補の単語のスコアが、下位の候補の単語のスコアよりも小さい場合に単語認識信頼度D(w_n)はマイナスとなる。この場合、第１位候補のその単語の信頼度は相当低いことを意味する。この単語認識信頼度D(w_n)の値は、音声認識結果の音響的な信頼度を表すものである。

単語時間長取得手段２１は、単語w₁の終端時刻から始端時刻を引いたその単語時間長wd₁を、０．９８[秒]若しくは、フレーム時間を例えば１０msecとした場合、９８フレームとして取得する（ステップＳ２１）。

正規化解除手段２２は、単語認識信頼度D(w₁)＝９８９１に単語時間長wd₁を乗じた単語信頼度wcを計算する（ステップＳ２２）。正規化解除手段２２は、フレーム数で正規化されていた単語認識信頼度の正規化を解除する働きをする。

信頼度累積手段２４は、正規化が解除された単語信頼度wcを累積した単語信頼度累積値D(W)を求める（ステップＳ２４）音声文書総時間長計算手段２３は、単語時間長取得手段２１で取得した単語時間長wd_*を音声ファイル全体で累積した音声文書総時間長WDを計算する（ステップＳ２３）。上記したステップＳ２１〜Ｓ２３の処理は、音声ファイルの全ての単語w_nについて処理されるまで、単語を更新（ステップＳ５２）しながら繰り返される（ステップＳ５１のno）。

音声文書認識信頼度算出手段２５は、単語信頼度累積値D(W)を音声文書総時間長WDで除した音声文書の音声文書認識信頼度docCを算出する（ステップＳ２５）。音声文書認識信頼度算出手段２５は、音声文書のフレーム当たりの認識信頼度を求めることになる。この音声文書認識信頼度docCは、音声文書の音声認識結果の音響的な品質を表す指標となる。

音声文書除去部３０は、音声文書の音響的な信頼度を表す音声文書認識信頼度docCと、事前に決められた音声文書認識信頼度閾値θ_dとを比較して音声文書認識信頼度docCがθ_d以上の場合、音声文書をそのまま単語除去部４０に出力する。音声文書認識信頼度docCがθ_d未満の場合は、その音声文書を単語除去部４０に出力しない。

音声文書認識信頼度閾値θ_dは実数値であり、大きな値（例えば30000程度）に設定すると出力される音声文書の音声認識精度は高くなる。小さな値（例えば-30000程度）に設定すると出力される音声文書の音声認識精度は低くなるが、出力される音声文書の数は増加する。

単語除去部４０は、音声文書除去部３０が出力した音声文書を構成する単語とその単語に付与された単語認識信頼度D(w_n)を入力として、単語認識信頼度D(w_n)の値が所定の単語認識信頼度閾値θw未満であれば当該単語を、除去されたことを表す所定の記号、例えば“<rejected>”に置換して音声文書を出力する。

以上の処理によって最終的に出力される音声認識結果は、音声認識精度の比較的高い音声文書から更に単語認識信頼度が低い単語が除去されたものになり、音声認識結果に含まれる誤認識単語を削減することができる。この音声認識装置１００を用いてデータマイニング用のテキストデータを取得すると、テキストデータに含まれる誤認識単語の数を減らすことができるので、テキストマイニングの利用者が有用な知見を得ることが可能になる。

図７にこの発明の音声認識装置２００の機能構成例を示す。その動作フローを図８に示す。音声認識装置２００は、上記した音声文書認識信頼度docCを、音響信頼度と文脈信頼度を組み合わせた値にしたものである。よって、音声文書認識信頼度計算部７０のみが、音声認識装置２００と異なる。音響信頼度とは、音声認識装置１００の音声文書認識信頼度docCと同じものである。以降、実施例１で述べた音声文書認識信頼度docCを音響信頼度と称する。

音声認識装置２００の音声文書認識信頼度計算部７０は、音声認識結果から文脈信頼度を得るために、音声認識結果を構成する単語間の関連度を示す単語関連度テーブル６０を参照する。単語関連度テーブル６０を作成する単語関連度テーブル作成装置１５０の動作を説明する。

〔単語関連度テーブル作成装置〕
図９に単語関連度テーブル作成装置１５０の機能構成例を示す。単語関連度テーブル作成装置１５０は、学習コーパス８１と、形態素解析部８２と、学習コーパス単語集合取得部８３と、単語リスト８４と、単語カウント部８５と、単語関連度計算部８６と、テーブル配列部８７と、を具備する。

学習コーパス８１は音声文書を大規模に集積したものである。形態素解析部８２は、学習コーパス８１から音声文書を読み出して単語に分割する周知の形態素解析処理を行い、各単語の前後に単語境界を表す記号、例えば「\ｎ」を付与した単語境界付き学習コーパスを出力する。形態素解析処理は周知であり、例えば参考文献「特許第３３７９６４３号」に記載されている。

学習コーパス単語集合取得部８３は、形態素解析部８２が出力する単語境界付き学習コーパスの先頭から末尾まで、窓幅n単語、窓シフト量m単語で窓かけを行い、各窓に含まれる単語リスト８４に記載された単語をまとめて単語集合とし、窓ごとの単語集合を出力する。単語リスト８４は、音声認識結果に出現し得る全ての単語が記載されたものであり、事前に作成しておく。図１０に、単語集合を概念的に示す。横方向は時間経過であり、単語集合をN₁〜N_ｈで示す。mは窓シフト量であり、nは窓幅である。隣り合う単語集合は、n-m個の単語を共有する関係にある。

単語カウント部８５は、学習コーパス単語集合取得部８３が出力する単語集合を入力として、単語集合内の各単語の単独生起回数C(w)、各単語ペアの生起回数C（w_i,w_j）、単語集合の総数をカウントして出力する。単語wの生起回数C(w)とは、単語wを含む単語集合の個数である。単語ペア（w_i,w_j）の生起回数C（w_i,w_j）とは、w_iとw_jを共に含む単語集合の個数である。

単語関連度計算部８６は、各単語ペア（w_i,w_j）の関連度S（w_i,w_j）を例えば式（１）で計算する。

Nは単語集合の総数、C(w)は単語wの単独生起回数、C（w_i,w_j）は単語w_iとw_jの共起回数である。関連度Ｓ（w_i,w_j）の値が大きいと、それらの単語同士の関連性が高いことを意味する。

テーブル配列部８７は、単語w_iとw_jから計算した関連度S（w_i,w_j）を参照できるテーブルの形式に配列する。図１１に単語関連度テーブル６０の一例を示す。最上列と最左列は単語w₁〜w_Nであり、各行と各列の交差する欄にそれぞれの単語の関連度S（w_i,w_j）が配列される。

図１２に音声文書認識信頼度計算部７０の機能構成例を示す。音声文書認識信頼度計算部７０は、認識結果単語集合取得手段７１と、単語集合音響信頼度計算手段７２と、単語集合信頼度計算手段７３と、信頼度統合手段７４と、を具備する。

認識結果単語集合取得手段７１は、音声認識結果の単語w_kと単語認識信頼度C(w_k)を、その先頭から所定の数n個ずつnより小さい数のm個移動させながらh個の単語集合に分割する。つまり、音声文書の音声認識結果の先頭からｎ単語を取得し、得られた単語集合をN₁とする。そして、音声認識結果の先頭からm単語目からn単語を取得し、得られた単語集合をN₂とする。次に、音声認識結果の先頭から2m単語目からn単語を取得し、得られた単語集合をN₃とする。以上の処理を音声文書の末尾に到達するまで繰り返し、h個の単語集合N_k(N_k：N₁〜N_h)を取得する。ｋは、実施例１ではnを用いた着目している単語集合及び単語を識別する変数である。

単語集合音響信頼度計算手段７２は、各単語集合に含まれる全ての単語の単語認識信頼度D(w)と単語時間長wd_kを取得して実施例１で説明済みの音声文書認識信頼度計算部２０と同じ処理をして単語集合N_k毎に音響信頼度CA(N_k)を計算する。

単語集合文脈信頼度計算手段７３は、各単語集合に含まれる全ての２単語の組み合わせ（w_i,w_j）に対して単語の関連の強さS（w_i,w_j）を単語関連度テーブル６０を参照して求め、その平均値を各単語集合の文脈信頼度CL(N_k)として計算する。

信頼度統合手段７４は、それぞれh個の音響信頼度CA(N_k)と文脈信頼度CL(N_k)の平均値を音声文書認識信頼度として計算して出力する。このように、音響信頼度CA(N_k)と文脈信頼度CL(N_k)を用いて音声文書の認識信頼度を算出することで、実施例１の音声文書認識信頼度よりも精度の高い音声文書認識信頼度とすることができる。

図１３に、音声文書認識信頼度を計算する処理を省力化したこの発明の音声認識装置３００の機能構成例を示す。音声認識装置３００は、音声文書認識信頼度高速計算部９０を備える点で、音声認識装置２００と異なる。音声文書認識信頼度高速計算部９０は、単語集合N_k間で重複する信頼度加算処理を省くことで、音響信頼度の計算を高速に計算するようにしたものである。

図１４に音声文書認識信頼度高速計算部９０の機能構成例を示す。その動作フローを図１５に示す。音声文書認識信頼度高速計算部９０は、単語集合取得手段９１と単語集合音響信頼度高速計算手段９２を備える点で、音声認識装置２００の単語集合音響信頼度計算手段７２と異なる。

単語集合取得手段９１は、音響信頼度の計算量を減らす目的で使用する直前重複フラグと直後重複フラグの２つのフラグを各単語に付与して単語集合を取得する。直前重複フラグとは、当該単語が直前の単語集合にも含まれるか否かを示す真偽値である。直後重複フラグとは、当該単語が直後の単語集合にも含まれるか否かを示す真偽値である。

単語集合取得手段９１は、音声認識部１０から入力される音声認識結果の単語w_kを、その先頭から所定の数n個ずつnより小さい数のm個移動させながらh個の単語集合に分割する（ステップＳ９１）。単語集合に分割する際、単語集合取得手段９１は、１番目の単語集合に追加する１番目からm番目の単語の直前重複フラグBFと直後重複フラグAFを偽、m+1番目からn番目の単語の直前重複フラグBFを偽及び直後重複フラグAFを真とし、Ｎ番目の単語集合に追加する１番目から（N-1）・m番目の単語の直前重複フラグを真及び直後重複フラグを偽、（N-1）・m+1番目からn+（N-1）・m番目の単語の直前重複フラグを偽及び直後重複フラグを真とする。

単語集合音響信頼度高速計算手段９２は、重複区間記憶部９２０を備え、直後重複フラグBFが真の単語の単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長を、重複区間記憶部９２０に記憶する。そして、直前重複フラグBFが偽で直後重複フラグAFが真の単語の単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長と、重複区間記憶部９２０に記憶された値とから単語集合の音響信頼度を計算する（ステップＳ９２）。

図１６に、単語集合N₁〜N_hと、各単語集合に付与された直前重複フラグBFと直後重複フラグAFの例を示す。図１６の横方向は経過時間である。横方向に重なり合う単語集合を縦方向にずらして表記している。

単語集合N₁の先頭からm個の単語は、前後の単語集合内の単語と重ならないので直前重複フラグBFと直後重複フラグAFは（BF：０，AF：０）である。単語集合N₁の先頭からｍ+1番目からｎ番目の単語は、直後の単語集合（N₂）の単語と重複するので直前重複フラグBFと直後重複フラグAFは（BF：０，AF：１）である。以降、BF：とAF：の表記を省略する場合もある。

２番目の単語集合N₂の1番目からm番目の単語は直前の単語集合（N₁）の単語とだけ重複するので（１，０）、m+1番目からn番目の単語は直前と直後の両方の単語集合の単語と重複するので（１，１）、n+1番目からn+m番目の単語は直後の単語集合の単語のみと重複するので（０，１）である。３番目以降の単語集合も２番目の単語集合と同じ関係である。

図１５の例では、mをm<n/2としたので（１，１）の状態が存在するが、m=n/2とすると直前重複フラグBFと直後重複フラグAFは、N₁が（（０，０），（０，１））、N₂以降が（（１，０），（０，１））となる。つまり、単語集合取得手段９１は１番目から（N-1）・m番目の単語の直前重複フラグBFを真及び直後重複フラグAFを偽、（N-1）・m+1番目からn+（N-1）・m番目の単語の直前重複フラグBFを偽及び直後重複フラグAFを真とする。

図１６に、図１５に示した単語集合を取得する単語集合取得手段９１の動作フローを示す。図１６は窓シフト量mをm<n/2とした例である。

音声文書認識信頼度計算部９０が処理を開始すると、単語集合取得手段９１は単語集合を特定する変数N_kと単語w_nを特定する変数w_k、及びカウント値iをそれぞれN_k＝N₁，w_k＝w₁,i=1に初期化する（ステップＳ９１ａ）。そして、音声認識結果の先頭からm番目までの単語w₁〜w_mまでの単語w_kの直前重複フラグBFを０（偽）、直後重複フラグAFを０（偽）に設定する（ステップＳ９１ｂ〜Ｓ９１ｄ）。更に、単語w_m+1〜w_nまでの単語w_kの直前重複フラグBFを０（偽）、直後重複フラグAFを１（真）に設定（ステップＳ９１ｅ〜Ｓ９１ｇ）して単語w₁〜w_nまでを１番目の単語集合N₁として取得する。

次に、単語集合N_kをN_k=N_k+1（ステップＳ９１ｈ）として２番目の単語集合N₂を取得する。ここで、着目する単語を表す変数w_kを、先頭の単語w₁からmi個移動させたw_k=w_miとする（ステップＳ９１ｉ）。ここではi=1なのでw_k=w_mである。

そこで、単語w_m+m、つまり、先頭の単語から2m個の単語までの直前重複フラグBFを１（真）、直後重複フラグAFを０（偽）に設定する（ステップＳ９１ｊ〜Ｓ９１ｍ）。そして、先頭の単語から2m+1個からn+m(i-1)個までの単語の直前重複フラグBFを１（真）、直後重複フラグAFを１（真）に設定する（ステップＳ９１ｎ〜Ｓ９１ｐ）。更に、先頭の単語からn+m(i-1)+1個目からn+mi個までの単語の直前重複フラグBFを０（偽）、直後重複フラグAFを１（真）に設定する（ステップＳ９１ｑ〜Ｓ９１ｓ）。このような処理によって、単語w_m〜w_ｎ+ｍは、その単語の直前重複フラグBFと直後重複フラグAFが図１５に示すように設定され、単語集合N₂として取得される。

そして、先頭からn+mi+1個目の単語が存在すれば、カウント値iをインクリメント（ステップＳ９１ｕ）、単語集合を現す変数N_kもN_k=N_k+1とインクリメント（ステップＳ９１ｖ）され、ステップＳ９１ｉの処理に戻る。

以上の処理（ステップＳ９１ｉ〜Ｓ９１ｖ）は、音声認識結果の最後の単語になるまで繰り返される（ステップＳ９１ｔのｎｏ）。その結果、音声認識結果の単語は、その先頭から所定の数n個ずつnより小さい数のm個移動させながらｈ個の単語集合に分割される。そして、各単語集合には、図１５に示すように直前重複フラグBFと直後重複フラグAFとが付与される。

単語集合音響信頼度高速計算手段９２は、重複区間記憶部９２０を備え、直後重複フラグAFが真の単語の単語信頼度を２度計算しないようにしたものである。図１８に示す単語集合音響信頼度高速計算手段９２の動作フローを参照して説明する。

単語集合音響信頼度高速計算手段９２は、最初に単語集合を特定する変数N_kと単語w_nを特定する変数w_kを、それぞれN_k＝N₁，w_k＝w₁に初期化する（ステップＳ９２ａ）。そして、単語集合音響信頼度高速計算手段９２は、単語（N₁，w₁）〜（N₁，w_n）の単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した単語信頼度を計算（ステップＳ９２ｂ）し、その単語信頼度wc_nを累積する（ステップＳ９２ｃ）。と共に、単語の継続時間長wd_nも累積する（ステップＳ９２ｄ）。この処理は、単語集合N₁の最後の単語w_nになるまで繰り返される（ステップＳ９２ｉ）。

そして、単語集合N₁の先頭からm個目の単語w_mから最後の単語w_nまでの単語の直後重複フラグAFが１（真）となるので、その単語w_m〜w_nまでの単語信頼度wc_nはBackDupDMに保存される（ステップＳ９２ｆ）。また、単語w_m〜w_nの継続時間長wd_nはBackDupWDに保存される（ステップＳ９２ｇ）。BackDupDMとBackDupWDは、例えばキュー（queue）と呼ばれるデータ構造で単語信頼度wc_ｋと継続時間長wd_ｋを保存するものとする。

最後の単語w_nまでの単語信頼度の計算が終わる（ステップＳ９２ｉのyes）と、単語集合N₁の音響信頼度を、単語信頼度wc_kの累積値S（wc_k）を継続時間長の累積値S（wd_k）で除して計算する（ステップＳ９２ｉ）。

２番目の単語集合N₂の先頭からn-ｍ番目、つまり先頭の単語からn個目の単語wm〜wnは、直前の単語集合N₁と重複しているので既に計算済みである。よって、BackDupDMに保存されている計算済みの単語信頼度をPreDMにコピーする（ステップＳ９２ｍ）と共にBackDupWDに保存されている継続時間長をPreWDにコピーする（ステップＳ９２ｎ）。そして、単語集合N₁で単語信頼度を計算していない直後重複フラグBＦが０（偽）の単語w_n+1〜w_n+miの正規化を解除して単語信頼度と継続時間長の累積を計算する（ステップＳ９２ｐとＳ９２ｑ）。なお、正規化解除のステップは作図の都合により表記を省略している。

新たに計算される直後重複フラグBＦが０（偽）の単語w_n+1〜w_n+miの単語信頼度wc_ｋと継続時間長wd_ｋは、BackDupDMとBackDupWDに保存される（ステップＳ９２ｒ）。BackDupDMとBackDupWDは、古い順番にデータが消去される構造なので最新の単語w_2m〜w_n+mの単語信頼度wc_kと継続時間長wd_kが保存される。音声認識結果の先頭の単語からn個目以降の単語（w_n+1〜）では、直前重複フラグBF=0の単語についてのみ正規化を解除する計算と継続時間長の累積計算を行い、新たに計算した値をキュー（BackDupDM,BackDupWD）に保存する(図１６参照)。

単語集合N₂の最後の単語w_n+miまで処理が終了する（ステップＳ９２ｔのyes）と、単語集合N₂の音響信頼度をBackDupDMに保存されている単語信頼度の和に新たに計算した単語信頼度を加えた累積値を、BackDupWDに保存されている継続時間長の和に新たに計算した継続時間長を加えた値で除して、単語集合N₂の音響信頼度を計算する（ステップＳ９２ｕ）。

そして、カウント値ｉがインクリメント（ステップＳ９２ｘ）され、着目する単語集合N_kもインクリトされN₃以降の単語集合に対して同じ処理が、音声認識結果の単語が無くなるまで繰り返される（ステップＳ９２ｗのyes）。このように、直前の単語集合N_kで計算済みの単語集合と継続時間長は、コピーして計算されるので２度計算することが無い。

つまり、単語集合音響信頼度高速計算手段９２は、重複区間記憶部９２０に直後重複フラグBFが真の単語の単語認識信頼度D(w_k)にその単語の継続時間長wd_kを乗算して時間正規化を解除した値wc_kとその継続時間長wd_kを記憶し、直前重複フラグAFが偽で直後重複フラグBFが真の単語の単語認識信頼度D(w_k)にその単語w_kの継続時間長を乗算して時間正規化を解除した値wc_kとその継続時間長wd_kと、重複区間記憶部９２０に記憶された値とから単語集合w_kの音響信頼度を計算する。よって、実施例１と２の音声認識装置よりも高速に音響信頼度を計算することができる。

なお、直前重複フラグBFと直後重複フラグAFを用いて音響信頼度を高速に計算する例を説明したが、その処理方法は上記した例に限定されない。例えば、図１８に示した例に加えて、重複区間の単語信頼度の合計と重複区間の継続時間長の合計を、それぞれ記憶して置くようにしても良い。そのようにすれば、音響信頼度を計算する度（ステップＳ９２ｕ）に行うキューに記憶された単語信頼度と継続時間長の累積値を計算する処理も削減することが可能である。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識過程と、
上記音声認識結果を入力として音声文書全体の認識信頼度である音声文書認識信頼度を計算して出力する音声認識信頼度計算過程と、
上記音声認識結果と上記音声文書認識信頼度とを入力として所定の音声文書認識信頼度閾値未満の音声文書を除去する音声文書除去過程と、
上記音声文書除去過程で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値未満の単語認識信頼度の単語を除去する単語除去過程と、
を含む音声認識方法において、
上記音声認識信頼度計算過程は、
上記音声認識結果の単語を、その先頭から所定の数n個ずつｎより小さい数のm個移動させながら単語集合に分割する単語集合取得ステップと、
上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値を足し合わせ、その足し合わせた値を上記単語集合の全単語の継続時間長の総和で除算して単語集合音響信頼度として求める単語集合音響信頼度計算ステップと、
上記音声認識結果に含まれる全ての単語間の組み合わせの２単語間の関連度を表した単語関連度テーブルを参照して上記単語集合に含まれる２単語の組み合わせの関連の強さの平均値を単語集合文脈信頼度として求める単語集合文脈信頼度計算ステップと、
上記音声文書全体の上記単語集合音響信頼度と上記単語集合文脈信頼度とを平均した値を、音声文書認識信頼度として求める信頼度統合ステップと、
を含むことを特徴とする音声認識方法。
入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識過程と、
上記音声認識結果を入力として音声文書全体の認識信頼度である音声文書認識信頼度を計算して出力する音声認識信頼度計算過程と、
上記音声認識結果と上記音声文書認識信頼度とを入力として所定の音声文書認識信頼度閾値未満の音声文書を除去する音声文書除去過程と、
上記音声文書除去過程で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値未満の単語認識信頼度の単語を除去する単語除去過程と、
を含む音声認識方法において、
上記音声認識信頼度計算過程は、
上記音声認識結果の単語を、その先頭から所定の数ｎ個ずつｎより小さい数のm個移動
させながら単語集合に分割し、１番目の単語集合に追加する１番目からm番目の単語の直
前重複フラグと直後重複フラグを偽とし、Ｎ番目の単語集合に追加する１番目からN・m番目の単語の直前重複フラグを真及び直後重複フラグを偽、N・m+1番目からn+N・m番目の単語の直前重複フラグを偽及び直後重複フラグを真とする単語集合取得ステップと、
上記直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長を記憶する重複区間記憶ステップと、
上記直前重複フラグが偽で直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長と、上記重複区間記憶ステップで記憶された値とから当該単語集合の音響信頼度を計算する単語集合音響信頼度高速計算ステップと、
を含むことを特徴とする音声認識方法。
入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識部と、
上記音声認識結果を入力として音声文書全体の認識信頼度である音声文書認識信頼度を計算して出力する音声認識信頼度計算部と、
上記音声認識結果と上記音声文書認識信頼度とを入力として所定の音声文書認識信頼度閾値未満の音声文書を除去するする音声文書除去部と、
上記音声文書除去部で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値未満の単語認識信頼度の単語を除去する単語除去部と、
を具備する音声認識装置において、
上記音声認識信頼度計算部は、
上記音声認識結果の単語を、その先頭から所定の数n個ずつｎより小さい数のm個移動させながら単語集合に分割する単語集合取得手段と、
上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値を足し合わせ、その足し合わせた値を上記単語集合の全単語の継続時間長の総和で除算して単語集合音響信頼度として求める単語集合音響信頼度計算手段と、
上記音声認識結果に含まれる全ての単語間の組み合わせの２単語間の関連度を表した単語関連度テーブルを参照して上記単語集合に含まれる２単語の組み合わせの関連の強さの平均値を単語集合文脈信頼度として求める単語集合文脈信頼度計算手段と、
上記音声文書全体の上記単語集合音響信頼度と上記単語集合文脈信頼度とを平均した値を、音声文書認識信頼度として求める信頼度統合手段と、
を備えることを特徴とする音声認識装置。
入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識部と、
上記音声認識結果を入力として音声文書全体の認識信頼度である音声文書認識信頼度を計算して出力する音声認識信頼度計算部と、
上記音声認識結果と上記音声文書認識信頼度とを入力として所定の音声文書認識信頼度閾値未満の音声文書を除去するする音声文書除去部と、
上記音声文書除去部で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値未満の単語認識信頼度の単語を除去する単語除去部と、
を具備する音声認識装置において、
上記音声認識信頼度計算部は、
上記音声認識結果の単語を、その先頭から所定の数ｎ個ずつｎより小さい数のm個移動
させながら単語集合に分割し、１番目の単語集合に追加する１番目からm番目の単語の直
前重複フラグと直後重複フラグを偽とし、Ｎ番目の単語集合に追加する１番目からN・m番目の単語の直前重複フラグを真及び直後重複フラグを偽、N・m+1番目からn+N・m番目の単語の直前重複フラグを偽及び直後重複フラグを真とする単語集合取得手段と、
上記直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長を記憶する重複区間記憶部と、
上記直前重複フラグが偽で直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長と、上記重複区間記憶部に記憶された値とから当該単語集合の音響信頼度を計算する単語集合音響信頼度高速計算手段と、
上記音声認識結果に含まれる全ての単語間の組み合わせの２単語間の関連度を表した単語関連度テーブルを参照して上記単語集合に含まれる２単語の組み合わせの関連の強さの平均値を単語集合文脈信頼度として求める単語集合文脈信頼度計算手段と、
上記音声文書全体の上記単語集合の音響信頼度と上記単語集合文脈信頼度とを平均した値を、音声文書認識信頼度として求める信頼度統合手段と、
を備えることを特徴とする音声認識装置。
請求項１又は２に記載した音声認識方法を、コンピュータに実行させるためのプログラム。