JP5406797B2 - 音声認識方法とその装置とプログラム - Google Patents

音声認識方法とその装置とプログラム Download PDF

Info

Publication number
JP5406797B2
JP5406797B2 JP2010158472A JP2010158472A JP5406797B2 JP 5406797 B2 JP5406797 B2 JP 5406797B2 JP 2010158472 A JP2010158472 A JP 2010158472A JP 2010158472 A JP2010158472 A JP 2010158472A JP 5406797 B2 JP5406797 B2 JP 5406797B2
Authority
JP
Japan
Prior art keywords
word
reliability
recognition
document
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010158472A
Other languages
English (en)
Other versions
JP2012022069A (ja
Inventor
太一 浅見
哲 小橋川
義和 山口
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010158472A priority Critical patent/JP5406797B2/ja
Publication of JP2012022069A publication Critical patent/JP2012022069A/ja
Application granted granted Critical
Publication of JP5406797B2 publication Critical patent/JP5406797B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、例えばデータマイニングに用いるテキストを生成するのに好適な音声認識方法とその装置と、プログラムに関する。
テキストデータとして収集されたデータを統計的に分析する手法を、一般的にテキストマイニングと称する。そのテキストデータを得る目的で音声認識を用いる場合がある。音声認識には、誤認識が付き物である。そこで、従来から、この音声認識誤りを減らす工夫が試みられている。
例えば、音声認識結果に、その認識結果の確からしさを表す認識信頼度を付与する方法がある。特許文献1に、音声認識処理の探索の結果の上位N位までのNベスト候補のスコア1位の単語w1の認識信頼度を、単語w1のスコアとスコア2位以下でw1と異なる単語w2とのスコア差を単語w1の継続時間長で正規化した値とする考えが示されている。
また、別の方法として、音声認識結果中の各単語間の関連の強さを計測して周囲の単語と関連の強い単語に、高い認識信頼度を付与し、関連の弱い単語に低い認識信頼度を付与する方法がある(非特許文献1)。この方法は、単語w及び単語wの直前k個の単語と直後の1単語とのn個の単語集合N(w)を音声認識結果から取得する。そして、その単語集合N(w)に含まれる全ての2単語の組み合わせ(wi,wj)に対して、事前に学習コーパス上で算出した相互情報量MI(wi,wj)を用いて単語間の強さS(wi,wj)を計算する。また、単語集合N(w)中の全ての単語tについての関連の強さS(t,wi)の平均値を文脈一貫性尺度SC(t)として計算する。
大量に蓄積された音声文書をデータマイニング処理する際は、上記したような認識信頼度が付与されたテキストが用いられる。
特開2005−148342号公報
D. Inkpen, A. Desilets, "Semantic Similarity for Detecting Recognition Errors in Automatic Speech Transcripts,"Proceedings of HLT/EMNLP, pp.49-56, October 2005.
大量に蓄積された音声文書を音声認識によってテキスト化し、全文検索・文書分類・パターン抽出などのテキストマイニング処理を行う際、実際には発声されていない単語が音声認識誤りによってテキスト中に現れることにより、誤った情報がテキストマイニング結果に含まれてしまう問題がある。テキストマイニング結果に誤った情報が多数含まれる場合、テキストマイニング利用者が得られた結果を見て有用な知見を得ることは難しい。
上記したように、音声認識結果の各単語に認識信頼度を付与して認識信頼度の低い単語をテキストマイニング処理の対象から除外することで、誤った情報の抽出量を削減することが可能である。しかし、音声認識結果全体の認識精度が低い場合、単語に対する認識信頼度は認識の確からしさを正しく表さない傾向がある。例えば、周囲雑音の大きな環境で収録された音声文書の認識誤り単語に適切に認識信頼度を付与することは難しい。また、話者の話し方の差異を原因とする場合も、音声文書全体の認識信頼度が低くなり各単語に適切な認識信頼度を付与できない。
この発明は、このような課題に鑑みてなされたものであり、音声認識によってテキストデータに認識誤り単語が含まれ難いようにした音声認識方法とその装置と、プログラムを提供することを目的とする。
この発明の音声認識方法は、音声認識過程と、音声文書認識信頼度計算過程と、音声文書除去過程と、単語除去過程と、を含む。音声認識過程は、入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する。音声文書認識信頼度計算過程は、音声認識結果を入力として音声文書全体の認識信頼度である音声文書認識信頼度を計算して出力する。音声文書除去過程は、音声認識結果と音声文書認識信頼度とを入力として所定の音声文書認識信頼度閾値未満の音声文書を除去する。単語除去過程は、音声文書除去過程で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値未満の単語認識信頼度の単語を除去する。上記音声認識信頼度計算過程は、上記音声認識結果の単語を、その先頭から所定の数n個ずつnより小さい数のm個移動させながら単語集合に分割する単語集合取得ステップと、上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値を足し合わせ、その足し合わせた値を上記単語集合の全単語の継続時間長の総和で除算して単語集合音響信頼度として求める単語集合音響信頼度計算ステップと、上記音声認識結果に含まれる全ての単語間の組み合わせの2単語間の関連度を表した単語関連度テーブルを参照して上記単語集合に含まれる2単語の組み合わせの関連の強さの平均値を単語集合文脈信頼度として求める単語集合文脈信頼度計算ステップと、上記音声文書全体の上記単語集合音響信頼度と上記単語集合文脈信頼度とを平均した値を、音声文書認識信頼度として求める信頼度統合ステップと、を含む。
この発明の音声認識方法は、音声文書単位での除去を行った後に、残った音声文書に対して単語単位の除去を行うので、認識信頼度が全体的に低い単語単位での除去が難しい音声認識結果を適切に除去することができる。したがって、例えば、テキストマイニング処理対象となるテキストデータに含まれる認識誤り単語の数を、効果的に削減することができる。その結果、テキストマイニングの利用者が有用な知見を得ることが可能となる。
また、この発明の音声認識方法を、音声認識に用いる確率モデルの教師なし適応に利用しても効果的である。つまり、認識誤り単語の少ない音声認識結果を収集することが可能であるので、収集した認識誤りの少ない音声認識結果を教師なし適応に用いれば音声認識精度を向上させることができる。
この発明の音声認識装置100の機能構成例を示す図。 音声認識装置100の動作フローを示す図。 Nベスト候補と単語認識信頼度について説明する図。 音声文書認識信頼度計算部20の機能構成例を示す図。 音声文書認識信頼度計算部20の動作フローを示す図。 音声認識部10が出力する単語wn、単語認識信頼度D(wn)の例を示す図。 この発明の音声認識装置200の機能構成例を示す図。 音声認識装置200の動作フローを示す図。 単語関連度テーブル作成装置150の機能構成例を示す図。 単語集合を概念的に示す図。 単語関連度テーブルの一例を示す図。 音声文書認識信頼度計算部70の機能構成例を示す図。 この発明の音声認識装置300の機能構成例を示す図。 音声文書認識信頼度高速計算部90の機能構成例を示す図。 音声文書認識信頼度高速計算部90の動作フローを示す図。 単語集合と直前重複フラグと直後重複フラグの例を示す図。 単語集合取得ステップの動作フローの例を示す図。 単語集合音響信頼度高速計算ステップの動作フローの例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1にこの発明の音声認識装置100の機能構成例を示す。その動作フローを図2に示す。音声認識装置100は、音声認識部10と、音声文書認識信頼度計算部20と、音声文書除去部30と、単語除去部40と、制御部50と、を具備する。音声認識装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
音声認識部10は、入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する(ステップS10)。音声認識部10は、図示しない内部の音響分析部によって、音声文書を、数十msecのフレームと呼ばれる単位でLPCケプストラム、MFCC、その他の音響特徴パラメータ系列に分析する。そして、辞書と言語モデルを用いて入力音声に対する認識結果候補の探索を、音響特徴パラメータ系列について行う。探索の結果、上位N位までのNベスト候補が、単語認識信頼度と共に音声認識結果として出力される。なお、音声文書とは、例えば、コールセンターにおける顧客とオペレータとの間で交わされる会話の集合のことであり、一要件についてまとめられた音声データである。また、例えば一つの講義が1個の音声ファイルにまとめられた様なものである。
ここで、図3を参照してNベスト候補と単語認識信頼度について説明する。なお、Nベスト候補と単語認識信頼度については従来技術である。単語認識信頼度については、例えば特許文献1に記載されている。
図3の横軸は、経過時間でありフレームで表す。縦軸は、フレーム単位で探索された単語列候補を、スコアの高い順番に並べたNベスト候補である。スコアとは探索時の尤度のことである。
単語認識信頼度は、フレームt*において単語w**(*は任意の整数)と異なる単語がNベスト候補中に存在する場合、単語w**のフレームt*におけるスコアと対立候補単語のフレームt*における次の順位のスコアとの間のスコア差によって与えられる。図3に示す例では、フレームt1〜t4の音響特徴パラメータ系列で探索された第1位候補の単語w11(11は第1候補の1番目の単語であることを表す)の単語認識信頼度は、対向する単語が第3位候補の単語w31と第2位候補の単語w21であるので、それぞれのスコア差(●)の合計をフレーム数で除した値が単語認識信頼度となる。対立候補が存在しない単語w13については、予め決められた固定値(○)が用いられて単語認識信頼度となる。この単語認識信頼度が候補毎に累積されて単語列の認識信頼度となる。
音声文書認識信頼度計算部20は、単語毎の単語認識信頼度及び単語列の認識信頼度から音声文書全体の認識信頼度である音声文書認識信頼度を計算して出力する(ステップS20)。
音声文書除去部30は、音声認識部10が出力する音声認識結果と音声文書認識信頼度計算部20が出力する音声文書認識信頼度とを入力として、所定の音声文書認識信頼度閾値θd未満の音声文書を除去する(ステップS30)。
単語除去部40は、音声文書除去部30で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値θw未満の単語認識信頼度の単語を除去する(ステップS40)。音声文書認識信頼度閾値θdと単語認識信頼度閾値θwは、予め定数として各部に備えておいても良いし、外部から与えても良い。
このように、音声認識装置100は、音声文書単位での除去を行った後に、残った音声文書に対して単語単位の除去した音声認識結果を出力するので、音声認識結果に含まれる誤認識単語を削減することができる。
図4に音声文書認識信頼度計算部20の機能構成を示して更に詳しく動作を説明する。その動作フローを図5に示す。音声文書認識信頼度計算部20は、単語時間長取得手段21と、正規化解除手段22と、音声文書総時間長計算手段23と、信頼度累積手段24と、音声文書認識信頼度算出手段25と、を備える。
単語時間長取得手段21は、音声認識部20が出力する単語の単語時間長を求める(ステップS21)。単語時間長取得手段21は、最初に音声文書の信頼度合計値D(W)と音声文書の総時間長WDを0に初期化する(ステップS50)。ステップS50〜S52は、図1に示した制御部50が処理する。
図6に、音声認識部20が出力する単語wn、単語認識信頼度D(wn)の例を示す。ここでは、音声ファイルが1個のNベスト候補から成る例で説明する。つまり添え字は一桁で説明する。例えば、単語w1は名詞「本日」であり、単語認識信頼度D(wn)は9891であり、その始端時刻(wdnsFn)と終端時刻(wdneFn)は0.00−0.98[秒]である。単語認識信頼度D(wn)の値は、マイナスの値もあり得る。図6の例では、「おいたわしい」がそれに該当する。第1位候補の単語のスコアが、下位の候補の単語のスコアよりも小さい場合に単語認識信頼度D(wn)はマイナスとなる。この場合、第1位候補のその単語の信頼度は相当低いことを意味する。この単語認識信頼度D(wn)の値は、音声認識結果の音響的な信頼度を表すものである。
単語時間長取得手段21は、単語w1の終端時刻から始端時刻を引いたその単語時間長wd1を、0.98[秒]若しくは、フレーム時間を例えば10msecとした場合、98フレームとして取得する(ステップS21)。
正規化解除手段22は、単語認識信頼度D(w1)=9891に単語時間長wd1を乗じた単語信頼度wcを計算する(ステップS22)。正規化解除手段22は、フレーム数で正規化されていた単語認識信頼度の正規化を解除する働きをする。
信頼度累積手段24は、正規化が解除された単語信頼度wcを累積した単語信頼度累積値D(W)を求める(ステップS24)音声文書総時間長計算手段23は、単語時間長取得手段21で取得した単語時間長wd*を音声ファイル全体で累積した音声文書総時間長WDを計算する(ステップS23)。上記したステップS21〜S23の処理は、音声ファイルの全ての単語wnについて処理されるまで、単語を更新(ステップS52)しながら繰り返される(ステップS51のno)。
音声文書認識信頼度算出手段25は、単語信頼度累積値D(W)を音声文書総時間長WDで除した音声文書の音声文書認識信頼度docCを算出する(ステップS25)。音声文書認識信頼度算出手段25は、音声文書のフレーム当たりの認識信頼度を求めることになる。この音声文書認識信頼度docCは、音声文書の音声認識結果の音響的な品質を表す指標となる。
音声文書除去部30は、音声文書の音響的な信頼度を表す音声文書認識信頼度docCと、事前に決められた音声文書認識信頼度閾値θdとを比較して音声文書認識信頼度docCがθd以上の場合、音声文書をそのまま単語除去部40に出力する。音声文書認識信頼度docCがθd未満の場合は、その音声文書を単語除去部40に出力しない。
音声文書認識信頼度閾値θdは実数値であり、大きな値(例えば30000程度)に設定すると出力される音声文書の音声認識精度は高くなる。小さな値(例えば-30000程度)に設定すると出力される音声文書の音声認識精度は低くなるが、出力される音声文書の数は増加する。
単語除去部40は、音声文書除去部30が出力した音声文書を構成する単語とその単語に付与された単語認識信頼度D(wn)を入力として、単語認識信頼度D(wn)の値が所定の単語認識信頼度閾値θw未満であれば当該単語を、除去されたことを表す所定の記号、例えば“<rejected>”に置換して音声文書を出力する。
以上の処理によって最終的に出力される音声認識結果は、音声認識精度の比較的高い音声文書から更に単語認識信頼度が低い単語が除去されたものになり、音声認識結果に含まれる誤認識単語を削減することができる。この音声認識装置100を用いてデータマイニング用のテキストデータを取得すると、テキストデータに含まれる誤認識単語の数を減らすことができるので、テキストマイニングの利用者が有用な知見を得ることが可能になる。
図7にこの発明の音声認識装置200の機能構成例を示す。その動作フローを図8に示す。音声認識装置200は、上記した音声文書認識信頼度docCを、音響信頼度と文脈信頼度を組み合わせた値にしたものである。よって、音声文書認識信頼度計算部70のみが、音声認識装置200と異なる。音響信頼度とは、音声認識装置100の音声文書認識信頼度docCと同じものである。以降、実施例1で述べた音声文書認識信頼度docCを音響信頼度と称する。
音声認識装置200の音声文書認識信頼度計算部70は、音声認識結果から文脈信頼度を得るために、音声認識結果を構成する単語間の関連度を示す単語関連度テーブル60を参照する。単語関連度テーブル60を作成する単語関連度テーブル作成装置150の動作を説明する。
〔単語関連度テーブル作成装置〕
図9に単語関連度テーブル作成装置150の機能構成例を示す。単語関連度テーブル作成装置150は、学習コーパス81と、形態素解析部82と、学習コーパス単語集合取得部83と、単語リスト84と、単語カウント部85と、単語関連度計算部86と、テーブル配列部87と、を具備する。
学習コーパス81は音声文書を大規模に集積したものである。形態素解析部82は、学習コーパス81から音声文書を読み出して単語に分割する周知の形態素解析処理を行い、各単語の前後に単語境界を表す記号、例えば「\n」を付与した単語境界付き学習コーパスを出力する。形態素解析処理は周知であり、例えば参考文献「特許第3379643号」に記載されている。
学習コーパス単語集合取得部83は、形態素解析部82が出力する単語境界付き学習コーパスの先頭から末尾まで、窓幅n単語、窓シフト量m単語で窓かけを行い、各窓に含まれる単語リスト84に記載された単語をまとめて単語集合とし、窓ごとの単語集合を出力する。単語リスト84は、音声認識結果に出現し得る全ての単語が記載されたものであり、事前に作成しておく。図10に、単語集合を概念的に示す。横方向は時間経過であり、単語集合をN1〜Nで示す。mは窓シフト量であり、nは窓幅である。隣り合う単語集合は、n-m個の単語を共有する関係にある。
単語カウント部85は、学習コーパス単語集合取得部83が出力する単語集合を入力として、単語集合内の各単語の単独生起回数C(w)、各単語ペアの生起回数C(wi,wj)、単語集合の総数をカウントして出力する。単語wの生起回数C(w)とは、単語wを含む単語集合の個数である。単語ペア(wi,wj)の生起回数C(wi,wj)とは、wiとwjを共に含む単語集合の個数である。
単語関連度計算部86は、各単語ペア(wi,wj)の関連度S(wi,wj)を例えば式(1)で計算する。
Figure 0005406797
Nは単語集合の総数、C(w)は単語wの単独生起回数、C(wi,wj)は単語wiとwjの共起回数である。関連度S(wi,wj)の値が大きいと、それらの単語同士の関連性が高いことを意味する。
テーブル配列部87は、単語wiとwjから計算した関連度S(wi,wj)を参照できるテーブルの形式に配列する。図11に単語関連度テーブル60の一例を示す。最上列と最左列は単語w1〜wNであり、各行と各列の交差する欄にそれぞれの単語の関連度S(wi,wj)が配列される。
図12に音声文書認識信頼度計算部70の機能構成例を示す。音声文書認識信頼度計算部70は、認識結果単語集合取得手段71と、単語集合音響信頼度計算手段72と、単語集合信頼度計算手段73と、信頼度統合手段74と、を具備する。
認識結果単語集合取得手段71は、音声認識結果の単語wkと単語認識信頼度C(wk)を、その先頭から所定の数n個ずつnより小さい数のm個移動させながらh個の単語集合に分割する。つまり、音声文書の音声認識結果の先頭からn単語を取得し、得られた単語集合をN1とする。そして、音声認識結果の先頭からm単語目からn単語を取得し、得られた単語集合をN2とする。次に、音声認識結果の先頭から2m単語目からn単語を取得し、得られた単語集合をN3とする。以上の処理を音声文書の末尾に到達するまで繰り返し、h個の単語集合Nk(Nk:N1〜Nh)を取得する。kは、実施例1ではnを用いた着目している単語集合及び単語を識別する変数である。
単語集合音響信頼度計算手段72は、各単語集合に含まれる全ての単語の単語認識信頼度D(w)と単語時間長wdkを取得して実施例1で説明済みの音声文書認識信頼度計算部20と同じ処理をして単語集合Nk毎に音響信頼度CA(Nk)を計算する。
単語集合文脈信頼度計算手段73は、各単語集合に含まれる全ての2単語の組み合わせ(wi,wj)に対して単語の関連の強さS(wi,wj)を単語関連度テーブル60を参照して求め、その平均値を各単語集合の文脈信頼度CL(Nk)として計算する。
信頼度統合手段74は、それぞれh個の音響信頼度CA(Nk)と文脈信頼度CL(Nk)の平均値を音声文書認識信頼度として計算して出力する。このように、音響信頼度CA(Nk)と文脈信頼度CL(Nk)を用いて音声文書の認識信頼度を算出することで、実施例1の音声文書認識信頼度よりも精度の高い音声文書認識信頼度とすることができる。
図13に、音声文書認識信頼度を計算する処理を省力化したこの発明の音声認識装置300の機能構成例を示す。音声認識装置300は、音声文書認識信頼度高速計算部90を備える点で、音声認識装置200と異なる。音声文書認識信頼度高速計算部90は、単語集合Nk間で重複する信頼度加算処理を省くことで、音響信頼度の計算を高速に計算するようにしたものである。
図14に音声文書認識信頼度高速計算部90の機能構成例を示す。その動作フローを図15に示す。音声文書認識信頼度高速計算部90は、単語集合取得手段91と単語集合音響信頼度高速計算手段92を備える点で、音声認識装置200の単語集合音響信頼度計算手段72と異なる。
単語集合取得手段91は、音響信頼度の計算量を減らす目的で使用する直前重複フラグと直後重複フラグの2つのフラグを各単語に付与して単語集合を取得する。直前重複フラグとは、当該単語が直前の単語集合にも含まれるか否かを示す真偽値である。直後重複フラグとは、当該単語が直後の単語集合にも含まれるか否かを示す真偽値である。
単語集合取得手段91は、音声認識部10から入力される音声認識結果の単語wkを、その先頭から所定の数n個ずつnより小さい数のm個移動させながらh個の単語集合に分割する(ステップS91)。単語集合に分割する際、単語集合取得手段91は、1番目の単語集合に追加する1番目からm番目の単語の直前重複フラグBFと直後重複フラグAFを偽、m+1番目からn番目の単語の直前重複フラグBFを偽及び直後重複フラグAFを真とし、N番目の単語集合に追加する1番目から(N-1)・m番目の単語の直前重複フラグを真及び直後重複フラグを偽、(N-1)・m+1番目からn+(N-1)・m番目の単語の直前重複フラグを偽及び直後重複フラグを真とする。
単語集合音響信頼度高速計算手段92は、重複区間記憶部920を備え、直後重複フラグBFが真の単語の単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長を、重複区間記憶部920に記憶する。そして、直前重複フラグBFが偽で直後重複フラグAFが真の単語の単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長と、重複区間記憶部920に記憶された値とから単語集合の音響信頼度を計算する(ステップS92)。
図16に、単語集合N1〜Nhと、各単語集合に付与された直前重複フラグBFと直後重複フラグAFの例を示す。図16の横方向は経過時間である。横方向に重なり合う単語集合を縦方向にずらして表記している。
単語集合N1の先頭からm個の単語は、前後の単語集合内の単語と重ならないので直前重複フラグBFと直後重複フラグAFは(BF:0,AF:0)である。単語集合N1の先頭からm+1番目からn番目の単語は、直後の単語集合(N2)の単語と重複するので直前重複フラグBFと直後重複フラグAFは(BF:0,AF:1)である。以降、BF:とAF:の表記を省略する場合もある。
2番目の単語集合N2の1番目からm番目の単語は直前の単語集合(N1)の単語とだけ重複するので(1,0)、m+1番目からn番目の単語は直前と直後の両方の単語集合の単語と重複するので(1,1)、n+1番目からn+m番目の単語は直後の単語集合の単語のみと重複するので(0,1)である。3番目以降の単語集合も2番目の単語集合と同じ関係である。
図15の例では、mをm<n/2としたので(1,1)の状態が存在するが、m=n/2とすると直前重複フラグBFと直後重複フラグAFは、N1が((0,0),(0,1))、N2以降が((1,0),(0,1))となる。つまり、単語集合取得手段91は1番目から(N-1)・m番目の単語の直前重複フラグBFを真及び直後重複フラグAFを偽、(N-1)・m+1番目からn+(N-1)・m番目の単語の直前重複フラグBFを偽及び直後重複フラグAFを真とする。
図16に、図15に示した単語集合を取得する単語集合取得手段91の動作フローを示す。図16は窓シフト量mをm<n/2とした例である。
音声文書認識信頼度計算部90が処理を開始すると、単語集合取得手段91は単語集合を特定する変数Nkと単語wnを特定する変数wk、及びカウント値iをそれぞれNk=N1,wk=w1,i=1に初期化する(ステップS91a)。そして、音声認識結果の先頭からm番目までの単語w1〜wmまでの単語wkの直前重複フラグBFを0(偽)、直後重複フラグAFを0(偽)に設定する(ステップS91b〜S91d)。更に、単語wm+1〜wnまでの単語wkの直前重複フラグBFを0(偽)、直後重複フラグAFを1(真)に設定(ステップS91e〜S91g)して単語w1〜wnまでを1番目の単語集合N1として取得する。
次に、単語集合NkをNk=Nk+1(ステップS91h)として2番目の単語集合N2を取得する。ここで、着目する単語を表す変数wkを、先頭の単語w1からmi個移動させたwk=wmiとする(ステップS91i)。ここではi=1なのでwk=wmである。
そこで、単語wm+m、つまり、先頭の単語から2m個の単語までの直前重複フラグBFを1(真)、直後重複フラグAFを0(偽)に設定する(ステップS91j〜S91m)。そして、先頭の単語から2m+1個からn+m(i-1)個までの単語の直前重複フラグBFを1(真)、直後重複フラグAFを1(真)に設定する(ステップS91n〜S91p)。更に、先頭の単語からn+m(i-1)+1個目からn+mi個までの単語の直前重複フラグBFを0(偽)、直後重複フラグAFを1(真)に設定する(ステップS91q〜S91s)。このような処理によって、単語wm〜wn+mは、その単語の直前重複フラグBFと直後重複フラグAFが図15に示すように設定され、単語集合N2として取得される。
そして、先頭からn+mi+1個目の単語が存在すれば、カウント値iをインクリメント(ステップS91u)、単語集合を現す変数NkもNk=Nk+1とインクリメント(ステップS91v)され、ステップS91iの処理に戻る。
以上の処理(ステップS91i〜S91v)は、音声認識結果の最後の単語になるまで繰り返される(ステップS91tのno)。その結果、音声認識結果の単語は、その先頭から所定の数n個ずつnより小さい数のm個移動させながらh個の単語集合に分割される。そして、各単語集合には、図15に示すように直前重複フラグBFと直後重複フラグAFとが付与される。
単語集合音響信頼度高速計算手段92は、重複区間記憶部920を備え、直後重複フラグAFが真の単語の単語信頼度を2度計算しないようにしたものである。図18に示す単語集合音響信頼度高速計算手段92の動作フローを参照して説明する。
単語集合音響信頼度高速計算手段92は、最初に単語集合を特定する変数Nkと単語wnを特定する変数wkを、それぞれNk=N1,wk=w1に初期化する(ステップS92a)。そして、単語集合音響信頼度高速計算手段92は、単語(N1,w1)〜(N1,wn)の単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した単語信頼度を計算(ステップS92b)し、その単語信頼度wcnを累積する(ステップS92c)。と共に、単語の継続時間長wdnも累積する(ステップS92d)。この処理は、単語集合N1の最後の単語wnになるまで繰り返される(ステップS92i)。
そして、単語集合N1の先頭からm個目の単語wmから最後の単語wnまでの単語の直後重複フラグAFが1(真)となるので、その単語wm〜wnまでの単語信頼度wcnはBackDupDMに保存される(ステップS92f)。また、単語wm〜wnの継続時間長wdnはBackDupWDに保存される(ステップS92g)。BackDupDMとBackDupWDは、例えばキュー(queue)と呼ばれるデータ構造で単語信頼度wcと継続時間長wdを保存するものとする。
最後の単語wnまでの単語信頼度の計算が終わる(ステップS92iのyes)と、単語集合N1の音響信頼度を、単語信頼度wckの累積値S(wck)を継続時間長の累積値S(wdk)で除して計算する(ステップS92i)。
2番目の単語集合N2の先頭からn-m番目、つまり先頭の単語からn個目の単語wm〜wnは、直前の単語集合N1と重複しているので既に計算済みである。よって、BackDupDMに保存されている計算済みの単語信頼度をPreDMにコピーする(ステップS92m)と共にBackDupWDに保存されている継続時間長をPreWDにコピーする(ステップS92n)。そして、単語集合N1で単語信頼度を計算していない直後重複フラグBFが0(偽)の単語wn+1〜wn+miの正規化を解除して単語信頼度と継続時間長の累積を計算する(ステップS92pとS92q)。なお、正規化解除のステップは作図の都合により表記を省略している。
新たに計算される直後重複フラグBFが0(偽)の単語wn+1〜wn+miの単語信頼度wcと継続時間長wdは、BackDupDMとBackDupWDに保存される(ステップS92r)。BackDupDMとBackDupWDは、古い順番にデータが消去される構造なので最新の単語w2m〜wn+mの単語信頼度wckと継続時間長wdkが保存される。音声認識結果の先頭の単語からn個目以降の単語(wn+1〜)では、直前重複フラグBF=0の単語についてのみ正規化を解除する計算と継続時間長の累積計算を行い、新たに計算した値をキュー(BackDupDM,BackDupWD)に保存する(図16参照)。
単語集合N2の最後の単語wn+miまで処理が終了する(ステップS92tのyes)と、単語集合N2の音響信頼度をBackDupDMに保存されている単語信頼度の和に新たに計算した単語信頼度を加えた累積値を、BackDupWDに保存されている継続時間長の和に新たに計算した継続時間長を加えた値で除して、単語集合N2の音響信頼度を計算する(ステップS92u)。
そして、カウント値iがインクリメント(ステップS92x)され、着目する単語集合NkもインクリトされN3以降の単語集合に対して同じ処理が、音声認識結果の単語が無くなるまで繰り返される(ステップS92wのyes)。このように、直前の単語集合Nkで計算済みの単語集合と継続時間長は、コピーして計算されるので2度計算することが無い。
つまり、単語集合音響信頼度高速計算手段92は、重複区間記憶部920に直後重複フラグBFが真の単語の単語認識信頼度D(wk)にその単語の継続時間長wdkを乗算して時間正規化を解除した値wckとその継続時間長wdkを記憶し、直前重複フラグAFが偽で直後重複フラグBFが真の単語の単語認識信頼度D(wk)にその単語wkの継続時間長を乗算して時間正規化を解除した値wckとその継続時間長wdkと、重複区間記憶部920に記憶された値とから単語集合wkの音響信頼度を計算する。よって、実施例1と2の音声認識装置よりも高速に音響信頼度を計算することができる。
なお、直前重複フラグBFと直後重複フラグAFを用いて音響信頼度を高速に計算する例を説明したが、その処理方法は上記した例に限定されない。例えば、図18に示した例に加えて、重複区間の単語信頼度の合計と重複区間の継続時間長の合計を、それぞれ記憶して置くようにしても良い。そのようにすれば、音響信頼度を計算する度(ステップS92u)に行うキューに記憶された単語信頼度と継続時間長の累積値を計算する処理も削減することが可能である。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識過程と、
    上記音声認識結果を入力として音声文書全体の認識信頼度である音声文書認識信頼度を計算して出力する音声認識信頼度計算過程と、
    上記音声認識結果と上記音声文書認識信頼度とを入力として所定の音声文書認識信頼度閾値未満の音声文書を除去する音声文書除去過程と、
    上記音声文書除去過程で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値未満の単語認識信頼度の単語を除去する単語除去過程と、
    を含む音声認識方法において、
    上記音声認識信頼度計算過程は、
    上記音声認識結果の単語を、その先頭から所定の数n個ずつnより小さい数のm個移動させながら単語集合に分割する単語集合取得ステップと、
    上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値を足し合わせ、その足し合わせた値を上記単語集合の全単語の継続時間長の総和で除算して単語集合音響信頼度として求める単語集合音響信頼度計算ステップと、
    上記音声認識結果に含まれる全ての単語間の組み合わせの2単語間の関連度を表した単語関連度テーブルを参照して上記単語集合に含まれる2単語の組み合わせの関連の強さの平均値を単語集合文脈信頼度として求める単語集合文脈信頼度計算ステップと、
    上記音声文書全体の上記単語集合音響信頼度と上記単語集合文脈信頼度とを平均した値を、音声文書認識信頼度として求める信頼度統合ステップと、
    を含むことを特徴とする音声認識方法。
  2. 入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識過程と、
    上記音声認識結果を入力として音声文書全体の認識信頼度である音声文書認識信頼度を計算して出力する音声認識信頼度計算過程と、
    上記音声認識結果と上記音声文書認識信頼度とを入力として所定の音声文書認識信頼度閾値未満の音声文書を除去する音声文書除去過程と、
    上記音声文書除去過程で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値未満の単語認識信頼度の単語を除去する単語除去過程と、
    を含む音声認識方法において、
    上記音声認識信頼度計算過程は、
    上記音声認識結果の単語を、その先頭から所定の数n個ずつnより小さい数のm個移動
    させながら単語集合に分割し、1番目の単語集合に追加する1番目からm番目の単語の直
    前重複フラグと直後重複フラグを偽とし、N番目の単語集合に追加する1番目からN・m番目の単語の直前重複フラグを真及び直後重複フラグを偽、N・m+1番目からn+N・m番目の単語の直前重複フラグを偽及び直後重複フラグを真とする単語集合取得ステップと、
    上記直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長を記憶する重複区間記憶ステップと、
    上記直前重複フラグが偽で直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長と、上記重複区間記憶ステップで記憶された値とから当該単語集合の音響信頼度を計算する単語集合音響信頼度高速計算ステップと、
    を含むことを特徴とする音声認識方法。
  3. 入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識部と、
    上記音声認識結果を入力として音声文書全体の認識信頼度である音声文書認識信頼度を計算して出力する音声認識信頼度計算部と、
    上記音声認識結果と上記音声文書認識信頼度とを入力として所定の音声文書認識信頼度閾値未満の音声文書を除去するする音声文書除去部と、
    上記音声文書除去部で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値未満の単語認識信頼度の単語を除去する単語除去部と、
    を具備する音声認識装置において、
    上記音声認識信頼度計算部は、
    上記音声認識結果の単語を、その先頭から所定の数n個ずつnより小さい数のm個移動させながら単語集合に分割する単語集合取得手段と、
    上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値を足し合わせ、その足し合わせた値を上記単語集合の全単語の継続時間長の総和で除算して単語集合音響信頼度として求める単語集合音響信頼度計算手段と、
    上記音声認識結果に含まれる全ての単語間の組み合わせの2単語間の関連度を表した単語関連度テーブルを参照して上記単語集合に含まれる2単語の組み合わせの関連の強さの平均値を単語集合文脈信頼度として求める単語集合文脈信頼度計算手段と、
    上記音声文書全体の上記単語集合音響信頼度と上記単語集合文脈信頼度とを平均した値を、音声文書認識信頼度として求める信頼度統合手段と、
    を備えることを特徴とする音声認識装置。
  4. 入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識部と、
    上記音声認識結果を入力として音声文書全体の認識信頼度である音声文書認識信頼度を計算して出力する音声認識信頼度計算部と、
    上記音声認識結果と上記音声文書認識信頼度とを入力として所定の音声文書認識信頼度閾値未満の音声文書を除去するする音声文書除去部と、
    上記音声文書除去部で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値未満の単語認識信頼度の単語を除去する単語除去部と、
    を具備する音声認識装置において、
    上記音声認識信頼度計算部は、
    上記音声認識結果の単語を、その先頭から所定の数n個ずつnより小さい数のm個移動
    させながら単語集合に分割し、1番目の単語集合に追加する1番目からm番目の単語の直
    前重複フラグと直後重複フラグを偽とし、N番目の単語集合に追加する1番目からN・m番目の単語の直前重複フラグを真及び直後重複フラグを偽、N・m+1番目からn+N・m番目の単語の直前重複フラグを偽及び直後重複フラグを真とする単語集合取得手段と、
    上記直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長を記憶する重複区間記憶部と、
    上記直前重複フラグが偽で直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長と、上記重複区間記憶部に記憶された値とから当該単語集合の音響信頼度を計算する単語集合音響信頼度高速計算手段と、
    上記音声認識結果に含まれる全ての単語間の組み合わせの2単語間の関連度を表した単語関連度テーブルを参照して上記単語集合に含まれる2単語の組み合わせの関連の強さの平均値を単語集合文脈信頼度として求める単語集合文脈信頼度計算手段と、
    上記音声文書全体の上記単語集合音響信頼度と上記単語集合文脈信頼度とを平均した値を、音声文書認識信頼度として求める信頼度統合手段と、
    を備えることを特徴とする音声認識装置。
  5. 請求項1又は2に記載した音声認識方法を、コンピュータに実行させるためのプログラム。
JP2010158472A 2010-07-13 2010-07-13 音声認識方法とその装置とプログラム Expired - Fee Related JP5406797B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010158472A JP5406797B2 (ja) 2010-07-13 2010-07-13 音声認識方法とその装置とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010158472A JP5406797B2 (ja) 2010-07-13 2010-07-13 音声認識方法とその装置とプログラム

Publications (2)

Publication Number Publication Date
JP2012022069A JP2012022069A (ja) 2012-02-02
JP5406797B2 true JP5406797B2 (ja) 2014-02-05

Family

ID=45776413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010158472A Expired - Fee Related JP5406797B2 (ja) 2010-07-13 2010-07-13 音声認識方法とその装置とプログラム

Country Status (1)

Country Link
JP (1) JP5406797B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6532619B2 (ja) * 2017-01-18 2019-06-19 三菱電機株式会社 音声認識装置
JP6811865B2 (ja) * 2017-08-08 2021-01-13 三菱電機株式会社 音声認識装置および音声認識方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1207517B1 (en) * 2000-11-16 2007-01-03 Sony Deutschland GmbH Method for recognizing speech
JP3819896B2 (ja) * 2003-11-14 2006-09-13 日本電信電話株式会社 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2012022069A (ja) 2012-02-02

Similar Documents

Publication Publication Date Title
JP6066354B2 (ja) 信頼度計算の方法及び装置
JPS63259697A (ja) 音声認識方法
JP2007256342A (ja) クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
WO2018192186A1 (zh) 语音识别方法及装置
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
KR20100130263A (ko) 음성 인식용 발음사전 확장 장치 및 방법
Khan et al. An intelligent system for spoken term detection that uses belief combination
JP2018077440A (ja) 音声認識装置、音声認識方法およびプログラム
CN107610693A (zh) 文本语料库的构建方法和装置
Sadeghian et al. Towards an automatic speech-based diagnostic test for Alzheimer’s disease
JP5406797B2 (ja) 音声認識方法とその装置とプログラム
JP5149941B2 (ja) 音声認識方法とその装置とプログラム
JP5546565B2 (ja) 単語追加装置、単語追加方法、およびプログラム
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Tejedor et al. Search on speech from spoken queries: the multi-domain International ALBAYZIN 2018 query-by-example spoken term detection evaluation
US20050246172A1 (en) Acoustic model training method and system
JP2011248107A (ja) 音声認識結果検索方法とその装置とプログラム
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP4478925B2 (ja) 音声認識結果の信頼度検証装置、コンピュータプログラム、及びコンピュータ
JP2004157337A (ja) トピック境界決定方法及び装置及びトピック境界決定プログラム
JP5308102B2 (ja) 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体
Ravi et al. Phoneme segmentation-based unsupervised pattern discovery and clustering of speech signals
JP5325176B2 (ja) 2チャネル音声の音声認識方法とその装置とプログラム
JP2005173008A (ja) 音声解析処理およびそれを用いた音声処理装置および媒体
JP7259988B2 (ja) 検知装置、その方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121101

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131101

R150 Certificate of patent or registration of utility model

Ref document number: 5406797

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees