JP5513440B2

JP5513440B2 - 音声認識方法とその装置とプログラム

Info

Publication number: JP5513440B2
Application number: JP2011118145A
Authority: JP
Inventors: 太一浅見; 浩和政瀧; 義和山口; 哲小橋川; 済央野本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-05-26
Filing date: 2011-05-26
Publication date: 2014-06-04
Anticipated expiration: 2031-05-26
Also published as: JP2012247556A

Description

この発明は、音声認識結果の確からしさを表す認識スコアの計算方法を改善した音声認識方法と、その装置とプログラムに関する。

音声文書に含まれる各発話に対して音声認識処理を行い、発話ごとにスコア上位Ｎ位までの認識結果候補（以降、Ｎベスト候補と称する）を求めた後、Ｎベスト候補の順位付けをするためのスコアを長距離文脈情報に基づいて再計算する考えが、例えば非特許文献１に開示されている。

図１５に、非特許文献１の考えに基づく音声認識装置９００の機能構成例を示す。音声認識装置９００は、発話分割部９０、音声認識部９１、Ｎベスト候補スコア再計算部９２、音声認識結果出力部９３、制御部９４、を備える。

発話分割部９０は、音声文書を入力として音声文書を文ごとに分割して発話列として出力する。音声認識部１０は、図示しない内部の音響分析部によって、発話列を、数十msecのフレームと呼ばれる単位でＬＰＣケプストラム、ＭＦＣＣ、その他の音響特徴パラメータ系列に分析する。そして、辞書と言語モデルを用いて入力音声に対する認識結果候補の探索を、音響特徴パラメータ系列について行う。探索の結果、上位Ｎ位までのＮベスト候補が、単語認識信頼度と共に音声認識結果として出力される。制御部９４は各部の動作を制御する。

図１６を参照してＮベスト候補について説明する。横軸は、経過時間でありフレームで表す。縦軸は、フレーム単位で探索された単語列候補を、スコアの高い順番に並べたＮベスト候補である。スコアとは探索時の尤度のことである。Ｎベスト候補は、スコアが経過時間方向に累積された認識スコアの高い順に並べられる。

Ｎベスト候補スコア再計算部９２は、Ｎベスト候補を入力として単語認識信頼度に、長距離文脈情報である文書尤度D(S)を加えることでスコアを最適化（式（１））し、Ｎベスト候補を再計算する。音声認識結果出力部９３は、再計算されたＮベスト候補の第１位の単語列を音声認識結果として出力する。

ここで、A(s_i)とL(s_i)は単語認識信頼度を表す音響尤度と言語尤度である。Nは文数である。文書尤度D(S)は、単語の文脈的な関連性を示す値であり、この値を考慮することで文脈的な関連性を考慮した音声認識が可能になる。

文脈的な関連性を現す他の指標として、単語ペアの関連度を用いる考えが非特許文献２に開示されている。この考えは、文脈的な一貫性を音声文書内の各単語ペアの関連度の平均値を算出して利用する。単語xとyの関連度S(x,y)として自己相互情報量（PMI:Pointwise Mutual Information）の値を用いる。

式（２）に単語xとyの関連度S(x,y)の計算を示す。

ここで、Nは単語集合の個数、C(x,y)は単語xとyが共に含まれる単語集合の個数、C(x),C(y)は、それぞれ単語xが含まれる単語集合の個数と単語yが含まれる単語集合の個数である。

自己相互情報量PMI(x,y)の値は、単語xとyに関連が無い（独立に現れる）場合に０、一方の単語が現れた時に他方も現れ易い（独立よりも共起し易い）傾向がある場合に正の値、一方の単語が現れた時に他方が現れ難い（独立よりも共起し難い）傾向がある場合に負の値となる。傾向が強くなるにつれて、正の値の場合、負の値の場合、共に絶対値が大きくなる。このような単語ペアの関連度を用いても、文脈の一貫性を評価することが可能である。

中里理恵、貞光九月、冨山良介、山本幹雄、板橋秀一、「生成文書モデルを用いた文書読み上げ音声認識」 IPSJ SIG Technical Report,2005-SLP-57 浅見太一、小橋川哲、山口義和、政瀧浩和、高橋敏、「単語の文脈一貫性と音響尤度を用いた音声ドキュメント認識信頼度の推定」信学技報、電子情報通信学会、2010年7月

従来技術は、「過去または未来の発話に含まれる単語と関連の強い単語が現在の発話に現れ易い」ことを前提に文脈の一貫性を評価している。しかし、過去又は未来の発話に含まれる単語が認識誤りであった場合、その単語と関連の強い単語が現在の発話に現れ易いとは限らない。つまり、認識誤り単語を含む単語認識信頼度をベースに、文書尤度D(S)や単語ペアの関連度S(x,y)を用いて文脈を評価してＮベスト候補を再計算しても、文脈一貫性を正しく評価したことにならない。

この発明は、このような課題に鑑みてなされたものであり、認識誤り単語を文脈一貫性の評価に用いないようにした音声認識方法とその装置とプログラムを提供することを目的とする。

この発明の音声認識方法は、発話分割過程と、音声認識過程と、Ｎベスト候補スコア再計算過程と、音声認識結果出力過程と、を備える。発話分割過程は、入力される音声文書の発話区間を検出して発話列として出力する。音声認識過程は、発話列を入力として音声認識を行い発話区間ごとに上位Ｎ個の認識結果候補単語と認識スコアとを組みにしたＮベスト候補を求めＮベスト候補列として出力する。Ｎベスト候補スコア再計算過程は、Ｎベスト候補列を入力として、現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位１位の上記認識結果候補単語である過去発話単語を過去発話単語集合として、また、当該現在発話区間から上記音声文書の末尾方向に順位１位の上記認識結果候補単語である未来発話単語を未来発話単語集合として抽出すると共に、現在発話区間の全順位の認識結果候補単語である現在発話単語を現在発話単語集合として抽出し上記過去発話単語の２単語ペアの関連度の平均値である過去発話関連度と、上記未来発話単語の２単語ペアの関連度の平均値である未来発話関連度とを求め、全順位の上記現在発話単語と全ての上記過去発話単語の単語ペアの過去・現在関連度と、全順位の上記現在発話単語と全ての上記未来発話単語の単語ペアの現在・未来関連度とを求め、上記過去発話関連度と閾値を比較すると共に上記未来発話関連度と閾値とを比較することで上記過去発話単語集合内の関連性と上記未来発話単語集合内の関連性を評価し、関連性がある場合は上記過去・現在関連度と上記現在・未来関連度の値を考慮した認識スコアを再計算し、関連性がない場合はその関連度を考慮しない認識スコアを再計算して、その再計算した認識スコアに基づいて上記現在発話区間のＮベスト候補を並べ替える。音声認識結果出力過程は、各発話区間の順位１位の候補を連結した音声認識結果を出力する。

この発明の音声認識方法は、過去発話区間と未来発話区間の順位１位の発話区間に含まれる単語と、現在発話区間の全ての順位の認識結果候補単語との間の単語ペアの関連度を評価し、関連性がある場合のみ単語関連度を考慮して認識スコアを再計算してＮベスト候補を並べ替える。したがって、関連性がある単語ペアの関連度のみが認識スコアに反映される。つまり認識誤り単語を除外して文脈一貫性を評価した音声認識を行うことが出来る。

この発明の音声認識装置１００の機能構成例を示す図。音声認識装置１００の動作フローを示す図。音声文書の発話区間を示す図。発話列とＮベスト候補の関係を示す図。Ｎベスト候補スコア再計算部１０が抽出する単語ペアの関係を示す図。Ｎベスト候補スコア再計算部１０の機能構成例を示す図。Ｎベスト候補スコア再計算部１０の動作フローを示す図。重みαと名詞認識率との関係に関する実験結果を示す図。過去発話単語数nと未来発話単語数mと、名詞認識率との関係に関する実験結果を示す図。単語関連度テーブル作成装置２００の機能構成例を示す図。単語集合を概念的に示す図。単語関連度計算部３５の機構構成例を示す図。単語関連度計算部３５の動作フローを示す図。単語関連度テーブル１７の例を示す図。従来の音声認識装置９００の機能構成例を示す図。Ｎベスト候補と単語認識信頼度について説明する図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の音声認識装置１００の機能構成例を示す。その動作フローを図２に示す。音声認識装置１００は、発話分割部９０と、音声認識部９１と、Ｎベスト候補スコア再計算部１０と、音声認識結果出力部９３と、制御部５０と、を具備する。従来の音声認識装置９００（図１５）と、Ｎベスト候補スコア再計算部１０と制御部５０のみが異なる。音声認識装置１００の各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

発話分割部９０は、入力される音声文書内で、実際に音声が発声されている区間を切り出し、切り出した発話区間の全てを発話列として出力する（ステップＳ９０）。図３に音声文書と発話列との関係を示す。発話区間の検出は、既存のＶＡＤ（Voice Activity Detection）技術を用いる。図３の横方向は経過時間、縦方向は音声波形の振幅である。

音声認識部９１は、入力された各発話に対して音声認識を行い、発話ごとに音声認識スコア上位Ｎ個の認識結果（Ｎベスト候補）と各候補の認識スコアをセットにしたＮベスト候補を求める（ステップＳ９１）。Ｎベスト候補は認識スコアの降順に並べ替え、全てのＮベスト候補をＮベスト候補列として出力する。Ｎは２以上の整数値であり事前に設定する、Ｎを小さくし過ぎると、Ｎベスト候補内に正しい単語が含まれないケースが増え、後段のスコア再計算の効果が低くなる。Ｎを大きくし過ぎると、スコア再計算の計算量が増加する。通常Ｎ＝１００程度に設定する。

図４に発話列とＮベスト候補の関係を示す。発話列は、縦方向に時系列に発話１〜発話Ｋと配列される。各発話列を音声認識した結果のＮベスト候補は、各発話列に対して順位１位からＮ位まで、順位をk、発話番号＊として認識結果候補単語wk,*と、それぞれの認識スコアRk,*が組みで存在し、時系列にＮベスト候補列を構成する。

Ｎベスト候補スコア再計算部１０は、Ｎベスト候補列を入力として、現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位１位の上記認識結果候補単語である過去発話単語を過去発話単語集合として、また、当該現在発話区間から音声文書の末尾方向に順位１位の認識結果候補単語である未来発話単語を未来発話単語集合として抽出すると共に、現在発話区間の全順位の認識結果候補単語である現在発話単語を現在発話単語集合として抽出し、過去発話単語の２単語ペアの関連度の平均値である過去発話関連度と、上記未来発話単語の２単語ペアの関連度の平均値である未来発話関連度とを求め、全順位の上記現在発話単語と全ての上記過去発話単語の単語ペアの過去・現在関連度と、全順位の上記現在発話単語と全ての上記未来発話単語の単語ペアの現在・未来関連度とを求め、上記過去発話関連度と閾値を比較すると共に上記未来発話関連度と閾値とを比較することで上記過去発話単語集合内の関連性と上記未来発話単語集合内の関連性を評価し、関連性がある場合は上記過去・現在関連度と上記現在・未来関連度の値を考慮した認識スコアを再計算し、関連性がない場合はその関連度を考慮しない認識スコアを再計算して、その再計算した認識スコアに基づいて上記現在発話区間のＮベスト候補を並べ替える（ステップＳ１０）。

図５に、Ｎベスト候補スコア再計算部１０が抽出する単語ペアの関係を示す。例えば発話４を現在発話区間とすると現在発話単語集合は、Ｎベスト候補の(w_1,4,R_1,4),(w_2,4,R_2,4),…, (w_N,4,R_N,4)となる。未来発話単語集合は、現在発話区間から音声文書の冒頭方向に順位１位の認識結果候補単語wp1,wp2,…,wpnで構成される。wpnは音声文書の冒頭の発話の順位１位の認識結果候補単語で良いし、所定の数であるn個に限った発話の順位１位の認識結果候補単語でも良い。過去発話単語集合は、現在発話区間から音声文書の末尾方向に順位１位の認識結果候補単語wf1,wf2,…wfmで構成される。wfmは音声文書の末尾の発話の順位１位の認識結果候補単語で良いし、所定の数であるm個に限った発話の順位１位の認識結果候補単語でも良い。n個とm個を可変した場合の効果については後述する。

Ｎベスト候補スコア再計算部１０は、例えば過去発話単語集合と未来発話単語集合の認識結果候補単語の数を４個とした場合、過去発話単語の２単語ペアの数は６個、未来発話単語の２単語ペアの数も６個であり、それぞれの２単語ペアの関連度の平均値である過去発話関連度と未来発話関連度とを求める。そして、過去発話関連度と閾値を比較すると共に未来発話関連度と閾値とを比較することで、過去発話単語集合内の関連性と未来発話単語集合内の関連性を評価し、関連性が有る場合は過去・現在関連度と現在・未来関連度の値を考慮した認識スコアを再計算し、関連性が無い場合はその関連度を考慮しない認識スコアを再計算する。この処理を現在発話区間のＮベスト候補の全ての認識結果候補単語について行い、再計算した認識スコアで現在発話区間のＮベスト候補を並べ替える。その結果、現在発話区間のＮベスト候補は、関連性の強い順に並ぶことになる。

音声認識結果出力部９３が、各発話区間の順位１位の候補を連結した音声認識結果を出力する（ステップＳ９３）ことで、関連性の最も強い発話列が連結して出力される。つまり、文脈関連性のある認識結果候補単語が順次、音声認識結果として出力されることになる。

図６に、この発明の音声認識装置１００の主要部であるＮベスト候補スコア再計算部１０のより具体的な機能構成例を示して更に詳しくその動作を説明する。その動作フローを図７に示す。

Ｎベスト候補スコア再計算部１０は、単語抽出手段１１と、単語リスト１２と、過去発話単語ペア抽出手段１３と、過去・現在単語ペア抽出手段１４と、未来・現在関連度算出手段１５と、未来発話単語ペア抽出手段１６と、単語関連度テーブル１７と、過去・現在関連度評価手段１８と、現在・未来関連度評価手段１９と、スコア再計算手段２０と、を具備する。

単語抽出手段１１は、音声認識部９１が出力するＮベスト候補列を入力として、単語リスト１２を参照して現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位１位のn個の過去発話単語を過去発話単語集合として抽出する（ステップＳ１１０）。そして、当該現在発話区間から上記音声文書の末尾方向に順位１位のm個の単語リスト１２に記載された未来発話単語を未来発話単語集合として抽出する（ステップＳ１１１）。さらに、単語リスト１２を参照して現在発話区間の全ての順位の単語候補の現在発話単語を現在発話単語集合として抽出する（ステップＳ１１２）。単語リストは、音声認識に用いる辞書から名詞を抜き出して予め作成しておく。

過去発話単語ペア抽出手段１３は、過去発話単語集合の全ての２単語の組み合わせを過去発話単語ペアとして抽出し、その過去発話単語ペアの関連度を単語関連度テーブル１７を参照して求めその平均値である過去発話関連度平均値meanSpを算出する（ステップＳ１３）。

未来発話単語ペア抽出手段１６は、未来発話単語集合の全ての２単語の組み合わせを未来発話単語ペアとして抽出し、その未来発話単語ペアの関連度を単語関連度テーブル１７を参照して求めその平均値である未来発話関連度平均値meanSfを算出する（ステップＳ１６）。

過去・現在単語ペア抽出手段１４は、過去発話単語集合と現在発話単語集合の全ての単語の組み合わせを過去・現在単語ペアとして抽出する。例えば、過去発話単語集合の単語がwp1,wp2,wp3で、現在発話単語集合の単語がw_1,4,w_2,4,w_3,4(発話番号が４でＮベストの数が３個)とした場合、過去・現在単語ペアは(wp1,w_1,4),(wp1,w_2,4),(wp1,w_3,4),(wp2,w_1,4),(wp2,w_2,4), (wp2,w_3,4),(wp3,w_1,4),(wp3,w_2,4),(wp3,w_3,4)の９個の単語ペアが抽出される。そして、過去・現在単語ペアの関連度を単語関連度テーブル１７を参照して求めその平均値である過去・現在発話関連度平均値sumSkpcと過去・現在単語ペアの個数Nkpcを算出する（ステップＳ１４）。

未来・現在単語ペア抽出手段１５は、未来発話単語集合と現在発話単語集合の全ての単語の組み合わせを、過去・現在単語ペア抽出手段１４と同様の動作で未来・現在単語ペアとして抽出する。そして、未来・現在単語ペアの関連度を単語関連度テーブル１７を参照して求めその平均値である未来・現在発話関連度平均値sumSkfcと上記未来・現在単語ペアの個数Nkfcを算出する（ステップＳ１５）。

過去・現在関連度評価手段１８は、過去・現在発話単語関連度平均値sumSkpcと閾値θを比較し（ステップＳ１８０）、過去・現在発話関連度平均値sumSkpcの値が閾値θ以下の場合に、その過去・現在発話関連度平均値sumSkpcと過去発話単語ペアの個数Nkpcを０にリセットする（ステップＳ１８１）。

現在・未来関連度評価手段１９は、未来発話関連度平均値meanSfと閾値θを比較し（ステップＳ１９０）、未来・現在発話関連度平均値sumSkfcの値が閾値θ以下の場合に、その未来・現在発話関連度平均値sumSkfcと未来発話単語ペアの個数Nkfcを０にリセットする（ステップＳ１９１）。

スコア再計算手段２０は、現在発話区間の認識スコアR_k,iに重みαを乗じた値に、過去・現在発話関連度平均値sumSkpcと未来発話関連度平均値meanSfの和に１から重みαを減じた値を乗じた値を加えた値を、新たな認識スコアR_k,i′として再計算する（式（３）、ステップＳ２０））。

ここでαは重みである。

Ｎベスト候補スコア再計算部１０は、式（３）で再計算した新たな認識スコアR_k,i′の値でＮベスト候補を降順に並べ替える。Ｎベスト候補スコア再計算部１０は、図７に示す処理を繰り返し回数Ｔ回行う。２回目以降は、前回の処理によって再計算された認識スコアR_k,i′を使って処理を行う。この処理によって、各発話のＮベスト候補は過去及び未来の発話との関連が強くなるように並べ替えられる。繰り返し回数Ｔを大きくすると認識率は高くなるが処理時間が増加する。また、ある程度以上大きくしても認識率は向上しなくなるので、通常はＴ=2と設定する。

なお、閾値θは、単語関連度が負であることは通常起こり難い共起であることを表すため０とするのが良い。重みαは０〜１の実数値であり、０とすると式（３）から明らかなように認識スコアＲ_k,iの値が使われなくなり、１にすると単語関連度が使われなくなる関係にある。重みαはα=0.5とするのが良い。

図８に、重みαと名詞認識率との関係について実験した実験結果を示す。横軸は重みα、縦軸は名詞認識率[％]である。この実験は、電話会話音声784通話、名詞の個数135136個の音声文書を用いて行った。過去発話単語数n=10、未来発話単語数m=10とした。認識スコアを再計算しない従来法における名詞認識率は61.52％であった。

その従来の名詞認識率に対してこの発明の方法は、α=0.5で64.3％の名詞認識率が得られた。このようにこの発明の音声認識方法は認識率を向上させることが出来る。

図９に、過去発話単語数nと未来発話単語数mを可変した場合の名詞認識率の変化を示す。実験条件は重みαと同じである。横軸はn,mで両者同じ値とした。n,m=10以上で名詞認識率が飽和する特性が得られた。この結果から過去発話単語数nと未来発話単語数mの値は１０以上に設定すると良いことが分かる。

〔単語関連度テーブル作成装置〕
図１０に、上記した単語関連度テーブルを作成する単語関連度テーブル作成装置２００の機能構成例を示す。単語関連度テーブル作成装置２００は、学習コーパス３０、形態素解析部３１、学習コーパス単語集合取得部３２、単語リスト３３、単語カウント部３４、単語関連度計算部３５、テーブル配列部３６、を具備する。単語関連度テーブル作成装置２００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

学習コーパス３０は音声文書を大規模に集積したものである。形態素解析部３１は、学習コーパス３０から音声文書を読み出して単語に分割する周知の形態素解析処理を行い、各単語の前後に単語境界を表す記号、例えば「\n」を付与した単語境界付き学習コーパスを出力する。

学習コーパス単語集合取得部３２は、形態素解析部３１が出力する単語境界付き学習コーパスの先頭から末尾まで、窓幅n単語、窓シフト量m単語で窓かけを行い、各窓に含まれる単語リスト３３に記載された単語をまとめて単語集合とし、窓ごとの単語集合を出力する。単語リスト３３は、音声認識結果に出現し得る全ての単語が記載されたものであり、事前に作成しておく。図１１に、単語集合を概念的に示す。横方向は時間経過であり、単語集合をN₁〜N_hで示す。mは窓シフト量であり、nは窓幅である。隣り合う単語集合は、n-m個の単語を共有する関係にある。

単語カウント部３４は、学習コーパス単語集合取得部９２が出力する単語集合を入力として、単語集合内の各単語の単独生起回数C(w)、各単語ペアの生起回数C(w_i,w_j)、単語集合の個数Nをカウントして出力する。単語wの生起回数C(w)とは、単語wを含む単語集合の個数である。単語ペア（w_i,w_j）の生起回数C(w_i,w_j)とは、w_iとw_jを共に含む単語集合の個数である。

図１２に、より具体的な単語関連度計算部３５の機能構成例を示してその動作を説明する。その動作フローを図１３に示す。

単語関連度計算部３５は、生起回数補正手段３５０と、検定値計算手段３５１と、補正関連度計算手段３５２と、を具備する。生起回数補正手段３５０は、単語カウント部３４が出力する各単語wの単独生起回数C(w)と各単語ペアの生起回数C(w_i,w_j)を入力として、生起回数C(w_i,w_j)がr回となっている単語ペア(w_i,w_j)の種類数N_r（ステップＳ３５０ａ）と、生起回数C(w_i,w_j)がr-1回となっている単語ペア(w_i,w_j)の種類数N_r-1を数える（ステップＳ３５０ｂ）。そして、生起回数C(w_i,w_j)がr-1回より大きな単語ペア(w_i,w_j)の生起回数C(w_i,w_j)をそのまま補正後の生起回数C′(w_i,w_j)とし（ステップＳ３５０ｄ）、生起回数C(w_i,w_j)がr-1回の単語ペア(w_i,w_j)の補正後の生起回数C′(w_i,w_j)を、r-1回に上記種類数N_rを上記種類数N_r-1で除した値を乗じた値とする（式（４））（ステップＳ３５０ｅ）。

ここで生起回数のr回は、例えばr=1とすることが考えられる。これは、共起しない単語の数が最も大きいので、r＝1とすることで、殆んどの単語の生起回数が補正されることになるためである。また、rは２以上の整数に設定しても良い。その場合はr-１回から０回の生起回数C′(w_i,w_j)が補正される。

検定値計算手段３５１は、生起回数補正手段３５０が出力する単語集合の個数N、各単語の単独生起回数C(w)、単語ペアの補正後の生起回数C′(w_i,w_j)を入力として、上記単語ペア(w_i,w_j)が同時に発生する回数と各単語が単独で発生する回数の積との差を、統計的手法に基づいて検定する検定値を計算する（ステップＳ３５１）。検定値には例えばt値（式５）を用いることが出来る。

補正関連度計算手段３５２は、検定値計算手段３５１が出力する例えばt値と、生起回数補正手段３５０が出力する単語集合の個数N、各単語の単独生起回数C(w)、単語ペアの補正後の生起回数C′(w_i,w_j)を入力として、t値と閾値θ_Rを比較する（ステップＳ３５２ａ）。そして、t値が閾値θ_Rより大きな単語ペア(w_i,w_j)の関連度S（w_i,w_j）を、補正後の生起回数C′（w_i,w_j）に単語集合の個数Nを乗じた値を各単語の単独生起回数の積C(w_i）・C(w_j）で除した値の対数値（式（６））として出力する（ステップＳ３５２ｃ）。また、t値が閾値θ_Rより小さな単語ペア(w_i,w_j)の関連度S（w_i,w_j）は、関連度S（w_i,w_j）=0として出力する（ステップＳ３５２ｂ）。閾値θは、補正関連度計算手段３５２に予め設定しておいても良いし、外部から設定できるようにしても良い。

閾値θ_Rは、統計的手法のt検定の有意水準によって定める。閾値θ_Rを高く設定すると、より多くの単語ペア(w_i,w_j)が独立（関連なし）だと判定される。閾値θ_Rを高くし過ぎると、実際には関連のある単語ペア(w_i,w_j)まで独立だと判定するようになり、低くし過ぎると実際には独立な単語ペア(w_i,w_j)を独立でないと判定するようになる。閾値θ_Rには、例えば有意水準５％の場合の値である閾値θ_R=1.65を用いると良い。

このようにt値の値に応じて関連度S（w_i,w_j）を補正することで、「頻度の低い単語同士が共起した場合に自己相互情報量PMI(x,y)の値が非常に大きくなる」現象を、抑制することが出来る。例えば、単語xとyが１回ずつしか現れず、且つ共起していた（C(x)=C(y)=C(x,y)=1）場合のt値は、t値t(w_i,w_j)=1-1/Nとなり、閾値θ=1.65とするとt(w_i,w_j)<θであるので関連度S（w_i,w_j）=0とされ、その単語ペアには関連性が無いとされる。

このように処理された関連度S（w_i,w_j）は、各単語C(w)から参照できるテーブル形式に配列され単語関連度テーブル作成装置２００の出力となる。この単語関連度テーブル１７を利用することで、より適切な認識信頼度を付与することが可能になる。図１４に、単語関連度テーブル１７の一例を示す。最上列と最左列は単語w₁〜w_Nであり、各行と各列の交差する欄にそれぞれの単語の関連度S（w_i,w_j）が配列される。なお、検定値としてt値を用いる例で説明を行ったが、カイ二乗検定に基づくカイ二乗値χ²を用いても良い。その場合、検定値計算手段１２はカイ二乗値χ²を計算する。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力される音声文書の発話区間を検出して発話列として出力する発話分割過程と、
上記発話列を入力として音声認識を行い発話区間ごとに上位Ｎ個の認識結果候補単語と認識スコアとを組みにしたＮベスト候補を求めＮベスト候補列として出力する音声認識過程と、
上記Ｎベスト候補列を入力として、現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位１位の上記認識結果候補単語である過去発話単語を過去発話単語集合として、また、当該現在発話区間から上記音声文書の末尾方向に順位１位の上記認識結果候補単語である未来発話単語を未来発話単語集合として抽出すると共に、現在発話区間の全順位の認識結果候補単語である現在発話単語を現在発話単語集合として抽出し、
上記過去発話単語の２単語ペアの関連度の平均値である過去発話関連度と、上記未来発話単語の２単語ペアの関連度の平均値である未来発話関連度とを求め、全順位の上記現在発話単語と全ての上記過去発話単語の単語ペアの過去・現在関連度と、全順位の上記現在発話単語と全ての上記未来発話単語の単語ペアの現在・未来関連度とを求め、上記過去発話関連度と閾値を比較すると共に上記未来発話関連度と閾値とを比較することで、上記過去発話単語集合内の関連性と上記未来発話単語集合内の関連性を評価し、関連性がある場合は上記過去・現在関連度と上記現在・未来関連度の値を考慮した認識スコアを再計算し、関連性がない場合はその関連度を考慮しない認識スコアを再計算して、その再計算した認識スコアに基づいて上記現在発話区間のＮベスト候補を並べ替えるＮベスト候補スコア再計算過程と、
各発話区間の順位１位の候補を連結した音声認識結果を出力する音声認識結果出力過程と、
を備える音声認識方法。
請求項１に記載した音声認識方法において、
上記Ｎベスト候補スコア再計算過程は、
単語抽出手段が、上記Ｎベスト候補列を入力として、単語リストを参照して現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位１位のn個の過去発話単
語を過去発話単語集合として抽出すると共に、当該現在発話区間から上記音声文書の末尾方向に順位１位のm個の未来発話単語を未来発話単語集合として抽出し、現在発話区間の
全ての順位の単語候補の現在発話単語を現在発話単語集合として抽出する単語抽出ステップと、
過去発話単語ペア抽出手段が、上記過去発話単語集合の全ての２単語の組み合わせを過去発話単語ペアとして抽出し、当該過去発話単語ペアの関連度を単語関連度テーブルを参照して求めその平均値である過去発話関連度平均値meanSpを算出する過去発話単語ペア抽出ステップと、
未来発話単語ペア抽出手段が、上記未来発話単語集合の全ての２単語の組み合わせを未来発話単語ペアとして抽出し、当該未来発話単語ペアの関連度を単語関連度テーブルを参照して求めその平均値である未来発話関連度平均値meanSfを算出する未来発話単語ペア抽出ステップと、
過去・現在関連度算出手段が、上記過去発話単語と上記現在発話単語の全ての２単語の組み合わせを過去・現在単語ペアとして抽出し、当該過去・現在単語ペアの関連度を単語関連度テーブルを参照して求めその平均値である過去・現在発話関連度平均値sumSkpcと
上記過去・現在単語ペアの個数Nkpcを算出する過去・現在単語ペア抽出ステップと、
未来・現在単語ペア抽出手段が、上記未来発話単語と上記現在発話単語の全ての２単語の組み合わせを未来・現在単語ペアとして抽出し、当該未来・現在単語ペアの関連度を単語関連度テーブルを参照して求めその平均値である未来・現在発話関連度平均値sumSkfc
と上記未来・現在単語ペアの個数Nkfcを算出する未来・現在単語ペア抽出ステップと、
過去・現在関連度評価手段が、上記過去発話関連度平均値meanSpの値が閾値以下の場合
に当該過去発話関連度平均値meanSpと上記過去発話単語ペアの個数Nkpcを０にリセットする過去・現在関連度評価ステップと、
現在・未来関連度評価手段が、上記未来発話関連度平均値meanSfの値が閾値以下の場合に当該未来発話関連度平均値meanSfと上記未来発話単語ペアの個数Nkfcを０にリセットする現在・未来関連度評価ステップと、
スコア再計算手段が、現在発話区間の認識スコアRk,iに重みαを乗じた値に、上記過去・現在発話関連度平均値sumSkpcと上記未来発話関連度平均値meanSfの和に１から上記重みαを減じた値を乗じた値を加えた値を、新たな認識スコアRk,i′として再計算するスコア再計算ステップと、
を含むことを特徴とする音声認識方法。
請求項２に記載した音声認識方法において、
上記単語抽出手段が抽出する過去発話単語集合のn個と、未来発話単語集合のm個はそれぞれ１０個以上であることを特徴とする音声認識方法。
請求項２又は３に記載した音声認識方法において、
上記重みαがα=0.5であることを特徴とする音声認識方法。
請求項２乃至４の何れかに記載した音声認識方法において、
上記単語関連度テーブルは、
音声文書を集積した学習コーパスから音声文書を読み出して音声文書を単語に分割して単語境界付き学習コーパスを出力する形態素解析過程と、
上記単語境界付き学習コーパスを入力として上記単語境界付き学習コーパスの先頭から末尾まで、窓幅n単語、窓シフト量m単語で窓掛けを行い、各窓に含まれる単語リストに記載された単語をまとめて単語集合とし、窓ごとの単語集合を出力する学習コーパス単語集合取得過程と、
上記単語集合を入力として単語集合内の各単語の単独生起回数C(w)と、各単語ペアの生起回数C(wi,wj)と、単語集合の個数Nとをカウントして出力する単語カウント過程と、
上記単語集合内の各単語の単独生起回数C(w)と上記各単語ペアの生起回数C(wi,wj)と上記単語集合の個数Nを入力として。２個の単語間の単語関連度を計算する単語関連度計算過程と、
２個の単語間の関連度を参照できるテーブルの形式に配列するテーブル配列過程と、を備える単語関連度テーブル作成方法であって、
上記単語関連度計算過程は、
各単語の単独生起回数C(w)と各単語ペアの生起回数C(wi,wj)を入力として、上記生起回数C(wi,wj)がr回となっている単語ペア(wi,wj)の種類数Nrと、生起回数C(wi,wj)がr-1回となっている単語ペア(wi,wj)の種類数Nr-1を数え、生起回数C(wi,wj)がr-1回より大きな単語ペア(wi,wj)の生起回数C(wi,wj)をそのまま補正後の生起回数C′(wi,wj)とし、それ以外の補正後の生起回数C′(wi,wj)を、r回に上記種類数Nrを上記種類数Nr-1で除した値を乗じた値として出力する生起回数補正ステップと、
上記各単語の単独生起回数C(w)と補正後の生起回数C′(wi,wj)を入力として、上記単語ペア(wi,wj)が同時に発生する回数と各単語が単独で発生する回数の積との差を、統計的
手法に基づいて検定する検定値を計算する検定値計算ステップと、
上記単独生起回数C(w)と上記補正後の生起回数C′(wi,wj)と上記検定値を入力として、上記検定値が閾値より大きな単語ペア(wi,wj)の関連度を、補正後の生起回数C′(wi,wj)
に単語集合の個数Nを乗じた値を各単語の単独生起回数の積で除した値の対数値として出
力し、上記検定値が閾値よりも小さな単語ペア(wi,wj)の関連度を０として出力する補正関連度計算ステップと、
を含む単語関連度テーブル作成方法によって作成されたものであることを特徴とする音
声認識方法。
入力される音声文書の発話区間を検出して発話列として出力する発話分割部と、
上記発話列を入力として音声認識を行い発話区間ごとに音声認識スコアが上位Ｎ個の認識結果候補単語と認識スコアを組みにしたＮベスト候補を求めＮベスト候補列として出力する音声認識部と、
上記Ｎベスト候補列を入力として、現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位１位の上記認識結果候補単語である過去発話単語を過去発話単語集合として、また、当該現在発話区間から上記音声文書の末尾方向に順位１位の上記認識結果候補単語である未来発話単語を未来発話単語集合として抽出すると共に、現在発話区間の全順位の認識結果候補単語である現在発話単語を現在発話単語集合として抽出し、
上記過去発話単語の２単語ペアの関連度の平均値である過去発話関連度と、上記未来発話単語の２単語ペアの関連度の平均値である未来発話関連度とを求め、全順位の上記現在発話単語と全ての上記過去発話単語の単語ペアの過去・現在関連度と、全順位の上記現在発話単語と全ての上記未来発話単語の単語ペアの現在・未来関連度とを求め、上記過去発話関連度と閾値を比較すると共に上記未来発話関連度と閾値とを比較することで、上記過去発話単語集合内の関連性と上記未来発話単語集合内の関連性を評価し、関連性がある場合は上記過去・現在関連度と上記現在・未来関連度の値を考慮した認識スコアを再計算し、関連性がない場合はその関連度を考慮しない認識スコアを再計算して、その再計算した認識スコアに基づいて上記現在発話区間のＮベスト候補を並べ替えるＮベスト候補スコア再計算部と、
各発話区間の順位１位の候補を連結した音声認識結果を出力する音声認識結果出力部と、
を具備する音声認識装置。
請求項１乃至５の何れかに記載した音声認識方法を、コンピュータに実行させるための音声認識方法プログラム。