JP5513461B2

JP5513461B2 - 音声認識装置とその方法とプログラム

Info

Publication number: JP5513461B2
Application number: JP2011210274A
Authority: JP
Inventors: 太一浅見; 済央野本; 哲小橋川; 義和山口; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-09-27
Filing date: 2011-09-27
Publication date: 2014-06-04
Anticipated expiration: 2031-09-27
Also published as: JP2013072922A

Description

この発明は、音声認識結果の確からしさを表す認識スコアの計算方法を改善した音声認識装置と、その方法とプログラムに関する。

音声文書に含まれる各発話に対して音声認識処理を行い、発話ごとにスコア上位Ｎ位までの認識結果候補（以降、Ｎベスト候補と称する）を求めた後、Ｎベスト候補の順位付けをするためのスコアを長距離文脈情報に基づいて再計算する考えが、例えば非特許文献１に開示されている。

図１７に、非特許文献１の考えに基づく音声認識装置９００の機能構成例を示す。音声認識装置９００は、発話分割部９０、音声認識部９１、Ｎベスト候補スコア再計算部９２、音声認識結果出力部９３、制御部９４、を備える。

発話分割部９０は、音声文書を入力として音声文書を文ごとに分割して発話列として出力する。音声認識部１０は、図示しない内部の音響分析部によって、発話列を、数十msecのフレームと呼ばれる単位でＬＰＣケプストラム、ＭＦＣＣ、その他の音響特徴パラメータ系列に分析する。そして、辞書と言語モデルを用いて入力音声に対する認識結果候補の探索を、音響特徴パラメータ系列について行う。探索の結果、上位Ｎ位までのＮベスト候補が、単語認識信頼度と共に音声認識結果として出力される。制御部９４は各部の動作を制御する。

図１８を参照してＮベスト候補について説明する。横軸は、経過時間でありフレームで表す。縦軸は、フレーム単位で探索された単語列候補を、スコアの高い順番に並べたＮベスト候補である。スコアとは探索時の尤度のことである。Ｎベスト候補は、スコアが経過時間方向に累積された認識スコアの高い順に並べられる。

Ｎベスト候補スコア再計算部９２は、Ｎベスト候補を入力として単語認識信頼度に、長距離文脈情報である文書尤度D(S)を加えることでスコアを最適化（式（１））し、Ｎベスト候補を再計算する。音声認識結果出力部９３は、再計算されたＮベスト候補の第１位の単語列を音声認識結果として出力する。

ここで、A(s_i)とL(s_i)は単語認識信頼度を表す音響尤度と言語尤度である。Nは文数である。文書尤度D(S)は、単語の文脈的な関連性を示す値であり、この値を考慮することで文脈的な関連性を考慮した音声認識が可能になる。

文脈的な関連性を現す他の指標として、単語ペアの関連度を用いる考えが非特許文献２に開示されている。この考えは、文脈的な一貫性を音声文書内の各単語ペアの関連度の平均値を算出して利用する。単語xとyの関連度S(x,y)として自己相互情報量（PMI:Pointwise Mutual Information）の値を用いる。

式（２）に単語xとyの関連度S(x,y)の計算を示す。

ここで、Nは単語集合の個数、C(x,y)は単語xとyが共に含まれる単語集合の個数、C(x),C(y)は、それぞれ単語xが含まれる単語集合の個数と単語yが含まれる単語集合の個数である。

自己相互情報量PMI(x,y)の値は、単語xとyに関連が無い（独立に現れる）場合に０、一方の単語が現れた時に他方も現れ易い（独立よりも共起し易い）傾向がある場合に正の値、一方の単語が現れた時に他方が現れ難い（独立よりも共起し難い）傾向がある場合に負の値となる。傾向が強くなるにつれて、正の値の場合、負の値の場合、共に絶対値が大きくなる。このような単語ペアの関連度を用いても、文脈の一貫性を評価することが可能である。

中里理恵、貞光九月、冨山良介、山本幹雄、板橋秀一、「生成文書モデルを用いた文書読み上げ音声認識」 IPSJ SIG Technical Report,2005-SLP-57 浅見太一、小橋川哲、山口義和、政瀧浩和、高橋敏、「単語の文脈一貫性と音響尤度を用いた音声ドキュメント認識信頼度の推定」信学技報、電子情報通信学会、2010年7月

以下、音声文書中の着目している箇所を現在、着目している箇所から見て音声文書冒頭方向を過去、着目している箇所から見て音声文書末尾方向を未来と書く。従来技術は、「過去または未来の発話に含まれる単語と関連の強い単語が現在の発話に現れ易い」ことを前提に文脈の一貫性を評価している。しかし、単語と単語の間に話題境界が存在する場合、関連の強い単語が現れ易いとは限らない。話題境界を跨いだ単語からの長距離文脈情報に基づいてＮベスト候補のスコアの再計算を行うと、誤った単語に高いスコアを与えてしまい認識誤りが増加する場合がある。

この発明は、このような課題に鑑みてなされたものであり、Ｎベスト候補のスコア再計算時に、話題境界を跨いだ単語からの長距離文脈情報の利用を回避するようにした音声認識装置とその方法とプログラムを提供することを目的とする。

この発明の音声認識装置は、発話分割部と、音声認識部と、話題境界検出部と、Ｎベスト候補スコア再計算部と、音声認識結果出力部と、を具備する。発話分割部は、入力される音声文書の発話区間を検出して発話列として出力する。音声認識部は、発話列を入力として音声認識を行い発話区間ごとに音声認識スコアが上位Ｎ個の認識結果候補と認識スコアを組みにしたＮベスト候補を求めＮベスト候補列として出力する。話題境界検出部は、Ｎベスト候補列を入力として、当該Ｎベスト候補列中の現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向にある順位１位の認識結果候補を過去発話単語集合として抽出すると共に、当該現在発話区間を中心として当該現在発話区間から音声文書の末尾方向にある順位１位の上記認識結果候補を未来発話単語集合として抽出し、過去発話単語集合と未来発話単語集合の全ての２単語ペアの関連度の平均値である過去・未来間関連度平均値meanSpfを求め、当該過去・未来間関連度平均値meanSpfと所定の閾値δとを比較して音声文書の話題境界を判定し、話題境界と判定した場合、現在発話区間を１つ更新して、上記過去発話単語集合を抽出する処理から繰り返す。Ｎベスト候補スコア再計算部は、話題境界検出部において話題境界と判定されなかった現在発話区間の各順位ごとに、対象にしている順位の認識結果候補単語列から現在発話単語を現在発話単語集合として抽出し、過去発話単語集合と現在発話単語集合の全ての２単語ペアの関連度の合計値である過去・現在間関連度合計値sumSkpcを計算すると共に、現在発話単語集合と未来発話単語集合の全ての２単語ペアの関連度の合計値である現在・未来間関連度合計値sumSkfcを計算し、当該現在発話区間の認識スコアを、過去・現在間関連度合計値sumSkpcと現在・未来間関連度合計値sumSkfcの平均値を用いた値に再計算し、その再計算した認識スコアに基づいて現在発話区間のＮベスト候補を並べ替える処理を、音声文書の最後の発話区間についての処理が終了するまで上記話題境界検出部の処理から繰り返す。音声認識結果出力部は、各発話区間の順位１位の候補を連結した音声認識結果を出力する。

この発明の音声認識装置によれば、現在発話区間を中心として音声文書の冒頭方向にある順位１位の認識結果候補の過去発話単語集合と、音声文書の末尾方向にある順位１位の認識結果候補の未来発話単語集合との全ての２単語ペアの関連度の平均値に基づいて、現在発話区間が話題境界に当たるか否かを判定し、話題境界と判定されなかった場合に、現在発話区間の認識スコアを、過去・現在間関連度合計値と現在・未来間関連度合計値の平均値を用いた値に再計算する。つまり、話題境界があると判定した場合にはＮベスト候補のスコア再計算を行わない。よって、話題境界を跨いだ単語を用いた長距離文脈情報の利用を回避することができ、認識スコアの精度をより高めることが出来る。

この発明の音声認識装置１００の機能構成例を示す図。音声認識装置１００の動作フローを示す図。音声文書の発話区間を示す図。発話列とＮベスト候補の関係を示す図。Ｎベスト候補スコア再計算部２０が抽出する単語ペアの関係を示す図。話題境界検出部１０の機能構成例を示す図。話題境界検出部１０の動作フローを示す図。Ｎベスト候補スコア再計算部２０の機能構成例を示す図。Ｎベスト候補スコア再計算部２０の動作フローを示す図。実施例２の音声認識装置２００のＮベスト候補スコア再計算部２０の機能構成例を示す図。Ｎベスト候補スコア再計算部２０の動作フローを示す図。単語関連度テーブル作成装置３００の機能構成例を示す図。単語集合を概念的に示す図。単語関連度計算部３５の機構構成例を示す図。単語関連度計算部３５の動作フローを示す図。単語関連度テーブル１５の例を示す図。従来の音声認識装置９００の機能構成例を示す図。Ｎベスト候補と単語認識信頼度について説明する図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の音声認識装置１００の機能構成例を示す。その動作フローを図２に示す。音声認識装置１００は、発話分割部９０と、音声認識部９１と、話題境界検出部１０と、Ｎベスト候補スコア再計算部２０と、音声認識結果出力部９３と、制御部５０と、を具備する。従来の音声認識装置９００（図１７）と、話題境界検出部１０を備える点と、Ｎベスト候補スコア再計算部２０と制御部５０とが異なる。音声認識装置１００の各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

発話分割部９０は、入力される音声文書内で、実際に音声が発声されている区間を切り出し、切り出した発話区間の全てを発話列として出力する（ステップＳ９０）。図３に音声文書と発話列との関係を示す。発話区間の検出は、既存のＶＡＤ（Voice Activity Detection）技術を用いる。図３の横方向は経過時間、縦方向は音声波形の振幅である。

音声認識部９１は、入力された各発話に対して音声認識を行い、発話ごとに音声認識スコア上位Ｎ個の認識結果（Ｎベスト候補）と各候補の認識スコアをセットにしたＮベスト候補を求める（ステップＳ９１）。Ｎベスト候補は認識スコアの降順に並べ替え、全てのＮベスト候補をＮベスト候補列として出力する。Ｎは２以上の整数値であり事前に設定する、Ｎを小さくし過ぎると、Ｎベスト候補内に正しい単語が含まれないケースが増え、後段のスコア再計算の効果が低くなる。Ｎを大きくし過ぎると、スコア再計算の計算量が増加する。通常Ｎ＝１００程度に設定する。

図４に発話列とＮベスト候補の関係を示す。発話列は、縦方向に時系列に発話１〜発話Ｉと配列される。各発話列を音声認識した結果のＮベスト候補は、各発話列に対して順位１位からＮ位まで、順位をk、発話番号＊として認識結果候補単語列wk,*と、それぞれの認識スコアRk,*が組みで存在し、時系列にＮベスト候補列を構成する。

話題境界検出部１０は、そのＮベスト候補列を入力として、当該Ｎベスト候補列中の現在発話区間を中心として当該発話区間から音声文書の冒頭方向にある順位１位の認識結果候補を過去発話単語集合として抽出すると共に、当該現在発話区間を中心としてその現在発話区間から音声文書の末尾方向にある順位１位の認識結果候補を未来発話単語集合として抽出し、過去発話単語集合と未来発話単語集合の全ての２単語ペアの関連度の平均値である過去・未来間関連度平均値meanSpfを求め、その過去・未来間関連度平均値meanSpfと所定の閾値δとを比較して音声文書の話題境界を判定し、話題境界と判定した場合、現在発話区間を１つ更新して、上記した過去発話単語集合を抽出する処理から繰り返す（ステップＳ１０）。

Ｎベスト候補スコア再計算部２０は、話題境界検出部１０において話題境界と判定されなかった現在発話区間の各順位ごとに認識結果候補単語列の認識スコアを再計算する。順位ｋの認識結果候補単語列に含まれる単語のうち、単語リスト１３に記載の単語を現在発話単語集合として抽出し、過去発話単語集合と現在発話単語集合の全ての２単語ペアの関連度の合計値である過去・現在間関連度合計値sumSkpcを計算すると共に、現在発話単語集合と未来発話単語集合の全ての２単語ペアの関連度の合計値である現在・未来間関連度合計値sumSkfcを計算し、現在発話区間の認識スコアを、過去・現在間関連度合計値sumSkpcと現在・未来間関連度合計値sumSkfcの平均値を用いた値に再計算する処理をＮベスト候補の全順位の認識結果候補単語列について行い、その再計算した認識スコアに基づいて現在発話区間のＮベスト候補を並べ替える処理を、音声文書の最後の発話区間についての処理が終了するまで上記した話題境界検出部１０の処理から繰り返す（ステップＳ２０）。単語リスト１３は、音声認識に用いる辞書から全ての名詞を抜き出して予め作成しておく。

図５に、Ｎベスト候補スコア再計算部２０が抽出する単語ペアの関係を示す。例えば発話４を現在発話区間とすると順位１位の現在発話単語集合は、認識結果候補単語列w_1,4に含まれる単語となる。過去発話単語集合は、現在発話区間から音声文書の冒頭方向に順位１位の認識結果候補単語wp1,wp2,…,wpnで構成される。wpnは音声文書の冒頭の発話の順位１位の認識結果候補単語で良いし、所定の数であるn個に限った発話の順位１位の認識結果候補単語でも良い。未来発話単語集合は、現在発話区間から音声文書の末尾方向に順位１位の認識結果候補単語wf1,wf2,…wfmで構成される。wfmは音声文書の末尾の発話の順位１位の認識結果候補単語で良いし、所定の数であるm個に限った発話の順位１位の認識結果候補単語でも良い。

Ｎベスト候補スコア再計算部２０は、過去発話単語集合と順位ｋの現在発話単語集合間の２単語ペアの関連度の合計値である過去・現在間関連度合計値sumSkpcと、順位ｋの現在発話単語集合と未来発話単語集合間の２単語ペアの関連度の合計値である現在・未来間関連度合計値sumSkfcとを求める。そして、話題境界と判定されなかった現在発話区間の順位ｋの認識結果候補単語列の認識スコアを、過去・現在間関連度合計値sumSkpcと現在・未来間関連度合計値sumSkfcの平均値を用いた値に再計算し、その再計算した認識スコアに基づいて現在発話区間のＮベスト候補を並べ替える処理を、音声文書の最後の発話区間についての処理が終了するまで上記した話題境界検出部１０の処理から繰り返す。再計算した認識スコアで並べ替えられた認識結果候補は、関連性の強い順に並ぶことになる。

音声認識結果出力部９３が、各発話区間の順位１位の候補を連結した音声認識結果を出力する（ステップＳ９３）ことで、関連性の最も強い発話列が連結して出力される。つまり、文脈関連性のある認識結果候補単語が順次、音声認識結果として出力されることになる。

図６に、話題境界検出部１０のより具体的な機能構成例を示して更に詳しくその動作を説明する。その動作フローを図７に示す。

話題境界検出部１０は、過去発話単語集合抽出手段１１と、未来発話単語集合抽出手段１２と、単語リスト１３と、過去・未来間関連度計算手段１４と、単語関連度テーブル１５と、話題境界判定手段１６と、を具備する。

過去発話単語集合抽出手段１１は、先ず現在発話区間をｉ＝１として初期化する（ステップＳ５００）。そして、Ｎベスト候補列を入力として、Ｎベスト候補列中の現在発話区間（ｉ＝１）を中心としてその現在発話区間から音声文書の冒頭方向（ｉ＝ｉ−１）にある順位１位の認識結果候補を過去発話単語集合（wp1,wp2,…wpn）として抽出する（ステップＳ１１）。未来発話単語集合抽出手段１２は、現在発話区間から音声文書の末尾方向（ｉ＝ｉ＋１）にある順位１位の認識結果候補を未来発話単語集合（wf1,wf2, …wpm）として抽出する（ステップＳ１２）。過去発話単語集合（wp1,wp2,…wpn）と未来発話単語集合（wf1,wf2, …wpm）の抽出は、単語リスト１３を参照して行われる。

過去・未来間関連度計算手段１４は、過去発話単語集合（wp1,wp2,…wpn）と未来発話単語集合（wf1,wf2, …wpm）の全ての２単語の組み合わせを過去・未来間発話単語ペアとして抽出し、その過去・未来間発話単語ペアの関連度を単語関連度テーブル１５を参照して求め、その平均値である過去・未来間関連度平均値meanSpfを計算する（ステップＳ１４）。

話題境界判定手段１６は、過去・未来間関連度平均値meanSpfと所定の閾値とを比較して音声文書の話題境界を判定する（ステップＳ１６）。例えば、関連度S(x,y)を上記した式（２）で求める場合、所定の閾値δは、単語関連度が負であることは通常起こり難い共起であることを表すためδ＝０と設定する。

過去・未来間関連度平均値meanSpfが、所定の閾値δよりも小さい場合（ステップＳ１６０のＹｅｓ）、過去発話単語集合（wp1,wp2,…wpn）と未来発話単語集合（wf1,wf2, …wpm）との関連度が低く、現在発話区間（ｉ＝１）は話題境界と判定される。そして、現在発話区間を１つ更新（ステップＳ１６１）して次の話題境界を検出するためにステップＳ１１からの処理が繰り返される。

ステップＳ１６０で、現在発話区間（ｉ＝１）が話題境界で無いと判定された場合（ステップＳ１６０のＮｏ）、Ｎベストスコア再計算部２０が動作を開始する。

図８に、Ｎベスト候補スコア再計算部２０の機能構成例を示す。その動作フローを図９に示す。Ｎベストスコア再計算部２０は、現在発話単語集合抽出手段２１と、過去・現在間関連度合計値計算手段２２と、現在・未来間関連度合計値計算手段２３と、スコア再計算手段２４と、単語リスト１３と、単語関連度テーブル１５と、を具備する。単語リスト１３と単語関連度テーブル１５は、話題境界検出部１０と同じものである。

現在発話単語集合抽出手段２１は、先ず各発話列の順位情報ｋを順位１位に初期化する（ステップＳ５０１）。そして、話題境界検出部１０において話題境界と判定されなかった現在発話区間（ｉ＝１）の対象にしている順位ｋ（最初は１位）の認識結果候補単語列から、単語リスト１３に載っている単語を現在発話単語集合（w₁,w₂,…,w_Ｍ、Ｍは対象にしている順位の認識結果候補単語列の単語リスト１３に載っている単語数）として抽出する（ステップＳ２１）。

過去・現在間関連度合計値計算手段２２は、過去発話単語集合（wp1,wp2,…wpn）と順位ｋの現在発話単語集合（w₁,w₂,…,w_Ｍ）を入力として、過去・現在間の全ての２単語ペアの関連度を単語関連度テーブル１５を参照して求め、その関連度の合計値である過去・現在間関連度合計値sumSkpcと単語ペアの数Nkpcを計算する（ステップＳ２２）。

現在・未来間関連度合計値計算手段２３は、順位ｋの現在発話単語集合（w₁,w₂,…,w_Ｍ）と未来発話単語集合（wf1,wf2, …wpm）を入力として、現在・未来間の全ての２単語ペアの関連度を単語関連度テーブル１５を参照して求め、その関連度の合計値である現在・未来間関連度合計値sumSkfcと単語ペアの数Nkfcを計算する（ステップＳ２３）。

スコア再計算手段２４は、現在発話区間（ｉ＝１）の順位ｋの認識スコアを、過去・現在間関連度合計値sumSkpcと現在・未来間関連度合計値sumSkfcの平均値を用いた値に再計算する（ステップＳ２４）。再計算は、全順位ｋの候補について終了（ステップＳ２４１のＹｅｓ）するまで順位ｋが更新（ステップＳ２４２）されて繰り返される。再計算は、式（３）に示すように、現在発話区間（ｉ＝１）の認識スコアを、そもそもの現在発話区間の認識スコアR_k,iと、過去・現在間関連度合計値sumSkpcと現在・未来間関連度合計値sumSkfcの平均値との重み付き和で計算する。

ここでαは重みである。重みαは０〜１の実数値であり、０とすると式（３）から明らかなように認識スコアＲ_k,iの値が使われなくなり、１にすると単語関連度が使われなくなる関係にある。重みαはα=0.5とするのが良い。

Ｎベスト候補スコア再計算部２０は、式（３）で再計算した新たな認識スコアR_k,i′の値でＮベスト候補を降順に並べ替える。話題境界検出部１０とＮベスト候補スコア再計算部２０は、図７と図９に示す処理を繰り返し回数Ｔ回行う。図７と図９の処理は、結合子Ａを介して連係している（図１において、Ｎベスト候補スコア再計算部２０から話題境界検出部１０に向かう線）。２回目以降は、前回の処理によって再計算された認識スコアR_k,i′を使って処理を行う。この処理によって、各発話のＮベスト候補は過去及び未来の発話との関連が強くなるように並べ替えられる。繰り返し回数Ｔを大きくすると認識率は高くなるが処理時間が増加する。また、ある程度以上大きくしても認識率は向上しなくなるので、通常はＴ=2と設定する。この処理により、各発話区間のＮベスト候補は過去及び未来の発話との関連が強くなるように並べ替えられる。ただし、話題境界と判定された発話区間のＮベスト候補の並べ替えは行われない。

Ｎベスト候補スコア再計算部２０におけるスコア再計算処理は、話題境界検出部１０において話題境界と判定されなかった全ての発話区間について終了するまで、現在発話区間が１つ更新（ステップＳ２４４）されながら繰り返される（ステップＳ２４３のＮｏ）。

したがって、Ｎベスト候補スコア再計算部２０は、話題境界と判定された発話区間についてＮベスト候補のスコア再計算を行わない。つまり、話題境界を跨ぐ単語に基づく過去・現在間関連度合計値sumSkpcと現在・未来間関連度合計値sumSkfcとを用いた現在発話区間の認識スコアR_k,iの再計算は行われない。よって、誤った単語に高い認識スコアを与えてしまうことを防止することができ、音声認識誤りを抑制することが出来る。

次に、話題境界の有無の判定に加えて認識誤りが多いか否かを判定してスコア再計算を行うこの発明の音声認識装置２００について説明する。

音声認識装置２００は、音声認識装置１００のＮベスト候補スコア再計算部２０を、Ｎベスト候補スコア再計算部３０に置き換えたものである。他の機能構成は、音声認識装置１００と同じである。

図１０に、Ｎベスト候補スコア再計算部３０の機能構成例を示す。その動作フローを図１１に示す。Ｎベスト候補スコア再計算部３０は、過去発話単語関連度平均値算出手段３１と、未来発話単語関連度平均値算出手段３２と、過去・現在間関連度評価手段３３と、現在・未来間関連度評価手段３４と、を備える点でＮベスト候補スコア再計算部２０と異なる。現在発話単語集合抽出手段２１と、単語リスト１３と、単語関連度テーブル１５と、過去・現在間関連度合計値計算手段２２と、現在・未来間関連度合計値計算手段２３と、スコア再計算手段２４と、はＮベスト候補スコア再計算部２０と同じものである。

現在発話単語集合抽出手段２１は、先ず各発話列の順位情報ｋを順位１位に初期化する（ステップＳ５０１）。そして、話題境界検出部１０において話題境界と判定されなかった現在発話区間（ｉ＝１）の対象にしている順位の認識結果候補単語列から、単語リスト１３に載っている単語を現在発話単語集合（w₁,w₂,…,w_Ｍ、Ｍは対象にしている順位の認識結果候補単語列の単語リスト１３に載っている単語数）として抽出する（ステップＳ２１）。

過去発話単語関連度平均値算出手段３１は、過去発話単語集合の全ての２単語の組み合わせを過去発話単語ペアとして抽出し、その過去発話単語ペアの関連度を単語関連度テーブル１５を参照して求めその平均値である過去発話単語関連度平均値meanSpを算出する（ステップＳ３１）。未来発話単語関連度平均値算出手段３２は、未来発話単語集合の全ての２単語の組み合わせを未来発話単語ペアとして抽出し、その未来発話単語ペアの関連度を単語関連度テーブル１５を参照して求めその平均値である未来発話単語関連度平均値meanSfを算出する（ステップＳ３２）。例えば過去発話単語集合と未来発話単語集合の認識結果候補単語の数を４個とした場合、過去発話単語集合の全ての２単語ペアの数は６個、未来発話単語集合の全ての２単語ペアの数も６個であり、それぞれの２単語ペアの関連度の平均値である過去発話単語関連度平均値meanSpと未来発話単語関連度平均値meanSfとを算出する。

過去・現在間関連度合計値計算手段２２は、過去発話単語集合と現在発話単語集合の全ての単語の組み合わせを過去・現在単語ペアとして抽出する。例えば、過去発話単語集合の単語がwp1,wp2,wp3で、現在発話単語集合の単語がw_1,4,w_2,4,w_3,4(発話番号が４でＮベストの数が３個)とした場合、過去・現在単語ペアは、wp1とw_1,4、w_2,4、w_3,4の各単語集合に含まれる単語との単語ペアが抽出される。そして、過去・現在単語ペアの関連度を単語関連度テーブル１５を参照して求めその合計値である過去・現在発話関連度合計値sumSkpcと過去・現在単語ペアの個数Nkpcを算出する（ステップＳ２２）。例えば、過去発話単語集合の単語がwp1,wp2,wp3でk=1の場合には、w_1,4に含まれる単語の総数の３倍が過去・現在単語ペアの個数Nkpcとなる。

現在・未来間関連度合計値計算手段２３は、未来発話単語集合と現在発話単語集合の全ての単語の組み合わせを、過去・現在間関連度合計値計算手段２２と同様の動作で未来・現在単語ペアとして抽出する。そして、未来・現在単語ペアの関連度を単語関連度テーブル１５を参照して求めその平均値である未来・現在発話関連度平均値sumSkfcと上記未来・現在単語ペアの個数Nkfcを算出する（ステップＳ２３）。

過去・現在間関連度評価手段３３は、過去発話単語関連度平均値meanSpと閾値θを比較し（ステップＳ３３０）、過去発話単語関連度平均値meanSpの値が閾値θ以下の場合に、その過去・現在発話関連度合計値sumSkpcと過去発話単語ペアの個数Nkpcを０にリセットする（ステップＳ３３１）。

現在・未来間関連度評価手段３４は、未来発話関連度平均値meanSfと閾値θを比較し（ステップＳ３４０）、未来・現在発話関連度平均値sumSkfcの値が閾値θ以下の場合に、その未来・現在発話関連度平均値sumSkfcと未来発話単語ペアの個数Nkfcを０にリセットする（ステップＳ３４１）。なお、閾値θは、単語関連度が負であることは通常起こり難い共起であることを表すため０とするのが良い。スコア再計算手段２４は、Ｎベスト候補スコア再計算部２０と同じ処理を行う（ステップＳ２４）。

以上説明したようにＮベスト候補スコア再計算部３０は、過去発話単語集合内の関連性と未来発話単語集合内の関連性を評価し、関連性が有る場合は過去・現在関連度と現在・未来関連度の値を考慮した認識スコアを再計算し、関連性が無い場合はその関連度を考慮しない認識スコアを再計算する。この処理を現在発話区間のＮベスト候補の全ての認識結果候補単語について行い、再計算した認識スコアで現在発話区間のＮベスト候補を並べ替える。その結果、現在発話区間のＮベスト候補は、関連性の強い順に並ぶことになる。

Ｎベスト候補スコア再計算部３０によれば、発話区間内の単語集合の関連性が低い場合、つまり、音声認識誤りが多いと推定される過去発話単語集合及び未来発話単語集合の関連度を用いないので、認識誤り単語の影響を受け難くする効果が期待できる。

次に、単語関連度テーブル１５を作成する単語関連度テーブル作成装置３００について説明する。
〔単語関連度テーブル作成装置〕

図１２に、上記した単語関連度テーブルを作成する単語関連度テーブル作成装置３００の機能構成例を示す。単語関連度テーブル作成装置３００は、学習コーパス３０、形態素解析部３１、学習コーパス単語集合取得部３２、単語リスト３３、単語カウント部３４、単語関連度計算部３５、テーブル配列部３６、を具備する。単語関連度テーブル作成装置２００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

学習コーパス３０は音声文書を大規模に集積したものである。形態素解析部３１は、学習コーパス３０から音声文書を読み出して単語に分割する周知の形態素解析処理を行い、各単語の前後に単語境界を表す記号、例えば「\n」を付与した単語境界付き学習コーパスを出力する。

学習コーパス単語集合取得部３２は、形態素解析部３１が出力する単語境界付き学習コーパスの先頭から末尾まで、窓幅q単語、窓シフト量p単語で窓かけを行い、各窓に含まれる単語リスト３３に記載された単語をまとめて単語集合とし、窓ごとの単語集合を出力する。単語リスト３３は、音声認識結果に出現し得る全ての単語が記載されたものであり、事前に作成しておく。図１３に、単語集合を概念的に示す。横方向は時間経過であり、単語集合をN₁〜N_hで示す。pは窓シフト量であり、qは窓幅である。隣り合う単語集合は、q-p個の単語を共有する関係にある。

単語カウント部３４は、学習コーパス単語集合取得部９２が出力する単語集合を入力として、単語集合内の各単語の単独生起回数C(w)、各単語ペアの生起回数C(w_i,w_j)、単語集合の個数Nをカウントして出力する。単語wの生起回数C(w)とは、単語wを含む単語集合の個数である。単語ペア（w_i,w_j）の生起回数C(w_i,w_j)とは、w_iとw_jを共に含む単語集合の個数である。

図１４に、より具体的な単語関連度計算部３５の機能構成例を示してその動作を説明する。その動作フローを図１５に示す。

単語関連度計算部３５は、生起回数補正手段３５０と、検定値計算手段３５１と、補正関連度計算手段３５２と、を具備する。生起回数補正手段３５０は、単語カウント部３４が出力する各単語wの単独生起回数C(w)と各単語ペアの生起回数C(w_i,w_j)を入力として、生起回数C(w_i,w_j)がr回となっている単語ペア(w_i,w_j)の種類数N_r（ステップＳ３５０ａ）と、生起回数C(w_i,w_j)がr-1回となっている単語ペア(w_i,w_j)の種類数N_r-1を数える（ステップＳ３５０ｂ）。そして、生起回数C(w_i,w_j)がr-1回より大きな単語ペア(w_i,w_j)の生起回数C(w_i,w_j)をそのまま補正後の生起回数C′(w_i,w_j)とし（ステップＳ３５０ｄ）、生起回数C(w_i,w_j)がr-1回の単語ペア(w_i,w_j)の補正後の生起回数C′(w_i,w_j)を、rに上記種類数N_rを上記種類数N_r-1で除した値を乗じた値とする（式（４））（ステップＳ３５０ｅ）。

ここで生起回数のr回は、例えばr=1とすることが考えられる。これは、共起しない単語の数が最も大きいので、r＝1とすることで、殆んどの単語の生起回数が補正されることになるためである。また、rは２以上の整数に設定しても良い。その場合はr-１回から０回の生起回数C′(w_i,w_j)が補正される。

検定値計算手段３５１は、生起回数補正手段３５０が出力する単語集合の個数N、各単語の単独生起回数C(w)、単語ペアの補正後の生起回数C′(w_i,w_j)を入力として、上記単語ペア(w_i,w_j)が同時に発生する回数と各単語が単独で発生する回数の積との差を、統計的手法に基づいて検定する検定値を計算する（ステップＳ３５１）。検定値には例えばt値（式５）を用いることが出来る。

補正関連度計算手段３５２は、検定値計算手段３５１が出力する例えばt値と、生起回数補正手段３５０が出力する単語集合の個数N、各単語の単独生起回数C(w)、単語ペアの補正後の生起回数C′(w_i,w_j)を入力として、t値と閾値θ_Rを比較する（ステップＳ３５２ａ）。そして、t値が閾値θ_Rより大きな単語ペア(w_i,w_j)の関連度S（w_i,w_j）を、補正後の生起回数C′（w_i,w_j）に単語集合の個数Nを乗じた値を各単語の単独生起回数の積C(w_i）・C(w_j）で除した値の対数値（式（６））として出力する（ステップＳ３５２ｃ）。また、t値が閾値θ_Rより小さな単語ペア(w_i,w_j)の関連度S（w_i,w_j）は、関連度S（w_i,w_j）=0として出力する（ステップＳ３５２ｂ）。閾値θは、補正関連度計算手段３５２に予め設定しておいても良いし、外部から設定できるようにしても良い。

閾値θ_Rは、統計的手法のt検定の有意水準によって定める。閾値θ_Rを高く設定すると、より多くの単語ペア(w_i,w_j)が独立（関連なし）だと判定される。閾値θ_Rを高くし過ぎると、実際には関連のある単語ペア(w_i,w_j)まで独立だと判定するようになり、低くし過ぎると実際には独立な単語ペア(w_i,w_j)を独立でないと判定するようになる。閾値θ_Rには、例えば有意水準５％の場合の値である閾値θ_R=1.65を用いると良い。

このようにt値の値に応じて関連度S（w_i,w_j）を補正することで、「頻度の低い単語同士が共起した場合に自己相互情報量PMI(x,y)の値が非常に大きくなる」現象を、抑制することが出来る。例えば、単語xとyが１回ずつしか現れず、且つ共起していた（C(x)=C(y)=C(x,y)=1）場合のt値は、t値t(w_i,w_j)=1-1/Nとなり、閾値θ=1.65とするとt(w_i,w_j)<θであるので関連度S（w_i,w_j）=0とされ、その単語ペアには関連性が無いとされる。

このように処理された関連度S（w_i,w_j）は、各単語C(w)から参照できるテーブル形式に配列され単語関連度テーブル作成装置３００の出力となる。この単語関連度テーブル１５を利用することで、より適切な認識信頼度を付与することが可能になる。図１６に、単語関連度テーブル１５の一例を示す。最上列と最左列は単語w₁〜w_Nであり、各行と各列の交差する欄にそれぞれの単語の関連度S（w_i,w_j）が配列される。なお、検定値としてt値を用いる例で説明を行ったが、カイ二乗検定に基づくカイ二乗値χ²を用いても良い。その場合、検定値計算手段１２はカイ二乗値χ²を計算する。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力される音声文書の発話区間を検出して発話列として出力する発話分割部と、
上記発話列を入力として音声認識を行い発話区間ごとに音声認識スコアが上位Ｎ個の認識結果候補と認識スコアを組みにしたＮベスト候補を求めＮベスト候補列として出力する音声認識部と、
上記Ｎベスト候補列を入力として、当該Ｎベスト候補列中の現在発話区間を中心として当該現在発話区間から上記音声文書の冒頭方向にある順位１位の上記認識結果候補を過去発話単語集合として抽出すると共に、当該現在発話区間を中心として当該現在発話区間から音声文書の末尾方向にある順位１位の上記認識結果候補を未来発話単語集合として抽出し、上記過去発話単語集合と上記未来発話単語集合の全ての２単語ペアの関連度の平均値である過去・未来間関連度平均値meanSpfを求め、当該過去・未来間関連度平均値meanSpfと所定の閾値δとを比較して上記音声文書の話題境界を判定し、話題境界と判定した場合、現在発話区間を１つ更新して、上記過去発話単語集合を抽出する処理から繰り返す話題境界検出部と、
上記話題境界検出部において話題境界と判定されなかった現在発話区間の各順位ごとに、対象にしている順位の認識結果候補単語列から現在発話単語を現在発話単語集合として抽出し、上記過去発話単語集合と当該現在発話単語集合の全ての２単語ペアの関連度の合計値である過去・現在間関連度合計値sumSkpcを計算すると共に、上記現在発話単語集合と上記未来発話単語集合の全ての２単語ペアの関連度の合計値である現在・未来間関連度合計値sumSkfcを計算し、当該現在発話区間の認識スコアを、上記過去・現在間関連度合計値sumSkpcと上記現在・未来間関連度合計値sumSkfcの平均値を用いた値に再計算し、その再計算した認識スコアに基づいて上記現在発話区間のＮベスト候補を並べ替える処理を、上記音声文書の最後の発話区間についての処理が終了するまで上記話題境界検出部の処理から繰り返すＮベスト候補スコア再計算部と、
各発話区間の順位１位の候補を連結した音声認識結果を出力する音声認識結果出力部と、
を具備する音声認識装置。
請求項１に記載した音声認識装置において、
上記Ｎベスト候補スコア再計算部は、
上記話題境界検出部において話題境界と判定されなかった現在発話区間の各順位ごとに、対象にしている順位の認識結果候補単語列から現在発話単語を現在発話単語集合として抽出し、
上記過去発話単語集合の全ての２単語の組み合わせを過去発話単語ペアとして抽出し、その過去発話単語ペアの関連度の平均値である過去発話単語関連度平均値meanSpを算出すると共に、上記未来発話単語集合の全ての２単語の組み合わせを未来発話単語ペアとして抽出し、その未来発話単語ペアの関連度の平均値である未来発話単語関連度平均値meanSfを算出し、
上記過去発話単語集合と上記現在発話単語集合の全ての単語の組み合わせを過去・現在単語ペアとして抽出し、当該過去・現在単語ペアの関連度の合計値である過去・現在間発話関連度合計値sumSkpcと過去・現在単語ペアの個数Nkpcを算出すると共に、上記未来発
話単語集合と上記現在発話単語集合の全ての単語の組み合わせを未来・現在単語ペアとして抽出し、当該未来・現在単語ペアの関連度の合計値である未来・現在間発話関連度合計値sumSkfcと上記未来・現在単語ペアの個数Nkfcを算出し、
上記過去発話単語関連度平均値meanSpと閾値θ、及び上記未来発話単語関連度平均値meanSfと閾値θとを比較することで、上記過去発話単語集合内の関連性と上記未来発話単語集合内の関連性をそれぞれ評価し、関連性がある場合は上記過去・現在間発話関連度合計値sumSkpcと上記未来・現在間発話関連度合計値sumSkfcを考慮して認識スコアを再計算し、関連性がない場合は上記過去・現在間発話関連度合計値sumSkpcと上記未来・現在間発話関連度合計値sumSkfcを考慮しない認識スコアを再計算して、その再計算した認識スコアに基づいて上記現在発話区間のＮベスト候補を並べ替えるもの、
であることを特徴とする音声認識装置。
入力される音声文書の発話区間を検出して発話列として出力する発話分割過程と、
上記発話列を入力として音声認識を行い発話区間ごとに音声認識スコアが上位Ｎ個の認識結果候補と認識スコアを組みにしたＮベスト候補を求めＮベスト候補列として出力する音声認識過程と、
上記Ｎベスト候補列を入力として、当該Ｎベスト候補列中の現在発話区間を中心として当該現在発話区間から上記音声文書の冒頭方向にある順位１位の上記認識結果候補を過去発話単語集合として抽出すると共に、当該現在発話区間を中心として当該現在発話区間から音声文書の末尾方向にある順位１位の上記認識結果候補を未来発話単語集合として抽出し、上記過去発話単語集合と上記未来発話単語集合の全ての２単語ペアの関連度の平均値である過去・未来間関連度平均値meanSpfを求め、当該過去・未来間関連度平均値meanSpfと所定の閾値δとを比較して上記音声文書の話題境界を判定し、話題境界と判定した場合、現在発話区間を１つ更新して、上記過去発話単語集合を抽出する処理から繰り返す話題境界検出過程と、
上記話題境界検出過程において話題境界と判定されなかった現在発話区間の各順位ごとに、対象にしている順位の認識結果候補単語列から現在発話単語を現在発話単語集合として抽出し、上記過去発話単語集合と上記現在発話単語集合の全ての２単語ペアの関連度の合計値である過去・現在間関連度合計値sumSkpcを計算すると共に、上記現在発話単語集合と上記未来発話単語集合の全ての２単語ペアの関連度の合計値である現在・未来間関連度合計値sumSkfcを計算し、当該現在発話区間の認識スコアを、上記過去・現在間関連度合計値sumSkpcと上記現在・未来間関連度合計値sumSkfcの平均値を用いた値に再計算し、その再計算した認識スコアに基づいて上記現在発話区間のＮベスト候補を並べ替える処理を、上記音声文書の最後の発話区間についての処理が終了するまで上記話題境界検出過程の処理から繰り返すＮベスト候補スコア再計算過程と、
各発話区間の順位１位の候補を連結した音声認識結果を出力する音声認識結果出力過程と、
を備える音声認識方法。
請求項１又は２に記載した音声認識装置としてコンピュータを機能させるためのプログラム。