JP5513440B2 - 音声認識方法とその装置とプログラム - Google Patents

音声認識方法とその装置とプログラム Download PDF

Info

Publication number
JP5513440B2
JP5513440B2 JP2011118145A JP2011118145A JP5513440B2 JP 5513440 B2 JP5513440 B2 JP 5513440B2 JP 2011118145 A JP2011118145 A JP 2011118145A JP 2011118145 A JP2011118145 A JP 2011118145A JP 5513440 B2 JP5513440 B2 JP 5513440B2
Authority
JP
Japan
Prior art keywords
word
utterance
relevance
current
future
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011118145A
Other languages
English (en)
Other versions
JP2012247556A (ja
Inventor
太一 浅見
浩和 政瀧
義和 山口
哲 小橋川
済央 野本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011118145A priority Critical patent/JP5513440B2/ja
Publication of JP2012247556A publication Critical patent/JP2012247556A/ja
Application granted granted Critical
Publication of JP5513440B2 publication Critical patent/JP5513440B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声認識結果の確からしさを表す認識スコアの計算方法を改善した音声認識方法と、その装置とプログラムに関する。
音声文書に含まれる各発話に対して音声認識処理を行い、発話ごとにスコア上位N位までの認識結果候補(以降、Nベスト候補と称する)を求めた後、Nベスト候補の順位付けをするためのスコアを長距離文脈情報に基づいて再計算する考えが、例えば非特許文献1に開示されている。
図15に、非特許文献1の考えに基づく音声認識装置900の機能構成例を示す。音声認識装置900は、発話分割部90、音声認識部91、Nベスト候補スコア再計算部92、音声認識結果出力部93、制御部94、を備える。
発話分割部90は、音声文書を入力として音声文書を文ごとに分割して発話列として出力する。音声認識部10は、図示しない内部の音響分析部によって、発話列を、数十msecのフレームと呼ばれる単位でLPCケプストラム、MFCC、その他の音響特徴パラメータ系列に分析する。そして、辞書と言語モデルを用いて入力音声に対する認識結果候補の探索を、音響特徴パラメータ系列について行う。探索の結果、上位N位までのNベスト候補が、単語認識信頼度と共に音声認識結果として出力される。制御部94は各部の動作を制御する。
図16を参照してNベスト候補について説明する。横軸は、経過時間でありフレームで表す。縦軸は、フレーム単位で探索された単語列候補を、スコアの高い順番に並べたNベスト候補である。スコアとは探索時の尤度のことである。Nベスト候補は、スコアが経過時間方向に累積された認識スコアの高い順に並べられる。
Nベスト候補スコア再計算部92は、Nベスト候補を入力として単語認識信頼度に、長距離文脈情報である文書尤度D(S)を加えることでスコアを最適化(式(1))し、Nベスト候補を再計算する。音声認識結果出力部93は、再計算されたNベスト候補の第1位の単語列を音声認識結果として出力する。
Figure 0005513440
ここで、A(si)とL(si)は単語認識信頼度を表す音響尤度と言語尤度である。Nは文数である。文書尤度D(S)は、単語の文脈的な関連性を示す値であり、この値を考慮することで文脈的な関連性を考慮した音声認識が可能になる。
文脈的な関連性を現す他の指標として、単語ペアの関連度を用いる考えが非特許文献2に開示されている。この考えは、文脈的な一貫性を音声文書内の各単語ペアの関連度の平均値を算出して利用する。単語xとyの関連度S(x,y)として自己相互情報量(PMI:Pointwise Mutual Information)の値を用いる。
式(2)に単語xとyの関連度S(x,y)の計算を示す。
Figure 0005513440
ここで、Nは単語集合の個数、C(x,y)は単語xとyが共に含まれる単語集合の個数、C(x),C(y)は、それぞれ単語xが含まれる単語集合の個数と単語yが含まれる単語集合の個数である。
自己相互情報量PMI(x,y)の値は、単語xとyに関連が無い(独立に現れる)場合に0、一方の単語が現れた時に他方も現れ易い(独立よりも共起し易い)傾向がある場合に正の値、一方の単語が現れた時に他方が現れ難い(独立よりも共起し難い)傾向がある場合に負の値となる。傾向が強くなるにつれて、正の値の場合、負の値の場合、共に絶対値が大きくなる。このような単語ペアの関連度を用いても、文脈の一貫性を評価することが可能である。
中里理恵、貞光九月、冨山良介、山本幹雄、板橋秀一、「生成文書モデルを用いた文書読み上げ音声認識」 IPSJ SIG Technical Report,2005-SLP-57 浅見太一、小橋川哲、山口義和、政瀧浩和、高橋敏、「単語の文脈一貫性と音響尤度を用いた音声ドキュメント認識信頼度の推定」信学技報、電子情報通信学会、2010年7月
従来技術は、「過去または未来の発話に含まれる単語と関連の強い単語が現在の発話に現れ易い」ことを前提に文脈の一貫性を評価している。しかし、過去又は未来の発話に含まれる単語が認識誤りであった場合、その単語と関連の強い単語が現在の発話に現れ易いとは限らない。つまり、認識誤り単語を含む単語認識信頼度をベースに、文書尤度D(S)や単語ペアの関連度S(x,y)を用いて文脈を評価してNベスト候補を再計算しても、文脈一貫性を正しく評価したことにならない。
この発明は、このような課題に鑑みてなされたものであり、認識誤り単語を文脈一貫性の評価に用いないようにした音声認識方法とその装置とプログラムを提供することを目的とする。
この発明の音声認識方法は、発話分割過程と、音声認識過程と、Nベスト候補スコア再計算過程と、音声認識結果出力過程と、を備える。発話分割過程は、入力される音声文書の発話区間を検出して発話列として出力する。音声認識過程は、発話列を入力として音声認識を行い発話区間ごとに上位N個の認識結果候補単語と認識スコアとを組みにしたNベスト候補を求めNベスト候補列として出力する。Nベスト候補スコア再計算過程は、Nベスト候補列を入力として、現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位1位の上記認識結果候補単語である過去発話単語を過去発話単語集合として、また、当該現在発話区間から上記音声文書の末尾方向に順位1位の上記認識結果候補単語である未来発話単語を未来発話単語集合として抽出すると共に、現在発話区間の全順位の認識結果候補単語である現在発話単語を現在発話単語集合として抽出し上記過去発話単語の2単語ペアの関連度の平均値である過去発話関連度と、上記未来発話単語の2単語ペアの関連度の平均値である未来発話関連度とを求め、全順位の上記現在発話単語と全ての上記過去発話単語の単語ペアの過去・現在関連度と、全順位の上記現在発話単語と全ての上記未来発話単語の単語ペアの現在・未来関連度とを求め、上記過去発話関連度と閾値を比較すると共に上記未来発話関連度と閾値とを比較することで上記過去発話単語集合内の関連性と上記未来発話単語集合内の関連性を評価し、関連性がある場合は上記過去・現在関連度と上記現在・未来関連度の値を考慮した認識スコアを再計算し、関連性がない場合はその関連度を考慮しない認識スコアを再計算して、その再計算した認識スコアに基づいて上記現在発話区間のNベスト候補を並べ替える。音声認識結果出力過程は、各発話区間の順位1位の候補を連結した音声認識結果を出力する。
この発明の音声認識方法は、過去発話区間と未来発話区間の順位1位の発話区間に含まれる単語と、現在発話区間の全ての順位の認識結果候補単語との間の単語ペアの関連度を評価し、関連性がある場合のみ単語関連度を考慮して認識スコアを再計算してNベスト候補を並べ替える。したがって、関連性がある単語ペアの関連度のみが認識スコアに反映される。つまり認識誤り単語を除外して文脈一貫性を評価した音声認識を行うことが出来る。
この発明の音声認識装置100の機能構成例を示す図。 音声認識装置100の動作フローを示す図。 音声文書の発話区間を示す図。 発話列とNベスト候補の関係を示す図。 Nベスト候補スコア再計算部10が抽出する単語ペアの関係を示す図。 Nベスト候補スコア再計算部10の機能構成例を示す図。 Nベスト候補スコア再計算部10の動作フローを示す図。 重みαと名詞認識率との関係に関する実験結果を示す図。 過去発話単語数nと未来発話単語数mと、名詞認識率との関係に関する実験結果を示す図。 単語関連度テーブル作成装置200の機能構成例を示す図。 単語集合を概念的に示す図。 単語関連度計算部35の機構構成例を示す図。 単語関連度計算部35の動作フローを示す図。 単語関連度テーブル17の例を示す図。 従来の音声認識装置900の機能構成例を示す図。 Nベスト候補と単語認識信頼度について説明する図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の音声認識装置100の機能構成例を示す。その動作フローを図2に示す。音声認識装置100は、発話分割部90と、音声認識部91と、Nベスト候補スコア再計算部10と、音声認識結果出力部93と、制御部50と、を具備する。従来の音声認識装置900(図15)と、Nベスト候補スコア再計算部10と制御部50のみが異なる。音声認識装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
発話分割部90は、入力される音声文書内で、実際に音声が発声されている区間を切り出し、切り出した発話区間の全てを発話列として出力する(ステップS90)。図3に音声文書と発話列との関係を示す。発話区間の検出は、既存のVAD(Voice Activity Detection)技術を用いる。図3の横方向は経過時間、縦方向は音声波形の振幅である。
音声認識部91は、入力された各発話に対して音声認識を行い、発話ごとに音声認識スコア上位N個の認識結果(Nベスト候補)と各候補の認識スコアをセットにしたNベスト候補を求める(ステップS91)。Nベスト候補は認識スコアの降順に並べ替え、全てのNベスト候補をNベスト候補列として出力する。Nは2以上の整数値であり事前に設定する、Nを小さくし過ぎると、Nベスト候補内に正しい単語が含まれないケースが増え、後段のスコア再計算の効果が低くなる。Nを大きくし過ぎると、スコア再計算の計算量が増加する。通常N=100程度に設定する。
図4に発話列とNベスト候補の関係を示す。発話列は、縦方向に時系列に発話1〜発話Kと配列される。各発話列を音声認識した結果のNベスト候補は、各発話列に対して順位1位からN位まで、順位をk、発話番号*として認識結果候補単語wk,*と、それぞれの認識スコアRk,*が組みで存在し、時系列にNベスト候補列を構成する。
Nベスト候補スコア再計算部10は、Nベスト候補列を入力として、現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位1位の上記認識結果候補単語である過去発話単語を過去発話単語集合として、また、当該現在発話区間から音声文書の末尾方向に順位1位の認識結果候補単語である未来発話単語を未来発話単語集合として抽出すると共に、現在発話区間の全順位の認識結果候補単語である現在発話単語を現在発話単語集合として抽出し、過去発話単語の2単語ペアの関連度の平均値である過去発話関連度と、上記未来発話単語の2単語ペアの関連度の平均値である未来発話関連度とを求め、全順位の上記現在発話単語と全ての上記過去発話単語の単語ペアの過去・現在関連度と、全順位の上記現在発話単語と全ての上記未来発話単語の単語ペアの現在・未来関連度とを求め、上記過去発話関連度と閾値を比較すると共に上記未来発話関連度と閾値とを比較することで上記過去発話単語集合内の関連性と上記未来発話単語集合内の関連性を評価し、関連性がある場合は上記過去・現在関連度と上記現在・未来関連度の値を考慮した認識スコアを再計算し、関連性がない場合はその関連度を考慮しない認識スコアを再計算して、その再計算した認識スコアに基づいて上記現在発話区間のNベスト候補を並べ替える(ステップS10)。
図5に、Nベスト候補スコア再計算部10が抽出する単語ペアの関係を示す。例えば発話4を現在発話区間とすると現在発話単語集合は、Nベスト候補の(w1,4,R1,4),(w2,4,R2,4),…, (wN,4,RN,4)となる。未来発話単語集合は、現在発話区間から音声文書の冒頭方向に順位1位の認識結果候補単語wp1,wp2,…,wpnで構成される。wpnは音声文書の冒頭の発話の順位1位の認識結果候補単語で良いし、所定の数であるn個に限った発話の順位1位の認識結果候補単語でも良い。過去発話単語集合は、現在発話区間から音声文書の末尾方向に順位1位の認識結果候補単語wf1,wf2,…wfmで構成される。wfmは音声文書の末尾の発話の順位1位の認識結果候補単語で良いし、所定の数であるm個に限った発話の順位1位の認識結果候補単語でも良い。n個とm個を可変した場合の効果については後述する。
Nベスト候補スコア再計算部10は、例えば過去発話単語集合と未来発話単語集合の認識結果候補単語の数を4個とした場合、過去発話単語の2単語ペアの数は6個、未来発話単語の2単語ペアの数も6個であり、それぞれの2単語ペアの関連度の平均値である過去発話関連度と未来発話関連度とを求める。そして、過去発話関連度と閾値を比較すると共に未来発話関連度と閾値とを比較することで、過去発話単語集合内の関連性と未来発話単語集合内の関連性を評価し、関連性が有る場合は過去・現在関連度と現在・未来関連度の値を考慮した認識スコアを再計算し、関連性が無い場合はその関連度を考慮しない認識スコアを再計算する。この処理を現在発話区間のNベスト候補の全ての認識結果候補単語について行い、再計算した認識スコアで現在発話区間のNベスト候補を並べ替える。その結果、現在発話区間のNベスト候補は、関連性の強い順に並ぶことになる。
音声認識結果出力部93が、各発話区間の順位1位の候補を連結した音声認識結果を出力する(ステップS93)ことで、関連性の最も強い発話列が連結して出力される。つまり、文脈関連性のある認識結果候補単語が順次、音声認識結果として出力されることになる。
図6に、この発明の音声認識装置100の主要部であるNベスト候補スコア再計算部10のより具体的な機能構成例を示して更に詳しくその動作を説明する。その動作フローを図7に示す。
Nベスト候補スコア再計算部10は、単語抽出手段11と、単語リスト12と、過去発話単語ペア抽出手段13と、過去・現在単語ペア抽出手段14と、未来・現在関連度算出手段15と、未来発話単語ペア抽出手段16と、単語関連度テーブル17と、過去・現在関連度評価手段18と、現在・未来関連度評価手段19と、スコア再計算手段20と、を具備する。
単語抽出手段11は、音声認識部91が出力するNベスト候補列を入力として、単語リスト12を参照して現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位1位のn個の過去発話単語を過去発話単語集合として抽出する(ステップS110)。そして、当該現在発話区間から上記音声文書の末尾方向に順位1位のm個の単語リスト12に記載された未来発話単語を未来発話単語集合として抽出する(ステップS111)。さらに、単語リスト12を参照して現在発話区間の全ての順位の単語候補の現在発話単語を現在発話単語集合として抽出する(ステップS112)。単語リストは、音声認識に用いる辞書から名詞を抜き出して予め作成しておく。
過去発話単語ペア抽出手段13は、過去発話単語集合の全ての2単語の組み合わせを過去発話単語ペアとして抽出し、その過去発話単語ペアの関連度を単語関連度テーブル17を参照して求めその平均値である過去発話関連度平均値meanSpを算出する(ステップS13)。
未来発話単語ペア抽出手段16は、未来発話単語集合の全ての2単語の組み合わせを未来発話単語ペアとして抽出し、その未来発話単語ペアの関連度を単語関連度テーブル17を参照して求めその平均値である未来発話関連度平均値meanSfを算出する(ステップS16)。
過去・現在単語ペア抽出手段14は、過去発話単語集合と現在発話単語集合の全ての単語の組み合わせを過去・現在単語ペアとして抽出する。例えば、過去発話単語集合の単語がwp1,wp2,wp3で、現在発話単語集合の単語がw1,4,w2,4,w3,4(発話番号が4でNベストの数が3個)とした場合、過去・現在単語ペアは(wp1,w1,4),(wp1,w2,4),(wp1,w3,4),(wp2,w1,4),(wp2,w2,4), (wp2,w3,4),(wp3,w1,4),(wp3,w2,4),(wp3,w3,4)の9個の単語ペアが抽出される。そして、過去・現在単語ペアの関連度を単語関連度テーブル17を参照して求めその平均値である過去・現在発話関連度平均値sumSkpcと過去・現在単語ペアの個数Nkpcを算出する(ステップS14)。
未来・現在単語ペア抽出手段15は、未来発話単語集合と現在発話単語集合の全ての単語の組み合わせを、過去・現在単語ペア抽出手段14と同様の動作で未来・現在単語ペアとして抽出する。そして、未来・現在単語ペアの関連度を単語関連度テーブル17を参照して求めその平均値である未来・現在発話関連度平均値sumSkfcと上記未来・現在単語ペアの個数Nkfcを算出する(ステップS15)。
過去・現在関連度評価手段18は、過去・現在発話単語関連度平均値sumSkpcと閾値θを比較し(ステップS180)、過去・現在発話関連度平均値sumSkpcの値が閾値θ以下の場合に、その過去・現在発話関連度平均値sumSkpcと過去発話単語ペアの個数Nkpcを0にリセットする(ステップS181)。
現在・未来関連度評価手段19は、未来発話関連度平均値meanSfと閾値θを比較し(ステップS190)、未来・現在発話関連度平均値sumSkfcの値が閾値θ以下の場合に、その未来・現在発話関連度平均値sumSkfcと未来発話単語ペアの個数Nkfcを0にリセットする(ステップS191)。
スコア再計算手段20は、現在発話区間の認識スコアRk,iに重みαを乗じた値に、過去・現在発話関連度平均値sumSkpcと未来発話関連度平均値meanSfの和に1から重みαを減じた値を乗じた値を加えた値を、新たな認識スコアRk,i′として再計算する(式(3)、ステップS20))。
Figure 0005513440
ここでαは重みである。
Nベスト候補スコア再計算部10は、式(3)で再計算した新たな認識スコアRk,i′の値でNベスト候補を降順に並べ替える。Nベスト候補スコア再計算部10は、図7に示す処理を繰り返し回数T回行う。2回目以降は、前回の処理によって再計算された認識スコアRk,i′を使って処理を行う。この処理によって、各発話のNベスト候補は過去及び未来の発話との関連が強くなるように並べ替えられる。繰り返し回数Tを大きくすると認識率は高くなるが処理時間が増加する。また、ある程度以上大きくしても認識率は向上しなくなるので、通常はT=2と設定する。
なお、閾値θは、単語関連度が負であることは通常起こり難い共起であることを表すため0とするのが良い。重みαは0〜1の実数値であり、0とすると式(3)から明らかなように認識スコアRk,iの値が使われなくなり、1にすると単語関連度が使われなくなる関係にある。重みαはα=0.5とするのが良い。
図8に、重みαと名詞認識率との関係について実験した実験結果を示す。横軸は重みα、縦軸は名詞認識率[%]である。この実験は、電話会話音声784通話、名詞の個数135136個の音声文書を用いて行った。過去発話単語数n=10、未来発話単語数m=10とした。認識スコアを再計算しない従来法における名詞認識率は61.52%であった。
その従来の名詞認識率に対してこの発明の方法は、α=0.5で64.3%の名詞認識率が得られた。このようにこの発明の音声認識方法は認識率を向上させることが出来る。
図9に、過去発話単語数nと未来発話単語数mを可変した場合の名詞認識率の変化を示す。実験条件は重みαと同じである。横軸はn,mで両者同じ値とした。n,m=10以上で名詞認識率が飽和する特性が得られた。この結果から過去発話単語数nと未来発話単語数mの値は10以上に設定すると良いことが分かる。
〔単語関連度テーブル作成装置〕
図10に、上記した単語関連度テーブルを作成する単語関連度テーブル作成装置200の機能構成例を示す。単語関連度テーブル作成装置200は、学習コーパス30、形態素解析部31、学習コーパス単語集合取得部32、単語リスト33、単語カウント部34、単語関連度計算部35、テーブル配列部36、を具備する。単語関連度テーブル作成装置200は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
学習コーパス30は音声文書を大規模に集積したものである。形態素解析部31は、学習コーパス30から音声文書を読み出して単語に分割する周知の形態素解析処理を行い、各単語の前後に単語境界を表す記号、例えば「\n」を付与した単語境界付き学習コーパスを出力する。
学習コーパス単語集合取得部32は、形態素解析部31が出力する単語境界付き学習コーパスの先頭から末尾まで、窓幅n単語、窓シフト量m単語で窓かけを行い、各窓に含まれる単語リスト33に記載された単語をまとめて単語集合とし、窓ごとの単語集合を出力する。単語リスト33は、音声認識結果に出現し得る全ての単語が記載されたものであり、事前に作成しておく。図11に、単語集合を概念的に示す。横方向は時間経過であり、単語集合をN1〜Nhで示す。mは窓シフト量であり、nは窓幅である。隣り合う単語集合は、n-m個の単語を共有する関係にある。
単語カウント部34は、学習コーパス単語集合取得部92が出力する単語集合を入力として、単語集合内の各単語の単独生起回数C(w)、各単語ペアの生起回数C(wi,wj)、単語集合の個数Nをカウントして出力する。単語wの生起回数C(w)とは、単語wを含む単語集合の個数である。単語ペア(wi,wj)の生起回数C(wi,wj)とは、wiとwjを共に含む単語集合の個数である。
図12に、より具体的な単語関連度計算部35の機能構成例を示してその動作を説明する。その動作フローを図13に示す。
単語関連度計算部35は、生起回数補正手段350と、検定値計算手段351と、補正関連度計算手段352と、を具備する。生起回数補正手段350は、単語カウント部34が出力する各単語wの単独生起回数C(w)と各単語ペアの生起回数C(wi,wj)を入力として、生起回数C(wi,wj)がr回となっている単語ペア(wi,wj)の種類数Nr(ステップS350a)と、生起回数C(wi,wj)がr-1回となっている単語ペア(wi,wj)の種類数Nr-1を数える(ステップS350b)。そして、生起回数C(wi,wj)がr-1回より大きな単語ペア(wi,wj)の生起回数C(wi,wj)をそのまま補正後の生起回数C′(wi,wj)とし(ステップS350d)、生起回数C(wi,wj)がr-1回の単語ペア(wi,wj)の補正後の生起回数C′(wi,wj)を、r-1回に上記種類数Nrを上記種類数Nr-1で除した値を乗じた値とする(式(4))(ステップS350e)。
Figure 0005513440
ここで生起回数のr回は、例えばr=1とすることが考えられる。これは、共起しない単語の数が最も大きいので、r=1とすることで、殆んどの単語の生起回数が補正されることになるためである。また、rは2以上の整数に設定しても良い。その場合はr-1回から0回の生起回数C′(wi,wj)が補正される。
検定値計算手段351は、生起回数補正手段350が出力する単語集合の個数N、各単語の単独生起回数C(w)、単語ペアの補正後の生起回数C′(wi,wj)を入力として、上記単語ペア(wi,wj)が同時に発生する回数と各単語が単独で発生する回数の積との差を、統計的手法に基づいて検定する検定値を計算する(ステップS351)。検定値には例えばt値(式5)を用いることが出来る。
Figure 0005513440
補正関連度計算手段352は、検定値計算手段351が出力する例えばt値と、生起回数補正手段350が出力する単語集合の個数N、各単語の単独生起回数C(w)、単語ペアの補正後の生起回数C′(wi,wj)を入力として、t値と閾値θRを比較する(ステップS352a)。そして、t値が閾値θRより大きな単語ペア(wi,wj)の関連度S(wi,wj)を、補正後の生起回数C′(wi,wj)に単語集合の個数Nを乗じた値を各単語の単独生起回数の積C(w i)・C(w j)で除した値の対数値(式(6))として出力する(ステップS352c)。また、t値が閾値θRより小さな単語ペア(wi,wj)の関連度S(wi,wj)は、関連度S(wi,wj)=0として出力する(ステップS352b)。閾値θは、補正関連度計算手段352に予め設定しておいても良いし、外部から設定できるようにしても良い。
Figure 0005513440
閾値θRは、統計的手法のt検定の有意水準によって定める。閾値θRを高く設定すると、より多くの単語ペア(wi,wj)が独立(関連なし)だと判定される。閾値θRを高くし過ぎると、実際には関連のある単語ペア(wi,wj)まで独立だと判定するようになり、低くし過ぎると実際には独立な単語ペア(wi,wj)を独立でないと判定するようになる。閾値θRには、例えば有意水準5%の場合の値である閾値θR=1.65を用いると良い。
このようにt値の値に応じて関連度S(wi,wj)を補正することで、「頻度の低い単語同士が共起した場合に自己相互情報量PMI(x,y)の値が非常に大きくなる」現象を、抑制することが出来る。例えば、単語xとyが1回ずつしか現れず、且つ共起していた(C(x)=C(y)=C(x,y)=1)場合のt値は、t値t(wi,wj)=1-1/Nとなり、閾値θ=1.65とするとt(wi,wj)<θであるので関連度S(wi,wj)=0とされ、その単語ペアには関連性が無いとされる。
このように処理された関連度S(wi,wj)は、各単語C(w)から参照できるテーブル形式に配列され単語関連度テーブル作成装置200の出力となる。この単語関連度テーブル17を利用することで、より適切な認識信頼度を付与することが可能になる。図14に、単語関連度テーブル17の一例を示す。最上列と最左列は単語w1〜wNであり、各行と各列の交差する欄にそれぞれの単語の関連度S(wi,wj)が配列される。なお、検定値としてt値を用いる例で説明を行ったが、カイ二乗検定に基づくカイ二乗値χ2を用いても良い。その場合、検定値計算手段12はカイ二乗値χ2を計算する。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 入力される音声文書の発話区間を検出して発話列として出力する発話分割過程と、
    上記発話列を入力として音声認識を行い発話区間ごとに上位N個の認識結果候補単語と認識スコアとを組みにしたNベスト候補を求めNベスト候補列として出力する音声認識過程と、
    上記Nベスト候補列を入力として、現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位1位の上記認識結果候補単語である過去発話単語を過去発話単語集合として、また、当該現在発話区間から上記音声文書の末尾方向に順位1位の上記認識結果候補単語である未来発話単語を未来発話単語集合として抽出すると共に、現在発話区間の全順位の認識結果候補単語である現在発話単語を現在発話単語集合として抽出し、
    上記過去発話単語の2単語ペアの関連度の平均値である過去発話関連度と、上記未来発話単語の2単語ペアの関連度の平均値である未来発話関連度とを求め、全順位の上記現在発話単語と全ての上記過去発話単語の単語ペアの過去・現在関連度と、全順位の上記現在発話単語と全ての上記未来発話単語の単語ペアの現在・未来関連度とを求め、上記過去発話関連度と閾値を比較すると共に上記未来発話関連度と閾値とを比較することで、上記過去発話単語集合内の関連性と上記未来発話単語集合内の関連性を評価し、関連性がある場合は上記過去・現在関連度と上記現在・未来関連度の値を考慮した認識スコアを再計算し、関連性がない場合はその関連度を考慮しない認識スコアを再計算して、その再計算した認識スコアに基づいて上記現在発話区間のNベスト候補を並べ替えるNベスト候補スコア再計算過程と、
    各発話区間の順位1位の候補を連結した音声認識結果を出力する音声認識結果出力過程と、
    を備える音声認識方法。
  2. 請求項1に記載した音声認識方法において、
    上記Nベスト候補スコア再計算過程は、
    単語抽出手段が、上記Nベスト候補列を入力として、単語リストを参照して現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位1位のn個の過去発話単
    語を過去発話単語集合として抽出すると共に、当該現在発話区間から上記音声文書の末尾方向に順位1位のm個の未来発話単語を未来発話単語集合として抽出し、現在発話区間の
    全ての順位の単語候補の現在発話単語を現在発話単語集合として抽出する単語抽出ステップと、
    過去発話単語ペア抽出手段が、上記過去発話単語集合の全ての2単語の組み合わせを過去発話単語ペアとして抽出し、当該過去発話単語ペアの関連度を単語関連度テーブルを参照して求めその平均値である過去発話関連度平均値meanSpを算出する過去発話単語ペア抽出ステップと、
    未来発話単語ペア抽出手段が、上記未来発話単語集合の全ての2単語の組み合わせを未来発話単語ペアとして抽出し、当該未来発話単語ペアの関連度を単語関連度テーブルを参照して求めその平均値である未来発話関連度平均値meanSfを算出する未来発話単語ペア抽出ステップと、
    過去・現在関連度算出手段が、上記過去発話単語と上記現在発話単語の全ての2単語の組み合わせを過去・現在単語ペアとして抽出し、当該過去・現在単語ペアの関連度を単語関連度テーブルを参照して求めその平均値である過去・現在発話関連度平均値sumSkpcと
    上記過去・現在単語ペアの個数Nkpcを算出する過去・現在単語ペア抽出ステップと、
    未来・現在単語ペア抽出手段が、上記未来発話単語と上記現在発話単語の全ての2単語の組み合わせを未来・現在単語ペアとして抽出し、当該未来・現在単語ペアの関連度を単語関連度テーブルを参照して求めその平均値である未来・現在発話関連度平均値sumSkfc
    と上記未来・現在単語ペアの個数Nkfcを算出する未来・現在単語ペア抽出ステップと、
    過去・現在関連度評価手段が、上記過去発話関連度平均値meanSpの値が閾値以下の場合
    に当該過去発話関連度平均値meanSpと上記過去発話単語ペアの個数Nkpcを0にリセットする過去・現在関連度評価ステップと、
    現在・未来関連度評価手段が、上記未来発話関連度平均値meanSfの値が閾値以下の場合に当該未来発話関連度平均値meanSfと上記未来発話単語ペアの個数Nkfcを0にリセットする現在・未来関連度評価ステップと、
    スコア再計算手段が、現在発話区間の認識スコアRk,iに重みαを乗じた値に、上記過去・現在発話関連度平均値sumSkpcと上記未来発話関連度平均値meanSfの和に1から上記重みαを減じた値を乗じた値を加えた値を、新たな認識スコアRk,i′として再計算するスコア再計算ステップと、
    を含むことを特徴とする音声認識方法。
  3. 請求項2に記載した音声認識方法において、
    上記単語抽出手段が抽出する過去発話単語集合のn個と、未来発話単語集合のm個はそれぞれ10個以上であることを特徴とする音声認識方法。
  4. 請求項2又は3に記載した音声認識方法において、
    上記重みαがα=0.5であることを特徴とする音声認識方法。
  5. 請求項2乃至4の何れかに記載した音声認識方法において、
    上記単語関連度テーブルは、
    音声文書を集積した学習コーパスから音声文書を読み出して音声文書を単語に分割して単語境界付き学習コーパスを出力する形態素解析過程と、
    上記単語境界付き学習コーパスを入力として上記単語境界付き学習コーパスの先頭から末尾まで、窓幅n単語、窓シフト量m単語で窓掛けを行い、各窓に含まれる単語リストに記載された単語をまとめて単語集合とし、窓ごとの単語集合を出力する学習コーパス単語集合取得過程と、
    上記単語集合を入力として単語集合内の各単語の単独生起回数C(w)と、各単語ペアの生起回数C(wi,wj)と、単語集合の個数Nとをカウントして出力する単語カウント過程と、
    上記単語集合内の各単語の単独生起回数C(w)と上記各単語ペアの生起回数C(wi,wj)と上記単語集合の個数Nを入力として。2個の単語間の単語関連度を計算する単語関連度計算過程と、
    2個の単語間の関連度を参照できるテーブルの形式に配列するテーブル配列過程と、を備える単語関連度テーブル作成方法であって、
    上記単語関連度計算過程は、
    各単語の単独生起回数C(w)と各単語ペアの生起回数C(wi,wj)を入力として、上記生起回数C(wi,wj)がr回となっている単語ペア(wi,wj)の種類数Nrと、生起回数C(wi,wj)がr-1回となっている単語ペア(wi,wj)の種類数Nr-1を数え、生起回数C(wi,wj)がr-1回より大きな単語ペア(wi,wj)の生起回数C(wi,wj)をそのまま補正後の生起回数C′(wi,wj)とし、それ以外の補正後の生起回数C′(wi,wj)を、r回に上記種類数Nrを上記種類数Nr-1で除した値を乗じた値として出力する生起回数補正ステップと、
    上記各単語の単独生起回数C(w)と補正後の生起回数C′(wi,wj)を入力として、上記単語ペア(wi,wj)が同時に発生する回数と各単語が単独で発生する回数の積との差を、統計的
    手法に基づいて検定する検定値を計算する検定値計算ステップと、
    上記単独生起回数C(w)と上記補正後の生起回数C′(wi,wj)と上記検定値を入力として、上記検定値が閾値より大きな単語ペア(wi,wj)の関連度を、補正後の生起回数C′(wi,wj)
    に単語集合の個数Nを乗じた値を各単語の単独生起回数の積で除した値の対数値として出
    力し、上記検定値が閾値よりも小さな単語ペア(wi,wj)の関連度を0として出力する補正関連度計算ステップと、
    を含む単語関連度テーブル作成方法によって作成されたものであることを特徴とする音
    声認識方法。
  6. 入力される音声文書の発話区間を検出して発話列として出力する発話分割部と、
    上記発話列を入力として音声認識を行い発話区間ごとに音声認識スコアが上位N個の認識結果候補単語と認識スコアを組みにしたNベスト候補を求めNベスト候補列として出力する音声認識部と、
    上記Nベスト候補列を入力として、現在発話区間を中心として当該現在発話区間から音声文書の冒頭方向に順位1位の上記認識結果候補単語である過去発話単語を過去発話単語集合として、また、当該現在発話区間から上記音声文書の末尾方向に順位1位の上記認識結果候補単語である未来発話単語を未来発話単語集合として抽出すると共に、現在発話区間の全順位の認識結果候補単語である現在発話単語を現在発話単語集合として抽出し、
    上記過去発話単語の2単語ペアの関連度の平均値である過去発話関連度と、上記未来発話単語の2単語ペアの関連度の平均値である未来発話関連度とを求め、全順位の上記現在発話単語と全ての上記過去発話単語の単語ペアの過去・現在関連度と、全順位の上記現在発話単語と全ての上記未来発話単語の単語ペアの現在・未来関連度とを求め、上記過去発話関連度と閾値を比較すると共に上記未来発話関連度と閾値とを比較することで、上記過去発話単語集合内の関連性と上記未来発話単語集合内の関連性を評価し、関連性がある場合は上記過去・現在関連度と上記現在・未来関連度の値を考慮した認識スコアを再計算し、関連性がない場合はその関連度を考慮しない認識スコアを再計算して、その再計算した認識スコアに基づいて上記現在発話区間のNベスト候補を並べ替えるNベスト候補スコア再計算部と、
    各発話区間の順位1位の候補を連結した音声認識結果を出力する音声認識結果出力部と、
    を具備する音声認識装置。
  7. 請求項1乃至5の何れかに記載した音声認識方法を、コンピュータに実行させるための音声認識方法プログラム。
JP2011118145A 2011-05-26 2011-05-26 音声認識方法とその装置とプログラム Active JP5513440B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011118145A JP5513440B2 (ja) 2011-05-26 2011-05-26 音声認識方法とその装置とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011118145A JP5513440B2 (ja) 2011-05-26 2011-05-26 音声認識方法とその装置とプログラム

Publications (2)

Publication Number Publication Date
JP2012247556A JP2012247556A (ja) 2012-12-13
JP5513440B2 true JP5513440B2 (ja) 2014-06-04

Family

ID=47468053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011118145A Active JP5513440B2 (ja) 2011-05-26 2011-05-26 音声認識方法とその装置とプログラム

Country Status (1)

Country Link
JP (1) JP5513440B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3660512B2 (ja) * 1998-12-07 2005-06-15 日本電信電話株式会社 音声認識方法、その装置及びプログラム記録媒体
JP5149941B2 (ja) * 2010-07-13 2013-02-20 日本電信電話株式会社 音声認識方法とその装置とプログラム

Also Published As

Publication number Publication date
JP2012247556A (ja) 2012-12-13

Similar Documents

Publication Publication Date Title
US9672817B2 (en) Method and apparatus for optimizing a speech recognition result
JP6066354B2 (ja) 信頼度計算の方法及び装置
US8504367B2 (en) Speech retrieval apparatus and speech retrieval method
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US8065149B2 (en) Unsupervised lexicon acquisition from speech and text
KR101629415B1 (ko) 문법 오류 검출 방법 및 이를 위한 오류검출장치
US7707028B2 (en) Clustering system, clustering method, clustering program and attribute estimation system using clustering system
Mairesse et al. Can prosody inform sentiment analysis? experiments on short spoken reviews
US10403271B2 (en) System and method for automatic language model selection
US9165553B2 (en) Information processing device, large vocabulary continuous speech recognition method and program including hypothesis ranking
US20210134277A1 (en) System and method for automatic speech analysis
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
CN108074562A (zh) 语音识别装置、语音识别方法以及存储介质
Wang et al. Toward unsupervised discovery of pronunciation error patterns using universal phoneme posteriorgram for computer-assisted language learning
JP5513461B2 (ja) 音声認識装置とその方法とプログラム
Etxeberria et al. Weighted finite-state transducers for normalization of historical texts
JP5513440B2 (ja) 音声認識方法とその装置とプログラム
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP5513439B2 (ja) 単語関連度テーブル作成装置とその方法と音声認識装置とプログラム
JP5149941B2 (ja) 音声認識方法とその装置とプログラム
JP5406797B2 (ja) 音声認識方法とその装置とプログラム
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP4981519B2 (ja) 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体
JP5325176B2 (ja) 2チャネル音声の音声認識方法とその装置とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140327

R150 Certificate of patent or registration of utility model

Ref document number: 5513440

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150