JP2014089247A - 識別的言語モデル学習装置、識別的言語モデル学習方法、プログラム - Google Patents
識別的言語モデル学習装置、識別的言語モデル学習方法、プログラム Download PDFInfo
- Publication number
- JP2014089247A JP2014089247A JP2012237811A JP2012237811A JP2014089247A JP 2014089247 A JP2014089247 A JP 2014089247A JP 2012237811 A JP2012237811 A JP 2012237811A JP 2012237811 A JP2012237811 A JP 2012237811A JP 2014089247 A JP2014089247 A JP 2014089247A
- Authority
- JP
- Japan
- Prior art keywords
- word
- recognition result
- language model
- error rate
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】人手で音声を書き起こす作業を割愛し、音声データのみから識別的言語モデルを学習する識別的言語モデル学習装置を提供する。
【解決手段】音声データを記憶する音声データベースと、音声データを取得して音声認識を実行し、一つの音声データに対して複数の認識結果文を生成する音声認識システム部と、認識結果文の単語誤り率の推定値を計算する単語誤り率推定部と、認識結果文と、各認識結果文に対応する単語誤り率の推定値とを対にして記憶する学習データ記憶部と、一つの音声データに対する複数の認識結果文のうち、単語誤り率の推定値が最小となる認識結果文を推定正解文とし、それ以外の認識結果文を不正解文として、推定正解文と、不正解文とを学習データとして用いて識別的言語モデルを生成する識別的言語モデル学習部とを備える。
【選択図】図3
【解決手段】音声データを記憶する音声データベースと、音声データを取得して音声認識を実行し、一つの音声データに対して複数の認識結果文を生成する音声認識システム部と、認識結果文の単語誤り率の推定値を計算する単語誤り率推定部と、認識結果文と、各認識結果文に対応する単語誤り率の推定値とを対にして記憶する学習データ記憶部と、一つの音声データに対する複数の認識結果文のうち、単語誤り率の推定値が最小となる認識結果文を推定正解文とし、それ以外の認識結果文を不正解文として、推定正解文と、不正解文とを学習データとして用いて識別的言語モデルを生成する識別的言語モデル学習部とを備える。
【選択図】図3
Description
本発明は自動音声認識において教師なし学習により識別的言語モデルを学習する識別的言語モデル学習装置、識別的言語モデル学習方法、プログラムに関する。
言語モデルは自然言語処理全般に使用される基本技術である。音声認識では、言語モデルはある文の文らしさ(自然言語らしさ)の推定に用いられる。すなわち、言語モデルは入力音声に対してある音声認識結果候補文が正解であるか不正解であるか、を推定するのに使用される。
このような目的に使用される言語モデルの一つとして、識別的言語モデルが知られている。識別的言語モデルは、正解文と不正解文を多数用い、これらの識別が適切に行われることを学習基準として生成した言語モデルである。識別的言語モデルの学習基準は、音声認識における言語モデルの用途(音声認識結果候補文が正解であるか不正解であるか、を推定する)に一致しているため、音声認識システムにおいて識別的言語モデルを利用することで、高精度な音声認識結果を得ることができる。
音声認識のための識別的言語モデルの学習方法として、非特許文献1が知られている。図1、図2を参照して非特許文献1に開示された識別的言語モデル学習装置について説明する。図1は、非特許文献1の識別的言語モデル学習装置1000の構成を示すブロック図である。図2は、非特許文献1の識別的言語モデル学習装置1000の動作を示すフローチャートである。図1に示すように非特許文献1の識別的言語モデル学習装置1000は、音声データベース1と、音声認識システム部2と、認識結果文記憶部3と、識別的言語モデル学習部4と、識別的言語モデル記憶部5と、正解文記憶部6とを備える。音声データベース1には、学習に必要なサンプル数の音声データが予め格納されている。音声認識システム部2は、識別的言語モデルを使用していないものとする。
まず、人手で音声データベース1に格納された各音声データから正解文(正解の認識結果文)を書き起こし、正解文記憶部6に当該正解文を記憶する(S0)。次に、音声認識システム部2は、音声データベース1に記憶された音声データを取得して音声認識を実行し、1つの音声データに対して、複数の音声認識結果(複数の認識結果文)を生成し、音声データ毎の複数の認識結果文の集合を認識結果文記憶部3に格納する(S2)。次に、識別的言語モデル学習部4は、正解文記憶部6に記憶された正解文(上述の人手で書き起こした正解文)と認識結果文記憶部3に記憶された音声データ毎の複数の認識結果文とを用いて識別的言語モデルを生成する(S4)。このとき、人手で書かれた正解文を正解とし、音声認識システムにより自動生成した認識結果文を不正解文とすると、正解文と不正解文との言語的差異が大きいため適切な学習が行われない場合があることが知られている。そこで、識別的言語モデル学習部4は、各音声データに対する認識結果文のうち当該音声データに対する正解文に最も近い認識結果文を代用正解文とし、残りを不正解文として、これらを学習データとして用い、パーセプトロンアルゴリズム等の既存の学習アルゴリズムにより識別的言語モデルを生成する(S4)。正解文との近さ(距離)は、単語誤り率(正解文中の単語数に占める認識結果文中の誤認識単語数の割合)で測られる。このようにして生成された識別的言語モデルは、識別的言語モデルを使用する音声認識システム9000などに使用される。
また、各認識結果文について求めた単語誤り率を重みとして学習に利用することにより、より高精度なモデルを獲得する方法(例えばMinimum Error Rate Training(MERT)、非特許文献2)が知られている。
非特許文献1、および非特許文献2の処理のフロー(図2参照)を要約すると以下のとおりとなる。
ステップS0:音声データベースを用意し、当該音声データベースの各音声データを人手で書き起こして正解文を生成する。
ステップS2:音声データベースから音声データを取得して、識別的言語モデルを使用しない音声認識システムにより各音声データに対して複数の認識結果文を生成する。
ステップS4:人手で書き起こした正解文と、認識結果文とを用いて各認識結果文に対して単語誤り率を算出し、当該単語誤り率を利用して識別的言語モデルを生成する。
ステップS0:音声データベースを用意し、当該音声データベースの各音声データを人手で書き起こして正解文を生成する。
ステップS2:音声データベースから音声データを取得して、識別的言語モデルを使用しない音声認識システムにより各音声データに対して複数の認識結果文を生成する。
ステップS4:人手で書き起こした正解文と、認識結果文とを用いて各認識結果文に対して単語誤り率を算出し、当該単語誤り率を利用して識別的言語モデルを生成する。
Brian Roark, Murat Saraclar, Michael Collins, "Discriminative n-gram language modeling," Computer Speech and Language, Vol. 21, pp. 373-392, 2007.
大庭隆伸, 堀貴明, 中村篤"ラウンドロビンデュエル識別法の提案と誤り訂正言語モデルによる評価",日本音響学会論文講演集, 1-9-11, (2010.9).
人手で音声データを書き起こした正解文を作成すること(上記ステップS0)はコストが高く識別的言語モデルの導入を妨げる要因となっている。そこで、本発明ではこの人手で音声を書き起こす作業を割愛し、音声データのみから識別的言語モデルを学習する識別的言語モデル学習装置を提供することを目的とする。
本発明の識別的言語モデル学習装置は、音声データベースと、音声認識システム部と、単語誤り率推定部と、学習データ記憶部と、識別的言語モデル学習部とを備える。
音声データベースは、音声データを記憶する。音声認識システム部は、音声データを取得して音声認識を実行し、一つの音声データに対して複数の認識結果文を生成する。単語誤り率推定部は、認識結果文の単語誤り率の推定値を計算する。学習データ記憶部は、認識結果文と、各認識結果文に対応する単語誤り率の推定値とを対にして記憶する。識別的言語モデル学習部は、一つの音声データに対する複数の認識結果文のうち、単語誤り率の推定値が最小となる認識結果文を推定正解文とし、それ以外の認識結果文を不正解文として、推定正解文と、不正解文とを学習データとして用いて識別的言語モデルを生成する。
本発明の識別的言語モデル学習装置によれば、人手で音声を書き起こす作業を割愛し、音声データのみから識別的言語モデルを学習することができる。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
非特許文献1のような従来技術では、学習アルゴリズムを適用する際は、真の正解文の代わりに最も正解に近い認識結果文、すなわち単語誤り率が最小である文を代用正解文として用いるのが通例である。つまり、真の正解文(人手による書き起こし文)は上述のステップS4の単語誤り率の算出のためだけに用いられる。このことから、各認識結果文のうち、正解に最も近いと思われる文が推定できれば、真の正解文(人手による書き起こし文)は必ずしも必要がないと言える。識別的言語モデルの導入にあたり、ステップS0は人の手を介するためコストが極めて高い。本発明の目的は、ステップS0におけるコストの削減にある。
以下、図3、4を参照して本発明の実施例1〜4の識別的言語モデル学習装置の概要を説明する。図3は実施例1〜4の識別的言語モデル学習装置4000〜7000の構成を示すブロック図である。図4は実施例1〜4の識別的言語モデル学習装置4000〜7000の動作を示すフローチャートである。本発明の基本的なアイデアはステップS0の人手による書き起こし作業を廃し、ステップS4で算出される単語誤り率を推定値で代用することにある。
図3に示すように、実施例1〜4の識別的言語モデル学習装置4000〜7000は、音声データベース1と、音声認識システム部2と、認識結果文記憶部3と、単語誤り率推定部400、500、600、700の何れかと、学習データ記憶部7と、識別的言語モデル学習部8と、識別的言語モデル記憶部5とを備える。以下、実施例1の識別的言語モデル学習装置4000は単語誤り率推定部400を備えるものとし、実施例2の識別的言語モデル学習装置5000は単語誤り率推定部500を備えるものとし、実施例3の識別的言語モデル学習装置6000は単語誤り率推定部600を備えるものとし、実施例4の識別的言語モデル学習装置7000は単語誤り率推定部700を備えるものとする。
前述したように、音声認識システム部2は、音声データの各々について音声認識処理を行い、音声データ毎の複数の認識結果文の集合を認識結果文記憶部3に格納する(S2)。このとき、一つの音声データに対してそれぞれN個ずつ(Nは2以上の整数)の認識結果文が生成されるものとする。単語誤り率推定部400〜700は、識別的言語モデルを使用しない音声認識システム部2により生成したN個の認識結果文それぞれについて、単語誤り率の推定値(単語誤り率推定値)を計算し出力する(S400、S500、S600、S700)。単語誤り率推定部400〜700で行われる処理の詳細については後述する。単語誤り率推定部400〜700は、学習データ記憶部7に、各音声データに対するN個の認識結果文と、各認識結果文に対応する単語誤り率推定値とを対にして記憶する(S400、S500、S600、S700)。識別的言語モデル学習部8は、一つの音声データに対する複数の認識結果文(N個)のうち、単語誤り率の推定値が最小となる認識結果文を推定正解文とし、それ以外の認識結果文を不正解文として、推定正解文と、不正解文とを学習データとして用いて識別的言語モデルを生成する(S8)。人手で作成した正解文に対する単語誤り率の代わりに、単語誤り率推定値を用いる点を除いては、従来技術と同じである。
本発明の識別的言語モデル学習装置4000〜7000の動作を要約すると、以下の通りである。
ステップS2:音声データを取得してN個の認識結果文を生成、記憶する。
ステップS400〜S700:各認識結果単語文の単語誤り率を推定し、単語誤り率推定値を各認識結果文と対にして記憶する。
ステップS8:単語誤り率推定値が最小のものを推定正解文とし、推定正解文と不正解文を学習データとして用いて識別的言語モデルを生成する。
ステップS2:音声データを取得してN個の認識結果文を生成、記憶する。
ステップS400〜S700:各認識結果単語文の単語誤り率を推定し、単語誤り率推定値を各認識結果文と対にして記憶する。
ステップS8:単語誤り率推定値が最小のものを推定正解文とし、推定正解文と不正解文を学習データとして用いて識別的言語モデルを生成する。
以上により、人手で書き起こした正解文を用いることなく、識別的言語モデルを生成することが可能となる。よって、人手による正解文の書き起こし作業の手間を削減することができる。なお、本発明の意図からすれば、単語誤り率の推定値は、各文の学習における重要さ(重み)もしくはどれを正解文として代用するかを決定するための指標に過ぎないことは明らかである。つまり、文字や音素等の単語以外の要素の誤り率を推定する装置で代用する構成としても良い。
<単語正解率、単語正解精度>
以下、単語正解率、単語正解精度について説明する。単語誤り率の推定値は、一般的には100―(単語正解率)(%)、または100−(単語正解精度)(%)として定義することができる。音声認識は人間が発した音声を計算機により単語列(テキスト)に変換する技術である。音声認識の精度は正解単語列と認識結果単語列のアライメントをDPマッチングにより取ることで計算できる。単語列のアライメントとは、二つの単語列が与えられたときに、それらが最も適合(一致、マッチ)するように照合を行った結果のことを言う。認識結果単語は以下の4種類に分類される。1.正解C(Correct)、2.置換誤りS(正解単語を他の単語に置き換えて誤る間違い;Substitution_error)、3.挿入誤りI(本来単語がない箇所に単語が挿入される誤り;Insertion_error)、4.削除誤りD(本来単語がある箇所に単語がない誤り;Deletion_error)。ここで、正解単語列中の単語数を#N、認識結果単語列中の正解単語数を#C、置換誤り単語数を#S、挿入誤り単語数を#I、削除誤り単語数を#Dとすると、音声認識精度は以下のように2種類の尺度で表わされる。
以下、単語正解率、単語正解精度について説明する。単語誤り率の推定値は、一般的には100―(単語正解率)(%)、または100−(単語正解精度)(%)として定義することができる。音声認識は人間が発した音声を計算機により単語列(テキスト)に変換する技術である。音声認識の精度は正解単語列と認識結果単語列のアライメントをDPマッチングにより取ることで計算できる。単語列のアライメントとは、二つの単語列が与えられたときに、それらが最も適合(一致、マッチ)するように照合を行った結果のことを言う。認識結果単語は以下の4種類に分類される。1.正解C(Correct)、2.置換誤りS(正解単語を他の単語に置き換えて誤る間違い;Substitution_error)、3.挿入誤りI(本来単語がない箇所に単語が挿入される誤り;Insertion_error)、4.削除誤りD(本来単語がある箇所に単語がない誤り;Deletion_error)。ここで、正解単語列中の単語数を#N、認識結果単語列中の正解単語数を#C、置換誤り単語数を#S、挿入誤り単語数を#I、削除誤り単語数を#Dとすると、音声認識精度は以下のように2種類の尺度で表わされる。
ここで、#N=#C+#S+#Dである。式(1)の単語正解率と式(2)の単語正解精度の違いは、挿入誤りを考慮するか否かであり、挿入誤りを考慮する分だけ、単語正解率よりも単語正解精度の方が厳しい尺度である。図1の例では、#N=13、#C=10、#S=2、#I=1、#D=1であるので、
となる。単語正解率と単語正解精度のどちらを使用するべきかは、どのような音声認識応用システムを構築するかによるが、通常は単語正解精度が使用されることが多い。
<単語誤り率推定部400>
以下、図5、図6、図7、図8を参照して、実施例1の単語誤り率推定部400で行われる処理の詳細について説明する。図5は本実施例の単語誤り率推定部400の構成を示すブロック図である。図6は本実施例の単語アライメントネットワーク取得部40の構成を示すブロック図である。図7は本実施例の単語誤り率推定部400の動作を示すフローチャートである。図8は本実施例の単語コンフュージョンネットワーク生成部30が生成する単語コンフュージョンネットワークを例示する図である。
以下、図5、図6、図7、図8を参照して、実施例1の単語誤り率推定部400で行われる処理の詳細について説明する。図5は本実施例の単語誤り率推定部400の構成を示すブロック図である。図6は本実施例の単語アライメントネットワーク取得部40の構成を示すブロック図である。図7は本実施例の単語誤り率推定部400の動作を示すフローチャートである。図8は本実施例の単語コンフュージョンネットワーク生成部30が生成する単語コンフュージョンネットワークを例示する図である。
図5に示すとおり、本実施例の単語誤り率推定部400は、単語コンフュージョンネットワーク生成部30、単語アライメントネットワーク取得部40、確率的認識精度計算部50を備える。図6に示すとおり、単語アライメントネットワーク取得部40はN−best認識結果単語列取得手段41、正解確率計算手段42、置換誤り確率計算手段43、挿入誤り確率計算手段44、削除誤り確率計算手段45を備える。本実施例および以下の実施例における単語誤り率推定部は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
単語コンフュージョンネットワーク生成部30は、入力端子2に入力されるN個の認識結果文を用いて、例えば図8に示す単語コンフュージョンネットワークと呼ばれる複数の認識結果単語列をコンパクトに確率的に表現した形式で得る(S30)。なお、単語コンフュージョンネットワーク生成部30は、単語ラティスを生成するものとし、生成された単語ラティスから単語コンフュージョンネットワークを生成することとしてもよい。単語コンフュージョンネットワークの取得方法は、例えば、参考非特許文献1に詳述されている。
単語コンフュージョンネットワークは、セグメント毎に何れかの認識結果単語が存在する確率、および何れの認識結果単語も存在しない確率(以下、εの存在確率という)を表す。例えば図8の単語コンフュージョンネットワークは、七つのセグメント(区間)で構成されている。各セグメントにはそのセグメントに認識結果として存在し得る複数の単語がアーク(弧)として記述されている。セグメント境界では各アークはノード(節)で束ねられている。例えば図8では、三番目のセグメントには、定額/大学/対外/εという四つの単語が認識結果として存在し得る(競合、対立している)ことを示している。ただしεはこのセグメントには認識結果単語は存在しないということを示すため、正味では三つの認識結果単語が存在し得ることになる。一番目のセグメントから七番目のセグメントまで、εも含めて、存在し得る単語の数を乗算していくと、2×3×4×2×2×1×2=192となり、これが図8の単語コンフュージョンネットワークが表現し得る認識結果単語列の種類数となる。この種類数はNとは必ずしも等しくならない。一般的には種類数はNよりも大きな値となる。各セグメント中の各単語には確率値が付与されており、これらの値は各単語がそのセグメント中に存在し得る確率を表している。これらは加算すると1となる。例えば、三番目のセグメントでは、p(定額)+p(大学)+p(対外)+p(ε)=0.4+0.3+0.2+0.1=1となる。ここで、ある入力音声を音声認識して得られる単語コンフュージョンネットワーク中のセグメント数をJ、j番目のセグメントをQj(j=1,2,…,J)、Qj中に存在し得る単語をWj,k(k=1,2,…,Kj)、それらの存在確率をp(Wj,k)とする。すると、この単語コンフュージョンネットワークで表わされる認識結果単語列の種類数は、
次に、単語アライメントネットワーク取得部40は単語コンフュージョンネットワーク生成部30から出力された単語コンフュージョンネットワークを単語アライメントネットワークに変換する(S40)。
ここで、N個の認識結果文の各セグメントに存在する単語(εを含む)をN−best認識結果単語と呼ぶこととする。本発明において、単語アライメントネットワークは、いずれかのN−best認識結果単語の存在確率をその単語が属するセグメントにおける正解確率とし、当該N−best認識結果単語以外のε以外の単語の存在確率の合計を当該セグメントにおける置換誤り確率とし、当該セグメントにおけるεの存在確率を当該セグメントにおける挿入誤り確率とし、いずれかのN−best認識結果単語であるεについては、当該εが属するセグメントにおけるその他の正味の単語の存在確率の合計を当該セグメントにおける削除誤り確率として、セグメント毎に、正解/置換誤り/挿入誤り/削除誤り確率を示したものとする。
ここで、単語アライメントネットワーク取得部40の処理の詳細を図6に示した各構成手段の動作に細分化して説明すると、まず、N−best認識結果単語列取得部41は、単語コンフュージョンネットワークからN−best認識結果単語列を取得する(SS41)。
単語コンフュージョンネットワーク中の各セグメントのN−best認識結果単語を連結して、上述したN個の認識結果文を再現したものをN−best認識結果単語列という。以下、図8の単語コンフュージョンネットワークにおいて太いアークで連結して示した“私_ε_定額_に_行く_予定_ε”はN−best認識結果単語列(認識結果文)の一つであるものとして代表させる。
以下、得られたN−best認識結果単語が正味の単語であるか、εであるかによって処理が分岐する。N−best認識結果単語がεでない正味の単語である場合、正解確率計算手段42は、当該εでないN−best認識結果単語を、セグメントjにおける正解単語を表す単語アライメント結果シンボルCj(jはセグメント番号、以降も同じ)に変え、当該N−best認識結果単語の存在確率を正解確率であるp(Cj)として付与する(SS42)。ここで、εでないN−best認識結果単語が実は正解単語ではなく、これに競合、対立する認識結果単語(εでない)が正解単語であるとすると、前述のN−best認識結果単語は置換誤り(Substitution_error)となる。よって、置換誤り確率計算手段43は、対立する認識結果単語(εでない)を一つに束ねて置換誤りを表す単語アライメント結果シンボルSjとし、置換誤り確率p(Sj)を、εでない対立候補の存在確率の和として付与する(SS43)。最後に、前述のεでないN−best認識結果単語が、実は正解単語ではなく、ε(単語なし)が正しいとすると、前述のεでないN−best認識結果単語は挿入誤り(Insertion_error)となる。よってこのεを挿入誤りを表す単語アライメント結果シンボルIjに変え、挿入誤り確率p(Ij)をp(ε)として付与する(SS44)。
一方、N−best認識結果単語がεである場合、このεと競合(対立)する認識結果単語が存在する場合には、εすなわち「単語なし」が実は正しくなく、このセグメントに他のεでない対立候補が存在するのが正しいとすると、このεは削除誤り(Deletion_error)となる。よって他のεでない対立候補を一つに束ねて削除誤りを表す単語アライメント結果シンボルDjとし、削除誤り確率p(Dj)を、εでない対立候補の存在確率の和として付与する(SS45)。
これら単語アライメントネットワーク取得部40で実行される単語コンフュージョンネットワークから単語アライメントネットワークへの変換手順について、図8、9を参照してさらに具体的に説明する。図9は単語コンフュージョンネットワークから単語アライメントネットワークへの変換例を示す図である。前述したように、変換手順は、N−best認識結果単語がεでない正味の単語であるか(図8、9ではセグメント1、3、4、5、6)、εであるか(図8、9ではセグメント2、7)で、大きく二つに分かれる。
まず、セグメントにおけるN−best認識結果単語がεでない正味の単語である場合について変換手順を説明する。ここでは、セグメント3を例に説明する。セグメント3では、4つの単語、定額/大学/対外/ε、が、それぞれ存在確率、p(定額)=0.4、p(大学)=0.3、p(対外)=0.2、p(ε)=0.1で競合している。ここで、N−best認識結果単語列“私_ε_定額_に_行く_予定_ε”について考えた場合、セグメント3のN−best認識結果単語は「定額」である。よって、まず正解確率計算手段42は、「定額」を正解単語を表す単語アライメント結果シンボルC3(3はセグメント番号、以降も同じ)に変え、その確率p(C3)=0.4を付与する(SS42)。次に「定額」と競合するεでない正味の単語を見ると「大学」と「対外」の2単語である。ここで「定額」が実は正解単語ではなく、「大学」あるいは「対外」が正解単語であるとすると、「定額」は置換誤り(Substitution_error)となる。よって置換誤り確率計算手段43は、「大学」と「対外」を一つに束ねて置換誤りを表す単語アライメント結果シンボルS3とし、その確率をp(S3)=p(大学)+p(対外)=0.3+0.2=0.5とする(SS43)。すなわち、正解と思われる単語「定額」が実は置換誤りである確率はp(S3)=0.5である。最後にεがp(ε)=0.1で残る。上記したように、εはそのセグメントには単語がないことを表す。よって「定額」が実は正解単語ではなく、ε(単語なし)が正しいとすると、「定額」は挿入誤り(Insertion_error)となる。よって挿入誤り確率計算手段44は、このεを挿入誤りを表す単語アライメント結果シンボルI3に変え、その確率はp(I3)=p(ε)=0.1とする(SS44)。すなわち、正解と思われる単語「定額」が実は挿入誤りである確率はp(I3)=0.1である。以上のような変換処理を行った結果をまとめると、セグメント3のN−best認識結果単語「定額」が正解である確率はp(C3)=0.4、置換誤りである確率はp(S3)=0.5、挿入誤りである確率はp(I3)=0.1となる。
次に、N−best認識結果単語がεである場合について変換手順を説明する。ここでは、セグメント2を例に説明する。セグメント2では、ε/は/が、が、それぞれ存在確率、p(ε)=0.4、p(は)=0.3、p(が)=0.3で競合している。N−best認識結果単語列“私_ε_定額_に_行く_予定_ε”について考えた場合、セグメント2のN−best認識結果単語はε(単語なし)である。εについては変換処理は行わない。次に、このεと競合する単語をみると「は」と「が」の2単語である。ここでεすなわち「単語なし」が実は正しくなく、このセグメントに「は」あるいは「が」が存在するのが正しいとすると、このεは削除誤り(Deletion_error)となる。よって削除誤り確率計算手段45は、「は」と「が」を一つに束ねて削除誤りを表す単語アライメント結果シンボルD2(2はセグメント番号、以降も同じ)とし、その確率をp(D2)=p(は)+p(が)=0.3+0.3=0.6とする(SS45)。すなわち、ε(単語なし)が正しいと思われるセグメント2が実は削除誤りである確率はp(D2)=0.6である。単語アライメントネットワーク取得部40では、上記のような処理により、単語コンフュージョンネットワーク生成部30から出力された単語コンフュージョンネットワークを単語アライメントネットワークに変換する。
確率的認識精度計算部50は、単語アライメントネットワーク取得部40から出力された単語アライメントネットワークを入力として音声認識精度を計算しそれを出力する(S50)。通常、認識精度は、上記したように、正解単語列中の単語数#N、正解単語数#C、置換誤り単語数#S、挿入誤り単語数#I、削除誤り単語数#Dを、0以上の整数として数え上げて、式(1)または式(2)により計算するが、確率的認識精度計算部50では、単語アライメントネットワーク上の各セグメント中の各単語アライメント結果シンボルの確率値を加算することで計算する。ここで、ある単語アライメントネットワーク中のセグメント数をJ、j番目のセグメントをQj(j=1,2,…,J)、Qj中に存在し得る単語アライメント結果シンボルをAj(A=C/S/I/D)、その存在確率をp(Aj)とする。このとき、正解単語数の推定値E(#C)、置換誤り単語数の推定値E(#S)、挿入誤り単語数の推定値E(#I)、削除誤り単語数の推定値E(#D)、正解単語列中の単語数の推定値E(#N)は、それぞれ以下のように求めることができる。
0以上の整数である#C、#S、#D、#Iとは異なり、これらE(#C)、E(#S)、E(#I)、E(#D)、E(#N)は、小数点以下の数値を取りうる。これらを用いて単語正解率と単語正解精度は以下のように求められる。
例えば、図9の単語アライメントネットワークの場合、
と推定される。単語誤り率の推定値=100―(単語正解率)(%)、または単語誤り率の推定値=100−(単語正解精度)(%)として定義できるため、上述の例では、単語誤り率の推定値=100−64.81=35.19(%)、または、単語誤り率の推定値=100−57.41=42.59(%)である。
以上のように、本実施例の識別的言語モデル学習装置4000によれば、単語誤り率推定部400が、N−best認識結果単語列中の各単語の分類(正解/置換誤り/挿入誤り/削除誤り)を確率的に推定し、それらに基づいて得た単語正解率、または単語正解精度に基づいて、単語誤り率の推定値を算出し、識別的言語モデル学習部8が、単語誤り率の推定値が最小となる推定正解文とその他の不正解文とを用いて識別的言語モデルを生成するため、人手で音声を書き起こす作業を割愛し、音声データのみから識別的言語モデルを学習することが可能となる。
<単語誤り率推定部500>
次に、図10、図11、図12を参照して、実施例1の単語誤り率推定部400の変形版である実施例2に係る単語誤り率推定部について詳細に説明する。図10は本実施例の単語誤り率推定部500の構成を示すブロック図である。図11は本実施例の単語誤り率推定部500の動作を示すフローチャートである。図12は本実施例のN−best単語アライメント結果シンボル列取得部60が行う単語アライメントネットワークをN−best単語アライメント結果シンボル列に変換する処理について示す図である。図10に示すとおり、本実施例の単語誤り率推定部500は、単語コンフュージョンネットワーク生成部30、単語アライメントネットワーク取得部40、N−best単語アライメント結果シンボル列取得部60、認識精度計算部70を備える。本実施例の単語誤り率推定部500が備える単語コンフュージョンネットワーク生成部30、単語アライメントネットワーク取得部40は、実施例1の単語誤り率推定部400が備える同一番号の各構成部と同じ動作をする。従って、単語アライメントネットワーク取得部40にて単語アライメントネットワークを取得するまでの処理は実施例1と同じであるため、説明を割愛する。本実施例においては、N−best単語アライメント結果シンボル列取得部60が、単語アライメントネットワークをN−best単語アライメント結果シンボル列に変換する(S60)。
次に、図10、図11、図12を参照して、実施例1の単語誤り率推定部400の変形版である実施例2に係る単語誤り率推定部について詳細に説明する。図10は本実施例の単語誤り率推定部500の構成を示すブロック図である。図11は本実施例の単語誤り率推定部500の動作を示すフローチャートである。図12は本実施例のN−best単語アライメント結果シンボル列取得部60が行う単語アライメントネットワークをN−best単語アライメント結果シンボル列に変換する処理について示す図である。図10に示すとおり、本実施例の単語誤り率推定部500は、単語コンフュージョンネットワーク生成部30、単語アライメントネットワーク取得部40、N−best単語アライメント結果シンボル列取得部60、認識精度計算部70を備える。本実施例の単語誤り率推定部500が備える単語コンフュージョンネットワーク生成部30、単語アライメントネットワーク取得部40は、実施例1の単語誤り率推定部400が備える同一番号の各構成部と同じ動作をする。従って、単語アライメントネットワーク取得部40にて単語アライメントネットワークを取得するまでの処理は実施例1と同じであるため、説明を割愛する。本実施例においては、N−best単語アライメント結果シンボル列取得部60が、単語アライメントネットワークをN−best単語アライメント結果シンボル列に変換する(S60)。
N−best単語アライメント結果シンボル列とは、単語アライメントネットワークにおいて、何れかのセグメントにおける最大確率が正解確率である場合にシンボルC、何れかのセグメントにおける最大確率が置換誤り確率である場合にシンボルSを、何れかのセグメントにおける最大確率が挿入誤り確率である場合にシンボルIを、何れかのセグメントにおける最大確率が削除誤り確率である場合にシンボルDを、セグメント毎に付与して連結したものである。
図12にN−best単語アライメント結果シンボル列への変換処理を示す。この変換処理は、上記した単語コンフュージョンネットワークからN−best認識結果単語列を得る処理と同じで、単語アライメントネットワーク上の各セグメント中で最高の存在確率を持つ単語アライメント結果シンボル(太いアークで示されている)を連結していく。図12の場合、この変換処理により、“CDSCCCε”というN−best単語アライメント結果シンボル列を得ることができる。ここで、N−best単語アライメント結果シンボルCの個数を正解単語数の推定値E(#C)、N−best単語アライメント結果シンボルSの個数を置換誤り単語数の推定値E(#S)、N−best単語アライメント結果シンボルDの個数を削除誤り単語数の推定値E(#D)、N−best単語アライメント結果シンボルC、S、Dの個数の和を認識結果単語数の推定値E(#N)と書くことができる。従って、E(#C)、E(#S)、E(#D)、E(#N)は、0以上の整数として数え上げることができ、E(#C)=4、E(#S)=1、E(#D)=1、E(#N)=E(#C)+E(#S)+E(#D)=4+1+1=6となる。ただし、N−best単語アライメント結果シンボル列には挿入誤りを表す単語アライメント結果シンボルIが含まれないため、認識結果単語列中の挿入誤り単語数の推定値E(#I)は得られない。しかし、ここで、音声認識においては挿入誤り数と削除誤り数が同じような値になることが多いという参考非特許文献2の知見に基づけば、E(#I)=E(#D)と推定することは可能である。よって、認識精度計算部70において、
に従い、単語正解率=((6−1−1)/6)×100=(4/6)×100≒66.67[%]、単語正解精度=((6−1−1−1)/6)×100=(4−1/6)×100≒50.00[%]と計算できる。従ってこの場合、単語誤り率の推定値=100−66.67=33.33(%)、または、単語誤り率の推定値=100−50.00=50.00(%)である。
以上のように、本実施例の識別的言語モデル学習装置5000によれば、単語誤り率推定部500が、N−best認識結果単語列中の各単語の分類(正解/置換誤り/削除誤り)を確率的に推定し、それらに基づいて得た単語正解率、または単語正解精度に基づいて、単語誤り率の推定値を算出し、識別的言語モデル学習部8が、単語誤り率の推定値が最小となる推定正解文とその他の不正解文とを用いて識別的言語モデルを生成するため、人手で音声を書き起こす作業を割愛し、音声データのみから識別的言語モデルを学習することが可能となる。
<単語誤り率推定部600>
以下、図13、図14、図15、図16を参照して、実施例3に係る単語誤り率推定部について詳細に説明する。図13は本実施例の単語誤り率推定部600の構成を示すブロック図である。図14は本実施例の単語コンフュージョンネットワーク生成部630の構成を示すブロック図である。図15は本実施例の単語誤り率推定部600の動作を示すフローチャートである。図16はN−best認識結果単語列中の各単語に対して確率的単語分類結果を付与する処理について示す図である。
以下、図13、図14、図15、図16を参照して、実施例3に係る単語誤り率推定部について詳細に説明する。図13は本実施例の単語誤り率推定部600の構成を示すブロック図である。図14は本実施例の単語コンフュージョンネットワーク生成部630の構成を示すブロック図である。図15は本実施例の単語誤り率推定部600の動作を示すフローチャートである。図16はN−best認識結果単語列中の各単語に対して確率的単語分類結果を付与する処理について示す図である。
図13に示すとおり、本実施例の単語誤り率推定部600は、単語コンフュージョンネットワーク生成部630、単語アライメントネットワーク取得部40、N−best単語アライメント結果シンボル列取得部60、N−best認識結果単語列取得部80、単語特徴量ベクトル作成部90、単語関連情報記憶部100、認識結果単語確率的分類モデル記憶部110、認識結果単語確率的分類部120、確率的認識精度計算部130を備える。図14に示すとおり、単語コンフュージョンネットワーク生成部630は、単語ラティス生成手段631、単語コンフュージョンネットワーク生成手段32、対立候補情報生成手段632を備える。本実施例の単語誤り率推定部600が備える単語アライメントネットワーク取得部40、N−best単語アライメント結果シンボル列取得部60は、実施例2の音声認識精度推定装置500が備える同一番号の各構成部と同じ動作をする。従って、単語アライメントネットワーク取得部40、N−best単語アライメント結果シンボル列取得部60における処理は実施例2と同じであるため、説明を割愛する。
まず単語コンフュージョンネットワーク生成部630は、入力端子2に入力される認識結果文を単語ラティス、および単語コンフュージョンネットワークの形式に変換する。単語コンフュージョンネットワーク生成部630は、これらに加えて後述する対立候補情報を生成し、生成した単語ラティスと、単語コンフュージョンネットワークと、対立候補情報とを出力する(S630)。
より詳細には、単語ラティス生成手段631は、単語ラティスを生成する(SS631)。単語コンフュージョンネットワーク生成手段32は、生成された単語ラティスから単語コンフュージョンネットワークを生成する(SS32)。次に、対立候補情報生成手段632は、単語ラティス及び単語コンフュージョンネットワークから対立候補情報を生成する(SS632)。
単語ラティスは複数の認識結果単語列の表現形式であり、これを変換して単語コンフュージョンネットワークが生成される。単語ラティスを単語コンフュージョンネットワークに変換する手順は、例えば、参考非特許文献1に詳述されている。単語コンフュージョンネットワークの方が単語ラティスよりも効率よくコンパクトに複数の認識結果単語列を表現するが、単語ラティスには単語コンフュージョンネットワークには保存されていない情報、例えば、認識結果単語の音響尤度や言語尤度などが記録されている。対立候補情報とは、ある認識結果単語を認識中(探索処理実行中)に、対立候補の単語はいくつあったかを示す情報のことである。
次に、実施例2同様にステップS40、S60が実行されてそれぞれ単語アライメントネットワーク、N−best単語アライメント結果シンボル列を生成する(S40、S60)。次に、単語コンフュージョンネットワーク生成部630から出力された単語コンフュージョンネットワークを入力として、N−best認識結果単語列取得部80は、N−best認識結果単語列を取得する(S80)。N−best認識結果単語列を取得する処理については上述したとおりであり、例えば、図8の単語コンフュージョンネットワークからは、“私ε定額に行く予定ε”、というN−best認識結果単語列(認識結果文)の一つを得ることができる。単語特徴量ベクトル作成部90は、N−best認識結果単語列中のεでない正味の各単語に対して、単語コンフュージョンネットワークから得られる情報(存在確率、競合単語の数)、単語ラティスから得られる情報(音響尤度、言語尤度)、対立候補情報、単語アライメントネットワークから得られる情報(単語アライメント結果シンボルAj(A=C/S/I/D)の存在確率p(Aj))、N−best単語アライメント結果シンボル列から得られる情報(単語アライメント結果シンボル)を取得する。また同時に単語関連情報記憶部100から、認識結果単語に対する情報(単語関連情報)を取得する。単語関連情報は認識結果単語の品詞情報などを表す。これらの情報は単語関連情報記憶部100から抽出する。単語特徴量ベクトル作成部90は、これらの入力情報を並べて、単語特徴量ベクトルを作成する(S90)。単語特徴量ベクトルの作成に際し、入力情報はどんな順序で並べても構わないが、一度順序を決めた後はそれを変えないようにする。認識結果単語確率的分類部120は、単語特徴量ベクトル作成部90で作成されたN−best認識結果単語列中のεでない正味の各単語の単語特徴量ベクトルを入力として、認識結果単語確率的分類モデル記憶部110に記憶された認識結果単語確率的分類モデル(モデルパラメータ)を用いて、N−best認識結果単語列中のεでない正味の各単語を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与する(S120)。このように、セグメント毎に単語アライメント結果シンボルと各シンボルの確率とを対にして表記した結果を確率的単語分類結果と呼ぶ。
別の表現をすれば、N−best認識結果単語列中のε以外の各単語の単語特徴量ベクトルと、予め学習された認識結果単語確率的分類モデル(モデルパラメータ)とを用いて、N−best認識結果単語列中のε以外の各単語が正解である確率、置換誤りである確率、挿入誤りである確率をセグメント毎に表記した結果を確率的単語分類結果ということができる。
すなわち、例えばN−best認識結果単語列中のεでない正味のj番目のN−best認識結果単語に対して、それが正解である確率p(Cj)、置換誤りである確率p(Sj)、挿入誤りである確率p(Ij)を付与する。ここで、p(Cj)+p(Sj)+p(Ij)=1である。この処理の様子を図16に示す。認識結果単語確率的分類モデルは、例えば、参考非特許文献3に詳述されている条件付確率場(Conditional_Random_Fields:CRF)などであり、学習データを用いてN−best認識結果単語列中のε以外の各単語の単語特徴量ベクトル(当該単語の単語特徴量ベクトルだけでなく当該単語の前後数単語の単語特徴量ベクトルが用いられることもある)と、当該単語が正解である確率、置換誤りである確率、及び、挿入誤りである確率の関係を予め学習しておく。続く確率的認識精度計算部130では、実施例1の確率的認識精度計算部50と同様に、確率的単語分類結果を用いて音声認識精度を計算し、計算した単語誤り率推定値を出力する(S130)。
N−best認識結果単語列中の正解単語数の推定値E(#C)、置換誤り単語数の推定値E(#S)、挿入誤り単語数の推定値E(#I)は、それぞれ、式(5)、式(6)、式(7)で計算できる。図16の例の場合、E(#C)=3.3、E(#S)=1.1、E(#I)=0.6となる。認識結果単語確率的分類部120では、N−best認識結果単語列中のεでない正味の単語のみ確率的に分類するため、削除誤りである確率p(Dj)が算出できない。そこで正解単語列中の単語数の推定値E(#N)を次式のように求める。
図16の例の場合、E(#N)=3.3+1.1=4.4となる。あるいは参考非特許文献2に記載されているように、音声認識においては一般に挿入誤り数と削除誤り数が同じような値になることが多いという知見に基づけば、E(#N)は次式のように求められる。
図16の例の場合、E(#N)=3.3+1.1+0.6=5.0となる。単語正解率及び単語正解精度は式(10)及び式(11)で計算できる。図16の例で、式(12)のようにE(#N)を計算すると、単語正解率=(3.3/4.4)×100=75.00[%]、単語正解精度=((3.3−0.6)/4.4)×100=61.36[%]となる。また式(13)のようにE(#N)を計算すると、単語正解率(3.3/5.0)×100=66.00[%]、単語正解精度((3.3−0.6)/5.0)×100=54.00[%]となる。式(12)で計算した場合、単語誤り率の推定値=100−75.00=25.00(%)、または、単語誤り率の推定値=100−61.36=38.64(%)である。式(13)で計算した場合、単語誤り率の推定値=100−66.00=34.00(%)、または、単語誤り率の推定値=100−54.00=46.00(%)である。
なお、本実施例においては、単語特徴量ベクトル作成部90において、単語コンフュージョンネットワークから得られる情報、単語ラティスから得られる情報、対立候補情報、単語アライメントネットワークから得られる情報、N−best単語アライメント結果シンボル列から得られる情報、及び単語関連情報を入力情報として、これらを並べることにより単語特徴量ベクトルを生成することとしたが、これに限られず、単語特徴量ベクトル作成部90において、単語コンフュージョンネットワーク生成部630から取得する何れの情報を用いて単語特徴量ベクトルを生成しても良い。この場合、認識結果単語確率的分類モデル記憶部110には、上記入力情報のバリエーションに合わせて予め学習した認識結果単語確率的分類モデルを記憶しておく。そして、認識結果単語確率的分類部120は、単語特徴量ベクトル作成部90で作成されたN−best認識結果単語列中のεでない各単語の単語特徴量ベクトルを入力として、認識結果単語確率的分類モデル記憶部110に記憶された認識結果単語確率的分類モデルを用いて、N−best認識結果単語列中のεでない正味の各単語を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与することとすればよい。
以上のように、本実施例の識別的言語モデル学習装置6000によれば、単語誤り率推定部600が、認識結果単語列中の各単語の分類(正解/置換誤り/挿入誤り/削除誤り)を確率的に推定し、それらに基づいて得た単語正解率、または単語正解精度に基づいて、単語誤り率の推定値を算出し、識別的言語モデル学習部8が、単語誤り率の推定値が最小となる推定正解文とその他の不正解文とを用いて識別的言語モデルを生成するため、人手で音声を書き起こす作業を割愛し、音声データのみから識別的言語モデルを学習することが可能となる。
また、本単語誤り率推定部600では、従来の音声認識精度推定装置で使用されていた発話特徴量ベクトルよりもより詳細な単語単位の特徴量ベクトルを用いるので、より高精度な認識精度推定が可能になる。
<単語誤り率推定部700>
次に、図17、図18、図19を参照して、実施例3の単語誤り率推定部600の変形版である実施例4に係る単語誤り率推定部について詳細に説明する。図17は本実施例の単語誤り率推定部700の構成を示すブロック図である。図18は本実施例の単語誤り率推定部700の動作を示すフローチャートである。図19は本実施例の認識結果単語分類確定部140が行う認識結果単語の分類を確定する処理を例示する図である。
次に、図17、図18、図19を参照して、実施例3の単語誤り率推定部600の変形版である実施例4に係る単語誤り率推定部について詳細に説明する。図17は本実施例の単語誤り率推定部700の構成を示すブロック図である。図18は本実施例の単語誤り率推定部700の動作を示すフローチャートである。図19は本実施例の認識結果単語分類確定部140が行う認識結果単語の分類を確定する処理を例示する図である。
実施例4の単語誤り率推定部700は、単語コンフュージョンネットワーク生成部630、単語アライメントネットワーク取得部40、N−best単語アライメント結果シンボル列取得部60、N−best認識結果単語列取得部80、単語特徴量ベクトル作成部90、単語関連情報記憶部100、認識結果単語確率的分類モデル記憶部110、認識結果単語確率的分類部120、認識結果単語分類確定部140、認識精度計算部150を備える。本実施例の単語誤り率推定部700が備える単語コンフュージョンネットワーク生成部630、単語アライメントネットワーク取得部40、N−best単語アライメント結果シンボル列取得部60、N−best認識結果単語列取得部80、単語特徴量ベクトル作成部90、単語関連情報記憶部100、認識結果単語確率的分類モデル記憶部110、認識結果単語確率的分類部120は、実施例3の単語誤り率推定部600が備える同一番号の各構成部と同じ動作をする。従って、認識結果単語確率的分類部120にて認識結果単語を単語アライメント結果シンボルに分類して確率を付与するまでの処理(ステップS120まで)は、実施例3と同じである。
認識結果単語分類確定部140では認識結果単語の確率的分類を基に認識結果単語の単語アライメント結果シンボルを確定する(S140)。すなわち、認識結果単語に付与されている、正解である確率p(Cj)、置換誤りである確率p(Sj)、挿入誤りである確率p(Ij)を比較し、最高の確率を与える単語アライメント結果シンボルに認識結果単語の分類を確定する。この処理の様子を図19に示す。図19の例では、N−best認識結果単語列の確定した単語アライメント結果シンボル列は、“CSICC”となる。これよりN−best認識結果単語列中の正解単語数の推定値E(#C)、置換誤り単語数の推定値E(#S)、挿入誤り単語数の推定値E(#I)は、0以上の整数として数え上げることができる。図19の例では、E(#C)=3、E(#S)=1、E(#I)=1となる。実施例3と同様に、確定した単語アライメント結果シンボル列中には削除誤りDは出現しない。よって、正解単語列中の単語数の推定値は、式(12)に従いE(#N)=E(#C)+E(#S)として求めるか、式(13)に従いE(#N)=E(#C)+E(#S)+E(#I)として求める。図19の例で、式(12)に従うと、E(#N)=3+1=4となり、式(13)に従うと、E(#N)=3+1+1=5となる。単語正解率及び単語正解精度は式(10)及び式(11)で計算できる。図19の例で、式(12)のようにE(#N)を計算すると、単語正解率(3/4)×100=75.00[%]、単語正解精度=((3−1)/4)×100=50.00[%]となる。また式(13)のようにE(#N)を計算すると、単語正解率=(3/5)×100=60.00[%]、単語正解精度=((3−1)/5)×100=40.00[%]となる。式(12)で計算した場合、単語誤り率の推定値=100−75.00=25.00(%)、または、単語誤り率の推定値=100−50.00=50.00(%)である。式(13)で計算した場合、単語誤り率の推定値=100−60.00=40.00(%)、または、単語誤り率の推定値=100−40.00=60.00(%)である。
以上のように、本実施例の識別的言語モデル学習装置7000によれば、単語誤り率推定部700が、認識結果単語列中の各単語の分類(正解/置換誤り/挿入誤り)を確率的に推定し、それらに基づいて得た単語正解率、または単語正解精度に基づいて、単語誤り率の推定値を算出し、識別的言語モデル学習部8が、単語誤り率の推定値が最小となる推定正解文とその他の不正解文とを用いて識別的言語モデルを生成するため、人手で音声を書き起こす作業を割愛し、音声データのみから識別的言語モデルを学習することが可能となる。
また、本単語誤り率推定部700では、従来の音声認識精度推定装置で使用されていた発話特徴量ベクトルよりもより詳細な単語単位の特徴量ベクトルを用いるので、より高精度な認識精度推定が可能になる。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
(参考非特許文献1)L. Mangu, E. Brill and A. Stolcke, “Finding consensus in speech recognition: word error minimization and other applications of confusion networks,” Computer Speech and Language, vol. 14, pp. 373-400, 2000.
(参考非特許文献2)L. Zhou, Y. Shi, D. Zhang and A. Sears, "Discovering cues to error detection in speech recognition output: a user-centered approach,"Journal of Management Information Systems," Spring 2006, vol. 22, no. 4, pp. 237-270.
(参考非特許文献3)J. Lafferty, A. McCallum and F. Pereira, “Conditional random fields: probabilistic models for segmenting and labeling sequence data,”Proc. ICML, pp. 282-289, 2001.
(参考非特許文献1)L. Mangu, E. Brill and A. Stolcke, “Finding consensus in speech recognition: word error minimization and other applications of confusion networks,” Computer Speech and Language, vol. 14, pp. 373-400, 2000.
(参考非特許文献2)L. Zhou, Y. Shi, D. Zhang and A. Sears, "Discovering cues to error detection in speech recognition output: a user-centered approach,"Journal of Management Information Systems," Spring 2006, vol. 22, no. 4, pp. 237-270.
(参考非特許文献3)J. Lafferty, A. McCallum and F. Pereira, “Conditional random fields: probabilistic models for segmenting and labeling sequence data,”Proc. ICML, pp. 282-289, 2001.
Claims (3)
- 音声データを記憶する音声データベースと、
音声データを取得して音声認識を実行し、一つの音声データに対して複数の認識結果文を生成する音声認識システム部と、
前記認識結果文の単語誤り率の推定値を計算する単語誤り率推定部と、
前記認識結果文と、各認識結果文に対応する単語誤り率の推定値とを対にして記憶する学習データ記憶部と、
前記一つの音声データに対する複数の認識結果文のうち、前記単語誤り率の推定値が最小となる認識結果文を推定正解文とし、それ以外の認識結果文を不正解文として、前記推定正解文と、前記不正解文とを学習データとして用いて識別的言語モデルを生成する識別的言語モデル学習部と、
を備える識別的言語モデル学習装置。 - 音声データを取得して音声認識を実行し、一つの音声データに対して複数の認識結果文を生成する音声認識ステップと、
前記認識結果文の単語誤り率の推定値を計算する単語誤り率推定ステップと、
前記一つの音声データに対する複数の認識結果文のうち、前記単語誤り率の推定値が最小となる認識結果文を推定正解文とし、それ以外の認識結果文を不正解文として、前記推定正解文と、前記不正解文とを学習データとして用いて識別的言語モデルを生成する識別的言語モデル学習ステップと、
を有する識別的言語モデル学習方法。 - 請求項2に記載された識別的言語モデル学習方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012237811A JP2014089247A (ja) | 2012-10-29 | 2012-10-29 | 識別的言語モデル学習装置、識別的言語モデル学習方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012237811A JP2014089247A (ja) | 2012-10-29 | 2012-10-29 | 識別的言語モデル学習装置、識別的言語モデル学習方法、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014089247A true JP2014089247A (ja) | 2014-05-15 |
Family
ID=50791207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012237811A Pending JP2014089247A (ja) | 2012-10-29 | 2012-10-29 | 識別的言語モデル学習装置、識別的言語モデル学習方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014089247A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211571A (zh) * | 2019-04-26 | 2019-09-06 | 平安科技(深圳)有限公司 | 错句检测方法、装置及计算机可读存储介质 |
-
2012
- 2012-10-29 JP JP2012237811A patent/JP2014089247A/ja active Pending
Non-Patent Citations (2)
Title |
---|
JPN6015051558; 小林彰夫 奥貴裕 本間真一 今井亨 中川聖一: 'ラベルなしデータを用いた識別的言語モデルの検討' 日本音響学会 2010年 秋季研究発表会講演論文集CD-ROM , 20100916, pp.145-146 * |
JPN6015051559; 小川厚徳 堀貴明 中村篤: '単語アライメントネットワークと識別的誤りタイプ分類による認識精度推定' 日本音響学会 2012年 秋季研究発表会講演論文集CD-ROM , 20120921, pp.67-68 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211571A (zh) * | 2019-04-26 | 2019-09-06 | 平安科技(深圳)有限公司 | 错句检测方法、装置及计算机可读存储介质 |
CN110211571B (zh) * | 2019-04-26 | 2023-05-26 | 平安科技(深圳)有限公司 | 错句检测方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102057184B1 (ko) | 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체 | |
CN112687328B (zh) | 确定临床描述信息的表型信息的方法、设备和介质 | |
KR20040073398A (ko) | 텍스트로부터 워드 에러율을 예측하기 위한 방법 및 시스템 | |
CN114818668B (zh) | 一种语音转写文本的人名纠错方法、装置和计算机设备 | |
CN112287680B (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
CN112687332A (zh) | 用于确定致病风险变异位点的方法、设备和存储介质 | |
JP2019133046A (ja) | 学習装置、学習方法及び学習プログラム | |
JP5740368B2 (ja) | 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
CN114818669B (zh) | 一种人名纠错模型的构建方法和计算机设备 | |
US10529337B2 (en) | Symbol sequence estimation in speech | |
CN113889092A (zh) | 语音识别结果的后处理模型的训练方法、处理方法及装置 | |
JP6391925B2 (ja) | 音声対話装置、方法およびプログラム | |
JP6772394B1 (ja) | 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム | |
JP5980142B2 (ja) | 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム | |
CN111353295A (zh) | 序列标注方法、装置、存储介质及计算机设备 | |
JP6473112B2 (ja) | 音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム | |
CN118132687A (zh) | 语句处理和类目模型的训练方法、装置、设备及介质 | |
JP2014089247A (ja) | 識別的言語モデル学習装置、識別的言語モデル学習方法、プログラム | |
JP5679346B2 (ja) | 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム | |
JP5670293B2 (ja) | 単語追加装置、単語追加方法、およびプログラム | |
JP5679345B2 (ja) | 音声認識精度推定装置、音声認識精度推定方法、プログラム | |
JP2006201553A (ja) | 識別的学習方法、装置、プログラム、音声認識装置、プログラム、これらのプログラムを記録した記録媒体 | |
JP6389776B2 (ja) | 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151222 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20161018 |