JP4340024B2 - Statistical language model generation apparatus and statistical language model generation program - Google Patents

Statistical language model generation apparatus and statistical language model generation program Download PDF

Info

Publication number
JP4340024B2
JP4340024B2 JP2001172260A JP2001172260A JP4340024B2 JP 4340024 B2 JP4340024 B2 JP 4340024B2 JP 2001172260 A JP2001172260 A JP 2001172260A JP 2001172260 A JP2001172260 A JP 2001172260A JP 4340024 B2 JP4340024 B2 JP 4340024B2
Authority
JP
Japan
Prior art keywords
text data
language model
probability weight
statistical language
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001172260A
Other languages
Japanese (ja)
Other versions
JP2002366190A (en
Inventor
彰夫 小林
真一 本間
彰男 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2001172260A priority Critical patent/JP4340024B2/en
Publication of JP2002366190A publication Critical patent/JP2002366190A/en
Application granted granted Critical
Publication of JP4340024B2 publication Critical patent/JP4340024B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置に供される統計的言語モデルを生成する統計的言語モデル生成装置および統計的言語モデル生成プログラムに関する。
【0002】
【従来の技術】
従来、音声認識装置における、音声の認識性能を向上するための方法として、統計的(確率的)言語モデルを利用する方法が提唱されており、代表的なものに下記に示すようなものがある。なお、統計的言語モデルとは、言語における単語や音素間の関係が統計量に基づいてモデル化されたものである。
【0003】
(1)キャッシュモデルによる方法(R.Kuhn,R.De Mori“ACache−Based Natural Language Model for Speech Recognition,”IEEE Trans.PAMI,vol.12,no.6,1990,pp.570〜583)。この方法は、過去の大量の原稿(テキストデータ)から学習されたn−gram確率値と、最近の音声認識結果における単語の出現確率とを線形補間等で結合することによって音声の認識性能を向上させる方法である。なお、念のために補足しておくと、n−gram確率値とは、単語の系列をマルコフ連鎖としてモデル化した単語n−gramにおける生起確率、つまり、ある単語の生起確率は直前の(n−1)単語に依存するというものである。線形補間(linear interpolation)とは、n−gram確率値と、低次のm−gram確率値(m<n)とを線形に補間することである。
【0004】
(2)MAP(事後確率最大化)推定に基づく方法(小林、今井、安藤、“Time Dependent Language Model for Broadcast News Transcription and Its Postcorrection,”ICSLP−1998)。この方法は、あるタスクのn−gram確率値を、タスクに依存しない大量の原稿に対して小量の原稿をMAP推定により得られた適当な重みにより足し合わせ、言語モデルの統計的な精度を高め、認識性能を向上させる方法である。言語モデルを生成するための語彙(コーパス)は、小量の原稿中のすべての単語と、大量の原稿の一部の単語を合わせて構成されている。なお、念のために補足しておくと、タスクとは、一般的には仕事、つまり、処理される対象であり、適当な重みとは、統計的(確率)言語モデルにおける、ある単語の出現確率が高くなるように付加された数値であり、語彙(コーパス)とは、言語モデルを生成するための元になるデータであり、一般的には通常、数十万個以上の単語を含んだテキストデータベースのことである。
【0005】
【発明が解決しようとする課題】
しかしながら、従来のキャッシュモデルによる方法では、過去の音声認識結果を利用するため、言語モデルを生成するための語彙に登録されていない単語(最近、広く使われるようになった言葉)については考慮されていない。このため、報道番組(ニュース等)のように、一つの話題が少ない文章数で構成されている場合が多く、人名、地名、組織名といった固有名詞(新しい単語)が極めて頻繁に出現しやすいタスクにおいては、常に新しい単語を登録した語彙に基づいた言語モデルを利用しなければ、音声認識の認識性能の向上は見込めないという問題がある。
【0006】
また、MAP(事後確率最大化)推定に基づく方法では、実際の発話内容ではなく、書き言葉で記された原稿を利用するので、発話内容に含まれやすい単語の出現確率を上げることができないという問題がある。
【0007】
本発明の目的は前記した従来の技術が有する課題を解消し、音声認識における認識性能を向上することができ、発話内容に含まれやすい単語の出現確率を上げることができる統計的言語モデルを生成する統計的言語モデル生成装置および統計的言語モデル生成プログラムを提供することにある。
【0008】
請求項1記載の統計的言語モデル生成装置は、統計的言語モデルを生成する統計的言語モデル生成装置であって、出現頻度の高くなることが予測される単語を含む直近のテキストデータを取得するテキストデータ取得手段と、前記直近のテキストデータおよびこの直近のテキストデータよりデータ量の多い、それ以前の過去の大量テキストデータを音声から統計的言語モデルを参照して音声を認識する音声認識手段と、前記直近のテキストデータ、前記過去の大量テキストデータ、前記音声認識手段による認識結果、を蓄積する蓄積手段と、EMアルゴリズムにより、前記過去の大量のテキストデータの単語n個組の頻度に基づいて、n−gramの第一の確率重みを算出し、前記直近のテキストデータの単語n個組の頻度に基づいて、n−gramの第二の確率重みを算出し、前記認識結果の単語n個組の頻度に基づいて、n−gramの第三の確率重みを算出する確率重み算出手段と、前記第一の確率重み、および前記第二の確率重み、ならびに前記第三の確率重みに基づいて、統計的言語モデルを生成する言語モデル生成手段と、を備えたことを特徴とする。
【0009】
かかる構成によれば、テキストデータ取得手段によって、出現頻度の高くなることが予測される単語を含む直近のテキストデータが取得され、音声認識手段によって、直近のテキストデータおよびそれ以前の大量テキストデータが音声として認識され、蓄積手段によって、直近のテキストデータおよび過去の大量テキストデータならびに認識した認識結果が蓄積される。そして、確率重み算出手段によって、それぞれのn−gramにおける確率重みが算出され、この算出結果に基づいて言語モデル生成手段によって言語モデルが生成される。
【0010】
なお、出現頻度の高くなることが予測される直近のテキストデータとは、例えば、放送直前または直後の放送番組に供される原稿、発売直前または直後の新聞や雑誌に掲載されている記事、等が挙げられる。また、過去の大量テキストデータとは、例えば、数年から数十年分の放送番組に供された原稿、或いは、ブラウン・コーパス、LOBコーパス等が挙げられる。
【0011】
請求項2記載の統計的言語モデル生成装置は、請求項1に記載の統計的言語モデル生成装置において、前記音声認識手段によって認識された認識結果を修正する認識結果修正手段を備え、前記確率重み算出手段が、修正された認識結果に基づいてn−gramの第三の確率重みを算出することを特徴とする。
【0012】
かかる構成によれば、認識結果修正手段によって、テキストデータが音声として認識された結果が修正され、この修正された認識結果に基づいて、確率重み算出手段によって、n−gramの第三の確率重みが算出される。
【0013】
請求項3記載の統計的言語モデル生成プログラムは、コンピュータを、出現頻度の高くなることが予測される単語を含む直近のテキストデータを取得するテキストデータ取得手段、前記直近のテキストデータおよびこの直近のテキストデータよりデータ量の多い、それ以前の過去の大量テキストデータを音声から統計的言語モデルを参照して音声を認識する音声認識手段、前記直近のテキストデータ、および前記過去の大量テキストデータ、ならびに前記音声認識手段によって認識された認識結果を蓄積する蓄積手段、EMアルゴリズムにより、前記過去の大量のテキストデータの単語n個組の頻度に基づいて、n−gramの第一の確率重みを算出し、前記直近のテキストデータの単語n個組の頻度に基づいて、n−gramの第二の確率重みを算出し、前記認識結果の単語n個組の頻度に基づいて、n−gramの第三の確率重みを算出する確率重み算出手段、前記第一の確率重み、および前記第二の確率重み、ならびに前記第三の確率重みに基づいて、統計的言語モデルを生成する言語モデル生成手段、を備えたことを特徴とする。
【0014】
かかる構成によれば、テキストデータ取得手段によって、出現頻度の高くなることが予測される単語を含む直近のテキストデータが取得され、音声認識手段によって、直近のテキストデータおよびそれ以前の大量テキストデータが音声として認識され、蓄積手段によって、直近のテキストデータおよび過去の大量テキストデータならびに認識した認識結果が蓄積される。そして、確率重み算出手段によって、それぞれのn−gramにおける確率重みが算出され、この算出結果に基づいて言語モデル生成手段によって言語モデルが生成される。
【0015】
【発明の実施の形態】
以下、本発明の実施形態を図面に基づいて詳細に説明する。
(統計的言語モデル生成装置:第一の実施形態)
図1に、統計的言語モデル生成装置の第一の実施形態の機能説明図を示す。
図1に示すように、統計的言語モデル生成装置1は、図示を省略した主制御部、記憶部、表示出力部、入力部、外部接続部等を備えて構成されており、過去ニュース原稿集積手段3と、直近記者原稿集積手段5と、音声認識手段7と、認識結果集積手段9と、言語モデル計算手段11とを機能的に実現する。
【0016】
統計的言語モデル生成装置1は、大量のテキストデータに基づいて、音声認識装置(図示せず)における音声認識時に供される統計的言語モデルを生成する装置である。なお、この実施の形態では、統計的言語モデル生成装置1は、一般的なコンピュータであり、図示を省略した各主制御部、記憶部、表示出力部、入力部、外部接続部は、CPU、メモリ、ハードディスク、キーボード等から構成されている。
【0017】
過去ニュース原稿集積手段3は、図示を省略した記憶部に記憶(集積)されたデータベースであって、請求項に記載した過去の大量テキストデータが集積されたものである。この過去ニュース原稿集積手段3には、過去の大量のニュース原稿がテキストファイル形式(テキストデータ)で蓄積されている。このテキストファイルは、原稿を構成する一つ一つの単語間にスペースを挟んだものである。
【0018】
なお、この実施の形態では、ニュース原稿に含まれている句読点は、その句読点の直前の単語に一体化され取り扱われるものとする。さらに、補足しておくと、この明細書中において、記憶、集積、蓄積という語句は、実質的に差がないものとして記載している。
【0019】
直近記者原稿集積手段5は、図示を省略した主制御部に展開するプログラムと記憶部に記憶されたデータベースとであって、出現頻度の高くなることが予測される単語を含む直近のテキストデータを取得するテキストデータ取得手段と取得された直近のテキストデータが集積されたものである。この直近記者原稿集積手段5では、まず、直近の放送番組(特に報道番組)に供される記者原稿を取得する。取得の仕方は、ニュース原稿をオペレーター(操作者)が統計的言語モデル生成装置1に入力、或いはOCR等で読みとって、その読みとった結果を外部接続部を介して入力することで行われる。
【0020】
直近記者原稿集積手段5では、記者原稿を取得後、自動的に一定の修正が加えられ、或いは、オペレーターによって校正されて、テキストデータとして、記憶部(図示せず)の直近テキストデータベースに蓄積される。記者原稿における個々の文章は、一つの話題単位で、テキストファイル化されており、このテキストファイルは、過去ニュース原稿集積手段3と同様に、記者原稿を構成する一つ一つの単語間にスペースを挟んだものとして構成されている。
【0021】
音声認識手段7は、テキストファイルを音声として認識する(テキストファイルを読み上げる)ものである。この音声認識手段7は、一般的なテキスト音声変換エンジン等であり、このテキスト音声変換エンジンは数十万語を格納した辞書を搭載し、まず、過去ニュース原稿集積手段3および直近記者原稿集積手段5のテキストファイルから、このファイルに含まれる単語を認識する
【0022】
認識結果集積手段9は、図示を省略した記憶部に記憶(集積)されたデータベースであって、音声認識手段7によって認識された認識結果に、過去ニュース原稿集積手段3および直近記者原稿集積手段5のテキストファイルが参照され、認識結果の各文章ごとに日付、時刻がタイムスタンプとして付与されて、蓄積されるものである。
【0023】
言語モデル計算手段11は、過去ニュース原稿集積手段3による過去の大量テキストデータと、直近記者原稿集積手段5による直近の記者原稿のテキストデータと、音声認識手段7による認識結果とに基づいて、統計的言語モデルを生成するプログラムである。この実施の形態では、言語モデルにbigramモデル(bigramモデルを含むn−gramモデルについては、例えば、「確率モデルによる音声認識」、中川聖一、電子情報通信学会、pp.109参照)を用いている。
【0024】
この言語モデル計算手段11では、後記する数式に基づき、以下に示す順序で、種々の計算がなされる。
まず、過去の大量テキストデータと、直近の記者原稿のテキストデータと、認識結果とに基づいて、言語モデルのbigramP0、P1、P2を線形補間(線形補間については、例えば、「音声言語処理」、北、中村、永田共著、森北出版、pp.29参照)によって表すと、重み付けされた言語モデルは
【0025】
【数1】

Figure 0004340024
によって表される。
【0026】
この数1において、yn、yn-1は、語彙に登録されている単語である。確率P(yn|yn-1)は、単語yn-1が発声された後に、単語ynが発声される確率を意味する。一般にn−gramの言語モデルでは、nを大きくするほど長い連続単語列が取り扱われ、次の単語の認識精度は高くなる。ただし認識精度が高くなる代わりに、膨大な量(n乗倍)の語彙数を含むテキストデータを必要とする。λは各言語モデルにおける確率重みを、Vは語彙を示すものである。
【0027】
重み付けされた言語モデルの単語yn、yn-1に対するbigramが大きければ、この統計的言語モデル生成装置1によって生成された言語モデルが音声認識装置(図示せず)に供された場合に、当該装置の音声認識時において、それらynとyn-1との組み合わせが出現しやすくなる。つまり、当該装置の音声認識時に、読み上げる文章(音声認識される文章)に対し、bigramの積が最大となるように確率重みλの値が決定されればよいことになる。或いは、評価データ(音声認識される文章)のエントロピー(例えば、「確率モデルによる音声認識」中川聖一、電子情報通信学会、pp.111、および数2参照)が最小となるように確率重みλの値が決定されればよいことになる。
【0028】
【数2】
Figure 0004340024
【0029】
この数式2において、Nは評価テキスト中(テキストデータ)の総単語数を示すものであり、評価テキストは、評価データの単語列y=y12・・・・・・yNで表されるものとする。なお、この式のλは、期待値最大化アルゴリズム(EMアルゴリズム(EMアルゴリズムについては、例えば、「音声言語処理」、北、中村、永田共著、森北出版、pp.31参照))を用いるものとし、数式3によって繰り返し計算により求められる。
【0030】
【数3】
Figure 0004340024
【0031】
この数式3において、λiを更新しながら、評価テキストに対するエントロピーが収束するまで繰り返し計算される。この計算によって、各言語モデルに対する確率重みλを自動的に得ることができる。ただし、読み上げる文章に最適な確率重みλを求めることは、通常、評価テキストの内容が未知であるため困難である。このため、事前に評価テキストに係る既知の発話内容の書き起こし(テキストデータ化したもの)を準備し、これを用いて確率重みλの値を実験的に求めておく。
【0032】
次に、テキスト重みwを求める。このテキスト重みwの値は重み付けされた単語頻度を与えるものである。過去の大量テキストデータG0の総単語数をm0と、直近のテキストデータG1の総単語数をm1と、認識結果G2の総単語数をm2とすると、テキスト重みwは、収束した確率重みλ0、λ1、λ2(n−gramの第一の確率重み、第二の確率重み、第三の確率重み)を用いて、数式4により計算される。
【0033】
【数4】
Figure 0004340024
【0034】
この数式4において、過去の大量テキストデータG0に加える直近のテキストデータG1および認識結果G2の足し合わせ回数(テキスト重み)w1、w2は、確率重みλ0、λ1、λ2から計算される。この数式4では、統計的言語モデルでの確率重みλが複数のテキストデータの集合での確率重みに正規化されるものである。
【0035】
計算されたテキスト重みw1、w2に基づいて、直近のテキストデータがテキスト重みw1で、また、認識結果がテキスト重みw2で、重み付けされ、過去の大量テキストデータに足し合わされ、新たな語彙が求められる。つまり、ある単語の出現頻度fは、過去の大量テキストデータG0での頻度f0、直近のテキストデータG1での頻度f1、認識結果G2での頻度f2とすると、
【0036】
【数5】
Figure 0004340024
となる。
【0037】
そして、頻度fの大きい順に、単語を語彙Vに登録する。ただし、語彙の登録数には、予め上限(Vmax)が設定されており、この上限を越えないように登録される。このため、語彙の総登録語数が制限されつつ、直近のテキストデータG1に含まれていた、それまで出現頻度の低かった単語が重み付けられ、語彙に登録される。
【0038】
つまり、統計的言語モデル生成装置1の言語モデル計算手段11では、直近のテキストデータ(最新のニュース原稿等)の中の新しい(過去の大量テキストデータに含まれていない)単語の出現頻度が高められる。しかも、音声認識手段7による認識結果も踏まえて、新たな語彙が決定されているので、この統計的言語モデル生成装置1によって生成された言語モデルを、音声認識装置(図示せず)が利用することにより、音声認識時の認識性能が向上する。なお、この実施の形態では、生成された言語モデルが音声認識手段7にフィードバックされ、音声認識の際に再び利用される。
【0039】
(統計的言語モデル生成装置:第二の実施形態)
図2に統計的言語モデル生成装置の第二の実施形態の機能説明図を示す。この統計的言語モデル生成装置1Aにおいて、統計的言語モデル生成装置1の構成と同じものは、同一の符号を付して、その説明は省略する。
【0040】
統計的言語モデル生成装置1Aの認識結果修正手段13は、音声認識手段7の認識結果を修正するプログラムであって、例えば、音声認識手段7によってテキストデータを読み上げる際に、テキストデータにはひらがなで「あめ が ふる」とあった場合、「雨が降る」と読み上げたとする。つまり、この場合には“あ”にアクセントがあることになる。実際には「飴が降る」であった場合(“め”にアクセントがあることになる)、「あめ が ふる」の前後の文脈から類推して、認識結果を修正するものである。
【0041】
修正認識結果集積手段15は、図示を省略した記憶部に記憶(集積)されたデータベースであって、認識結果修正手段13によって修正された認識結果を集積(蓄積)するものである。なお、この修正認識結果集積手段15には、修正前の音声認識手段7による認識結果が一時的に蓄積される。
【0042】
言語モデル計算手段11Aは、言語モデル計算手段11と同様に、以下に示す順序で、種々の計算がなされる。なお、この実施の形態では、過去の大量テキストデータおよび直近のテキストデータ、ならびに、これらのテキストデータを音声認識手段7によって認識後、修正認識結果集積手段15によって修正された認識結果(評価データ)に基づいて、下記の計算が言語モデル計算手段11Aによってなされる。
【0043】
まず、過去の大量テキストデータと、直近の記者原稿のテキストデータと、修正された認識結果とに基づいて、言語モデルのbigramP0、P1、P2′を線形補間して表す(数式1参照)。すると、重み付けされた言語モデルの確率重みλが定義される。
【0044】
評価するデータ(過去の大量テキストデータと、直近の記者原稿のテキストデータと、修正された認識結果)のエントロピーが最小になるように確率重みλの値が求められれば(数式2を参照)よく、この確率重みλが期待値最大化アルゴリズムを用いることにより、繰り返し計算により求められる(数式3参照)。
【0045】
収束した確率重みλ0、λ1、λ2′(n−gramの第一の確率重み、第二の確率重み、第三の確率重み)を用いて、テキスト重みw1、w2′が計算される(数式4参照)。計算されたテキスト重みw1、w2′に基づいて、直近のテキストデータがテキスト重みw1で、また、修正された認識結果がテキスト重みw2′で、重み付けされ、過去の大量テキストデータに足し合わされ、新たな語彙が求められる。
【0046】
つまり、ある単語の出現頻度fは、過去の大量テキストデータG0での頻度f0、直近のテキストデータG1での頻度f1、修正された認識結果G2′での頻度f2′とされ、テキスト重みw1、w2′との積によって表される(数式5参照)。そして、頻度fの大きい順に、単語を語彙Vに登録する。ただし、語彙の登録数には、予め上限(Vmax)が設定されており、この上限を越えないように登録される。
【0047】
つまり、統計的言語モデル生成装置1Aの言語モデル計算手段11Aでは、直近のテキストデータ(最新のニュース原稿等)の中の新しい(過去の大量テキストデータに含まれていない)単語の出現頻度が高められる。しかも、音声認識手段7による認識結果を認識結果修正手段13によって修正し、その修正した認識結果も踏まえて、新たな語彙が決定されているので、この統計的言語モデル生成装置1Aによって生成された言語モデルを、音声認識装置(図示せず)が利用することにより音声認識時の認識性能が向上する。なお、この実施の形態では、生成された言語モデルが音声認識手段7にフィードバックされ、音声認識の際に再び利用される。
【0048】
統計的言語モデル生成装置1Aでは、直近記者原稿集積手段5によって、音声認識する直近のニュース番組等を対象に取得・集積され、音声認識手段7と認識結果修正手段13とによって、音声認識の出力が修正され、認識された音声に対応する正しい文字列が作成される。このため、この統計的言語モデル生成装置1Aによって生成された言語モデルを利用すれば、時間的にごく近い時刻の放送番組(音声認識する対象となる)に対する正しい文字列の情報を利用することになり、音声認識性能を向上することができる。
【0049】
また、時間的にごく近い時刻の放送番組(音声認識する対象となる)に対する正しい文字列の情報を参照して、過去の大量データベースの音声認識出力に含まれる認識誤りを検出し、認識結果修正手段13によって修正することができる。
【0050】
(統計的言語モデル生成装置の動作)
次に、図3に示すフローチャートを参照して、統計的言語モデル生成装置1の動作を説明する。
まず、過去ニュース原稿集積手段3によって、過去の大量テキストデータが集積され(集積されている)、この過去の大量テキストデータに含まれている各単語の出現頻度に応じて初期の語彙が決定される(S1)。通常、初期の語彙は、数十万以上の単語から形成されている。一般に、言語モデルにおける語彙は、記憶部(図示せず)の記憶容量または主制御部(図示せず)の処理能力に応じて、予め登録語数が設定されており、この登録語数に収まるように、集積或いは学習されるデータ中の単語で出現頻度の高い単語順に、当該単語が語彙に登録され決定される。
【0051】
一方、直近記者原稿集積手段5によって、直近の放送番組等に供されるテキストデータ(直近のテキストデータ)が集積されており、これらの過去の大量テキストデータおよび直近のテキストデータが音声認識手段7によって音声認識される。音声認識された認識結果が認識結果集積手段9に集積されている。
【0052】
そして、言語モデル計算手段11によって、まず、各言語モデル(bigramP0、P1、P2)が作成され、これらのbigramP0、P1、P2が線形補間される(数式1参照)(S2)。これらの言語モデルの確率重みλ0、λ1、λ2をEMアルゴリズムによって算出(計算)し(数式3参照)(S3)、これらの確率重みλ0、λ1、λ2に基づいてテキスト重みw1、w2が算出(計算)される(数式4参照)(S4)。
【0053】
さらに、言語モデル計算手段11がテキスト重みw1、w2に基づいて、単語の出現頻度fを算出(計算)し(数式5参照)(S5)、この出現頻度fに基づいて、この出現頻度fの大きい単語順に、登録語数に収まるように新たな語彙が決定される(S6)。そして、新たな語彙に基づいて、言語モデルが生成される(S7)。
【0054】
以上、実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
【0055】
例えば、統計的言語モデル生成装置1、1Aにおいて実現した各構成を、特定の記憶媒体に記憶させたプログラムとして取り扱うことは可能である。さらに、bigram以上のn−gram(trigram、4−gram)については、bigramの場合と同様に、各確率重みλを計算し、この確率重みλをテキスト重みに変換し、新たな語彙Vを作成して、この語彙から統計的言語モデルを生成することは可能である。
【0056】
【発明の効果】
請求項1記載の発明によれば、テキストデータ取得手段によって、出現頻度の高くなることが予測される単語を含む直近のテキストデータが取得され、音声認識手段によって、直近のテキストデータおよびそれ以前の大量テキストデータが音声として認識され、蓄積手段によって、直近のテキストデータおよび過去の大量テキストデータならびに認識した認識結果が蓄積される。そして、確率重み算出手段によって、それぞれのn−gramにおける確率重みが算出され、この算出結果に基づいて言語モデル生成手段によって言語モデルが生成されるので、この言語モデルが音声認識装置に利用されれば、音声認識時の認識性能を向上させることができる。
【0057】
また、直近のテキストデータに一定の確率重みを付加して、言語モデルを生成する語彙に含めているので、直近の発話内容に含まれやすい単語の出現確率を上げることができる。
【0058】
請求項2記載の発明によれば、認識結果修正手段によって、テキストデータが音声として認識された結果が修正され、この修正された認識結果に基づいて、確率重み算出手段によって、n−gramの第三の確率重みが算出されるので、修正された認識結果を踏まえて得られる言語モデルが音声認識装置に利用されれば、音声認識時の認識性能をさらに向上させることができる。
【0059】
請求項3記載の発明によれば、統計的言語モデル生成プログラムのテキストデータ取得手段によって、出現頻度の高くなることが予測される単語を含む直近のテキストデータが取得され、音声認識手段によって、直近のテキストデータおよびそれ以前の大量テキストデータが音声として認識され、蓄積手段によって、直近のテキストデータおよび過去の大量テキストデータならびに認識した認識結果が蓄積される。そして、確率重み算出手段によって、それぞれのn−gramにおける確率重みが算出され、この算出結果に基づいて言語モデル生成手段によって言語モデルが生成されるので、この言語モデルが音声認識装置に利用されれば、音声認識時の認識性能を向上させることができる。
【0060】
また、この統計的言語モデル生成プログラムを記憶させた記憶媒体として市場で流通させることも可能である。
【図面の簡単な説明】
【図1】本発明による第一の実施形態である統計的言語モデル生成装置の機能説明図である。
【図2】本発明による第二の実施形態である統計的言語モデル生成装置の機能説明図である。
【図3】統計的言語モデル生成装置の動作を説明したフローチャートである。
【符号の説明】
1、1A 統計的言語モデル生成装置
3 過去ニュース原稿集積手段
5 直近記者原稿集積手段
7 音声認識手段
9 認識結果集積手段
11、11A 言語モデル計算手段
13 認識結果修正手段
15 修正認識結果集積手段[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a statistical language model generation device and a statistical language model generation program for generating a statistical language model used in a speech recognition device.
[0002]
[Prior art]
Conventionally, a method of using a statistical (probabilistic) language model has been proposed as a method for improving speech recognition performance in a speech recognition apparatus, and typical methods include the following. . The statistical language model is a model in which the relationship between words and phonemes in a language is modeled based on statistics.
[0003]
(1) A method based on a cache model (R. Kuhn, R. De Mori “ACache-Based Natural Language Model for Speed Recognition”, “IEEE Trans. PAMI, vol. 12, no. 6, 1990, pp. 570-583). This method improves speech recognition performance by combining n-gram probability values learned from a large amount of past manuscripts (text data) and word appearance probabilities in recent speech recognition results by linear interpolation or the like. It is a method to make it. It should be noted that the n-gram probability value is the occurrence probability in the word n-gram modeled as a Markov chain, that is, the occurrence probability of a certain word (n -1) It depends on words. Linear interpolation is to linearly interpolate an n-gram probability value and a low-order m-gram probability value (m <n).
[0004]
(2) Method based on MAP (maximum posterior probability) estimation (Kobayashi, Imai, Ando, “Time Dependent Language Model for Broadcast News Transcribation and Its Postcorrection,” ICSLP-1998). This method adds the n-gram probability value of a task to a large amount of manuscripts that do not depend on the task, and adds a small amount of manuscripts with appropriate weights obtained by MAP estimation, thereby improving the statistical accuracy of the language model. It is a method to improve recognition performance. A vocabulary (corpus) for generating a language model is composed of all words in a small amount of manuscript and some words in a large amount of manuscript. Note that a task is generally a work, that is, an object to be processed, and an appropriate weight is the appearance of a word in a statistical (probability) language model. A numerical value added with a high probability, and a vocabulary (corpus) is data used to generate a language model, and generally contains hundreds of thousands or more of words. It is a text database.
[0005]
[Problems to be solved by the invention]
However, in the conventional cache model method, since past speech recognition results are used, words that are not registered in the vocabulary for generating the language model (words that have become widely used recently) are considered. Not. For this reason, tasks such as news programs (news, etc.) are often composed of a small number of sentences in one topic, and proper nouns (new words) such as names of people, places, and organizations are likely to appear very frequently. However, there is a problem that speech recognition performance cannot be improved unless a language model based on a vocabulary in which new words are registered is used.
[0006]
Further, in the method based on MAP (maximization of posterior probability), since a manuscript written in written words is used instead of actual utterance contents, it is impossible to increase the appearance probability of words that are likely to be included in the utterance contents. There is.
[0007]
The object of the present invention is to generate a statistical language model that can solve the problems of the conventional techniques described above, improve recognition performance in speech recognition, and increase the probability of appearance of words that are likely to be included in utterance content. And providing a statistical language model generation apparatus and a statistical language model generation program.
[0008]
  The statistical language model generation apparatus according to claim 1 is a statistical language model generation apparatus that generates a statistical language model, and acquires the latest text data including a word that is predicted to increase in appearance frequency. Text data acquisition means and voice data of the most recent text data and the past large amount of text data having a larger data volume than the most recent text dataTo reference a statistical language modelVoice recognition means for recognizing; storage means for storing the most recent text data, the past large amount of text data, and recognition results by the voice recognition means;By EM algorithmLarge amount of past text dataFrequency of n wordsTo calculate the first probability weight of n-gram, and the most recent text dataFrequency of n wordsAnd calculating a second probability weight of n-gram, and the recognition resultFrequency of n wordsBased on the probability weight calculating means for calculating the third probability weight of n-gram, and based on the first probability weight, the second probability weight, and the third probability weight. Language model generation means for generating a language model.
[0009]
According to such a configuration, the text data acquisition unit acquires the latest text data including a word that is predicted to appear frequently, and the voice recognition unit acquires the latest text data and the previous large amount of text data. Recognized as speech, the latest text data and past large text data and the recognized recognition result are stored by the storage means. Then, the probability weight calculation means calculates the probability weight in each n-gram, and the language model generation means generates a language model based on the calculation result.
[0010]
Note that the most recent text data that is expected to appear frequently includes, for example, articles provided for broadcast programs immediately before or immediately after broadcasting, articles published in newspapers and magazines immediately before or immediately after release, etc. Is mentioned. The past large amount of text data includes, for example, a manuscript provided for a broadcast program for several years to several decades, a brown corpus, a LOB corpus, and the like.
[0011]
The statistical language model generation device according to claim 2, further comprising a recognition result correction unit that corrects a recognition result recognized by the speech recognition unit in the statistical language model generation device according to claim 1. The calculating means calculates an n-gram third probability weight based on the corrected recognition result.
[0012]
According to such a configuration, the recognition result correcting unit corrects the result of the text data being recognized as speech, and based on the corrected recognition result, the probability weight calculating unit calculates the third probability weight of n-gram. Is calculated.
[0013]
  The statistical language model generation program according to claim 3, wherein the computer obtains text data acquisition means for acquiring the latest text data including a word that is predicted to appear frequently, the latest text data, and the latest text data Voice of past large amount of text data with more data than text dataTo reference a statistical language modelA voice recognition means for recognizing, a storage means for storing the latest text data, the past large amount of text data, and a recognition result recognized by the voice recognition means;By EM algorithmLarge amount of past text dataFrequency of n wordsTo calculate the first probability weight of n-gram, and the most recent text dataFrequency of n wordsAnd calculating a second probability weight of n-gram, and the recognition resultFrequency of n wordsBased on the probability weight calculating means for calculating the third probability weight of n-gram, the first probability weight, the second probability weight, and the statistical probability language based on the third probability weight A language model generating means for generating a model is provided.
[0014]
According to such a configuration, the text data acquisition unit acquires the latest text data including a word that is predicted to appear frequently, and the voice recognition unit acquires the latest text data and the previous large amount of text data. Recognized as speech, the latest text data and past large text data and the recognized recognition result are stored by the storage means. Then, the probability weight calculation means calculates the probability weight in each n-gram, and the language model generation means generates a language model based on the calculation result.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(Statistical language model generation apparatus: first embodiment)
FIG. 1 shows a functional explanatory diagram of the first embodiment of the statistical language model generation apparatus.
As shown in FIG. 1, the statistical language model generation apparatus 1 includes a main control unit, a storage unit, a display output unit, an input unit, an external connection unit, and the like that are not shown, and collects past news manuscripts. Means 3, the latest reporter document accumulation means 5, the speech recognition means 7, the recognition result accumulation means 9, and the language model calculation means 11 are functionally realized.
[0016]
The statistical language model generation device 1 is a device that generates a statistical language model used for speech recognition in a speech recognition device (not shown) based on a large amount of text data. In this embodiment, the statistical language model generation device 1 is a general computer, and each main control unit, storage unit, display output unit, input unit, and external connection unit (not shown) are a CPU, It consists of memory, hard disk, keyboard and so on.
[0017]
The past news manuscript accumulation means 3 is a database stored (accumulated) in a storage unit (not shown), in which a large amount of past text data described in the claims is accumulated. The past news manuscript accumulation means 3 stores a large amount of past news manuscripts in a text file format (text data). In this text file, a space is inserted between each word constituting the manuscript.
[0018]
In this embodiment, it is assumed that the punctuation marks included in the news manuscript are integrated with the word immediately before the punctuation marks. Further, in addition, in this specification, the terms “memory”, “accumulation”, and “accumulation” are described as having substantially no difference.
[0019]
The latest reporter document accumulating means 5 is a program developed in a main control unit (not shown) and a database stored in the storage unit, and the latest text data including a word predicted to increase in appearance frequency. The acquired text data acquisition means and the acquired latest text data are integrated. The latest reporter document accumulating means 5 first acquires a reporter document to be used for the latest broadcast program (especially a news program). An acquisition method is performed by an operator (operator) inputting a news manuscript into the statistical language model generation apparatus 1 or reading it with an OCR or the like and inputting the read result via an external connection unit.
[0020]
In the latest reporter document accumulating means 5, after obtaining the reporter document, a certain correction is automatically made, or it is calibrated by an operator and stored as text data in a recent text database in a storage unit (not shown). The Each sentence in the report manuscript is made into a text file in units of one topic, and this text file has a space between each word constituting the report manuscript like the past news manuscript accumulation means 3. It is comprised as what was pinched | interposed.
[0021]
  The voice recognition means 7 recognizes a text file as voice (reads out a text file). The speech recognition means 7 is a general text-to-speech conversion engine or the like. The text-to-speech conversion engine is equipped with a dictionary storing hundreds of thousands of words. First, the past news manuscript accumulation unit 3 and the latest reporter manuscript accumulation unit. Recognize words contained in this file from 5 text files.
[0022]
The recognition result accumulating unit 9 is a database stored (accumulated) in a storage unit (not shown), and the past news manuscript accumulating unit 3 and the latest reporter manuscript accumulating unit 5 are added to the recognition result recognized by the voice recognizing unit 7. The date and time are given as time stamps for each sentence of the recognition result and stored.
[0023]
The language model calculation unit 11 performs statistical processing based on the past large amount of text data by the past news manuscript accumulation unit 3, the text data of the latest reporter manuscript by the latest report manuscript accumulation unit 5, and the recognition result by the voice recognition unit 7. It is a program that generates a static language model. In this embodiment, the bigram model is used as the language model (for the n-gram model including the bigram model, for example, “speech recognition based on a probability model”, Seichi Nakagawa, IEICE, pp. 109). Yes.
[0024]
In the language model calculation means 11, various calculations are performed in the following order based on mathematical expressions to be described later.
First, based on the past large text data, the text data of the latest reporter's manuscript, and the recognition result, the language model bigP0, P1, P2Is expressed by linear interpolation (for linear interpolation, see, for example, “spoken language processing”, Kita, Nakamura, Nagata, Morikita Publishing, pp. 29), the weighted language model is
[0025]
[Expression 1]
Figure 0004340024
Represented by
[0026]
In this equation 1, yn, Yn-1Is a word registered in the vocabulary. Probability P (yn| yn-1) Is the word yn-1The word y afternIs the probability of being uttered. In general, in an n-gram language model, a longer continuous word string is handled as n is increased, and the recognition accuracy of the next word is increased. However, instead of increasing the recognition accuracy, text data including an enormous amount (n-th power) of vocabulary is required. λ is a probability weight in each language model, and V is a vocabulary.
[0027]
Weighted language model word yn, Yn-1If the language model generated by the statistical language model generation device 1 is provided to a speech recognition device (not shown), the y is determined at the time of speech recognition of the device.nAnd yn-1The combination with becomes easy to appear. That is, it is only necessary to determine the value of the probability weight λ so that the bigram product is maximized for the text to be read (speech recognized) when the apparatus recognizes the voice. Alternatively, the probability weight λ is set so that the entropy of the evaluation data (sentence recognized by speech) (for example, “Speech recognition by probability model” by Seiichi Nakagawa, IEICE, pp. 111, and Equation 2) is minimized. It is sufficient that the value of is determined.
[0028]
[Expression 2]
Figure 0004340024
[0029]
In Equation 2, N indicates the total number of words in the evaluation text (text data), and the evaluation text is a word string y = y of the evaluation data.1y2... yNIt shall be represented by Note that λ in this equation uses an expected value maximization algorithm (EM algorithm (see, for example, “spoken language processing”, Kita, Nakamura, and Nagata, Morikita Publishing, pp. 31 for the EM algorithm)). , And is obtained by repetitive calculation according to Equation 3.
[0030]
[Equation 3]
Figure 0004340024
[0031]
In Equation 3, λiIs updated repeatedly until the entropy for the evaluation text converges. By this calculation, the probability weight λ for each language model can be automatically obtained. However, it is difficult to obtain the optimal probability weight λ for the text to be read because the content of the evaluation text is usually unknown. For this reason, a transcription (text data) of a known utterance content related to the evaluation text is prepared in advance, and the value of the probability weight λ is experimentally obtained using this.
[0032]
Next, the text weight w is obtained. The value of this text weight w gives the weighted word frequency. Past large text data G0The total number of words in m0And the latest text data G1The total number of words in m1And recognition result G2The total number of words in m2Then the text weight w is the converged probability weight λ0, Λ1, Λ2Using (n-gram first probability weight, second probability weight, third probability weight), it is calculated according to Equation 4.
[0033]
[Expression 4]
Figure 0004340024
[0034]
In Equation 4, past large text data G0The latest text data G to be added to1And recognition result G2Number of times of addition (text weight) w1, W2Is the probability weight λ0, Λ1, Λ2Calculated from In Equation 4, the probability weight λ in the statistical language model is normalized to the probability weight in a set of a plurality of text data.
[0035]
Calculated text weight w1, W2The most recent text data is the text weight w1And the recognition result is the text weight w.2Thus, a new vocabulary is obtained by weighting and adding to the past large amount of text data. That is, the appearance frequency f of a certain word is the past large amount of text data G0Frequency f0The most recent text data G1Frequency f1, Recognition result G2Frequency f2Then,
[0036]
[Equation 5]
Figure 0004340024
It becomes.
[0037]
Then, words are registered in the vocabulary V in descending order of frequency f. However, the upper limit (Vmax) Is set and registered so as not to exceed this upper limit. Therefore, while the total number of registered words in the vocabulary is limited, the most recent text data G1The words that have been low in frequency until then are weighted and registered in the vocabulary.
[0038]
That is, the language model calculation unit 11 of the statistical language model generation device 1 increases the frequency of appearance of new words (not included in the past large amount of text data) in the latest text data (the latest news manuscript and the like). It is done. In addition, since a new vocabulary is determined based on the recognition result by the speech recognition means 7, the speech recognition device (not shown) uses the language model generated by the statistical language model generation device 1. As a result, the recognition performance at the time of voice recognition is improved. In this embodiment, the generated language model is fed back to the speech recognition means 7 and used again during speech recognition.
[0039]
(Statistical language model generation apparatus: second embodiment)
  FIG. 2 shows a functional explanatory diagram of the second embodiment of the statistical language model generation apparatus. In this statistical language model generation device 1A, a statistical language modelGeneratorThe same components as those in FIG. 1 are denoted by the same reference numerals, and the description thereof is omitted.
[0040]
The recognition result correction means 13 of the statistical language model generation device 1A is a program for correcting the recognition result of the speech recognition means 7. For example, when the speech recognition means 7 reads out the text data, the text data is not hiragana. Suppose you read “It rains” when you hear “Ame no Furu”. In other words, in this case, “A” has an accent. In practice, if the word “falls” (an accent will appear in “Me”), the recognition result is corrected by analogy with the context before and after “Ame ga fu”.
[0041]
The correction recognition result accumulation unit 15 is a database stored (accumulated) in a storage unit (not shown), and accumulates (accumulates) the recognition results corrected by the recognition result correction unit 13. The correction recognition result accumulating unit 15 temporarily stores the recognition result by the voice recognition unit 7 before correction.
[0042]
As with the language model calculation unit 11, the language model calculation unit 11A performs various calculations in the order shown below. In this embodiment, the past large amount of text data and the latest text data, and the recognition results (evaluation data) corrected by the correction recognition result accumulating means 15 after the text recognition means 7 recognizes these text data. Based on the above, the following calculation is performed by the language model calculation means 11A.
[0043]
First, based on the past large text data, the text data of the latest reporter's manuscript, and the corrected recognition result, the language model bigP0, P1, P2'Is expressed by linear interpolation (see Equation 1). Then, a probability weight λ of the weighted language model is defined.
[0044]
If the value of the probability weight λ is determined so that the entropy of the data to be evaluated (the past large amount of text data, the text data of the latest reporter's manuscript, and the corrected recognition result) is minimized (see Equation 2) The probability weight λ is obtained by iterative calculation using an expected value maximization algorithm (see Formula 3).
[0045]
Converged probability weight λ0, Λ1, Λ2′ (First probability weight of n-gram, second probability weight, third probability weight)1, W2'Is calculated (see Equation 4). Calculated text weight w1, W2Based on ′, the latest text data is the text weight w1In addition, the corrected recognition result is the text weight w.2′ Is weighted and added to a large amount of past text data to obtain a new vocabulary.
[0046]
That is, the appearance frequency f of a certain word is the past large amount of text data G0Frequency f0The most recent text data G1Frequency f1, Corrected recognition result G2Frequency at '2′ And text weight w1, W2Is represented by the product of ′ (see Equation 5). Then, words are registered in the vocabulary V in descending order of frequency f. However, the upper limit (Vmax) Is set and registered so as not to exceed this upper limit.
[0047]
That is, in the language model calculation unit 11A of the statistical language model generation device 1A, the frequency of appearance of new words (not included in the past large amount of text data) in the latest text data (the latest news manuscript, etc.) is increased. It is done. Moreover, since the recognition result by the speech recognition means 7 is corrected by the recognition result correction means 13 and a new vocabulary is determined based on the corrected recognition result, the statistical language model generation apparatus 1A generates the new vocabulary. The speech recognition device (not shown) uses the language model to improve the recognition performance during speech recognition. In this embodiment, the generated language model is fed back to the speech recognition means 7 and used again during speech recognition.
[0048]
In the statistical language model generation device 1A, the latest reporter document accumulating unit 5 acquires and accumulates the latest news program and the like for speech recognition, and the speech recognition unit 7 and the recognition result correcting unit 13 output speech recognition. Is corrected, and a correct character string corresponding to the recognized speech is created. For this reason, if the language model generated by the statistical language model generation device 1A is used, the correct character string information for the broadcast program (target for speech recognition) at a very close time will be used. Thus, the voice recognition performance can be improved.
[0049]
In addition, referring to correct character string information for broadcast programs (subject to speech recognition) at very close times in time, recognition errors included in speech recognition output of past large-scale databases are detected, and recognition results are corrected. It can be corrected by means 13.
[0050]
(Operation of statistical language model generator)
Next, the operation of the statistical language model generation device 1 will be described with reference to the flowchart shown in FIG.
First, the past large amount of text data is accumulated (accumulated) by the past news manuscript accumulation means 3, and the initial vocabulary is determined according to the appearance frequency of each word included in the past large amount of text data. (S1). The initial vocabulary is usually formed from hundreds of thousands of words. In general, the number of registered words in the language model is set in advance according to the storage capacity of the storage unit (not shown) or the processing capacity of the main control unit (not shown), so that it falls within this number of registered words. The words are registered and determined in the vocabulary in the order of the most frequently occurring words in the data to be accumulated or learned.
[0051]
On the other hand, text data (most recent text data) provided for the latest broadcast program or the like is accumulated by the latest reporter manuscript accumulation means 5, and these past large amount of text data and the latest text data are voice recognition means 7. Is recognized by voice. Recognition results obtained by voice recognition are accumulated in the recognition result accumulation means 9.
[0052]
Then, each language model (bigramP) is first processed by the language model calculation means 11.0, P1, P2) And these bigramP0, P1, P2Are linearly interpolated (see Equation 1) (S2). Probability weight λ of these language models0, Λ1, Λ2Is calculated (calculated) by the EM algorithm (see Equation 3) (S3), and these probability weights λ0, Λ1, Λ2Text weight w based on1, W2Is calculated (refer to Formula 4) (S4).
[0053]
Furthermore, the language model calculation means 11 performs text weight w1, W2The word appearance frequency f is calculated (calculated) based on the above (see Equation 5) (S5), and based on the appearance frequency f, a new vocabulary is arranged so that the words appear in the descending order of the appearance frequency f so as to fit in the number of registered words. Is determined (S6). Then, a language model is generated based on the new vocabulary (S7).
[0054]
As mentioned above, although this invention was demonstrated based on embodiment, this invention is not limited to this.
[0055]
For example, each configuration realized in the statistical language model generation device 1 or 1A can be handled as a program stored in a specific storage medium. Furthermore, for n-grams (trigram, 4-gram) greater than bigram, each probability weight λ is calculated in the same way as bigram, and this probability weight λ is converted into a text weight to create a new vocabulary V. Thus, it is possible to generate a statistical language model from this vocabulary.
[0056]
【The invention's effect】
According to the first aspect of the present invention, the text data acquisition unit acquires the latest text data including a word that is predicted to appear frequently, and the voice recognition unit acquires the latest text data and the previous text data. A large amount of text data is recognized as speech, and the latest text data and past large amount of text data and the recognized recognition result are stored by the storage means. Then, the probability weight calculation means calculates the probability weight in each n-gram, and the language model generation means generates the language model based on the calculation result, so that the language model is used in the speech recognition apparatus. Thus, the recognition performance at the time of voice recognition can be improved.
[0057]
In addition, since a certain probability weight is added to the latest text data and included in the vocabulary for generating the language model, it is possible to increase the appearance probability of words that are likely to be included in the latest utterance content.
[0058]
According to the second aspect of the present invention, the result of recognition of text data as speech is corrected by the recognition result correction unit, and the probability weight calculation unit calculates the n-gram number of the result based on the corrected recognition result. Since the third probability weight is calculated, if a language model obtained based on the corrected recognition result is used in the speech recognition apparatus, the recognition performance during speech recognition can be further improved.
[0059]
According to the third aspect of the present invention, the text data acquisition unit of the statistical language model generation program acquires the latest text data including a word that is predicted to appear frequently, and the voice recognition unit detects the latest text data. Text data and a large amount of previous text data are recognized as speech, and the latest text data and past large amount of text data and the recognized recognition result are stored by the storage means. Then, the probability weight calculation means calculates the probability weight in each n-gram, and the language model generation means generates the language model based on the calculation result, so that the language model is used in the speech recognition apparatus. Thus, the recognition performance at the time of voice recognition can be improved.
[0060]
It is also possible to distribute in the market as a storage medium storing this statistical language model generation program.
[Brief description of the drawings]
FIG. 1 is a functional explanatory diagram of a statistical language model generation apparatus according to a first embodiment of the present invention.
FIG. 2 is a functional explanatory diagram of a statistical language model generation apparatus according to a second embodiment of the present invention.
FIG. 3 is a flowchart illustrating the operation of the statistical language model generation device.
[Explanation of symbols]
1, 1A Statistical language model generator
3 Past news manuscript collection means
5 Latest reporter collecting means
7 Voice recognition means
9 Recognition result accumulation means
11, 11A Language model calculation means
13 Recognition result correction means
15 Correction recognition result accumulation means

Claims (3)

統計的言語モデルを生成する統計的言語モデル生成装置であって、
出現頻度の高くなることが予測される単語を含む直近のテキストデータを取得するテキストデータ取得手段と、
前記直近のテキストデータおよびこの直近のテキストデータよりデータ量の多い、それ以前の過去の大量テキストデータから統計的言語モデルを参照して音声を認識する音声認識手段と、
前記直近のテキストデータ、前記過去の大量テキストデータ、前記音声認識手段による認識結果、を蓄積する蓄積手段と、
EMアルゴリズムにより、前記過去の大量のテキストデータの単語n個組の頻度に基づいて、n−gramの第一の確率重みを算出し、前記直近のテキストデータの単語n個組の頻度に基づいて、n−gramの第二の確率重みを算出し、前記認識結果の単語n個組の頻度に基づいて、n−gramの第三の確率重みを算出する確率重み算出手段(段落0029〜0032)と、
前記第一の確率重み、および前記第二の確率重み、ならびに前記第三の確率重みに基づいて、統計的言語モデルを生成する言語モデル生成手段と、
を備えたことを特徴とする統計的言語モデル生成装置。
A statistical language model generation device for generating a statistical language model,
Text data acquisition means for acquiring the latest text data including words that are predicted to appear frequently;
Speech recognition means for recognizing speech by referring to a statistical language model from the previous text data and a past large amount of text data having a data amount larger than that of the latest text data;
Storage means for storing the most recent text data, the past large amount of text data, a recognition result by the voice recognition means,
The EM algorithm, on the basis of the word n-tuple of the frequency of past large amounts of text data, to calculate the first probability weight of n-gram, based on the word n-tuple of the frequency of the most recent text data , A second probability weight for n-gram, and a probability weight calculation means (paragraphs 0029 to 0032) for calculating a third probability weight for n-gram based on the frequency of the n word pairs of the recognition result. When,
Language model generating means for generating a statistical language model based on the first probability weight, the second probability weight, and the third probability weight;
A statistical language model generation device characterized by comprising:
前記音声認識手段によって認識された認識結果を修正する認識結果修正手段を備え、
前記確率重み算出手段が、修正された認識結果に基づいてn−gramの第三の確率重みを算出することを特徴とする請求項1に記載の統計的言語モデル生成装置。
A recognition result correcting means for correcting the recognition result recognized by the voice recognition means;
2. The statistical language model generation apparatus according to claim 1, wherein the probability weight calculation unit calculates an n-gram third probability weight based on the corrected recognition result.
コンピュータを、
出現頻度の高くなることが予測される単語を含む直近のテキストデータを取得するテキストデータ取得手段、
前記直近のテキストデータおよびこの直近のテキストデータよりデータ量の多い、それ以前の過去の大量テキストデータから統計的言語モデルを参照して音声を認識する音声認識手段、
前記直近のテキストデータ、および前記過去の大量テキストデータ、ならびに前記音声認識手段によって認識された認識結果を蓄積する蓄積手段、
EMアルゴリズムにより、前記過去の大量のテキストデータの単語n個組の頻度に基づいて、n−gramの第一の確率重みを算出し、前記直近のテキストデータの単語n個組の頻度に基づいて、n−gramの第二の確率重みを算出し、前記認識結果の単語n個組の頻度に基づいて、n−gramの第三の確率重みを算出する確率重み算出手段、
前記第一の確率重み、および前記第二の確率重み、ならびに前記第三の確率重みに基づいて、統計的言語モデルを生成する言語モデル生成手段、
として機能させることを特徴とする統計言語モデル生成プログラム。
Computer
Text data acquisition means for acquiring the latest text data including words that are expected to appear frequently,
Speech recognition means for recognizing speech by referring to a statistical language model from the most recent text data and a past large amount of text data having a larger data amount than the most recent text data;
Storage means for storing the latest text data, the past large amount of text data, and the recognition result recognized by the voice recognition means;
The EM algorithm, on the basis of the word n-tuple of the frequency of past large amounts of text data, to calculate the first probability weight of n-gram, based on the word n-tuple of the frequency of the most recent text data , A probability weight calculating means for calculating a second probability weight of n-gram and calculating a third probability weight of n-gram based on the frequency of n sets of words of the recognition result,
Language model generation means for generating a statistical language model based on the first probability weight, the second probability weight, and the third probability weight;
Statistical language model generation program characterized by functioning as
JP2001172260A 2001-06-07 2001-06-07 Statistical language model generation apparatus and statistical language model generation program Expired - Fee Related JP4340024B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001172260A JP4340024B2 (en) 2001-06-07 2001-06-07 Statistical language model generation apparatus and statistical language model generation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001172260A JP4340024B2 (en) 2001-06-07 2001-06-07 Statistical language model generation apparatus and statistical language model generation program

Publications (2)

Publication Number Publication Date
JP2002366190A JP2002366190A (en) 2002-12-20
JP4340024B2 true JP4340024B2 (en) 2009-10-07

Family

ID=19013909

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001172260A Expired - Fee Related JP4340024B2 (en) 2001-06-07 2001-06-07 Statistical language model generation apparatus and statistical language model generation program

Country Status (1)

Country Link
JP (1) JP4340024B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005010691A (en) 2003-06-20 2005-01-13 P To Pa:Kk Apparatus and method for speech recognition, apparatus and method for conversation control, and program therefor
JP4715704B2 (en) * 2006-09-29 2011-07-06 富士通株式会社 Speech recognition apparatus and speech recognition program
JP4866334B2 (en) * 2007-11-27 2012-02-01 日本電信電話株式会社 Frequency correction apparatus and method, information extraction apparatus and information extraction method using the same, and program thereof
JP5149737B2 (en) 2008-08-20 2013-02-20 株式会社ユニバーサルエンターテインメント Automatic conversation system and conversation scenario editing device
US8374859B2 (en) 2008-08-20 2013-02-12 Universal Entertainment Corporation Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method
US8798983B2 (en) 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
JP5585111B2 (en) * 2010-02-16 2014-09-10 日本電気株式会社 Utterance content estimation device, language model creation device, method and program used therefor

Also Published As

Publication number Publication date
JP2002366190A (en) 2002-12-20

Similar Documents

Publication Publication Date Title
US11557289B2 (en) Language models using domain-specific model components
JP6222821B2 (en) Error correction model learning device and program
US6311150B1 (en) Method and system for hierarchical natural language understanding
JP5040909B2 (en) Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program
US6477488B1 (en) Method for dynamic context scope selection in hybrid n-gram+LSA language modeling
US9411800B2 (en) Adaptive generation of out-of-dictionary personalized long words
JP4852448B2 (en) Error tendency learning speech recognition apparatus and computer program
US20200082808A1 (en) Speech recognition error correction method and apparatus
JP5932869B2 (en) N-gram language model unsupervised learning method, learning apparatus, and learning program
US20070213983A1 (en) Spell checking system including a phonetic speller
JP5561123B2 (en) Voice search device and voice search method
JP2004005600A (en) Method and system for indexing and retrieving document stored in database
JPWO2010125736A1 (en) Language model creation device, language model creation method, and program
JP2004133880A (en) Method for constructing dynamic vocabulary for speech recognizer used in database for indexed document
JP5809381B1 (en) Natural language processing system, natural language processing method, and natural language processing program
JPWO2012165529A1 (en) Language model construction support apparatus, method and program
JP5319141B2 (en) Language model pruning method and apparatus
JP4340024B2 (en) Statistical language model generation apparatus and statistical language model generation program
JP2013134753A (en) Wrong sentence correction device, wrong sentence correction method and program
JP3836607B2 (en) Statistical language model generator for speech recognition.
WO2007088902A1 (en) Character processing device, method and program, and recording medium
CN112417851A (en) Text error correction word segmentation method and system and electronic equipment
KR20210121922A (en) Method for generating language model for speech recognition service and program thereof
JP2004101963A (en) Method for correcting speech recognition result and computer program for correcting speech recognition result
JP5245062B2 (en) Text information group attribution discrimination support device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090609

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090703

R150 Certificate of patent or registration of utility model

Ref document number: 4340024

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120710

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120710

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130710

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140710

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees