JP2009145775A - 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム - Google Patents
言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム Download PDFInfo
- Publication number
- JP2009145775A JP2009145775A JP2007325032A JP2007325032A JP2009145775A JP 2009145775 A JP2009145775 A JP 2009145775A JP 2007325032 A JP2007325032 A JP 2007325032A JP 2007325032 A JP2007325032 A JP 2007325032A JP 2009145775 A JP2009145775 A JP 2009145775A
- Authority
- JP
- Japan
- Prior art keywords
- language model
- combination
- corpus
- language
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】認識対象タスクや言語モデル学習データの性質に合わせた高精度な言語モデルを生成することにある。
【解決手段】言語モデル種類記憶部と、言語モデル組み合わせ選択部とを具備する言語モデル生成システムによって解決できる。言語モデル種類記憶部は、言語モデルのスムージングに利用可能な言語モデルの種類と、その依存関係とを記憶する。言語モデル組み合わせ選択部は、言語モデルの種類と、その依存関係とを参照し、所定の組み合わせ選択基準に従い、スムージングに用いる言語モデルの組み合わせを選択する。
【選択図】図1
【解決手段】言語モデル種類記憶部と、言語モデル組み合わせ選択部とを具備する言語モデル生成システムによって解決できる。言語モデル種類記憶部は、言語モデルのスムージングに利用可能な言語モデルの種類と、その依存関係とを記憶する。言語モデル組み合わせ選択部は、言語モデルの種類と、その依存関係とを参照し、所定の組み合わせ選択基準に従い、スムージングに用いる言語モデルの組み合わせを選択する。
【選択図】図1
Description
本発明は、言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラムに関し、特にN−gram(単語N個連鎖の組み合わせ。音声認識でよく使うのは2グラム、3グラム、すなわち、2単語組、3単語組である。)に基づく統計的言語モデルの生成において、利用可能な複数の言語モデルの中から、その依存関係を考慮して最適な組み合わせを選択して用いる言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラムに関する。
特開2002−229588号公報(特許文献1参照)に、言語モデル生成システムの一例が記載されている。一般的に統計的言語モデルにおいては学習データの不足により、場合によって単語間の結合確率として0を返してしまうことがある。これに対し、より下位の統計的言語モデル(例えば、前者がbigramであれば後者はunigram等)を用いて確率を補間するスムージングという処理が行われる。しかし、スムージングに用いる下位の統計的言語モデルの性質によって全体の性能が損なわれる場合がある。
特許文献1に示される言語モデル生成システムは、コーパス記憶手段と、コーパス入力手段と、単語連鎖頻度計数手段と、単語接続確率計算手段と、単語接続確率再計算手段と、言語モデル生成手段とから構成されている。
このような構成を有する言語モデル生成システムはつぎのように動作する。すなわち、コーパス記憶手段に記憶されたコーパスから、単語連鎖頻度計数手段により単語連鎖の頻度を計数する。例えば、単語bigramモデルを用いる場合には、単語2つ組及び単語単独(1つ組)の頻度をそれぞれ計数する。計数された単語連鎖頻度から単語接続確率手段によって単語接続確率が計算される。得られた単語接続確率に対し、単語接続確率再計算手段によって、単調増加する関数で確率を変換し、特に下位のN−gram確率についてダイナミックレンジが小さくなるよう再計算を行う。再計算された単語接続確率は言語モデル生成手段によって言語モデルとして生成される。これにより、下位のN−gramが不当に大きいような単語について、確率値のダイナミックレンジを小さくすることでスムージング後の接続確率が不当に大きくなることを抑えることができる。
この言語モデル生成システムにおける第1の問題点は、認識対象タスクや言語モデル学習データの性質によっては、高精度な言語モデルが得られないという点である。その理由は、スムージングの際に下位のN−gramモデルの確率値を調整するのみであり、そもそも別のN−gramモデルを用いた方がより適切なスムージングが得られるような場合(例えば単語unigramモデルの代わりにクラスbigramモデルを用いるべき場合等)に対処ができないためである。
本発明の目的は、認識対象タスクや言語モデル学習データの性質に合わせた高精度な言語モデルを生成することにある。
本発明の一つ目のアスペクトによる言語モデル生成システムは、言語モデル種類記憶部と、言語モデル組み合わせ選択部とを具備する。言語モデル種類記憶部は、言語モデルのスムージングに利用可能な言語モデルの種類と、その依存関係とを記憶する。言語モデル組み合わせ選択部は、言語モデルの種類と、その依存関係とを参照し、所定の組み合わせ選択基準に従い、スムージングに用いる言語モデルの組み合わせを選択する。
本発明の二つ目のアスペクトによる言語モデル生成方法は、その依存関係とを記憶することと、選択することとを具備する。記憶することは、言語モデルのスムージングに利用可能な言語モデルの種類と、その依存関係とを記憶する。選択することは、言語モデルの種類と、その依存関係とを参照し、所定の組み合わせ選択基準に従い、スムージングに用いる言語モデルの組み合わせを選択する。
本発明の三つ目のアスペクトによる言語モデル生成用プログラムは、コンピュータを、言語モデル種類記憶部と、言語モデル組み合わせ選択部ととして機能させる。言語モデル種類記憶部は、言語モデルのスムージングに利用可能な言語モデルの種類と、その依存関係とを記憶する。言語モデル組み合わせ選択部は、言語モデルの種類と、その依存関係とを参照し、所定の組み合わせ選択基準に従い、スムージングに用いる言語モデルの組み合わせを選択する。
本発明によれば、統計的言語モデルにおいて適切なスムージングを実現できることにある。その理由は、利用可能な言語モデルの中から、学習データやテストデータを参照し、適切な言語モデルの組み合わせを、その依存関係を考慮して選択できるためである。
発明を実施するための最良の形態の一つについて図面を参照して詳細に説明する。図1を参照すると、本発明による第1の実施の形態における言語モデル生成システム100は、コーパス記憶部101と、単語連鎖頻度計数部102と、N−gram種類記憶部103と、N−gram組み合わせ選択部104と、単語接続確率計算部105と、言語モデル生成部106とを有している。
コーパス記憶部101は、言語モデルを作成するための学習データであるコーパスを記憶する。コーパスは音声認識が対象とする言語(例えば日本語)のテキストであり、手作業や自動形態素解析により単語単位に分割されているものとする。また、品詞等の文法的情報や、統計的手法による自動クラスタリングの結果等、各単語にその単語が属するクラス情報、学習データの属性(大きさ、偏り等)が付与されていてもよい。
単語連鎖頻度計数部102は、コーパス記憶部101に格納されているコーパスを読み込み、言語モデル生成に必要な単語連鎖の頻度を計数する。例えば単語trigramモデルを生成する場合、3単語連鎖、2単語連鎖、1単語のそれぞれの頻度を計数する。コーパスにクラス情報が付与されている場合、クラス連鎖頻度やクラス内の単語出現頻度を計数する。
N−gram種類記憶部103は言語モデルのスムージングに用いることができる言語モデル(N−gram)の種類を記憶する。例えば単語trigramのスムージングに、単語bigram、クラスbigram、単語unigramを用いることができる場合、単語trigramを含めて4種類のN−gramが利用可能であるということを記憶する。この時、各N−gramの依存関係も記憶される。例えば先の例では単語trigramのスムージングには単語bigram、クラスbigram、単語unigramを使用することができること、単語bigramのスムージングにはクラスbigram、単語unigramを用いることができること、クラスbigram及び単語unigramはそれぞれ単独で(スムージングなしに)用いることができることが記述される。このような依存関係は人手で事前に与えることができる。また、包含関係等の規則に従い自動的に生成することもできる。N−gram以外にも文法規則や共起関係等も用いることが可能である。
N−gram組み合わせ選択部104はN−gram種類記憶部103に記憶されているN−gramの種類の中から得られる情報、および、コーパス記憶部101に記憶されているコーパスから得られる情報に基づいて、スムージングに用いる最適なN−gramの組み合わせを依存関係に従い選択する。コーパスから得られる情報とは具体的には例えば、コーパスの総単語数である。コーパスの総単語数が所定の閾値より小さい場合、スムージングにクラスbigramを使用せず単語unigramのみを用いるといった判断が可能である。コーパスから得られる情報の他の例としては、各単語連鎖のヒストグラムがある。例えば、2単語連鎖のヒストグラムの偏りが非常に大きい場合は単語bigramをスムージングに用いないといった判断が可能である。コーパスの総単語数や各N−gramの種類数、ヒストグラムといった情報を統合的に扱い、SVM(Support Vector Machine)やCRF(Conditional Random Fileds)といったモデルを用いてスムージングに使用するN−gramの選択を行うことも可能である。
単語接続確率計算部105は、単語連鎖頻度計数部102で計数された単語連鎖の頻度と、N−gram組み合わせ選択部104によって選択されたN−gramの組み合わせを元に単語接続確率を計算する。具体的には例えば最尤推定を用いることができる。この場合、それぞれのN−gramについて、N−gramの頻度と、先行するN−1単語の頻度から、前者を後者で割り算することで接続確率を求めることができる。具体的なN−gramの組み合わせ方としては例えばバックオフスムージングを用いることができる。
言語モデル生成部106は単語接続確率計算部105で得られた単語接続確率を言語モデルとして生成する。
次に、図2のフローチャートを参照して第1の実施の形態における言語モデル生成システム100の全体の動作について詳細に説明する。言語モデル生成システム100において、まず、コーパス記憶部101に記憶されているコーパスについて、先頭から一単語ずつスキャンする(図2のステップA1)。次に、N−gram種類記憶部103に記憶されている情報を元に、必要なN個組みの個数を数える(ステップA2)。例えば、単語trigramが必要であれば、単語3つ組みのコーパスにおける出現頻度を数える。さらに、コーパス記憶部101に記憶されているコーパスの性質に応じて組み合わせるN−gramの種類を決定する(ステップA3)。ここで決定された結果をもとに、言語モデル生成に使用するN−gramについて、確率値を計算する(ステップA4)。最後に、計算された確率値を言語モデルとして生成する(ステップA5)。
第1の実施の形態においてポイントとなるN−gramの組み合わせの決定プロセス(ステップA3)について、図3のN−gram種類木説明図及び図4のフローチャートを参照して更に詳しく説明する。図3はN−gram種類記憶部103に記憶されたN−gramの種類と依存関係を示す例である。これをN−gram種類グラフと呼ぶこととする。図3のN−gram種類グラフは、N−gramの種類として、単語trigram、単語bigram、クラスbigram、単語unigramがあることを示し、また、N−gramの依存関係として、単語trigramのスムージングには単語bigram、クラスbigram、単語unigramを使用することができること、単語bigramのスムージングにはクラスbigram、単語unigramを用いることができること、クラスbigram及び単語unigramはそれぞれ単独で(スムージングなしに)用いることができることが示されている。
図4に示すように、N−gram組み合わせ選択部104は、N−gramの組み合わせを決定するために、まず、N−gram種類グラフを下位ノードからたどる(ステップB1)。N−gram種類グラフは非巡回有向グラフであり、上位下位の順序付けを行うことができる。注目したノードに、複数のアークが入るかどうかを判定する(ステップB2)。複数のアークが入る場合、コーパスの性質に応じてそのどれを選択するかを判定する(ステップB3)。コーパスの性質とは先にも述べたように、例えばコーパスの総単語数や、注目したノードに入るN−gramの種類数、ヒストグラム等である。注目したノードについて処理が済んだことを示すチェックをつける(ステップB4)。N−gram種類グラフのノードの全てにチェックがついているかどうかを判定する(ステップB5)。全てチェックがついていれば選択されたアークをもとにN−gramの組み合わせを決定し(ステップB6)、処理を終了する。
次に、第1の実施の形態の効果について説明する。第1の実施の形態では、利用可能なN−gramの中から、学習データを参照して適切なN−gramの組み合わせを選択できる。特に取捨選択の際に比較すべき言語モデルを、依存関係という形で記述してあるので、それに基づき選択できる。このため、統計的言語モデルにおいて適切なスムージングを実現できる。
具体的には、単語unigramとクラスbigramは状況に応じて使い分けることができる言語モデルであるが、例えばコーパスの量に応じてスムージングに用いる言語モデル(N−gram)としてこの2つを適切に使い分けることができる。一方このとき、これらのモデルと単語trigramの比較は不適切であり、そういった組み合わせでは取捨選択は行われず、最終的に精度の高い言語モデルを得ることができる
他には例えば、単語bigramがあまり意味のないようなタスク(例えば○○を○○する、のように、キーワードの間の助詞にあまり意味がないような場合)においては、単語bigramの偏りと単語unigramの偏りを比較して、単語trigramのスムージングに単語unigramを採用することにより適切なスムージングを実現できる。
次に、本発明による第2の発明を実施するための最良の形態について図面を参照して詳細に説明する。図5を参照すると、第2の実施の形態は、第1の実施の形態におけるN−gram組み合わせ選択部104に代えて、N−gram組み合わせ選択部204及びテストセット記憶部207を設けている。コーパス記憶部101、単語連鎖頻度計数部102、N−gram種類記憶部103、単語接続確率計算部105、言語モデル生成部106の各機能は、第1の実施の形態と同様である。
テストセット記憶部207は言語モデルを評価するためのテキストデータを記憶する。コーパス記憶部101同様、単語単位に分割されたテキストとなっている。このテキストデータは、一般に学習コーパスに含まれない認識対象タスクの文によって構成される。
N−gram組み合わせ選択部204はN−gram種類記憶部103に記憶されているN−gramの中から、スムージングに用いる最適なN−gramの組み合わせを依存関係に従い選択する。この選択は、単語接続確率計算部105により得られる確率値をテストセット記憶部207に記憶されているテキストデータに適用することにより得られる情報に基づいて行う。確率値をテキストデータに適用することで得られる情報とは例えば、テストセットパープレキシティ等である。複数のN−gramの中から最適なものを選択する際にテストセットパープレキシティが最小となる組み合わせを用いることが可能である。
第2の実施の形態を用いることで、確率値に基づくスムージングの最適化が可能となり、また、音声認識対象タスクの性質に応じた最適化も可能となる。
次に、本発明による第3の発明を実施するための最良の形態について図面を参照して詳細に説明する。図6を参照すると、第3の実施の形態は、第1の実施の形態におけるN−gram組み合わせ選択部104に代えて、N−gram組み合わせ選択部304及びコーパス分割部308を設けている。コーパス記憶部101、単語連鎖頻度計数部102、N−gram種類記憶部103、単語接続確率計算部105、言語モデル生成部106の各機能は、第1の実施の形態と同様である。
コーパス分割部308はコーパス記憶部101に格納されているコーパスを読み込み、言語モデル学習に用いる部分とテストに用いる部分とに分割する。通常、言語モデル学習に用いる部分の方を大きくする(例えば9:1で学習に用いる方を大きくする)。単語連鎖頻度計数部102は、コーパス記憶部101に格納されているコーパスのうち、コーパス分割部308で分割された、言語モデル学習に用いる部分を読み込むことになる。
N−gram組み合わせ選択部304はN−gram種類記憶部103に記憶されているN−gramの中から、スムージングに用いる最適なN−gramの組み合わせを依存関係に従い選択する。この選択は、単語接続確率計算部105により得られる確率値を、コーパス記憶部101に格納されているコーパスのうち、コーパス分割部308で分割されたテストに用いる部分に適用することにより得られる情報に基づいて行う。確率値をテストに用いる部分に適用することで得られる情報とは例えば第2の実施の形態同様、テストセットパープレキシティ等である。
第3の実施の形態を用いることで、テストデータを用いずに確率値に基づくスムージングの最適化が可能となる。また、コーパス記憶部101に記憶されたコーパスについて、異なる分割を複数繰り返し上記操作を適用することで更によりよいスムージングを得ることができる。
次に、本発明による第4の発明を実施するための最良の形態について図面を参照して詳細に説明する。図7を参照すると、第4の実施の形態は、第1の実施の形態におけるN−gram組み合わせ選択部104に代えて、N−gram組み合わせ選択部404及び単語クラス情報記憶部409を設けている。コーパス記憶部101、単語連鎖頻度計数部102、N−gram種類記憶部103、単語接続確率計算部105、言語モデル生成部106の各機能は、第1の実施の形態と同様である。
単語クラス情報記憶部409は言語モデルに現れる語彙について、各単語が属するクラスが記憶されている。一つの単語は一つのクラスに属する。クラスとしては例えば、名詞や動詞といった品詞や、飲み物や食べ物といった意味的なクラス、統計的クラスタリングにより得られるクラス等がある。
N−gram組み合わせ選択部404は、単語クラス情報記憶部409に記憶されている異なるクラス全てについて、N−gram種類記憶部103に記憶されているN−gramの中から、スムージングに用いる最適なN−gramの組み合わせを依存関係に従い選択する。この選択は、第1の実施の形態同様、コーパス記憶部101に記憶されているコーパスから得られる情報に基づいて行う。
第4の実施の形態を用いることで、語彙の分類毎に異なるスムージングの最適化が可能となる。例えば、認識対象タスクにおいて意味があるキーワードクラスに属する単語については単語bigramを用いずに直接クラスbigramをスムージングに使用し、それ以外のクラスに属する単語については単語bigramを用いたスムージングを行うといった切替が可能となる。
第4の実施の形態は第1の実施の形態の拡張となっているが、同様の拡張を第2の実施の形態、第3の実施の形態にも適用可能である。
コンピュータを、第1の実施の形態におけるコーパス記憶部101、単語連鎖頻度計数部102、N−gram種類記憶部103、N−gram組み合わせ選択部104、単語接続確率計算部105、言語モデル生成部106として機能させるための言語モデル生成用プログラムによって、言語モデル生成システム100を構築することができる。第2〜第4の実施の形態においても、同様の言語モデル生成用プログラムによって、言語モデル生成システム200,300,400を構築することができる。コンピュータは、例えば、コンピュータ読み取り可能な記録媒体に記録された言語モデル生成用プログラムを読み込むことによって、言語モデル生成システム100,200,300,400として機能することができる。
言語モデルを用いる音声認識システムは、第1〜第4の実施の形態による言語モデル生成システム100,200,300,400によって生成された言語モデルを用いて、音声認識を行うことができる。
本発明は、音声認識のための言語モデルの作成といった用途に適用できる。また、文字認識といった用途にも適用可能である。
100,200,300,400 言語モデル生成システム
101 コーパス記憶部
102 単語連鎖頻度計数部
103 N−gram種類記憶部
104,204,304,404 N−gram組み合わせ選択部
105 単語接続確率計算部
106 言語モデル生成部
207 テストセット記憶部
308 コーパス分割部
409 単語クラス情報記憶部
101 コーパス記憶部
102 単語連鎖頻度計数部
103 N−gram種類記憶部
104,204,304,404 N−gram組み合わせ選択部
105 単語接続確率計算部
106 言語モデル生成部
207 テストセット記憶部
308 コーパス分割部
409 単語クラス情報記憶部
Claims (25)
- 言語モデルのスムージングに利用可能な言語モデルの種類と、その依存関係とを記憶する言語モデル種類記憶手段と、
前記言語モデルの種類と、その依存関係とを参照し、所定の組み合わせ選択基準に従い、スムージングに用いる言語モデルの組み合わせを選択する言語モデル組み合わせ選択手段とを具備する
言語モデル生成システム。 - 前記言語モデル種類記憶手段は、
言語モデルの種類をノードにて表し、その依存関係をアークにて表した言語モデル種類グラフのデータ形式にて、前記言語モデルの種類と、その依存関係とを記憶し、
前記言語モデル組み合わせ選択手段は、
前記言語モデル種類グラフを参照し、一つ目のノードから、アークにて結合された二つ目のノードへ、前記言語モデル種類グラフを辿ることによって、スムージングに用いる言語モデルの組み合わせを選択する
請求項1記載の言語モデル生成システム。 - 前記言語モデル種類記憶手段は、
前記言語モデルの種類と、その依存関係として、N−gramの種類と、その依存関係とを記憶し、N−gramの種類をノードにて表し、その依存関係をアークにて表したN−gram種類グラフのデータ形式にて、前記N−gramの種類と、その依存関係とを記憶し、
前記言語モデル組み合わせ選択手段は、
前記N−gram種類グラフを辿ることによって、スムージングに用いる言語モデルの組み合わせを選択する
請求項2記載の言語モデル生成システム。 - 言語モデルを作成するための学習コーパスを記憶すると共に、前記学習コーパスについて、少なくとも大きさ又は偏りのいずれかを示す属性を含む一つ又は複数の属性を記憶するコーパス記憶手段を更に具備し、
前記言語モデル組み合わせ選択手段は、
前記コーパス記憶手段を参照し、前記組み合わせ選択基準として、前記属性を用いる
請求項3記載の言語モデル生成システム。 - 前記コーパス記憶手段は、
前記学習コーパスの大きさを示す属性であるコーパスの総単語数、又は、前記学習コーパスの偏りを示す属性であるN(但し、Nは複数)単語連鎖のヒストグラムの偏りの少なくとも一つを含む複数の属性を記憶し、
前記言語モデル組み合わせ選択手段は、
前記コーパス記憶手段を参照し、前記組み合わせ選択基準として、前記属性を複数用いる
請求項4記載の言語モデル生成システム。 - 言語モデルを評価するためのテキストデータを記憶するテストセット記憶手段と、
前記学習コーパスを読み込み、言語モデル生成に必要な単語連鎖の頻度を計数する単語連鎖頻度計数手段と、
前記単語連鎖頻度計数手段によって計数された単語連鎖の頻度と、前記言語モデル組み合わせ選択手段によって選択された言語モデルの組み合わせを元に、単語接続の確率値を計算する単語接続確率計算手段とを更に具備し、
前記言語モデル組み合わせ選択手段は、
前記テストセット記憶手段を参照し、前記組み合わせ選択基準として、前記確率値を前記テキストデータに適用して得られる情報を用いる
請求項4又は5記載の言語モデル生成システム。 - 前記学習コーパスを読み込み、言語モデル学習に用いる部分とテストに用いる部分とに分割するコーパス分割手段を更に具備し、
前記単語連鎖頻度計数手段は、
前記言語モデル学習に用いる部分を読み込んで、前記単語連鎖の頻度を計数し、
前記言語モデル組み合わせ選択手段は、
前記テストに用いる部分を参照し、前記組み合わせ選択基準として、前記確率値を前記テストに用いる部分に適用して得られる情報を用いる
請求項6記載の言語モデル生成システム。 - 語彙が有限個のクラスに分類される言語モデルに現れる語彙について、各単語が属するクラス情報を記憶する単語クラス情報記憶手段を更に具備し、
前記言語モデル組み合わせ選択手段は、
前記クラス情報を参照し、それぞれのクラス毎に、スムージングに用いる言語モデルの組み合わせを選択する
請求項2ないし7いずれか1項に記載の言語モデル生成システム。 - 請求項1ないし8いずれか1項に記載の言語モデル生成システムと、
前記言語モデル生成システムによって生成される言語モデルを用いる音声認識システムとを具備する
言語モデル生成及び音声認識を行うシステム。 - 言語モデルのスムージングに利用可能な言語モデルの種類と、その依存関係とを記憶することと、
前記言語モデルの種類と、その依存関係とを参照し、所定の組み合わせ選択基準に従い、スムージングに用いる言語モデルの組み合わせを選択することとを具備する
言語モデル生成方法。 - 前記その依存関係とを記憶することは、
言語モデルの種類をノードにて表し、その依存関係をアークにて表した言語モデル種類グラフのデータ形式にて、前記言語モデルの種類と、その依存関係とを記憶することを含み、
前記選択することは、
前記言語モデル種類グラフを参照し、一つ目のノードから、アークにて結合された二つ目のノードへ、前記言語モデル種類グラフを辿ることによって、スムージングに用いる言語モデルの組み合わせを選択することを含む
請求項10記載の言語モデル生成方法。 - 前記その依存関係とを記憶することは、
前記言語モデルの種類と、その依存関係として、N−gramの種類と、その依存関係とを記憶し、N−gramの種類をノードにて表し、その依存関係をアークにて表したN−gram種類グラフのデータ形式にて、前記N−gramの種類と、その依存関係とを記憶することを含み、
前記選択することは、
前記N−gram種類グラフを辿ることによって、スムージングに用いる言語モデルの組み合わせを選択することを含む
請求項11記載の言語モデル生成方法。 - 言語モデルを作成するための学習コーパスを記憶すると共に、前記学習コーパスについて、少なくとも大きさ又は偏りのいずれかを示す属性を含む一つ又は複数の属性を記憶することを更に具備し、
前記選択することは、
前記組み合わせ選択基準として、前記属性を用いることを含む
請求項12記載の言語モデル生成方法。 - 前記属性を記憶することは、
前記学習コーパスの大きさを示す属性であるコーパスの総単語数、又は、前記学習コーパスの偏りを示す属性であるN(但し、Nは複数)単語連鎖のヒストグラムの偏りの少なくとも一つを含む複数の属性を記憶することを含み、
前記選択することは、
前記組み合わせ選択基準として、前記属性を複数用いることを含む
請求項13記載の言語モデル生成方法。 - 言語モデルを評価するためのテキストデータを記憶することと、
前記学習コーパスを読み込み、言語モデル生成に必要な単語連鎖の頻度を計数することと、
前記単語連鎖頻度計数手段によって計数された単語連鎖の頻度と、前記言語モデル組み合わせ選択手段によって選択された言語モデルの組み合わせを元に、単語接続の確率値を計算することとを更に具備し、
前記選択することは、
前記組み合わせ選択基準として、前記確率値を前記テキストデータに適用して得られる情報を用いることを含む
請求項13又は14記載の言語モデル生成方法。 - 前記学習コーパスを読み込み、言語モデル学習に用いる部分とテストに用いる部分とに分割することを更に具備し、
前記計数することは、
前記言語モデル学習に用いる部分を読み込んで、前記単語連鎖の頻度を計数することを含み、
前記選択することは、
前記テストに用いる部分を参照し、前記組み合わせ選択基準として、前記確率値を前記テストに用いる部分に適用して得られる情報を用いることを含む
請求項15記載の言語モデル生成方法。 - 語彙が有限個のクラスに分類される言語モデルに現れる語彙について、各単語が属するクラス情報を記憶することを更に具備し、
前記選択することは、
前記クラス情報を参照し、それぞれのクラス毎に、スムージングに用いる言語モデルの組み合わせを選択することを含む
請求項11ないし16いずれか1項に記載の言語モデル生成方法。 - 言語モデルのスムージングに利用可能な言語モデルの種類と、その依存関係とを記憶する言語モデル種類記憶手段と、
前記言語モデルの種類と、その依存関係とを参照し、所定の組み合わせ選択基準に従い、スムージングに用いる言語モデルの組み合わせを選択する言語モデル組み合わせ選択手段ととしてコンピュータを機能させるための
言語モデル生成用プログラム。 - 前記言語モデル種類記憶手段は、
言語モデルの種類をノードにて表し、その依存関係をアークにて表した言語モデル種類グラフのデータ形式にて、前記言語モデルの種類と、その依存関係とを記憶し、
前記言語モデル組み合わせ選択手段は、
前記言語モデル種類グラフを参照し、一つ目のノードから、アークにて結合された二つ目のノードへ、前記言語モデル種類グラフを辿ることによって、スムージングに用いる言語モデルの組み合わせを選択する
請求項18記載の言語モデル生成用プログラム。 - 前記言語モデル種類記憶手段は、
前記言語モデルの種類と、その依存関係として、N−gramの種類と、その依存関係とを記憶し、N−gramの種類をノードにて表し、その依存関係をアークにて表したN−gram種類グラフのデータ形式にて、前記N−gramの種類と、その依存関係とを記憶し、
前記言語モデル組み合わせ選択手段は、
前記N−gram種類グラフを辿ることによって、スムージングに用いる言語モデルの組み合わせを選択する
請求項19記載の言語モデル生成用プログラム。 - 更に、前記コンピュータを、言語モデルを作成するための学習コーパスを記憶すると共に、前記学習コーパスについて、少なくとも大きさ又は偏りのいずれかを示す属性を含む一つ又は複数の属性を記憶するコーパス記憶手段としても機能させると共に、
前記言語モデル組み合わせ選択手段は、
前記コーパス記憶手段を参照し、前記組み合わせ選択基準として、前記属性を用いる
請求項20記載の言語モデル生成用プログラム。 - 前記コーパス記憶手段は、
前記学習コーパスの大きさを示す属性であるコーパスの総単語数、又は、前記学習コーパスの偏りを示す属性であるN(但し、Nは複数)単語連鎖のヒストグラムの偏りの少なくとも一つを含む複数の属性を記憶し、
前記言語モデル組み合わせ選択手段は、
前記コーパス記憶手段を参照し、前記組み合わせ選択基準として、前記属性を複数用いる
請求項21記載の言語モデル生成用プログラム。 - 更に、前記コンピュータを、言語モデルを評価するためのテキストデータを記憶するテストセット記憶手段と、
前記学習コーパスを読み込み、言語モデル生成に必要な単語連鎖の頻度を計数する単語連鎖頻度計数手段と、
前記単語連鎖頻度計数手段によって計数された単語連鎖の頻度と、前記言語モデル組み合わせ選択手段によって選択された言語モデルの組み合わせを元に、単語接続の確率値を計算する単語接続確率計算手段ととしても機能させると共に、
前記言語モデル組み合わせ選択手段は、
前記テストセット記憶手段を参照し、前記組み合わせ選択基準として、前記確率値を前記テキストデータに適用して得られる情報を用いる
請求項21又は22記載の言語モデル生成用プログラム。 - 更に、前記コンピュータを、前記学習コーパスを読み込み、言語モデル学習に用いる部分とテストに用いる部分とに分割するコーパス分割手段としても機能させると共に、
前記単語連鎖頻度計数手段は、
前記言語モデル学習に用いる部分を読み込んで、前記単語連鎖の頻度を計数し、
前記言語モデル組み合わせ選択手段は、
前記テストに用いる部分を参照し、前記組み合わせ選択基準として、前記確率値を前記テストに用いる部分に適用して得られる情報を用いる
請求項23記載の言語モデル生成用プログラム。 - 更に、前記コンピュータを、語彙が有限個のクラスに分類される言語モデルに現れる語彙について、各単語が属するクラス情報を記憶する単語クラス情報記憶手段としても機能させると共に、
前記言語モデル組み合わせ選択手段は、
前記クラス情報を参照し、それぞれのクラス毎に、スムージングに用いる言語モデルの組み合わせを選択する
請求項19ないし24いずれか1項に記載の言語モデル生成用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007325032A JP2009145775A (ja) | 2007-12-17 | 2007-12-17 | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007325032A JP2009145775A (ja) | 2007-12-17 | 2007-12-17 | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009145775A true JP2009145775A (ja) | 2009-07-02 |
Family
ID=40916405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007325032A Withdrawn JP2009145775A (ja) | 2007-12-17 | 2007-12-17 | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009145775A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015119267A1 (en) * | 2014-02-05 | 2015-08-13 | Kabushiki Kaisha Toshiba | Uttered sentence collection apparatus and method |
-
2007
- 2007-12-17 JP JP2007325032A patent/JP2009145775A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015119267A1 (en) * | 2014-02-05 | 2015-08-13 | Kabushiki Kaisha Toshiba | Uttered sentence collection apparatus and method |
JP2015148910A (ja) * | 2014-02-05 | 2015-08-20 | 株式会社東芝 | 発話文収集装置、方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4974470B2 (ja) | Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現 | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
JPWO2007138875A1 (ja) | 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム | |
US9767193B2 (en) | Generation apparatus and method | |
CN109710087A (zh) | 输入法模型生成方法及装置 | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
JP2007157058A (ja) | 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム | |
JP3428554B2 (ja) | 意味ネットワーク自動作成装置及びコンピュータ可読記録媒体 | |
JP5766152B2 (ja) | 言語モデル生成装置、その方法及びプログラム | |
Schmid | Decision trees | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
JP4073015B2 (ja) | 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体 | |
US20220284188A1 (en) | Machine based expansion of contractions in text in digital media | |
JP2009145775A (ja) | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム | |
JP6261669B2 (ja) | クエリ校正システムおよび方法 | |
JP4735958B2 (ja) | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム | |
CN114266240A (zh) | 一种基于机器人的多意图识别方法及装置 | |
JP6436086B2 (ja) | 分類辞書生成装置、分類辞書生成方法及びプログラム | |
Donaj et al. | Context-dependent factored language models | |
JP6907703B2 (ja) | 解析装置、解析方法、および解析プログラム | |
JP5673265B2 (ja) | 校正支援装置及び校正支援プログラム | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
JP2002073644A (ja) | 重要文抽出処理装置、重要文抽出処理方法、および重要文抽出処理プログラムを格納したコンピュータ読み取り可能な記憶媒体 | |
JP2014235584A (ja) | 文書分析システム、文書分析方法およびプログラム | |
KR101472029B1 (ko) | 색인요소를 이용한 자연어 분석 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20110301 |