JP5790646B2 - パープレキシティ算出装置 - Google Patents
パープレキシティ算出装置 Download PDFInfo
- Publication number
- JP5790646B2 JP5790646B2 JP2012515723A JP2012515723A JP5790646B2 JP 5790646 B2 JP5790646 B2 JP 5790646B2 JP 2012515723 A JP2012515723 A JP 2012515723A JP 2012515723 A JP2012515723 A JP 2012515723A JP 5790646 B2 JP5790646 B2 JP 5790646B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- statistical language
- language model
- perplexity
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims description 80
- 239000000470 constituent Substances 0.000 claims description 78
- 230000006870 function Effects 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 30
- 230000007423 decrease Effects 0.000 claims description 29
- 230000010365 information processing Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を備える。
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出し、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記統計的言語モデルの上記テキストに対するパープレキシティを算出する方法である。
情報処理装置に、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を実現させるためのプログラムである。
単語が出現する確率を表す統計的言語モデルを複数記憶する統計的言語モデル記憶手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、上記統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、上記記憶されている複数の統計的言語モデルのそれぞれに対して行う重み係数算出手段と、
上記記憶されている複数の統計的言語モデルのそれぞれに対して、上記算出された重み係数と、上記単語出現度と、に基づいて、当該統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
上記算出されたパープレキシティに基づいて、上記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する統計的言語モデル選択手段と、
を備える。
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、記憶装置に記憶されている複数の統計的言語モデルのそれぞれに対して行い、
上記記憶されている複数の統計的言語モデルのそれぞれに対して、上記算出された重み係数と、上記単語出現度と、に基づいて、当該統計的言語モデルの上記テキストに対するパープレキシティを算出し、
上記算出されたパープレキシティに基づいて、上記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する方法である。
情報処理装置に、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、記憶装置に記憶されている複数の統計的言語モデルのそれぞれに対して行う重み係数算出手段と、
上記記憶されている複数の統計的言語モデルのそれぞれに対して、上記算出された重み係数と、上記単語出現度と、に基づいて、当該統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
上記算出されたパープレキシティに基づいて、上記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する統計的言語モデル選択手段と、
を実現させるためのプログラムである。
単語が出現する確率を表す統計的言語モデルを複数記憶する統計的言語モデル記憶手段と、
上記記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する統計的言語モデル混合手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、上記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記生成された統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を備え、
上記統計的言語モデル混合手段は、上記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、上記統計的言語モデルを生成し直すように構成される。
単語が出現する確率を表す統計的言語モデルであって、記憶装置に記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成し、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、上記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出し、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記生成された統計的言語モデルの上記テキストに対するパープレキシティを算出し、
上記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、上記統計的言語モデルを生成し直す方法である。
情報処理装置に、
単語が出現する確率を表す統計的言語モデルであって、記憶装置に記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する統計的言語モデル混合手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、上記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記生成された統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を実現させるとともに、
上記統計的言語モデル混合手段は、上記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、上記統計的言語モデルを生成し直すように構成される。
単語が出現する確率を表す統計的言語モデルを記憶する統計的言語モデル記憶手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、上記記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記記憶されている統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
上記算出されたパープレキシティが、予め設定された閾値以下である上記テキストに基づいて上記統計的言語モデルを生成する統計的言語モデル生成手段と、
を備える。
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表し且つ記憶装置に記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出し、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記記憶されている統計的言語モデルの上記テキストに対するパープレキシティを算出し、
上記算出されたパープレキシティが、予め設定された閾値以下である上記テキストに基づいて上記統計的言語モデルを生成する方法である。
情報処理装置に、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表し且つ記憶装置に記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記記憶されている統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
上記算出されたパープレキシティが、予め設定された閾値以下である上記テキストに基づいて上記統計的言語モデルを生成する統計的言語モデル生成手段と、
を実現させるためのプログラムである。
(構成)
図1に示したように、第1実施形態に係るパープレキシティ算出装置100は、情報処理装置である。例えば、パープレキシティ算出装置100は、パーソナル・コンピュータ、携帯電話端末、PHS(Personal Handyphone System)、PDA(Personal Data Assistance、Personal Digital Assistant)、カーナビゲーション端末、又は、ゲーム端末等であってもよい。
図1は、上記のように構成されたパープレキシティ算出装置100の機能を表すブロック図である。
パープレキシティ算出装置100の機能は、単語重要度記憶部10と、統計的言語モデル記憶部(統計的言語モデル記憶手段)11と、テキスト記憶部12と、重み係数算出部(重み係数算出手段)101と、パープレキシティ算出部(パープレキシティ算出手段)102と、を含む。なお、重み係数算出部101、及び、パープレキシティ算出部102は、パープレキシティ算出装置100のCPUがプログラムを実行することにより実現される。
次に、図2に示したフローチャートを参照しながら、パープレキシティ算出装置100の作動について説明する。
パープレキシティ算出装置100は、記憶装置に記憶されている単語重要度、統計的言語モデル、及び、テキストを読み出すことにより入力する(ステップS11)。
次に、本発明の第2実施形態に係る統計的言語モデル選択装置について説明する。第2実施形態に係る統計的言語モデル選択装置は、上記第1実施形態に係るパープレキシティ算出装置に対して、算出されたパープレキシティに基づいて統計的言語モデルを選択する点において相違している。従って、以下、かかる相違点を中心として説明する。
統計的言語モデル選択装置は、第1実施形態に係るパープレキシティ算出装置100と同様の構成を有する情報処理装置である。
図3は、統計的言語モデル選択装置200の機能を表すブロック図である。
統計的言語モデル選択装置200の機能は、第1実施形態に係るパープレキシティ算出装置100の機能に加えて、統計的言語モデル選択部(統計的言語モデル選択手段)201を含む。
第2実施形態に係る重み係数算出部101は、複数のテキスト構成単語のそれぞれに対して、統計的言語モデルに基づく単語出現度を補正するための重み係数を、単語重要度記憶部10に記憶されている単語重要度に基づいて算出する処理を、統計的言語モデル記憶部11に記憶されている複数の統計的言語モデルのそれぞれに対して行。
次に、図4に示したフローチャートを参照しながら、統計的言語モデル選択装置200の作動について説明する。
統計的言語モデル選択装置200は、第1実施形態に係るパープレキシティ算出装置100と同様のステップS11〜ステップS13を実行することにより、統計的言語モデル記憶部11に記憶されている複数の統計的言語モデルのそれぞれに対して、パープレキシティを算出する。
次に、本発明の第3実施形態に係る統計的言語モデル生成装置について説明する。第3実施形態に係る統計的言語モデル生成装置は、上記第2実施形態に係る統計的言語モデル選択装置に対して、統計的言語モデルを生成する点において相違している。従って、以下、かかる相違点を中心として説明する。
統計的言語モデル生成装置は、第2実施形態に係る統計的言語モデル選択装置200と同様の構成を有する情報処理装置である。
図5は、統計的言語モデル生成装置300の機能を表すブロック図である。
統計的言語モデル生成装置300の機能は、第2実施形態に係る統計的言語モデル選択装置200の機能に加えて、統計的言語モデル混合部(統計的言語モデル混合手段)301を含む。
統計的言語モデル混合部301は、統計的言語モデル記憶部11に記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する。
鹿野清宏、他著、「音声認識システム」、オーム社、2001年5月15日、p.59〜61
Bo-June (Paul) Hsu、James Glass、「Iterative Language Model Estimation: Efficient Data Structure & Algorithms」、Proc. Interspeech、Brisbane、Australia、2008年9月
次に、図6に示したフローチャートを参照しながら、統計的言語モデル生成装置300の作動について説明する。
先ず、統計的言語モデル生成装置300は、記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する(ステップS31)。
算出されたパープレキシティが閾値以下である場合、統計的言語モデル生成装置300は、生成された統計的言語モデルを特定するための情報を出力する。
次に、本発明の第4実施形態に係る統計的言語モデル生成装置について説明する。第4実施形態に係る統計的言語モデル生成装置は、上記第1実施形態に係るパープレキシティ算出装置に対して、パープレキシティに基づいて選択したテキストに基づいて統計的言語モデルを生成する点において相違している。従って、以下、かかる相違点を中心として説明する。
統計的言語モデル生成装置は、第1実施形態に係るパープレキシティ算出装置100と同様の構成を有する情報処理装置である。
図7は、統計的言語モデル生成装置400の機能を表すブロック図である。
統計的言語モデル生成装置400の機能は、第1実施形態に係るパープレキシティ算出装置100の機能に加えて、テキスト選択部(統計的言語モデル生成手段の一部)401と、統計的言語モデル生成部(統計的言語モデル生成手段の一部)402と、を含む。
第4実施形態に係る統計的言語モデル記憶部11は、統計的言語モデルを予め記憶する。
第4実施形態に係る重み係数算出部101は、テキスト記憶部12に記憶されている複数のテキストのそれぞれに対して、下記の重み係数算出処理を行う。
次に、図8に示したフローチャートを参照しながら、統計的言語モデル生成装置400の作動について説明する。
統計的言語モデル生成装置400は、第1実施形態に係るパープレキシティ算出装置100と同様のステップS11〜ステップS13を実行することにより、テキスト記憶部12に記憶されている複数のテキストのそれぞれに対して、パープレキシティを算出する。
次に、本発明の第5実施形態に係るパープレキシティ算出装置500について図9を参照しながら説明する。
第5実施形態に係るパープレキシティ算出装置500は、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出部(重み係数算出手段)501と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出部(パープレキシティ算出手段)502と、
を備える。
上記実施形態の一部又は全部は、以下の付記のように記載され得るが、以下には限られない。
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を備えるパープレキシティ算出装置。
付記1に記載のパープレキシティ算出装置であって、
前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出するように構成され、
前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出するように構成されたパープレキシティ算出装置。
付記2に記載のパープレキシティ算出装置であって、
前記パープレキシティ算出手段は、前記重み係数を前記単語出現度に乗じた値に基づいて前記パープレキシティを算出するように構成されたパープレキシティ算出装置。
付記1乃至付記3のいずれか一項に記載のパープレキシティ算出装置であって、
前記重み係数算出手段は、前記単語重要度に対して単調に変化する値を有する関数を用いて前記重み係数を算出するように構成されたパープレキシティ算出装置。
付記1乃至付記4のいずれか一項に記載のパープレキシティ算出装置であって、
前記重み係数算出手段は、tf(Term Frequency)値、idf(Inverse Document Frequency)値、tf−idf(Term Frequency−Inverse Document Frequency)値、及び、前記統計的言語モデルを生成する際に用いられる、単語が重要である程度を表すスコア値、のうちの少なくとも1つに基づく値を、前記単語重要度として用いるように構成されたパープレキシティ算出装置。
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出し、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記統計的言語モデルの前記テキストに対するパープレキシティを算出する、パープレキシティ算出方法。
付記6に記載のパープレキシティ算出方法であって、
前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出し、
前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出する、パープレキシティ算出方法。
情報処理装置に、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を実現させるためのパープレキシティ算出プログラム。
付記8に記載のパープレキシティ算出プログラムであって、
前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出するように構成され、
前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出するように構成されたパープレキシティ算出プログラム。
単語が出現する確率を表す統計的言語モデルを複数記憶する統計的言語モデル記憶手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、前記記憶されている複数の統計的言語モデルのそれぞれに対して行う重み係数算出手段と、
前記記憶されている複数の統計的言語モデルのそれぞれに対して、前記算出された重み係数と、前記単語出現度と、に基づいて、当該統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
前記算出されたパープレキシティに基づいて、前記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する統計的言語モデル選択手段と、
を備える統計的言語モデル選択装置。
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、記憶装置に記憶されている複数の統計的言語モデルのそれぞれに対して行い、
前記記憶されている複数の統計的言語モデルのそれぞれに対して、前記算出された重み係数と、前記単語出現度と、に基づいて、当該統計的言語モデルの前記テキストに対するパープレキシティを算出し、
前記算出されたパープレキシティに基づいて、前記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する、統計的言語モデル選択方法。
情報処理装置に、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、記憶装置に記憶されている複数の統計的言語モデルのそれぞれに対して行う重み係数算出手段と、
前記記憶されている複数の統計的言語モデルのそれぞれに対して、前記算出された重み係数と、前記単語出現度と、に基づいて、当該統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
前記算出されたパープレキシティに基づいて、前記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する統計的言語モデル選択手段と、
を実現させるための統計的言語モデル選択プログラム。
単語が出現する確率を表す統計的言語モデルを複数記憶する統計的言語モデル記憶手段と、
前記記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する統計的言語モデル混合手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記生成された統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を備え、
前記統計的言語モデル混合手段は、前記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、前記統計的言語モデルを生成し直すように構成された統計的言語モデル生成装置。
単語が出現する確率を表す統計的言語モデルであって、記憶装置に記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成し、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出し、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記生成された統計的言語モデルの前記テキストに対するパープレキシティを算出し、
前記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、前記統計的言語モデルを生成し直す、統計的言語モデル生成方法。
情報処理装置に、
単語が出現する確率を表す統計的言語モデルであって、記憶装置に記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する統計的言語モデル混合手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記生成された統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を実現させるとともに、
前記統計的言語モデル混合手段は、前記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、前記統計的言語モデルを生成し直すように構成された統計的言語モデル生成プログラム。
単語が出現する確率を表す統計的言語モデルを記憶する統計的言語モデル記憶手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記記憶されている統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
前記算出されたパープレキシティが、予め設定された閾値以下である前記テキストに基づいて前記統計的言語モデルを生成する統計的言語モデル生成手段と、
を備える統計的言語モデル生成装置。
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表し且つ記憶装置に記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出し、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記記憶されている統計的言語モデルの前記テキストに対するパープレキシティを算出し、
前記算出されたパープレキシティが、予め設定された閾値以下である前記テキストに基づいて前記統計的言語モデルを生成する、統計的言語モデル生成方法。
情報処理装置に、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表し且つ記憶装置に記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記記憶されている統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
前記算出されたパープレキシティが、予め設定された閾値以下である前記テキストに基づいて前記統計的言語モデルを生成する統計的言語モデル生成手段と、
を実現させるための統計的言語モデル生成プログラム。
11 統計的言語モデル記憶部
12 テキスト記憶部
100 パープレキシティ算出装置
101 重み係数算出部
102 パープレキシティ算出部
200 統計的言語モデル選択装置
201 統計的言語モデル選択部
300 統計的言語モデル生成装置
301 統計的言語モデル混合部
400 統計的言語モデル生成装置
401 テキスト選択部
402 統計的言語モデル生成部
500 パープレキシティ算出装置
501 重み係数算出部
502 パープレキシティ算出部
Claims (9)
- テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を備え、
前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出するように構成され、
前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出するように構成されたパープレキシティ算出装置。 - 請求項1に記載のパープレキシティ算出装置であって、
前記パープレキシティ算出手段は、前記重み係数を前記単語出現度に乗じた値に基づいて前記パープレキシティを算出するように構成されたパープレキシティ算出装置。 - 請求項1又は請求項2に記載のパープレキシティ算出装置であって、
前記重み係数算出手段は、前記単語重要度に対して単調に変化する値を有する関数を用いて前記重み係数を算出するように構成されたパープレキシティ算出装置。 - 請求項1乃至請求項3のいずれか一項に記載のパープレキシティ算出装置であって、
前記重み係数算出手段は、tf(Term Frequency)値、idf(Inverse Document Frequency)値、tf−idf(Term Frequency−Inverse Document Frequency)値、及び、前記統計的言語モデルを生成する際に用いられる、単語が重要である程度を表すスコア値、のうちの少なくとも1つに基づく値を、前記単語重要度として用いるように構成されたパープレキシティ算出装置。 - 情報処理装置が、テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する際に、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出し、
情報処理装置が、前記算出された重み係数と、前記単語出現度と、に基づいて、前記統計的言語モデルの前記テキストに対するパープレキシティを算出する際に、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出する、パープレキシティ算出方法。 - 情報処理装置に、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を実現させるためのパープレキシティ算出プログラムであり、
前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出し、
前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出する、
パープレキシティ算出プログラム。 - 単語が出現する確率を表す統計的言語モデルを複数記憶する統計的言語モデル記憶手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、前記記憶されている複数の統計的言語モデルのそれぞれに対して行う重み係数算出手段と、
前記記憶されている複数の統計的言語モデルのそれぞれに対して、前記算出された重み係数と、前記単語出現度と、に基づいて、当該統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
前記算出されたパープレキシティに基づいて、前記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する統計的言語モデル選択手段と、
を備え、
前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出するように構成され、
前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出するように構成された統計的言語モデル選択装置。 - 単語が出現する確率を表す統計的言語モデルを複数記憶する統計的言語モデル記憶手段と、
前記記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する統計的言語モデル混合手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記生成された統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を備え、
前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出するように構成され、
前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出するように構成され、
前記統計的言語モデル混合手段は、前記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、前記統計的言語モデルを生成し直すように構成された統計的言語モデル生成装置。 - 単語が出現する確率を表す統計的言語モデルを記憶する統計的言語モデル記憶手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記記憶されている統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
前記算出されたパープレキシティが、予め設定された閾値以下である前記テキストに基づいて前記統計的言語モデルを生成する統計的言語モデル生成手段と、
を備え、
前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出するように構成され、
前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出するように構成された統計的言語モデル生成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012515723A JP5790646B2 (ja) | 2010-05-20 | 2011-04-20 | パープレキシティ算出装置 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010116171 | 2010-05-20 | ||
JP2010116171 | 2010-05-20 | ||
JP2012515723A JP5790646B2 (ja) | 2010-05-20 | 2011-04-20 | パープレキシティ算出装置 |
PCT/JP2011/002301 WO2011145272A1 (ja) | 2010-05-20 | 2011-04-20 | パープレキシティ算出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011145272A1 JPWO2011145272A1 (ja) | 2013-07-22 |
JP5790646B2 true JP5790646B2 (ja) | 2015-10-07 |
Family
ID=44991395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012515723A Active JP5790646B2 (ja) | 2010-05-20 | 2011-04-20 | パープレキシティ算出装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9075774B2 (ja) |
JP (1) | JP5790646B2 (ja) |
WO (1) | WO2011145272A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10984337B2 (en) | 2012-02-29 | 2021-04-20 | Microsoft Technology Licensing, Llc | Context-based search query formation |
JP6082657B2 (ja) * | 2013-05-28 | 2017-02-15 | 日本電信電話株式会社 | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム |
JP6211995B2 (ja) * | 2014-06-06 | 2017-10-11 | 日本電信電話株式会社 | 言語モデル作成装置、言語モデル作成方法及びプログラム |
US9864956B1 (en) | 2017-05-01 | 2018-01-09 | SparkCognition, Inc. | Generation and use of trained file classifiers for malware detection |
US10616252B2 (en) | 2017-06-30 | 2020-04-07 | SparkCognition, Inc. | Automated detection of malware using trained neural network-based file classifiers and machine learning |
US10305923B2 (en) | 2017-06-30 | 2019-05-28 | SparkCognition, Inc. | Server-supported malware detection and protection |
CN113449511B (zh) * | 2020-03-24 | 2023-06-09 | 百度在线网络技术(北京)有限公司 | 文本处理的方法、装置、设备和存储介质 |
US20230367968A1 (en) * | 2022-05-11 | 2023-11-16 | Microsoft Technology Licensing, Llc | Text coherence classifier |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07104786A (ja) * | 1993-10-04 | 1995-04-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声対話システム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
US7275029B1 (en) * | 1999-11-05 | 2007-09-25 | Microsoft Corporation | System and method for joint optimization of language model performance and size |
US7043422B2 (en) * | 2000-10-13 | 2006-05-09 | Microsoft Corporation | Method and apparatus for distribution-based language model adaptation |
US7243071B1 (en) * | 2003-01-16 | 2007-07-10 | Comverse, Inc. | Speech-recognition grammar analysis |
WO2006099621A2 (en) * | 2005-03-17 | 2006-09-21 | University Of Southern California | Topic specific language models built from large numbers of documents |
US7565372B2 (en) * | 2005-09-13 | 2009-07-21 | Microsoft Corporation | Evaluating and generating summaries using normalized probabilities |
US7627548B2 (en) * | 2005-11-22 | 2009-12-01 | Google Inc. | Inferring search category synonyms from user logs |
US8229921B2 (en) * | 2008-02-25 | 2012-07-24 | Mitsubishi Electric Research Laboratories, Inc. | Method for indexing for retrieving documents using particles |
-
2011
- 2011-04-20 WO PCT/JP2011/002301 patent/WO2011145272A1/ja active Application Filing
- 2011-04-20 US US13/698,543 patent/US9075774B2/en active Active
- 2011-04-20 JP JP2012515723A patent/JP5790646B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07104786A (ja) * | 1993-10-04 | 1995-04-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声対話システム |
Non-Patent Citations (8)
Title |
---|
CSNG200000473005; 森 信介: 'クラスbigram言語モデルの補間' 情報処理学会研究報告 第97巻第29号, 19970322, p.27-32, 社団法人情報処理 * |
CSNG200200016011; 黒橋 禎夫 外1名: '文脈共起ベクトルに基づく大域的言語モデル' 情報処理学会研究報告 第2000巻第86号, 20000922, p.77-83, 社団法人情報処理学会 * |
CSNG200500672004; 南條 浩輝 外1名: '講演音声認識のための教師なし言語モデル適応と発話速度に適応したデコーディング' 電子情報通信学会論文誌 第J87-D-II巻第8巻, 20040801, p.1581-1892, 社団法人電子情報通信学会 * |
CSNG201100288010; 宮崎 将隆 外1名: 'WWWから得られるTerm Frequency情報に基づくPLSA言語モデル' 情報処理学会研究報告 平成22年度6 [DVD-ROM] , 20110415, p.1-5, 一般社団法人情報処理学会 * |
JPN6015010473; 黒橋 禎夫 外1名: '文脈共起ベクトルに基づく大域的言語モデル' 情報処理学会研究報告 第2000巻第86号, 20000922, p.77-83, 社団法人情報処理学会 * |
JPN6015010474; 南條 浩輝 外1名: '講演音声認識のための教師なし言語モデル適応と発話速度に適応したデコーディング' 電子情報通信学会論文誌 第J87-D-II巻第8巻, 20040801, p.1581-1892, 社団法人電子情報通信学会 * |
JPN6015010475; 森 信介: 'クラスbigram言語モデルの補間' 情報処理学会研究報告 第97巻第29号, 19970322, p.27-32, 社団法人情報処理 * |
JPN6015010476; 宮崎 将隆 外1名: 'WWWから得られるTerm Frequency情報に基づくPLSA言語モデル' 情報処理学会研究報告 平成22年度6 [DVD-ROM] , 20110415, p.1-5, 一般社団法人情報処理学会 * |
Also Published As
Publication number | Publication date |
---|---|
US20130110501A1 (en) | 2013-05-02 |
WO2011145272A1 (ja) | 2011-11-24 |
JPWO2011145272A1 (ja) | 2013-07-22 |
US9075774B2 (en) | 2015-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5790646B2 (ja) | パープレキシティ算出装置 | |
US7680659B2 (en) | Discriminative training for language modeling | |
US9697827B1 (en) | Error reduction in speech processing | |
US9292487B1 (en) | Discriminative language model pruning | |
JP4410265B2 (ja) | 音声認識装置及び方法 | |
US11024298B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
WO2010021368A1 (ja) | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
JP4956334B2 (ja) | オートマトンの決定化方法、有限状態トランスデューサの決定化方法、オートマトン決定化装置及び決定化プログラム | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
JP6030135B2 (ja) | 音声認識システムにおいて、誤った肯定を低減すること | |
JPWO2012105231A1 (ja) | モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム | |
JP5319141B2 (ja) | 言語モデルの枝刈り方法及び装置 | |
US20080181489A1 (en) | Segment-discriminating minimum classification error pattern recognition | |
US20190287514A1 (en) | Voice recognition method, device and computer storage medium | |
KR100764247B1 (ko) | 2단계 탐색을 이용한 음성인식 장치 및 그 방법 | |
JP5961532B2 (ja) | 辞書・言語モデル圧縮方法とその装置とプログラム | |
US8438029B1 (en) | Confidence tying for unsupervised synthetic speech adaptation | |
JP6772115B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、及びプログラム | |
KR20200074624A (ko) | 도메인 기반의 음성 인식 모델의 최적화가 가능한 음성 인식 장치 및 그 동작 방법 | |
CN110110294B (zh) | 一种动态反向解码的方法、装置及可读存储介质 | |
US20110196672A1 (en) | Voice recognition device | |
JP5881157B2 (ja) | 情報処理装置、およびプログラム | |
KR101404246B1 (ko) | 발화 인식 성능 향상 시스템 및 방법 | |
JP5982265B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
JP6000153B2 (ja) | フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150514 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150720 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5790646 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |