JP5790646B2 - パープレキシティ算出装置 - Google Patents

パープレキシティ算出装置 Download PDF

Info

Publication number
JP5790646B2
JP5790646B2 JP2012515723A JP2012515723A JP5790646B2 JP 5790646 B2 JP5790646 B2 JP 5790646B2 JP 2012515723 A JP2012515723 A JP 2012515723A JP 2012515723 A JP2012515723 A JP 2012515723A JP 5790646 B2 JP5790646 B2 JP 5790646B2
Authority
JP
Japan
Prior art keywords
word
statistical language
language model
perplexity
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012515723A
Other languages
English (en)
Other versions
JPWO2011145272A1 (ja
Inventor
雅弘 西光
雅弘 西光
三木 清一
清一 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012515723A priority Critical patent/JP5790646B2/ja
Publication of JPWO2011145272A1 publication Critical patent/JPWO2011145272A1/ja
Application granted granted Critical
Publication of JP5790646B2 publication Critical patent/JP5790646B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明は、統計的言語モデルのテキストに対するパープレキシティを算出するパープレキシティ算出装置に関する。
統計的言語モデルは、テキストにおいて単語が出現する確率(テキストにおける単語の出現しやすさ)を表す。統計的言語モデルは、音声認識、及び、機械翻訳(自動翻訳)等において幅広く利用されている。この統計的言語モデルを生成する技術は、例えば、非特許文献1等に記載されている。
統計的言語モデルを生成する技術として、例えば、テキストに含まれる単語を所定の基準に従って分類し、分類された集合に基づいて、単語の出現しやすさをより高精度に推定する技術、並びに、単語が出現する確率を求める際、信頼性が高い値が求められない場合にスムージング処理を行う技術等の、多岐にわたる技術が存在する。
また、これらの技術を組み合わせることにより、複数の統計的言語モデルを生成することができる。従って、生成された複数の統計的言語モデルから、統計的言語モデルを選択又は生成する処理が必要となる。このため、パープレキシティと呼ばれる指標に基づいて、統計的言語モデルがテキストを表す程度を評価する技術が知られている(例えば、非特許文献1)。
パープレキシティは、言語を、単語を生成するための情報源として考えた場合に、求めることができる言語のエントロピーに基づく指標である。パープレキシティは、テキスト中のある位置に生成し得る単語の数の平均値に相当する。
例えば、非特許文献1に記載の技術を用いたパープレキシティ算出装置は、統計的言語モデルとしてバイグラム(非特許文献p.58)を用いる場合、数式1及び数式2に基づいて、所定のテキストに対するパープレキシティを算出する(非特許文献1のp.37等)。数式1及び数式2において、wは、テキストに含まれる単語であり、P(w|wi−1)は、単語が出現する確率(単語の出現しやすさ)であり、logP(w|wi−1)は、単語出現度であり、Nは、テキストに含まれる単語の総数であり、Hは、テキストに含まれる単語の出現しやすさから求められる言語のエントロピーである。
Figure 0005790646
Figure 0005790646
北研二著、「言語と計算−4 確率的言語モデル」、東京大学出版、1999年11月25日
しかしながら、上述したパープレキシティ算出装置は、単語が重要である程度を表す単語重要度に基づくことなく、単語が出現する確率(単語の出現しやすさ)に基づく単語出現度に基づいてパープレキシティを算出している。
従って、上述したパープレキシティ算出装置においては、単語重要度を反映したパープレキシティを算出することができない。このため、例えば、単語重要度が比較的高い単語に対して、統計的言語モデルがテキストを表す程度を適切に評価することができないという問題があった。また、例えば、算出されたパープレキシティに基づいて統計的言語モデルを選択又は生成した場合において、統計的言語モデルを用いた言語処理の処理精度が、単語重要度が比較的高い単語に対して低下してしまうという問題があった。
このため、本発明の目的は、上述した課題である「単語重要度を反映したパープレキシティを算出することができないこと」を解決することが可能なパープレキシティ算出装置を提供することにある。
かかる目的を達成するため本発明の一形態であるパープレキシティ算出装置は、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を備える。
また、本発明の他の形態であるパープレキシティ算出方法は、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出し、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記統計的言語モデルの上記テキストに対するパープレキシティを算出する方法である。
また、本発明の他の形態であるパープレキシティ算出プログラムは、
情報処理装置に、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を実現させるためのプログラムである。
また、本発明の他の形態である統計的言語モデル選択装置は、
単語が出現する確率を表す統計的言語モデルを複数記憶する統計的言語モデル記憶手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、上記統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、上記記憶されている複数の統計的言語モデルのそれぞれに対して行う重み係数算出手段と、
上記記憶されている複数の統計的言語モデルのそれぞれに対して、上記算出された重み係数と、上記単語出現度と、に基づいて、当該統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
上記算出されたパープレキシティに基づいて、上記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する統計的言語モデル選択手段と、
を備える。
また、本発明の他の形態である統計的言語モデル選択方法は、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、記憶装置に記憶されている複数の統計的言語モデルのそれぞれに対して行い、
上記記憶されている複数の統計的言語モデルのそれぞれに対して、上記算出された重み係数と、上記単語出現度と、に基づいて、当該統計的言語モデルの上記テキストに対するパープレキシティを算出し、
上記算出されたパープレキシティに基づいて、上記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する方法である。
また、本発明の他の形態である統計的言語モデル選択プログラムは、
情報処理装置に、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、記憶装置に記憶されている複数の統計的言語モデルのそれぞれに対して行う重み係数算出手段と、
上記記憶されている複数の統計的言語モデルのそれぞれに対して、上記算出された重み係数と、上記単語出現度と、に基づいて、当該統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
上記算出されたパープレキシティに基づいて、上記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する統計的言語モデル選択手段と、
を実現させるためのプログラムである。
また、本発明の他の形態である統計的言語モデル生成装置は、
単語が出現する確率を表す統計的言語モデルを複数記憶する統計的言語モデル記憶手段と、
上記記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する統計的言語モデル混合手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、上記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記生成された統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を備え、
上記統計的言語モデル混合手段は、上記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、上記統計的言語モデルを生成し直すように構成される。
また、本発明の他の形態である統計的言語モデル生成方法は、
単語が出現する確率を表す統計的言語モデルであって、記憶装置に記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成し、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、上記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出し、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記生成された統計的言語モデルの上記テキストに対するパープレキシティを算出し、
上記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、上記統計的言語モデルを生成し直す方法である。
また、本発明の他の形態である統計的言語モデル生成プログラムは、
情報処理装置に、
単語が出現する確率を表す統計的言語モデルであって、記憶装置に記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する統計的言語モデル混合手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、上記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記生成された統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を実現させるとともに、
上記統計的言語モデル混合手段は、上記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、上記統計的言語モデルを生成し直すように構成される。
また、本発明の他の形態である統計的言語モデル生成装置は、
単語が出現する確率を表す統計的言語モデルを記憶する統計的言語モデル記憶手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、上記記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記記憶されている統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
上記算出されたパープレキシティが、予め設定された閾値以下である上記テキストに基づいて上記統計的言語モデルを生成する統計的言語モデル生成手段と、
を備える。
また、本発明の他の形態である統計的言語モデル生成方法は、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表し且つ記憶装置に記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出し、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記記憶されている統計的言語モデルの上記テキストに対するパープレキシティを算出し、
上記算出されたパープレキシティが、予め設定された閾値以下である上記テキストに基づいて上記統計的言語モデルを生成する方法である。
また、本発明の他の形態である統計的言語モデル生成プログラムは、
情報処理装置に、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表し且つ記憶装置に記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記記憶されている統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
上記算出されたパープレキシティが、予め設定された閾値以下である上記テキストに基づいて上記統計的言語モデルを生成する統計的言語モデル生成手段と、
を実現させるためのプログラムである。
本発明は、以上のように構成されることにより、単語が重要である程度を反映したパープレキシティを算出することができる。
本発明の第1実施形態に係るパープレキシティ算出装置の機能の概略を表すブロック図である。 本発明の第1実施形態に係るパープレキシティ算出装置の作動の概略を示したフローチャートである。 本発明の第2実施形態に係る統計的言語モデル選択装置の機能の概略を表すブロック図である。 本発明の第2実施形態に係る統計的言語モデル選択装置の作動の概略を示したフローチャートである。 本発明の第3実施形態に係る統計的言語モデル生成装置の機能の概略を表すブロック図である。 本発明の第3実施形態に係る統計的言語モデル生成装置の作動の概略を示したフローチャートである。 本発明の第4実施形態に係る統計的言語モデル生成装置の機能の概略を表すブロック図である。 本発明の第4実施形態に係る統計的言語モデル生成装置の作動の概略を示したフローチャートである。 本発明の第5実施形態に係るパープレキシティ算出装置の機能の概略を表すブロック図である。
以下、本発明に係る、パープレキシティ算出装置、パープレキシティ算出方法、パープレキシティ算出プログラム、統計的言語モデル選択装置、統計的言語モデル選択方法、統計的言語モデル選択プログラム、統計的言語モデル生成装置、統計的言語モデル生成方法、及び、統計的言語モデル生成プログラム、の各実施形態について図1〜図9を参照しながら説明する。
<第1実施形態>
(構成)
図1に示したように、第1実施形態に係るパープレキシティ算出装置100は、情報処理装置である。例えば、パープレキシティ算出装置100は、パーソナル・コンピュータ、携帯電話端末、PHS(Personal Handyphone System)、PDA(Personal Data Assistance、Personal Digital Assistant)、カーナビゲーション端末、又は、ゲーム端末等であってもよい。
パープレキシティ算出装置100は、図示しない中央処理装置(CPU;Central Processing Unit)、及び、記憶装置(メモリ及びハードディスク駆動装置(HDD;Hard Disk Drive))を備える。パープレキシティ算出装置100は、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。
(機能)
図1は、上記のように構成されたパープレキシティ算出装置100の機能を表すブロック図である。
パープレキシティ算出装置100の機能は、単語重要度記憶部10と、統計的言語モデル記憶部(統計的言語モデル記憶手段)11と、テキスト記憶部12と、重み係数算出部(重み係数算出手段)101と、パープレキシティ算出部(パープレキシティ算出手段)102と、を含む。なお、重み係数算出部101、及び、パープレキシティ算出部102は、パープレキシティ算出装置100のCPUがプログラムを実行することにより実現される。
単語重要度記憶部10は、単語が重要である程度を表す単語重要度を予め記憶する。本例では、単語重要度は、単語が重要である程度が高くなるほど大きくなる値を有する。本例では、単語重要度は、tf−idf(Term Frequency−Inverse Document Frequency)値である。
なお、単語重要度は、tf(Term Frequency)値、又は、idf(Inverse Document Frequency)値、であってもよい。また、単語重要度は、統計的言語モデルを生成する際に用いられる、単語が重要である程度を表すスコア値(例えば、単語の重要らしさを出力する確率モデルの出力値等)に基づく値であってもよい。
統計的言語モデル記憶部11は、単語が出現する確率(単語の出現しやすさ)を表す統計的言語モデルを予め記憶する。本例では、パープレキシティ算出装置100は、統計的言語モデルとして、Nグラムモデル(N−gramモデル)を用いる。
Nグラムモデルは、単語列(複数の単語)からなるテキストにおける、N番目の単語の出現(生起)が、その単語の直前に配置されたN−1個の単語にのみ依存することを仮定することにより構築されたモデルである。Nグラムモデルは、N番目の単語が出現する確率を、その単語の直前に配置されたN−1個の単語を条件とした条件付確率により規定するモデルである。本例では、Nグラムモデルのうち、N=2であるバイグラムモデルを例に説明する。
テキスト記憶部12は、単語列(複数の単語)からなるテキストを予め記憶する。本例では、テキスト記憶部12は、複数の単語からなる文の集合を、テキストとして予め記憶している。
重み係数算出部101は、テキスト記憶部12に記憶されているテキストを構成する複数の単語(テキスト構成単語)のそれぞれに対して、重み係数を算出する。重み係数は、単語出現度を補正するための係数である。単語出現度は、統計的言語モデルに基づいた値であり、且つ、テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する。重み係数算出部101は、単語重要度記憶部10に記憶されている、テキスト構成単語に対する単語重要度に基づいて、当該テキスト構成単語に対する重み係数を算出する。
本例では、重み係数算出部101は、単語重要度が大きくなるほど小さくなる値を重み係数として算出する。また、本例では、重み係数算出部101は、単語重要度に対して単調に変化する値を有する関数を用いて重み係数を算出する。
具体的には、本例では、重み係数算出部101は、指数関数を用いた数式3に基づいて重み係数を算出する。xは、単語重要度であり、kは、i番目の単語に対する重み係数である。
Figure 0005790646
なお、重み係数算出部101は、多項式関数、べき乗関数、又は、シグモイド関数等を用いて重み係数を算出するように構成されていてもよい。また、重み係数算出部101は、上限値及び下限値を有し、且つ、単調に変化する関数を用いて重み係数を算出するように構成されていてもよい。
パープレキシティ算出部102は、重み係数算出部101により算出された重み係数と、単語出現度と、に基づいて、統計的言語モデル記憶部11に記憶されている統計的言語モデルの、テキスト記憶部12に記憶されているテキストに対するパープレキシティ(テストセット・パープレキシティ(test−set perplexity))を算出する。
本例では、パープレキシティ算出部102は、重み係数が小さくなるほど小さくなる値をパープレキシティとして算出する。また、本例では、パープレキシティ算出部102は、重み係数を単語出現度に乗じた値に基づいてパープレキシティを算出する。
具体的には、本例では、パープレキシティ算出部102は、数式4及び数式5に基づいてパープレキシティを算出する。数式4及び数式5において、wは、テキストに含まれる単語であり、P(w|wi−1)は、単語が出現する確率(単語の出現しやすさ)であり、logP(w|wi−1)は、単語出現度であり、Nは、テキストに含まれる単語の総数であり、H’は、テキストに含まれる単語の出現しやすさから求められる言語のエントロピーである。
Figure 0005790646
Figure 0005790646
(作動)
次に、図2に示したフローチャートを参照しながら、パープレキシティ算出装置100の作動について説明する。
パープレキシティ算出装置100は、記憶装置に記憶されている単語重要度、統計的言語モデル、及び、テキストを読み出すことにより入力する(ステップS11)。
次いで、パープレキシティ算出装置100は、入力されたテキストを構成する複数の単語(テキスト構成単語)のそれぞれに対して、重み係数を算出する(ステップS12)。例えば、「東京」という単語の単語重要度が3.0である場合、「東京」という単語に対する重み係数として、パープレキシティ算出装置100は、k(w)=exp(−3.0)≒0.05を算出する。
そして、パープレキシティ算出装置100は、入力された統計的言語モデルに基づいて、テキスト構成単語のそれぞれに対して、単語出現度を算出する。更に、パープレキシティ算出装置100は、算出された重み係数と、算出された単語出現度と、に基づいて、統計的言語モデルの、入力されたテキストに対するパープレキシティを算出する(ステップS13)。
以上、説明したように、本発明の第1実施形態に係るパープレキシティ算出装置100によれば、単語が重要である程度が反映されたパープレキシティを算出することができる。これにより、例えば、単語重要度が比較的高い単語に対して、統計的言語モデルがテキストを表す程度を適切に評価することができる。また、例えば、算出されたパープレキシティに基づいて統計的言語モデルを選択又は生成した場合において、統計的言語モデルを用いた言語処理の処理精度が、単語重要度が比較的高い単語に対して低下することを回避することができる。
<第2実施形態>
次に、本発明の第2実施形態に係る統計的言語モデル選択装置について説明する。第2実施形態に係る統計的言語モデル選択装置は、上記第1実施形態に係るパープレキシティ算出装置に対して、算出されたパープレキシティに基づいて統計的言語モデルを選択する点において相違している。従って、以下、かかる相違点を中心として説明する。
(構成)
統計的言語モデル選択装置は、第1実施形態に係るパープレキシティ算出装置100と同様の構成を有する情報処理装置である。
(機能)
図3は、統計的言語モデル選択装置200の機能を表すブロック図である。
統計的言語モデル選択装置200の機能は、第1実施形態に係るパープレキシティ算出装置100の機能に加えて、統計的言語モデル選択部(統計的言語モデル選択手段)201を含む。
第2実施形態に係る統計的言語モデル記憶部11は、統計的言語モデルを予め複数記憶する。
第2実施形態に係る重み係数算出部101は、複数のテキスト構成単語のそれぞれに対して、統計的言語モデルに基づく単語出現度を補正するための重み係数を、単語重要度記憶部10に記憶されている単語重要度に基づいて算出する処理を、統計的言語モデル記憶部11に記憶されている複数の統計的言語モデルのそれぞれに対して行。
第2実施形態に係るパープレキシティ算出部102は、統計的言語モデル記憶部11に記憶されている複数の統計的言語モデルのそれぞれに対して、重み係数算出部101により算出された重み係数と、単語出現度と、に基づいて、当該統計的言語モデルのテキストに対するパープレキシティを算出する。
統計的言語モデル選択部201は、パープレキシティ算出部102により算出されたパープレキシティに基づいて、統計的言語モデル記憶部11に記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する。本例では、統計的言語モデル選択部201は、算出されたパープレキシティが最小の統計的言語モデルを選択する。
(作動)
次に、図4に示したフローチャートを参照しながら、統計的言語モデル選択装置200の作動について説明する。
統計的言語モデル選択装置200は、第1実施形態に係るパープレキシティ算出装置100と同様のステップS11〜ステップS13を実行することにより、統計的言語モデル記憶部11に記憶されている複数の統計的言語モデルのそれぞれに対して、パープレキシティを算出する。
次いで、統計的言語モデル選択装置200は、算出されたパープレキシティが最小となる統計的言語モデルを選択する(ステップS21)。そして、統計的言語モデル選択装置200は、選択された統計的言語モデルを特定するための情報を出力する。
以上、説明したように、本発明の第2実施形態に係る統計的言語モデル選択装置200によれば、単語が重要である程度が反映されたパープレキシティを算出することができる。これにより、単語重要度が比較的高い単語に対して、統計的言語モデルがテキストを表す程度を適切に評価することができる。この結果、単語重要度が比較的高い単語に対して適切な統計的言語モデルを選択することができる。
<第3実施形態>
次に、本発明の第3実施形態に係る統計的言語モデル生成装置について説明する。第3実施形態に係る統計的言語モデル生成装置は、上記第2実施形態に係る統計的言語モデル選択装置に対して、統計的言語モデルを生成する点において相違している。従って、以下、かかる相違点を中心として説明する。
(構成)
統計的言語モデル生成装置は、第2実施形態に係る統計的言語モデル選択装置200と同様の構成を有する情報処理装置である。
(機能)
図5は、統計的言語モデル生成装置300の機能を表すブロック図である。
統計的言語モデル生成装置300の機能は、第2実施形態に係る統計的言語モデル選択装置200の機能に加えて、統計的言語モデル混合部(統計的言語モデル混合手段)301を含む。
第3実施形態に係る統計的言語モデル記憶部11は、統計的言語モデルを予め複数記憶する。
統計的言語モデル混合部301は、統計的言語モデル記憶部11に記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する。
本例では、統計的言語モデル混合部301は、複数の統計的言語モデルのそれぞれが表す、単語が出現する確率を線形補間することにより、1つの統計的言語モデルを生成する。確率を線形補間する技術として、例えば、非特許文献2等に記載の技術を用いることができる。
鹿野清宏、他著、「音声認識システム」、オーム社、2001年5月15日、p.59〜61
なお、統計的言語モデル混合部301は、パープレキシティ算出部102により算出されるパープレキシティに基づいて、統計的言語モデルを混合するように構成されていてもよい。この技術として、例えば、非特許文献3等に記載の技術を用いることができる。
Bo-June (Paul) Hsu、James Glass、「Iterative Language Model Estimation: Efficient Data Structure & Algorithms」、Proc. Interspeech、Brisbane、Australia、2008年9月
第3実施形態に係る重み係数算出部101は、複数のテキスト構成単語のそれぞれに対して、統計的言語モデル混合部301により生成された統計的言語モデルに基づく単語出現度を補正するための重み係数を、単語重要度記憶部10に記憶されている単語重要度に基づいて算出する。
第3実施形態に係るパープレキシティ算出部102は、重み係数算出部101により算出された重み係数と、単語出現度と、に基づいて、統計的言語モデル混合部301により生成された統計的言語モデルのテキストに対するパープレキシティを算出する。
第3実施形態に係る統計的言語モデル選択部201は、パープレキシティ算出部102により算出されたパープレキシティが、予め設定された閾値よりも大きい場合、統計的言語モデル混合部301に統計的言語モデルを生成し直させる。一方、統計的言語モデル選択部201は、パープレキシティ算出部102により算出されたパープレキシティが上記閾値以下である場合、統計的言語モデル混合部301により生成された統計的言語モデルを特定するための情報を出力する。
(作動)
次に、図6に示したフローチャートを参照しながら、統計的言語モデル生成装置300の作動について説明する。
先ず、統計的言語モデル生成装置300は、記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する(ステップS31)。
次いで、統計的言語モデル生成装置300は、第2実施形態に係る統計的言語モデル選択装置200と同様のステップS11〜ステップS13を実行することにより、生成された統計的言語モデルに対するパープレキシティを算出する。
そして、統計的言語モデル生成装置300は、算出されたパープレキシティが閾値以下であるか否かを判定する(ステップS32)。
算出されたパープレキシティが閾値以下である場合、統計的言語モデル生成装置300は、生成された統計的言語モデルを特定するための情報を出力する。
一方、算出されたパープレキシティが閾値よりも大きい場合、統計的言語モデル生成装置300は、ステップS31へ戻り、ステップS31〜ステップS32の処理を繰り返し実行することにより、統計的言語モデルを生成し直す。
以上、説明したように、本発明の第3実施形態に係る統計的言語モデル生成装置300によれば、単語が重要である程度が反映されたパープレキシティを算出することができる。これにより、単語重要度が比較的高い単語に対して、統計的言語モデルがテキストを表す程度を適切に評価することができる。この結果、単語重要度が比較的高い単語に対して適切な統計的言語モデルを生成することができる。
<第4実施形態>
次に、本発明の第4実施形態に係る統計的言語モデル生成装置について説明する。第4実施形態に係る統計的言語モデル生成装置は、上記第1実施形態に係るパープレキシティ算出装置に対して、パープレキシティに基づいて選択したテキストに基づいて統計的言語モデルを生成する点において相違している。従って、以下、かかる相違点を中心として説明する。
(構成)
統計的言語モデル生成装置は、第1実施形態に係るパープレキシティ算出装置100と同様の構成を有する情報処理装置である。
(機能)
図7は、統計的言語モデル生成装置400の機能を表すブロック図である。
統計的言語モデル生成装置400の機能は、第1実施形態に係るパープレキシティ算出装置100の機能に加えて、テキスト選択部(統計的言語モデル生成手段の一部)401と、統計的言語モデル生成部(統計的言語モデル生成手段の一部)402と、を含む。
第4実施形態に係るテキスト記憶部12は、複数のテキストを予め記憶する。
第4実施形態に係る統計的言語モデル記憶部11は、統計的言語モデルを予め記憶する。
第4実施形態に係る重み係数算出部101は、テキスト記憶部12に記憶されている複数のテキストのそれぞれに対して、下記の重み係数算出処理を行う。
重み係数算出部101は、重み係数算出処理として、処理対象となるテキストを構成する複数のテキスト構成単語のそれぞれに対して、統計的言語モデル記憶部11に記憶されている統計的言語モデルに基づく単語出現度を補正するための重み係数を、単語重要度記憶部10に記憶されている単語重要度に基づいて算出する処理を行う。
第4実施形態に係るパープレキシティ算出部102は、テキスト記憶部12に記憶されているテキストのそれぞれに対して、重み係数算出部101により算出された重み係数と、単語出現度と、に基づいて、統計的言語モデル記憶部11に記憶されている統計的言語モデルの当該テキストに対するパープレキシティを算出する。
テキスト選択部401は、パープレキシティ算出部102により算出されたパープレキシティが、予め設定された閾値以下であるテキストを選択する。
統計的言語モデル生成部402は、テキスト選択部401により選択されたテキストに基づいて統計的言語モデルを生成する。例えば、統計的言語モデル生成部402は、非特許文献1等に記載の技術を用いて統計的言語モデルを生成する。
(作動)
次に、図8に示したフローチャートを参照しながら、統計的言語モデル生成装置400の作動について説明する。
統計的言語モデル生成装置400は、第1実施形態に係るパープレキシティ算出装置100と同様のステップS11〜ステップS13を実行することにより、テキスト記憶部12に記憶されている複数のテキストのそれぞれに対して、パープレキシティを算出する。
次いで、統計的言語モデル生成装置400は、算出されたパープレキシティが上記閾値以下であるテキストを選択する(ステップS41)。そして、統計的言語モデル生成装置400は、選択されたテキストに基づいて統計的言語モデルを生成する(ステップS42)。
以上、説明したように、本発明の第4実施形態に係る統計的言語モデル生成装置400によれば、単語が重要である程度が反映されたパープレキシティを算出することができる。これにより、単語重要度が比較的高い単語に対して、統計的言語モデルがテキストを表す程度を適切に評価することができる。従って、適切に選択されたテキストに基づいて統計的言語モデルを生成することができる。この結果、単語重要度が比較的高い単語に対して適切な統計的言語モデルを生成することができる。
<第5実施形態>
次に、本発明の第5実施形態に係るパープレキシティ算出装置500について図9を参照しながら説明する。
第5実施形態に係るパープレキシティ算出装置500は、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出部(重み係数算出手段)501と、
上記算出された重み係数と、上記単語出現度と、に基づいて、上記統計的言語モデルの上記テキストに対するパープレキシティを算出するパープレキシティ算出部(パープレキシティ算出手段)502と、
を備える。
これによれば、単語が重要である程度が反映されたパープレキシティを算出することができる。これにより、例えば、単語重要度が比較的高い単語に対して、統計的言語モデルがテキストを表す程度を適切に評価することができる。また、例えば、算出されたパープレキシティに基づいて統計的言語モデルを選択又は生成した場合において、統計的言語モデルを用いた言語処理の処理精度が、単語重要度が比較的高い単語に対して低下することを回避することができる。
以上、上記実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。
なお、上記各実施形態において、パープレキシティ算出装置、統計的言語モデル選択装置、及び、統計的言語モデル生成装置の各機能は、CPUがプログラム(ソフトウェア)を実行することにより実現されていたが、回路等のハードウェアにより実現されていてもよい。
また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。
<付記>
上記実施形態の一部又は全部は、以下の付記のように記載され得るが、以下には限られない。
(付記1)
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を備えるパープレキシティ算出装置。
これによれば、単語が重要である程度が反映されたパープレキシティを算出することができる。これにより、例えば、単語重要度が比較的高い単語に対して、統計的言語モデルがテキストを表す程度を適切に評価することができる。また、例えば、算出されたパープレキシティに基づいて統計的言語モデルを選択又は生成した場合において、統計的言語モデルを用いた言語処理の処理精度が、単語重要度が比較的高い単語に対して低下することを回避することができる。
(付記2)
付記1に記載のパープレキシティ算出装置であって、
前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出するように構成され、
前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出するように構成されたパープレキシティ算出装置。
(付記3)
付記2に記載のパープレキシティ算出装置であって、
前記パープレキシティ算出手段は、前記重み係数を前記単語出現度に乗じた値に基づいて前記パープレキシティを算出するように構成されたパープレキシティ算出装置。
(付記4)
付記1乃至付記3のいずれか一項に記載のパープレキシティ算出装置であって、
前記重み係数算出手段は、前記単語重要度に対して単調に変化する値を有する関数を用いて前記重み係数を算出するように構成されたパープレキシティ算出装置。
例えば、単語重要度に対して単調に変化する値を有する関数として、指数関数、多項式関数、べき乗関数、又は、シグモイド関数等を用いることができる。
(付記5)
付記1乃至付記4のいずれか一項に記載のパープレキシティ算出装置であって、
前記重み係数算出手段は、tf(Term Frequency)値、idf(Inverse Document Frequency)値、tf−idf(Term Frequency−Inverse Document Frequency)値、及び、前記統計的言語モデルを生成する際に用いられる、単語が重要である程度を表すスコア値、のうちの少なくとも1つに基づく値を、前記単語重要度として用いるように構成されたパープレキシティ算出装置。
(付記6)
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出し、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記統計的言語モデルの前記テキストに対するパープレキシティを算出する、パープレキシティ算出方法。
(付記7)
付記6に記載のパープレキシティ算出方法であって、
前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出し、
前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出する、パープレキシティ算出方法。
(付記8)
情報処理装置に、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を実現させるためのパープレキシティ算出プログラム。
(付記9)
付記8に記載のパープレキシティ算出プログラムであって、
前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出するように構成され、
前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出するように構成されたパープレキシティ算出プログラム。
(付記10)
単語が出現する確率を表す統計的言語モデルを複数記憶する統計的言語モデル記憶手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、前記記憶されている複数の統計的言語モデルのそれぞれに対して行う重み係数算出手段と、
前記記憶されている複数の統計的言語モデルのそれぞれに対して、前記算出された重み係数と、前記単語出現度と、に基づいて、当該統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
前記算出されたパープレキシティに基づいて、前記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する統計的言語モデル選択手段と、
を備える統計的言語モデル選択装置。
これによれば、単語が重要である程度が反映されたパープレキシティを算出することができる。これにより、単語重要度が比較的高い単語に対して、統計的言語モデルがテキストを表す程度を適切に評価することができる。この結果、単語重要度が比較的高い単語に対して適切な統計的言語モデルを選択することができる。
(付記11)
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、記憶装置に記憶されている複数の統計的言語モデルのそれぞれに対して行い、
前記記憶されている複数の統計的言語モデルのそれぞれに対して、前記算出された重み係数と、前記単語出現度と、に基づいて、当該統計的言語モデルの前記テキストに対するパープレキシティを算出し、
前記算出されたパープレキシティに基づいて、前記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する、統計的言語モデル選択方法。
(付記12)
情報処理装置に、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、記憶装置に記憶されている複数の統計的言語モデルのそれぞれに対して行う重み係数算出手段と、
前記記憶されている複数の統計的言語モデルのそれぞれに対して、前記算出された重み係数と、前記単語出現度と、に基づいて、当該統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
前記算出されたパープレキシティに基づいて、前記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する統計的言語モデル選択手段と、
を実現させるための統計的言語モデル選択プログラム。
(付記13)
単語が出現する確率を表す統計的言語モデルを複数記憶する統計的言語モデル記憶手段と、
前記記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する統計的言語モデル混合手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記生成された統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を備え、
前記統計的言語モデル混合手段は、前記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、前記統計的言語モデルを生成し直すように構成された統計的言語モデル生成装置。
これによれば、単語が重要である程度が反映されたパープレキシティを算出することができる。これにより、単語重要度が比較的高い単語に対して、統計的言語モデルがテキストを表す程度を適切に評価することができる。この結果、単語重要度が比較的高い単語に対して適切な統計的言語モデルを生成することができる。
(付記14)
単語が出現する確率を表す統計的言語モデルであって、記憶装置に記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成し、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出し、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記生成された統計的言語モデルの前記テキストに対するパープレキシティを算出し、
前記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、前記統計的言語モデルを生成し直す、統計的言語モデル生成方法。
(付記15)
情報処理装置に、
単語が出現する確率を表す統計的言語モデルであって、記憶装置に記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する統計的言語モデル混合手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記生成された統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
を実現させるとともに、
前記統計的言語モデル混合手段は、前記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、前記統計的言語モデルを生成し直すように構成された統計的言語モデル生成プログラム。
(付記16)
単語が出現する確率を表す統計的言語モデルを記憶する統計的言語モデル記憶手段と、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記記憶されている統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
前記算出されたパープレキシティが、予め設定された閾値以下である前記テキストに基づいて前記統計的言語モデルを生成する統計的言語モデル生成手段と、
を備える統計的言語モデル生成装置。
これによれば、単語が重要である程度が反映されたパープレキシティを算出することができる。これにより、単語重要度が比較的高い単語に対して、統計的言語モデルがテキストを表す程度を適切に評価することができる。従って、適切に選択されたテキストに基づいて統計的言語モデルを生成することができる。この結果、単語重要度が比較的高い単語に対して適切な統計的言語モデルを生成することができる。
(付記17)
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表し且つ記憶装置に記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出し、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記記憶されている統計的言語モデルの前記テキストに対するパープレキシティを算出し、
前記算出されたパープレキシティが、予め設定された閾値以下である前記テキストに基づいて前記統計的言語モデルを生成する、統計的言語モデル生成方法。
(付記18)
情報処理装置に、
テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表し且つ記憶装置に記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
前記算出された重み係数と、前記単語出現度と、に基づいて、前記記憶されている統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
前記算出されたパープレキシティが、予め設定された閾値以下である前記テキストに基づいて前記統計的言語モデルを生成する統計的言語モデル生成手段と、
を実現させるための統計的言語モデル生成プログラム。
なお、本発明は、日本国にて2010年5月20日に出願された特願2010−116171の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。
本発明は、音声認識、及び、機械翻訳(自動翻訳)等の統計的言語モデルを用いた情報処理装置等に適用可能である。
10 単語重要度記憶部
11 統計的言語モデル記憶部
12 テキスト記憶部
100 パープレキシティ算出装置
101 重み係数算出部
102 パープレキシティ算出部
200 統計的言語モデル選択装置
201 統計的言語モデル選択部
300 統計的言語モデル生成装置
301 統計的言語モデル混合部
400 統計的言語モデル生成装置
401 テキスト選択部
402 統計的言語モデル生成部
500 パープレキシティ算出装置
501 重み係数算出部
502 パープレキシティ算出部

Claims (9)

  1. テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
    前記算出された重み係数と、前記単語出現度と、に基づいて、前記統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
    を備え、
    前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出するように構成され、
    前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出するように構成されたパープレキシティ算出装置。
  2. 請求項1に記載のパープレキシティ算出装置であって、
    前記パープレキシティ算出手段は、前記重み係数を前記単語出現度に乗じた値に基づいて前記パープレキシティを算出するように構成されたパープレキシティ算出装置。
  3. 請求項1又は請求項2に記載のパープレキシティ算出装置であって、
    前記重み係数算出手段は、前記単語重要度に対して単調に変化する値を有する関数を用いて前記重み係数を算出するように構成されたパープレキシティ算出装置。
  4. 請求項1乃至請求項3のいずれか一項に記載のパープレキシティ算出装置であって、
    前記重み係数算出手段は、tf(Term Frequency)値、idf(Inverse Document Frequency)値、tf−idf(Term Frequency−Inverse Document Frequency)値、及び、前記統計的言語モデルを生成する際に用いられる、単語が重要である程度を表すスコア値、のうちの少なくとも1つに基づく値を、前記単語重要度として用いるように構成されたパープレキシティ算出装置。
  5. 情報処理装置が、テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する際に、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出し、
    情報処理装置が、前記算出された重み係数と、前記単語出現度と、に基づいて、前記統計的言語モデルの前記テキストに対するパープレキシティを算出する際に、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出する、パープレキシティ算出方法。
  6. 情報処理装置に、
    テキストを構成する複数のテキスト構成単語のそれぞれに対して、単語が出現する確率を表す統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
    前記算出された重み係数と、前記単語出現度と、に基づいて、前記統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
    を実現させるためのパープレキシティ算出プログラムであり、
    前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出し、
    前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出する、
    パープレキシティ算出プログラム。
  7. 単語が出現する確率を表す統計的言語モデルを複数記憶する統計的言語モデル記憶手段と、
    テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する処理を、前記記憶されている複数の統計的言語モデルのそれぞれに対して行う重み係数算出手段と、
    前記記憶されている複数の統計的言語モデルのそれぞれに対して、前記算出された重み係数と、前記単語出現度と、に基づいて、当該統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
    前記算出されたパープレキシティに基づいて、前記記憶されている複数の統計的言語モデルの中から1つの統計的言語モデルを選択する統計的言語モデル選択手段と、
    を備え、
    前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出するように構成され、
    前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出するように構成された統計的言語モデル選択装置。
  8. 単語が出現する確率を表す統計的言語モデルを複数記憶する統計的言語モデル記憶手段と、
    前記記憶されている複数の統計的言語モデルのうちの少なくとも2つを混合した統計的言語モデルを生成する統計的言語モデル混合手段と、
    テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記生成された統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
    前記算出された重み係数と、前記単語出現度と、に基づいて、前記生成された統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
    を備え、
    前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出するように構成され、
    前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出するように構成され、
    前記統計的言語モデル混合手段は、前記算出されたパープレキシティが、予め設定された閾値よりも大きい場合、前記統計的言語モデルを生成し直すように構成された統計的言語モデル生成装置。
  9. 単語が出現する確率を表す統計的言語モデルを記憶する統計的言語モデル記憶手段と、
    テキストを構成する複数のテキスト構成単語のそれぞれに対して、前記記憶されている統計的言語モデルに基づいた、当該テキスト構成単語が出現する確率が高くなるほど大きくなる値を有する単語出現度を補正するための重み係数を、当該テキスト構成単語が重要である程度を表す単語重要度に基づいて算出する重み係数算出手段と、
    前記算出された重み係数と、前記単語出現度と、に基づいて、前記記憶されている統計的言語モデルの前記テキストに対するパープレキシティを算出するパープレキシティ算出手段と、
    前記算出されたパープレキシティが、予め設定された閾値以下である前記テキストに基づいて前記統計的言語モデルを生成する統計的言語モデル生成手段と、
    を備え、
    前記重み係数算出手段は、前記単語重要度が大きくなるほど小さくなる値を前記重み係数として算出するように構成され、
    前記パープレキシティ算出手段は、前記重み係数が小さくなるほど小さくなる値を前記パープレキシティとして算出するように構成された統計的言語モデル生成装置。
JP2012515723A 2010-05-20 2011-04-20 パープレキシティ算出装置 Active JP5790646B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012515723A JP5790646B2 (ja) 2010-05-20 2011-04-20 パープレキシティ算出装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010116171 2010-05-20
JP2010116171 2010-05-20
JP2012515723A JP5790646B2 (ja) 2010-05-20 2011-04-20 パープレキシティ算出装置
PCT/JP2011/002301 WO2011145272A1 (ja) 2010-05-20 2011-04-20 パープレキシティ算出装置

Publications (2)

Publication Number Publication Date
JPWO2011145272A1 JPWO2011145272A1 (ja) 2013-07-22
JP5790646B2 true JP5790646B2 (ja) 2015-10-07

Family

ID=44991395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012515723A Active JP5790646B2 (ja) 2010-05-20 2011-04-20 パープレキシティ算出装置

Country Status (3)

Country Link
US (1) US9075774B2 (ja)
JP (1) JP5790646B2 (ja)
WO (1) WO2011145272A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984337B2 (en) 2012-02-29 2021-04-20 Microsoft Technology Licensing, Llc Context-based search query formation
JP6082657B2 (ja) * 2013-05-28 2017-02-15 日本電信電話株式会社 ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
JP6211995B2 (ja) * 2014-06-06 2017-10-11 日本電信電話株式会社 言語モデル作成装置、言語モデル作成方法及びプログラム
US9864956B1 (en) 2017-05-01 2018-01-09 SparkCognition, Inc. Generation and use of trained file classifiers for malware detection
US10616252B2 (en) 2017-06-30 2020-04-07 SparkCognition, Inc. Automated detection of malware using trained neural network-based file classifiers and machine learning
US10305923B2 (en) 2017-06-30 2019-05-28 SparkCognition, Inc. Server-supported malware detection and protection
CN113449511B (zh) * 2020-03-24 2023-06-09 百度在线网络技术(北京)有限公司 文本处理的方法、装置、设备和存储介质
US20230367968A1 (en) * 2022-05-11 2023-11-16 Microsoft Technology Licensing, Llc Text coherence classifier

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104786A (ja) * 1993-10-04 1995-04-21 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声対話システム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US7275029B1 (en) * 1999-11-05 2007-09-25 Microsoft Corporation System and method for joint optimization of language model performance and size
US7043422B2 (en) * 2000-10-13 2006-05-09 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
US7243071B1 (en) * 2003-01-16 2007-07-10 Comverse, Inc. Speech-recognition grammar analysis
WO2006099621A2 (en) * 2005-03-17 2006-09-21 University Of Southern California Topic specific language models built from large numbers of documents
US7565372B2 (en) * 2005-09-13 2009-07-21 Microsoft Corporation Evaluating and generating summaries using normalized probabilities
US7627548B2 (en) * 2005-11-22 2009-12-01 Google Inc. Inferring search category synonyms from user logs
US8229921B2 (en) * 2008-02-25 2012-07-24 Mitsubishi Electric Research Laboratories, Inc. Method for indexing for retrieving documents using particles

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104786A (ja) * 1993-10-04 1995-04-21 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声対話システム

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
CSNG200000473005; 森 信介: 'クラスbigram言語モデルの補間' 情報処理学会研究報告 第97巻第29号, 19970322, p.27-32, 社団法人情報処理 *
CSNG200200016011; 黒橋 禎夫 外1名: '文脈共起ベクトルに基づく大域的言語モデル' 情報処理学会研究報告 第2000巻第86号, 20000922, p.77-83, 社団法人情報処理学会 *
CSNG200500672004; 南條 浩輝 外1名: '講演音声認識のための教師なし言語モデル適応と発話速度に適応したデコーディング' 電子情報通信学会論文誌 第J87-D-II巻第8巻, 20040801, p.1581-1892, 社団法人電子情報通信学会 *
CSNG201100288010; 宮崎 将隆 外1名: 'WWWから得られるTerm Frequency情報に基づくPLSA言語モデル' 情報処理学会研究報告 平成22年度6 [DVD-ROM] , 20110415, p.1-5, 一般社団法人情報処理学会 *
JPN6015010473; 黒橋 禎夫 外1名: '文脈共起ベクトルに基づく大域的言語モデル' 情報処理学会研究報告 第2000巻第86号, 20000922, p.77-83, 社団法人情報処理学会 *
JPN6015010474; 南條 浩輝 外1名: '講演音声認識のための教師なし言語モデル適応と発話速度に適応したデコーディング' 電子情報通信学会論文誌 第J87-D-II巻第8巻, 20040801, p.1581-1892, 社団法人電子情報通信学会 *
JPN6015010475; 森 信介: 'クラスbigram言語モデルの補間' 情報処理学会研究報告 第97巻第29号, 19970322, p.27-32, 社団法人情報処理 *
JPN6015010476; 宮崎 将隆 外1名: 'WWWから得られるTerm Frequency情報に基づくPLSA言語モデル' 情報処理学会研究報告 平成22年度6 [DVD-ROM] , 20110415, p.1-5, 一般社団法人情報処理学会 *

Also Published As

Publication number Publication date
US20130110501A1 (en) 2013-05-02
WO2011145272A1 (ja) 2011-11-24
JPWO2011145272A1 (ja) 2013-07-22
US9075774B2 (en) 2015-07-07

Similar Documents

Publication Publication Date Title
JP5790646B2 (ja) パープレキシティ算出装置
US7680659B2 (en) Discriminative training for language modeling
US9697827B1 (en) Error reduction in speech processing
US9292487B1 (en) Discriminative language model pruning
JP4410265B2 (ja) 音声認識装置及び方法
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
WO2010021368A1 (ja) 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP4956334B2 (ja) オートマトンの決定化方法、有限状態トランスデューサの決定化方法、オートマトン決定化装置及び決定化プログラム
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
JP6030135B2 (ja) 音声認識システムにおいて、誤った肯定を低減すること
JPWO2012105231A1 (ja) モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
JP5319141B2 (ja) 言語モデルの枝刈り方法及び装置
US20080181489A1 (en) Segment-discriminating minimum classification error pattern recognition
US20190287514A1 (en) Voice recognition method, device and computer storage medium
KR100764247B1 (ko) 2단계 탐색을 이용한 음성인식 장치 및 그 방법
JP5961532B2 (ja) 辞書・言語モデル圧縮方法とその装置とプログラム
US8438029B1 (en) Confidence tying for unsupervised synthetic speech adaptation
JP6772115B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、及びプログラム
KR20200074624A (ko) 도메인 기반의 음성 인식 모델의 최적화가 가능한 음성 인식 장치 및 그 동작 방법
CN110110294B (zh) 一种动态反向解码的方法、装置及可读存储介质
US20110196672A1 (en) Voice recognition device
JP5881157B2 (ja) 情報処理装置、およびプログラム
KR101404246B1 (ko) 발화 인식 성능 향상 시스템 및 방법
JP5982265B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP6000153B2 (ja) フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150720

R150 Certificate of patent or registration of utility model

Ref document number: 5790646

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150