JP2017521763A - インスタンス分類方法 - Google Patents

インスタンス分類方法 Download PDF

Info

Publication number
JP2017521763A
JP2017521763A JP2016571775A JP2016571775A JP2017521763A JP 2017521763 A JP2017521763 A JP 2017521763A JP 2016571775 A JP2016571775 A JP 2016571775A JP 2016571775 A JP2016571775 A JP 2016571775A JP 2017521763 A JP2017521763 A JP 2017521763A
Authority
JP
Japan
Prior art keywords
class
word
distribution
document
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016571775A
Other languages
English (en)
Other versions
JP6292322B2 (ja
Inventor
シルバ ダニエル ゲオルグ アンドラーデ
シルバ ダニエル ゲオルグ アンドラーデ
弘紀 水口
弘紀 水口
石川 開
開 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2017521763A publication Critical patent/JP2017521763A/ja
Application granted granted Critical
Publication of JP6292322B2 publication Critical patent/JP6292322B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 テキスト文書の分類において高頻度語の影響を低減する。【解決手段】 クラスに関する単語分布を推定し、既知及び未知のクラスを有する全てのインスタンスの集合の観測確率を最大化するように背景分布と補間度とを推定し、新規インスタンスの各単語に関して単語分布から生成される確率及び背景分布から生成される確率を計算し、補間度を用いて確率を組み合わせ、全単語の確率を組み合わせて文書であることを示唆するクラスに関する文書確率を推定し、新規インスタンスを文書確率が最も高いクラスに分類する。【選択図】 図3

Description

本発明は、単純ベイズ分類器を用いて新規データインスタンス(例えば、テキスト文書)のクラスを決定する分類方法に関する。
単純ベイズ分類器は、分類に関し、特にテキスト分類において依然として普及している方法であり、サポートベクターマシン(SVM)分類器と同様に動作する場合が多い(非特許文献1を参照のこと)。単純ベイズ分類器のひとつの利点は、それが、より複雑な関係であるモデルに容易に拡張可能である生成モデルの解釈を有することである(例えば、非特許文献3を参照)。
単純ベイズ分類器を学習するためには、各クラスzについて、クラスzに属する文書で発生する単語の分布を決定する。クラスzに関する単語分布をθと示し、クラスzにおけるある特定の単語wの確率(probability)をθw|zと示す。この分布は、多項分布(Multinomial distribution)を用いてモデル化されることが多い。新規テキストを分類するために、新規テキストに与えられるクラスzの確率は、新規文書の各単語wに関する確率θw|zを乗算することによって算出される。
単純ベイズ分類器では、訓練データインスタンス(既知のクラスを有するインスタンス)のみを用いて確率θw|zを推定することに留意されたい。しかしながら、多くの文書においてよく発生する“I”又は“the”のような単語は、クラスとは関係なく、ノイズを誘引する場合が多い。そのため、推定値θw|zが信頼性できなくなる。ひとつのアプローチは、ストップワードのリストを用いて、そのような単語を除外することである。しかしながら、そうしたストップワードのリストは、静的であり、文書の分野(domain)に依存する。別のアプローチは、例えば、非特許文献1における単語の逆文献頻度によって単語を重み付けすることである。しかしながら、これらの重みを割り当てる際に、生成モデルとしての単純ベイズ分類器の解釈が失われる。その結果として、単純ベイズ分類器のパラメータとの交互作用と重みとを、連携して学習できない。従って、重みを、固定とするか、又は、訓練データの一部を用いて(例えば、クロスバリデーションを用いて)調整しなければならない。
別の研究ラインは、未知のクラスのインスタンス(例えば、テキスト文書)を付加的に用いることによって、分類精度の向上を試みるものである。訓練データインスタンス(既知のクラスを有するインスタンス)と比べて、そうした付加的なインスタンスは、大量に利用可能な場合が多い。例えば、人手でクラスを付した少数の新聞記事(例えば、“Animals”についての記事か“Computer”についての記事か)と比べて、そのようなクラス情報が利用可能でない(ラベルなしインスタンス)新聞記事は膨大にある。分類器を学習するためのそうしたアプローチは、多くの場合「半教師あり(semi-supervised)」と呼ばれる。非特許文献2の方法には、ラベルなしインスタンスを用いることによって確率θw|zの推定を改善することが可能である、そのような半教師ありアプローチが記載される。EMアルゴリズム(Expectation Maximization algorithm)を用いてラベルなしインスタンスにクラス確率を割り当てることによって、ラベルなしコーパスで発生するが訓練データでは発生しないような単語wのθw|zを推定することができる。しかしながら、そのようなアプローチは、高頻度語についての課題の解決法を提供しない。
Tackling the poor assumptions of naive Bayes text classifiers, ICML, 2003. Text classification from labeled and unlabeled documents using EM, Machine learning, 2000. Comparing Bayesian network classifiers, UAI, 1999
単純ベイズモデルは、文書のクラスの決定において、多くの場合に無関連である“I”又は“the”のような高頻度語の重みを下げることができない。しかしながら、訓練データインスタンスが小標本のため、これらの無関連単語が、あるクラスにおいて、偶然に、その他よりも頻発するおそれがある。その結果として、高頻度語に関して、確率θw|zが全てのクラスz全体に均一に広がらず、そのため、いくつかの文書が、高頻度語の存在が原因で不正確に分類される。
上記課題を解決するために、単純ベイズ分類器の拡張生成モデルを提案する。拡張モデルは、コーパス全体における単語の頻度分布に設定される背景分布γを導入する。コーパス全体は、訓練データを含み、付加的にクラス情報を利用可能でない他のインスタンスの全てを含むことが可能である。提案するモデルは、文書内の任意の単語を、そのクラスzによって規定される分布θから、又は、背景分布γからサンプリングすることを許可する。その結果、提案するモデルは、特に高頻度語が、任意の分布θではなく、背景分布γによって説明されることを許可する。単語が分布θ又は分布γのどちらからサンプリングされるかを判断するため、文書内の各単語に、二値指標変数(binary indicator variable)dを導入する。パラメータdに関する事前確率は、単語がγからサンプリングされる確からしさの程度を制御し、このようにして分類結果における高頻度語の影響を制御する。生成モデルとしての定式化により、全インスタンス(ラベルあり、及び、ラベルなし)を有効に用いた事前確率を学習することが可能となるため、この事前確率を人手で調整する必要がなくなる。
本発明は、単純ベイズ分類器の分類結果における高頻度語の影響を低減する効果を有する。高頻度語は、多くの場合、中度又は低頻度語よりも有益でない傾向がある。提案する方法では、任意の個別のクラスの単語分布ではなく、背景分布(コーパス全体の単語頻度分布)により高頻度語を説明することにより、このことを考慮に入れる。提案する方法では、単純ベイズ分類器の生成モデルを拡張して、ラベルなしデータから付加的なパラメータを学習することが可能である(すなわち、クロスバリデーション又は付加的な訓練データを必要としない)。
図1は、単純ベイズモデルのブロック図である。 図2は、プレートノーテーションにおける単純ベイズモデルを示す。 図3は、本発明の実施形態を示すブロック図である。 図4は、プレートノーテーションにおける実施形態(単純ベイズモデルの拡張)を示す。
テキスト分類に関する単純ベイズ分類器の拡張を用いて提案するアイデアを説明する。文書のクラスzが与えられると、文書内の各単語は、分布θから、独立的に、生成されるものとする。この分布としては、カテゴリ分布(categorical distribution)(=1単語の発生に対する多項分布)が選択されることが多い。プレートノーテーションを用いて、図2にモデルを表している。図1にブロック図を示している。文書を(w,...,w)として示すものとし、wは文書においてj番目の位置にある単語である。このモデルにおいて、クラスzを有する文書の同時確率は、以下である。
Figure 2017521763
ここで、θは、カテゴリ分布のパラメータベクトルで、Σθw|z=1であり、p(z)はクラスzの事前確率である。従って、以下を得る。
Figure 2017521763
全クラスzに関して、θでパラメータベクトルθを示す。図1に示すハードディスクドライブ及び半導体メモリ1などである不揮発性コンピュータ記憶媒体に記憶される既知のクラスを有するテキストの集合D={(t,z),...,(t,z)}が与えられると、パラメータθを以下を用いて推定することが可能である。
Figure 2017521763
上記は通常のiid仮定を用いており、zはθから独立している。さらに、等式(1)を用いると、図1のブロック10において、以下を得る。
Figure 2017521763
簡略化のため、p(θ)が一定であると仮定すると、上記数式は以下によって最大化され、
Figure 2017521763
ここで、freq(w)は、クラスzを有する文書の集合において単語wが発生する回数である。事前確率p(z)は、同様の方法で推定することが可能であり、クラスごとの訓練文書量が全クラスで同じであれば一定である。
図1のブロック20’における新規文書の分類に関して、単純ベイズ分類器は、以下を用いる。
Figure 2017521763
具体的な例を検討する。それぞれ5つのインスタンスを伴う2つのクラスを有すると仮定する。例えば、動物について(要するに、z=A)の5文書及びコンピュータについて(要するに、z=C)についての5文書である。簡略化のため、各文書は2つの単語を有すると仮定する。クラス“Animal”及びクラス“Computer”に属する文書において、それぞれ、単語“I”が3回及び2回発生すると仮定する。従って、クラス“Animal”に属する文書において単語”I”が発生する確率は3/10であり、クラス“Computer”に属する文書の確率は2/10である。類似して、単語“mouse”が、クラス“Animal”及びクラス“Computer”に属する文書の文書において、それぞれ、2回及び3回発生すると仮定する。要約すると、次の最大尤度(ML)を推定する:
Figure 2017521763
ここで、2つの単語“I”及び“mouse”を含有する新規文書を検討する。新規文書に関するクラスは、以下の比を検討することによって判断される。
Figure 2017521763
この比が1より大きければ、その文書は“Animal”として分類され、1より小さければ“Computer”として分類される。単純ベイズ分類器を用いて、これを以下のとおり記載することができる。
Figure 2017521763
従って、単純ベイズ分類器は2クラス間を区別することができないことがわかる。しかしながら、概して、膨大な文書の集合を調査することで、単語”I”があまり有益でない高頻度語であり、そうした単語が文書の分類にほぼ役立たないということが分かる。対照的に、単語“mouse”はより限定的な単語であり、概して2クラス間を区別することに役立つことが可能である。その結果、単語“mouse”は、クラスの判断に関して(わずかに)より多くの重みを有するべきであるため、単語“I”及び“mouse”を伴う文書は、“Animal”ではなく“Computer”として分類されるべきである。
ここで、図3及び図4に表される単純ベイズモデルの拡張について説明する。
図3は、テキスト文書のような新規データインスタンスを分類するために、通常、コンピュータシステムによって実行されるシステムを示す。図3において、単語分布学習ブロック10は、従来のシステムと同様にハードディスクドライブ及び半導体メモリのような不揮発性コンピュータ記憶媒体1に記憶されている訓練データ(割り当てられたクラスを有する文書の集合)を用いて各クラスに関する単語分布を学習する。さらに、本実施形態においては、背景分布及び補間パラメータ学習ブロック15は、ハードディスクドライブ及び半導体メモリのようなコンピュータ記憶媒体2に記憶されるコーパス(文書の集合)を用いて背景分布及び補間パラメータを学習する。分類ブロック20は、新規インスタンスとして新規文書が提供され、ブロック10及び15それぞれから提供される背景分布で補間されている、各クラスに関する単語分布を用いて、文書を分類する。そして、分類ブロック20は、分類結果として、入力文書の最も確からしいクラスを出力する。
より詳細には、提案するモデルにおいて、単語w,...,w、隠れ変数d,...,d及びびクラスzを有するテキスト文書の同時確率は、
Figure 2017521763
であり、単語確率p(w|z,d)は、以下のとおりに規定される。
Figure 2017521763
変数dは、単語wがクラスの単語分布θ、又は背景分布γのどちらから得られるかを示す二値確率変数(binary random variable)である。変数dは、訓練文書から観測することができない隠れ変数である。訓練文書(w,...,w,z)の確率を取得するために、全てのd,...,dを統合して、以下を導く。
Figure 2017521763
事前確率p(d)が、文書のクラスから独立し、かつ、単語位置jから独立していると仮定する。従って、全単語に関して、一定であるδ:=p(d=1)と規定する。このようにして、クラスzを有する文書の同時確率を以下のとおり表現することが可能となる。
Figure 2017521763
クラスzに関して、単語分布θw|zは、等式(1)を用いて既に述べたように推定可能である。図3のブロック15での背景分布γ及び事前確率δの推定のために、追加的に、図3の不揮発性なコンピュータ記憶媒体2に記憶されているクラスが未知のテキスト文書の集合を用いる。そのようなテキスト文書は、多くの場合、大量に利用可能である。例えば、スパム(spam)検出に関して、ラベル“spam”又は“ham”を人手で付した文書なら数百の文書を有しているが、ラベルなしのメールなら数千のメールを有している。ここで、D={t,...,tn*}を全文書の集合とする。(それはまた、クラスのラベルが利用可能である文書も含む。あるいは、Dは、クラス情報が利用可能でない文書のみの集合である。)Dにおける単語分布を用いて、γを推定する。すなわち、以下である。
Figure 2017521763
ここで、freqD*(w)は、Dにおける単語wの頻度である。(例えば、Dが2つ文書を含み、第1の文書において単語wが3回発生し、第2の文書においては2回発生するなら、freqD*(w)は5に等しい。)
後で示すように、パラメータdeltaもまた、Dを用いて学習されることが可能である、又は、人手を介して]0,1]間の値に設定されることが可能である。なお、deltaが1であれば、モデルは、元の単純ベイズ分類器に縮小する。
最後に、図3のブロック20において新規文書w,...,wを分類するために、以下を用いる。
Figure 2017521763
提案する方法が高頻度語の影響を低減することが可能であることを確認するために、上記と同様の例を検討する。図3の不揮発性コンピュータ記憶媒体2内に、クラス情報のない90の文書(ラベルなしコーパス)を付加的に有すると仮定する。ラベルなしコーパスにおいて、単語“I”が20回発生し、単語“mouse”が10回発生すると仮定する。これら90文書(ラベルなしコーパス)は、クラスが既知である10文書(ラベルありコーパス)とともに、完全コーパス(complete corpus)を形成する。単語wに関して、確率gammaは以下のとおり推定される。
Figure 2017521763
ゆえに、以下を取得する。
Figure 2017521763
及び
Figure 2017521763
単語“I”及び“mouse”に関するクラス確率θw|zは、元の単純ベイズモデルの確率p(w|z)に設定される。すなわち、
Figure 2017521763
さらに、簡略化のために、全てのjに関してδを0.5に設定すること、これはp(d=1)=p(d=0)=0.5を意味する、を仮定する。ここで、2つの単語“I”及び“mouse”を含む文書を検討するものとすると、クラスは次の比に基づいて決定される。
Figure 2017521763
従って、文書は、(元となる)単純ベイズ分類器の利用した前のときとは対照的に、“Computer”記事として分類される。ここで、単語“mouse”の重みが、高頻度語である単語“I”の重みを抑制することを可能としている。一般的に、高頻度語は、クラスの決定に関連する重みをより下げられ、それらの(ネガティブな)影響が、減らされる。
上記の例が、より一般性を有することを説明する。2つの単語a及びbを有し、かつ、θa|z1=θb|z2、かつ、θa|z2=θb|z1である文書を考える。一般化を損なうことなく、θa|z1>θa|z2と仮定する。すなわち、このことは、単語aがクラスzを示唆することは、単語bがクラスzを示唆するのと正に同様の強さであることを意味する。さらに、δは]0,1[にあるとする。クラスz及びzの双方の事前確率が同じであると仮定すると、以下の比を調査することによって、文書a、bがクラスz又はzとして分類されるかを確認できる。
Figure 2017521763
比が1より大きければ、文書はクラスzとして分類され、比が1より小さければ、文書はクラスzとして分類される。γ>γであり、かつそのときに限って、この比が1より小さいということを示すことができる。従って、単語bがaより低い頻度であれば、単語bの重みは単語aの重みよりも高くなる。
その結果として、提案する方法では、高頻度語を緩和するという意味で、idf重み付けと同様の効果を有することが可能である。なお、単純ベイズ分類器は、判別境界そのものの上にいる場合には、文書の分類ができない。
上記説明の証明:
記号を単純化するために、
Figure 2017521763
とし、θa|z1=θb|z2、及びθa|z2=θb|z1、及びθa|z1>θa|z2であるため、以下を得る。
Figure 2017521763
パラメータδが、高頻度語の影響を低減する程度を制御するということを確認することは難しくない。ここで、パラメータがコーパスDから学習可能であることを示す。いかなるθでも説明することができないDにおける高頻度語が多数あるならば、パラメータδが0に近づくようにδを設定することを提案する。固定したパラメータθ及びγにおいて提案しているモデルの下で、p(D)を最大化するパラメータδを選択することにより、これを達成することができる。このことは、以下を意味する。
Figure 2017521763
この課題に対する適切な解決法を見出すために、観測されない全クラスラベルzi及び全指標変数dを考慮する、例えば、EMアルゴリズムを用いることが可能である。
なお、δと同様に、単語頻度分布(等式(2)のように)を設定する代わりに、γを推定することも可能である。その際、クラスzによって良好に説明可能である、すなわちθw|zが高い高頻度語wに関して、確率γは減少する。このことは、そうした高頻度語wが、クラスzに有利となる高い重みを有したままであるという利点を有する。
簡略化のため、この例において、確率θw|z及び確率γにカテゴリ分布(又は、単語頻度に関する組合せ因子(combinatorial factor)なしの多項分布)を設定する。しかしながら、実際にテキストをモデル化するには、混合分布モデルの代わりに、特に非特許文献2などにおける混合多項分布を用いることが有利である。その成分数は、クロスバリデーションを用いて決定可能である。各成分に関する単語確率は、例えば、EMアルゴリズムを用いて、ラベルあり及びラベルなしデータから学習可能である。成分数に対して事前にディリクレ過程を用いて、無限混合モデルを仮定することもまた可能である。その場合、確率θw|z及び確率γは、マルコフ連鎖モンテカルロ(MCMC)法を用いて推定可能である。
等式(3)の代わりとして、期待文書分類精度を最適化するように、補間パラメータδを設定することが可能である。これは、クラス情報を有する訓練データインスタンス(すなわち、ラベルありデータ)上のクロスバリデーションを用いて達成可能である。
例えば、上記の実施形態のテキスト文書のような新規データインスタンスの分類方法は、専用ハードウェアによって実現されてもよいし、又は、メモリ及びDSP(デジタル信号プロセッサ)若しくは他の演算及び処理装置の手段を用いて構成されてもよい。一方、機能は、テキスト文書のような新規データインスタンスの分類に関する方法のステップを実現するために用いられるプログラムの実行によって実現されてもよい。
さらに、テキスト文書のような新規データインスタンスの分類に関する方法のステップを実現するプログラムは、コンピュータ読み取り可能な記憶媒体に記録されてよい。この記憶媒体に記録されるプログラムは、テキスト文書のような新規データインスタンスの分類や処理に関する方法を処理するコンピュータシステムによって読み込まれ、実行される。ここで、「コンピュータシステム」は、OS、周辺機器、又は他のハードウェアを含んでもよい。
さらに、「コンピュータ読み取り可能な記憶媒体」は、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ又は他の書き込み可能な不揮発性メモリ、CD−ROM又は他のリムーバブルメディア、又はハードディスク又はコンピュータシステム内に組み込まれる他の記憶システムを意味する。
さらに、「コンピュータ読み取り可能な記憶媒体」は、プログラムがインターネット、他のネットワーク、電話回路、又は他の通信回路を経由して伝送される場合、サーバ又はクライアントとしての役割を果たすコンピュータシステム内の揮発性メモリ(例えば、DRAM(動的ランダムアクセスメモリ))のような固定時間の間プログラムを保持する部材も含む。
便宜上、本明細書及び以下の特許請求の範囲において、特徴を用語「単語(word)」を用いて説明している。しかしながら、本明細書及び特許請求の範囲の方法は、語彙ではない他の特徴にも適用可能であることに留意されたい。
本発明は、情報価値のない(ストップワードのような)高頻度語を除去する事前特徴選択なし単純ベイズ分類器における入力テキストの分類することができる。特徴選択は、ノイズを除去するため、分類器の性能を向上することが知られている。しかしながら、特徴選択は、部分的に人手で行う必要があり、追加費用を伴う。本発明は、ラベルなしテキストから単語分布を学習することに基づいて、高頻度語のノイズの影響をどのように低減するかを自動的に決定することができる。それは、パラメータを人手で調整する必要がなく、かつ、人手で付加するラベルあり訓練データを必要としないことを意味する。本発明は、単純ベイズ分類器の生成プロセスの拡張として定式化され、それに対して、単語のより複雑な相互作用のモデルへ、又は、モデル単語と付加的な他の属性の種類(例えば、スパム(spam)検出について、実際のメールテキスト+削除された同じ送信者からのメール回数のような付加的な属性)とへの拡張を容易にすることができる。その結果として、本発明は、追加費用なしに高いテキスト分類の精度を可能とする。

Claims (5)

  1. 既知のクラスを有する訓練インスタンス(ラベルありデータ)及び未知のクラスを有する0以上の訓練インスタンス(ラベルなしデータ)の集合を用いて、テキスト文書を含む新規インスタンスを分類する方法であって、
    前記ラベルあり及びラベルなしデータを用いて、各クラスzに関する単語分布θを推定する第1のパラメータ学習ステップと、
    前記ラベルあり及びラベルなしデータを用いて、背景分布γと、γ及びθ間の補間度δとを推定する第2のパラメータ学習ステップと、
    新規インスタンスの各単語に関して、前記単語が前記単語分布θから又は前記背景分布γから生成される確率を計算することと、δを用いて前記2つの確率を組み合わせることと、得られた全単語の確率を組み合わせて、クラスzから生成される前記文書であることを示す前記クラスzに関する文書確率を推定することとを含み、前記新規インスタンスを前記文書確率が最も高いクラスzに分類する分類ステップとを含む、方法。
  2. 前記第2のパラメータ学習ステップにおいて、前記背景分布γと、γ及びθ間の前記補間度δとは、既知及び未知のクラスを有する全ての前記インスタンスの前記集合の観測確率を最大化するように推定される、請求項1に記載の方法。
  3. 前記背景分布γは、既知及び未知のクラスを有する全インスタンスにおいて観測される単語頻度分布に設定される、請求項1に記載の方法。
  4. 前記補間パラメータδは、期待文書分類精度を最適化するように設定される、請求項1に記載の方法。
  5. 各クラスzの前記単語分布θと、前記背景分布γとは、多項分布又は混合多項分布に設定され、前記ラベルありデータを用いて、又は前記ラベルあり及びラベルなしデータの双方を用いて推定される、請求項1に記載の方法。
JP2016571775A 2014-06-20 2014-06-20 インスタンス分類方法 Active JP6292322B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/067090 WO2015194052A1 (en) 2014-06-20 2014-06-20 Feature weighting for naive bayes classifiers using a generative model

Publications (2)

Publication Number Publication Date
JP2017521763A true JP2017521763A (ja) 2017-08-03
JP6292322B2 JP6292322B2 (ja) 2018-03-14

Family

ID=54935076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016571775A Active JP6292322B2 (ja) 2014-06-20 2014-06-20 インスタンス分類方法

Country Status (3)

Country Link
US (1) US10324971B2 (ja)
JP (1) JP6292322B2 (ja)
WO (1) WO2015194052A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10592147B2 (en) * 2017-07-26 2020-03-17 International Business Machines Corporation Dataset relevance estimation in storage systems
WO2020051413A1 (en) * 2018-09-07 2020-03-12 Walmart Apollo, Llc Method and apparatus to more quickly classify additional text entries
CN109597888A (zh) * 2018-11-19 2019-04-09 北京百度网讯科技有限公司 建立文本领域识别模型的方法、装置
CN110147447B (zh) * 2019-04-25 2022-11-18 中国地质大学(武汉) 一种隐多项式朴素贝叶斯文本分类方法及装置
US11281999B2 (en) 2019-05-14 2022-03-22 International Business Machines Corporation Armonk, New York Predictive accuracy of classifiers using balanced training sets
CN110196909B (zh) * 2019-05-14 2022-05-31 北京来也网络科技有限公司 基于强化学习的文本去噪方法及装置
US11593569B2 (en) * 2019-10-11 2023-02-28 Lenovo (Singapore) Pte. Ltd. Enhanced input for text analytics
US11594213B2 (en) * 2020-03-03 2023-02-28 Rovi Guides, Inc. Systems and methods for interpreting natural language search queries
US11836189B2 (en) 2020-03-25 2023-12-05 International Business Machines Corporation Infer text classifiers for large text collections

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362584A (ja) * 2003-06-03 2004-12-24 Microsoft Corp テキストおよび音声の分類のための言語モデルの判別トレーニング
JP2010108265A (ja) * 2008-10-30 2010-05-13 Kddi Corp コンテンツ分類装置およびプログラム
US20120078969A1 (en) * 2010-09-24 2012-03-29 International Business Machines Corporation System and method to extract models from semi-structured documents

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937345B2 (en) * 2006-07-12 2011-05-03 Kofax, Inc. Data classification methods using machine learning techniques
US7761391B2 (en) * 2006-07-12 2010-07-20 Kofax, Inc. Methods and systems for improved transductive maximum entropy discrimination classification
US7958067B2 (en) * 2006-07-12 2011-06-07 Kofax, Inc. Data classification methods using machine learning techniques
US20100153318A1 (en) * 2008-11-19 2010-06-17 Massachusetts Institute Of Technology Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations
US20110119050A1 (en) * 2009-11-18 2011-05-19 Koen Deschacht Method for the automatic determination of context-dependent hidden word distributions
US9519868B2 (en) * 2012-06-21 2016-12-13 Microsoft Technology Licensing, Llc Semi-supervised random decision forests for machine learning using mahalanobis distance to identify geodesic paths
US9373087B2 (en) * 2012-10-25 2016-06-21 Microsoft Technology Licensing, Llc Decision tree training in machine learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362584A (ja) * 2003-06-03 2004-12-24 Microsoft Corp テキストおよび音声の分類のための言語モデルの判別トレーニング
JP2010108265A (ja) * 2008-10-30 2010-05-13 Kddi Corp コンテンツ分類装置およびプログラム
US20120078969A1 (en) * 2010-09-24 2012-03-29 International Business Machines Corporation System and method to extract models from semi-structured documents

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
古宮 嘉那子: "文書分類のためのNegation Naive Bayes", 自然言語処理, vol. 第20巻 第2号, JPN6017047059, 14 June 2013 (2013-06-14), JP, pages 161 - 182, ISSN: 0003698046 *
藤野 昭典: "ラベルあり・なしデータの最適な結合に基づくパターン分類", 電子情報通信学会技術研究報告, vol. 104, no. 669, JPN6017047057, 17 February 2005 (2005-02-17), JP, pages 19 - 24, ISSN: 0003698045 *

Also Published As

Publication number Publication date
JP6292322B2 (ja) 2018-03-14
WO2015194052A1 (en) 2015-12-23
US20170116332A1 (en) 2017-04-27
US10324971B2 (en) 2019-06-18

Similar Documents

Publication Publication Date Title
JP6292322B2 (ja) インスタンス分類方法
Tsuboi et al. Direct density ratio estimation for large-scale covariate shift adaptation
US8332334B2 (en) System and method for cross domain learning for data augmentation
US8589317B2 (en) Human-assisted training of automated classifiers
Klinkenberg Learning drifting concepts: Example selection vs. example weighting
Haque et al. Fusion: An online method for multistream classification
US10606910B2 (en) Ranking search results using machine learning based models
US11636682B2 (en) Embedding contextual information in an image to assist understanding
US11947633B2 (en) Oversampling for imbalanced test data
US20210089870A1 (en) Data valuation using reinforcement learning
US9582758B2 (en) Data classification method, storage medium, and classification device
KR20220054410A (ko) 국부적으로 해석 가능한 모델에 기반한 강화 학습
US20180137421A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable storage medium
JP6230987B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体
US11977602B2 (en) Domain generalized margin via meta-learning for deep face recognition
US9053434B2 (en) Determining an obverse weight
Nguyen et al. Mutual information estimation for filter based feature selection using particle swarm optimization
JP2015038709A (ja) モデルパラメータ推定方法、装置、及びプログラム
JP5398811B2 (ja) 文書分類装置及び方法及びプログラム
Dahinden et al. Decomposition and model selection for large contingency tables
Kim et al. Overfitting, generalization, and MSE in class probability estimation with high‐dimensional data
Renuka et al. An ensembled classifier for email spam classification in hadoop environment
JP7331938B2 (ja) 学習装置、推定装置、学習方法及び学習プログラム
JP7047664B2 (ja) 学習装置、学習方法および予測システム
US20240193372A1 (en) Building Bots from Raw Logs and Computing Coverage of Business Logic Graph

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180129

R150 Certificate of patent or registration of utility model

Ref document number: 6292322

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150