JP5503577B2 - データ極性判定装置、方法、及びプログラム - Google Patents

データ極性判定装置、方法、及びプログラム Download PDF

Info

Publication number
JP5503577B2
JP5503577B2 JP2011042663A JP2011042663A JP5503577B2 JP 5503577 B2 JP5503577 B2 JP 5503577B2 JP 2011042663 A JP2011042663 A JP 2011042663A JP 2011042663 A JP2011042663 A JP 2011042663A JP 5503577 B2 JP5503577 B2 JP 5503577B2
Authority
JP
Japan
Prior art keywords
polarity
word
document data
field
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011042663A
Other languages
English (en)
Other versions
JP2012181602A (ja
Inventor
努 平尾
具治 岩田
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011042663A priority Critical patent/JP5503577B2/ja
Publication of JP2012181602A publication Critical patent/JP2012181602A/ja
Application granted granted Critical
Publication of JP5503577B2 publication Critical patent/JP5503577B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ極性判定装置、方法、及びプログラムに係り、特に、観測データの極性を判定するデータ極性判定装置、方法、及びプログラムに関する。
ある事物(たとえば,電化製品や映画)に関する評価を個人がテキストとして表現したデータがインターネット上には多々ある。こうしたデータを解析し、その事物を肯定的に捉えている数、否定的に捉えている数を知ることができれば、マーケティングなどの有益なデータとなる。
通常、文書の極性は単語が持つ極性(肯定、否定、中立)に基づいて決定される。単語の極性は人手により記述する手法、また、その半自動化手法がある(例えば、非特許文献1)が、単語によっては、その極性が静的に決まらず、文脈によって異なる場合がある。たとえば、“long”という単語が携帯端末の分野で用いられる場合には「バッテリが長持ちする」という肯定の意味で使われ得るが、プリンタの分野で用いられる場合には「印刷時間が長い」という否定の意味で使われ得る。このように分野を考慮せずに単語の極性を辞書として静的に持つ方法では正しく文書の極性を捉えられない場合がある。つまり、この手法では、推定したい文書(入力文書)の分野と単語極性を決定した分野とが同じであるか、あるいは、近くなければ正しく文書の極性を推定できない。しかし、実際には、単語極性を決定するデータの分野と極性を推定したい文書の分野とが常に近いとは限らず汎用性が低い。
一方、こうした問題を考慮し、訓練データとして与えられるラベルありデータから分野に依存しない単語を予め決定しておき、その極性に基づき入力文書の極性を推定する手法が提案されている(非特許文献2)。単語極性を決定するデータの分野と極性を推定したい文書の分野とが異なっていても、分野に非依存な単語の極性に着目するため、文書の極性を正しく推定できる可能性は高い。
H. Takamura, T. Inui, M. Okumura. "Extracting semantic orientations of word using spin model", In Proceedings of the 43rd Annual Meetings of the Association of Computational Linguistics, pages 133-140,
2005.
J. Blitzer, M. Dredze, and F. Pereira. "Biographies, bollywood, boom-boxes and blenders: Domain adaptation for sentiment classification", In Proceedings of the 45th Annual Meetings of the Association of Computational Linguistics, pages 440-447, 2007.
しかしながら、上記の非特許文献2に記載された、分野非依存な単語の決定法は、ラベルのあるデータの分野に強く依存しており、一般的には分野に依存しない単語が得られるとは限らないため、正しく文書の極性を判定できない場合がある、という問題がある。
本発明は、上記の課題を解決するためになされたもので、分野依存性を考慮した上で、観測データの極性を精度よく判定することができるデータ極性判定装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係るデータ極性判定装置は、単語の集合を含む文書データに対する極性を判定するデータ極性判定装置であって、文書データが属する分野及び文書データの極性が付与されたラベルあり文書データ、及び前記分野が付与され、かつ、前記極性が付与されていないラベルなし文書データを記憶した記憶手段と、各単語が各極性を持つ確率を示す第1確率分布、及び各単語が極性の分野依存性を有する確率を示す第2確率分布に従って、文書データの各単語の極性及び分野依存性を決定して、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化した生成モデルのパラメータの初期値を設定する初期値設定手段と、前記ラベルあり文書データに含まれる各単語について、前記生成モデルの前記第1確率分布及び前記第2確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について、前記ラベルあり文書データの前記極性及び前記分野と前記生成モデルとに基づいて、前記決定された極性及び分野依存性である確率を算出すると共に、前記ラベルなし文書データに含まれる各単語について、前記生成モデルの前記第1確率分布及び前記第2確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について決定された前記極性に基づいて、前記ラベルなし文書データの極性を決定し、各単語について、前記決定された前記ラベルなし文書データの極性、前記ラベルなし文書データの前記分野、及び前記生成モデルに基づいて、前記決定された極性及び分野依存性である確率を算出する単語極性決定手段と、前記生成モデルのパラメータを更新するパラメータ更新手段と、前記単語極性決定手段による算出と前記生成モデル更新手段による更新とを繰り返して、所定の収束条件を満たしたときに、その時点の前記ラベルなし文書データの各単語について算出された、前記決定された極性及び分野依存性である確率に基づいて、各単語の極性を判定し、前記判定された各単語の極性に基づいて、前記ラベルなし文書データの極性を判定する文書データ極性判定手段と、を含んで構成されている。
本発明に係るデータ極性判定方法は、単語の集合を含む文書データに対する極性を判定するために、文書データが属する分野及び文書データの極性が付与されたラベルあり文書データ、及び前記分野が付与され、かつ、前記極性が付与されていないラベルなし文書データを記憶した記憶手段と、初期値設定手段と、単語極性決定手段と、パラメータ更新手段と、文書データ極性判定手段とを含むデータ極性判定装置におけるデータ極性判定方法であって、前記データ極性判定装置は、前記初期値設定手段によって、各単語が各極性を持つ確率を示す第1確率分布、及び各単語が極性の分野依存性を有する確率を示す第2確率分布に従って、文書データの各単語の極性及び分野依存性を決定して、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化した生成モデルのパラメータの初期値を設定するステップと、前記単語極性決定手段によって、前記ラベルあり文書データに含まれる各単語について、前記生成モデルの前記第1確率分布及び前記第2確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について、前記ラベルあり文書データの前記極性及び前記分野と前記生成モデルとに基づいて、前記決定された極性及び分野依存性である確率を算出すると共に、前記ラベルなし文書データに含まれる各単語について、前記生成モデルの前記第1確率分布及び前記第2確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について決定された前記極性に基づいて、前記ラベルなし文書データの極性を決定し、各単語について、前記決定された前記ラベルなし文書データの極性、前記ラベルなし文書データの前記分野、及び前記生成モデルに基づいて、前記決定された極性及び分野依存性である確率を算出するステップと、前記パラメータ更新手段によって、前記生成モデルのパラメータを更新するステップと、前記文書データ極性判定手段によって、前記単語極性決定手段による算出と前記生成モデル更新手段による更新とを繰り返して、所定の収束条件を満たしたときに、その時点の前記ラベルなし文書データの各単語について算出された、前記決定された極性及び分野依存性である確率に基づいて、各単語の極性を判定し、前記判定された各単語の極性に基づいて、前記ラベルなし文書データの極性を判定するステップと、を含んで実行することを特徴としている。
本発明によれば、初期値設定手段によって、各単語が各極性を持つ確率を示す第1確率分布、及び各単語が極性の分野依存性を有する確率を示す第2確率分布に従って、文書データの各単語の極性及び分野依存性を決定して、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化した生成モデルのパラメータの初期値を設定する。
そして、単語極性決定手段によって、ラベルあり文書データに含まれる各単語について、生成モデルの第1確率分布及び第2確率分布に従って、単語の極性及び極性の分野依存性を決定し、各単語について、ラベルあり文書データの極性及び分野と生成モデルとに基づいて、決定された極性及び分野依存性である確率を算出すると共に、ラベルなし文書データに含まれる各単語について、生成モデルの第1確率分布及び第2確率分布に従って、単語の極性及び極性の分野依存性を決定し、各単語について決定された極性に基づいて、ラベルなし文書データの極性を決定し、各単語について、決定されたラベルなし文書データの極性、ラベルなし文書データの分野、及び生成モデルに基づいて、決定された極性及び分野依存性である確率を算出する。パラメータ更新手段によって、生成モデルのパラメータを更新する。
そして、文書データ極性判定手段によって、単語極性決定手段による算出と生成モデル更新手段による更新とを繰り返して、所定の収束条件を満たしたときに、その時点のラベルなし文書データの各単語について算出された、決定された極性及び分野依存性である確率に基づいて、各単語の極性を判定し、判定された各単語の極性に基づいて、ラベルなし文書データの極性を判定する。
このように、極性を持つ文書データを生成する生成モデルに従って、ラベルあり文書データ及びラベルなし文書データの各々に含まれる各単語について極性及び分野依存性を決定して、決定された極性及び分野依存性である確率を算出する処理と、生成モデルのパラメータの更新とを繰り返して、ラベルなし文書データの各単語の極性及び文書データの極性を判定することにより、各単語の分野依存性を考慮した上で、文書データの極性を精度よく判定することができる。
本発明に係る生成モデルを、前記第1確率分布及び前記第2確率分布に従って、各単語の極性及び分野依存性を決定し、決定された極性及び分野依存性と、文書データ内に各極性として各単語が出現する確率を示す確率分布と、各分野において前記分野に属する文書データ内に各極性として各単語が出現する確率を示す確率分布とに基づいて、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化したものとしたものとすることができる。
本発明に係る第1確率分布及び前記第2確率分布の各々を、生成モデルのパラメータに基づいて決定するようにすることができる。
上記の極性を、肯定及び否定、又は肯定、否定、及び中立とすることができる。
本発明に係るプログラムは、コンピュータを、上記のデータ極性判定装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明のデータ極性判定装置、方法、及びプログラムによれば、極性を持つ文書データを生成する生成モデルに従って、ラベルあり文書データ及びラベルなし文書データの各々に含まれる各単語について極性及び分野依存性を決定して、決定された極性及び分野依存性である確率を算出する処理と、生成モデルのパラメータの更新とを繰り返して、ラベルなし文書データの各単語の極性及び文書データの極性を判定することにより、各単語の分野依存性を考慮した上で、文書データの極性を精度よく判定することができる、という効果が得られる。
本発明の実施の形態に係る文書極性判定装置の構成を示す概略図である。 本発明の実施の形態に係る文書極性判定装置における文書極性判定処理ルーチンの内容を示すフローチャートである。 本実施の形態で提案する文書及び単語の極性の判定方法を用いた実験におけるっ評価結果を示すグラフである。 分野に非依存な単語として判定された単語を示す図である。 エレクトロニクス分野に依存した単語として判定された単語を示す図である。 キッチン分野に依存した単語として判定された単語を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<概要>
以下、観測データが文書データである場合を例として説明するが、離散データの集合であれば、画像データなど任意のデータに適用可能である。また、以下の例では極性を3種類(肯定、否定、中立)として説明を行うが、これに限るものではなく、観測データに合わせて任意の種類の極性を設定して良い。本実施の形態で使う記号、変数の表記一覧を以下の表1に示す。
Figure 0005503577
まず、単語wdtに対して単語極性ldtと分野依存性zdtとを隠れ変数としてモデル化する。単語極性ldtは、単語wdtの極性が肯定である(ldt=1)か、否定である(ldt=0)か、中立である(ldt=2)かを表わす。分野依存性zdtは、単語wdtが分野に依存した単語である(zdt=1)か、そうでないか(zdt=0)を表わす。隠れ変数ldt、zdtを用いることにより、単語wdtに関して以下の状態を表わすことが可能となる。
(a)分野に依存かつ極性が肯定である単語(zdt=1かつldt=1)
(b)分野に依存かつ極性が否定である単語(zdt=1かつldt=0)
(c)分野に依存かつ極性が中立である単語(zdt=1かつldt=2)
(d)分野に非依存かつ極性が肯定である単語(zdt=0かつldt=1)
(e)分野に非依存かつ極性が否定である単語(zdt=0かつldt=0)
(f)分野に非依存かつ極性が中立である単語(zdt=0かつldt=2)
これを分野数Fだけ考えることができるので、単語wdtの状態としてはS×2×F個の状態を取る。しかし、分野に依存しない単語は肯定、否定、中立ごとにまとめることができるので、ある単語がとる状態の数はS×(F+1)となる。また、文書dの極性ydはその文書に含まれている単語の極性{l1,・・・,lNd}に比例して決定される。
これをまとめると、単語の分野依存/非依存を考慮した場合の極性付き文書の生成過程は、極性付き文書生成モデルとして以下のようにモデル化することができる。
まず、単語の各極性s= 1、・・・、Sについて、極性sを持つ単語として、語彙に含まれる各単語が出現する確率を示す確率分布のパラメータをφ0,lとし、φ0,l〜 Dirichlet(β)とする(〜は「左辺の分布が、右辺の分布に従う」ことを意味する)。また、各極性s= 1、・・・、S及び各分野f=1、・・・、Fについて、分野fで極性sを持つ単語として、語彙に含まれる各単語が出現する確率を示す確率分布のパラメータをφ1,l,fとし、φ1,l,f 〜 Dirichlet(β)とする。ただし、Dirichlet()は、ディレクレ分布を表わす。
次に、文書d= 1、・・・、Dについて、以下のように表わされる。
文書d中の各単語が分野依存性を有する確率を示す確率分布のパラメータをθdとし、θd 〜Dirichlet(β)とする。また、文書dの各単語が各極性を持つ確率を示す確率分布のパラメータをψdとし、ψd 〜Dirichlet(β)とする。
そして、文書dの各単語wtについて、分野依存性を表す確率変数ztが各値(0、1)である確率分布を、θdを用いて、zt〜Multinomial(θd)とすることができる。また、文書dの各単語wtについて、単語極性を表す確率変数lt が各値(0、1、2)である確率分布を、ψdを用いて、lt 〜Multinomial(ψd)とすることができる。ただし、Multinomial()は、多項分布を表わす。上記のztの確率分布及びltの確率分布から、単語wtの分野依存性zt及び単語極性ltを決定することができる。
また、文書中の各単語wtは、以下の(1)式に示すように、分野非存性である場合にはパラメータφ0,ltである多項分布に従って単語が決定され、分野依存性を有する場合にはパラメータφ1,lt,fdである多項分布に従って単語が決定される。
Figure 0005503577
そして、文書dの極性は以下の(2)式に示すように、多項分布に従って決定される。
Figure 0005503577
ただし、θ、φ、ψ はディレクレ分布のパラメータである。また、Nd,0 は文書dで分野非依存として決定された単語数、Nd,1 は文書dで分野依存として決定された単語数である。
ここで、
Figure 0005503577
を観測変数とし、
Figure 0005503577
を隠れ変数(ただし、y={ys、yt})とし、α、β、γ、ηをモデルパラメータとすると、この極性付き文書生成モデルの同時確率分布は以下の(3)式で表すことができる。ただし、θ、φ、ψ は積分消去されることに注意されたい。
Figure 0005503577
上記(3)式における右辺の同時確率分布はぞれぞれ以下の(4)式〜(7)式で表わされる。
Figure 0005503577
ただし、Γ(・)はガンマ分布を表す。Nv,1,s,f は分野fに単語vが極性sかつ分野依存として出現した回数、Nv,0,s は分野fには依存せずに単語vが極性sとして出現した回数、Nz(=1),d は文書dで分野依存として割り当てられた単語数、Nz(=0),d は文書dで分野非依存として割り当てられた単語数である。また、Nd,y は、極性y(yは0か1をとる)を割り当てられた文書の数であり、Ns,d は、極性s(sは0、1、2のいずれかをとる)を割り当てられた単語の数である。I( )は括弧の中が真のときに1、そうでないときに0を取る関数である。
本発明では、上記のように極性付き文書の生成過程をモデル化できることを利用し、分野依存性を考慮した単語の極性と文書の極性を判定する。なお、以下の実施形態では、マルコフ連鎖モンテカルロ法に基づいて単語の極性と文書の極性を判定する方法について記述するが、これ以外にも変分ベイズ法などを用いることも可能である。
<システム構成>
次に、観測データである文書データを入力として、文書データの極性を判定する文書極性判定装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図1に示すように、第1の実施の形態に係る文書極性判定装置は、文書データの入力を受け付ける入力部1と、文書データの極性を判定する演算部2と、判定結果を出力する出力部3と、を備えている。
入力部1は、既知のキーボード、マウス、記憶装置などの入力器により実現される。
出力部3は、ディスプレイ、プリンタ、磁気ディスクなどで実装される。
演算部2は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する文書極性判定処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成され、機能的には次に示すように構成されている。演算部2は、データ記憶部21、パラメータ初期値設定部22、単語極性判定部23、パラメータ更新部24、繰り返し判定部25、及び文書極性判定部26を備えている。なお、データ記憶部21が、記憶手段の一例であり、単語極性判定部23が、単語極性決定手段の一例であり、繰り返し判定部25及び文書極性判定部26が、観測データ極性判定手段の一例である。
データ記憶部21は、入力されたラベルあり文書データとラベルなし文書データとを記憶している。ラベルあり文書データは、文書データにラベル(極性)が付与されている。ラベルなし文書データは、文書データのラベルが付与されていない文書データ(極性を判定したい文書データ)である。ラベルあり文書データ及びラベルなし文書データのいずれに対しても、単語の極性は付与されていない。また、ラベルあり文書データ及びラベルなし文書データの各々に対して、分野が明示的に付与されているものとする。
パラメータ初期値設定部22は、上記モデルを構成するパラメータα、β、γ、ηの初期値を設定する。α、β、γに対しては、適当に発生させた乱数を初期値として設定すればよく、ηに対しては予め定められた値を設定しておくものとする。
単語極性判定部23は、以下に説明するように、与えられた各文書データdの各単語wtに対し、上記モデルに従って決定された極性及び分野依存性である確率P(zt=j、lt=k|w、f、y(s)、z-t、l-t、α、β、γ、η)を求める。
まず、ラベルあり文書データdについて、以下のように、上記の確率P(zt=j、 lt=k | w、 f、 y(s)、 z-t、 l-t、 α、 β、 γ、 η)を算出する。
上述の極性付き文書生成モデルに基づいて、ラベルあり文書データd中の各単語wtの極性ztと各単語wtが分野依存であるか否かを示すltの値をサンプリングにより決定する。
ここでは、Dirichlet(β)に従う乱数を発生させてθdとし、次に、Multinomial(θd)に従う乱数を発生させて極性ztの値を決定する。ラベルあり文書データd中の全ての単語について行う。
また同様に、Dirichlet(β)に従う乱数を発生させてψdとし、次に、Multinomial(ψd)に従う乱数を発生させて分野依存性ltの値を決定する。ラベルあり文書データd中の全ての単語について行う。
上記のようにサンプリングにより決定した極性zt及び分野依存性ltを用いて、確率P(zt=j、lt=k|w、f、y(s)、z-t、l-t、α、β、γ、η)を、以下の(8)式で計算する。
Figure 0005503577
上記(8)式において、∝は、左辺が右辺に比例することを意味するが、ここでは=と等価な意味と考えて良い。右辺のそれぞれの要素は、以下の(9)式〜(14)式により計算できる。
Figure 0005503577
なお、−tは、文書dでのt番目の単語を除いたときの回数、単語の数、文書の数を表す。ここで、上記(12)式、(13)式におけるydには、ラベルあり文書データに予め付与されている文書の極性が入る。
次に、ラベルなし文書データdについて、以下に説明するように、ラベルあり文書データと同様に、上記の確率P(zt=j、lt=k|w、f、y(s)、z-t、l-t、α、β、γ、η)を算出する。
まず、上述したように、サンプリングにより極性zt及び分野依存性ltを決定する。このとき、文書の極性が未知であるため、以下の(15)式で算出される確率でサンプリングを行い、文書の極性yd (t)を決定する。
Figure 0005503577
そのあと、ラベルあり文書データと同様の方法で、上記(8)式により確率P(zt=j、lt=k|w、f、y(s)、z-t、l-t、α、β、γ、η)を求める。このとき、上記(12)式、(13)式におけるydには、上記(15)式で算出される確率に従って決定されたyd (t)の値を使用する。
パラメータ更新部24は、上記モデルを構成するパラメータα、β、γの値を更新する。たとえば、Fixed Point Iteration法を用いて、以下の(16)式〜(18)式に従って、パラメータα、β、γの値を更新し、最適化することができる。
Figure 0005503577
ただし、Ψ(・)はディガンマ関数である。
なお、ηに関しては、予め人手で決定しておくため、更新を行わない。
繰り返し判定部25は、所定の収束条件を満たすまで、単語極性判定部23とパラメータ更新部24の処理を繰り返し実行するよう制御し、所定の収束条件を満たしたら、繰り返し処理を終了し、文書極性判定部26へ処理を移行する。
所定の収束条件とは、「予め定めた繰り返し回数に達したか否か」や、「更新前のパラメータα、β、γと更新後のパラメータα、β、γの誤差が所定の閾値以下となったか否か」などを用いる。あるいは、「単語極性判定部23により各単語について上記(8)式に従って算出される確率に基づいて求められる尤度(例えば、上記(3)式に応じた尤度)が最大となったか否か」を所定の収束条件としてもよい。
隠れ変数z、l、yt を推定することができれば、ラベルが付与されていない文書データに対しても分野依存性を考慮した単語の極性と文書の極性を得ることができる。
そこで、文書極性判定部26は、単語極性判定部23(繰り返し判定部25で反復実行した場合は、最後に実行された単語極性判定部23)においてラベルなし文書データ中の各単語について計算した確率P(zt=j、lt=k|w、f、y(s)、z-t、l-t、α、β、γ、η)を用いて、各単語について、極性を判定する。例えば、上記確率Pが、閾値以上であれば、サンプリングにより決定されていた単語の極性を、当該単語の極性として判定する。そして、文書極性判定部26は、肯定と判定された単語数が否定を上回る場合には、文書の極性を肯定と判定し、その逆の場合には否定と判定する。
文書極性判定部26の判定結果が、出力部3よりユーザに出力される。
<文書極性判定装置の作用>
次に、本実施の形態に係る文書極性判定装置の作用について説明する。まず、分野及び文書の極性が与えられたラベルあり文書データと、分野のみが与えられたラベルなし文書データとが入力部1を介して文書極性判定装置に入力され、データ記憶部21に格納される。また、各種の定数(例えば、η)が、入力部1を介して文書極性判定装置に入力され、データ記憶部21に格納される。
そして、文書極性判定装置の演算部2において、図2に示す文書極性判定処理ルーチンが実行される。
まず、ステップ100において、データ記憶部21に記憶されたラベルあり文書データ、ラベルなし文書データ、及び各種のパラメータを読み込み、取得する。そして、ステップ102において、乱数を用いて、モデルパラメータα、β、γの初期値を設定する。
次のステップ104では、上記ステップ100で読み込んだラベルあり文書データ、及びパラメータα、β、γを用いて、サンプリングにより、ラベルあり文書データの各単語の極性及び分野依存性を決定し、上記(8)式に従って、各単語について、決定された極性及び分野依存性である確率を算出する。
そして、ステップ106において、上記ステップ100で読み込んだラベルなし文書データ、及びパラメータα、β、γを用いて、サンプリングにより、ラベルなし文書データの各単語の極性及び分野依存性を決定すると共に、文書の極性を決定する。そして、上記(8)式に従って、各単語について、決定された極性及び分野依存性である確率を算出する。
次のステップ108では、上記(16)式〜(18)式に従って、上記ステップ102で初期値が設定された各パラメータα、β、γの値、又は、前回のステップ108で更新された各パラメータα、β、γの値を更新する。
ステップ110では、所定の収束条件として、予め定められた繰り返し回数に到達したか否かを判定し、当該繰り返し回数に到達していない場合には、所定の収束条件が成立していないと判断して、上記ステップ104へ戻り、上記ステップ104〜ステップ108の処理を繰り返す。一方、当該繰り返し回数に到達した場合には、所定の収束条件が成立したと判断し、ステップ112で、上記ステップ106においてラベルなし文書データの各単語について最終的に算出された、決定された極性及び分野依存性である確率を用いて、各単語の極性及び分野依存性を判定すると共に、文書の極性を判定する。
そして、ステップ114において、上記ステップ112で判定された判定結果を出力部3により出力して、文書極性判定処理ルーチンを終了する。
<実験例>
次に、本実施の形態で提案する文書及び単語の極性の判定方法を用いた実験の結果について説明する。実験では、本発明の有効性を示すため、上記の非特許文献2で利用されているMulti−Domain Sentiment Dataseを用いて評価実験を行った。このデータはAmazon(登録商標)のレビューデータ(文書データ)をもとに作成されており、全部で28の分野から構成される。
実験では10000の文書データ、17個の分野を使用した。レビューデータには5段階のスコアが付いており、スコア4と5が正の極性を持つ文書、スコア1と2が負の極性を持つ文書として扱った。
また、比較手法として、分野を考慮しない文書の極性及び単語の極性判定を行った。
実験では、以下の手順を10回繰り返し、その分類精度の平均値を記録した。
(1)17個の分野のうち3つの分野に属する文書データをラベルなし文書データとして選択する。
(2)残りの分野のうち、n個の分野に属する文書データをラベルあり文書データとして選択し、ラベルなし文書データの極性を判定する。
(3)上記(2)の手順を、n=1〜14の場合についてそれぞれ行った。
評価結果を図3に示す。図3中の「Proposal」が本発明で提案した手法であり、「Baseline」は比較手法である。上記図3に示すように、単語極性の分野依存/非依存を考慮した提案手法の方が、比較手法より優れていることが分かった。
次に、図4に、分野非依存な単語として判定された単語の例を示す。また、図5に、エレクトロニクス分野に依存する単語として判定された単語の例を示し、図6に、キッチン分野に依存する単語として判定された単語の例を示す。これらの単語は、P(wt|lt、zt、fd)=φzt、lt、fdが上位となる単語である。
上記図4に示すように、’great’、’bad’など、分野に依存せず正、負の極性が決定できるような単語が抽出された。また、上記図5や図6では’comfortable’、’responsive’、’useless’、’functionally’など、分野に依存して正、負の極性が決定できるような単語が抽出された。
以上説明したように、本実施の形態に係る文書極性判定装置によれば、極性付き文書データを生成する過程をモデル化した極性付き文書生成モデルに従って、サンプリングにより、ラベルあり文書データ及びラベルなし文書データの各々に含まれる各単語について極性及び分野依存性を決定して、各単語について、決定された極性及び分野依存性である確率を算出する処理と、極性付き文書生成モデルのパラメータの更新とを繰り返して、ラベルなし観測データの各単語の極性を判定すると共に、文書データの極性を判定することにより、各単語の分野依存性を考慮した上で、文書データの極性を精度よく判定することができる。
また、文書データの中の単語に対し、文書データの属する分野を考慮して単語の極性を決定することができ、文書データの分野によらず正しく単語の極性を判定できるようになるため、たとえば、レビューデータに基づく評判分析の性能を向上させることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、観測データとして画像データを入力し、観測データに含まれる離散データとして、画像データの特徴を用い、画像データが属する分野を考慮して、画像データの特徴の極性を判定すると共に、画像データの極性を判定するようにしてもよい。この場合には、上記の実施の形態で説明した単語及び文書データの極性判定方法において、文書データを、画像データに読み替える共に、文書データの単語を、画像データから抽出される複数種類の特徴(色など)に読み替えればよい。
また、単語の極性が、肯定、否定、及び中立である場合を例に説明したが、これに限定されるものではなく、例えば、肯定及び否定の2種類を、単語の極性としてもよい。
また、上述の文書極性判定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 入力部
2 演算部
3 出力部
21 データ記憶部
22 パラメータ初期値設定部
23 単語極性判定部
24 パラメータ更新部
25 繰り返し判定部
26 文書極性判定部

Claims (6)

  1. 単語の集合を含む文書データに対する極性を判定するデータ極性判定装置であって、
    文書データが属する分野及び文書データの極性が付与されたラベルあり文書データ、及び前記分野が付与され、かつ、前記極性が付与されていないラベルなし文書データを記憶した記憶手段と、
    単語が各極性を持つ確率を示す第1確率分布、及び各単語が極性の分野依存性を有する確率を示す第2確率分布に従って、文書データの各単語の極性及び分野依存性を決定して、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化した生成モデルのパラメータの初期値を設定する初期値設定手段と、
    前記ラベルあり文書データに含まれる各単語について、前記生成モデルの前記第1確率分布及び前記第2確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について、前記ラベルあり文書データの前記極性及び前記分野と前記生成モデルとに基づいて、前記決定された極性及び分野依存性である確率を算出すると共に、
    前記ラベルなし文書データに含まれる各単語について、前記生成モデルの前記第1確率分布及び前記第2確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について決定された前記極性に基づいて、前記ラベルなし文書データの極性を決定し、各単語について、前記決定された前記ラベルなし文書データの極性、前記ラベルなし文書データの前記分野、及び前記生成モデルに基づいて、前記決定された極性及び分野依存性である確率を算出する単語極性決定手段と、
    前記生成モデルのパラメータを更新するパラメータ更新手段と、
    前記単語極性決定手段による算出と前記生成モデル更新手段による更新とを繰り返して、所定の収束条件を満たしたときに、その時点の前記ラベルなし文書データの各単語について算出された、前記決定された極性及び分野依存性である確率に基づいて、各単語の極性を判定し、前記判定された各単語の極性に基づいて、前記ラベルなし文書データの極性を判定する文書データ極性判定手段と、
    を含むデータ極性判定装置。
  2. 前記生成モデルを、
    前記第1確率分布及び前記第2確率分布に従って、各単語の極性及び分野依存性を決定し、決定された極性及び分野依存性と、文書データ内に各極性として各単語が出現する確率を示す確率分布と、各分野において前記分野に属する文書データ内に各極性として各単語が出現する確率を示す確率分布とに基づいて、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化したものとした請求項1記載のデータ極性判定装置。
  3. 前記第1確率分布及び前記第2確率分布の各々を、前記生成モデルのパラメータに基づいて決定する請求項1又は2記載のデータ極性判定装置。
  4. 前記極性を、肯定及び否定、又は肯定、否定、及び中立とした請求項1〜請求項の何れか1項記載のデータ極性判定装置。
  5. 単語の集合を含む文書データに対する極性を判定するために、文書データが属する分野及び文書データの極性が付与されたラベルあり文書データ、及び前記分野が付与され、かつ、前記極性が付与されていないラベルなし文書データを記憶した記憶手段と、初期値設定手段と、単語極性決定手段と、パラメータ更新手段と、文書データ極性判定手段とを含むデータ極性判定装置におけるデータ極性判定方法であって、
    前記データ極性判定装置は、
    前記初期値設定手段によって、各単語が各極性を持つ確率を示す第1確率分布、及び各単語が極性の分野依存性を有する確率を示す第2確率分布に従って、文書データの各単語の極性及び分野依存性を決定して、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化した生成モデルのパラメータの初期値を設定するステップと、
    前記単語極性決定手段によって、前記ラベルあり文書データに含まれる各単語について、前記生成モデルの前記第1確率分布及び前記第2確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について、前記ラベルあり文書データの前記極性及び前記分野と前記生成モデルとに基づいて、前記決定された極性及び分野依存性である確率を算出すると共に、
    前記ラベルなし文書データに含まれる各単語について、前記生成モデルの前記第1確率分布及び前記第2確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について決定された前記極性に基づいて、前記ラベルなし文書データの極性を決定し、各単語について、前記決定された前記ラベルなし文書データの極性、前記ラベルなし文書データの前記分野、及び前記生成モデルに基づいて、前記決定された極性及び分野依存性である確率を算出するステップと、
    前記パラメータ更新手段によって、前記生成モデルのパラメータを更新するステップと、
    前記文書データ極性判定手段によって、前記単語極性決定手段による算出と前記生成モデル更新手段による更新とを繰り返して、所定の収束条件を満たしたときに、その時点の前記ラベルなし文書データの各単語について算出された、前記決定された極性及び分野依存性である確率に基づいて、各単語の極性を判定し、前記判定された各単語の極性に基づいて、前記ラベルなし文書データの極性を判定するステップと、
    を含んで実行することを特徴とするデータ極性判定方法。
  6. 請求項1〜請求項4の何れか1項に記載のデータ極性判定装置を構成する各手段として、コンピュータを機能させることを特徴とするプログラム。
JP2011042663A 2011-02-28 2011-02-28 データ極性判定装置、方法、及びプログラム Active JP5503577B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011042663A JP5503577B2 (ja) 2011-02-28 2011-02-28 データ極性判定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011042663A JP5503577B2 (ja) 2011-02-28 2011-02-28 データ極性判定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012181602A JP2012181602A (ja) 2012-09-20
JP5503577B2 true JP5503577B2 (ja) 2014-05-28

Family

ID=47012764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011042663A Active JP5503577B2 (ja) 2011-02-28 2011-02-28 データ極性判定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5503577B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077470A (zh) * 2014-10-31 2017-08-18 隆沙有限公司 聚焦的语义分类

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102410715B1 (ko) * 2020-11-10 2022-06-20 주식회사 데이터캐스트 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077470A (zh) * 2014-10-31 2017-08-18 隆沙有限公司 聚焦的语义分类

Also Published As

Publication number Publication date
JP2012181602A (ja) 2012-09-20

Similar Documents

Publication Publication Date Title
Goikoetxea et al. Random walks and neural network language models on knowledge bases
Baumann et al. Reliable estimation of prediction errors for QSAR models under model uncertainty using double cross-validation
WO2020062770A1 (zh) 一种领域词典的构建方法、装置、设备及存储介质
EP2991003B1 (en) Method and apparatus for classification
JP6611053B2 (ja) 主題推定システム、主題推定方法およびプログラム
CN108475262A (zh) 用于文本处理的电子设备和方法
JP6498095B2 (ja) 単語埋込学習装置、テキスト評価装置、方法、及びプログラム
JP2019511033A5 (ja)
JP6291443B2 (ja) 接続関係推定装置、方法、及びプログラム
JP6312467B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6172317B2 (ja) 混合モデル選択の方法及び装置
Huang et al. Conditional diffusion based on discrete graph structures for molecular graph generation
Nunn et al. Phylogenetic prediction to identify “evolutionary singularities”
JP2018097468A (ja) 文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラム
CN113869034A (zh) 基于强化依赖图的方面情感分类方法
JP5503577B2 (ja) データ極性判定装置、方法、及びプログラム
JP7452623B2 (ja) 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム
Roos et al. Analysis of textual variation by latent tree structures
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
JP2014115685A (ja) プロファイル解析装置及び方法及びプログラム
JP2017142746A (ja) 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム
JP2016197289A (ja) パラメタ学習装置、類似度算出装置、方法、及びプログラム
JP2017538226A (ja) スケーラブルなウェブデータの抽出
JP6368633B2 (ja) 用語意味学習装置、用語意味判定装置、方法、及びプログラム
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120629

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140314

R150 Certificate of patent or registration of utility model

Ref document number: 5503577

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150