JP5503577B2

JP5503577B2 - データ極性判定装置、方法、及びプログラム

Info

Publication number: JP5503577B2
Application number: JP2011042663A
Authority: JP
Inventors: 努平尾; 具治岩田; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-02-28
Filing date: 2011-02-28
Publication date: 2014-05-28
Anticipated expiration: 2031-02-28
Also published as: JP2012181602A

Description

本発明は、データ極性判定装置、方法、及びプログラムに係り、特に、観測データの極性を判定するデータ極性判定装置、方法、及びプログラムに関する。

ある事物（たとえば，電化製品や映画）に関する評価を個人がテキストとして表現したデータがインターネット上には多々ある。こうしたデータを解析し、その事物を肯定的に捉えている数、否定的に捉えている数を知ることができれば、マーケティングなどの有益なデータとなる。

通常、文書の極性は単語が持つ極性（肯定、否定、中立）に基づいて決定される。単語の極性は人手により記述する手法、また、その半自動化手法がある（例えば、非特許文献１）が、単語によっては、その極性が静的に決まらず、文脈によって異なる場合がある。たとえば、“long”という単語が携帯端末の分野で用いられる場合には「バッテリが長持ちする」という肯定の意味で使われ得るが、プリンタの分野で用いられる場合には「印刷時間が長い」という否定の意味で使われ得る。このように分野を考慮せずに単語の極性を辞書として静的に持つ方法では正しく文書の極性を捉えられない場合がある。つまり、この手法では、推定したい文書（入力文書）の分野と単語極性を決定した分野とが同じであるか、あるいは、近くなければ正しく文書の極性を推定できない。しかし、実際には、単語極性を決定するデータの分野と極性を推定したい文書の分野とが常に近いとは限らず汎用性が低い。

一方、こうした問題を考慮し、訓練データとして与えられるラベルありデータから分野に依存しない単語を予め決定しておき、その極性に基づき入力文書の極性を推定する手法が提案されている（非特許文献２）。単語極性を決定するデータの分野と極性を推定したい文書の分野とが異なっていても、分野に非依存な単語の極性に着目するため、文書の極性を正しく推定できる可能性は高い。

H. Takamura, T. Inui, M. Okumura. "Extracting semantic orientations of word using spin model", In Proceedings of the 43rd Annual Meetings of the Association of Computational Linguistics, pages 133-140,

2005.
J. Blitzer, M. Dredze, and F. Pereira. "Biographies, bollywood, boom-boxes and blenders: Domain adaptation for sentiment classification", In Proceedings of the 45th Annual Meetings of the Association of Computational Linguistics, pages 440-447, 2007.

しかしながら、上記の非特許文献２に記載された、分野非依存な単語の決定法は、ラベルのあるデータの分野に強く依存しており、一般的には分野に依存しない単語が得られるとは限らないため、正しく文書の極性を判定できない場合がある、という問題がある。

本発明は、上記の課題を解決するためになされたもので、分野依存性を考慮した上で、観測データの極性を精度よく判定することができるデータ極性判定装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係るデータ極性判定装置は、単語の集合を含む文書データに対する極性を判定するデータ極性判定装置であって、文書データが属する分野及び文書データの極性が付与されたラベルあり文書データ、及び前記分野が付与され、かつ、前記極性が付与されていないラベルなし文書データを記憶した記憶手段と、各単語が各極性を持つ確率を示す第１確率分布、及び各単語が極性の分野依存性を有する確率を示す第２確率分布に従って、文書データの各単語の極性及び分野依存性を決定して、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化した生成モデルのパラメータの初期値を設定する初期値設定手段と、前記ラベルあり文書データに含まれる各単語について、前記生成モデルの前記第１確率分布及び前記第２確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について、前記ラベルあり文書データの前記極性及び前記分野と前記生成モデルとに基づいて、前記決定された極性及び分野依存性である確率を算出すると共に、前記ラベルなし文書データに含まれる各単語について、前記生成モデルの前記第１確率分布及び前記第２確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について決定された前記極性に基づいて、前記ラベルなし文書データの極性を決定し、各単語について、前記決定された前記ラベルなし文書データの極性、前記ラベルなし文書データの前記分野、及び前記生成モデルに基づいて、前記決定された極性及び分野依存性である確率を算出する単語極性決定手段と、前記生成モデルのパラメータを更新するパラメータ更新手段と、前記単語極性決定手段による算出と前記生成モデル更新手段による更新とを繰り返して、所定の収束条件を満たしたときに、その時点の前記ラベルなし文書データの各単語について算出された、前記決定された極性及び分野依存性である確率に基づいて、各単語の極性を判定し、前記判定された各単語の極性に基づいて、前記ラベルなし文書データの極性を判定する文書データ極性判定手段と、を含んで構成されている。

本発明に係るデータ極性判定方法は、単語の集合を含む文書データに対する極性を判定するために、文書データが属する分野及び文書データの極性が付与されたラベルあり文書データ、及び前記分野が付与され、かつ、前記極性が付与されていないラベルなし文書データを記憶した記憶手段と、初期値設定手段と、単語極性決定手段と、パラメータ更新手段と、文書データ極性判定手段とを含むデータ極性判定装置におけるデータ極性判定方法であって、前記データ極性判定装置は、前記初期値設定手段によって、各単語が各極性を持つ確率を示す第１確率分布、及び各単語が極性の分野依存性を有する確率を示す第２確率分布に従って、文書データの各単語の極性及び分野依存性を決定して、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化した生成モデルのパラメータの初期値を設定するステップと、前記単語極性決定手段によって、前記ラベルあり文書データに含まれる各単語について、前記生成モデルの前記第１確率分布及び前記第２確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について、前記ラベルあり文書データの前記極性及び前記分野と前記生成モデルとに基づいて、前記決定された極性及び分野依存性である確率を算出すると共に、前記ラベルなし文書データに含まれる各単語について、前記生成モデルの前記第１確率分布及び前記第２確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について決定された前記極性に基づいて、前記ラベルなし文書データの極性を決定し、各単語について、前記決定された前記ラベルなし文書データの極性、前記ラベルなし文書データの前記分野、及び前記生成モデルに基づいて、前記決定された極性及び分野依存性である確率を算出するステップと、前記パラメータ更新手段によって、前記生成モデルのパラメータを更新するステップと、前記文書データ極性判定手段によって、前記単語極性決定手段による算出と前記生成モデル更新手段による更新とを繰り返して、所定の収束条件を満たしたときに、その時点の前記ラベルなし文書データの各単語について算出された、前記決定された極性及び分野依存性である確率に基づいて、各単語の極性を判定し、前記判定された各単語の極性に基づいて、前記ラベルなし文書データの極性を判定するステップと、を含んで実行することを特徴としている。

本発明によれば、初期値設定手段によって、各単語が各極性を持つ確率を示す第１確率分布、及び各単語が極性の分野依存性を有する確率を示す第２確率分布に従って、文書データの各単語の極性及び分野依存性を決定して、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化した生成モデルのパラメータの初期値を設定する。

そして、単語極性決定手段によって、ラベルあり文書データに含まれる各単語について、生成モデルの第１確率分布及び第２確率分布に従って、単語の極性及び極性の分野依存性を決定し、各単語について、ラベルあり文書データの極性及び分野と生成モデルとに基づいて、決定された極性及び分野依存性である確率を算出すると共に、ラベルなし文書データに含まれる各単語について、生成モデルの第１確率分布及び第２確率分布に従って、単語の極性及び極性の分野依存性を決定し、各単語について決定された極性に基づいて、ラベルなし文書データの極性を決定し、各単語について、決定されたラベルなし文書データの極性、ラベルなし文書データの分野、及び生成モデルに基づいて、決定された極性及び分野依存性である確率を算出する。パラメータ更新手段によって、生成モデルのパラメータを更新する。

そして、文書データ極性判定手段によって、単語極性決定手段による算出と生成モデル更新手段による更新とを繰り返して、所定の収束条件を満たしたときに、その時点のラベルなし文書データの各単語について算出された、決定された極性及び分野依存性である確率に基づいて、各単語の極性を判定し、判定された各単語の極性に基づいて、ラベルなし文書データの極性を判定する。

このように、極性を持つ文書データを生成する生成モデルに従って、ラベルあり文書データ及びラベルなし文書データの各々に含まれる各単語について極性及び分野依存性を決定して、決定された極性及び分野依存性である確率を算出する処理と、生成モデルのパラメータの更新とを繰り返して、ラベルなし文書データの各単語の極性及び文書データの極性を判定することにより、各単語の分野依存性を考慮した上で、文書データの極性を精度よく判定することができる。

本発明に係る生成モデルを、前記第１確率分布及び前記第２確率分布に従って、各単語の極性及び分野依存性を決定し、決定された極性及び分野依存性と、文書データ内に各極性として各単語が出現する確率を示す確率分布と、各分野において前記分野に属する文書データ内に各極性として各単語が出現する確率を示す確率分布とに基づいて、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化したものとしたものとすることができる。

本発明に係る第１確率分布及び前記第２確率分布の各々を、生成モデルのパラメータに基づいて決定するようにすることができる。

上記の極性を、肯定及び否定、又は肯定、否定、及び中立とすることができる。

本発明に係るプログラムは、コンピュータを、上記のデータ極性判定装置の各手段として機能させるためのプログラムである。

以上説明したように、本発明のデータ極性判定装置、方法、及びプログラムによれば、極性を持つ文書データを生成する生成モデルに従って、ラベルあり文書データ及びラベルなし文書データの各々に含まれる各単語について極性及び分野依存性を決定して、決定された極性及び分野依存性である確率を算出する処理と、生成モデルのパラメータの更新とを繰り返して、ラベルなし文書データの各単語の極性及び文書データの極性を判定することにより、各単語の分野依存性を考慮した上で、文書データの極性を精度よく判定することができる、という効果が得られる。

本発明の実施の形態に係る文書極性判定装置の構成を示す概略図である。本発明の実施の形態に係る文書極性判定装置における文書極性判定処理ルーチンの内容を示すフローチャートである。本実施の形態で提案する文書及び単語の極性の判定方法を用いた実験におけるっ評価結果を示すグラフである。分野に非依存な単語として判定された単語を示す図である。エレクトロニクス分野に依存した単語として判定された単語を示す図である。キッチン分野に依存した単語として判定された単語を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜概要＞

以下、観測データが文書データである場合を例として説明するが、離散データの集合であれば、画像データなど任意のデータに適用可能である。また、以下の例では極性を３種類（肯定、否定、中立）として説明を行うが、これに限るものではなく、観測データに合わせて任意の種類の極性を設定して良い。本実施の形態で使う記号、変数の表記一覧を以下の表１に示す。

まず、単語ｗ_dtに対して単語極性ｌ_dtと分野依存性ｚ_dtとを隠れ変数としてモデル化する。単語極性ｌ_dtは、単語ｗ_dtの極性が肯定である（ｌ_dt＝１）か、否定である（ｌ_dt＝０）か、中立である（ｌ_dt＝２）かを表わす。分野依存性ｚ_dtは、単語ｗ_dtが分野に依存した単語である（ｚ_dt＝１）か、そうでないか（ｚ_dt＝０）を表わす。隠れ変数ｌ_dt、ｚ_dtを用いることにより、単語ｗ_dtに関して以下の状態を表わすことが可能となる。

（ａ）分野に依存かつ極性が肯定である単語（ｚ_dt＝１かつｌ_dt＝１）
（ｂ）分野に依存かつ極性が否定である単語（ｚ_dt＝１かつｌ_dt＝０）
（ｃ）分野に依存かつ極性が中立である単語（ｚ_dt＝１かつｌ_dt＝２）
（ｄ）分野に非依存かつ極性が肯定である単語（ｚ_dt＝０かつｌ_dt＝１）
（ｅ）分野に非依存かつ極性が否定である単語（ｚ_dt＝０かつｌ_dt＝０）
（ｆ）分野に非依存かつ極性が中立である単語（ｚ_dt＝０かつｌ_dt＝２）

これを分野数Ｆだけ考えることができるので、単語ｗ_dtの状態としてはＳ×２×Ｆ個の状態を取る。しかし、分野に依存しない単語は肯定、否定、中立ごとにまとめることができるので、ある単語がとる状態の数はＳ×（Ｆ＋１）となる。また、文書ｄの極性ｙ_dはその文書に含まれている単語の極性｛ｌ₁,・・・,ｌ_Nd｝に比例して決定される。

これをまとめると、単語の分野依存／非依存を考慮した場合の極性付き文書の生成過程は、極性付き文書生成モデルとして以下のようにモデル化することができる。

まず、単語の各極性ｓ＝１、・・・、Ｓについて、極性ｓを持つ単語として、語彙に含まれる各単語が出現する確率を示す確率分布のパラメータをφ_0,lとし、φ_0,l〜 Dirichlet(β)とする（〜は「左辺の分布が、右辺の分布に従う」ことを意味する）。また、各極性ｓ＝１、・・・、Ｓ及び各分野ｆ＝１、・・・、Ｆについて、分野ｆで極性ｓを持つ単語として、語彙に含まれる各単語が出現する確率を示す確率分布のパラメータをφ_1,l,fとし、φ_1,l,f〜 Dirichlet(β)とする。ただし、Dirichlet（）は、ディレクレ分布を表わす。

次に、文書ｄ＝１、・・・、Ｄについて、以下のように表わされる。

文書ｄ中の各単語が分野依存性を有する確率を示す確率分布のパラメータをθ_dとし、θ_d〜Dirichlet(β)とする。また、文書ｄの各単語が各極性を持つ確率を示す確率分布のパラメータをψ_dとし、ψ_d〜Dirichlet(β)とする。

そして、文書ｄの各単語ｗ_tについて、分野依存性を表す確率変数ｚ_tが各値（０、１）である確率分布を、θ_dを用いて、z_t〜Multinomial(θ_d)とすることができる。また、文書ｄの各単語ｗ_tについて、単語極性を表す確率変数ｌ_tが各値（０、１、２）である確率分布を、ψ_dを用いて、ｌ_t〜Multinomial(ψ_d)とすることができる。ただし、Multinomial()は、多項分布を表わす。上記のz_tの確率分布及びｌ_tの確率分布から、単語ｗ_tの分野依存性z_t及び単語極性ｌ_tを決定することができる。

また、文書中の各単語ｗ_tは、以下の（１）式に示すように、分野非存性である場合にはパラメータφ_0,ltである多項分布に従って単語が決定され、分野依存性を有する場合にはパラメータφ_1,lt,fdである多項分布に従って単語が決定される。

そして、文書ｄの極性は以下の（２）式に示すように、多項分布に従って決定される。

ただし、θ、φ、ψ はディレクレ分布のパラメータである。また、Ｎ_d,0は文書ｄで分野非依存として決定された単語数、Ｎ_d,1は文書ｄで分野依存として決定された単語数である。

ここで、

を観測変数とし、

を隠れ変数（ただし、ｙ＝｛ｙ^s、ｙ^t｝）とし、α、β、γ、ηをモデルパラメータとすると、この極性付き文書生成モデルの同時確率分布は以下の（３）式で表すことができる。ただし、θ、φ、ψ は積分消去されることに注意されたい。

上記（３）式における右辺の同時確率分布はぞれぞれ以下の（４）式〜（７）式で表わされる。

ただし、Γ(・)はガンマ分布を表す。Ｎ_v,1,s,fは分野ｆに単語ｖが極性ｓかつ分野依存として出現した回数、Ｎ_v,0,s は分野ｆには依存せずに単語ｖが極性ｓとして出現した回数、Ｎ_z(=1),dは文書ｄで分野依存として割り当てられた単語数、Ｎ_z(=0),dは文書ｄで分野非依存として割り当てられた単語数である。また、Ｎ_d,yは、極性ｙ（ｙは０か１をとる）を割り当てられた文書の数であり、Ｎ_s,dは、極性ｓ（ｓは０、１、２のいずれかをとる）を割り当てられた単語の数である。Ｉ( )は括弧の中が真のときに１、そうでないときに０を取る関数である。

本発明では、上記のように極性付き文書の生成過程をモデル化できることを利用し、分野依存性を考慮した単語の極性と文書の極性を判定する。なお、以下の実施形態では、マルコフ連鎖モンテカルロ法に基づいて単語の極性と文書の極性を判定する方法について記述するが、これ以外にも変分ベイズ法などを用いることも可能である。

＜システム構成＞
次に、観測データである文書データを入力として、文書データの極性を判定する文書極性判定装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。

図１に示すように、第１の実施の形態に係る文書極性判定装置は、文書データの入力を受け付ける入力部１と、文書データの極性を判定する演算部２と、判定結果を出力する出力部３と、を備えている。

入力部１は、既知のキーボード、マウス、記憶装置などの入力器により実現される。

出力部３は、ディスプレイ、プリンタ、磁気ディスクなどで実装される。

演算部２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）と、後述する文書極性判定処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）とを備えたコンピュータで構成され、機能的には次に示すように構成されている。演算部２は、データ記憶部２１、パラメータ初期値設定部２２、単語極性判定部２３、パラメータ更新部２４、繰り返し判定部２５、及び文書極性判定部２６を備えている。なお、データ記憶部２１が、記憶手段の一例であり、単語極性判定部２３が、単語極性決定手段の一例であり、繰り返し判定部２５及び文書極性判定部２６が、観測データ極性判定手段の一例である。

データ記憶部２１は、入力されたラベルあり文書データとラベルなし文書データとを記憶している。ラベルあり文書データは、文書データにラベル（極性）が付与されている。ラベルなし文書データは、文書データのラベルが付与されていない文書データ（極性を判定したい文書データ）である。ラベルあり文書データ及びラベルなし文書データのいずれに対しても、単語の極性は付与されていない。また、ラベルあり文書データ及びラベルなし文書データの各々に対して、分野が明示的に付与されているものとする。

パラメータ初期値設定部２２は、上記モデルを構成するパラメータα、β、γ、ηの初期値を設定する。α、β、γに対しては、適当に発生させた乱数を初期値として設定すればよく、ηに対しては予め定められた値を設定しておくものとする。

単語極性判定部２３は、以下に説明するように、与えられた各文書データｄの各単語ｗ_tに対し、上記モデルに従って決定された極性及び分野依存性である確率Ｐ（ｚ_t＝ｊ、ｌ_t＝ｋ｜ｗ、ｆ、ｙ^(s)、ｚ_-t、ｌ_-t、α、β、γ、η）を求める。

まず、ラベルあり文書データｄについて、以下のように、上記の確率Ｐ（ｚ_t＝ｊ、ｌ_t＝ｋ｜ｗ、ｆ、ｙ^(s)、ｚ_-t、ｌ_-t、 α、 β、 γ、 η）を算出する。

上述の極性付き文書生成モデルに基づいて、ラベルあり文書データｄ中の各単語ｗtの極性ｚ_tと各単語ｗtが分野依存であるか否かを示すｌ_tの値をサンプリングにより決定する。

ここでは、Dirichlet(β)に従う乱数を発生させてθ_dとし、次に、Multinomial(θ_d)に従う乱数を発生させて極性ｚ_tの値を決定する。ラベルあり文書データｄ中の全ての単語について行う。

また同様に、Dirichlet(β)に従う乱数を発生させてψ_dとし、次に、Multinomial(ψ_d)に従う乱数を発生させて分野依存性ｌ_tの値を決定する。ラベルあり文書データｄ中の全ての単語について行う。

上記のようにサンプリングにより決定した極性ｚ_t及び分野依存性ｌ_tを用いて、確率Ｐ（ｚ_t＝ｊ、ｌ_t＝ｋ｜ｗ、ｆ、ｙ^(s)、ｚ_-t、ｌ_-t、α、β、γ、η）を、以下の（８）式で計算する。

上記（８）式において、∝は、左辺が右辺に比例することを意味するが、ここでは＝と等価な意味と考えて良い。右辺のそれぞれの要素は、以下の（９）式〜（１４）式により計算できる。

なお、−ｔは、文書ｄでのｔ番目の単語を除いたときの回数、単語の数、文書の数を表す。ここで、上記（１２）式、（１３）式におけるｙ_dには、ラベルあり文書データに予め付与されている文書の極性が入る。

次に、ラベルなし文書データｄについて、以下に説明するように、ラベルあり文書データと同様に、上記の確率Ｐ（ｚ_t＝ｊ、ｌ_t＝ｋ｜ｗ、ｆ、ｙ^(s)、ｚ_-t、ｌ_-t、α、β、γ、η）を算出する。

まず、上述したように、サンプリングにより極性ｚ_t及び分野依存性ｌ_tを決定する。このとき、文書の極性が未知であるため、以下の（１５）式で算出される確率でサンプリングを行い、文書の極性ｙ_d ^(t)を決定する。

そのあと、ラベルあり文書データと同様の方法で、上記（８）式により確率Ｐ（ｚ_t＝ｊ、ｌ_t＝ｋ｜ｗ、ｆ、ｙ^(s)、ｚ_-t、ｌ_-t、α、β、γ、η）を求める。このとき、上記（１２）式、（１３）式におけるｙ_dには、上記（１５）式で算出される確率に従って決定されたｙ_d ^(t)の値を使用する。

パラメータ更新部２４は、上記モデルを構成するパラメータα、β、γの値を更新する。たとえば、ＦｉｘｅｄＰｏｉｎｔＩｔｅｒａｔｉｏｎ法を用いて、以下の（１６）式〜（１８）式に従って、パラメータα、β、γの値を更新し、最適化することができる。

ただし、Ψ(・)はディガンマ関数である。

なお、ηに関しては、予め人手で決定しておくため、更新を行わない。

繰り返し判定部２５は、所定の収束条件を満たすまで、単語極性判定部２３とパラメータ更新部２４の処理を繰り返し実行するよう制御し、所定の収束条件を満たしたら、繰り返し処理を終了し、文書極性判定部２６へ処理を移行する。

所定の収束条件とは、「予め定めた繰り返し回数に達したか否か」や、「更新前のパラメータα、β、γと更新後のパラメータα、β、γの誤差が所定の閾値以下となったか否か」などを用いる。あるいは、「単語極性判定部２３により各単語について上記（８）式に従って算出される確率に基づいて求められる尤度（例えば、上記（３）式に応じた尤度）が最大となったか否か」を所定の収束条件としてもよい。

隠れ変数ｚ、ｌ、ｙ^tを推定することができれば、ラベルが付与されていない文書データに対しても分野依存性を考慮した単語の極性と文書の極性を得ることができる。

そこで、文書極性判定部２６は、単語極性判定部２３（繰り返し判定部２５で反復実行した場合は、最後に実行された単語極性判定部２３）においてラベルなし文書データ中の各単語について計算した確率Ｐ（ｚ_t＝ｊ、ｌ_t＝ｋ｜ｗ、ｆ、ｙ^(s)、ｚ_-t、ｌ_-t、α、β、γ、η）を用いて、各単語について、極性を判定する。例えば、上記確率Ｐが、閾値以上であれば、サンプリングにより決定されていた単語の極性を、当該単語の極性として判定する。そして、文書極性判定部２６は、肯定と判定された単語数が否定を上回る場合には、文書の極性を肯定と判定し、その逆の場合には否定と判定する。

文書極性判定部２６の判定結果が、出力部３よりユーザに出力される。

＜文書極性判定装置の作用＞
次に、本実施の形態に係る文書極性判定装置の作用について説明する。まず、分野及び文書の極性が与えられたラベルあり文書データと、分野のみが与えられたラベルなし文書データとが入力部１を介して文書極性判定装置に入力され、データ記憶部２１に格納される。また、各種の定数（例えば、η）が、入力部１を介して文書極性判定装置に入力され、データ記憶部２１に格納される。

そして、文書極性判定装置の演算部２において、図２に示す文書極性判定処理ルーチンが実行される。

まず、ステップ１００において、データ記憶部２１に記憶されたラベルあり文書データ、ラベルなし文書データ、及び各種のパラメータを読み込み、取得する。そして、ステップ１０２において、乱数を用いて、モデルパラメータα、β、γの初期値を設定する。

次のステップ１０４では、上記ステップ１００で読み込んだラベルあり文書データ、及びパラメータα、β、γを用いて、サンプリングにより、ラベルあり文書データの各単語の極性及び分野依存性を決定し、上記（８）式に従って、各単語について、決定された極性及び分野依存性である確率を算出する。

そして、ステップ１０６において、上記ステップ１００で読み込んだラベルなし文書データ、及びパラメータα、β、γを用いて、サンプリングにより、ラベルなし文書データの各単語の極性及び分野依存性を決定すると共に、文書の極性を決定する。そして、上記（８）式に従って、各単語について、決定された極性及び分野依存性である確率を算出する。

次のステップ１０８では、上記（１６）式〜（１８）式に従って、上記ステップ１０２で初期値が設定された各パラメータα、β、γの値、又は、前回のステップ１０８で更新された各パラメータα、β、γの値を更新する。

ステップ１１０では、所定の収束条件として、予め定められた繰り返し回数に到達したか否かを判定し、当該繰り返し回数に到達していない場合には、所定の収束条件が成立していないと判断して、上記ステップ１０４へ戻り、上記ステップ１０４〜ステップ１０８の処理を繰り返す。一方、当該繰り返し回数に到達した場合には、所定の収束条件が成立したと判断し、ステップ１１２で、上記ステップ１０６においてラベルなし文書データの各単語について最終的に算出された、決定された極性及び分野依存性である確率を用いて、各単語の極性及び分野依存性を判定すると共に、文書の極性を判定する。

そして、ステップ１１４において、上記ステップ１１２で判定された判定結果を出力部３により出力して、文書極性判定処理ルーチンを終了する。

＜実験例＞
次に、本実施の形態で提案する文書及び単語の極性の判定方法を用いた実験の結果について説明する。実験では、本発明の有効性を示すため、上記の非特許文献２で利用されているＭｕｌｔｉ−ＤｏｍａｉｎＳｅｎｔｉｍｅｎｔＤａｔａｓｅを用いて評価実験を行った。このデータはＡｍａｚｏｎ（登録商標）のレビューデータ（文書データ）をもとに作成されており、全部で２８の分野から構成される。

実験では１００００の文書データ、１７個の分野を使用した。レビューデータには５段階のスコアが付いており、スコア４と５が正の極性を持つ文書、スコア１と２が負の極性を持つ文書として扱った。

また、比較手法として、分野を考慮しない文書の極性及び単語の極性判定を行った。

実験では、以下の手順を１０回繰り返し、その分類精度の平均値を記録した。

（１)１７個の分野のうち３つの分野に属する文書データをラベルなし文書データとして選択する。
（２）残りの分野のうち、ｎ個の分野に属する文書データをラベルあり文書データとして選択し、ラベルなし文書データの極性を判定する。
（３）上記（２）の手順を、ｎ＝１〜１４の場合についてそれぞれ行った。

評価結果を図３に示す。図３中の「Ｐｒｏｐｏｓａｌ」が本発明で提案した手法であり、「Ｂａｓｅｌｉｎｅ」は比較手法である。上記図３に示すように、単語極性の分野依存／非依存を考慮した提案手法の方が、比較手法より優れていることが分かった。

次に、図４に、分野非依存な単語として判定された単語の例を示す。また、図５に、エレクトロニクス分野に依存する単語として判定された単語の例を示し、図６に、キッチン分野に依存する単語として判定された単語の例を示す。これらの単語は、Ｐ（ｗ_t|ｌ_t、ｚ_t、ｆ_d)＝φｚ_t、ｌ_t、ｆ_dが上位となる単語である。

上記図４に示すように、’ｇｒｅａｔ’、’ｂａｄ’など、分野に依存せず正、負の極性が決定できるような単語が抽出された。また、上記図５や図６では’ｃｏｍｆｏｒｔａｂｌｅ’、’ｒｅｓｐｏｎｓｉｖｅ’、’ｕｓｅｌｅｓｓ’、’ｆｕｎｃｔｉｏｎａｌｌｙ’など、分野に依存して正、負の極性が決定できるような単語が抽出された。

以上説明したように、本実施の形態に係る文書極性判定装置によれば、極性付き文書データを生成する過程をモデル化した極性付き文書生成モデルに従って、サンプリングにより、ラベルあり文書データ及びラベルなし文書データの各々に含まれる各単語について極性及び分野依存性を決定して、各単語について、決定された極性及び分野依存性である確率を算出する処理と、極性付き文書生成モデルのパラメータの更新とを繰り返して、ラベルなし観測データの各単語の極性を判定すると共に、文書データの極性を判定することにより、各単語の分野依存性を考慮した上で、文書データの極性を精度よく判定することができる。

また、文書データの中の単語に対し、文書データの属する分野を考慮して単語の極性を決定することができ、文書データの分野によらず正しく単語の極性を判定できるようになるため、たとえば、レビューデータに基づく評判分析の性能を向上させることができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、観測データとして画像データを入力し、観測データに含まれる離散データとして、画像データの特徴を用い、画像データが属する分野を考慮して、画像データの特徴の極性を判定すると共に、画像データの極性を判定するようにしてもよい。この場合には、上記の実施の形態で説明した単語及び文書データの極性判定方法において、文書データを、画像データに読み替える共に、文書データの単語を、画像データから抽出される複数種類の特徴（色など）に読み替えればよい。

また、単語の極性が、肯定、否定、及び中立である場合を例に説明したが、これに限定されるものではなく、例えば、肯定及び否定の２種類を、単語の極性としてもよい。

また、上述の文書極性判定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１入力部
２演算部
３出力部
２１データ記憶部
２２パラメータ初期値設定部
２３単語極性判定部
２４パラメータ更新部
２５繰り返し判定部
２６文書極性判定部

Claims

単語の集合を含む文書データに対する極性を判定するデータ極性判定装置であって、
文書データが属する分野及び文書データの極性が付与されたラベルあり文書データ、及び前記分野が付与され、かつ、前記極性が付与されていないラベルなし文書データを記憶した記憶手段と、
各単語が各極性を持つ確率を示す第１確率分布、及び各単語が極性の分野依存性を有する確率を示す第２確率分布に従って、文書データの各単語の極性及び分野依存性を決定して、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化した生成モデルのパラメータの初期値を設定する初期値設定手段と、
前記ラベルあり文書データに含まれる各単語について、前記生成モデルの前記第１確率分布及び前記第２確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について、前記ラベルあり文書データの前記極性及び前記分野と前記生成モデルとに基づいて、前記決定された極性及び分野依存性である確率を算出すると共に、
前記ラベルなし文書データに含まれる各単語について、前記生成モデルの前記第１確率分布及び前記第２確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について決定された前記極性に基づいて、前記ラベルなし文書データの極性を決定し、各単語について、前記決定された前記ラベルなし文書データの極性、前記ラベルなし文書データの前記分野、及び前記生成モデルに基づいて、前記決定された極性及び分野依存性である確率を算出する単語極性決定手段と、
前記生成モデルのパラメータを更新するパラメータ更新手段と、
前記単語極性決定手段による算出と前記生成モデル更新手段による更新とを繰り返して、所定の収束条件を満たしたときに、その時点の前記ラベルなし文書データの各単語について算出された、前記決定された極性及び分野依存性である確率に基づいて、各単語の極性を判定し、前記判定された各単語の極性に基づいて、前記ラベルなし文書データの極性を判定する文書データ極性判定手段と、
を含むデータ極性判定装置。
前記生成モデルを、
前記第１確率分布及び前記第２確率分布に従って、各単語の極性及び分野依存性を決定し、決定された極性及び分野依存性と、文書データ内に各極性として各単語が出現する確率を示す確率分布と、各分野において前記分野に属する文書データ内に各極性として各単語が出現する確率を示す確率分布とに基づいて、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化したものとした請求項１記載のデータ極性判定装置。
前記第１確率分布及び前記第２確率分布の各々を、前記生成モデルのパラメータに基づいて決定する請求項１又は２記載のデータ極性判定装置。
前記極性を、肯定及び否定、又は肯定、否定、及び中立とした請求項１〜請求項３の何れか１項記載のデータ極性判定装置。
単語の集合を含む文書データに対する極性を判定するために、文書データが属する分野及び文書データの極性が付与されたラベルあり文書データ、及び前記分野が付与され、かつ、前記極性が付与されていないラベルなし文書データを記憶した記憶手段と、初期値設定手段と、単語極性決定手段と、パラメータ更新手段と、文書データ極性判定手段とを含むデータ極性判定装置におけるデータ極性判定方法であって、
前記データ極性判定装置は、
前記初期値設定手段によって、各単語が各極性を持つ確率を示す第１確率分布、及び各単語が極性の分野依存性を有する確率を示す第２確率分布に従って、文書データの各単語の極性及び分野依存性を決定して、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化した生成モデルのパラメータの初期値を設定するステップと、
前記単語極性決定手段によって、前記ラベルあり文書データに含まれる各単語について、前記生成モデルの前記第１確率分布及び前記第２確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について、前記ラベルあり文書データの前記極性及び前記分野と前記生成モデルとに基づいて、前記決定された極性及び分野依存性である確率を算出すると共に、
前記ラベルなし文書データに含まれる各単語について、前記生成モデルの前記第１確率分布及び前記第２確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について決定された前記極性に基づいて、前記ラベルなし文書データの極性を決定し、各単語について、前記決定された前記ラベルなし文書データの極性、前記ラベルなし文書データの前記分野、及び前記生成モデルに基づいて、前記決定された極性及び分野依存性である確率を算出するステップと、
前記パラメータ更新手段によって、前記生成モデルのパラメータを更新するステップと、
前記文書データ極性判定手段によって、前記単語極性決定手段による算出と前記生成モデル更新手段による更新とを繰り返して、所定の収束条件を満たしたときに、その時点の前記ラベルなし文書データの各単語について算出された、前記決定された極性及び分野依存性である確率に基づいて、各単語の極性を判定し、前記判定された各単語の極性に基づいて、前記ラベルなし文書データの極性を判定するステップと、
を含んで実行することを特徴とするデータ極性判定方法。
請求項１〜請求項４の何れか１項に記載のデータ極性判定装置を構成する各手段として、コンピュータを機能させることを特徴とするプログラム。