JP5503577B2 - データ極性判定装置、方法、及びプログラム - Google Patents
データ極性判定装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5503577B2 JP5503577B2 JP2011042663A JP2011042663A JP5503577B2 JP 5503577 B2 JP5503577 B2 JP 5503577B2 JP 2011042663 A JP2011042663 A JP 2011042663A JP 2011042663 A JP2011042663 A JP 2011042663A JP 5503577 B2 JP5503577 B2 JP 5503577B2
- Authority
- JP
- Japan
- Prior art keywords
- polarity
- word
- document data
- field
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
J. Blitzer, M. Dredze, and F. Pereira. "Biographies, bollywood, boom-boxes and blenders: Domain adaptation for sentiment classification", In Proceedings of the 45th Annual Meetings of the Association of Computational Linguistics, pages 440-447, 2007.
(b)分野に依存かつ極性が否定である単語(zdt=1かつldt=0)
(c)分野に依存かつ極性が中立である単語(zdt=1かつldt=2)
(d)分野に非依存かつ極性が肯定である単語(zdt=0かつldt=1)
(e)分野に非依存かつ極性が否定である単語(zdt=0かつldt=0)
(f)分野に非依存かつ極性が中立である単語(zdt=0かつldt=2)
次に、観測データである文書データを入力として、文書データの極性を判定する文書極性判定装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
次に、本実施の形態に係る文書極性判定装置の作用について説明する。まず、分野及び文書の極性が与えられたラベルあり文書データと、分野のみが与えられたラベルなし文書データとが入力部1を介して文書極性判定装置に入力され、データ記憶部21に格納される。また、各種の定数(例えば、η)が、入力部1を介して文書極性判定装置に入力され、データ記憶部21に格納される。
次に、本実施の形態で提案する文書及び単語の極性の判定方法を用いた実験の結果について説明する。実験では、本発明の有効性を示すため、上記の非特許文献2で利用されているMulti−Domain Sentiment Dataseを用いて評価実験を行った。このデータはAmazon(登録商標)のレビューデータ(文書データ)をもとに作成されており、全部で28の分野から構成される。
(2)残りの分野のうち、n個の分野に属する文書データをラベルあり文書データとして選択し、ラベルなし文書データの極性を判定する。
(3)上記(2)の手順を、n=1〜14の場合についてそれぞれ行った。
2 演算部
3 出力部
21 データ記憶部
22 パラメータ初期値設定部
23 単語極性判定部
24 パラメータ更新部
25 繰り返し判定部
26 文書極性判定部
Claims (6)
- 単語の集合を含む文書データに対する極性を判定するデータ極性判定装置であって、
文書データが属する分野及び文書データの極性が付与されたラベルあり文書データ、及び前記分野が付与され、かつ、前記極性が付与されていないラベルなし文書データを記憶した記憶手段と、
各単語が各極性を持つ確率を示す第1確率分布、及び各単語が極性の分野依存性を有する確率を示す第2確率分布に従って、文書データの各単語の極性及び分野依存性を決定して、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化した生成モデルのパラメータの初期値を設定する初期値設定手段と、
前記ラベルあり文書データに含まれる各単語について、前記生成モデルの前記第1確率分布及び前記第2確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について、前記ラベルあり文書データの前記極性及び前記分野と前記生成モデルとに基づいて、前記決定された極性及び分野依存性である確率を算出すると共に、
前記ラベルなし文書データに含まれる各単語について、前記生成モデルの前記第1確率分布及び前記第2確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について決定された前記極性に基づいて、前記ラベルなし文書データの極性を決定し、各単語について、前記決定された前記ラベルなし文書データの極性、前記ラベルなし文書データの前記分野、及び前記生成モデルに基づいて、前記決定された極性及び分野依存性である確率を算出する単語極性決定手段と、
前記生成モデルのパラメータを更新するパラメータ更新手段と、
前記単語極性決定手段による算出と前記生成モデル更新手段による更新とを繰り返して、所定の収束条件を満たしたときに、その時点の前記ラベルなし文書データの各単語について算出された、前記決定された極性及び分野依存性である確率に基づいて、各単語の極性を判定し、前記判定された各単語の極性に基づいて、前記ラベルなし文書データの極性を判定する文書データ極性判定手段と、
を含むデータ極性判定装置。 - 前記生成モデルを、
前記第1確率分布及び前記第2確率分布に従って、各単語の極性及び分野依存性を決定し、決定された極性及び分野依存性と、文書データ内に各極性として各単語が出現する確率を示す確率分布と、各分野において前記分野に属する文書データ内に各極性として各単語が出現する確率を示す確率分布とに基づいて、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化したものとした請求項1記載のデータ極性判定装置。 - 前記第1確率分布及び前記第2確率分布の各々を、前記生成モデルのパラメータに基づいて決定する請求項1又は2記載のデータ極性判定装置。
- 前記極性を、肯定及び否定、又は肯定、否定、及び中立とした請求項1〜請求項3の何れか1項記載のデータ極性判定装置。
- 単語の集合を含む文書データに対する極性を判定するために、文書データが属する分野及び文書データの極性が付与されたラベルあり文書データ、及び前記分野が付与され、かつ、前記極性が付与されていないラベルなし文書データを記憶した記憶手段と、初期値設定手段と、単語極性決定手段と、パラメータ更新手段と、文書データ極性判定手段とを含むデータ極性判定装置におけるデータ極性判定方法であって、
前記データ極性判定装置は、
前記初期値設定手段によって、各単語が各極性を持つ確率を示す第1確率分布、及び各単語が極性の分野依存性を有する確率を示す第2確率分布に従って、文書データの各単語の極性及び分野依存性を決定して、文書データの各単語を生成することにより、極性を持つ文書データを生成する過程をモデル化した生成モデルのパラメータの初期値を設定するステップと、
前記単語極性決定手段によって、前記ラベルあり文書データに含まれる各単語について、前記生成モデルの前記第1確率分布及び前記第2確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について、前記ラベルあり文書データの前記極性及び前記分野と前記生成モデルとに基づいて、前記決定された極性及び分野依存性である確率を算出すると共に、
前記ラベルなし文書データに含まれる各単語について、前記生成モデルの前記第1確率分布及び前記第2確率分布に従って、前記単語の極性及び前記極性の分野依存性を決定し、各単語について決定された前記極性に基づいて、前記ラベルなし文書データの極性を決定し、各単語について、前記決定された前記ラベルなし文書データの極性、前記ラベルなし文書データの前記分野、及び前記生成モデルに基づいて、前記決定された極性及び分野依存性である確率を算出するステップと、
前記パラメータ更新手段によって、前記生成モデルのパラメータを更新するステップと、
前記文書データ極性判定手段によって、前記単語極性決定手段による算出と前記生成モデル更新手段による更新とを繰り返して、所定の収束条件を満たしたときに、その時点の前記ラベルなし文書データの各単語について算出された、前記決定された極性及び分野依存性である確率に基づいて、各単語の極性を判定し、前記判定された各単語の極性に基づいて、前記ラベルなし文書データの極性を判定するステップと、
を含んで実行することを特徴とするデータ極性判定方法。 - 請求項1〜請求項4の何れか1項に記載のデータ極性判定装置を構成する各手段として、コンピュータを機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011042663A JP5503577B2 (ja) | 2011-02-28 | 2011-02-28 | データ極性判定装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011042663A JP5503577B2 (ja) | 2011-02-28 | 2011-02-28 | データ極性判定装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012181602A JP2012181602A (ja) | 2012-09-20 |
JP5503577B2 true JP5503577B2 (ja) | 2014-05-28 |
Family
ID=47012764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011042663A Active JP5503577B2 (ja) | 2011-02-28 | 2011-02-28 | データ極性判定装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5503577B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107077470A (zh) * | 2014-10-31 | 2017-08-18 | 隆沙有限公司 | 聚焦的语义分类 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102410715B1 (ko) * | 2020-11-10 | 2022-06-20 | 주식회사 데이터캐스트 | 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법 |
-
2011
- 2011-02-28 JP JP2011042663A patent/JP5503577B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107077470A (zh) * | 2014-10-31 | 2017-08-18 | 隆沙有限公司 | 聚焦的语义分类 |
Also Published As
Publication number | Publication date |
---|---|
JP2012181602A (ja) | 2012-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Goikoetxea et al. | Random walks and neural network language models on knowledge bases | |
Baumann et al. | Reliable estimation of prediction errors for QSAR models under model uncertainty using double cross-validation | |
WO2020062770A1 (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
EP2991003B1 (en) | Method and apparatus for classification | |
JP6611053B2 (ja) | 主題推定システム、主題推定方法およびプログラム | |
CN108475262A (zh) | 用于文本处理的电子设备和方法 | |
JP6498095B2 (ja) | 単語埋込学習装置、テキスト評価装置、方法、及びプログラム | |
JP2019511033A5 (ja) | ||
JP6291443B2 (ja) | 接続関係推定装置、方法、及びプログラム | |
JP6312467B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6172317B2 (ja) | 混合モデル選択の方法及び装置 | |
Huang et al. | Conditional diffusion based on discrete graph structures for molecular graph generation | |
Nunn et al. | Phylogenetic prediction to identify “evolutionary singularities” | |
JP2018097468A (ja) | 文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラム | |
CN113869034A (zh) | 基于强化依赖图的方面情感分类方法 | |
JP5503577B2 (ja) | データ極性判定装置、方法、及びプログラム | |
JP7452623B2 (ja) | 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム | |
Roos et al. | Analysis of textual variation by latent tree structures | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
JP2014115685A (ja) | プロファイル解析装置及び方法及びプログラム | |
JP2017142746A (ja) | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム | |
JP2016197289A (ja) | パラメタ学習装置、類似度算出装置、方法、及びプログラム | |
JP2017538226A (ja) | スケーラブルなウェブデータの抽出 | |
JP6368633B2 (ja) | 用語意味学習装置、用語意味判定装置、方法、及びプログラム | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120629 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131210 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140304 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5503577 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |