JP2008204355A - 辞書作成方法 - Google Patents
辞書作成方法 Download PDFInfo
- Publication number
- JP2008204355A JP2008204355A JP2007042309A JP2007042309A JP2008204355A JP 2008204355 A JP2008204355 A JP 2008204355A JP 2007042309 A JP2007042309 A JP 2007042309A JP 2007042309 A JP2007042309 A JP 2007042309A JP 2008204355 A JP2008204355 A JP 2008204355A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- elements
- positive
- negative
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】記憶手段に記憶されている記事を複数の要素に分類わけし、該分類わけされた要素それぞれと各要素の特徴を示す情報とを有する辞書を作成する辞書作成方法であって、前記分類わけされた要素がポジティブなものかネガティブなものかを解析して、前記要素を、ポジティブ辞書およびネガティブ辞書などの複数の辞書に蓄積するインスタンス周辺形態素解析・蓄積機能aと、ポジティブ辞書の要素とネガティブ辞書の要素とを比較して、同一の場合、該同一の要素をポジティブ辞書およびネガティブ辞書から削除するPN抽出機能bとを有する。
【選択図】図1
Description
Amazon web site、[online]、[平成19年1月20日検索]、インターネット〈URL: http://www.amazon.com/〉 last.fm web site、[online]、[平成19年1月20日検索]、インターネット〈URL: http://www.last.fm〉 LiveJournal web site、[online]、[平成19年1月20日検索]、インターネット〈URL: http://www.livejournal.com/〉 Mishne, G.: Experiments with Classification in Blog Posts, Style 2005- the 1st Work-shop on Stylistic Analysis Of Text For Information Access, at SIGIR 2005, SIGIR, ACM (2005). Mishne, G. and de Rijke, M.: Capturing Global Mood Levels using Blog Posts, AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW 2006) (Nicolov, N., Salvetti, F., Liberman, M. and Martin, J.(eds.)), AAAI Press, pp. 145−152 (2006). Nakatsuji, M., Miyoshi, Y. and Otsuka, Y.: Innovation Detection Based on User-Interest Ontology of Blog Community., International Semantic Web Conference, pp. 515−528 (2006). Turney, P. D.: Thumbs Up or Thumbs Down? Semantic Orientation Applied to Un-supervised Classification of Reviews, Proceedings of the 40th Annual Meeting of the Association of Computational Linguistics, Philadelphia, Pennsylvania, pp. 417−424 (2002). 中辻真、三好優、大塚祥広:ユーザ興味オントロジ抽出によるブログコミュニティ形成手法、日本データベース学会Letters、Vo1.5, No.1(2006).
こうしたPN判定に関する研究として、非特許文献7では、記事集合に対し、ポジティブ語やネガティブ語との共起性を基に、単語のみでなくフレーズのPN判定を実施する。そして、非特許文献7では、記事内のフレーズをチェックし、平均的にポジティブであればポジティブな記事と分類し、それ以外はネガティブと判定するPN判定を実施し、高精度を得ている。しかし、映画記事に対する検証では、記事内における「more evil」などのフレーズはホラーなどのジャンルによってはポジティブな記述であることも多いにも関わらず、映画全体ではネガティブフレーズとなるなど、記事内での話題対象となるインスタンスの背景となるクラス分類知識(オントロジ)まで考慮したPN判定を実施できているとはいえない。
各クラス毎に特徴的なPNM辞書(自動生成P辞書3、自動生成N辞書4、自動生成M辞書5)を自動的に生成するため、まずポジティブ、ネガティブ、感性それぞれに対してベースとなる辞書であるベースPNM辞書1を人手などによって生成する。ベースPNM辞書1に登録する語としては、PNM辞書を自動生成したい場合は、品詞として形容詞や形容動詞を選び、かつ多様なクラスに汎用的に適用可能な形態素を選択する。なお、形態素とは、言語において意味を持つ最小単位をいう。例えば、「お待ちしております。」という記載は、「お待ち」、「し」、「て」、「おり」、「ます」、「。」の各形態素に分割することができる。
次に、各クラスに分類された記事集合を用い、各クラスの特徴に沿ったPNM辞書を自動生成する。以下、PNM辞書生成の場合の辞書自動生成の手順を図2を用い説明する。図2は、PNM辞書の生成手順の一例を示す説明図である。
クラスCiとその配下に属するクラスからなるクラス集合S(C(Ci))に分類された記事集合S(E(Ci))に所属する記事
上記のインスタンス周辺形態素解析・蓄積機能aによって自動生成P辞書3に生成されたポジティブ特徴辞書P(Ci)は、単純に、ベースPNM辞書1におけるポジティブベース辞書内の登録形態素と共起して出現した形態素を登録しただけであり、必ずしもポジティブ・ネガティブを判別するために利用できる辞書であるとは限らない。そこで、辞書P(Ci)について、ネガティブベース辞書とポジティブベース辞書とを比較してポジティブベース辞書の方に多く頻出する形態素を抽出するため、辞書P(Ci)と辞書N(Ci)とで登録された形態素
次に、自動生成P辞書3において、各クラスの特性のみを反映したポジティブ特徴辞書を生成するため、クラス集合S(C(Ci))とは異なるクラス集合S(C(Cj))に対し生成された辞書P(Cj)と、クラス集合S(C(Ci))に対して生成された辞書P(Ci)を比較する。ここで、クラスCiに対し特徴的な辞書を構築することを狙うため、クラス集合S(C(Ci))とクラス集合S(C(Cj))は互いに疎な関係であるとする。比較方法としては、上記のPN抽出機能bの手順と同様に、辞書P(Ci)と辞書P(Cj)とで登録された形態素
ここで、クラスCiとクラスCjがクラス階層として近い場合、つまり、意味的に近い場合、各クラスにより特徴的な語が情報集合に残るが、残る単語数が少なくなる。一方、クラスCiとクラスCjがクラス階層として遠い場合、つまり、意味的に遠い場合、より一般的な語のみが情報集合から削除され、残る単語数は多い。本比較対象クラス決定機能dでは、比較元クラスと比較対象とするクラスの意味的な距離を調整したり、比較対象となるクラスの数を調整することで、自動生成P辞書3、自動生成N辞書4および自動生成M辞書5として最終的に生成される各辞書内の形態素の精度と数を調整することができる。ここで、意味的な距離の算出方法は、例えば、比較元クラスから比較対象候補となるクラスまでたどったときに、経由するクラスの数などで表現できる。
PNM辞書のみでなく、例えば領域が「ファッション」であり、クラスが「セクシー」というジャンルであり、インスタンスが「VIVAYOU」というブランドであった場合、「VIVAYOU」に対して特徴的な属性(アイテムやモデルなど)を抽出したければ、クラス分類記事2から抽出する形態素を名詞などに指定する。そして、本生成辞書・ベース属性辞書比較機能において、抽出された名詞などとベース属性辞書6とを比較し、抽出された名詞の中からそのインスタンスに特徴的な属性を生成し、この属性を自動生成名詞など辞書7に蓄積する。
きらに、自動生成された名詞などをチェックする本自動生成名詞など辞書チェック機能fでは、自動生成名詞など辞書7の保持されている自動生成された名詞辞書を人手などによりチェックし、ベース属性辞書に追加しても良いと判断できる名詞などが存在した場合、属性ベース辞書6に追加する。例えば、属性ベース辞書6になかった「蝶ネクタイ」という名詞と名詞の組合せフレーズが出現した場合は、この「蝶ネクタイ」をベース属性辞書6(ここではアイテム)に追加し、ベース属性辞書6を更新する。
本実施形態によれば、ユーザが記述したプログ記事集合などから、ユーザの興味を自動的に抽出することで、ユーザ毎への推薦など、ユーザに特化したマーケティングを実施することができる。そうした推薦を行う際に、ユーザがポジティブな興味を持つ場合は積極的に推薦し、ネガティブな興味を持つ場合は推薦しないなどの振り分けに本発明は効果を持つ。また、多数のユーザの記述を解析することで、ユーザの記述対象に対する感性情報や、その対象に関連する商品情報(例えば、ブランド「バーバリ一」といえば、「トレンチコート」であるなど)を得ることもでき、感性や属性をベースとし、対象を検索するということもできるため、ユーザは多数の観点から情報を検索することができる。
2 クラス分類記事
3 自動生成P辞書
4 自動生成N辞書
5 自動生成M辞書
6 ベース属性辞書
7 自動生成名詞など辞書
a インスタンス周辺形態素解析・蓄積機能
b PN抽出機能
c クラス特徴辞書生成機能
d 比較対象クラス決定機能
e ベース属性辞書比較機能
f 自動生成名詞など辞書チェック機能
Claims (10)
- 通信回線を介してアクセス可能な記憶手段に記憶されている記事を複数の要素に分類わけし、該分類わけされた要素それぞれと各要素の特徴を示す情報とを有する辞書を作成する辞書作成方法であって、
前記分類わけされた要素がポジティブなものかネガティブなものかを少なくとも解析して、該解析結果に基づいて前記要素を、ポジティブ辞書およびネガティブ辞書を少なくとも含む複数の辞書のいずれかに蓄積する解析・蓄積ステップ(a)と、
前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該同一の要素を前記ポジティブ辞書およびネガティブ辞書から削除するPN抽出ステップ(b)とを有することを特徴とする辞書作成方法。 - ポジティブな意味を有する語が蓄積されているポジティブベース辞書と、ネガティブな意味を有する語が蓄積されているネガティブベース辞書と、感性についての意味を有する語が蓄積されている感性ベース辞書とを少なくとも生成するベース辞書生成ステップを更に有し、
前記解析・蓄積ステップは、
前記分類わけされた要素と前記ポジティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ポジティブ辞書に蓄積するステップと、
前記分類わけされた要素と前記ネガティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ネガティブ辞書に蓄積するステップと、
前記分類わけされた要素と前記感性ベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記感性辞書に蓄積するステップと、
前記分類わけされた要素が名詞などの所定の品詞であるか否か解析して、所定の品詞である場合は、該要素を名詞など辞書に蓄積するステップとを有することを特徴とする請求項1に記載の辞書作成方法。 - 前記分類わけされた要素は、クラス毎に分類されており、
前記クラスは、該クラスに所属する要素の集合の持つ特性を制約するものであって、要素の持つ背景知識を示す情報を有するものであり、
前記解析・蓄積ステップは、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のそれぞれに対して、クラス毎に前記要素を蓄積するステップを有し、
前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書内において、異なる2つのクラスの要素同士を比較し、同一の要素を該辞書から削除するクラス特徴辞書生成ステップ(c)をさらに有することを特徴とする請求項2に記載の辞書作成方法。 - 前記クラス特徴辞書生成ステップにおいて比較対象とされる2つのクラスを決定するステップであって、2つクラス間の意味的な距離を算出して、該距離が所定値よりも大きい場合、該2つのクラスを前記比較対象とされる2つのクラスに決定する比較対象クラス決定ステップ(d)をさらに有することを特徴とする請求項3に記載の辞書作成方法。
- 複数の属性を有するとともに属性毎に形態素またはフレーズが登録されているベース属性辞書を使用して、前記ベース属性辞書に登録されている形態素またはフレーズと前記前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書の要素とを比較し、一致する場合、該形態素またはフレーズを該要素に対する属性として決定するとともに、該決定事項を前記名詞など辞書に蓄積する生成辞書・ベース属性辞書比較ステップ(e)をさらに有することを特徴とする請求項4に記載の辞書作成方法。
- 前記名詞など辞書に蓄積されているもののうち、前記ベース属性辞書に蓄積されていないものがあるか否か判断し、ある場合、該ものを前記ベース属性辞書に蓄積させる名詞など辞書チェックステップ(f)をさらに有することを特徴とする請求項5に記載の辞書作成方法。
- 前記PN抽出ステップは、
前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該比較した要素の前記ポジティブ辞書およびネガティブ辞書それぞれでの出現回数をも考慮して、該要素が前記ポジティブ辞書およびネガティブ辞書の両辞書に頻出する語であるか否か判断して、両辞書に頻出する語であると判断した場合は、該要素を前記ポジティブ辞書およびネガティブ辞書から削除することを特徴とする請求項6に記載の辞書作成方法。 - 前記クラス特徴辞書生成ステップは、
前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書内において、異なる2つのクラスの要素同士を比較して、該比較した要素同士が同一の場合、該比較した要素の該2つのクラスでの出現回数をも考慮して、該要素が該2つのクラスで頻出する語であると判断した場合は、該要素を該辞書から削除することを特徴とする請求項7に記載の辞書作成方法。 - 前記要素は、形態素またはフレーズであることを特徴とする請求項8に記載の辞書作成方法。
- 前記ベースPNM辞書、クラス分類記事、自動生成P辞書、自動生成N辞書、自動生成M辞書、ベース属性辞書および自動生成名詞など辞書は、データベースで構成されており、
前記各ステップにおける各処理は、コンピュータとブラウザとインターネットとを使用して実行され、
前記記事は、ブログであることを特徴とする請求項9に記載の辞書作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007042309A JP4879775B2 (ja) | 2007-02-22 | 2007-02-22 | 辞書作成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007042309A JP4879775B2 (ja) | 2007-02-22 | 2007-02-22 | 辞書作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008204355A true JP2008204355A (ja) | 2008-09-04 |
JP4879775B2 JP4879775B2 (ja) | 2012-02-22 |
Family
ID=39781770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007042309A Active JP4879775B2 (ja) | 2007-02-22 | 2007-02-22 | 辞書作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4879775B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011039861A (ja) * | 2009-08-13 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 感性情報付与装置、その方法およびプログラム |
JP2012226747A (ja) * | 2011-04-21 | 2012-11-15 | Palo Alto Research Center Inc | 感情分類を向上させるためにsvm学習に用語集知識を組み込むこと |
WO2014065392A1 (ja) * | 2012-10-26 | 2014-05-01 | 日本電気株式会社 | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
JP2014154051A (ja) * | 2013-02-13 | 2014-08-25 | Kddi Corp | 不特定多数のユーザからの投稿文を用いて特定の異常を検知する異常検知装置、プログラム及び方法 |
JP2015007928A (ja) * | 2013-06-26 | 2015-01-15 | カシオ計算機株式会社 | 情報処理装置、コンテンツ課金システム及びプログラム |
JP2017224335A (ja) * | 2017-08-09 | 2017-12-21 | カシオ計算機株式会社 | 情報処理装置、情報処理方法、及びプログラム |
-
2007
- 2007-02-22 JP JP2007042309A patent/JP4879775B2/ja active Active
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011039861A (ja) * | 2009-08-13 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 感性情報付与装置、その方法およびプログラム |
JP2012226747A (ja) * | 2011-04-21 | 2012-11-15 | Palo Alto Research Center Inc | 感情分類を向上させるためにsvm学習に用語集知識を組み込むこと |
WO2014065392A1 (ja) * | 2012-10-26 | 2014-05-01 | 日本電気株式会社 | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
JPWO2014065392A1 (ja) * | 2012-10-26 | 2016-09-08 | 日本電気株式会社 | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
JP2014154051A (ja) * | 2013-02-13 | 2014-08-25 | Kddi Corp | 不特定多数のユーザからの投稿文を用いて特定の異常を検知する異常検知装置、プログラム及び方法 |
JP2015007928A (ja) * | 2013-06-26 | 2015-01-15 | カシオ計算機株式会社 | 情報処理装置、コンテンツ課金システム及びプログラム |
JP2017224335A (ja) * | 2017-08-09 | 2017-12-21 | カシオ計算機株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4879775B2 (ja) | 2012-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deveaud et al. | Accurate and effective latent concept modeling for ad hoc information retrieval | |
Hu et al. | Reviewer credibility and sentiment analysis based user profile modelling for online product recommendation | |
Eirinaki et al. | Feature-based opinion mining and ranking | |
Almatrafi et al. | Application of location-based sentiment analysis using Twitter for identifying trends towards Indian general elections 2014 | |
Tewari et al. | Sequencing of items in personalized recommendations using multiple recommendation techniques | |
Na et al. | Comparing sentiment expression in movie reviews from four online genres | |
JP2011175362A (ja) | 情報処理装置、重要度算出方法及びプログラム | |
Ahmed | Detecting opinion spam and fake news using n-gram analysis and semantic similarity | |
Spina et al. | Discovering filter keywords for company name disambiguation in twitter | |
JP5318034B2 (ja) | 情報提供装置、情報提供方法、及び情報提供プログラム | |
Osmani et al. | Enriched latent dirichlet allocation for sentiment analysis | |
JP4879775B2 (ja) | 辞書作成方法 | |
KR100954842B1 (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
Sarkar et al. | Automatic bangla text summarization using term frequency and semantic similarity approach | |
KR20140047226A (ko) | 이슈 일지를 제공하는 단말기, 이슈 일지를 생성하는 서버 및 이슈 일지 제공 및 생성 방법 | |
Iskandarli | Applying clustering and topic modeling to automatic analysis of citizens’ comments in E-Government | |
Alasmari et al. | Sentiment detection, recognition and aspect identification | |
Kaur et al. | A comprehensive overview of sentiment analysis and fake review detection | |
Kawase et al. | Exploiting the wisdom of the crowds for characterizing and connecting heterogeneous resources | |
Itani | Sentiment analysis and resources for informal Arabic text on social media | |
Bogers | Recommender systems for social bookmarking | |
Panchal et al. | The social hashtag recommendation for image and video using deep learning approach | |
Yu et al. | An adaptive model for probabilistic sentiment analysis | |
Kumaran et al. | Detection of fake online reviews using semi supervised and supervised learning | |
Kadam et al. | Big data analytics-recommendation system with Hadoop Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110308 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111122 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111130 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4879775 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |