JP2008204355A - 辞書作成方法 - Google Patents

辞書作成方法 Download PDF

Info

Publication number
JP2008204355A
JP2008204355A JP2007042309A JP2007042309A JP2008204355A JP 2008204355 A JP2008204355 A JP 2008204355A JP 2007042309 A JP2007042309 A JP 2007042309A JP 2007042309 A JP2007042309 A JP 2007042309A JP 2008204355 A JP2008204355 A JP 2008204355A
Authority
JP
Japan
Prior art keywords
dictionary
elements
positive
negative
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007042309A
Other languages
English (en)
Other versions
JP4879775B2 (ja
Inventor
Makoto Nakatsuji
真 中辻
Makoto Yoshida
吉田  誠
Yoshitaka Hirano
美貴 平野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007042309A priority Critical patent/JP4879775B2/ja
Publication of JP2008204355A publication Critical patent/JP2008204355A/ja
Application granted granted Critical
Publication of JP4879775B2 publication Critical patent/JP4879775B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ブログなどの記事を分類わけし、その内容を特徴付ける辞書を従来よりも高精度に作成することができる辞書作成方法を提供する。
【解決手段】記憶手段に記憶されている記事を複数の要素に分類わけし、該分類わけされた要素それぞれと各要素の特徴を示す情報とを有する辞書を作成する辞書作成方法であって、前記分類わけされた要素がポジティブなものかネガティブなものかを解析して、前記要素を、ポジティブ辞書およびネガティブ辞書などの複数の辞書に蓄積するインスタンス周辺形態素解析・蓄積機能aと、ポジティブ辞書の要素とネガティブ辞書の要素とを比較して、同一の場合、該同一の要素をポジティブ辞書およびネガティブ辞書から削除するPN抽出機能bとを有する。
【選択図】図1

Description

本発明は、クラス毎に分類された記事集合と、ベースとなる辞書を基に、各クラスおよびクラス内のインスタンスを特徴付けるポジティブ辞書と、ネガティタ辞書と、感性辞書などを自動的に生成する技術分野に属する。なお、以上3種類の辞書以外にも、インスタンスに関連する他のの辞書を自動生成することも可能である。例えば、クラスを「ファッションジャンル」、インスタンスを「ブランド」とした場合、ブランドを特徴付けるアイテム(「バーバリー」といえば「トレンチコート」など)辞書を生成することもできる。)
以下、ブログ記事を用いた例を中心に説明するが、本発明は、ブログ記事に特化したものではなく、クラス毎に分類された記事集合であれば、どのような記事であっても適用可能である。
以下、ポジティブを「P」と表現し、ネガティブを「N」と表現し、感性を「M」と表現する。
なお、本発明における「インスタンス」とは、ユーザが記述している対象である。例えば、ユーザがブログ内で、「アーチスト」や「ブランド」について記述している場合、インスタンスは「アーチスト」や「ブランド」になる。また、本発明における「クラス」とは、所属するインスタンス集合の持つ特性を制約するものであって、インスタンスの持つ背景知識である。クラスの設計は、PNM解析を実施する解析者が与えるものである。例えば、音楽アーチストをインスタンスとする場合は、グラムロックなどのジャンルをインスタンスの背景知識であるクラスとして与えればよい。
また、本発明における「オントロジ」とは、情報を具体的に整理するためのクラス体系知識を指す。つまり、上記クラスが複数存在するとき、そのクラス間の関係を辞書として保持しているものが「オントロジ」である。クラス間の関係は情報を表現するための知識と考えられるため、オントロジを、クラス体系知識とも呼ぶ。
近年、インターネット上でユーザの興味対象を発信しユーザ間での議論を促進するブログサービスや互いに友人として承認し合ったユーザ間で興味対象を議論する「ソーシャル・ネットワーキング(Social Networking)」サービス等が注目されており、今後ますますユーザ数やこれらを利用したサービスは拡大していくと考えられる。また、非特許文献1の「Amazon」および非特許文献2の「Last.fm」のサービスなど、ユーザによる商品の購買・再生履歴を基にユーザの興味対象をユーザプロファイルとして自動構築し、プロファイルに基づく商品の推薦を行うサービスも登場しており、ユーザの発信する多様な興味情報に基づく極め細やかな情報推薦を行うサービスへの関心も高まっている。そして、この種の情報流通サービスは、ユーザによる自身の興味対象の発信と、自身の興味に近い他のユーザの発信する記事および楽曲情報並びにコミュニティにおける議論内容を閲覧することとを通じ、各自の興味対象を拡大する基盤となる可能性を持つ。
このように、ウェブ上ではユーザが興味を発信する機会が頻繁となってきている。こうしたユーザが発信する興味を自動的に解析し、ユーザ興味情報を構築することも上で述べた非特許文献1の「Amazon」などで試みられている。このようなユーザ興味を解析するための情報源が多様なほど、詳細な興味を取得できると考えられる。しかし、現状では、購買および視聴・閲覧からのユーザ興味取得が中心である。一方、ユーザの記述するブログでは個人的な趣味による記事を頻繁に記述すると考えられるため、ブログ記事からのユーザ興味取得も重要となってくる。
また、ユーザがブログ記事内で記述している対象(インスタンス)に対しどのような感性を持っているのか、また記述インスタンスを他のどのような属性と関連付けて記述しているのかを解析することで、インスタンスに対する感性情報およびインスタンスを特徴付ける属性を獲得することもできる。例えば、プロバイダが自身のコンテンツをインスタンスとして解析を実施すれば、ユーザがそのインスタンスに対してどのような感性や属性を付与しているかを調査することができる。その結果を用い、プロバイダは自身のコンテンツの販売戦略を作り上げるなどのマーケティングなどへの利用も可能である。
Amazon web site、[online]、[平成19年1月20日検索]、インターネット〈URL: http://www.amazon.com/〉 last.fm web site、[online]、[平成19年1月20日検索]、インターネット〈URL: http://www.last.fm〉 LiveJournal web site、[online]、[平成19年1月20日検索]、インターネット〈URL: http://www.livejournal.com/〉 Mishne, G.: Experiments with Classification in Blog Posts, Style 2005- the 1st Work-shop on Stylistic Analysis Of Text For Information Access, at SIGIR 2005, SIGIR, ACM (2005). Mishne, G. and de Rijke, M.: Capturing Global Mood Levels using Blog Posts, AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW 2006) (Nicolov, N., Salvetti, F., Liberman, M. and Martin, J.(eds.)), AAAI Press, pp. 145−152 (2006). Nakatsuji, M., Miyoshi, Y. and Otsuka, Y.: Innovation Detection Based on User-Interest Ontology of Blog Community., International Semantic Web Conference, pp. 515−528 (2006). Turney, P. D.: Thumbs Up or Thumbs Down? Semantic Orientation Applied to Un-supervised Classification of Reviews, Proceedings of the 40th Annual Meeting of the Association of Computational Linguistics, Philadelphia, Pennsylvania, pp. 417−424 (2002). 中辻真、三好優、大塚祥広:ユーザ興味オントロジ抽出によるブログコミュニティ形成手法、日本データベース学会Letters、Vo1.5, No.1(2006).
ブログ記事からユーザ興味を取得するため、非特許文献6では、ユーザの興味対象として、ユーザが興味を持つキーワード(インスタンス)のみでなく、そのキーワードの背景となる意味情報(クラス情報)をも保持するユーザプロファイルを自動構築し、プロファイルに基づくブログ検索機能を提供する試みを行っている。具体的には、音楽や映画などのサービスプロバイダが与えるサービスオントロジヘユーザの蓄積記事を分類することで、記事に対しその話題対象であるインスタンスとインスタンスの背景知識とを自動的にタグ付けするオートタギング手法と、ユーザ興味をクラス階層化した興味オントロジをユーザプロファイルとして自動抽出する興味オントロジ生成手法を提案している。そして、興味オントロジ間の近似度を計測し、近似度が高いオントロジ間で一部クラス階層の異なるクラスを検出し、そのクラスに属する記事を、意外な興味記事としてユーザ推薦することで、ユーザの興味幅の拡大と、他ユーザ間とのコミュニケーション促進を提案している。
しかし、非特許文献6では、ブログ記事からユーザ興味を抽出するにあたり、記事内での興味対象がユーザにとってポジティブかネガティブかを判定していない。ユーザ興味をより精度良く抽出するためには、ネガティブな興味対象を興味オントロジから除去する必要がある。また、非特許文献6では、ユーザが記事内での興味対象にどのような感性(Mood)で記述しているかの判別は実施していない。
[関連技術]
こうしたPN判定に関する研究として、非特許文献7では、記事集合に対し、ポジティブ語やネガティブ語との共起性を基に、単語のみでなくフレーズのPN判定を実施する。そして、非特許文献7では、記事内のフレーズをチェックし、平均的にポジティブであればポジティブな記事と分類し、それ以外はネガティブと判定するPN判定を実施し、高精度を得ている。しかし、映画記事に対する検証では、記事内における「more evil」などのフレーズはホラーなどのジャンルによってはポジティブな記述であることも多いにも関わらず、映画全体ではネガティブフレーズとなるなど、記事内での話題対象となるインスタンスの背景となるクラス分類知識(オントロジ)まで考慮したPN判定を実施できているとはいえない。
一方、ブログ記事から感性情報を抽出する研究としては、Mishncらにより、ある一定期間におけるユーザ全体の感性の動向を高精度に予測しているものがある(例えば、非特許文献5参照)。その非特許文献5の方法では、ブログ記事を投稿する際にユーザが記事の持つ感性語をタギングすることができるブログサービスであるLiveJournal(非特許文献3)で公開されているユーザのブログ記事をコーパスとしている。さらに、非特許文献5の方法では、特定の感性語に対し影響力を持つ特徴語を、感性語の共起性を基に学習し、特徴語などで感性情報をモデリングした上で、モデルに合致するブログ記事を抽出している。しかし、非特許文献5の方法では、ブログ全体の感性情報を抽出しており、クラス毎に分類されたブログ記事からそのクラスに特徴的な感性情報を抽出することができない。
非特許文献4では、非特許文献5のものと同種のコーパスを用いてブログ記事毎の感性予測を実施しているが、単一の記事毎への感性解析が困難なため、精度は低い。
本発明は、上記従来技術の問題点に鑑みてなされたものであって、ブログなどの記事を分類わけし、その内容を特徴付ける辞書を従来よりも高精度に作成することができる辞書作成方法を提供することを目的とする。
上記目的を達成するために、本発明は、通信回線を介してアクセス可能な記憶手段に記憶されている記事を複数の要素に分類わけし、該分類わけされた要素それぞれと各要素の特徴を示す情報とを有する辞書を作成する辞書作成方法であって、前記分類わけされた要素がポジティブなものかネガティブなものかを少なくとも解析して、該解析結果に基づいて前記要素を、ポジティブ辞書およびネガティブ辞書を少なくとも含む複数の辞書のいずれかに蓄積する解析・蓄積ステップ(a)と、前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該同一の要素を前記ポジティブ辞書およびネガティブ辞書から削除するPN抽出ステップ(b)とを有することを特徴とする。
また本発明は、ポジティブな意味を有する語が蓄積されているポジティブベース辞書と、ネガティブな意味を有する語が蓄積されているネガティブベース辞書と、感性についての意味を有する語が蓄積されている感性ベース辞書とを少なくとも生成するベース辞書生成ステップを更に有し、前記解析・蓄積ステップは、前記分類わけされた要素と前記ポジティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ポジティブ辞書に蓄積するステップと、前記分類わけされた要素と前記ネガティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ネガティブ辞書に蓄積するステップと、前記分類わけされた要素と前記感性ベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記感性辞書に蓄積するステップと、前記分類わけされた要素が名詞などの所定の品詞であるか否か解析して、所定の品詞である場合は、該要素を名詞など辞書に蓄積するステップとを有することを特徴とする。
また本発明は、分類わけされた要素が、クラス毎に分類されており、前記クラスは、該クラスに所属する要素の集合の持つ特性を制約するものであって、要素の持つ背景知識を示す情報を有するものであり、前記解析・蓄積ステップは、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のそれぞれに対して、クラス毎に前記要素を蓄積するステップを有し、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書内において、異なる2つのクラスの要素同士を比較し、同一の要素を該辞書から削除するクラス特徴辞書生成ステップ(c)をさらに有することを特徴とする。
また本発明は、前記クラス特徴辞書生成ステップにおいて比較対象とされる2つのクラスを決定するステップであって、2つクラス間の意味的な距離を算出して、該距離が所定値よりも大きい場合、該2つのクラスを前記比較対象とされる2つのクラスに決定する比較対象クラス決定ステップ(d)をさらに有することを特徴とする。
また本発明は、複数の属性を有するとともに属性毎に形態素またはフレーズが登録されているベース属性辞書を使用して、前記ベース属性辞書に登録されている形態素またはフレーズと前記前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書の要素とを比較し、一致する場合、該形態素またはフレーズを該要素に対する属性として決定するとともに、該決定事項を前記名詞など辞書に蓄積する生成辞書・ベース属性辞書比較ステップ(e)をさらに有することを特徴とする。
また本発明は、前記名詞など辞書に蓄積されているもののうち、前記ベース属性辞書に蓄積されていないものがあるか否か判断し、ある場合、該ものを前記ベース属性辞書に蓄積させる名詞など辞書チェックステップ(f)をさらに有することを特徴とする。
また本発明は、前記PN抽出ステップが、前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該比較した要素の前記ポジティブ辞書およびネガティブ辞書それぞれでの出現回数をも考慮して、該要素が前記ポジティブ辞書およびネガティブ辞書の両辞書に頻出する語であるか否か判断して、両辞書に頻出する語であると判断した場合は、該要素を前記ポジティブ辞書およびネガティブ辞書から削除することを特徴とする。
また本発明は、前記クラス特徴辞書生成ステップが、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書内において、異なる2つのクラスの要素同士を比較して、該比較した要素同士が同一の場合、該比較した要素の該2つのクラスでの出現回数をも考慮して、該要素が該2つのクラスで頻出する語であると判断した場合は、該要素を該辞書から削除することを特徴とする。
また本発明は、前記要素が形態素またはフレーズであることを特徴とする。
また本発明は、前記ベースPNM辞書、クラス分類記事、自動生成P辞書、自動生成N辞書、自動生成M辞書、ベース属性辞書および自動生成名詞など辞書が、データベースで構成されており、前記各ステップにおける各処理は、コンピュータとブラウザとインターネットとを使用して実行され、前記記事は、ブログであることを特徴とする。
本発明は、ユーザがブログ記事などで記述している興味対象(インスタンス)に対して該インスタンスの所属するクラス知識を利用し、ユーザがインスタンスに対してポジティブなのか、ネガティブなのか、どのような感性で記述しているのかを判定するために必要となるPNM辞書を自動的に生成する辞書作成方法を提供することができる。
従来技術では、PNM判定を実現するためには、ポジティブ・ネガティブ辞書の自動生成が核となる。しかし、従来のPNM判定技術では、話題インスタンスの所属クラスに関係なく同一辞書が生成きれてきた。それに対し本発明では、オントロジに属する各クラスに沿つたポジティブ・ネガティブ・感性辞書を自動生成する手法を提供する。例えば、「とんがった」という語は、ロッククラスにおいては、ポジティブな意味を持つとしても、クラシックやオペラクラスにおいては、ネガティブな意味を持つ場合もある。本発明は、こうした各クラスの特徴を反映した語の分析を行うことで、そのクラスの特徴を把握しながら、クラス配下のインスタンスの特徴辞書を作りあげることができる。
以下、本発明の一実施形態による辞書作成方法を図面を参照して説明する。
図1は、本発明の実施形態に係る辞書作成方法の一例を説明するための機能ブロック図である。
ベースPNM辞書1、クラス分類記事2、自動生成P辞書3、自動生成N辞書4、自動生成M辞書5、ベース属性辞書6および自動生成名詞など辞書7は、例えばデータベースで構成してもよい。また、ベースPNM辞書1、クラス分類記事2、自動生成P辞書3、自動生成N辞書4、自動生成M辞書5、ベース属性辞書6および自動生成名詞など辞書7は、例えば、データベースに格納されているものであって、品詞等の情報付きの単語リストを構成する情報としてもよい。
本実施形態の辞書作成方法では、各クラスに分類された記事集合が必要となる。このような記事集合を保持しているものがクラス分類記事2である。このような記事集合は、例えば「Yahoo!」などのトピックディレクトリにおける人手の分類記事を利用してもよいし、非特許文献6におけるテンプレートオントロジに従ったブログ記事分類技術などを用いて、ブログ記事集合からクラス毎に分類されたブログ記事集合を抽出してもよい。
こうして得られた記事集合を用い、以下に詳細に述べる手順で、各クラスに特徴的な辞書である自動生成P辞書3、自動生成N辞書4、自動生成M辞書5を生成する。なお、自動生成P辞書3、自動生成N辞書4および自動生成M辞書5の3つの辞書をあわせて、「PNM辞書」とも呼ぶ。
本実施形態の辞書作成方法は、インスタンス周辺形態素解析・蓄積機能aと、PN抽出機能bと、クラス特徴辞書生成機能cと、比較対象クラス決定機能dと、ベース属性辞書比較機能eと、自動生成名詞など辞書チェック機能fとを使用することができる。これらの各機能は、以降で詳細に説明する。
なお、図1において、生成辞書・ベース属性辞書比較機能eと、自動生成名詞など辞書チェック機能fと、ベース属性辞書6と、自動生成名詞など辞書7とは、インスタンスおよびクラスに対して既存の属性とは別の属性を付与する場合に必要となる機能である。
(1)ベースPNM辞書1の生成
各クラス毎に特徴的なPNM辞書(自動生成P辞書3、自動生成N辞書4、自動生成M辞書5)を自動的に生成するため、まずポジティブ、ネガティブ、感性それぞれに対してベースとなる辞書であるベースPNM辞書1を人手などによって生成する。ベースPNM辞書1に登録する語としては、PNM辞書を自動生成したい場合は、品詞として形容詞や形容動詞を選び、かつ多様なクラスに汎用的に適用可能な形態素を選択する。なお、形態素とは、言語において意味を持つ最小単位をいう。例えば、「お待ちしております。」という記載は、「お待ち」、「し」、「て」、「おり」、「ます」、「。」の各形態素に分割することができる。
上記の適用可能な形態素の選択は、形態素でなく、複数形態素を組合わせたフレーズの選択であっても良い。汎用的な形態素やフレーズを選択する理由は、「素晴らしい」という形態素は多数のクラスにおいて一般的にポジティブな意味を持つが、「甘い」という形態素は、ポジティブな意味を持つ場合もネガティブな意味を持つ場合もあるためであり、こうした形態素をベースPNM辞書1に登録すると、クラス毎に生成されるPNM辞書の精度に影響を与えるためである。
ここでいう汎用的というのは、PNM辞書を生成する領域において汎用的という意味である。例えばファッション領域においてPNM辞書を自動生成する場合には、ファッションという領域で汎用的な辞書を作ればよい。PNMベース辞書1以外にも、ベース属性辞書6を用意することで、インスタンスに対する属性を決定するのに役立てる。ベース属性辞書6は、例えばファッション領域では、インスタンス(ブランド)に対する属性をモデル、雑誌、ブランド、アイテムなどとし、各種属性に対し形態素またはフレーズを登録したものである。例えば、ベース属性辞書6のアイテム辞書には、ネクタイ、ベルトなどが登録される。
(2)PNM辞書の自動生成
次に、各クラスに分類された記事集合を用い、各クラスの特徴に沿ったPNM辞書を自動生成する。以下、PNM辞書生成の場合の辞書自動生成の手順を図2を用い説明する。図2は、PNM辞書の生成手順の一例を示す説明図である。
(a)インスタンス周辺形態素解析・蓄積機能
クラスCとその配下に属するクラスからなるクラス集合S(C(C))に分類された記事集合S(E(C))に所属する記事
Figure 2008204355
に対し、S(C(C))に所属するインスタンス
Figure 2008204355
に対する記述箇所をチェックする。そして、その記述箇所の前後X個の形態素に対し、その基本形と品詞情報をチェックし、ベースPNM辞書1におけるポジティブベース辞書内の形態素と一致するものがあるかどうかをチェックする。そして、ある場合に限りクラス集合S(C(C))に特徴的なポジティブ辞書P(C)として自動生成P辞書3に蓄積する。これを、S(E(C))に所属する全記事に対し実行する。また、蓄積にあたり、各形態素の基本形の出現回数も保持する。これを、ベースPNM辞書1におけるネガティブベース辞書および感性ベース辞書に対しても実行し、それぞれに対し蓄積された特徴的な辞書を、ネガティブ辞書N(C)として自動生成N辞書4に蓄積し、感性辞書M(C)として自動生成M辞書5に蓄積する。
また、PNM辞書を生成する場合、ベースPNM辞書1に登録する形態素と以下の「(b)PN抽出機能」以降で抽出する形態素とは、形容詞および形容動詞に設定すればよい。
一方、PNM辞書のみでなく、例えば領域が「ファッション」であり、クラスが「セクシー」というジャンルであり、インスタンスが「VIVAYOU」というブランドであった場合、「VIVAYOU」に対して特徴的なアイテムを抽出したければ、抽出する形態素を名詞などに指定する。そして、抽出きれた結果とベースPNM辞書1におけるアイテムベース辞書とを比較し、抽出された名詞の中からそのインスタンスに特徴的なアイテムを抽出する。ここで抽出されたものを自動生成名詞など辞書7に蓄積する。
(b)PN抽出機能
上記のインスタンス周辺形態素解析・蓄積機能aによって自動生成P辞書3に生成されたポジティブ特徴辞書P(C)は、単純に、ベースPNM辞書1におけるポジティブベース辞書内の登録形態素と共起して出現した形態素を登録しただけであり、必ずしもポジティブ・ネガティブを判別するために利用できる辞書であるとは限らない。そこで、辞書P(C)について、ネガティブベース辞書とポジティブベース辞書とを比較してポジティブベース辞書の方に多く頻出する形態素を抽出するため、辞書P(C)と辞書N(C)とで登録された形態素
Figure 2008204355
に対し、下記の数式(6)を実行し、ヒューリスティックな閾値αを下回る場合は、その形態素mはネガティブベース辞書およびポジティブベース辞書の両辞書に頻出する語でありポジティプでもネガティブでもないと捉え、削除する。ここで、形態素mの辞書P(C)における出現回数を
Figure 2008204355
とし、辞書N(C)における出現回数を
Figure 2008204355
とする。同様の処理を、自動生成N辞書4に生成されたネガティブ特徴辞書N(C)に対しても実行する。これらの処理を経て、辞書P(C)に残る形態素は、ネガティブベース辞書とポジティブベース辞書とを比較して、ポジティブベース辞書の方に多く頻出する形態素になるとともに、辞書N(C)に残る形態素は、ネガティブベース辞書とポジティブベース辞書とを比較して、ネガティブベース辞書の方に多く頻出する形態素を集めたものになる。したがって、辞書P(C)および辞書N(C)は、PN判定に有効となる。
Figure 2008204355
(c)クラス特徴辞書生成機能
次に、自動生成P辞書3において、各クラスの特性のみを反映したポジティブ特徴辞書を生成するため、クラス集合S(C(C))とは異なるクラス集合S(C(C))に対し生成された辞書P(C)と、クラス集合S(C(C))に対して生成された辞書P(C)を比較する。ここで、クラスCに対し特徴的な辞書を構築することを狙うため、クラス集合S(C(C))とクラス集合S(C(C))は互いに疎な関係であるとする。比較方法としては、上記のPN抽出機能bの手順と同様に、辞書P(C)と辞書P(C)とで登録された形態素
Figure 2008204355
に対し、下記の数式(8)を実行し、ヒューリスティックな閾値βを下回る場合、形態素mは複数クラスの辞書に跨って出現し一般的にポジティブな形態素であると捉え、辞書P(C)から削除する。上記の自動生成P辞書3に対して実行した処理を、自動生成N辞書4および自動生成M辞書5に対しても実行する。
Figure 2008204355
(d)比較対象クラス決定機能
ここで、クラスCとクラスCがクラス階層として近い場合、つまり、意味的に近い場合、各クラスにより特徴的な語が情報集合に残るが、残る単語数が少なくなる。一方、クラスCとクラスCがクラス階層として遠い場合、つまり、意味的に遠い場合、より一般的な語のみが情報集合から削除され、残る単語数は多い。本比較対象クラス決定機能dでは、比較元クラスと比較対象とするクラスの意味的な距離を調整したり、比較対象となるクラスの数を調整することで、自動生成P辞書3、自動生成N辞書4および自動生成M辞書5として最終的に生成される各辞書内の形態素の精度と数を調整することができる。ここで、意味的な距離の算出方法は、例えば、比較元クラスから比較対象候補となるクラスまでたどったときに、経由するクラスの数などで表現できる。
(e)生成辞書・ベース属性辞書比較機能
PNM辞書のみでなく、例えば領域が「ファッション」であり、クラスが「セクシー」というジャンルであり、インスタンスが「VIVAYOU」というブランドであった場合、「VIVAYOU」に対して特徴的な属性(アイテムやモデルなど)を抽出したければ、クラス分類記事2から抽出する形態素を名詞などに指定する。そして、本生成辞書・ベース属性辞書比較機能において、抽出された名詞などとベース属性辞書6とを比較し、抽出された名詞の中からそのインスタンスに特徴的な属性を生成し、この属性を自動生成名詞など辞書7に蓄積する。
(f)自動生成名詞など辞書チェック機能
きらに、自動生成された名詞などをチェックする本自動生成名詞など辞書チェック機能fでは、自動生成名詞など辞書7の保持されている自動生成された名詞辞書を人手などによりチェックし、ベース属性辞書に追加しても良いと判断できる名詞などが存在した場合、属性ベース辞書6に追加する。例えば、属性ベース辞書6になかった「蝶ネクタイ」という名詞と名詞の組合せフレーズが出現した場合は、この「蝶ネクタイ」をベース属性辞書6(ここではアイテム)に追加し、ベース属性辞書6を更新する。
上記のインスタンス周辺形態素解析・蓄積機能aによって生成された自動生成P辞書3、自動生成N辞書4、自動生成M辞書5および自動生成名詞など辞書7は、上記のPN抽出機能b、クラス特徴辞書生成機能c、比較対象クラス決定機能dおよびベース属性辞書比較機能eにより更新される。また、上記の自動生成名詞など辞書チェック機能fによってベース属性辞書6が更新される。そして、インスタンス周辺形態素解析・蓄積機能a、PN抽出機能b、クラス特徴辞書生成機能c、比較対象クラス決定機能d、ベース属性辞書比較機能eおよび自動生成名詞など辞書チェック機能fを繰り返して、自動生成P辞書3、自動生成N辞書4、自動生成M辞書5、ベース属性辞書6および自動生成名詞など辞書7の各辞書に登録される形態素などの数を増やしていく。このようにして、クラス毎に特徴的な辞書を生成する。
なお、上記実施形態は、クラスに特徴的な辞書を生成しており、インスタンスの特徴はクラスの特徴と基本的に一致するという観点のものである。しかし、本発明は、クラス体系を利用し、インスタンス毎に特徴的な辞書を生成することも可能である。
図3は、インスタンス毎に特徴的な辞書を作成する場合の比較対象クラスの選択例を示す説明図である。インスタンス毎に特徴的な辞書を作成する場合は、PN抽出機能bおよびクラス特徴辞書生成機能cがクラスにおける比較ではなくインスタンスとしての比較をする。そして、図3に示すように、比較対象クラス決定機能dが比較対象クラスを選択した上で、クラス特徴辞書生成機能cが比較元インスタンスの所属クラス以外の選択クラス配下のインスタンスとの間で比較する。
例えば、図3に示すように、比較対象クラスとして「フェミニン」を選択する。そして、比較元クラス「セクシー」の比較元インスタンス「LIZ LISA」と、比較対象クラス「フェミニン」のインスタンス「VIVAYOU」および「Earl Jean」とを比較する。こうすることで、インスタンスの背景知識が近すぎるインスタンス間で辞書を比較することにより、比較元インスタンスの特徴語が全く残らなくなってしまうという弊害を防ぐことができる。
なお、上述した各機能は、コンピュータ、ブラウザおよびインターネットなどを使用して、それぞれ処理ステップとして実行されるものとすることができる。また、上述した各機能は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されているものとしてもよく、このプログラムをコンピュータが読み出して実行することによって、上記機能が実行されるものとしてもよい。すなわち、上述した各機能の全部または一部は、コンピュータなどのハードウェアで実現することができる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
[実施形態の効果]
本実施形態によれば、ユーザが記述したプログ記事集合などから、ユーザの興味を自動的に抽出することで、ユーザ毎への推薦など、ユーザに特化したマーケティングを実施することができる。そうした推薦を行う際に、ユーザがポジティブな興味を持つ場合は積極的に推薦し、ネガティブな興味を持つ場合は推薦しないなどの振り分けに本発明は効果を持つ。また、多数のユーザの記述を解析することで、ユーザの記述対象に対する感性情報や、その対象に関連する商品情報(例えば、ブランド「バーバリ一」といえば、「トレンチコート」であるなど)を得ることもでき、感性や属性をベースとし、対象を検索するということもできるため、ユーザは多数の観点から情報を検索することができる。
今後の産業発展の基盤の一つである情報通信システムは、現在急激な成長の過程にあるが、膨大な量に拡大した情報通信によるアクセス可能な情報源を充分に活用出来ているかどうかが現在大問題になっている。特に、ユーザ個別に対応した情報提供方法やユーザ毎の情報アクセス方法を与えるパーソナライゼーションへの注目はとても高い。これに対して、本発明によれば、ユーザの興味および感性に基づくコンテンツ検索への適用も可能となり、ユーザにとっては、それぞれのユーザ興味に従った情報へ直感的にアクセスすることができるようになるため、情報へのアクセスが従来よりも容易になる。また、本発明によれば、プロバイダにとっても、今話題となっている商品の感性情報などをマーケティングすることができ、商品の売り込み方法を考えることができるなど、プロバイダにおけるコンテンツ販売戦略を考えることが容易になる。
本発明の実施形態に係る辞書作成方法の一例を説明するための機能ブロック図である。 PNM辞書の生成手順の一例を示す説明図である。 インスタンス毎に特徴的な辞書を作成する場合の比較対象クラスの選択例を示す説明図である。
符号の説明
1 ベースPNM辞書
2 クラス分類記事
3 自動生成P辞書
4 自動生成N辞書
5 自動生成M辞書
6 ベース属性辞書
7 自動生成名詞など辞書
a インスタンス周辺形態素解析・蓄積機能
b PN抽出機能
c クラス特徴辞書生成機能
d 比較対象クラス決定機能
e ベース属性辞書比較機能
f 自動生成名詞など辞書チェック機能

Claims (10)

  1. 通信回線を介してアクセス可能な記憶手段に記憶されている記事を複数の要素に分類わけし、該分類わけされた要素それぞれと各要素の特徴を示す情報とを有する辞書を作成する辞書作成方法であって、
    前記分類わけされた要素がポジティブなものかネガティブなものかを少なくとも解析して、該解析結果に基づいて前記要素を、ポジティブ辞書およびネガティブ辞書を少なくとも含む複数の辞書のいずれかに蓄積する解析・蓄積ステップ(a)と、
    前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該同一の要素を前記ポジティブ辞書およびネガティブ辞書から削除するPN抽出ステップ(b)とを有することを特徴とする辞書作成方法。
  2. ポジティブな意味を有する語が蓄積されているポジティブベース辞書と、ネガティブな意味を有する語が蓄積されているネガティブベース辞書と、感性についての意味を有する語が蓄積されている感性ベース辞書とを少なくとも生成するベース辞書生成ステップを更に有し、
    前記解析・蓄積ステップは、
    前記分類わけされた要素と前記ポジティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ポジティブ辞書に蓄積するステップと、
    前記分類わけされた要素と前記ネガティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ネガティブ辞書に蓄積するステップと、
    前記分類わけされた要素と前記感性ベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記感性辞書に蓄積するステップと、
    前記分類わけされた要素が名詞などの所定の品詞であるか否か解析して、所定の品詞である場合は、該要素を名詞など辞書に蓄積するステップとを有することを特徴とする請求項1に記載の辞書作成方法。
  3. 前記分類わけされた要素は、クラス毎に分類されており、
    前記クラスは、該クラスに所属する要素の集合の持つ特性を制約するものであって、要素の持つ背景知識を示す情報を有するものであり、
    前記解析・蓄積ステップは、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のそれぞれに対して、クラス毎に前記要素を蓄積するステップを有し、
    前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書内において、異なる2つのクラスの要素同士を比較し、同一の要素を該辞書から削除するクラス特徴辞書生成ステップ(c)をさらに有することを特徴とする請求項2に記載の辞書作成方法。
  4. 前記クラス特徴辞書生成ステップにおいて比較対象とされる2つのクラスを決定するステップであって、2つクラス間の意味的な距離を算出して、該距離が所定値よりも大きい場合、該2つのクラスを前記比較対象とされる2つのクラスに決定する比較対象クラス決定ステップ(d)をさらに有することを特徴とする請求項3に記載の辞書作成方法。
  5. 複数の属性を有するとともに属性毎に形態素またはフレーズが登録されているベース属性辞書を使用して、前記ベース属性辞書に登録されている形態素またはフレーズと前記前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書の要素とを比較し、一致する場合、該形態素またはフレーズを該要素に対する属性として決定するとともに、該決定事項を前記名詞など辞書に蓄積する生成辞書・ベース属性辞書比較ステップ(e)をさらに有することを特徴とする請求項4に記載の辞書作成方法。
  6. 前記名詞など辞書に蓄積されているもののうち、前記ベース属性辞書に蓄積されていないものがあるか否か判断し、ある場合、該ものを前記ベース属性辞書に蓄積させる名詞など辞書チェックステップ(f)をさらに有することを特徴とする請求項5に記載の辞書作成方法。
  7. 前記PN抽出ステップは、
    前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該比較した要素の前記ポジティブ辞書およびネガティブ辞書それぞれでの出現回数をも考慮して、該要素が前記ポジティブ辞書およびネガティブ辞書の両辞書に頻出する語であるか否か判断して、両辞書に頻出する語であると判断した場合は、該要素を前記ポジティブ辞書およびネガティブ辞書から削除することを特徴とする請求項6に記載の辞書作成方法。
  8. 前記クラス特徴辞書生成ステップは、
    前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか1つの辞書内において、異なる2つのクラスの要素同士を比較して、該比較した要素同士が同一の場合、該比較した要素の該2つのクラスでの出現回数をも考慮して、該要素が該2つのクラスで頻出する語であると判断した場合は、該要素を該辞書から削除することを特徴とする請求項7に記載の辞書作成方法。
  9. 前記要素は、形態素またはフレーズであることを特徴とする請求項8に記載の辞書作成方法。
  10. 前記ベースPNM辞書、クラス分類記事、自動生成P辞書、自動生成N辞書、自動生成M辞書、ベース属性辞書および自動生成名詞など辞書は、データベースで構成されており、
    前記各ステップにおける各処理は、コンピュータとブラウザとインターネットとを使用して実行され、
    前記記事は、ブログであることを特徴とする請求項9に記載の辞書作成方法。
JP2007042309A 2007-02-22 2007-02-22 辞書作成方法 Active JP4879775B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007042309A JP4879775B2 (ja) 2007-02-22 2007-02-22 辞書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007042309A JP4879775B2 (ja) 2007-02-22 2007-02-22 辞書作成方法

Publications (2)

Publication Number Publication Date
JP2008204355A true JP2008204355A (ja) 2008-09-04
JP4879775B2 JP4879775B2 (ja) 2012-02-22

Family

ID=39781770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007042309A Active JP4879775B2 (ja) 2007-02-22 2007-02-22 辞書作成方法

Country Status (1)

Country Link
JP (1) JP4879775B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039861A (ja) * 2009-08-13 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> 感性情報付与装置、その方法およびプログラム
JP2012226747A (ja) * 2011-04-21 2012-11-15 Palo Alto Research Center Inc 感情分類を向上させるためにsvm学習に用語集知識を組み込むこと
WO2014065392A1 (ja) * 2012-10-26 2014-05-01 日本電気株式会社 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP2014154051A (ja) * 2013-02-13 2014-08-25 Kddi Corp 不特定多数のユーザからの投稿文を用いて特定の異常を検知する異常検知装置、プログラム及び方法
JP2015007928A (ja) * 2013-06-26 2015-01-15 カシオ計算機株式会社 情報処理装置、コンテンツ課金システム及びプログラム
JP2017224335A (ja) * 2017-08-09 2017-12-21 カシオ計算機株式会社 情報処理装置、情報処理方法、及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039861A (ja) * 2009-08-13 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> 感性情報付与装置、その方法およびプログラム
JP2012226747A (ja) * 2011-04-21 2012-11-15 Palo Alto Research Center Inc 感情分類を向上させるためにsvm学習に用語集知識を組み込むこと
WO2014065392A1 (ja) * 2012-10-26 2014-05-01 日本電気株式会社 情報抽出システム、情報抽出方法および情報抽出用プログラム
JPWO2014065392A1 (ja) * 2012-10-26 2016-09-08 日本電気株式会社 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP2014154051A (ja) * 2013-02-13 2014-08-25 Kddi Corp 不特定多数のユーザからの投稿文を用いて特定の異常を検知する異常検知装置、プログラム及び方法
JP2015007928A (ja) * 2013-06-26 2015-01-15 カシオ計算機株式会社 情報処理装置、コンテンツ課金システム及びプログラム
JP2017224335A (ja) * 2017-08-09 2017-12-21 カシオ計算機株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JP4879775B2 (ja) 2012-02-22

Similar Documents

Publication Publication Date Title
Deveaud et al. Accurate and effective latent concept modeling for ad hoc information retrieval
Hu et al. Reviewer credibility and sentiment analysis based user profile modelling for online product recommendation
Eirinaki et al. Feature-based opinion mining and ranking
Almatrafi et al. Application of location-based sentiment analysis using Twitter for identifying trends towards Indian general elections 2014
Tewari et al. Sequencing of items in personalized recommendations using multiple recommendation techniques
Na et al. Comparing sentiment expression in movie reviews from four online genres
JP2011175362A (ja) 情報処理装置、重要度算出方法及びプログラム
Ahmed Detecting opinion spam and fake news using n-gram analysis and semantic similarity
Spina et al. Discovering filter keywords for company name disambiguation in twitter
JP5318034B2 (ja) 情報提供装置、情報提供方法、及び情報提供プログラム
Osmani et al. Enriched latent dirichlet allocation for sentiment analysis
JP4879775B2 (ja) 辞書作成方法
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
Sarkar et al. Automatic bangla text summarization using term frequency and semantic similarity approach
KR20140047226A (ko) 이슈 일지를 제공하는 단말기, 이슈 일지를 생성하는 서버 및 이슈 일지 제공 및 생성 방법
Iskandarli Applying clustering and topic modeling to automatic analysis of citizens’ comments in E-Government
Alasmari et al. Sentiment detection, recognition and aspect identification
Kaur et al. A comprehensive overview of sentiment analysis and fake review detection
Kawase et al. Exploiting the wisdom of the crowds for characterizing and connecting heterogeneous resources
Itani Sentiment analysis and resources for informal Arabic text on social media
Bogers Recommender systems for social bookmarking
Panchal et al. The social hashtag recommendation for image and video using deep learning approach
Yu et al. An adaptive model for probabilistic sentiment analysis
Kumaran et al. Detection of fake online reviews using semi supervised and supervised learning
Kadam et al. Big data analytics-recommendation system with Hadoop Framework

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111130

R151 Written notification of patent or utility model registration

Ref document number: 4879775

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350