JP2008204355A

JP2008204355A - 辞書作成方法

Info

Publication number: JP2008204355A
Application number: JP2007042309A
Authority: JP
Inventors: Makoto Nakatsuji; 真中辻; Makoto Yoshida; 吉田　　誠; Yoshitaka Hirano; 美貴平野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-02-22
Filing date: 2007-02-22
Publication date: 2008-09-04
Anticipated expiration: 2027-02-22
Also published as: JP4879775B2

Abstract

【課題】ブログなどの記事を分類わけし、その内容を特徴付ける辞書を従来よりも高精度に作成することができる辞書作成方法を提供する。
【解決手段】記憶手段に記憶されている記事を複数の要素に分類わけし、該分類わけされた要素それぞれと各要素の特徴を示す情報とを有する辞書を作成する辞書作成方法であって、前記分類わけされた要素がポジティブなものかネガティブなものかを解析して、前記要素を、ポジティブ辞書およびネガティブ辞書などの複数の辞書に蓄積するインスタンス周辺形態素解析・蓄積機能ａと、ポジティブ辞書の要素とネガティブ辞書の要素とを比較して、同一の場合、該同一の要素をポジティブ辞書およびネガティブ辞書から削除するＰＮ抽出機能ｂとを有する。
【選択図】図１

Description

本発明は、クラス毎に分類された記事集合と、ベースとなる辞書を基に、各クラスおよびクラス内のインスタンスを特徴付けるポジティブ辞書と、ネガティタ辞書と、感性辞書などを自動的に生成する技術分野に属する。なお、以上３種類の辞書以外にも、インスタンスに関連する他のの辞書を自動生成することも可能である。例えば、クラスを「ファッションジャンル」、インスタンスを「ブランド」とした場合、ブランドを特徴付けるアイテム（「バーバリー」といえば「トレンチコート」など）辞書を生成することもできる。）

以下、ブログ記事を用いた例を中心に説明するが、本発明は、ブログ記事に特化したものではなく、クラス毎に分類された記事集合であれば、どのような記事であっても適用可能である。

以下、ポジティブを「Ｐ」と表現し、ネガティブを「Ｎ」と表現し、感性を「Ｍ」と表現する。

なお、本発明における「インスタンス」とは、ユーザが記述している対象である。例えば、ユーザがブログ内で、「アーチスト」や「ブランド」について記述している場合、インスタンスは「アーチスト」や「ブランド」になる。また、本発明における「クラス」とは、所属するインスタンス集合の持つ特性を制約するものであって、インスタンスの持つ背景知識である。クラスの設計は、ＰＮＭ解析を実施する解析者が与えるものである。例えば、音楽アーチストをインスタンスとする場合は、グラムロックなどのジャンルをインスタンスの背景知識であるクラスとして与えればよい。

また、本発明における「オントロジ」とは、情報を具体的に整理するためのクラス体系知識を指す。つまり、上記クラスが複数存在するとき、そのクラス間の関係を辞書として保持しているものが「オントロジ」である。クラス間の関係は情報を表現するための知識と考えられるため、オントロジを、クラス体系知識とも呼ぶ。

近年、インターネット上でユーザの興味対象を発信しユーザ間での議論を促進するブログサービスや互いに友人として承認し合ったユーザ間で興味対象を議論する「ソーシャル・ネットワーキング（Social Networking）」サービス等が注目されており、今後ますますユーザ数やこれらを利用したサービスは拡大していくと考えられる。また、非特許文献１の「Ａｍａｚｏｎ」および非特許文献２の「Ｌａｓｔ．ｆｍ」のサービスなど、ユーザによる商品の購買・再生履歴を基にユーザの興味対象をユーザプロファイルとして自動構築し、プロファイルに基づく商品の推薦を行うサービスも登場しており、ユーザの発信する多様な興味情報に基づく極め細やかな情報推薦を行うサービスへの関心も高まっている。そして、この種の情報流通サービスは、ユーザによる自身の興味対象の発信と、自身の興味に近い他のユーザの発信する記事および楽曲情報並びにコミュニティにおける議論内容を閲覧することとを通じ、各自の興味対象を拡大する基盤となる可能性を持つ。

このように、ウェブ上ではユーザが興味を発信する機会が頻繁となってきている。こうしたユーザが発信する興味を自動的に解析し、ユーザ興味情報を構築することも上で述べた非特許文献１の「Ａｍａｚｏｎ」などで試みられている。このようなユーザ興味を解析するための情報源が多様なほど、詳細な興味を取得できると考えられる。しかし、現状では、購買および視聴・閲覧からのユーザ興味取得が中心である。一方、ユーザの記述するブログでは個人的な趣味による記事を頻繁に記述すると考えられるため、ブログ記事からのユーザ興味取得も重要となってくる。

また、ユーザがブログ記事内で記述している対象（インスタンス）に対しどのような感性を持っているのか、また記述インスタンスを他のどのような属性と関連付けて記述しているのかを解析することで、インスタンスに対する感性情報およびインスタンスを特徴付ける属性を獲得することもできる。例えば、プロバイダが自身のコンテンツをインスタンスとして解析を実施すれば、ユーザがそのインスタンスに対してどのような感性や属性を付与しているかを調査することができる。その結果を用い、プロバイダは自身のコンテンツの販売戦略を作り上げるなどのマーケティングなどへの利用も可能である。
Amazon web site、［online］、［平成１９年１月２０日検索］、インターネット〈URL: http://www.amazon.com/〉 last.fm web site、［online］、［平成１９年１月２０日検索］、インターネット〈URL: http://www.last.fm〉 LiveJournal web site、［online］、［平成１９年１月２０日検索］、インターネット〈URL: http://www.livejournal.com/〉 Mishne, G.: Experiments with Classification in Blog Posts, Style 2005- the 1st Work-shop on Stylistic Analysis Of Text For Information Access, at SIGIR 2005, SIGIR, ACM (2005). Mishne, G. and de Rijke, M.: Capturing Global Mood Levels using Blog Posts, AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW 2006) (Nicolov, N., Salvetti, F., Liberman, M. and Martin, J.(eds.)), AAAI Press, pp. 145−152 (2006). Nakatsuji, M., Miyoshi, Y. and Otsuka, Y.: Innovation Detection Based on User-Interest Ontology of Blog Community., International Semantic Web Conference, pp. 515−528 (2006). Turney, P. D.: Thumbs Up or Thumbs Down? Semantic Orientation Applied to Un-supervised Classification of Reviews, Proceedings of the 40th Annual Meeting of the Association of Computational Linguistics, Philadelphia, Pennsylvania, pp. 417−424 (2002). 中辻真、三好優、大塚祥広：ユーザ興味オントロジ抽出によるブログコミュニティ形成手法、日本データベース学会Letters、Vo1.5, No.1(2006).

ブログ記事からユーザ興味を取得するため、非特許文献６では、ユーザの興味対象として、ユーザが興味を持つキーワード（インスタンス）のみでなく、そのキーワードの背景となる意味情報（クラス情報）をも保持するユーザプロファイルを自動構築し、プロファイルに基づくブログ検索機能を提供する試みを行っている。具体的には、音楽や映画などのサービスプロバイダが与えるサービスオントロジヘユーザの蓄積記事を分類することで、記事に対しその話題対象であるインスタンスとインスタンスの背景知識とを自動的にタグ付けするオートタギング手法と、ユーザ興味をクラス階層化した興味オントロジをユーザプロファイルとして自動抽出する興味オントロジ生成手法を提案している。そして、興味オントロジ間の近似度を計測し、近似度が高いオントロジ間で一部クラス階層の異なるクラスを検出し、そのクラスに属する記事を、意外な興味記事としてユーザ推薦することで、ユーザの興味幅の拡大と、他ユーザ間とのコミュニケーション促進を提案している。

しかし、非特許文献６では、ブログ記事からユーザ興味を抽出するにあたり、記事内での興味対象がユーザにとってポジティブかネガティブかを判定していない。ユーザ興味をより精度良く抽出するためには、ネガティブな興味対象を興味オントロジから除去する必要がある。また、非特許文献６では、ユーザが記事内での興味対象にどのような感性（Ｍｏｏｄ）で記述しているかの判別は実施していない。

[関連技術]
こうしたＰＮ判定に関する研究として、非特許文献７では、記事集合に対し、ポジティブ語やネガティブ語との共起性を基に、単語のみでなくフレーズのＰＮ判定を実施する。そして、非特許文献７では、記事内のフレーズをチェックし、平均的にポジティブであればポジティブな記事と分類し、それ以外はネガティブと判定するＰＮ判定を実施し、高精度を得ている。しかし、映画記事に対する検証では、記事内における「more evil」などのフレーズはホラーなどのジャンルによってはポジティブな記述であることも多いにも関わらず、映画全体ではネガティブフレーズとなるなど、記事内での話題対象となるインスタンスの背景となるクラス分類知識（オントロジ）まで考慮したＰＮ判定を実施できているとはいえない。

一方、ブログ記事から感性情報を抽出する研究としては、Ｍｉｓｈｎｃらにより、ある一定期間におけるユーザ全体の感性の動向を高精度に予測しているものがある（例えば、非特許文献５参照）。その非特許文献５の方法では、ブログ記事を投稿する際にユーザが記事の持つ感性語をタギングすることができるブログサービスであるＬｉｖｅＪｏｕｒｎａｌ（非特許文献３）で公開されているユーザのブログ記事をコーパスとしている。さらに、非特許文献５の方法では、特定の感性語に対し影響力を持つ特徴語を、感性語の共起性を基に学習し、特徴語などで感性情報をモデリングした上で、モデルに合致するブログ記事を抽出している。しかし、非特許文献５の方法では、ブログ全体の感性情報を抽出しており、クラス毎に分類されたブログ記事からそのクラスに特徴的な感性情報を抽出することができない。

非特許文献４では、非特許文献５のものと同種のコーパスを用いてブログ記事毎の感性予測を実施しているが、単一の記事毎への感性解析が困難なため、精度は低い。

本発明は、上記従来技術の問題点に鑑みてなされたものであって、ブログなどの記事を分類わけし、その内容を特徴付ける辞書を従来よりも高精度に作成することができる辞書作成方法を提供することを目的とする。

上記目的を達成するために、本発明は、通信回線を介してアクセス可能な記憶手段に記憶されている記事を複数の要素に分類わけし、該分類わけされた要素それぞれと各要素の特徴を示す情報とを有する辞書を作成する辞書作成方法であって、前記分類わけされた要素がポジティブなものかネガティブなものかを少なくとも解析して、該解析結果に基づいて前記要素を、ポジティブ辞書およびネガティブ辞書を少なくとも含む複数の辞書のいずれかに蓄積する解析・蓄積ステップ（ａ）と、前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該同一の要素を前記ポジティブ辞書およびネガティブ辞書から削除するＰＮ抽出ステップ（ｂ）とを有することを特徴とする。

また本発明は、ポジティブな意味を有する語が蓄積されているポジティブベース辞書と、ネガティブな意味を有する語が蓄積されているネガティブベース辞書と、感性についての意味を有する語が蓄積されている感性ベース辞書とを少なくとも生成するベース辞書生成ステップを更に有し、前記解析・蓄積ステップは、前記分類わけされた要素と前記ポジティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ポジティブ辞書に蓄積するステップと、前記分類わけされた要素と前記ネガティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ネガティブ辞書に蓄積するステップと、前記分類わけされた要素と前記感性ベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記感性辞書に蓄積するステップと、前記分類わけされた要素が名詞などの所定の品詞であるか否か解析して、所定の品詞である場合は、該要素を名詞など辞書に蓄積するステップとを有することを特徴とする。

また本発明は、分類わけされた要素が、クラス毎に分類されており、前記クラスは、該クラスに所属する要素の集合の持つ特性を制約するものであって、要素の持つ背景知識を示す情報を有するものであり、前記解析・蓄積ステップは、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のそれぞれに対して、クラス毎に前記要素を蓄積するステップを有し、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか１つの辞書内において、異なる２つのクラスの要素同士を比較し、同一の要素を該辞書から削除するクラス特徴辞書生成ステップ（ｃ）をさらに有することを特徴とする。

また本発明は、前記クラス特徴辞書生成ステップにおいて比較対象とされる２つのクラスを決定するステップであって、２つクラス間の意味的な距離を算出して、該距離が所定値よりも大きい場合、該２つのクラスを前記比較対象とされる２つのクラスに決定する比較対象クラス決定ステップ（ｄ）をさらに有することを特徴とする。

また本発明は、複数の属性を有するとともに属性毎に形態素またはフレーズが登録されているベース属性辞書を使用して、前記ベース属性辞書に登録されている形態素またはフレーズと前記前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか１つの辞書の要素とを比較し、一致する場合、該形態素またはフレーズを該要素に対する属性として決定するとともに、該決定事項を前記名詞など辞書に蓄積する生成辞書・ベース属性辞書比較ステップ（ｅ）をさらに有することを特徴とする。

また本発明は、前記名詞など辞書に蓄積されているもののうち、前記ベース属性辞書に蓄積されていないものがあるか否か判断し、ある場合、該ものを前記ベース属性辞書に蓄積させる名詞など辞書チェックステップ（ｆ）をさらに有することを特徴とする。

また本発明は、前記ＰＮ抽出ステップが、前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該比較した要素の前記ポジティブ辞書およびネガティブ辞書それぞれでの出現回数をも考慮して、該要素が前記ポジティブ辞書およびネガティブ辞書の両辞書に頻出する語であるか否か判断して、両辞書に頻出する語であると判断した場合は、該要素を前記ポジティブ辞書およびネガティブ辞書から削除することを特徴とする。

また本発明は、前記クラス特徴辞書生成ステップが、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか１つの辞書内において、異なる２つのクラスの要素同士を比較して、該比較した要素同士が同一の場合、該比較した要素の該２つのクラスでの出現回数をも考慮して、該要素が該２つのクラスで頻出する語であると判断した場合は、該要素を該辞書から削除することを特徴とする。

また本発明は、前記要素が形態素またはフレーズであることを特徴とする。

また本発明は、前記ベースＰＮＭ辞書、クラス分類記事、自動生成Ｐ辞書、自動生成Ｎ辞書、自動生成Ｍ辞書、ベース属性辞書および自動生成名詞など辞書が、データベースで構成されており、前記各ステップにおける各処理は、コンピュータとブラウザとインターネットとを使用して実行され、前記記事は、ブログであることを特徴とする。

本発明は、ユーザがブログ記事などで記述している興味対象（インスタンス）に対して該インスタンスの所属するクラス知識を利用し、ユーザがインスタンスに対してポジティブなのか、ネガティブなのか、どのような感性で記述しているのかを判定するために必要となるＰＮＭ辞書を自動的に生成する辞書作成方法を提供することができる。

従来技術では、ＰＮＭ判定を実現するためには、ポジティブ・ネガティブ辞書の自動生成が核となる。しかし、従来のＰＮＭ判定技術では、話題インスタンスの所属クラスに関係なく同一辞書が生成きれてきた。それに対し本発明では、オントロジに属する各クラスに沿つたポジティブ・ネガティブ・感性辞書を自動生成する手法を提供する。例えば、「とんがった」という語は、ロッククラスにおいては、ポジティブな意味を持つとしても、クラシックやオペラクラスにおいては、ネガティブな意味を持つ場合もある。本発明は、こうした各クラスの特徴を反映した語の分析を行うことで、そのクラスの特徴を把握しながら、クラス配下のインスタンスの特徴辞書を作りあげることができる。

以下、本発明の一実施形態による辞書作成方法を図面を参照して説明する。

図１は、本発明の実施形態に係る辞書作成方法の一例を説明するための機能ブロック図である。

ベースＰＮＭ辞書１、クラス分類記事２、自動生成Ｐ辞書３、自動生成Ｎ辞書４、自動生成Ｍ辞書５、ベース属性辞書６および自動生成名詞など辞書７は、例えばデータベースで構成してもよい。また、ベースＰＮＭ辞書１、クラス分類記事２、自動生成Ｐ辞書３、自動生成Ｎ辞書４、自動生成Ｍ辞書５、ベース属性辞書６および自動生成名詞など辞書７は、例えば、データベースに格納されているものであって、品詞等の情報付きの単語リストを構成する情報としてもよい。

本実施形態の辞書作成方法では、各クラスに分類された記事集合が必要となる。このような記事集合を保持しているものがクラス分類記事２である。このような記事集合は、例えば「Ｙａｈｏｏ！」などのトピックディレクトリにおける人手の分類記事を利用してもよいし、非特許文献６におけるテンプレートオントロジに従ったブログ記事分類技術などを用いて、ブログ記事集合からクラス毎に分類されたブログ記事集合を抽出してもよい。

こうして得られた記事集合を用い、以下に詳細に述べる手順で、各クラスに特徴的な辞書である自動生成Ｐ辞書３、自動生成Ｎ辞書４、自動生成Ｍ辞書５を生成する。なお、自動生成Ｐ辞書３、自動生成Ｎ辞書４および自動生成Ｍ辞書５の３つの辞書をあわせて、「ＰＮＭ辞書」とも呼ぶ。

本実施形態の辞書作成方法は、インスタンス周辺形態素解析・蓄積機能ａと、ＰＮ抽出機能ｂと、クラス特徴辞書生成機能ｃと、比較対象クラス決定機能ｄと、ベース属性辞書比較機能ｅと、自動生成名詞など辞書チェック機能ｆとを使用することができる。これらの各機能は、以降で詳細に説明する。

なお、図１において、生成辞書・ベース属性辞書比較機能ｅと、自動生成名詞など辞書チェック機能ｆと、ベース属性辞書６と、自動生成名詞など辞書７とは、インスタンスおよびクラスに対して既存の属性とは別の属性を付与する場合に必要となる機能である。

（１）ベースＰＮＭ辞書１の生成
各クラス毎に特徴的なＰＮＭ辞書（自動生成Ｐ辞書３、自動生成Ｎ辞書４、自動生成Ｍ辞書５）を自動的に生成するため、まずポジティブ、ネガティブ、感性それぞれに対してベースとなる辞書であるベースＰＮＭ辞書１を人手などによって生成する。ベースＰＮＭ辞書１に登録する語としては、ＰＮＭ辞書を自動生成したい場合は、品詞として形容詞や形容動詞を選び、かつ多様なクラスに汎用的に適用可能な形態素を選択する。なお、形態素とは、言語において意味を持つ最小単位をいう。例えば、「お待ちしております。」という記載は、「お待ち」、「し」、「て」、「おり」、「ます」、「。」の各形態素に分割することができる。

上記の適用可能な形態素の選択は、形態素でなく、複数形態素を組合わせたフレーズの選択であっても良い。汎用的な形態素やフレーズを選択する理由は、「素晴らしい」という形態素は多数のクラスにおいて一般的にポジティブな意味を持つが、「甘い」という形態素は、ポジティブな意味を持つ場合もネガティブな意味を持つ場合もあるためであり、こうした形態素をベースＰＮＭ辞書１に登録すると、クラス毎に生成されるＰＮＭ辞書の精度に影響を与えるためである。

ここでいう汎用的というのは、ＰＮＭ辞書を生成する領域において汎用的という意味である。例えばファッション領域においてＰＮＭ辞書を自動生成する場合には、ファッションという領域で汎用的な辞書を作ればよい。ＰＮＭベース辞書１以外にも、ベース属性辞書６を用意することで、インスタンスに対する属性を決定するのに役立てる。ベース属性辞書６は、例えばファッション領域では、インスタンス（ブランド）に対する属性をモデル、雑誌、ブランド、アイテムなどとし、各種属性に対し形態素またはフレーズを登録したものである。例えば、ベース属性辞書６のアイテム辞書には、ネクタイ、ベルトなどが登録される。

（２）ＰＮＭ辞書の自動生成
次に、各クラスに分類された記事集合を用い、各クラスの特徴に沿ったＰＮＭ辞書を自動生成する。以下、ＰＮＭ辞書生成の場合の辞書自動生成の手順を図２を用い説明する。図２は、ＰＮＭ辞書の生成手順の一例を示す説明図である。

（ａ）インスタンス周辺形態素解析・蓄積機能
クラスＣ_ｉとその配下に属するクラスからなるクラス集合Ｓ（Ｃ（Ｃ_ｉ））に分類された記事集合Ｓ（Ｅ（Ｃ_ｉ））に所属する記事

に対し、Ｓ（Ｃ（Ｃ_ｉ））に所属するインスタンス

に対する記述箇所をチェックする。そして、その記述箇所の前後Ｘ個の形態素に対し、その基本形と品詞情報をチェックし、ベースＰＮＭ辞書１におけるポジティブベース辞書内の形態素と一致するものがあるかどうかをチェックする。そして、ある場合に限りクラス集合Ｓ（Ｃ（Ｃ_ｉ））に特徴的なポジティブ辞書Ｐ（Ｃ_ｉ）として自動生成Ｐ辞書３に蓄積する。これを、Ｓ（Ｅ（Ｃ_ｉ））に所属する全記事に対し実行する。また、蓄積にあたり、各形態素の基本形の出現回数も保持する。これを、ベースＰＮＭ辞書１におけるネガティブベース辞書および感性ベース辞書に対しても実行し、それぞれに対し蓄積された特徴的な辞書を、ネガティブ辞書Ｎ（Ｃ_ｉ）として自動生成Ｎ辞書４に蓄積し、感性辞書Ｍ（Ｃ_ｉ）として自動生成Ｍ辞書５に蓄積する。

また、ＰＮＭ辞書を生成する場合、ベースＰＮＭ辞書１に登録する形態素と以下の「（ｂ）ＰＮ抽出機能」以降で抽出する形態素とは、形容詞および形容動詞に設定すればよい。

一方、ＰＮＭ辞書のみでなく、例えば領域が「ファッション」であり、クラスが「セクシー」というジャンルであり、インスタンスが「ＶＩＶＡＹＯＵ」というブランドであった場合、「ＶＩＶＡＹＯＵ」に対して特徴的なアイテムを抽出したければ、抽出する形態素を名詞などに指定する。そして、抽出きれた結果とベースＰＮＭ辞書１におけるアイテムベース辞書とを比較し、抽出された名詞の中からそのインスタンスに特徴的なアイテムを抽出する。ここで抽出されたものを自動生成名詞など辞書７に蓄積する。

（ｂ）ＰＮ抽出機能
上記のインスタンス周辺形態素解析・蓄積機能ａによって自動生成Ｐ辞書３に生成されたポジティブ特徴辞書Ｐ（Ｃ_ｉ）は、単純に、ベースＰＮＭ辞書１におけるポジティブベース辞書内の登録形態素と共起して出現した形態素を登録しただけであり、必ずしもポジティブ・ネガティブを判別するために利用できる辞書であるとは限らない。そこで、辞書Ｐ（Ｃ_ｉ）について、ネガティブベース辞書とポジティブベース辞書とを比較してポジティブベース辞書の方に多く頻出する形態素を抽出するため、辞書Ｐ（Ｃ_ｉ）と辞書Ｎ（Ｃ_ｉ）とで登録された形態素

に対し、下記の数式（６）を実行し、ヒューリスティックな閾値αを下回る場合は、その形態素ｍはネガティブベース辞書およびポジティブベース辞書の両辞書に頻出する語でありポジティプでもネガティブでもないと捉え、削除する。ここで、形態素ｍの辞書Ｐ（Ｃ_ｉ）における出現回数を

とし、辞書Ｎ（Ｃ_ｉ）における出現回数を

とする。同様の処理を、自動生成Ｎ辞書４に生成されたネガティブ特徴辞書Ｎ（Ｃ_ｉ）に対しても実行する。これらの処理を経て、辞書Ｐ（Ｃ_ｉ）に残る形態素は、ネガティブベース辞書とポジティブベース辞書とを比較して、ポジティブベース辞書の方に多く頻出する形態素になるとともに、辞書Ｎ（Ｃ_ｉ）に残る形態素は、ネガティブベース辞書とポジティブベース辞書とを比較して、ネガティブベース辞書の方に多く頻出する形態素を集めたものになる。したがって、辞書Ｐ（Ｃ_ｉ）および辞書Ｎ（Ｃ_ｉ）は、ＰＮ判定に有効となる。

（ｃ）クラス特徴辞書生成機能
次に、自動生成Ｐ辞書３において、各クラスの特性のみを反映したポジティブ特徴辞書を生成するため、クラス集合Ｓ（Ｃ（Ｃ_ｉ））とは異なるクラス集合Ｓ（Ｃ（Ｃ_ｊ））に対し生成された辞書Ｐ（Ｃ_ｊ）と、クラス集合Ｓ（Ｃ（Ｃ_ｉ））に対して生成された辞書Ｐ（Ｃ_ｉ）を比較する。ここで、クラスＣ_ｉに対し特徴的な辞書を構築することを狙うため、クラス集合Ｓ（Ｃ（Ｃ_ｉ））とクラス集合Ｓ（Ｃ（Ｃ_ｊ））は互いに疎な関係であるとする。比較方法としては、上記のＰＮ抽出機能ｂの手順と同様に、辞書Ｐ（Ｃ_ｉ）と辞書Ｐ（Ｃ_ｊ）とで登録された形態素

に対し、下記の数式（８）を実行し、ヒューリスティックな閾値βを下回る場合、形態素ｍは複数クラスの辞書に跨って出現し一般的にポジティブな形態素であると捉え、辞書Ｐ（Ｃ_ｉ）から削除する。上記の自動生成Ｐ辞書３に対して実行した処理を、自動生成Ｎ辞書４および自動生成Ｍ辞書５に対しても実行する。

（ｄ）比較対象クラス決定機能
ここで、クラスＣ_ｉとクラスＣ_ｊがクラス階層として近い場合、つまり、意味的に近い場合、各クラスにより特徴的な語が情報集合に残るが、残る単語数が少なくなる。一方、クラスＣ_ｉとクラスＣ_ｊがクラス階層として遠い場合、つまり、意味的に遠い場合、より一般的な語のみが情報集合から削除され、残る単語数は多い。本比較対象クラス決定機能ｄでは、比較元クラスと比較対象とするクラスの意味的な距離を調整したり、比較対象となるクラスの数を調整することで、自動生成Ｐ辞書３、自動生成Ｎ辞書４および自動生成Ｍ辞書５として最終的に生成される各辞書内の形態素の精度と数を調整することができる。ここで、意味的な距離の算出方法は、例えば、比較元クラスから比較対象候補となるクラスまでたどったときに、経由するクラスの数などで表現できる。

（ｅ）生成辞書・ベース属性辞書比較機能
ＰＮＭ辞書のみでなく、例えば領域が「ファッション」であり、クラスが「セクシー」というジャンルであり、インスタンスが「ＶＩＶＡＹＯＵ」というブランドであった場合、「ＶＩＶＡＹＯＵ」に対して特徴的な属性（アイテムやモデルなど）を抽出したければ、クラス分類記事２から抽出する形態素を名詞などに指定する。そして、本生成辞書・ベース属性辞書比較機能において、抽出された名詞などとベース属性辞書６とを比較し、抽出された名詞の中からそのインスタンスに特徴的な属性を生成し、この属性を自動生成名詞など辞書７に蓄積する。

（ｆ）自動生成名詞など辞書チェック機能
きらに、自動生成された名詞などをチェックする本自動生成名詞など辞書チェック機能ｆでは、自動生成名詞など辞書７の保持されている自動生成された名詞辞書を人手などによりチェックし、ベース属性辞書に追加しても良いと判断できる名詞などが存在した場合、属性ベース辞書６に追加する。例えば、属性ベース辞書６になかった「蝶ネクタイ」という名詞と名詞の組合せフレーズが出現した場合は、この「蝶ネクタイ」をベース属性辞書６（ここではアイテム）に追加し、ベース属性辞書６を更新する。

上記のインスタンス周辺形態素解析・蓄積機能ａによって生成された自動生成Ｐ辞書３、自動生成Ｎ辞書４、自動生成Ｍ辞書５および自動生成名詞など辞書７は、上記のＰＮ抽出機能ｂ、クラス特徴辞書生成機能ｃ、比較対象クラス決定機能ｄおよびベース属性辞書比較機能ｅにより更新される。また、上記の自動生成名詞など辞書チェック機能ｆによってベース属性辞書６が更新される。そして、インスタンス周辺形態素解析・蓄積機能ａ、ＰＮ抽出機能ｂ、クラス特徴辞書生成機能ｃ、比較対象クラス決定機能ｄ、ベース属性辞書比較機能ｅおよび自動生成名詞など辞書チェック機能ｆを繰り返して、自動生成Ｐ辞書３、自動生成Ｎ辞書４、自動生成Ｍ辞書５、ベース属性辞書６および自動生成名詞など辞書７の各辞書に登録される形態素などの数を増やしていく。このようにして、クラス毎に特徴的な辞書を生成する。

なお、上記実施形態は、クラスに特徴的な辞書を生成しており、インスタンスの特徴はクラスの特徴と基本的に一致するという観点のものである。しかし、本発明は、クラス体系を利用し、インスタンス毎に特徴的な辞書を生成することも可能である。

図３は、インスタンス毎に特徴的な辞書を作成する場合の比較対象クラスの選択例を示す説明図である。インスタンス毎に特徴的な辞書を作成する場合は、ＰＮ抽出機能ｂおよびクラス特徴辞書生成機能ｃがクラスにおける比較ではなくインスタンスとしての比較をする。そして、図３に示すように、比較対象クラス決定機能ｄが比較対象クラスを選択した上で、クラス特徴辞書生成機能ｃが比較元インスタンスの所属クラス以外の選択クラス配下のインスタンスとの間で比較する。

例えば、図３に示すように、比較対象クラスとして「フェミニン」を選択する。そして、比較元クラス「セクシー」の比較元インスタンス「ＬＩＺＬＩＳＡ」と、比較対象クラス「フェミニン」のインスタンス「ＶＩＶＡＹＯＵ」および「ＥａｒｌＪｅａｎ」とを比較する。こうすることで、インスタンスの背景知識が近すぎるインスタンス間で辞書を比較することにより、比較元インスタンスの特徴語が全く残らなくなってしまうという弊害を防ぐことができる。

なお、上述した各機能は、コンピュータ、ブラウザおよびインターネットなどを使用して、それぞれ処理ステップとして実行されるものとすることができる。また、上述した各機能は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されているものとしてもよく、このプログラムをコンピュータが読み出して実行することによって、上記機能が実行されるものとしてもよい。すなわち、上述した各機能の全部または一部は、コンピュータなどのハードウェアで実現することができる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。

また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

[実施形態の効果]
本実施形態によれば、ユーザが記述したプログ記事集合などから、ユーザの興味を自動的に抽出することで、ユーザ毎への推薦など、ユーザに特化したマーケティングを実施することができる。そうした推薦を行う際に、ユーザがポジティブな興味を持つ場合は積極的に推薦し、ネガティブな興味を持つ場合は推薦しないなどの振り分けに本発明は効果を持つ。また、多数のユーザの記述を解析することで、ユーザの記述対象に対する感性情報や、その対象に関連する商品情報（例えば、ブランド「バーバリ一」といえば、「トレンチコート」であるなど）を得ることもでき、感性や属性をベースとし、対象を検索するということもできるため、ユーザは多数の観点から情報を検索することができる。

今後の産業発展の基盤の一つである情報通信システムは、現在急激な成長の過程にあるが、膨大な量に拡大した情報通信によるアクセス可能な情報源を充分に活用出来ているかどうかが現在大問題になっている。特に、ユーザ個別に対応した情報提供方法やユーザ毎の情報アクセス方法を与えるパーソナライゼーションへの注目はとても高い。これに対して、本発明によれば、ユーザの興味および感性に基づくコンテンツ検索への適用も可能となり、ユーザにとっては、それぞれのユーザ興味に従った情報へ直感的にアクセスすることができるようになるため、情報へのアクセスが従来よりも容易になる。また、本発明によれば、プロバイダにとっても、今話題となっている商品の感性情報などをマーケティングすることができ、商品の売り込み方法を考えることができるなど、プロバイダにおけるコンテンツ販売戦略を考えることが容易になる。

本発明の実施形態に係る辞書作成方法の一例を説明するための機能ブロック図である。ＰＮＭ辞書の生成手順の一例を示す説明図である。インスタンス毎に特徴的な辞書を作成する場合の比較対象クラスの選択例を示す説明図である。

符号の説明

１ベースＰＮＭ辞書
２クラス分類記事
３自動生成Ｐ辞書
４自動生成Ｎ辞書
５自動生成Ｍ辞書
６ベース属性辞書
７自動生成名詞など辞書
ａインスタンス周辺形態素解析・蓄積機能
ｂＰＮ抽出機能
ｃクラス特徴辞書生成機能
ｄ比較対象クラス決定機能
ｅベース属性辞書比較機能
ｆ自動生成名詞など辞書チェック機能

Claims

通信回線を介してアクセス可能な記憶手段に記憶されている記事を複数の要素に分類わけし、該分類わけされた要素それぞれと各要素の特徴を示す情報とを有する辞書を作成する辞書作成方法であって、
前記分類わけされた要素がポジティブなものかネガティブなものかを少なくとも解析して、該解析結果に基づいて前記要素を、ポジティブ辞書およびネガティブ辞書を少なくとも含む複数の辞書のいずれかに蓄積する解析・蓄積ステップ（ａ）と、
前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該同一の要素を前記ポジティブ辞書およびネガティブ辞書から削除するＰＮ抽出ステップ（ｂ）とを有することを特徴とする辞書作成方法。
ポジティブな意味を有する語が蓄積されているポジティブベース辞書と、ネガティブな意味を有する語が蓄積されているネガティブベース辞書と、感性についての意味を有する語が蓄積されている感性ベース辞書とを少なくとも生成するベース辞書生成ステップを更に有し、
前記解析・蓄積ステップは、
前記分類わけされた要素と前記ポジティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ポジティブ辞書に蓄積するステップと、
前記分類わけされた要素と前記ネガティブベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記ネガティブ辞書に蓄積するステップと、
前記分類わけされた要素と前記感性ベース辞書に蓄積されている語とを比較して、一致した場合は、該要素を前記感性辞書に蓄積するステップと、
前記分類わけされた要素が名詞などの所定の品詞であるか否か解析して、所定の品詞である場合は、該要素を名詞など辞書に蓄積するステップとを有することを特徴とする請求項１に記載の辞書作成方法。
前記分類わけされた要素は、クラス毎に分類されており、
前記クラスは、該クラスに所属する要素の集合の持つ特性を制約するものであって、要素の持つ背景知識を示す情報を有するものであり、
前記解析・蓄積ステップは、前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のそれぞれに対して、クラス毎に前記要素を蓄積するステップを有し、
前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか１つの辞書内において、異なる２つのクラスの要素同士を比較し、同一の要素を該辞書から削除するクラス特徴辞書生成ステップ（ｃ）をさらに有することを特徴とする請求項２に記載の辞書作成方法。
前記クラス特徴辞書生成ステップにおいて比較対象とされる２つのクラスを決定するステップであって、２つクラス間の意味的な距離を算出して、該距離が所定値よりも大きい場合、該２つのクラスを前記比較対象とされる２つのクラスに決定する比較対象クラス決定ステップ（ｄ）をさらに有することを特徴とする請求項３に記載の辞書作成方法。
複数の属性を有するとともに属性毎に形態素またはフレーズが登録されているベース属性辞書を使用して、前記ベース属性辞書に登録されている形態素またはフレーズと前記前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか１つの辞書の要素とを比較し、一致する場合、該形態素またはフレーズを該要素に対する属性として決定するとともに、該決定事項を前記名詞など辞書に蓄積する生成辞書・ベース属性辞書比較ステップ（ｅ）をさらに有することを特徴とする請求項４に記載の辞書作成方法。
前記名詞など辞書に蓄積されているもののうち、前記ベース属性辞書に蓄積されていないものがあるか否か判断し、ある場合、該ものを前記ベース属性辞書に蓄積させる名詞など辞書チェックステップ（ｆ）をさらに有することを特徴とする請求項５に記載の辞書作成方法。
前記ＰＮ抽出ステップは、
前記ポジティブ辞書の要素と前記ネガティブ辞書の要素とを比較して、該比較した要素同士が同一の場合、該比較した要素の前記ポジティブ辞書およびネガティブ辞書それぞれでの出現回数をも考慮して、該要素が前記ポジティブ辞書およびネガティブ辞書の両辞書に頻出する語であるか否か判断して、両辞書に頻出する語であると判断した場合は、該要素を前記ポジティブ辞書およびネガティブ辞書から削除することを特徴とする請求項６に記載の辞書作成方法。
前記クラス特徴辞書生成ステップは、
前記ポジティブ辞書、ネガティブ辞書、感性辞書および名詞など辞書のうちのいずれか１つの辞書内において、異なる２つのクラスの要素同士を比較して、該比較した要素同士が同一の場合、該比較した要素の該２つのクラスでの出現回数をも考慮して、該要素が該２つのクラスで頻出する語であると判断した場合は、該要素を該辞書から削除することを特徴とする請求項７に記載の辞書作成方法。
前記要素は、形態素またはフレーズであることを特徴とする請求項８に記載の辞書作成方法。
前記ベースＰＮＭ辞書、クラス分類記事、自動生成Ｐ辞書、自動生成Ｎ辞書、自動生成Ｍ辞書、ベース属性辞書および自動生成名詞など辞書は、データベースで構成されており、
前記各ステップにおける各処理は、コンピュータとブラウザとインターネットとを使用して実行され、
前記記事は、ブログであることを特徴とする請求項９に記載の辞書作成方法。