JP4580351B2 - 興味情報生成装置、興味情報生成方法および興味情報生成プログラム - Google Patents

興味情報生成装置、興味情報生成方法および興味情報生成プログラム Download PDF

Info

Publication number
JP4580351B2
JP4580351B2 JP2006045903A JP2006045903A JP4580351B2 JP 4580351 B2 JP4580351 B2 JP 4580351B2 JP 2006045903 A JP2006045903 A JP 2006045903A JP 2006045903 A JP2006045903 A JP 2006045903A JP 4580351 B2 JP4580351 B2 JP 4580351B2
Authority
JP
Japan
Prior art keywords
class
ontology
blog entry
instance
personal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006045903A
Other languages
English (en)
Other versions
JP2007226467A (ja
Inventor
真 中辻
優 三好
祥広 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006045903A priority Critical patent/JP4580351B2/ja
Publication of JP2007226467A publication Critical patent/JP2007226467A/ja
Application granted granted Critical
Publication of JP4580351B2 publication Critical patent/JP4580351B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は興味情報生成装置、興味情報生成方法および興味情報生成ブログラムに関し、特に、ブログエントリを参照しつつ、個人の興味情報が概念階層化されたパーソナルオントロジを自動的に生成する方法に適用して好適なものである。
インターネット上などで情報検索を実施する場合、主としてキーワード入力による情報検索が行われている。このキーワード検索では、例えば、ビデオ録画装置の分野においては、録画内容がキーワードによって指定されるため、ユーザが適切なキーワードを思いつかないと、意図したビデオ内容を録画することができなかった。
また、gooなどの検索エンジンを利用した検索においても、ユーザが適切なキーワードを思いつかないと、意図した内容を検索することができないだけでなく、不要な検索結果が多数含まれることがあった。
さらに、doblogなどのブログプロバイダにおいても、ユーザはキーワードベースで興味のある情報を検索し、検索結果にかかったブログサイトにアクセスするというレベルに留まっており、ユーザが興味のある未知のキーワードやコミュニティあるいはブログサイトを発見することができなかった。
この理由の一つとして、現在の検索方法はキーワード検索のみであり、クラス(概念)体系やクラスの持つ属性、すなわちクラス名やインスタンス(実体)を利用した精度の高い検索を実施できないことが挙げられる。キーワードはただの文字列であるが、クラスは複数のインスタンスをメンバーとして持つものであり、どのようなインスタンスをクラスの構成メンバーとするかによって、各個人の嗜好をクラスに反映させることができる。また、クラス階層の取り方によっても、各個人の嗜好をクラスに反映させることができる。
また、非特許文献1には、個人の登録するブックマークや個人が保持するフォルダなどの階層構造と、ブックマークやフォルダに格納されるファイル情報に基づいて個人の興味情報を階層的に構築する方法が開示されている。
佐保田圭介他、"ブックマークの階層構造情報を組み込んだ協調フィルタリングによるWebページの推薦手法"、DEWS2004 6−B−04
しかしながら、ユーザの興味が概念階層化されたパーソナルオントロジを生成するにはコストが高くつくため、各個人のパーソナルオントロジをインターネットを介して流通させることが困難である。このため、各個人のパーソナルオントロジを他のユーザのパーソナルオントロジとマッピングさせることにより、興味の一致するユーザ間で自動的にコミュニティを形成することができなかった。また、Web上の音楽ファイルなどのコンテンツのメタデータとパーソナルオントロジとの間でのマッチングによる自動的かつ高精度な情報検索および推薦ができないという問題があった。
また、非特許文献1に開示された方法では、個人の興味がブックマークやフォルダに的確に表現されているとは言えないため、これらの情報に基づく興味マッチングでは、各個人の興味に適合したコミュニティを発見したり、情報を推薦したりすることができないという問題があった。
そこで、本発明の目的は、作成にかかるコストを抑制しつつ、個人の興味が高精度に反映されたパーソナルオントロジを生成することが可能な興味情報生成装置、興味情報生成方法および興味情報生成ブログラムを提供することである。
上述した課題を解決するために、請求項1記載の興味情報生成装置によれば、ブログエントリに含まれる単語を抽出する単語抽出手段と、予め設定された単語が概念階層化されてなる雛形オントロジから前記単語抽出手段で抽出された単語を含むクラスまたはインスタンスを抽出する分類子適用手段と、前記抽出されたクラスまたはインスタンスおよびそれらの上位のクラスを含む階層構造を、ユーザの興味情報を表すパーソナルオントロジとして前記雛形オントロジから抽出するパーソナルオントロジ抽出手段と、記パーソナルオントロジ抽出手段で抽出されパーソナルオントロジをフィルタリングするフィルタリング手段と、を備え、当該フィルタリング手段は、前記単語抽出手段で抽出された単語が所属するクラスと同一クラスまたは近隣クラスに所属するインスタンス、または前記近隣クラスの記述が同一ユーザのブログエントリ内に存在するときにのみ、前記単語が前記パーソナルオントロジに含まれるようにフィルタリングすることを特徴としている。
これにより、単なる文字列ではなく概念間の一致性に基づいて、自分の嗜好に適合した情報を検索することが可能となるとともに、各個人の興味情報に含まれる単語を雛形オントロジ上で照合することにより、多義語が間違って分類されることを排除しつつ、個人の興味が反映されたパーソナルオントロジを生成することができる。このため、作成にかかるコストを抑制しつつ、パーソナルオントロジを精度よく生成することが可能となり、情報検索の精度を向上させることが可能となるとともに、各個人のパーソナルオントロジをインターネット上で広く流通させることが可能となり、個人の嗜好に適合したコミュニティを形成することができる。
また、請求項2記載の興味情報生成装置によれば、ユーザ数計測手段を有し、前記分類子適用手段は、前記雛形オントロジのクラスまたは前記クラスに所属するインスタンスの記述に対応する単語を含んでいる前記ブログエントリを、前記雛形オントロジのクラスまたは前記クラスに所属するインスタンスに分類し、前記ブログエントリのユーザ毎に、当該ユーザのブログエントリが分類されている前記雛形オントロジのクラスまたは前記クラスに所属するインスタンスを抽出し、前記ユーザ数計測手段は、前記分類子適用手段で抽出された前記雛形オントロジのクラスまたは前記クラスに所属するインスタンスごとに、当該クラスまたはインスタンスの記述に対応する単語を前記ブログエントリに含むユーザ数を計測することを特徴とする
これにより、興味がクラスや複数のクラスに跨るユーザ数の分布を解析することができ、ユーザの興味に関するコミュニティの活性状況を把握することができる。
また、請求項3記載の興味情報生成方法によれば、ブログエントリに含まれる単語が概念階層化されてなるパーソナルオントロジを興味情報として生成する興味情報生成装置が実行する興味情報生成方法であって、前記ブログエントリに対して形態素解析を適用することにより、前記ブログエントリに含まれる単語を抽出するステップと、予め設定された単語が概念階層化されてなる雛形オントロジを選択するステップと、前記雛形オントロジから、前記ブログエントリから抽出された単語を含むクラスまたはインスタンスを抽出するステップと、前記抽出されたクラスまたはインスタンスおよびそれらの上位のクラスを含む階層構造を、ユーザの興味情報を表すパーソナルオントロジとして前記雛形オントロジから抽出するステップと、前記ブログエントリから抽出された単語が所属するクラスと同一クラスまたは近隣クラスに所属するインスタンス、または前記近隣クラスの記述が同一ユーザのブログエントリ内に存在するときにのみ、前記単語が前記パーソナルオントロジに含まれるように前記パーソナルオントロジをフィルタリングするステップと、を備えることを特徴とする。
これにより、単なる文字列ではなく意味を考慮しながら、自分の嗜好に適合した情報を検索することが可能となるとともに、ブログエントリに含まれる単語を雛形オントロジ上で照合しつつ、ブログエントリを用いたフィルタリングをかけることにより、多義語が間違って分類されることを排除しつつ、個人の興味が反映されたパーソナルオントロジを精度よく生成することができる。このため、作成にかかるコストを抑制しつつ、パーソナルオントロジを生成することが可能となり、情報検索の精度を向上させることが可能となるとともに、各個人のパーソナルオントロジをインターネット上で広く流通させることが可能となり、個人の嗜好に適合したコミュニティを形成することができる。
また、請求項4記載の興味情報生成プログラムによれば、ブログエントリに対して形態素解析を適用することにより、前記ブログエントリに含まれる単語を抽出するステップと、予め設定された単語が概念階層化されてなる雛形オントロジを選択するステップと、前記雛形オントロジから、前記ブログエントリから抽出された単語を含むクラスまたはインスタンスを抽出するステップと、前記抽出されたクラスまたはインスタンスおよびそれらの上位のクラスを含む階層構造を、ユーザの興味情報を表すパーソナルオントロジとして前記雛形オントロジから抽出するステップと、前記ブログエントリから抽出された単語が所属するクラスと同一クラスまたは近隣クラスに所属するインスタンス、または前記近隣クラスの記述が同一ユーザのブログエントリ内に存在するときにのみ、前記単語が前記パーソナルオントロジに含まれるように前記パーソナルオントロジをフィルタリングするステップと、をコンピュータに実行させることを特徴とする。
これにより、興味情報生成ブログラムをコンピュータに実行させることにより、作成にかかるコストを抑制しつつ、パーソナルオントロジを精度よく生成することが可能となり、情報検索の精度を向上させることが可能となるとともに、各個人のパーソナルオントロジをインターネット上で広く流通させることが可能となり、個人の嗜好に適合したコミュニティを形成することができる。
以上説明したように、本発明によれば、自分の嗜好に適合した情報を精度よく検索することが可能となるとともに、自分の嗜好に適合した情報をインターネット上で広く流通させることが可能となり、個人の嗜好に適合したコミュニティを形成することができる。
以下、本発明の実施形態に係る興味情報生成装置およびその方法について図面を参照しながら説明する。
図1は、本発明の一実施形態に係る興味情報生成装置が適用されるシステムの概略構成を示すブロック図である。
図1において、端末2〜4およびサーバ5が通信網1を介して接続されている。なお、通信網1としては、例えば、IP通信を行う公衆通信網を用いることができ、インターネットであってもよい。また、企業間の専用通信網であっても、公衆通信網であってもよいが、高信頼性とセキュリティとを備えた専用通信を提供できるIP−VPN(Internet Protocol−Virtual Private Network)のような網であってもよい。また、端末2〜4としては、ノート型パーソナルコンピュータあるいはデスクトップ型パーソナルコンピュータでもよく、携帯電話端末やPDA(Personal Data Assistant)などでもよい。また、サーバ5は、ブログプロバイダやISP(Information Service Provider)上に設置することができ、サーバ5としては、例えば、ブログの更新情報を収集して提供するpingサーバを用いることができる。
ここで、サーバ5には、端末2〜4にそれぞれ対応したブログサイト7〜9が設けられ、各ブログサイト7〜9には、ブログエントリ7a〜7n、8a〜8n、9a〜9nがそれぞれ保持されている。なお、ブログエントリ7a〜7n、8a〜8n、9a〜9nはブログにおける記事の最小単位を表し、日にちごとに設けることができる。また、サーバ5には雛形オントロジ6が保持され、雛形オントロジ6には、個人の興味情報が概念階層化されたパーソナルオントロジの雛形が設けられている。
なお、雛形オントロジ6は、ブログプロバイダ側で恣意的に作成することができる。例えば、ブログプロバイダが音楽に関するパーソナルオントロジを各端末2〜4のユーザに構築させたければ、音楽に関する雛形オントロジ6を構築すればよい。ここで、各端末2〜4のユーザの興味を細やかに表現するために、可能な限り細分化された網羅性の高い雛形オントロジ6を構築することが好ましい。また、雛形オントロジ6の実体は、オントロジ記述言語OWLなどのXML言語で記述されたテキストファイルである。また、情報の整理の簡単化のため、インスタンスは最下位クラスにのみ分類してもよい。
さらに、サーバ5には、ブログエントリ7a〜7n、8a〜8n、9a〜9nに対して形態素解析をそれぞれ適用することにより、ブログエントリ7a〜7n、8a〜8n、9a〜9nに頻出する単語を抽出する頻出単語抽出手段5a、ブログエントリ7a〜7n、8a〜8n、9a〜9nに頻出する単語を含むクラスまたはインスタンスを雛形オントロジ6から抽出する分類子適用手段5b、分類子適用手段5bにて抽出されたクラスまたはインスタンスおよびそれらの上位の全てのクラスをパーソナルオントロジとして雛形オントロジ6から抽出するパーソナルオントロジ抽出手段5cならびに雛形オントロジの同一または近隣クラスに所属するインスタンスの記述が興味情報のエントリ内にあるかどうかの判定結果に基づいて、パーソナルオントロジ抽出手段5cにて抽出されたパーソナルオントロジをフィルタリングするフィルタリング手段5dが設けられている。
そして、頻出単語抽出手段5aは、ブログエントリ7a〜7n、8a〜8n、9a〜9nに対して形態素解析をそれぞれ適用する。そして、同一ユーザの持つ複数のブログエントリ7a〜7n、8a〜8n、9a〜9nで頻出する形態素を抽出する。この際、明らかに興味でない形態素(例えば、私・もの・が、など)はフィルタリングすることができる。
次に、分類子適用手段5bは、ブログエントリ7a〜7n、8a〜8n、9a〜9nで頻出する各形態素を雛形オントロジ6に適用し、雛形オントロジ6内のクラスまたはインスタンスに一致する文字列があるかどうかを調べる。そして、雛形オントロジ6内のクラスまたはインスタンスに一致する文字列がある場合、パーソナルオントロジ抽出手段5cは、雛形オントロジ6のルートクラスから、そのクラスまたはインスタンスまでの直接的な子孫クラスおよびインスタンスをパーソナルオントロジとして抽出する。
さらに、フィルタリング手段5dは、雛形オントロジ6の同一または近隣クラスに所属するインスタンスの記述あるいはクラス自体の記述がブログエントリ7a〜7n、8a〜8n、9a〜9n内にあるかどうかを判定する。そして、雛形オントロジ6の同一または近隣クラスに所属するインスタンスの記述あるいはクラス自体の記述がブログエントリ7a〜7n、8a〜8n、9a〜9n内にある場合、そのブログエントリ7a〜7n、8a〜8n、9a〜9nをパーソナルオントロジ抽出手段5cにて抽出されたパーソナルオントロジに分類し、雛形オントロジ6の同一または近隣クラスに所属するインスタンスの記述あるいはクラス自体の記述がブログエントリ7a〜7n、8a〜8n、9a〜9n内にない場合、そのブログエントリ7a〜7n、8a〜8n、9a〜9nをパーソナルオントロジ抽出手段5cにて抽出されたパーソナルオントロジから除去する。
例えば、雛形オントロジ6のあるクラスCiに所属するインスタンスIi(∈Ci)の名称が、あるユーザのあるエントリEi内に記述されている場合、そのユーザの蓄積する全てのエントリについて、クラスCiに所属するインスタンスIi以外のインスタンスIk{(Ik)∈Ci}やクラスCiの記述があるかどうかを判定する。
そして、クラスCiに所属するインスタンスIi以外のインスタンスIkやクラスCiの記述がそのユーザの蓄積するエントリのいずれかにある場合、エントリEiはクラスCiに所属するインスタンスIiを話題にするエントリとしてパーソナルオントロジに分類し、クラスCiに所属するインスタンスIi以外のインスタンスIkやクラスCiの記述がそのユーザの蓄積するエントリのいずれにもない場合、そのエントリEiがパーソナルオントロジに分類されないようにすることができる。
あるいは、雛形オントロジ6のあるクラスCiに所属するインスタンスIi(∈Ci)の名称が、あるユーザのあるエントリEi内に記述されている場合、クラスCiに所属するインスタンスIi以外のインスタンスIk{(Ik)∈Ci}やクラスCiの記述が、その同一エントリEi内あるかどうかを判定する。
そして、クラスCiに所属するインスタンスIi以外のインスタンスIkやクラスCiの記述が同一エントリEi内にある場合、エントリEiはクラスCiに所属するインスタンスIiを話題にするエントリとしてパーソナルオントロジに分類し、クラスCiに所属するインスタンスIi以外のインスタンスIkやクラスCiの記述が同一エントリEiない場合、エントリEiがパーソナルオントロジに分類されないようにすることができる。
これにより、単なる文字列ではなく意味を考慮しながら、自分の嗜好に適合した情報を検索することが可能となるとともに、ブログエントリ7a〜7n、8a〜8n、9a〜9nに含まれる単語を雛形オントロジ6上で照合しつつ、ブログエントリ7a〜7n、8a〜8n、9a〜9nを用いたフィルタリングをかけることにより、多義語が間違って分類されることを排除しつつ、個人の興味が反映されたパーソナルオントロジを精度よく生成することができる。このため、作成にかかるコストを抑制しつつ、パーソナルオントロジを生成することが可能となり、情報検索の精度を向上させることが可能となるとともに、各個人のパーソナルオントロジを通信網1上で広く流通させることが可能となり、個人の嗜好に適合したコミュニティを形成することができる。
なお、雛形オントロジ6は、デスクワークにて人手で作成してサーバ5に保持させるようにしてもよいし、パーソナルオントロジ抽出手段5cにて抽出されたパーソナルオントロジを既存の雛形オントロジ6とマージすることにより作成してもよい。さらに、雛形オントロジ6から抽出されたパーソナルオントロジに対してユーザが興味のあるクラスまたはインスタンスを追加したり、ユーザが興味のないクラスまたはインスタンスを削除したりするようにしてもよい。
また、頻出単語抽出手段5a、分類子適用手段5b、パーソナルオントロジ抽出手段5cおよびフィルタリング手段5dは、これらの手段で行われる処理を遂行させる命令が記述されたブログラムをコンピュータに実行させることにより実現することができる。
そして、このブログラムをCD−ROMなどの記憶媒体に記憶しておけば、サーバ5のコンピュータに記憶媒体を装着し、そのブログラムをコンピュータにインストールすることにより、頻出単語抽出手段5a、分類子適用手段5b、パーソナルオントロジ抽出手段5cおよびフィルタリング手段5dで行われる処理を実現することができる。また、このブログラムを通信網1を介してダウンロードすることにより、このブログラムを容易に普及させることができる。
また、頻出単語抽出手段5a、分類子適用手段5b、パーソナルオントロジ抽出手段5cおよびフィルタリング手段5dで行われる処理を遂行させる命令が記述されたブログラムをコンピュータに実行させる場合、スタンドアロン型コンピュータで実行させるようにしてもよく、ネットワークに接続された複数のコンピュータに分散処理させるようにしてもよい。
図2は、本発明の一実施形態に係るパーソナルオントロジの生成方法を示す図である。
図2において、pingサーバなどを通じ、ユーザA、B、・・・、Xのエントリ集合をそれぞれ収集し、これらの収集した全てのブログエントリに対して形態素解析を行うことにより、インデックスを作成する(ステップS1)。
次に、pingサーバにて収集された全てのブログエントリを雛形オントロジOHに対して分類する(ステップS2)。ここで、ブログエントリの分類方法としては、雛形オントロジOHのあるクラスCiの名前属性があるエントリ内の記述にあれば、そのエントリをクラスCiに分類することができる。また、雛形オントロジOHのあるクラスCiに所属するインスタンスIi(∈Ci)の名前属性があるエントリ内の記述にあれば、そのエントリをクラスCiに所属するインスタンスIiに分類することができる。なお、同一のエントリが複数のクラスに分類されてもよい。
例えば、“Charlatans”という文字列がエントリ内の記述にある場合、そのエントリは、クラス“Madchester”のインスタンス“Charlatans”に分類することができる。
次に、雛形オントロジOHを形成する最下層クラスClの持つ各インスタンスに興味を持つユーザA、B、・・・、Xの数を計測する(ステップS3)。なお、クラスClのインスタンスに興味を持つユーザA、B、・・・、Xの数を計測する場合、同一のユーザが複数のエントリにおいてインスタンスIlを記述している場合においても、ユーザ数は1と計測する。
次に、雛形オントロジOHを形成する最下層クラスClに興味を持つユーザA、B、・・・、Xの数を計測する。ここで、雛形オントロジOHを形成する最下層クラスClに興味を持つユーザA、B、・・・、Xの数は、最下層クラスClの配下の全てのインスタンスに興味を持つユーザ数と、最下層クラスCl自体に興味を持つユーザ数との総和にて算出することができる。なお、同一のユーザが複数のインスタンスに興味を持っていたり、最下層クラスとその最下層クラスに所属するインスタンスに同時に興味を持っている場合においても、ユーザ数は1と計測する。このようにして、雛形オントロジOHを形成するクラスやインスタンスに興味を持つユーザA、B、・・・、Xの数をルートクラスまで再帰的に計測することで、そのドメインに興味を持つユーザA、B、・・・、Xの分布を算出することができる。
次に、pingサーバにて収集された全てのブログエントリが雛形オントロジOHに対して分類されると、その分類結果をユーザIDごとに整理することにより、各ユーザA、B、・・・、Xごとの興味オントロジOA、・・・、OXを生成する(ステップS4)。
ここで、pingサーバにて収集された全てのブログエントリを雛形オントロジOHに対して分類する場合、オントロジの持つ同一クラスに所属するインスタンスは同一の性質を持つという特性と、クラス階層の近いクラス間の性質は近く、両者のインスタンス間の性質も近いという特性を用いることにより、分類の誤りを除去することができる。
図3は、本発明の一実施形態に係るパーソナルオントロジのフィルタリング方法を示す図である。
図3において、雛形オントロジOHのクラス“Madchester”に所属するインスタンス“Farm”に対する記述が、あるユーザのエントリEi内に存在し、そのユーザの全ての蓄積エントリ内に、例えば、雛形オントロジOHのクラス“Madchester”に所属する“Milltown Brothers”の記述がある場合、エントリEiは、クラス“Madchester”に所属するインスタンス“Farm”に関するエントリとして分類することができる。
これにより、クラス“Madchester”配下のインスタンス“Farm”という多義語において、Madchesterというジャンルのアーチストである“Farm”を雛形オントロジOHに対して分類することを可能としつつ、農場という意味の“Farm”を記述するエントリが、クラス“Madchester”配下のインスタンス“Farm”に分類されることを防止することができ、雛形オントロジOHから構築された興味オントロジの精度を向上させることができる。
さらに、上述した分類の誤りを除去する方法に対し、オントロジのクラス階層を利用することで、フィルタリングの強さの調整を行うようにしてもよい。すわち、あるエントリEi内でのユーザの興味対象は、同一クラスのインスタンスと一緒に現れるだけでなく、近隣のクラスのインスタンスと一緒に現れる可能性が高い。このため、図3に示すように、ホップ数が0の時は、同一クラスと同一クラスに所属するインスタンスのみを分類決定要素とし、ホップ数が1の時は、その親クラスとその親クラスに所属するインスタンスまでを分類決定要素とし、ホップ数が2の時は、その祖父クラスと兄弟クラスおよびそれぞれに所属するインスタンスまでを分類決定要素とすることで、フィルタリングの強さの調整を行うことができる。
図4は、本発明の一実施形態に係る興味オントロジの近似性を利用したコミュニティ形成方法を示す図である。
図4において、各ユーザA、BのブログエントリPA、PBを雛形オントロジに対してそれぞれ分類することにより、各ユーザA、Bの興味オントロジKA、KBがそれぞれ生成されたものとする(ステップS11)。そして、各ユーザA、Bの興味オントロジKA、KB間の近似度を計測し(ステップS12)、近似度の高い興味オントロジKA、KB間で共起するクラスやインスタンスを分析することで、トポロジが異なるにも関わらず興味を持つ可能性が高い情報を他のユーザのエントリを介して意外な情報としてユーザに推奨することができる(ステップS13)。
例えば、各ユーザA、Bの興味オントロジKA、KB間の近似度を計測することにより、“Madchester”などのクラスや“Happy Mondays”などのインスタンスに興味を持つユーザは、“Glasgow”というクラスや“Teenage Fanclub”というインスタンスにも興味を持つ可能性が高いことが判る。
また、このような興味オントロジKA、KBをブログに適用することで、単純なキーワード検索ではなく、興味オントロジKA、KB間の近似度に基づく意外なエントリ推薦によるコミュニティの形成を支援することができ、ユーザの興味を自然に広げることができる(ステップS14)。
なお、興味オントロジKA、KB間の近似度を計測する方法としては、クラスの持つクラス名やインスタンスなどのクラス属性間の近似度またはクラス間の接続形態であるトポロジの近似度に基づいて推論学習照合し、オントロジの持つクラス間の意味的な近似度を計測することができる。あるいは、クラス属性間の近似度およびトポロジの近似度の両方に基づいて推論学習照合し、オントロジの持つクラス間の意味的な近似度を計測するようにしてもよい。
また、上述した実施形態において、興味オントロジKA、KB間を自動的に生成するためには、雛形オントロジが必要となる。雛形オントロジを設計するためには、クラス間の階層関係やユーザの興味を細やかに反映させるための末端クラスの粒度の調整が必要となる。ここで、gooなどのポータルサイトにおけるトピックディレクトリは詳細化が進んでいる。例えば、音楽ドメインのジャンルでは、Web上で公開されているジャンルの階層情報は、ユーザの興味に従った検索を考慮して粒度が細やかに設定されている。このため、インターネット上のポータルサイトにおけるトピックディレクトリを用いることで、雛形オントロジを構築することができる。
図5は、本発明の一実施形態に係る雛形オントロジの構築方法を示す図である。
図5において、雛形オントロジの設計者は、どのドメインについて雛形オントロジを生成するかを選択する。そして、そのドメインにおいて、ユーザの興味を反映するメタデータを選択する。なお、選択材料としては、掲示板などの既存のコミュニティの傾向を分析することができる。例えば、音楽ドメインは、タイトル、レーベル、ジャンル、アーチスト、製作国などでコミュニティが生成されていることを考慮すると、それらのメタデータがユーザの嗜好を反映するものとして選択することができる。
次に、ユーザの興味を細分化可能なメタデータを選択し、クラス階層を形成する。ここで、選択されたメタデータをクラスの性質を制約するプロパティとしてクラス階層間で継承させる。例えば、アーチストそのものは細分化できないため選択対象から除き、ジャンルや製作国などはユーザの興味を細分化可能なため、これらのジャンルや製作国などをメタデータとして選択する。そして、メタデータとして選択されたジャンルや製作国などをプロパティとして継承するクラス階層を構築する。そして、細分化できないと判断されたアーチストやレーベルなどをインスタンスとして各クラスに分類することができる。
本発明は、パーソナルオントロジを簡易に作成して自分の興味に的確にマッチングする情報を速やかに入手することができ、情報通信システムが持つ情報源から自分の興味にマッチングする情報を自動的かつ効率的に活用することができる。
本発明の一実施形態に係る興味情報生成装置が適用されるシステムの概略構成を示すブロック図である。 本発明の一実施形態に係るパーソナルオントロジの生成方法を示す図である。 本発明の一実施形態に係るパーソナルオントロジのフィルタリング方法を示す図である。 本発明の一実施形態に係る興味オントロジの近似性を利用したコミュニティ形成方法を示す図である。 本発明の一実施形態に係る雛形オントロジの構築方法を示す図である。
符号の説明
1 通信網
2〜4 端末
5 サーバ
5a 頻出単語抽出手段
5b 分類子適用手段
5c パーソナルオントロジ抽出手段
5d フィルタリング手段
6 雛形オントロジ
7〜9 ブログサイト
7a〜7n、8a〜8n、9a〜9n ブログエントリ

Claims (4)

  1. ブログエントリに含まれる単語を抽出する単語抽出手段と、
    予め設定された単語が概念階層化されてなる雛形オントロジから前記単語抽出手段で抽出された単語を含むクラスまたはインスタンスを抽出する分類子適用手段と、
    前記抽出されたクラスまたはインスタンスおよびそれらの上位のクラスを含む階層構造を、ユーザの興味情報を表すパーソナルオントロジとして前記雛形オントロジから抽出するパーソナルオントロジ抽出手段と、
    記パーソナルオントロジ抽出手段で抽出されパーソナルオントロジをフィルタリングするフィルタリング手段と、を備え、
    当該フィルタリング手段は、前記単語抽出手段で抽出された単語が所属するクラスと同一クラスまたは近隣クラスに所属するインスタンス、または前記近隣クラスの記述が同一ユーザのブログエントリ内に存在するときにのみ、前記単語が前記パーソナルオントロジに含まれるようにフィルタリングすることを特徴とする興味情報生成装置。
  2. ユーザ数計測手段を有し、
    前記分類子適用手段は、前記雛形オントロジのクラスまたは前記クラスに所属するインスタンスの記述に対応する単語を含んでいる前記ブログエントリを、前記雛形オントロジのクラスまたは前記クラスに所属するインスタンスに分類し、前記ブログエントリのユーザ毎に、当該ユーザのブログエントリが分類されている前記雛形オントロジのクラスまたは前記クラスに所属するインスタンスを抽出し、
    前記ユーザ数計測手段は、前記分類子適用手段で抽出された前記雛形オントロジのクラスまたは前記クラスに所属するインスタンスごとに、当該クラスまたはインスタンスの記述に対応する単語を前記ブログエントリに含むユーザ数を計測することを特徴とする請求項1記載の興味情報生成装置。
  3. ブログエントリに含まれる単語が概念階層化されてなるパーソナルオントロジを興味情報として生成する興味情報生成装置が実行する興味情報生成方法であって、
    前記ブログエントリに対して形態素解析を適用することにより、前記ブログエントリに含まれる単語を抽出するステップと、
    予め設定された単語が概念階層化されてなる雛形オントロジを選択するステップと、
    前記雛形オントロジから、前記ブログエントリから抽出された単語を含むクラスまたはインスタンスを抽出するステップと、
    前記抽出されたクラスまたはインスタンスおよびそれらの上位のクラスを含む階層構造を、ユーザの興味情報を表すパーソナルオントロジとして前記雛形オントロジから抽出するステップと、
    前記ブログエントリから抽出された単語が所属するクラスと同一クラスまたは近隣クラスに所属するインスタンス、または前記近隣クラスの記述が同一ユーザのブログエントリ内に存在するときにのみ、前記単語が前記パーソナルオントロジに含まれるように前記パーソナルオントロジをフィルタリングするステップと、を備えることを特徴とする興味情報生成方法。
  4. ブログエントリに対して形態素解析を適用することにより、前記ブログエントリに含まれる単語を抽出するステップと、
    予め設定された単語が概念階層化されてなる雛形オントロジを選択するステップと、
    前記雛形オントロジから、前記ブログエントリから抽出された単語を含むクラスまたはインスタンスを抽出するステップと、
    前記抽出されたクラスまたはインスタンスおよびそれらの上位のクラスを含む階層構造を、ユーザの興味情報を表すパーソナルオントロジとして前記雛形オントロジから抽出するステップと、
    前記ブログエントリから抽出された単語が所属するクラスと同一クラスまたは近隣クラスに所属するインスタンス、または前記近隣クラスの記述が同一ユーザのブログエントリ内に存在するときにのみ、前記単語が前記パーソナルオントロジに含まれるように前記パーソナルオントロジをフィルタリングするステップと、をコンピュータに実行させることを特徴とする興味情報生成プログラム。
JP2006045903A 2006-02-22 2006-02-22 興味情報生成装置、興味情報生成方法および興味情報生成プログラム Active JP4580351B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006045903A JP4580351B2 (ja) 2006-02-22 2006-02-22 興味情報生成装置、興味情報生成方法および興味情報生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006045903A JP4580351B2 (ja) 2006-02-22 2006-02-22 興味情報生成装置、興味情報生成方法および興味情報生成プログラム

Publications (2)

Publication Number Publication Date
JP2007226467A JP2007226467A (ja) 2007-09-06
JP4580351B2 true JP4580351B2 (ja) 2010-11-10

Family

ID=38548240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006045903A Active JP4580351B2 (ja) 2006-02-22 2006-02-22 興味情報生成装置、興味情報生成方法および興味情報生成プログラム

Country Status (1)

Country Link
JP (1) JP4580351B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073682B2 (en) * 2007-10-12 2011-12-06 Palo Alto Research Center Incorporated System and method for prospecting digital information
CN103389979B (zh) * 2012-05-08 2018-10-12 深圳市世纪光速信息技术有限公司 在输入法中推荐分类词库的系统、装置及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000057090A (ja) * 1998-08-12 2000-02-25 Nippon Telegr & Teleph Corp <Ntt> 他者グループ嗜好情報を利用した情報提供方法及び情報提供装置、並びに、情報提供プログラムを記録した記録媒体
JP2004070504A (ja) * 2002-08-02 2004-03-04 Hewlett Packard Co <Hp> 個人プロファイル情報に基づく情報検索方法及びシステム
JP2004280280A (ja) * 2003-03-13 2004-10-07 Hitachi Ltd 語義関連ネットワークを用いた文書検索システム
JP2005309907A (ja) * 2004-04-23 2005-11-04 Hewlett-Packard Development Co Lp ユーザコメントダイジェストの生成方法・装置・プログラム
JP2005339119A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 情報管理装置、情報管理方法および情報管理プログラム
JP2005352874A (ja) * 2004-06-11 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム、情報検索装置、情報検索支援装置および情報検索プログラムおよび情報検索支援プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187727A (ja) * 1996-12-25 1998-07-21 Fuji Xerox Co Ltd 文書処理装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000057090A (ja) * 1998-08-12 2000-02-25 Nippon Telegr & Teleph Corp <Ntt> 他者グループ嗜好情報を利用した情報提供方法及び情報提供装置、並びに、情報提供プログラムを記録した記録媒体
JP2004070504A (ja) * 2002-08-02 2004-03-04 Hewlett Packard Co <Hp> 個人プロファイル情報に基づく情報検索方法及びシステム
JP2004280280A (ja) * 2003-03-13 2004-10-07 Hitachi Ltd 語義関連ネットワークを用いた文書検索システム
JP2005309907A (ja) * 2004-04-23 2005-11-04 Hewlett-Packard Development Co Lp ユーザコメントダイジェストの生成方法・装置・プログラム
JP2005339119A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 情報管理装置、情報管理方法および情報管理プログラム
JP2005352874A (ja) * 2004-06-11 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム、情報検索装置、情報検索支援装置および情報検索プログラムおよび情報検索支援プログラム

Also Published As

Publication number Publication date
JP2007226467A (ja) 2007-09-06

Similar Documents

Publication Publication Date Title
Kong et al. Academic social networks: Modeling, analysis, mining and applications
Hulpus et al. Unsupervised graph-based topic labelling using dbpedia
Jäschke et al. Tag recommendations in folksonomies
CN103577579B (zh) 基于用户潜在需求的资源推荐方法及系统
KR20090015434A (ko) 사용자 중심 정보탐색 방법 및 시스템
Schatten et al. An introduction to social semantic web mining & big data analytics for political attitudes and mentalities research
Silvello Learning to cite framework: How to automatically construct citations for hierarchical data
US20160188595A1 (en) Semantic Network Establishing System and Establishing Method Thereof
Nakatsuji et al. Detecting innovative topics based on user-interest ontology
Fell et al. The WASABI song corpus and knowledge graph for music lyrics analysis
Németh A scoping review on the use of natural language processing in research on political polarization: trends and research prospects
JP4728063B2 (ja) 興味情報生成装置、興味情報生成方法および興味情報生成プログラム
Cantador et al. Semantic contextualisation of social tag-based profiles and item recommendations
JP4580351B2 (ja) 興味情報生成装置、興味情報生成方法および興味情報生成プログラム
JP4672578B2 (ja) 興味情報提供装置、興味情報提供方法および興味情報提供プログラム
JP4607830B2 (ja) 興味情報生成装置、興味情報生成方法および興味情報生成プログラム
Ma et al. API prober–a tool for analyzing web API features and clustering web APIs
Mora-Mcginity et al. Musicweb: Music discovery with open linked semantic metadata
Coll Ardanuy et al. Person-centric mining of historical newspaper collections
Jäschke et al. Analysis of the publication sharing behaviour in BibSonomy
Lee et al. Effective music searching approach based on tag combination by exploiting prototypical acoustic content
JP2008210335A (ja) 意識体系構築装置、意識体系構築方法および意識体系構築プログラム
JP4607831B2 (ja) オントロジの近似度計測装置、オントロジの近似度計測方法およびオントロジの近似度計測プログラム
Benz et al. Position Paper: Ontology Learning from Folksonomies.
Vassilakis et al. Database knowledge enrichment utilizing trending topics from Twitter

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080206

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090501

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090501

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100518

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100824

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100827

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4580351

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350