JP2005128690A

JP2005128690A - 嗜好情報収集方法

Info

Publication number: JP2005128690A
Application number: JP2003361867A
Authority: JP
Inventors: Junji Moriyama; 純次森山
Original assignee: J PLANNING KK; Planning Kk J
Current assignee: J PLANNING KK; Planning Kk J
Priority date: 2003-10-22
Filing date: 2003-10-22
Publication date: 2005-05-19

Abstract

【課題】キーワードを指定しないＨＴＭＬ文書について、その属するカテゴリーを判断してユーザーの嗜好情報を収集する。
【解決手段】カテゴリ情報と該カテゴリーに属する名詞群とカテゴリ内における名詞の重みを登録したキーワードデーターベースを作成し、該キーワードデーターベースの登録事項は所定期間毎にＨＴＭＬ文書を読み込んで該文書より名詞を抽出して変更を加え、一方Ｗｅｂサーバ上でユーザーにアクセスされたＨＴＭＬ文書から名詞を抽出し、上記キーワードデーターベースを参照してカテゴリ毎に抽出された名詞のカテゴリー内における重みを算出し、算出されたカテゴリ毎に抽出された名詞の重みに基づいてユーザーにアクセスされたＨＴＭＬ文書の属するカテゴリーを判定し、判定された結果をユーザー嗜好情報データーベースに格納する嗜好情報収集方法による。
【選択図】図１

Description

この発明は、ユーザーが何気なく閲覧したＨＴＭＬ文書から嗜好傾向を判定してユーザーの嗜好情報を収集する方法に関するものである。

ユーザーが何気なく閲覧したＨＴＭＬ文書が何のカテゴリに属しているかが解れば、ユーザーがどのような事に興味を持っているかが判る。

従来インターネットを介してＷｅｂページを閲覧するユーザーの個人の嗜好情報をユーザーに意識させることなく、自動で収集することを目的とした嗜好情報方法としては、Ｗｅｂページ内に表示するハイパーリンクのリンク先に応じたキーワードを関連付け、上記ハイパーリンクがユーザーにより選択された際に該ハイパーリンクに関連付けられたキーワードに基づいて嗜好情報を構成する嗜好情報収集方法が知られている（特開2002-183370公報）。

即ち、従来の方法ではＨＴＭＬ文書内にキーワードを指定することで、そのＨＴＭＬ文書がどのカテゴリに属するかを判断しており、図４についてキーワードの指定を見ると、「＜meta name="Category"content="社会"＞」がこれに該当し、この他にキーワードの指定方法としては「＜category value="社会"＞」、「＜category value="経済"＞」、「＜カテゴリ値＝"社会"＞」、「＜カテゴリ値＝"経済"＞」、「＜category value="社会、経済"＞」、「＜カテゴリ値＝"社会、経済"＞」を例示できる。
特開2002-183370公報

しかし、何れにしてもＨＴＭＬ文書はテキストエディタやＨＴＭＬ作成ツール等で簡単に作成できるが、キーワードの記述はＨＴＭＬ作成ツールを利用しても自動的に行われるものではなく、ＨＴＭＬ作成者が手作業で内容をチェックしながら記述する必要がある。

この煩わしさのために、従来ＨＴＭＬ文書の大部分はキーワードを指定することなくＷｅｂ上に供給されており、このためユーザーが何気なく閲覧したＨＴＭＬ文書の殆どはキーワードが指定されていないものであり、したがってこれらより閲覧に供されたＨＴＭＬ文書の属するカテゴリー判定によるユーザーの嗜好情報を収集は不可能である。

そこで、この発明はキーワードを指定しないＨＴＭＬ文書についてもその属するカテゴリーを判断してユーザーの嗜好情報を収集することを目的とするものである。

この発明は、上記実情に鑑み、カテゴリ情報と該カテゴリーに属する名詞群を登録したキーワードデーターベースを作成し、一方Ｗｅｂサーバ上でユーザーにアクセスされたＨＴＭＬ文書から名詞を抽出し、抽出された名詞の属するカテゴリを上記キーワードデータベースを参照して取得し、取得された名詞の属するカテゴリに基づいてユーザーにアクセスされたＨＴＭＬ文書の内容の属するカテゴリを判定し、判定した結果をユーザー嗜好情報データーベースに格納する嗜好情報収集方法を提案するものである。

即ち、この発明ではキーワードの指定をしないＨＴＭＬ文書についてもカテゴリーの判定でき、これよりユーザーの嗜好情報を収集することができる。

このように収集されたユーザー嗜好情報データーベースは、例えばがＷｅｂサーバー上でのユーザーの個人ページを作成に利用することができる。

また、この発明においてはカテゴリー情報と該カテゴリに属する名詞群とカテゴリ内における名詞の重みを登録したキーワードデーターベースを作成し、一方Ｗｅｂサーバ上でユーザーにアクセスされたＨＴＭＬ文書から名詞を抽出し、上記キーワードデーターベースを参照してカテゴリー毎に抽出された名詞のカテゴリー内における重みを算出し、算出されたカテゴリー毎に抽出された名詞の重みに基づいてユーザーにアクセスされたＨＴＭＬ文書の属するカテゴリーを判定し、判定された結果をユーザー嗜好情報データーベースに格納する嗜好情報収集方法を提案するものである。

即ち、この発明においてはカテゴリ毎に抽出された名詞のカテゴリ内における重みに基づいてユーザーにアクセスされたＨＴＭＬ文書の属するカテゴリを判定するため、カテゴリ判定をより正確に行うことができる。

なお、この場合キーワードデーターベース中の登録事項は所定期間毎にＨＴＭＬ文書を読み込み、該ＨＴＭＬ文書から名詞を抽出し、これに基づいて変更を加えるようにすれば、より実情に即したカテゴリの判定が可能となる。

例えば、キーワードデーターベース中のカテゴリ内における名詞の重みは所定期間毎にＨＴＬＭ文書を読み込み、読み込まれたＨＴＭＬ文書から名詞を抽出し、抽出された名詞のカテゴリ内における重みを再計算し、再計算結果に基づいてを変更する。

この発明ではキーワードを指定しないＨＴＭＬ文書についてもカテゴリーの判定ができるので、Ｗｅｂ上に供される殆どのＨＴＭＬ文書についてのカテゴリー判定が可能となり、したがってユーザーが何気なく閲覧したＨＴＭＬ文書がキーワードを指定したものであるか否かに関わりなく、その属するカテゴリーを判定してユーザーの嗜好情報を正確に収集することができる。

また、この発明においてはＨＴＭＬ作成者はキーワードを指定するなどの特別の作業が必要としないため、従来のＨＴＭＬ作成ツールを利用して気軽にＨＴＭＬ文書を作成してＷｅｂ上に供給することができる。

カテゴリ情報と該カテゴリーに属する名詞群とカテゴリ内における名詞の重みを登録したキーワードデーターベースを作成し、該キーワードデーターベースの登録事項は所定期間毎にＨＴＭＬ文書を読み込んで該文書より名詞を抽出して変更を加え、一方Ｗｅｂサーバ上でユーザーにアクセスされたＨＴＭＬ文書から名詞を抽出し、上記キーワードデーターベースを参照してカテゴリ毎に抽出された名詞のカテゴリー内における重みを算出し、算出されたカテゴリ毎に抽出された名詞の重みに基づいてユーザーにアクセスされたＨＴＭＬ文書の属するカテゴリーを判定し、判定された結果をユーザー嗜好情報データーベースに格納する嗜好情報収集方法

以下、この発明を図示の実施例に基づいて詳細に説明すると、図１はキーワードＤＢ作成工程、ユーザー嗜好情報収集工程、個人ページ生成工程からなるユーザー嗜好情報システムの全体図である。

（１）キーワードＤＢ作成工程
（ａ）キーワードＤＢの内容
キーワードＤＢにはカテゴリ情報、カテゴリに属する名詞群、カテゴリ内における名詞の重みの３情報が管理されており、これらの情報は予め人により登録されており、その一例を下記表１に示す。

表１中、「巨人」という名詞は「野球」というカテゴリに属しており、そのカテゴリの中に100ポイントの価値があり、したがってある文書においてはその文書内に「巨人」という名詞が出てきた場合、その文書は「野球」に関する内容を示している、即ち「可能性100ポイントである」とみなすことができる。

なお、複数のカテゴリに同一名詞がある場合もあり、また重みの点数は100点満点方式でなくてもよい。

（ｂ）キーワードＤＢ作成方法
キーワードＤＢ作成は図２に示すようなフローチャートに従って行われるが、各工程を以下に説明する。

2.1 ＨＴＭＬ読込
既存技術を利用してＨＴＭＬ文書を解析するためにＨＴＭＬファイルを読み込む。
2.2 ＨＴＭＬから文章のみを取得
既存技術を利用してＨＴＭＬ内のタグを全て削除して、文章を取得する。
2.3 文章から名詞を取得
既存の翻訳技術等を利用して「2.2工程」で抽出した文章より名詞を抽出する。
2.4 名詞が属するカテゴリを取得
「2.3工程」で取得した名詞（群）の一つ一つに対して、キーワードＤＢから名詞が属するカテゴリを取得する。なお、ひとつの名詞に対して複数のカテゴリが取得される場合もある。
2.5 名詞のカテゴリ内における重みを取得
各名詞に対して「2.4工程」で取得したカテゴリに対する重みをキーワードＤＢから取得する。この時点で下記表２に示すような情報が得られた。

2.6 重みを合計してカテゴリに得点を付ける
１つの文章から複数のカテゴリが取得できるが、その文章がどのカテゴリに対する内容を表しているかを数値で示すために、カテゴリ毎に名詞の重みを合計する。この結果、解析した文章がどのカテゴリの内容を表している可能性があるかが判断できる。下記表３にその一例を示す。

表３に示した例では、解析した文章（ＨＴＭＬ文書）は「野球」の内容を示している可能性が一番高く、その次に「政治」の内容を示している可能性があることが判断できる。

2.7 カテゴリの得点を元に名詞の重みを再計算
「2.6工程」の結果を元に、「2.3工程」で取得した名詞に対して重みを再計算する。重みの再計算時には、「2.6工程」で判断したカテゴリの順序を重視して例えば「一番可能性の高いカテゴリには10ポイント、次のカテゴリには5ポイント重みを付加する」という規則を決めたとすると、下記表４に示すようになる。

なお、上記表４において、「巨人」、「日本シリーズ」は「政治というカテゴリ」に、又「永田町」は「野球というカテゴリ」には存在していないと仮定して０ポイントとしている。もしそれぞれの名詞が各カテゴリに存在しない場合は、そのカテゴリのポイントに10ポイント、5ポイントを追加することになる。
2.8 カテゴリに名詞を登録
「2.7工程」で処理した内容をキーワードＤＢに格納する。「2.7工程」の例を用いると、キーワードＤＢは以下のように変更される。

（２）ユーザー嗜好情報収集工程
ユーザー嗜好情報収集は、ユーザーが何気なくアクセスしたＷｅｂページの内容を解析してユーザーの嗜好情報を取得するものであり、その工程は図３に示すようなフローチャートに従って行われる。

3.1 処理フローの概要
最初の処理は、上記「2.1工程」〜「2.6工程」までの処理と同一である。
3.2 カテゴリを嗜好情報として登録
カテゴリの順位をポイントに換算してユーザー嗜好情報ＤＢに登録する。

（３）個人ページ生成
ユーザー嗜好情報ＤＢを元に個人用ページを作成する。

以上要するに、この発明はキーワードの指定に関わりなく閲覧に供されたＨＴＭＬ文書の属するカテゴリーを判定してユーザーの嗜好情報を収集できるので、例えばＷｅｂ上にユーザーの嗜好に合わせた個人用ページを作成することができる。

この発明の一実施例を示すユーザー嗜好情報システムの全体図キーワードＤＢ作成工程のフローチャートユーザー嗜好情報収集工程のフローチャートキーワードを指定したＨＴＭＬ文書の一例を示す図

Claims

カテゴリ情報と該カテゴリに属する名詞群を登録したキーワードデーターベースを作成し、一方Ｗｅｂサーバ上でユーザーにアクセスされたＨＴＭＬ文書から名詞を抽出し、抽出された名詞の属するカテゴリを上記キーワードデータベースを参照して取得し、取得された名詞の属するカテゴリに基づいてユーザーにアクセスされたＨＴＭＬ文書の内容の属するカテゴリを判定し、判定した結果をユーザー嗜好情報データーベースに格納することを特徴とする嗜好情報収集方法。
カテゴリ情報と該カテゴリに属する名詞群とカテゴリ内における名詞の重みを登録したキーワードデーターベースを作成し、一方Ｗｅｂサーバ上でユーザーにアクセスされたＨＴＭＬ文書から名詞を抽出し、上記キーワードデーターベースを参照してカテゴリー毎に抽出された名詞のカテゴリ内における重みを算出し、算出されたカテゴリー毎に抽出された名詞の重みに基づいてユーザーにアクセスされたＨＴＭＬ文書の属するカテゴリを判定し、判定された結果をユーザー嗜好情報データーベースに格納することを特徴とする嗜好情報収集方法。
キーワードデーターベース中の登録事項は所定期間毎に読み込んだＨＴＭＬ文書から名詞を抽出して変更を加えるようにした請求項２記載の嗜好情報収集方法。
キーワードデーターベース中のカテゴリ内における名詞の重みは所定期間毎にＨＴＬＭ文書を読み込み、読み込まれたＨＴＭＬ文書から名詞を抽出し、抽出された名詞のカテゴリ内における重みを再計算し、再計算結果に基づいてを変更する請求項２記載の嗜好情報収集方法。
ユーザー嗜好情報データーベースがＷｅｂサーバー上でのユーザーの個人ページを作成に利用される請求項１又は請求項２記載の嗜好情報収集方法。