JP2005128690A - 嗜好情報収集方法 - Google Patents
嗜好情報収集方法 Download PDFInfo
- Publication number
- JP2005128690A JP2005128690A JP2003361867A JP2003361867A JP2005128690A JP 2005128690 A JP2005128690 A JP 2005128690A JP 2003361867 A JP2003361867 A JP 2003361867A JP 2003361867 A JP2003361867 A JP 2003361867A JP 2005128690 A JP2005128690 A JP 2005128690A
- Authority
- JP
- Japan
- Prior art keywords
- category
- preference information
- nouns
- noun
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000007796 conventional method Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】キーワードを指定しないHTML文書について、その属するカテゴリーを判断してユーザーの嗜好情報を収集する。
【解決手段】カテゴリ情報と該カテゴリーに属する名詞群とカテゴリ内における名詞の重みを登録したキーワードデーターベースを作成し、該キーワードデーターベースの登録事項は所定期間毎にHTML文書を読み込んで該文書より名詞を抽出して変更を加え、一方Webサーバ上でユーザーにアクセスされたHTML文書から名詞を抽出し、上記キーワードデーターベースを参照してカテゴリ毎に抽出された名詞のカテゴリー内における重みを算出し、算出されたカテゴリ毎に抽出された名詞の重みに基づいてユーザーにアクセスされたHTML文書の属するカテゴリーを判定し、判定された結果をユーザー嗜好情報データーベースに格納する嗜好情報収集方法による。
【選択図】 図1
【解決手段】カテゴリ情報と該カテゴリーに属する名詞群とカテゴリ内における名詞の重みを登録したキーワードデーターベースを作成し、該キーワードデーターベースの登録事項は所定期間毎にHTML文書を読み込んで該文書より名詞を抽出して変更を加え、一方Webサーバ上でユーザーにアクセスされたHTML文書から名詞を抽出し、上記キーワードデーターベースを参照してカテゴリ毎に抽出された名詞のカテゴリー内における重みを算出し、算出されたカテゴリ毎に抽出された名詞の重みに基づいてユーザーにアクセスされたHTML文書の属するカテゴリーを判定し、判定された結果をユーザー嗜好情報データーベースに格納する嗜好情報収集方法による。
【選択図】 図1
Description
この発明は、ユーザーが何気なく閲覧したHTML文書から嗜好傾向を判定してユーザーの嗜好情報を収集する方法に関するものである。
ユーザーが何気なく閲覧したHTML文書が何のカテゴリに属しているかが解れば、ユーザーがどのような事に興味を持っているかが判る。
従来インターネットを介してWebページを閲覧するユーザーの個人の嗜好情報をユーザーに意識させることなく、自動で収集することを目的とした嗜好情報方法としては、Webページ内に表示するハイパーリンクのリンク先に応じたキーワードを関連付け、上記ハイパーリンクがユーザーにより選択された際に該ハイパーリンクに関連付けられたキーワードに基づいて嗜好情報を構成する嗜好情報収集方法が知られている(特開2002-183370公報)。
即ち、従来の方法ではHTML文書内にキーワードを指定することで、そのHTML文書がどのカテゴリに属するかを判断しており、図4についてキーワードの指定を見ると、「<meta name="Category"content="社会">」がこれに該当し、この他にキーワードの指定方法としては「<category value="社会">」、「<category value="経済">」、「<カテゴリ値="社会">」、「<カテゴリ値="経済">」、「<category value="社会、経済">」、「<カテゴリ値="社会、経済">」を例示できる。
特開2002-183370公報
しかし、何れにしてもHTML文書はテキストエディタやHTML作成ツール等で簡単に作成できるが、キーワードの記述はHTML作成ツールを利用しても自動的に行われるものではなく、HTML作成者が手作業で内容をチェックしながら記述する必要がある。
この煩わしさのために、従来HTML文書の大部分はキーワードを指定することなくWeb上に供給されており、このためユーザーが何気なく閲覧したHTML文書の殆どはキーワードが指定されていないものであり、したがってこれらより閲覧に供されたHTML文書の属するカテゴリー判定によるユーザーの嗜好情報を収集は不可能である。
そこで、この発明はキーワードを指定しないHTML文書についてもその属するカテゴリーを判断してユーザーの嗜好情報を収集することを目的とするものである。
この発明は、上記実情に鑑み、カテゴリ情報と該カテゴリーに属する名詞群を登録したキーワードデーターベースを作成し、一方Webサーバ上でユーザーにアクセスされたHTML文書から名詞を抽出し、抽出された名詞の属するカテゴリを上記キーワードデータベースを参照して取得し、取得された名詞の属するカテゴリに基づいてユーザーにアクセスされたHTML文書の内容の属するカテゴリを判定し、判定した結果をユーザー嗜好情報データーベースに格納する嗜好情報収集方法を提案するものである。
即ち、この発明ではキーワードの指定をしないHTML文書についてもカテゴリーの判定でき、これよりユーザーの嗜好情報を収集することができる。
このように収集されたユーザー嗜好情報データーベースは、例えばがWebサーバー上でのユーザーの個人ページを作成に利用することができる。
また、この発明においてはカテゴリー情報と該カテゴリに属する名詞群とカテゴリ内における名詞の重みを登録したキーワードデーターベースを作成し、一方Webサーバ上でユーザーにアクセスされたHTML文書から名詞を抽出し、上記キーワードデーターベースを参照してカテゴリー毎に抽出された名詞のカテゴリー内における重みを算出し、算出されたカテゴリー毎に抽出された名詞の重みに基づいてユーザーにアクセスされたHTML文書の属するカテゴリーを判定し、判定された結果をユーザー嗜好情報データーベースに格納する嗜好情報収集方法を提案するものである。
即ち、この発明においてはカテゴリ毎に抽出された名詞のカテゴリ内における重みに基づいてユーザーにアクセスされたHTML文書の属するカテゴリを判定するため、カテゴリ判定をより正確に行うことができる。
なお、この場合キーワードデーターベース中の登録事項は所定期間毎にHTML文書を読み込み、該HTML文書から名詞を抽出し、これに基づいて変更を加えるようにすれば、より実情に即したカテゴリの判定が可能となる。
例えば、キーワードデーターベース中のカテゴリ内における名詞の重みは所定期間毎にHTLM文書を読み込み、読み込まれたHTML文書から名詞を抽出し、抽出された名詞のカテゴリ内における重みを再計算し、再計算結果に基づいてを変更する。
この発明ではキーワードを指定しないHTML文書についてもカテゴリーの判定ができるので、Web上に供される殆どのHTML文書についてのカテゴリー判定が可能となり、したがってユーザーが何気なく閲覧したHTML文書がキーワードを指定したものであるか否かに関わりなく、その属するカテゴリーを判定してユーザーの嗜好情報を正確に収集することができる。
また、この発明においてはHTML作成者はキーワードを指定するなどの特別の作業が必要としないため、従来のHTML作成ツールを利用して気軽にHTML文書を作成してWeb上に供給することができる。
カテゴリ情報と該カテゴリーに属する名詞群とカテゴリ内における名詞の重みを登録したキーワードデーターベースを作成し、該キーワードデーターベースの登録事項は所定期間毎にHTML文書を読み込んで該文書より名詞を抽出して変更を加え、一方Webサーバ上でユーザーにアクセスされたHTML文書から名詞を抽出し、上記キーワードデーターベースを参照してカテゴリ毎に抽出された名詞のカテゴリー内における重みを算出し、算出されたカテゴリ毎に抽出された名詞の重みに基づいてユーザーにアクセスされたHTML文書の属するカテゴリーを判定し、判定された結果をユーザー嗜好情報データーベースに格納する嗜好情報収集方法
以下、この発明を図示の実施例に基づいて詳細に説明すると、図1はキーワードDB作成工程、ユーザー嗜好情報収集工程、個人ページ生成工程からなるユーザー嗜好情報システムの全体図である。
(1)キーワードDB作成工程
(a)キーワードDBの内容
キーワードDBにはカテゴリ情報、カテゴリに属する名詞群、カテゴリ内における名詞の重みの3情報が管理されており、これらの情報は予め人により登録されており、その一例を下記表1に示す。
(a)キーワードDBの内容
キーワードDBにはカテゴリ情報、カテゴリに属する名詞群、カテゴリ内における名詞の重みの3情報が管理されており、これらの情報は予め人により登録されており、その一例を下記表1に示す。
表1中、「巨人」という名詞は「野球」というカテゴリに属しており、そのカテゴリの中に100ポイントの価値があり、したがってある文書においてはその文書内に「巨人」という名詞が出てきた場合、その文書は「野球」に関する内容を示している、即ち「可能性100ポイントである」とみなすことができる。
なお、複数のカテゴリに同一名詞がある場合もあり、また重みの点数は100点満点方式でなくてもよい。
(b)キーワードDB作成方法
キーワードDB作成は図2に示すようなフローチャートに従って行われるが、各工程を以下に説明する。
キーワードDB作成は図2に示すようなフローチャートに従って行われるが、各工程を以下に説明する。
2.1 HTML読込
既存技術を利用してHTML文書を解析するためにHTMLファイルを読み込む。
2.2 HTMLから文章のみを取得
既存技術を利用してHTML内のタグを全て削除して、文章を取得する。
2.3 文章から名詞を取得
既存の翻訳技術等を利用して「2.2工程」で抽出した文章より名詞を抽出する。
2.4 名詞が属するカテゴリを取得
「2.3工程」で取得した名詞(群)の一つ一つに対して、キーワードDBから名詞が属するカテゴリを取得する。なお、ひとつの名詞に対して複数のカテゴリが取得される場合もある。
2.5 名詞のカテゴリ内における重みを取得
各名詞に対して「2.4工程」で取得したカテゴリに対する重みをキーワードDBから取得する。この時点で下記表2に示すような情報が得られた。
既存技術を利用してHTML文書を解析するためにHTMLファイルを読み込む。
2.2 HTMLから文章のみを取得
既存技術を利用してHTML内のタグを全て削除して、文章を取得する。
2.3 文章から名詞を取得
既存の翻訳技術等を利用して「2.2工程」で抽出した文章より名詞を抽出する。
2.4 名詞が属するカテゴリを取得
「2.3工程」で取得した名詞(群)の一つ一つに対して、キーワードDBから名詞が属するカテゴリを取得する。なお、ひとつの名詞に対して複数のカテゴリが取得される場合もある。
2.5 名詞のカテゴリ内における重みを取得
各名詞に対して「2.4工程」で取得したカテゴリに対する重みをキーワードDBから取得する。この時点で下記表2に示すような情報が得られた。
2.6 重みを合計してカテゴリに得点を付ける
1つの文章から複数のカテゴリが取得できるが、その文章がどのカテゴリに対する内容を表しているかを数値で示すために、カテゴリ毎に名詞の重みを合計する。この結果、解析した文章がどのカテゴリの内容を表している可能性があるかが判断できる。下記表3にその一例を示す。
1つの文章から複数のカテゴリが取得できるが、その文章がどのカテゴリに対する内容を表しているかを数値で示すために、カテゴリ毎に名詞の重みを合計する。この結果、解析した文章がどのカテゴリの内容を表している可能性があるかが判断できる。下記表3にその一例を示す。
表3に示した例では、解析した文章(HTML文書)は「野球」の内容を示している可能性が一番高く、その次に「政治」の内容を示している可能性があることが判断できる。
2.7 カテゴリの得点を元に名詞の重みを再計算
「2.6工程」の結果を元に、「2.3工程」で取得した名詞に対して重みを再計算する。重みの再計算時には、「2.6工程」で判断したカテゴリの順序を重視して例えば「一番可能性の高いカテゴリには10ポイント、次のカテゴリには5ポイント重みを付加する」という規則を決めたとすると、下記表4に示すようになる。
「2.6工程」の結果を元に、「2.3工程」で取得した名詞に対して重みを再計算する。重みの再計算時には、「2.6工程」で判断したカテゴリの順序を重視して例えば「一番可能性の高いカテゴリには10ポイント、次のカテゴリには5ポイント重みを付加する」という規則を決めたとすると、下記表4に示すようになる。
なお、上記表4において、「巨人」、「日本シリーズ」は「政治というカテゴリ」に、又「永田町」は「野球というカテゴリ」には存在していないと仮定して0ポイントとしている。もしそれぞれの名詞が各カテゴリに存在しない場合は、そのカテゴリのポイントに10ポイント、5ポイントを追加することになる。
2.8 カテゴリに名詞を登録
「2.7工程」で処理した内容をキーワードDBに格納する。「2.7工程」の例を用いると、キーワードDBは以下のように変更される。
2.8 カテゴリに名詞を登録
「2.7工程」で処理した内容をキーワードDBに格納する。「2.7工程」の例を用いると、キーワードDBは以下のように変更される。
(2)ユーザー嗜好情報収集工程
ユーザー嗜好情報収集は、ユーザーが何気なくアクセスしたWebページの内容を解析してユーザーの嗜好情報を取得するものであり、その工程は図3に示すようなフローチャートに従って行われる。
ユーザー嗜好情報収集は、ユーザーが何気なくアクセスしたWebページの内容を解析してユーザーの嗜好情報を取得するものであり、その工程は図3に示すようなフローチャートに従って行われる。
3.1 処理フローの概要
最初の処理は、上記「2.1工程」〜「2.6工程」までの処理と同一である。
3.2 カテゴリを嗜好情報として登録
カテゴリの順位をポイントに換算してユーザー嗜好情報DBに登録する。
最初の処理は、上記「2.1工程」〜「2.6工程」までの処理と同一である。
3.2 カテゴリを嗜好情報として登録
カテゴリの順位をポイントに換算してユーザー嗜好情報DBに登録する。
(3)個人ページ生成
ユーザー嗜好情報DBを元に個人用ページを作成する。
ユーザー嗜好情報DBを元に個人用ページを作成する。
以上要するに、この発明はキーワードの指定に関わりなく閲覧に供されたHTML文書の属するカテゴリーを判定してユーザーの嗜好情報を収集できるので、例えばWeb上にユーザーの嗜好に合わせた個人用ページを作成することができる。
Claims (5)
- カテゴリ情報と該カテゴリに属する名詞群を登録したキーワードデーターベースを作成し、一方Webサーバ上でユーザーにアクセスされたHTML文書から名詞を抽出し、抽出された名詞の属するカテゴリを上記キーワードデータベースを参照して取得し、取得された名詞の属するカテゴリに基づいてユーザーにアクセスされたHTML文書の内容の属するカテゴリを判定し、判定した結果をユーザー嗜好情報データーベースに格納することを特徴とする嗜好情報収集方法。
- カテゴリ情報と該カテゴリに属する名詞群とカテゴリ内における名詞の重みを登録したキーワードデーターベースを作成し、一方Webサーバ上でユーザーにアクセスされたHTML文書から名詞を抽出し、上記キーワードデーターベースを参照してカテゴリー毎に抽出された名詞のカテゴリ内における重みを算出し、算出されたカテゴリー毎に抽出された名詞の重みに基づいてユーザーにアクセスされたHTML文書の属するカテゴリを判定し、判定された結果をユーザー嗜好情報データーベースに格納することを特徴とする嗜好情報収集方法。
- キーワードデーターベース中の登録事項は所定期間毎に読み込んだHTML文書から名詞を抽出して変更を加えるようにした請求項2記載の嗜好情報収集方法。
- キーワードデーターベース中のカテゴリ内における名詞の重みは所定期間毎にHTLM文書を読み込み、読み込まれたHTML文書から名詞を抽出し、抽出された名詞のカテゴリ内における重みを再計算し、再計算結果に基づいてを変更する請求項2記載の嗜好情報収集方法。
- ユーザー嗜好情報データーベースがWebサーバー上でのユーザーの個人ページを作成に利用される請求項1又は請求項2記載の嗜好情報収集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003361867A JP2005128690A (ja) | 2003-10-22 | 2003-10-22 | 嗜好情報収集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003361867A JP2005128690A (ja) | 2003-10-22 | 2003-10-22 | 嗜好情報収集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005128690A true JP2005128690A (ja) | 2005-05-19 |
Family
ID=34641678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003361867A Pending JP2005128690A (ja) | 2003-10-22 | 2003-10-22 | 嗜好情報収集方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005128690A (ja) |
-
2003
- 2003-10-22 JP JP2003361867A patent/JP2005128690A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100930455B1 (ko) | 쿼리별 검색 컬렉션 생성 방법 및 시스템 | |
JP5550669B2 (ja) | 検索装置、検索方法およびプログラム | |
WO2000075809A1 (fr) | Procede de triage d'informations, trieur d'informations, support enregistre sur lequel le programme de triage d'informations est enregistre | |
JP2010066870A (ja) | 情報推薦装置および情報推薦方法 | |
KR20040029895A (ko) | 검색 시스템 | |
JPH07325827A (ja) | ハイパーテキスト自動生成装置 | |
JP4636473B2 (ja) | リンク情報抽出装置、リンク情報抽出方法およびプログラム | |
Carey et al. | HTML web content extraction using paragraph tags | |
TW201415254A (zh) | 語意標註建議方法及其系統 | |
JP5151368B2 (ja) | 情報処理装置および情報処理プログラム | |
JP2010061587A (ja) | 類似文書判定装置、類似判定方法およびそのプログラム | |
JP2009122807A (ja) | 連想検索システム | |
JP4912384B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP2004151855A (ja) | 電子文書検索システム | |
JP4610543B2 (ja) | 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体 | |
JP4010058B2 (ja) | 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4759600B2 (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
JP2008077252A (ja) | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 | |
JP2006202018A (ja) | 情報共有装置、情報検索方法および情報検索プログラム | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP5450135B2 (ja) | 関連度辞書を用いた検索モデリングシステムおよび方法 | |
JP2006277061A (ja) | 知識検索システム、知識検索方法及びプログラム | |
JP2005128690A (ja) | 嗜好情報収集方法 | |
Schedl et al. | Towards an automatically generated music information system via web content mining | |
JP5308918B2 (ja) | キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム |