JP4875911B2

JP4875911B2 - コンテンツ特定方法及び装置

Info

Publication number: JP4875911B2
Application number: JP2006076501A
Authority: JP
Inventors: 敏勝鎌仲; 亜紀松尾; 英雄樋沼; 智也成田; 宏弥稲越; 寛治内野; 青史岡本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-03-20
Filing date: 2006-03-20
Publication date: 2012-02-15
Anticipated expiration: 2026-03-20
Also published as: JP2007256992A

Description

本発明は、ユーザに適切なコンテンツを特定又は抽出するための技術に関する。

従来、インターネット上のコンテンツから目的のものを探し出すためには、検索エンジンが利用されてきた。検索エンジンを利用する際には具体的な検索語を与える必要があり、具体的な事物を調査するのに適している。

また、近年ＲＳＳリーダによる情報収集も注目を浴びている。このＲＳＳリーダは、ウェブ（Ｗｅｂ）サイトの新着、更新情報を受信するのに適しており、予め定めたカテゴリにＷｅｂページを分類した後、カテゴリの注目度やカテゴリ中の注目ページを提示する機能を備えたものも存在する。

また、既に検索語のバースト（急激な頻出）を検出する技術が存在しているが、これを用いれば特定の検索エンジンの利用者たちの注目トピックが分かる。しかしながら、特定の個人の関心と、この注目トピックは通常異なる。また、利用者は検索語を明示的に入力する必要がある。

さらに、既に実施されているパーソナライズ検索では、利用者が入力した過去の検索語や参照したページを後日照会する事ができる。しかし、最近の検索クエリは、検索語の選別を試行錯誤した結果、よく似た検索クエリばかりが蓄積されるという問題がある。従って、定期的に検索される語などが、似たような検索クエリによって記憶領域から押し出されてしまうということが生じる。

なお、特開２００２−１４９９６号公報には、インターネット上のリソースを対象として、新規ドキュメントをユーザの興味領域に沿った形で提示するための技術が開示されている。そして、各ユーザのブックマーク情報は、ブックマークサーバで一元管理される。ユーザはクライアント装置からブックマーク操作部を介してブックマークの操作をユーザブックマークＤＢに対して行うことができる。ブックマークサーバは定期的にユーザ嗜好抽出部を用いてユーザブックマークＤＢ中の個々のユーザのブックマーク情報に基づいて、分類フォルダ毎の嗜好情報を抽出する。新規ドキュメント提案部は、各ユーザの分類フォルダ毎の嗜好情報に応じて、インターネット上のディレクトリサーバに対する検索の結果や、他の外部から与えられたドキュメント集合から適当な新規ドキュメントをユーザブックマークの一部としてユーザブックマークＤＢに登録するものである。但し、新規ドキュメントはユーザの嗜好に合わせられるだけで、他の観点はない。
特開２００２−１４９９６号公報

しかし、ユーザ自身が検索語を明確に把握していない場合には検索エンジンから適切なコンテンツを抽出するのは不可能である。また、ＲＳＳリーダでは特定のサイトを定点観測するのには適しているが、サイトが取り扱う内容とユーザの興味とは常に一致しているわけではない。また、広く世の中で注目されているサイトとユーザ自身の興味とを重ね合わせて考慮するような仕組みは存在していない。

本発明は以上の問題を鑑みてなされたものであり、ユーザ自身が検索語を明示することなく、時と共に移りゆくユーザの関心に合わせて注目すべきコンテンツを特定又は抽出するための技術を提供することである。

本発明に係るコンテンツ特定方法は、アクセス時刻を含む、登録ユーザのアクセスログを格納するアクセスログ格納部と収集したコンテンツ中のキーワードに関するデータを格納するコンテンツプロファイル・データベースとに格納されているデータから、アクセス時刻及び上記キーワードに関する情報と登録ユーザとの関係を表すトランザクション・データを生成し、トランザクション・データベースに登録するステップと、トランザクション・データベースに格納された未処理のトランザクション・データに係る特定の登録ユーザに関連し且つ当該未処理のトランザクション・データに含まれるキーワードの、アクセス時刻における評価値と、登録ユーザとキーワードとのこれまでの関連度を表すデータを格納するユーザプロファイル・データベースに格納されているデータから特定の登録ユーザに関連するキーワードにつきアクセス時刻における減衰された関連度とを算出して、特定の登録ユーザに関連するキーワードについて評価値及び減衰された関連度からアクセス時刻における関連度を算出し、ユーザプロファイル・データベースを更新する更新ステップと、アクセスログ格納部に格納されているデータを用いて、所定の基準を超えてアクセスが増加したコンテンツを特定し、当該特定されたコンテンツについてのデータをコンテンツプロファイル・データベースから抽出し、トピック・データベースに登録する登録ステップと、ユーザプロファイル・データベースに格納されている、特定の登録ユーザについての関連度が上位（例えば上位所定数又は所定の閾値以上）のキーワードと所定の類似性を有し且つトピック・データベースに登録されているキーワードが出現するコンテンツを特定し、当該特定されたコンテンツの識別情報を特定の登録ユーザに対応して推薦トピック・データベースに登録するコンテンツ特定ステップとを含む。

このように登録ユーザのアクセス履歴から当該登録ユーザの関心を時系列的な要素を加味しつつ具体的な関連度付きのキーワードとして特定し、さらに所定の基準を超えてアクセスが増加したコンテンツを注目コンテンツとして特定して、関連度の高いキーワードとの類似性が高いキーワードを含む注目コンテンツを、登録ユーザに対して推薦すべきコンテンツとして特定するものである。これによって、登録ユーザは、具体的な検索語を想起できない場合においても、自らの興味に合致しつつ話題性のあるコンテンツを効率的に知得することができるようになる。

また、上で述べたコンテンツ特定ステップが、関連語辞書から、ユーザプロファイル・データベースに格納されている、特定の登録ユーザについての関連度が上位のキーワードに対応して登録されている関連キーワードを抽出するステップと、特定の登録ユーザについての特定のキーワードと当該特定のキーワードに対応し且つ抽出された関連キーワードとを含む第１のセットと、トピック・データベースに登録されているキーワードをコンテンツ毎にまとめた第２のセットとの類似度をコンテンツ毎に算出するステップとを含むようにしてもよい。このようにすれば、完全同一だけではなく類似性のあるキーワードをも考慮した形で、適切なコンテンツを特定することができるようになる。

さらに、トランザクション・データベースに格納された上記キーワードに関するデータが、当該キーワードの提示回数ｋを含むようにしてもよい。その場合、上で述べた更新ステップが、未処理のトランザクション・データに含まれるキーワードの提示回数ｋ（例えば実施の形態における出現回数又はアクセス回数）と所定の減衰係数ρによって、上記キーワードの評価値を（１−ρ^k）／（１−ρ）として算出するステップを含むようにしてもよい。毎日定期的にアクセスするコンテンツと急に多数回アクセスするようになったコンテンツとは、ユーザにとってその重要度はほぼ同じであり、このような状況を同様に評価することができるようになる。

さらに、ユーザプロファイル・データベースには、キーワード毎に処理基準日時のデータが登録されるようにしてもよい。そうすれば、上で述べた更新ステップは、処理基準日時からアクセス時刻までの単位時間数ｔと所定減衰係数ρと上で述べたこれまでの関連度ｇとによって、アクセス時刻における減衰された関連度をρ^tｇとして算出するステップを含むようにしてもよい。このようにすれば、適切に過去の影響を減衰させることができる。

また、上で述べた登録ステップは、各コンテンツにつき、特定時刻のアクセスユーザ数の、１単位時間前までのアクセスユーザ数の平均からの上方乖離度（例えば実施の形態におけるＡ_t(ｐ)）を算出するステップと、上方乖離度が上位所定数内のコンテンツを特定するステップとを含むようにしてもよい。注目が集まっていることをこの上方乖離度によって特定できる。

本発明に係る方法は、コンピュータ・ハードウエアとプログラムとの組み合わせにより実施される場合があり、このプログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークなどを介してデジタル信号として配信される場合もある。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

本発明によれば、ユーザ自身が検索語を明示することなく、時と共に移りゆくユーザの関心に合わせて注目すべきコンテンツを特定又は抽出することができるようになる。

本発明の一実施の形態に係るシステム概要図を図１に示す。例えばインターネットであるネットワーク１０１には、複数のユーザ端末１０３と、複数のウェブ（Ｗｅｂ）サーバ１０７と、本実施の形態において主要な処理を実施するコンテンツ推薦サーバ１０５とが接続されている。ユーザ端末１０３には、例えばＷｅｂブラウザのプラグインとして専用のアプリケーションがインストールされ、当該アプリケーションによってアクセス先のデータを含むアクセスログのデータがコンテンツ推薦サーバ１０５に送信されるようになっている。そのような構成でない場合には、コンテンツ推薦サーバ１０５がインターネット・サービス・プロバイダ（ＩＳＰ：Internet Service Provider）内に設置されており、ユーザ端末１０３は、コンテンツ推薦サーバ１０５を経由してＷｅｂサーバ１０７にアクセスするため、コンテンツ推薦サーバ１０５がアクセス先のデータを含むアクセスログを取得できるようになっている場合もある。どのような構成であっても、コンテンツ推薦サーバ１０５は、登録ユーザのアクセスログを取得できるようになっている。そして、コンテンツ推薦サーバ１０５は、当該アクセスログなどから、登録ユーザに対して、当該登録ユーザが関心を有し且つ最近注目されているＷｅｂページ（すなわちコンテンツ）の推薦を行うための処理を実施する。

このようなコンテンツ推薦サーバ１０５の機能ブロック図を図２乃至図４を用いて説明する。図２は、コンテンツ推薦サーバ１０５の前処理及びユーザプロファイル生成処理を実施する部分の機能ブロック図を示す。コンテンツ推薦サーバ１０５は、ユーザ端末１０３のアクセス先のデータを含むアクセスログを取得するための処理を実施するアクセスログ取得部１と、アクセスログ取得部１が取得したアクセスログを格納するアクセスログ格納部３と、ネットワーク１０１に接続されているＷｅｂサーバ１０７からＷｅｂページ・データを収集するＷｅｂページ収集部７と、Ｗｅｂページ収集部７が収集したＷｅｂページ・データを格納するＷｅｂページＤＢ９と、ＷｅｂページＤＢ９から周知の手法を用いてキーワードを抽出するキーワード抽出部１１と、キーワード抽出部１１によって抽出されたキーワードのデータをＵＲＬ（Uniform Resource Locator）と共に格納するコンテンツプロファイルＤＢ１３と、アクセスログ格納部３に格納されているデータとコンテンツプロファイルＤＢ１３に格納されているデータとを連結したデータを生成するログ連結部５と、ログ連結部５によって生成されたデータを格納するトランザクションＤＢ１５と、ユーザが興味のあるキーワード等のデータを格納するユーザプロファイルＤＢ１９と、トランザクションＤＢ１５に新たに格納されたデータとユーザプロファイルＤＢ１９に格納されている過去のユーザプロファイルとを用いてユーザプロファイルを更新するための処理を実施するユーザプロファイル生成部１７とを有する。

図３は、コンテンツ推薦サーバ１０５のコンテンツ選別処理及びマッチング処理を実施する部分の機能ブロック図を示す。コンテンツ推薦サーバ１０５は、アクセスログ格納部３に格納されているデータを用いて処理を行い、該当するデータをコンテンツプロファイルＤＢ１３から抽出する処理を行うコンテンツ選別部２１と、コンテンツ選別部２１によって抽出されたデータを格納するトピックＤＢ２３と、特定の語に関連する語が登録されている関連語辞書２７と、関連語辞書２７に格納されているデータを用いてユーザプロファイルＤＢ１９に含まれるキーワードを処理して該当するデータをトピックＤＢ２３から抽出するマッチング部２５と、マッチング部２５の処理結果である各ユーザへの推薦ＵＲＬなどのデータを格納する推薦トピックＤＢ２９と、ユーザ端末１０３に推薦ＵＲＬなどを出力する推薦出力部３１とを有する。

図４は、関連語辞書２７の生成処理を実施する部分の機能ブロック図を示す。コンテンツ推薦サーバ１０５は、登録ユーザによる操作ログを格納する操作履歴ＤＢ３５と、操作推薦出力部３１が出力した推薦ＵＲＬを受信して表示したユーザ端末１０３から登録ユーザによる推薦ＵＲＬのクリックに関するデータを取得し、推薦トピックＤＢ２９から対応するキーワードを抽出して操作履歴ＤＢ３５に格納する操作ログ取得部３３と、操作履歴ＤＢ３５から関連語辞書のデータを生成する関連語辞書生成部３７とを含む。

次に、図５乃至図２６を用いて図１乃至図４に示したシステムの処理を説明する。まず、コンテンツ推薦サーバ１０５は、前処理を実施する（図５：ステップＳ１）。この前処理については図６乃至図１２を用いて説明する。まず、Ｗｅｂページ収集部７は、ネットワーク１０１を介してＷｅｂサーバ１０７に対してＷｅｂページの収集処理を実施し、収集したＷｅｂページのデータをＵＲＬに対応してＷｅｂページＤＢ９に格納する（図６：ステップＳ１１）。例えば、ＷｅｂページＤＢ９には図７に示すようなデータフォーマットでデータを格納する。すなわち、Ｗｅｂページ・データの取得日時、Ｗｅｂページ・データのＵＲＬ、Ｗｅｂページのタイトル、Ｗｅｂページの内容を格納する。

また、キーワード抽出部１１は、ＷｅｂページＤＢ９に格納された各Ｗｅｂページについて周知のキーワード抽出処理を実施し、抽出されたキーワード等をＵＲＬ等に対応してコンテンツプロファイルＤＢ１３に格納する（ステップＳ１３）。例えば、コンテンツプロファイルＤＢ１３には図８に示すようなデータフォーマットでデータを格納する。すなわち、元となるＷｅｂページ・データの取得時刻、ＵＲＬ、抽出されたキーワード、本ＵＲＬのＷｅｂページにおいて本キーワードが出現する回数、抽出処理の際に算出されたスコアなどが格納されるようになっている。キーワード毎にレコードが生成される。なお、スコアについては格納しなくとも良い。

一方、アクセスログ取得部１は、ユーザ端末１０３からＷｅｂページへのアクセスに関するデータを受信し、アクセス先ＵＲＬ及びユーザＩＤを含むアクセスログを生成してアクセスログ格納部３に格納する（ステップＳ１５）。例えば、アクセスログ格納部３には、図９に示すようなデータフォーマットでデータを格納する。すなわち、アクセス日時、ユーザＩＤ、アクセス先のＵＲＬである参照ＵＲＬとが格納されるようになっている。

さらに、ログ連結部５は、コンテンツプロファイルとアクセスログとをＵＲＬで連結する処理を実施し、処理結果をトランザクションＤＢ１５に格納する（ステップＳ１７）。具体的には、アクセス時刻、ユーザＩＤ及びＵＲＬについては、アクセスログ格納部３から抽出され、当該ＵＲＬに対応してコンテンツプロファイルＤＢ１３に格納されているキーワード及び回数が抽出され、トランザクションＤＢ１５に格納される。例えば、トランザクションＤＢ１５には図１０に示すようなデータフォーマットでデータを格納する。すなわち、アクセス時刻、ユーザＩＤ、キーワード及び回数が格納されるようになっている。なお、アクセス時刻が所定の単位時間（例えば１日）毎であれば、アクセス時刻、ユーザＩＤ及びキーワードで、レコードをマージして回数は合計される。このような場合、この「回数」については、アクセス回数とも呼ぶものとする。

図５の説明に戻って、次にユーザプロファイル生成部１７は、ユーザプロファイルＤＢ１９とトランザクションＤＢ１５とを用いて、ユーザプロファイル生成処理を実施する（ステップＳ３）。ユーザプロファイル生成処理については図１１乃至図１７を用いて説明する。本実施の形態では、ユーザとキーワードとの関係をユーザプロファイルＤＢ１９に格納するが、その際キーワードにつきユーザとの関連性を表すスコアを、図１１（ａ）及び（ｂ）に示すように時間に応じて減衰させる。すなわち。図１１（ａ）に示すように、ｔ₀で特定のキーワードのスコアがＸであった場合、図１１（ｂ）に示すように、１単位時間後のｔ₁になるとρ（０＜ρ＜１）倍になり、さらに１単位時間後のｔ₂になるとさらにρ倍になり、そしてさらに１単位時間後のｔ₃になるものとする。すなわち、ｔ₃のスコアはｔ₀のスコアのρ^t0-t3倍になる。一般的に、時刻ｔ_iにおけるアクセス回数（キーワードの出現回数）がｎ_iの場合の現在のスコアｇ(ｔ₀)は、以下のように表される。

なお、ｆ(ｎ)は、ｎ回アクセスしたときのスコアである。

また、本実施の形態では、アクセス回数（キーワードの出現回数）とスコアの関係については、以下の事項を前提とする。すなわち、図１２に示すように、最近ｎ日間、毎日１回アクセスした場合のスコアの合計値（＝１＋ρ＋・・・＋ρ^n-1）と、今日１日にｎ回アクセスした場合のスコア（＝ｆ(ｎ)）とが同じであるとする。そうすると、ｆ(ｎ)は以下のように表される。

ここで０＜ρ＜１である。

なお、ある時点τでのスコアｇ(τ)が分かっている場合には、現時刻ｔにおいてｎ回のアクセスがあった場合のスコアｇ(ｔ)は、ｇ(τ)を用いて以下の式で算出される。
ｇ(ｔ)＝ｆ(ｎ)＋ρ^t-ρｇ(τ)

このような前提の下、図１３に示すような処理をユーザプロファイル生成部１７が実施する。まず、ユーザプロファイル生成部１７は、トランザクションＤＢ１５から未処理所定単位（例えば日毎に処理を行う場合には本日分）のトランザクション・データを抽出してユーザＩＤでグループ化し、各グループのデータを例えばメインメモリなどの記憶装置に格納する（ステップＳ２１）。例えば図１４に示すようなデータがトランザクションＤＢ１５に格納されている場合には、グループＡ、グループＢ、グループＣにまとめられる。次に、未処理のユーザＩＤを１つ特定する（ステップＳ２３）。そして、特定されたユーザＩＤの過去のユーザプロファイルを、ユーザプロファイルＤＢ１９から読み出す（ステップＳ２５）。例えば図１５に示すようなデータがユーザプロファイルＤＢ１９から読み出されるものとする。図１５に示すように、ユーザプロファイルＤＢ１９には、最終訪問日時（日単位で処理をする場合には最終訪問日。但し、アクセス日時が存在しないがユーザＩＤが処理対象として抽出されると、処理日時又は処理日となる。）、ユーザＩＤ、キーワード及び当該キーワードのスコアが登録されるようになっている。図１５の例では、ユーザＩＤが「１０００」のユーザと、ユーザＩＤが「３３８８」であるユーザと、ユーザＩＤが「２６２１」であるユーザとが登録されている。

さらに、現時刻（アクセス日時又はアクセス日）ｔと過去ユーザプロファイルの最終訪問日時を取得し、スコアの減衰処理を実施する（ステップＳ２７）。具体的には、現時刻ｔと最終訪問日時の差（例えば日単位）をｔとすると、ρ^t倍して、例えばメインメモリ等の記憶装置に格納する。例えば、現時刻ｔは図１４から２００６年２月１４日であり、最終訪問日時が２００６年２月１０日であるので４日経っており、ρ⁴を乗ずる。ρ＝０．９であるとすると、図１６に示したようなスコアが算出される。なお、所定の閾値（例えば０．１）より小さいスコアのレコードについては削除するようにする。これによって処理量を削減できる。

そして、特定されたユーザＩＤの読み出されたトランザクション・データに含まれるアクセス回数（キーワードの出現回数）に応じたスコアを算出し、例えばメインメモリ等の記憶装置に格納する(ステップＳ２９）。回数をｋとすると（１−ρ^k）／（１−ρ）を算出する。例えば、ユーザＩＤ「１０００」のキーワード「トリノ」については、（１−０．９³）／（１−０．９）＝２．７１となる。同様に、ユーザＩＤ「１０００」のキーワード「下村●子」については、（１−０．９¹）／（１−０．９）＝１となる。さらに、ユーザＩＤ「１０００」のキーワード「モーグル」については、（１−０．９²）／（１−０．９）＝１．９となる。

最後に、ステップＳ２７の減衰処理の結果とステップＳ２９で算出されたスコアを加算し、ユーザプロファイルＤＢ１９を更新する（ステップＳ３１）。ユーザＩＤ「１０００」のキーワード「トリノ」については、０．５１＋２．７１＝３．２２で更新される。さらに、ユーザＩＤ「１０００」のキーワード「下村●子」については、０＋１．０＝１．０で更新される。「下村●子」についてはレコードが存在していなかったので追加される。また、ユーザＩＤ「１０００」のキーワード「モーグル」についても、０＋１．９＝１．９で更新される。「モーグル」についてもレコードが存在していなかったので追加される。このような処理を実施すれば、図１７に示すようなデータがユーザプロファイルＤＢ１９に登録される。

その後、全てのユーザＩＤについて処理が完了したか判断し（ステップＳ３３）、未処理のユーザＩＤが存在していればステップＳ２３に戻り、全てのユーザＩＤについて処理が完了していれば元の処理に戻る。

このようにして、時間軸方向で適切に減衰され且つ定量化されたスコアが、ユーザの興味に関連するキーワード毎にユーザプロファイルＤＢ１９に登録されるようになる。なお、この段階で、スコアでソートして、キーワードを絞り込んでも良い。例えば、上位所定数のキーワードを特定したり、閾値以上のスコアを有するキーワードを特定するようにしても良い。

図５の説明に戻って、次に、コンテンツ選別部２１は、コンテンツプロファイルＤＢ１３とアクセスログ格納部３とを用いて、コンテンツ選別処理を実施する（ステップＳ５）。このコンテンツ選別処理については図１８乃至図２１を用いて説明する。

コンテンツ選別部２１は、アクセスログ格納部３に格納されたアクセスログのデータから所定単位時間（例えば日単位）のアクセスユーザ数をＵＲＬ毎にカウントし、カウント結果を例えばメインメモリ等の記憶装置に格納する（図１８：ステップＳ４１）。例えば、図１９に示すようなデータがアクセスログ格納部３に格納されているとすると、例えば図２０に示すようなデータが生成される。すなわち、２００６年２月１４日にＵＲＬ１にアクセスしたユーザの数は「３」であり、２００６年２月１３日にＵＲＬ１にアクセスしたユーザの数は「１」であり、２００６年２月１２日にＵＲＬ１にアクセスしたユーザの数は「２」である。なお、時刻τにＷｅｂページｐにアクセスしたユーザ数を、Ｕ_τ(ｐ)と表すものとする。

そして、未処理のＵＲＬを１つ特定し（ステップＳ４３）、Ｕ_τ(ｐ)の平均を以下のとおりに算出し、例えばメインメモリ等の記憶装置に格納する（ステップＳ４５）。

このように、現時点ｔを含まない直前のｔ−１の段階までのＷｅｂページｐの平均ユーザ数が算出される。

このＵ_τ(ｐ)の平均を用いて以下の式に従ってスコアＡ_t(ｐ)を算出し、例えばメインメモリ等の記憶装置に格納する（ステップＳ４７）。

この式は、仮にＣ_t＝１だとすると、Ｕ_t(ｐ)の平均ユーザ数からのずれに対して、時刻ｔにおけるユーザ数を乗じた値となる。すなわち、平均ユーザ数からのずれ（上方乖離度）が大きいほどＡ_t(ｐ)が大きな値となって出てくる。より具体的には、より多くのユーザから注目をあびるようになると、Ａ_t(ｐ)が大きな値になるので、バーストを検出することができる。

但し、Ｃ_tは時間帯ｔによる補正係数であり、例えば１時間毎に設定する場合もある。この場合、０時台にはＣ_t＝０．９、１時台＝０．８、・・・２３時台＝１．０のようにする。これは、夜間のアクセスが多く、早朝のアクセスが少ないなど、アクセスが集中する時間帯にアクセスされたページのスコアが不当に高く評価される問題を解消するためである。１日を単位時間とする場合には、日毎に設定するようにする。曜日毎に設定するようにしても良い。また、Ｃ_tについては固定しても良い。

そして、未処理のＵＲＬが存在するか判断し、未処理のＵＲＬが存在する場合にはステップＳ４３に戻る。一方、未処理のＵＲＬが存在しない場合には、Ａ_t(ｐ)の値でＵＲＬをソートし、上位所定数のＵＲＬのデータをコンテンツプロファイルＤＢ１３から抽出して、トピックＤＢ２３に登録する（ステップＳ５１）。そして元の処理に戻る。トピックＤＢ２３に格納されるデータのフォーマット例を図２１に示す。図２１の例では、本ＵＲＬを検出した時刻であるバースト時刻と、ＵＲＬと、当該ＵＲＬに関連するキーワードと、スコアとが登録されるようになっている。

図５の説明に戻って、次に、マッチング部２５は、ユーザプロファイルＤＢ１９、関連語辞書２７及びトピックＤＢ２３を用いてマッチング処理を実施し、ユーザに推薦すべきＵＲＬのリストをユーザ毎に推薦トピックＤＢ２９に格納する（ステップＳ７）。マッチング処理については図２２乃至図２４を用いて説明する。まず、マッチング部２５は、各ユーザのユーザプロファイルに含まれるキーワード（例えばスコア上位３位までのキーワード）をユーザプロファイルＤＢ１９から抽出し、当該キーワードを関連語辞書２７によってグループ化し、当該グループのデータを例えばメインメモリ等の記憶装置に格納する（ステップＳ６１）。グループ化については、図２３及び図２４を用いて説明する。例えば、関連語辞書２７には図２３に示すようなフォーマットでデータが格納される。すなわち、キーワード１と、キーワード１に関連するキーワード２と、それらの関連度とが格納されるようになっている。

図１７の例では、ユーザＩＤ「１０００」のユーザプロファイル中には、「トリノ」、「下村●子」、「モーグル」、「フィギュア」、「代表選考」が登録されているが、スコアの値で上位３つに限定すると、「トリノ」「モーグル」「フィギュア」が特定される。一方、関連語辞書２７には、「トリノ」と「スケルトン」の組、「トリノ」と「ハーフパイプ」の組、「トリノ」と「フィギュア」の組、「トリノ」と「モーグル」の組、「トリノ」と「大谷多●」の組、「トリノ」と「下村●子」の組、「トリノ」と「村上●枝」の組、「トリノ」と「安川静●」の組、「モーグル」と「大谷多●」の組、「モーグル」と「下村●子」の組、「代表選考」と「深田真●」の組、「代表選考」と「伊藤美●」の組、「代表選考」と「安川静●」の組と、「代表選考」と「村上●枝」の組とが登録されているとする。

そうすると、図２４に示すようなグラフが描ける。但し、キーワードに対応する四角は、大きいものほどユーザプロファイル中でスコアが大きい、又は関連語辞書２７において関連度が大きいことを表している。これによって「トリノ」に関連するキーワードのグループであるグループ１＝｛トリノ，フィギュア，モーグル，スケルトン，ハーフパイプ｝が構成される。「安川静●」「村上●枝」「下村●子」「大谷多●」については相対的に関連度が低いのでグループに登録されていない。また、「モーグル」に関連するキーワードのグループであるグループ２＝｛モーグル，トリノ，下村●子，大谷多●｝が構成される。さらに、「フィギュア」に関連するキーワードのグループであるグループ３＝｛フィギュア，トリノ｝が構成される。

次に、未処理のユーザを１人特定し（ステップＳ６３）、未処理のキーワードグループを１つ特定する（ステップＳ６５）。そして、特定されたキーワードグループと、トピックＤＢ２３に格納されているキーワードとの類似度をトピックＤＢ２３のＵＲＬ毎に算出し、例えばメインメモリ等の記憶装置に格納する（ステップＳ６７）。類似度は、例えば以下の式で算出される。
Ｊ（Ｗ，Ｖ）＝（Ｗ∩Ｖ）／（Ｗ∪Ｖ）
なお、Ｊ（Ｗ，Ｖ）は周知のＪａｃｃａｒｄＣｏｅｆｆｉｃｉｅｎｔである。Ｗは、ステップＳ６１で生成され且つステップＳ６５で特定されたキーワードグループであり、Ｖは、トピックＤＢ２３内の特定のＵＲＬのキーワードグループである。従って、分母はＷ∪Ｖのキーワード数、分子はＷ∩Ｖのキーワード数である。

そして、全てのキーワードグループについて処理したか判断する（ステップＳ６９）。未処理のキーワードグループが存在していれば、ステップＳ６５に戻る。一方、未処理のキーワードグループが存在しない場合には、類似度Ｊでソートし、類似度Ｊが大きい順に所定数のＵＲＬを特定して、トピックＤＢ２３内の当該ＵＲＬの対応データを推薦トピックＤＢ２９に格納する（ステップＳ７１）。

さらに、全てのユーザについて処理したか判断し（ステップＳ７３）、未処理のユーザが存在している場合にはステップＳ６３に戻る。一方、全てのユーザを処理した場合には、元の処理に戻る。

図５の処理に戻って、最後に推薦出力部３１は、例えばユーザ端末１０３からの要求に応じて当該ユーザ端末１０３の登録ユーザについての推薦ＵＲＬを推薦トピックＤＢ２９から読み出し、当該推薦ＵＲＬのリストをユーザ端末１０３に出力する（ステップＳ９）。ユーザ端末１０３は、コンテンツ推薦サーバ１０５から、登録ユーザが興味を有しており且つ最近注目されている推薦ＵＲＬを受信し、表示装置に表示する。例えば、Ｗｅｂブラウザのプラグインとして提供されているアプリケーションによってリンクの形で登録ユーザに提示される。

このようにすれば、ユーザが明確に把握していないようなキーワードであっても上で述べたような処理によって抽出され、さらに当該キーワードに関連し且つ最近注目されているサイトのＵＲＬが、自動的に提示されるようになるため、効率的にＷｅｂページを閲覧することができるようになる。

なお、関連語辞書２７については、例えば図２５及び図２６に示すような処理にて構成される場合がある。例えば、推薦出力部３１は、上で述べたようにユーザ端末１０３に推薦ＵＲＬのリストを送信し、ユーザ端末１０３は、コンテンツ推薦サーバ１０５から推薦ＵＲＬのリストを受信し、表示装置に表示することによって、登録ユーザに推薦ＵＲＬのリストを提示する（ステップＳ８１）。これに対して、登録ユーザが、推薦ＵＲＬのうちいずれかを選択してクリックすると、ユーザ端末１０３は、当該推薦ＵＲＬの選択を受け付け、当該推薦ＵＲＬの選択データをコンテンツ推薦サーバ１０５に送信する。コンテンツ推薦サーバ１０５の操作取得部３３は、ユーザ端末１０３から推薦ＵＲＬの選択データを受信すると、推薦トピックＤＢ２９から当該選択に係る推薦ＵＲＬに対応して登録されたキーワードを読み出し、操作履歴ＤＢ３５に登録する（ステップＳ８３）。例えば操作履歴ＤＢ３５には、図２６に示すようなデータフォーマットでデータが蓄積される。すなわち、アクセス時刻と、ユーザＩＤと、キーワードと、参照ＵＲＬとが格納されるようになっている。

次に、関連語辞書生成部３７は、周知の関連度算出処理を実施する（ステップＳ８５）。これによって、例えば同じＵＲＬを参照ＵＲＬとするキーワードにつき関連度が算出される。そして、関連語辞書生成部３７は、算出された関連度に従って、例えば所定の閾値以上の関連度を有するキーワードの組及びその関連度を含む関連語辞書データを生成し、関連語辞書２７に登録する（ステップＳ８７）。

このような処理を実施することによって、登録ユーザによる実際の操作履歴に基づき、適切な関連語が関連語辞書に蓄積されるようになる。従って、推薦ＵＲＬを選択する際にも適切なキーワードグループが構成されるようになり、適切な類似度が算出され、最終的に適切な推薦ＵＲＬが特定されるようになる。

以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、図２乃至図４に示した機能ブロックは必ずしも実際のプログラム構成に対応しない場合もある。また、処理フローについても、処理結果が変らない限りにおいて順番の入れ替えや並列処理が可能である。

なお、ユーザ端末１０３、コンテンツ推薦サーバ１０５、Ｗｅｂサーバ１０７は、図２７のようなコンピュータ装置であって、メモリ２５０１（記憶装置）とＣＰＵ２５０３（処理装置）とハードディスク・ドライブ（ＨＤＤ）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施の形態における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。必要に応じてＣＰＵ２５０３は、表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ２５０１に格納され、必要があればＨＤＤ２５０５に格納される。本発明の実施の形態では、上で述べた処理を実施するためのアプリケーション・プログラムはリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

本発明の実施の形態に係るシステム概要を説明するための図である。コンテンツ推薦サーバの第１の機能ブロック図である。コンテンツ推薦サーバの第２の機能ブロック図である。コンテンツ推薦サーバの第３の機能ブロック図である。本発明の実施の形態に係るメイン処理フローを示す図である。前処理の処理フローを示す図である。ＷｅｂページＤＢのデータフォーマット例を示す図である。コンテンツプロファイルＤＢのデータフォーマット例を示す図である。アクセス履歴ＤＢのデータフォーマット例を示す図である。トランザクションＤＢのデータフォーマット例を示す図である。（ａ）及び（ｂ）は、ユーザプロファイルにおけるスコアの時間減衰を説明するための図である。アクセス頻度と減衰の調整モデルを説明するための図である。ユーザプロファイル生成処理の処理フローを示す図である。ユーザプロファイル生成処理を説明するためのデータ例を示す図である。ユーザプロファイル生成処理を説明するためのデータ例を示す図である。ユーザプロファイル生成処理を説明するためのデータ例を示す図である。ユーザプロファイル生成処理を説明するためのデータ例を示す図である。コンテンツ選別処理の処理フローを示す図である。コンテンツ選別処理を説明するためのデータ例を示す図である。コンテンツ選別処理を説明するためのデータ例を示す図である。トピックＤＢのデータフォーマット例を示す図である。マッチング処理の処理フローを示す図である。関連語辞書のデータフォーマット例を示す図である。キーワードのグループ化を説明するための図である。関連語辞書作成処理の処理フローを示す図である。操作履歴ＤＢのデータフォーマット例を示す図である。コンピュータの機能ブロック図である。

符号の説明

１アクセスログ取得部３アクセスログ格納部
５ログ連結部７Ｗｅｂページ収集部
９ＷｅｂページＤＢ１１キーワード抽出部
１３コンテンツプロファイルＤＢ
１５トランザクションＤＢ１７ユーザプロファイル生成部
１９ユーザプロファイルＤＢ
２１コンテンツ選別部２３トピックＤＢ
２５マッチング部２７関連語辞書
２９推薦トピックＤＢ３１推薦出力部
３３操作取得部３５操作履歴ＤＢ
３７関連語辞書生成部
１０１ネットワーク１０３ユーザ端末
１０５コンテンツ推薦サーバ１０７Ｗｅｂサーバ

Claims

登録ユーザがコンテンツにアクセスした時刻であるアクセス時刻を含む、当該登録ユーザのアクセスログを格納するアクセスログ格納部と収集したコンテンツ中のキーワードに関するデータを格納するコンテンツプロファイル・データベースとに格納されているデータから、アクセス時刻及び前記キーワードに関する情報と登録ユーザとの関係を表すトランザクション・データを生成し、トランザクション・データベースに登録するステップと、
前記トランザクション・データベースに格納された未処理のトランザクション・データに係る特定の登録ユーザに関連し且つ当該未処理のトランザクション・データに含まれるキーワードの、アクセス時刻における評価値と、登録ユーザとキーワードとのこれまでの関連度を表すデータを格納するユーザプロファイル・データベースに格納されているデータから前記特定の登録ユーザに関連するキーワードにつき前記アクセス時刻における減衰された関連度とを算出して、前記特定の登録ユーザに関連するキーワードについて前記評価値及び前記減衰された関連度から前記アクセス時刻における関連度を算出し、前記ユーザプロファイル・データベースを更新する更新ステップと、
前記アクセスログ格納部に格納されているデータを用いて、所定の基準を超えてアクセスが増加したコンテンツを特定し、当該特定されたコンテンツについてのデータを前記コンテンツプロファイル・データベースから抽出し、トピック・データベースに登録する登録ステップと、
前記ユーザプロファイル・データベースに格納されている、前記特定の登録ユーザについての前記関連度が上位のキーワードと所定の類似性を有し且つ前記トピック・データベースに登録されているキーワードが出現するコンテンツを特定し、当該特定されたコンテンツの識別情報を前記特定の登録ユーザに対応して推薦トピック・データベースに登録するコンテンツ特定ステップと、
を含み、
前記トランザクション・データベースに格納された前記キーワードに関するデータが、当該キーワードの提示回数ｋを含み、
前記更新ステップが、
前記未処理のトランザクション・データに含まれるキーワードの提示回数ｋと所定の減衰係数ρによって、前記キーワードの前記評価値を（１−ρ ^k ）／（１−ρ）として算出するステップ、
を含み、コンピュータにより実行されるコンテンツ特定方法。
前記コンテンツ特定ステップが、
関連語辞書から、前記ユーザプロファイル・データベースに格納されている、前記特定の登録ユーザについての前記関連度が上位のキーワードに対応して登録されている関連キーワードを抽出するステップと、
前記特定の登録ユーザについての特定のキーワードと当該特定のキーワードに対応し且つ抽出された前記関連キーワードとを含む第１のセットと、前記トピック・データベースに登録されている前記キーワードをコンテンツ毎にまとめた第２のセットとの類似度を前記コンテンツ毎に算出するステップと、
を含む請求項１記載のコンテンツ特定方法。
前記ユーザプロファイル・データベースには、キーワード毎に処理基準日時のデータが登録されており
前記更新ステップが、
前記処理基準日時から前記アクセス時刻までの単位時間数ｔと所定減衰係数ρと前記これまでの関連度ｇとによって、前記アクセス時刻における減衰された関連度をρ^tｇとして算出するステップ、
を含む請求項１又は２記載のコンテンツ特定方法。
前記登録ステップが、
各前記コンテンツにつき、処理基準時刻のアクセスユーザ数の、１単位時間前までのアクセスユーザ数の平均からの上方乖離度を算出するステップと、
前記上方乖離度が上位所定数内のコンテンツを特定するステップと、
を含む請求項１乃至３のいずれか１つ記載のコンテンツ特定方法。
請求項１乃至４のいずれか１つ記載のコンテンツ特定方法をコンピュータに実行させるためのプログラム。
登録ユーザがコンテンツにアクセスした時刻であるアクセス時刻を含む、当該登録ユーザのアクセスログを格納するアクセスログ格納部と収集したコンテンツ中のキーワードに関するデータを格納するコンテンツプロファイル・データベースとに格納されているデータから、アクセス時刻及び前記キーワードに関する情報と登録ユーザとの関係を表すトランザクション・データを生成し、トランザクション・データベースに登録する手段と、
前記トランザクション・データベースに格納された未処理のトランザクション・データに係る特定の登録ユーザに関連し且つ当該未処理のトランザクション・データに含まれるキーワードの、アクセス時刻における評価値と、登録ユーザとキーワードとのこれまでの関連度を表すデータを格納するユーザプロファイル・データベースに格納されているデータから前記特定の登録ユーザに関連するキーワードにつき前記アクセス時刻における減衰された関連度とを算出して、前記特定の登録ユーザに関連するキーワードについて前記評価値及び前記減衰された関連度から前記アクセス時刻における関連度を算出し、前記ユーザプロファイル・データベースを更新する更新手段と、
前記アクセスログ格納部に格納されているデータを用いて、所定の基準を超えてアクセスが増加したコンテンツを特定し、当該特定されたコンテンツについてのデータを前記コンテンツプロファイル・データベースから抽出し、トピック・データベースに登録する手段と、
前記ユーザプロファイル・データベースに格納されている、前記特定の登録ユーザについての前記関連度が上位のキーワードと所定の類似性を有し且つ前記トピック・データベースに登録されているキーワードが出現するコンテンツを特定し、当該特定されたコンテンツの識別情報を前記特定の登録ユーザに対応して推薦トピック・データベースに登録する手段と、
を有し、
前記トランザクション・データベースに格納された前記キーワードに関するデータが、当該キーワードの提示回数ｋを含み、
前記更新手段が、
前記未処理のトランザクション・データに含まれるキーワードの提示回数ｋと所定の減衰係数ρによって、前記キーワードの前記評価値を（１−ρ ^k ）／（１−ρ）として算出する
コンテンツ特定装置。