JP2004157649A - 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体 - Google Patents
階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体 Download PDFInfo
- Publication number
- JP2004157649A JP2004157649A JP2002321054A JP2002321054A JP2004157649A JP 2004157649 A JP2004157649 A JP 2004157649A JP 2002321054 A JP2002321054 A JP 2002321054A JP 2002321054 A JP2002321054 A JP 2002321054A JP 2004157649 A JP2004157649 A JP 2004157649A
- Authority
- JP
- Japan
- Prior art keywords
- user profile
- keyword
- user
- hierarchical
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】利用者の嗜好を把握するのに必要なユーザプロファイル作成方法、システム、プログラム、記録媒体を提案する。
【解決手段】個人情報(ユーザプロファイル)を階層化されたキーワードベクトルの集合として表現する。階層化することで、ユーザの嗜好が強く表れている興味領域に関しては、下位階層に含まれるキーワードを使用してプロファイルを構成することができる。ユーザの嗜好を判定しにくい興味領域に関しては、上位階層に含まれるキーワードを利用することで、ユーザプロファイルに含むキーワードベクトル数の削減を行うことにつながり、レコメンドシステムやデジタルコンテンツ配信サービスにより行われるプロファイル間のマッチング処理における負荷を削減することが可能となる。
【選択図】 図3
【解決手段】個人情報(ユーザプロファイル)を階層化されたキーワードベクトルの集合として表現する。階層化することで、ユーザの嗜好が強く表れている興味領域に関しては、下位階層に含まれるキーワードを使用してプロファイルを構成することができる。ユーザの嗜好を判定しにくい興味領域に関しては、上位階層に含まれるキーワードを利用することで、ユーザプロファイルに含むキーワードベクトル数の削減を行うことにつながり、レコメンドシステムやデジタルコンテンツ配信サービスにより行われるプロファイル間のマッチング処理における負荷を削減することが可能となる。
【選択図】 図3
Description
【0001】
【発明の属する技術分野】
本発明は、蓄積したデータベースの情報をもとに売上げや利益の増加に結びつく傾向やパターンを見つけるデータマイニング技術や、大量な情報から利用者に必要な情報を選択する情報フィルタリング技術において、利用者の嗜好を把握するのに必要なユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体に関する。
【0002】
【従来の技術】
現在、インターネットなどの広域ネットワークにおいては、利用者の求める情報をあらかじめ予測し、これを推薦するリコメンドシステムが多数提案されている。またデジタルコンテンツを配信するようなサービスにおいて、配信するコンテンツに関連する情報、例えばバナー広告などを同時に配信する技術やサービスがある。上述のリコメンドサービスやデジタルコンテンツ配信サービスの多くは、ユーザプロファイルをユーザのサービス利用履歴から、多次元ベクトル構造により作成している。
【0003】
【発明が解決しようとする課題】
しかし、上述のようなリコメンドシステムやデジタルコンテンツ配信サービスで利用されるユーザプロファイルは、ユーザの興味領域を広域にカバーするために、すべてのプロファイルベクトル要素を同じレベルで扱っており、そのため利用の嗜好を強く反映させたプロファイルベクトルを作成することが困難となっている。
【0004】
本発明の目的は、上述のような問題を解決し、利用者の嗜好を把握するのに必要なユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体を提案することにある。
【0005】
【課題を解決するための手段】
本発明では、個人情報(ユーザプロファイル)を階層化されたキーワードベクトルの集合として表現する。階層化することで、ユーザの嗜好が強く表れている興味領域に関しては、下位階層に含まれるキーワードを使用してプロファイルを構成することができる。ユーザの嗜好を判定しにくい興味領域に関しては、上位階層に含まれるキーワードを利用することで、ユーザプロファイルに含むキーワードベクトル数の削減を行うことにつながり、レコメンドシステムやデジタルコンテンツ配信サービスにより行われるプロファイル間のマッチング処理における負荷を削減することが可能となる。
【0006】
【発明の実施の形態】
初めに、実施の形態で用いる用語を説明する。
【0007】
トップキーワード:1つのトップキーワードは、1つの興味領域を表し、[単語:単語の重要度]の組で表現するものとする。本発明では、プロファイルを階層化したキーワード情報の集合として定義し、プロファイルは、トップキーワードを各々最大既定値iだけ保持することができる。初期化段階において、ユーザプロファイルはトップキーワードの重要度を持たない。利用者がその嗜好によって、テキストなどの情報を参照する度に、自動的に構築・更新される。
【0008】
キーワードベクトル:キーワードベクトルは、詳細化された興味領域を表現し、[単語:単語の重要度:更新時刻]の組を最大N個含む集合である。キーワードベクトルは上位階層にトップキーワードを1つ以上保持する。このような、[単語:単語の重要度]を組として保存する手法は、従来から数多く提案されている。特に、後述のTFIDF(Term Frequency and Inverse Document Frequency)と呼ばれる方法は、テキスト情報に対して、上記の集合(ただしNは固定値でない)を計算する。この手法は非常に有名かつ有効である。
【0009】
重要度:プロファイルにおける、単語の重要性を表現する。この値が高い程、プロファイル中で当該単語が特徴的であることが言える。ユーザプロファイルにおいては、当該単語に対して深い興味を持つことを意味する。
【0010】
知識体系:各トップキーワードが保持するキーワードベクトルの構造をデータベースとして格納する。知識体系の作成例としては、トップキーワードをジャンル等のコンテンツに付加したメタデータから取得し、キーワードベクトルをTFIDF等の技術により、前記メタデータを保持するコンテンツから抽出することが考えられる。
【0011】
類似度の計算:ユーザプロファイル中のキーワードベクトルとコンテンツプロファイル中のキーワードベクトルの関連性、あるいはユーザプロファイル中のキーワードベクトル同士がどのくらい関連を持っているかの度合を類似度と呼んでいる。類似度が高いほど、これらは関連が深い。各ベクトルの類似度計算には、一般的に知られているベクトル空間法を用いて行うことが考えられる。(下記数式参照)
【0012】
【数1】
【0013】
TFIDF:テキストから、その文中に出現する全ての単語を抽出し、各単語の出現頻度を利用してテキスト全体を示す情報として用いる手法の一つである。TFIDFでは、次の処理によって対象としたテキストの内容を要約した特徴量である多次元多値ベクトルを生成する。
【0014】
特徴情報を計算したいテキストXについて、そのテキストで使用される全単語と、その単語の当該テキスト中で出現度数を調べる。TF(Term Frequency)を以下のように定める。
TF(X,k)=単語kがテキストXで使用された回数
TF(X,k)は、単語kがテキストXで使用された回数を現し、値が大きいほど単語kがテキストXを代表する言葉であると解釈できる。
【0015】
また、テキストXで使用された全ての単語について、これらが各々全テキスト中で何個のテキストに出現するか調べる。この情報を用いてIDF(Inverse Document Frequency)を以下のように定める。
IDF(k)=f(n(k),N)
n(k)=単語(k)=単語kが(全テキスト中で)使用されているテキストの数
N=全テキストの数
f(x,y)は任意の関数
f(x,y)=log(y/x)であることが多い
IDFは、単語kが汎用的に使用される言葉か否かを示すバロメータであり、値が大きいほど特徴をもった言葉であると解釈できる。また、関数f(x,y)は任意の関数でよいが、下記条件を満たす必要がある。
・xが大きいほど、値が小さくなること。
・yが大きいほど、値が大きくなること。
【0016】
次に、テキストXで使用される全ての単語について、以下の値を計算する。
TFIDF(X,k)=TF(X,k)×IDF(k)
TFIDFは、値が大きいほど単語kがテキストXの特徴を表現した言葉とみなすことができる。本実施の形態では、この多次元ベクトルをキーワードベクトルとして扱い、単語の重要度にTFIDF値を使用する。
【0017】
次に、本発明の一実施形態について詳述する。
【0018】
処理は、単語情報の集合であるユーザプロファイルを作成する処理と、このユーザプロファイルを用いて情報を選択する処理に大別される。
【0019】
[知識体系の作成]
図1は、知識体系の作成及びコンテンツプロファイルの概念図である。あるサービスで提供するコンテンツ群110から、各コンテンツのトップキーワード、キーワードベクトルを集計し、TFIDF等の技術により高頻出のトップキーワード、キーワードベクトルの対を算出して知識体系データベース130に蓄積する。この際、トップキーワード、キーワードベクトルの要素の数が、既定値i、Nよりもそれぞれ多い場合には、単語の重要度の大きい順にi、N個をそれぞれ選択し、これをトップキーワード、キーワードベクトルの集合とする。トップキーワード、キーワードベクトルの対は、以下の構造により知識体系データベース130に格納する。
【0020】
【数2】
【0021】
[コンテンツプロファイルの作成]
あるサービスで提供するコンテンツ群110に含まれる1つのコンテンツ120におけるコンテンツプロファイル140の作成を例として述べる。
(1)コンテンツに関するテキスト情報から単語を抽出する。抽出された各単語に対して、その単語のテキスト中での出現度数を調べ、キーワードベクトルを計算する。キーワードベクトルの計算には、既存のTFIDF等を利用する。
(2)本実施例では、コンテンツに付加されたメタデータ(ジャンル情報)をトップキーワードとする。トップキーワードを検索キーとして、知識体系データベースを検索することで、トップキーワード、キーワードベクトルのテンプレートを作成する。各ベクトルの重要度は初期値0である。
(3)次に、各コンテンツごとにキーワードベクトルの重要度を付加する。そのため、(1)により抽出した単語において、(2)のキーワードベクトルに含まれる場合は、各単語のキーワードベクトルを重要度とする。(2)のテンプレート中におけるキーワードベクトルに含まれない場合は、無視する。
【0022】
コンテンツプロファイルは、トップキーワード、キーワードベクトル、重要度を用いて以下の構造により作成される。下記の例は2階層を持たせた場合である。
【0023】
【数3】
【0024】
[ユーザプロファイルの作成]
図2はユーザプロファイルの概念図を示したものである。210はユーザが参照したコンテンツ、220はユーザプロファイルである。ユーザプロファイルは、知識体系をもとにトップキーワード、キーワードベクトル、重要度、更新時刻を用いて以下の構造により作成される。また、初期化段階においては、ユーザプロファイルの重みは0である。下記の例は2階層を持たせた場合である。
【0025】
【数4】
【0026】
以下に、ユーザプロファイル作成の処理フローを示す。この処理は、ユーザがコンテンツを参照する度に繰り返される。
(1)ユーザプロファイル中のトップキーワードにおいて、重要度を以下のように算出する。
Wt=参照コンテンツ中の各トップキーワード出現回数の合計/全参照回数
(2)コンテンツプロファイル中のキーワードベクトルの重要度をユーザプロファイル中の各キーワードベクトルの重要度として加える。
(3)参照時刻をもとに、更新時刻tを変更する。
【0027】
上記によると、各キーワードベクトルが更新される頻度より、トップキーワードが更新される頻度のほうが高くなる。そのため重要度が大きいキーワードベクトルは興味が強く表れていると考え、トップキーワードよりも詳細化された興味として捉えることができる。
【0028】
[情報の選択]
以下に、情報選択の処理フローを示す。この処理は、利用者から情報要求がある毎に繰り返される。例えば、リコメンドシステムでは、複数のテキスト情報の集合から、利用者へ推薦すべき情報を次のようにして選択する。
(1)ある閾値以上の重要度をもつトップキーワード、キーワードベクトルをユーザプロファイルから抽出する。ここで述べる閾値とは、(各ワードの重要度)×(時間による重要度Wt)で算出されるものとする。例として、更新時刻tの情報を用いて、時間による重要度を以下のように与える。
【0029】
【表1】
【0030】
上記処理により、キーワードベクトルすべてが閾値以下の場合は、トップキーワードのみを用いることもある。これは、詳細化した興味を把握できていないということである。
(2)抽出したトップキーワード、キーワードベクトルを用いて、類似度の高いコンテンツを類似度計算により算出する。またマッチング結果が多数存在する場合は、類似度の上位数件を必要数だけ選択する。
(3)選択した情報を、利用者に提示する。この際、類似度を利用して、類似度の高い順にコンテンツを表示することもできる。また、トップキーワード、キーワードごとに整理して表示することも考えられる。
【0031】
図3に、本発明を用いたリコメンドシステムの実現例を示す。これは、サーバ310においてコンテンツプロファイル、ユーザプロファイルを管理する例である。
【0032】
サーバ310では、各コンテンツに関するテキスト情報320から知識体系作成処理330により、トップキーワード、キーワードベクトルの対を作成し、知識体系データベース340に格納する。また、各コンテンツに関するテキスト情報320からコンテンツプロファイル作成処理350によりトップキーワード、高頻出な単語をTFIDF等の技術により抽出する。上記で抽出したトップキーワードを検索キーとして知識体系データベース340を検索し、トップキーワード、キーワードベクトルのテンプレートを作成する。先のTFIDF等の技術により得た各単語の値をキーワードベクトルの重要度として付加する。以上の処理をすべてのコンテンツに対して行う。
【0033】
次に、履歴管理データベース360から、ユーザプロファイル作成処理370によりユーザプロファイルを構築する。利用者がリコメンドシステムに情報を要求する際、ユーザプロファイル中の各重要度から、ある閾値以上のものを抽出する。抽出されたトップキーワードを用いて、類似度計算部380において、コンテンツプロファイル、ユーザプロファイル間のマッチングを行う。ユーザプロファイル中のキーワードベクトルとコンテンツプロファイル中のキーワードベクトルの類似度を計算し、頻ベクトルの重要度が大きい順などでソートした結果を出力する。
【0034】
以上の結果を利用者端末390へ送付する。また、サーバ側では、該送付された情報を利用してユーザプロファイルを更新する。これにより、ユーザの好みの変化に応じて、ユーザプロファイルは常に最新のものが構築される。
【0035】
以上、本発明の一実施の形態を説明した、[知識体系の作成][コンテンツプロファイルの作成][ユーザプロファイルの作成]をコンピュータに実行させるためのプログラムは、該コンピュータが読み取り可能な記録媒体、例えばフロッピーディスクやメモリカード、コンパクトディスク(CD−ROM)などに記録して提供することが可能である。
【0036】
以上、本発明者によってなされた発明を、前記実施の形態に基づき具体的に説明したが、本発明は、前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【0037】
【発明の効果】
以上説明したように、本発明では、ユーザプロファイルを「単語とその重要度」によるキーワードベクトルとそれを階層化した構造によって構築することによって利用の嗜好を強く反映させたプロファイルベクトルを作成することが可能になる。
【図面の簡単な説明】
【図1】知識体系の作成及びコンテンツプロファイルの概念図である。
【図2】ユーザプロファイルの概念図である。
【図3】実施形態のリコメンドシステム構成図である。
【符号の説明】
110…コンテンツ群、120…コンテンツ、130…知識体系データベース、140…コンテンツプロファイル、210…ユーザが参照したコンテンツ、220…ユーザプロファイル、310…サーバ、320…コンテンツに関するテキスト情報、330…知識体系作成処理、340…知識体系データベース、350…コンテンツプロファイル作成処理、360…履歴管理データベース、370…ユーザプロファイル作成処理、380…類似度計算部、390…利用者端末。
【発明の属する技術分野】
本発明は、蓄積したデータベースの情報をもとに売上げや利益の増加に結びつく傾向やパターンを見つけるデータマイニング技術や、大量な情報から利用者に必要な情報を選択する情報フィルタリング技術において、利用者の嗜好を把握するのに必要なユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体に関する。
【0002】
【従来の技術】
現在、インターネットなどの広域ネットワークにおいては、利用者の求める情報をあらかじめ予測し、これを推薦するリコメンドシステムが多数提案されている。またデジタルコンテンツを配信するようなサービスにおいて、配信するコンテンツに関連する情報、例えばバナー広告などを同時に配信する技術やサービスがある。上述のリコメンドサービスやデジタルコンテンツ配信サービスの多くは、ユーザプロファイルをユーザのサービス利用履歴から、多次元ベクトル構造により作成している。
【0003】
【発明が解決しようとする課題】
しかし、上述のようなリコメンドシステムやデジタルコンテンツ配信サービスで利用されるユーザプロファイルは、ユーザの興味領域を広域にカバーするために、すべてのプロファイルベクトル要素を同じレベルで扱っており、そのため利用の嗜好を強く反映させたプロファイルベクトルを作成することが困難となっている。
【0004】
本発明の目的は、上述のような問題を解決し、利用者の嗜好を把握するのに必要なユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体を提案することにある。
【0005】
【課題を解決するための手段】
本発明では、個人情報(ユーザプロファイル)を階層化されたキーワードベクトルの集合として表現する。階層化することで、ユーザの嗜好が強く表れている興味領域に関しては、下位階層に含まれるキーワードを使用してプロファイルを構成することができる。ユーザの嗜好を判定しにくい興味領域に関しては、上位階層に含まれるキーワードを利用することで、ユーザプロファイルに含むキーワードベクトル数の削減を行うことにつながり、レコメンドシステムやデジタルコンテンツ配信サービスにより行われるプロファイル間のマッチング処理における負荷を削減することが可能となる。
【0006】
【発明の実施の形態】
初めに、実施の形態で用いる用語を説明する。
【0007】
トップキーワード:1つのトップキーワードは、1つの興味領域を表し、[単語:単語の重要度]の組で表現するものとする。本発明では、プロファイルを階層化したキーワード情報の集合として定義し、プロファイルは、トップキーワードを各々最大既定値iだけ保持することができる。初期化段階において、ユーザプロファイルはトップキーワードの重要度を持たない。利用者がその嗜好によって、テキストなどの情報を参照する度に、自動的に構築・更新される。
【0008】
キーワードベクトル:キーワードベクトルは、詳細化された興味領域を表現し、[単語:単語の重要度:更新時刻]の組を最大N個含む集合である。キーワードベクトルは上位階層にトップキーワードを1つ以上保持する。このような、[単語:単語の重要度]を組として保存する手法は、従来から数多く提案されている。特に、後述のTFIDF(Term Frequency and Inverse Document Frequency)と呼ばれる方法は、テキスト情報に対して、上記の集合(ただしNは固定値でない)を計算する。この手法は非常に有名かつ有効である。
【0009】
重要度:プロファイルにおける、単語の重要性を表現する。この値が高い程、プロファイル中で当該単語が特徴的であることが言える。ユーザプロファイルにおいては、当該単語に対して深い興味を持つことを意味する。
【0010】
知識体系:各トップキーワードが保持するキーワードベクトルの構造をデータベースとして格納する。知識体系の作成例としては、トップキーワードをジャンル等のコンテンツに付加したメタデータから取得し、キーワードベクトルをTFIDF等の技術により、前記メタデータを保持するコンテンツから抽出することが考えられる。
【0011】
類似度の計算:ユーザプロファイル中のキーワードベクトルとコンテンツプロファイル中のキーワードベクトルの関連性、あるいはユーザプロファイル中のキーワードベクトル同士がどのくらい関連を持っているかの度合を類似度と呼んでいる。類似度が高いほど、これらは関連が深い。各ベクトルの類似度計算には、一般的に知られているベクトル空間法を用いて行うことが考えられる。(下記数式参照)
【0012】
【数1】
【0013】
TFIDF:テキストから、その文中に出現する全ての単語を抽出し、各単語の出現頻度を利用してテキスト全体を示す情報として用いる手法の一つである。TFIDFでは、次の処理によって対象としたテキストの内容を要約した特徴量である多次元多値ベクトルを生成する。
【0014】
特徴情報を計算したいテキストXについて、そのテキストで使用される全単語と、その単語の当該テキスト中で出現度数を調べる。TF(Term Frequency)を以下のように定める。
TF(X,k)=単語kがテキストXで使用された回数
TF(X,k)は、単語kがテキストXで使用された回数を現し、値が大きいほど単語kがテキストXを代表する言葉であると解釈できる。
【0015】
また、テキストXで使用された全ての単語について、これらが各々全テキスト中で何個のテキストに出現するか調べる。この情報を用いてIDF(Inverse Document Frequency)を以下のように定める。
IDF(k)=f(n(k),N)
n(k)=単語(k)=単語kが(全テキスト中で)使用されているテキストの数
N=全テキストの数
f(x,y)は任意の関数
f(x,y)=log(y/x)であることが多い
IDFは、単語kが汎用的に使用される言葉か否かを示すバロメータであり、値が大きいほど特徴をもった言葉であると解釈できる。また、関数f(x,y)は任意の関数でよいが、下記条件を満たす必要がある。
・xが大きいほど、値が小さくなること。
・yが大きいほど、値が大きくなること。
【0016】
次に、テキストXで使用される全ての単語について、以下の値を計算する。
TFIDF(X,k)=TF(X,k)×IDF(k)
TFIDFは、値が大きいほど単語kがテキストXの特徴を表現した言葉とみなすことができる。本実施の形態では、この多次元ベクトルをキーワードベクトルとして扱い、単語の重要度にTFIDF値を使用する。
【0017】
次に、本発明の一実施形態について詳述する。
【0018】
処理は、単語情報の集合であるユーザプロファイルを作成する処理と、このユーザプロファイルを用いて情報を選択する処理に大別される。
【0019】
[知識体系の作成]
図1は、知識体系の作成及びコンテンツプロファイルの概念図である。あるサービスで提供するコンテンツ群110から、各コンテンツのトップキーワード、キーワードベクトルを集計し、TFIDF等の技術により高頻出のトップキーワード、キーワードベクトルの対を算出して知識体系データベース130に蓄積する。この際、トップキーワード、キーワードベクトルの要素の数が、既定値i、Nよりもそれぞれ多い場合には、単語の重要度の大きい順にi、N個をそれぞれ選択し、これをトップキーワード、キーワードベクトルの集合とする。トップキーワード、キーワードベクトルの対は、以下の構造により知識体系データベース130に格納する。
【0020】
【数2】
【0021】
[コンテンツプロファイルの作成]
あるサービスで提供するコンテンツ群110に含まれる1つのコンテンツ120におけるコンテンツプロファイル140の作成を例として述べる。
(1)コンテンツに関するテキスト情報から単語を抽出する。抽出された各単語に対して、その単語のテキスト中での出現度数を調べ、キーワードベクトルを計算する。キーワードベクトルの計算には、既存のTFIDF等を利用する。
(2)本実施例では、コンテンツに付加されたメタデータ(ジャンル情報)をトップキーワードとする。トップキーワードを検索キーとして、知識体系データベースを検索することで、トップキーワード、キーワードベクトルのテンプレートを作成する。各ベクトルの重要度は初期値0である。
(3)次に、各コンテンツごとにキーワードベクトルの重要度を付加する。そのため、(1)により抽出した単語において、(2)のキーワードベクトルに含まれる場合は、各単語のキーワードベクトルを重要度とする。(2)のテンプレート中におけるキーワードベクトルに含まれない場合は、無視する。
【0022】
コンテンツプロファイルは、トップキーワード、キーワードベクトル、重要度を用いて以下の構造により作成される。下記の例は2階層を持たせた場合である。
【0023】
【数3】
【0024】
[ユーザプロファイルの作成]
図2はユーザプロファイルの概念図を示したものである。210はユーザが参照したコンテンツ、220はユーザプロファイルである。ユーザプロファイルは、知識体系をもとにトップキーワード、キーワードベクトル、重要度、更新時刻を用いて以下の構造により作成される。また、初期化段階においては、ユーザプロファイルの重みは0である。下記の例は2階層を持たせた場合である。
【0025】
【数4】
【0026】
以下に、ユーザプロファイル作成の処理フローを示す。この処理は、ユーザがコンテンツを参照する度に繰り返される。
(1)ユーザプロファイル中のトップキーワードにおいて、重要度を以下のように算出する。
Wt=参照コンテンツ中の各トップキーワード出現回数の合計/全参照回数
(2)コンテンツプロファイル中のキーワードベクトルの重要度をユーザプロファイル中の各キーワードベクトルの重要度として加える。
(3)参照時刻をもとに、更新時刻tを変更する。
【0027】
上記によると、各キーワードベクトルが更新される頻度より、トップキーワードが更新される頻度のほうが高くなる。そのため重要度が大きいキーワードベクトルは興味が強く表れていると考え、トップキーワードよりも詳細化された興味として捉えることができる。
【0028】
[情報の選択]
以下に、情報選択の処理フローを示す。この処理は、利用者から情報要求がある毎に繰り返される。例えば、リコメンドシステムでは、複数のテキスト情報の集合から、利用者へ推薦すべき情報を次のようにして選択する。
(1)ある閾値以上の重要度をもつトップキーワード、キーワードベクトルをユーザプロファイルから抽出する。ここで述べる閾値とは、(各ワードの重要度)×(時間による重要度Wt)で算出されるものとする。例として、更新時刻tの情報を用いて、時間による重要度を以下のように与える。
【0029】
【表1】
【0030】
上記処理により、キーワードベクトルすべてが閾値以下の場合は、トップキーワードのみを用いることもある。これは、詳細化した興味を把握できていないということである。
(2)抽出したトップキーワード、キーワードベクトルを用いて、類似度の高いコンテンツを類似度計算により算出する。またマッチング結果が多数存在する場合は、類似度の上位数件を必要数だけ選択する。
(3)選択した情報を、利用者に提示する。この際、類似度を利用して、類似度の高い順にコンテンツを表示することもできる。また、トップキーワード、キーワードごとに整理して表示することも考えられる。
【0031】
図3に、本発明を用いたリコメンドシステムの実現例を示す。これは、サーバ310においてコンテンツプロファイル、ユーザプロファイルを管理する例である。
【0032】
サーバ310では、各コンテンツに関するテキスト情報320から知識体系作成処理330により、トップキーワード、キーワードベクトルの対を作成し、知識体系データベース340に格納する。また、各コンテンツに関するテキスト情報320からコンテンツプロファイル作成処理350によりトップキーワード、高頻出な単語をTFIDF等の技術により抽出する。上記で抽出したトップキーワードを検索キーとして知識体系データベース340を検索し、トップキーワード、キーワードベクトルのテンプレートを作成する。先のTFIDF等の技術により得た各単語の値をキーワードベクトルの重要度として付加する。以上の処理をすべてのコンテンツに対して行う。
【0033】
次に、履歴管理データベース360から、ユーザプロファイル作成処理370によりユーザプロファイルを構築する。利用者がリコメンドシステムに情報を要求する際、ユーザプロファイル中の各重要度から、ある閾値以上のものを抽出する。抽出されたトップキーワードを用いて、類似度計算部380において、コンテンツプロファイル、ユーザプロファイル間のマッチングを行う。ユーザプロファイル中のキーワードベクトルとコンテンツプロファイル中のキーワードベクトルの類似度を計算し、頻ベクトルの重要度が大きい順などでソートした結果を出力する。
【0034】
以上の結果を利用者端末390へ送付する。また、サーバ側では、該送付された情報を利用してユーザプロファイルを更新する。これにより、ユーザの好みの変化に応じて、ユーザプロファイルは常に最新のものが構築される。
【0035】
以上、本発明の一実施の形態を説明した、[知識体系の作成][コンテンツプロファイルの作成][ユーザプロファイルの作成]をコンピュータに実行させるためのプログラムは、該コンピュータが読み取り可能な記録媒体、例えばフロッピーディスクやメモリカード、コンパクトディスク(CD−ROM)などに記録して提供することが可能である。
【0036】
以上、本発明者によってなされた発明を、前記実施の形態に基づき具体的に説明したが、本発明は、前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【0037】
【発明の効果】
以上説明したように、本発明では、ユーザプロファイルを「単語とその重要度」によるキーワードベクトルとそれを階層化した構造によって構築することによって利用の嗜好を強く反映させたプロファイルベクトルを作成することが可能になる。
【図面の簡単な説明】
【図1】知識体系の作成及びコンテンツプロファイルの概念図である。
【図2】ユーザプロファイルの概念図である。
【図3】実施形態のリコメンドシステム構成図である。
【符号の説明】
110…コンテンツ群、120…コンテンツ、130…知識体系データベース、140…コンテンツプロファイル、210…ユーザが参照したコンテンツ、220…ユーザプロファイル、310…サーバ、320…コンテンツに関するテキスト情報、330…知識体系作成処理、340…知識体系データベース、350…コンテンツプロファイル作成処理、360…履歴管理データベース、370…ユーザプロファイル作成処理、380…類似度計算部、390…利用者端末。
Claims (7)
- 利用者嗜好の強弱を把握するのに必要なユーザプロファイル作成方法において、
コンテンツプロファイルを階層化された概念情報の集合として定義し、コンテンツプロファイルは、概念の上位階層を表す単語(トップキーワード)とその下位階層としてキーワードベクトルを保持し、キーワードベクトルはテキスト情報の内容より構築され、
また、ユーザプロファイルは、時間変化を持つ階層化された概念情報の集合として定義し、概念の上位階層を表す単語(トップキーワード)とその下位階層としてキーワードベクトルを保持し、トップキーワード、キーワードベクトルは各々一つの興味を表現し、[単語、単語の重要度]の組を複数含む集合で構成され、
利用者が参照した情報が保持するコンテンツプロファイルからユーザプロファイル中のキーワードベクトルを計算する手段と、
参照時間tをプロファイル中に保持することで興味の減衰を算出可能とする手段を基本として備えることを特徴とする階層化されたユーザプロファイル作成方法。 - 請求項1に記載の階層化されたユーザプロファイル作成方法において、
コンテンツが保持するメタデータ、テキスト情報から、TFIDF等の処理により、高頻出単語を抽出する手段と、
各キーワードに対する重要度を上記TFIDF等の処理により算出する手段と、
各メタデータをトップキーワードとした階層関係を構築する手段と、
上記情報を格納する知識体系を保持することを特徴とする階層化されたユーザプロファイル作成方法。 - ネットワークに接続されたコンテンツ提供サービス等における利用者履歴をクライアント端末から取得してサーバ側装置により、請求項1または2に記載の階層化されたユーザプロファイル作成方法を用いて、階層化されたユーザプロファイルを作成することを可能とした階層化されたユーザプロファイル作成システム。
- 請求項3に記載の階層化されたユーザプロファイル作成システムにおいて、
ある閾値以上のトップキーワード及びキーワードベクトルを抽出する手段と、抽出されたトップキーワード及びキーワードベクトルを用いて、コンテンツプロファイルとの類似度を算出する手段と、
算出結果として類似するコンテンツを提示する手段を備えることを特徴とするユーザプロファイル作成システム。 - コンテンツプロファイルは、階層化された概念情報の集合として定義され、概念の上位階層を表す単語(トップキーワード)とその下位階層としてキーワードベクトルを保持し、キーワードベクトルはテキスト情報の内容より構築され、
また、ユーザプロファイルは、時間変化を持つ階層化された概念情報の集合として定義され、概念の上位階層を表す単語(トップキーワード)とその下位階層としてキーワードベクトルを保持し、トップキーワード、キーワードベクトルは各々一つの興味を表現し、[単語、単語の重要度]の組を複数含む集合で構成される利用者嗜好の強弱を把握するのに必要なユーザプロファイル作成プログラムであって、
コンピュータを、
利用者が参照した情報が保持するコンテンツプロファイルからユーザプロファイル中のキーワードベクトルを計算する手段、および、
参照時間tをプロファイル中に保持することで興味の減衰を算出可能とする手段、
として機能させるための階層化されたユーザプロファイル作成プログラム。 - 請求項5に記載の階層化されたユーザプロファイル作成プログラムであって、
コンピュータを、
コンテンツが保持するメタデータ、テキスト情報から高頻出単語を抽出する手段、
各キーワードに対する重要度を算出する手段、
各メタデータをトップキーワードとした階層関係を構築する手段、および、
上記情報を格納する知識体系を保持する手段、
として機能させるための階層化されたユーザプロファイル作成プログラム。 - 請求項5または6に記載の階層化されたユーザプロファイル作成プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002321054A JP2004157649A (ja) | 2002-11-05 | 2002-11-05 | 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002321054A JP2004157649A (ja) | 2002-11-05 | 2002-11-05 | 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004157649A true JP2004157649A (ja) | 2004-06-03 |
Family
ID=32801720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002321054A Pending JP2004157649A (ja) | 2002-11-05 | 2002-11-05 | 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004157649A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006004298A (ja) * | 2004-06-18 | 2006-01-05 | Fuji Xerox Co Ltd | 文書処理装置、文書処理方法及び文書処理プログラム |
JP2007079800A (ja) * | 2005-09-13 | 2007-03-29 | Sony Computer Entertainment Inc | コンテンツ表示制御装置およびコンテンツ表示制御方法 |
JP2007226091A (ja) * | 2006-02-27 | 2007-09-06 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
WO2008093403A1 (ja) * | 2007-01-30 | 2008-08-07 | Cirius Technologies, Inc. | 単語データベース作成システム |
JP2011022905A (ja) * | 2009-07-17 | 2011-02-03 | Kyodo Printing Co Ltd | 利用者情報提供システム及び利用者情報提供方法 |
KR101449994B1 (ko) | 2013-12-10 | 2014-10-15 | 동국대학교 산학협력단 | 사용자 성향에 따른 검색 서비스 제공 방법 |
JP2017161963A (ja) * | 2016-03-07 | 2017-09-14 | 富士ゼロックス株式会社 | 動画検索装置およびプログラム |
JP6995282B1 (ja) | 2021-01-15 | 2022-01-14 | 株式会社エクサウィザーズ | コンテンツ配信方法、装置、及びプログラム |
-
2002
- 2002-11-05 JP JP2002321054A patent/JP2004157649A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006004298A (ja) * | 2004-06-18 | 2006-01-05 | Fuji Xerox Co Ltd | 文書処理装置、文書処理方法及び文書処理プログラム |
JP2007079800A (ja) * | 2005-09-13 | 2007-03-29 | Sony Computer Entertainment Inc | コンテンツ表示制御装置およびコンテンツ表示制御方法 |
JP4702743B2 (ja) * | 2005-09-13 | 2011-06-15 | 株式会社ソニー・コンピュータエンタテインメント | コンテンツ表示制御装置およびコンテンツ表示制御方法 |
JP2007226091A (ja) * | 2006-02-27 | 2007-09-06 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
WO2008093403A1 (ja) * | 2007-01-30 | 2008-08-07 | Cirius Technologies, Inc. | 単語データベース作成システム |
JP2011022905A (ja) * | 2009-07-17 | 2011-02-03 | Kyodo Printing Co Ltd | 利用者情報提供システム及び利用者情報提供方法 |
KR101449994B1 (ko) | 2013-12-10 | 2014-10-15 | 동국대학교 산학협력단 | 사용자 성향에 따른 검색 서비스 제공 방법 |
JP2017161963A (ja) * | 2016-03-07 | 2017-09-14 | 富士ゼロックス株式会社 | 動画検索装置およびプログラム |
JP6995282B1 (ja) | 2021-01-15 | 2022-01-14 | 株式会社エクサウィザーズ | コンテンツ配信方法、装置、及びプログラム |
JP2022109776A (ja) * | 2021-01-15 | 2022-07-28 | 株式会社エクサウィザーズ | コンテンツ配信方法、装置、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101171405B1 (ko) | 검색 결과에서 배치 내용 정렬의 맞춤화 | |
JP5224868B2 (ja) | 情報推薦装置および情報推薦方法 | |
KR100672277B1 (ko) | 개인화 검색 방법 및 검색 서버 | |
CN106383836B (zh) | 将可操作属性归于描述个人身份的数据 | |
JP2010061601A (ja) | 推薦装置および方法、プログラム、並びに記録媒体 | |
JP2006251866A (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
CN104160712A (zh) | 计算媒体节目之间的相似度 | |
JP2010061600A (ja) | 推薦装置および方法、プログラム、並びに記録媒体 | |
US9552415B2 (en) | Category classification processing device and method | |
JP5547669B2 (ja) | 関連語抽出装置、関連語抽出方法、関連語抽出プログラム | |
JP2002215659A (ja) | 情報検索支援方法および情報検索支援システム | |
JP7395377B2 (ja) | コンテンツ検索方法、装置、機器、および記憶媒体 | |
JP6832606B2 (ja) | コンテンツマッチングシステム | |
JP2004157649A (ja) | 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体 | |
JP2002366838A (ja) | リコメンデーション方法及びサーバ・システム並びにプログラム | |
KR101140724B1 (ko) | 개념 네트워크 기반 사용자 프로파일 구성 방법 및 시스템과 이를 이용한 개인화 질의 확장 시스템 | |
CN106445922B (zh) | 确定多媒体资源的标题的方法及装置 | |
JP6639040B2 (ja) | 情報検索装置及びプログラム | |
KR101818716B1 (ko) | 컨셉 키워드 확장 데이터 셋 생성방법, 장치 및 컴퓨터로 판독 가능한 기록매체 | |
JP5547030B2 (ja) | 情報分析装置及び方法及びプログラム | |
JP5199968B2 (ja) | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム | |
JP5411802B2 (ja) | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム | |
JP2002117043A (ja) | 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体 | |
JP2000348039A (ja) | 情報提供方式及びその方式を用いた情報提供装置 | |
JP2006120069A (ja) | 話題文書提示方法及び装置及びプログラム |