JP2004157649A

JP2004157649A - 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体

Info

Publication number: JP2004157649A
Application number: JP2002321054A
Authority: JP
Inventors: Hiroyuki Takeuchi; 宏之竹内; Etsuro Fujita; 悦郎藤田; Shinji Abe; 伸治安部; Yasuhito Hayashi; 林　　泰仁
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-11-05
Filing date: 2002-11-05
Publication date: 2004-06-03

Abstract

【課題】利用者の嗜好を把握するのに必要なユーザプロファイル作成方法、システム、プログラム、記録媒体を提案する。
【解決手段】個人情報（ユーザプロファイル）を階層化されたキーワードベクトルの集合として表現する。階層化することで、ユーザの嗜好が強く表れている興味領域に関しては、下位階層に含まれるキーワードを使用してプロファイルを構成することができる。ユーザの嗜好を判定しにくい興味領域に関しては、上位階層に含まれるキーワードを利用することで、ユーザプロファイルに含むキーワードベクトル数の削減を行うことにつながり、レコメンドシステムやデジタルコンテンツ配信サービスにより行われるプロファイル間のマッチング処理における負荷を削減することが可能となる。
【選択図】図３

Description

【０００１】
【発明の属する技術分野】
本発明は、蓄積したデータベースの情報をもとに売上げや利益の増加に結びつく傾向やパターンを見つけるデータマイニング技術や、大量な情報から利用者に必要な情報を選択する情報フィルタリング技術において、利用者の嗜好を把握するのに必要なユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体に関する。
【０００２】
【従来の技術】
現在、インターネットなどの広域ネットワークにおいては、利用者の求める情報をあらかじめ予測し、これを推薦するリコメンドシステムが多数提案されている。またデジタルコンテンツを配信するようなサービスにおいて、配信するコンテンツに関連する情報、例えばバナー広告などを同時に配信する技術やサービスがある。上述のリコメンドサービスやデジタルコンテンツ配信サービスの多くは、ユーザプロファイルをユーザのサービス利用履歴から、多次元ベクトル構造により作成している。
【０００３】
【発明が解決しようとする課題】
しかし、上述のようなリコメンドシステムやデジタルコンテンツ配信サービスで利用されるユーザプロファイルは、ユーザの興味領域を広域にカバーするために、すべてのプロファイルベクトル要素を同じレベルで扱っており、そのため利用の嗜好を強く反映させたプロファイルベクトルを作成することが困難となっている。
【０００４】
本発明の目的は、上述のような問題を解決し、利用者の嗜好を把握するのに必要なユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体を提案することにある。
【０００５】
【課題を解決するための手段】
本発明では、個人情報（ユーザプロファイル）を階層化されたキーワードベクトルの集合として表現する。階層化することで、ユーザの嗜好が強く表れている興味領域に関しては、下位階層に含まれるキーワードを使用してプロファイルを構成することができる。ユーザの嗜好を判定しにくい興味領域に関しては、上位階層に含まれるキーワードを利用することで、ユーザプロファイルに含むキーワードベクトル数の削減を行うことにつながり、レコメンドシステムやデジタルコンテンツ配信サービスにより行われるプロファイル間のマッチング処理における負荷を削減することが可能となる。
【０００６】
【発明の実施の形態】
初めに、実施の形態で用いる用語を説明する。
【０００７】
トップキーワード：１つのトップキーワードは、１つの興味領域を表し、［単語：単語の重要度］の組で表現するものとする。本発明では、プロファイルを階層化したキーワード情報の集合として定義し、プロファイルは、トップキーワードを各々最大既定値ｉだけ保持することができる。初期化段階において、ユーザプロファイルはトップキーワードの重要度を持たない。利用者がその嗜好によって、テキストなどの情報を参照する度に、自動的に構築・更新される。
【０００８】
キーワードベクトル：キーワードベクトルは、詳細化された興味領域を表現し、［単語：単語の重要度：更新時刻］の組を最大Ｎ個含む集合である。キーワードベクトルは上位階層にトップキーワードを１つ以上保持する。このような、［単語：単語の重要度］を組として保存する手法は、従来から数多く提案されている。特に、後述のＴＦＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙａｎｄＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）と呼ばれる方法は、テキスト情報に対して、上記の集合（ただしＮは固定値でない）を計算する。この手法は非常に有名かつ有効である。
【０００９】
重要度：プロファイルにおける、単語の重要性を表現する。この値が高い程、プロファイル中で当該単語が特徴的であることが言える。ユーザプロファイルにおいては、当該単語に対して深い興味を持つことを意味する。
【００１０】
知識体系：各トップキーワードが保持するキーワードベクトルの構造をデータベースとして格納する。知識体系の作成例としては、トップキーワードをジャンル等のコンテンツに付加したメタデータから取得し、キーワードベクトルをＴＦＩＤＦ等の技術により、前記メタデータを保持するコンテンツから抽出することが考えられる。
【００１１】
類似度の計算：ユーザプロファイル中のキーワードベクトルとコンテンツプロファイル中のキーワードベクトルの関連性、あるいはユーザプロファイル中のキーワードベクトル同士がどのくらい関連を持っているかの度合を類似度と呼んでいる。類似度が高いほど、これらは関連が深い。各ベクトルの類似度計算には、一般的に知られているベクトル空間法を用いて行うことが考えられる。（下記数式参照）
【００１２】
【数１】

【００１３】
ＴＦＩＤＦ：テキストから、その文中に出現する全ての単語を抽出し、各単語の出現頻度を利用してテキスト全体を示す情報として用いる手法の一つである。ＴＦＩＤＦでは、次の処理によって対象としたテキストの内容を要約した特徴量である多次元多値ベクトルを生成する。
【００１４】
特徴情報を計算したいテキストＸについて、そのテキストで使用される全単語と、その単語の当該テキスト中で出現度数を調べる。ＴＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）を以下のように定める。
ＴＦ（Ｘ，ｋ）＝単語ｋがテキストＸで使用された回数
ＴＦ（Ｘ，ｋ）は、単語ｋがテキストＸで使用された回数を現し、値が大きいほど単語ｋがテキストＸを代表する言葉であると解釈できる。
【００１５】
また、テキストＸで使用された全ての単語について、これらが各々全テキスト中で何個のテキストに出現するか調べる。この情報を用いてＩＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）を以下のように定める。
ＩＤＦ（ｋ）＝ｆ（ｎ（ｋ），Ｎ）
ｎ（ｋ）＝単語（ｋ）＝単語ｋが（全テキスト中で）使用されているテキストの数
Ｎ＝全テキストの数
ｆ（ｘ，ｙ）は任意の関数
ｆ（ｘ，ｙ）＝ｌｏｇ（ｙ／ｘ）であることが多い
ＩＤＦは、単語ｋが汎用的に使用される言葉か否かを示すバロメータであり、値が大きいほど特徴をもった言葉であると解釈できる。また、関数ｆ（ｘ，ｙ）は任意の関数でよいが、下記条件を満たす必要がある。
・ｘが大きいほど、値が小さくなること。
・ｙが大きいほど、値が大きくなること。
【００１６】
次に、テキストＸで使用される全ての単語について、以下の値を計算する。
ＴＦＩＤＦ（Ｘ，ｋ）＝ＴＦ（Ｘ，ｋ）×ＩＤＦ（ｋ）
ＴＦＩＤＦは、値が大きいほど単語ｋがテキストＸの特徴を表現した言葉とみなすことができる。本実施の形態では、この多次元ベクトルをキーワードベクトルとして扱い、単語の重要度にＴＦＩＤＦ値を使用する。
【００１７】
次に、本発明の一実施形態について詳述する。
【００１８】
処理は、単語情報の集合であるユーザプロファイルを作成する処理と、このユーザプロファイルを用いて情報を選択する処理に大別される。
【００１９】
［知識体系の作成］
図１は、知識体系の作成及びコンテンツプロファイルの概念図である。あるサービスで提供するコンテンツ群１１０から、各コンテンツのトップキーワード、キーワードベクトルを集計し、ＴＦＩＤＦ等の技術により高頻出のトップキーワード、キーワードベクトルの対を算出して知識体系データベース１３０に蓄積する。この際、トップキーワード、キーワードベクトルの要素の数が、既定値ｉ、Ｎよりもそれぞれ多い場合には、単語の重要度の大きい順にｉ、Ｎ個をそれぞれ選択し、これをトップキーワード、キーワードベクトルの集合とする。トップキーワード、キーワードベクトルの対は、以下の構造により知識体系データベース１３０に格納する。
【００２０】
【数２】

【００２１】
［コンテンツプロファイルの作成］
あるサービスで提供するコンテンツ群１１０に含まれる１つのコンテンツ１２０におけるコンテンツプロファイル１４０の作成を例として述べる。
（１）コンテンツに関するテキスト情報から単語を抽出する。抽出された各単語に対して、その単語のテキスト中での出現度数を調べ、キーワードベクトルを計算する。キーワードベクトルの計算には、既存のＴＦＩＤＦ等を利用する。
（２）本実施例では、コンテンツに付加されたメタデータ（ジャンル情報）をトップキーワードとする。トップキーワードを検索キーとして、知識体系データベースを検索することで、トップキーワード、キーワードベクトルのテンプレートを作成する。各ベクトルの重要度は初期値０である。
（３）次に、各コンテンツごとにキーワードベクトルの重要度を付加する。そのため、（１）により抽出した単語において、（２）のキーワードベクトルに含まれる場合は、各単語のキーワードベクトルを重要度とする。（２）のテンプレート中におけるキーワードベクトルに含まれない場合は、無視する。
【００２２】
コンテンツプロファイルは、トップキーワード、キーワードベクトル、重要度を用いて以下の構造により作成される。下記の例は２階層を持たせた場合である。
【００２３】
【数３】

【００２４】
［ユーザプロファイルの作成］
図２はユーザプロファイルの概念図を示したものである。２１０はユーザが参照したコンテンツ、２２０はユーザプロファイルである。ユーザプロファイルは、知識体系をもとにトップキーワード、キーワードベクトル、重要度、更新時刻を用いて以下の構造により作成される。また、初期化段階においては、ユーザプロファイルの重みは０である。下記の例は２階層を持たせた場合である。
【００２５】
【数４】

【００２６】
以下に、ユーザプロファイル作成の処理フローを示す。この処理は、ユーザがコンテンツを参照する度に繰り返される。
（１）ユーザプロファイル中のトップキーワードにおいて、重要度を以下のように算出する。
Ｗ_ｔ＝参照コンテンツ中の各トップキーワード出現回数の合計／全参照回数
（２）コンテンツプロファイル中のキーワードベクトルの重要度をユーザプロファイル中の各キーワードベクトルの重要度として加える。
（３）参照時刻をもとに、更新時刻ｔを変更する。
【００２７】
上記によると、各キーワードベクトルが更新される頻度より、トップキーワードが更新される頻度のほうが高くなる。そのため重要度が大きいキーワードベクトルは興味が強く表れていると考え、トップキーワードよりも詳細化された興味として捉えることができる。
【００２８】
［情報の選択］
以下に、情報選択の処理フローを示す。この処理は、利用者から情報要求がある毎に繰り返される。例えば、リコメンドシステムでは、複数のテキスト情報の集合から、利用者へ推薦すべき情報を次のようにして選択する。
（１）ある閾値以上の重要度をもつトップキーワード、キーワードベクトルをユーザプロファイルから抽出する。ここで述べる閾値とは、（各ワードの重要度）×（時間による重要度Ｗ_ｔ）で算出されるものとする。例として、更新時刻ｔの情報を用いて、時間による重要度を以下のように与える。
【００２９】
【表１】

【００３０】
上記処理により、キーワードベクトルすべてが閾値以下の場合は、トップキーワードのみを用いることもある。これは、詳細化した興味を把握できていないということである。
（２）抽出したトップキーワード、キーワードベクトルを用いて、類似度の高いコンテンツを類似度計算により算出する。またマッチング結果が多数存在する場合は、類似度の上位数件を必要数だけ選択する。
（３）選択した情報を、利用者に提示する。この際、類似度を利用して、類似度の高い順にコンテンツを表示することもできる。また、トップキーワード、キーワードごとに整理して表示することも考えられる。
【００３１】
図３に、本発明を用いたリコメンドシステムの実現例を示す。これは、サーバ３１０においてコンテンツプロファイル、ユーザプロファイルを管理する例である。
【００３２】
サーバ３１０では、各コンテンツに関するテキスト情報３２０から知識体系作成処理３３０により、トップキーワード、キーワードベクトルの対を作成し、知識体系データベース３４０に格納する。また、各コンテンツに関するテキスト情報３２０からコンテンツプロファイル作成処理３５０によりトップキーワード、高頻出な単語をＴＦＩＤＦ等の技術により抽出する。上記で抽出したトップキーワードを検索キーとして知識体系データベース３４０を検索し、トップキーワード、キーワードベクトルのテンプレートを作成する。先のＴＦＩＤＦ等の技術により得た各単語の値をキーワードベクトルの重要度として付加する。以上の処理をすべてのコンテンツに対して行う。
【００３３】
次に、履歴管理データベース３６０から、ユーザプロファイル作成処理３７０によりユーザプロファイルを構築する。利用者がリコメンドシステムに情報を要求する際、ユーザプロファイル中の各重要度から、ある閾値以上のものを抽出する。抽出されたトップキーワードを用いて、類似度計算部３８０において、コンテンツプロファイル、ユーザプロファイル間のマッチングを行う。ユーザプロファイル中のキーワードベクトルとコンテンツプロファイル中のキーワードベクトルの類似度を計算し、頻ベクトルの重要度が大きい順などでソートした結果を出力する。
【００３４】
以上の結果を利用者端末３９０へ送付する。また、サーバ側では、該送付された情報を利用してユーザプロファイルを更新する。これにより、ユーザの好みの変化に応じて、ユーザプロファイルは常に最新のものが構築される。
【００３５】
以上、本発明の一実施の形態を説明した、［知識体系の作成］［コンテンツプロファイルの作成］［ユーザプロファイルの作成］をコンピュータに実行させるためのプログラムは、該コンピュータが読み取り可能な記録媒体、例えばフロッピーディスクやメモリカード、コンパクトディスク（ＣＤ−ＲＯＭ）などに記録して提供することが可能である。
【００３６】
以上、本発明者によってなされた発明を、前記実施の形態に基づき具体的に説明したが、本発明は、前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【００３７】
【発明の効果】
以上説明したように、本発明では、ユーザプロファイルを「単語とその重要度」によるキーワードベクトルとそれを階層化した構造によって構築することによって利用の嗜好を強く反映させたプロファイルベクトルを作成することが可能になる。
【図面の簡単な説明】
【図１】知識体系の作成及びコンテンツプロファイルの概念図である。
【図２】ユーザプロファイルの概念図である。
【図３】実施形態のリコメンドシステム構成図である。
【符号の説明】
１１０…コンテンツ群、１２０…コンテンツ、１３０…知識体系データベース、１４０…コンテンツプロファイル、２１０…ユーザが参照したコンテンツ、２２０…ユーザプロファイル、３１０…サーバ、３２０…コンテンツに関するテキスト情報、３３０…知識体系作成処理、３４０…知識体系データベース、３５０…コンテンツプロファイル作成処理、３６０…履歴管理データベース、３７０…ユーザプロファイル作成処理、３８０…類似度計算部、３９０…利用者端末。

Claims

利用者嗜好の強弱を把握するのに必要なユーザプロファイル作成方法において、
コンテンツプロファイルを階層化された概念情報の集合として定義し、コンテンツプロファイルは、概念の上位階層を表す単語（トップキーワード）とその下位階層としてキーワードベクトルを保持し、キーワードベクトルはテキスト情報の内容より構築され、
また、ユーザプロファイルは、時間変化を持つ階層化された概念情報の集合として定義し、概念の上位階層を表す単語（トップキーワード）とその下位階層としてキーワードベクトルを保持し、トップキーワード、キーワードベクトルは各々一つの興味を表現し、［単語、単語の重要度］の組を複数含む集合で構成され、
利用者が参照した情報が保持するコンテンツプロファイルからユーザプロファイル中のキーワードベクトルを計算する手段と、
参照時間ｔをプロファイル中に保持することで興味の減衰を算出可能とする手段を基本として備えることを特徴とする階層化されたユーザプロファイル作成方法。
請求項１に記載の階層化されたユーザプロファイル作成方法において、
コンテンツが保持するメタデータ、テキスト情報から、ＴＦＩＤＦ等の処理により、高頻出単語を抽出する手段と、
各キーワードに対する重要度を上記ＴＦＩＤＦ等の処理により算出する手段と、
各メタデータをトップキーワードとした階層関係を構築する手段と、
上記情報を格納する知識体系を保持することを特徴とする階層化されたユーザプロファイル作成方法。
ネットワークに接続されたコンテンツ提供サービス等における利用者履歴をクライアント端末から取得してサーバ側装置により、請求項１または２に記載の階層化されたユーザプロファイル作成方法を用いて、階層化されたユーザプロファイルを作成することを可能とした階層化されたユーザプロファイル作成システム。
請求項３に記載の階層化されたユーザプロファイル作成システムにおいて、
ある閾値以上のトップキーワード及びキーワードベクトルを抽出する手段と、抽出されたトップキーワード及びキーワードベクトルを用いて、コンテンツプロファイルとの類似度を算出する手段と、
算出結果として類似するコンテンツを提示する手段を備えることを特徴とするユーザプロファイル作成システム。
コンテンツプロファイルは、階層化された概念情報の集合として定義され、概念の上位階層を表す単語（トップキーワード）とその下位階層としてキーワードベクトルを保持し、キーワードベクトルはテキスト情報の内容より構築され、
また、ユーザプロファイルは、時間変化を持つ階層化された概念情報の集合として定義され、概念の上位階層を表す単語（トップキーワード）とその下位階層としてキーワードベクトルを保持し、トップキーワード、キーワードベクトルは各々一つの興味を表現し、［単語、単語の重要度］の組を複数含む集合で構成される利用者嗜好の強弱を把握するのに必要なユーザプロファイル作成プログラムであって、
コンピュータを、
利用者が参照した情報が保持するコンテンツプロファイルからユーザプロファイル中のキーワードベクトルを計算する手段、および、
参照時間ｔをプロファイル中に保持することで興味の減衰を算出可能とする手段、
として機能させるための階層化されたユーザプロファイル作成プログラム。
請求項５に記載の階層化されたユーザプロファイル作成プログラムであって、
コンピュータを、
コンテンツが保持するメタデータ、テキスト情報から高頻出単語を抽出する手段、
各キーワードに対する重要度を算出する手段、
各メタデータをトップキーワードとした階層関係を構築する手段、および、
上記情報を格納する知識体系を保持する手段、
として機能させるための階層化されたユーザプロファイル作成プログラム。
請求項５または６に記載の階層化されたユーザプロファイル作成プログラムを記録したコンピュータ読み取り可能な記録媒体。