JP3788254B2 - 情報フィルタリングシステムとそのフィルタリング方法、及び情報フィルタリングプログラム - Google Patents

情報フィルタリングシステムとそのフィルタリング方法、及び情報フィルタリングプログラム Download PDF

Info

Publication number
JP3788254B2
JP3788254B2 JP2001070174A JP2001070174A JP3788254B2 JP 3788254 B2 JP3788254 B2 JP 3788254B2 JP 2001070174 A JP2001070174 A JP 2001070174A JP 2001070174 A JP2001070174 A JP 2001070174A JP 3788254 B2 JP3788254 B2 JP 3788254B2
Authority
JP
Japan
Prior art keywords
data
evaluation
content
user
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001070174A
Other languages
English (en)
Other versions
JP2002269143A (ja
Inventor
勇介 有吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001070174A priority Critical patent/JP3788254B2/ja
Publication of JP2002269143A publication Critical patent/JP2002269143A/ja
Application granted granted Critical
Publication of JP3788254B2 publication Critical patent/JP3788254B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、利用者の興味や嗜好に合ったコンテンツや商品等を選別・推薦する情報フィルタリングに関し、特に、コンテンツの属性と他の利用者のコンテンツに対する評価値との双方に基づいてフィルタリングを行なう情報フィルタリングシステムとそのフィルタリング方法、及び情報フィルタリングプログラムに関する。
【0002】
【従来の技術】
従来、利用者の興味や嗜好に合ったコンテンツや商品等を選別・推薦するシステムである情報フィルタリングシステムにおいては、データベースやWWW(World Wide Web)等の情報システムが提供する大量の情報や文書、多数のサービスや商品等(以下、これらをコンテンツと呼ぶこととする)を検索の対象としている。
【0003】
従来の情報フィルタリングシステムは、利用者が未評価のコンテンツについて、その利用者が与えるであろう評価値を予測することで、利用者が必要とするコンテンツを選別する。利用者がコンテンツに与える評価を予測する方式には、一般にCBF(Constant Based Filtering)方式とSIF(Social Information Filtering)方式の2つが存在する。
【0004】
CBF方式は、コンテンツの中に含まれているキーワードや単語頻度等のデータ(以下、本明細書では、このデータのことを属性と記載する)によって、各コンテンツの内容を表現し、各利用者の興味・嗜好をキーワードの重み等で表現したものとマッチングすることにより、コンテンツをフィルタリングする方式である。
【0005】
SIF方式は、予め、各利用者による個々のコンテンツに対する興味や嗜好の度合いを示す評価の値(以下、本明細書では、このデータのことを評価と記載する)を記憶しておき、自分(情報フィルタリングの要求者)が過去に与えた評価と、要求者以外の利用者の評価を比較して、要求者と嗜好が似た利用者を検索して見つけ出し、その嗜好が似た利用者によって高い評価を与えられたコンテンツを選び出して要求者に推薦することにより、コンテンツをフィルタリングする方式である。
【0006】
また従来、こうした情報フィルタリングの精度を上げるための工夫が2種類ある。
【0007】
第1に、CBF方式とSIF方式との、フィルタリングの方法を組合せて実行するという方法がある。つまり、各コンテンツを、CBF方式とSIF方式との両方式により検索し抽出するのである。
【0008】
第2に、フィルタリングのために参照するデータを、類似したものをまとめ、フィルタリングに役立たないものを削除するというものである(以下、この処理を圧縮変換と呼ぶ)。例えば、CBFで圧縮変換を用いると、各利用者やコンテンツの属性等のフィルタリングに用いるデータから、役に立たないデータを識別して削除し、重要なデータのみを用いてフィルタリングを行なうことにより、情報フィルタリングの精度を上げることができる。また、圧縮変換の類似したものをまとめる性質により、“計算機”と “コンピュータ”といった類似した意味の単語を1つにまとめることができ、これによりフィルタリングの漏れが少なくなり、情報フィルタリングの精度を上げることができる。
【0009】
この圧縮変換の処理を取り入れた情報フィルタリングシステムの一例が、「1999年8月、アイ・ジェイ・シー・エイ・アイ99・ワークショップ・マシンラーニング・フォー・インフォメーション・フィルタリング、86〜91頁(IJCAI99 Workshop Machine Learning for Information Filtering, pp.86-91, August, 1999)」に記載されている。
【0010】
ここで、この文献に記載された情報フィルタリングシステムについて、図面を参照して詳細に説明する。図7は、この従来の情報フィルタリングシステム100bの構成を示すブロック図である。
【0011】
図7を参照すると、この従来の情報フィルタリングシステム100bは、入出力部10とデータ処理部40と記憶部50を備えている。
【0012】
入出力部10は、要求入力部11、コンテンツ提示部12、評価入力部13を備えている。
【0013】
データ処理部40は、属性抽出部21、プロファイル学習部41、プロファイル変換部42、属性変換部43、評価予測部44、コンテンツ選択部25を備えている。
【0014】
属性抽出部21は、記憶部50に記憶されたコンテンツデータ31から、特徴となる属性を抽出し、これを属性データ32として記憶部50に格納する。
【0015】
プロファイル学習部41は、評価値33のデータから、利用者がコンテンツに与えた評価と、属性データ32中のコンテンツの属性の内で要求者が評価済みのコンテンツの属性とを基にして、要求者の評価と属性の間の関係を表すプロファイルを学習し、その結果をプロファイルデータ51として記憶部50に格納する。
【0016】
プロファイル変換部42は、利用者のプロファイルデータ51を圧縮変換し、その結果を変換プロファイルデータ54として記憶部50に格納する。更に、プロファイル変換部42は、どの属性をまとめてどの属性を削除するかという、プロファイルを圧縮変換する方法を指定する情報を、変換方法データ52として記憶部50に格納する。
【0017】
属性変換部43は、属性データ32として示される各コンテンツの属性を、変換方法データ52により指定された変換方法を用いて、圧縮変換を実行し、圧縮された属性データを変換属性データ53として記憶部50に格納する。
【0018】
評価予測部44は、入出力部10の要求入力部11から、要求者の情報フィルタリング要求を受け付けた場合に、要求者の圧縮変換されたプロファイルデータである変換プロファイルデータ54と、各コンテンツの圧縮された属性データである変換属性データ53とを比較して、各コンテンツの要求者に対する評価値を予測しその値を算出する。
【0019】
コンテンツ選択部25は、評価予測部44から各コンテンツの要求者に対する予測評価値を受け取り、コンテンツデータ31として記録されている登録コンテンツの中から、予測評価値の高いコンテンツを選別し、これを入出力部10のコンテンツ提示部12を通じて要求者に提供する。
【0020】
記憶部50は、コンテンツデータ31、属性データ32、評価値33、プロファイルデータ51、変換方法データ52、変換属性データ53、変換プロファイルデータ54を備えている。
【0021】
コンテンツデータ31は、推薦対象となる登録コンテンツ60のデータである。
【0022】
評価値33は、利用者がコンテンツに与えた評価の値であり、要求者及び要求者以外の利用者による評価も含まれる。また、評価入力部13から新しい評価が入力されることにより、評価値33の値は追加・更新される。
【0023】
属性データ32は、属性抽出部21が算出したコンテンツの属性のデータである。
【0024】
プロファイルデータ51は、プロファイル学習部41で生成された利用者のプロファイルのデータである。
【0025】
変換方法データ52は、プロファイルの圧縮変換方法を指定するデータであり、プロファイル変換部42により生成される。
【0026】
変換属性データ53は、コンテンツの圧縮変換された属性データであり、属性変換部43により圧縮変換されたデータである。
【0027】
変換プロファイルデータ54は、圧縮変換されたプロファイルデータであり、プロファイル変換部42により圧縮変換されたデータである。
【0028】
次に、図8、図9のフローチャートを参照して、図7に示されるこの従来技術の動作について説明する。
【0029】
動作は事前に実行する準備動作と、利用者のフィルタリング要求を受けて実行するフィルタリング動作に大きく分かれる。
【0030】
まず、準備動作について説明する。図8は、従来の情報フィルタリングシステムの準備動作を説明するためのフローチャートである。
【0031】
図8を参照すると、準備動作では、まずコンテンツデータ31中のコンテンツから、属性抽出部21が特徴となる属性を抽出し、属性データ32として記憶部50に格納する(ステップ801)。
【0032】
ここでいう“属性”には、コンテンツの内容を特徴づけるキーワードや単語頻度等を用いることができる。例えば、『あるコンテンツの中には、「野球」と「サッカー」いうキーワードが含まれる。』というように、コンテンツの特徴を示す属性を抽出する。
【0033】
次に、プロファイル学習部41が、要求者が評価済みのコンテンツの属性データ32と、利用者が各コンテンツに与えた評価値33とを基にして、要求者の評価と属性との間の関係を表すプロファイルを学習し、その結果をプロファイルデータ51として記憶部50に格納する(ステップ802)。
【0034】
このプロファイルの学習結果は、例えば、要求者は、過去に「野球」というキーワードを含むコンテンツを高く評価したが、逆に「サッカー」というキーワードを含むコンテンツは、低く評価したというように、要求者の評価と属性との間の関係を示すデータであり、言い換えれば、利用者の興味をコンテンツに含まれる単語(キーワード)の重みで表現したデータである。
【0035】
次に、プロファイル変換部42が、利用者のプロファイルデータ51に関してその属性を圧縮変換し、変換プロファイルデータ54として記憶部50に格納する(ステップ803)。更に、プロファイル変換部42は、どの属性をまとめてどの属性を削除するかという、プロファイルの圧縮変換方法を指定する情報を、変換方法データ52として記憶部50に格納する。
【0036】
この圧縮変換の処理の内容は、例えば、ある利用者のプロファイルにおいて、「野球」「ベースボール」「ピッチャー」といった野球に関するキーワードとその重みが格納されているとき、これらを1つにまとめて、その利用者の[野球]という話題に関する関心の程度を表現するようにするものである。また例えば、「ひと」「もの」等のように、一般的で話題を特定するのに役立たないキーワードを削除する。この従来技術においては、プロファイル変換部42において、“特異値分解”という数学手法を用いてこれらの圧縮変換処理を実行している。
【0037】
次に、属性変換部43が、各コンテンツの属性データ32を、変換方法データ52において指定された変換方法に従い圧縮変換し、その結果を変換属性データ53として記憶部50に格納する(ステップ804)。
【0038】
この準備動作に続いて、実際のフィルタリング動作の処理を説明する。図9は、従来の情報フィルタリングシステムのフィルタリング動作を説明するためのフローチャートである。
【0039】
まず、要求入力部11から要求者の情報フィルタリング要求を受け付けると(ステップ901)、評価予測部44が、要求者の圧縮変換されたプロファイルである変換プロファイルデータ54と、各コンテンツの圧縮された属性である変換属性データ53とを比較して、各コンテンツの要求者に対する評価値を予測し、その予測評価値を出力する(ステップ902)。
【0040】
次に、コンテンツ選択部25が、評価予測部44から各コンテンツの要求者に対する予測評価値を受け取り、コンテンツデータ31の内で予測評価値の高いコンテンツを選別する(ステップ903)。
【0041】
最後に、このコンテンツ選択部25により選別された、予測評価値の高いコンテンツを、コンテンツ提示部12を通じて要求者に提供する(ステップ904)。
【0042】
例えば、要求者が[野球]の話題を扱ったコンテンツに関心があり、逆に[サッカー]の話題を扱ったコンテンツには関心がない場合には、評価予測部44は、その旨の情報を示す圧縮変換されたプロファイルを受け取る。そして、評価予測部44は、このプロファイルと各コンテンツの変換属性データとマッチングをとり、これを予測評価値として出力する。このとき、[野球]という話題を扱ったコンテンツの予測評価値は高くなり、逆に[サッカー]という話題を扱ったコンテンツの予測評価値は低くなる。この従来技術では、圧縮変換した要求者のプロファイルと、圧縮変換したコンテンツの属性との相関係数を用いて、予測評価値を算出している。
【0043】
そして、コンテンツ選択部25は、この評価予測部の予測結果を受け取ると、コンテンツデータ31の中から、予測評価値が高く、かつ、過去に要求者が評価していないコンテンツを選択するので、[野球]という話題を扱ったコンテンツは選択され、コンテンツ提示部12に出力される。逆に[サッカー]という話題を扱ったコンテンツは選択されない。
【0044】
次に、要求者は、コンテンツ提示部12に提示されたコンテンツが、自分の関心や嗜好に合うか評価し、評価を評価入力部13から入力する。この評価入力部13から入力された評価は、評価値33として記憶部50内に格納する。
【0045】
【発明が解決しようとする課題】
次に、上述した従来の技術、即ちCBF方式単独、SIF方式単独、及び両方式を組合せた方式のそれぞれの問題点を説明する。
【0046】
CBF方式単独の場合では、コンテンツの属性と評価との関係を学習して、コンテンツをフィルタリングする。つまり、利用者から高い評価を与えられたコンテンツと、属性が類似したコンテンツは、予測評価値が高くなり、利用者に推薦されることになる。
【0047】
しかし、属性の類似性と評価の類似性は、完全には一致しない。つまり、属性が持っている情報の中には、評価と関連する部分と評価には関連しない部分の双方があり、このCBF方式では、評価と関連しない部分のデータも評価予測のために使われてしまう。このため、従来のCBF方式では、属性が持つ情報の内で評価と関連しない部分の影響により、フィルタリング精度が低くなるという問題点があった。
【0048】
また、SIF方式とCBF方式を組合せた方式の場合でも、このCBF方式の問題点が存在する。つまり、組合せた方式においても、CBF方式による情報フィルタリングを行なうため、属性に含まれる評価と関連しない部分の情報による評価予測への影響が発生するからである。
【0049】
SIF方式単独の場合では、他の利用者により評価された、まだ要求者が評価していないコンテンツの情報をフィルタリングする。このため、従来のSIF方式では、予めある程度の量の評価が集まらなければ、適切なフィルタリングを行なうことができないという問題点がある。
【0050】
これは、SIF方式が各利用者の評価を用いてフィルタリングする方式だからである。このように、SIF方式では、評価者の数が少ない場合にはフィルタリングの精度が悪いものとなり、特に、まだ誰も評価していない新しい情報を推薦することができないという、大きな問題点がある。SIF方式のこの問題点は、CBF方式と組み合わせることにより軽減できるが、その場合は、SIF方式とCBF方式を組合せた方式の問題点が問題となる。
【0051】
本発明の第1の目的は、上記従来技術の欠点を解決し、コンテンツの属性と他の利用者のコンテンツに対する評価値との双方に基づいて、効率よく高精度の情報フィルタリングを実現する情報フィルタリングシステムとそのフィルタリング方法、及び情報フィルタリングプログラムを提供することにある。
【0052】
【課題を解決するための手段】
上記目的を達成するため本発明の情報フィルタリングシステムは、個々のコンテンツに対する利用者の評価を予測し、前記コンテンツの中から前記利用者に適合するコンテンツを検出する情報フィルタリングシステムにおいて、各前記利用者によりこれまでに示されている各前記利用者の各前記コンテンツに対する評価を行列で示す評価値データと、前記評価に関連する行列データである関連データとを予め記録して備える記憶部と、前記記憶部に記憶された該評価値データに特異値分解を適用し、該特異値分解で得られた行列を所定の次元に圧縮したデータを算出し、該算出したデータに基づいて、評価値データを該評価値データのうち評価予測に有効でない情報を取り除いたデータに変換するための式である圧縮変換方法データを算出する圧縮変換方法データ算出手段と、前記関連データに前記圧縮変換方法データを適用することにより、各前記関連データから評価に影響を与えない部分を取り除いたデータである圧縮データを算出する圧縮変換手段と、前記圧縮データと前記記憶部に記憶された前記評価値データとの双方の情報を基に、各前記利用者の評価傾向の特徴を示す利用者評価特徴データと、前記コンテンツの特徴を示すコンテンツ評価特徴データとを算出する評価特徴算出手段と、前記利用者評価特徴データと前記コンテンツ評価特徴データを基にして、各コンテンツに対して各利用者が与える評価を予測値として算出する評価予測手段を備えることを特徴とする。
【0053】
請求項2の本発明の情報フィルタリングシステムは、前記関連データに、各前記コンテンツの内容を表現する属性データを含むことを特徴とする。
【0054】
請求項3の本発明の情報フィルタリングシステムは、前記関連データに、各前記利用者に関する情報を示す利用者データを含むことを特徴とする。
【0055】
請求項4の本発明の情報フィルタリングシステムは、前記圧縮変換手段は、前記関連データに前記圧縮変換方法データを適用することにより、前記関連データからの前記圧縮データを算出する圧縮変換の方法を指定するデータである、第2圧縮変換方法データを算出する第2圧縮変換方法データ算出手段と、前記関連データに前記第2圧縮変換方法データを適用することにより、前記圧縮データを算出する圧縮算出手段を備えることを特徴とする。
【0056】
請求項5の本発明の情報フィルタリングシステムは、前記圧縮変換手段は、前記関連データ及び前記評価値データを、特異値分解により圧縮変換し、前記圧縮データを算出することを特徴とする。
【0057】
請求項6の本発明の情報フィルタリングシステムは、前記評価特徴算出手段は、前記圧縮データと前記評価値データとの双方の情報を用いて示されるデータを、圧縮変換することにより、前記利用者評価特徴データと、前記コンテンツ評価特徴データとを算出することを特徴とする。
【0058】
請求項7の本発明の情報フィルタリングシステムは、前記評価特徴算出手段は、前記圧縮データと前記評価値データとの双方の情報を用いて示されるデータを、特異値分解により圧縮変換し、前記利用者評価特徴データと、前記コンテンツ評価特徴データとを算出することを特徴とする。
【0059】
請求項8の本発明の情報フィルタリングシステムは、各前記利用者によりこれまでに示されている、各前記利用者のそれぞれの各前記コンテンツに対する評価を行列で示す評価値データを、入力し記録する評価入力手段と、各前記コンテンツの内容を表現するデータである属性データを抽出する属性抽出手段を備えることを特徴とする。
【0060】
請求項9の本発明の情報フィルタリングシステムは、インターネット上に公開される前記コンテンツを、フィルタリングすることを特徴とする。
【0061】
請求項10の本発明の情報フィルタリング方法は、コンピュータ処理装置を利用して個々のコンテンツに対する利用者の評価を予測し、前記コンテンツの中から前記利用者に適合するコンテンツを検出する情報フィルタリングシステムにおける情報フィルタリング方法であって、前記コンピュータ処理装置が備えるデータ処理手段が、各前記利用者によりこれまでに示されている各前記利用者の各前記コンテンツに対する評価を行列で示す評価値データと、前記評価に関連する行列データである関連データとを予め記録する記憶部からデータを参照するステップと、前記記憶部に記憶された該評価値データに特異値分解を適用し、該特異値分解で得られた行列を所定の次元に圧縮したデータを算出し、該算出したデータに基づいて、評価値データを該評価値データのうち評価予測に有効でない情報を取り除いたデータに変換するための式である圧縮変換方法データを算出する圧縮変換方法データ算出ステップと、前記関連データに前記圧縮変換方法データを適用することにより、各前記関連データから評価に影響を与えない部分を取り除いたデータである圧縮データを算出する圧縮変換ステップと、前記圧縮データと前記記憶部に記憶された前記評価値データとの双方の情報を基に、各前記利用者の評価傾向の特徴を示す利用者評価特徴データと、前記コンテンツの特徴を示すコンテンツ評価特徴データとを算出する評価特徴算出ステップと、前記利用者評価特徴データと前記コンテンツ評価特徴データを基にして、各コンテンツに対して各利用者が与える評価を予測値として算出する評価予測ステップを備えることを特徴とする。
【0062】
請求項11の本発明の情報フィルタリング方法は、前記関連データに、各前記コンテンツの内容を表現する属性データを含むことを特徴とする。
【0063】
請求項12の本発明の情報フィルタリング方法は、前記関連データに、各前記利用者に関する情報を示す利用者データを含むことを特徴とする。
【0064】
請求項13の本発明の情報フィルタリング方法は、前記圧縮変換ステップは、前記圧縮変換ステップは、前記関連データに前記圧縮変換方法データを適用することにより、前記関連データからの前記圧縮データを算出する圧縮変換の方法を指定するデータである、第2圧縮変換方法データを算出する第2圧縮変換方法データ算出ステップと、前記関連データに前記第2圧縮変換方法データを適用することにより、前記圧縮データを算出する圧縮算出ステップを備えることを特徴とする。
【0065】
請求項14の本発明の情報フィルタリング方法は、前記圧縮変換ステップは、前記関連データ及び前記評価値データを、特異値分解により圧縮変換し、前記圧縮データを算出することを特徴とする。
【0066】
請求項15の本発明の情報フィルタリング方法は、前記評価特徴算出ステップは、前記圧縮データと前記評価値データとの双方の情報を用いて示されるデータを、圧縮変換することにより、前記利用者評価特徴データと、前記コンテンツ評価特徴データとを算出することを特徴とする。
【0067】
請求項16の本発明の情報フィルタリング方法は、前記評価特徴算出ステップは、前記圧縮データと前記評価値データとの双方の情報を用いて示されるデータを、特異値分解により圧縮変換し、前記利用者評価特徴データと、前記コンテンツ評価特徴データとを算出することを特徴とする。
【0068】
請求項17の本発明の情報フィルタリング方法は、前記コンピュータ処理装置が備える入力手段が、各前記利用者によりこれまでに示されている、各前記利用者のそれぞれの各前記コンテンツに対する評価を行列で示す評価値データ入力し前記記憶部に記録する評価入力ステップを備え前記データ処理手段が、各前記コンテンツの内容を表現するデータである属性データを抽出する属性抽出ステップを備えることを特徴とする。
【0069】
請求項18の本発明の情報フィルタリング方法は、前記データ処理手段が、インターネット上に公開される前記コンテンツを、前記コンテンツ間の参照情報を含む前記関連データに基づいてフィルタリングすることを特徴とする。
【0070】
請求項19の本発明の情報フィルタリングプログラムは、コンピュータを制御することにより、個々のコンテンツに対する利用者の評価を予測し、前記コンテンツの中から前記利用者に適合するコンテンツを検出する情報フィルタリングプログラムにおいて、前記コンピュータが備えるデータ処理手段に、各前記利用者によりこれまでに示されている各前記利用者の各前記コンテンツに対する評価を行列で示す評価値データと、前記評価に関連する行列データである関連データの、予め記録されたデータを参照する処理と、参照した該評価値データに特異値分解を適用し、該特異値分解で得られた行列を所定の次元に圧縮したデータを算出し、該算出したデータに基づいて、評価値データを該評価値データのうち評価予測に有効でない情報を取り除いたデータに変換するための式である圧縮変換方法データを算出する圧縮変換方法データ算出処理と、前記関連データに前記圧縮変換方法データを適用することにより、各前記関連データから評価に影響を与えない部分を取り除いたデータである圧縮データを算出する圧縮変換処理と、前記圧縮データと前記評価値データとの双方の情報を基に、各前記利用者の評価傾向の評価の特徴を示す利用者評価特徴データと、前記コンテンツの特徴を示すコンテンツ評価特徴データとを算出する評価特徴算出処理と、前記利用者評価特徴データと前記コンテンツ評価特徴データを基にして、各コンテンツに対して各利用者が与える評価を予測値として算出する評価予測処理を実行させることを特徴とする。
【0074】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して詳細に説明する。
【0075】
本発明では、個々のコンテンツに対する利用者の評価を予測し、その各コンテンツの中から利用者に適合するコンテンツを検出する情報フィルタリングにおいて、各利用者によりこれまでに示されている各利用者の各コンテンツに対する評価を示す評価値のデータと、評価に関連する情報である関連データとに基づいて、各関連データから評価に影響を与えない部分を取り除いたデータである圧縮データを算出し、この圧縮データと評価値との双方の情報を基に、各コンテンツに対して各利用者が与える評価を予測し算出することを特徴とする。
【0076】
ここで、評価に関連する情報である関連データとしては、例えば、各コンテンツの内容を表現するデータである属性データや、各利用者に関する情報(コンテンツの好み等)である利用者データを用いることができる。また、圧縮データの算出方法としては、以下の実施例において示される様に、特異値分解等の方法を用いることができる。このように、属性データや利用者データ等を圧縮して、評価に影響を与えない部分を取り除いた圧縮属性データや圧縮利用者を生成し、これを用いて評価を行うことにより、評価予測に有効でない部分のデータによる悪影響を解消することができる。また、利用者による評価値と、その他の関連データである属性データ等の双方に基づいて評価予測を算出するため、まだ各利用者からの評価が少ないコンテンツであっても、各コンテンツの特徴を参照して適切に判定することができる。
【0077】
図1は、本発明の第1の実施の形態による情報フィルタリングシステムの構成を示すブロック図である。本実施の形態においては、前述の関連データとして、各コンテンツの内容を表現するデータである属性データを用いる。また、図1においては、図7に示される上述した従来の技術と同様な構成については、同一の符号を付している。こうした従来の技術と同様な構成においては、特に必要がない限りその説明を省略する。
【0078】
図1を参照すると、本実施の形態の情報フィルタリングシステムは、入出力部10、データ処理部20、記憶部30を備えている。
【0079】
入出力部10は、要求入力部11、コンテンツ提示部12、評価入力部13を備えている。
【0080】
データ処理部20は、属性抽出部21、属性圧縮変換部22、評価特徴算出部23、評価予測部24、コンテンツ選択部25を備えている。
【0081】
属性抽出部21は、登録コンテンツのコンテンツデータ31から、特徴となる属性を抽出し、属性データ32として記憶部30に格納する。
【0082】
属性圧縮変換部22は、コンテンツの属性データ32と評価値33とを基にして、属性データから評価予測に有効でない部分を削除するために属性データを圧縮変換し、圧縮属性データ34として記憶部30に格納する。
【0083】
評価特徴算出部23は、圧縮属性データ34と評価値33とを基にして、評価予測に有効な利用者特徴を算出し、利用者評価特徴データ35として記憶部30に格納する。加えて、評価特徴算出部23は、評価予測に有効なコンテンツ特徴を算出し、コンテンツ評価特徴データ36として記憶部30に格納する。
【0084】
評価予測部24は、入出力部10の要求入力部11から、要求者のフィルタリング要求を受け付けた場合に、利用者評価特徴データ35とコンテンツ評価特徴データ36とを基にして、各コンテンツに要求者が与える評価値を予測しその値を算出する。
【0085】
コンテンツ選択部25は、評価予測部44から予測評価値を受け取り、コンテンツデータ31として記録されている登録コンテンツの中から、予測評価値の高いコンテンツを選別し、入出力部10のコンテンツ提示部12を通じて要求者に提供する。
【0086】
記憶部30は、コンテンツデータ31、属性データ32、評価値33、圧縮属性データ34、利用者評価特徴データ35、コンテンツ評価特徴データ36を記憶している。
【0087】
コンテンツデータ31は、推薦対象となる登録コンテンツ60のデータである。
【0088】
属性データ32は、属性抽出部21が算出したコンテンツの属性のデータである。
【0089】
評価値33は、利用者がコンテンツに与えた評価の値であり、要求者及び要求者以外の利用者による評価が含まれる。また、入出力部10の評価入力部13から新たな評価が入力されることにより、評価値33は追加・更新される。
【0090】
圧縮属性データ34は、属性圧縮変換部22により算出された、圧縮変換により評価に有効でない部分が削除された属性データである。
【0091】
利用者評価特徴データ35は、評価特徴算出部23により算出された、利用者の評価の特徴を示すデータである。
【0092】
コンテンツ評価特徴データ36は、評価特徴算出部23により算出された、コンテンツの評価の特徴を示すデータである。
【0093】
次に、図2、図3のフローチャートを参照して、本実施の形態の情報フィルタリングシステムの動作について説明する。
【0094】
動作は事前に実行する準備動作と、利用者のフィルタリング要求を受けて実行するフィルタリング動作に大きく分かれる。
【0095】
まず、準備動作について説明する。図2は、本実施の形態による情報フィルタリングシステムの準備動作を説明するためのフローチャートである。
【0096】
準備動作では、まず登録コンテンツのコンテンツデータ31から、属性抽出部21が特徴となる属性を抽出し、属性データ32として記憶部30に格納する(ステップ201)。
【0097】
次に、属性圧縮変換部22が、コンテンツの属性データ32と評価値33とを基にして、属性データから評価予測に有効でない部分を削除するために属性データを圧縮変換し、圧縮属性データ34として記憶部30に格納する(ステップ202)。
【0098】
次に、評価特徴算出部23が、圧縮属性データ34と評価値33とを基にして、評価予測に有効な利用者特徴を算出し、利用者評価特徴データ35として記憶部30に格納する(ステップ203)。加えて、評価特徴算出部23は、評価予測に有効なコンテンツ特徴を算出し、コンテンツ評価特徴データ36として記憶部30に格納する。
【0099】
この準備動作に続いて、実際のフィルタリング動作について説明する。図3は、本実施の形態による情報フィルタリングシステムのフィルタリング動作を説明するためのフローチャートである。
【0100】
まず、入出力部10の要求入力部11から、要求者の情報フィルタリング要求を受け付けると(ステップ301)、評価予測部24が、利用者評価特徴データ35とコンテンツ評価特徴データ36とを基にして、各コンテンツに要求者が与える評価値を予測し、その予測評価値を算出する(ステップ302)。
【0101】
次に、コンテンツ選択部25が、評価予測部44から予測評価値を受け取り、コンテンツデータ31から予測評価値の高いコンテンツを選別する(ステップ303)。
【0102】
最後に、コンテンツ選択部25により選別されたコンテンツを、入出力部10のコンテンツ提示部12を通じて要求者に提供する(ステップ304)。
【0103】
そして、要求者は、コンテンツ提示部12に提示されたコンテンツが、自分の関心や嗜好に合うか評価し、評価を評価入力部13から入力する。この評価入力部13から入力された評価は、評価値33として記憶部30内に格納する。
【0104】
次に、本実施の形態の情報フィルタリングシステムにおいて、主要な処理を実行する構成要素である属性圧縮変換部22を、図面を参照してより詳細に説明する。図4は、本実施の形態の属性圧縮変換部22の構成の一例を示すブロック図である。
【0105】
図4の例を参照すると、属性圧縮変換部22は、評価圧縮変換部26、第2属性圧縮変換部27、圧縮属性算出部28を備え、又、内部に評価変換方法データ37、属性変換方法データ38を記憶する。
【0106】
評価圧縮変換部26は、評価値33を基にして、評価データから評価予測に有効でない部分を削除するための算出方法を指定するデータを算出し、評価変換方法データ37として記憶する。
【0107】
第2属性圧縮変換部27は、コンテンツの属性データ32と評価変換方法データ37とを基にして、属性データから評価予測に有効でない部分を削除するための算出方法を指定するデータを算出し、属性変換方法データ38として記憶する。
【0108】
圧縮属性算出部28は、コンテンツの属性データ32に、属性変換方法データ38が示す変換方法を適用して、属性データから評価予測に有効でない部分を削除し、圧縮属性データ34として記憶部30に格納する。
【0109】
評価変換方法データ37は、評価圧縮変換部26により算出された、評価データから評価予測に有効でない部分を削除する方法を指定するデータである。
【0110】
属性変換方法データ38は、第2属性圧縮変換部27により算出された、属性データから評価予測に有効でない部分を削除する方法を指定するデータである。
【0111】
次に、属性圧縮変換部22の動作について説明する。図5は、本実施の形態の属性圧縮変換部22の動作の一例を説明するためのフローチャートである。
【0112】
まず、評価圧縮変換部26が、評価値33を基にして、評価データから評価予測に有効でない部分を削除するための算出方法を指定するデータを算出し、評価変換方法データ37として記憶する(ステップ501)。
【0113】
次に、第2属性圧縮変換部27が、コンテンツの属性データ32と評価変換方法データ37とを基にして、属性データから評価予測に有効でない部分を削除するための算出方法を指定するデータを算出し、属性変換方法データ38として記憶する(ステップ502)。
【0114】
次に、圧縮属性算出部28が、コンテンツの属性データ32に、属性変換方法データ38が示す変換方法を適用して、属性データから評価予測に有効でない部分を削除し、圧縮属性データ34として記憶部30に格納する(ステップ503)。
【0115】
次に、この属性圧縮変換部22における処理を、より具体的に詳細に説明する。
【0116】
本発明における圧縮変換の処理方法の一例として、本実施の形態の属性圧縮変換部22と評価特徴算出部23は、特異値分解(SVD:Singular Value Decomposition)と呼ばれる数学手法を用いて、圧縮変換を行なう。
【0117】
まず、特異値分解について説明する。
【0118】
本実施の形態における属性データ32や評価値33の情報は、数学的にデータ行列と考えることができる。例えば、属性データ32は、各行に各属性を割当て、各列に各コンテンツを割当て、行列の各要素には、その列に対応するコンテンツのその行に対応する属性の属性値を割当てることにより、属性値のデータ行列と考えることができる。同様に、評価値33は、各行に各利用者を割当て、各列に各コンテンツを割当て、行列の各要素には対応するコンテンツの対応する利用者による評価値を割当てることにより、データ行列と考えることができる。
【0119】
このようなデータ行列に、特異値分解を適用することで、下記の処理を容易に実現することができる。
・データ行列を本質的部分に圧縮
・欠損値の予測
・新しいデータの圧縮後空間への変換式の決定
【0120】
特異値分解は、数学的には以下のように定義できる。
【0121】
いま、行列Aを、m行×n列で、rank(A)=r(ランクがr)のデータ行列とする。行列Aは、m次元空間上のn種類のデータを表現しているとも、n次元空間上のm種類のデータを表現しているとも解釈することができる。
【0122】
特異値分解は、この行列Aを、以下のように分解する線形代数の手法である。任意の行列Aから、下記の条件を満たす3つの行列U、R、Vが算出される。ここで、行列の右肩の“┬”は、転置行列を示す記号である。
m×n=Um×r・Rr×r・V r×n (1)
ただし、行列U、Vは正規直交行列であり、行列Rは対角行列である。
・U=I (Iは、r次の単位行列)
・V=I
R=diag(d、d、・・・、d)、 d≧d≧・・・≧d>0
【0123】
、d、・・・、dは、対角行列Rの対角要素であり、圧縮後の空間(後で説明)の各軸における情報量を示している。
【0124】
この特異値分解を用いることで、以下のようにデータ行列Aを圧縮することができる。
【0125】
まず式(1)において、AとUに注目すると、特異値分解における行列Aから行列Uを算出する処理
m×n→Um×r
を考えると、行例Aの列数をnからrに圧縮したものが行列Uということができる。
【0126】
元のデータ行列Aにおける各列のベクトル間では、類似性が高いものもあれば低いものもある。しかし、この特異値分解によるAからUを求める変換により、行列Aで類似した列ベクトルは同じ列にまとめられ、圧縮後のUでは各列ベクトルは直交したものになる。つまり、m個のデータをAではn次元空間上で表現していたものが、Uではr次元空間で表現できたことになる。
【0127】
同様に、AとVに注目して、特異値分解における行列Aから行列Vを算出する処理
m×n→V r×n
を考えると、行列Aの行数をmからrに圧縮したものが行列Vということができる。
【0128】
行の圧縮と考えた場合も、行列Aの各行ベクトルの類似性に基づいて圧縮されている。この場合、n個のデータをAではm次元空間上で表現していたものが、Vではr次元空間で表現できたことになる。
【0129】
更に、UとV共にr次元空間であるが、特異値分解では2つの空間は単に次元数が同じなのではなく、UとVは同一の空間となっている。
【0130】
また、Rの各対角要素d、d、・・・、dは、圧縮後のr次元空間の各軸が持つ情報量を示している。そこで、r個の軸の内で、対角要素の値の大きい(つまり情報量が多い)指定された個数の(例えばk個)の軸だけを利用することにすれば、次の式(2)に示されるように、行列Aをk次元まで圧縮した行列A’を得ることができる。
A’m×n=U’m×k・R’k×k・V’ k×n (2)
ただし、ここで行列U’、V’、R’は、それぞれもとの行列U、V、Rの第1〜k列の部分のみを用いた行列である。この圧縮においては、行列Aが持っていた情報の本質的な部分が失われることなく、本質的でない部分が取り除かれることにより、行列Aが行列A’に変換される。
【0131】
この特異値分解を用いることで、以下のようにデータ行列中の欠損値を予測することができる。
【0132】
データ行列Aに欠損値がある場合には、式(2)を利用して、欠損値を予測することができる。式(2)の行列A’は、特異値分解による圧縮空間の軸の内、情報量の多い主要な軸だけを利用してAを再合成したものである。そのため、A’から欠損値に対応する要素の値を読み出すことで、Aの欠損値を予測することができる。このときの予測値は、k次元空間で表現されるAの本質的部分と最も整合性がとれている値になっている。
【0133】
特異値分解を行なった後で、データ行列にデータの追加や更新があった場合、以下のような手続きによりデータの追加・更新を反映することができる。
【0134】
新しいデータが追加されて、行列Aのセルの値が更新されたり、列や行が追加された場合、本来は、特異値分解をやり直して新しい圧縮空間を生成する必要がある。しかし、データ追加前のAの圧縮空間での、新しいデータの位置を簡単に求めることができれば、追加・更新データ量が多くない場合には、特異値分解をやり直さなくてもよい。
【0135】
式(1)のA=U・R・Vから、VとRを辺々移動することにより、
A・(V−1・R−1=U
が得られる。更に、U、Vは正規直交行列なので、逆行列は転置行列に等しいため前式は、
A・V・R−1=U
となる。この式に示されるように、新しいデータが追加されてAの要素が更新されたり新しい行が追加されてた場合に、その変化の量が少ない場合においては、最新の行列Aに対して
V・R−1
を右から掛けることによる簡易な演算により、更新後の行列U(を十分に近似する行列)を効率よく求めることができる。
【0136】
また、既にk次元まで圧縮されている場合においても、同様に、式(2)から
V’・R’−1 (3)
を右から掛ければよい。
【0137】
Vを更新する場合も同様に、R−1・U−1・A=R−1・U・A=Vであるから、データ追加により、Aのセルが更新されたり新しい列が追加されても、その変化の量が少ない場合においては、最新の行列Aに対して
−1・U
を左から掛けることよる簡易な演算により、更新後の行列V(を十分に近似する行列)を効率よく求めることができる。
【0138】
この場合もk次元まで圧縮したときは、式(2)から
R’−1・U’ (4)
を左から掛ければよい。
【0139】
次に、本実施の形態の情報フィルタリングシステムの、特異値分解による圧縮処理の一実施例を詳細に説明する。
【0140】
ここで、予め記憶部30には、コンテンツの属性データ32としてコンテンツ毎の各単語の出現率が格納されており、かつ、各利用者が推薦してコンテンツに与えた評価値33が格納されている。
【0141】
属性圧縮変換部22は、まず、評価圧縮変換部26により、評価値33中の評価値を基にして、各行にコンテンツを各列に利用者を割当てた評価データ行列(以下Eと呼ぶ)を生成する。ここで、例えばコンテンツ数がm件で、そのコンテンツを評価した利用者数がn人の場合には、評価データ行列Eはm×n行列になる。
【0142】
次に、評価圧縮変換部26は、評価データ行列Eを特異値分解する。
E=D・R・U (5)
【0143】
次に、圧縮後の次元数を決めて(以下、圧縮後の次元数をkとする)、Eを(k次の)Uに変換するための行列
−1・D (6)
を算出し、評価変換方法データ37として記憶部30に格納する。
【0144】
各利用者の評価、つまり、評価データ行列Eの各列は、各利用者の興味を表現していると考えられる。この特異値分解を利用する演算(式(6)をEに掛ける演算)を、EからUへの変換と考えると、Eの行数がコンテンツ数mだったのがkに圧縮変換されたことになる。これは、各利用者の興味を判別するためには、コンテンツm個全てを参照する必要はなく、本質的な情報を表現しているk種類の値のみを参照するものとしても同様が判別が実現されることを示している。これから、Uのk個の行は各利用者の興味の特徴を表現していると考えられる。そして、式(5)は、評価データ行列EをU に圧縮変換するので、利用者傾向の特徴を算出する式と考えることができる。Eの各行は、コンテンツを表現していたので、U ’の各行が表現するものを、以下では特徴コンテンツと呼ぶこととする。
【0145】
次に、第2属性圧縮変換部27は、まず、属性データ32として格納されている各コンテンツの単語出現率データから、各行にコンテンツを各列に単語(キーワード)を割当てた属性データ行列(以下この行列を、Fと記す)を生成する。
【0146】
コンテンツ数がm件で、単語が全部でp種類だったとすると、属性データ行列Fはm×p行列になる。
【0147】
次に、属性データ行列Fに評価変換方法データ37として記憶された式(6)を適用し、行列Fの行数をmからkに圧縮した行列Fを生成する。
【0148】
次に、行列Fを特異値分解する。
=D・R・T (7)
【0149】
次に、圧縮後の次元数を決めて(以下、圧縮後の次元数をkとする)、Fを(k次の)D’に変換するための行列
・R−1 (8)
を算出し、属性変換方法データ38として記憶部30に格納する。
【0150】
属性データ行列Fは、各コンテンツの単語出現率を表わしており、行列Fを式(6)により圧縮した行列Fは、特徴コンテンツの単語出現率を表わしている。
【0151】
この特異値分解を利用した行列Fから行列D’への変換を考えると、行列Fの列数が、単語の種類数pだったのがkに圧縮変換されたことになる。これは、各利用者の興味を判別する特徴コンテンツを、単語出現率から判別するためには、単語p種類の全てが必要ではなく、k個の値を用いるのみでも同様に判別できることを示している。これから、行列D’のk個の列は、各特徴コンテンツの特徴を表現していると考えられる。そして、式(8)は、行列Fを行列D’に変換するので、コンテンツの特徴を算出する式と考えることができる。行列Fの各列は単語を表現していたので、D’の各列が表現するものを以下では特徴単語と呼ぶこととする。
【0152】
次に、圧縮属性算出部28は、まず、属性データ32として格納されている各コンテンツの単語出現率データから、各行にコンテンツを各列に単語を割当てた属性データ行列(先と同様にこの行列を、Fと記す)を生成する。コンテンツ数がm件で、全部でp種類だったとすると、属性データ行列Fはm×p行列になる。
【0153】
そして、属性変換方法データ38として記憶された式(8)を用いて、属性データ行列Fの列数を、pから(圧縮後の次数として設定された)kに圧縮した行列Fを生成し、圧縮属性データ34として記憶部30に格納する。
【0154】
属性データ行列Fは、各コンテンツの単語出現率を表わしており、行列Fを式(8)により圧縮した行列Fは、各コンテンツの特徴単語の出現率を表わしている。
【0155】
この特徴単語は、利用者の評価傾向の特徴を表現する特徴コンテンツの特徴を表現するものであるので、特徴単語の出現率を表わしている行列Fは、元の単語出現率を表わした行列Fの持っている情報から、評価傾向の特徴を表現しない部分は削除されて、評価傾向の特徴を表現する部分だけが含まれている。
【0156】
次に、評価特徴算出部23では、まず、評価値33中の評価を基にして、各行にコンテンツを、各列に利用者を割当てた評価データ行列(先と同様にこの行列を、Eと記す)を生成する。コンテンツ数がm件で、そのコンテンツを評価した利用者数がn人だとすると、評価データ行列Eはm×n行列になる。
【0157】
そして、圧縮属性データ34として記憶された各コンテンツの特徴単語の出現率を表わした行列Fと行列Eをつなげた行列Eを生成する。この行列Eは、各行にコンテンツが割当てられ、第1列から第n列までは利用者が割当てられ、第n+1列から第n+k列までは各特徴単語が割当てられたm行n+k列行列として生成する。
【0158】
次に、この行列Eを特異値分解する。
=D・R・U (9)
【0159】
次に、圧縮後の次元数を決めて(以下、圧縮後の次元数をkとする)、これまでに説明された圧縮変換処理を同様に実施することにより、D、R、Uの各行列を圧縮した、D’、R’、U’の行列を算出する。そして、行列R’と行列U’を利用者評価特徴データ35として格納し、行列D’をコンテンツ評価特徴データ36として格納する。
【0160】
行列Eは、評価データと、属性データのうち評価に影響を与える部分である圧縮属性データを結合したものである。そのためEを圧縮変換することで算出した利用者評価特徴データは、評価データと属性データを基にして利用者の評価傾向の特徴を表現したものであり、かつ、属性データの評価傾向の特徴を表現しない部分は含まれていない。これは、コンテンツ評価特徴データも同様である。
【0161】
次に、評価予測部24は、要求入力部11から要求者の情報フィルタリング要求を受け付けると、利用者評価特徴データ35として記憶された行列R’と、行列U T における要求者に対応する列と、コンテンツ評価特徴データ36として記憶された行列D’とから、行列E’の要求者に対応する列を算出することにより、各コンテンツに対して要求者が与える評価の予測値を求める。
【0162】
また、本実施の形態においては、属性データとして、各コンテンツの単語出現頻度を用いたが、単語のTF・IDF値などを用いることもできる。また、コンテンツの著者などの書誌データを用いることもできる。また、コンテンツがWebページなど他のコンテンツ間で参照関係がある場合は、コンテンツから他のページへの参照や、他のページからの参照の情報を属性データとして用いることができる。
【0163】
以上説明したように、本発明の情報フィルタリングシステムによれば、コンテンツの属性と他の利用者のコンテンツに対する評価値との双方に基づいて、効率よく高精度の情報フィルタリングを実現することができる。
【0164】
次に本発明の第2の実施の形態を説明する。
【0165】
図6は、本発明の第2の実施の形態による情報フィルタリングシステムの構成を示すブロック図である。先の第1の実施の形態においては、関連データとして属性データを用いたが、本実施の形態においては、各利用者の年齢、性別、趣味等の利用者に関する情報である利用者データを関連データとして用いる。
【0166】
つまり、本実施の形態においては、先の第1の実施の形態と同様の方法により、この利用者データから、評価に影響を与える部分だけを取りだし、フィルタリングを行う。本実施の形態の利用者データ圧縮変換部22aは、先の第1の実施の形態における属性圧縮変換部22が、属性データと評価データを基に評価に影響を与える部分だけを取り出した圧縮属性データを算出したのと同様の方法により、利用者データと評価データを基に、利用者データから評価に影響を与える部分だけを取り出して、圧縮利用者データ34aとして格納する。
【0167】
本実施の形態の評価特徴算出部23aは、評価データと圧縮利用者データ34aを基に、先の第1の実施の形態における評価特徴算出部23と同様の方法で、利用者評価特徴データ35とコンテンツ評価特徴データ36を算出し、記憶部30に格納する。
【0168】
次に、評価特徴算出部23aの処理を詳しく説明する。圧縮利用者データ34aとして格納された行列(以下Fと呼ぶ)は、利用者数がnで、圧縮利用者データの種類がk種類だったとすると、k行n列の行列となる。評価特徴算出部23aでは、まず、評価値33中の評価を基にして、各行にコンテンツを、各列に利用者を割当てた評価データ行列(先と同様にこの行列を、Eと記す)を生成する。コンテンツ数がm件で、そのコンテンツを評価した利用者数がn人だとすると、評価データ行列Eはm×n行列になる。
【0169】
そして、圧縮利用者データ34aとして格納された行列Fと行列Eをつなげた行列Eを生成する。この行列Eは、各列に利用者が割当てられ、第1列から第m行まではコンテンツが割当てられ、第m+1列から第n+k列までは圧縮された利用者データが割当てられたm+k行n列行列として生成する。
【0170】
以降、第1の実施の形態と同様な処理を行なうことにより、評価データと、利用者データのうち評価に影響を与える部分を基にしたフィルタリングを行なうことができる。
【0171】
また、利用者データとして、利用者の年齢、性別、趣味等を例示したが、利用者と他の利用者との関係(上司・部下など)や、利用者の興味を示すキーワードやCBF方式で算出された利用者プロファイル等を用いることもできる。
【0172】
また、本形態と第1の形態を組み合わせ、利用者データのうち評価に影響を与える部分と、属性データのうち評価に影響を与える部分と、評価データを基にしたフィルタリングを行なうこともできる。
【0173】
また、上記各実施の形態においては、圧縮変換を特異値分解を用いて処理する方式を例に説明したが、本発明の圧縮変換の方法はこの方式に限るものではなく、他に、多変量解析で使用される次元縮約の方法や、独立成分分析や、ニューラルネットワーク等を用いる実施の形態も同様に可能である。
【0174】
なお、上記各実施の形態の情報フィルタリングシステム100、100aは、データ処理部20、20aにおける属性抽出部21、属性圧縮変換部22、利用者データ圧縮変換部22a、評価特徴算出部23、23a、評価予測部24、コンテンツ選択部25、評価圧縮変換部26、第2属性圧縮変換部27、圧縮属性算出部28等の機能や、その他の機能をハードウェア的に実現することは勿論として、各機能を備えるコンピュータプログラムを、コンピュータ処理装置のメモリにロードされることで実現することができる。このコンピュータプログラムは、磁気ディスク、半導体メモリその他の記録媒体90、90aに格納される。そして、その記録媒体からコンピュータ処理装置にロードされ、コンピュータ処理装置の動作を制御することにより、上述した各機能を実現する。
【0175】
以上好ましい実施の形態及び実施例をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び実施例に限定されるものではなく、その技術的思想の範囲内において様々に変形して実施することができる。
【0176】
【発明の効果】
以上説明したように本発明の情報フィルタリングシステムによれば、以下のような効果が達成される。
【0177】
第1に、本発明の情報フィルタリングシステムでは、属性圧縮変換部により、コンテンツの属性から評価予測に有効でない部分を削除することができる。このため、従来のCBF方式(やSIF方法と組合せた方式)における、評価と関連しない部分の影響によりフィルタリング精度が低くなるという問題点を、軽減・解消することができる。
【0178】
第2に、本発明の情報フィルタリングシステムでは、コンテンツの属性も利用して評価値を予測することができる。このため、従来のSIF方法における、予めある程度の量の評価が集まらなければフィルタリングの精度が悪く、かつ得られる情報は既に他の利用者により評価・推薦された情報のみであること等の問題点を解決することができる。
【図面の簡単な説明】
【図1】 本発明の第1の実施の形態による情報フィルタリングシステムの構成を示すブロック図である。
【図2】 本発明の第1の実施の形態による情報フィルタリングシステムの動作を説明するためのフローチャートである。
【図3】 本発明の第1の実施の形態による情報フィルタリングシステムの動作を説明するためのフローチャートである。
【図4】 本発明の第1の実施の形態の属性圧縮変換部の構成の一例を示すブロック図である。
【図5】 本発明の第1の実施の形態の属性圧縮変換部の動作の一例を説明するためのフローチャートである。
【図6】 本発明の第2の実施の形態による情報フィルタリングシステムの構成を示すブロック図である。
【図7】 従来の情報フィルタリングシステムの構成を示すブロック図である。
【図8】 従来の情報フィルタリングシステムの動作を説明するためのフローチャートである。
【図9】 従来の情報フィルタリングシステムの動作を説明するためのフローチャートである。
【符号の説明】
100、100a 情報フィルタリングシステム
10 入出力部
11 要求入力部
12 コンテンツ提示部
13 評価入力部
20、20a データ処理部
21 属性抽出部
22 属性圧縮変換部
23 評価特徴算出部
24 評価予測部
25 コンテンツ選択部
26 評価圧縮変換部
27 第2属性圧縮変換部
28 圧縮属性算出部
30 記憶部
31 コンテンツデータ
32 属性データ
33 評価値
34 圧縮属性データ
35 利用者評価特徴データ
36 コンテンツ評価特徴データ
37 評価変換方法データ
38 属性変換方法データ
22a 利用者データ圧縮変換部
23a 評価特徴算出部
32a 利用者データ
34a 圧縮利用者データ
40 データ処理部
41 プロファイル学習部
42 プロファイル変換部
43 属性変換部
44 評価予測部
50 記憶部
51 プロファイルデータ
52 変換方法データ
53 変換属性データ
54 変換プロファイルデータ
60 登録コンテンツ
90、90a 記録媒体

Claims (27)

  1. 個々のコンテンツに対する利用者の評価を予測し、前記コンテンツの中から前記利用者に適合するコンテンツを検出する情報フィルタリングシステムにおいて、
    各前記利用者によりこれまでに示されている各前記利用者の各前記コンテンツに対する評価を行列で示す評価値データと、前記評価に関連する行列データである関連データとを予め記録して備える記憶部と、
    前記記憶部に記憶された該評価値データに特異値分解を適用し、該特異値分解で得られた行列を所定の次元に圧縮したデータを算出し、該算出したデータに基づいて、評価値データを該評価値データのうち評価予測に有効でない情報を取り除いたデータに変換するための式である圧縮変換方法データを算出する圧縮変換方法データ算出手段と、
    前記関連データに前記圧縮変換方法データを適用することにより、各前記関連データから評価に影響を与えない部分を取り除いたデータである圧縮データを算出する圧縮変換手段と、
    前記圧縮データと前記記憶部に記憶された前記評価値データとの双方の情報を基に、
    各前記利用者の評価傾向の特徴を示す利用者評価特徴データと、前記コンテンツの特徴を示すコンテンツ評価特徴データとを算出する評価特徴算出手段と、
    前記利用者評価特徴データと前記コンテンツ評価特徴データを基にして、各コンテンツに対して各利用者が与える評価を予測値として算出する評価予測手段を備えることを特徴とする情報フィルタリングシステム。
  2. 前記関連データに、各前記コンテンツの内容を表現する属性データを含むことを特徴とする請求項1に記載の情報フィルタリングシステム。
  3. 前記関連データに、各前記利用者に関する情報を示す利用者データを含むことを特徴とする請求項1又は請求項2に記載の情報フィルタリングシステム。
  4. 前記圧縮変換手段は、
    前記関連データに前記圧縮変換方法データを適用することにより、前記関連データからの前記圧縮データを算出する圧縮変換の方法を指定するデータである、第2圧縮変換方法データを算出する第2圧縮変換方法データ算出手段と、
    前記関連データに前記第2圧縮変換方法データを適用することにより、前記圧縮データを算出する圧縮算出手段を備えることを特徴とする請求項1から請求項3の何れか1項に記載の情報フィルタリングシステム。
  5. 前記圧縮変換手段は、
    前記関連データ及び前記評価値データを、特異値分解により圧縮変換し、前記圧縮データを算出することを特徴とする請求項1から請求項4の何れか1項に記載の情報フィルタリングシステム。
  6. 前記評価特徴算出手段は、
    前記圧縮データと前記評価値データとの双方の情報を用いて示されるデータを、圧縮変換することにより、前記利用者評価特徴データと、前記コンテンツ評価特徴データとを算出することを特徴とする請求項1から請求項5の何れか1項に記載の情報フィルタリングシステム。
  7. 前記評価特徴算出手段は、
    前記圧縮データと前記評価値データとの双方の情報を用いて示されるデータを、特異値分解により圧縮変換し、前記利用者評価特徴データと、前記コンテンツ評価特徴データとを算出することを特徴とする請求項6に記載の情報フィルタリングシステム。
  8. 各前記利用者によりこれまでに示されている、各前記利用者のそれぞれの各前記コンテンツに対する評価を行列で示す評価値データを、入力し記録する評価入力手段と、
    各前記コンテンツの内容を表現するデータである属性データを抽出する属性抽出手段を備えることを特徴とする請求項1から請求項7のいずれか一つに記載の情報フィルタリングシステム。
  9. インターネット上に公開される前記コンテンツを、フィルタリングすることを特徴とする請求項1から請求項8の何れか1項に記載の情報フィルタリングシステム。
  10. コンピュータ処理装置を利用して個々のコンテンツに対する利用者の評価を予測し、前記コンテンツの中から前記利用者に適合するコンテンツを検出する情報フィルタリングシステムにおける情報フィルタリング方法であって、
    前記コンピュータ処理装置が備えるデータ処理手段が、
    各前記利用者によりこれまでに示されている各前記利用者の各前記コンテンツに対する評価を行列で示す評価値データと、前記評価に関連する行列データである関連データとを予め記録する記憶部からデータを参照するステップと、
    前記記憶部に記憶された該評価値データに特異値分解を適用し、該特異値分解で得られた行列を所定の次元に圧縮したデータを算出し、該算出したデータに基づいて、評価値データを該評価値データのうち評価予測に有効でない情報を取り除いたデータに変換するための式である圧縮変換方法データを算出する圧縮変換方法データ算出ステップと、
    前記関連データに前記圧縮変換方法データを適用することにより、各前記関連データから評価に影響を与えない部分を取り除いたデータである圧縮データを算出する圧縮変換ステップと、
    前記圧縮データと前記記憶部に記憶された前記評価値データとの双方の情報を基に、各前記利用者の評価傾向の特徴を示す利用者評価特徴データと、前記コンテンツの特徴を示すコンテンツ評価特徴データとを算出する評価特徴算出ステップと、
    前記利用者評価特徴データと前記コンテンツ評価特徴データを基にして、各コンテンツに対して各利用者が与える評価を予測値として算出する評価予測ステップを備えることを特徴とする情報フィルタリング方法。
  11. 前記関連データに、各前記コンテンツの内容を表現する属性データを含むことを特徴とする請求項10に記載の情報フィルタリング方法。
  12. 前記関連データに、各前記利用者に関する情報を示す利用者データを含むことを特徴とする請求項10又は請求項11に記載の情報フィルタリング方法。
  13. 前記圧縮変換ステップは、
    前記関連データに前記圧縮変換方法データを適用することにより、前記関連データからの前記圧縮データを算出する圧縮変換の方法を指定するデータである、第2圧縮変換方法データを算出する第2圧縮変換方法データ算出ステップと、
    前記関連データに前記第2圧縮変換方法データを適用することにより、前記圧縮データを算出する圧縮算出ステップを備えることを特徴とする請求項10から請求項12の何れか1項に記載の情報フィルタリング方法。
  14. 前記圧縮変換ステップは、
    前記関連データ及び前記評価値データを、特異値分解により圧縮変換し、前記圧縮データを算出することを特徴とする請求項10から請求項13の何れか1項記載の情報フィルタリング方法。
  15. 前記評価特徴算出ステップは、
    前記圧縮データと前記評価値データとの双方の情報を用いて示されるデータを、圧縮変換することにより、前記利用者評価特徴データと、前記コンテンツ評価特徴データとを算出することを特徴とする請求項10から請求項14の何れか1項に記載の情報フィルタリング方法。
  16. 前記評価特徴算出ステップは、
    前記圧縮データと前記評価値データとの双方の情報を用いて示されるデータを、特異値分解により圧縮変換し、前記利用者評価特徴データと、前記コンテンツ評価特徴データとを算出することを特徴とする請求項15に記載の情報フィルタリング方法。
  17. 前記コンピュータ処理装置が備える入力手段が、
    各前記利用者によりこれまでに示されている、各前記利用者のそれぞれの各前記コンテンツに対する評価を行列で示す評価値データ入力し前記記憶部に記録する評価入力ステップを備え
    前記データ処理手段が、
    各前記コンテンツの内容を表現するデータである属性データを抽出する属性抽出ステップを備えることを特徴とする請求項10から請求項16の何れか1項に記載の情報フィルタリング方法。
  18. 前記データ処理手段が、
    インターネット上に公開される前記コンテンツを、前記コンテンツ間の参照情報を含む前記関連データに基づいてフィルタリングすることを特徴とする請求項10から請求項17の何れか1項に記載の情報フィルタリング方法。
  19. コンピュータを制御することにより、個々のコンテンツに対する利用者の評価を予測し、前記コンテンツの中から前記利用者に適合するコンテンツを検出する情報フィルタリングプログラムにおいて、
    前記コンピュータが備えるデータ処理手段に、
    各前記利用者によりこれまでに示されている各前記利用者の各前記コンテンツに対する評価を行列で示す評価値データと、前記評価に関連する行列データである関連データの、予め記録されたデータを参照する処理と、
    参照した該評価値データに特異値分解を適用し、該特異値分解で得られた行列を所定の次元に圧縮したデータを算出し、該算出したデータに基づいて、評価値データを該評価値データのうち評価予測に有効でない情報を取り除いたデータに変換するための式である圧縮変換方法データを算出する圧縮変換方法データ算出処理と、
    前記関連データに前記圧縮変換方法データを適用することにより、各前記関連データから評価に影響を与えない部分を取り除いたデータである圧縮データを算出する圧縮変換処理と、
    前記圧縮データと前記評価値データとの双方の情報を基に、各前記利用者の評価傾向の評価の特徴を示す利用者評価特徴データと、前記コンテンツの特徴を示すコンテンツ評価特徴データとを算出する評価特徴算出処理と、
    前記利用者評価特徴データと前記コンテンツ評価特徴データを基にして、各コンテンツに対して各利用者が与える評価を予測値として算出する評価予測処理を実行させることを特徴とする情報フィルタリングプログラム。
  20. 前記関連データに、各前記コンテンツの内容を表現する属性データを含むことを特徴とする請求項19に記載の情報フィルタリングプログラム。
  21. 前記関連データに、各前記利用者に関する情報を示す利用者データを含むことを特徴とする請求項19又は請求項20に記載の情報フィルタリングプログラム。
  22. 前記圧縮変換処理においては、
    前記関連データに前記圧縮変換方法データを適用することにより、前記関連データからの前記圧縮データを算出する圧縮変換の方法を指定するデータである、第2圧縮変換方法データを算出する第2圧縮変換方法データ算出処理と、
    前記関連データに前記第2圧縮変換方法データを適用することにより、前記圧縮データを算出する圧縮算出処理を実行させることを特徴とする請求項19から請求項21の何れか1項に記載の情報フィルタリングプログラム。
  23. 前記圧縮変換処理においては、
    前記関連データ及び前記評価値データを、特異値分解により圧縮変換し、前記圧縮データを算出する処理を実行させることを特徴とする請求項19から請求項22の何れか1項に記載の情報フィルタリングプログラム。
  24. 前記評価特徴算出処理においては、
    前記圧縮データと前記評価値データとの双方の情報を用いて示されるデータを、圧縮変換することにより、前記利用者評価特徴データと、前記コンテンツ評価特徴データとを算出する処理を実行させることを特徴とする請求項19から請求項23の何れか1項に記載の情報フィルタリングプログラム。
  25. 前記評価特徴算出処理においては、
    前記圧縮データと前記評価値データとの双方の情報を用いて示されるデータを、特異値分解により圧縮変換し、前記利用者評価特徴データと、前記コンテンツ評価特徴データとを算出する処理を実行させることを特徴とする請求項24に記載の情報フィルタリングプログラム。
  26. 前記コンピュータが備える入力手段に、
    各前記利用者によりこれまでに示されている、各前記利用者のそれぞれの各前記コンテンツに対する評価を行列で示す評価値データ入力し前記記憶部に記録する評価入力処理を実行させ
    前記データ処理手段に、
    各前記コンテンツの内容を表現するデータである属性データを抽出する属性抽出処理を実行させることを特徴とする請求項19から請求項25の何れか1項に記載の情報フィルタリングプログラム。
  27. 前記データ処理手段に、
    インターネット上に公開される前記コンテンツを、前記コンテンツ間の参照情報を含む前記関連データに基づいてフィルタリングを実行させることを特徴とする請求項19から請求項26の何れか1項に記載の情報フィルタリングプログラム。
JP2001070174A 2001-03-13 2001-03-13 情報フィルタリングシステムとそのフィルタリング方法、及び情報フィルタリングプログラム Expired - Fee Related JP3788254B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001070174A JP3788254B2 (ja) 2001-03-13 2001-03-13 情報フィルタリングシステムとそのフィルタリング方法、及び情報フィルタリングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001070174A JP3788254B2 (ja) 2001-03-13 2001-03-13 情報フィルタリングシステムとそのフィルタリング方法、及び情報フィルタリングプログラム

Publications (2)

Publication Number Publication Date
JP2002269143A JP2002269143A (ja) 2002-09-20
JP3788254B2 true JP3788254B2 (ja) 2006-06-21

Family

ID=18928089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001070174A Expired - Fee Related JP3788254B2 (ja) 2001-03-13 2001-03-13 情報フィルタリングシステムとそのフィルタリング方法、及び情報フィルタリングプログラム

Country Status (1)

Country Link
JP (1) JP3788254B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323732A (ja) * 2005-05-20 2006-11-30 Victor Co Of Japan Ltd 情報センタ、端末装置、情報送信プログラム、及び情報選択プログラム
JP5289020B2 (ja) * 2008-12-08 2013-09-11 三菱電機株式会社 特異値分解装置及び特異値分解方法及び特異値分解プログラム
JP5440394B2 (ja) * 2010-05-31 2014-03-12 ソニー株式会社 評価予測装置、評価予測方法、及びプログラム
JP5507607B2 (ja) * 2012-04-06 2014-05-28 ヤフー株式会社 コンテンツ提供装置、低ランク近似行列生成装置、コンテンツ提供方法、低ランク近似行列生成方法およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000227918A (ja) * 1999-02-05 2000-08-15 Nec Corp 情報フィルタリング方法及びその装置並びに情報フィルタリングプログラムを記録した記録媒体
JP2000298669A (ja) * 1999-04-12 2000-10-24 Just Syst Corp 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2002269143A (ja) 2002-09-20

Similar Documents

Publication Publication Date Title
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
US10789620B2 (en) User segment identification based on similarity in content consumption
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US8515212B1 (en) Image relevance model
JP3116851B2 (ja) 情報フィルタリング方法及びその装置
US9176969B2 (en) Integrating and extracting topics from content of heterogeneous sources
JP6381775B2 (ja) 情報処理システム及び情報処理方法
US9256649B2 (en) Method and system of filtering and recommending documents
JP2006048286A (ja) 情報処理装置および方法、並びにプログラム
JP3953295B2 (ja) 情報検索システム、情報検索方法、情報検索を実行させるためのプログラムおよび情報検索を実行させるためのプログラムが記録された記録媒体
CN110264277B (zh) 由计算设备执行的数据处理方法及装置、介质和计算设备
JP3845553B2 (ja) データベースにおけるドキュメントのリトリーブ・ランク付けを実行するコンピュータ・システム、およびプログラム
US20100121844A1 (en) Image relevance by identifying experts
JP2016018286A (ja) 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム
KR20190008699A (ko) 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램
JP6079270B2 (ja) 情報提供装置
US9552415B2 (en) Category classification processing device and method
JP2003167907A (ja) 情報提供方法およびシステム
JP3788254B2 (ja) 情報フィルタリングシステムとそのフィルタリング方法、及び情報フィルタリングプログラム
KR20110023304A (ko) 개념 네트워크 기반 사용자 프로파일 구성 방법 및 시스템과 이를 이용한 개인화 질의 확장 시스템
JP3646011B2 (ja) 検索システム、及び、当該検索システムのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP6078380B2 (ja) 文書解析装置、及びプログラム
US11727051B2 (en) Personalized image recommendations for areas of interest
CN114153965A (zh) 一种结合内容和图谱的舆情事件推荐方法、系统及终端
JP2004157649A (ja) 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050413

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050708

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060320

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100407

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110407

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120407

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120407

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130407

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130407

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140407

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees