JP3692416B2 - 情報フィルタリング方法および装置 - Google Patents

情報フィルタリング方法および装置 Download PDF

Info

Publication number
JP3692416B2
JP3692416B2 JP10016898A JP10016898A JP3692416B2 JP 3692416 B2 JP3692416 B2 JP 3692416B2 JP 10016898 A JP10016898 A JP 10016898A JP 10016898 A JP10016898 A JP 10016898A JP 3692416 B2 JP3692416 B2 JP 3692416B2
Authority
JP
Japan
Prior art keywords
information
profile
user
filtering
information resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10016898A
Other languages
English (en)
Other versions
JPH11282874A (ja
Inventor
猛 菅井
博美 羽生田
幸伯 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10016898A priority Critical patent/JP3692416B2/ja
Publication of JPH11282874A publication Critical patent/JPH11282874A/ja
Application granted granted Critical
Publication of JP3692416B2 publication Critical patent/JP3692416B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、情報資源に対してフィルタリングを行う情報フィルタリング方法および装置に関し、特に、ユーザの嗜好に合わせてユーザのプロファイルを多段に組み合わせる情報フィルタリング方法および装置に関する。
【0002】
【従来の技術】
従来の情報フィルタリングの技術を示すものとして、以下の文献があった。
[1]Nicholas J.Belkin,W.Bruce Croft,Information Filtering and Information retrieval:Two Sides of the Same Coin?,Communication of the ACM,35(12),pp29-38,1992
【0003】
[2]Upendra Shardanand,Pattie Maes,Social Information Filtering:Algorithms for Automating "Word of Mouth",CHI'95 Conference Proceedings,1995,pp210-217
【0004】
[3]Chris Beckley, Gerard Salton, James Allan, The Effect of Adding Relevance Information in a Relevance Feedback Environment,SIGIR'94 Proceedings,1994,pp292-300
【0005】
コンピュータネットワークの整備によって、電子メールやネットニュース等、日々刻々と変わる情報に対して、ユーザが欲しい情報だけを得るという情報フィルタリングの技術の開発が行われている。情報フィルタリングでは、ユーザの日々少しずつ変わる興味に追従するために、関連フィードバック(Relevance Feedback)や学習アルゴリズムによって、ユーザのプロファイルを修正してフィルタリングを行うシステムが一般的である。
【0006】
ここで、プロファイルとは情報検索における検索文、あるいは、質問文としてほぼ同様の意味であるが、ここでは、ある時間の長さに対して、ユーザの検索の興味を表現した検索文である。こうしたフィルタリングは、テキストの内容とユーザが欲する情報を表現したプロファイルのパターンマッチによって行われ、これは、内容に基づくフィルタリングと呼ばれている(これについては、例えば上記文献[1]に示す)。
【0007】
情報フィルタリングの手順は、一般に以下のような方法で行われる。
1.ユーザは、初期プロファイルを入力する。
2.情報フィルタリング装置は、ユーザのプロファイルと配送されてきたテキストを比べて、フィルタリングを行い、フィルタリング結果をユーザに表示する。
3.ユーザは、フィルタリング結果に対する評価を入力する。
4.2〜4を繰り返す。
【0008】
【発明が解決しようとする課題】
しかしながら、上記従来の情報フィルタリング装置では、次のような問題点があった。先ず、情報フィルタリングの手順においては、ユーザはフィルタリングされた記事に対して、興味があるか、あるいは、興味がないかを入力するが、フィルタリング手順の上記2〜4の繰り返し回数が少ない段階では、プロファイルが十分な修正が行われておらず、フィルタリングの精度があまりよくならないという問題があった。
【0009】
次の問題点として、プロファイルは、情報資源をフィルタリングするには十分な情報を一般的には含んでいない。従って、プロファイル中の特定の情報(ある基底語、あるいはある特徴ベクトル)は、データの分野毎に重要度が異なる。従って、同一のプロファイルで多分野のデータをフィルタリングしようとすると、ある特定の分野では重要度が高いが別の分野では重要度が低いようなプロファイルの基底語が存在し、全体としてフィルタリングの精度が低下する。尚、基底語とは、発明者が先に出願した特願平9−157909号明細書に記載したように、ベクトル空間モデルにおけるベクトルの軸を構成するものである。また、ベクトル空間モデルについては、実施態様の項で詳述する。
【0010】
例えば、ベクトル空間モデルでは、多義語は同じ特徴ベクトルとして表現されてしまうので、検索精度が悪くなる一つの要因であった。その一例としては、コンピュータのデータベースエンジニアが「モデル」というプロファイルを指定し、フィルタリング結果に、ファッションに関する「モデル」のテキストが得られたとする。ここで、「モデル」という語は、文脈によって異なった意味を持つので多義語である。これを関連フィードバックによりプロファイルを洗練しようとすると、「モデル」という基底語の重要度が低くなってしまい、次のフィルタリングの過程では、データベースの「モデル」という基底語を含むテキストをフィルタリングすることができなくなってしまう。
【0011】
更に、フィルタリングの場合、分野別に区分けされていないデータベースを対象とすることが多く、このようなデータベースに対して多義語によるフィルタリングの精度を向上させるのは困難であった。
【0012】
このような点から、プロファイルが多義語であっても、精度の高いフィルタリングが行える情報フィルタリング方法および装置の実現が望まれていた。
【0013】
【課題を解決するための手段】
本発明は、前述の課題を解決するため次の構成を採用する。
〈請求項1の構成〉
特定のユーザのユーザ端末から多義語を含むプロファイルを設定し、情報源から供給される情報資源に前記プロファイルの前記多義語が含まれていると該多義語の重要度に応じたフィルタリング処理を行い、該処理により前記情報資源が選択されると該情報資源を前記ユーザ端末に出力する情報フィルタリング方法において、前記ユーザ端末から前記出力された情報資源に対し興味無しの指示データが送られてくると、前記プロファイルの多義語の重要度を低下させて該プロファイルを修正すると共に、前記選択した情報資源に対し他のユーザの他のユーザ端末の設定した他のプロファイルに基づいてフィルタリング処理を行い、該情報資源が選択されると、更に前記特定のユーザ及び前記他のユーザの各属性情報を比較して、該両属性情報が不一致であると、前記他のプロファイルが異なった意味を有する前記多義語を含むと判定し、その後、前記情報源から新たな情報資源が供給されると、該新たな情報資源に対し前記修正したプロファイル及び多義語を含むと判定された前記他のプロファイルに基づいてそれぞれ前記フィルタリング処理を行い、前記他のプロファイルに基づいて前記新たな情報資源が選択されると該情報資源を前記ユーザ端末への出力対象から除去する、ことを特徴とする情報フィルタリング方法である。
【0014】
〈請求項1の説明〉
えば、コンピュータのデータベースに関する「モデル」に対して、ファッションに関する「モデル」といったように、多義語プロファイルにおいて異なる意味で用いる場合を指している。ユーザ間の相関関係とは、例えば、ユーザの職業に基づき相関関係があるか否かを判定するが、予め決められた条件であれば、職業以外のものを基準にして相関関係を判定するようにしてもよい。
【0015】
即ち、請求項1の発明は、意味の異なる多義語を含む他のプロファイルを検出した上で、プロファイル及び他のプロファイルで同一の新たな情報資源に対するフィルタリング結果から、自分とは無関係な他のプロファイルのフィルタリング結果を除外したものである。
【0016】
請求項1の発明がこのように構成されていることにより、意味の異なる多義語を有する情報資源を削除することができ、その結果、フィルタリングの精度を向上させることができる。
【0017】
〈請求項2の構成〉
前記属性情報は、職業分類、所属業界のいずれかを示すことを特徴とする。
【0020】
〈請求項3の構成〉
特定のユーザのユーザ端末から多義語を含むプロファイルが設定され、情報源から供給される情報資源に対し前記プロファイルの前記多義語が含まれていると該多義語の重要度に応じたフィルタリング処理を行い、該処理で前記情報資源を選択すると前記ユーザ端末に該情報資源を出力する特定ユーザ用情報フィルタリング部と、少なくとも1以上の他のユーザの他のユーザ端末から他のプロファイルが設定され、前記情報源から供給される情報資源に対し前記他のプロファイルに基づいてフィルタリング処理を行い、該処理で前記情報資源を選択すると前記他のユーザ端末に該情報資源を出力する他のユーザ用情報フィルタリング部とを備えるフィルタリング装置において、前記特定のユーザの属性情報と前記他のユーザの属性情報とが格納されているユーザ情報格納部と、前記ユーザ情報格納部から前記特定ユーザ及び前記他のユーザの各属性情報を取り込み、該両属性情報の一致、不一致を判定する個人情報管理部とを含み、前記特定ユーザ用情報フィルタリング部は、前記ユーザ端末から前記出力した情報資源に対し興味無しの指示データを受けると、前記プロファイルの多義語の重要度を低下させて該プロファイルを修正するプロファイル修正手段と、前記出力した情報資源に対し前記他のプロファイルに基づいてフィルタリング処理を行い、該情報資源が選択され、かつ前記個人情報管理部が前記両属性情報を不一致と判定すると、前記他のプロファイルが異なった意味を有する前記多義語を含むと判定する多義語プロファイル検知手段と、前記情報源から新たな情報資源が供給されると、該情報資源に対し前記修正したプロファイル及び前記多義語を含むと判定された他のプロファイルに基づいてそれぞれフィルタリング処理を行い、前記他のプロファイルに基づいて前記新たな情報資源が選択されると該情報資源を前記ユーザ端末への出力対象から除去する情報資源除去手段と、を有することを特徴とするフィルタリング装置。
【0023】
〈請求項の説明〉
ユーザの属性情報とは、例えば、コンピュータエンジニアやファッション業界で働く人といった属性であるが、ユーザを予め決められた条件で分類するものであればどのようなものであってもよい。また、ユーザの属性に対する相関関係を示す情報とは、例えば、「ファッション関係で働く人」と「コンピュータ業界で働く人」との関係は、「あまり強い相関がない」といった情報であるが、相関関係を示す情報であればどのような情報であってもよい。
【0024】
特定ユーザ用情報フィルタリング部は、先ず、特定のユーザが入力したプロファイルに基づくフィルタリング結果を出力する。そして、特定のユーザはこの結果に対して、興味の有無を入力する。これにより、特定ユーザ用情報フィルタリング部は、特定のユーザが興味がないと入力した情報資源に対して、他のプロファイルを用いてフィルタリング処理を行う。次に、特定ユーザ用情報フィルタリング部は、他のユーザと特定のユーザとの属性関係を個人情報管理部に問い合わせる。
【0025】
これにより、個人情報管理部は、ユーザ情報格納部のユーザ属性情報を参照し、双方のユーザに属性の一致があるかを調べ、その結果を特定ユーザ用情報フィルタリング部に通知する。「不一致」の結果であった場合、特定ユーザ用情報フィルタリング部は、他のプロファイルが異なる意味の多義語を含むと判定する。
【0026】
請求項の発明は、このように構成されていることにより、ユーザがプロファイルを修正する等の操作を繰り返さなくても、精度の高い検索結果を得ることができる。
【0029】
【発明の実施の形態】
以下、本発明の実施の形態を図面を用いて詳細に説明する。
《具体例1》
〈構成〉
図1は本発明の具体例1による情報フィルタリング方法を示すフローチャートであるが、この説明に先立ち、情報フィルタリング方法を実施するための情報フィルタリング装置の説明を行う。
【0030】
図2は本発明の情報フィルタリング装置の具体例1を示す構成図である。
図の装置は、ユーザ情報格納部1、個人情報管理部2、インタフェース管理部3、情報フィルタリング部4、メッセージ処理部5、情報提供部6からなり、これら構成はコンピュータ上に実現されている。
【0031】
ユーザ情報格納部1は、コンピュータのハードディスク装置等の記憶装置に設けられ、複数のユーザの属性情報を格納する格納部である。ここで、ユーザの属性とは、例えばユーザの職業といったものである。その一例としては、あるユーザは「ファッション関係の会社に勤める人」であり、他のユーザは「コンピュータエンジニア」といった情報である。
【0032】
個人情報管理部2は、ユーザ情報格納部1に格納された複数のユーザの属性間の相関関係を示す情報を管理する機能を有している。例えば、「ファッション業界で働く人」と「コンピュータ業界で働く人」との関係は「あまり相関がない」といった情報を有している。
【0033】
インタフェース管理部3(3a,3b,3c)は、複数のユーザ20a,20b,20c毎に設けられ、各ユーザの入力を受け付け、そのユーザが入力した情報を情報フィルタリング部4に送り、また、情報フィルタリング部4から送られてきたフィルタリング結果を対応したユーザに表示する機能を有している。
【0034】
情報フィルタリング部4(4a,4b,4c)は、インタフェース管理部3に対応して各ユーザ毎に設けられ、対応したユーザのプロファイルと情報源10とを比較して、パターンマッチに基づくフィルタリングを行う機能と、ユーザのフィードバックによりプロファイルを修正する機能を持つ。また、ユーザが入力したプロファイル文を基底語に変換し、特徴ベクトルを生成する機能を有している。
【0035】
即ち、情報フィルタリング部4は、特定のユーザ(自情報フィルタリング部4に対応したユーザ)が入力したプロファイルを管理し、このプロファイルに基づき、情報源10からフィルタリングを行うと共に、このフィルタリング結果を出力したことによる特定のユーザからの興味の有無によりプロファイルを修正し、かつ、特定のユーザが興味がないと指示した情報資源に対して、興味があるユーザを探し、このユーザが特定のユーザと相関関係があるかを個人情報管理部2に問い合わせ、個人情報管理部2より相関関係がないという応答があった場合は、特定のユーザのプロファイルによるフィルタリング結果から、他のユーザのプロファイルでフィルタリングした結果を削除して特定のユーザへのフィルタリング結果とする機能を有している。
【0036】
尚、図面上では、ユーザ20、インタフェース管理部3、情報フィルタリング部4は、それぞれ三つしか示していないが、実際には4人以上のユーザが存在し、かつ、これらのユーザに対応してインタフェース管理部3および情報フィルタリング部4が設けられているとする。
【0037】
メッセージ処理部5は、情報フィルタリング部4、情報提供部6、個人情報管理部2の通信の場を提供する機能を有している。また、情報提供部6は、情報源10中の情報資源の識別子(Identifier(id))をメッセージ処理部5に送る機能を有している。ここで、情報資源とは、情報源10に含まれる情報の一単位を示し、識別子は、各情報資源を識別するための情報である。また、本具体例では、この識別子を文書識別子と呼ぶ。
【0038】
情報源10は、上述したように複数の情報資源からなり、文書やイメージのデータを含んでいる。そして、フィルタリング装置は、コンピュータネットワークを通じて情報源10に接続されている。
【0039】
上記のインタフェース管理部3〜情報提供部6は、それぞれの機能をコンピュータ上で実現するためのプログラムと、これらのプログラムを実行するプロセッサやメモリ等により各機能が構成されている。
【0040】
〈動作〉
具体例1では、ユーザ(これをユーザ20aとする)が、コンピュータのデータベースに関する本の中で、「モデル」に関係する雑誌の記事をフィルタリングしたいとする。ユーザ20aがフィルタリング装置にプロファイルを登録しておけば、登録後、情報フィルタリング装置は、「モデル」に関係する雑誌の記事が、情報源の中に入ってくる毎に、その雑誌の記事をユーザに配送する。
【0041】
以下、具体例1の動作を図1に沿って説明する。
【0042】
[ステップS1]ユーザの起動コマンドにより、情報フィルタリング装置が起動する。この時、情報フィルタリング装置は、ユーザ20のデータの入力待ちとなる。今、ユーザ20aがプロファイルとして、「モデル」という語をインタフェース管理部3aを介して入力したとする。また、ユーザ20aの個人情報としては、「コンピュータエンジニア」であることを入力する。
【0043】
[ステップS2]インタフェース管理部3aは、上記ステップS1で入力されたプロファイルを、情報フィルタリング部4aに送る。情報フィルタリング部4aは、ユーザ20aのプロファイルから特徴ベクトルを作成する。
【0044】
ここで、情報フィルタリング部4aがフィルタリングを行うベクトル空間モデル、関連フィードバック(Relevance Feedback)について説明する。尚、ベクトル空間モデル、関連フィードバックは、情報フィルタリングを行うための一つの手法として用いたものであり、これ以外にも、他の方法、例えば情報検索における確率モデル、機械学習を用いてプロファイルを洗練するといったことなどでも実現が可能である。
【0045】
ベクトル空間モデルはテキストの中の単語をベクトルとしてとらえる検索手法である(例えば、これについては文献[3]に示す)。テキストを単語に分割して、その単語に重要度を割り当て、特徴ベクトルとする。ここで、一般に、分散ネットワーク上では、情報資源とは、画像データ、動画像データ、圧縮ファイルなどを含むが、本具体例では、情報資源をテキストに限定する。また、質問文には、自然言語文を用い、テキスト(あるいは文書)の単語と同様、特徴ベクトルに変換する。検索結果は、テキストと質問文の類似度をランキングしたものである。ここで、以後、単語を基底語と呼ぶ
【0046】
あるテキストのベクトルを次式で表現する。
図3は、ベクトル空間モデルの演算式の説明図である。
図3中、(1)はあるテキストのベクトルDWを示す式である。(1)において、dw1,dw2,…,dwtは、そのテキストの基底語の重要度である。
【0047】
同様に、質問文のベクトルQを(2)式で表現する。ここで、q1,q2,…,qtは、質問文の基底語の重要度である。
【0048】
また、基底語の重要度(文書Diの語Tkのベクトルの重み)は、(3)式で与えられる。ここで、各記号の意味は以下の通りである。
・Wik:文書Diの基底語Tkのベクトルの重み
・tfik:文書Diの基底語Tkの出現数
・N:収集された文書の総数
・nk:収集された文書の中で、基底語Tkが含まれている文書の数
【0049】
また、類似度Simは、(4)に示す式となる。ここで、(5)中のθのようなスレッシュホールドが存在する。検索結果は、(3)式を満たしたものの中で類似度が大きい順序に表示される。
【0050】
検索された文書をユーザが評価して、ユーザが関連あるといった文書のベクトルを質問文にフィードバックをかけて、検索式を洗練する方法を関連フィードバックという(この関連フィードバックについては、例えば文献[3]に示されている)。
【0051】
関連フィードバックは様々な方法が提案されているが、一般に、例えば、文献[3]に示すような(6)式が用いられる。ここで、rel_docsとは、検索された文書の中で、ユーザが興味のある文書の特徴ベクトルである。また、nonrel_docsとは、検索された文書の中で、ユーザが興味がない文書の特徴ベクトルである。一般には、α、β、γに、値8、16、4をそれぞれ用いる。
【0052】
[ステップS3]情報提供部6は、情報源10から送られてきた情報資源の文書識別子をメッセージ処理部5に送る。
【0053】
[ステップS4]情報フィルタリング部4aは、情報資源の文書識別子がメッセージ処理部5に入ってくると、フィルタリングしてその結果をインタフェース管理部3aに送る。ここで、フィルタリングは、上記ベクトル空間モデルの式(1)〜(5)で行われる。
【0054】
[ステップS5]インタフェース管理部3aは、フィルタリング結果をユーザに表示する。
【0055】
図4は、情報フィルタリング部4aの動作の説明図である。
この図の状態は、上記のステップS1〜S5までの処理の流れを示すものである。即ち、情報源10の中から、情報資源の識別子である文書識別子が情報提供部6を介して情報フィルタリング部4aに入力される。情報フィルタリング部4aは、このような文書識別子に対して、ユーザ20aのプロファイルを参照してフィルタリングを行い、フィルタリング結果を出力する。
【0056】
[ステップS6]ユーザ20aがフィルタリング結果を評価する。ここでは、ユーザ20aは、各情報資源に対して、その情報が興味があるかないかを入力する。
【0057】
[ステップS7]情報フィルタリング部4aが、ステップS6におけるユーザ20aの評価情報を元に、プロファイルを修正する。ここでは、プロファイルの修正を、関連フィードバックの式(6)で行う。
【0058】
[ステップS8]情報フィルタリング部4aは、ユーザ20aが興味がないと入力した記事に関して、その記事に興味があるユーザがいるかどうかをメッセージ処理部5に問い合わせる。
【0059】
[ステップS9]他の情報フィルタリング部4が、ステップS8のメッセージに応答したとする。ここでは、情報フィルタリング部4bが応答したとして、そのメッセージをメッセージ処理部5に送る。
【0060】
[ステップS10]情報フィルタリング部4aは、ステップS9で応答した情報フィルタリング部4bについて、ユーザ間の相関を個人情報管理部2に尋ねる。
【0061】
[ステップS11]個人情報管理部2が、ユーザ間の相関を答える。ここでは、個人情報管理部2はステップS10のメッセージに対して、ユーザ20aとユーザ20bとは「強い相関がない」ということをメッセージ処理部5に送る。
【0062】
ここで、ユーザ間の相関を求める具体的な方法を説明する。
図5は、ユーザの分類を示す説明図である。
図示のように、ユーザは「コンピュータ」、「ファッション」、「経済」等に分類され、「コンピュータ」に関係するユーザは、「ヒューマンインタフェース」、「データベース」、「コンピュータネットワーク」などのユーザに分類される。例えば、ここのユーザ20aは、「コンピュータ」という分類の中の「データベース」という分類の中に入る。
【0063】
個人情報管理部2では、図5に示すような関係において、ユーザの分類が一番上のレベルで異なっていたら、そのユーザ間は、相関がないとする。上記例の場合、ユーザ20aは「コンピュータ」の分類に属しており、一方、ユーザ20bは「ファッション」の分類に属しているので、ユーザ20aとユーザ20bとは相関がないといえる。
【0064】
[ステップS12]情報フィルタリング部4aは、修正したプロファイルと他のユーザ20bのプロファイルを用いて、新たな情報資源に対しフィルタリングを行う。ここでは、情報フィルタリング部4aは、情報フィルタリング部4bのプロファイルによってフィルタリングされる新たな情報資源を除いてフィルタリングを行う。このとき、ユーザ20a、インタフェース管理部3a、情報フィルタリング部4a,4b、情報提供部6、情報源10の関係は以下のようになる。
【0065】
図6は、フィルタリングの順番を示す説明図である。
図示のように、情報提供部6より提供された情報源10の文書識別子(情報資源)に対して、先ず、情報フィルタリング部4bのプロファイルによるフィルタリング(除外のフィルタリング)を行い、次いで、情報フィルタリング部4aのプロファイルによるフィルタリングを行って、インタフェース管理部3aを介してユーザ20aに結果が出力される。
【0066】
[ステップS13]ユーザ20aがフィルタリングを終了するかを入力する。
【0067】
[ステップS14]ステップS13において、ユーザ20aがフィルタリングを終了することを入力したならば、フィルタリング装置はフィルタリングを終了する。
【0068】
〈効果〉
以上のように、具体例1によれば、ユーザのプロファイルの中の基底語(あるいはキーワード)でその基底語を違う意味のプロファイルとして用いている、他のユーザのプロファイルを探して、そのプロファイルを利用することによって、ユーザに関係のない情報資源を削除することができ、その結果、フィルタリングの精度を向上させることができる。
【0069】
《具体例2》
具体例2は、ソーシャルフィルタリング(socail filtering)あるいは協調的フィルタリング(colaborative filtering)と呼ばれるフィルタリングの機能を用いてユーザ間の相関関係を判定するようにしたものである。
【0070】
ここで、ソーシャルフィルタリングとは次のようなフィルタリングである。即ち、情報フィルタリングの要求者であるユーザと、他の複数のユーザが、同一の情報資源に対して評価を行い、この評価値に基づき、他の複数のユーザのうち、要求者であるユーザと類似度の最も高いユーザを抽出し、情報フィルタリングの要求者であるユーザが未評価である情報資源に対して、類似度の最も高いユーザがこの情報資源をどう評価したかという情報を用いて、未評価の情報資源をフィルタリングするものである。
【0071】
このソーシャルフィルタリングとは、ユーザの推薦情報や個人の好みの情報を集めて、それに基づいてフィルタリングする方法である。ソーシャルフィルタリングでは、映画の情報や音楽の情報のような、その内容を計算機上で表現するのに難しいメディアに対して行われている。例えば、音、写真、芸術、ビデオ、マルチメディア情報などは、ユーザのプロファイルに関連した属性を見つけ、内容に基づくフィルタリングを行うのは難しい。そのため、そうした情報にはソーシャルフィルタリングが有効である。
【0072】
具体的には、ソーシャルフィルタリングでは次のような処理を行う。
1.ユーザが、入力情報と情報資源(ここでは、本、ビデオ、音楽など)毎の評価情報を保存する。
2.情報フィルタリング装置が、新しく登録されたユーザの評価結果と他のユーザの評価結果の相関関係を計算し、そのユーザがまだ見ていない情報資源(ここでは、本、ビデオ、音楽など)の評価値を予測する。
3.新しい情報資源が登録されると、上記2.の相関関係を計算して、その情報資源に対するユーザの評価値を予測する。
4.評価値の高い情報資源をユーザに提示する。
5.新しい情報資源が登録される毎に、上記の2.〜4.の処理を繰り返す。
【0073】
〈構成〉
図7は、具体例2の構成図である。
図の装置は、インタフェース管理部3、情報フィルタリング部4、メッセージ処理部5、情報提供部6、ユーザ評価情報格納部7、ソーシャルフィルタリング部8からなる。ここで、インタフェース管理部3〜情報提供部6は、上記具体例1と同様である。
【0074】
ユーザ評価情報格納部7は、任意のユーザがある情報資源に対して評価した情報を格納する。また、ソーシャルフィルタリング部8は、次のような機能を有している。
【0075】
1.情報資源毎にユーザの評価値をユーザ評価情報格納部7に保存する。
2.上記1.で入力されたユーザの評価値と他のユーザの評価値の相関関係を計算し、そのユーザがまだ見ていない情報資源の評価値を予測する。
3.評価値の高い情報資源をユーザに提示する。
4.新しい情報資源が登録される毎に、上記の2.3.を繰り返す。
【0076】
このように、ソーシャルフィルタリング部8は、あるユーザのプロファイルに類似した、他のユーザのプロファイルを選ぶ機能を有している。更に、あるユーザの興味に一致しない他のユーザのプロファイルを見つける機能を有している。
【0077】
〈動作〉
具体例2においても、ユーザは、コンピュータの分野でデータベースの関係の雑誌の中で、「モデル」に関係する雑誌の記事をフィルタリングしたいとする。ユーザがこのフィルタリング装置にプロファイルを登録しておけば、情報フィルタリング装置は「モデル」に関係する雑誌の記事が、情報源10から情報提供部6に入ってくる毎に、その雑誌の記事をユーザに配送する。
【0078】
図8は、具体例2の動作の主要部を示すフローチャートである。
ここでは、具体例1におけるステップS10の後の状態であるとする。
【0079】
[ステップS1]情報フィルタリング部4は、ユーザ20が興味がないといった記事に関して、その記事に興味があるユーザがいるかどうかというメッセージをメッセージ処理部5に送る。
【0080】
[ステップS2]ソーシャルフィルタリング部8がステップS1のメッセージの返答をメッセージ処理部5に送り、適合する情報フィルタリング部4を探す。ここでは、ソーシャルフィルタリング部8が、情報フィルタリング部4b〜4fを見つけたとする。
図9は、その状態の説明図である。
【0081】
[ステップS3]ソーシャルフィルタリング部8は、ユーザ20aの興味に一致しない情報フィルタリング部4を見つける。これは、図9中に示す式(7)によって、情報フィルタリング部4b〜4fとの類似度を計算し、類似度が一番低いものがユーザ20aの興味に一致しない情報フィルタリング部4を得る。ここでは、ユーザの興味に一致しない情報フィルタリング部4が、情報フィルタリング部4cであったとする。
【0082】
ここで、「ユーザ20aの興味に一致しない情報フィルタリング部4の見つけ方」について説明する。先ず、あるユーザの評点Uxと他のあるユーザの評点Uyの類似度を、例えば、図9中の式(7)から計算することができる。尚、この詳細については、文献[2]の中でも示されている。
【0083】
図中のrxyは類似度を示し、また、上線付きのUx、Uyは、それぞれユーザの評点の平均、他のユーザの評点の平均を表している。ここで、評点とは、ユーザがある情報資源につけた興味の度合いを示す。この興味の度合いは、例えば、評点を、1,2,3,4,5,6,7という数字で付けられ、1がユーザがその情報資源に対して全く興味がないことを示し、7がユーザがその情報資源に対して非常に興味があることを示す。
【0084】
このような式は、ポアソンrアルゴリズム(Pearson r Algorithm)と呼ばれている。上記式で用いたrxyを全ての他のユーザに適用し、各ユーザ間の興味の近さを求める。
【0085】
[ステップS4]ステップS3によって、見つけた情報フィルタリング部4を用いてフィルタリングを行う。ここでは、情報フィルタリング部4aは、情報フィルタリング部4cのプロファイルによってフィルタリングされる情報資源を除いてフィルタリングを行う。この時のフィルタリングの順番は次のようになる。
【0086】
図10は、フィルタリングの順番を示す説明図である。
図示のように、情報提供部6より提供された情報源10の文書識別子(情報資源)に対して、先ず、情報フィルタリング部4cのプロファイルによるフィルタリング(除外のフィルタリング)を行い、次に、情報フィルタリング部4aのプロファイルによるフィルタリングを行い、そのフィルタリング結果を、インタフェース管理部3aを介してユーザ20aに出力する。
【0087】
〈効果〉
以上のように、具体例2によれば、ユーザのプロファイルの中の基底語で、その基底語を違う意味として使っているプロファイルを、ソーシャルフィルタリングの機能によって探し、そのプロファイルを利用することによって、ユーザに関係のない情報資源を削除することができる。その結果、プロファイルを修正するためのフィードバックの繰り返し回数が少ない場合でも、フィルタリングの精度をよくすることができるという効果がある。
【0088】
《利用形態》
本発明は、上記具体例に限定されるものではなく、以下の変形例についても適用が可能である。
【0089】
・情報提供部6の代わりに、通常の情報検索システムに接続しても適用可能である。
【0090】
・情報提供部6の代わりに、複数の情報源(例えば、新聞社、出版社、通信社など)からテキストやイメージなどの記事の配送を受けるシステムに接続しても適用可能である。
【0091】
・具体例1、2では、情報フィルタリングの手法にベクトル空間モデルを用いたが、情報検索で用いられている確率モデルを用いてもよい。
【0092】
・具体例1、2では、ユーザのプロファイルを修正する手法として、関連フィードバックを用いたが、機械学習の手法を用いてもよい。
【0093】
・具体例1、2では、情報源10が一つであったが、複数の情報源であっても適用可能である。
【0094】
・具体例2で用いたポアソンrアルゴリズムの代わりに、ユーザ間の相関関係を求める他のアルゴリズムを用いてもよい。
【図面の簡単な説明】
【図1】本発明の具体例1による情報フィルタリング方法のフローチャートである。
【図2】本発明の具体例1による情報フィルタリング装置の構成図である。
【図3】ベクトル空間モデルの演算式の説明図である。
【図4】本発明の具体例1における情報フィルタリング部の動作の説明図である。
【図5】ユーザの分類を示す説明図である。
【図6】本発明の具体例1におけるフィルタリングの順番を示す説明図である。
【図7】本発明の具体例2による情報フィルタリング装置の構成図である。
【図8】本発明の具体例2による情報フィルタリング方法の要部のフローチャートである。
【図9】本発明の具体例2における情報フィルタリング部の選択処理の説明図である。
【図10】本発明の具体例2におけるフィルタリングの順番を示す説明図である。
【符号の説明】
1 ユーザ情報格納部
2 個人情報管理部
3 インタフェース管理部
4 情報フィルタリング部
7 ユーザ評価情報格納部
8 ソーシャルフィルタリング部
10 情報源
20 ユーザ

Claims (4)

  1. 特定のユーザのユーザ端末から多義語を含むプロファイルを設定し、情報源から供給される情報資源に前記プロファイルの前記多義語が含まれていると該多義語の重要度に応じたフィルタリング処理を行い、該処理により前記情報資源が選択されると該情報資源を前記ユーザ端末に出力する情報フィルタリング方法において、
    前記ユーザ端末から前記出力された情報資源に対し興味無しの指示データが送られてくると、前記プロファイルの多義語の重要度を低下させて該プロファイルを修正すると共に、
    前記選択した情報資源に対し他のユーザの他のユーザ端末の設定した他のプロファイルに基づいてフィルタリング処理を行い、該情報資源が選択されると、更に前記特定のユーザ及び前記他のユーザの各属性情報を比較して、該両属性情報が不一致であると、前記他のプロファイルが異なった意味を有する前記多義語を含むと判定し、
    その後、前記情報源から新たな情報資源が供給されると、該新たな情報資源に対し前記修正したプロファイル及び前記多義語を含むと判定された他のプロファイルに基づいてそれぞれ前記フィルタリング処理を行い、前記他のプロファイルに基づいて前記新たな情報資源が選択されると該情報資源を前記ユーザ端末への出力対象から除去する、ことを特徴とする情報フィルタリング方法。
  2. 前記属性情報は、職業分類、所属業界のいずれかを示すことを特徴とする請求項1記載の情報フィルタリング方法。
  3. 特定のユーザのユーザ端末から多義語を含むプロファイルが設定され、情報源から供給される情報資源に前記プロファイルの前記多義語が含まれていると該多義語の重要度に応じたフィルタリング処理を行い、該処理で前記情報資源を選択すると前記ユーザ端末に該情報資源を出力する特定ユーザ用情報フィルタリング部と、
    少なくとも1以上の他のユーザの他のユーザ端末から他のプロファイルが設定され、前記情報源から供給される情報資源に対し前記他のプロファイルに基づいてフィルタリング処理を行い、該処理で前記情報資源を選択すると前記他のユーザ端末に該情報資源を出力する他のユーザ用情報フィルタリング部とを備えるフィルタリング装置において、
    前記特定のユーザの属性情報と前記他のユーザの属性情報とが格納されているユーザ情報格納部と、
    前記ユーザ情報格納部から前記特定ユーザ及び前記他のユーザの各属性情報を取り込み、該両属性情報の一致、不一致を判定する個人情報管理部とを含み、
    前記特定ユーザ用情報フィルタリング部は、
    前記ユーザ端末から前記出力した情報資源に対し興味無しの指示データを受けると、前記プロファイルの多義語の重要度を低下させて該プロファイルを修正するプロファイル修正手段と、
    前記出力した情報資源に対し前記他のプロファイルに基づいてフィルタリング処理を行い、該情報資源が選択され、かつ前記個人情報管理部が前記両属性情報を不一致と判定すると、前記他のプロファイルが異なった意味を有する前記多義語を含むと判定する多義語プロファイル検知手段と、
    前記情報源から新たな情報資源が供給されると、該情報資源に対し前記修正したプロファイル及び多義語を含むと判定された前記他のプロファイルに基づいてそれぞれフィルタリング処理を行い、前記他のプロファイルに基づいて前記新たな情報資源が選択されると該情報資源を前記ユーザ端末への出力対象から除去する情報資源除去手段と、
    を有することを特徴とするフィルタリング装置。
  4. 前記属性情報は、職業分類、所属業界のいずれかを示すことを特徴とする請求項3記載のフィルタリング装置。
JP10016898A 1998-03-27 1998-03-27 情報フィルタリング方法および装置 Expired - Fee Related JP3692416B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10016898A JP3692416B2 (ja) 1998-03-27 1998-03-27 情報フィルタリング方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10016898A JP3692416B2 (ja) 1998-03-27 1998-03-27 情報フィルタリング方法および装置

Publications (2)

Publication Number Publication Date
JPH11282874A JPH11282874A (ja) 1999-10-15
JP3692416B2 true JP3692416B2 (ja) 2005-09-07

Family

ID=14266798

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10016898A Expired - Fee Related JP3692416B2 (ja) 1998-03-27 1998-03-27 情報フィルタリング方法および装置

Country Status (1)

Country Link
JP (1) JP3692416B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6334127B1 (en) * 1998-07-17 2001-12-25 Net Perceptions, Inc. System, method and article of manufacture for making serendipity-weighted recommendations to a user
US6321221B1 (en) 1998-07-17 2001-11-20 Net Perceptions, Inc. System, method and article of manufacture for increasing the user value of recommendations
US6412012B1 (en) 1998-12-23 2002-06-25 Net Perceptions, Inc. System, method, and article of manufacture for making a compatibility-aware recommendations to a user
US7461058B1 (en) 1999-09-24 2008-12-02 Thalveg Data Flow Llc Optimized rule based constraints for collaborative filtering systems
JP2001175665A (ja) * 1999-12-15 2001-06-29 Benetsuse Corp:Kk 最適情報提供システム及び方法
US20130262584A1 (en) * 2012-03-29 2013-10-03 Zoosk, Inc., a Delaware corporation System and Method for Displaying Information About Pairs of Matched Users
JP2014078113A (ja) * 2012-10-10 2014-05-01 Ntt Docomo Inc 情報処理装置、表示装置、情報処理システム、情報処理方法及び表示方法
CN109784979B (zh) * 2018-12-19 2023-06-16 中交(厦门)电子商务有限公司 一种大数据驱动的供应链需求预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3588510B2 (ja) * 1995-11-30 2004-11-10 株式会社東芝 情報フィルタリング装置
JPH1063679A (ja) * 1996-08-23 1998-03-06 Nippon Telegr & Teleph Corp <Ntt> 情報提供装置
JPH1069491A (ja) * 1996-08-28 1998-03-10 Nippon Telegr & Teleph Corp <Ntt> 情報配信方法及び情報配信処理装置

Also Published As

Publication number Publication date
JPH11282874A (ja) 1999-10-15

Similar Documents

Publication Publication Date Title
US7912868B2 (en) Advertisement placement method and system using semantic analysis
US20080097985A1 (en) Information Access With Usage-Driven Metadata Feedback
US20110167053A1 (en) Visual and multi-dimensional search
US20080077569A1 (en) Integrated Search Service System and Method
JP2013225319A (ja) 視覚的な多次元の検索
JP2009514075A (ja) 選択されたコンテンツアイテムをユーザーに提供する方法
JP2003114906A (ja) ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
US20100057559A1 (en) method of choosing advertisements to be shown to a search engine user
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
JP4375626B2 (ja) カテゴリ別のキーワードの入力順位を提供するための検索サービスシステムおよびその方法
JP2005107688A (ja) 情報表示方法及びシステム及び情報表示プログラム
JP3692416B2 (ja) 情報フィルタリング方法および装置
JPH11282875A (ja) 情報フィルタリング装置
JPH07152771A (ja) 利用者情報管理装置、情報フィルタ、情報分類装置、情報再生装置、情報検索装置及び仮名漢字変換装置
JP5367872B2 (ja) 選択されたコンテンツアイテムをユーザーに提供する方法
JP4087769B2 (ja) サーバ、及び関連語提案方法
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
CN112749328B (zh) 搜索方法、装置和计算机设备
JP2004240887A (ja) 検索情報表示システム及び検索キーワード情報表示方法及び検索キーワード情報表示プログラム
JP4544047B2 (ja) Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN111160699A (zh) 一种专家推荐方法及系统
JP5060020B2 (ja) コンテンツ発見装置
JPH11213000A (ja) インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体
JP2022137569A (ja) 情報管理システム
CN111831938A (zh) 信息显示方法、装置、电子设备及介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040706

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050301

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050531

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090701

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100701

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110701

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120701

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130701

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees