JPH11514764A - 所望のオブジェクトのカスタム化された電子識別のためのシステム - Google Patents

所望のオブジェクトのカスタム化された電子識別のためのシステム

Info

Publication number
JPH11514764A
JPH11514764A JP9517635A JP51763596A JPH11514764A JP H11514764 A JPH11514764 A JP H11514764A JP 9517635 A JP9517635 A JP 9517635A JP 51763596 A JP51763596 A JP 51763596A JP H11514764 A JPH11514764 A JP H11514764A
Authority
JP
Japan
Prior art keywords
user
target
profile
target object
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9517635A
Other languages
English (en)
Inventor
エス.エム. ハーツ,フレデリック
エム. アイスナー,ジェイソン
エム. スミス,ジョナサン
エル. サルツバーグ,スティーブン
Original Assignee
エス.エム. ハーツ,フレデリック
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エス.エム. ハーツ,フレデリック filed Critical エス.エム. ハーツ,フレデリック
Publication of JPH11514764A publication Critical patent/JPH11514764A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 本発明は、電子媒体環境における、ニュース記事などの所望のオブジェクトのカスタム化電子識別に関し、具体的には、例えば、各単語の、すべての記事において使用される全体的な度数と比較した、ある記事で現れる度数に基づいて、電子媒体における各ターゲットオブジェクトに対する「ターゲットプロファイル」と、様々なタイプのターゲットオブジェクトに対するユーザの関心のレベルを記述する、各ユーザに対する「ターゲットプロファイル関心サマリ」との両方を自動的に構築するシステムに関する。次いでシステムは、ターゲットプロファイルをユーザのターゲットプロファイル関心サマリと比較して評価して、各ユーザにとって最も関心のありそうなターゲットオブジエクトの、ユーザ別にカスタム化されたランクで順序付けされたリストを生成し、その結果ユーザは、電子媒体上でプロファイルされる過多のターゲットオブジェクトからこのシステムによって自動的に選択された、これらの関連性のある可能性のあるターゲットオブジェクトから選択を行い得る。ユーザのターゲットプロファイル関心サマリは、通信ネットワークによって相互接続される多くのユーザから構成される大規模なシステムにおいて、情報の配信を効率的に編成するために使用され得る。さらに、暗号化ベースの仮名代理サーバが提供され、ユーザのターゲットプロファイル関心サマリのプライバシーを、第三者がこのサマリにアクセスする能力、およびユーザを識別あるいはユーザに接触する能力に対する制御をユーザに与えることによって、確保する。

Description

【発明の詳細な説明】 所望のオブジェクトのカスタム化された電子識別のためのシステム 関連出願へのクロスリファレンス 本特許出願は、1994年11月28日出願の「SYSTEM AND METHOD FOR SCHEDULING B ROARDCAST OF AND ACCESS TO VIDEO PROGRAMS AND OTHER DATA USING CUSTOMERP ROFILES」と題された米国特許出願シリアル番号第08/346,425号の一部継続出願 である。上記出願は、本願と同一の譲受人に譲受されるものである。 発明の分野 本発明は、電子媒体環境における、ニュース記事などの所望のオブジェクトの カスタム化された電子識別に関する。具体的には、本発明は、例えば各単語につ いてのすべての記事中での全体の使用頻度に対する1つの記事での使用頻度など に基づいて、電子媒体において各ターゲットオブジェクトに関する「ターゲット プロファイル」を自動的に構成するとともに、様々な種類のターゲットオブジェ クトについてのユーザの関心度を記述する、各ユーザに関する「ターゲットプロ ファイル関心サマリー」を自動的に構成するシステムに関する。このシステムは さらに、ユーザのターゲットプロファイル関心サマリーに対してターゲットプロ ファイルを評価し、ユーザカスタム化されたランク順で、各ユーザが最も関心を 持ちそうなターゲットオブジェクトのリストを生成する。そのため、ユーザは、 電子媒体上でプロファイルされる(profile)過剰な数のターゲットオブジェク トからこのシステムが自動的に選択したこれらの関連がある可能性のあるターゲ ットオブジェクトから選択できるようになる。ユーザのターゲットプロファイル 関心サマリーを用いて、通信ネットワークによって相互接続される多くのユーザ からなる大規模なシステムにおいて情報の分配を効率的に組織することができる 。さらに、ユーザのターゲットプロファイル関心サマリーのプライバシーを確保 するために、第三者がこのサマリーにアクセスする能力およびユーザを識別する あるいはユーザと連絡をとる能力の制御をユーザに与えることによって、暗号に 基 づく代理(proxy)サーバが提供される。 問題点 ユーザが、情報の検索に過剰な時間およびエネルギーを費やす必要なく、関連 および関心のある情報にアクセスすることができるようになることが、電子媒体 の分野の問題点である。オンライン情報源などの電子媒体は、典型的には「記事 (article)」の形態で大量の情報をユーザに提供する。記事の各々は、特定の トピックに関する出版物の品目あるいは文書を含む。電子媒体における困難な点 は、ユーザに利用可能な情報量が圧倒的に多く、オンラインで接続されている記 事保管(repository)システムは、ユーザが関心を持つ記事だけに十分に簡単に アクセスできるようにする態様では組織されていない。ユーザは、関連する記事 を簡単に識別できないため、その記事へのアクセスができないか、あるいは、相 当量の時間およびエネルギーを費やしてすべての記事をすみからすみまで検索し ている、というのが現状である。さらに、ユーザがすみからすみまで検索をした としても、現在の情報検索技術では、必ずしも最も関連のある記事だけを正確に 抽出できるとは限らず、情報検索技術の機能上の制限のため、少ししか関連のな い記事も示されてしまう。既存のシステムでは、記事あるいはその他のターゲッ トオブジェクトの固有の品質を自動的に評価して、ユーザが関心を持つ可能性が あるとして識別された多数の記事あるいはターゲットオブジェクトを区別するシ ステムはない。 従って、情報取り出し(retrieval)の分野では、ユーザが過剰な量の情報の 中をナビゲートする(navigate)ことを可能にするシステムが長年必要とされて きている。インターネットなどの通信ネットワークの商業化に伴い、利用可能な 情報はますます増大している。ユーザ独自の好みおよび関心に合わせた情報配送 プロセスの商業化は、この問題点の究極の解決策である。しかし、今日までに提 案されている技術は、ユーザの関心に表面上のレベルでしか取り組んでいないも のであるか、あるいは、ユーザが必要以上の時間およびエネルギーを消費するこ とと引き換えに、さらなる深さおよび情報を与えるものである。多くの研究者達 は、従来の方法がこの点で欠けていることについては同意しているが、今日まで に、これらの問題点に全体論的に取り組むことに成功し、ユーザの好みおよび関 心を完全に把握してそれを反映させることができるシステムを提供した者はいな い。このことは、インターネット上で利用可能なオンラインサービスなどの実際 の商業に関して特に当てはまることである。かなりあるいは完全に受動的で、控 えめで、ユーザに対する要求がなく、なおかつ、ユーザの好みおよび関心を把握 してそれを忠実に表す精確で包括的な能力を有する情報取り出しシステムが必要 とされている。現在の情報取り出しシステムでは、ユーザが、煩わしいインター フェースを介して所望の情報取り出し動作を特定しなければならない。 ユーザは、情報を能動的に取り出すか、あるいはユーザに送られてくる情報を 受動的に受け取ることによって、コンピュータネットワーク上で情報を受け取り 得る。情報取り出しシステムのユーザが過剰な情報量の問題に直面しているよう に、個人あるいは組織からの不要な電子メールの標的とされたユーザも同じ問題 に直面している。理想的なシステムがあるとすれば、それは、電子メールで受信 したメッセージのうちで最も関連のあるメッセージだけを自動的に抽出し、且つ 、ネットワーク上で他人に自由に入手可能であってはならないユーザの好みの秘 密性を保護することによって、一方的に送りつけられる広告からユーザを守るシ ステムであろう。 出版物情報取り出しの分野の研究者達は、ユーザが、大きな一組の記事から関 心のある記事を選択することを可能にする効率的で正確な方法を見つけるために 相当な努力をささげてきた。最も広く用いられている情報取り出し方法は、キー ワード整合に基づく方法である。即ち、ユーザが、所望の記事だけに見られると 考える一組のキーワードを特定すると、情報取り出しコンピュータが、それらの キーワードを含む記事をすべて取り出すという方法である。このような方法は高 速ではあるが、信頼性がないことは明らかである。なぜなら、ユーザが正しいキ ーワードを思いついてるとは限らず、あるいは、そのキーワードが必要でない記 事の中で関連のない文脈または予期していない文脈で用いられている場合もある からである。その結果、情報取り出しコンピュータは、ユーザが必要としていな い記事を数多く取り出してしまう。キーワードの論理的組合せと、ワイルドカー ド検索パラメータの使用とは、キーワード検索の精度を向上する助けとはなるが 、 検索結果が不正確であるという問題点を完全に解決するものではない。 1960年代から、情報取り出しのための別のアプローチが開発され始めた。この 別のアプローチでは、ユーザに記事が示され、その記事にユーザが望む情報が含 まれているかどうかがユーザに質問されるか、あるいは、その記事に含まれてい る情報が、ユーザが望む情報にどのくらい近いかを数量化するよう求められる。 各記事は、記事に使用される単語のリストを含むプロファイルによって、あるい は、より進んだシステムでは、記事中の単語の使用頻度の表を含むプロファイル によって記述される。記事間の類似性の測定はそれらの記事のプロファイル間の 距離であるため、記事プロファイル間の測定された類似性を用いて、記事取り出 しを行うことができる。例えば、ある主題に関する情報を検索しているユーザは 、所望の情報の短い説明を書き込むことができる。情報取り出しコンピュータは 、リクエストについての記事プロファイルを生成し、その後、このリクエストに ついて生成されたプロファイルと類似したプロファイルを有する記事を取り出す 。その後、記事に含まれる情報がどれだけ所望の情報に近いかについて、取り出 された記事をユーザが能動的にあるいは受動的に評価する「関連性フィードバッ ク」を用いて、これらのリクエストを精製する(refine)ことができる。その後 、情報取り出しコンピュータは、この関連性フィードバック情報を用いてリクエ ストプロファイルを精製する。このプロセスは、ユーザが十分な記事を見つける かあるいは検索をやめたくなるまで繰り返される。 多くの研究者達が、ユーザが最も関心を持つ記事を選択する方法について考察 してきた。CHi-95 ProceedingsでPatti Maesらにより「Social Information fil tering:algorithms for automating'word of mouth'」と題された論文が発表さ れており、この論文には、音楽の選択を薦めるRingo情報取り出しシステムが記 載されている。Ringoシステムは、ユーザからの能動的フィードバックを必要と する。即ち、ユーザは、各音楽の選択についてどの程度好きかあるいは嫌いかを 手動で示さなければならない。Ringoシステムは、音楽の選択についてのユーザ による評点の完全なリストを維持し、どの選択が多数の人々によって好まれたか を見いだすことにより推薦を行う。しかし、Ringoシステムは、データベースの 構造化された記述などの、音楽についての利用可能な記述、あるいは、音楽批 評に含まれるテキストなどの利用可能な無料のテキストを利用していない。Proc . 9th IEEE Conf.on AI for ApplicationsでShethおよびMaesにより発表された 「Evolving agents for personalized information filtering」と題された論文 では、エージェントを用いて情報のフィルタリングを行うことが記載されており 、このエージェントは、遺伝的アルゴリズムを用いて、Usenetニュース記事を分 類するようにしている。このシステムでは、ユーザは、ニュースのカテゴリーを 規定しなければならず、ユーザは、選択された記事についての意見を能動的に示 す。彼らのシステムでは、キーワードのリストを用いて記事の組を表し、ユーザ の関心の記録は、遺伝的アルゴリズムを用いて更新される。 他の多くの研究者グループが、記事をブラウズ(browsing)するための、記事 クラスタの自動生成およびラベル付けについて考察してきた。Xerox Parcのグル ープが、15 Ann.Int'l SIGIR '92、ACM 318-329(Cuttingら、1992年)で「Sca tter/gather:a cluster-based approach to browsing large article collecti ons」と題された論文を発表している。このグループは、情報取り出し検索を行 う方法を開発し、彼らはこの方法を「分散/収集(scatter/gather)」と呼んで いる。この方法では、記事のコレクションを、少数のクラスタに「分散(scatte r)」し、その後、ユーザが、クラスタの短いサマリーに基づいて、分散された クラスタから1つ以上のクラスタを選択する。次に、選択されたクラスタを「集 め(gather)」てサブコレクションにする。その後、このプロセスが繰り返され る。このプロセスを一回繰り返すごとに、より焦点を絞った小さいコレクション が生成されると予想される。クラスタの「サマリー」は、クラスタ中に最も頻繁 に現れる単語と、クラスタの中心に最も近い記事のタイトルとを選ぶことによっ て生成される。しかし、ユーザからのフィードバックは収集あるいは格納されな いため、経時的な性能の向上は得られない。 Apple's Advanced Technology Groupは、「記事のパイル(pile)」の概念に 基づいたインタフェースを開発した。このインタフェースは、Mander、R.G.Sa lomonおよびY.Wongにより1992年にCHI '92 Conf.Proc.627-634で発表された 「A 'plle' metaphor for supporting casual organization of information in Human factors in computer systems」と題された論文に記載されている。「Co ntent awareness in a file system interface:implementing the 'pile' meta phor for organizing information」と題された別の論文が、Rose E.D.らによ って16 Ann.Int'l SIGIR '93、ACM 260-269に発表されている。Appleインタフ ェースは、単語の使用頻度を用いて、記事を自動的にファイルする。この自動的 ファイルは、ファイルしている記事に最も類似したパイルを選ぶことによって行 う。このシステムは、記事をクラスタ化してサブパイルにし、最も大きいTF/ IDF(ここで、TFは用語(単語)の使用頻度であり、IDFは逆文書頻度( inverse document frequency)である)を有する単語を選ぶことによってインデ ックス付けのためのキーワードを決定し、決定したキーワードを用いてパイルに ラベルを付ける機能を果たす。 多くの特許が情報取り出し方法について取り組んではいるが、いずれの特許も 、ユーザがどの記事にアクセスするかについての受動的なモニタリングに基づい た、ユーザの関心の記録は開発していない。これらの特許に記載されたいずれの システムも、多くのコンピュータに分配された記事を高速で取り出すことを可能 にするコンピュータアーキテクチャを与えるものではない。また、これらの特許 に記載されたいずれのシステムも、このような記事取り出し/整合方法を商業目 的に用いる場合の問題点、あるいは、ユーザを共通の関心と整合させる場合また はユーザの関心の記録を開発する場合の問題点には取り組んでいない。Changら に発行された米国特許第5,321,833号は、ユーザが情報取り出しの問い合わせ(q uery)に用いる用語を選択し、異なる用語の相対的重み付けを特定する方法を教 示している。Changのシステムは、その後、多数の重み付け基準レベルを計算す る。Landauerらに発行された米国特許番号第5,301,109号は、異なる単語間の相 関を表す「潜在的ベクトル」(SVDベクトルまたはPCAベクトル)を構成す ることによって多数の言語の記事を取り出す方法を教示している。Grahamらに発 行された米国特許番号第5,331,554号は、問い合わせを判断ツリーのノードと比 較することによりマニュアルの一部分を取り出す方法を開示している。米国特許 番号第5,331,556号は、形態学的品詞情報を得るための技術であって、同じ単語 の異なる形態(例えば、「article」と「articles」)の類似性を利用する技術 に取り組んでいる。 従って、現在の所、ユーザが、過剰な時間およびエネルギーを費やす必要なく 、ユーザに関連および関心のある情報にアクセスすることを可能にする、電子媒 体環境で動作可能な情報取り出し/配送システムはない。 解決策 電子媒体環境における所望のオブジェクトのカスタム化された電子識別のため のシステムであって、ユーザが、過剰な時間およびエネルギーを費やす必要なく ユーザに関連および関心のあるターゲットオブジェクトにアクセスすることを可 能にするシステムによって、上記問題点は解決されるとともに、当該技術分野の 技術的進歩が達成される。ターゲットオブジェクトのプロファイルは、電子媒体 上に格納され、データ通信ネットワークを介してアクセス可能である。多くの応 用では、ターゲットオブジェクトは本質的に情報を提供するものであるため、タ ーゲットオブジェクト自体が電子媒体上に格納され得、データ通信ネットワーク を介してアクセス可能であり得る。 本明細書での説明のために、関連のある用語の定義を以下に挙げる。(a.)ユ ーザによるアクセスのために利用可能なオブジェクトであって、本質的に物理的 あるいは電気的なものであり得るオブジェクトを、「ターゲットオブジェクト」 と呼ぶ;(b.)そのターゲットオブジェクトの属性を示すデジタル的に表された プロファイルを、「ターゲットプロファイル」と呼ぶ;(c.)ターゲットオブジ ェクトを探しているユーザを、「ユーザ」と呼ぶ;(d.)年齢、郵便番号などの 、そのユーザの属性を保持するプロファイルを、「ユーザプロファイル」と呼ぶ ;(e.)ユーザが好きなおよび/または嫌いなターゲットオブジェクトのデジタ ルプロファイルの要約(summary)を、そのユーザの「ターゲットプロファイル 関心サマリー」と呼ぶ;(f.)属性のコレクションからなるプロファイルであっ て、例えば、ユーザがこの属性コレクションと類似したプロファイルを有するタ ーゲットオブジェクトを好むようなプロファイルを、「検索プロファイル」と呼 び、文脈によっては「問い合わせ」あるいは「問い合わせプロファイル」と呼ぶ こともある;(g.)一組の検索プロファイルを含むターゲットプロファイル関心 サマリーの特定の実施形態を、ユーザの「検索プロファイルセット」と呼ぶ;( h.) 類似したプロファイルを有するターゲットオブジェクトのコレクションを、「ク ラスタ」と呼ぶ;(i.)クラスタ中のすべてのターゲットオブジェクトの属性の 平均をとることによって形成される集合プロファイルを、「クラスタプロファイ ル」と呼ぶ;(J.)クラスタ中のすべてのターゲットオブジェクトのプロファイ ルの統計的分散を計算することによって決定される実数を、「クラスタ分散」と 呼ぶ;(k.)クラスタ中の任意の2つのターゲットオブジェクトのプロファイル 間の最大距離を計算することによって決定される実数を、「クラスタ直径」と呼 ぶ。 本発明の所望のオブジェクトの電子識別のためのシステムは、例えば各単語に ついてのすべての記事中での全体の使用頻度に対する1つの記事での使用頻度な どに基づいて、電子媒体において各ターゲットオブジェクトに関する「ターゲッ トプロファイル」を自動的に構成するとともに、様々な種類のターゲットオブジ ェクトについてのユーザの関心度を記述する、各ユーザに関する「ターゲットプ ロファイル関心サマリー」を自動的に構成する。このシステムはさらに、ユーザ のターゲットプロファイル関心サマリーに対してターゲットプロファイルを評価 し、ユーザカスタム化されたランク順で、各ユーザが最も関心を持ちそうなター ゲットオブジェクトのリストを生成する。そのため、ユーザは、電子媒体上で利 用可能な過剰な数のターゲットオブジェクトからこのシステムが自動的に選択し たこれらの関連がある可能性のあるターゲットオブジェクトから選択できるよう になる。 人々は多様な関心を有しているため、一人のユーザのターゲットプロファイル 関心サマリーは、関心を持っている多数の分野を示さなければならない。これは 、例えば、各々の検索プロファイルがユーザが関心を持っている分野のうちの1 つを識別する一組の個々の検索プロファイルによって、このターゲットプロファ イルを構成することなどの方法で行われる。各ユーザには、ユーザのターゲット プロファイル関心サマリーによって記述されるようなユーザの関心と最も密接に 整合するプロファイルを有するターゲットオブジェクトが与えられる。ユーザの ターゲットプロファイル関心サマリーは、各ユーザの関心の変化を反映するため に、常に自動的に更新される。さらに、ターゲットオブジェクトは、互いの類似 性に 基づいて、例えば、ターゲットオブジェクトが出版物である場合にはそれらの記 事のトピックの類似性に基づいて、クラスタにグループ分けされ得るとともに、 ターゲットオブジェクトの各クラスタについて自動的にメニューが生成され得、 ユーザが、すべてのクラスタの中をナビゲートして、関心のあるターゲットオブ ジェクトの場所を手動で特定することを可能にする。機密性およびプライバシー の理由で、特定のユーザが、ユーザのターゲットプロファイル関心サマリーに記 録された関心のすべては公開したくないと考える場合もある。これらの関心がユ ーザの購買パターンによって決定される場合は特にそうである。ユーザは、ユー ザの政治的行為、宗教的行為、財政的行為、あるいは購買行為に関する情報など 、ターゲットプロファイル関心サマリーのすべてあるいはその一部を秘密にして おきたいと考える場合もある。実際に、購買行為に関する機密性は、多くの州の 法律で定められたユーザの権利である。従って、ユーザのターゲットプロファイ ル関心サマリーのデータを、ユーザの承諾を得ずに、ユーザの希望に反して公開 されてしまうことがないようにすることが必要である。それと同時に、ターゲッ トオブジェクトのプロバイダおよび消費者がともにターゲットオブジェクトとユ ーザとの整合によって得られる利益を望んでいる場合には、この整合を行う関連 のサーバが、ユーザのターゲットプロファイル関心サマリーにアクセスできるよ うにしなければならない。本明細書で開示するシステムは、情報プロバイダとユ ーザとの間の仲介役を果たす代理サーバを用いることによって、このプライバシ ーの問題に対する解決策を与えるものである。代理サーバは、暗号技術を用いる ことによって、ユーザの真のアイデンティティと仮名とを区別する。代理サーバ はまた、ユーザのターゲットプロファイル関心サマリーおよび/またはユーザプ ロファイルへのアクセスをユーザ自身が制御することを可能にする。例えば、業 者および広告業者がこのような情報の提供を望んでいる場合、ユーザは、おそら く現金あるいはその他の報酬と引き換えにこの情報を提供することなどが可能と なる。業者は、これらのプロファイルを購入して、特定のユーザを広告の標的に し得る。あるいは、業者は、該当する個々のユーザを識別するための十分な情報 を含んでいない部分的なユーザプロファイルを購入し、その結果得られた特定の ユーザプロファイルのデータベースで標準的な種類の人口統計学的分析および市 場 調査を行い得る。 本発明の好適な実施形態では、所望のオブジェクトのカスタム化された電子識 別のためのシステムは、ユーザの関心およびターゲットオブジェクトの特性を記 述するプロファイル情報を自動的に計算し、使用し、更新することによって、ユ ーザとターゲットオブジェクトとを正確に効率よく整合するための基本的な方法 論を用いている。ターゲットオブジェクトは、出版物、購入可能な品目などが可 能であり、自分以外の人であってもよい。ターゲットオブジェクトの特性は、電 子媒体上で、(デジタル)データとして格納されおよび/または表されおよび/ または示される。ターゲットオブジェクトの例としては、関心を引く可能性のあ る新聞記事、見たい映画、購入したい品目、受信したい電子メール、あるいは、 やりとりをしたい自分以外の人、などが可能であるが、これらに限定されるわけ ではない。これらのすべての場合、好適な実施形態における情報配送プロセスは 、ターゲットオブジェクトに関するプロファイルと、ユーザ(あるいは類似した ユーザ)が過去にポジティブフィードバックを与えたことのあるターゲットオブ ジェクトのプロファイルとの間の類似性の決定に基づいて行われる。ターゲット オブジェクトを記述する個々のデータおよびターゲットオブジェクトのプロファ イルを構成する個々のデータを、本明細書では、ターゲットオブジェクトの「属 性」と呼ぶ。属性は、例えば以下の4つのものを含み得るが、これに限定される わけではない。(1)長いテキスト(新聞記事、映画批評、製品説明書、あるい は広告);(2)短いテキスト(映画監督の名前、広告を設置した町の名前、記 事が書かれた言語の名称);(3)数値測定(製品価格、映画に与えられた評点 、書籍の読書レベル);(4)他の種類のオブジェクトとの関連(映画の出演俳 優リスト、文書を読んだ人のリスト)。これらの属性はいずれも、ターゲットオ ブジェクトの人気(アクセスされた頻度)あるいはユーザの満足度(受けた苦情 件数)などといった、ターゲットオブジェクトの質と相関し得るが、中でも、数 値属性が特にターゲットオブジェクトの質と相関し得る。 所望のオブジェクトのカスタム化された電子識別のためのシステムの好適な実 施形態は、電子媒体環境で動作し、これらのターゲットオブジェクトにアクセス する。これらのターゲットオブジェクトは、例えば、ニュース、電子メール、そ の他の出版文書、あるいは製品説明書などである。このシステムは、最も広い構 成の場合、3つの概念的モジュールを含む。これらの概念的モジュールは、多く の実現システムに分配される別個のエンティティであってもよく、あるいは、こ れらの概念的モジュールは、組み合わされて、より小さい、物理的エンティティ のサブセットにされる。本明細書に開示されるこのシステムの特定の実施形態は 、ターゲットオブジェクトの様々な記述属性に基づいて、電子媒体において各タ ーゲットオブジェクトに関する「ターゲットプロファイル」を自動的に構成する 第1のモジュールの使用を示している。第2のモジュールは、ユーザからの関心 フィードバックを用いて、各ユーザに関する「ターゲットプロファイル関心サマ リー」を、例えば複数の検索プロファイルからなる「検索プロファイルセット」 などの形態で構成する。検索プロファイルはそれぞれ、ユーザの関心が高い1つ のトピックに対応する。システムは、様々なターゲットオブジェクトにおける各 ユーザの関心を評価して、各ユーザに対して、そのユーザが最も関心を持ちそう なターゲットオブジェクトのカスタム化されたランク順のリストを生成するプロ ファイル処理モジュールをさらに含む。ここで、ユーザの関心の評価は、例えば これらのターゲットオブジェクトのターゲットプロファイルを、ユーザの検索プ ロファイルセットの検索プロファイルと比較することなどによって、ユーザのタ ーゲットプロファイル関心サマリーを参照することによって行われる。各ユーザ のターゲットプロファイル関心サマリーは、ユーザの関心の変化を反映するため に、常に自動的に更新される。 ターゲットオブジェクトには様々な種類のものがあり得る。一体の枠組(unif ied framework)で、幾つかの異なる種類のターゲットオブジェクトを一度に配 送および/またはクラスタ化する1つのシステムを用いることが有利である場合 もある。例えば、ある特定の小説に強い関心を示すユーザが、おそらく同様の種 類の、ある特定の映画にも関心を示す場合もある。幾つかのターゲットオブジェ クトが小説であり他のターゲットオブジェクトが映画であるシステムは、そのよ うな相関関係を発見することができ、その相関関係を活用して、例えばクラスタ 化などの目的で、特定の小説を特定の映画とともにグループ分けするか、あるい は、それらの小説に関心を示したユーザにそれらの映画を推薦する。同様に、あ る特定のワールドワイドウェブサイトに関心を示すユーザがある特定の製品にも 関心を示す場合、システムは、それらの製品をそれらのサイトと整合することが でき、それにより、それらの製品の業者に、例えば業者自身のサイトへのハイパ ーテキストリンクなどの形態で、ユーザが関心を示したサイトに広告を載せるよ う勧めることができる。 ターゲットオブジェクトを記述するプロファイルとユーザの関心を記述するプ ロファイルとの類似性を測る能力は、2つの基本的な方法、即ち、フィルタリン グおよびブラウズで適用することができる。フィルタリングは、多数のターゲッ トオブジェクトが電子媒体空間で記述される場合に有用である。これらのターゲ ットオブジェクトは、例えば、記事のわずかな部分しか読む時間のないユーザが 受け取るあるいは受け取る可能性のある記事であってもよい。例えば、AP通信 社のすべての項目、多数のニュースグループに送られたすべての項目、一組の新 聞のすべての広告、あるいは、一方的に送りつけられるたすべての電子メールを 受け取る可能性もあるが、そのような多くの記事を読む時間がある人あるいは読 みたいと考える人はほとんどいない。所望のオブジェクトのカスタム化された電 子識別のためのシステムのフィルタリングシステムは、ユーザが読みたいと思う 可能性のある記事のセットを自動的に選択する。このフィルタリングシステムの 精度は、ユーザがどの記事を読むかに注目することによって、および、ユーザが 各記事を読む深さの測定値を生成することによって、経時的に向上する。その後 、この情報を用いて、ユーザのターゲットプロファイル関心サマリーが更新され る。ブラウズは、記事などの多数のターゲットオブジェクトの小さいサブセット を選択する別の方法を提供する。記事は、ユーザが、1つのグループから、より 大きくより一般的なグループ、より小さくより具体的なグループ、あるいはより 密接に関連するグループに移動することによって、能動的に記事のグループをナ ビゲートすることができるように編成される。個々の記事はそれぞれ、その記事 自体だけからなる1要素のグループを形成する。そのため、ユーザは、より大き いグループの場合と同様、個々の記事におよび個々の記事からナビゲートするこ とができる。所望のオブジェクトのカスタム化された電子識別のためのシステム が用いるこれらの方法により、記事をクラスタにグループ分けすること、および クラ スタをグループ分けあるいは合併してもっと大きなクラスタにすることが可能と なる。これらのクラスタ階層は、メニュー作成(menuing)およびナビゲーショ ンシステムのための基礎となり、多数の記事の高速検索を可能にする。これと同 じクラスタ化技術は、電子媒体上でプロファイルできるいかなる種類のターゲッ トオブジェクトにも適用可能である。 記事取り出しのためのプロファイルの開発および利用というテーマにおいては 多くの変形があり、オンラインニュースクリッピングサービスの基本的な実現は 、本発明の好適な実施形態を表している。本明細書ではこの基本システムの変形 を開示しており、この変形としては、電子メールをフィルタリングするシステム 、より複雑な記述を有し得る、購入可能な品目などのターゲットオブジェクトの 取り出しのための拡張、多数のターゲットオブジェクトをブラウズし検索するた めのメニュー作成システムを自動的に形成し変更するシステム、および共通の関 心を持つ人々の仮想コミュニティを構成するシステム、などがある。これらのイ ンテリジェントフィルタおよびブラウザは、真に受動的なインテリジェントシス テムインタフェースを提供するために必要である。直観的ブラウズおよびフィル タリングを可能にするユーザインタフェースは、ユーザとターゲットオブジェク トとの間の類似点(affinity)を決定するためのインテリジェントシステムを示 す初めてのものである。詳細な包括的ターゲットプロファイルおよび特定ユーザ 用ターゲットプロファイル関心サマリーにより、システムが、ユーザによる情報 へのアクセスに関する特定の問い合わせの応答経路付け(responsive routing) を与えることが可能となる。このようにして生成された情報マップと、ユーザの ターゲットプロファイル関心サマリーを適用してユーザの情報消費パターンの予 測することとにより、データ通信ネットワークのトラフィックフローを最少にす る時間に、データ通信ネットワーク上の場所にデータを予めキャッシュすること が可能となる。これにより、ユーザに所望の情報が効率よく与えられる。それと ともに/あるいは、ユーザの関心に関連するターゲットオブジェクト(あるいは 、そのセグメント)だけを格納することにより貴重な記憶空間が節約される。 図面の簡単な説明 図1は、本発明の所望のオブジェクトのカスタム化された電子識別のためのシ ステムをユーザサーバシステムの一部分として実現することができる電子媒体シ ステムの典型的なアーキテクチャのブロック図である。 図2は、所望のオブジェクトのカスタム化された電子識別のためのシステムの 一実施形態のブロック図である。 図3および図4は、典型的なネットワークツリーを示す。 図5は、記事プロファイルおよび関連する階層メニューシステムを自動的に生 成する方法を説明するためのフロー図である。 図6から図9は、メニュー生成プロセスの例を示す。 図10は、ユーザのために記事をスクリーニングする際に、所望のオブジェク トのカスタム化された電子識別のためのシステムが行う動作ステップを説明する ためのフロー図である。 図11は、階層クラスタツリーの例を示す。 図12は、選択されたターゲットオブジェクトに対して特定のユーザが関心を 持つ可能性を決定するプロセスを説明するためのフロー図である。 図13Aおよび図13Bは、自動クラスタ化プロセスを説明するためのフロー 図である。 図14は、仮名(pseudonymous)サーバの使用を説明するためのフロー図であ る。 図15は、ユーザ問い合わせに応答して情報にアクセスするためのシステムの 使用を説明するためのフロー図である。 図16は、ユーザ問い合わせに応答して情報にアクセスするためのシステムが 分配されたネットワークの実現である場合の、そのシステムの使用を説明するた めのフロー図である。 詳細な説明 類似性の測定 この章では、2つのターゲットオブジェクトの間の類似性、具体的には、2つ のターゲットオブジェクトの各々について自動的に生成されるターゲットプロフ ァイルの間の類似性を自動的に測定する一般的な手順を説明する。この類似性決 定プロセスは、様々な状況でターゲットオブジェクトに適用可能である。比較さ れるターゲットオブジェクトとしては、例えば、テキスト文書、人間、映画、あ るいはミューチュアル・ファンド(mutual funds)などがあるが、これに限定さ れるわけではない。ターゲットオブジェクトを記述するターゲットプロファイル が、コンピュータシステムと関連するデータ記憶媒体上のデータ通信ネットワー クの1つ以上の場所に格納されると仮定する。計算された類似性の測定値は、人 間のユーザが大規模なコンピュータシステムを用いて所望のターゲットオブジェ クトの場所を特定することを可能にする機能を果たす別のプロセスへの入力とし ての役割を果たす。これらの別のプロセスは、様々なターゲットオブジェクトに 対する人間のユーザの関心を評価するか、あるいはそうでなければ、複数のター ゲットオブジェクトをクラスタ化して、論理的に一貫したグループに分ける。こ れらの別のプロセスによって用いられる方法は、原則的には、1台のコンピュー タあるいはコンピュータネットワーク上で実現され得る。これらの方法は、一緒 にあるいは別個に、様々な種類のデータベースシステムおよび情報取り出しシス テムの土台を形成する。 ターゲットオブジェクトおよび属性 古典的な情報取り出し(IR)技術では、ユーザは教養のある人間であり、該 当するターゲットオブジェクトは、コンピュータネットワークを介してユーザと 相互接続されたデータ記憶装置に格納されたテキスト文書である。即ち、ターゲ ットオブジェクトはすべてテキストからなり、従って、コンピュータネットワー ク内のデータ記憶装置にデジタル形式で格納される。しかし、現在の情報取り出 し技術では解決できない取り出しについての関連する問題点をもたらす他のター ゲットオブジェクトドメインもある。この他のターゲットオブジェクトドメイン (domain)を以下に示す。 (a.)ユーザが映画ファンであり、ターゲットオブジェクトがビデオテープで 入手可能な映画である。 (b.)ユーザが消費者であり、ターゲットオブジェクトが販売されている中古 車である。 (c.)ユーザが消費者であり、ターゲットオブジェクトが広告で販売されてい る製品である。 (d.)ユーザが投資家であり、ターゲットオブジェクトが公開取引されている 株、ミューチュアル・ファンドおよび/または不動産である。 (e.)ユーザが学生であり、ターゲットオブジェクトが開講されるクラスであ る。 (f.)ユーザが活動家であり、ターゲットオブジェクトが問題となる可能性の ある議会法案である。 (g.)ユーザがダイレクトメール業者であり、ターゲットオブジェクトが可能 性のある顧客である。 (h.)ユーザがネットサーファーであり、ターゲットオブジェクトがワールド ワイドウェブで利用可能なページ、サーバ、あるいはニュースグループである。 (i.)ユーザが博愛主義者であり、ターゲットオブジェクトが慈善事業である 。 (j.)ユーザが病人であり、ターゲットオブジェクトが医療専門家である。 (k.)ユーザが被雇用者であり、ターゲットオブジェクトが可能性のある雇用 者である。 (l.)ユーザが雇用者であり、ターゲットオブジェクトが可能性のある被雇用 者である。 (m.)ユーザが困惑した重役であり、ターゲットオブジェクトがユーザのアド レスに送られた電子メールメッセージである。 (n.)ユーザが友人を探している人であり、ターゲットオブジェクトが可能性 のある話し相手である。 (o.)ユーザが専門家を探している人であり、ターゲットオブジェクトが文書 取り出しシステムのユーザであって、取り出しの習慣があることが知られている ユーザである。 (p.)ユーザがソーシャルワーカーであり、ターゲットオブジェクトが特別な 訪問を必要としている家族である。 (q.)ユーザが腫瘍学者であり、ターゲットオブジェクトが乳房X線の撮影が 望ましい女性である。 (r.)ユーザが自動車保険会社であり、ターゲットオブジェクトが可能性のあ る顧客である。 上記の場合すべて、ユーザは、例えばユーザが最も借りたい、購入したい、調 べたい、会いたい、読みたい、乳房X線写真を渡したい、保険に入りたい、など と考えるターゲットオブジェクトなどのターゲットオブジェクトの何らかの小さ いサブセットの場所を特定したいと考える。この作業は、ユーザが最も興味のあ るターゲットオブジェクトを識別する助けとなる。ここで、ターゲットオブジェ クトに対するユーザの関心は、他のオブジェクトではなくそのオブジェクトの場 所を特定したいというユーザの相対的願望の数値測定値であるとして定義される 。 この問題点の大部分が、上述の情報取り出しの問題点を解決する一般的なアプ ローチの動機付けとなる。多くのターゲットオブジェクトが所望のオブジェクト のカスタム化された電子識別のためのシステムに既知であると仮定する。具体的 には、このシステムが各ターゲットオブジェクトに関する幾つかの情報を格納し ている(あるいは、この情報を再構成する能力を有する)と仮定する。これらの 情報を「属性」と呼ぶ。これらの情報は、まとめて、ターゲットオブジェクトの プロファイル、即ち「ターゲットプロファイル」を形成すると言われる。例えば 、所望のオブジェクトのカスタム化された電子識別のためのシステムが活性化さ れて、関心のある映画を識別すると、このシステムは、例えば以下に示す属性な どの属性の値に注目する。 (a.)映画の題名 (b.)監督名 (c.)Motion Picture Association of America(MPAA)による、映画が 児童に適切であるかどうかについての評点(0=G、1=PG、...) (d.)公開日 (e.)特定の評論家がつけた星の数 (f.)第2の評論家がつけた星の数 (g.)第3の評論家がつけた星の数 (h.)第3の評論家による論評の全文 (i.)以前にこの映画を借りたことがある顧客の数 (J.)俳優のリスト 各々の映画は、これらの属性について異なる一組の値を有する。この例では、 便宜上、3種類の属性を示している。属性c〜gは、データベース記録に見られ 得る種類の数値属性である。これらの属性を用いて、ユーザが関心のあるターゲ ットオブジェクト(映画)を識別する助けにできることは明らかである。例えば 、ユーザは、多くの親の指導が望ましい(PG)映画および多くの1970年代 製作の映画を以前に借りているかもしれない。この一般化は有用である。即ち、 これらの属性(MPAAの評点が1、公開日が1975年など)のうちの1つあ るいは両方の属性について値が数値的に類似している新しい映画は、ユーザが既 に好んでいる映画と類似しており従っておそらく関心を持つであろうと判断され る。属性a〜bおよびhは、テキスト属性である。これらの属性も、ユーザが所 望の映画の場所を特定する助けにするために重要である。例えば、おそらくユー ザは、論評の文章(属性h)に「追跡(chase)」、「爆発(explosion)」、「 爆発(explosions)」、「英雄(hero)」、「魅了する(gripping)」および「 すばらしい(superb)」などの単語が含まれている映画に対して過去に関心を示 している。ここでも、この一般化は、関心のある新しい映画を識別する際に有用 である。属性iは、関連(associative)属性である。この属性は、このドメイ ンのターゲットオブジェクト間の関連、即ち映画間の関連と、完全に異なる種類 の補助的ターゲットオブジェクト間の関連、即ち人間間の関連とを記録する。特 定の映画を借りたいというユーザの願望をよく表すのは、ユーザが類似した属性 値を有する他の映画を以前に借りたことであり、これは、属性a〜hに当てはま るように、属性iにも当てはまることである。例えば、ユーザが顧客C17および 顧客C190が借りた映画を好んだことが多ければ、そのユーザは、属性iについ て類似した値を有する他の映画を好み得る。属性jは、ターゲットオブジェクト と俳優との間の関連を記録する関連属性の別の例である。尚、プロファイルが構 成されると、デジタル署名(signature)を用いて、これらの属性のいずれも認 証させることができる。例えば、ターゲットオブジェクトには、MPAAからの デジタル形式で示された注釈(note)を付けてもよく、この注釈は、ターゲット オブジェクトの名前を示し、属性cについてのその認証値を示している。 これらの3種類の属性は共通である。即ち、数値属性、テキスト属性、および 関連属性である。ターゲットオブジェクトが文書(あるいは、より一般的には、 テキストセグメント化法によって抽出された、文書中の一貫した部分)である古 典的な情報取り出しシステムの問題点では、システムは、類似性を測定するとき 、1つのテキスト属性、即ちターゲットオブジェクトの全文しか考慮しない場合 がある。しかし、より精巧なシステムであれば、以下に示すような数値属性およ び関連属性を含むより長いターゲットプロファイルを考慮するであろう。 (a.)文書の全文(テキスト) (b.)題名(テキスト) (c.)著者(テキスト) (d.)文書が書かれた言語(テキスト) (e.)作成日(数値) (f.)最終更新日(数値) (g.)単語の長さ(数値) (h.)読書レベル(数値) (i.)第三者の編集者が評価した文書の質(数値) (j.)この文書を取り出したその他の読者のリスト(関連) ドメインの別の例として、ユーザが広告業者であり、ターゲットオブジェクト が可能性のある顧客である場合を考える。この場合、システムは、ターゲットオ ブジェクト(可能性のある顧客)の各々について以下に示す属性を格納し得る。 (a.)郵便番号の上2桁(テキスト) (b.)郵便番号の上3桁(テキスト) (c.)郵便番号の5桁全部(テキスト) (d.)広告業者の最も近い物理的店舗から居住地までの距離(数値) (e.)家族の年収(数値) (f.)子供の数(数値) (g.)この可能性のある顧客が以前に購入した品目のリスト(関連); この可能性のある顧客のクライアントコンピュータに格納されたファイル名の リスト(関連); この可能性のある顧客が借りた映画のリスト(関連); この可能性のある顧客の投資目録中の投資のリスト(関連); この可能性のある顧客が取り出した文書のリスト(関連); ロールシャッハ(Rorschach)インクブロットテストの書面解答(テキスト) ; 自己イメージについての20問の多項選択式問題に対するこの顧客の解答(2 0個のテキスト属性)。 通常通り、ここでの概念も、類似した消費者が類似した製品を購入するという ことである。尚、ここでは、消費者を特徴付けるために、消費者の消費パターン から文学の好みや心理的特性にわたる多様な種類の情報を用いており、このこと は、本発明の所望のオブジェクトのカスタム化された電子識別のためのシステム の柔軟性および能力を示している。その他のドメインでも、多様な種類の情報を 属性として用いることができ(健康、経済、心理学、および趣味に関する質問を 用いて、デートサービスへの応募者をプロファイルする場合などであって、これ は、実際に、本発明のシステムで可能なドメインである)、広告業者ドメインは 、単なる一例にすぎない。 ドメインの最後の例として、ユーザが株式投資家であり、ターゲットオブジェ クトが公開取引されている企業であるドメインについて考える。この場合、各企 業を特徴付けるために、多数の属性を用いることができる。この属性としては以 下に示すものがあるが、これに限定されるわけではない。 (a.)事業の種類(テキスト) (b.)企業任務陳述書(テキスト) (c.)過去10年間の各年の従業員数(10個の別個の数値属性) (d.)過去10年間の各年の従業員数の増加パーセンテージ (e.)現在の株価のパーセンテージとしての、過去40四半期の各期に出され た配当支払 (f.)過去40四半期の各期の株価の増加パーセンテージ、株主のリスト(関 連) (g.)金融関係の刊行物に書かれた、企業についての最近の記事の複合テキス ト(テキスト) 尚、ドメインによっては、そのドメインに関連のある幾つかの他の属性に注目す るに値するドメインもある。文書およびその他のある特定のドメインの場合、各 ターゲットオブジェクトのソース(例えば、参照した雑誌の記事vs.UPI通信 社の記事vs.Usenetのニュースグループの通知(posting)vs.質問/解答リス トからの質問/解答対vs.タブロイド新聞の記事vs....)を知ることが有用で ある。このソースは、1つの用語からなるテキスト属性として表され得る。ハイ パーテキスト文書の重要な関連属性は、ハイパーテキスト文書がリンクしている 文書のリスト、およびハイパーテキスト文書にリンクしている文書のリストであ る。類似した引用を有する文書は、前者の属性について類似しており、同じ場所 で引用されている文書は後者の属性について類似している。オプションとして、 いかなる文書もその文書自体にリンクしているという取り決め(convention)を 採用してもよい。ターゲットオブジェクトを取り出すかどうかをユーザが選択で きるシステムでは特に、ターゲットオブジェクトの人気(あるいは、取り出し件 数(circulation))は、そのオブジェクトを取り出したユーザの数を特定する 数値属性として有効に測定することができる。人気の1つの種類も示す関係のあ る測定可能な数値属性は、例えば、ターゲットオブジェクトが、コンピュータ掲 示板あるいはニュースグループなどの電子コミュニティに通知されたメッセージ であるドメインでは、ターゲットオブジェクトに対する応答の数であり、ターゲ ットオブジェクトが、ワールドワイドウェブ上あるいはそれと同様のシステム上 のインターリンクされた(interlinked)ハイパーテキスト文書であるドメイン では、ターゲットオブジェクトに通じるリンクの数、などである。ターゲットオ ブジェクトはまた、様々なグループからの明示された数値的評価(別の種類の数 値属性)を受け得る。このグループとしては、例えば、映画が児童にどれだけ適 切であるかを評価する上述のMotion Picture Association of America(MPA A)、あるいは医療研究論文の正確さおよび新しさについて評価し得るAmerican Medical Association、あるいはほとんどすべての事柄についての評価を要求さ れ得るユーザ(すべてのユーザまたは選ばれた一組の専門家)の無作為の調査サ ンプルなどがある。数値属性も生成するその他の特定の種類の評価は、 機械的に行われ得る。例えば、テキストを読む際の困難度は、単語数および文の 長さをカウントする標準的な手順によって評価することができ、テキストの俗悪 さは、テキストに含まれる俗悪な単語の数(例えば)として定義することができ 、テキストについての専門家の意見は、その著者が本発明を用いて以前に取り出 して読んだ類似のテキストの数をカウントし、おそらくこのカウント値を、評論 家からの賛同の評点が高いテキストに限定することによって大まかに評価するこ とができる。最後に、ある特定のテキスト属性を機械的に合成して、例えば、映 画のサウンドトラックに音声認識技術を適用することによって、あるいはクロー ズドキャプションサブタイトル(closed-caption subtitles)に光学的文字認識 技術を適用することによって、映画の台本を再構成することが可能である。 複合属性の分解 テキスト属性および関連属性は、大きく複雑なデータであるが、情報取り出し の目的のために、より小さくより単純な数値属性に分解することができる。この ことは、属性のいかなる集合も、数値属性の(通常はより大きい)集合と置き換 えることができることを意味し、従って、いかなるプロファイルも、これらの数 値属性の値を示す数のベクトルとして表すことができることを意味する。特に、 映画論評の全文などのテキスト属性は、そのテキスト中の「ツチブタ(aardvark )」、「裏帆に(aback)」、「そろばん(abacus)」などから「醸造学(zymur gy)」にわたるの単語の存在および重要性を示すためのスコアを表す数値属性の コレクションと置き換えることができる。テキスト中の単語のスコアは、多くの 方法で定義され得る。最も単純な定義は、スコアを、テキスト中の単語の割合と することであり、この割合は、テキスト中にその単語が発生する回数を計算し、 得られた数を、テキスト中の総単語数で割ることによって計算される。この種類 のスコアはしばしば単語の「用語頻度(term frequency)」(TF)と呼ばれる 。オプションとして、用語頻度の定義を、テキストの異なる部分を不等に重み付 けするように変更してもよい。例えば、テキストの題名中の単語がテキストの内 容あるいはトピックの特に重要なインジケータであるという発見的仮定を反映す るために、テキストの題名に単語が発生すると、3倍、あるいはより一般的には k倍の発生回数として(まるで題名がテキスト内でk回繰り返されているかのよ う に)カウントされ得る。 しかし、文書全体のテキストなどの非常に長いテキスト属性の場合、単語のス コアは、典型的には、単語の用語頻度だけではなく、用語頻度に単語の「グロー バル頻度(global frequency)」の否定対数(negated logarithm)を掛けた値 であるとしても定義される。単語の非情報提供性(uninformativeness)を効果 的に測定する単語のグローバル頻度は、0から1の間の分数であり、これは、該 当するテキスト属性がこの単語を含むすべてのターゲットオブジェクトの一部分 (fraction)であるとして定義される。この調整されたスコアは、当該技術分野 では、しばしばTF/IDF(「用語頻度×逆文書頻度」)として知られている 。このようにして単語のグローバル頻度を考慮した場合、通常の非情報提供性の 単語は、その単語がテキスト中に出てくる頻度に関わらず、比較的ゼロに近いス コアを有する。従って、それらの単語の割合は、オブジェクトのターゲットプロ ファイルにはほとんど影響を与えない。単語のスコアを計算する別の方法として は、意味インデックス付け(semantic indexing)、あるいは確率的モデルなど がある。 テキストを、そのテキストの成分単語に分ける代わりに、テキストを重複する 二連語(隣接する2単語の連続)、あるいは、より一般的にはn連語に分けるこ とも可能である。これらのn連語には、個々の単語と同じ方法でスコアが付けら れ得る。別の可能性は、n連字を用いることである。例えば、この文は、「fore 」、「or ex」、「r exa」、「exam」、「examp」などから始まる重複する5連 字の連続を含む。この文は、文の中の可能な5連字(「aaaaa」、「aaaab」、.. .「zzzzz」)の各々のスコアによって、精確ではないが有用に特徴付けされ得 る。概念的には、5連字の場合であれば、テキスト属性は、少なくとも265=11, 881,376個の数値属性に分解されるであろう。言うまでもなく、所定のターゲッ トオブジェクトの場合、ほとんどの5連字がこのターゲットオブジェクトの属性 に現れないため、これらの数値属性のほとんどは0の値を有する。これらのゼロ の値は、どこにも格納する必要はない。デジタル記憶の目的のために、テキスト に実際に現れる一組の5連字を、各5連字のゼロでないスコアとともに格納する ことによって、テキスト属性の値を特徴付けることも可能である。この組 に含まれないすべての5連字がゼロのスコアを有すると仮定できる。テキスト属 性の分解は、長いテキストであると予想される値を有する属性に限定されるわけ ではない。1つの用語からなる単純なテキスト属性も、全く同じ方法で、数値属 性のコレクションに置き換えることができる。ここでも、ターゲットオブジェク トが映画である場合を考える。テキスト属性である「監督名」属性は、その属性 で「Federico-Fellini」、「Woody-Allen」、「Terence-Davies」などについて のスコアを与える数値属性と置き換えることができる。これらの1つの用語から なるテキスト属性の場合、単語のスコアは通常、テキスト中のその単語の割合で あるとして定義され、グローバル頻度は考慮されない。尚、これらの条件下では 、スコアのうちの1つは1であるが、その他のスコアは0であり、この0のスコ アについては格納する必要はない。例えば、Daviesが実際に映画を監督したので あれば、スコアが1であるのは「Terence-Davies」である。なぜなら、「Terenc e-Davies」は、「監督名」属性のテキスト値において単語の100%を構成して いるからである。テキスト属性を、文字列値「Terence-Davies」を有するとみな すだけでは、何も得られないと思われるかもしれない。しかし、すべての非数値 属性を分解して数値属性のコレクションにするという策は、異なるオブジェクト の属性値を平均するおよび/または序数でランク付けする(ordinally ranked) 必要がある以下に説明するクラスタ化法および判断ツリー法に有用であることが わかる。このような方法で平均するあるいはランク付けすることができるのは、 数値属性だけである。テキスト属性が多数の成分用語(文字あるいはn連語)に 分解され得るのと同様に、関連属性も、多数の成分関連に分解され得る。例えば 、ターゲットオブジェクトが映画であるドメインであれば、映画をプロファイル する際に用いられる典型的な関連属性は、その映画を借りた顧客のリストであろ う。このリストは、映画と、システムが知っている顧客の各々との間の「関連ス コア」を与える数値属性のコレクションと置き換えることができる。例えば、1 65番目のそのような数値属性は、映画と顧客#165との間の関連スコアであ る。ここで、関連スコアは、顧客#165が以前にその映画を借りたことがあれ ば1であり、借りたことがなければ0であると定義される。より細かく精製を行 う場合、この関連スコアは、関連性フィードバック(以下に説明する)によって 決定 される、その顧客#165がその映画に示したおそらくゼロである関心度として 定義される。別の例として、ターゲットオブジェクトが会社であるドメインであ れば、会社の主要株主を示す関連属性は、関連スコアのコレクションに分解され るであろう。この場合、各関連スコアは、何らかの特定の個人あるいは企業体が 所有する会社のパーセンテージを示す(おそらくゼロ)であろう。非常に長いテ キスト属性を分解する際に用いる用語スコアの場合と同様に、各関連スコアは、 オプションとして、乗算係数(multiplicative factor)によって調整してもよ い。例えば、映画と顧客#165との間の関連スコアに、顧客#165の「グロ ーバル頻度」の否定対数、即ち、顧客#165が借りたことのあるすべての映画 の一部分(fraction)を掛けてもよい。テキスト属性を分解する際に用いる用語 スコアの場合と同様に、関連属性の特定の値を分解するときに見られる関連スコ アのほとんどはゼロであり、ターゲットオブジェクトがゼロでない関連スコアを 有する補助的オブジェクトだけのリストを、それらの補助的オブジェクトのそれ ぞれの関連スコアとともに格納することによって、上述の態様と全く同じ態様で 、記憶量の同様の節約が得られる。 類似性測度(measures) 2つのターゲットオブジェクトが類似しているとはどういう意味であろうか? 具体的には、類似性の程度はどのようにして測定するべきであろうか?これには 多くのアプローチが可能であり、ターゲットオブジェクトプロファイルの組につ いて計算することができる合理的な計量(metric)を用いることができ、この場 合、ターゲットオブジェクトは、この計量に従ったそれらのプロファイル間の距 離が小さければ類似していると考えられる。このように、以下に示す、ターゲッ トオブジェクトの類似性測定システムの好適な実施形態は、多くの変形を有する 。 まず、属性が数値属性であるか、関連性属性であるか、あるいはテキスト属性 であるか応じて、所定の属性の2つの値の間の距離を定義する。属性が数値属性 であれば、この属性の2つの値の間の距離は、これらの2つの値の差の絶対値で ある。(その他の定義も可能である。例えば、消費者の関心の場合、$5000 と$5020とは非常に類似しているが、$3と$23は類似していないことを 認識するために、価格p1と価格p2の間の距離は、|(p1-p2)|/(max(p1,p2)+1) で定義され得る。)属性が関連属性であれば、その属性の値Vは、上述のように 、該当するターゲットオブジェクトと様々な補助的オブジェクトとの間の関連ス コアを表す実数のコレクションに分解され得る。したがって、Vは、オブジェク トと補助的オブジェクト1、2、3などとの間のそれぞれの関連スコアを表す成 分V1、V2、V3などを有するベクトルとみなされ得る。その後、角度距離測度 であるarccos(VUt/((Vvt)(UUt))1/2)を用いて、関連属性の2つのベクト ル値VとUとの間の距離が計算される。(尚、この式の内積は、XYt=X11 +X22+X33+...という形を有し、効率的な計算のために、スコアXiおよ びスコアYiのいずれかがゼロであれば、この和からXiiの形の項は省略され 得る。)最後に、属性がテキスト属性であれば、その属性の値Vは、上述のよう に、テキスト中の様々なn連語あるいはn連字のスコアを表す実数のコレクショ ンに分解され得る。その後、この場合も、この値Vはベクトルとみなされ得る。 さらに、2つの値の間の距離は、この場合も、角度距離測度によって定義される 。その代わりに、ダイス測度(dice measure)などの、その他の2ベクトル間類 似性計量を用いてもよい。明らかな別の計量であるユークリッド(Euclidean) 距離ではうまくいかない事がある。即ち、類似したテキストでも、これらのテキ ストに用いられている内容語が実質的に重複していないことも多いため、TF/ IDFスコアを用いて非内容語の影響を低減すると仮定すると、実際に遭遇する テキストはすべて互いに実質的に直交している。テキスト属性ベクトルの2つの 単語のスコアは相関し得る。例えば、「Kennedy」と「JFK」とは同じ文書に現れ ることが多い。従って、テキスト中の用語のスコアを計算する幾らか前に、類似 した単語同士をグループに分ける同義語辞書を用いてテキストに変更を加えるほ うがよい場合もある。このようなオプションとしての前変更を行う効果は、関係 のある単語を用いる2つのテキストを、まるで実際に同じ単語を用いているかの ように、類似しているとして測定することである。1つの技術は、記事に実際に 見られる単語の組に、記事に出てくる単語と同時に発生しやすい一組の同義語あ るいはその他の単語を加えることである。これにより、「Kennedy」は、「JFK」 に言及するすべての記事に加えられ得る。あるいは、記事に見られる単語のすべ てを同義語に置き換えることもできる。これにより、「JFK」が現れる場合はい つ でも、「JFK」は「Kennedy」あるいは「John F.Kennedy」に置き換えられ得る 。いずれの場合も、Kennedyに関する文書およびJFKに関する文書は類似している と判断されることになる。同義語辞書は、文書全体としてのトピックに敏感であ り得る。例えば、「crane(ツル;クレーン)」は、鳥について言及している文 書と建築について言及している文書とでは、異なる同義語を有する可能性が高い ことが認識され得る。これに関連する技術は、各単語を、その形態学的語幹に置 き換えることである。これにより、「staple」、「stapler」および「staples」 はすべて、「staple」に置き換えられる。通常の機能語(「a」、「and」、「th e」...)は、テキストのトピックに関係なく、これらのテキストの計算された類 似性に影響を及ぼし得るため、典型的には、テキスト中の用語のスコアを計算す る前にテキストから取り除かれる。同義語を認識するためのより一般的なアプロ ーチは、テキスト属性ベクトルVとUとの間の距離の測度を修正したもの、即ち 、arccos(AV(AU)t/((AV(AV)tAU(AUt))1/2)を用いることである。 ここで、行列Aは、システムが知っているすべてのターゲットオブジェクトにつ いて、テキスト属性のベクトル値を集め、その結果得られたコレクションに特異 値分解を適用することによって決定される、次元を低くする線形変換(あるいは 、その近似)である。関連属性のベクトル値にも、これと同じアプローチを適用 することができる。上述の定義により、2つのターゲットオブジェクトが、ある 1つの属性に関してどれぐらい近いかを判断することが可能となる。この場合、 この1つの属性は、数値属性であっても、関連属性であっても、あるいはテキス ト属性であってもよい。その後、多属性プロファイルPxおよびPyすべてに関す る2つのターゲットオブジェクトXおよびYの間の距離は、d(X,Y)あるい はd(Px,Py)で示され、以下のように定義される。 (((属性aに関する距離)(属性aの重み))k+((属性bに関する距離)(属性bの 重み))k+((属性cに関する距離)(属性cの重み))k+...)k ここで、kは、一定の正の実数であって典型的には2であり、重みは、様々な属 性の相対的な重要性を示す負でない実数である。例えば、ターゲットオブジェク トが消費財である場合、「色」属性の重みは比較的非常に小さく、価格は、類似 性の判断の際には考慮されない。茶色のマッサージクッションを好むユーザは、 同じクッションの青色にも等しい関心を示すと予測され、その逆も同様である。 一方、「色」属性の重みが比較的大きい場合、ユーザは、そのユーザが過去に好 んだことのある色の製品に主に関心を示すと予測される。即ち、茶色のマッサー ジクッションと青色のマッサージクッションとは、同じ種類のターゲットオブジ ェクトではないが、その他の属性では類似している。さらに一方ですばらしい経 験をしても、それ自体で、他方に対する大きな関心を引き起こすわけではない。 ターゲットオブジェクトは様々な種類のものであってもよく、異なる種類のター ゲットオブジェクトを比較することができる1つのシステムを用いることが有利 である場合もある。例えば、幾つかのターゲットオブジェクトが小説であり、他 のターゲットオブジェクトが映画であるシステムでは、これらのターゲットオブ ジェクトのプロファイルが、類似したユーザがこれらのターゲットオブジェクト を好むことを示すと(関連属性)、小説と映画とが類似していると判断すること が望ましい。しかし、映画のターゲットプロファイルで特定されるある属性が小 説のターゲットプロファイルでは定義されていないこと、およびその逆に注目す ることが重要である。即ち、小説は「出演者リスト」関連属性を有しておらず、 映画は「読書レベル」数値属性を有していない。一般に、ターゲットオブジェク トが異なる種類に属するシステムは、幾分か異なる属性の組が規定されている2 つのターゲットオブジェクトの類似性を測定しなければならない場合もある。こ の場合、上で定義した距離計量d(*,*)に対する拡張(extension)が必要 である。ある応用では、そのような比較を行うとき、2つのターゲットオブジェ クトのいずれについても定義されていない属性については単に無視することで十 分である。これにより、例えば小説および映画が共通に有している属性だけを考 慮することなどによって、小説クラスタを、最も類似している映画クラスタと整 合することが可能となる。しかし、この方法では(例えば)小説と映画との比較 は可能になるが、小説と映画とを組合せた空間についての適切な計量を規定して いないため、すべてのターゲットオブジェクトからなる組にクラスタ化を適用す ることはできない。クラスタ化あるいはその他の目的のために必要であれば、任 意の2つのターゲットオブジェクト(同じ種類であるか異なる種類であるかに関 わらず)の比較を可能にする計量を以下のように定義することができる。aが属 性であれば、Max(a)を、属性aの2つの値の間の距離の上限とする。尚、 属性aが関連属性またはテキスト属性であれば、この距離は、逆余弦によって決 定される角度であり、そのため、Max(a)は180度に選択され得る。属性 aが数値属性であれば、システム設計者によって、十分に大きい数が選択されな ければならない。属性aの2つの値がともに定義されている場合は、これらの2 つの値の間の距離は、以前に説明したように与えられる。2つの定義されていな い値の間の距離はゼロであるとされる。最後に、定義された値と定義されていな い値との間の距離は常に、Max(a)/2であるとされる。これにより、2つ のターゲットオブジェクトの両方について属性aが定義された値を有していない 場合でも、これらのターゲットオブジェクトが属性aに関してどれだけ近いかを 判断することが可能となる。その後、多属性プロファイルのすべてに関する2つ のターゲットオブジェクトの間の距離d(*,*)は、これらの個々の属性の距 離に関して、以前に述べたのと全く同じように与えられる。そのようなシステム の1つの属性がターゲットオブジェクトの種類(「映画」、「小説」など)を特 定すると仮定し、異なる種類のターゲットオブジェクトは、それらのターゲット オブジェクトがどんな属性を共通に有していても、非常に異なるものであると考 えられると仮定する。 類似性測定の利用 売り手と買い手との整合 類似性測定の単純な応用は、中古車あるいはその他の中古品、手工芸品、ある は雇用などの小規模市場において売り手と買い手とを整合するためのシステムで ある。売り手は、売りたい商品(ターゲットオブジェクト)のプロファイルを提 示し、買い手は、購入したい商品(ターゲットオブジェクト)のプロファイルを 提示する。関係者は、これらのプロファイルをいつでも提示あるいは回収するこ とができる。所望のオブジェクトのカスタム化された電子識別のためのシステム は、売り手が提示したプロファイルと買い手が提示したプロファイルとの間の類 似性を計算し、2つのプロファイルが密接に整合していれば(即ち、類似性が閾 値を上回っていれば)、それに対応する売り手および買い手に、互いのアイデン ティティが通知される。ユーザに応答が殺到しないようにするために、各ユーザ が受け取る通知の数を例えば1日10通などの一定数に制限することが望ましい 場合もある。 フィルタリング:関連性フィードバック フィルタリングシステムは、多くのターゲットオブジェクトを検索し、各ター ゲットオブジェクトに対する所定のユーザの関心を評価して、ユーザが最も関心 を持つターゲットオブジェクトを識別することができる装置である。フィルタリ ングシステムは、関連性フィードバックを用いて、このフィルタリングシステム が持っているユーザの関心についての知識を精製する。フィルタリングシステム が、あるターゲットオブジェクトをユーザが興味を示す可能性があるとして識別 すると、ユーザ(オンラインユーザの場合)は、そのターゲットオブジェクトに 実際に関心があるかどうかについてのフィードバックを与える。そのようなフィ ードバックは、要約された形態で、ユーザフィードバック情報のデータベースの 一部分として長期間格納され、能動的にあるいは受動的に与えられ得る。能動的 フィードバックでは、ユーザは、自分の関心を、例えば−2(非常に嫌悪感を感 じる)から0(特に関心なし)を介して10(非常に関心あり)の尺度で明示す る。受動的フィードバックでは、システムは、ユーザの行動からユーザの関心を 推断する。例えば、ターゲットオブジェクトがテキスト文書であれば、システム は、ユーザがどの文書を読みたいあるいは読みたくないとして選んだかをモニタ し、さらに、ユーザがその文書を読むのに費やした時間をモニタする。受動的フ ィードバックによって文書に対する関心を評価するための典型的な方式は、この ドメインでは、0から10の尺度であり、例えば以下のような方式が可能である 。 +2 2頁目を見た場合 +2 全頁を見た場合 +2 30秒を越える時間その文書を見た場合 +2 1分を越える時間その文書を見た場合 +2 その文書を見るのに費やした分数が、頁数の半分の値を越える場合 ターゲットオブジェクトが電子メールメッセージであれば、特に長いあるいは 特に速い返信の場合には、関心ポイントを加えることも可能である。ターゲット オブジェクトが購入可能な物品であれば、ユーザが実際に購入するターゲットオ ブジェクトに対しては、関心ポイントを加え、大量あるいは高価な購入の場合に はさらなるポイントを加えることが可能である。いずれのドメインでも、ユーザ は最もユーザの関心を引くオブジェクトに最初にアクセスするため、ユーザが期 間中の早い時期にアクセスするターゲットオブジェクトに対して、さらなるポイ ントを加えることが可能である。その他の可能な受動的フィードバック源には、 ユーザがターゲットオブジェクトあるいはターゲットオブジェクトの説明を見て いる間のユーザの瞳孔が開いた程度の電子的測定などがある。能動的フィードバ ックと受動的フィードバックとを組み合わせることも可能である。1つのオプシ ョンは、これらの2つの評点の重み付け平均である。別のオプションは、デフォ ルトで受動的フィードバックを用いるが、ユーザが、受動的フィードバックスコ アを調べ且つそのスコアに能動的に変更を加えることができるようにすることで ある。上述の筋書きでは、例えば、ユーザが関係のない業務に従事している間、 興味のない記事が長時間表示装置に表示されたままとなる場合がある。この場合 、受動的フィードバックスコアはその後不適切に高くなり、ユーザは、継続する 前にそれを訂正したいと考え得る。本発明の好適な実施形態では、ユーザのスク リーン上のスライドバーあるいはインジケータ針などの視覚的インジケータを用 いて、ユーザが見ているターゲットオブジェクトについてシステムが評価した受 動的フィードバックスコアを継続的に表示させることができる。この場合、この 受動的フィードバックスコアは、ユーザが、このターゲットオブジェクトに関す る異なるスコアを反映させるためにマウスの操作あるいはその他の手段によって インジケータを手動で調節しない限り継続して表示させることができ、その後、 インジケータは、ユーザが選択した能動的フィードバックスコアを表示し、シス テムは、受動的フィードバックスコアの代わりに、この能動的フィードバックス コアを用いる。その変形では、ユーザは、ユーザがターゲットオブジェクトを見 終わった直後に初めてインジケータを見るあるいは調節することができる。ユー ザのフィードバックは、どのように計算されるかにかかわらず、そのユーザのタ ーゲットプロファイル関心サマリーの一部分として長期間格納される。 フィルタリング:類似性によるトピックに対する関心の判断 関連性フィードバックは、ある特定のターゲットオブジェクト、即ち、ユーザ が実際に(能動的にあるいは受動的に)評価する機会を持ったことがあるターゲ ットオブジェクトに対するユーザの関心を判断するだけのものである。ユーザが まだ見たことのないターゲットオブジェクトに関しては、フィルタリングシステ ムは、ユーザの関心を評価しなければならない。この評価作業が、フィルタリン グの問題点の核心であり、類似性測定が重要な理由である。具体的には、フィル タリングシステムの好適な実施形態は、関心のある可能性があるニュース記事を 周期的にユーザに与えるニュースクリッピングサービスである。ユーザは、与え られた記事に関する能動的および/または受動的フィードバックをシステムに与 える。しかし、システムは、データベースに追加されたばかりの新しい記事、あ るいはシステムがユーザに与えるためには選ばなかった古い記事などの、ユーザ に与えたことのない記事については、ユーザからのフィードバック情報を持って いない。同様に、ターゲットオブジェクトが将来の恋愛相手であるデートサービ スドメインでは、システムは、過去の恋人に関するフィードバックを受け取るだ けで、将来の新しい恋愛についてのフィードバックは受け取らない。 図12のフロー図に示すように、特定のユーザについて、特定のターゲットオ ブジェクトに対して関心を持つ可能性の評価を、自動的に計算することができる 。ユーザUが所定のターゲットオブジェクトXに対して持つ関心は、2つの量の 和、即ち、Xの固有の「量」であるq(U,X)とUなどのユーザがXなどのタ ーゲットオブジェクトに対して持つ「トピックについての関心」f(U,X)と の和であると仮定される。いずれのターゲットオブジェクトXについても、固有 の量の測度q(U,X)は、ステップ1201〜ステップ1203で、そのター ゲットオブジェクトXの数値属性から直接容易に評価される。計算プロセスはス テップ1201で始まり、ここで、ターゲットオブジェクトXのある指定された 数値属性が具体的に選択され、これらの属性はその本質的にユーザの関心に肯定 的にあるいは否定的に相関していなければならない。そのような属性は、「品質 属性」と呼ばれ、その値が大きいほど(あるいは、場合によっては小さいほど) ユーザがその属性を見いだすことに興味を持っていると予想される、という規範 的特性を有する。ターゲットオブジェクトXの品質属性としては、ユーザ一般の 中 でのターゲットオブジェクトXの人気、特定の評論家が所定のターゲットオブジ ェクトXに与えた評点、ターゲットオブジェクトXができてからの年数(執筆さ れてからの時間−−古くささ(outdatedness)としても知られている)、ターゲ ットオブジェクトXに使用されている俗悪な単語の数、ターゲットオブジェクト Xの価格、およびターゲットオブジェクトXを販売している会社がユーザの好き な慈善事業に寄付した金額などがあるが、これらに限定されるわけではない。ス テップ1202で、選択された属性の各々に、その属性に高い値を有するターゲ ットオブジェクトに対するユーザUの好みの強さを示す正あるいは負の重みを掛 ける。この重みは、選択されたユーザについての品質属性の重みを格納するデー タファイルから取り出さなければならない。ステップ1203で、識別された、 重み付けされた選択属性の、重み付けされた和を計算し、固有の品質測度q(U ,X)を決定する。ステップ1204で、要約された、重み付けされた関連性フ ィードバックデータが取り出され、ここで、幾つかの関連性フィードバックポイ ントが、その他の関連性フィードバックポイントよりも重く重み付けされ、例え ば検索プロファイル集合を用いることなどによって、格納された関連性データを ある程度要約することができる。ターゲットオブジェクトXに対するユーザUの 関心を判断する際のより困難な部分は、ステップ1205で、Uなどのユーザが Xなどのターゲットオブジェクトに対して一般に持っている、トピックについて の関心を示すf(U,X)の値を見つけるあるいは計算することである。ユーザ の関心を判断する方法は、以下の発見的方法に頼るものである。即ち、Xおよび Yが類似したターゲットオブジェクトであり(類似した属性を有し)、Uおよび Vが類似したユーザである(類似した属性を有する)とき、トピック関心f(U ,X)は、トピック関心f(V,Y)の値と類似した値を有すると予測される。 この発見は効果的な方法をもたらす。なぜなら、トピック関心関数f(*,*) の評価値は、その関数に対するある引数については実際に知られているからであ る。具体的には、ユーザVがターゲットオブジェクトYについて関連性フィード バックの評点r(V,Y)を与えていれば、評点が、ターゲットオブジェクトY に対するユーザVの真の関心を示している限り、r(V,Y)=q(V,Y)+ f(V,Y)となり、f(V,Y)を、r(V,Y)−q(V,Y)として評価 す ることができる。従って、すべてのポイントでトピック関心を評価するという問 題は、f(V,Y)をr(V,Y)−q(V,Y)とするフィードバック評価な どのように、トピック関心のこれらの評価値に選択されたポイントで補間を行う という問題となる。この補間は、任意の標準的なスムージング技術で達成するこ とができ、トピック関心関数f(*,*)の値の既知のポイント評価値を入力と して用い、全体のトピック関心関数f(*,*)を近似する関数を出力として決 定する。 スムージングアルゴリズムの入力としては、トピック関心関数f(*,*)の すべてのポイント評価値に等しい重みを与えなくてもよい。受動的関連性フィー ドバックは能動的関連性フィードバックよりも信頼性が低いため、受動的関連性 フィードバックから作られたポイント評価値には、能動的関連性フィードバック から作られたポイント評価値よりも少なく重み付けするか、あるいは、受動的関 連性フィードバックから作られたポイント評価値を全く用いないようにしなけれ ばならない。ほとんどのドメインでは、ユーザの関心は時間とともに変化し得る ため、より最近のフィードバックから得られるトピック関心の評価値にも、より 大きく重み付けをしなければならない。ユーザの関心は気分によっても変わり得 るため、現在の期間から得られるトピック関心の評価値には、現在の期間の継続 中はより大きく重み付けしなければならず、ほぼ現在の時刻あるいはほぼ現在の 日に作られたトピック関心の過去の評価値には、より大きく重み付けしなければ ならない。最後に、ユーザが、ターゲットプロファイルによって与えられるおそ らくわずかな情報から、長期間関心を持っているターゲットオブジェクト(投資 、恋愛相手、ペンフレンド、雇用者、被雇用者、供給者、サービス提供者)の場 所を特定しようと試みているドメインでは、ユーザは通常、ターゲットオブジェ クトについての信頼性のある即時のフィードバックを与える立場にはないが、信 頼性のあるフィードバックを後日与えることはできる。ユーザVがターゲットオ ブジェクトYを用いてより多くの経験をしたことがあれば、トピック関心f(V ,Y)の評価値には、より大きく重み付けしなければならない。実際には、有用 な方策は、システムが、そのようなターゲットオブジェクトについての長期間の フィードバックを監視することである。例えば、ターゲットプロファイルYが1 9 90年に作成され、1990年に入手可能となり1990年にユーザVが購入し た特定の投資を記述していれば、システムは、1990年、1991年、199 2年、1993年、1994年、1995年などに、ユーザVからの関連性フィ ードバックを求め、これらの関連性フィードバックを、ターゲットオブジェクト Yに対するユーザVの真の関心をこの順により強く表すものとして扱う。従って 、現在のプロファイルが1990年に得られたもとの投資プロファイルYに似て いる新しい投資に対してユーザVが示しそうな関心を表すものとして扱う。特に 、1994年および1995年に、ユーザVが、ターゲットプロファイルYによ って記述された1990年の投資購入に対して十分に納得していれば、システム は、1994年、1995年およびそれ以降の年に、別の投資がターゲットオブ ジェクトYと同様のプロファイルを有するとき、その投資を推薦する可能性が高 い。その投資も、4年あるいは5年後に満足がいく結果となるであろうからであ る。このシステムは、このような推薦をユーザVだけではなく、投資目録および その他の属性がユーザVのものと類似しているユーザにも行う。この場合、ユー ザVが与える関連性フィードバックは、能動的(フィードバック=投資家Vが与 える満足度の評点)であってもあるいは受動的(フィードバック=例えば、投資 を購入してからの、投資の平均年間収益とダウジョーンズ指標のポートフォリオ の平均年間収益との差)であってもよい。 スムージング技術を効果的に適用するためには、任意のユーザU、Vおよび任 意のターゲットオブジェクトX、Yについて、(U,X)と(V,Y)との間の 類似性距離の定義を有していなければならない。2つのターゲットオブジェクト X、Yの属性が与えられたときに、これらのターゲットオブジェクト間の距離d (X,Y)を定義する方法については上で既に見てきた。(U,X)などの対を 、ターゲットXのすべての属性およびユーザUのすべての属性を有する拡張され たオブジェクトであるとみなすことができる。そうすれば、(U,X)と(V, Y)との間の距離を全く同じ方法で計算することができる。このアプローチでは 、例えば、年齢(数値)、社会保険番号(テキスト)、および以前に取り出した 文書のリスト(関連)など、ユーザU、ユーザV、およびその他のすべてのユー ザ自身の属性のうちの幾つかがシステムに格納されていなければならない。「類 似 したユーザ」の概念を決定するのはこれらの属性である。従って、ターゲットオ ブジェクトのプロファイル(「ターゲットプロファイル」と呼ぶ)とともにユー ザのプロファイル(「ユーザプロファイル」と呼ぶ)を生成することが望ましい 。ユーザをプロファイルするために用いられる幾つかの属性は、ターゲットオブ ジェクトをプロファイルするために用いられる属性に関連し得る。例えば、関連 属性を用いて、Xなどのターゲットオブジェクトを、様々なユーザがそのターゲ ットオブジェクトに示した関心によって特徴付け、それと同時に、Uなどのユー ザを、そのユーザが様々なターゲットオブジェクトに示した関心によって特徴付 けることが可能である。さらに、ユーザプロファイルは、例えば、人間を特徴付 ける際に有用な属性であればどの属性でも用いることができる。ターゲットオブ ジェクトが可能性のある顧客である上述の例示的なドメインで示唆した属性など である。尚、ユーザUの関心は、ユーザUが新しいユーザであっても、あるいは フィードバックを与えたことのないオフラインユーザであっても、評価すること ができる。なぜなら、Uの属性と類似した属性を有するユーザの関連性フィード バックを考慮するからである。 フィルタリングシステムの幾つかの用途では、トピック関心を評価する場合、 別の「トピック関心なしという推定」(あるいは「ゼロへのバイアス(bias)」 )を作るのが適切である。そのような推定の有用性を理解してもらうために、こ こでは、システムは、ターゲットオブジェクトXのトピックがユーザUにとって 興味のあるものであるかどうかを判断しなければならないが、ユーザUなどのユ ーザは、ターゲットオブジェクトに対してターゲットオブジェクトXの場合のよ うに遠隔からもフィードバックを与えたことがないとする。トピック関心なしと いう推定は、この推定が事実であれば、ユーザUなどのユーザはそのようなター ゲットオブジェクトに対して興味を持っていないだけであり、従って、これらの ターゲットオブジェクトを探し出さず、これらのターゲットオブジェクトと対話 もしない、ということを示す。この推定を行うと、システムは、トピック関心f (U,X)を非常に低いと評価しなければならない。形式上、この例は、(U, X)が、フィードバックが利用可能なすべてのポイント(V,Y)からはるかに 離れた値であるという特徴を有する。そのような場合、値が分かっている 周りの離れたすべてのポイントでのトピック関心関数f(*,*)の値が大きく ても、上述のようなトピック関心f(U,X)はゼロに近いと推定される。スム ージング技術を用いる場合、上述のようなトピック関心なしという推定が適切で ある場合には、スムージング技術に対する入力を操作することによって、この推 定を導入することができる。トピック関心関数f(*,*)の観察値を入力とし て用いることに加えて、多次元空間に分布したポイント(V,Y)の格子につい てトピック関心f(V,Y)=0の形の偽の観察(fake observations)も導入 することが巧みな技法である。これらの偽の観察には、スムージングアルゴリズ ムへの入力として、比較的小さい重みを与えなければならない。これらの偽の観 察の重み付けが大きいほど、関心なしという推定はより強くなる。 以下に、関心なしという推定を有する評価技術の別の単純な例を示す。gを、 例えばg(x)=exあるいはg(x)=min(1,x-k)などの、負でない 実数から負でない実数に減少する関数とする。ここでk>1である。以下のgで 重み付けされた平均でトピック関心f(U,X)を評価する。 ここでは、合計(summation)は、ユーザVがターゲットオブジェクトYにつ いてフィードバックr(V,Y)を与えたすべての対(V,Y)、即ち、関連性 フィードバックr(V,Y)が定義されるすべての対(V,Y)についてのもの である。尚、この技術を用いた場合も従来のスムージング技術を用いた場合も、 トピック関心f(U,X)の評価は必ずしもr(U,X)−q(U,X)に等し いとは限らない。r(U,X)が定義される場合であってもである。 フィルタリング:重みおよび残余フィードバック 上述の方法では、フィルタリングシステムが、(U,X)と(V,Y)との間 の距離などの、(ユーザ、ターゲットオブジェクト)対の間の距離を測定しなけ ればならない。従って、2つの多属性プロファイルの間の距離を測定するための 以前に説明した手段が与えられると、この方法では、重みを、(ユーザ、ターゲ ットオブジェクト)対のプロファイルに用いられる各属性に関連させなければな らない。即ち、ユーザあるいは目的オブジェクトをプロファイルするために用い られる各属性に関連させなければならない。これらの重みは、類似性あるいは違 いを確立する際に、従って、トピック関心を、ある(ユーザ、ターゲットオブジ ェクト)対から別の対にどのように一般化されるかを決定する際に、属性の相対 的重要性を特定する。別の重みは、ターゲットオブジェクトのどの属性が品質関 数qに寄与するか、およびどのくらい寄与するかを決定する。フィルタリングシ ステムが、各ユーザについてそれぞれ異なる1組の重みを格納することが可能で あり、しばしばそれが望ましい。例えば、2つ星の映画は、4つ星の映画とはか なり違うトピックおよびスタイルを持つと考えるユーザは、類似性距離測度d( *,*)の目的のために、「星の数」に高い重みを付けたいと考える。これは、 2つ星の映画に対して関心があるからといって、必ずしも、星の数以外で類似し ている4つ星の映画に対しても関心があるとは限らないこと、あるいはその逆を 意味している。ユーザが評論家の意見にも同意し、実際に4つ星の映画の方を好 んでいれば、ユーザは、品質関数qの決定の際に、「星の数」に大きい正の重み を割り当てたいと考える。同様に、俗悪さを嫌うユーザは、品質関数qの決定の 際に、「俗悪スコア」属性に、大きい負の重みを割り当てたいと考える。しかし 、「俗悪スコア」属性は、2つの映画のトピックの類似性を決定する際に、必ず しも大きい重みを持つわけではない。 (両方の種類の)属性の重みは、システム管理者あるいは個人のユーザによっ て、一時的にあるいは永久的に設定あるいは調整され得る。しかし、フィルタリ ングシステムが関連性フィードバックに基づいて自動的に属性の重みを学習する ことがしばしば望ましい。ユーザUについての最適な属性の重みは、ユーザUの 関心の最も正確な予測を可能にする重みである。即ち、これらの属性の重みによ って定義される距離測度および品質関数を用いて、ターゲットオブジェクトXに 対するユーザUの関心、即ちq(U,X)+f(U,X)を、上述の技術によっ て正確に評価することができる。従って、ユーザUについての特定の一組の属性 の重みの有効性は、システムがユーザUの既知の関心をどれだけ十分に予測する かを見ることによってはかることができる。 形式上、ユーザUが、ターゲットオブジェクトX1,X2,X3,...,Xnにつ いて以前に与えたフィードバックを有し、フィードバック評点がr(U,X1) ,r(U,X2),r(U,X3),...,r(U,Xn)であるとする。その他の ユーザおよびその他のターゲットオブジェクトについてのフィードバック評点r (*,*)の値も分かっていてもよい。システムは、以下に示す手順を用いて、 システムがユーザUについて現在格納している属性の重みの組の有効性をはかり 得る。(i)1≦I≦nのそれぞれについて、評価技術を用いて、フィードバッ ク評点rの既知のすべての値からq(U,X1)+f(U,Xi)を評価する。こ の評価値をaiと呼ぶ。(ii)ステップ(i)を繰り返すが、今回は、距離d(Xi ,Xj)が一定の閾値未満となるようなすべてのjについてのフィードバック評 点r(U,Xj)を入力として用いずに、1≦i≦nのそれぞれについて、評価 値を生成する。即ち、フィードバック評点rの他の値だけから、q(U,Xi) +f(U,Xi)の各々を評価する。特に、r(U,Xi)自体は用いない。この 評価値をbiと呼ぶ。本明細書において、差ai−biを、「ターゲットオブジェ クトXiについてのユーザUの残余フィードバックrres(U,Xi)」と呼ぶ。 (iii)ユーザUの誤り測度(a1−b12+(a2−b22+(a3−b32+.. .+(an−bn2を計算する。 最急降下法あるいはその他の数値最適化法を用いて、この誤り測度が(局所) 最小値に達するようにUの属性の重みを調整してもよい。このアプローチは、評 価に用いるスムージング技術が、ポイント評価値r(V,Y)−q(V,Y)が 入力として与えられたときにf(V,Y)の値がこのポイント評価値による強い 影響を受けるようなものである場合に最良に作用する傾向がある。その他、1つ の入力フィードバック評点r(U,Xi)が有っても無くても、ステップ(i)〜 (ii)でaiおよびbiはあまり異なる値にはならないであろう。この学習技術の わずかな変形では、すべてのユーザについての属性の重みの1つのグローバルセ ット(global set)を調節する。この調節は、特定のユーザの誤り測度ではなく 、すべてのユーザの総誤り測度を最小にするようにこれらの重みを調節すること によって行われる。これらのグローバル重みは、まだフィードバックを与えたこ とのない新しいユーザについてのデフォルト初期設定として用いられる。その後 、最急降下法を用いて、このユーザの個々の重みを経時的に調整することが できる。ユーザUについての誤り測度を最小にするように属性の重みが選択され た場合でも、誤り測度は一般に依然として正の値であある。これは、すべてのタ ーゲットオブジェクトについてのユーザUからの残余フィードバックが0に減少 していないことを意味する。ターゲットオブジェクトXについてのユーザUから の高い残余フィードバックが、プロファイルが予期せず十分に与えられたターゲ ットオブジェクトXをユーザUが気に入ったことを示すことに注目することが有 用である。即ち、ターゲットオブジェクトに与えられたプロファイルがスムージ ングモデルよりも優れていれば、同様のプロファイルを有するターゲットオブジ ェクトについてのユーザUの意見から予測することが可能であろう。同様に、低 い値の残余フィードバックは、ユーザUが、予想したよりターゲットオブジェク トXを気に入らなかったことを示す。定義によれば、この説明されない好みある いは嫌悪は、トピックの類似性の結果とはなり得ないため、ターゲットオブジェ クトXの固有の品質を表すものとみなさなければならない。これは、ターゲット オブジェクトXについての有用な品質属性は、そのターゲットオブジェクトにつ いてのユーザからの残余フィードバックrres(V,X)の平均量であって、そ のターゲットオブジェクトについての関連性フィードバックを与えたことのある すべてのユーザVについて平均をとった値である、ということに従うものである 。この概念の変形では、残余フィードバックをすべてのユーザについて無差別に は平均をとって新しい属性を形成するのではなく、残余フィードバックをスムー ジングして、ユーザ間の類似性を考慮する。品質測度q(U,X)がユーザUに 依存するとともに、ターゲットオブジェクトXにも依存することを思い出された い。そのため、所与のターゲットオブジェクトXは、異なるユーザによって、異 なる品質を有するとして認識され得る。この変形では、上述のように、q(U, X)は、Xだけに依存する様々な品質属性の重み付け合計として計算されるが、 その後、別の項が加えられる。即ち、rres(V,X)の既知の値にスムージン グアルゴリズムを適用することによって見いだされるrres(V,X)の評価値 が加えられる。ここでは、Vの範囲は、ターゲットオブジェクトXについて関連 性フィードバックを与えたことがあるすべてのユーザであり、スムージングアル ゴリズムは、そのようなユーザVの各々からユーザUまでの距離d(U,V)に 敏感 である。 クラスタ化のための類似性計算の利用 上では、任意のターゲットオブジェクト対間の距離を定義する方法を開示した 。この距離測度があれば、k平均(k-means)などの標準的なクラスタ化アルゴ リズムを適用して、類似したターゲットオブジェクトが同一クラスタにグループ 分けされるようにターゲットオブジェクトを多数のクラスタにグループ分けする ことは簡単である。結果として得られたクラスタを用いて、「売り手と買い手と の整合」の章で説明した応用における売り手と買い手との整合の効率を高めるこ とができることは明らかである。すべての購入プロファイルをすべての販売プロ ファイルと比較する必要はなく、同一クラスタに現れるほど十分に類似している 購入プロファイルと販売プロファイルとを比較するだけでよい。以下に説明する ように、クラスタ化手順の結果は、フィルタリングをより効率的にするために用 いられ、さらに、問い合わせおよびブラウズの作業において用いられる。 k平均クラスタ化法は、当業者によく知られた方法である。簡単に言うと、k 平均クラスタ化法では、ポイント(この場合は、数値座標が上述のような属性の 数値分解によって与えられるターゲットプロファイル)のグループを見つけて、 ポイントおよび中心が配置されるクラスタのポイント、およびクラスタの中心の 距離を最小にする。これは、各ポイントを、最も近い中心を有するクラスタに割 り当て、一旦ポイントが割り当てられると、このクラスタに配置されるポイント (ターゲットオブジェクト)の座標の平均をとることによって各クラスタの(新 しい)中心を計算する、というプロセスを交互におこなうことによって行われる 。オブジェクトが2つ以上のクラスタに属することが可能となる「ソフト(soft )」あるいは「ファジー(fuzzy)」k平均クラスタ法などのその他のクラスタ 化法を用いることも可能である。これは、k平均の問題点と同様のクラスタ化の 問題点となり得るが、現在、最適化される基準は少し異なっており、以下の通り である。 ここで、Cはクラスタ番号の範囲をとり、iはターゲットオブジェクトの範囲を とり、xiはターゲットオブジェクト番号iのプロファイルに対応する数値ベク 号Cのターゲットオブジェクトのターゲットプロファイルに対応するすべての数 値ベクトルの平均であり、d(*,*)は、2つのターゲットオブジェクトの間 の距離を測定するために用いられる計量であり、iiCは0と1との間の値であっ て、ターゲットオブジェクト番号iがクラスタ番号Cにどれだけ関連しているか を示し、ここでiは、各々のiについてSUM SUB C I SUB iC=1である特性を有 するインジケータ行列である。k平均クラスタ化の場合、iiCは0あるいは1で ある。 システムは、これらの基本的な種類のクラスタ化のいずれを用いてもよい。 1)関連に基づくクラスタ化:プロファイルが関連属性だけを含み、従って、 距離が完全に関連によって定義される。この種類のクラスタ化は、一般に、(a )ターゲットオブジェクトを好むユーザの類似性に基づいて、ターゲットオブジ ェクトをクラスタ化するか、あるいは(b)ユーザが好むターゲットオブジェク トの類似性に基づいて、ユーザをクラスタ化する。このアプローチでは、システ ムは、ターゲットオブジェクトとユーザとの間の対話履歴以外の、ターゲットオ ブジェクトあるいはユーザに関する情報しか必要としない。 2)内容に基づくクラスタ化:プロファイルが非関連属性だけを含む。この種 類のクラスタ化は、(a)非関連属性(単語の頻度など)の類似性に基づいてタ ーゲットオブジェクトをクラスタ化するか、あるいは(b)非関連属性(人口統 計学およびサイコグラフ法(psychographics))の類似性に基づいてユーザをク ラスタ化する。このアプローチでは、システムは、ユーザの情報アクセス履歴パ ターンに関する情報を記録する必要はなく、ユーザおよび/またはターゲットオ ブジェクトの固有の特性についての情報を必要とする。 3)均一ハイブリッド法:プロファイルが、関連属性および非関連属性をとも に含み得る。この方法は、(1)(a)および(2)(a)あるいは(1)(b)および(2)(b) を組み合わせたものである。2つのプロファイルPXとPYとの間の距離d(PX ,PY)は、上で説明した一般的な類似性測定法によって計算され得る。 4)連続ハイブリッド法:まず、k平均手順を適用して(1)(a)を行い、どの ユーザがその記事を読んだかに基づいて、クラスタによって記事にラベルを付け る。その後、単語の頻度を用いて上述の方法(2)のプロセス(a)を行う管理(sup ervised)クラスタ化(最大可能性弁別法)を用いる。これは、誰が何を読んだ かについての知識を用いて、単語の頻度に基づいたクラスタ化をよりよく行うよ う試みるものである。上述の方法(1)(b)と(2)(b)とを同様に組み合わせてもよ い。 ターゲットオブジェクトの階層クラスタ化はしばしば有用である。階層クラス タ化は、図8に示すように、ターゲットオブジェクトを、ほぼ類似したオブジェ クトからなる2つの大きいクラスタに分け、これらのクラスタの各々を、2つ以 上のより小さいクラスタに分け、ターゲットオブジェクトのコレクションがすべ て、各々が1つのオブジェクトからなる「クラスタ」に分けられるまで、これら のより小さいクラスタの各々をさらに小さいクラスタに分けるツリーを生成する 。この図では、ノードdは、特定のターゲットオブジェクトdを示すか、あるい は、それと等価には、このターゲットオブジェクトからなる1要素のクラスタを 示す。ターゲットオブジェクトdは、クラスタ(a,b,d)の要素であり、こ のクラスタは、クラスタ(a,b,c,d,e,f)の部分集合であり、この部 分集合は、すべてのターゲットオブジェクトの部分集合である。図8に示すツリ ーは、図7に幾何学的に示しているターゲットオブジェクトのようなターゲット オブジェクトの集合から生成される。図6において、各文字はターゲットオブジ ェクトを表し、軸x1およびx2は、ターゲットオブジェクトが異なる、多くの 数値属性のうちの2つを表す。そのようなクラスタツリーは、人間の判断を用い て、類似したオブジェクトのクラスタおよびサブクラスタを形成しすることによ り、手で作成され得るか、あるいは、2つの標準的な方法、即ち、トップダウン あるいはボトムアップのいずれかを用いて自動的に作成され得る。トップダウン 階層クラスタ化では、図7のすべてのターゲットオブジェクトからなる集合は、 クラスタ(a,b,c,d,e,f)および(g,h,i,j,k)に分けられ る。その後、クラスタ化アルゴリズムが、再び各クラスタのターゲットオブジェ クトに適用され、クラスタ(g,h,i,j,k)がクラスタ(g,k)および (h, i,j)に細分される、などにより、図8に示すツリーに到達する。ボトムアッ プ階層クラスタ化では、図7のすべてのターゲットオブジェクトからなる集合は 、多数の小さいクラスタ、即ち、(a,b)、d、(c,f)、e、(g,k) 、(h,i)およびjに分けられる。その後、これらのクラスタ自体が、それら のクラスタプロファイルに従って、より大きいクラスタ(a,b,d)、(c, e,f)、(g,k)および(h,i,j)にグループ分けされる。これらのよ り大きいクラスタ自体が、(a,b,c,d,e,f)および(g,k,h,i ,j)に分けれられ、これが、すべてのターゲットオブジェクトが一緒のグルー プに分けられるまで行われて、図8のツリーとなる。尚、ボトムアップクラスタ 化を行うには、クラスタ化アルゴリズムを一組の既存のクラスタに適用すること ができなければならない。これには、2つのクラスタ間の距離の概念が必要であ る。上で開示した、ターゲットオブジェクト間の距離を測定する方法は、クラス タがターゲットオブジェクトと同じ方法でプロファイルされていれば、直接適用 することができる。クラスタのプロファイルがクラスタ中のすべてのターゲット オブジェクトのターゲットプロファイルの平均であるという取り決め(conventi on)を採用するだけでよい。即ち、所定の属性についてのクラスタの値を決定し 、クラスタ中のすべてのターゲットオブジェクトについてのその属性の平均値を とるだけでよい。この平均値を十分に定義するためには、すべての属性が数値属 性でなければならず、従って、通常通り、上述のように、各テキスト属性あるい は各関連属性を、数値属性(スコア)への分解に置き換えることが必要である。 例えば、1つのWoody Allenの映画のターゲットプロファイルは、「監督名」フ ィールドにおいて、「Woddy Allen」にはスコア1を割り当て、「Federico-Fell ini」および「Terence-Davies」にはスコア0を割り当てる。Allenが監督した2 0個の映画とFelliniが監督した5つの映画からなるクラスタは、スコア0.8 、0.2、および0でプロファイルされる。これは、例えば、0.8が20個の 1と5個の0との平均であるからである。 ターゲットオブジェクトの検索 ターゲットプロファイルPを有するターゲットオブジェクトが与えられると、 またあるいは、検索プロファイルPが与えられると、ターゲットオブジェクトの 階層クラスタツリーによって、システムが、Pに類似のターゲットプロファイル を有するターゲットオブジェクトを効率的に検索することが可能となる。そのよ うなターゲットプロファイルの検索においては、自動的にツリー中をナビゲーシ ョンすることが必要なだけである。所望のオブジェクトのカスタム化された電子 識別システムは、最大の、最上位クラスタを考慮することで始まり、プロファイ ルがターゲットプロファイルPに最も類似しているクラスタを選択する。ほぼ同 じ場合には、複数のクラスタが選択され得る。次に、システムは、選択されたク ラスタのサブクラスタを全て考慮し、今度は、プロファイルがターゲットプロフ ァイルPに最も近い1つまたは複数のサブクラスタを選択する。この精製プロセ スは、あるステップに関して選択されたクラスタが十分に小さくなるまで反復さ れ、それらは、ターゲットプロファイルPに最も類似したプロファイルを有する ターゲットオブジェクトの所望のクラスタである。従って、階層クラスタツリー はどれでも、ターゲットオブジェクトを識別するための判断ツリーとして機能す る。疑似コード形態では、このプロセスは、以下(および図13Aおよび図13 Bのフロー図形態)の通りである: 1.ステップ13A00において、識別されたターゲットオブジェクトのリス トを、空リストへと初期化する。 2.ステップ13A01において、現ツリーTが、全オブジェクトの階層クラ スタツリーとなるように初期化し、ステップ13A02において、図13Bに詳 述されるプロセスを用いて、Pに類似のターゲットオブジェクトを求めて現クラ スタツリーをスキャンする。 3.ステップ13B00において、変数Iが、1に設定され、ツリーTのルー トの各子サブツリーTiに対して取り出される。 4.ステップ13B02において、d(P,pi)、すなわちPとpiとの類似 距離を計算する。 5.ステップ13B03において、d(P,pi)<t(しきい値)であれば 、2つのオプションの一方に分岐する。 6.ステップ13B04において、ツリーTiが、ターゲットオブジェクトを 1つだけ含んでいれば、ステップ13B05において、該ターゲットオブジェク トを、識別されたターゲットオブジェクトのリストに加え、ステップ13B07 に進む。 7.ステップ13B04において、ツリーTiが、複数のターゲットオブジェ クトを含んでいれば、図13Bのプロセスのステップを再帰的に起動させること によって、Pに類似のターゲットオブジェクトのためにi番目の子サブツリーを スキャンし、次に、ツリーTiにおいてPに類似のプロファイルを有するターゲ ットオブジェクトを検索するために、ツリーTiへの再帰の期間に制限されたT と共に、ステップ3(図13Aにおけるステップ13A01)に再帰する。 この疑似コードのステップ5においては、より小さなしきい値が、例えばしき い値を疑似関数、またはクラスタ分散またはクラスタpiのクラスタ直径の他の 関数にすることによって、典型的にはツリーの下位において用いられる。本明細 書中の「ブラウジングシステムのネットワークコンテクスト」というタイトルの セクションに説明されるように、クラスタツリーが複数のサーバに分散されると 、このプロセスは、以下のような分散された様式で実行され得る。ステップ3〜 7が、階層クラスタツリーTのルートノードを格納するサーバによって実行され 、ステップ7におけるサブクラスタツリーTiへの再帰は、ツリーTiのルートノ ードを格納するサーバへの検索リクエストの送信に関与し、このサーバは、この リクエストを受け取った際に、再帰的ステップを実行する。ステップ1〜2は、 検索を開始するプロセッサによって実行され、ステップ6を実行するサーバは、 ターゲットオブジェクトを識別するメッセージを、この開始プロセッサに送らな ければならず、このプロセッサは、メッセージをリストに加える。 下位のクラスタが、クラスタ化によってすでに形成されたと仮定すると、プロ ファイルが、あるターゲットプロファイルPに最も類似する下位クラスタを識別 するための代替の検索方法が存在する。標準バックプロパゲーションニューラル ネットは、そのような方法の一つである。これは、ターゲットオブジェクトの属 性を入力として受け取り、出力として、適切な下位クラスタを識別するために使 用され得る固有のパターンを生成するように訓練されるべきである。最大限の正 確さのためには、互いに類似する下位クラスタ(クラスタツリーにおいて共に近 接している)は、類似の識別パターンを与えられるべきである。別のアプローチ には、適切なクラスタを識別できるまで、ターゲットプロファイルPの属性を1 度に1つずつ考慮する標準判断ツリーがある。プロファイルが大きければ、この アプローチは、全ての属性を考慮するよりも、より高速であり得る。検索のハイ ブリッドアプローチは、上記のような距離測定を使用し、それによって、プロフ ァイルがターゲットプロファイルPに類似する中間サイズのクラスタに到達する まで、階層クラスタツリーの2、3の最上位がナビゲーションされ、その後、該 中間クラスタの下位サブクラスタの検索を専門とする判断ツリーを用いて継続さ れる。 これらの検索技術の使用の1つは、ユーザの検索プロファイルセットからある 検索ファイルに一致するターゲットオブジェクトを検索することである。この形 態の検索は、新聞の切り抜きサービス、アクティブナビゲーション、および以下 に記載される仮想コミュニティサービスアプリケーションにおいて、繰り返し使 用される。別の使用は、新しいターゲットオブジェクトを素早くクラスタツリー に加えることである。新しいターゲットオブジェクトに類似の現存するクラスタ は、迅速に見つけだされ、新しいターゲットオブジェクトが、このクラスタに加 えられ得る。オブジェクトが、クラスタの中心からある特定のしきい値距離を越 えると、新しいクラスタを開始することが望ましい。このインクリメンタルクラ スタ化スキームの幾つかの変形が使用され得、高度な統計パッケージにおいて利 用可能なサブルーチンの変形を使用して構築され得る。様々な方法が、使用され るアーキテクチャに応じて、クラスタツリーに加えられなければならない新しい ターゲットオブジェクトを見つけだすのに使用され得ることに注目されたい。あ る方法においては、中央コンピュータで実行される「ウェブクローラ」プログラ ムが、新しいターゲットオブジェクトを探して、周期的に全てのサーバをスキャ ンし、これらのオブジェクトのターゲットプロファイルを計算し、上記の方法に よって階層クラスタツリーにそれらを加える。別の方法においては、新しいター ゲットオブジェクトがサーバのいずれかに加えられると、該サーバにおけるソフ トウェア「エージェント」は、ターゲットプロファイルを計算し、上記の方法に よって階層クラスタツリーにそれを加える。 高速プロファイリング あるドメインにおいては、ターゲットオブジェクトの完全なプロファイルを自 動的に構築することが常に容易とは限らない。例えば、ターゲットオブジェクト が、壁紙パターンである場合には、「ジャンル」(「アールデコ」、「チルドレ ンズ」(Children's)、「ラスティック」(Rustic)等の単一のテキスト用語) 等の属性は、人間に相談する以外には決定が困難な判断および意見の問題であり 得る。より有意には、各壁紙パターンが、様々な人間のユーザ(消費者)からの 該パターンに対するポジティブまたはネガティブな関連性フィードバックを記録 する関連属性を有する場合には、新しく導入されるパターンの全ての関連スコア が、最初は0であり、その結果、他のどのパターンが新しいパターンに類似であ るかが、それらを気に入ったユーザに対して最初は不明である。実際、この関連 属性が高度に重みづけられると、中程度から高度に関心を持つユーザが、関連性 フィードバックを提供することが必要とされるが、関連性フィードバックが、中 程度から高度に関心を持つユーザを識別するために必要であるという悪循環が原 因で、関連性フィードバック情報の初期の欠如を矯正することが困難であり得る 。しかし、幸運なことに、人間に相談する方法を含むがそれには限定されない異 例の方法によって、新しいターゲットオブジェクトの特定の属性を決定すること が、原則的にはしばしば可能である。例えば、システムは、原則的には、有名な 人間の専門家の組から一人以上のランダムに選択された個人に相談することによ って、壁紙パターンのジャンルを決定し得るが、新しい壁紙パターンと特定のユ ーザとの間の数値の関連スコアを決定するためには、原則的には、そのユーザに パターンを見せ、関連性フィードバックを得ることができる。しかし、そのよう なリクエストが人に不便をかけるので、文書を分類する目的上、最も重要なもの だけを除いて、全ての困難な属性をこの方法で決定しないことが重要である。「 高速プロファイリング」は、決定することが最も重要な数値的属性を選択する方 法である(全ての属性が、関連スコアまたは用語スコア等の数値的属性に分解さ れ得ることを思い出されよ)。第1に、すでに完成した、またはほぼ完成したプ ロファイルを有する現存のターゲットオブジェクトのセットが、k平均アルゴリ ズムを用いてクラスタ化される。次に、結果として生じたクラスタの各々が、固 有の識別番号を割り当てられ、クラスタ化されたターゲットオブジェクトの各々 が、ク ラスタの識別番号で標識化される。次に、標準的な方法により、あらゆるターゲ ットオブジェクトのクラスタ番号をかなりの正確さで決定し得る単一の判断ツリ ーの構築が、1度1つずつターゲットオブジェクトの属性を考慮することによっ て可能となる。新しいターゲットオブジェクトのために必要であれば決定され得 る属性のみが、この判断ツリーの構築に使用される。新しいターゲットオブジェ クトをプロファイルするためには、判断ツリーが、ルートから所望なだけ遠くに 下に向かってトラバースされる。判断ツリーのルートは、ターゲットオブジェク トのある属性を考慮する。この属性の値がまだわからなければ、その属性に適切 な方法によって決定される。例えば、その属性が、ユーザ#4589に対するタ ーゲットオブジェクトの関連スコアであれば、関連性フィードバック(この属性 の値として使用される)が、ユーザ#4589から求められる。これは、おそら くは、ユーザがどのように考えているかを調べるために、ユーザの注目に対して 、システムが推奨するオブジェクトセットに、おそらく関心のないターゲットオ ブジェクトを加える計略によって求められる。一旦ルート属性が決定されると、 高速プロファイリング方法は、判断ツリーを1レベル下降し、ルート属性の決定 された値に応じてルートの判断サブツリーの1つを選ぶ。この選ばれたサブツリ ーのルートは、ターゲットオブジェクトの別の属性を考慮し、その値は、適切な 方法によって同様に決定される。このプロセスは、利用可能などのような方法で も用いて、所望な数の属性を決定するために繰り返され得る。しかし、このプロ セスは、多すぎる数の属性を決定する負担を避けるために、少数の属性の後に通 常停止される。 高速プロファイリング方法が、ターゲットオブジェクトのプロファイルだけで なく、あらゆる種類のプロファイルにおいて重要な属性を識別するために使用さ れ得ることが注目されるべきである。特に、類似点によってトピック的関心を決 定するための開示された方法が、ユーザ並びにターゲットオブジェクトが、プロ ファイルを有することを必要とすることを思いだされよ。新しいターゲットオブ ジェクトと同様に、新しいユーザが、高速プロファイリングプロセスによってプ ロファイルされ得る、または部分的にプロファイルされ得る。例えば、ユーザプ ロファイルが、ユーザの関連性フィードバックをシステム中の全てのターゲット オブジェクトに記録する関連属性を含む場合には、高速プロファイリングプロシ ージャが、ユーザのフィードバックを少数の有意なターゲットオブジェクト上で 求め、おそらくはオンラインの照会、電話調査、または他の手段によって新しい ユーザの少数の他の重要な属性を決定することによっても、新しいユーザの関心 の大まかな特徴付けを急速に形成し得る。一旦新しいユーザがこの方法で部分的 にプロファイルされると、上に開示された方法は、新しいユーザの関心が、類似 のプロファイルを有する他のユーザの公知の関心に似ていることを予想する。変 形例では、各ユーザのユーザプロファイルが、人口統計的特徴などの長期属性の セット、および答えがユーザの気分を反映する質問に対するユーザのテキストま たは多項選択式の回答などの、ユーザの一時的な要望および感情状態を識別する 助けとなる短期属性のセットに細分される。ユーザの長期属性のサブセットは、 長期属性の高速プロファイリングツリーの使用によって、ユーザが初めにシステ ムに登録した時に決定される。さらに、ユーザがシステムにログオンするたびに 、短期属性に関する質問をする別個の高速プロファイリングツリーの使用によっ て、ユーザの短期属性のサブセットが追加的に決定される。 市場調査 高速プロファイリングに類似の技術は、市場調査(または投票者調査)におい て関心のあることである。ターゲットオブジェクトが消費者だと仮定すると、各 ターゲットプロファイルにおけるある特定の属性は、そのターゲットプロファイ ルによって示される消費者が、製品Xを購入したかどうかを示す。消費者のプロ ファイルにおける他の属性を考慮することによって、消費者が、この属性に対し てどのような値を有するかを決定しようと試みる判断ツリーが構築され得る。こ の判断ツリーは、さらなるユーザが、製品Xを購入しそうであるかどうかを決定 するためにトラバースされ得る。より一般的には、判断ツリーの2、3の最上位 レベルが、大量販売またはダイレクトメールキャンペーンを企画している広告主 にとって価値のある、製品Xの消費者の最も有意な特徴に関する情報を提供する 。 代替的に、同様の情報が、判断ツリーに頼ることなく、1度に1つずつ属性を 考慮し、製品Xの消費者が、製品Xの非消費者とは有意に異なる属性を識別する ことによって、消費者プロファイルの集まりから抽出され得る。これらの技術は 、 特定の製品の消費者を特徴づけるために機能し、これらの技術は、調査された個 人のあるセットから、特定の候補者を支持する、特定の意見を持つ、特定の人口 統計グループに属する、またはある別の顕著な属性のセットを有する個人を特徴 づけることを目的とする投票者調査または他の調査研究にも同様にうまく適用さ れ得る。研究者は、個人の識別情報が取り除かれた、分析済みまたは分析されて いないユーザプロファイルのバッチを購入することを望むかもしれない。あらゆ る統計的データベースの場合と同様に、統計的結論が引き出され得、属性間の関 係が、当該分野には周知の知識発見技術を用いて解明され得る。 支援アーキテクチャ 以下のセクションは、本特許に記載される方法を実行するための好適なコンピ ュータおよびネットワークアーキテクチャを説明する。 電子媒体システムアーキテクチャ 図1は、ブロック図の形態で、当該分野で公知の電子媒体システムのアーキテ クチャ全体を形成し、ここでは、本発明の所望のオブジェクトのカスタム化電子 識別システムが、電子媒体システムを介して利用可能なターゲットオブジェクト へのユーザカスタム化アクセスを提供するために使用され得る。特に、電子媒体 システムは、複数のユーザと多数の情報サーバとを相互接続するデータ通信設備 を備える。ユーザは、典型的には、パーソナルコンピュータ(端末)T1〜Tnが 、モデムおよび周知の様式で確立された電話接続などのデータ通信リンクを介し て、通信ネットワークNに接続される個人である。ユーザ情報アクセスソフトウ ェアは、ユーザのパーソナルコンピュータに常駐しており、データ相互接続サー ビスに情報サーバI1〜Imから選択されたサーバを供給する複数のネットワーク ベンダV1〜Vk(America Online、Prodigy、CompuServe、他の有限会社あるい は大学)の1つを用いて、データ通信リンクおよび通信ネットワークN上で通信 するように機能する。ユーザ情報アクセスソフトウェアの使用によって、ユーザ は、情報サーバI1〜Imと対話し得、それによって、情報サーバ装置の一部であ る大容量記憶システムSSmに常駐するデータへのアクセスがリクエストされ、 得られる。新しいデータが、パーソナルコンピュータT1〜Tnを介して、 および大容量記憶システムSS1〜SSmに商用データを蓄積させる商用情報サー ビスによって、このシステムyユーザに入力される。各ユーザ端末T1〜Tnおよ び情報サーバI1〜Imは、電話番号、またはある特定のユーザ端末T1〜Tnと選 択された情報サーバI1〜Imとの間にデータ通信リンクが確立されることを可能 とするネットワークN上のIPアドレスを有する。ユーザの電子メールアドレス もまた、username@aol.comまたはusername@netcom.comなどの業界標準フォー マットで、ユーザおよびユーザのネットワークベンダV1〜Vkを固有に識別する 。ネットワークベンダV1〜Vkは、加入者(選択されたユーザ)にアクセスパス ワード(これによってユーザは、情報サーバI1〜Imにアクセスし得る)を提供 する。加入者は、典型的には月々の加入料金および使用に基づく料金を含む料金 表に基づいて、アクセスサービスに対して、ネットワークベンダV1〜Vkに支払 いをする。このシステムの困難な点は、世界中に位置する多数の情報サーバI1 〜Imが存在し、それぞれが、異なるフォーマット、内容、およびトピックの情 報セットへのアクセスを、典型的には特定の情報サーバI1〜Imに固有のカタロ グシステムを介して提供することである。情報は、個々の「ファイル」(ファイ ルは、オーディオデータ、映像データ、グラフィックデータ、テキストデータ、 構造化データベースデータ、およびそれらの組み合わせを含有し得る)から構成 される。本特許の用語では、各ターゲットオブジェクトが、固有のファイルに関 連づけられ、本質的に情報的で、デジタル形式で表され得るターゲットオブジェ クトに関しては、ファイルは、ターゲットオブジェクトの情報内容を直接記憶し 、購入可能な品物などの、電子的に記憶されないターゲットオブジェクトに関し ては、ファイルは、ターゲットオブジェクトの識別説明を含有する。テキストフ ァイルとして電子的に記憶されるターゲットオブジェクトは、市販の新聞記事、 出版文書、手紙、ユーザが作成した文書、物理的オブジェクトの説明、またはこ れらの種類のデータの組み合わせを含み得る。情報を含むファイルの編成および 同じタイプの概念のファイルに含まれるデータのネーティブフォーマットは、情 報サーバI1〜Imによって異なり得る。 従って、ユーザは、所望の情報を含むファイルを捜し出すことが困難であり得 る。その理由は、情報サーバカタログ化によって、ユーザがそれらのファイルを 捜し出すことが可能とはなり得ないファイルに、情報が含まれているかもしれな いからである。さらに、全ての情報サーバI1〜Imによって提供される存在およ びサービスを規定する標準カタログは存在しない。従って、ユーザは、情報への 簡単なアクセスは有さず、このシステム上で生成され蓄積された過剰な情報から ユーザに関連し得る情報のセグメントを抜粋するために多大な時間と労力を費や さなければならない。たとえユーザが必要な資源をこのタスクに捧げたとしても 、現存の情報を取り出すプロセスは、ユーザが所望の情報を得ることを確実にす る正確さおよび効率に欠けている。この電子媒体システムの構成体内で、所望の オブジェクトのカスタム化電子識別システムの3つのモジュールが、たとえ様々 なモジュールが、電子媒体システム上、および/または電子媒体システム内の異 なるベンダによって実行されていても、配信形態で実行され得る。例えば、情報 サーバI1〜Imが、ターゲットプロファイル生成モジュールを含有し得る一方で 、ネットワークベンダV1〜Vkは、ユーザプロファイル生成モジュール、ターゲ ットプロファイル関心サマリ生成モジュール、および/またはプロファイル処理 モジュールを実行し得る。モジュール自体は、多数のノードがネットワークN中 に存在し、各ノードが特定の地理的地域のユーザ集団に仕える状態で、配信形態 で実行され得る。これらのノードの全体性が、特定のモジュールの機能性を構成 する。モジュールおよびそれらの機能の様々な他のパーティションが可能であり 、本明細書中に提供される例は、例示的な実施例を表し、請求の範囲に記載され ている発明の範囲を限定する意図はない。仮名の作成およびユーザのターゲット プロファイル関心サマリの更新(以下に記載されるような)のために、ベンダV1 〜Vkは、進行中の仮名アクセスのための機構および本明細書中に記載される方 法によるプロファイル構築を提供する、ある数の代理サーバで増大され得る。少 なくとも1つの信頼のある妥当性検査サーバが、システム中の仮名の作成を管理 するために適所に存在しなければならない。 所望のオブジェクトのカスタム化電子識別システムの重要な特徴は、その応答 性である。その理由は、このシステムの所期の使用が、対話式モードにあるから である。システムのユーティリティは、ユーザの数と共に増加し、それによって 、ユーザとターゲットオブジェクトとの間のあり得る消費者/製品関係の数が増 加 する。大きなユーザグループに応対するシステムは、対話式の性能を維持しなけ ればならず、ターゲットオブジェクトおよびユーザをプロファイルおよびクラス タ化するための開示の方法が、次に、ユーザのターゲットプロファイル関心サマ リに基づいて、仮想コミュニティのメンバーの間で、データ通信ネットワークを 通したデータの配布を最適化するために使用され得る。 ネットワーク要素およびシステムの特徴 図1に図示されるようなデータ通信ネットワークNによって相互接続される様 々なプロセッサは、図2に図示されるように、2つの種類に分けられ、グループ 化される(すなわち、クライアントおよびサーバ)。クライアントC1〜Cnは 、データ通信リンクを介して様々な時点でサーバS1〜S5に接続される個々の ユーザのコンピュータシステムである。各クライアントCiは、典型的には、単 一のサーバSjに関連するが、これらの関連性は、経時変化し得る。クライアン トC1〜Cnは、ユーザにインターフェースし、且つサーバに対してファイルを 作成し、サーバからファイルを取り出す。クライアントC1〜Cnは、典型的に は、一人のユーザに応対し、多くの位置のどこででもデータ通信ネットワークN に接続され得る、ラップトップコンピュータ等の可動システムであり得るので、 連続的にオンラインにいるとは限らない。クライアントはまた、ユーザが自分自 身をパスワードまたはスマートカードを用いて識別させる、多くのユーザにカス タム化された情報へのアクセス並びにターゲット広告を提供するコンピュータお よびキオスク等の様々な他のコンピュータであり得る。サーバSiは、連続的に オンラインと仮定され、ローカルクライアントC1〜Cnによるアクセスのため に、データ通信ネットワークN上の様々なソースからファイルを集め、遠隔地の クライアントによるアクセスのために、ローカルクライアントC1〜Cnからフ ァイルを集めるように機能するコンピュータシステムである。サーバSiは、磁 気ディスクデータ記憶媒体等の永続的記憶装置を備え、データ通信リンクを介し て他のサーバに相互接続される。データ通信リンクは、任意のトポロジーおよび アーキテクチャを有し得、本明細書中では、簡易化の目的で、二地点間リンク、 あるいは、より正確には、仮想二地点間リンクとして記載される。サーバS1〜 S5は、図1のネットワークベンダV1〜Vk並びに情報サーバI1〜Imを含 み、これらの2種類のモジュールによって行われる機能が、単一のサーバSiに おいて、より大きな範囲あるいはより小さな範囲にマージされ、データ通信ネッ トワークNの多数のサーバに配布され得る。本発明の好適な実施形態の説明を始 める前に、多数の用語を定義する。図3は、ブロック図の形態で、複数のサーバ A〜D(各サーバは、少なくとも1つの他のサーバと相互接続され、典型的には 、複数のクライアントp〜sにも相互接続される)に関する任意に選択されたネ ットワークトポロジーの表示である。サーバA〜Dは、二地点間データ通信リン クの集まりによって相互接続され、サーバAは、クライアントrに接続され、サ ーバBは、クライアントp〜qに接続され、サーバDは、クライアントsに接続 される。サーバは、暗号化された、または暗号化されていないメッセージをサー バ間で送信し、メッセージは、典型的には、ある特定のファイルに記憶された文 字および/またはグラフィック情報を含み、このファイルのタイプおよび起源、 メッセージを受けることになっているサーバの名前、およびファイルの内容が送 信されている目的を説明するデータも含有する。あるメッセージは、どのような ファイルとも関連しないが、制御的理由で、例えば、ファイルの送信をリクエス トする、または新しいファイルの可用性を公表するために、あるサーバによって 別のサーバへと送られる。メッセージは、サーバAが、サーバCまたはサーバB およびCのどちらかのリレーノードを介して、メッセージをサーバDに送信する 場合と同様に、あるサーバから別のサーバへと転送され得る。一般的には、ネッ トワーク中に複数のパス(各バスは、ネットワークNがトラフィックルーティン グを最適化することを可能とするための性能能力およびコストによって特徴づけ られる)を有することが望ましい。 代理サーバおよび仮名トランザクション ターゲットプロファイル関心サマリを用いる方法が、ターゲットオブジェクト プロバイダおよびユーザの両方に多くの利点を与える一方で、システムが、自由 に使用され、且つプライバシーの侵害を懸念することなくユーザによって阻止さ れずに使用されるためには、ユーザおよびプロバイダの両方にとって、解決され なければならない重要なプライバシーの問題が存在する。ユーザが、全部ではな いとしても、ユーザプロファイルおよびターゲットプロファイル関心サマリにお けるユーザ特異的情報のいくつかが機密性を維持し、特定のタイプのトランザク ションに関連する特定の状況下において、および購入および明示された関心に関 する異なるレベルの機密性に対する個人の願望に従ってのみ開示されることを望 む傾向がある。 しかし、ユーザトランザクションおよびプロファイルサマリ情報の完全なプラ イバシーおよび非アクセス可能性によって、所望のオブジェクトのカスタム化電 子識別システムの実行が妨げられ、ユーザ特異的情報のシステムの使用を通して 得られる利点の多くを、ユーザから奪う。多くの場合、完全および全面的なプラ イバシーが、あるトランザクションに対する全てのパーティによって望まれるわ けではない。例えば、買い手は、彼または彼女の関心に関連する製品を記載する 特定のメールに対してのみターゲットにされることを望むかもしれず、売り手は 、売り手が提供する商品およびサービスに関心があると予想されたユーザをター ゲットにすることを望むかもしれない。実際、本明細書中に記載される技術の有 用性は、多くのユーザおよび多くのターゲットオブジェクトに関するデータを集 め、比較するシステムの能力次第で決まる。ユーザ検索プロファイルまたはター ゲットプロファイル関心サマリの完全なユーザ仮名性と完全な公の開示との間の 妥協が、仮名である。仮名は、サービスプロバイダがユーザと通信し、経時的に ユーザの好みに関するレコードを集めて蓄積することを可能とし、同時に、ユー ザの現実のアイデンティティに関して無知でいることによって、ユーザが、自分 達の購入または好みを秘密にしておくことが可能である人為現象である。仮名シ ステムの第2の、同様に重要な必要条件は、ある特定の仮名によって表されるユ ーザが特定の属性を有することを保証するために使用されるデジタルクリデンシ ャルを提供することである。これらのクリデンシャルは、所望のオブジェクトの カスタム化電子識別システムを用いて行われた活動およびトランザクションの結 果に基づいて、あるいは現システムのネットワークN上で行われた他の活動およ びトランザクションに基づいて、またネットワークNの外のユーザの活動に基づ いて認可され得る。例えば、サービスプロバイダは、ユーザとの取引きに同意す る前に、購入者が、彼/彼女の銀行預金に十分な資金を持つという証明(これは 、ネットワーク上にはおそらくないかもしれない)を必要とし得る。従って、ユ ーザ は、サービスプロバイダに、銀行からの資金の証明(クリデンシャル)を提供し なければならないが、それでもサービスプロバイダにはユーザの現実のアイデン ティティを明らかにしてはいない。 本方法は、上記の問題を、「A secure and privacy-protecting protocol for transmitting personal information between organizations」というタイトル の論文においてD.ChaumおよびJ.H.Evertseによって教示される仮名認可およ びクリデンシャル転送方法を、ネットワークN中に分散された1つ以上の代理サ ーバセットの実現と組み合わせることによって解決する。各代理サーバ(例えば 図2におけるS2)は、クライアントおよびネットワーク中の他のサーバS5と 、直接または「Untraceable Electronic Mail、Return Addresses、and Digital Pseudonyms」というタイトルのD.Chaumによる論文(Communications of the A CMの24巻、No.2、1981年2月出版)に詳述されるような仮名混合パスを通して通 信するサーバである。ネットワークN中のサーバはどれでも、他の機能に加えて 代理サーバとして機能するように構成され得る。各代理サーバは、あるユーザの 組にサービスを提供し、この組は、該代理サーバの「ユーザベース」と呼ばれる 。ある代理サーバは、そのユーザベースにおける各ユーザUに対して3種類のサ ービスを以下のように提供する: 1.代理サーバの第1の機能は、ユーザUと、情報サーバ(代理サーバ自体を 含み得る)および/または他のユーザ等の他のエンティティとの間の通信を双方 向的に送信することである。具体的には、Sが、ユーザUのクライアントプロセ ッサに直接関連するサーバを表すとすると、サーバSおよびユーザUのアイデン ティティを隠す仮名混合パス(この場合、代理サーバは、安全な仮名によっての みユーザUを知っている)を通して、そうでなければ、従来の仮想二地点間接続 (この場合、代理サーバは、サーバSにおけるユーザUのアドレスによってユー ザUを知っており、このアドレスは、ユーザUにとって安全ではない仮名とみな され得る)を通して、代理サーバは、サーバS(および従ってユーザU)と通信 する。 2.代理サーバの第2の機能は、ユーザUに関連するユーザ特異的情報を記録 することである。このユーザ特異的情報は、ユーザUに関するユーザプロファイ ルおよびターゲットプロファイル関心サマリ、並びに以下に説明されるような、 ユーザUによって指定されるアクセス制御命令のリスト、およびユーザUの現実 のアイデンティティを知ることなくユーザUにメッセージを送るために使用され 得る、ユーザUによって提供される1回限りの返信アドレスのセットを含む。こ のユーザ特異的情報の全てが、代理サーバ上の、ユーザUの仮名(安全または非 安全にかかわらず)によって鍵をかけられるデータベースに記憶される。 3.代理サーバの第3の機能は、ユーザUにアドレスされた応答不要の通信の ための選択的転送エージェントとして機能することである。代理サーバは、ユー ザUによって指定されたアクセス制御命令に基づいて、そのような通信のいくつ かをユーザUに転送し、その他の通信を拒絶する。 組み合わせられた本方法によって、あるユーザが、彼または彼女が仮名のまま でいることを望む全てのトランザクションにおいて1つの仮名を使用する、ある いは異なるタイプのトランザクションに対して異なる仮名を使用することが可能 となる。後者の場合、各サービスプロバイダは、ユーザの異なる仮名の下でその ユーザと取り引きするかもしれない。より一般的には、サービスプロバイダの連 合(これらのプロバイダは全て、ユーザを同じジャンルのターゲットオブジェク トに適合させる)が、共通の仮名を使用してユーザと取り引きすることに同意し 得、それによって、その仮名に関連するターゲットプロファイル関心サマリが、 該ジャンルのターゲットオブジェクトに対して完成する。異なるサービスプロバ イダの連合と取り引きするために、ユーザが、数個の仮名を用いると、ユーザは 、各仮名に奉仕する代理サーバを自由に選択し得、これらの代理サーバは、同一 あるいは異なっていてもよい。 サービスプロバイダの観点から、本システムは、あるサービスのユーザが、使 用されたサービスに対して合法的な権利を有し、同一のプロバイダと通信するた めに複数の仮名を使用しているユーザがいないことを保証し得る点で、安全を提 供する。仮名のこの固有性は、ある個人のために集められたトランザクション情 報が、あるサービスプロバイダまたはサービスプロバイダの連合に対して、1人 のユーザの活動の完全かつ一貫した状況を表さなければならず、そうでなければ 、ユーザのターゲットプロファイル関心サマリおよびユーザプロファイルが、ユ ー ザの関心を、他のパーティに対して可能な限り完全かつ正確に表すことができな いので、この応用の目的上重要である。 サービスプロバイダは、以前に同意されたサービスの約定に違反するユーザか らの防衛手段を有していなければならない。例えば、ある仮名を使用するユーザ が、サービス約定に違反する活動に従事する場合には、サービスプロバイダは、 ユーザに対して、ユーザサービスを拒否する、およびユーザが詐欺行為を働きた くなり得る他のパーティとのトランザクションからユーザをブラックリストに載 せる等の行動を起こすことが可能であるべきである。この種の状況は、ユーザが 、違法行為のためにサービスプロバイダを雇う、またはサービスプロバイダに対 する支払いを不履行する場合に生じ得る。本明細書中に援用される、「Security without identification: Transaction systems to make Big-Brother obsolet e」というタイトルの論文(Communications of the ACMに発表、28(10)、1985年 10月、1030〜1044頁)の方法は、この種の行為に対して、レゾリューションクリ デンシャル(これらは、ユーザと、情報プロバイダおよびネットワークベンダエ ンティティとの間で同意されたサービス約定(例えば、与えられたサービスに対 する定期的な支払い、民事処理など)に一致した行為次第で決定される、個人に 周期的に提供されるクリデンシャルである)の使用によって保護を実施するため の手段を提供する。ユーザの安全のために、レゾリューションクリデンシャルの 発行者が、このレゾリューションクリデンシャルをユーザに認可することを拒否 すると、この拒否は、決定を下す第3者に訴えられ得る。代理サーバに保存され たユーザプロファイルおよびターゲットプロファイル関心サマリの完全性が重要 である。売り手が、このようなユーザ特異的情報に依存して、販売促進的提供ま たは他の物を特定の種類のユーザに届け、他のユーザには届けない場合には、ユ ーザ特異的情報は、正確でなければならず、どのようにも不正変更されていては ならない。同様に、ユーザは、他のパーティが、ユーザのユーザプロファイルお よびターゲットプロファイル関心サマリを不正に変更しないことを確実にするこ とを望むかもしれない。なぜなら、そのような変更が、ユーザに最も適切なター ゲットオブジェクトを適合させるシステムの能力を低下させ得るからである。こ れは、ユーザによって代理サーバに送られる制御メッセージにデジタル署名を付 けることを、ユーザに提供することによって行われる。各仮名は、公開暗号鍵お よび秘密暗号鍵と組にされ、秘密鍵は、その仮名を持っているユーザのみに知ら れており、ユーザが、ある仮名で、制御メッセージを代理サーバに送ると、代理 サーバは、仮名の公開鍵を用いて、そのメッセージが、仮名の秘密鍵を知るもの によってデジタル署名されたことを検証する。これによって、他のパーティが、 ユーザのふりをすることが防止される。 本出願に開示されるように、本アプローチは、米国特許第5,245,656号に教示 されるようなネットワーク加入者のためのプライバシー保護の仮名の従来技術( この特許は、サービスプロバイダとユーザとの間の仲介者として機能するネーム 翻訳プログラムステーションを提供する)に対する向上を提供する。しかし、米 国特許第5,245,656号は、エンドユーザUとサービスプロバイダとの間で送信さ れる情報が、二重に暗号化されることを提供するが、ユーザUとサービスプロバ イダとの間に関係が存在するという事実を、ネーム翻訳プログラムは知っており 、例えば、サービスプロバイダが、ユーザUの仲間(peer)によって許容可能で あると判断されない内容の規定を専門とする場合には、この事実は、ユーザUと 譲歩を行うために使用され得る。米国特許第5,245,656号の方法は、本出願に提 供されるような、仮名のユーザプロファイル情報の便利な更新方法も省略してお り、また本出願に提供されるような、証明書発行エージェントからの、仮名の固 有で、証明書を発行された登録の保証を提供せず、プロファイル情報および以下 に説明されるような条件付きアクセスに基づく、ユーザへのアクセス制御手段を 提供しない。Loebらによって記載される方法もまた、特定のターゲットオブジェ クト(例えば、購読料金を支払った場合のみに利用可能であることを意図したタ ーゲットオブジェクト、または若いユーザには利用不可能であることを意図した ターゲットオブジェクト等)にアクセスするユーザの権利を認証するために使用 され得るような、クリデンシャルに対する規定を全く記載していない。 代理サーバの説明 ユーザのユーザプロファイルおよびターゲットプロファイル関心サマリにおけ る情報のいくつか、あるいは全てが、ユーザの現実のアイデンティティとは分離 したままでいることを、ユーザが確実にし得るためには、ユーザは、図2のデー タ通信ネットワークN上で利用可能な多数の代理サーバのいずれか1つ(例えば サーバS2)を、仲介者として利用する。代理サーバは、ユーザの現実のアイデ ンティティを、データ通信ネットワークN上の他のパーティから隠すように機能 する。代理サーバは、単一のネットワークベンダおよび情報サーバ、またはその 連合のどちらかに対して、あるユーザを代理する。代理サーバ(例えばS2)は 、CPU、主メモリ、二次ディスク記憶装置およびネットワーク通信機能を有し 、特定の仮名Pに関連するターゲットプロファイル関心サマリおよびアクセス制 御命令を取り出すデータベース機能を有するサーバコンピュータであり、これは 、特定のユーザUを代理し、コマンド、ターゲットオブジェクト、およびあるク ライアント(例えばC3)のユーザと、ネットワークベンダV1〜Vkおよび情 報サーバI1〜Im等の他のネットワークエンティティとの間の課金情報の双方 向ルーティングを行う。各代理サーバは、仮名データベースDにおける各割り当 てられた仮名に関連する暗号化されたターゲットプロファイル関心サマリを維持 する。実際のユーザ特異的情報および関連の仮名は、代理サーバ上で局所的に格 納される必要はないが、代替的に、配信様式で格納され得、二地点間接続を介し て代理サーバから遠隔的にアドレシング可能であり得る。 代理サーバは、2種類の双方向接続、すなわち「Untraceable Electronic Mai l、Return Addresses、and Digital Pseudonyms」(Communications of the ACM 、24巻、No.2、1981年2月)というタイトルの論文においてD.Chaumによって教 示されるような二地点間接続および混合パスによる仮名接続を支持する。代理サ ーバと情報サーバとの間の通常の接続(例えば、図2における代理サーバS2と 情報サーバS4との間の接続)は、本出願の「電子媒体システムアーキテクチャ 」のセクションに説明されるように、ネットワークNによって提供される二地点 間接続プロトコルによって達成される。通常のタイプの二地点間接続は、例えば S2とS4との間で使用され得る。なぜなら、ユーザと仮名との分離は、クライ アントC3と、ユーザによって使用される仮名が利用可能である代理サーバS2 との間でのみ生じる必要があるからである。S4のような情報プロバイダが、代 理サーバS2のある仮名Pと通信することを知っても、ユーザUの現実のアイデ ンティティは危険にさらされない。ユーザと代理サーバS2との間の双方向接続 は、 通常の二地点間接続でもよいが、ユーザが望むならば、代わりに、「Untraceabl e Electronic Mail、Return Addresses、and Digital Pseudonyms」(Communica tions of the ACM、24巻、No.2、1981年2月)というタイトルの論文にD.Chaum によって教示されるような匿名混合プロトコルを一貫して使用することになるも のの、匿名および安全にされ得る。この混合プロシージャにより、「ミックス」 と呼ばれる転送および復帰ルーティングサーバのセットを用いて、ブラインド戻 りアドレスを有するパーティ間で、トレース不可能で安全な仮名メールが提供さ れる。Chaumの論文に教示されるような混合ルーティングプロトコルは、代理サ ーバS2と共に使用され、それによって、ユーザU以外のユーザ、情報プロバイ ダI1〜Im,ベンダV1〜Vk、および継続的に代理サーバのユーザベースの ユーザと通信する他の代理サーバによって用いられ得る、永続的に安全な仮名の 登録が提供される。この混合パスプロトコルによって提供される安全が、与えら れ、仮名を有する者の現実のアイデンティティを突き止めようと試みる悪意のあ るパーティによって使用され得るトラフィック分析攻撃(traffic analysis att ack)および他の公知の分析形態に対して抵抗性を持つ。プロトコルを破るには 、多数のパーティが、悪意を持って共謀する、または暗号を妥協して解決する必 要がある。さらに、ユーザが、メッセージ中に戻りパス定義を入れ、それによっ て、情報サーバS4がリクエストされた情報をユーザのクライアントプロセッサ C3に戻し得る、この方法に対する拡張が教示される。我々は、この特徴を新規 な様式で利用し、それによって、ユーザの下でのアクセスおよび到達可能性(re achability)制御および代理サーバ制御が提供される。 固有の仮名の検証および割り当て 「A secure and privacy-protecting protocol for transmitting personal i nformation between organizations」というタイトルのD.ChaumおよびJ.H.Ev ertseによる刊行物に記載されるような、Chaumの仮名およびクリデンシャル発行 システムは、我々のシステムにおいてコンポーネントとして使用するための望ま しい属性を幾つか有する。このシステムは、個人が、異なる組織(銀行およびサ ービスプロバイダの連合など)に対して異なる仮名を使用することを可能とする 。ある仮名を提示された組織は、その個人に関する情報として、仮名自体と、そ の 仮名の下で以前に行われたトランザクションの記録のみを有する。さらに、組織 が喜んで認証する仮名に関する事実を示すクリデンシャルが、ある特定の仮名に 認可され、同一のユーザが使用する他の仮名に譲渡され得る。例えば、ユーザは 、異なる組織(または組織の分離した組)に対して異なる仮名を使用し得るが、 やはり、1つの仮名の下で1つの組織によって認可されたクリデンシャルを提示 する。それは、別の仮名の下で別の組織と、2つの仮名が同一のユーザに対応す ることを明らかにすることなく取り引きするためである。クリデンシャルは、仮 名を有する者の年齢、財政的地位、および法的地位等に関する保証を提供するた めに認可され得る。例えば、「法上の成人」("legal adult")を示すクリデン シャルが、該当するユーザに関して知られている情報に基づいて、その特定の発 行機関によって、仮名に発行され得る。次に、クリデンシャルが、別の分離した 組織に対して該ユーザを表す別の仮名に譲渡(transfer)されると、その他の仮 名に対してこのクリデンシャルを提示することが、法上の成人の証拠としてみな され得、これは、サービスの契約条件を満たし得る。クリデンシャル発行組織は 、ユーザの人口統計的プロファイルまたはターゲットプロファイル関心サマリに 関する特定の事実を、例えば、「この仮名を有する者が、博識である、あるいは 中高年者で大企業に勤めている」ことを主張するクリデンシャルを認可すること によって認証し得る。このクリデンシャルを別のエンティティに提示することに よって、ユーザは、ユーザの個人データを該エンティティに明らかにすることな く、例えば割り引きに対する有資格を証明し得る。 さらに、Chaumによって教示される方法は、1つを越える仮名を使用して、あ る組織または組織の連合と通信し得る個人がいないこと;クリデンシャルが、ユ ーザによって実行可能に偽造され得ないこと;およびクリデンシャルが、あるユ ーザの仮名から異なるユーザの仮名に譲渡され得ないことの保証を提供する。最 後に、この方法は、クリデンシャルの失効を提供し、延長されたサービス約定に 従って行動しない個人に対して「黒星」("black mark")の発行を提供する。これ は、Chaumの著作に記載されるように、レゾリューションクリデンシャルメカニ ズムを用いて行われ、ここでは、レゾリューションが、良好な信用状態にある仮 名に対して組織によって周期的に発行される。ユーザが、このレゾリューシ ョンクリデンシャルを、特定の組織または組織の連合によって発行されなければ 、このユーザは、彼が他の組織に対して使用する他の仮名に譲渡されるようにク リデンシャルを利用可能にすることはできない。従って、ユーザは、これらの他 の組織に対して、彼が、他の取り引きにおいてサービス約定に従って行動したこ とを納得させることはできない。このような場合には、組織は、レゾリューショ ンクリデンシャルのこの欠如を使って、ユーザが、他の取り引きにおいて良好な 信用状態にいないことを推測し得る。あるアプローチにおいては、組織(または 他のユーザ)が、ユーザとのトランザクション(または交流)の経験に基づいて 、履歴書における推薦状と同様に作用し得る、品質に関連したクリデンシャルリ ストを発行し得る。このようなクリデンシャルが、複数の組織から発行されれば 、それらの評価が平均される。代替のバリエーションにおいては、組織が、顧客 などのユーザからクリデンシャルを発行され得、これは、他の未来のユーザに対 して、様々な判定基準に基づいて後続のユーザによって予期され得るサービスの 質を示すために使用され得る。 我々の方法では、仮名は、2つのフィールドから構成されるデータレコードで ある。第1のフィールドは、仮名が登録される代理サーバのアドレスを指定する 。第2のフィールドは、特定のユーザに関連する固有のビット列(例えば、ある ランダムな二進数)を含み、クリデンシャルは、この数字で計算された公開鍵デ ジタル署名の形態をとり、数字自体は、図2に図示され、「A secure and priva cy-protecting protocol for transmitting personal information between org anizations」というタイトルのD.ChaumおよびJ.H.Evertseによる論文におい て、一般的形態で詳述されるような仮名管理サーバZによって発行される。ある 仮名を持っているユーザに情報を送ることが可能であり、これは、この情報を、 その仮名を指定し、仮名の第1のフィールドに指名される代理サーバにアドレス される制御メッセージに包むことによって行われる。代理サーバは、制御メッセ ージを受け取ると、この情報をユーザに転送し得る。 ユーザが、全てのトランザクションに対して単一の仮名を使用し得るが、より 一般的なケースでは、ユーザは、数個の仮名のセットを有し、各仮名は、単一の プロバイダまたはサービスプロバイダの連合との彼または彼女の交流において、 ユーザを表す。仮名セットの各仮名は、関連するサービスプロバイダの異なる連 合とのトランザクションに指定され、1つのプロバイダまたはプロバイダの連合 に使用された仮名は、プロバイダの他の分離した連合に使用された仮名に関連さ れることはできない。ある連合とのユーザの全トランザクションは、同一の仮名 の下で行われるという事実によって関連され得、従って、ユーザプロファイルお よびターゲットプロファイル関心サマリの形態で、該連合によって提供される1 つまたは複数のサービスに関するユーザの関心の統一された実態を定義するため に組み合わせられ得る。仮名の使用が有用であり得る他の状況が存在し、本明細 書は、請求の範囲に記載されている発明の範囲を限定する意図は決してなく、例 えば、上記の高速プロファイリングツリーが、ユーザがデリケートであるとみな すユーザに関する情報(例えば、保険会社、医学専門家、家族カウンセラー、デ ートサービス等のエンティティに関心のある情報)を仮名で獲得するために使用 され得る。 詳細なプロトコル 我々のシステムにおいては、ユーザUが対話する組織は、ネットワークN上の サーバS1〜Snである。しかし、各サーバに直接対応するのではなく、ユーザ は、ユーザ自身のクライアントのローカルサーバと、情報プロバイダまたはネッ トワークベンダとの間の仲介者として、代理サーバ(例えばS2)を使用し得る 。「Untraceable Electronic Mail、Return Addresses、and Digital Pseudonym s」というタイトルの論文(Communications of the ACMの24巻、No.2、1981年2 月出版)において、D.Chaumによって記載されるような混合パスにより、C3等 のクライアントと、S2等の代理サーバとの間の追跡不可能性および安全性が得 られる。S(M,K)が、「A method for obtaining digital signatures and public-key cryptosystems」というタイトルのRives、R.L.、Shamir、A.および Adleman、L.による論文(Comm.ACM 21、2月2日、120〜126頁に出版)に詳述さ れるような、鍵Kを用いたモジュラ累乗(modular exponentiation)による、メ ッセージMのデジタル署名を表すと仮定する。一旦ユーザが、仮名Pを、サーバ Zに申請し、サーバZの秘密鍵SKZを用いて署名された、署名入り仮名が認可 されると、以下のプロトコルが生じ、代理サーバS2のデータベースDにおい てユーザUのエントリが確立される。1.ユーザは、仮名の認証性および固有性 を示すために、Zによって署名された仮名を、ここで代理サーバS2に送る。ユ ーザは、認可された仮名と共に使用するためのPKP,SKP鍵ペアも作成し、こ こでは、秘密鍵が、仮名に関連づけられ、PKPは、仮名に関連する公開鍵であ る。ユーザは、署名入り仮名S(P,SKZ)を、Pによってインデックスを付 けられる新しいデータベースエントリを作成するリクエストおよび公開鍵PKP と共に、代理サーバS2に送ることによって、代理サーバS2に仮名Pを確立す るためのリクエストを形成する。それは、メッセージを包み、仮名の返信用エン ベロープヘッダと共に、仮名混合パスを通して代理サーバS2に送信する。2. 代理サーバS2は、データベース作成エントリリクエストおよび関連の認定済み の仮名メッセージを受け取る。代理サーバS2は、リクエストされた仮名Pが、 サーバZによって署名されることを確実にするためにチェックをし、もしそうで あれば、リクエストを認可し、仮名に対してデータベースエントリを作成し、そ してユーザの公開鍵PKPを格納し、それによって将来、ユーザUのみが、仮名 Pを用いてリクエストをすることが可能であることが確実となる。3.ユーザの データベースエントリの構造は、仮名Pに対する関連の公開鍵と共に、本明細書 中に詳述されるようなユーザプロファイル、本明細書中に詳述されるようなター ゲットプロファイル関心サマリ、および以下に詳述されるようなアクセス制御基 準のブール組み合わせから構成される。4.仮名Pのデータベースエントリが確 立された後はいつでも、ユーザUが、第3者によって提供される、該仮名に対す るクリデンシャル(このクリデンシャルは、該仮名に関してある主張をする)を 代理サーバS2に提供し得る。代理サーバは、それらのクリデンシャルを検証し 、これらのクリデンシャルによって必要とされるような、ユーザプロファイルに 対する適切な改変(例えば、ユーザの新しい人口統計的ステータスを成人として 記録する)を行い得る。代理サーバは、これらのクリデンシャルを格納すること もでき、その結果、ユーザに代わって、サービスプロバイダにこれらのクリデン シャルを提示し得る。 ユーザUが、プロバイダの新規および分離した連合に対して使用するための新 しい仮名を必要とする度に、同一または異なる代理サーバによって上記の工程が 繰り返され得る。実際には、Zによって行われる仮名作成プロセスのランダムな 性質により、ある仮名がすでに割り当てられているかもしれない確率は非常に小 さい。この非常にありそうもない事象が生じる場合には、代理サーバS2は、作 成された仮名がすでに割り当てられていることを示し、新しい仮名が作成される ことを依頼する署名入りメッセージでユーザに返答し得る。 情報サーバの仮名制御 一旦代理サーバS2が認証され、ユーザ仮名を登録すると、ユーザは、図2の サーバS4によって例示されるようなサービスプロバイダ等の他のネットワーク エンティティと対話する際に、代理サーバS2のサービスの使用を開始し得、情 報サービスプロバイダノードがネットワークに接続される。ユーザは、ユーザが ネットワークN上で代理サーバS2に後で送信する、デジタル形式で符号化され たリクエストを生成することによって、代理サーバS2を制御する。代理サーバ が、本出願に記載されるサービス(例えば、ブラウジング、照会、および以下に 説明されるナビゲーション機能)のいずれにも使用され得るので、これらのリク エストの性質およびフォーマットは異なる。 一般的なシナリオでは、ユーザが、仮名Pの下で、特定の情報プロバイダまた はアドレスAのユーザと通信することを望む(ここでは、Pは、ユーザに割り当 てられた仮名であり、Aは、S4等のサーバの公開ネットワークアドレス、また はS4等の代理サーバに登録された別の仮名である)。(このシナリオの最も一 般的なバージョンは、アドレスAが、情報プロバイダのアドレスであり、ユーザ は、情報プロバイダに関心のあるターゲットオブジェクトを送るようにリクエス トしている。)ユーザは、アドレスAにメッセージを送り、応答をユーザに転送 し返すように代理サーバS2にリクエストするリクエストRを、代理サーバS2 に対して生成しなければならない。それによって、ユーザは、他のパーティ(ア ドレスAが公開ネットワークアドレスである場合には非仮名パーティ、またはア ドレスAが、例えば仮名で動作することを好む会社または別のユーザが持つ仮名 である場合には仮名パーティ)と通信し得る。 別のシナリオにおいては、ユーザによって成される代理サーバS2へのリクエ ストRが、異なる内容を有し得る。例えば、リクエストRは、代理サーバS2に 、 本明細書中に後に説明される方法を用いて最も都合のよいサーバから、多くのサ ーバにマルチキャストされた特定の情報片を取り出し、この情報をユーザに送る ように命令し得る。逆に、以下に説明されるように、リクエストRは、代理サー バS2に、多くのサーバに対して、ユーザによって提供される新しいターゲット オブジェクトに関連するファイルをマルチキャストするように命令し得る。ユー ザが、以下に説明される新聞の切り抜きサービスの加入者であれば、リクエスト Rは、代理サーバS2に、新聞の切り抜きサービスがユーザの注目のために代理 サーバS2に送った全てのターゲットオブジェクトをユーザに転送するように命 令し得る。ユーザが、以下に説明されるアクティブナビゲーションサービスを使 用していると、リクエストRは、代理サーバS2に、階層クラスタツリーから特 定のクラスタを選択し、そのサブクラスタのメニューをユーザに提供する、ある いは、ユーザのターゲットプロファイル関心サマリの代理サーバS2のレコード に一時的に影響を及ぼす照会を起動させるように命令し得る。ユーザが、以下に 説明されるような仮想コミュニティのメンバーであれば、リクエストRは、代理 サーバS2に、仮想コミュニティに送られた全てのメッセージをユーザに転送す ることを命令し得る。 リクエストRの内容とは無関係に、クライアントC3のユーザは、ユーザのロ ーカルサーバS1への接続を開始し、サーバS1に、リクエストRを安全な混合 パスに沿って代理サーバS2に送るように命令し、以下の一連の動作を開始し得 る。 1.ユーザのクライアントプロセッサC3は、署名入りメッセージS(R,S KP)を作成し、これは、ユーザの仮名Pおよび(リクエストRが応答を必要と する場合には)安全な一回限りの返信エンベロープセットとペアにされ、メッセ ージMを形成する。これは、出力パスのための多重にエンベロープされたルート を用いて、メッセージMを保護する。エンベロープされたルートは、S1と代理 サーバS2との間の安全な通信を提供する。メッセージMは、最も深くネスティ ングされたメッセージにエンベロープされ、従って、万一メッセージが盗聴者に 傍受されたとしても、復元することが困難である。 2.メッセージMは、クライアントC3によって、ローカルサーバS1に送ら れ、次に、データ通信ネットワークNによって、サーバS1から、出力エンベロ ープセットに指図されるようなミックスのセットを通して経路指定され、選択さ れた代理サーバS2に到着する。 3.代理サーバS2は、受け取ったメッセージMを、リクエストメッセージR 、仮名P,および(含まれていれば)返信用パスのためのエンベロープセットへ と分離する。代理サーバS2は、仮名Pを使用して、代理サーバS2のデータベ ースの該当するレコードを索引して取り出し、このレコードは、代理サーバS2 の局所記憶装置、またはネットワークNを介して代理サーバS2にアクセス可能 な他の分散した記憶媒体に格納される。このレコードは、公開鍵PKP、ユーザ 特異的情報、および仮名Pに関連するクリデンシャルを含む。代理サーバS2は 、リクエストメッセージRの署名されたバージョンS(R,SKP)が有効であ ることをチェックするために公開鍵PKPを使う。 4.リクエストメッセージRの署名が有効であると仮定すると、代理サーバS 2は、リクエストRに従って行動する。例えば、上記の一般的なシナリオにおい て、リクエストメッセージRは、埋め込まれたメッセージM1、およびメッセー ジM1が送られるべきアドレスAを含み、この場合には、代理サーバS2は、ア ドレスAにおいて指定されたサーバ(例えばサーバS4)にメッセージM1を送 る。通信は、データ通信ネットワークNによって提供される通常の二地点間接続 上で、署名され、任意に暗号化されたメッセージを使用することによって行われ る。埋め込まれたメッセージM1に従って行動するために必要であれば、サーバ S4は、代理サーバS2からのユーザ特異的情報およびクリデンシャルのリリー スを交渉するために、やはり通常の二地点間接続上で、署名され任意に暗号化さ れたさらなるメッセージを代理サーバS2と交換し得る、または交換させられ得 る。特に、サーバS4は、ユーザが、リクエストされた情報に権利がある場合、 例えば、ユーザが、特定の情報サービスに対して良好な信用状態にある加入者で あり、ユーザが、成人向けの物を合法的に受け取るのに十分な年齢であり、ユー ザが特定の割引を(ユーザの仮名に発行された特別割引クリデンシャルを用いて )提供された場合には、サーバS2にクリデンシャルを提供することを要求し得 る。 5.代理サーバS2は、メッセージをサーバS4に送り、サーバS4は、ユー ザに送られるべきメッセージM1に対して応答M2を作成し、次に、通常のネッ トワーク二地点間接続を用いて、サーバS4は、応答M2を代理サーバS2に送 信する。 6.代理サーバS2は、応答M2を受け取ると、元のメッセージMにおいてユ ーザによって代理サーバS2に以前に送信された返信エンベロープセットに埋め 込まれた応答M2を含む返信メッセージMrを作成する。代理サーバS2は、返 信メッセージMrを、この返信エンベロープセットによって指定された仮名混合 パスに沿って送信し、その結果、応答M2がユーザのクライアントプロセッサC 3のユーザに届く。 7.応答M2は、情報サーバS4に対する電子的支払いのリクエストを含み得 る。次に、ユーザは、メッセージM1に関して上に説明されたのと同じ手段によ って送信されたメッセージM3を用いて応答し得、このメッセージM3は、ある 形態の仮名の支払いを同封する。あるいは、代理サーバが、そのような支払いに 自動的に応答し得、この支払いは、このユーザのために代理サーバによって維持 されるアカウントから引き落とされる。 8.情報サーバS4からユーザへの応答メッセージM2、または代理サーバS 2からユーザへ送られる後続のメッセージが、ユーザのリクエストに関連する、 および/またはユーザがターゲットにされた広告物を含有し得る。典型的には、 ユーザが、ターゲットオブジェクトXを取り出したところだとすると、(a)代 理サーバS2または情報サーバS4が、ターゲットオブジェクトXに「関連」す る重み付けられた広告のセットを決定し、(b)このセットのサブセットがラン ダムに選ばれ(ここでは、ある広告に付けられた重みが、それがサブセットに含 まれる確率に比例する)、および(c)代理サーバS2は、このサブセットから 、ユーザが最も関心のありそうな広告をだけを選択する。代理サーバS2が、タ ーゲットオブジェクトXに関連する広告のセットを決定するバリエーションにお いては、典型的には、このセットは、代理サーバの所有者が宣伝のために支払い をうけた全ての広告を含み、そのターゲットプロファイルは、ターゲットオブジ ェクトXのターゲットプロファイルのしきい値類似距離内にある。代理サーバS 4 が、ターゲットオブジェクトXに関連する広告のセットを決定するバリエーショ ンにおいては、広告主は、典型的には、このセットに広告を入れる権利を購入す る。どちらの場合も、広告の重みは、広告主が支払いを認める額によって決定さ れる。ステップ(c)に続いて、代理サーバS2は、選択された広告物を取り出 し、それを、ユーザのクライアントプロセッサC3に送信し、そこでは、受け取 られてから指定の時間内に、ユーザのクライアントプロセッサC3で実行される 信用のあるプロセスを用いて、その広告物がユーザに表示される。代理サーバS 2が、広告を送信すると、代理サーバS2は、広告が、特定の予想された水準の 関心を持つユーザに送信されたことを示すメッセージを広告主に送る。メッセー ジは、ターゲットオブジェクトXのアイデンティティも示し得る。代わりに、広 告主は、電子的支払いを代理サーバS2に送信し得、代理サーバS2は、自らサ ービス料金を保持し、サービス料金を情報サーバS4に任意に転送し、差額をユ ーザに転送する、あるいは差額を用いて、代理サーバにおけるユーザの口座に入 金する。 9.応答M2が、ターゲットオブジェクトを含むまたは識別すると、ユーザが このオブジェクトに関して提供する受動および/または能動的関連性フィードバ ックが、ユーザのクライアントプロセッサC3のプロセスによって作表される。 独自の秘密鍵SKC3を用いてクライアントプロセッサC3によってデジタル署名 されるこのような関連性フィードバック情報のサマリは、安全な混合パスを通し て、代理サーバS2に周期的に送信され、その結果、サマリメッセージの署名が 、対応する公開鍵PKC3(統合性を有することが保証される全ての作表プロセス に利用可能である)を用いて認証され得るならば、サーバS2に常駐する検索プ ロファイル作成モジュール202が、仮名Pに関連する適切なターゲットプロフ ァイル関心サマリを更新する。 消費者が、特定の情報サーバとの財政的関係に、両者がその関係の約定に同意 していることに基づいて入ると、前のセクションに詳述されたように、ある特定 の仮名が、そのあるプロバイダに対する消費者のために拡張され得る。そのよう な関係に入ると、消費者およびサービスプロバイダは、ある約定に同意する。し かし、ユーザが、この関係の約定に違反すると、サービスプロバイダは、プロバ イダがユーザと取り引きを行っている仮名に対して、サービスの提供を断り得る 。さらに、サービスプロバイダは、その仮名に対してレゾリューションクリデン シャルの提供を拒否する遡及権を有し、その仮名を有する者が良好な信用状態に 戻るまで、そうすることを選び得る。 ターゲットオブジェクトの先取り ある状況においては、ユーザは、1つまたは複数の情報サーバに格納された多 くのファイルに順にアクセスすることをリクエストし得る。この行為は、World Wide Web等のハイパーテキストシステムをナビゲートする、または以下に説明さ れるターゲットオブジェクトブラウジングシステムを使用する時に一般的である 。 一般的に、ユーザは、特定のターゲットオブジェクトまたはターゲットオブジ ェクトのメニューへのアクセスをリクエストし、一旦該当するファイルが、ユー ザのクライアントプロセッサに送信されると、ユーザはその内容を見て、別の同 様のリクエストをし、以下同様である。各リクエストを満たすためには、取り出 しおよび伝送遅延のために、何秒もかかり得る。しかし、リクエストのシーケン スが予測可能である点で、ユーザがリクエストする前でさえ、適切なファイルを 取り出すまたは取り出し始めることによって、所望のオブジェクトのカスタム化 電子識別システムが、各リクエストにより速く応答し得る。この早期の取り出し は、「ファイルの先取り」と呼ばれる。 局所的に格納されたデータの先取りは、数十年間、CPUキャッシュおよび二 次記憶装置(ディスク)を含むメモリ階層において重点的に研究されてきた。こ の分野のリーダーは、データベースおよびCPUキャッシュの両方において、広 範なトレースを用いた様々なスキームおよび分析機会を発見したA.J.Smith of Berkeleyである。彼の結論は、順次アクセスが、例えばデータの順次読み出し において生じている妥当な可能性が存在した一般的なスキームが、唯一本当に成 功したということである。メモリ階層における様々な待ち時間同士の差が、19 80年代後半および1990年代前半に変化した際に、J.M.Smithおよび他の 人々が、局所的に格納されたデータおよびネットワークデータ両方の先取りのさ らなる機会を発見した。特に、Blahaによる研究におけるパターンのより深い分 析により、先取りに使用され得る深いパターン分析のためにエキスパートシステ ムを使用する可能性が示された。J.M.Smithによる研究は、いくらかの履歴デ ータが存在した記憶階層の参照を予想するために参照履歴ツリーを使用すること を提唱した。Touchによる最近の研究およびBerkeleyの研究は、World-Wide Web 上のデータケース(ここでは、大型のイメージおよび長い待ち時間が、先取りに 対する特別な動機を提供する)に取り組み、Touchの技術は、大きなバンド幅に よって、WEBページに埋め込まれたHTML記憶参照を用いて、ある推測が可 能となる時に先に送る(pre-send)ことであり、Berkeleyの研究は、HTMLデ ータのセマンティクスを専門とするJ.M.Smithの参照履歴に類似した技術を用 いる。 先取りの成功は、ユーザの次の1つまたは複数の動作を予測するシステムの能 力に左右される。所望のオブジェクトのカスタム化電子識別システムの状況にお いては、ユーザプロファイルの類似性に従って、ユーザをグループへとクラスタ することが可能である。次に、未来のユーザの行動を予測するために、過去のユ ーザの行動に関する集約統計を集めて利用する周知の先取り方法のいずれかが、 ユーザの各クラスタに関する別個の統計セットを集めて利用するために実行され 得る。このように、システムは、実質的に異なる関心を有するユーザ間で一般化 されることなく、各ユーザから類似のユーザへのアクセスパターン統計を一般化 する。システムはさらに、全てのユーザの集約行動を表す類似の統計セットを集 め、利用し得る。システムが、ある特定のユーザが何をするかに関する予測を確 信を持って行うことができない場合には(そのユーザのユーザクラスタに関する 関連の統計が、ほんの小量のデータから得られることが理由で)、システムは、 代わりに、より大量のデータから得られる全ユーザの集約統計に基づいて、予測 を行い得る。具体的にするために、我々は、先取りシステムのある特定の具体化 (これらの洞察を両方使用し、各潜在的先取りの予想されるコストおよび利点の 正確な測定によって先取りの判断を行うシステム)を以下に説明する。 先取りは、コストと利点とのトレードオフを示す。tを先取りファイルが、局 所記憶装置に保持される(別の先取りファイルの余地を作るために消去される前 の)おおよその時間(分)を表すとする。システムが、ターゲットオブジェクト Xに対応するファイルを先取りすることを選ぶと、ユーザは、ユーザがその後す ぐにターゲットオブジェクトXを明白にリクエストするという条件で、超過料金 なしの高速の応答から利益を得る。しかし、ユーザが、先取りからt分以内にタ ーゲットオブジェクトXをリクエストしなければ、先取りの価値はなく、そのコ ストは、(直接的または非直接的に)ユーザが負わなければならない追加的コス トである。従って、第1のシナリオは、無料で利点を提供するが、第2のシナリ オは、利点なしでコストを招く。システムは、ユーザがとにかくアクセスするフ ァイルのみを先取りすることによって第1のシナリオを支持しようとする。ユー ザの望みに応じて、保守的(システムは、ユーザが明白にリクエストする可能性 が非常に高いファイル(および取り出すのが比較的安価なファイル)のみを先取 りすることによって、コストを制御する)、またはより積極的(システムは、ユ ーザが明白にリクエストをする可能性がただ中程度であるファイルも先取りし、 それによって総コストおよび(より小さな程度に)ユーザに対する総利点を共に 増加させる)に先取りし得る。 本明細書中に記載されるシステムでは、ユーザUのための先取りが、ユーザの 代理サーバSによって達成される。代理サーバSが、ユーザがリクエストしたフ ァイルFを情報サーバから取り出すと、代理サーバSは、以下に説明されるよう に、このファイルFの身元およびユーザの特徴を使用して、ユーザがすぐにアク セスしそうな別のファイルG1...Gkのグループを識別する。ファイルFに 対するユーザのリクエストは、ファイルG1...Gkを「トリガ」すると言わ れる。代理サーバSは、これらのトリガされたファイルGiの各々を以下のよう に先取りする: 1.ファイルGiがすでに局所的に格納されていなければ(例えば、前の先取 りが原因で)、代理サーバSは、ファイルGiを適切な情報サーバから取り出し 、それを局所的に格納する。 2.代理サーバSは、ファイルGiの局所コピーを、先取りされたばかりとし てタイムスタンプし、その結果、ファイルGiは、削除される前に最低約t分の 間、局所記憶装置に保持される。 ユーザU(または原則として、代理サーバSに登録した他のユーザはだれでも )が、先取りされたが、まだ削除されていないファイルを取りだすように代理 サーバSにリクエストすると、代理サーバSは、別のサーバからではなく、局所 記憶装置からファイルを取り出し得る。上記のステップ1〜2のバリエーション においては、代理サーバSは、幾分異なるように、ファイルGiを先取りし、そ の結果、先取りされたファイルが、サーバSではなくユーザのクライアントプロ セッサqに格納される。 1.代理サーバSが、過去のt分間に、ファイルGiを先取りしていなければ 、ファイルGiを取り出し、それを、ユーザUのクライアントプロセッサqに送 信する。 2.ステップ1において送信されたメッセージを受け取ると、クライアントq は、現在格納されていなければ、ファイルGiの局所コピーを格納する。 3.代理サーバSは、クライアントqが、ファイルGiの局所コピーをタイム スタンプするべきことを、クライアントqに通知し、もしあれば、この通知は、 ステップ1で送信されたメッセージと組み合わせられ得る。 4.ステップ3において送信されたメッセージを受け取ると、クライアントq は、先取りされたばかりとして、ファイルGiの局所コピーにタイムスタンプし 、その結果、ファイルGiは、削除される前に、最低約t分間の間、局所記憶装 置に保持される。 クライアントqが、ファイルGiを局所記憶装置に保持する期間中に、クライ アントqは、ファイルGiに対するいかなるリクエスト(ユーザUによる、ある いは、原則的には、クライアントqの他のいかなるユーザによる)に即座に、か つ代理サーバSの援助なしに応答し得る。 代理サーバSにとって困難な仕事は、代理サーバSが、リクエストに応じてフ ァイルFを取り出す度に、ファイルFに対するリクエストによってトリガされ、 即座に先取りされるべきファイルG1...Gkを識別することである。代理サ ーバSは、コスト−利点の分析を用いて、ユーザが決定したコストの倍数を利点 が上回る先取りをそれぞれ行い、ユーザは、積極的先取りに関しては、乗数を低 く設定し、あるいは、保守的な先取りに関しては、乗数を高く設定し得る。これ らの先取りは、同時に行われ得る。ファイルGiを即座に先取りする利点は、G iが、あるとすれば後に取り出されるべく(後に行われる先取り、またはユーザ のリクエストによって)そのままにしておかれる状況と比較して、そのような先 取りによって省ける予想の秒数であると定義される。即座にファイルGiを先取 りするコストは、例えば、サーバSおよびファイルGiのネットワークの位置、 および情報プロバイダの料金によって決定されるような、代理サーバSがファイ ルGiを取り出すための予想されるコストに、現在まだ先取りされていない場合 に、代理サーバSが、ファイルGiをt分以内に取り出さなければならない(後 の先取りあるいはユーザの明白なリクエストを満たすため)確率を1から引いた ものを掛けたものであると定義される。 上記のコストおよび利点の定義は、いくつかの魅力的な属性を有する。例えば 、ユーザが、(例えば)ファイルF1またはファイルF2を、ファイルFの後に 取り出し、前者の場合のみファイルG1をその後取り出す傾向にあるとすると、 システムは、一般的には、ファイルFを取り出した後すぐにG1を先取りせず、 その理由は、ユーザがファイルF2を取り出す可能性が高いという場合には、先 取りのコストが高く、代わりに、ユーザがファイルF1を取り出す可能性が高い という場合は、先取りの利点が低いからである(なぜなら、ユーザがF1を選ぶ まで待ち、その後になってのみG1を先取りすることによって、同じ時間、また はほぼ同じ時間をシステムが省くことができるからである)。 代理サーバSは、以下の規律を忠実に守ることによって、必要なコストおよび 利点を評価し得る: 1.代理サーバSは、ユーザベースにおいて、ユーザプロファイルに従ってク ラスタ化されたユーザの分離したクラスタのセットを維持する。 2.代理サーバSは、初期には空のセットPFTの「先取りトリプル」<C, F,G>を維持する(FおよびGはファイルであり、Cは、ユーザのクラスタま たは代理サーバSのユーザベースにおける全てのユーザのセットを識別する)。 セットPFTにおける各先取りトリプルは、該トリプルに特異的な数個の記憶さ れた値と関連づけられる。先取りトリプルおよびその関連の値は、3および4の ルールに従って維持される。 3.代理サーバSのユーザベースにおけるユーザUが、ファイルGに対するリ クエストR2、またはファイルGをトリガするリクエストR2を行い、次に、代 理サーバSが、以下の動作を行う: a.Cを、ユーザUを含むユーザクラスタとし、そして次にまたCを、全ユー ザのセットとする。 b.ファイル(例えばファイルF)に対するリクエストR0はどれでも、厳密 にリクエストR2の前のt分間に、ユーザUによって行われる。 c.トリプル<C,F,G>が、現在、セットPFTのメンバーでなければ、 0のカウント、0のトリガカウント、0のターゲットカウント、0の総利点、お よび値が現在の日付および時刻であるタイムスタンプを有するセットPFTに加 えられる。 d.トリプル<C,F,G>のカウントは、1つずつ増える。 e.ファイルGが、厳密にリクエストR0とR2との間にユーザUが行ったリ クエストによってトリガされていない、または明白に取り出されていない場合に は、トリプル<C,F,G>のターゲットカウントは、1つずつ増える。 f.リクエストR2が、ファイルGに対するリクエストであれば、トリプル< C,F,G>の総利点は、リクエストR0とリクエストR2との間の経過時間分 、あるいは、ファイルGを取り出すための予想時間分(どちらか少ない方)だけ 増加する。 g.リクエストR2が、ファイルGに対するリクエストであり、Gが、厳密に リクエストR0とR2との間にユーザUが行った1つ以上のリクエストによって トリガされた、または明白に取り出された場合(R1は、最も早い時期のそのよ うなリクエストを表す)には、トリプル<C,F,G>の総利点は、リクエスト R1とリクエストR2との間の経過時間分、あるいは、ファイルGを取り出すた めの予想時間分(どちらか少ない方)だけ減少する。 4.ユーザUが、ファイルFをリクエストすると、トリガカウントは、トリプ ルがフォーム<C,F,G>を有するように、セットPFTに現在ある各トリプ ルに対して1つずつインクリメントされる(ユーザUは、セットまたはCによっ て識別されたクラスタにいる)。 5.トリプル<C,F,G>の「年齢」は、そのタイムスタンプと、現在の日 付および時間との間の経過した日数であると定義される。トリプル<C,F,G >の年齢が、固定された一定の日数を越え、且つトリプルのカウントの固定され た一定の倍数も越えると、トリプルは、セットPFTから削除され得る。 従って、代理サーバSは、以下のように、どのファイルGが、あるユーザUか らのあるファイルFに対するリクエストによってトリガされるべきかを高速に決 定し得る: 1.C0を、ユーザUを含むユーザクラスタとし、C1を、全ユーザのセット とする。 2.サーバSは、<C0,F,G>が、固定のしきい値を越えるカウントを持 つセットPFTに現れるように、全トリプル<C0,F,G>のリストLを構築 する。 3.サーバSは、<C0,F,G>が、リストLに現れず、<C1,F,G> が、別の固定のしきい値を越えるカウントを持つセットPFTに現れるように、 リストLに全トリプル<C1,F,G>を加える。4.各トリプル<C,F,G >は、リストLにある。 5.サーバSは、<C,F,G>のトリガカウントによって<C,F,G>の ターゲットカウントの商を1から引いたものを掛けて、ファイルGをトリガする コストが、ファイルGiを取り出す予想コストかを計算する。 6.サーバSは、<C,F,G>のカウントによって除算して、ファイルGを トリガする利点が、<C,F,G>の総利点かを計算する。 7.最後に、先に説明されたように、代理サーバSは、計算されたコストおよ び利点を使用し、ファイルGがトリガされるべきか否かを決定する。説明された ばかりの先取りに対するアプローチは、全データ記憶装置および代理サーバSに よる先取りの決定に関する操作が、代理サーバSで局所的に取り扱われるという 利点を有する。しかし、この「ユーザを基準とした」アプローチは、代理サーバ 間の重複した格納および労力、並びに各個々の代理サーバにおける不完全なデー タの原因となる。すなわち、ファイルFの次にどのファイルが頻繁に取り出され るかを示す情報が、多数の代理サーバにわたって系統だてられずに分散される。 代替の、「ファイルを基準とした」アプローチは、そのような情報を全て、ファ イルF自体を用いて格納することである。その差は以下の通りである。ユーザを 基準としたアプローチにおいては、サーバSのセットPFTにおける先取りトリ プル<C,F,G>は、ネットワーク上のあらゆるファイルFおよびあらゆるフ ァイルGに言及し得るが、サーバSのユーザベースのサブセットであるクラスタ Cに限定される。対照的に、ファイルを基準としたアプローチでは、サーバSの セットPFTの先取りトリプル<C,F,G>は、ネットワーク上のあらゆるユ ーザクラスタCおよびあらゆるファイルGを言及し得るが、サーバSに格納され るファイルFに限定される。(ファイルを基準としたアプローチでは、ユーザの クラスタ化がネットワーク全体にわたり、ユーザクラスタは、異なる代理サーバ からのユーザを含み得ることに注目されたい。)代理サーバS2が、ユーザUの ためにファイルFを取り出すリクエストをサーバSに送ると、サーバS2は、こ のメッセージにおいて、ユーザUのユーザクラスタC0、並びにコスト−利点分 析に使用されるユーザが決定した乗数のユーザUの値を示す。サーバSは、<C 0,F,G>および<C1,F,G>(C1は、ネットワークのいたる所にいる 全ユーザのセット)の形態のセットPFTにおける全てのトリプルと共に、この 情報を用いて、どのファイルG1...Gkが、ファイルFに対するリクエスト によってトリガされるかを(ユーザを基準としたアプローチと全く同様に)決定 する。サーバSが、ファイルFを代理サーバS2に送り返すと、サーバSは、フ ァイルG1...Gkのこのリストも送り、その結果、代理サーバS2は、ファ イルG1...Gkの先取りに着手し得る。 ファイルを基準としたアプローチは、追加のデータ送信を必要とする。ユーザ を基準としたアプローチの下では、サーバSが、サーバSを代理サーバとして使 用するユーザによって、それぞれのt分以内に成されたリクエストR0とR2と の要求されたあらゆるペアに対して、上記のステップ3c〜3gを実行しなけれ ばならないことを思い出されよ。ファイルと基準としたアプローチの下では、サ ーバSは、ネットワーク上のいかなるユーザによって、それぞれのt分以内に成 されたリクエストR0とR2との要求されたあらゆるペアに対して(例えば、R 0がサーバSに格納されたファイルをリクエストする)、上記のステップ3c〜 3gを実行しなければならない。従って、ユーザがリクエストR2を行うと、前 のt分間(ここでは変数tがサーバSに依存し得る)に、ユーザがサーバSに格 納されたファイルに対するリクエストR0を行ったというリクエストR2の通知 を、ユーザの代理サーバは、全サーバSに送らなければならない。この通知は、 即座に送られる必要はなく、一般的には、各代理サーバにとって、そのような通 知をバッファに蓄え(buffer up)、適切なサーバに、グループで周期的に送る ことがより効率的である。 ユーザおよびユーザ特異的情報のアクセスおよび到達可能性制御 ユーザの現実のアイデンティティが、安全な混合パスの使用によって保護され るが、仮名は、完全なプライバシーを保証しない。特に、広告主は、原則的には 、ユーザ特異的データを使用して、望まれていない勧誘をユーザに集中させるこ とができる。この問題に対する一般的な解決は、代理サーバS2が、ユーザベー スにおける各ユーザの代わりに代理人として機能し、ユーザおよびユーザのプラ イベートなデータへのアクセスを、ユーザによって設定された基準に従ってのみ 許可することである。代理サーバS2は、2つの方法でアクセスを限定し得る。 1.代理サーバS2は、第3者によるアクセスを、ユーザ特異的情報のサーバ S2の仮名データベースに限定し得る。広告主のような第3者が、仮名Pのユー ザ特異的情報のリリースをリクエストするメッセージをサーバS2に送ると、サ ーバS2は、メッセージが、アクセス者がこの情報に権利があることを証明する のに十分なアクセス者に対するクリデンシャルを含んでいなければ、リクエスト を認めることを拒絶する。仮名Pに関連するユーザは、いつでも、仮名Pに関連 する情報の指定されたサブセットをリリースするための十分な根拠となる、代理 サーバS2がその時以降に考慮するべきクリデンシャルまたはクリデンシャルの ブール組み合わせを指定する署名入り制御メッセージを、代理サーバS2に送っ てもよい。代理サーバS2は、仮名Pのためのデータベースレコードと共に、こ れらのアクセス基準を格納する。例えば、ユーザは、代理サーバS2が、選択さ れた情報プロバイダ、慈善組織(すなわち、登録された慈善事業団体にのみ発行 される政府発行のクリデンシャルを提供し得る組織)、およびユーザUの購入習 慣を研究する権利に対してユーザUに支払いをした市場調査専門家にのみ購入情 報をリリースすることを望み得る。 2.代理サーバS2は、ユーザに電子メッセージを送る第3者の能力を制限し 得る。広告主などの第3者が、情報を仮名Pのユーザに転送するように代理サー バS2にリクエストするメッセージを代理サーバS2に送ることによって、情報 (例えば、話す、または書くリアルタイムの意志の疎通に入るためのテキストメ ッセージまたはリクエスト)を、仮名Pに送ろうとすると、上記のように、ユー ザが、情報をユーザに送ることを望む第3者に課すことを選んだ条件を満たすの に十分な、アクセス者に対するクリデンシャルをメッセージが含んでいなければ 、代理サーバS2は、リクエストを認めることを拒絶する。メッセージが十分な クリデンシャルを含んでいれば、代理サーバS2は、仮名Pのデータベースレコ ードから、一回限りの仮名の返信アドレスエンベロープを取り出し、このエンベ ロープを用いて、指定された情報を含むメッセージを、安全な混合パスに沿って 、仮名Pのユーザへと送る。使用されているエンベロープが、仮名Pのために保 存された唯一のエンベロープである場合、あるいは、より一般的には、そのよう なエンベロープの供給が少なければ、代理サーバS2は、このメッセージを送る 前に、メッセージに表示を加え、この表示は、ユーザのローカルサーバに、将来 使用するために、追加のエンベロープを、代理サーバS2に送るべきであること を示す。 より一般的なバリエーションにおいては、ユーザは、代理サーバS2に、第3 者によるリクエストの認可に対して、単に、必要とされるクリデンシャルのブー ル組み合わせだけではなく、より複雑な条件を課すように命令し得る。ユーザは 、以下を含み得る(しかし、それらに限定されることはない)単純な条件のブー ル組み合わせをどれでも課し得る: (a.)アクセス者(第3者)は、ある特定のパーティである。 (b.)アクセス者は、ある特定のクリデンシャルを提供した。 (c.)リクエストを満たすことは、ユーザのユーザプロファイルに関するあ る事実を、アクセス者に開示することに関与する。 (d.)リクエストを満たすことは、ユーザのターゲットプロファイル関心サ マリを、アクセス者に開示することに関与する。 (e.)リクエストを満たすことは、統計的サマリデータを、アクセス者に開 示することに関与し、このデータは、代理サーバのユーザベースにおける少なく ともnの他のユーザのユーザプロファイルおよびターゲットプロファイル関心サ マリと共に、ユーザのユーザプロファイルまたはターゲットプロファイル関心サ マリから計算される。 (f.)リクエストの内容は、ユーザにターゲットオブジェクトを送ることで あり、このターゲットオブジェクトは、ある特定の属性(例えば、高度な読書レ ベル、低い俗悪性、または認証されたMPAAからのPG(Parental Guidance )評価)を有する。 (g.)リクエストの内容は、ユーザにターゲットオブジェクトを送ることで あり、このターゲットオブジェクトは、ある特定の秘密鍵(例えば、承認された 文書を認証するために米国製薬協会(National Pharmaceutical Association) によって使用される秘密鍵)でデジタル署名される。 (h.)リクエストの内容は、ユーザにターゲットオブジェクトを送ることで あり、ターゲットプロファイルは、プロファイル認証機関によってデジタル署名 されており、ターゲットプロファイルが、全ての属性が認証された、それが描写 しようとするターゲットオブジェクトの真の正確なプロファイルであることを保 証する。 (i.)リクエストの内容は、ユーザにターゲットオブジェクトを送ることで あり、このターゲットオブジェクトのターゲットプロファイルは、ユーザによっ て指定された特定の検索プロファイルの指定された距離内にある。 (j.)リクエストの内容は、ユーザにターゲットオブジェクトを送ることで あり、代理サーバS2は、ユーザの格納されたターゲットプロファイル関心サマ リを使用することによって、ターゲットオブジェクトにおけるユーザの見込みの 高い関心が、指定のしきい値を上回ることを評価する。 (k.)アクセス者は、リクエストの履行と引き換えに、ユーザに対して特定 の支払いをする意志を示す。 ユーザのアクセス制御条件を作成し維持するために必要とされるステップは、 以下の通りである: 1.ユーザは、リクエストに適用される述語(predicate)のブール組み合わ せを作り、生じた複雑な述語は、ユーザが代理サーバS2に認めてほしいリクエ ストに適用された場合に、真であるはずであり、そうでなければ偽であるはずで ある。 2.複雑な述語は、SKPを用いて署名され、ユーザのクライアントプロセッ サC3から代理サーバS2へと、ユーザの仮名Pも含むパケットに入れられた混 合パスを通して送信される。 3.代理サーバS2は、パケットを受け取り、PKPを用いて信頼性を検証し 、指定されたアクセス制御命令を、仮名Pのデータベースレコードの一部として 、パケットに格納する。 代理サーバS2は、以下のようにアクセス制御を実施する: 1.第3者(アクセス者)は、ネットワークNによって提供される通常の二地 点間接続を使用して、リクエストを代理サーバS2に送信する。このリクエスト は、仮名P1...Pnのセットに関連するターゲットプロファイル関心サマリ にアクセスする、または仮名P1...Pnのセットに関連するユーザプロファ イルにアクセスする、またはメッセージを仮名P1...Pnに関連するユーザ に転送することであり得る。アクセス者は、仮名P1...Pnを明白に指定し 得る、またはP1...Pnが、指定された条件を満たす、代理サーバS2に登 録された全ての仮名のセットとなるように選ばれることを要求し得る。 2.代理サーバS2は、各仮名Pi(1≦I≦n)のデータベースレコードを 索引し、Piに関連するユーザによって提供されるアクセス条件を取り出し、送 信されたリクエストが、Piを満足させるかどうか、およびどのように満足させ るかを決定する。条件が満たされると、S2は、ステップ3a〜3cに進む。 3a.リクエストが満たされ得る場合には(しかし、料金を支払うときのみ) 、代理サーバS2は、支払いリクエストを、アクセス者に送信し、アクセス者が 、支払いを代理サーバS2に送るのを待つ。代理サーバS2は、サービス料金を 保持し、支払いの差額を、仮名Piに関連するユーザに、このユーザが提供した 匿名返信用パケットを介して転送する。 3b.リクエストが満たされ得る場合には(しかし、クリデンシャルを提供す るときのみ)、代理サーバS2は、クリデンシャルリクエストをアクセス者に送 信し、アクセス者が、代理サーバS2にクリデンシャルを送るのを待つ。 3c.代理サーバS2は、リクエストに応じて、ユーザ特異的情報をアクセス 者に開示する、ユーザと直接通信するための一回限りのエンベロープのセットを アクセス者に提供する、またはメッセージをユーザに転送することによってリク エストを満たす。4.代理サーバS2は、任意にメッセージをアクセス者に送り 、P1...Pnに関する拒絶されたリクエストの各々がなぜ拒絶されたのかを 示す、および/または幾つのリクエストが満たされたかを示す。 5.アクセス者からのパスどれでもによって送られたターゲットオブジェクト どれでもに対して、ユーザUだれでもによって提供された能動的および/または 受動的関連性フィードバックが、ユーザUのクライアントプロセッサC3に常駐 する上記の作表プロセスによって作表される。上記のように、このような情報の サマリが、代理サーバS2に周期的に転送され、それによって、代理サーバS2 が、ユーザのターゲットプロファイル関心サマリおよびユーザプロファイルを更 新することが可能となる。 アクセス制御基準が、懇請された、および懇請されていない送信に適用され得 る。すなわち、代理サーバは、ユーザがリクエストし得る不適切または誤って示 されたターゲットオブジェクトからユーザを保護するために使用され得る。ユー ザが、情報サーバからターゲットオブジェクトをリクエストするが、ターゲット オブジェクトが、アクセス制御基準を満たさないことが判明すると、代理サーバ は、情報サーバがターゲットオブジェクトをユーザに送信する、またはそのよう な送信に対してユーザに請求することを許可しない。例えば、プロファイルが、 不正変更されたターゲットオブジェクトを監視するためには、ユーザは、ターゲ ットプロファイルの正確さを、プロファイル認証機関からのデジタル署名により 証明することをプロバイダに要求するアクセス制御基準を指定し得る。別の例と して、子どものユーザの親は、代理サーバに、公認の児童保護組織によってデジ タル署名されたターゲットオブジェクトのみがユーザに送信され得ることを命令 し得る。従って、代理サーバは、成人のクリデンシャルを与えられていないユー ザにポルノ映像を喜んで提供する悪い情報サーバからでさえ、ユーザが、ポルノ 映像を取り出すことを許可しない。 マルチキャストツリーを用いた情報の配信 図3に示されたネットワークNの図的表現は、データ通信リンクの少なくとも 1つが、図4に図示されるように排除され得るが、それでも、ネットワークNが 、全てのサーバA〜Dの間でメッセージを通信することが可能である。排除とは 、リンクの物理的切断ではなく、リンクがネットワークの論理的設計において使 用されないことを意味する。全ての重複するデータ通信リンクが排除される時に 生じるグラフは、「ツリー」または「連結非巡回グラフ」(connected acyclic graph)と呼ばれる。メッセージが、他のサーバを介してあるサーバによって送 信され得、その後、異なる発信データ通信リンクを使って送信したサーバに返さ れるグラフは、「サイクル」と呼ばれる。従って、ツリーは、端(リンク)がグ ラフ「ノード」(サーバ)のセットを連結する非巡回グラフである。ツリーは、 相互接続されたサーバの組における選択されたサーバに、データファイルをどれ でも効率的に放送するために使用され得る。 ツリー構造は、通信ネットワークにおいて魅力的である。その理由は、多くの 情報配信が、本質的にマルチキャストである、すなわち、単一のソースで利用可 能な1個の情報が、情報がアクセスされ得る非常に多数の地点に配信されなけれ ばならないからである。この技術は、広く公知であり、例えば、「FAXツリー 」は、政治的組織において慣用であり、マルチキャストツリーは、インターネッ トでのマルチ媒体データの配布に広く使用される。例えば、「Scalable Feedbac k Control for Multicast Video Distribution in the Internet」(Jean-Chrys ostome Bolot、Thierry Turletti & Ian Wakeman、Computer Communication Rev iew、Vol.24、#4、1994年10月、Proceedings of SIGCOMM '94、58〜67頁)また は「An Architecture For Wide-Area Multicast Routing」(Stephen Deering、D eborah Estrin、Dino Farinacci、Van Jacobson、Ching-Gung Liu & Liming Wei 、Computer Communication Riview、Vol.24、#4、1994年10月、Proceedings of SIGCOMM '94、126〜135頁)を参照。ネットワークの図式表現上に重ねられ得る 多くの可能なツリーが存在するが、ネットワークの性質(例えば、データをリン ク上で通信するコスト)およびその使用(例えば、特定のノードが、より頻繁な 通信を示し得る)の両方によって、マルチキャストツリーとしての使用のために 、別のものよりも良いという1つのツリーの選択が成され得る。実際のネット ワーク設計における最も難しい問題の1つは、「良好な」マルチキャストツリー の構築、すなわち、低コスト(不必要にリンクをトラバースしないデータによる )および良好な性能(必要とされる場所の近くに頻繁にいるデータによる)を示 すツリー選択である。 マルチキャストツリーの構築 マルチキャストツリーを構築するためのアルゴリズムは、Deeringらのインタ ーネットマルチキャストツリーの場合のように、臨機応変である(これは、クラ イアントがサービスをリクエストする際に、現存のツリーに彼らを認可すること によってクライアントを加える)、あるいは、最小コストスパンツリーの構築に よる。スパンツリー(グラフの全てのノードを連結、または「スパン」するツリ ーとして定義される)をイーサネットブリッジのセット上に生成するための配布 アルゴリズムは、Radia Perlmanによって開発された(「Interconnections: Bri dges and Routers」、Radia Perlman、Addison-Wesley、1992年)。グラフの最 小コストスパンツリーの作成は、グラフの弧(通信ネットワークの通信リンクに 対応する)に関するコストモデルを有することに依存する。イーサネットブリッ ジの場合には、デフォルトのコスト(パスコストのより複雑なコストモデルは、 Perlmanの72〜73頁に議論されている)は、ルートまでの単純な距離測定として 計算される。従って、スパンツリーは、最初に固有のルートを選び、次にルート からの距離に基づいてスパンツリーを構築することによって、ルートに対するコ ストを最小限に抑える。このアルゴリズムでは、ルートは、「コンフィギュレー ションメッセージ」に含まれる数字のIDに依存して選ばれ、最小の数値のID を有するサーバが、ルートとして選ばれる。一般的に、複数の問題がこのアルゴ リズムに存在する。第1に、IDを使用する方法が、ツリーおいて相互接続され るノードに対して最良のルートを選択するとは限らない。第2に、コストモデル が過度に単純化されている。 まず最初に、どのように前述の類似性ベースの方法を使用して、ターゲットオ ブジェクトのグループに最も関心のあるサーバ(ここではそのグループの「コア サーバ」と呼ぶ)を選択するかを示す。次に、ファイルをこれらのコアサーバに 同報通信するために使用され得るルート(root)のないマルチキャストツリーを どのように構築するかを示す。最後に、ターゲットオブジェクトに対応するファ イルがどのようにクライアントのイニシアティブでマルチキャストツリーを介し て実際に同報通信されるか、およびこれらのファイルが、クライアントが要求す る際、後でコアサーバからどのように取り出されるかを示す。 ファイルを分配するコアサーバの選択は、ファイルを取り出す可能性のあるユ ーザのセット(すなわち、対応するターゲットオブジェクトに関心のある可能性 のあるユーザのセット)に依存するので、コアサーバの別個のセットおよび従っ て別個のマルチキャストツリーがターゲットオブジェクトの各トピック別グルー プに使用され得る。以下の説明を通して、サーバはメッセージが移動し得る任意 の経路を介して互いに通信し得る。各マルチキャストツリーの目標は、対応する トピックのターゲットオブジェクトに対応するファイルのマルチキャスト分配を 最適化することである。この問題は、米国特許第4,706,080号においてSincoskie によって、および1988年1月にIEEE Networkの16〜24ページにおいて公開さ れたW.D.SincoskieおよびC.J.Cottonによる“Extended Bridge Algorithms for Large Networks”というタイトルの刊行物によって開示されるような、相互 接続されたノードの完全なセットのための多数のつながったツリー(spanning t ree)の選択とは完全に異なるということに留意されたい。この開示におけるツ リーは、システムにおけるノードの選択された下位セットを相互接続するように 意図的に設計され、この下位セットが比較的小さい程度まで功を奏する。 マルチキャストツリー構築手順 同種のターゲットオブジェクトのセットのためのトピック別マルチキャストツ リーのセットは、以下の如くいつでも構築または再構築され得る。ターゲットオ ブジェクトのセットは、前述の方法を用いて、例えば、C1...Cpを、ター ゲットオブジェクトのセットのk-平均クラスタ化の結果、またはこれらのターゲ ットオブジェクトの階層クラスタツリーからの低レベルのクラスタのカバリング セット(covering set)の結果となるように選択することによって、一定の数の トピック別クラスタC1...Cpにグループ化される。次いでマルチキャスト ツリーMT(c)がC1...Cpにおける各クラスタCから、以下の手順によ って構築される。 1.代理サーバS1...Snのセットおよび主体別クラスタCが与えられる 場合。すべての代理サーバS1...Snを含む汎用マルチキャストツリーMTfull は周知の方法によってあらかじめ構築されていたと仮定する。 2.各対<Si,C>は重みw(Si,C)と関連付けられ、これは後にクラ スタCからのターゲットオブジェクトにアクセスする代理サーバSiのユーザベ ースにおけるユーザの期待数と共にそれぞれ変化する(covary)よう意図される 。この重みは、そのすべてがここに記載する類似性測定値計算を使用する、いく つかの方法のうちの任意の方法で代理サーバSiによって計算される。 1つの変形は以下のステップを使用する。(a)代理サーバSiがクラスタC からターゲットオブジェクトTをランダムに選択する。(b)関連するユーザU を有する、そのローカルデータベースにおける各仮名に対して、代理サーバSi はユーザUの格納ユーザプロファイルおよびターゲットプロファイル関心サマリ (target profile interest summary)に前述の技術を適用して、ユーザUが選 択されたターゲットオブジェクトTに対して有する関心w(U,T)を推定する 。代理サーバSiのユーザベースがターゲットオブジェクトTに対して有する集 合関心w(Si,T)は、これらの関心値w(U,T)の合計であると定義され る。あるいは、w(Si,T)は、ユーザベースにおけるすべてのUについての 値s(w(U,T))の合計であると定義され得る。ここで、s(*)は小さな アーギュメントについては0に近く、大きなアーギュメントについては定数pma x に近いシグモイド関数(sigmoidal function)である。従って、s(w(U, T))はユーザUがターゲットオブジェクトTにアクセスする確率を推定し、こ の確率は任意の他のユーザがターゲットオブジェクトTにアクセスする確率から 独立していると仮定される。ある変形においては、w(Si,T)はSiのユー ザベースから少なくとも1人のユーザがターゲットオブジェクトTにアクセスす る確率を推定させられる。このときw(Si,T)は、値w(U,T)のまたは 1マイナス量(1−s(w(U,T)))のユーザUについての積の最大値とし て定義され得る。(c)代理サーバSiはクラスタCからランダムに選択された いくつかのターゲットオブジェクトTについてステップ(a)〜(b)を繰り返 し、それによってステップ(b)で計算されたw(Si,T)のいくつかの値を 平均して、所望の量w(Si,C)を決定する。この量はクラスタCのターゲッ トオブジェクトに対して代理サーバSiのユーザベースが有する期待集合関心を 表す。 ターゲットプロファイル関心サマリが検索プロファイルセットとして具現化さ れる別の変形においては、以下の手順を踏んでw(Si,C)が計算される。( a)代理サーバSiのユーザベースにおける任意のユーザのローカル格納検索プ ロファイルセットにおける各検索プロファイルPsについて、代理サーバSiは 検索プロファイルとクラスタCのクラスタプロファイルPcとの間の距離d(P s,Pc)を計算する。(b)w(Si,C)はすべてのこのような検索プロフ ァイルPsにわたっての(−d(Ps,Pc)/r)の最大値となるように選択さ れる。ここでrはクラスタCのクラスタ直径のアフィン関数として計算される。 このアフィン関数の傾きおよび/または切片は、ターゲットオブジェクトの提供 者が性能の向上を望むサーバSiに対してより小さくなる(これによってw(S i,C)を増加させる)ように選択され、これは、代理サーバSiのユーザベー スにおけるユーザが向上された性能に対してプレミアムを支払う場合、またはS iにおける性能が、そうしなければネットワーク接続が遅いために許容不可能な ほど低い場合に当てはまり得る。 別の変形においては、代理サーバSiは改変され、代理サーバSiのユーザベ ースの各ユーザに対してターゲットプロファイル関心サマリを保守するだけでな く、ユーザベース全体に対して1つの集合ターゲットプロファイル関心サマリを も保守する。この集合ターゲットプロファイル関心サマリは、関連性フィードバ ックから通常の方法で決定されるが、この場合、ターゲットオブジェクトに関す る関連性フィードバックは、ユーザベースにおけるユーザがターゲットオブジェ クトを新しかったときに取り出した度数であると考えられる。ユーザが代理サー バSiに対する要求によってターゲットオブジェクトを取り出すときは必ず、代 理サーバSiのための集合ターゲットプロファイル関心サマリは更新される。こ の変形において、w(Si,C)は次のステップによって推定される。 (a)代理サーバSiがクラスタCからターゲットオブジェクトTをランダム に選択する。 (b)代理サーバSiは格納集合ターゲットプロファイル関心サマリに前述の 技術を適用して、集合されたユーザベースが、選択されたターゲットオブジェク トTが新しかったときにその選択されたターゲットオブジェクトTに対して有し た集合関心w(Si,T)を推定する。これは、ユーザベースの少なくとも1メ ンバーがTに類似する新しいターゲットオブジェクトを取り出す可能性の推定値 として解釈され得る。 (c)代理サーバSiはクラスタCからランダムに選択されたいくつかのター ゲットオブジェクトTについてステップ(a)〜(b)を繰り返し、それによっ てステップ(b)で計算されたw(Si,T)のいくつかの値を平均して、所望 の量w(Si,C)を決定する。この量はクラスタCのターゲットオブジェクト に対して代理サーバSiのユーザベースが有する期待集合関心を表す。 3.S1...Snの中からの、w(Si,C)の最大の重みを有するサーバ SiはクラスタCのための指定「コアサーバ」である。固定された数のコアサー バの選択が所望される1つの変形においては、w(Si,C)の最大値を有する サーバSiが選択される。別の変形においては、各サーバSiに対するw(Si ,C)の値が一定の閾値wminと比較され、w(Si,C)がwminと等しいかま たはwminを超えるようなサーバSiがコアサーバとして選択される。クラスタ C1...Cpが多い場合にしばしば起こることであるが、クラスタCがターゲ ットオブジェクトの狭くかつ特殊なセットを表す場合は、少数のコアサーバクラ スタCのみを選択し、これによって以下のステップ4〜5における計算効率にお いて有意な利点を得るのが通常は適切である。 4.頂点がクラスタCの指定コアサーバである完全なグラフG(C)を作成す る。コアサーバの各対について、それらのコアサーバ間で最も安価な経路に沿っ てメッセージを送信するコストが推定され、それらのコアサーバを接続する辺( edge)の重みがこのコストであるとみなされる。コストは、平均送信料金、平均 送信遅延および最悪または最悪に近い送信遅延の適切な関数として決定される。 5.マルチキャストツリーMT(C)は、標準の方法によってG(C)に対す る最小のつながったツリー(または、最小に近いつながったツリー)となるよう 計算され、ここで2つのコアサーバ間の辺の重みは、これらの2つのコアサーバ の間でメッセージを送信するコストであるとみなされる。MT(C)はすべての 代理サーバS1...Snを頂点として含まず、クラスタCのためのコアサーバ のみを含むことに留意されたい。 6.クラスタCのクラスタプロファイル、クラスタCのコアサーバおよびこれ らのコアサーバ上に構築されたマルチキャストツリーMT(C)の接続形態を記 述するメッセージMが形成される。メッセージMは汎用マルチキャストツリーM Tfullによってすべての代理サーバS1...Snに同報通信される。各代理サ ーバSiは、メッセージMを受け取ると、以下のようにクラスタCのクラスタプ ロファイルを抜き出し、それをメッセージMから決定したその他の一定の情報と 共にローカル記憶装置に格納する。代理サーバSiがメッセージMにおいてクラ スタCのコアサーバとして指名される場合、代理サーバSiは、グラフMT(C )においてSiからの経路距離がdより小さいあるいはdに等しいすべてのコア サーバによって誘導されるMT(C)の下位ツリーを抜き出して格納する。ここ で、dは定数である正の整数(通常1から3)である。メッセージMが代理サー バSiをMT(C)のコアサーバとして指名しない場合、代理サーバSiは、仮 想二地点間リンク上で代理サーバSiが安価に接触し得る1つ以上の近傍のコア サーバのリストを抜き出して格納する。 図3のネットワークにおいて、本発明のシステムに適用されるツリーの使用を 例示するために、クライアントrが電子新聞などのネットワーク用オンライン情 報を提供すると仮定する以下の簡単な例を考慮されたい。この情報は、クライア ントrによって、いくつかのファイルを含むあらかじめ配列された形に構成され 得、いくつかのファイルのそれぞれは異なるターゲットオブジェクトと関連付け られる。電子新聞の場合、ファイルは株価、天気予報、社説などのテキスト表現 を含み得る。システムはこれらのファイルに関連するターゲットオブジェクトに 対する可能性のある需要を決定して、相互接続されたクライアントp−sおよび 代理サーバA−DのネットワークNを介してファイルの分配を最適化する。クラ スタCが航空宇宙産業に関するテキスト記事から構成されると仮定されたい。さ らに、クライアントpおよびrにおけるユーザのための代理サーバAおよびBに おいて格納されるターゲットプロファイル関心サマリが、これらのユーザがこの ような記事に強い関心を持っているということを示すと仮定されたい。このとき 、代理サーバAおよびBがマルチキャストツリーMT(C)のコアサーバとして 選択される。次いでマルチキャストツリーMT(C)が、AとBとの間の最も安 価な仮想二地点間リンク(コストによって、直接経路A−Bまたは間接経路A− C−B)を表す辺によって接続されるコアサーバAおよびBから構成されるよう 計算される。 マルチキャストツリーへのグローバル要求 いずれの代理サーバSにも送信され得るメッセージの1つのタイプは、「グロ ーバル要求メッセージ」と呼ばれる。このようなメッセージMは埋め込み要求R のマルチキャストツリーMT(C)におけるすべてのコアサーバへの同報通信を トリガする。メッセージMには、メッセージMがグローバル要求メッセージであ ることを示すフィールドが含まれるのと同様、要求Rの内容およびクラスタCの 同一性が含まれる。さらに、メッセージMは後述する一定の状況下以外は無指定 であるフィールドSlastを含み、この一定の状況下ではフィールドSlastは特定 のコアサーバを指名する。グローバル要求メッセージMは代理サーバSに登録さ れたユーザによって代理サーバSに送信され得、この送信は、仮名を用いた混合 経路に沿って起こり得るか、または別の代理サーバから代理サーバSに、仮想二 地点間接続に沿って送信され得る。 代理サーバSは、グローバル要求メッセージとしてマークされたメッセージM を受け取ると、以下のように動作する。1.代理サーバSがトピックCのコアサ ーバでない場合、代理サーバSはトピックCの近傍のコアサーバのローカル格納 リストを取り出し、このリストから近傍のコアサーバS’を選択し、メッセージ Mのコピーを仮想二地点間接続上でコアサーバS’に送信する。この送信が失敗 した場合、代理サーバSはリストのその他のコアサーバについて手順を繰り返す 。2.代理サーバSがトピックCのコアサーバである場合、代理サーバSは次の ステップを実行する。(a)メッセージMに埋め込まれている要求Rに基づいて 動作する。(b)ScurrをS(C)となるように設定する。MT(C)のローカ ル格納下位ツリーを取り出し、それからこの下位ツリーにおいてScurrに直接リ ンクされるすべてのコアサーバのリストLを抜き出す。(d)メッセージMが Slastの値を指定し、SlastがリストLに現れる場合、リストLからSlast、を 除去する。リストLはこのステップの前は空であり得る、またはこのステップの 結果空になり得るということに留意されたい。(e)リストLの各サーバSiに ついて、サーバSからサーバSiに仮想二地点間接続上でメッセージMのコピー を送信する。ここで、メッセージMのコピーのSlastフィールドはScurrに変更 されている。Siがいかなる仮想二地点間接続によっても適当な時間内に到達さ れ得ない(例えば、サーバSiが故障している)場合、上記ステップ(c)に再 帰し、再帰の持続時間中はSorigはScurrに連結され、ScurrはS{\sub I}に連結される。 ステップ1におけるサーバS’またはステップ2(e)におけるサーバSiは 、グローバル要求メッセージMのコピーを受け取ると、全く同じステップに従っ て動作する。その結果、いくつかのコアサーバが到達し得ないのでない限り、す べてのコアサーバは最終的にはグローバル要求メッセージMのコピーを受け取り 、埋め込み要求Rに基づいて動作する。たとえあるコアサーバが到達不可能であ っても、d>1である限り、ほとんどの状況ではステップ(e)によってその他 のコアサーバに対する同報通信が確実に続けられ得る。dの値がより高い場合は 、到達不可能なコアサーバに対する付加的な保護手段が提供される。 マルチキャステイングファイル 所望のオブジェクトのカスタム化電子情報のためのシステムは、以下のステッ プを実行して、システムに新しいターゲットオブジェクトを導入する。これらの ステップは、エンティティEによって開始され、エンティティEは、図3に示す ように、ユーザがクライアントプロセッサqにおいてキーボードを介して入力す るコマンド、またはクライアントあるいはサーバプロセッサqに常駐する自動ソ フトウェアプロセスであり得る。1.プロセッサqは署名された(signed)要求 Rを形成し、署名された要求Rは受信者に、受信者のローカル記憶装置にファイ ルFのコピーを格納するよう要求する。ファイルFは、クライアントqによって クライアントqにおける記憶装置で保守されるか、またはクライアントqがネッ トワーク上でアクセスできる記憶装置で保守され、前述のように、ターゲットオ ブジェクトの情報内容または識別記述を含む。要求Rはまた、エンティティEが 接触され得るアドレス(おそらくある代理サーバDにおける仮名のアドレス)を 含み、受信者に、ファイルFがこのアドレスのエンティティによって保守される という事実を格納するよう要求する。2.プロセッサqはメッセージM1に要求 Rを埋め込み、前述のようにエンティティEの代理サーバDに仮名を用いて送信 する。メッセージM1は代理サーバDに適切なマルチキャストツリーに沿って要 求Rを同報通信するように命令する。3.メッセージM1を受け取ると、代理サ ーバDは二重に埋め込まれたファイルFを調べ、対応するターゲットオブジェク トのターゲットプロファイルPを計算する。代理サーバDはターゲットプロファ イルPを前述のトピック別クラスタC1...Cpのクラスタプロファイルのそ れぞれと比較し、CkをプロファイルPに対して最小の類似性距離を有するクラ スタとなるよう選択する。4.代理サーバDはそれ自身にグローバル要求メッセ ージMを送り、それ自身に要求Rをトピック別マルチキャストツリーMT(Ck )に沿って同報通信するよう命令する。5.代理サーバDは仮名を用いる通信を 介してエンティティEに、ファイルFがクラスタCkのトピック別マルチキャス トツリーに沿ってマルチキャストされたことを通知する。 サーバDおよびその他のサーバがグローバル要求メッセージに基づいて動作す るために従う手順の結果として、ステップ4は最終的に、トピックCkのすべて のコアサーバに要求Rに基づいて動作させ、従って、ファイルFのローカルコピ ーを格納させる。コアサーバSiは、そのローカル記憶装置にファイルFのため の空間をあけるために、有用性の低いファイルを削除しなければならない場合が ある。削除すべきファイルを選択する方法にはいくつかある。当該分野で周知の 1つの選択肢は、Siによる最も以前にアクセスされたファイルの削除の選択で ある。別の変形においては、Siはアクセスするユーザがほとんどいないと確信 するファイルを削除する。この変形においては、サーバSiがファイルFのコピ ーを格納するたびに、サーバSiはまた重みw(Si,CF)を計算して格納す る。ここで、CFはファイルFに関連する1つのターゲットオブジェクトから構 成されるクラスタである。次いでサーバSiは、ファイルを削除しなければなら ないとき、重みw(Si,CF)の最も低いファイルFを削除することを選択す る。ファイルは古くなるにつれてアクセスされる頻度が下がるという事実を反映 させるため、サーバSiは定期的に、そのとき格納している各ファイルFについ て、格納されたw(Si,CF)の値に減衰因数(例えば0.95)を乗じる。 あるいは、減衰因数を使用する代わりに、サーバSiは格納する各ファイルFに ついて、集合関心w(Si,CF)を定期的に再計算し得る。集合関心は経時変 化する。これは前述のように、ターゲットオブジェクトが典型的には、システム がユーザの関心を推定する際考慮する年齢属性を有するからである。 エンティティEは、例えば、更新されたバージョンをマルチキャストしたとこ ろであるなどの理由により、後でファイルFをネットワークから除去することを 望む場合は、デジタル方式で署名されたグローバル要求メッセージを代理サーバ Dに仮名を用いて送信し、マルチキャストツリーMT(Ck)のすべての代理サ ーバに格納している可能性のあるファイルFのいずれのローカルコピーをも削除 するよう要求する。 マルチキャストツリーへの照会 グローバル要求メッセージに加えて、いずれの代理サーバSにも送信され得る 別のタイプのメッセージは「照会メッセージ」と呼ばれる。代理サーバに送信さ れると、照会メッセージによって応答はメッセージの発信者に送られる。この応 答は、所定のマルチキャストツリーMT(C)におけるサーバのいずれかが回答 できる場合、所定の照会Qに対する回答を含み、そうでない場合は回答は入手で きないことを示す。照会およびクラスタCは照会メッセージにおいて指名される 。さらに、照会メッセージは、後述する一定の状況下以外は無指定であるフィー ルドSlastを含み、この一定の状況下ではフィールドSlastは特定のコアサーバ を指名する。代理サーバSは、照会メッセージとしてマークされたメッセージM を受け取ると、以下のように動作する。1.代理サーバSは、ArをサーバSに メッセージMを送信したクライアントまたはサーバのための返信アドレスと設定 する。Arはネットワークアドレスか仮名アドレスかのどちらかであり得る。2 .代理サーバSがクラスタCのコアサーバでない場合、代理サーバSはトピック Cの近傍のコアサーバのローカル格納リストを取り出し、このリストから近傍の コアサーバS’を選択し、位置指定メッセージMのコピーを仮想二地点間接続上 でコアサーバS’に送信する。この送信が失敗した場合、代理サーバSはリスト の その他のコアサーバについて手順を繰り返す。応答を受け取ると、代理サーバS はこの応答をアドレスArに転送する。3.代理サーバSがクラスタCのコアサ ーバであり、ローカル格納情報を用いて照会Qに回答することができる場合、代 理サーバSは回答を含む「肯定の」応答をArに送信する。4.代理サーバSが トピックCのコアサーバであるが、ローカル格納情報を用いて照会Qに回答する ことができない場合、代理サーバSは以下のステップを実行することによって平 行深さ優先検索(parallel depth-first search)を実行する。(a)Lを空リ ストとなるよう設定する。(b)MT(C)のローカル格納下位ツリーを取り出 す。この下位ツリーにおいてScurrに直接リンクされる、Slast(指定される場 合)以外の各サーバSiについて、順序対(Si,S)をリストLに追加する。 (c)Lが空である場合、「否定の」応答をアドレスArに送信し、サーバSは 照会Qに対する回答を見つけ得ないことを告げ、ステップ4の実行を終了させる 。そうでなければステップ(d)に進む。(d)リストLから1つ以上のサーバ の対(Ai,Bi)のリストL1を選択する。リストL1の各サーバの対(Ai ,Bi)について、SlastフィールドがBiを指定するように改変されたメッセ ージMのコピーである位置指定メッセージM(Ai,Bi)を形成し、このメッ セージM(Ai,Bi)を仮想二地点間接続上でサーバAiに送信する。(e) ステップ(d)で送られたメッセージに対する(Sによって)受け取られた各応 答について、以下のように動作する。(I)位置指定メッセージM(Ai,Bi )に対して「肯定の」応答が届いた場合、この応答をArに転送し、直ちにステ ップ4を終了させる。(ii)位置指定メッセージM(Ai,Bi)に対して「否 定の」応答が届いた場合、リストL1から対(Ai,Bi)を除去する。(iii )メッセージM(Ai,Bi)が首尾良くAiに配信され得なかった場合、リス トL1から対(Ai,Bi)を除去し、MT(C)のローカル格納下位ツリーに おいてAiに直接リンクされるBi以外の各Ciについて、リストL1に対(C i,Ai)を追加する。(f)一旦L1がメッセージM(Ai,Bi)が送られ たいかなる対(Ai,Bi)をももはや含まなくなれば、または一定の時間が経 過した後、ステップ(c)に戻る。 マルチキャストツリーからファイルを取り出す ネットワークにおけるプロセッサqは、所定のターゲットオブジェクトに関連 するファイルを取り出すことを望む場合、以下のステップを実行する。これらの ステップはエンティティEによって開始され、エンティティEは、図3に示すよ うに、ユーザがクライアントqにおいてキーボードを介して入力するコマンド、 またはクライアントあるいはサーバプロセッサqに常駐する自動ソフトウェアプ ロセスであり得る。1.プロセッサqは、受信側(クラスタCのコアサーバ)が 以前マルチキャストツリーMT(C)にマルチキャストされたファイルFを依然 として格納するかどうかを尋ねる照会Qを形成する。もしそうである場合は、受 信側サーバはそれ自身のサーバ名で応答すべきである。プロセッサqはファイル Fの名前およびクラスタCの同一性を既に知っていなければならないということ に留意されたい。典型的には、この情報は、エンティティEに、後述するニュー スクリッピングサービスまたはブラウジングシステムなどの、ファイルをユーザ に対して(名前,マルチキャストされたトピック)の対によって識別しなければ ならないサービスによって提供される。2.プロセッサqは、照会Qをマルチキ ャストツリーMT(C)に提出する照会メッセージMを形成する。3.プロセッ サqは前述のように、メッセージMをユーザの代理サーバDに仮名を用いて送信 する。4.プロセッサqはメッセージMに対する応答M2を受け取る。5.応答 M2が「肯定」である場合、すなわち、応答M2が依然としてファイルFを格納 しているサーバSを指名する場合、プロセッサqはユーザの代理サーバDにサー バSからファイルFを取り出すよう仮名を用いて命令する。サーバSが、照会に 回答してからファイルFを削除してしまったため取り出しが失敗した場合、クラ イアントqはステップ1に戻る。6.応答M2が「否定」の場合、すなわち、応 答M2がMT(C)には依然としてファイルFを格納しているサーバがないこと を示す場合、プロセッサqは受信側にファイルFを保守するエンティティのアド レスAを尋ねる照会Qを形成する。このエンティティは通常、ファイルFのコピ ーを無期限に保守する。MT(C)におけるすべてのコアサーバは通常、たとえ 空間の理由によりファイルFを削除しても、この情報を(保守エンティティによ って削除するよう命令されない限り)保持する。従って、プロセッサqはアドレ スAを提供する応答を受け取るべきであり、これに基づいてプロセッサqはユー ザの代理サーバDにアドレスAからファイルFを取り出すよう仮名を用いて命令 する。 ファイルFの複数のバージョンがデータ通信ネットワークN全体にわたってロ ーカルサーバに存在するが、同じファイルの代替バージョンとしてマークされな いときは、システムの、Fに類似するファイルを(ターゲットオブジェクトとし て扱い、上記の「ターゲットオブジェクトを検索する」で開示する方法を適用す ることによって)迅速に見つける能力により、すべての代替バージョンを、たと え遠隔に格納されていても、発見することが可能になる。これらの関連データフ ァイルはその後、任意の方法により一致され得る。簡単な例として、データファ イルのすべてのバージョンは最新の日付またはバージョン番号を有するバージョ ンで置き換えられる。別の例では、各バージョンは、その他のバージョンへの参 照またはポインタで、自動的に注釈を付けられる。 ニュースクリッピングサービス 本発明の所望のオブジェクトのカスタム化電子識別システムを、図1の電子媒 体システムにおいて使用して、ユーザがどの記事を読むことを選択するかにのみ 基づいて、ユーザの関心に適合するニュース記事を選択(フィルタリング)する ことを学習する自動ニュースクリッピングサービスを実施し得る。所望のオブジ ェクトのカスタム化電子識別システムは、記事に含まれる単語の発生の相対度数 に基づいて、電子媒体システムに入る各記事についてターゲットプロファイルを 生成する。所望のオブジェクトのカスタム化電子識別システムはまた、ユーザが アクセスした記事のターゲットプロファイルおよびこれらの記事についてユーザ が提供した関連性フィードバックの関数として、各ユーザについて検索プロファ イルセットを生成する。新しい記事が、情報サーバI1−Imの大容量記憶システ ムSS1−SSmでの記憶のために受け取られるとき、所望のオブジェクトのカス タム化電子識別システムはそれらのターゲットプロファイルを生成する。生成さ れたターゲットプロファイルはその後、ユーザの検索プロファイルセットにおけ る検索プロファイルと比較され、ターゲットプロファイルがユーザの検索プロフ ァイルセットにおける最も近い検索プロファイルに最も近い(最も類似する)新 しい記事が、そのユーザに対して読む可能性のために識別される。記事を ユーザに提供するコンピュータプログラムは、ユーザがどのくらい読むか(デー タのスクリーンの数および読むのに費やされた分数)をモニタリングし、ユーザ の検索プロファイルセットの検索プロファイルを、ユーザが読むことをより好み そうなものにより良く適合するように調整する。このシステムが使用する方法の 詳細を、図5においてフローチャートの形で開示する。この方法によると、ユー ザ特定の検索プロファイルセットの計算、2つのプロファイル間の類似性の測定 、およびユーザが読むものに基づくユーザの検索プロファイルセット(または、 より一般的にはターゲットプロファイル関心サマリ)の更新の特定の方法を選択 する必要がある。ここで開示する例は、使用され得る多くの可能な実施の例であ り、システムの範囲を限定するものと解釈されるべきではない。 ユーザの検索プロファイルセットを初期化する ニュースクリッピングサービスはターゲットプロファイル関心サマリを検索プ ロファイルセットとして例示し、その結果関心の高い検索プロファイルのセット が各ユーザに対して格納される。所定のユーザに関連する検索プロファイルは経 時変化する。検索プロファイルを含むいずれの用途においてもそうであるように 、検索プロファイルは、以下の好適な方法を含む任意の数の手順によって、新し いユーザに対して初期決定(または、既存のユーザによって明確に変更)され得 る。(1)ユーザに、キーワードおよび/または数値属性を与えることによって 、直接検索プロファイルを指定するよう要求する。(2)ユーザが自分の関心を 表すと指示するターゲットオブジェクトまたはターゲットクラスタのプロファイ ルのコピーを使用する。(3)ユーザに人口統計学的に類似する人々の検索プロ ファイルセットからコピーされたまたはその他の方法で決定された検索プロファ イルの標準セットを使用する。 記事ソースから新しい記事を取り出す 記事は広範なソースからオンラインで入手可能である。好適な実施形態におい ては、APまたはロイターニュースワイヤなどのニュースソースによって供給さ れるような時事ニュースが使用される。これらのニュース記事は、情報サーバS4 の大容量記憶システムSS4にロードされることによって電子媒体システムに入 力される。所望のオブジェクトのカスタム化電子識別システムの記事プロファ イルモジュール201は、情報サーバS4に常駐し得、図5のフローチャートに 示すステップに従って動作する。図5のフローチャートにおいて、各記事がステ ップ501において情報サーバS4によって受け取られると、ステップ502に おいて記事プロファイルモジュール201がその記事に対するターゲットプロフ ァイルを生成し、ターゲットプロファイルを、後に記事をユーザに選択的に配信 する際使用するために、記事指標付けメモリ(典型的には大容量記憶システムS S4の一部)に格納する。この方法は、電子ニュースグループおよび電子掲示板 からの読むべき記事の選択に等しく有用であり、電子メール(「e−メール」) のスクリーニングおよび編成用のシステムの一部として使用し得る。 記事プロファイルを計算する 前述のように、ターゲットプロファイルが新しい記事のそれぞれについて計算 される。ターゲットプロファイルの最も重要な属性は、記事のテキスト全体を表 すテキスト属性である。このテキスト属性は、前述の如く、数のベクトルとして 表され、この数は、好適な実施形態においては、その他の比較可能な記事に対す る、この記事における単語発生相対度数(TF/IDFスコア)を含む。サーバ はTF/IDFスコアを計算するために、記事における各単語の発生度数をカウ ントしなければならない。 これらのニュース記事は次いで、ステップ503において階層クラスタツリー で階層的にクラスタ化され、これはどのニュース記事がユーザの関心に最も近い かを決定するための決定ツリーとして機能する。結果として得られるクラスタは 、ツリーの最上部がすべてのターゲットオブジェクトを含み、ツリーの下方のブ ランチが、ターゲットオブジェクトのセットの、ターゲットオブジェクトの連続 的に小さくなる下位クラスタへの分割を表すツリーとして見られ得る。各クラス タはクラスタプロファイルを有し、この結果ツリーの各ノードにおいて、そのノ ードをルートとする下位ツリーに格納されるすべてのターゲットオブジェクトの 平均ターゲットプロファイル(重心)が格納される。ターゲットプロファイルの この平均は、前述のように、数値属性のベクトルとして、ターゲットプロファイ ルの表現について計算される。 現在の記事のターゲットプロファイルをユーザの検索プロファイルと比較する ユーザがこの装置を使用して関心のあるニュース記事を取り出すプロセスを、 図11においてフローチャートの形で示す。ステップ1101において、ユーザ は自分のクライアントプロセッサC1を介してデータ通信ネットワークNにログ インし、ニュース読み取りプログラムを起動する。これは、ユーザが代理サーバ S2に対して前述のように仮名データ通信接続を確立することによって達成され 、これはデータ通信ネットワークNへのフロントエンドアクセスを提供する。代 理サーバS2は承認された仮名およびそれに対応する公開鍵のリストを保守し、 アクセスおよび課金制御を提供する。ユーザは代理サーバS2のローカルデータ 記憶媒体に格納された検索プロファイルセットを有する。ユーザがステップ11 02において「ニュース」へのアクセスを要求するとき、代理サーバS2に常駐 するプロファイル適合モジュール203はユーザの検索プロファイルセットから の各検索プロファイルpkを逐次的に考慮して、どのニュース記事がユーザにと って最も関心が高そうかを決定する。ニュース記事は前のステップで階層クラス タツリーに自動的にクラスタ化されており、その結果、決定は各ユーザに対して 迅速に行われ得る。階層クラスタツリーは、どの記事のターゲットプロファイル が検索プロファイルpkに最も類似するかを決定するための決定ツリーとして機 能する(serve)。関連する記事の検索はツリーの最上部で開始し、ツリーの各 レベルにおいて、pkに最も近いクラスタプロファイルを有するブランチまたは 複数のブランチが選択される。このプロセスはツリーのリーフに到達するまで再 帰的に実行され、「ターゲットオブジェクトを検索する」のセクションで前述す るように、ユーザにとって関心のある個別の記事が識別される。 このプロセスの変形は、多くのユーザが類似した関心を有するという事実を利 用する。各ユーザの各検索プロファイルについて別個に上記プロセスのステップ 5〜9を実行するよりも、類似する検索プロファイルの各グループについてこれ らのステップを一度だけ実行し、それにより多くのユーザのニーズを一度に満た すことによって付加効率を達成することができる。この変形においては、システ ムは大人数のユーザの検索プロファイルセットにおけるすべての検索プロファイ ルを非階層的にクラスタ化することによって開始する。クラスタプロファイルpk を有する、検索プロファイルの各クラスタkについて、システムは「ターゲッ トオブジェクトを検索する」のセクションで記載する方法を使用して、pkに類 似するターゲットプロファイルを有する記事を見つける。次いで、見つけられた 記事のそれぞれは、検索プロファイルのクラスタkにおいて表現される検索プロ ファイルを有する各ユーザにとって関心のあるものとして識別される。 上記の変形は、検索プロファイルのクラスタを記事の類似するクラスタと適合 させようと試みることに注目されたい。これは対称的な問題であるので、以下の より一般的な変形が示すように、代わりに対称的な解決を与えられ得る。適合プ ロセスが開始する前のある点において、考慮されるべきニュース記事はすべて「 ターゲットプロファイルクラスタツリー」と名付けられる階層ツリーにクラスタ 化され、考慮されるべきすべてのユーザの検索プロファイルは「検索プロファイ ルクラスタツリー」と名付けられる第2の階層ツリーにクラスタ化される。以下 のステップは、任意のターゲットプロファイルクラスタツリーからの個別のター ゲットプロファイルと任意の検索プロファイルクラスタツリーからの個別の検索 プロファイルとの間のすべての適合を見つけるために有用である。1.検索プロ ファイルクラスタツリーのルートの各子下位ツリーSに対して(または、検索プ ロファイルクラスタツリーが1つの検索プロファイルしか含まない場合は、検索 プロファイルクラスタツリー全体をSとする)、2.クラスタプロファイルPS を下位ツリーSのすべての検索プロファイルの平均となるよう計算する。3.タ ーゲットプロファイルクラスタツリーのルートの各下位クラスタ(子下位ツリー )Tに対して(または、ターゲットプロファイルクラスタツリーが1つのターゲ ットプロファイルしか含まない場合は、ターゲットプロファイルクラスタツリー 全体をTとする)、4.クラスタプロファイルPTを下位ツリーTのすべてのタ ーゲットプロファイルの平均となるよう計算する。5.PSとPTとの間の距離d (PS,PT)を計算する。6.d(PS,PT)<t、閾値である場合、7.Sが 1つの検索プロファイルしか含まず、Tが1つのターゲットプロファイルしか含 まない場合、その検索プロファイルとそのターゲットプロファイルとの間の適合 を宣言し、8.そうでない場合、ステップ1に再帰して、ツリーSの検索プロフ ァイルとツリーTのターゲットプロファイルとの間のすべての適合を発見する。 ステップ6で用いられる閾値は、典型的にはSおよびTのクラスタ変数(また はクラスタ直径)の大きい方のアフィン関数またはその他の関数である。検索プ ロファイルとターゲットプロファイルとの間に適合が宣言されると必ず、ターゲ ットプロファイルに寄与したターゲットオブジェクトが、検索プロファイルに寄 与したユーザにとって関心のあるものとして識別される。このプロセスは、考慮 されるべきユーザのセットまたは考慮されるべきターゲットオブジェクトのセッ トが非常に小さいときでさえ適用され得るということに注目されたい。ユーザが 1人である場合は、プロセスは1人のユーザにとって関心のある記事を識別する ために与えられる方法に縮小する。ターゲットオブジェクトが1つである場合は 、プロセスはそのターゲットオブジェクトが関心のあるものであるユーザを識別 するための方法を構成する。 記事リストをユーザに提示する 一旦選択されたユーザまたはユーザのグループに対するプロファイル相関ステ ップが完了したら、ステップ1104において、プロファイル処理モジュール2 03は各ユーザに提示するための識別された記事のリストを格納する。ユーザの 要求に基づき、プロファイル処理システム203は生成された関連する記事のリ ストを取り出して、この選択された記事のタイトルのリストをユーザに提示する 。ユーザは次いで、ステップ1105において、任意の記事を閲覧するために選 択し得る。(タイトルが入手できない場合、各記事の最初の文(複数の文)が使 用され得る。)記事タイトルのリストは、記事のターゲットプロファイルの、ユ ーザの検索プロファイルセットにおける最も類似する検索プロファイルに対する 類似性の度合いに応じて分類される。結果として得られる分類されたリストは、 ユーザが自分のクライアントプロセッサC1にいる場合は、ユーザクライアント プロセッサC1にリアルタイムで送信されるか、またはユーザのクライアントプ ロセッサC1に常駐するユーザのメイルボックスに送信され得るか、あるいはユ ーザが後で取り出せるようにサーバS2内に格納される。送信のその他の方法は 、印刷されたリストのファクシミリ送信またはテキスト−音声変換システムによ る電話送信を含む。次いでユーザは、コンピュータ、ファクシミリまたは電話に よって要求を送信して、ユーザが閲覧を希望する識別された記事があれば、どれ か を指示し得る。ユーザは依然として、ユーザがアクセスを承認された任意の情報 サーバS4のすべての記事にアクセスし得るが、生成されたリストの下の方にあ る記事は、ユーザの検索プロファイルセットによって決定されるように、ユーザ の関心からかけ離れている。サーバS2はローカルデータ記憶媒体からまたは情 報サーバS4から記事を取り出し、記事をユーザのクライアントプロセッサC1に 1回に1スクリーンずつ提示する。ユーザはいつでも別の記事を読むために選択 し得るまたはプロセスを終了し得る。 どの記事が読まれるかをモニタリングする ステップ1107において、ユーザの検索プロファイルセット生成器202は 、ユーザがどの記事を読むかをモニタリングし、テキストの何ページがユーザに よって閲覧されるか、記事の閲覧にどのくらいの時間が費やされるか、および記 事の全ページが閲覧されたかを追跡する。この情報は組み合わされて、ユーザの 記事に対する関心の深さを測定し得、前述のように、受動関連性フィードバック スコアを生み出し得る。正確な詳細は検索されている記事の長さおよび性質によ るが、典型的な式は、記事の魅力の測定=0.2(2ページ目がアクセスされる 場合)+0.2(全ページがアクセスされる場合)+0.2(記事に30秒を超 える時間が費やされた場合)+0.2(記事に1分を超える時間が費やされた場 合)+0.2(記事に費やされた分数がページ数の半分を上回る場合)であり得 る。 次いで計算された記事の魅力の測定は、ユーザの検索プロファイルセットを調 整し、これによりユーザの動的に変化する関心をより正確に反映するための重み 付け関数として使用され得る。 ユーザプロファイルを更新する ユーザの生成された検索プロファイルセットの更新は、同時係属中の米国特許 出願シリアルナンバー08/346,425に記載される方法を用いて、ステップ1108 において実行され得る。記事が読まれるとき、サーバS2はセットにおける各検 索プロファイルを、計算された記事の魅力の測定が高い近傍の記事のターゲット プロファイルの方向に若干移動させる。ユーザの検索プロファイルセットから属 性uikを有する検索プロファイルが、そして属性djk(今のところ正しいと仮 定する)を有する入手可能なJの記事のセットが与えられると(ここでIはユー ザの指標であり、jは記事の指標であり、kは属性の指標である)、ユーザIは Pの別個の記事のセットを選んで、選択された記事jについてd(uI,bj)の 合計を最小限に抑えることが予測される。ユーザの所望の属性Uikおよび記事の 属性djkは、TF/IDFなどの単語度数、ならびにおそらくは記事のソース、 リーディングレベル、および長さなどのその他の属性のいずれかの形であり、一 方d(uI,dj)は前述の類似性測定を用いるこれら2つの属性ベクトル(プロ ファイル)の間の距離である。ユーザが予測とは異なるPの記事のセットを選ぶ 場合、ユーザ検索プロファイルセット生成モジュールは、ユーザが選択した記事 をより正確に予測するために、uおよび/またはdの調整を試みるべきである。 具体的には、uIおよび/またはdjは、ユーザIが記事jを選択しないと予測さ れたのに実際は記事jを選択した場合には、類似性を向上させるために、そして ユーザIが記事jを選択すると予測されたのに選択しなかった場合には、おそら く類似性を減少させるためにも、移動されるべきである。好適な方法は、ユーザ Iは記事jを選択しないという誤った予測のそれぞれについて、uik’=uik− e(uikjk)の式を用いて、uを移動する方法である。 ここで、uIは、ターゲットプロファイルに最も近いユーザIの検索プロファ イルセットからの検索プロファイルとなるよう選択される。eが正である場合、 この調整は、アルゴリズムが閲覧者が選択した記事の予測に失敗した場合につい て、uIをdjに近付けることによって、ユーザIの検索プロファイルセットとユ ーザIが実際に選択する記事のターゲットプロファイルとの間の適合を向上させ る。eの大きさは、検索プロファイルを実質的に変更するためにいくつの例示的 記事を見なければならないかを決定する。eが大きすぎる場合、アルゴリズムは 不安定になるが、eが十分に小さい場合、アルゴリズムはuをその正しい値にす る。概して、eは記事の魅力の測定に比例すべきである。例えば、eは、ユーザ Iが記事jを読むのに長時間を費やす場合に比較的高くあるべきである。理論的 には、上記の式はまた、アルゴリズムがユーザが読まなかった記事を予測した場 合に、この場合はeを負にすることによって、適合を減少させるために使用し得 る。しかし、その場合、uが正しい方向に移動する保証はない。また、ユーザ Iの属性の重みwIは、類似するアルゴリズム、wik’=(wik−e|uik−dj k |)/Σk(wik−e|uik−djk|)を使用することによって、移動され得る 。これは、単語度数を他の属性と組み合わせている場合に特に重要である。前述 と同様、これはeが正である場合、アルゴリズムがユーザが読んだ記事の予測に 失敗した場合について、今度はユーザのターゲットプロファイルuIが記事のプ ロファイルdjと異なる特性の重みを減少させることによって、適合を向上させ る。再び、eの大きさは、最初に信じられていたものを置き換えるためにいくつ の例示的記事を見なければならないかを決定する。uを調整する手順とは異なり 、アルゴリズムがユーザが読まなかった記事を予測した場合について、eが負で ある場合、上記のアルゴリズムが適合を減少させるという事実もまた使用される 。式の分母は、改変された重みwI’を合計が1になるように再正規化すること によって、重みが時間と共にゼロまで縮小することを防止する。uおよびwはど ちらもアクセスされた記事のそれぞれについて調整され得る。eが本来必要とさ れるように小さいとき、アルゴリズムの2つの部分の間にはコンフリクトはない 。選択されたユーザの検索プロファイルセットは、ステップ1108において更 新される。 フィルタリング技術の更なる用途 ニュースクリッピングサービスは、ニュース記事(または広告および購入可能 物のクーポン)をオンライン上のユーザだけでなくオフラインのユーザにも配信 し得る。オフラインユーザは関連性フィードバックを提供する方法を持ち得ない が、オフラインユーザUのユーザプロファイルは、オンラインユーザのプロファ イルと類似し得る。これは、例えば、ユーザUはこれらの他のユーザに人口統計 学的に類似し、従って、特定のターゲットオブジェクトに対するユーザUの関心 のレベルは、前述の一般関心推定方法によって推定し得るからである。1つの用 途においては、ニュースクリッピングサービスは、ユーザUにとって関心のある ものと予測されるニュース記事(それぞれ、広告およびクーポン)のセットを選 択し、これによって印刷およびその他の方法によってユーザUに物理的に送られ 得るカスタム化新聞(それぞれ、広告/クーポン回状)の内容を決定する。概し て、ユーザUに送付される印刷された文書に含まれるターゲットオブジェクトは 、 ユーザのグループGの間で最高の中央値の予測された関心を有するものであり、 ここでグループGは、1人のオフラインユーザUか、ユーザUに人口統計学的に 類似するオフラインユーザのセットか、または同じ地域、従って同じ新聞配達ル ート上にいるオフラインユーザのセットかのいずれかから構成される。変形にお いては、ユーザグループGはいくつかの下位グループG1...Gkにクラスタ 化される。平均ユーザプロファイルPiが各下位グループGiから作成される。 各記事Tおよび各ユーザプロファイルPiについて、ユーザプロファイルPiを 有する仮定ユーザのTに対する関心が予測され、グループGにとっての記事Tの 関心は、これらのk(人)の仮定ユーザのうちの任意のユーザの記事Tに対する 最大の関心とされる。最後に、ユーザグループGに対するカスタム化新聞が、グ ループGにとって最も関心の大きい記事から構成される。 ニュースクリッピングサービスのフィルタリング技術は、1つのソースによっ て提供されるニュース記事に限定されず、任意の数のソースから収集された記事 またはターゲットオブジェクトに拡張し得る。例えば、関心のある新しいニュー ス記事を識別するよりも、この技術は、関心のある新しいまたは更新されたワー ルドワイドウェブのページを識別し得る。個別のユーザがメッセージをすべての 関心のあるユーザに同報通信することを所望する、「同報通信クリッピング」と 名付けられる第2の用途においては、ニュース記事のプールが同報通信されるメ ッセージのプールに置き換えられ、これらのメッセージはそれらに最も関心のあ る同報通信クリッピングサービス加入者に送られる。第3の用途においては、シ ステムは現在進行中で、かつ公用と指定される、ネットワーク上のリアルタイム で話されるまたは書かれる討論のすべての写本をスキャンし、ニュースクリッピ ング技術を用いてユーザが参加に関心を持ち得る討論を迅速に識別したり、また は進行中の討論への参加に関心を持ち得るユーザを迅速に識別して通知する。第 4の用途においては、この方法は、従来のデータベース検索(例えば、所定の地 域における、200,000ドル未満で売られるすべての家、Marcia Clarkに関するす べての1994年のニュース記事、またはすべてのイタリア語の映画の検索)に よって発見された多くのターゲットオブジェクトをフィルタリングし、関心の順 序にランク付けする後のプロセスとして使用される。第5の用途においては、こ の方法は、ハイパーテキスト文書におけるリンクを、ユーザのその文書または各 リンクに関連するその他のオブジェクトに対する関心を推定することによってフ ィルタリングおよびランク付けするために使用される。第6の用途においては、 企業または個人であり得る支払いをする広告者は、ニュースクリッピングサービ スにおけるニュース記事に代わる広告またはその他のメッセージのソースである 。商品を購入する消費者は、その商品の広告について肯定的な関連性フィードバ ックを提供したとみなされ、明らかに特定の広告のために(例えば、その広告か ら切り取られたクーポンを使用することによって)商品を購入する消費者は、そ の広告に関して特に高い関連性フィードバックを提供したとみなされる。このよ うなフィードバックは、消費者のクライアントプロセッサ(消費者が購入を電子 的に行っている場合)、小売業者、または消費者が購入物の支払いに使用する( 売り主の施設における)クレジットカード読み取り器によって、代理サーバに通 信され得る。このような関連性フィードバックのデータベースが与えられると、 次いで開示される技術を使用して、広告をそれに最も関心のあるユーザと適合さ せる。ユーザのために選択された広告は、電子メール、ユーザのスクリーン上に おける自動表示、または消費者が購入物の支払いを行っている小売施設における プリンタでの印刷を含むいくつかの手段の任意の1つによって、そのユーザに提 示される。関心を識別するために使用される閾距離を特定の広告について増加し て、システムに、広告者が支払う意志のある額に応じて、より多くのユーザにそ の広告を提示させ得る。 本システムの能力の更なる使用法は、ユーザの投資ポートフォリオの管理であ る。ユーザに記事を推薦する代わりに、システムは投資であるターゲットオブジ エクトを推薦する。上で株式市場投資の例で示したように、多くの異なる属性を 共に使用して各投資をプロファイルし得る。ユーザの過去の投資行動がユーザの 検索プロファイルセットまたはターゲットプロファイル関心サマリにおいて特徴 付けられ、この情報を使用してユーザを過去の投資と性質が類似する株の機会( ターゲットオブジェクト)と適合させる。前述の迅速なプロファイル方法を使用 して、新しいユーザのために好みのおおざっぱなセットを決定し得る。本システ ムで使用される品質属性は、その投資によって過去に支払われた配当金の変動 の測定値、投資収入の定期的な流れに依存する保守的な投資家にとっては著しく 負の重みを有する品質属性などの負に重み付けされた属性を含み得る。さらに、 ユーザは、システムが株価をモニタリングして自動的に一定の行動を取り得る( 例えば、一定の株の動きの特徴が合えば、購入または売却注文をする、またはユ ーザに通知をe−メールあるいはページングする)ように、フィルタパラメータ を設定し得る。従って、システムは、選択された株が所定の価格に達したら、直 ちにユーザに通知し得、ユーザは株式市場の活動をモニタリングする必要はない 。ユーザの投資は、(その他の属性と共に使用される)「投資のタイプ」属性に よって部分的にプロファイルされ得る。この属性は、債券、投資信託、成長株、 収益株などを区別し、これによってユーザのポートフォリオを投資タイプによっ て区分分けする。次いで各投資タイプは投資機会を識別するために管理され得、 ユーザは各タイプについて投資資本の所望の率を識別し得る。 e−メールフィルタ 前述のニュースクリッピングサービスに加えて、所望のオブジェクトのカスタ ム化電子識別システムは、類似するが若干異なる様式で、e\_メール環境にお いて機能する。ニュースクリッピングサービスは、ニュースクリッピングサービ スが選択して取り出さなければ加入者に到達しないであろう情報を選択し、取り 出す。しかし同時に、多数のe−メールメッセージが実際、人間または自動プロ グラムによって生成されて送られ、ユーザに届く。これらのユーザは受け取られ たメッセージを自動的に処理するe−メールフィルタを必要とする。必要な処理 は、各メッセージに対して取るべき行動(メッセージのファイリング、優先度の 高いメッセージの受信のユーザへの通知、メッセージに対する自動的応答を含む が、これに限定はされない)の決定を含む。e−メールフィルタシステムは、ユ ーザの側に、学習および使用するために大きすぎる投資を要求するものであって はならず、ユーザはシステムが自動的に取る行動の適切性を信頼しなければなら ない。同じフィルタは、自動的にまたはユーザの要求に基づいて、音声認識また は光学文字認識の周知の技術を使用して、電子的に格納されるテキストに変換さ れた音声メールメッセージまたはファクシミリメッセージに適用され得る。 フィルタリングの問題は以下のように定義され得る、すなわち、メッセージ処 理関数MPF(*)は受け取られたメッセージ(文書)から行動の1つ以上のセ ットにマップする。非常に特殊であり得る行動は、ユーザrによって事前に定義 されるか、またはカスタム化され得る。各行動Aは適切性関数FA**)を有 し、これによりFA(U,D)は、ユーザUがメッセージDを受け取るときに、 ユーザUに代わって行動Aを選択することの適切性を表す実数を返す。例えば、 Dが信頼できるソースから来るものであり、至急とマーク付けられている場合、 そのメッセージを破棄することはユーザにとって大きな損害であり、適切性は低 く、このためFdiscard(U,D)は小さい一方、メッセージの受信にユーザの 注意を引くことは非常に適切であり、このためFalert(U,D)は大きい。決 定された適切性関数を与えられると、関数MPF(D)が使用され、適切な行動 または複数の行動が自動的に選択される。例として、以下の行動のセットが有用 であり得る。 1.ユーザにメッセージの受信を至急通知する。 2.メッセージを、ユーザが後で読むために待ち行列に挿入する。 3.メッセージを、ユーザが後で読むために待ち行列に挿入し、ユーザに応答 を提案する。 4.メッセージを、ユーザが後で読むために待ち行列に挿入し、ユーザにその メッセージを個人Rに転送することを提案する。 5.メッセージを要約し、要約を待ち行列に挿入する。 6.メッセージをユーザの秘書に転送する。 7.メッセージをディレクトリXにファイルする。 8.メッセージをディレクトリYにファイルする。 9.メッセージを削除する(すなわち、メッセージを無視し、セーブしない) 。 10.送信者に本題に関する更なるメッセージは不要であることを通知する。 上記のサンプルリストの行動8および9は、ユーザにとって望ましくないメッ セージ、または望ましくないソース(例えば、厄介なセールスマン)から受け取 られるメッセージを、不要なメッセージを削除することによって、および/また はこの種のメッセージは読まれないことを示す応答を送ることによって、フィル タリングして除外するよう設計されていることに注目されたい。適切性関数は、 特定の文書のターゲットプロファイルが与えられると、各行動の実行の適切性を 記述するよう適応されなければならず、次いで適切性関数に対してある意味で最 適であるメッセージ処理関数MPFが発見され得る。MPFの1つの妥当な選択 は、適切性の最も高い行動を常に選択し、複数の行動が非常に適切であり、かつ また互いに矛盾しない場合は、1つを超える行動を選択する。例えば、メッセー ジに自動的に応答し、かつまた同じメッセージをディレクトリXにファイルし、 この結果MPF(D)の値は、\{応答,ディレクトリXにファイル\}という セットである。見慣れないタイプのメッセージに関してそうあるべきであるが、 最も適切な行動さえ、適切性がユーザが指定した閾値を下回る場合は、システム はMPFによって選択される行動(複数の行動)の確認をユーザに求める。さら に、MPFが、ある行動をほぼ同じくらい適切である別の行動に優先させて選択 する場合、システムはまた、ユーザに確認を求める。例えば、メールは、ユーザ に見せることがほぼ同じくらい適切であれば、削除されるべきではない。 適切性関数を人手によって書くことは可能であるが、必要な時間およびユーザ の専門知識の欠如により、この解決法は非実用的である。前述の自動ユーザプロ ファイリングシステムを使用した本システムの自動訓練が好適である。受け取ら れた文書はそれぞれ、プロファイルが、文書の全テキスト(TF/IDFスコア として表される)、文書の送信者、送られた日付、文書の長さ、この送信者から 最後に受け取られた文書の日付、キーワード、その他のアドレスのリストなどの 属性を含むターゲットオブジェクトとしてみなされる。プロファイルされたター ゲットオブジェタトに関する関心関数を、関連性フィードバックとターゲットオ ブジェクト間ならびにユーザ間で測定された類似性とを併用して推定する方法は 前述した。e−メールフィルタのコンテクストにおいては、タスクはいくつかの 適切性関数FA**)を、1つの行動につき1つ推定することである。これは 、先に使用されたトピック別関心関数f(**)を推定する方法と全く同じ方法 で取り扱われる。この場合の関連性フィードバックは、時間をかけて観察された ユーザの行動によって提供される。すなわち、ユーザUが、自由にまたはシステ ムによって推薦された行動を選択あるいは確認することによって、文書Dについ て行動Aを選択するときは必ず、特に、ユーザが文書Dを見た後直ちにこの行動 Aを取る場合は、文書Dについての行動Aの適切性は高いことを意味すると解釈 される。適切性がないという推定(関心がないという先の推定に対応する)は、 行動Aがある文書について、ユーザまたは類似するユーザがこの文書または類似 する文書に対して行動Aを取ったことがない限り、不適切であると考えられるよ うに使用される。具体的には、類似する文書が見られたことがない場合、どの行 動も特に適切であるとは見なされず、e−メールフィルタはユーザに、適切な行 動を指定するように、あるいはe−メールフィルタによって選択された行動が適 切なものであることを確認するように要求する。 このように、e−メールフィルタは、一定の属性または属性の組み合わせを有 するe−メールメッセージに対して特定の行動を取るよう学習する。例えば、( 212)領域コードに源を発するJohn Doeからのメッセージは、システムを促し て、コピーを所定のファックス番号にファックス送信によって転送させ得るか、 あるいはメッセージをユーザのクライアントプロセッサのディレクトリXにファ イルさせ得る。ある変形では、ユーザからのこの形態のアクティブな要求、例え ば、John Doeからのメッセージはいずれも、追って通知があるまで所望のファッ クス番号に転送するという要求が可能である。このアクティブなユーザ入力は、 自然言語または特定のコマンドが特定の属性および属性の組み合わせに関連付け られる形式ベースのインタフェースの使用を必要とする。 更新の通知 アーキテクチャの非常に重要かつ新規な特徴は、ユーザの検索プロファイルセ ットまたはターゲットプロファイル関心サマリによって決定されるように、ユー ザに関連する新しいあるいは更新されたターゲットオブジェクトを識別する能力 である。(「更新されたターゲットオブジェクト」は、文書の修正されたバージ ョンおよび購入可能な商品の新モデルを含む。)システムは、e−メールメッセ ージまたはファクシミリ送信などの電子的な通知によって、これらの関連ターゲ ットオブジェクトをユーザに通知し得る。システムがe−メールメッセージを送 る変形においては、ユーザのe−メールフィルタは、例えば、通知を直ちにユー ザの目に留めさせることによって、または通知に指名されるターゲットオブジェ クトを購入する電子要求を自動的に提出することによって、その通知に適切に応 答し得る。後者の応答の簡単な例は、e−メールフィルタによる、名目のまたは ゼロの料金でのオンライン文書の取り出し、または中古商品あるいは競売可能物 などの限られた量の購入可能物の購入要求である。 アクティブナビゲーション(ブラウジング) クラスタツリーのナピゲーションによるブラウジング 階層クラスタツリーはターゲットオブジェクトの収集物に有用な構成を与える 。ツリーは、そのツリー内のすべてのターゲットオブジェクトのブラウジングを 希望するユーザにとって直接役に立つ。このようなユーザは、はっきりと特定し た目標を持ってあるいは持たないで収集物を探索し得る。ツリーはターゲットオ ブジェクトを一貫したクラスタに分割するので、ユーザが関心のあるターゲット オブジェクトを見つけ得る効率的な方法が提供される。ユーザはまず、メニュー から最も高いレベルの(最大の)クラスタのうちの1つを選択し、このクラスタ の下位クラスタをリストするメニューが提示され、これに基づいてユーザはこれ らの下位クラスタの1つを選択し得る。システムはより大きなクラスタと共に格 納された適切なポインタによって下位クラスタを見つけ、ユーザが別のメニュー からその下位クラスタの1つを選択することを許す。このプロセスは、ユーザが ツリーのリーフに来るまで繰り返され、これにより実際のターゲットオブジェク トの詳細がもたらされる。階層ツリーにより、大きなセットからの1つのターゲ ットオブジェクトの迅速な選択が可能になる。それぞれ10項目(下位クラスタ )からなるメニューからの10メニューの選択においては、1010=10,00 0,000,000(100億)項目に到達し得る。好適な実施形態においては 、ユーザはコンピュータスクリーンまたは端末スクリーン上でメニューを閲覧し 、キーボードまたはマウスを使用してそれらから選択を行う。しかし、ユーザは また、メニューを読む音声合成器を用いて、そしてユーザが電話のプッシュホン 式のキーパッドにより下位クラスタを選択して、電話上で選択を行い得る。別の 変形においては、ユーザはサーバへの2つの接続、すなわち電話音声接続および ファックス接続を同時に保守する。サーバはファックスによってユーザに連続的 にメニューを送り、一方、ユーザは電話のプッシュホン式のキーパッドにより選 択を行う。 ユーザプロファイルが一般的に、ユーザの各ターゲットオブジェクトに対する 関心の度合いを示す連想属性を含むのと全く同様に、ユーザプロファイルを、階 層クラスタツリー内の各クラスタに対するユーザの関心の度合いを示す付加的連 想属性で増強することが有用である。この関心の度合いは、ユーザが選択した下 位クラスタまたはターゲットオブジェクトの合計数の割合として表される、所定 のクラスタまたはその下位クラスタに関連するメニューからユーザが選択した下 位クラスタまたはターゲットオブジェクトの数として数値的に推定され得る。こ の連想属性は、下位クラスタあるいはターゲットオブジェクトが複数のクラスタ で現れることを可能にする「ソフト」または「ファジー」クラスタ化を用いて階 層ツリーが構築された場合に、特に貴重である。ターゲット文書が「スポーツ」 および「ユーモア」クラスタの双方に現れ、ユーザがそれを「ユーモア」クラス タに関連するメニューから選択する場合、システムはユーザと「ユーモア」クラ スタとの間の連想を増加させるが、ユーザと「スポーツ」クラスタとの間の連想 は増加させない。 クラスタのラベル付け クラスタツリーをナビゲートしているユーザはメニューからいくつかの下位ク ラスタのうちの1つを選択することが繰り返し期待されるので、これらの下位ク ラスタは、その内容を人間であるユーザに示すように(ステップ503において )有用にラベル付けされなければならない。ラベルには各下位クラスタに関する いくらかの基本的な情報(例えば、その下位クラスタが含むターゲットオブジェ クトの数(おそらくは1つのみ)および最近追加または更新されたターゲットオ ブジェクトの数)を含ませるのが明快である。しかし、クラスタの内容を示す付 加的情報を表示することもまた必要である。この内容記述情報は、特に大きなま たは頻繁にアクセスされるクラスタについては、人間によって提供され得るが、 自動的にもまた生成され得る。基本的な自動技術は、少数の高く重み付けられた 属性のそれぞれに対して、クラスタの「特性値」を表示するだけである。数値属 性の場合は、これは、その属性に対するクラスタの平均値を意味すると解釈し得 る。従って、「封切りの年」という属性が、ユーザがどの映画を好むかの予測に おいて高く重み付けられる場合、各クラスタのラベルの一部として封切りの平均 年を表示するのが有用である。従って、ユーザは、あるクラスタが1962年頃 に封切られた映画から構成され、一方別のクラスタは1982年頃の映画から構 成されるということがわかる。「映画のタイトル」または「文書のタイトル」な どの短いテキスト属性については、システムは、プロファイルがクラスタのプロ ファイル(クラスタのすべてのメンバの平均プロファイル)に最も類似するクラ スタメンバ(ターゲットオブジェクト)の属性値(例えば、クラスタにおける最 も典型的な映画のタイトル)を表示し得る。より長いテキスト属性については、 クラスタのメンバの用語の平均TF/IDFスコアが、すべてのターゲットオブ ジェクトの用語の平均TF/IDFスコアを超える量が最大である用語を、絶対 用語でまたはそうでなければ全ターゲットオブジェクトの用語のTF/IDFス コアの標準偏差の小数部として選択するのが有用な技術である。選択された用語 は、それらの形態論的語幹で置き換えられ、重複を排除し(従って、“slept” と“sleeping”の両方が選択された場合、それらは1つの用語“sleep”で置き 換えられる)、近い類義語または同位置語(collocates)を任意に排除する(従 って、“nurse”と“medical”の両方が選択された場合、それらは両方とも、“ nurse”、“medical”、“medicine”または“hospital”などの1つの用語で置 き換えられ得る)。結果として得られる用語のセットは、ラベルの一部として表 示される。最後に、自由に再配信できる小さな写真またはその他のグラフィック 画像が、ラベル付けのためにクラスタ内のターゲットオブジェクトのいくつかと 関連付けられる場合、システムはラベルの一部として、関連するターゲットオブ ジェクトがクラスタプロファイルに最も類似するターゲットプロファイルを有す る画像のまたは複数の画像を表示し得る。 ユーザのナビゲーションパターンは、ラベルの質に関する何らかの有用なフィ ードバックを提供し得る。具体的には、ユーザが特定のクラスタの探索をしばし ば選択するが、素早く後戻りして異なるクラスタを試す場合、これは第1のクラ スタのラベルが誤解を招くものであるという信号であり得る。その他の用語およ び属性が、第1のクラスタのための「次に最良である」代替ラベルを提供し得る 限り、このような「次に最良である」ラベルは自動的に誤解を招くラベルと置き 換えられ得る。さらに、いずれのユーザも自分の都合に合わせてローカルにクラ スタを再ラベル付けし得る。ユーザによって提供されるクラスタラベルは、概し てそのユーザにのみ可視であるが、これらのラベルを、ターゲットオブジェクト の「ユーザラベル」テキスト属性によって、広域使用することが可能である。こ の属性は、所定のターゲットオブジェクトについて、そのターゲットオブジェク トを含む任意のクラスタに任意のユーザによって提供されるすべてのラベルの連 結であると定義される。この属性は類似性判断に影響を与える。例えば、ユーザ によって「スポーツニュース」とラベル付けされることが多いクラスタのターゲ ット記事を、ユーザによって「国際ニュース」とラベル付けされることが多い、 その他の点では類似していないクラスタの記事に若干類似するとシステムに見な させ得る。これはまさに、各クラスタプロファイルの「ユーザラベル」属性は「 ニュース」という用語に強く関連付けられているからである。「ユーザラベル」 属性はまた、その他のテキスト属性と全く同様に、ラベルの自動生成において使 用され、その結果、ユーザが生成したクラスタのラベルがしばしば「スポーツ」 を含む場合、「スポーツ」という用語は自動的に生成されるラベルにも含まれ得 る。 メニューはラベル付けされたオプションの単純なリストとして表示される必要 はない。メニューを、異なるメニューオプションの互いの関係をより詳しく示す 形で表示または印刷することが可能である。従って、ある変形においては、メニ ューオプションは二次元でまたは三次元の遠近法によった図で視覚的にレイアウ トされる。各オプションはテキストまたはグラフィックラベルとして表示または 印刷される。オプションが表示または印刷される物理座標は以下の順序のステッ プによって生成される。(1)各オプションについて、それが表すクラスタのク ラスタプロファイルを構築する、(2)各クラスタプロファイルから、前述のよ うに数値ベクトルへの分解を構築する、(3)特異値分解(SVD)を適用して 、これらの数値ベクトルが最も大きく差別化される2つまたは3つの直交線形軸 (orthogonal linear axes)のセットを決定する、そして(4)各オプションの 座標を、この軸に沿ったそのオプションの数値ベクトルの投影された座標とする 。ステップ(3)は、例えば6つの軸のセットを決定して、これによりステップ (4)がオプションを六次元空間でレイアウトするように変形され得る。この場 合、ユーザは、原点を通る任意の平面への六次元のレイアウトの幾何学的投影を 観察し得、またオプションの異なる構成を見るためにこの観察平面を回転させ得 る。これは関連するクラスタのプロファイルの異なる属性に関する類似性を強調 する。視覚表現において、クラスタラベルの大きさは対応するクラスタに含まれ るオブジェクトの数に応じて変更され得る。更なる変更においては、親メニュー からの全オプションは、すぐ前で説明したように、ある数の次元で表示されるが 、現在のメニューに対応するオプションは、現在のメニュー上のオプションのよ り顕著な下位表示によって置き換えられる。任意に、この複合表示の規模は経時 的に徐々に増加され得、これにより現在のメニュー上のオプションの表示に当て られるスクリーンの面積が増加され、ユーザが親クラスタを注視していて、現在 のクラスタおよびその下位クラスタを「ズームイン(zooming in)」していると いう視覚的印象が与えられる。 更なるナビゲーション 階層クラスタツリーは、複数のクラスタ選択が各ノードから分岐するように、 または同じラベル付けされたクラスタが階層に順序付けられた複数のノードのた めの1つのブランチ(single branches)の形態で提示されるように構成され得 るということが理解されるべきである。1つの変形においては、ユーザは、シス テムにクラスタプロファイルが現在選択されるクラスタのクラスタプロファイル と類似するクラスタの検索を要求することによって、隣接するクラスタの間の横 方向のナビゲーションをも実行することができる。このタイプのナビゲーション が個別のオブジェクト(リーフの端部)のレベルで実行される場合、自動ハイパ ーリンクがナビゲーションが起こる際に形成され得る。これは最も近い隣接クラ スタ化ナビゲーションが実行され得る1つの方法である。例えば、ターゲットオ ブジェクトがワールドワイドウェブのホームページである領域においては、この ようなページの収集物は横方向にリンクされて、「仮想モール(virtual mall) 」を形成し得る。 前述の自動メニューシステムを使用する最も単純な方法は、ユーザがツリーの 最上部でブラウジングを開始し、より特殊な下位クラスタへと移動することであ る。しかし、ある変形においては、ユーザは任意に、テキストおよび/またはそ の他の属性から構成される照会を提供し、この照会からシステムは、ここに記載 する様式でプロファイルを構築し、任意にテキスト属性を、数値属性に分解する 前に、ここに記載するように変更する。照会プロファイルは、その属性がユーザ によって、非常に頻繁には一度だけの使用のために、明確に指定されるというこ とを除いて、ユーザの検索プロファイルセットの検索プロファイルに類似し、検 索プロファイルとは異なり、照会プロファイルは変化する関心を反映するように 自動的に更新されない。テキスト記事の領域における典型的な照会は、「記事の テキスト」の属性の値として「ガリレオとメディチ家との間の関係について教え よ」を、そして「リーディングの困難さ」の属性の値として8(すなわち、8番 目のグレードレベル)を有し得る。システムは前述の「ターゲットオブジェクト を検索する」のセクションの方法を用いて、照会プロファイルに類似するプロフ ァイルを有する1つ以上のクラスタの小さなセットを自動的に見つけ、例えば、 それらが含む記事はおおよそ8番目のグレードレベルで書かれており、ガリレオ およびメディチ家に言及する傾向にある。ユーザはこれらのクラスタの任意のク ラスタでブラウジングを開始し得、それから下位クラスタ、上位クラスタおよび その他の近傍のクラスタへと移動し得る。特別な何かを探しているユーザにとっ ては、最大のクラスタで開始してより小さな下位クラスタを繰り返し選択するの は、探しているものの簡単な説明を書き、次いで、最初に推薦されたオブジェク トが正確には所望されるものではない場合に近傍のクラスタに移動するよりも概 して効率が悪い。 情報取り出しシステムにおいては、照会を文書と適合させることは通例である が、照会が既に回答された質問に適合される興味深い変形が可能である。関連す る領域は、質問が頻繁に回答されるカスタマーサービスセンター、電子ニュース グループ、またはベタービジネスビュロー(Better Business Bureau)である。 新しい質問一回答の対のそれぞれは、質問を提供された回答と共に指定するテキ スト属性と共に、ターゲットオブジェクトとして将来の参照のために記録される 。文書タイトルに関して先に説明したように、このテキスト属性がTF/IDF スコアに分解されるときは、質問は回答より重く重み付けされるべきである。従 って、この属性の値としての「ガリレオとメディチ家との間の関係について教え よ」を指定する照会は、類似する質問とその回答のクラスタを見つける。ある変 形においては、各質問一回答の対は、2つの別個のテキスト属性、すなわち質問 に対して1つ、そして回答に対して1つでプロファイルされ得る。このとき照会 は、質問属性のみを、または完璧さのために、質問属性および(より低く重み付 けられた)回答属性の両方を「ガリレオとメディチ家との間の関係について教え よ」のテキストとして指定することによって、クラスタを見つけ得る。 前述のフィルタリング技術はまた、ユーザのターゲットオブジェクト間のナビ ゲーションを助け得る。システムがユーザにターゲットオブジェクトのクラスタ Cの下位クラスタのメニューを提示するとき、システムは同時にクラスタCにお いて最も関心があるターゲットオブジェクトの付加的メニューを提示し得、その 結果、ユーザは下位クラスタへのアクセスまたはターゲットオブジェクトの1つ への直接的なアクセスの選択を有する。この付加的メニューがn(個)のターゲ ットオブジェクトをリストする場合、昇順の1からnの間の(1およびnを含む )各Iについて、この付加的メニューでI番目に最も顕著なTop(C,i)と 示される選択肢は、Top(C,1)、Top(C,2)、...Top(C, I−1)のすべてから閾距離tよりも遠い、クラスタC内のすべてのターゲット オブジェクトを考慮し、そしてユーザの関心が最も高いと推定されるものを選択 することによって発見される。閾距離tが0である場合、この手順から得られる メニューは、単純にクラスタC内のn(個)の最も関心があるオブジェクトを表 示するが、閾距離を増加させて、表示されるターゲットオブジェクトのより多く の種類を達成し得る。概して、閾距離tはクラスタCのクラスタ変数あるいはク ラスタ直径のアフィン関数またはその他の関数となるよう選択される。 新規な特徴として、ユーザUは別のユーザV(例えば、著名な知識人または有 名なスーパーモデル)を「装い」得る。ユーザUがユーザVを装っている限り、 フィルタリング技術は、ユーザUの好みによってではなく、むしろユーザVの好 みによって記事を推薦する。ユーザUがユーザVのユーザ特定データへのアクセ スを有する限り(例えば、ユーザVが財務上の考慮のためにこれらのデータをユ ーザUに貸したという理由により)、ユーザUはユーザUの代理サーバSに、一 時的にユーザVのユーザプロファイルおよびターゲットプロファイル関心サマリ をユーザUのユーザプロファイルおよびターゲットプロファイル関心サマリの代 わりに用いるよう命令することによって、ユーザVを装い得る。ある変形におい ては、ユーザUは平均ユーザプロファイルおよびユーザのグループGの複合ター ゲットプロファイル関心サマリへのアクセスを有する。代理サーバSにこれらを ユーザUのユーザ特定データの代わりに用いるよう命令することにより、ユーザ UはグループGの典型的なメンバーを装い得、これは社会学的、政治学的、また は市場調査のためにグループの好みを調べる際に有用である。より一般的には、 ユーザUは、代理サーバSにユーザUのユーザ特定データをユーザUのユーザ特 定データおよびユーザVならびにグループGのユーザ特定データの重み付けされ た平均で一時的に置き換えるよう命令することによって、別のユーザVまたはグ ループGを「部分的に装い」得る。 メニュー編成 階層クラスタツリーの接続形態はそのツリーを構築する技術によって固定され るが、ユーザのナビゲーション用にユーザに提示される階層メニューはクラスタ ツリーと正確に同型である必要はない。メニューは典型的には人手によってまた は自動的に再編成された、クラスタツリーを若干改変したバージョンであり、こ れによりユーザは、ユーザにとって最も関心があるクラスタに容易にアクセスで きる。メニューをユーザ特定の方法で自動的に再編成するために、システムはま ず、ユーザにとって関心のある既存のクラスタを識別しようと自動的に試みる。 システムはあるクラスタを関心があると識別し得るが、これは、ユーザがしばし ばそのクラスタのターゲットオブジェクトにアクセスするから、またはより高度 な変形においては、ここに開示する関連性フィードバックから関心を推定する方 法を用いて、ユーザがクラスタのプロファイルに高い関心を有すると予測される からである。 次いで、いくつかの技術を使用して、関心があるクラスタをより容易にアクセ ス可能にし得る。システムはユーザの要求に基づき、またはいつでも、最も関心 があるクラスタあるいは現在のクラスタの最も関心がある下位クラスタの特別な リストを表示し得、これによってユーザはこれらのクラスタのうちの1つをその ラベルに基づいて選択し得、それに直接ジャンプし得る。概して、システムがこ のようにして関心があるクラスタのリストを構築するときは、リストのI番目に 最も顕著なTop(I)と示される選択肢は、Top(1)、Top(2)、. ..Top(I−1)のすべてから閾距離tよりも遠い、すべての適切なクラス タCを考慮し、そしてユーザの関心が最も高いと推定されるものを選択すること によって発見される。ここで、閾距離tは任意に、後者のクラスタのプロファイ ルの、計算されたクラスタ変数またはクラスタ直径に依存する。階層メニューツ リーを再編成するいくつかの技術がまた有用である。まず、メニューは、最も関 心がある下位クラスタ選択肢が最も早くメニューに現れるように、または視覚的 に関心があるとマークされるように再編成され得る。例えば、それらのラベルは 、特別な色または書体で表示されるか、あるいは関心のおそらくのレベルを示す 数字またはグラフィック画像と共に表示される。第2に、関心があるクラスタは ツリーのより高いところにあるメニューに、すなわち、ツリーのルートのより近 くに移動され得、これによりユーザがツリーのルートでブラウジングを開始する 場合、それらへのアクセスはより簡単になる。第3に、関心のないクラスタはツ リーのより低いところにあるメニューに移動され、より高いところに移動されて いる関心があるクラスタのための空間が作られ得る。第4に、(積極的な嫌悪を 表す)特に低い関心スコアを有するクラスタは、単にメニューから抑制され得る 。従って、子供を持つユーザはqの決定に際し「俗悪」という属性に著しい負の 重みを割り当て得、これにより俗悪なクラスタおよび文書は全く入手できなくな る。関心があるクラスタおよびそれらにおける文書がツリーの最上部に向かって 移動するにつれて、特定のユーザによってより効率的にナビゲートされ得るカス タム化ツリーが発生する。メニューが選択されて、これにより各メニュー項目が ほぼ均等な確率で選択される場合、ユーザが行わなければならない選択の期待数 は最小限に抑えられる。例えば、ユーザが、プロファイルが図8におけるクラス タ(a,b,d)のクラスタプロファイルに類似するターゲットオブジェクトに 頻繁にアクセスする場合、図9におけるメニューは図10に示す構造を示すよう に改変され得る。 関連性フィードバックからユーザの関心を推定する、ここに開示する一般的な 技術を使用して関心があるクラスタを識別する変形においては、ユーザUは「一 時的関連性フィードバック」を提供して、自分の通常の関心に追加される一時的 な関心を示すことができる。これは前述のように、照会、すなわちそのときのユ ーザの関心にぴったりと適合するテキストおよびその他の属性のセットを入力す ることによって行われる。この照会は「アクティブ」になり、2つの方法のうち のどちらかでシステムの関心の決定に影響を与える。1つのアプローチにおいて は、アクティブな照会はあたかも任意のその他のターゲットオブジェクトである かのように扱われ、照会であることによって、特に高い関心を示す関連性フィー ドバックを受け取ったと解釈される。代替のアプローチにおいては、ターゲット プロファイルがアクティブな照会のプロファイルに類似するターゲットオブジェ クトXは、q(U,X)がターゲットオブジェクトXの照会プロファイルに対す る類似性と共に増加する項によって増分されるという点において、単により高い 質q(U,X)を有すると考えられる。どちらの方法も通常の関心推定値に影響 を与える、すなわちユーザUの通常の関心に適合する(かつ高品質q(*)を有 する)クラスタは依然として関心のあるものと見なされ、プロファイルがアクテ ィブな照会に類似するクラスタは特に高い関心を有すると判断される。照会およ びユーザの通常の関心の両方に類似するクラスタはすべてのうちで最も関心が高 い。ユーザはブラウジングの間の任意のときにアクティブな照会を改変または非 活動化し得る。さらに、ユーザがブラウジング中に特に関心のあるターゲットオ ブジェクトまたはクラスタXを発見する場合、ユーザは元の(おそらくは漠然と した)照会プロファイルを、ターゲットオブジェクトまたはクラスタXのターゲ ットプロファイルで置き換えまたは増強し得、これによって元の照会を拡大また はより正確にして、Xに類似するオブジェクトに対する特別な関心を示す。例え ば、ユーザが文書をブラウジングしていて、“Lloyd's”という単語を含む最初 の照会を指定し、これによってシステムが“Lloyd's”という単語を含む文書が より関心が高いと予測し、前述のようにこのような文書またはこのような文書の クラスタをリストするという点にまで、それらをより簡単にアクセスできるよう にすると仮定する。具体的には、“Lloyd's of London”という句を含む保険に 関する一定の記事がより簡単にアクセスできるようにされ、“Lloyd's father” のような句を含むウェールズの小説の一定の断片もまたより簡単にアクセスでき るようにされる。ユーザはこの照会がアクティブである間ブラウジングし、Lloy d's of Londonのその他の英国の保険会社との関係を説明する有用な記事に当た る。照会をこの記事の全テキストで置き換えるまたは増強することにより、ユー ザはシステムの注意をこの記事に類似するその他の文書(例えば、ウェールズの 民話よりもむしろ英国の保険会社に関する文書)に向けさせ得る。 照会が使用されるシステムにおいては、ターゲットオブジェクトと、そのター ゲットオブジェクトを見つけるために使用される照会において用いられる用語が どんなものであれ、その用語との間の連想を記録する連想属性をターゲットプロ ファイルに含めることが有用である。ターゲットオブジェクトXの特定の照会用 語Tとの連想スコアは、用語Tを含む照会がアクティブであった間になされたタ ーゲットオブジェクトXのアクセスだけについて平均され、すべての照会におけ る用語Tの広域度数(global frequency)の否定対数(negated logarithm)を 掛けられた、ターゲットオブジェクトXに関する平均関連性フィードバックであ ると定義される。この連想属性の効果は、2つの文書の測定された類似性を、そ れらが同じ用語を含む照会に対する良好な応答である場合に増加させることであ る。更なる妙策を使用して、照会に対する応答の正確さを向上し得る。すなわち 、ターゲットオブジェクトXの質q(U,X)の決定に使用される合算には、タ ーゲットオブジェクトXとアクティブな照会における用語があればその用語のそ れぞれとの間の連想スコアの合計に比例する項が含まれ、これによりアクティブ な照会における用語と密接に関連するターゲットオブジェクトがより高い質、従 ってユーザにとってより高い関心を有すると決定される。システムの、階層クラ スタツリーの自動再編成を補足するために、ユーザは適宜ツリーを手で再編成す る能力を与えられ得る。いずれの変更も任意にユーザのローカル記憶装置にセー ブされ、これにより変更は将来のセッションにおけるツリーの提示に影響を与え る。例えば、ユーザはメニューオプションをその他のメニューに移動またはコピ ーすることを選択し得、これによりそれ以後は、有用なクラスタが、ツリーのル ートメニューから、またはその他の容易にアクセスされるあるいはトピック的に 適切なメニューから直接選択され得る。別の例においては、ユーザは特定のメニ ューMにリストされるクラスタC1c.,...Ckを選択し得、メニュー上でそ れ らをクラスタC1c.,...Ckからのすべてのターゲットオブジェクトを含む 1つの集合クラスタM’で置き換えてこれらのクラスタをメニューから除去する ことを選択し得る。この場合、新しいクラスタM’のすぐ下の下位クラスタはク ラスタC1c.,...Ck自体とされるか、またはそうでなければ、「分散−収 集」方法に類似する変形においては、クラスタC1,C2,...Ckのすべての 下位クラスタのセットを、これらの下位セットのクラスタプロファイルの類似性 に従ってクラスタ化することによって自動的に計算される。 電子モール 1つの用途においては、前述のブラウジング技術はターゲットオブジェクトが 購入可能な商品である領域に適用され得る。買い物客がインターネットまたはそ の他の電子媒体上で購入する商品を探すとき、典型的には、消費者が探している アイテムを見つける手助けとなる様式で、何千または何万の商品を表示する必要 がある。現行の慣習は、類似するアイテムがひとまとめにされる手細工で作られ るメニューおよび下位メニューの使用である。前述の自動化されたクラスタ化お よびブラウジング方法を使用してアイテムをより効果的にグループ化して提示す ることが可能である。購入可能アイテムは複数の異なる基準を使用して階層的に クラスタ化され得る。購入可能アイテムのための有用な属性は、テキスト記述お よび(入手可能な場合は)事前に定義された範疇ラベル、アイテムの単価、なら びにこのアイテムを過去に購入したユーザをリストする連想属性を含むが、これ に限定されない。このアイテムと同じ買い物「旅行」で他にどのアイテムがしば しば購入されるかを示す連想属性もまた有用である。同じ旅行でしばしば購入さ れるアイテムはこの属性に付いては類似すると判断され、従ってひとまとめにさ れる傾向にある。小売業者は、特定の顧客に人気がある可能性のあるアイテムの 性質および相対数量の両方を予測する目的で、類似技術を利用することに関心が あり得る。この予測は、集合購入記録を、ターゲットオブジェクトの収集物が推 薦される検索プロファイルセットとして使用することによって行われ得る。各タ ーゲットオブジェクトアイテムの(相対的な)在庫数量を示す推定顧客需要は、 (在庫がある)別のターゲットオブジェクトアイテムと比較されたそのアイテム のクラスタ変数を測定することによって決定される。 前述のように、購入可能なターゲットオブジェクトの階層的なクラスタ化は、 階層メニューシステムをもたらし、階層メニューシステムにおいては、各メニュ ーに現れるターゲットオブジェクトまたはターゲットオブジェクトのクラスタは 、名前あるいはアイコンによってラベル付けされ得、そして類似するアイテムが 互いに物理的に近くにまたは図形で表される同じ「棚」の上に表示される、二次 元または三次元のメニューで表示され得る。前述のように、このグループ化は特 定のアイテムのレベル(例えば、標準サイズのIvory石鹸または大きなBreckシャ ンプー)およびアイテムのクラスのレベル(例えば、石鹸およびシャンプー)の 両方で起こる。ユーザがアイテムのクラスを(例えば、その上でクリックするこ とによって)選択すると、より具体的なレベルの詳細が表示される。各アイテム を1つのグループに現れるように限定することは必要でも望ましくもない。オブ ジェクトが複数の範疇にある場合に顧客がそれを見つける可能性が高くなる。ア ートワーク、広告および無料サンプルなどの購入不可能なオブジェクトもまた、 表示される購入可能オブジェクトが関連するユーザと実質的に同じユーザに関連 する(好まれる)場合、購入可能ブジェクトの表示に付加され得る。 ブラウジングシステムのネットワークコンテクスト ターゲットオブジェクトに関連するファイルは、典型的には、多くの異なるサ ーバS1−SoおよびクライアントC1−Cnに分散する。各ファイルは、スキ ャニング、キーボート入力、e−メール、FTP送信、別のコンピュータプログ ラムの制御下の別のファイルからの自動合成を含むが、これに限定されないいく つかの方法のうちの任意の方法で、あるサーバまたはクライアントにおけるデー タ記憶媒体に入力されている。ユーザが効率的にターゲットオブジェクトを見つ けることを可能にするシステムは、1つの集中化された機械にその階層クラスタ ツリーを格納し得るが、階層クラスタツリーの記憶がネットワークの多くの機械 に分散された場合の方が、より高い効率が達成され得る。1メンバのクラスタ( ターゲットオブジェクト)を含む各クラスタCは、ファイルFによってデジタル 方式で表され、これはトピック別マルチキャストツリーMT(C1)にマルチキ ャストされる。ここで、クラスタC1は、クラスタC自体かクラスタCのある上 位クラスタかのどちらかである。このように、ファイルFは複数のサーバに冗 長性のために格納される。クラスタCを表すファイルFは、少なくとも以下のデ ータを含む。1.クラスタCのクラスタプロファイル、またはこのクラスタプロ ファイルを再構築するに足りるデータ。2.クラスタCに含まれるターゲットオ ブジェクトの数。3.「クラスタのラベル付け」セクションで前述するような、 クラスタCの人間が読み取り可能なラベル。4.クラスタが下位クラスタに分割 される場合、下位クラスタを表すファイルに対するポインタのリスト。各ポイン タは、第1にファイルの、第2にそのファイルが格納されるマルチキャストツリ ーまたは特定のサーバの指名を含む順序付けられた対である。5.クラスタが1 つのターゲットオブジェクトから構成される場合、そのターゲットオブジェクト に対応するファイルに対するポインタ。 クライアントの機械がマルチキャストツリーMT(C1)からファイルFを取 り出し得るプロセスは、「マルチキャストツリーからファイルを取り出す」のセ クションで前述した。クライアントは、一旦ファイルFを取り出したら、このク ラスタに関係する更なるタスク(例えば、下位クラスタのラベル付けされたメニ ューの表示)を実行し得る。このクラスタからユーザはクライアントが次に取り 出す下位クラスタを選択し得る。 この分散形実行の利点は3つの面を持つ。第1に、はるかに多くの検索および データの取り出しが同時に実行され得るので、システムはより大きなクラスタサ イズおよびより多くのターゲットオブジェクトに合わせて調整(scaled)され得 る。第2に、システムは、たとえシステムの一部分が一時的に利用不可能であっ ても、部分的な適合が達成され得るという点において、フォールトトレラントで ある。ここで、本発明の設計に固有の冗長性による頑強性に注目することが重要 である。データはツリーのサイトで複製され、その結果、たとえサーバがダウン しても、データはどこか他のところで見つけられ得る。 分散階層クラスタツリーは分散形式で、すなわち、多くのプロセッサを関与さ せて形成され得る。実際、ほとんどの用途において、分散階層クラスタツリーは ときどき再形成されるべきである。これはユーザがターゲットオブジェクトと対 話するにつれて、ターゲットオブジェクトのターゲットプロファイルにおける連 想属性は、これらの対話を反映させるために変化するためである。従って、シス テムの類似性測定は、類似性を判断する際、これらの対話を考慮し得、これによ り、より明瞭なクラスタツリーの構築が可能になる。重要な技術は、前述のよう な分散形式のそれぞれファイルF1...Fnで表されるn(個)のはずされた (disjoint)クラスタツリーを、これらのツリーのすべてからのターゲットオブ ジェクトをすべて含む複合型クラスタツリーに併合する以下の手順である。ファ イルF1...Fnは、クラスタラベルが表現に含まれていないということを除 いては、前述している。以下のステップは、サーバS1によって、別のサーバS 0からの要求メッセージに応答して実行される。この要求メッセージは、ファイ ルF1...Fnに対するポインタを含む。1.ファイルF1...Fnを取り 出す。2.LおよびMを空リストにする。3.F1...Fnの各ファイルFi について、4.ファイルFiが下位クラスタファイルに対するポインタを含む場 合、これらのポインタをリストLに追加する。5.ファイルFiが1つのターゲ ットオブジェクトを表す場合、ファイルFiに対するポインタをリストLに追加 する。6.リストLの各ポインタXについて、ポインタPが指すファイルを取り 出し、このファイルが格納するクラスタプロファイルP(X)を抜き出す。7. クラスタ化アルゴリズムを適用して、リストLのポインタXを、それぞれのクラ スタプロファイルP(X)間の距離に従ってグループ化する。8.(空でない) 結果として得られるポインタのグループCのそれぞれについて、9.Cがポイン タを1つしか含まない場合、このポインタをリストMに追加する。10.そうで なければ、CがF1...FnのファイルFiの1つと全く同じ下位クラスタポ インタを含む場合、ファイルFiに対するポインタをリストMに追加する。11 .そうでなければ、12.例えばグループCのポインタのうちの1つをランダム に選択し、それが指すサーバを選択することによって、ネットワーク上の任意の サーバS2を選択する。13.グループCの下位クラスタポインタを含むサーバ S2に要求メッセージを送り、サーバS2に対応する下位クラスタツリーを併合 するよう要求する。14.サーバS2から、併合されたツリーを表すファイルG に対するポインタを含む応答を受け取る。このポインタをリストMに追加する。 15.F1...Fnの各ファイルFiについて、16.リストMがファイルF iに対するポインタを含まない場合、Fiを格納するサーバまたは複数のサーバ に、 ファイルFiを削除するよう命令するメッセージを送る。17.下位クラスタポ インタが厳密にリストMの下位クラスタポインタである新しいクラスタを表すフ ァイルFを作成して格納する。18.サーバS0に応答メッセージを送る。この 応答メッセージは、ファイルFに対するポインタを含み、ファイルFが併合され たクラスタツリーを表すことを示す。 上記の手順およびネットワークのすべての代理サーバを含むマルチキャストツ リーMT fullの助けを借りて、ターゲットオブジェクトの特定の領域のための 分散階層クラスタツリーが、以下のように多くのローカル階層クラスタツリーを 併合することによって構築される。1.1つのサーバS(好適には、良好な連結 性を有するもの)がツリーから選ばれる。2.サーバSは、MTfullの各代理サ ーバ(すなわち、ネットワークの各代理サーバ)に、そのクライアントに対して クラスタツリー用のファイルを要求させるグローバル要求メッセージを、サーバ S自身に送る。3.各代理サーバのクライアントは、保守するいずれのファイル をも代理サーバに送信する。このファイルは、クラスタツリーに追加されるべき 適切な領域からのターゲットオブジェクトを示す。4.サーバSは、受信された ら受信サーバS1に次の動作を取らせる要求R1を形成する。(a)S1のユー ザベースにおけるユーザによって保守される、サーバS1に格納されるすべての ファイルの階層クラスタツリーを構築する。これらのファイルは適切な領域から のターゲットオブジェクトに対応する。このクラスタツリーは、典型的にはS1 にその全体が格納されるが、原則として、分散形式で格納され得る。 (b)サーバS1が要求Rを伝播したサーバがすべて、クラスタツリーに対する ポインタを含む受信応答メッセージを送るまで待つ。(c)ステップ5(a)に おいて形成されたクラスタツリーと、ステップ5(b)において提供されたクラ スタツリーとの併合を、前述の如く任意のサーバ(例えばS1自身)にこのよう な併合を要求するメッセージを送ることによって行う。(d)(c)で送られた メッセージに対する、併合されたクラスタツリーを表すファイルに対するポイン タを含む応答を受け取ると、この応答を要求R1の送信者に、これがS1自身で ない限り、転送する。5.サーバSは、MTfullの全サーバを、埋め込まれた要 求R1に基づいて動作させるグローバル要求メッセージをサーバS自身に送る。 6.サーバSは5(c)で送ったメッセージに対する応答を受け取る。この応答 は、完成された階層クラスタツリーを表すファイルFに対するポインタを含む。 サーバSはファイルFを、MTfullの全代理サーバにマルチキャストする。一旦 前述のように階層クラスタツリーが形成されると、サーバSはクラスタツリーを 介して更なるメッセージを送り、マルチキャストツリーMT(C)が十分に大き なクラスタCのために形成されるように、および各ファイルFがツリーMT(C )にマルチキャストされるように手配し得る。ここでCはファイルFを含む最小 のクラスタである。 ユーザを仮想コミュニティと適合させる 仮想コミュニティ コンピュータユーザは、(インターネットリレーチャット(IRC)のように)タ イプされるか、(インターネット電話のように)話されるかまたはテレビ会議で 行われ得る、コンピュータ掲示板上の討論、ニュースグループ、郵送先名簿、お よびコンピュータネットワーク上のリアルタイムのチャットセッションのために 、頻繁に他のユーザに加わる。ここではこれらのフォーラムを「仮想コミュニテ ィ」と呼ぶ。現在の慣習では、各仮想コミュニティは特定のトピックを有し、ユ ーザは関心のあるコミュニティを、口伝えで、あるいはコミュニティ(典型的に は何百または何千)の長いリストを調べることによって発見する。次いでユーザ は自分自身で、選択された仮想コミュニティに投函された、すなわちそれらのコ ミュニティのメンバーに対して公に入手可能にされたものの中から、何千という メッセージのどれに関心があるかを決めなければならない。所望する場合は、ユ ーザはまた、更なるメッセージを書いて、自分が選択した仮想コミュニティに投 函し得る。何千というインターネット掲示板(ニュースグループとも呼ばれる) ならびに無数の更なるインターネット郵送先名簿および私設掲示板サービス(BB S's)の存在は、電子コミュニティのメンバーが、想像できる主題のほぼどんな ものにも関するアイデアを討論するためのフォーラムに非常に強い関心があるこ とを示している。現在、仮想コミュニティの形成はでたらめな形で行われ、通常 、あるトピックが討論に値すると決める一個人によって開始される。インターネ ット上には、ニュースグループが形成されるべきかを決定するための投票のプロ ト コルがあるが、このプロトコルに従わない(接頭辞“alt.”で始まる)ニュース グループの大きな階層が存在する。 ここに記載する所望のオブジェクトのカスタム化電子識別システムは、もちろ ん掲示板用のブラウザとして機能し得、ここではターゲットオブジェクトは掲示 板または掲示板の下位トピックとされ、各ターゲットプロファイルはある掲示板 に貼られた文書のクラスタのためのクラスタプロファイルである。従って、ユー ザは、ブラウジングおよび照会を含む前述のすべてのナビゲーション技術によっ て、関心のある掲示板を見つけ得る。しかし、この方法は既存の仮想コミュニテ ィを見つけるためにしか有用でない。人々は様々な且つ変化する複雑な関心を有 するので、共通の関心を有する人々のグループを自動的に見つけて、仮想コミュ ニティを形成することが望ましい。後述する仮想コミュニティサービス(VCS )は、共通の関心を有するネットワークのユーザを捜し出し、それらのユーザの ために動的に掲示板または電子郵送先名簿を作成し、e−メールによってユーザ を互いに電子的に紹介する、ネットワークベースのエージェントである。一旦仮 想コミュニティがVCSによって形成されると、続いて前述のその他のブラウジ ングおよびフィルタリング技術を使用して、ユーザが特定の仮想コミュニティ( 先在するものであれ、VCSによって自動的に生成されたものであれ)を見つけ るのを助け得るということに注目することは有用である。同様に、所定の仮想コ ミュニティに送られたメッセージは、そのコミュニティに参加したユーザにとっ て関心および緊急性において異なり得るので、これらのブラウジングおよびフィ ルタリング技術(例えば、e−メールフィルタ)をまた使用して、至急のメッセ ージにユーザの注意を引き、そして関心のないメッセージをスクリーニングして 除外し得る。 仮想コミュニティサービスの機能は、小さな企業のオフィスネットワークから ワールドワイドウェブまたはインターネットに至るまでいかなるネットワークに おいても実行し得る一般的な機能である。手順の4つの主要ステップは以下の通 りである。1.既存の仮想コミュニティへの投函をスキャンする。2.共通の関 心を有するユーザのグループを識別する。3.必要であれば新しい仮想コミュニ ティを形成して、ユーザを仮想コミュニティと適合させる。4.引き続き既存の 仮想コミュニティに更なるユーザを入会させる。 より一般的には、ユーザは仮想コミュニティにメッセージを仮名を用いて投函 し得、異なる仮想コミュニティに異なる仮名さえ用い得る。(仮名を用いた混合 経路を使用しない投函は、通常通り、安全でない仮名、すなわちユーザの真のネ ットワークアドレスを使用する投函と見なされ得る。)従って、上述のステップ は、より一般的には以下の通り表現され得る。1.既存の仮想コミュニティへの 仮名を用いた投函をスキャンする。2.関連するユーザが共通の関心を有する仮 名のグループを識別する。3.必要であれば新しい仮想コミュニティを形成して 、仮名を用いるユーザを仮想コミュニティと適合させる。4.引き続き既存の仮 想コミュニティに更なる仮名を用いるユーザを入会させる。 これらのステップはそれぞれ後述のように実行され得る。 スキャニング 上述の技術を使用して、仮想コミュニティサービスは、所定のネットワーク上 のすべてのニュースグループおよび電子郵送先名簿に投函されたすべてのメッセ ージを絶えずスキャンし、発見された各メッセージに対してターゲットプロファ イルを構築する。ネットワークは、インターネット、またはアメリカ・オンライ ン(America Online)、プロディジー(Prodigy)あるいはコンピュサーブ(Com puServe)によって保守される掲示板のセットまたは1つの組織(例えば、大企 業、法律事務所または大学)にローカルであり得る掲示板のより小さなセットで あり得る。スキャニング動作は、仮想コミュニティサービスによって作成された 掲示板および郵送先名簿に限定される必要はなく、仮想コミュニティサービスに 先行するコミュニティ、または仮想コミュニティサービスシステム外の手段によ って別の方法で作成されるコミュニティの活動を、これらのコミュニティが公用 であるか、でなければ許可を与えるという条件で、スキャンするためにもまた使 用し得る。 各メッセージのターゲットプロファイルは、メッセージのタイトルおよび本文 を指定するテキスト属性を含む。書かれたメッセージよりも話されたメッセージ の場合、後者の属性は音声認識システムを使用して、音響音声データから計算さ れ得る。ターゲットプロファイルはまた、メッセージの作者(複数の作者)およ び指定受信者(複数の指定受信者)をリストする連想属性を含み、受信者は個人 および/または仮想コミュニティ全体であり得る。この属性が高く重み付けられ る場合、システムは、同じセットの人々の間のメッセージを、そのメッセージの いくつかが非常に短いときに起こり得るように、たとえそのメッセージのトピッ クの類似性が内容から明らかでなくても、類似するまたは関連するものと見なす 傾向がある。別の重要な属性は、以前のメッセージから引用された素材から構成 されるメッセージの断片、および文書の特徴付けに概して有用な属性(例えば、 メッセージの日付、長さ、およびリーディングレベル)を含む。 仮想コミュニティの識別 次に、仮想コミュニティサービスは共通の関心を有する仮名を用いるユーザの グループを識別しようと試みる。これらのグループは、ここでは「プレコミュニ ティ」と呼ぶが、仮名のセットとして表される。仮想コミュニティサービスは、 プレコミュニティを識別すると必ず、続いて後述のように、このプレコミュニテ ィにおけるユーザを互いに接触させようと試みる。各プレコミュニティは、メッ セージ、仮名を用いるユーザ、検索プロファイルまたはターゲットオブジェクト のクラスタによって「決定」されると言われる。 プレコミュニティを決定する通常の方法においては、仮想コミュニティサービ スは、上記のステップでスキャンされそしてプロファイルされたメッセージを、 それらのメッセージの計算されたターゲットプロファイルの類似性に基づいてク ラスタ化し、従ってユーザ間の共通する関心を示す討論のスレッド(thread)を 自動的に発見する。当然、1つの仮想コミュニティにおける討論は共通の関心を 示す傾向にある。しかし、この方法は、掲示板および電子郵送先名簿を含むあら ゆる利用可能な仮想コミュニティからのテキストをすべて使用する。実際、ある トピックについての討論の開始またはあるトピックについての討論への参加を希 望するユーザは、そのトピックに関する「フィーラー(feeler)メッセージ」を フィーラーメッセージに指定された特別郵送先名簿に送り得る。前述のスキャニ ング手順の結果、フィーラーメッセージは、この特別郵送先名簿、トピック別郵 送先名簿またはトピック別掲示板に送付された任意の同様にプロファイルされた メッセージと自動的にグループ化される。クラスタ化ステップは「ソフトクラス タ化」を用い、「ソフトクラスタ化」においては、メッセージは複数のクラスタ に、従って複数の仮想コミュニティに属し得る。仮想コミュニティサービスによ って発見され、かつ十分なサイズである(例えば、10〜20の異なるメッセー ジ)メッセージのクラスタのそれぞれは、メンバーがクラスタにおけるメッセー ジの仮名を用いる作者および受信者であるプレコミュニティを決定する。より正 確には、プレコミュニティは、クラスタにおけるメッセージが送られ、受け取ら れた、様々な仮名から構成される。 上記のスキャニングステップを必要としない、プレコミュニティを決定する代 替方法は以下を含む。1.プレコミュニティは、単に類似するトピックについて 既にメッセージを書いたあるいは受け取った個人だけでなく、任意の種類の類似 する関心を有するユーザをひとまとめにすることによって生成され得る。各仮名 に関連するユーザプロファイルが、例えば、ユーザが好む文書またはウェブサイ トを示す連想属性を介してユーザの関心を示す場合は、仮名はその仮名に関連す るユーザプロファイルの類似性に基づいてクラスタ化され得、結果として得られ る仮名のクラスタはそれぞれ、クラスタにおける仮名を含むプレコミュニティを 決定する。2.各仮名が、前述のニュースクリッピングサービスへの参加を介し て形成される関連検索プロファイルセットを有する場合、すべての仮名を用いる ユーザのすべての検索プロファイルは類似性に基づいてクラスタ化され得、検索 プロファイルの各クラスタは、メンバーが、その検索プロファイルセットからク ラスタにおける検索プロファイルが引き出される仮名であるプレコミュニティを 決定する。このようなグループの人々は同じトピックについて読んでいた(また は、より一般的には、類似するターゲットオブジェクトにアクセスしていた)の で、おそらく関心を共有する。3.ユーザがニュースクリッピングサービスまた はターゲットオブジェクトのための任意のその他のフィルタリングまたはブラウ ジングシステムに参加する場合は、個別のユーザは、そのシステムに知られる1 つ以上のターゲットオブジェクトの特定のクラスタについて討論するために、仮 想コミュニティの形成を仮名を用いて要求し得る。このターゲットオブジェクト のクラスタは、そのクラスタに対して最も関心を示すと決定されたユーザ(例え ば、クラスタプロファイルに類似する検索プロファイルを有するユーザ)の仮名 、 および仮想コミュニティの形成を要求したユーザの仮名から構成されるプレコミ ュニティを決定する。 ユーザをコミュニテイと適合させる 仮想コミュニティサービスは、一旦プレコミュニティMを決定するメッセージ 、ユーザ、検索プロファイルまたはターゲットオブジェクトのクラスタCを識別 したら、このプレコミュニティのメンバーが共通の仮想コミュニティVに参加す る機会を有するように手配しようと試みる。多くの場合、既存の仮想コミュニテ ィVがプレコミュニティMのニーズに適合し得る。仮想コミュニティサービスは まずこのような既存のコミュニティVを発見しようと試みる。クラスタCがメッ セージのクラスタである場合、Vは、クラスタCのクラスタプロファイルが仮想 コミュニティVに最近投函されたメッセージのセットの平均プロファイルの閾距 離内であるような任意の既存の仮想コミュニティであるよう選択され得る。クラ スタCがユーザのクラスタである場合、Vは、クラスタCのクラスタプロファイ ルが仮想コミュニティVのアクティブなメンバーの平均ユーザプロファイルの閾 距離内であるような任意の既存の仮想コミュニティであるよう選択され得る。ク ラスタCが検索プロファイルのクラスタである場合、Vは、クラスタCのクラス タプロファイルが仮想コミュニティVのアクティブなメンバーの全検索プロファ イルのクラスタ化の結果得られる最大のクラスタのクラスタプロファイルの閾距 離内であるような任意の既存の仮想コミュニティであるよう選択され得る。そし て、クラスタCが別個のブラウジングまたはフィルタリングシステムから選択さ れた1つ以上のターゲットオブジェクトのクラスタである場合、Vは、その別の システムにおけるクラスタプロファイルがクラスタCのクラスタプロファイルの 閾距離内にあるクラスタから同様に開始された、任意の既存の仮想コミュニティ であるよう選択され得る。それぞれの場合において使用される閾距離は、任意に 平均値が比較されているプロファイルセットのクラスタ変数またはクラスタ直径 に依存する。 どの既存の仮想コミュニティVもこれらの条件に合わず、またプレコミュニテ ィMのすべてのユーザを新メンバーとして受け入れようとしない場合は、仮想コ ミュニティサービスは新しい仮想コミュニティVを形成しようと試みる。仮想コ ミュニティVが既存のコミュニティであるか新しく形成されたコミュニティであ るかにかかわらず、仮想コミュニティサービスは、関連するユーザUが既に仮想 コミュニティVに(仮名Pを使って)属しておらず、かつ以前に仮想コミュニテ ィVへの参加の要求を拒絶していない、プレコミュニティMにおける各仮名Pに e−メールメッセージを送る。e−メールメッセージはユーザUに仮想コミュニ ティVの存在を知らせ、所望の場合ユーザUが仮想コミュニティVに参加するた めに従い得る命令を提供する。これらの命令は、仮想コミュニティVが既存のコ ミュニティであるか新しいコミュニティであるかによって変わる。メッセージは 仮名Pに付与される信用証明書(credential)を含み、この信用証明書は、ユー ザUが実際に参加を勧められたという証拠として、仮想コミュニティVに参加す る際にユーザUによって提示されなければならない。ユーザUが異なる仮名Qを 使って仮想コミュニティVに参加することを希望する場合は、ユーザUはまず、 前述のように、仮名Pから仮名Qに信用証明書を移し得る。e−メールメッセー ジは、例えば最近コミュニティに送られたメッセージのタイトルのリスト、また は(ある場合は)コミュニティによって提供される綱領(charter)あるいは紹 介メッセージ、またはプレコミュニティMを識別するために使用されたメッセー ジ、ユーザプロファイル、検索プロファイルあるいはターゲットオブジェクトの クラスタの内容を識別する、前述の方法によって生成されたラベルを含めること によって、コミュニティの共通の関心の指示をさらに提供する。 仮想コミュニティサービスが新しいコミュニティVを形成しなければならない 場合、新しいコミュニティのメンバーが互いに通信できるようにするために、い くつかの方法が使用可能である。プレコミュニティMが大きい場合、例えば50 を上回るユーザを含む場合、仮想コミュニティサービスは、典型的には、後述の ようにマルチキャストツリーを確立するか、あるいは広域配信掲示板を、新しい 掲示板に名前を割り当てて確立する。プレコミュニティMが、例えば2〜50と いう、より少ないメンバーを有する場合は、仮想コミュニティサービスは、典型 的には、後述のようにマルチキャストツリーを確立するか、あるいはe−メール 郵送先名簿を確立する。新しい仮想コミュニティVがメッセージのクラスタによ って決定された場合、仮想コミュニティサービスはこれらのメッセージを仮想コ ミュニティVの全メンバーに配信することによって討論を開始する。掲示板およ び郵送先名簿に加えて、形成され得る、そして仮想コミュニティが集まり得る代 替のフォーラムは、コンピュータネットワーク上のリアルタイムにタイプされる または話される会話(または従事(engagement)あるいはビデオゲームを含む分 散形マルチユーザ用途)および物理的な会合を含み、これらはいずれも、仮想コ ミュニティサービスがプレコミュニティMの全メンバーから会合時間の希望を要 求し、適切な会合時間をこれらの個人に通知する、部分的に自動化されたプロセ スによって予定され得る。 入会の継続 新しい仮想コミュニティの形成後でさえも、仮想コミュニティサービスは、タ ーゲットプロファイルがそのコミュニティのクラスタプロファイル(平均メッセ ージプロファイル)に類似する新しいメッセージを探して、その他の仮想コミュ ニティをスキャンし続ける。このようなメッセージはいずれもコピーがその新し い仮想コミュニティに送られ、これらのメッセージの仮名を用いる作者およびこ のようなメッセージを読むことに高い関心を示すユーザは、仮想コミュニティサ ービスによって、(上記のプレコミュニティメンバーのためと同様)そのコミュ ニティへの参加を希望し得ることを知らされる。次いでこのようなユーザはそれ ぞれ、コミュニティに参加するか否かを決定し得る。インターネットリレーチャ ット(IRC)の場合は、リアルタイムダイアログにおけるメッセージのターゲッ トプロファイルがユーザのそれと類似している(または類似するようになる)と 、VCSはまた、このようなユーザに至急のe−メールメッセージを送り得、こ れによってユーザは、所望であれば、ダイアログが現れると直ちに自動的に通知 され得る。 これらの能力を用いて、仮想コミュニティサービスは任意のローカルまたは広 域エリアネットワークにおける新しい仮想コミュニティの自動的形成、およびネ ットワーク上の、仮想コミュニティサービスによって作成されたものではないも のを含むすべての仮想コミュニティの保守を提供する。仮想コミュニティサービ スの基礎をなす中核となる技術は、ユーザが関心を共有するという点において「 類似する」記事を発見し得る検索およびクラスタ化の仕組みを創成することで ある。これはまさに上記に記載したことである。仮想コミュニティサービスは、 本当に関心のないコミュニティに関する通知でユーザを攻撃するのではないとい うことが確実に理解されなければならない。非常に小さいネットワーク上では、 人間は「輪の中に(in the loop)」存在し得、提案された仮想コミュニティを スキャンし、おそらくはそれらに名前を付けさえする。しかし、より大きなネッ トワーク上では、仮想コミュニティサービスは、多数の仮想コミュニティを発見 する可能性があるので、完全に自動的な様式で動作しなければならない。 仮想コミュニティにメッセージを配信する 一旦仮想コミュニティが識別されたら、仮想コミュニティサービスが郵送先名 簿を作成し、これによって仮想コミュニティの任意のメンバーがその他のすべて のメンバーにe−メールを配信し得ることは明瞭である。配信の別の方法は、従 来のネットワーク掲示板またはニュースグループを使用してメッセージをネット ワークの全サーバに配信し、ここでそれらのメッセージは仮想コミュニティのい ずれのメンバーによってもアクセスされ得るというものである。しかし、これら の単純な方法は、メッセージを仮想コミュニティに搬送するためのマルチキャス トツリーの構築を最適化することから生じるコストおよび性能の利点を考慮しな い。ニュースグループとは異なり、マルチキャストツリーはメッセージをサーバ の選択されたセットにしか配信せず、そしてe−メール郵送先名簿とは異なり、 マルチキャストツリーはサーバの選択されたセットへのメッセージの配信を効率 的に行う。 以下の4つの手順を使用して、別個のマルチキャストツリーMT(V)が各仮 想コミュニティVに対して保守される。1.このマルチキャストツリーを構築ま たは再構築するために、仮想コミュニティVのコアサーバは、仮想コミュニティ Vの少なくとも1人の仮名を用いるメンバーをサーブする代理サーバとされる。 次いでマルチキャストツリーMT(V)が上記の「マルチキャストツリー構築手 順」のセクションのステップ4〜6によって確立される。2.新しいユーザが既 存の仮想コミュニティである仮想コミュニティVに参加するとき、ユーザはユー ザの代理サーバSにメッセージを送る。ユーザの代理サーバSが既にVのコアサ ーバでない場合は、代理サーバSはコアサーバとして指定され、以下のようにマ ルチキャストツリーMT(V)に追加される。マルチキャストツリーMT(V) が最後に再構築されてからkを超えるサーバが追加されている場合(ここでkは 既にツリーにあるコアサーバの数の関数である)、ツリー全体が単に上記の「マ ルチキャストツリー構築手順」のセクションのステップ4〜6によって再構築さ れる。そうでない場合は、サーバSはVに対して近傍のコアサーバのローカル格 納リストを取り出し、サーバS1を選択する。サーバSは制御メッセージをS1 に送り、マルチキャストツリーMT(V)への追加を希望することを示す。この メッセージを受け取ると、サーバS1はMT(V)のローカル格納下位ツリーG 1を取り出し、S1自体以外のすべての次数1の頂点を除去することによって新 しいグラフGをG1から形成する。サーバS1はグラフGをサーバSに送信し、 サーバSはそれをMT(V)のローカル格納下位ツリーとして格納する。最後に 、サーバSは、それ自身およびグラフGの頂点であるサーバのすべてにメッセー ジを送り、これらのサーバに、Sを頂点として追加し、S1とSとの間に辺を追 加することによってMT(V)のこれらのサーバのローカル格納下位ツリーを改 変するよう命令する。3.クライアントqのユーザがメッセージFを仮想コミュ ニティVに送ることを希望するときは、クライアントqはメッセージFを要求R に埋め込み、受信者にメッセージFを、仮想コミュニティVのメンバーによるア クセスのために、限られた時間の間、ローカルに格納するように命令する。要求 Rは、そのユーザが仮想コミュニティVのメンバーであるか、あるいはそうでな ければ仮想コミュニティVにメッセージを投函する資格がある(例えば、仮想コ ミュニティVまたはその他の仮想コミュニティのメンバーによって「黒星を付け られて」いない)ことを証明する信用証明書を含む。次いでクライアントqは、 前述のようにユーザの代理サーバに送信されるグローバル要求メッセージによっ て、マルチキャストツリーMT(V)の全コアサーバに要求Rを同報通信する。 コアサーバは、含まれる信用証明書を確認し得る限り、要求Rを満たす。4.仮 想コミュニティVに送られた特定のメッセージを取り出すために、クライアント qのユーザUは「マルチキャストツリーからファイルを取り出す」のセクション で前述したステップを開始する。ユーザUが特定のメッセージを取り出すことを 希望せず、むしろ仮想コミュニティVに送られたすべての新しいメッセージを取 り出 すことを希望する場合、ユーザUは、(Vのコアサーバである)代理サーバに、 一定の日付の後にMT(V)にマルチキャストされたメッセージをすべてユーザ Uに送るように仮名を用いて命令する。どちらの場合もユーザUは、ユーザUが 仮想コミュニティVのメンバーであるか、そうでなければ仮想コミュニティVの メッセージにアクセスする資格があることを証明する信用証明書を提供しなけれ ばならない。 要旨 ユーザにとって関心のある記事を自動的に選択する方法が提示された。方法は 、ユーザによって読まれる記事における単語の発生の相対度数などのような属性 に基づいて、ユーザのための検索プロファイルのセットを生成し、これらの検索 プロファイルを使用して、関心のある将来の記事を効率的に識別する。方法は、 受動的モニタリング(ユーザは記事を明確に評価する必要はない)、1ユーザ当 たりの複数の検索プロファイル(複数のトピックに対する関心を反映する)、お よびデータから自動的に決定される検索プロファイルの要素の使用(特に、単語 度数および購入可能アイテムの記述に基づくTF/IDF測定)によって特徴付 けられる。自動的にメニューを生成して、ユーザが関心のあるトピックに関する 記事を見つけ、そして取り出すことを可能にする方法もまた提示された。この方 法は、単語発生の相対度数によって測定されるような類似性に基づいて記事をク ラスタ化する。クラスタは、記事のタイトルか記事から抜き出されたキーワード かのどちらかでラベル付けされる。方法は、多くの機械に分散する記事の大きな セットに適用され得る。 上記の方法を、記事から、プロファイルが生成され得るターゲットオブジェク トの任意のクラス(ニュース記事、参考または仕事の(work)記事、電子メール 、商品またはサービスの記述、人々(その人々が読む記事、人口統計学的データ 、または購入する商品に基づく)、そして電子掲示板(投函される記事に基づく )を含む)に拡張する方法がさらに示された。関心によって人々をグループ化で きることの特定の結果は、共通の関心を持つ人々の仮想コミュニティを形成し得 、これにより共通の関心を持つ人々は電子メールを介して互いに通信し得るとい うことである。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),AM,AU,BR,B Y,CA,CN,EE,IL,IS,JP,KP,KR ,KZ,LV,MN,MX,NZ,RU,SG,TM, TR,UA,UZ,VN (72)発明者 スミス,ジョナサン エム. アメリカ合衆国 ニュージャージー 08540−4165,プリンストン,プリンスト ン−キングストン ロード 771 (72)発明者 サルツバーグ,スティーブン エル. アメリカ合衆国 メリーランド 21210, ボルチモア,ウィックフォード ロード 4409 【要約の続き】 て相互接続される多くのユーザから構成される大規模な システムにおいて、情報の配信を効率的に編成するため に使用され得る。さらに、暗号化ベースの仮名代理サー バが提供され、ユーザのターゲットプロファイル関心サ マリのプライバシーを、第三者がこのサマリにアクセス する能力、およびユーザを識別あるいはユーザに接触す る能力に対する制御をユーザに与えることによって、確 保する。

Claims (1)

  1. 【特許請求の範囲】 1.ユーザに、電子記憶媒体を介してアクセス可能な複数のターゲットオブジ ェクトおよびターゲットオブジェクトの特徴のセットのうちの選択されたものへ のアクセスを提供する方法であって、該ユーザが、ユーザ端末およびデータ通信 接続を介して、該電子記憶媒体を含むターゲットサーバシステムに接続され、 該電子記憶媒体に格納されたターゲットオブジェクトおよびターゲットオブジ ェクトの特徴のセットについてターゲットプロファイルを自動的に生成するステ ップであって、該ターゲットプロファイルのそれぞれが、該ターゲットオブジェ クトおよびターゲットオブジェクトの特徴のセットのうち関連するものの内容か ら生成されるステップと、 ユーザ端末におけるユーザについて少なくとも1つのユーザターゲットプロフ ァイル関心サマリを自動的に生成するステップであって、該ユーザターゲットプ ロファイル関心サマリのそれぞれが、該ユーザによってアクセスされる該ターゲ ットオブジェクトおよびターゲットオブジェクトの特徴のセットのいくつかから 生成されるステップと、 ユーザによる、該ターゲットプロファイルを介する、該電子記憶媒体上に格納 される該複数のターゲットオブジェクトおよびターゲットオブジェクトの特徴の セットへのアクセスを可能にするステップと、 を包含する方法。 2.前記アクセスを可能にするステップが、 識別されたユーザに対して生成される前記ユーザターゲットプロファイル関心 サマリを、前記生成されたターゲットプロファイルと相関させて、前記電子記憶 媒体上に格納される前記複数のターゲットオブジェクトおよびターゲットオブジ ェクトの特徴のセットのうち該識別されたユーザに対して関心のある可能性のあ るものを識別するステップを包含する、請求項1に記載の方法。 3.前記アクセスを可能にするステップが、前記複数のターゲットオブジェク トおよびターゲットオブジェクトの特徴のセットのうちの前記識別されたものの うちの少なくとも1つを、前記識別されたユーザに、該ユーザが該複数のターゲ ットオブジェクトおよびターゲットオブジェクトの特徴のセットのうちの該識別 されたもののうちの該少なくとも1つを要求する前に送信するステップをさらに 包含する、請求項2に記載の方法。 4.前記アクセスを可能にするステップが、前記複数のターゲットオブジェク トおよびターゲットオブジェクトの特徴のセットのうちの前記識別されたものの うちの少なくとも1つを識別するリストを、前記識別されたユーザに送信するス テップと、 前記電子記憶媒体上に格納される該複数のターゲットオブジェクトおよびター ゲットオブジェクトの特徴のセットのうちの該識別されたものを、前記ターゲッ トサーバシステムから、前記電子通信接続を介して該ターゲットサーバシステム よりも前記ユーザ端末により近くに位置する指定されたサーバに送信するステッ プと、 をさらに包含する、請求項2に記載の方法。 5.前記アクセスを提供するステップが、 前記識別されたユーザが前記ユーザ端末の1つを起動して前記リスト上の前記 選択されたアイテムを識別することに応答して、該識別されたユーザの該選択さ れたアイテムの選択を示すデータを、該1つのユーザ端末から、前記指定された サーバに、前記データ通信接続の1つを介して送信するステップを包含する、請 求項4に記載の方法。 6.前記アクセスを提供するステップが、 前記1つのユーザ端末からの前記データの受信に応答して、前記指定されたサ ーバから、前記選択されたアイテムによって識別されるターゲットオブジェクト を取り出すステップと、 該取り出されたターゲットオブジェクトを、前記識別されたユーザに対する表 示のために、該1つのユーザ端末に送信するステップとをさらに包含する、請求 項5に記載の方法。 7.前記自動的にターゲットプロファイルを生成するステップが、 前記ユーザを、前記電子媒体上に格納される前記複数のターゲットオブジェク トおよびターゲットオブジェクトの特徴のセットの少なくとも1つの下位セット に導く階層メニューを自動的に生成するステップであって、該階層メニューを自 動的に生成するステップが、 該下位セットにおけるすべてのターゲットオブジェクトおよびターゲットオブ ジェクトの特徴のセットを、該ターゲットオブジェクトおよびターゲットオブジ ェクトの特徴のセットの内容の類似性の経験による測定に基づいて、ターゲット オブジェクトおよびターゲットオブジェクトの特徴のセットの複数のクラスタに 分類するステップと、 該複数のクラスタのそれぞれに分類されたターゲットオブジェクトおよびター ゲットオブジェクトの特徴のセットの共通の内容を識別する階層メニュを生成し て、前記識別されたユーザが、該電子記憶媒体上に格納される該複数のターゲッ トオブジェクトおよびターゲットオブジェクトの特徴のセットのうち該識別され たユーザに対して関心のある可能性のあるものを識別することを可能にするステ ップとを包含する、請求項1に記載の方法。 8.前記分類するステップが、 前記複数のターゲットオブジェクトおよびターゲットオブジェクトの特徴のセ ットを、該ターゲットオブジェクトおよびターゲットオブジェクトの特徴のセッ トの内容の類似性の前記経験による測定に基づいて、少なくとも2つのクラスタ に分割するステップと、 該少なくとも2つのクラスタを、該ターゲットオブジェクトおよびターゲット オブジェクトの特徴のセットの内容の類似性の該経験による測定に基づいて、少 なくとも2つの下位クラスタに再分割するステップと、 識別されたクラスタの多レベル階層を形成するために、該再分割するステップ を繰り返すステップとを包含する、請求項7に記載の方法。 9.前記階層メニューを生成するステップが、 前記クラスタに分類された前記複数のターゲットオブジェクトおよびターゲッ トオブジェクトの特徴のセットのうちの該クラスタの中心に最も近いもののうち の少なくとも1つのターゲットオブジェクトを選択するステップと、 該複数のターゲットオブジェクトおよびターゲットオブジェクトの特徴のセッ トのうちの該クラスタに分類されたもののターゲット内容を示すクラスタプロフ ァイルを定義(ascribe)するステップであって、該クラスタプロファイルが、 該選択された少なくとも1つのターゲットオブジェクトのタイトル、および最も 高い相対度数を有する該選択された少なくとも1つのターゲットオブジェクトク ラスタのターゲットプロファイルに含まれる単語のセットのうちの少なくとも1 つの要素を含むステップとを包含する、請求項7に記載の方法。
JP9517635A 1995-10-31 1996-10-29 所望のオブジェクトのカスタム化された電子識別のためのシステム Pending JPH11514764A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US55119895A 1995-10-31 1995-10-31
US08/551,198 1995-10-31
PCT/US1996/017981 WO1997016796A1 (en) 1995-10-31 1996-10-29 System for customized electronic identification of desirable objects

Publications (1)

Publication Number Publication Date
JPH11514764A true JPH11514764A (ja) 1999-12-14

Family

ID=24200252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9517635A Pending JPH11514764A (ja) 1995-10-31 1996-10-29 所望のオブジェクトのカスタム化された電子識別のためのシステム

Country Status (5)

Country Link
EP (1) EP0941515A1 (ja)
JP (1) JPH11514764A (ja)
AU (1) AU7674996A (ja)
MX (1) MX9803418A (ja)
WO (1) WO1997016796A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002109183A (ja) * 2000-10-04 2002-04-12 Dentsu Inc ブランドおよびビークルの近縁性の評価方法、システム、および記録媒体
JP2002133271A (ja) * 2000-10-25 2002-05-10 Nec Corp 広告自動配信システム
JP2002150147A (ja) * 2000-08-29 2002-05-24 Yutaka Nishimura 情報提供システム及び方法並びに情報提供用プログラムを記録した記録媒体
JP2002170035A (ja) * 2000-11-30 2002-06-14 Hitachi Ltd 情報提供方法及びその実施装置並びにそのデータを記録した記録媒体
JP2003527001A (ja) * 2000-03-17 2003-09-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ データベースオブジェクトを格付けするための方法及び装置
JP2010514061A (ja) * 2006-12-22 2010-04-30 フォーム ユーケー インコーポレイテッド クライアントのネットワーク活動をチャネリングするためのシステム及び方法
JP2014238858A (ja) * 2009-09-08 2014-12-18 プライマル フュージョン インコーポレイテッド 消費者により提供されるコンテクストを用いたメッセージングの合成

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162434B1 (en) * 1997-05-05 2007-01-09 Walker Digital, Llc Method and apparatus for facilitating the sale of subscriptions to periodicals
JP3798114B2 (ja) * 1997-05-23 2006-07-19 富士通株式会社 端末、移動端末、サーバ、端末通信方法およびサーバ通信方法
US6157905A (en) * 1997-12-11 2000-12-05 Microsoft Corporation Identifying language and character set of data representing text
DE69907425T2 (de) * 1998-02-27 2004-03-11 Engage Technologies, Andover System und Verfahren zum Aufbau von Benutzerprofilen
US6327574B1 (en) * 1998-07-07 2001-12-04 Encirq Corporation Hierarchical models of consumer attributes for targeting content in a privacy-preserving manner
JP2002528819A (ja) * 1998-10-28 2002-09-03 バーティカルワン コーポレイション 自動集合の装置および方法、電子パーソナルインフォメーションあるいはデータを送達する装置および方法、ならびに電子パーソナルインフォメーションあるいはデータを含むトランザクション
US6351747B1 (en) * 1999-04-12 2002-02-26 Multex.Com, Inc. Method and system for providing data to a user based on a user's query
US6571234B1 (en) 1999-05-11 2003-05-27 Prophet Financial Systems, Inc. System and method for managing online message board
IL133489A0 (en) * 1999-12-13 2001-04-30 Almondnet Inc A descriptive-profile mercantile method
US20020054089A1 (en) * 2000-03-14 2002-05-09 Nicholas Donald L. Method of selecting content for a user
JP2003085081A (ja) * 2000-07-25 2003-03-20 Nosu:Kk 情報配信サービスシステム
US7051070B2 (en) 2000-12-18 2006-05-23 Timothy Tuttle Asynchronous messaging using a node specialization architecture in the dynamic routing network
US8505024B2 (en) 2000-12-18 2013-08-06 Shaw Parsing Llc Storing state in a dynamic content routing network
US7680859B2 (en) * 2001-12-21 2010-03-16 Location Inc. Group Corporation a Massachusetts corporation Method for analyzing demographic data
US7434167B2 (en) 2002-09-30 2008-10-07 Microsoft Corporation Accessibility system and method
US7644367B2 (en) 2003-05-16 2010-01-05 Microsoft Corporation User interface automation framework classes and interfaces
US8127252B2 (en) 2003-11-07 2012-02-28 Microsoft Corporation Method and system for presenting user interface (UI) information
CN101189852B (zh) 2004-08-17 2012-10-03 肖分析有限公司 用于上游故障检测和故障恢复的技术
WO2006023459A1 (en) 2004-08-17 2006-03-02 Shaw Parsing Llc Techniques for delivering personalized content with a real-time routing network
WO2006023506A1 (en) 2004-08-17 2006-03-02 Shaw Parsing Llc Modular event-driven processing
JP4926167B2 (ja) * 2005-04-13 2012-05-09 インリア・インスティテュート・ナショナル・ドゥ・ルシェルチェ・アン・インフォマティック・エ・アン・アートマティック 公開モードと個別モードでの同時情報文脈配布システム
US9269273B1 (en) 2012-07-30 2016-02-23 Weongozi Inc. Systems, methods and computer program products for building a database associating n-grams with cognitive motivation orientations
WO2020051629A1 (en) * 2018-09-16 2020-03-19 Cameron Price System and method for delivering information to a user
CN111337931B (zh) * 2020-03-19 2022-11-15 哈尔滨工程大学 一种auv目标搜索方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003527001A (ja) * 2000-03-17 2003-09-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ データベースオブジェクトを格付けするための方法及び装置
JP2002150147A (ja) * 2000-08-29 2002-05-24 Yutaka Nishimura 情報提供システム及び方法並びに情報提供用プログラムを記録した記録媒体
JP2002109183A (ja) * 2000-10-04 2002-04-12 Dentsu Inc ブランドおよびビークルの近縁性の評価方法、システム、および記録媒体
JP2002133271A (ja) * 2000-10-25 2002-05-10 Nec Corp 広告自動配信システム
JP2002170035A (ja) * 2000-11-30 2002-06-14 Hitachi Ltd 情報提供方法及びその実施装置並びにそのデータを記録した記録媒体
JP2010514061A (ja) * 2006-12-22 2010-04-30 フォーム ユーケー インコーポレイテッド クライアントのネットワーク活動をチャネリングするためのシステム及び方法
JP2014238858A (ja) * 2009-09-08 2014-12-18 プライマル フュージョン インコーポレイテッド 消費者により提供されるコンテクストを用いたメッセージングの合成

Also Published As

Publication number Publication date
WO1997016796A1 (en) 1997-05-09
AU7674996A (en) 1997-05-22
MX9803418A (es) 1998-11-30
EP0941515A1 (en) 1999-09-15

Similar Documents

Publication Publication Date Title
US8171032B2 (en) Providing customized electronic information
US5754939A (en) System for generation of user profiles for a system for customized electronic identification of desirable objects
US6029195A (en) System for customized electronic identification of desirable objects
JPH11514764A (ja) 所望のオブジェクトのカスタム化された電子識別のためのシステム
Terveen et al. Beyond recommender systems: Helping people help each other
US7072846B1 (en) Clusters for rapid artist-audience matching
Holtz Public relations on the net: Winning strategies to inform and influence the media, the investment community, the government, the public, and more!
Ehrlich* et al. The invisible world of intermediaries: A cautionary tale
Vossen et al. Unleashing Web 2.0: From concepts to creativity
US8214386B2 (en) System and method for structured news release generation and distribution
KR100807871B1 (ko) 보상 광고 운영 방법
US20070255702A1 (en) Search Engine
US20050203800A1 (en) System and method for compounded marketing
US20070067297A1 (en) System and methods for a micropayment-enabled marketplace with permission-based, self-service, precision-targeted delivery of advertising, entertainment and informational content and relationship marketing to anonymous internet users
ZA200203195B (en) Verbal classification system for the efficient sending and receiving of information.
CN101073094A (zh) 通用网络营销系统
WO2011044174A1 (en) Contextualized telephony message management
Hallahan Online public relations
Kuchkovskiy et al. Application of Online Marketing Methods and SEO Technologies for Web Resources Analysis within the Region.
Stevenson Data, Trust, and Transparency in Personalized Advertising.
Charlesworth Key concepts in e-commerce
Wu et al. CEPTM: A Cross‐Edge Model for Diverse Personalization Service and Topic Migration in MEC
AU2008261113A1 (en) System for Customized Electronic Identification of Desirable Objects
AU1562402A (en) System for customized electronic identification of desirable objects
Militaru et al. A survey of collaborative filtering-based systems for online recommendation