JP5576842B2 - ユーザ特性間類似度計算方法 - Google Patents
ユーザ特性間類似度計算方法 Download PDFInfo
- Publication number
- JP5576842B2 JP5576842B2 JP2011204358A JP2011204358A JP5576842B2 JP 5576842 B2 JP5576842 B2 JP 5576842B2 JP 2011204358 A JP2011204358 A JP 2011204358A JP 2011204358 A JP2011204358 A JP 2011204358A JP 5576842 B2 JP5576842 B2 JP 5576842B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- document
- text
- cluster
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ver.net/directory/file.html"において、アドレス即ちユ
ニフォームリソースロケータ(URL)を有する。その表記法において、"http:"は、そのドキュメントが引き渡されるべきプロトコルを指定し、この場合、"HyperT
ext Transport Protocol(ハイパーテキスト転送プロトコル"であ
る。"www.server.net"は、そのドキュメントが常駐するコンピュータやサーバの名前を指定し、"directory"は、そのドキュメントが常駐するサーバ上のディレクトリやフォルダを指し、"file.html"は、そのファイルのネームを指定する。
、クラスタの選択及びその後に続く選択されたクラスタの再クラスタリングが反復的に行われる。それは、少なくとも二つのこと、即ち、各クラスタリングが異なる特徴(例えば、周りのテキスト、画像URL、画像カラーヒストグラム、その周りのジャンル)に実行できること、及び"マップ"機能が指定された特徴に関する最も類似するクラスタを識別すること、に関して、Scatter/Gatherパラダイムを拡張する。後者の機能は、特徴値の欠落に起因して除外されている追加の類似画像の識別を可能とする。画像クラスタは、各クラスタから少数の代表的画像を選択することによって表示される。
図1に最も良く図示されている。
各タイプの特徴ベクトルの計算は、以下でより詳細に記述される。しかしながら、以下に見られるように、幾つかの一般的な特徴が全ての表示に当てはまる。
、ここでntは、コレクション中の特異なワードの全数(ntはテキスト要素の数を表す)である。ベクトル空間への埋め込みは、以下のように定義される。
φt(d)i = tfdiicfi
ここで、dは、特定のドキュメントであり、iは、ワードのインデックスであり、φt(d)iは、ベクトルφt(d)の要素iである。トークン頻度重み(tf)と逆コンテキスト頻度重み(icf)は、情報検索において使用される用語頻度重み及び逆ドキュメント頻度重みの汎用化である。それらは次のように定義される。
ここでNciは、コンテキストc中の要素iの発生回数であり、Niは、iが発生するコン
テキストの数であり、Nは、コンテクストの全数である。テキストモダリティ、ワードの対応する要素、及びドキュメントに対応するコンテキストの場合、この定義は、情報検索フィールドにおける用語頻度重み及び逆ドキュメント頻度重みに対する標準の定義と一致する。
ンは、情報理論に基づく。log N/Niは、コンテキスト中の要素iの発生について学習する時にいくら多くの情報が得られるかの尺度として解釈され得る。ワード"the"が一つのドキュメントに発生することが学習される場合、(それが全てのドキュメントで発生すると仮定されると)重要な情報は得られない。しかしながら、フレーズ"Harry Truman"が一つのドキュメントで発生することが学習される場合、(そのフレーズ
が2,3のドキュメントのみで発生すると仮定すれば)多くの情報が提供される。
ここで、d1とd2は、二つの異なるドキュメントを表し、φt(d1)iは、ドキュメントd1
を表すi番目の項を表す。以下に更に詳細に議論されるように、ドキュメントの対同士間のコサイン距離は、テキスト特徴単独に基づきドキュメントをクラスタリングするために使用されることが出来又は他の特徴と組合せて使用されることが出来る。
ュメントのタイトル、ヘッダー及びキャプション中の特異のワードの全数である)中の"
主題"のモダリティを定義するためにドキュメントから分離される。この他の(又は追加
の)モダリティが上述されたテキストモダリティ(ドキュメントの完全なテキストのサブセットのみ殻のものを除き)と正確に同じ方法で引き出されるので、対応する特徴ベクトルと類似度を引出すために使用される公式は同じままである。
両実施の形態は、有用であることが検出され、必要ならば、交換的に又は共に使用され得る。例えば、(例えば、タイトル中のワードの各発生を、それがそのテキスト中に2回又は3回発生したかのように、処理することによって)タイトル、ヘッディング及びキャプションテキストをドキュメント中の他のテキストとは異なるように重み付けすることも可能である。一般的な提案として、ドキュメント中の全てのテキストがテキストベースのモダリティの目的のために同じように処理される必要は無いことが認識されるべきである。調節と重み付けが可能であり、幾つかの用途で利点があり得る。
ory/file.html"は、7の用語"http"、"www"、"server"、"net"、"directory"、"file"、及び"html"を含む。テキスト特徴に関
して、これらの用語の幾つかは、殆ど又は全く情報的値を含まない(この例では、"ht
tp"、"www"、"net"及び"html")。従って、トークン頻度重み及び逆コンテキスト頻度重み埋め込みがここでは十分適切である。再度図4を参照のこと。
次元は、実数によって表される)に埋め込まれ、ここで、nuは、コレクション中の全て
のドキュメントを識別する特異のURLの全数を表す(nuは、"URL要素の数"を表す
)。ベクトル空間への埋め込みは、以下のように表される。
φu(d)i = tfdiicfi
ここで、dは、特定のドキュメントであり、iは、ワードのインデックスであり、φu(d)iは、ベクトルφu(d)の要素iである。トークン頻度重み(tf)及び逆コンテキスト頻度重
み(icf)は、情報検索で使用される用語頻度重み及び逆ドキュメント頻度重みである。そ
れらは、以下のように定義される。
ここで、Nciは、コンテキストc中の要素iの発生回数であり、Niは、iが発生するコ
ンテキストの数であり、Nは、コンテキストの全数である。URLモダリティの場合、要素はURL用語に対応し、コンテキストは、ドキュメントに対応する。
に存在し、ここで、nlは、コレクション中に埋め込まれた個別のインリンクの全数(即ち、コレクション中のドキュメントの全数は、コレクション中の他のドキュメントに関連する)。アウトリンクベクトルは、Rnoに存在し、そこで、noは、コレクション中に埋め
込まれた個別のアウトリンクの全数(即ち、コレクション中又は外において、ドキュメントの総数は、コレクション中のドキュメントによって参照される)。コサイン類似度は、類似的に計算される。
トジャンルの数である。ドキュメントジャンルは、ドキュメントの解釈をガイドする文化的に定義されたドキュメントカテゴリである。ジャンルは、ドキュメントテキストではなくて、より大きなドキュメント環境(例えば、ニューヨークタイムズからナショナルエンクイアリを一目で区別するように働く物理的メディア、ピクチャー、等のような)によって合図される。二つの異なるジャンル中に存在する同じ情報は、二つの異なる解釈を導くかもしれない。例えば、ロー"At dawn the street was peaceful..."から始まるドキュメントは、小説の読者とは異なるようにタイムマガジンの
読者により解釈されるであろう。各ドキュメントタイプは、容易に認識され且つ文化的に定義されるジャンル構造を有し、この構造は、それが含む我々の情報の理解と解釈をガイドする。例えば、ニュースレポート、新聞の社説、カレンダー、新聞発表、短編小説は、可能なジャンルの全ての例である。ドキュメントの構造とジャンルは、しばしばドキュメント又はテキストの自動解析によって(少なくとも一部)決定され得る(ステップ510)。テキストジャンルは、常に決定出来得るとは限らないが、特に、ウエブページ(それはしばしば良好に定義されたジャンルを有するわけではないが)の場合、多くの既知の可能なジャンルに対して、確率スコアのベクトルを計算することが一般的に可能であり(ステップ512)、次に、そのベクトルは、テキスト用語ベクトルに関して上述された方法で、類似度を決定するために使用され得る(コサイン類似度計算を介して)。
2)である。好ましくは、一つの単一のカラーヒストグラムは、カラー特徴として使用される。この特徴空間は、HSV(その色相、彩度、及び明度のカラーモデル)へ変換され、二つのビンは、各次元に割り当てられる(ステップ610)。従って、カラー空間に対して三つの次元があり、各カラー次元に対して二つのビン(四つの値)があり、その結果、好ましいベクトル空間には、全12の次元がある。
なベクトルへ追加され得る。
ここで、φcは、追加されたベクトルを表す。
数である。他の実施の形態において、各ユーザのページアクセスは、2値とみなされる。それは、ユーザがページにアクセスした、その場合その対応するユーザのベクトルは対応する要素で"1"を有し、或いは、ユーザがページにアクセスしなかった、その場合対応する要素は"0"である。何れの場合においても、以下のコサイン距離メトリックは、(ユーザのページレファランスに関して)ユーザ間の類似度を計算するために使用され得る。
ここで、jは上述の適用可能モダリティを表すと共にその範囲に亘り、wjは各モダリテ
ィに対応する重み付けファクタ(好ましくは、単一ではあるが、必要に応じて調節可能である)を表す。次に、この集合類似度は、全ての可能な(又は実際の)モダリティの基づくドキュメント間の全体の類似度を表す。
クラスタリング
図心は、当該技術で公知の方法によって、即ち、対象となるベクトルの対応する項を平均することによって、計算される。
クトからランダムに選択される(ステップ914)。上述のように、kは、最終クラスタの望ましい数である。最後に、k個の初期オブジェクトbbbの各々に対して、k個の初期
オブジェクトの各々への図心aaa回りにk個のクラスタセンターcccを計算する。これらのクラスタセンターは以下のように計算される(ステップ916)。
ここで、i=1...kに対して、αの適切な値は0.9であることが判った。他の値でも有効である。
セットのランダムにピックアップされたオブジェクトへの途中でヒットされるオブジェクトが初期クラスタセンターとして選択されるからである。これらの初期センターは、多数のオブジェクトが一つの点に収束する場合に適切である。理由は、図心aaaは、その点へ
近接している傾向があるからである。これらの初期センターは、集中する領域を効率的に区分するのに良好に当てはまる。
本発明のシステム及び方法を示すため、マルチモード特徴の二つの用途がここで考察される。(1)マルチモードブラウジング及び検索と呼ばれるシステムにおいて対象となるドキュメントをユーザが識別することを助けることと(2)ユーザのコレクションとの対話のマルチモード解析(コレクション使用解析、即ちCUA)である。
一度に一つのタイプの特徴を使用してのマルチモードサーチとブラウジングは、図11乃至22に関連して最も良く示される。各特徴は、そのセットの画像をリファインするか対象となる画像の関連セットへマッピングするために使用される。従って、画像特徴は、テキスト特徴から独立して使用され、テキストがより適切に知覚される時のテキスト(例えば、セクションヘッディング、アブストラクトタイトル、画像アンカー中の"ALT"タグ)の使用と、画像特徴がそのようにより多い時の画像特徴の使用との間を人間のユーザがナビゲート出来る複数のクラスタリングを生成する。
が何を示すか?")か視覚的コンテント("その画像がどのように見えるか?")に基づい
て画像コレクションがブラウジングすることを望むことが出来る。画像検索システムは、画像を意味的情報で自動的に注釈することは、現在不可能なタスクであるために、しばしば手作業によるキーワード注釈や画像特徴のマッチングに基づく。そうとしても、手作業によりラベル付けされた画像コレクションは、画像が有することが出来る全ての可能な意味的重要度を含むことは出来ない。
roducts/special/image.jpg"、それは、唯共通の用語"www"、"company"、"com"、"products"、"special"、"image"、及び"jpg"を含む)。最初にURL特徴を有する画像を識別し、次に、他の一つの
特徴において類似する画像へマッピングすることによって、より多くの数の画像がサーチを再開したり、特徴重みの使用を必要とすることなく識別され得る。
タイピングし、"実行"ボタン1212を押すことによって開始する。ここで述べられるようにシステムとのユーザの対話が公知の方法で、例えば、実際の物理的ボタンとの相互作用により、マウスのようなポインティングデバイスと有するボタンのスクリーン上の表示の操作により、あまり多くはないがネームへのボイスコマンドより起こる。本発明のこの好適な実施の形態では、ユーザは、本発明を実施するソフトウエアプログラムによってウインドウ1214として提供されるマルチモード画像ブラウザと対話する。
(大聖堂)"を含む第1のテクストクラスタを再び分散することを決定する。そうするために、ユーザは、望ましいクラスタの次のチェックボックス1226を選択し、引き続いて"テキストクラスタ"ボタン1228を押す。上述のように、これによって、そのシステムが既存の選択されたクラスタをより小さな別々のクラスタにリファインする。
ncient"ビルディングとモニュメントを主とする画像を含む。画像クラスタは、1
418は、ロゴを含み、画像クラスタ1422は、種々雑多なアイテムを含むように現れる。
ney(紙幣)の画像を見つけ出すように試みている。図15に示されるように、"pa
per money"の初期照会が与えられ、且つ結果としてのテキストクラスタ1510、1512、1514、1516及び1518がディスプレイされる。第1のテキストクラスタ1510は、ワード"money(お金)"とワード"note(紙幣)"を含む。第2のテキストクラスタ1512は、ワード"paper(紙)"を含むが、それを囲むワードは望ましい意味のワードpaperが使用されていることを示さず、それによってこのクラスタは選択されない。お金が多くのカラーでプリントされるので、最初に画像特徴としてカラー複雑さメトリックが使用されるのが適切である。従って、第1のテキストクラスタ1510は、カラー複雑さ特徴に基づいて、第1のテキストクラスタ1510が分散され、結果としてのクラスタが図16に示されている。画像クラスタ1614と1618は、紙幣の画像を含み、それによってそれらは、(両方のクラスタを選択することによって)集められ、次にこの時にカラーヒストグラムに基づいて分散される。他の画像クラスタ1610、1612及び1616は、対象となる画像を含むようには現れず、それによってユーザはこれらを選択しない。
。戻されたテキストクラスタ1910、1912、1914、1916及び1918がディスプレイされる。ユーザは、複雑さ特徴に基づき分散されるべき第1のテキストクラスタ1910を選択し、結果としての画像クラスタからの代表画像が図20に示されている。ユーザは、第2及び第4の画像クラスタ2012と2016に石を含むアウトドアシーンがあることに気付き、カラーヒストグラム特徴に基づき、更なるクラスタリングのためにこれらを選択する。結果としての画像クラスタが図21に示されている。第1の画像クラスタ2110は、4つの画像を含み、且つ第1の画像はピラミッドの画像である。
トグラム拡張"ボタン2120を押すことによって)カラーに基づいて類似画像を含むよ
うに拡張されると、図22に示されているように、ピラミッドの他の画像2210が識別される。この画像は、テキスト無しで且つ意味のないURLと共にウエブページ上に発生し、それによって、カラーヒストグラム特徴に基づいてそれが検索された。
プ"機能は、一つ又はそれより多くの次元において値を欠落しているが対象となるある次
元における他の要素に類似するコレクション中の要素の識別することを可能とする。
拡張"ボタンが、全ての可能なモダリティを同時に操作することを容易にするために追加
出来、或いは可能なモダリティのリストアップ(テキスト、カラー複雑さ、カラーヒストグラム等)は、"クラスタ選択モダリティ"又は"拡張選択モダリティ"ボタンが起動されると、一つのモダリティが使用されるべきか、一度に複数のモダリティが使用されるべきかをユーザが指示することが出来るようにチェックボックス(及び任意ではあるが、ユーザ調節可能重み)が設けられ得る。次に、選択されたモダリティ上に集合類似度sim(d1,d2)が分散とマッピング機能のために使用される。
ユーザをユーザの癖に従ってクラスタリング使用とすると困難がある。幾つかのケースにおいて、ウエブサイトのユーザをクラスタリングするために利用出来る唯一の直接情報は、ユーザが何れのページを如何なる頻度でアクセスするかということである。残念ながら、これは、類似度を決定するためには十分な情報がないので、しばしば相互に排他的なページビューでユーザをクラスタリングすることが不可能となる。
数)とnu個のコラム(ユーザの全数)を有するページアクセスのマトリックスであると
する。各コラムは、関数φpによって発生されるベクトルに対応し、その微分は詳細に上
述している。例えば、ユーザ番号5に対応する第5コラムは、φp(u5)である。Tをnp個のコラム(ページの全数)とntコラム(ワードの全数)を有するテキストマトリックス
とする。上述のように、各コラムは関数φtによって生成されるベクトルに対応する。例
えば、ドキュメント番号7に対応する7番目のコラムはφt(d7)である。次に、ユーザの
テキスト表示が以下のように計算される。
PT = T・Pnt
ローとnuコラムを有するマトリックスであるこのマトリックスの内積は、各ユーザがア
クセスしたページのテキストコンテントの重み付け平均として解釈される。或いは、他の方法として、PTは、アクセスされたページのコンテンツへのページアクセスの補外とし
て解釈されてもよい。
づいて表される時、ユーザは、XC540ページ上に生じる"リーガルサイズ"又は"ペー
パトレイ"のようなワードによってPTに表される。このユーザのテキスト表示(PTにお
いける単一のコラムによって定義されるベクトル)複写機ページをアクセスする他のユーザのテキスト表示に類似する。そして、上述のように、コサイン距離メトリックは、クラスタリング目的のために、PTにおけるユーザ間の類似度を決定するために使用され得る
。この例は、媒介表示が類似度アセスメントとクラスタリングにおいて、どのように助けになるかを示す。
シュページ"(http://www.xerox.com/)から開始する、ゼロック
スウエブサイトを示し、引き続くディレクトリは、ディスクの中心から延出する同心リンクとして描かれる。これは、非対称ディスクを生成する。
ntre product(ゼロックスホームセンタープロダクト"について(about)"の場合、テキストモダリティに対する顕著な次元は、ワード"Homecentre(ホームセンター)"である。それがテキストベッドゼロックスウエブサイトに与えられる
と、20から50個のクラスタが生成した。各クラスタは、数百のユーザを含み、テキストフォームのクラスタ結果の識別、比較及び評価のタスクは驚くべきものである。この場合、ディスクツリー(上述の)は有用である。
ここで、|c|はクラスタc中のユーザの総数である。この可視化は、"密度プロット"と考えられ得る。直感的に、それは、このクラスタからの典型的なユーザが直面し得る問題に答える。本発明のこの好適な実施の形態において、全ての非0確率は、0.3から1.0のスケールにマッピングされ、それによってクラスタ中のユーザによって2,3回しか
アクセスされない偶数ページが明瞭に可視である。
タに対して表2に示されている。各モダリティ毎に、10個の最も顕著な次元がリストアップされる。10個の最も顕著なワード、このクラスタによってアクセスされたページを指す10個の最も顕著なページ、アクセスされたページ上に生じる10個の最も顕著なアウトリンク、アクセスされた10個の最も顕著なページ、及び10個の最も顕著なurlエレメントである。クラスタ(この場合、ユーザ)中にあるオブジェクトのみに基づいてクラスタを解釈し比較することは、大変なタスクである。顕著な次元によるテキストサマリーは、クラスタ及びユーザが同じクラスタに置かれた理由を理解するのを一層容易にする。
re"に対応し、2番目に大きな項は、ワード"detachable"に対応する。集合URL特徴ベクトルでは、最も重要なワードは、"products"であり、"dhc"が続く。
ブラウジングするユーザのクラスタである。経験的な解析において、このクラスタからのユーザが一般に幾つかの異なるドキュメントホームセンター製品に対応するサブ階層の幾つかのページを見ることが判った。明らかなように、これらのユーザは、ゼロックスウエブサイトに入り、利用出来る製品の範囲及び比較的広い範囲の情報を見ることを求める処理について学習する。
nnualreport(年報)"に対応し、他の領域2314は、サブ階層"factbook(ファクトブック)"に対応する。多くの投資家が両方を見るという事実は、コレ
クションが再編成されたて、これら二つのサブ階層が共に検出されるべきであることを提案する。
最後に、マルチモードユーザクラスタに基づく推奨システムは、上述されたように、マルチモードコレクション使用データのコレクションを有することが可能である。一セットのクラスタは、一トレーニングセットのユーザから導かれる。新たなユーザは、2,3回の初期ページアクセスに基づいてクラスタの一つへ割り当てられる。次に、割り当てられたクラスタ中のユーザによってアクセスされたページは、ユーザに推奨される。クラスタリングがマルチモード情報に基づいてなされるので、それは、有用な推奨を行うのに十分に頑強である。
表3は、確率P(p|u)(上記を参照:ページpの確率は我々がクラスタ35からのユーザuを有することが与えられる)の計算に基づいて、ユーザクラスタ35に対する最もポピュラーなページを示す。この情報は、ページ"products/copiers.
htm"をアクセスするあらゆるユーザへそのクラスタ中のその他のページ、即ち最もポ
ピュラーな複写機、を推奨することによって宣伝され得る。これらのリンクの幾つかは、ページ"products/copiers.htm"からアクセス可能である。このアルゴリズムは、ユーザが最も関連する可能性のあるリンクを選択することを容易とする。
この表は、ユーザクラスタ127に対する最も顕著なページを含む。このクラスタのコンテンツに基づいて、本システムは、種々の細分割のemployment(雇用)ページをジョブのために容易に適用するユーザへ推奨することが出来る。リストアップされたドキュメントは、中央のemploymentページ(数値識別子37057を有するその表の第2ページ)から直接にはアクセス出来ないゼロックスのウエブサイト上の幾つかのemploymentページを含む。二つのこのような直接にはアクセス出来ないページは"research/xrcc/jobopps.htm"と"XBS/employm
t.htm"である。このタイプの推奨によって、ユーザはユーザがそうでない場合(丁
度時間を節約することとは反対である)は全く発見できないかもしれない何かを発見することが出来る。上述されたものと同じアルゴリズムは、これを、即ち、(幾つかの初期ページアクセス後の)新たなユーザをユーザに割り当てそしてそのユーザがアクセスしなかったクラスタのページ特性を推奨すること、完成するために使用される。
これらのユーザは、ブラウジングしており、多分ジョブへの適用は容易ではなく、XBSのような指定の分割のemploymentページはユーザに推奨されない。表4と表5との間のコントラストは、マルチモードクラスタリングによって発見される汎用化の例である。第1のクラスタのユーザは、ユーザの概要を提出することが多いにあり得る。XBSのような細分割のemployment(雇用)ページをユーザに推奨することは優れたアイデアである。理由は、ユーザは、ジョブを見つけることについて厳しいと思うからである。
かえたものである。
110 ドキュメント
114 テキストベクトル
116 URLベクトル
112 特徴ベクトル
124 通信ネットワーク
122 プロセッサ
124 ネットワーク
126 データベース
128、130、132 ユーザ端末
Claims (2)
- コンピュータが実行する、ドキュメントコレクションのユーザ集団内の二人のユーザの特性間の類似度を計算するユーザ特性間類似度計算方法であって、
各ユーザは、ユーザ特徴を表す複数の次元のベクトルに関連付けられ、
前記ドキュメントコレクション内の各ドキュメントは、ドキュメント特徴を表す少なくとも1つの複数の次元のベクトルに関連付けられ、
前記ユーザ特徴は、各ユーザについての少なくともドキュメントの参照履歴を表し、
前記ユーザ特性間類似度計算方法は、
第1のユーザに対応する第1のベクトルと第2のユーザに対応する第2のベクトルとを識別するステップであって、前記第1のベクトルは、前記第1のユーザによってアクセスされた前記ドキュメントコレクション内のドキュメントに対応する前記ドキュメント特徴を介して前記第1のユーザの媒介表示を表し、前記第2のベクトルは、前記第2のユーザによってアクセスされた前記ドキュメントコレクション内のドキュメントに対応する前記ドキュメント特徴を介して前記第2のユーザの媒介表示を表す、該識別するステップと、
前記第1のベクトルと前記第2のベクトルとの間の第1の距離メトリックを計算するステップと、
を備え、
前記第1のユーザ及び前記第2のユーザの各々の前記媒介表示は、
各々前記ドキュメント特徴によって前記ドキュメントコレクション内のドキュメントを表す第1の複数のコラムベクトルを含む第1のマトリックスと、
各々ドキュメントアクセスによって前記ユーザ集団のうちのユーザを表す第2の複数のコラムベクトルを含む第2のマトリックスと、
を乗算することにより計算される
ユーザ特性間類似度計算方法。 - 前記ユーザ特性間類似度計算方法は、前記コンピュータが実行する、前記ドキュメントコレクション内の2つのドキュメントの間の類似度を計算することを更に実行し、
各ドキュメントは、該ドキュメント内に含まれる画像の色の複雑さの特徴を表す少なくとも2つの複数の次元のベクトルに関連付けられ、
前記ドキュメント間の類似度の計算は、
テキスト情報の参照のない第1のドキュメントに対応する第1の水平方向の複雑さのベクトル、テキスト情報の参照のない前記第1のドキュメントに対応する第1の垂直方向の複雑さのベクトル、テキスト情報の参照のない第2のドキュメントに対応する第2の水平方向の複雑さのベクトル、及びテキスト情報の参照のない前記第2のドキュメントに対応する第2の垂直方向の複雑さのベクトルを識別するステップと、
前記第1の水平方向の複雑さのベクトルと前記第2の水平方向の複雑さのベクトルとの間のコサイン類似度と、前記第1の垂直方向の複雑さのベクトルと前記第2の垂直方向の複雑さのベクトルとの間のコサイン類似度と、の正規化された合計である、前記第1のドキュメントと前記第2のドキュメントとの間の距離メトリックを計算するステップと、
により行う、
ことを特徴とする請求項1に記載のユーザ特性間類似度計算方法。
Applications Claiming Priority (14)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11746299P | 1999-01-26 | 1999-01-26 | |
US117462 | 1999-01-26 | ||
US425039 | 1999-10-19 | ||
US09/421,767 US6941321B2 (en) | 1999-01-26 | 1999-10-19 | System and method for identifying similarities among objects in a collection |
US421419 | 1999-10-19 | ||
US09/425,039 US6598054B2 (en) | 1999-01-26 | 1999-10-19 | System and method for clustering data objects in a collection |
US425038 | 1999-10-19 | ||
US421416 | 1999-10-19 | ||
US421767 | 1999-10-19 | ||
US09/425,038 US6567797B1 (en) | 1999-01-26 | 1999-10-19 | System and method for providing recommendations based on multi-modal user clusters |
US09/421,770 US6728752B1 (en) | 1999-01-26 | 1999-10-19 | System and method for information browsing using multi-modal features |
US09/421,419 US6564202B1 (en) | 1999-01-26 | 1999-10-19 | System and method for visually representing the contents of a multiple data object cluster |
US09/421,416 US6922699B2 (en) | 1999-01-26 | 1999-10-19 | System and method for quantitatively representing data objects in vector space |
US421770 | 1999-10-19 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010140222A Division JP4874413B2 (ja) | 1999-01-26 | 2010-06-21 | オブジェクト間類似度計算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011253570A JP2011253570A (ja) | 2011-12-15 |
JP5576842B2 true JP5576842B2 (ja) | 2014-08-20 |
Family
ID=27568750
Family Applications (7)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000016705A Expired - Fee Related JP4587512B2 (ja) | 1999-01-26 | 2000-01-26 | ドキュメントデータ照会装置 |
JP2010140220A Expired - Fee Related JP4854799B2 (ja) | 1999-01-26 | 2010-06-21 | ドキュメント推奨を行う方法 |
JP2010140221A Pending JP2010205306A (ja) | 1999-01-26 | 2010-06-21 | オブジェクト量的表現方法 |
JP2010140223A Expired - Lifetime JP4768073B2 (ja) | 1999-01-26 | 2010-06-21 | 初期クラスタセンタセット選択方法、ウエーブフロントクラスタリング方法 |
JP2010140224A Expired - Fee Related JP4768074B2 (ja) | 1999-01-26 | 2010-06-21 | ユーザクラスタ視認可能方法 |
JP2010140222A Expired - Fee Related JP4874413B2 (ja) | 1999-01-26 | 2010-06-21 | オブジェクト間類似度計算方法 |
JP2011204358A Expired - Fee Related JP5576842B2 (ja) | 1999-01-26 | 2011-09-20 | ユーザ特性間類似度計算方法 |
Family Applications Before (6)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000016705A Expired - Fee Related JP4587512B2 (ja) | 1999-01-26 | 2000-01-26 | ドキュメントデータ照会装置 |
JP2010140220A Expired - Fee Related JP4854799B2 (ja) | 1999-01-26 | 2010-06-21 | ドキュメント推奨を行う方法 |
JP2010140221A Pending JP2010205306A (ja) | 1999-01-26 | 2010-06-21 | オブジェクト量的表現方法 |
JP2010140223A Expired - Lifetime JP4768073B2 (ja) | 1999-01-26 | 2010-06-21 | 初期クラスタセンタセット選択方法、ウエーブフロントクラスタリング方法 |
JP2010140224A Expired - Fee Related JP4768074B2 (ja) | 1999-01-26 | 2010-06-21 | ユーザクラスタ視認可能方法 |
JP2010140222A Expired - Fee Related JP4874413B2 (ja) | 1999-01-26 | 2010-06-21 | オブジェクト間類似度計算方法 |
Country Status (3)
Country | Link |
---|---|
EP (5) | EP2178008A3 (ja) |
JP (7) | JP4587512B2 (ja) |
DE (1) | DE60044220D1 (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL133489A0 (en) | 1999-12-13 | 2001-04-30 | Almondnet Inc | A descriptive-profile mercantile method |
AUPR033800A0 (en) * | 2000-09-25 | 2000-10-19 | Telstra R & D Management Pty Ltd | A document categorisation system |
FR2822261A1 (fr) * | 2001-03-16 | 2002-09-20 | Thomson Multimedia Sa | Procede de navigation par calcul de groupes, recepteur mettant en oeuvre le procede, et interface graphique pour la presentation du procede |
US7260643B2 (en) * | 2001-03-30 | 2007-08-21 | Xerox Corporation | Systems and methods for identifying user types using multi-modal clustering and information scent |
EP1428139B1 (en) | 2001-08-14 | 2015-06-03 | Microsoft Technology Licensing, LLC | System and method for extracting content for submission to a search engine |
US6888548B1 (en) | 2001-08-31 | 2005-05-03 | Attenex Corporation | System and method for generating a visualized data representation preserving independent variable geometric relationships |
US6778995B1 (en) | 2001-08-31 | 2004-08-17 | Attenex Corporation | System and method for efficiently generating cluster groupings in a multi-dimensional concept space |
US6978274B1 (en) | 2001-08-31 | 2005-12-20 | Attenex Corporation | System and method for dynamically evaluating latent concepts in unstructured documents |
US7271804B2 (en) | 2002-02-25 | 2007-09-18 | Attenex Corporation | System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area |
WO2004010331A1 (en) | 2002-07-23 | 2004-01-29 | Quigo Technologies Inc. | System and method for automated mapping of keywords and key phrases to documents |
US7610313B2 (en) | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
US7191175B2 (en) | 2004-02-13 | 2007-03-13 | Attenex Corporation | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
JP4634736B2 (ja) * | 2004-04-22 | 2011-02-16 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム |
JP2006146628A (ja) * | 2004-11-22 | 2006-06-08 | Hitachi Ltd | 内容画像による文書検索方法および装置 |
US7404151B2 (en) | 2005-01-26 | 2008-07-22 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
US7356777B2 (en) | 2005-01-26 | 2008-04-08 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
JP4597714B2 (ja) * | 2005-03-01 | 2010-12-15 | Kddi株式会社 | 情報検索装置および方法ならびにコンピュータプログラム |
US9195752B2 (en) | 2007-12-20 | 2015-11-24 | Yahoo! Inc. | Recommendation system using social behavior analysis and vocabulary taxonomies |
GB0818089D0 (en) * | 2008-10-03 | 2008-11-05 | Eastman Kodak Co | Interactive image selection method |
JP4920661B2 (ja) * | 2008-10-31 | 2012-04-18 | ヤフー株式会社 | インデックス生成方法、プログラム及びサーバ |
US8635223B2 (en) | 2009-07-28 | 2014-01-21 | Fti Consulting, Inc. | System and method for providing a classification suggestion for electronically stored information |
US8612446B2 (en) | 2009-08-24 | 2013-12-17 | Fti Consulting, Inc. | System and method for generating a reference set for use during document review |
CN102918526A (zh) * | 2010-06-07 | 2013-02-06 | 瑞典爱立信有限公司 | 用于组织图像的方法和设备 |
JP4979842B1 (ja) | 2011-06-30 | 2012-07-18 | パナソニック株式会社 | 類似症例検索装置および類似症例検索方法 |
US9846696B2 (en) | 2012-02-29 | 2017-12-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Apparatus and methods for indexing multimedia content |
US9633015B2 (en) | 2012-07-26 | 2017-04-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Apparatus and methods for user generated content indexing |
US9110983B2 (en) * | 2012-08-17 | 2015-08-18 | Intel Corporation | Traversing data utilizing data relationships |
JP6041203B2 (ja) * | 2012-11-02 | 2016-12-07 | 公立大学法人大阪市立大学 | 画像検索装置、画像検索方法及び画像検索プログラム |
CN103218419B (zh) * | 2013-03-29 | 2016-08-31 | 新浪网技术(中国)有限公司 | 网络标签聚类方法和系统 |
WO2014185834A1 (en) * | 2013-05-14 | 2014-11-20 | Telefonaktiebolaget L M Ericsson (Publ) | Search engine for textual content and non-textual content |
US10311038B2 (en) | 2013-08-29 | 2019-06-04 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods, computer program, computer program product and indexing systems for indexing or updating index |
US10289810B2 (en) | 2013-08-29 | 2019-05-14 | Telefonaktiebolaget Lm Ericsson (Publ) | Method, content owner device, computer program, and computer program product for distributing content items to authorized users |
CN103942302B (zh) * | 2014-04-16 | 2017-04-19 | 苏州大学 | 一种相关反馈间关系网络的构建与应用方法 |
JP2016110256A (ja) | 2014-12-03 | 2016-06-20 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
CN106156166B (zh) * | 2015-04-16 | 2020-11-10 | 深圳市腾讯计算机系统有限公司 | 关系链查询系统、文档检索方法、索引建立方法及装置 |
US11068546B2 (en) | 2016-06-02 | 2021-07-20 | Nuix North America Inc. | Computer-implemented system and method for analyzing clusters of coded documents |
CN105915555B (zh) * | 2016-06-29 | 2020-02-18 | 北京奇虎科技有限公司 | 网络异常行为的检测方法及系统 |
US11477302B2 (en) | 2016-07-06 | 2022-10-18 | Palo Alto Research Center Incorporated | Computer-implemented system and method for distributed activity detection |
CN108965687B (zh) * | 2017-05-22 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 拍摄方向识别方法、服务器及监控方法、系统及摄像设备 |
KR102255339B1 (ko) * | 2018-04-12 | 2021-05-24 | 한국전자통신연구원 | 인터넷 오브 미디어 정보 생성 방법 및 장치 |
CN109117869B (zh) * | 2018-07-20 | 2021-09-17 | 汉纳森(厦门)数据股份有限公司 | 用户画像方法、介质及系统 |
CN109285030A (zh) * | 2018-08-29 | 2019-01-29 | 深圳壹账通智能科技有限公司 | 产品推荐方法、装置、终端及计算机可读存储介质 |
CN110196943A (zh) * | 2019-04-22 | 2019-09-03 | 苏州同者信息科技有限公司 | 一种职位智能推荐系方法及其系统 |
CN111008332B (zh) * | 2019-12-03 | 2023-04-07 | 深圳市雅阅科技有限公司 | 内容项推荐方法、装置、服务器以及存储介质 |
CN111159539B (zh) * | 2019-12-09 | 2023-09-22 | 中国科学院计算技术研究所 | 基于多模态信息关联分析的食物推荐方法和系统 |
CN116028617B (zh) * | 2022-12-06 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 资讯推荐方法、装置、设备、可读存储介质及程序产品 |
KR102597595B1 (ko) * | 2023-01-13 | 2023-11-03 | (주) 포테이토프로젝트 | 디지털 골프 잡지를 발행하기 위한 장치 및 방법 |
CN116910232B (zh) * | 2023-09-13 | 2024-01-09 | 之江实验室 | 天文文献检索方法和天文文献搜索方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5442778A (en) | 1991-11-12 | 1995-08-15 | Xerox Corporation | Scatter-gather: a cluster-based method and apparatus for browsing large document collections |
US5758257A (en) * | 1994-11-29 | 1998-05-26 | Herz; Frederick | System and method for scheduling broadcast of and access to video programs and other data using customer profiles |
JPH08190578A (ja) * | 1995-01-04 | 1996-07-23 | Hitachi Ltd | 設計支援装置 |
IL118580A0 (en) * | 1995-06-30 | 1996-10-16 | Massachusetts Inst Technology | Method and apparatus for item recommendation using automated collaborative filtering |
JPH09168028A (ja) * | 1995-12-18 | 1997-06-24 | Nec Corp | 電子メールの配布先決定方法及び装置 |
US5790426A (en) * | 1996-04-30 | 1998-08-04 | Athenium L.L.C. | Automated collaborative filtering system |
JPH09325937A (ja) * | 1996-06-07 | 1997-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 履歴を利用した情報提供方法および装置 |
JPH10171823A (ja) * | 1996-12-09 | 1998-06-26 | Mitsubishi Electric Corp | 文書の自動分類方法およびその装置 |
JP4134357B2 (ja) * | 1997-05-15 | 2008-08-20 | 株式会社日立製作所 | 分散データ管理方法 |
JPH11224256A (ja) * | 1998-02-05 | 1999-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法および情報検索プログラムを記録した記録媒体 |
-
2000
- 2000-01-24 DE DE60044220T patent/DE60044220D1/de not_active Expired - Lifetime
- 2000-01-24 EP EP10150975A patent/EP2178008A3/en not_active Withdrawn
- 2000-01-24 EP EP10150973A patent/EP2178007A3/en not_active Withdrawn
- 2000-01-24 EP EP10150972A patent/EP2178006A3/en not_active Withdrawn
- 2000-01-24 EP EP10183652A patent/EP2284733A3/en not_active Withdrawn
- 2000-01-24 EP EP00101367A patent/EP1024437B1/en not_active Expired - Lifetime
- 2000-01-26 JP JP2000016705A patent/JP4587512B2/ja not_active Expired - Fee Related
-
2010
- 2010-06-21 JP JP2010140220A patent/JP4854799B2/ja not_active Expired - Fee Related
- 2010-06-21 JP JP2010140221A patent/JP2010205306A/ja active Pending
- 2010-06-21 JP JP2010140223A patent/JP4768073B2/ja not_active Expired - Lifetime
- 2010-06-21 JP JP2010140224A patent/JP4768074B2/ja not_active Expired - Fee Related
- 2010-06-21 JP JP2010140222A patent/JP4874413B2/ja not_active Expired - Fee Related
-
2011
- 2011-09-20 JP JP2011204358A patent/JP5576842B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP2284733A2 (en) | 2011-02-16 |
JP2000339350A (ja) | 2000-12-08 |
EP2178006A2 (en) | 2010-04-21 |
DE60044220D1 (de) | 2010-06-02 |
JP2010250849A (ja) | 2010-11-04 |
EP2178008A3 (en) | 2010-09-01 |
JP2010267277A (ja) | 2010-11-25 |
JP4587512B2 (ja) | 2010-11-24 |
EP2178008A2 (en) | 2010-04-21 |
JP2010218579A (ja) | 2010-09-30 |
EP1024437B1 (en) | 2010-04-21 |
EP2284733A3 (en) | 2011-05-25 |
JP2010205306A (ja) | 2010-09-16 |
JP4768074B2 (ja) | 2011-09-07 |
EP1024437A3 (en) | 2005-12-21 |
JP2010262662A (ja) | 2010-11-18 |
JP2011253570A (ja) | 2011-12-15 |
JP4874413B2 (ja) | 2012-02-15 |
EP2178007A2 (en) | 2010-04-21 |
JP4768073B2 (ja) | 2011-09-07 |
EP2178006A3 (en) | 2011-04-13 |
EP2178007A3 (en) | 2010-08-25 |
JP4854799B2 (ja) | 2012-01-18 |
EP1024437A2 (en) | 2000-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5576842B2 (ja) | ユーザ特性間類似度計算方法 | |
US6598054B2 (en) | System and method for clustering data objects in a collection | |
US6567797B1 (en) | System and method for providing recommendations based on multi-modal user clusters | |
US6564202B1 (en) | System and method for visually representing the contents of a multiple data object cluster | |
US6728752B1 (en) | System and method for information browsing using multi-modal features | |
US6941321B2 (en) | System and method for identifying similarities among objects in a collection | |
US6922699B2 (en) | System and method for quantitatively representing data objects in vector space | |
US10528650B2 (en) | User interface for presentation of a document | |
US8019752B2 (en) | System and method for information retrieval from object collections with complex interrelationships | |
US6647383B1 (en) | System and method for providing interactive dialogue and iterative search functions to find information | |
US7548936B2 (en) | Systems and methods to present web image search results for effective image browsing | |
US7624130B2 (en) | System and method for exploring a semantic file network | |
US20040267740A1 (en) | Image retrieval systems and methods with semantic and feature based relevance feedback | |
US8930822B2 (en) | Method for human-centric information access and presentation | |
Tiwari | Entity identification on the web | |
Xu | WebRank: A Web ranked query system based on rough sets. | |
Wen et al. | A search engine for images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130423 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130723 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131112 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140212 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140617 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140704 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5576842 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |