JP5538510B2 - 集合の類似性に基づく拡張性に富むユーザクラスタリング - Google Patents
集合の類似性に基づく拡張性に富むユーザクラスタリング Download PDFInfo
- Publication number
- JP5538510B2 JP5538510B2 JP2012252056A JP2012252056A JP5538510B2 JP 5538510 B2 JP5538510 B2 JP 5538510B2 JP 2012252056 A JP2012252056 A JP 2012252056A JP 2012252056 A JP2012252056 A JP 2012252056A JP 5538510 B2 JP5538510 B2 JP 5538510B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- particular user
- clusters
- data
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
map (String key, String value):
// key: document name
// value: document contents
for each word w in value:
Emitlntermediate (w, "1") ;
reduce (String key, Iterator values):
// key: a word
// values: a list of counts
int result = 0;
for each v in values:
result += Parselnt (v) ;
Emit (AsString (result) ) ;
map(k1, v1)→list(k2, v2)
reduce(k2, list(v2))→list(v2)
すなわち、入力keyおよび入力valueは、出力keyおよび出力valueとは別のドメインから引き出される。さらに、中間keyおよび中間valueは、出力keyおよび出力valueと同じドメインから引き出される。
do
initialize sum = 0;
for all <term_j, weight_j> pairs in the user's list:
do
if (fingerprint (term_j + s_((i-l)*8 + b)) has least significant bit = 1)
sum = sum + weight_j
else
sum = sum - weight_j
done
if (sum > 0)
b-th bit of i-th hash value is set to 1.
else
b-th bit of i-th hash value is set to 0.
done.
404 通信ネットワーク
410 ニュース推奨エンジン
420 ニュースサービス
430 ウェブサーバ
440 ログ
Claims (22)
- 1つまたは複数のコンピュータと、該1つまたは複数のコンピュータに接続され、命令が記憶されたコンピュータ読み取り可能な媒体と、を備えるシステムであって、
前記命令は、前記1つまたは複数のコンピュータによって実行されるとき、前記1つまたは複数のコンピュータに動作を実行させ、
前記動作は、
特定のユーザが1つまたは複数のウェブアプリケーションとの相互作用を通して興味を示した品目を表わすデータ要素の集合を取得し、
前記データ要素の各々に指紋関数およびk個の異なるシード値を適用してk個のミンハッシュ値の集合を生成することを含み、kは整数のパラメータであり、各々のミンハッシュ値は前記データ要素の集合のそれぞれのデータ要素に対応し、
前記動作は、前記特定のユーザをk個のクラスタに割り当てることをさらに含み、k個のクラスタの各々は前記k個のミンハッシュ値のうちそれぞれ対応する1つによって表わされるシステム。 - 前記データ要素はテキスト列または2進データである請求項1に記載のシステム。
- 前記指紋関数およびk個の異なるシード値を適用することは、
前記データ要素の各々に指紋関数およびそれぞれのシード値を適用することによって、前記k個の異なるシード値の各々についてi個のハッシュ値を生成し、
前記k個の異なるシード値の各々について、前記それぞれのシード値について生成されたi個のハッシュ値の中から最小のハッシュ値を選択し、
前記k個のそれぞれの最小のハッシュ値をk個のミンハッシュ値の集合と定めることをさらに含み、
iは前記集合におけるデータ要素の数を表わす請求項1に記載のシステム。 - kは、5と10を含む、5と10の間の整数パラメータである請求項1に記載のシステム。
- 各々の品目は、前記特定のユーザが選択した検索結果またはニュース記事である請求項1に記載のシステム。
- 各々の品目は、前記特定のユーザが購入した、または、買い物カートに追加した品目である請求項1に記載のシステム。
- 各々の品目は、ウェブページ間をナビゲートするために前記特定のユーザによってなされた一連の選択を表わす請求項1に記載のシステム。
- 前記動作は、データの対の寄集めを取得することをさらに含み、各々のデータの対は、ユーザおよび該ユーザが興味を示した品目を識別し、
前記データ要素の集合を取得することは、前記特定のユーザを識別するデータをキーとして使用するreduceルーチンによって前記データの対の寄集めを処理することをさらに含む請求項1に記載のシステム。 - 前記指紋関数はRAND関数であり、かつ、ハッシュ値は32ビットの整数値であるか、または、
前記指紋関数はMD5一方向ハッシュアルゴリズムを実行する関数であり、かつ、ハッシュ値は128ビットの値である請求項1に記載のシステム。 - 前記特定のユーザをk個のクラスタに割り当てることは、他のいずれのユーザをk個のクラスタのいずれに割り当てること、または、割り当てないことにも影響せずに行われる請求項1に記載のシステム。
- 前記動作は、
前記特定のユーザが前記品目に見せかけの興味を示したと判定し、
他のいずれのユーザをk個のクラスタのいずれに割り当てることにも影響せずに、前記k個のミンハッシュ値によって表わされるk個のクラスタから前記特定のユーザを割り当て解除することをさらに含む請求項1に記載のシステム。 - 前記動作は、前記特定のユーザが興味を示した品目を前記特定のユーザが明かそうと決心したことを前記コンピュータに入力したと判定することをさらに含み、
前記特定のユーザをk個のクラスタに割り当てることは、前記特定のユーザが興味を示した品目を前記特定のユーザが明かそうと決心したことを前記コンピュータに入力したと判定したことに応答して、前記特定のユーザをk個のクラスタに割り当てることをさらに含む請求項1に記載のシステム。 - 前記動作は、前記特定のユーザが興味を示した品目を前記特定のユーザが編集したと判定することをさらに含み、
前記特定のユーザをk個のクラスタに割り当てることは、前記特定のユーザが興味を示した品目を前記特定のユーザが編集したと判定したことに応答して、前記特定のユーザをk個のクラスタに割り当てることをさらに含む請求項1に記載のシステム。 - コンピュータに実装される方法であって、
特定のユーザが1つまたは複数のウェブアプリケーションとの相互作用を通して興味を示した品目を表わすデータ要素の集合を取得するステップと、
前記データ要素の各々に指紋関数およびk個の異なるシード値を適用してk個のミンハッシュ値の集合を生成するステップと、を含み、kは整数のパラメータであり、各々のミンハッシュ値は前記データ要素の集合のそれぞれのデータ要素に対応し、
前記方法は、1つまたは複数のコンピュータにより、前記特定のユーザをk個のクラスタに割り当てるステップをさらに含み、k個のクラスタの各々は前記k個のミンハッシュ値のうちそれぞれ対応する1つによって表わされる方法。 - コンピュータプログラムで符号化されたコンピュータ記憶媒体であって、
前記コンピュータプログラムは、1つまたは複数のコンピュータによって実行されるとき、前記1つまたは複数のコンピュータに動作を実行させる命令を含み、
前記動作は、
特定のユーザが1つまたは複数のウェブアプリケーションとの相互作用を通して興味を示した品目を表わすデータ要素の集合を取得し、
前記データ要素の各々に指紋関数およびk個の異なるシード値を適用してk個のミンハッシュ値の集合を生成することを含み、kは整数のパラメータであり、各々のミンハッシュ値は前記データ要素の集合のそれぞれのデータ要素に対応し、
前記動作は、前記特定のユーザをk個のクラスタに割り当てることをさらに含み、k個のクラスタの各々は前記k個のミンハッシュ値のうちそれぞれ対応する1つによって表わされるコンピュータ記憶媒体。 - 前記指紋関数およびk個の異なるシード値を適用することは、
前記データ要素の各々に指紋関数およびそれぞれのシード値を適用することによって、前記k個の異なるシード値の各々についてi個のハッシュ値を生成し、
前記k個の異なるシード値の各々について、前記それぞれのシード値について生成されたi個のハッシュ値の中から最小のハッシュ値を選択し、
前記k個のそれぞれの最小のハッシュ値をk個のミンハッシュ値の集合と定めることをさらに含み、
iは前記集合におけるデータ要素の数を表わす請求項15に記載のコンピュータ記憶媒体。 - 前記動作は、データの対の寄集めを取得することをさらに含み、各々のデータの対は、ユーザおよび該ユーザが興味を示した品目を識別し、
前記データ要素の集合を取得することは、前記特定のユーザを識別するデータをキーとして使用するreduceルーチンによって前記データの対の寄集めを処理することをさらに含む請求項15に記載のコンピュータ記憶媒体。 - 前記特定のユーザをk個のクラスタに割り当てることは、他のいずれのユーザをk個のクラスタのいずれに割り当てること、または、割り当てないことにも影響せずに行われる請求項15に記載のコンピュータ記憶媒体。
- 前記動作は、
前記特定のユーザが前記品目に見せかけの興味を示したと判定し、
他のいずれのユーザをk個のクラスタのいずれに割り当てることにも影響せずに、前記k個のミンハッシュ値によって表わされるk個のクラスタから前記特定のユーザを割り当て解除することをさらに含む請求項15に記載のコンピュータ記憶媒体。 - 前記動作は、前記特定のユーザが興味を示した品目を前記特定のユーザが明かそうと決心したことを前記コンピュータに入力したと判定することをさらに含み、
前記特定のユーザをk個のクラスタに割り当てることは、前記特定のユーザが興味を示した品目を前記特定のユーザが明かそうと決心したことを前記コンピュータに入力したと判定したことに応答して、前記特定のユーザをk個のクラスタに割り当てることをさらに含む請求項15に記載のコンピュータ記憶媒体。 - プロセッサにより、指紋関数、ランダムに選択されたk個のシード値からなる順序集合、および各ユーザの興味集合中の要素を用いて値を計算し、計算された値のうち前記順序集合の各要素に対する最小値を使用してデータ処理システムのユーザをk個のクラスタに割り当てるステップを含み、kは1より大きい整数であり、前記興味集合中の各要素は、前記データ処理システムを使用する前記ユーザによる行動を通して前記ユーザが興味を示した品目を表わす
ことを特徴とするデータ処理システムの作動方法。 - データ処理システムを使用する複数ユーザによって選択された品目のログと、
指紋関数、ランダムに選択されたk個のシード値、および各ユーザによって選択された品目のログを用いて値を計算し、計算された値のうち各シード値に対する最小値を使用して前記複数ユーザの各々をk個(ここでkは1より大きい整数)のクラスタに割り当てる手段と、
k個のクラスタの1つ以上への第1のユーザの前記割り当てに基づいて前記複数ユーザ中の前記第1のユーザに情報を提供できる協調フィルタリングのコンピュータプログラムアプリケーションと
を含むことを特徴とするシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/204,922 | 2005-08-15 | ||
US11/204,922 US7739314B2 (en) | 2005-08-15 | 2005-08-15 | Scalable user clustering based on set similarity |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008527069A Division JP5230421B2 (ja) | 2005-08-15 | 2006-08-15 | 集合の類似性に基づく拡張性に富むユーザクラスタリング |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013033551A JP2013033551A (ja) | 2013-02-14 |
JP5538510B2 true JP5538510B2 (ja) | 2014-07-02 |
Family
ID=37743789
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008527069A Expired - Fee Related JP5230421B2 (ja) | 2005-08-15 | 2006-08-15 | 集合の類似性に基づく拡張性に富むユーザクラスタリング |
JP2012252056A Expired - Fee Related JP5538510B2 (ja) | 2005-08-15 | 2012-11-16 | 集合の類似性に基づく拡張性に富むユーザクラスタリング |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008527069A Expired - Fee Related JP5230421B2 (ja) | 2005-08-15 | 2006-08-15 | 集合の類似性に基づく拡張性に富むユーザクラスタリング |
Country Status (6)
Country | Link |
---|---|
US (4) | US7739314B2 (ja) |
EP (1) | EP1915669A4 (ja) |
JP (2) | JP5230421B2 (ja) |
CN (2) | CN101535944A (ja) |
CA (1) | CA2619076C (ja) |
WO (1) | WO2007022199A2 (ja) |
Families Citing this family (160)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6658423B1 (en) * | 2001-01-24 | 2003-12-02 | Google, Inc. | Detecting duplicate and near-duplicate files |
US7505964B2 (en) | 2003-09-12 | 2009-03-17 | Google Inc. | Methods and systems for improving a search ranking using related queries |
US7756919B1 (en) | 2004-06-18 | 2010-07-13 | Google Inc. | Large-scale data processing in a distributed and parallel processing enviornment |
US9065727B1 (en) | 2012-08-31 | 2015-06-23 | Google Inc. | Device identifier similarity models derived from online event signals |
US7937265B1 (en) | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
US7617231B2 (en) * | 2005-12-07 | 2009-11-10 | Electronics And Telecommunications Research Institute | Data hashing method, data processing method, and data processing system using similarity-based hashing algorithm |
US7624117B2 (en) * | 2006-06-12 | 2009-11-24 | Sap Ag | Complex data assembly identifier thesaurus |
US8015162B2 (en) * | 2006-08-04 | 2011-09-06 | Google Inc. | Detecting duplicate and near-duplicate files |
US8190610B2 (en) * | 2006-10-05 | 2012-05-29 | Yahoo! Inc. | MapReduce for distributed database processing |
JP5233220B2 (ja) * | 2006-10-11 | 2013-07-10 | 株式会社リコー | ページ付加情報共有管理方法 |
US20080104066A1 (en) * | 2006-10-27 | 2008-05-01 | Yahoo! Inc. | Validating segmentation criteria |
US9110975B1 (en) | 2006-11-02 | 2015-08-18 | Google Inc. | Search result inputs using variant generalized queries |
US8661029B1 (en) | 2006-11-02 | 2014-02-25 | Google Inc. | Modifying search result ranking based on implicit user feedback |
US7801885B1 (en) | 2007-01-25 | 2010-09-21 | Neal Akash Verma | Search engine system and method with user feedback on search results |
US8135718B1 (en) | 2007-02-16 | 2012-03-13 | Google Inc. | Collaborative filtering |
US8407226B1 (en) | 2007-02-16 | 2013-03-26 | Google Inc. | Collaborative filtering |
US8065254B1 (en) | 2007-02-19 | 2011-11-22 | Google Inc. | Presenting a diversity of recommendations |
US8938463B1 (en) | 2007-03-12 | 2015-01-20 | Google Inc. | Modifying search result ranking based on implicit user feedback and a model of presentation bias |
US8694374B1 (en) | 2007-03-14 | 2014-04-08 | Google Inc. | Detecting click spam |
JP4538757B2 (ja) * | 2007-12-04 | 2010-09-08 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US7576370B2 (en) * | 2007-04-20 | 2009-08-18 | California Micro Devices | Low operating voltage electro-static discharge device and method |
US9092510B1 (en) | 2007-04-30 | 2015-07-28 | Google Inc. | Modifying search result ranking based on a temporal element of user feedback |
US8359309B1 (en) | 2007-05-23 | 2013-01-22 | Google Inc. | Modifying search result ranking based on corpus search statistics |
US8694511B1 (en) | 2007-08-20 | 2014-04-08 | Google Inc. | Modifying search result ranking based on populations |
US8909655B1 (en) | 2007-10-11 | 2014-12-09 | Google Inc. | Time based ranking |
US20090132571A1 (en) * | 2007-11-16 | 2009-05-21 | Microsoft Corporation | Efficient use of randomness in min-hashing |
US7925598B2 (en) * | 2008-01-24 | 2011-04-12 | Microsoft Corporation | Efficient weighted consistent sampling |
US20090198666A1 (en) * | 2008-02-01 | 2009-08-06 | Winston Ronald H | Affinity matching system and method |
US8184953B1 (en) * | 2008-02-22 | 2012-05-22 | Google Inc. | Selection of hash lookup keys for efficient retrieval |
US20090216757A1 (en) * | 2008-02-27 | 2009-08-27 | Robi Sen | System and Method for Performing Frictionless Collaboration for Criteria Search |
US8824422B2 (en) | 2008-03-11 | 2014-09-02 | Intel Corporation | Techniques enabling dynamic bandwidth reservation in a wireless personal area network |
CN101685458B (zh) * | 2008-09-27 | 2012-09-19 | 华为技术有限公司 | 一种基于协同过滤的推荐方法和系统 |
US8640163B2 (en) * | 2008-09-30 | 2014-01-28 | Microsoft Corporation | Determining user-to-user similarities in an online media environment |
JP5229731B2 (ja) * | 2008-10-07 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 更新頻度に基づくキャッシュ機構 |
US8682998B2 (en) * | 2008-10-31 | 2014-03-25 | Software Ag | Method and server cluster for map reducing flow services and large documents |
US8396865B1 (en) | 2008-12-10 | 2013-03-12 | Google Inc. | Sharing search engine relevance data between corpora |
US20100169258A1 (en) * | 2008-12-31 | 2010-07-01 | Microsoft Corporation | Scalable Parallel User Clustering in Discrete Time Window |
US20100191734A1 (en) * | 2009-01-23 | 2010-07-29 | Rajaram Shyam Sundar | System and method for classifying documents |
US20100228951A1 (en) * | 2009-03-05 | 2010-09-09 | Xerox Corporation | Parallel processing management framework |
US8239847B2 (en) * | 2009-03-18 | 2012-08-07 | Microsoft Corporation | General distributed reduction for data parallel computing |
US8209664B2 (en) * | 2009-03-18 | 2012-06-26 | Microsoft Corporation | High level programming extensions for distributed data parallel processing |
US9009146B1 (en) | 2009-04-08 | 2015-04-14 | Google Inc. | Ranking search results based on similar queries |
JP5331549B2 (ja) * | 2009-04-09 | 2013-10-30 | 株式会社エヌ・ティ・ティ・ドコモ | 分散処理システム及び分散処理方法 |
US8204838B2 (en) * | 2009-04-10 | 2012-06-19 | Microsoft Corporation | Scalable clustering |
US8510538B1 (en) * | 2009-04-13 | 2013-08-13 | Google Inc. | System and method for limiting the impact of stragglers in large-scale parallel data processing |
US20100301114A1 (en) * | 2009-05-26 | 2010-12-02 | Lo Faro Walter F | Method and system for transaction based profiling of customers within a merchant network |
US8321873B2 (en) * | 2009-06-09 | 2012-11-27 | Yahoo! Inc. | System and method for offline data generation for online system analysis |
US8447760B1 (en) | 2009-07-20 | 2013-05-21 | Google Inc. | Generating a related set of documents for an initial set of documents |
US8498974B1 (en) | 2009-08-31 | 2013-07-30 | Google Inc. | Refining search results |
CN102576438A (zh) * | 2009-09-21 | 2012-07-11 | 瑞典爱立信有限公司 | 用于执行推荐的方法和设备 |
US20110077998A1 (en) * | 2009-09-29 | 2011-03-31 | Microsoft Corporation | Categorizing online user behavior data |
US8972391B1 (en) | 2009-10-02 | 2015-03-03 | Google Inc. | Recent interest based relevance scoring |
US8244767B2 (en) * | 2009-10-09 | 2012-08-14 | Stratify, Inc. | Composite locality sensitive hash based processing of documents |
US9355171B2 (en) * | 2009-10-09 | 2016-05-31 | Hewlett Packard Enterprise Development Lp | Clustering of near-duplicate documents |
US9009156B1 (en) * | 2009-11-10 | 2015-04-14 | Hrl Laboratories, Llc | System for automatic data clustering utilizing bio-inspired computing models |
US8874555B1 (en) | 2009-11-20 | 2014-10-28 | Google Inc. | Modifying scoring data based on historical changes |
CN102111392A (zh) * | 2009-12-24 | 2011-06-29 | 王子嘉 | 以兴趣排名为基础的交友系统 |
CN102141995B (zh) * | 2010-01-29 | 2013-06-12 | 国际商业机器公司 | 简化并行计算系统中的传输的系统与方法 |
US8874600B2 (en) | 2010-01-30 | 2014-10-28 | International Business Machines Corporation | System and method for building a cloud aware massive data analytics solution background |
US8615514B1 (en) | 2010-02-03 | 2013-12-24 | Google Inc. | Evaluating website properties by partitioning user feedback |
US8924379B1 (en) | 2010-03-05 | 2014-12-30 | Google Inc. | Temporal-based score adjustments |
US8959093B1 (en) | 2010-03-15 | 2015-02-17 | Google Inc. | Ranking search results based on anchors |
US8838587B1 (en) | 2010-04-19 | 2014-09-16 | Google Inc. | Propagating query classifications |
US8555265B2 (en) | 2010-05-04 | 2013-10-08 | Google Inc. | Parallel processing of data |
US8935232B2 (en) * | 2010-06-04 | 2015-01-13 | Yale University | Query execution systems and methods |
US9495427B2 (en) | 2010-06-04 | 2016-11-15 | Yale University | Processing of data using a database system in communication with a data processing framework |
US9336263B2 (en) | 2010-06-04 | 2016-05-10 | Yale University | Data loading systems and methods |
US9311403B1 (en) * | 2010-06-16 | 2016-04-12 | Google Inc. | Hashing techniques for data set similarity determination |
US9623119B1 (en) | 2010-06-29 | 2017-04-18 | Google Inc. | Accentuating search results |
US8832083B1 (en) | 2010-07-23 | 2014-09-09 | Google Inc. | Combining user feedback |
US9454763B2 (en) | 2010-08-24 | 2016-09-27 | Adobe Systems Incorporated | Distribution of offer to a social group by sharing based on qualifications |
US8661042B2 (en) * | 2010-10-18 | 2014-02-25 | Hewlett-Packard Development Company, L.P. | Collaborative filtering with hashing |
CN102467570B (zh) * | 2010-11-17 | 2014-03-12 | 日电(中国)有限公司 | 用于分布式数据仓库的连接查询系统和方法 |
CN102480512B (zh) | 2010-11-29 | 2015-08-12 | 国际商业机器公司 | 用于扩展服务器端处理能力的方法和装置 |
US20120144022A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Content recommendation through consumer-defined authorities |
US8499222B2 (en) * | 2010-12-14 | 2013-07-30 | Microsoft Corporation | Supporting distributed key-based processes |
US8631017B2 (en) * | 2010-12-16 | 2014-01-14 | Hewlett-Packard Development, L.P. | Collaborative filtering with hashing |
US9307048B2 (en) | 2010-12-28 | 2016-04-05 | Microsoft Technology Licensing, Llc | System and method for proactive task scheduling of a copy of outlier task in a computing environment |
US9002867B1 (en) | 2010-12-30 | 2015-04-07 | Google Inc. | Modifying ranking data based on document changes |
US8635226B2 (en) * | 2011-03-02 | 2014-01-21 | Adobe Systems Incorporated | Computing user micro-segments for offer matching |
US9177327B2 (en) | 2011-03-02 | 2015-11-03 | Adobe Systems Incorporated | Sequential engine that computes user and offer matching into micro-segments |
JP2012204894A (ja) * | 2011-03-24 | 2012-10-22 | Toshiba Corp | 情報推薦装置 |
US20140223575A1 (en) * | 2011-04-25 | 2014-08-07 | Alcatel Lucent | Privacy protection in recommendation services |
CN102779137A (zh) * | 2011-05-13 | 2012-11-14 | 北京搜狗科技发展有限公司 | 针对网页的用户个性化反馈信息的处理方法和装置 |
US8954967B2 (en) * | 2011-05-31 | 2015-02-10 | International Business Machines Corporation | Adaptive parallel data processing |
US8856047B2 (en) | 2011-06-21 | 2014-10-07 | Microsoft Corporation | Fast personalized page rank on map reduce |
CN103597473B (zh) * | 2011-06-30 | 2018-06-05 | 慧与发展有限责任合伙企业 | 用于合并部分聚合查询结果的系统和方法 |
WO2013009503A2 (en) | 2011-07-08 | 2013-01-17 | Yale University | Query execution systems and methods |
CN102316167B (zh) * | 2011-09-26 | 2013-11-06 | 中国科学院计算机网络信息中心 | 网站推荐方法和系统以及网络服务器 |
US9031992B1 (en) * | 2011-09-30 | 2015-05-12 | Emc Corporation | Analyzing big data |
JP5716966B2 (ja) * | 2011-12-20 | 2015-05-13 | 株式会社日立製作所 | データ分析装置、データ分析方法及びプログラム |
US8838435B2 (en) | 2012-01-11 | 2014-09-16 | Motorola Mobility Llc | Communication processing |
US20130179252A1 (en) * | 2012-01-11 | 2013-07-11 | Yahoo! Inc. | Method or system for content recommendations |
JP5825122B2 (ja) * | 2012-01-31 | 2015-12-02 | 富士通株式会社 | 生成プログラム、生成方法、および生成システム |
US9262216B2 (en) | 2012-02-14 | 2016-02-16 | Microsoft Technologies Licensing, LLC | Computing cluster with latency control |
US8983998B1 (en) | 2012-04-25 | 2015-03-17 | Google Inc. | Prioritizing points of interest in unfamiliar regions |
US9053185B1 (en) | 2012-04-30 | 2015-06-09 | Google Inc. | Generating a representative model for a plurality of models identified by similar feature data |
US8527526B1 (en) | 2012-05-02 | 2013-09-03 | Google Inc. | Selecting a list of network user identifiers based on long-term and short-term history data |
US20150242906A1 (en) * | 2012-05-02 | 2015-08-27 | Google Inc. | Generating a set of recommended network user identifiers from a first set of network user identifiers and advertiser bid data |
AU2013261007B2 (en) * | 2012-05-18 | 2016-03-17 | Tata Consultancy Services Limited | System and method for creating structured event objects |
US8914500B1 (en) | 2012-05-21 | 2014-12-16 | Google Inc. | Creating a classifier model to determine whether a network user should be added to a list |
JP5853866B2 (ja) | 2012-06-05 | 2016-02-09 | 富士通株式会社 | 割当プログラム、割当装置、および割当方法 |
CA2779235C (en) * | 2012-06-06 | 2019-05-07 | Ibm Canada Limited - Ibm Canada Limitee | Identifying unvisited portions of visited information |
US8886575B1 (en) | 2012-06-27 | 2014-11-11 | Google Inc. | Selecting an algorithm for identifying similar user identifiers based on predicted click-through-rate |
US8874589B1 (en) | 2012-07-16 | 2014-10-28 | Google Inc. | Adjust similar users identification based on performance feedback |
EP2688264B1 (en) | 2012-07-16 | 2016-08-24 | Alcatel Lucent | Method and apparatus for privacy protected clustering of user interest profiles |
US8782197B1 (en) | 2012-07-17 | 2014-07-15 | Google, Inc. | Determining a model refresh rate |
TWI459223B (zh) * | 2012-08-15 | 2014-11-01 | Hon Hai Prec Ind Co Ltd | 海量資料索引建立系統及方法 |
US9104767B2 (en) * | 2012-08-28 | 2015-08-11 | Adobe Systems Incorporated | Identifying web pages that are likely to guide browsing viewers to improve conversion rate |
US8886799B1 (en) | 2012-08-29 | 2014-11-11 | Google Inc. | Identifying a similar user identifier |
WO2014034257A1 (ja) * | 2012-09-03 | 2014-03-06 | ソニー株式会社 | 情報処理装置、情報処理方法およびシステム |
CN103679494B (zh) * | 2012-09-17 | 2018-04-03 | 阿里巴巴集团控股有限公司 | 商品信息推荐方法及装置 |
US8983888B2 (en) | 2012-11-07 | 2015-03-17 | Microsoft Technology Licensing, Llc | Efficient modeling system for user recommendation using matrix factorization |
US9278255B2 (en) | 2012-12-09 | 2016-03-08 | Arris Enterprises, Inc. | System and method for activity recognition |
US10212986B2 (en) | 2012-12-09 | 2019-02-26 | Arris Enterprises Llc | System, apparel, and method for identifying performance of workout routines |
US9471390B2 (en) | 2013-01-16 | 2016-10-18 | International Business Machines Corporation | Scheduling mapreduce jobs in a cluster of dynamically available servers |
US10229367B2 (en) * | 2013-02-06 | 2019-03-12 | Jacob Drew | Collaborative analytics map reduction classification learning systems and methods |
US10939258B2 (en) * | 2013-04-19 | 2021-03-02 | xAd, Inc. | System and method for marketing mobile advertising supplies |
US9183499B1 (en) | 2013-04-19 | 2015-11-10 | Google Inc. | Evaluating quality based on neighbor features |
US9467452B2 (en) * | 2013-05-13 | 2016-10-11 | International Business Machines Corporation | Transferring services in a networked environment |
EP2824589A1 (en) * | 2013-07-12 | 2015-01-14 | Thomson Licensing | Method for enriching a multimedia content, and corresponding device. |
EP2827277A1 (en) * | 2013-07-16 | 2015-01-21 | Alcatel Lucent | Privacy protection in personalisation services |
CN103886003A (zh) * | 2013-09-22 | 2014-06-25 | 天津思博科科技发展有限公司 | 一种协同过滤处理器 |
KR101482700B1 (ko) * | 2013-09-27 | 2015-01-14 | (주)잉카엔트웍스 | 해시를 이용한 프로그램의 무결성 검증 방법 |
WO2015050567A1 (en) * | 2013-10-06 | 2015-04-09 | Yahoo! Inc. | System and method for performing set operations with defined sketch accuracy distribution |
CN104035949B (zh) * | 2013-12-10 | 2017-05-10 | 南京信息工程大学 | 一种基于局部敏感哈希改进算法的相似性数据检索方法 |
CN103678672B (zh) * | 2013-12-25 | 2017-05-24 | 北京中兴通德网络科技有限公司 | 一种信息推荐方法 |
US10574508B1 (en) | 2014-01-27 | 2020-02-25 | Amazon Technologies, Inc. | MapReduce optimization for partitioned intermediate output |
US10055506B2 (en) | 2014-03-18 | 2018-08-21 | Excalibur Ip, Llc | System and method for enhanced accuracy cardinality estimation |
US20150379022A1 (en) * | 2014-06-27 | 2015-12-31 | General Electric Company | Integrating Execution of Computing Analytics within a Mapreduce Processing Environment |
KR101601820B1 (ko) * | 2014-08-20 | 2016-03-14 | 경기대학교 산학협력단 | 유사 사용자 인덱스 방법 및 프로그램 |
US10831765B1 (en) * | 2014-10-21 | 2020-11-10 | Zoosk, Inc. | System and method for providing information about users who performed internet-based activities |
JP6334431B2 (ja) * | 2015-02-18 | 2018-05-30 | 株式会社日立製作所 | データ分析装置、データ分析方法、およびデータ分析プログラム |
CN104715021B (zh) * | 2015-02-27 | 2018-09-11 | 南京邮电大学 | 一种基于哈希方法的多标记学习的学习方法 |
US20160275169A1 (en) * | 2015-03-17 | 2016-09-22 | Infoutopia Co., Ltd. | System and method of generating initial cluster centroids |
CN104778234A (zh) * | 2015-03-31 | 2015-07-15 | 南京邮电大学 | 基于局部敏感哈希技术的多标记文件近邻查询方法 |
US10095807B2 (en) * | 2015-04-28 | 2018-10-09 | Microsoft Technology Licensing, Llc | Linked data processor for database storage |
CN104899267B (zh) * | 2015-05-22 | 2017-12-19 | 中国电子科技集团公司第二十八研究所 | 一种社交网站账号相似度的综合数据挖掘方法 |
CN106469163A (zh) * | 2015-08-18 | 2017-03-01 | 中兴通讯股份有限公司 | 一种公众号推荐方法及系统 |
US10140327B2 (en) * | 2015-08-24 | 2018-11-27 | Palantir Technologies Inc. | Feature clustering of users, user correlation database access, and user interface generation system |
CN105162875B (zh) * | 2015-09-23 | 2019-03-12 | 四川师范大学 | 大数据群体任务分配方法及装置 |
US10212255B2 (en) * | 2015-09-28 | 2019-02-19 | Microsoft Technology Licensing, Llc | Processing requests for multi-versioned service |
CN105224328A (zh) * | 2015-10-08 | 2016-01-06 | 浪潮电子信息产业股份有限公司 | 一种用户界面生成方法以及系统、服务器 |
EP3283984A4 (en) | 2015-11-03 | 2018-04-04 | Hewlett-Packard Enterprise Development LP | Relevance optimized representative content associated with a data storage system |
US10116536B2 (en) * | 2015-11-18 | 2018-10-30 | Adobe Systems Incorporated | Identifying multiple devices belonging to a single user |
US10778707B1 (en) * | 2016-05-12 | 2020-09-15 | Amazon Technologies, Inc. | Outlier detection for streaming data using locality sensitive hashing |
CN106227881B (zh) * | 2016-08-04 | 2021-11-09 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及服务器 |
US20180052864A1 (en) * | 2016-08-16 | 2018-02-22 | International Business Machines Corporation | Facilitating the sharing of relevant content |
CN106355449B (zh) * | 2016-08-31 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 用户选取方法和装置 |
US10637940B2 (en) * | 2016-11-21 | 2020-04-28 | Roku, Inc. | Streaming content based on skip histories |
CN106543880B (zh) * | 2016-12-12 | 2018-12-18 | 河北晨阳工贸集团有限公司 | 一种能提升眼镜框舒适度的环保涂料及其制备方法 |
CN106649781B (zh) * | 2016-12-28 | 2020-11-20 | 北京小米移动软件有限公司 | 应用推荐方法及装置 |
CN107122390B (zh) * | 2017-03-04 | 2020-09-25 | 华数传媒网络有限公司 | 基于用户群组的推荐系统构建方法 |
US20190057430A1 (en) * | 2017-08-17 | 2019-02-21 | Retailcommon Inc. | Method and system for clustering products in an electronic commerce environment |
US10769306B2 (en) * | 2017-09-21 | 2020-09-08 | International Business Machines Corporation | Applying a differential privacy operation on a cluster of data |
US11100573B1 (en) * | 2018-02-28 | 2021-08-24 | Intuit Inc. | Credit score cohort analysis engine |
US11023495B2 (en) * | 2018-03-19 | 2021-06-01 | Adobe Inc. | Automatically generating meaningful user segments |
WO2020046331A1 (en) * | 2018-08-30 | 2020-03-05 | Google Llc | Percentile linkage clustering |
US11501257B2 (en) * | 2019-12-09 | 2022-11-15 | Jpmorgan Chase Bank, N.A. | Method and apparatus for implementing a role-based access control clustering machine learning model execution module |
CN113420141B (zh) * | 2021-06-24 | 2022-10-04 | 中国人民解放军陆军工程大学 | 基于哈希聚类和上下文信息的敏感数据搜索方法 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850252B1 (en) * | 1999-10-05 | 2005-02-01 | Steven M. Hoffberg | Intelligent electronic appliance system and method |
US5832182A (en) * | 1996-04-24 | 1998-11-03 | Wisconsin Alumni Research Foundation | Method and system for data clustering for very large databases |
US5909677A (en) * | 1996-06-18 | 1999-06-01 | Digital Equipment Corporation | Method for determining the resemblance of documents |
US6134532A (en) * | 1997-11-14 | 2000-10-17 | Aptex Software, Inc. | System and method for optimal adaptive matching of users to most relevant entity and information in real-time |
US6374251B1 (en) * | 1998-03-17 | 2002-04-16 | Microsoft Corporation | Scalable system for clustering of large databases |
US6119124A (en) * | 1998-03-26 | 2000-09-12 | Digital Equipment Corporation | Method for clustering closely resembling data objects |
US6317722B1 (en) * | 1998-09-18 | 2001-11-13 | Amazon.Com, Inc. | Use of electronic shopping carts to generate personal recommendations |
US6415297B1 (en) * | 1998-11-17 | 2002-07-02 | International Business Machines Corporation | Parallel database support for workflow management systems |
US6564202B1 (en) * | 1999-01-26 | 2003-05-13 | Xerox Corporation | System and method for visually representing the contents of a multiple data object cluster |
US6347313B1 (en) * | 1999-03-01 | 2002-02-12 | Hewlett-Packard Company | Information embedding based on user relevance feedback for object retrieval |
US6564261B1 (en) * | 1999-05-10 | 2003-05-13 | Telefonaktiebolaget Lm Ericsson (Publ) | Distributed system to intelligently establish sessions between anonymous users over various networks |
US6542889B1 (en) * | 2000-01-28 | 2003-04-01 | International Business Machines Corporation | Methods and apparatus for similarity text search based on conceptual indexing |
US6854069B2 (en) * | 2000-05-02 | 2005-02-08 | Sun Microsystems Inc. | Method and system for achieving high availability in a networked computer system |
US6697800B1 (en) * | 2000-05-19 | 2004-02-24 | Roxio, Inc. | System and method for determining affinity using objective and subjective data |
JP4259861B2 (ja) * | 2000-11-20 | 2009-04-30 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 情報プロバイダ |
US7069367B2 (en) * | 2000-12-29 | 2006-06-27 | Intel Corporation | Method and apparatus for avoiding race condition with edge-triggered interrupts |
US6968334B2 (en) * | 2001-05-15 | 2005-11-22 | Nokia Corporation | Method and business process to maintain privacy in distributed recommendation systems |
US20030120593A1 (en) * | 2001-08-15 | 2003-06-26 | Visa U.S.A. | Method and system for delivering multiple services electronically to customers via a centralized portal architecture |
US7203343B2 (en) * | 2001-09-21 | 2007-04-10 | Hewlett-Packard Development Company, L.P. | System and method for determining likely identity in a biometric database |
US7512652B1 (en) * | 2001-09-28 | 2009-03-31 | Aol Llc, A Delaware Limited Liability Company | Passive personalization of buddy lists |
US7343365B2 (en) * | 2002-02-20 | 2008-03-11 | Microsoft Corporation | Computer system architecture for automatic context associations |
US7899067B2 (en) * | 2002-05-31 | 2011-03-01 | Cisco Technology, Inc. | Method and apparatus for generating and using enhanced tree bitmap data structures in determining a longest prefix match |
US7434220B2 (en) * | 2002-09-16 | 2008-10-07 | Clearcube Technology, Inc. | Distributed computing infrastructure including autonomous intelligent management system |
US7228351B2 (en) * | 2002-12-31 | 2007-06-05 | International Business Machines Corporation | Method and apparatus for managing resource contention in a multisystem cluster |
US20040139072A1 (en) * | 2003-01-13 | 2004-07-15 | Broder Andrei Z. | System and method for locating similar records in a database |
US20060168006A1 (en) * | 2003-03-24 | 2006-07-27 | Mr. Marvin Shannon | System and method for the classification of electronic communication |
US7831679B2 (en) * | 2003-10-15 | 2010-11-09 | Microsoft Corporation | Guiding sensing and preferences for context-sensitive services |
US7257571B2 (en) * | 2004-01-26 | 2007-08-14 | Microsoft Corporation | Automatic query clustering |
US7433869B2 (en) * | 2005-07-01 | 2008-10-07 | Ebrary, Inc. | Method and apparatus for document clustering and document sketching |
-
2005
- 2005-08-15 US US11/204,922 patent/US7739314B2/en not_active Expired - Fee Related
-
2006
- 2006-08-15 CN CNA2006800381007A patent/CN101535944A/zh active Pending
- 2006-08-15 JP JP2008527069A patent/JP5230421B2/ja not_active Expired - Fee Related
- 2006-08-15 CA CA2619076A patent/CA2619076C/en not_active Expired - Fee Related
- 2006-08-15 WO PCT/US2006/031868 patent/WO2007022199A2/en active Application Filing
- 2006-08-15 CN CN201210016687.9A patent/CN102682059B/zh active Active
- 2006-08-15 EP EP06801549A patent/EP1915669A4/en not_active Ceased
-
2010
- 2010-05-06 US US12/774,775 patent/US7962529B1/en not_active Expired - Fee Related
-
2011
- 2011-04-01 US US13/078,122 patent/US8185561B1/en not_active Expired - Fee Related
-
2012
- 2012-04-04 US US13/439,030 patent/US20120191714A1/en not_active Abandoned
- 2012-11-16 JP JP2012252056A patent/JP5538510B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20120191714A1 (en) | 2012-07-26 |
JP5230421B2 (ja) | 2013-07-10 |
CN102682059A (zh) | 2012-09-19 |
WO2007022199A2 (en) | 2007-02-22 |
JP2009505290A (ja) | 2009-02-05 |
US20070038659A1 (en) | 2007-02-15 |
CA2619076A1 (en) | 2007-02-22 |
US7739314B2 (en) | 2010-06-15 |
CA2619076C (en) | 2014-02-11 |
EP1915669A4 (en) | 2011-01-05 |
CN102682059B (zh) | 2014-11-12 |
CN101535944A (zh) | 2009-09-16 |
US7962529B1 (en) | 2011-06-14 |
EP1915669A2 (en) | 2008-04-30 |
US8185561B1 (en) | 2012-05-22 |
JP2013033551A (ja) | 2013-02-14 |
WO2007022199A3 (en) | 2009-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5538510B2 (ja) | 集合の類似性に基づく拡張性に富むユーザクラスタリング | |
US9177048B1 (en) | Collaborative filtering | |
US10762539B2 (en) | Resource estimation for queries in large-scale distributed database system | |
US10121169B2 (en) | Table level distributed database system for big data storage and query | |
US8407226B1 (en) | Collaborative filtering | |
US7890510B2 (en) | Method and apparatus for analyzing community evolution in graph data streams | |
US10242388B2 (en) | Systems and methods for efficiently selecting advertisements for scoring | |
KR20140056167A (ko) | 검색 효율이 증가된 예비-쇼핑 예약 시스템을 위한 방법 및 시스템 | |
US20110276583A1 (en) | Automatic role determination for search configuration | |
WO2017141249A1 (en) | Optimized data distribution system | |
Sisodia et al. | Fast prediction of web user browsing behaviours using most interesting patterns | |
Makris et al. | Efficient and adaptive discovery techniques of web services handling large data sets | |
Surianarayanan et al. | An approach for selecting best available services through a new method of decomposing QoS constraints | |
Nguyen et al. | Analyzing and visualizing web server access log file | |
US20030160609A9 (en) | Method and facility for storing and indexing web browsing data | |
JP7230231B2 (ja) | 同じグループ内の異種サブグループ間でのロバストなモデル性能 | |
Zhang et al. | Improving bandit learning via heterogeneous information networks: algorithms and applications | |
US20230169128A1 (en) | Adversarial bandits policy for crawling highly dynamic content | |
US20150127635A1 (en) | Mapping system for not provided keyword in secure search | |
Roy | Mining Association Rules in Cloud | |
Varanasi | User-based recommendation algorithm on Hadoop cluster | |
WO2023075774A1 (en) | Machine learning techniques for user group based content distribution | |
Zhang | Collaborative filtering based service ranking with invocation histories | |
Rana | Query Processing in Distributed Database Systems | |
Westerski | Overview of Cloud Computing large-scale processing technologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140304 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140331 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5538510 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140428 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |