JP5615931B2 - クラスタ化方法およびシステム - Google Patents
クラスタ化方法およびシステム Download PDFInfo
- Publication number
- JP5615931B2 JP5615931B2 JP2012538818A JP2012538818A JP5615931B2 JP 5615931 B2 JP5615931 B2 JP 5615931B2 JP 2012538818 A JP2012538818 A JP 2012538818A JP 2012538818 A JP2012538818 A JP 2012538818A JP 5615931 B2 JP5615931 B2 JP 5615931B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- file
- ranking
- web page
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 129
- 239000013598 vector Substances 0.000 claims description 499
- 238000004364 calculation method Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 8
- 230000000875 corresponding effect Effects 0.000 description 43
- 238000010586 diagram Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 241000239290 Araneae Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23211—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
Description
クラス1:(1、2、3、4)
クラス2:(0.3、0、0.9、1)、(0.3、0、0.9、0.9)、(0.2、0、1、1)
クラス3:(0、0、0.5、0.6)、(0、0、0.6、0.7)
クラス4:(0.1、 0.1、0.2、0.2)
クラス5:(0.3、 0.2、 0, 1)、(0.4、0.1、0、0.9)
クラス6:(0.2、0.1、0.2、0.1)
Claims (21)
- クラスタ化のためのコンピュータによって実行される方法であって、
複数の可読ファイルをベクトル化し、それぞれが前記可読ファイルの内のそれぞれの1つに対応する複数のファイルベクトルを取得するステップと、
前記ファイルベクトルに基づいて、総特性ベクトルを取得するステップと、
前記総特性ベクトルと前記ファイルベクトルのそれぞれとの間のそれぞれの類似度の順位付け結果に基づいて、前記可読ファイルをクラスタ化するステップであって、
前記ファイルベクトルのそれぞれと前記総特性ベクトルとの間のそれぞれの第1の類似度を計算するステップと、
前記第1の類似度に従って、前記ファイルベクトルの第1の順位付けを実行するステップと、
前記ファイルベクトルのそれぞれと前記第1の順位付けの後の最後のファイルベクトルとの間のそれぞれの第2の類似度を計算するステップと、
前記第2の類似度に従って、前記第1の順位付けの後に順位付けされた前記ファイルベクトルの第2の順位付けを実行するステップと、
前記第2の順位付けの後に順位付けされた前記ファイルベクトルに従って、前記可読ファイルをクラスタ化するステップと
を含んでいる、ステップと
を備えていることを特徴とする方法。 - 前記ファイルベクトルに基づいて、前記総特性ベクトルを取得するステップは、
前記ファイルベクトルの共通特性のそれぞれの値を合計して、総特性ベクトルの対応する特性値を取得するステップ
を含んでいることを特徴とする請求項1に記載の方法。 - 前記第2の順位付けの後に順位付けされた前記ファイルベクトルに従って、前記可読ファイルをクラスタ化するステップは、
前記第2の順位付けの後の第2のファイルベクトルから開始して、前記順位付けされたファイルベクトルのそれぞれに対して、現在のファイルベクトルをその先行するファイルベクトルと比較して、それぞれの比較結果を提供するステップと、
前記比較結果がクラスタ条件を満たしているときに、前記現在のファイルベクトルおよびその先行するファイルベクトルを同じクラスとしてクラスタ化するステップと、
前記比較結果が前記クラスタ条件を満たしていないときに、新しいクラスを生成するステップと
を含んでいることを特徴とする請求項1に記載の方法。 - 少なくとも1つのそれぞれの第1の類似度または第2の類似度が、ベクトル角余弦公式を使用して計算されることを特徴とする請求項1に記載の方法。
- 前記総特性ベクトルと前記ファイルベクトルのそれぞれとの間の前記それぞれの類似度の前記順位付け結果に基づいて、前記可読ファイルをクラスタ化するステップは、
前記可読ファイルの前記クラスタ化に従って、複数のクラスの前記可読ファイルの各クラスに代表ベクトルを取得するステップと、
事前設定条件を満たす新しい特性ベクトルを構築するステップと、
各クラスの前記代表ベクトルと、前記新しい特性ベクトルとの間のそれぞれの第3の類似度を計算するステップと、
前記第3の類似度に従って前記可読ファイルの各クラスの第1の順位付けを実行するステップと、
各クラスの前記代表ベクトルと、前記第1の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第4の類似度を計算するステップと、
前記第4の類似度に従って、前記第1の順位付けの後の前記代表ベクトルに第2の順位付けを実行するステップと、
前記第2の順位付けの後の前記代表ベクトルに従って前記可読ファイルの前記クラスを再クラスタ化するステップと
を含んでいることを特徴とする請求項1に記載の方法。 - 前記第2の順位付けの後の前記代表ベクトルに従って、前記可読ファイルの前記クラスを再クラスタ化するステップは、
繰り返し終了条件が満たされているかどうかを判定するステップと、
前記繰り返し終了条件が満たされている場合、前記クラスタ化方法を終了するステップと、
前記繰り返し終了条件が満たされていない場合、前記可読ファイルの前記クラスタ化に従って、各クラスの前記代表ベクトルを取得するために前のステップを繰り返すステップと
を含んでいることを特徴とする請求項5に記載の方法。 - クラスタ化のためのシステムであって、
複数の可読ファイルをベクトル化して、それぞれが前記可読ファイルのそれぞれの1つに対応する複数のファイルベクトルを取得するベクトル化ユニットと、
前記ファイルベクトルに基づいて、総特性ベクトルを取得する抽出ユニットと、
前記総特性ベクトルと前記ファイルベクトルのそれぞれとの間でそれぞれの類似度の順位付け結果に基づいて、複数のクラスの前記可読ファイルに前記可読ファイルをクラスタ化する、クラスタ化ユニットであって、
前記ファイルベクトルのそれぞれと前記総特性ベクトルとの間のそれぞれの第1の類似度を計算する第1の計算ユニットと、
前記第1の類似度に従って、前記ファイルベクトルの第1の順位付けを実行する第1の順位付けユニットと、
前記ファイルベクトルのそれぞれと前記第1の順位付けの後の最後のファイルベクトルとの間のそれぞれの第2の類似度を計算する第2の計算ユニットと、
前記第1の順位付けの後に順位付けされた前記ファイルベクトルの第2の順位付けを実行する第2の順位付けユニットと、
前記第2の順位付けの後に順位付けされた前記ファイルベクトルに従って、前記可読ファイルをクラスタ化する第2のクラスタユニットと
を含んでいる、クラスタ化ユニットと
を備えていることを特徴とするシステム。 - 前記抽出ユニットは、前記ファイルベクトルの共通特性のそれぞれの値を合計し、前記総特性ベクトルに対応する特性値を取得することを特徴とする請求項7に記載のシステム。
- 前記第2のクラスタユニットは、
前記第2の順位付けの後の第2のファイルベクトルから開始する前記順位付けされたファイルベクトルのそれぞれのために、現在のファイルベクトルをその先行するファイルベクトルと比較し、それぞれの比較結果を提供する比較サブユニットと、
前記比較結果がクラスタ化条件を満たしているときに、前記現在のファイルベクトルおよびその先行するファイルベクトルをクラスとしてクラスタ化するクラスタ化サブユニットと、
前記比較結果が前記クラスタ化条件を満たしていないときに新しいクラスを生成する生成サブユニットと
を含んでいることを特徴とする請求項7に記載のシステム。 - 前記複数のクラスの前記可読ファイルの各クラスの代表ベクトルを取り出す取り出しユニットと、
事前設定条件を満たす新しい特性ベクトルを提供する構築ユニットと、
各クラスの前記代表ベクトルと前記新しい特性ベクトルとの間のそれぞれの第3の類似度を計算する第3の計算ユニットと、
前記第3の類似度に従って前記可読ファイルの各クラスの第1の順位付けを実行する第3の順位付けユニットと、
各クラスの前記代表ベクトルと、前記第1の順位付けの後の最後のクラスの代表ベクトルとの間のそれぞれの第4の類似度を計算する第4の計算ユニットと、
前記第1の順位付けの後に前記順位を付けられた代表ベクトルの第2のランク付けを実行する第4の順位付けユニットと、
前記第2の順位付けの後の前記代表ベクトルに従って、前記可読ファイルの前記クラスを再クラスタ化する第3のクラスタ化ユニットと、
をさらに備えていることを特徴とする請求項7に記載のシステム。 - 繰り返し終了条件が満たされているかどうかを判定し、前記繰り返し終了条件が満たされているとクラスタ化プロセスを終了し、前記繰り返し終了条件が満たされていない場合に、前記クラスタ化プロセスの繰り返しに、クラスごとにそれぞれの代表ベクトルを取得させる判定ユニットをさらに備えていることを特徴とする請求項10に記載のシステム。
- ウェブページをクラスタ化するためのコンピュータによって実行される方法であって、
複数のウェブページを取り出すステップと、
それぞれが前記ウェブページのそれぞれ1つに対応する複数のウェブページベクトルを取得する前記ウェブページをベクトル化するステップと、
前記ウェブページベクトルに従って前記ウェブページの総ウェブページ特性ベクトルを取得するステップと、
前記ウェブページベクトルのそれぞれと前記総ウェブページ特性ベクトルとの間のそれぞれの第1の類似度を計算するステップと、
前記第1の類似度に従って前記ウェブページベクトルの第1の順位付けを実行するステップと、
前記ウェブページベクトルのそれぞれと前記第1の順位付けの後の最後のウェブページベクトルとの間のそれぞれの第2の類似度を計算するステップと、
前記第2の類似度に従って、前記第1の順位付けの後に順位付けされた前記ウェブページベクトルの第2の順位付けを実行するステップと、
前記第2の順位付けの後に順位付けされた前記ウェブページベクトルに従って、前記ウェブページをクラスタ化するステップと
を備えていることを特徴とする方法。 - 前記ウェブページの前記クラスタ化に従って、カテゴリインデックスを確立するステップであって、前記カテゴリインデックスは1つまたは複数のクラスのウェブページを識別する、ステップをさらに備えていることを特徴とする請求項12に記載の方法。
- ユーザからクエリーワードを受け取ることに応えて前記カテゴリインデックスに従って、それぞれのクラスのウェブページを検索するステップをさらに備えていることを特徴とする請求項13に記載の方法。
- 各クラスのウェブページからそれぞれの中心ウェブページを選択するステップと、
前記それぞれの中心ウェブページと、各それぞれのクラスの前記それぞれの中心ウェブページ以外のウェブページとの間の接続を確立するステップと
をさらに備えていることを特徴とする請求項12に記載の方法。 - 前記ユーザからのクエリーワードを受け取ることに応えて、前記ユーザに各クラスの代表ウェブページを返すステップをさらに備えていることを特徴とする請求項15に記載の方法。
- ウェブページをクラスタ化するためのシステムであって、
クラスタ化される複数のウェブページを取り出す取り出しユニットと、
前記ウェブページをベクトル化するウェブページクラスタ化装置であって、
それぞれが前記ウェブページの内のそれぞれ1つに対応する複数のウェブページベクトルを取得し、
前記ウェブページベクトルに従って、総ウェブページ特性ベクトルを取得し、
前記ウェブページベクトルのそれぞれと前記総ウェブページ特性ベクトルとの間のそれぞれの第1の類似度を計算し、
前記第1の類似度に従って、前記ウェブページベクトルの第1の順位付けを実行し、
前記ウェブページベクトルのそれぞれと前記第1の順位付けの後の最後のウェブページベクトルとの間のそれぞれの第2の類似度を計算し、
前記第2の類似度に従って、前記第1の順位付けの後に順位付けされた前記ウェブページベクトルの第2の順位付けを実行し、および、
前記第2の順位付けの後に順位付けされた前記ウェブページベクトルに従って、前記ウェブページをクラスタ化する、ウェブページクラスタ化装置と
を備えていることを特徴とするシステム。 - 前記ウェブページの前記クラスタ化に従って、カテゴリインデックスを確立するインデックス確立ユニットであって、前記カテゴリインデックスが、1つまたは複数のクラスのウェブページを識別する、インデックス確立ユニットをさらに備えていることを特徴とする請求項17に記載のシステム。
- ユーザからクエリーワードを受け取ると、前記カテゴリインデックスに従って、各クラスのウェブページを検索する検索ユニットをさらに備えていることを特徴とする請求項18に記載のシステム。
- ウェブページの各クラスから代表ウェブページを選択し、前記代表ウェブページと、各クラスのそれぞれの中心ウェブページ以外のウェブページとの間に接続を確立する選択ユニットをさらに備えていることを特徴とする請求項17に記載のシステム。
- 前記ユーザからクエリーワードを受け取ることに応えて、前記ユーザに各クラスの代表ウェブページを返す返却ユニットをさらに備えていることを特徴とする請求項17に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910211714.6 | 2009-11-10 | ||
CN200910211714.6A CN102053992B (zh) | 2009-11-10 | 2009-11-10 | 聚类方法和系统 |
PCT/US2010/051069 WO2011059588A1 (en) | 2009-11-10 | 2010-10-01 | Clustering method and system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013511084A JP2013511084A (ja) | 2013-03-28 |
JP5615931B2 true JP5615931B2 (ja) | 2014-10-29 |
Family
ID=43958326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012538818A Expired - Fee Related JP5615931B2 (ja) | 2009-11-10 | 2010-10-01 | クラスタ化方法およびシステム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20110231399A1 (ja) |
EP (1) | EP2499569B1 (ja) |
JP (1) | JP5615931B2 (ja) |
CN (1) | CN102053992B (ja) |
HK (1) | HK1152120A1 (ja) |
WO (1) | WO2011059588A1 (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867006B (zh) * | 2011-07-07 | 2016-04-13 | 富士通株式会社 | 一种分批聚类方法和系统 |
CN102929889B (zh) * | 2011-08-11 | 2017-08-25 | 中兴通讯股份有限公司 | 一种完善社区网络的方法和系统 |
US10007734B2 (en) | 2011-11-01 | 2018-06-26 | Microsoft Technology Licensing, Llc | Real time document presentation data synchronization through generic service |
US8949237B2 (en) * | 2012-01-06 | 2015-02-03 | Microsoft Corporation | Detecting overlapping clusters |
CN103729381A (zh) * | 2012-10-16 | 2014-04-16 | 佳能株式会社 | 用于识别系列文档中的语义信息的方法和设备 |
CN103064887B (zh) * | 2012-12-10 | 2016-01-20 | 华为技术有限公司 | 一种推荐信息的方法和设备 |
CN105264520B (zh) * | 2013-06-04 | 2019-07-16 | 瓦欧尼斯系统有限公司 | 委送一机构的相似数据至一连结装置的方法 |
US8831969B1 (en) * | 2013-10-02 | 2014-09-09 | Linkedin Corporation | System and method for determining users working for the same employers in a social network |
CN103646106B (zh) * | 2013-12-23 | 2016-05-25 | 山东大学 | 一种基于内容相似性的Web主题排序方法 |
CN105095209B (zh) * | 2014-04-21 | 2019-05-10 | 珠海豹好玩科技有限公司 | 文档聚类方法及装置、网络设备 |
JP6344984B2 (ja) * | 2014-06-09 | 2018-06-20 | キヤノン株式会社 | 人物推定装置、人物推定方法及びプログラム |
CN104217020A (zh) * | 2014-09-25 | 2014-12-17 | 浪潮(北京)电子信息产业有限公司 | 一种基于MapReduce框架的网页聚类方法和系统 |
CN104283737B (zh) * | 2014-09-30 | 2018-01-12 | 杭州华为数字技术有限公司 | 数据流的处理方法和装置 |
CN105574005A (zh) * | 2014-10-10 | 2016-05-11 | 富士通株式会社 | 对包含多个文档的源数据进行聚类的装置和方法 |
CN105095909A (zh) * | 2015-07-13 | 2015-11-25 | 中国联合网络通信集团有限公司 | 一种应用于移动网络的用户相似性评估方法及装置 |
US10872103B2 (en) * | 2015-11-03 | 2020-12-22 | Hewlett Packard Enterprise Development Lp | Relevance optimized representative content associated with a data storage system |
CN106777193B (zh) * | 2016-12-23 | 2020-04-10 | 李鹏 | 一种自动撰写特定稿件的方法 |
US11270185B1 (en) | 2017-01-27 | 2022-03-08 | Intuit Inc. | Methods, systems, and computer program product for generating a personalized flow for a software delivery model |
US10592995B1 (en) | 2017-01-27 | 2020-03-17 | Intuit Inc. | Methods, systems, and computer program product for providing expense information for an electronic tax return preparation and filing software delivery model |
CN107358251B (zh) * | 2017-06-09 | 2020-11-24 | 创新先进技术有限公司 | 一种对象筛选方法和装置 |
CN108090032B (zh) * | 2018-01-03 | 2021-03-23 | 第四范式(北京)技术有限公司 | 逻辑回归模型的可视化解释方法及装置 |
CN109522410B (zh) * | 2018-11-09 | 2021-02-09 | 北京百度网讯科技有限公司 | 文档聚类方法及平台、服务器和计算机可读介质 |
CN111291177A (zh) * | 2018-12-06 | 2020-06-16 | 中兴通讯股份有限公司 | 一种信息处理方法、装置和计算机存储介质 |
CN110196974B (zh) * | 2019-06-11 | 2023-07-07 | 吉林大学 | 一种用于大数据清洗的快速数据聚合方法 |
CN110597719B (zh) * | 2019-09-05 | 2021-06-15 | 腾讯科技(深圳)有限公司 | 一种用于适配测试的图像聚类方法、装置及介质 |
CN111259154B (zh) * | 2020-02-07 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
US11816695B2 (en) * | 2020-09-21 | 2023-11-14 | Target Brands, Inc. | Directed information performance enhancement |
US11256609B1 (en) * | 2021-05-03 | 2022-02-22 | Intec Billing, Inc. | Systems and methods to optimize testing using machine learning |
US11776068B1 (en) * | 2022-07-29 | 2023-10-03 | Intuit, Inc. | Voice enabled content tracker |
CN117251749B (zh) * | 2023-11-17 | 2024-02-27 | 陕西通信规划设计研究院有限公司 | 一种基于增量分析的物联网数据处理方法 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0481988A (ja) * | 1990-07-24 | 1992-03-16 | Sharp Corp | クラスタリング方式 |
US5857179A (en) * | 1996-09-09 | 1999-01-05 | Digital Equipment Corporation | Computer method and apparatus for clustering documents and automatic generation of cluster keywords |
US6442329B1 (en) * | 1998-02-28 | 2002-08-27 | Michael L. Gough | Method and apparatus for traversing a multiplexed data packet stream |
US6922699B2 (en) * | 1999-01-26 | 2005-07-26 | Xerox Corporation | System and method for quantitatively representing data objects in vector space |
JP2000305950A (ja) * | 1999-04-26 | 2000-11-02 | Ricoh Co Ltd | 文書分類装置および文書分類方法 |
US6895552B1 (en) * | 2000-05-31 | 2005-05-17 | Ricoh Co., Ltd. | Method and an apparatus for visual summarization of documents |
JP3573688B2 (ja) * | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US6606620B1 (en) * | 2000-07-24 | 2003-08-12 | International Business Machines Corporation | Method and system for classifying semi-structured documents |
AU2002220172A1 (en) * | 2000-11-15 | 2002-05-27 | David M. Holbrook | Apparatus and method for organizing and/or presenting data |
WO2002048962A1 (es) * | 2000-12-12 | 2002-06-20 | Consejo Superior De Investigaciones Cientificas | Sistema para el mapeo no lineal de datos y reduccion de dimensionalidad |
JP3701197B2 (ja) * | 2000-12-28 | 2005-09-28 | 松下電器産業株式会社 | 分類への帰属度計算基準作成方法及び装置 |
JP2002215674A (ja) * | 2001-01-22 | 2002-08-02 | Kddi Corp | Webページ閲覧支援システム、方法及びプログラム |
US6910037B2 (en) * | 2002-03-07 | 2005-06-21 | Koninklijke Philips Electronics N.V. | Method and apparatus for providing search results in response to an information search request |
US7007069B2 (en) * | 2002-12-16 | 2006-02-28 | Palo Alto Research Center Inc. | Method and apparatus for clustering hierarchically related information |
US7043475B2 (en) * | 2002-12-19 | 2006-05-09 | Xerox Corporation | Systems and methods for clustering user sessions using multi-modal information including proximal cue information |
US20050044487A1 (en) * | 2003-08-21 | 2005-02-24 | Apple Computer, Inc. | Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy |
US7777125B2 (en) * | 2004-11-19 | 2010-08-17 | Microsoft Corporation | Constructing a table of music similarity vectors from a music similarity graph |
JP4772378B2 (ja) * | 2005-05-26 | 2011-09-14 | 株式会社東芝 | Webページから時系列データを生成する方法及び装置 |
KR100816934B1 (ko) * | 2006-04-13 | 2008-03-26 | 엘지전자 주식회사 | 문서검색 결과를 이용한 군집화 시스템 및 그 방법 |
US8046363B2 (en) * | 2006-04-13 | 2011-10-25 | Lg Electronics Inc. | System and method for clustering documents |
CA2554951A1 (en) * | 2006-08-01 | 2008-02-01 | Ibm Canada Limited - Ibm Canada Limitee | Systems and methods for clustering data objects |
US8745055B2 (en) * | 2006-09-28 | 2014-06-03 | Symantec Operating Corporation | Clustering system and method |
US8156056B2 (en) * | 2007-04-03 | 2012-04-10 | Fernando Luege Mateos | Method and system of classifying, ranking and relating information based on weights of network links |
CN100555287C (zh) * | 2007-09-06 | 2009-10-28 | 腾讯科技(深圳)有限公司 | 互联网音乐文件排序方法、系统和搜索方法及搜索引擎 |
EP2188743A1 (en) * | 2007-09-12 | 2010-05-26 | ReputationDefender, Inc. | Identifying information related to a particular entity from electronic sources |
CN101159704A (zh) * | 2007-10-23 | 2008-04-09 | 浙江大学 | 基于微内容相似度的反垃圾方法 |
WO2009097459A1 (en) * | 2008-01-29 | 2009-08-06 | Educational Testing Service | System and method for disambiguating the effect of text document length on vector-based similarit scores |
-
2009
- 2009-11-10 CN CN200910211714.6A patent/CN102053992B/zh active Active
-
2010
- 2010-10-01 WO PCT/US2010/051069 patent/WO2011059588A1/en active Application Filing
- 2010-10-01 JP JP2012538818A patent/JP5615931B2/ja not_active Expired - Fee Related
- 2010-10-01 US US12/992,357 patent/US20110231399A1/en not_active Abandoned
- 2010-10-01 EP EP10830380.1A patent/EP2499569B1/en active Active
-
2011
- 2011-06-10 HK HK11105859.6A patent/HK1152120A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
JP2013511084A (ja) | 2013-03-28 |
CN102053992B (zh) | 2014-12-10 |
WO2011059588A1 (en) | 2011-05-19 |
EP2499569B1 (en) | 2019-05-01 |
HK1152120A1 (en) | 2012-02-17 |
CN102053992A (zh) | 2011-05-11 |
EP2499569A4 (en) | 2017-01-18 |
US20110231399A1 (en) | 2011-09-22 |
EP2499569A1 (en) | 2012-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5615931B2 (ja) | クラスタ化方法およびシステム | |
JP7141180B2 (ja) | ナレッジグラフに基づく事件検索方法、装置、機器及び記憶媒体 | |
US9792304B1 (en) | Query by image | |
US9110922B2 (en) | Joint embedding for item association | |
Kang et al. | Cloudle: an ontology-enhanced cloud service search engine | |
JP5698222B2 (ja) | 検索方法、装置およびシステム | |
US20110282861A1 (en) | Extracting higher-order knowledge from structured data | |
WO2022126901A1 (zh) | 一种商品推荐方法及其相关设备 | |
JP2014059754A (ja) | 情報処理システム、及び、情報処理方法 | |
CN110162711A (zh) | 一种基于网络嵌入法的资源智能推荐方法及系统 | |
CN111611452A (zh) | 搜索文本的歧义识别方法、系统、设备及存储介质 | |
JP2019125124A (ja) | 抽出装置、抽出方法、及び抽出プログラム | |
CN111985217B (zh) | 一种关键词提取方法、计算设备及可读存储介质 | |
CN113901278A (zh) | 一种基于全局多探测和适应性终止的数据搜索方法和装置 | |
CN113033205A (zh) | 实体链接的方法、装置、设备以及存储介质 | |
Zhao et al. | MapReduce-based clustering for near-duplicate image identification | |
CN114066278B (zh) | 物品召回的评估方法、装置、介质及程序产品 | |
TWI490711B (zh) | Clustering methods and systems | |
CN107463615A (zh) | 开放网络中基于上下文和用户兴趣的实时去处推荐方法 | |
Qian | Research on complex attribute big data classification based on iterative fuzzy clustering algorithm | |
Cai et al. | Non-structured data integration access policy using hadoop | |
CN113254605A (zh) | 一种建立文档推荐模型的方法及装置 | |
Yan et al. | A Multimodal Retrieval and Ranking Method for Scientific Documents Based on HFS and XLNet | |
CN113641884A (zh) | 基于语义的电力计量数据处理方法、装置和计算机设备 | |
CN115796175A (zh) | 企业业务数据分词权重优化方法、智能匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130905 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140812 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140910 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5615931 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |