JP2023537194A - データサンプルをクラスタ化する方法およびシステム - Google Patents
データサンプルをクラスタ化する方法およびシステム Download PDFInfo
- Publication number
- JP2023537194A JP2023537194A JP2022578770A JP2022578770A JP2023537194A JP 2023537194 A JP2023537194 A JP 2023537194A JP 2022578770 A JP2022578770 A JP 2022578770A JP 2022578770 A JP2022578770 A JP 2022578770A JP 2023537194 A JP2023537194 A JP 2023537194A
- Authority
- JP
- Japan
- Prior art keywords
- samples
- distance
- sample
- cluster
- cluster set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000002629 repopulating effect Effects 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000013500 data storage Methods 0.000 claims description 6
- 230000002085 persistent effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 abstract description 10
- 238000004891 communication Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2264—Multidimensional index structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (10)
- データサンプルをクラスタ化する方法(400)であって、
1つまたは複数のバッチを受信し(402)、前記1つまたは複数のバッチのそれぞれが複数のサンプルを含み、
前記1つまたは複数のバッチの第1のバッチから第1のクラスタセットを作成し(404)、前記第1のクラスタセットの各クラスタが、第1のデータサンプルのセットおよび第2のデータサンプルのセットを含み、前記第1のデータサンプルのセットおよび前記第2のデータサンプルのセットが、各クラスタに関連付けられる前記クラスタの属性の差に基づいて決定され、
前記第1のクラスタセットを再構成し(406)、前記再構成することが、
前記第1のクラスタセットを、前記1つまたは複数のバッチのうち残りのバッチからのサンプルで再ポピュレートすること(406A)、および
第2のクラスタセットを、前記第1のクラスタセットに追加して、前記第2のクラスタセットを、前記1つまたは複数のバッチのうち前記残りのバッチからのサンプルでポピュレートすること(406B)
のうちの少なくとも1つを含む、
方法。 - 前記第1のクラスタセットを再構成すること(406)が、
前記残りのバッチの各サンプルについて、前記残りのバッチの残りのサンプルとの、および前記第1のクラスタセットの各サンプルとの距離を計算することと、
前記残りのバッチの各サンプルについて、前記第1のクラスタセット内のサンプルとの最大距離値を決定することと、
前記残りのバッチの前記サンプルと前記第1のクラスタセットから1つまたは複数の近いサンプルを繰返し選択することと、前記1つまたは複数の近いサンプルを選択することが、最大距離値のうちの最小距離値に基づいており、
前記選択された1つまたは複数の近いサンプルに基づいて前記第1のクラスタセットを再構成すること
とを含む、
請求項1に記載の方法(400)。 - 1つまたは複数の近いサンプルを選択することが、
前記最小距離値を第1の所定のしきい値と繰返し比較することと、
前記第1の所定のしきい値未満の関連する最小距離値を含む近いサンプルを選択すること
とを含む、
請求項2に記載の方法(400)。 - 前記第1のクラスタセットが、第2の所定のしきい値に基づいて作成される、
請求項1に記載の方法(400)。 - データサンプルをクラスタ化するための距離ベースのクラスタリングシステム(200)であって、
メモリ(204)と、
入力/出力(I/O)デバイス(206)と、
ネットワークインターフェース(208)と、
永続的なデータ記憶装置(210)と、
前記メモリ(204)、前記I/Oデバイス(206)、前記ネットワークインターフェース(208)、および前記永続的なデータ記憶装置(210)に結合されたコンピュータプロセッサ(202)と
を備え、前記コンピュータプロセッサ(202)が、
1つまたは複数のバッチを受信することと、前記1つまたは複数のバッチのそれぞれが複数のサンプルを含み、
前記複数のサンプルのそれぞれの距離を生成するための多次元行列を作成することと、
前記多次元行列の次元を、サンプルのペアリング情報に基づいて単一次元に簡単にすることと、前記サンプルのペアリング情報が、最小値のインデックスに基づいて前記多次元行列から抽出され、
前記バッチ内の前記サンプルのそれぞれの間の最低距離を決定することと、
新しいバッチ内の2つのサンプル間の前記最低距離に基づいて後続のクラスタを作成することと
を行なうように構成されている、
距離ベースのクラスタリングシステム。 - 前記クラスタセットの作成が、
残りのバッチの各サンプルについて、前記残りのバッチの残りのサンプルとの、および第1のクラスタセットの各サンプルとの距離を計算することと、
前記残りのバッチの各サンプルについて、前記第1のクラスタセット内のサンプルとの最大距離を決定することと、
1つまたは複数の近いサンプルを前記残りのバッチの前記サンプルと前記第1のクラスタセットから繰返し選択することと、前記1つまたは複数の近いサンプルを選択することが、最大距離値のうちの最小距離に基づいており、
前記選択された1つまたは複数の近いサンプルに基づいて前記クラスタセットを再構成すること
とを含む、
請求項5に記載の距離ベースのクラスタリングシステム。 - 前記多次元行列が、前記新しいバッチにおける各サンプルの、それ自体との、および前記クラスタにおける各サンプルとの距離を生成するための、三次元(3D)行列および二次元(2D)行列を含む、
請求項5に記載の距離ベースのクラスタリングシステム。 - 前記多次元行列が、各行からの最小距離を考慮することによって、および前記多次元行列に記憶された前記サンプルのペアリング情報を保持することによって、単一次元に簡単にされる、
請求項5に記載の距離ベースのクラスタリングシステム。 - 前記プロセッサ(202)が、新しいバッチ内の各サンプルのそれ自体との、およびクラスタ内の各サンプルとの距離を計算することによって、前記3D行列を作成するように構成されている、
請求項5に記載の距離ベースのクラスタリングシステム。 - 前記プロセッサ202が、各サンプルの、クラスタのそれぞれにおける他のサンプルすべてとの最長距離を決定し、前記三次元行列を二次元行列に簡単にするように構成されている、
請求項9に記載の距離ベースのクラスタリングシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN202141028708 | 2021-06-25 | ||
IN202141028708 | 2021-06-25 | ||
PCT/IB2022/052471 WO2022269370A1 (en) | 2021-06-25 | 2022-03-18 | Method and system for clustering data samples |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023537194A true JP2023537194A (ja) | 2023-08-31 |
Family
ID=84544218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022578770A Pending JP2023537194A (ja) | 2021-06-25 | 2022-03-18 | データサンプルをクラスタ化する方法およびシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240104144A1 (ja) |
EP (1) | EP4359962A1 (ja) |
JP (1) | JP2023537194A (ja) |
WO (1) | WO2022269370A1 (ja) |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6263337B1 (en) * | 1998-03-17 | 2001-07-17 | Microsoft Corporation | Scalable system for expectation maximization clustering of large databases |
US6092072A (en) * | 1998-04-07 | 2000-07-18 | Lucent Technologies, Inc. | Programmed medium for clustering large databases |
US20040064299A1 (en) * | 2001-08-10 | 2004-04-01 | Howard Mark | Automated system and method for spectroscopic analysis |
WO2006087854A1 (ja) * | 2004-11-25 | 2006-08-24 | Sharp Kabushiki Kaisha | 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム |
CN102855259B (zh) * | 2011-06-30 | 2015-05-13 | Sap欧洲公司 | 大规模数据聚类分析的并行化 |
TWI451336B (zh) * | 2011-12-20 | 2014-09-01 | Univ Nat Cheng Kung | 預測模型之建模樣本的篩選方法及其電腦程式產品 |
CN104156463A (zh) * | 2014-08-21 | 2014-11-19 | 南京信息工程大学 | 一种基于MapReduce的大数据聚类集成方法 |
CN105550744A (zh) * | 2015-12-06 | 2016-05-04 | 北京工业大学 | 一种基于迭代的神经网络聚类方法 |
WO2017127803A1 (en) * | 2016-01-22 | 2017-07-27 | The Trustees Of Columbia University In The City Of New York | Methods for classification of glioma |
US10685045B2 (en) * | 2016-07-15 | 2020-06-16 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods for cluster matching across samples and guided visualization of multidimensional cytometry data |
US11954614B2 (en) * | 2017-02-08 | 2024-04-09 | 10X Genomics, Inc. | Systems and methods for visualizing a pattern in a dataset |
US11416129B2 (en) * | 2017-06-02 | 2022-08-16 | The Research Foundation For The State University Of New York | Data access interface |
US10719301B1 (en) * | 2018-10-26 | 2020-07-21 | Amazon Technologies, Inc. | Development environment for machine learning media models |
US20220067585A1 (en) * | 2018-12-31 | 2022-03-03 | L&T Technology Services Limited | Method and device for identifying machine learning models for detecting entities |
US11645274B2 (en) * | 2020-07-28 | 2023-05-09 | Intuit Inc. | Minimizing group generation in computer systems with limited computing resources |
EP4359958A1 (en) * | 2021-06-25 | 2024-05-01 | L & T Technology Services Limited | A system and method for examining relevancy of documents |
-
2022
- 2022-03-18 JP JP2022578770A patent/JP2023537194A/ja active Pending
- 2022-03-18 EP EP22817505.5A patent/EP4359962A1/en active Pending
- 2022-03-18 WO PCT/IB2022/052471 patent/WO2022269370A1/en active Application Filing
- 2022-03-18 US US18/010,434 patent/US20240104144A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240104144A1 (en) | 2024-03-28 |
EP4359962A1 (en) | 2024-05-01 |
WO2022269370A1 (en) | 2022-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ramírez‐Gallego et al. | Fast‐mRMR: Fast minimum redundancy maximum relevance algorithm for high‐dimensional big data | |
JP6639420B2 (ja) | フラッシュ最適化データ・レイアウトのための方法、フラッシュ最適化記憶のための装置、およびコンピュータ・プログラム | |
US9377959B2 (en) | Data storage method and apparatus | |
US10922316B2 (en) | Using computing resources to perform database queries according to a dynamically determined query size | |
US20180329999A1 (en) | Methods and systems for query segmentation | |
Mostak | An overview of MapD (massively parallel database) | |
CN111324777A (zh) | 用于分片创建的装置和系统 | |
CN108334951A (zh) | 针对决策树的节点的数据的预统计 | |
US11775544B2 (en) | Feature sets using semi-structured data storage | |
CN111737292B (zh) | 一种数据检索的方法以及相关装置 | |
CN115525652A (zh) | 用户访问数据处理方法及装置 | |
EP3123360B1 (en) | Partition filtering using smart index in memory | |
JP2023537194A (ja) | データサンプルをクラスタ化する方法およびシステム | |
EP4145361A1 (en) | Augmentation of machine learning pipeline corpus for synthesizing new machine learning pipelines | |
JP7213890B2 (ja) | 高速化された大規模な類似度計算 | |
CN115470190A (zh) | 一种多存储池数据分类存储方法、系统与电子设备 | |
Talan et al. | An overview of Hadoop MapReduce, spark, and scalable graph processing architecture | |
Li et al. | SP-phoenix: a massive spatial point data management system based on phoenix | |
KR20210085674A (ko) | 다중-스트림을 지원하도록 구성된 스토리지 장치 및 그것의 동작 방법 | |
Beavers et al. | Data Nuggets: A Method for Reducing Big Data While Preserving Data Structure | |
US11455326B2 (en) | Efficient storage and retrieval of textual data | |
Bicer et al. | A compression framework for multidimensional scientific datasets | |
US11899754B2 (en) | ROI-based data content graph for wide data management | |
CN113392124B (zh) | 一种基于结构化语言的数据查询方法及装置 | |
US11580084B2 (en) | High performance dictionary for managed environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A525 Effective date: 20230213 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240206 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20240426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240502 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240426 |