JP2023537193A - クラスタを表現するためにサンプルを選択する方法およびシステム - Google Patents
クラスタを表現するためにサンプルを選択する方法およびシステム Download PDFInfo
- Publication number
- JP2023537193A JP2023537193A JP2022578769A JP2022578769A JP2023537193A JP 2023537193 A JP2023537193 A JP 2023537193A JP 2022578769 A JP2022578769 A JP 2022578769A JP 2022578769 A JP2022578769 A JP 2022578769A JP 2023537193 A JP2023537193 A JP 2023537193A
- Authority
- JP
- Japan
- Prior art keywords
- samples
- clusters
- cluster
- determined
- count
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 12
- 238000010801 machine learning Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 abstract description 3
- 239000006185 dispersion Substances 0.000 abstract 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
Siは、クラスタ内のデータサンプルのばらつきであり、
Ciは、平均のクラスタ確率であり、
C0は、定数である。
Claims (8)
- クラスタを表現するためにサンプルを選択する方法であって、
最適化デバイスによって、それぞれが複数のサンプルを備える1つまたは複数のクラスタを受信し、
前記最適化デバイスによって、前記1つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定し、
前記最適化デバイスによって、前記1つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成し、
前記最適化デバイスによって、前記クラスタの前記複数のサンプルを、前記クラスタ内の前記複数のサンプルのばらつきの度合いに基づいて、前記1つまたは複数のクラスタのそれぞれについての前記アレイベースの距離行列を使用して、ソートし、
前記最適化デバイスによって、前記クラスタを表現するために、サンプルの数の前記決定されたカウントを、前記複数のクラスタのそれぞれの、前記ソートされた複数のサンプルから選択する、
方法。 - 前記サンプルの数の前記選択された決定されたカウントがしきい値未満である場合、前記サンプルの数の所定のカウントを、前記1つまたは複数のクラスタのそれぞれから選択し、前記しきい値が、各データセットに特有であり、クラスタのサイズを前記データセットと比較することによって決定される、
請求項1に記載の方法。 - 前記1つまたは複数のクラスタのそれぞれから選択されるサンプルの数の前記カウントが、前記1つまたは複数のクラスタのそれぞれについてのサイズ、ばらつき、およびクラスタ確率のうちの少なくとも1つに基づいて、層化サンプリング技法を使用して、決定される、
請求項1に記載の方法。 - 前記クラスタ確率が、機械学習(ML)モデルを使用して決定され、前記MLモデルが、前記クラスタの前記複数のサンプルを分類する、
請求項3に記載の方法。 - 下記を行なうように構成された1つまたは複数のコンピューティングデバイスを備える、
最適化デバイスによって、それぞれが複数のサンプルを備える1つまたは複数のクラスタを受信する、
前記最適化デバイスによって、前記1つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定する、
前記最適化デバイスによって、前記1つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成する、
前記最適化デバイスによって、前記クラスタの前記複数のサンプルを、前記クラスタ内の前記複数のサンプルのばらつきの度合いに基づいて、前記1つまたは複数のクラスタのそれぞれについての前記アレイベースの距離行列を使用して、ソートする、および、
前記最適化デバイスによって、前記クラスタを表現するために、サンプルの数の前記決定されたカウントを、前記複数のクラスタのそれぞれの、前記ソートされた複数のサンプルから選択する、
システム。 - 前記サンプルの数の前記選択された決定されたカウントがしきい値未満である場合、前記サンプルの数の所定のカウントを、前記1つまたは複数のクラスタのそれぞれから選択し、前記しきい値が、各データセットに特有であり、クラスタのサイズを前記データセットと比較することによって決定される、
請求項5に記載のシステム。 - 前記1つまたは複数のクラスタのそれぞれから選択されるサンプルの数の前記カウントが、1つまたは複数のクラスタのそれぞれについてのサイズ、ばらつき、およびクラスタ確率のうちの少なくとも1つに基づいて、層化サンプリング技法を使用して、決定される、
請求項5に記載のシステム。 - 前記クラスタ確率が、機械学習(ML)モデルを使用して決定され、前記MLモデルが、前記クラスタの前記複数のサンプルを分類する、
請求項7に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN202141028706 | 2021-06-25 | ||
IN202141028706 | 2021-06-25 | ||
PCT/IB2022/052333 WO2022269368A1 (en) | 2021-06-25 | 2022-03-15 | Method and system for selecting samples to represent a cluster |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023537193A true JP2023537193A (ja) | 2023-08-31 |
Family
ID=84544198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022578769A Pending JP2023537193A (ja) | 2021-06-25 | 2022-03-15 | クラスタを表現するためにサンプルを選択する方法およびシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240111814A1 (ja) |
EP (1) | EP4360016A1 (ja) |
JP (1) | JP2023537193A (ja) |
WO (1) | WO2022269368A1 (ja) |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602004017475D1 (de) * | 2003-08-07 | 2008-12-11 | Thomson Licensing | Verfahren zum wiedergeben von audio-dokumenten mit hilfe einer schnittstelle mit dokumentgruppen und assoziierte wiedergabeeinrichtung |
US7542951B1 (en) * | 2005-10-31 | 2009-06-02 | Amazon Technologies, Inc. | Strategies for providing diverse recommendations |
US8676815B2 (en) * | 2008-05-07 | 2014-03-18 | City University Of Hong Kong | Suffix tree similarity measure for document clustering |
US8812543B2 (en) * | 2011-03-31 | 2014-08-19 | Infosys Limited | Methods and systems for mining association rules |
US9811539B2 (en) * | 2012-04-26 | 2017-11-07 | Google Inc. | Hierarchical spatial clustering of photographs |
US9514213B2 (en) * | 2013-03-15 | 2016-12-06 | Oracle International Corporation | Per-attribute data clustering using tri-point data arbitration |
US10599953B2 (en) * | 2014-08-27 | 2020-03-24 | Verint Americas Inc. | Method and system for generating and correcting classification models |
WO2016053343A1 (en) * | 2014-10-02 | 2016-04-07 | Hewlett-Packard Development Company, L.P. | Intent based clustering |
US9558572B2 (en) * | 2014-12-18 | 2017-01-31 | Business Objects Software Ltd. | Visualization of data clusters |
US10902025B2 (en) * | 2015-08-20 | 2021-01-26 | Skyhook Wireless, Inc. | Techniques for measuring a property of interest in a dataset of location samples |
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
US11238083B2 (en) * | 2017-05-12 | 2022-02-01 | Evolv Technology Solutions, Inc. | Intelligently driven visual interface on mobile devices and tablets based on implicit and explicit user actions |
CN107194430B (zh) * | 2017-05-27 | 2021-07-23 | 北京三快在线科技有限公司 | 一种样本筛选方法及装置,电子设备 |
US11003959B1 (en) * | 2019-06-13 | 2021-05-11 | Amazon Technologies, Inc. | Vector norm algorithmic subsystems for improving clustering solutions |
US11461822B2 (en) * | 2019-07-09 | 2022-10-04 | Walmart Apollo, Llc | Methods and apparatus for automatically providing personalized item reviews |
US20210035025A1 (en) * | 2019-07-29 | 2021-02-04 | Oracle International Corporation | Systems and methods for optimizing machine learning models by summarizing list characteristics based on multi-dimensional feature vectors |
US11818091B2 (en) * | 2020-05-10 | 2023-11-14 | Salesforce, Inc. | Embeddings-based discovery and exposure of communication platform features |
WO2022072894A1 (en) * | 2020-10-01 | 2022-04-07 | Crowdsmart, Inc. | Infinitely scaling a/b testing |
US20220156572A1 (en) * | 2020-11-17 | 2022-05-19 | International Business Machines Corporation | Data partitioning with neural network |
US11914663B2 (en) * | 2021-12-29 | 2024-02-27 | Microsoft Technology Licensing, Llc | Generating diverse electronic summary documents for a landing page |
-
2022
- 2022-03-15 JP JP2022578769A patent/JP2023537193A/ja active Pending
- 2022-03-15 US US18/010,757 patent/US20240111814A1/en active Pending
- 2022-03-15 EP EP22817511.3A patent/EP4360016A1/en active Pending
- 2022-03-15 WO PCT/IB2022/052333 patent/WO2022269368A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022269368A1 (en) | 2022-12-29 |
US20240111814A1 (en) | 2024-04-04 |
EP4360016A1 (en) | 2024-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021164625A1 (en) | Method of training an image classification model | |
CN112632045B (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN110914834A (zh) | 用于图像变型和识别的神经风格迁移 | |
CN111143842B (zh) | 一种恶意代码检测方法及系统 | |
JP3172762B2 (ja) | オブジェクト認識装置 | |
US20210263903A1 (en) | Multi-level conflict-free entity clusters | |
Patil et al. | Enriched over_sampling techniques for improving classification of imbalanced big data | |
CN111782804A (zh) | 基于TextCNN同分布文本数据选择方法、系统及存储介质 | |
CN114417095A (zh) | 一种数据集划分方法及装置 | |
CN107273842B (zh) | 基于csjoga算法的选择性集成人脸识别方法 | |
EP4235515A1 (en) | A system and method for model configuration selection | |
JP2023537193A (ja) | クラスタを表現するためにサンプルを選択する方法およびシステム | |
CN104361224A (zh) | 置信分类方法及置信机器 | |
Fleyeh et al. | Multiclass AdaBoost based on an ensemble of binary AdaBoosts | |
CN111931229B (zh) | 一种数据识别方法、装置和存储介质 | |
US20220075805A1 (en) | Mediums, methods, and systems for classifying columns of a data store based on character level labeling | |
CN111507195B (zh) | 虹膜分割神经网络模型的训练方法、虹膜分割方法及装置 | |
JP6678709B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN112733966A (zh) | 一种聚类采集与识别方法、系统及存储介质 | |
Chairi et al. | Sample selection based active learning for imbalanced data | |
US20230385605A1 (en) | Complementary Networks for Rare Event Detection | |
Cheng | Research on Parallel SVM Algorithm Based on Cascade SVM | |
Bhowmick et al. | A cluster and label approach for classifying imbalanced data streams in the presence of scarcely labelled data | |
Ji | Research on fast de-duplication of text backup information in library database based on big data | |
US20240104372A1 (en) | Systems and methods for improving training of artificial neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A525 Effective date: 20230213 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240402 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20240509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240509 |