JP2023537193A - クラスタを表現するためにサンプルを選択する方法およびシステム - Google Patents

クラスタを表現するためにサンプルを選択する方法およびシステム Download PDF

Info

Publication number
JP2023537193A
JP2023537193A JP2022578769A JP2022578769A JP2023537193A JP 2023537193 A JP2023537193 A JP 2023537193A JP 2022578769 A JP2022578769 A JP 2022578769A JP 2022578769 A JP2022578769 A JP 2022578769A JP 2023537193 A JP2023537193 A JP 2023537193A
Authority
JP
Japan
Prior art keywords
samples
clusters
cluster
determined
count
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022578769A
Other languages
English (en)
Inventor
イシタ ダス,
マドゥスダン シン,
ムリダル バララマン,
スカント デブナス,
ムリナル グプタ,
Original Assignee
エルアンドティー テクノロジー サービシズ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エルアンドティー テクノロジー サービシズ リミテッド filed Critical エルアンドティー テクノロジー サービシズ リミテッド
Publication of JP2023537193A publication Critical patent/JP2023537193A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

クラスタを表現するためにサンプルを選択する方法が開示される。方法は、最適化デバイスによって、1つまたは複数のクラスタを受信することを含んでもよい。1つまたは複数のクラスタのそれぞれは、複数のサンプルを含む。方法は、1つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定してもよく、1つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成してもよい。方法は、クラスタの複数のサンプルを、クラスタ内の複数のサンプルのばらつきの度合いに基づいて、ソートしてもよい。ソートすることは、1つまたは複数のクラスタのそれぞれについてのアレイベースの距離行列を使用して実施してもよい。さらに、方法は、クラスタを表現するために、サンプルの数の決定されたカウントを、複数のクラスタのそれぞれの、ソートされた複数のサンプルから選択してもよい。【選択図】図3

Description

本開示は、一般に、データセットのサイズを小さくすることに関し、より詳細には、データセットのサイズを小さくするためのクラスタを表現するために複数のサンプルを選択することに関する。
情報爆発を伴うビッグデータの時代では、データ処理に関連するビジネス要件が、日々高まっており、処理対象のデータサンプルは、益々複雑化している。データのクラスタリングは、システムのエンジニアリングおよび計算科学において極めて重要な分野であり、教師無し学習を使用して、ラベル付けされたデータを伴わずに機械学習モデルを訓練する。クラスタリングアルゴリズムは、自身の一意な特徴を有するいくつかのクラスタに、データを分割する。時には、これらのクラスタ自身が、膨大な数のサンプルを有する。ラベル付けされていないデータが利用可能となるのは、高い次元、また線形に分離不可能なデータ空間であり、そのことにより、機械学習モデルの処理および訓練の間、大きなメモリチャンクおよび時間を消費する。
したがって、当分野では、機械学習モデルの効果的でリソース効率の良い訓練のために、クラスタ内のサンプルの総数のカウントを低減することによって、データセットのサイズを小さくするための方法およびシステムを提供する必要性がある。
クラスタを表現するためにサンプルを選択する方法が開示される。方法は、最適化デバイスによって、1つまたは複数のクラスタを受信することを含んでもよい。1つまたは複数のクラスタのそれぞれは、複数のサンプルを含む。方法は、1つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定してもよく、1つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成してもよい。方法は、クラスタの複数のサンプルを、クラスタ内の複数のサンプルのばらつきの度合いに基づいて、ソートしてもよい。ソートすることは、1つまたは複数のクラスタのそれぞれについてのアレイベースの距離行列を使用して実施してもよい。さらに、方法は、クラスタを表現するために、サンプルの数の決定されたカウントを、複数のクラスタのそれぞれの、ソートされた複数のサンプルから選択してもよい。
本開示に組み込まれ、その一部を成す添付の図面は、例示の実施形態を図示しており、説明と併せて、開示される原理を説明するよう機能する。
本開示の実施形態による、1つまたは複数のクラスタから複数のデータサンプルを選択するためのプロセス図である。 本開示のいくつかの実施形態による、1つまたは複数のクラスタから複数のデータサンプルをソートして選択するためのプロセス図である。 本開示のいくつかの実施形態による、クラスタを表現するためにサンプルを選択する方法のフローチャートである。
例示的な実施形態を、添付の図面を参照して説明する。同一または類似の部分を参照するために、好都合であればいつでも、図面を通じて同一の参照符号を使用する。本明細書では開示される原理の例および特徴が説明されるが、開示される実施形態の思想および範囲から逸脱することなく、修正、適合、および他の実装が可能である。以下の詳細な説明は、単なる例として考えられ、真の範囲および思想は、後に続く特許請求の範囲によって示されることが意図されている。追加的な例示の実施形態を以降に列挙する。
理解されるように、クラスタリングアルゴリズムは、自身の一意な特徴を有するいくつかのクラスタに、データを分割する。時には、これらのクラスタ自身が、膨大な数のサンプルを有する。本開示は、クラスタに固有なばらつき、性質をカバーする、限られた数のサンプルを用いてクラスタを表現することができる解決策を提供する。このやり方で、アルゴリズムは、さらなるプロセスのためにデータセット全体を使用するために依存性を低減し、それにより、大きなデータセットを用いて作業する際のメモリおよび時間の複雑さを制限する。アルゴリズムはまた、クラスタのサイズが小さい場合に、ユーザが必要なサンプル数をクラスタから選択できるようにする、柔軟なものである。
さらには、プロセスは、均質なクラスタからでも、一意なサンプルを選択することができるよう確実にする。
図1を参照すると、本開示の実施形態による、1つまたは複数のクラスタから複数のデータサンプルを選択するためのプロセス100が図示される。
ステップ102では、データセットは、1つまたは複数の異なるクラスタにクラスタ化されてもよい。クラスタリングは、同じように見え、類似の特徴を有するデータセットが、特定のクラスタ内に一緒に保持されることを確実にするよう実施されてもよい。
ステップ104では、複数のデータサンプルのうち、いくつのデータサンプルを、1つまたは複数の異なる作成済クラスタのうちの1つのクラスタから選択することができるかを決定することができる。
いくつのデータサンプルが選択されるかを決定するために、最適な割り当てのための、層化サンプリングメカニズムが使用されてもよい。層化サンプリングメカニズムは、複数のデータサンプルを考慮することができる。複数のデータサンプルのそれぞれは、均質なグループ(つまり、類似の特徴を有する複数のデータサンプルのそれぞれを一緒に格納することができる、クラスタ)に分割することができる。決定は、複数の類似して見えるサンプルの中から、いくつのサンプルが選択され得るかに関する場合がある。ステップ106では、データサンプルのうち、どれを、1つまたは複数の異なるクラスタから選択することができるかを決定することができる。層化サンプリングメカニズムは、特定の均質なデータグループのうちの1つを選択してもよく、特定の計算に基づいて1つまたは複数のデータサンプルをランダムに選択してもよい。
ステップ108では、所与のクラスタについて、下で言及する式を用いて、N個のサンプルをクラスタから選択することができる:
Figure 2023537193000002
ただし、wは、i番目のクラスタ内に存在するデータサンプルの数であり、
は、クラスタ内のデータサンプルのばらつきであり、
は、平均のクラスタ確率であり、
は、定数である。
式(1)は、式(2)のように、簡単にすることができる。
Figure 2023537193000003
式(2)では、クラスタのサイズとばらつきを考慮してもよい。
クラスタ内に存在する複数のデータサンプル同士を区別するために機械学習モデルが利用可能であり、また所与のセットの特徴に基づいて複数のデータサンプル同士の区別の正確なレベルを予測することができる事例では、機械学習モデルから導かれる学習を利用して、クラスタ確率を考慮することによって、いくつのデータサンプルをクラスタから選択することができるかを決定することができる。区別のレベルに関する学習が、利用可能な機械学習モデルのいずれからも利用可能ではない場合、クラスタ確率パラメータは、データサンプルの数の選択を決定するための重み付けが、あまり与えられない場合がある。
ステップ106では、どのデータサンプルが選択されるかに関する決定が実施されてもよい。一般的に、データサンプルは、利用可能なランダム選択メカニズムのいずれかに基づいて、ランダムに選択され得る。しかしながら、選択されたデータサンプルがクラスタ全体を表現するべく、クラスタのばらつきの度合いを最大化するために、距離ベースの選択メカニズムが、ステップ110で利用されてもよい。距離ベースの選択メカニズムでは、クラスタ内に存在するアレイベースで最適化された距離が利用されてもよい。距離行列は、例えば、ユークリッドベースの距離行列またはマンハッタンベースの距離行列であってもよい。さらに、データサンプルは、その距離に基づいて、つまり、ばらつきの最大化に基づいてソートされてもよい。
ステップ116では、1つまたは複数のクラスタの、クラスタのそれぞれにおいて、式(2)を使用して、「n」個のデータサンプルが選択されてもよい。さらに、「n」個のデータサンプルを選択する手順は、データセットの1つまたは複数のクラスタのクラスタすべてについて繰り返すことができる。具体的なシナリオでは、クラスタから選択された、ある数のデータサンプルが最小限である場合、プロセス100は、1つまたは複数のクラスタのそれぞれから、サンプルの数の所定のカウントを選択してもよい。これは、サンプルの数の選択された決定されたカウントが、しきい値未満である場合に行なわれ得る。ステップ118では、合計「n」個のデータサンプルが、1つまたは複数のクラスタのそれぞれから選択され、それにより、データセットのサイズを小さくする。
次に図2を参照すると、本開示のいくつかの実施形態による、1つまたは複数のクラスタからの複数のデータサンプルをソートして選択するためのプロセス200が図示される。
ステップ204では、1つまたは複数のクラスタのうち、1つのクラスタから第1のデータサンプルが選択されてもよい。ステップ206では、第1の選択されたサンプルから最も遠い、第2のデータサンプルが選択されてもよい。ステップ208では、第1のデータサンプルと第2のサンプルは、データセット内に維持されてもよい。ステップ210では、第3のデータサンプルが選択されてもよい。第3のデータサンプルの選択は、ステップ216において、あるメカニズムにしたがって実施され、データセットの外部から、例えば第3のデータサンプルから、ランダムなサンプルが選択される。データセットの外部のデータサンプルに関して、データセットのデータサンプルの距離を、決定することができる。例えば、第3のデータサンプルの距離は、データセットの第1のデータサンプルに関して「d13」として、およびデータセットの第2のデータサンプルに関して「d23」として決定されてもよい。
距離「d13」と距離「d23」の距離のうち、小さいほうを選択することができる。小さいほうの距離とは、例えば図2で図示されるような「d13」である。さらに、データセットの外部に存在するデータサンプルのすべてについて、距離をチェックして最小距離を選択する、上で言及したステップが決定されてもよい。例えば、データセットの外部の別のデータサンプルは、第4のデータサンプルであってもよく、決定される距離は、例えば、データセットの第1のデータサンプルから第4のデータサンプルまで、「d14」として、およびデータセットの第2のデータサンプルからの「d24」としてであってもよい。
続いて、決定される距離の最小を、例えば「d13」および「d24」として決定することができる。次に、最小の決定された距離からの最大距離、例えば「d13」が選択される。最終的に、データサンプル、例えば最大距離に対応する第3のサンプル、例えば「d13」が選択されてもよく、データセットに挿入されてもよい。
層化サンプリングメカニズムを使用することによって、および、ばらつきの最大化に基づいてクラスタ内でデータサンプルをソートすることによって、ステップ212では、「n」個のサンプルを、1つまたは複数のクラスタのクラスタから選択することができ、それによって、選択されたサンプルは一意であり、そのクラスタのばらつき全体をカバーすることができる。
ステップ214では、上述のステップ204~212は、1つまたは複数のクラスタの、クラスタのそれぞれについて繰り返され、データセットの性質を保った新しい縮小データセットを作成することができる。
例示の実施形態では、手書きのアルファベットのデータセットがあると仮定する。データセットでは、アルファベット「a」は、様々なユーザによって、イタリック体、ボールド体、異なるフォントサイズで、または筆記体など、異なった形で書かれ得る。さらに、アルファベットは、アルファベットが「a」、「b」、「c」などのアルファベットのカテゴリに存在するかどうかに基づいてクラスタ化され得る。アルファベット「a」のクラスタからの複数のデータサンプルを検討する。アルファベット「a」のクラスタでは、イタリック体の「a」は、数が少ないものとする。例えば、50Kデータサンプルを有するデータセット中、5Kデータサンプルだけが、アルファベット「a」のイタリック体を表現する場合があり、故に50Kデータサンプル内で、イタリック体の「a」の一意性を表現し得る。一意なイタリック体「a」は、データサンプルを配列してソートするために使用されてもよい。したがって、50Kサンプルから、5Kサンプルが、アルファベット「a」のイタリック体を表現するために使用することができると結論付けることができる。さらに、これらの表現される5Kサンプルのうち、どれが選ばれるかは、クラスタ内でのデータサンプルのばらつきの最大化に基づいたソーティングメカニズムによって決定されてもよい。
次に図3を参照すると、実施形態による、クラスタを表現するためにサンプルを選択する方法300のフローチャートが図示される。ステップ302では、1つまたは複数のクラスタが受信される。1つまたは複数のクラスタのそれぞれは、複数のサンプルを含んでもよい。
ステップ304では、1つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントが決定されてもよい。1つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントは、1つまたは複数のクラスタのそれぞれについてのサイズ、ばらつき、およびクラスタ確率のうちの少なくとも1つに基づいて、層化サンプリング技法を使用して、決定されてもよい。クラスタ確率は、機械学習(ML)モデルを使用して決定されてもよく、MLモデルは、クラスタの複数のサンプルを分類する。訓練無しのMLモデルの事例では、各クラスタは、等しい確率を割振られることに留意されたい。
ステップ306では、1つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列が生成されてもよい。例えば、アレイベースの距離行列は、ユークリッド距離行列であってもよい。ステップ308では、クラスタの複数のサンプルは、クラスタ内の複数のサンプルのばらつきの度合いに基づいて、1つまたは複数のクラスタのそれぞれについてのアレイベースの距離行列を使用して、ソートすることができる。
ステップ310では、クラスタを表現するために、サンプルの数の決定されたカウントを、複数のクラスタのそれぞれの、ソートされた複数のサンプルから選択してもよい。加えて、いくつかの実施形態では、サンプルの数の選択された決定されたカウントがしきい値未満である場合、サンプルの数の所定のカウントは、1つまたは複数のクラスタのそれぞれから選択されてもよい。
1つまたは複数のコンピュータ可読記憶媒体は、本開示と一貫性のある実施形態を実装する際に利用される。コンピュータ可読記憶媒体とは、プロセッサによって可読な情報またはデータを記憶することができる、あらゆるタイプの物理メモリを称する。故に、コンピュータ可読記憶媒体は、本明細書で説明される実施形態と一貫性のあるステップまたは工程をプロセッサに実行させるための命令を含む、1つまたは複数のプロセッサによる実行のための命令を記憶する。「コンピュータ可読媒体」という用語は、有形物を含み、搬送波および一過性の信号を含まない、つまり非一時的であると理解されるべきである。例としては、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、揮発性メモリ、非揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュドライブ、ディスク、およびあらゆる他の既知の物理的な記憶媒体が挙げられる。
明確にするために、上述のことは、本開示の実施形態を、異なる機能的なユニットおよびプロセッサに関して説明したものであることを諒解されたい。しかしながら、異なる機能的なユニット、プロセッサ、またはドメイン間での機能性のあらゆる好適な分散が、本開示から逸脱することなく使用され得ることが明らかとなろう。
例えば、別個のプロセッサまたはコントローラによって実施されるよう図示される機能性は、同一のプロセッサまたはコントローラによって実施されてもよい。したがって、特定の機能的なユニットへの参照は、厳密な論理的または物理的な構造または編成を示すのではなく、説明される機能性を提供するための好適な手段への参照として考えられるに過ぎない。
いくつかの実施形態に関連して本開示を説明したが、本開示は、本明細書で説明した特定の形態に限定されるよう意図されていない。そうではなく、本開示の範囲は、特許請求の範囲によってのみ制限される。加えて、特徴は、特定の実施形態に関連して説明されるように見えるかもしれないが、当業者であれば、説明される実施形態の様々な特徴は、本開示にしたがって組み合わせることができることを認識されよう。
さらには、個々に列挙されているが、複数の手段、要素、またはプロセスのステップは、例えば単一のユニットまたはプロセッサによって実装されてもよい。加えて、個々の特徴が、異なる請求項に含まれる場合があるが、これらは、可能であれば有利に組み合わされてもよく、異なる請求項に含まれることは、特徴の組み合わせが、実行可能ではない、および/または有利ではないということを意味するものではない。また、特徴が、請求項の1つのカテゴリに含まれることは、このカテゴリへの限定することを意味するものではなく、むしろ、適当であれば特徴は他の請求項カテゴリに等しく適用可能であり得る。

Claims (8)

  1. クラスタを表現するためにサンプルを選択する方法であって、
    最適化デバイスによって、それぞれが複数のサンプルを備える1つまたは複数のクラスタを受信し、
    前記最適化デバイスによって、前記1つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定し、
    前記最適化デバイスによって、前記1つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成し、
    前記最適化デバイスによって、前記クラスタの前記複数のサンプルを、前記クラスタ内の前記複数のサンプルのばらつきの度合いに基づいて、前記1つまたは複数のクラスタのそれぞれについての前記アレイベースの距離行列を使用して、ソートし、
    前記最適化デバイスによって、前記クラスタを表現するために、サンプルの数の前記決定されたカウントを、前記複数のクラスタのそれぞれの、前記ソートされた複数のサンプルから選択する、
    方法。
  2. 前記サンプルの数の前記選択された決定されたカウントがしきい値未満である場合、前記サンプルの数の所定のカウントを、前記1つまたは複数のクラスタのそれぞれから選択し、前記しきい値が、各データセットに特有であり、クラスタのサイズを前記データセットと比較することによって決定される、
    請求項1に記載の方法。
  3. 前記1つまたは複数のクラスタのそれぞれから選択されるサンプルの数の前記カウントが、前記1つまたは複数のクラスタのそれぞれについてのサイズ、ばらつき、およびクラスタ確率のうちの少なくとも1つに基づいて、層化サンプリング技法を使用して、決定される、
    請求項1に記載の方法。
  4. 前記クラスタ確率が、機械学習(ML)モデルを使用して決定され、前記MLモデルが、前記クラスタの前記複数のサンプルを分類する、
    請求項3に記載の方法。
  5. 下記を行なうように構成された1つまたは複数のコンピューティングデバイスを備える、
    最適化デバイスによって、それぞれが複数のサンプルを備える1つまたは複数のクラスタを受信する、
    前記最適化デバイスによって、前記1つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定する、
    前記最適化デバイスによって、前記1つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成する、
    前記最適化デバイスによって、前記クラスタの前記複数のサンプルを、前記クラスタ内の前記複数のサンプルのばらつきの度合いに基づいて、前記1つまたは複数のクラスタのそれぞれについての前記アレイベースの距離行列を使用して、ソートする、および、
    前記最適化デバイスによって、前記クラスタを表現するために、サンプルの数の前記決定されたカウントを、前記複数のクラスタのそれぞれの、前記ソートされた複数のサンプルから選択する、
    システム。
  6. 前記サンプルの数の前記選択された決定されたカウントがしきい値未満である場合、前記サンプルの数の所定のカウントを、前記1つまたは複数のクラスタのそれぞれから選択し、前記しきい値が、各データセットに特有であり、クラスタのサイズを前記データセットと比較することによって決定される、
    請求項5に記載のシステム。
  7. 前記1つまたは複数のクラスタのそれぞれから選択されるサンプルの数の前記カウントが、1つまたは複数のクラスタのそれぞれについてのサイズ、ばらつき、およびクラスタ確率のうちの少なくとも1つに基づいて、層化サンプリング技法を使用して、決定される、
    請求項5に記載のシステム。
  8. 前記クラスタ確率が、機械学習(ML)モデルを使用して決定され、前記MLモデルが、前記クラスタの前記複数のサンプルを分類する、
    請求項7に記載のシステム。
JP2022578769A 2021-06-25 2022-03-15 クラスタを表現するためにサンプルを選択する方法およびシステム Pending JP2023537193A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN202141028706 2021-06-25
IN202141028706 2021-06-25
PCT/IB2022/052333 WO2022269368A1 (en) 2021-06-25 2022-03-15 Method and system for selecting samples to represent a cluster

Publications (1)

Publication Number Publication Date
JP2023537193A true JP2023537193A (ja) 2023-08-31

Family

ID=84544198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022578769A Pending JP2023537193A (ja) 2021-06-25 2022-03-15 クラスタを表現するためにサンプルを選択する方法およびシステム

Country Status (4)

Country Link
US (1) US20240111814A1 (ja)
EP (1) EP4360016A1 (ja)
JP (1) JP2023537193A (ja)
WO (1) WO2022269368A1 (ja)

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602004017475D1 (de) * 2003-08-07 2008-12-11 Thomson Licensing Verfahren zum wiedergeben von audio-dokumenten mit hilfe einer schnittstelle mit dokumentgruppen und assoziierte wiedergabeeinrichtung
US7542951B1 (en) * 2005-10-31 2009-06-02 Amazon Technologies, Inc. Strategies for providing diverse recommendations
US8676815B2 (en) * 2008-05-07 2014-03-18 City University Of Hong Kong Suffix tree similarity measure for document clustering
US8812543B2 (en) * 2011-03-31 2014-08-19 Infosys Limited Methods and systems for mining association rules
US9811539B2 (en) * 2012-04-26 2017-11-07 Google Inc. Hierarchical spatial clustering of photographs
US9514213B2 (en) * 2013-03-15 2016-12-06 Oracle International Corporation Per-attribute data clustering using tri-point data arbitration
US10599953B2 (en) * 2014-08-27 2020-03-24 Verint Americas Inc. Method and system for generating and correcting classification models
WO2016053343A1 (en) * 2014-10-02 2016-04-07 Hewlett-Packard Development Company, L.P. Intent based clustering
US9558572B2 (en) * 2014-12-18 2017-01-31 Business Objects Software Ltd. Visualization of data clusters
US10902025B2 (en) * 2015-08-20 2021-01-26 Skyhook Wireless, Inc. Techniques for measuring a property of interest in a dataset of location samples
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
US11238083B2 (en) * 2017-05-12 2022-02-01 Evolv Technology Solutions, Inc. Intelligently driven visual interface on mobile devices and tablets based on implicit and explicit user actions
CN107194430B (zh) * 2017-05-27 2021-07-23 北京三快在线科技有限公司 一种样本筛选方法及装置,电子设备
US11003959B1 (en) * 2019-06-13 2021-05-11 Amazon Technologies, Inc. Vector norm algorithmic subsystems for improving clustering solutions
US11461822B2 (en) * 2019-07-09 2022-10-04 Walmart Apollo, Llc Methods and apparatus for automatically providing personalized item reviews
US20210035025A1 (en) * 2019-07-29 2021-02-04 Oracle International Corporation Systems and methods for optimizing machine learning models by summarizing list characteristics based on multi-dimensional feature vectors
US11818091B2 (en) * 2020-05-10 2023-11-14 Salesforce, Inc. Embeddings-based discovery and exposure of communication platform features
WO2022072894A1 (en) * 2020-10-01 2022-04-07 Crowdsmart, Inc. Infinitely scaling a/b testing
US20220156572A1 (en) * 2020-11-17 2022-05-19 International Business Machines Corporation Data partitioning with neural network
US11914663B2 (en) * 2021-12-29 2024-02-27 Microsoft Technology Licensing, Llc Generating diverse electronic summary documents for a landing page

Also Published As

Publication number Publication date
WO2022269368A1 (en) 2022-12-29
US20240111814A1 (en) 2024-04-04
EP4360016A1 (en) 2024-05-01

Similar Documents

Publication Publication Date Title
WO2021164625A1 (en) Method of training an image classification model
CN112632045B (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN110914834A (zh) 用于图像变型和识别的神经风格迁移
CN111143842B (zh) 一种恶意代码检测方法及系统
JP3172762B2 (ja) オブジェクト認識装置
US20210263903A1 (en) Multi-level conflict-free entity clusters
Patil et al. Enriched over_sampling techniques for improving classification of imbalanced big data
CN111782804A (zh) 基于TextCNN同分布文本数据选择方法、系统及存储介质
CN114417095A (zh) 一种数据集划分方法及装置
CN107273842B (zh) 基于csjoga算法的选择性集成人脸识别方法
EP4235515A1 (en) A system and method for model configuration selection
JP2023537193A (ja) クラスタを表現するためにサンプルを選択する方法およびシステム
CN104361224A (zh) 置信分类方法及置信机器
Fleyeh et al. Multiclass AdaBoost based on an ensemble of binary AdaBoosts
CN111931229B (zh) 一种数据识别方法、装置和存储介质
US20220075805A1 (en) Mediums, methods, and systems for classifying columns of a data store based on character level labeling
CN111507195B (zh) 虹膜分割神经网络模型的训练方法、虹膜分割方法及装置
JP6678709B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN112733966A (zh) 一种聚类采集与识别方法、系统及存储介质
Chairi et al. Sample selection based active learning for imbalanced data
US20230385605A1 (en) Complementary Networks for Rare Event Detection
Cheng Research on Parallel SVM Algorithm Based on Cascade SVM
Bhowmick et al. A cluster and label approach for classifying imbalanced data streams in the presence of scarcely labelled data
Ji Research on fast de-duplication of text backup information in library database based on big data
US20240104372A1 (en) Systems and methods for improving training of artificial neural networks

Legal Events

Date Code Title Description
A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A525

Effective date: 20230213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240402

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20240509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20240509