JP2023537193A

JP2023537193A - クラスタを表現するためにサンプルを選択する方法およびシステム

Info

Publication number: JP2023537193A
Application number: JP2022578769A
Authority: JP
Inventors: イシタダス，; マドゥスダンシン，; ムリダルバララマン，; スカントデブナス，; ムリナルグプタ，
Original assignee: エルアンドティーテクノロジーサービシズリミテッド
Priority date: 2021-06-25
Filing date: 2022-03-15
Publication date: 2023-08-31
Also published as: WO2022269368A1; US20240111814A1; EP4360016A1

Abstract

クラスタを表現するためにサンプルを選択する方法が開示される。方法は、最適化デバイスによって、１つまたは複数のクラスタを受信することを含んでもよい。１つまたは複数のクラスタのそれぞれは、複数のサンプルを含む。方法は、１つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定してもよく、１つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成してもよい。方法は、クラスタの複数のサンプルを、クラスタ内の複数のサンプルのばらつきの度合いに基づいて、ソートしてもよい。ソートすることは、１つまたは複数のクラスタのそれぞれについてのアレイベースの距離行列を使用して実施してもよい。さらに、方法は、クラスタを表現するために、サンプルの数の決定されたカウントを、複数のクラスタのそれぞれの、ソートされた複数のサンプルから選択してもよい。【選択図】図３

Description

本開示は、一般に、データセットのサイズを小さくすることに関し、より詳細には、データセットのサイズを小さくするためのクラスタを表現するために複数のサンプルを選択することに関する。

情報爆発を伴うビッグデータの時代では、データ処理に関連するビジネス要件が、日々高まっており、処理対象のデータサンプルは、益々複雑化している。データのクラスタリングは、システムのエンジニアリングおよび計算科学において極めて重要な分野であり、教師無し学習を使用して、ラベル付けされたデータを伴わずに機械学習モデルを訓練する。クラスタリングアルゴリズムは、自身の一意な特徴を有するいくつかのクラスタに、データを分割する。時には、これらのクラスタ自身が、膨大な数のサンプルを有する。ラベル付けされていないデータが利用可能となるのは、高い次元、また線形に分離不可能なデータ空間であり、そのことにより、機械学習モデルの処理および訓練の間、大きなメモリチャンクおよび時間を消費する。

したがって、当分野では、機械学習モデルの効果的でリソース効率の良い訓練のために、クラスタ内のサンプルの総数のカウントを低減することによって、データセットのサイズを小さくするための方法およびシステムを提供する必要性がある。

クラスタを表現するためにサンプルを選択する方法が開示される。方法は、最適化デバイスによって、１つまたは複数のクラスタを受信することを含んでもよい。１つまたは複数のクラスタのそれぞれは、複数のサンプルを含む。方法は、１つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定してもよく、１つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成してもよい。方法は、クラスタの複数のサンプルを、クラスタ内の複数のサンプルのばらつきの度合いに基づいて、ソートしてもよい。ソートすることは、１つまたは複数のクラスタのそれぞれについてのアレイベースの距離行列を使用して実施してもよい。さらに、方法は、クラスタを表現するために、サンプルの数の決定されたカウントを、複数のクラスタのそれぞれの、ソートされた複数のサンプルから選択してもよい。

本開示に組み込まれ、その一部を成す添付の図面は、例示の実施形態を図示しており、説明と併せて、開示される原理を説明するよう機能する。

本開示の実施形態による、１つまたは複数のクラスタから複数のデータサンプルを選択するためのプロセス図である。本開示のいくつかの実施形態による、１つまたは複数のクラスタから複数のデータサンプルをソートして選択するためのプロセス図である。本開示のいくつかの実施形態による、クラスタを表現するためにサンプルを選択する方法のフローチャートである。

例示的な実施形態を、添付の図面を参照して説明する。同一または類似の部分を参照するために、好都合であればいつでも、図面を通じて同一の参照符号を使用する。本明細書では開示される原理の例および特徴が説明されるが、開示される実施形態の思想および範囲から逸脱することなく、修正、適合、および他の実装が可能である。以下の詳細な説明は、単なる例として考えられ、真の範囲および思想は、後に続く特許請求の範囲によって示されることが意図されている。追加的な例示の実施形態を以降に列挙する。

理解されるように、クラスタリングアルゴリズムは、自身の一意な特徴を有するいくつかのクラスタに、データを分割する。時には、これらのクラスタ自身が、膨大な数のサンプルを有する。本開示は、クラスタに固有なばらつき、性質をカバーする、限られた数のサンプルを用いてクラスタを表現することができる解決策を提供する。このやり方で、アルゴリズムは、さらなるプロセスのためにデータセット全体を使用するために依存性を低減し、それにより、大きなデータセットを用いて作業する際のメモリおよび時間の複雑さを制限する。アルゴリズムはまた、クラスタのサイズが小さい場合に、ユーザが必要なサンプル数をクラスタから選択できるようにする、柔軟なものである。

さらには、プロセスは、均質なクラスタからでも、一意なサンプルを選択することができるよう確実にする。

図１を参照すると、本開示の実施形態による、１つまたは複数のクラスタから複数のデータサンプルを選択するためのプロセス１００が図示される。

ステップ１０２では、データセットは、１つまたは複数の異なるクラスタにクラスタ化されてもよい。クラスタリングは、同じように見え、類似の特徴を有するデータセットが、特定のクラスタ内に一緒に保持されることを確実にするよう実施されてもよい。

ステップ１０４では、複数のデータサンプルのうち、いくつのデータサンプルを、１つまたは複数の異なる作成済クラスタのうちの１つのクラスタから選択することができるかを決定することができる。

いくつのデータサンプルが選択されるかを決定するために、最適な割り当てのための、層化サンプリングメカニズムが使用されてもよい。層化サンプリングメカニズムは、複数のデータサンプルを考慮することができる。複数のデータサンプルのそれぞれは、均質なグループ（つまり、類似の特徴を有する複数のデータサンプルのそれぞれを一緒に格納することができる、クラスタ）に分割することができる。決定は、複数の類似して見えるサンプルの中から、いくつのサンプルが選択され得るかに関する場合がある。ステップ１０６では、データサンプルのうち、どれを、１つまたは複数の異なるクラスタから選択することができるかを決定することができる。層化サンプリングメカニズムは、特定の均質なデータグループのうちの１つを選択してもよく、特定の計算に基づいて１つまたは複数のデータサンプルをランダムに選択してもよい。

ステップ１０８では、所与のクラスタについて、下で言及する式を用いて、Ｎ_ｉ個のサンプルをクラスタから選択することができる：

ただし、ｗ_ｉは、ｉ番目のクラスタ内に存在するデータサンプルの数であり、
Ｓ_ｉは、クラスタ内のデータサンプルのばらつきであり、
Ｃ_ｉは、平均のクラスタ確率であり、
Ｃ_０は、定数である。

式（１）は、式（２）のように、簡単にすることができる。

式（２）では、クラスタのサイズとばらつきを考慮してもよい。

クラスタ内に存在する複数のデータサンプル同士を区別するために機械学習モデルが利用可能であり、また所与のセットの特徴に基づいて複数のデータサンプル同士の区別の正確なレベルを予測することができる事例では、機械学習モデルから導かれる学習を利用して、クラスタ確率を考慮することによって、いくつのデータサンプルをクラスタから選択することができるかを決定することができる。区別のレベルに関する学習が、利用可能な機械学習モデルのいずれからも利用可能ではない場合、クラスタ確率パラメータは、データサンプルの数の選択を決定するための重み付けが、あまり与えられない場合がある。

ステップ１０６では、どのデータサンプルが選択されるかに関する決定が実施されてもよい。一般的に、データサンプルは、利用可能なランダム選択メカニズムのいずれかに基づいて、ランダムに選択され得る。しかしながら、選択されたデータサンプルがクラスタ全体を表現するべく、クラスタのばらつきの度合いを最大化するために、距離ベースの選択メカニズムが、ステップ１１０で利用されてもよい。距離ベースの選択メカニズムでは、クラスタ内に存在するアレイベースで最適化された距離が利用されてもよい。距離行列は、例えば、ユークリッドベースの距離行列またはマンハッタンベースの距離行列であってもよい。さらに、データサンプルは、その距離に基づいて、つまり、ばらつきの最大化に基づいてソートされてもよい。

ステップ１１６では、１つまたは複数のクラスタの、クラスタのそれぞれにおいて、式（２）を使用して、「ｎ_ｉ」個のデータサンプルが選択されてもよい。さらに、「ｎ_ｉ」個のデータサンプルを選択する手順は、データセットの１つまたは複数のクラスタのクラスタすべてについて繰り返すことができる。具体的なシナリオでは、クラスタから選択された、ある数のデータサンプルが最小限である場合、プロセス１００は、１つまたは複数のクラスタのそれぞれから、サンプルの数の所定のカウントを選択してもよい。これは、サンプルの数の選択された決定されたカウントが、しきい値未満である場合に行なわれ得る。ステップ１１８では、合計「ｎ」個のデータサンプルが、１つまたは複数のクラスタのそれぞれから選択され、それにより、データセットのサイズを小さくする。

次に図２を参照すると、本開示のいくつかの実施形態による、１つまたは複数のクラスタからの複数のデータサンプルをソートして選択するためのプロセス２００が図示される。

ステップ２０４では、１つまたは複数のクラスタのうち、１つのクラスタから第１のデータサンプルが選択されてもよい。ステップ２０６では、第１の選択されたサンプルから最も遠い、第２のデータサンプルが選択されてもよい。ステップ２０８では、第１のデータサンプルと第２のサンプルは、データセット内に維持されてもよい。ステップ２１０では、第３のデータサンプルが選択されてもよい。第３のデータサンプルの選択は、ステップ２１６において、あるメカニズムにしたがって実施され、データセットの外部から、例えば第３のデータサンプルから、ランダムなサンプルが選択される。データセットの外部のデータサンプルに関して、データセットのデータサンプルの距離を、決定することができる。例えば、第３のデータサンプルの距離は、データセットの第１のデータサンプルに関して「ｄ１３」として、およびデータセットの第２のデータサンプルに関して「ｄ２３」として決定されてもよい。

距離「ｄ１３」と距離「ｄ２３」の距離のうち、小さいほうを選択することができる。小さいほうの距離とは、例えば図２で図示されるような「ｄ１３」である。さらに、データセットの外部に存在するデータサンプルのすべてについて、距離をチェックして最小距離を選択する、上で言及したステップが決定されてもよい。例えば、データセットの外部の別のデータサンプルは、第４のデータサンプルであってもよく、決定される距離は、例えば、データセットの第１のデータサンプルから第４のデータサンプルまで、「ｄ１４」として、およびデータセットの第２のデータサンプルからの「ｄ２４」としてであってもよい。

続いて、決定される距離の最小を、例えば「ｄ１３」および「ｄ２４」として決定することができる。次に、最小の決定された距離からの最大距離、例えば「ｄ１３」が選択される。最終的に、データサンプル、例えば最大距離に対応する第３のサンプル、例えば「ｄ１３」が選択されてもよく、データセットに挿入されてもよい。

層化サンプリングメカニズムを使用することによって、および、ばらつきの最大化に基づいてクラスタ内でデータサンプルをソートすることによって、ステップ２１２では、「ｎ_ｉ」個のサンプルを、１つまたは複数のクラスタのクラスタから選択することができ、それによって、選択されたサンプルは一意であり、そのクラスタのばらつき全体をカバーすることができる。

ステップ２１４では、上述のステップ２０４～２１２は、１つまたは複数のクラスタの、クラスタのそれぞれについて繰り返され、データセットの性質を保った新しい縮小データセットを作成することができる。

例示の実施形態では、手書きのアルファベットのデータセットがあると仮定する。データセットでは、アルファベット「ａ」は、様々なユーザによって、イタリック体、ボールド体、異なるフォントサイズで、または筆記体など、異なった形で書かれ得る。さらに、アルファベットは、アルファベットが「ａ」、「ｂ」、「ｃ」などのアルファベットのカテゴリに存在するかどうかに基づいてクラスタ化され得る。アルファベット「ａ」のクラスタからの複数のデータサンプルを検討する。アルファベット「ａ」のクラスタでは、イタリック体の「ａ」は、数が少ないものとする。例えば、５０Ｋデータサンプルを有するデータセット中、５Ｋデータサンプルだけが、アルファベット「ａ」のイタリック体を表現する場合があり、故に５０Ｋデータサンプル内で、イタリック体の「ａ」の一意性を表現し得る。一意なイタリック体「ａ」は、データサンプルを配列してソートするために使用されてもよい。したがって、５０Ｋサンプルから、５Ｋサンプルが、アルファベット「ａ」のイタリック体を表現するために使用することができると結論付けることができる。さらに、これらの表現される５Ｋサンプルのうち、どれが選ばれるかは、クラスタ内でのデータサンプルのばらつきの最大化に基づいたソーティングメカニズムによって決定されてもよい。

次に図３を参照すると、実施形態による、クラスタを表現するためにサンプルを選択する方法３００のフローチャートが図示される。ステップ３０２では、１つまたは複数のクラスタが受信される。１つまたは複数のクラスタのそれぞれは、複数のサンプルを含んでもよい。

ステップ３０４では、１つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントが決定されてもよい。１つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントは、１つまたは複数のクラスタのそれぞれについてのサイズ、ばらつき、およびクラスタ確率のうちの少なくとも１つに基づいて、層化サンプリング技法を使用して、決定されてもよい。クラスタ確率は、機械学習（ＭＬ）モデルを使用して決定されてもよく、ＭＬモデルは、クラスタの複数のサンプルを分類する。訓練無しのＭＬモデルの事例では、各クラスタは、等しい確率を割振られることに留意されたい。

ステップ３０６では、１つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列が生成されてもよい。例えば、アレイベースの距離行列は、ユークリッド距離行列であってもよい。ステップ３０８では、クラスタの複数のサンプルは、クラスタ内の複数のサンプルのばらつきの度合いに基づいて、１つまたは複数のクラスタのそれぞれについてのアレイベースの距離行列を使用して、ソートすることができる。

ステップ３１０では、クラスタを表現するために、サンプルの数の決定されたカウントを、複数のクラスタのそれぞれの、ソートされた複数のサンプルから選択してもよい。加えて、いくつかの実施形態では、サンプルの数の選択された決定されたカウントがしきい値未満である場合、サンプルの数の所定のカウントは、１つまたは複数のクラスタのそれぞれから選択されてもよい。

１つまたは複数のコンピュータ可読記憶媒体は、本開示と一貫性のある実施形態を実装する際に利用される。コンピュータ可読記憶媒体とは、プロセッサによって可読な情報またはデータを記憶することができる、あらゆるタイプの物理メモリを称する。故に、コンピュータ可読記憶媒体は、本明細書で説明される実施形態と一貫性のあるステップまたは工程をプロセッサに実行させるための命令を含む、１つまたは複数のプロセッサによる実行のための命令を記憶する。「コンピュータ可読媒体」という用語は、有形物を含み、搬送波および一過性の信号を含まない、つまり非一時的であると理解されるべきである。例としては、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、揮発性メモリ、非揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ＤＶＤ、フラッシュドライブ、ディスク、およびあらゆる他の既知の物理的な記憶媒体が挙げられる。

明確にするために、上述のことは、本開示の実施形態を、異なる機能的なユニットおよびプロセッサに関して説明したものであることを諒解されたい。しかしながら、異なる機能的なユニット、プロセッサ、またはドメイン間での機能性のあらゆる好適な分散が、本開示から逸脱することなく使用され得ることが明らかとなろう。

例えば、別個のプロセッサまたはコントローラによって実施されるよう図示される機能性は、同一のプロセッサまたはコントローラによって実施されてもよい。したがって、特定の機能的なユニットへの参照は、厳密な論理的または物理的な構造または編成を示すのではなく、説明される機能性を提供するための好適な手段への参照として考えられるに過ぎない。

いくつかの実施形態に関連して本開示を説明したが、本開示は、本明細書で説明した特定の形態に限定されるよう意図されていない。そうではなく、本開示の範囲は、特許請求の範囲によってのみ制限される。加えて、特徴は、特定の実施形態に関連して説明されるように見えるかもしれないが、当業者であれば、説明される実施形態の様々な特徴は、本開示にしたがって組み合わせることができることを認識されよう。

さらには、個々に列挙されているが、複数の手段、要素、またはプロセスのステップは、例えば単一のユニットまたはプロセッサによって実装されてもよい。加えて、個々の特徴が、異なる請求項に含まれる場合があるが、これらは、可能であれば有利に組み合わされてもよく、異なる請求項に含まれることは、特徴の組み合わせが、実行可能ではない、および／または有利ではないということを意味するものではない。また、特徴が、請求項の１つのカテゴリに含まれることは、このカテゴリへの限定することを意味するものではなく、むしろ、適当であれば特徴は他の請求項カテゴリに等しく適用可能であり得る。

Claims

クラスタを表現するためにサンプルを選択する方法であって、
最適化デバイスによって、それぞれが複数のサンプルを備える１つまたは複数のクラスタを受信し、
前記最適化デバイスによって、前記１つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定し、
前記最適化デバイスによって、前記１つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成し、
前記最適化デバイスによって、前記クラスタの前記複数のサンプルを、前記クラスタ内の前記複数のサンプルのばらつきの度合いに基づいて、前記１つまたは複数のクラスタのそれぞれについての前記アレイベースの距離行列を使用して、ソートし、
前記最適化デバイスによって、前記クラスタを表現するために、サンプルの数の前記決定されたカウントを、前記複数のクラスタのそれぞれの、前記ソートされた複数のサンプルから選択する、
方法。
前記サンプルの数の前記選択された決定されたカウントがしきい値未満である場合、前記サンプルの数の所定のカウントを、前記１つまたは複数のクラスタのそれぞれから選択し、前記しきい値が、各データセットに特有であり、クラスタのサイズを前記データセットと比較することによって決定される、
請求項１に記載の方法。
前記１つまたは複数のクラスタのそれぞれから選択されるサンプルの数の前記カウントが、前記１つまたは複数のクラスタのそれぞれについてのサイズ、ばらつき、およびクラスタ確率のうちの少なくとも１つに基づいて、層化サンプリング技法を使用して、決定される、
請求項１に記載の方法。
前記クラスタ確率が、機械学習（ＭＬ）モデルを使用して決定され、前記ＭＬモデルが、前記クラスタの前記複数のサンプルを分類する、
請求項３に記載の方法。
下記を行なうように構成された１つまたは複数のコンピューティングデバイスを備える、
最適化デバイスによって、それぞれが複数のサンプルを備える１つまたは複数のクラスタを受信する、
前記最適化デバイスによって、前記１つまたは複数のクラスタのそれぞれから選択されるサンプルの数のカウントを決定する、
前記最適化デバイスによって、前記１つまたは複数のクラスタのそれぞれについて、アレイベースの距離行列を生成する、
前記最適化デバイスによって、前記クラスタの前記複数のサンプルを、前記クラスタ内の前記複数のサンプルのばらつきの度合いに基づいて、前記１つまたは複数のクラスタのそれぞれについての前記アレイベースの距離行列を使用して、ソートする、および、
前記最適化デバイスによって、前記クラスタを表現するために、サンプルの数の前記決定されたカウントを、前記複数のクラスタのそれぞれの、前記ソートされた複数のサンプルから選択する、
システム。
前記サンプルの数の前記選択された決定されたカウントがしきい値未満である場合、前記サンプルの数の所定のカウントを、前記１つまたは複数のクラスタのそれぞれから選択し、前記しきい値が、各データセットに特有であり、クラスタのサイズを前記データセットと比較することによって決定される、
請求項５に記載のシステム。
前記１つまたは複数のクラスタのそれぞれから選択されるサンプルの数の前記カウントが、１つまたは複数のクラスタのそれぞれについてのサイズ、ばらつき、およびクラスタ確率のうちの少なくとも１つに基づいて、層化サンプリング技法を使用して、決定される、
請求項５に記載のシステム。
前記クラスタ確率が、機械学習（ＭＬ）モデルを使用して決定され、前記ＭＬモデルが、前記クラスタの前記複数のサンプルを分類する、
請求項７に記載のシステム。