JP2023537194A - データサンプルをクラスタ化する方法およびシステム - Google Patents

データサンプルをクラスタ化する方法およびシステム Download PDF

Info

Publication number
JP2023537194A
JP2023537194A JP2022578770A JP2022578770A JP2023537194A JP 2023537194 A JP2023537194 A JP 2023537194A JP 2022578770 A JP2022578770 A JP 2022578770A JP 2022578770 A JP2022578770 A JP 2022578770A JP 2023537194 A JP2023537194 A JP 2023537194A
Authority
JP
Japan
Prior art keywords
samples
distance
sample
cluster
cluster set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022578770A
Other languages
English (en)
Inventor
イシタ ダス,
マドゥスダン シン,
ムリダル バララマン,
スカント デブナス,
Original Assignee
エルアンドティー テクノロジー サービシズ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エルアンドティー テクノロジー サービシズ リミテッド filed Critical エルアンドティー テクノロジー サービシズ リミテッド
Publication of JP2023537194A publication Critical patent/JP2023537194A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

データサンプルをクラスタ化するための方法(400)およびシステムが開示される。方法(400)は、複数のバッチを受信するステップ(402)であって、複数のバッチのそれぞれが複数のサンプルを含む、ステップ(402)と、複数のバッチの第1のバッチからクラスタセットを、クラスタリング技法を使用して、作成するステップ(404)を含んでもよい。クラスタセットの各クラスタは、1つまたは複数のサンプルを含んでもよい。1つまたは複数のサンプルは、1つまたは複数のサンプルのばらつき、および各クラスタに関連付けられるクラスタの属性に基づいて決定される。方法は、存在するクラスタセットを、複数のバッチのうち残りのバッチからのサンプルで再ポピュレートするステップ(400A);新しいクラスタセットを、存在するクラスタセットに追加し、新しいクラスタセットを、残りのバッチからのサンプルでポピュレートするステップ(400B)のうちの少なくとも1つを含む、クラスタセットを再構成するステップ(406)をさらに含んでもよい。【選択図】図4

Description

本開示は、一般に、クラスタリング方法に関し、より詳細には、データサンプルをクラスタ化し、大規模データセットのクラスタを管理する方法およびシステムに関する。
クラスタリングは、意味のあるエンティティのグループを見つけ、あるデータセットのために形成されたクラスタを区別するために使用されることがある。しかしながら、大規模データセットのクラスタリングは、困難な問題となっている。クラスタリングアルゴリズムは、メモリおよび時間の複雑さの点からコストがかかるため、データセットのサイズが大きくなったことで、メモリ使用、文書処理、および実行時間要件を満足する、効率的なクラスタリング技法に対する需要が急増した。大規模データセットを扱う、そのようなクラスタリングアルゴリズムは、形成されるクラスタの精度の点で、パフォーマンスが良くない場合がある。その上、存在するクラスタリングアルゴリズムには、既存のクラスタを用いてデータセットをクラスタリングし続ける柔軟性がない。そのような場合、どちらのクラスタも、最初から再形成される必要がある、またはクラスタリングモデルを使用して、新しいサンプルについてクラスタの数を予測してもよい。
したがって、データのボリュームを管理するための、またデータ分析用にそのようなデータを容易にクラスタ化しつつ、クラスタ内でのコンパクトさおよび個々のクラスタの分離を確実にするために、効率的で、スケーラブルかつ正確な方法およびシステムの必要性がある。
実施形態によれば、データサンプルをクラスタ化する方法が開示される。方法は、複数のバッチを受信することを含み(複数のバッチのそれぞれが複数のサンプルを含み)、複数のバッチの第1のバッチからクラスタセットを、クラスタリング技法を使用して、作成することとを含んでもよい。クラスタセットの各クラスタは、1つまたは複数のサンプルを含んでもよい。1つまたは複数のサンプルは、1つまたは複数のサンプルのばらつき、およびに各クラスタに関連付けられるクラスタの属性に基づいて決定される。方法は、存在するクラスタセットを、複数のバッチのうち残りのバッチからのサンプルで再ポピュレートすること;新しいクラスタセットを、存在するクラスタセットに追加し、新しいクラスタセットを、複数のバッチのうち残りのバッチからのサンプルでポピュレートすることのうちの少なくとも1つを含む、クラスタセットを再構成することをさらに含んでもよい。
別の実施形態では、データサンプルをクラスタ化するためのシステムが開示される。システムは、プロセッサおよびプロセッサに通信可能に結合されたメモリを含んでもよい。メモリは、プロセッサ実行可能命令を記憶するように構成されてもよい。プロセッサ実行可能命令は、実行されると、プロセッサに、複数のバッチを受信することであって、複数のバッチのそれぞれが複数のサンプルを含む、受信することと、複数のバッチの第1のバッチからクラスタセットを、クラスタリング技法を使用して、作成することとを行なわせる。クラスタセットの各クラスタは、1つまたは複数のサンプルを含んでもよい。1つまたは複数のサンプルは、1つまたは複数のサンプルのばらつき、およびに各クラスタに関連付けられるクラスタの属性に基づいて決定される。プロセッサ実行可能命令は、実行されると、プロセッサに、下記のうちの少なくとも1つを含む、クラスタセットを再構成することをさらに行なわせる:存在するクラスタセットを、複数のバッチのうち残りのバッチからのサンプルで再ポピュレートすること;新しいクラスタセットを、存在するクラスタセットに追加し、新しいクラスタセットを、複数のバッチのうち残りのバッチからのサンプルでポピュレートすること。
前述の一般的な説明および以降の詳細な説明の両方とも、例示的で説明的に過ぎず、特許請求されるように、本発明を限定するものではないことを理解されたい。
本開示に組み込まれ、その一部を成す添付の図面は、説明と併せて、例示の実施形態を図示し、開示される原理を説明する役割を果たすものである。
本開示の実施形態による、大規模データセットのクラスタを管理するための、距離ベースのクラスタリングシステム用の環境を図示するブロック図である。 本開示の実施形態による、大規模データセットのクラスタを管理するための、例示的な距離ベースのクラスタリングシステムを図示するブロック図である。 本開示の実施形態による、大規模データセットのクラスタを管理するための、距離ベースのクラスタリングシステムについての例示的な動作をまとめて図示するブロック図である。 本開示の実施形態による、大規模データセットのクラスタを管理するための、距離ベースのクラスタリングシステムについての例示的な動作をまとめて図示するブロック図である。 本開示の実施形態による、大規模データセットのクラスタを管理するための例示的な方法を図示するフローチャートである。
例示的な実施形態を、添付の図面を参照して説明する。同一または類似の部分を参照するために、便利であれば、同一の参照符号を図面全体で使用する。ここでは開示される原理の例および特徴が説明されるが、開示される実施形態の思想および範囲から逸脱することなく、修正形態、適合形態、および他の実装形態が可能である。以下の詳細な説明は、単なる例として考えられるように、また真の範囲および思想は、以下の特許請求の範囲によって示されるように、意図されている。追加的な例示の実施形態を下に列挙する。
以下で説明する実装形態は、大規模データセットのクラスタを管理するための、開示されるシステムおよび方法において見出されることがある。データセットは、個々のまたは多次元的な属性を有する可能性がある情報の関連するセットの集合に対応する。大規模データセットは大量のデータを含むことがあり、さらなる処理のために、そのすべてをメモリにロードすることを管理できない場合がある。大規模データセットは、構造化されたデータソースおよびフォーマットを含むことができる。本開示の例示的な態様は、メモリと時間の複雑さに対処しつつ、存在するクラスタリングアルゴリズムのベンチマーク精度を維持することができる、距離ベースのクラスタリング方法を提供する。開示される距離ベースのクラスタリング方法は、予め定義されたクラスタが既に形成されている場合、新しいデータポイントをクラスタリングし続けられるようにする。開示される距離ベースのクラスタリング方法は、サンプルを既存のクラスタに導入する柔軟性を提供するか、新しいサンプルがそれ自身のクラスタを形成できるようにする。開示される距離ベースのクラスタリング方法は、限定はしないが、電気通信、ヘルスケア、バイオインフォマティクス、バンキング、マーケティング、生物学、保険、都市計画、地震研究、ウェブ文書分類、および輸送サービスなど、大規模データセットに関連付けられる用途でのデータ分析を容易にするものである。
図1は、本開示の実施形態による、大規模データセットのクラスタを管理するシステム用の環境を図示するブロック図である。図1を参照すると、環境100が示されている。環境100は、距離ベースのクラスタリングシステム102、データベース104、外部デバイス106、および通信ネットワーク108を含む。距離ベースのクラスタリングシステム102は、通信ネットワーク108を介して、データベース104および外部デバイス106に、通信可能に結合される。
距離ベースのクラスタリングシステム102は、予め定義されたクラスタが既に形成された後、新しいデータポイントをクラスタ化するように構成され得る好適なロジック、回路、インターフェース、および/またはコードを含んでもよい。実施形態によれば、距離ベースのクラスタリングシステム102は、サンプルを既存のクラスタに導入する柔軟性を提供するか、新しいサンプルがそれ自身のクラスタを形成できるようにするように構成されてもよい。したがって、距離ベースのクラスタリングシステム102は、類似の項目を自動的にグループ化して、隠れた類似性および重要な概念を発見しつつ、意味のある知見を得るよう大量のデータを少数のクラスタにまとめることができる。これにより、ユーザ(図1には図示せず)が、大規模データセットに対応する大量のデータを十分理解できるようになる。
実施形態によれば、多次元行列を作成するための距離ベースのクラスタリングシステム102によって、様々な距離メトリクスを使用することができる。様々な距離メトリクスとしては、限定はしないが、ユークリッド距離、マンハッタン距離、ミンコフスキー距離、およびジャカード距離を挙げることができる。
例として、距離ベースのクラスタリングシステム102は、当業者に良く知られたいくつかの技術を使用して、複数の分散型クラウドベースのリソースとして実装されてもよい。距離ベースのクラスタリングシステム102の実装形態の他の例としては、ウェブ/クラウドサーバ、アプリケーションサーバ、メディアサーバ、および家庭用電子(CE)デバイスを挙げることができるが、それに限定されない。
データベース104は、気象部門、電気通信システム、センサ類など、それらに限定しないが、様々なソースによって生成され得るデータセットをキャプチャするように構成され得る、好適なロジック、回路、インターフェース、および/またはコードを含んでもよい。データサイズは、テラバイトからペタバイトまで変わることがあり、本思想の実際の新規性は、データのサイズが大きくなったときに目に見えるが、アルゴリズムは小さいデータセットでも動作する。
例えば、データベース104はまた、データセットとともにメタデータも記憶することができ、通信ネットワーク108を介してアクセスされてもよい。図1の例は、単一のデータベース(データベース104)を距離ベースのクラスタリングシステム102の一部として含んでいるが、距離ベースのクラスタリングシステム102はまた、環境100の他の場所に配置されてもよいことを理解されたい。例えば、別個の記憶デバイスが、ローカル接続を介して、または通信ネットワーク108上で、距離ベースのクラスタリングシステム102に結合されてもよい。
外部デバイス106は、距離ベースのクラスタリングシステム102から、大規模データセットの意味のある知見の表示をレンダリングするように構成され得る、好適なロジック、回路、インターフェース、および/またはコードを含んでもよい。これにより、外部デバイス106に関連付けられるユーザが、大規模データセットに対応する大量のデータを十分理解できるようになる。外部デバイス106の機能性は、高速コンピューティングデバイスなどのポータブルデバイス、および/またはサーバなどの非ポータブルデバイスに実装されてもよい。外部デバイス106の例としては、スマートフォン、モバイルデバイス、およびラップトップを挙げることができるが、それらに限定しない。
通信ネットワーク108は、通信媒体を含むことがあり、それを通じて、距離ベースのクラスタリングシステム102、データベース104、および外部デバイス106は、互いに通信することができる。通信ネットワーク108の例としては、インターネット、クラウドネットワーク、Wireless Fidelity(Wi-Fi)ネットワーク、パーソナルエリアネットワーク(PAN)、ローカルエリアネットワーク(LAN)、またはメトロポリタンエリアネットワーク(MAN)を挙げることができるが、それらに限定しない。環境100内の様々なデバイスは、様々な有線および無線通信プロトコルにしたがって、通信ネットワーク108に接続するように構成することができる。そのような有線および無線通信プロトコルの例としては、Transmission Control Protocol/Internet Protocol(TCP/IP)、User Datagram Protocol(UDP)、Hypertext Transfer Protocol(HTTP)、File Transfer Protocol(FTP)、Zig Bee、EDGE、IEEE802.11、light fidelity(Li-Fi)、802.16、IEEE802.11s、IEEE802.11g、マルチホップ通信、無線アクセスポイント(AP)、デバイス間通信、セルラ通信プロトコル、およびBluetooth(BT)通信プロトコルを挙げることができるが、それらに限定しない。
図2は、本開示の実施形態による、大規模データセットのクラスタを管理するための、例示的な距離ベースのクラスタリングシステム102を図示するブロック図である。図2は、図1の要素と関連して説明される。
図2を参照すると、距離ベースのクラスタリングシステム102のブロック図200が示されている。距離ベースのクラスタリングシステム102は、プロセッサ202、メモリ204、入力/出力(I/O)デバイス206、ネットワークインターフェース208、および永続的なデータ記憶装置210を含むことができる。
プロセッサ202は、メモリ204、I/Oデバイス206、ネットワークインターフェース208、および永続的なデータ記憶装置210に通信可能に結合されてもよい。1つまたは複数の実施形態では、距離ベースのクラスタリングシステム102はまた、1つまたは複数のデータベース、例えばデータベース104を介して、データセットをキャプチャするプロビジョン/機能性も含むことができる。
プロセッサ202は、クラスタを作成して大規模データセットの各バッチで更新するように構成され得る好適なロジック、回路、インターフェース、および/またはコードを含んでもよい。プロセッサ202は、当業者に既知であり得る、複数のプロセッサ技術に基づいて実装することができる。プロセッサ202の実装形態の例としては、グラフィック処理ユニット(GPU)、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、マイクロコントローラ、人工知能(AI)アクセラレータチップ、コプロセッサ、中央処理装置(CPU)、および/またはそれらの組合せがある。
メモリ204は、プロセッサ202によって実行可能な命令を記憶するように構成され得る好適なロジック、回路、および/またはインターフェースを含んでもよい。メモリ204の実装形態の例としては、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電気的消去可能プログラム可能読み取り専用メモリ(EEPROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、CPUキャッシュ、および/またはセキュアデジタル(SD)カードを挙げることができるが、それらに限定しない。
I/Oデバイス206は、ユーザと距離ベースのクラスタリングシステム102との間でI/Oインターフェースとして機能するように構成され得る、好適なロジック、回路、および/またはインターフェースを含んでもよい。ユーザには、距離ベースのクラスタリングシステム102を操作するデータアナリストが含まれる場合がある。I/Oデバイス206には、距離ベースのクラスタリングシステム102の異なる動作可能なコンポーネントと通信するように構成され得る様々な入出力デバイスが含まれる場合がある。I/Oデバイス206の例としては、タッチスクリーン、キーボード、マウス、ジョイスティック、マイクロフォン、およびディスプレイスクリーンを挙げることができるが、それらに限定しない。
ネットワークインターフェース208は、距離ベースのクラスタリングシステム102の異なるコンポーネントが、通信ネットワーク108を介して、環境100内の外部デバイスなど、他のデバイスと通信するのを容易にするように構成され得る好適なロジック、回路、インターフェース、および/またはコードを含んでもよい。ネットワークインターフェース208は、有線または無線通信をサポートするよう、既知の技術を実装するように構成されてもよい。ネットワークインターフェース208のコンポーネントとしては、アンテナ、高周波(RF)トランシーバ、1つもしくは複数の増幅器、チューナ、1つもしくは複数の発振器、デジタル信号プロセッサ、コーデック(CODEC)チップセット、識別モジュール、および/またはローカルバッファを挙げることができるが、それらに限定しない。
ネットワークインターフェース208は、オフラインおよびオンラインの無線通信を介して、インターネット、イントラネット、ならびに/または携帯電話ネットワーク、無線ローカルエリアネットワーク(WLAN)、パーソナルエリアネットワーク、および/もしくはメトリポリタンエリアネットワーク(MAN)などの無線ネットワークなどのネットワークと通信するように構成されてもよい。無線通信は、Global System for Mobile Communications(GSM)、Enhanced Data GSM Environment(EDGE)、広帯域符号分割多重接続(W-CDMA)、符号分割多元接続(CDMA)、LTE、時分割多元接続(TDMA)、Bluetooth、Wireless Fidelity(Wi-Fi)(IEEE802.11、IEEE802.11b、IEEE802.11g、IEEE802.11n、および/またはあらゆる他のIEEE802.11プロトコルなど)、ボイスオーバーInternet Protocol(VoIP)、Wi-MAX、モノのインターネット(IoT)技術、マシンタイプ通信(MTC)技術、電子メール、インスタントメッセージング、および/またはショートメッセージサービス(SMS)用のプロトコルなど、複数の通信規格、プロトコル、および技術のうち、いずれを使用してもよい。
永続的なデータ記憶装置210は、データベース、プロセッサ202によって実行可能なプログラム命令、およびオペレーティングシステムを記憶するように構成され得る好適なロジック、回路、および/またはインターフェースを含んでもよい。永続的なデータ記憶装置212は、コンピュータ実行可能命令を搬送もしくは有するためのコンピュータ可読記憶媒体またはそれに記憶されたデータ構造を含んでもよい。そのようなコンピュータ可読記憶媒体は、プロセッサ202などの汎用または特殊目的コンピュータによってアクセスすることができる、あらゆる利用可能な媒体を含んでもよい。
例として、限定はしないが、そのようなコンピュータ可読記憶媒体としては、コンパクトディスク読み取り専用メモリ(CD-ROM)もしくは他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶装置(例えば、ハードディスクドライブ(HDD))、フラッシュメモリデバイス(例えば、ソリッドステートドライブ(SSD)、セキュアデジタル(SD)カード、他のソリッドステートメモリデバイス)を含む有形または非一時的なコンピュータ可読記憶媒体、あるいは特定のプログラムコードを、コンピュータ実行可能命令またはデータ構造の形態で搬送もしくは記憶するために使用してもよく、汎用もしくは特殊目的コンピュータによってアクセスすることができる、あらゆる他の記憶媒体を挙げることができる。上記の組合せもまた、コンピュータ可読記憶媒体の範囲に含まれてもよい。
コンピュータ実行可能命令は、例えば、プロセッサ202に、距離ベースのクラスタリングシステム102に関連付けられる特定の動作または動作のセットを実行させるように構成された、命令およびデータを含んでもよい。距離ベースのクラスタリングシステム102によって実行される機能または動作は、図1で説明されるように、プロセッサ202によって実行される場合がある。追加的に、または代替的に、実施形態によれば、プロセッサ202の動作は、様々なモジュールによって実行される。
図3A~図3Bは、本開示の実施形態による、大規模データセットを管理するための、距離ベースのクラスタリングシステム102についての例示的な動作をまとめて図示している。図3A~図3Bは、図1~図2の要素と関連して説明される。
図3Aを参照すると、本明細書で説明されるような、距離ベースのクラスタリングシステム102についての動作のセットを図示するダイヤグラム300Aが示されている。
302では、データ取得が実施されてもよい。データ取得の動作では、プロセッサ202は、従来型のクラスタリングアルゴリズム302Aを使用して、サンプルを距離ベースのクラスタリングシステム102のための入力として取得する。サンプルは、バッチごとの様式でさらに処理されてもよい。例として、第1のバッチは従来型のクラスタリングアルゴリズムに入れられ、連続するバッチ(第2のバッチ、第3のバッチ、など)は、本明細書で説明されるようにクラスタ化され、これは先行するクラスタリングアルゴリズムの出力を考慮するものである。
実施形態によれば、従来型のクラスタリングアルゴリズムは、大規模データセットの第1のバッチをクラスタ化するために使用されてもよい。形成されるクラスタの数は、クラスタベースのモデルに与えられるしきい値に依存する場合がある。実施形態によれば、しきい値は、経験的な確率密度関数に基づいて生成されてもよい。
304では、クラスタの生成が実施されてもよい。実施形態によれば、プロセッサ202は、大規模データセットの第1のバッチから複数のクラスタを生成するように構成されてもよい。
306では、各クラスタの下で、サンプル選択が実施されてもよい。実施形態によれば、距離ベースのクラスタリングシステム102のプロセッサ202は、ステップ304で生成された各クラスタから妥当なサンプルを選択するように構成されてもよい。選択されたサンプルは、ばらつきおよびクラスタ性質の点で、クラスタを表現することができる。サンプルの選択は、サンプルの総数の低減を促すことがある。結果的に、距離ベースのクラスタリングシステム102は、大規模データセットについてメモリと時間の複雑さを制限することができる。
308では、三次元(3D)行列の作成が実施されてもよい。実施形態によれば、プロセッサ202は、新しいバッチにおける各サンプルの、それ自体との距離、および既存のクラスタにおける各サンプルとの距離を計算するように構成されてもよい。
310では、二次元(2D)行列の作成が実施されてもよい。実施形態によれば、プロセッサ202は、各サンプルの、既存のクラスタのそれぞれにおける他のサンプルすべてとの最長距離を決定し、それによって三次元行列を二次元行列に簡単にするように構成されてもよい。
312では、最低距離の選択が実施されてもよい。実施形態によれば、プロセッサ202は、ステップ310で作成された2D行列における最小距離を選択するように構成されてもよい。最小距離値を持つエンティティは、最も近い要素に対応することができる。クラスタ化のためのエンティティの選択は、所与のバッチについての再帰的なステップであってもよく、再帰的なステップは、最小距離値が所定のしきい値より低くなるまで続けることができる。動作308~312は、図3Bと併せて詳細に説明してある。
314では、新しいクラスタの作成が実施されてもよい。実施形態によれば、プロセッサ202は、最小距離が新しいバッチ内で2つのサンプルの間にあるかどうかに応じて、新しいクラスタを作成するように構成されてもよい。サンプルペアは、連続する反復における最低距離計算に基づいて、既存のクラスタのうちの1つに置かれてもよい。
316では、サンプルの、既存のクラスタとのマージが実施されてもよい。実施形態によれば、プロセッサ202は、クラスタ間距離の最大化およびクラスタ内距離の最小化に基づいて、サンプルを既存のクラスタとマージするように構成されてもよい。例として、最小距離が、新しいバッチ内のサンプルと先行バッチのクラスタとの間にある場合、サンプルは、既存のクラスタ内に置かれてもよい。同時に、新しいバッチ内の他のサンプルに対するクラスタの距離が更新されてもよい。
318では、新しいクラスタの作成または既存のクラスタ内でのサンプルの吸収が実施されてもよい。実施形態によれば、プロセッサ202は、各バッチの終わりに、新しいサンプルについて新しいクラスタを作成するように、または既存のクラスタ内で吸収されるように構成されてもよい。バッチ内のサンプルごとに、動作312~316が繰り返される。
320では、各クラスタの下で、サンプル選択が実施されてもよい。実施形態によれば、プロセッサ202は、各クラスタの下でサンプルを選択するように構成されてもよい。各バッチでクラスタが作成され、更新されるため、ステップ306で説明したようなクラスタからのサンプル選択手法は、クラスタ内の合計サンプルを低減する際に役立ち、それによってデータセットをさらにスケーラブルにする。
図3Bを参照すると、本開示に実施形態による、データセットの次元の低減のための動作308~312を伴うブロック図300Bが、詳細に図示されている。図3Bは、図1~図3Aと関連して説明される。
実施形態によれば、距離ベースのクラスタリングシステム102のプロセッサ202は、新しいバッチにおける各サンプルの、それ自体との距離、および既存のクラスタにおける各サンプルとの距離を生成するための多次元行列(3D行列、および2D行列など)を作成するように構成されてもよい。さらには、距離ベースのクラスタリングシステム102のプロセッサ202は、多次元行列の次元を低減する(3D行列を2D行列に低減するなど)一方で、同時にサンプルのペアリング情報を追跡し続けるように構成されてもよい。
新しいサンプルがクラスタリングプレーンに導入され得る場合、3D行列の作成では、プロセッサ202は、新しいサンプルの、各クラスタ内の他のサンプルすべてとの距離を計算するように構成されてもよい。加えて、プロセッサ202は、新しいバッチ内のサンプルすべての、それ自体との距離を計算するように構成されてもよい。
3D行列の作成では、プロセッサ202は、各サンプルの、クラスタ内の他のサンプルすべてとの最長距離を決定し、それによって3D行列を2D行列に簡単にするように構成されてもよい。これは、可能なペアすべてに対する最長距離である、furthest neighbor linkageの概念を利用するものである。
追加的に、または任意選択で、2D行列から1D行列を作成してもよい。実施形態によれば、1D行列の作成では、プロセッサ202は、各行から最小距離を取得し、サンプルペアリング情報を2D行列に記憶して保つことによって、2D行列を単一次元に簡単にするように構成されてもよい。故に、サンプルの、別のクラスタとの類似性は、このような2つのグループにおける最も遠い2つの点の類似性である。
実施形態によれば、プロセッサ202は、行列内の最低距離を決定し、それにより単一次元の距離行列中の最小値を選ぶように構成されてもよい。これは、クラスタリングプレーンにおける最近接エンティティであるペアを選ぶことと等価である。
実施形態によれば、プロセッサ202は、最小値についてのペアリング情報を抽出するように構成されてもよい。2D行列からの、サンプルについてのペア情報の抽出は、先行ステップで選択された最小値のインデックスに基づくことができる。
実施形態によれば、プロセッサ202は、サンプルペア/サンプルクラスタペアを選択するように構成されてもよい。このステップでは、新しいサンプルがどこに行くか、新しいサンプルが存在するクラスタにマージされるか、それとも新しいサンプルとのペアリングによってそれ自体のクラスタを形成するか、についての情報を知ることができる。
図4は、本開示の実施形態による、データサンプルをクラスタ化する例示的な方法400を図示するフローチャートである。
ステップ402では、複数のバッチが受信されてもよい。複数のバッチのそれぞれは、複数のサンプルを含んでもよい。
ステップ404では、クラスタセットが、クラスタリング技法を使用して、複数のバッチのうち第1のバッチから作成されてもよい。クラスタセットの各クラスタは、1つまたは複数のサンプルを含んでもよい。1つまたは複数のサンプルは、1つまたは複数のサンプルのばらつき、およびクラスタセットの各クラスタに関連付けられるクラスタの属性に基づいて決定される。クラスタセットは、第2の所定のしきい値に基づいて作成される。第2の所定のしきい値は、経験的な確率密度関数に基づいて決定されてもよい。
ステップ406では、クラスタセットが再構成されてもよい。再構成には、下記のうちの少なくとも1つを含んでもよい:存在するクラスタセットを、複数のバッチのうち残りのバッチからのサンプルで再ポピュレートする(406A);新しいクラスタセットを、存在するクラスタセットに追加し、新しいクラスタセットを、複数のバッチのうち残りのバッチからのサンプルでポピュレートする(406B)。クラスタセットを再構成することは、残りのバッチの各サンプルについて、残りのバッチの残りのサンプルとの、および存在するクラスタセットの各サンプルとの距離を計算することと、残りのバッチの各サンプルについて、存在するクラスタセットにおけるサンプルとの最大距離値を決定することと、残りのバッチのサンプルおよび存在するクラスタから1つまたは複数の近いサンプルを繰返し選択することであって、1つまたは複数の近いサンプルを選択することが、最大距離値のうちの最小距離値に基づいている、選択することと、選択された1つまたは複数の近いサンプルに基づいてクラスタセットを再構成することとをさらに含んでもよい。1つまたは複数の近いサンプルを選択することは、最小距離値を第1の所定のしきい値と繰返し比較すること、および第1の所定のしきい値未満の関連する最小距離値を有する近いサンプルを選択することを含んでもよい。
さらには、1つまたは複数のコンピュータ可読記憶媒体は、本開示と一貫性のある実施形態を実装する際に利用される。コンピュータ可読記憶媒体とは、プロセッサによって可読な情報またはデータを記憶することができる、あらゆるタイプの物理メモリを称する。故に、コンピュータ可読記憶媒体は、本明細書で説明される実施形態と一貫性のあるステップまたは工程をプロセッサに実行させるための命令を含む、1つまたは複数のプロセッサによる実行のための命令を記憶する。「コンピュータ可読媒体」という用語は、有形物を含み、搬送波および一過性の信号を除外するものである、つまり非一時的であると理解されるべきである。例としては、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、揮発性メモリ、非揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュドライブ、ディスク、およびあらゆる他の既知の物理的な記憶媒体が挙げられる。
明確にするために、上記説明は、本開示の実施形態を、異なる機能的なユニットおよびプロセッサを参照して説明したものであることを諒解されたい。しかしながら、異なる機能的なユニット、プロセッサ、またはドメイン間での機能性のあらゆる好適な分散が、本開示から逸脱することなく使用され得ることが明らかとなろう。例えば、別個のプロセッサまたはコントローラによって実施されるよう図示される機能性は、同一のプロセッサまたはコントローラによって実施されてもよい。したがって、特定の機能的なユニットへの参照は、厳密な論理的または物理的な構造または組織を示すのではなく、説明される機能性を提供するための好適な手段への参照として考えられるに過ぎない。
いくつかの実施形態に関連して本開示を説明したが、本明細書で説明した特定の形態に本開示を限定するよう意図されていない。そうではなく、本開示の範囲は、特許請求の範囲によってのみ制限される。加えて、特徴は、特定の実施形態に関連して説明されるように見えるかもしれないが、当業者であれば、説明される実施形態の様々な特徴は、本開示にしたがって組み合わせることができることを認識されよう。
さらには、個々に列挙したが、複数の手段、要素、またはプロセスステップは、例えば単一のユニットまたはプロセッサによって実装されてもよい。加えて、個々の特徴は、異なる請求項に含まれる場合があるが、これらは、可能であれば有利に組み合わされてもよく、異なる請求項に含まれることは、特徴の組合せが、実行可能ではない、および/または有利ではないということを意味するものではない。また、特徴が、請求項の1つのカテゴリに含まれることは、このカテゴリへの限定を意味するものではなく、むしろ、適当であれば特徴は他の請求項カテゴリに等しく適用可能であり得る。

Claims (10)

  1. データサンプルをクラスタ化する方法(400)であって、
    1つまたは複数のバッチを受信し(402)、前記1つまたは複数のバッチのそれぞれが複数のサンプルを含み、
    前記1つまたは複数のバッチの第1のバッチから第1のクラスタセットを作成し(404)、前記第1のクラスタセットの各クラスタが、第1のデータサンプルのセットおよび第2のデータサンプルのセットを含み、前記第1のデータサンプルのセットおよび前記第2のデータサンプルのセットが、各クラスタに関連付けられる前記クラスタの属性の差に基づいて決定され、
    前記第1のクラスタセットを再構成し(406)、前記再構成することが、
    前記第1のクラスタセットを、前記1つまたは複数のバッチのうち残りのバッチからのサンプルで再ポピュレートすること(406A)、および
    第2のクラスタセットを、前記第1のクラスタセットに追加して、前記第2のクラスタセットを、前記1つまたは複数のバッチのうち前記残りのバッチからのサンプルでポピュレートすること(406B)
    のうちの少なくとも1つを含む、
    方法。
  2. 前記第1のクラスタセットを再構成すること(406)が、
    前記残りのバッチの各サンプルについて、前記残りのバッチの残りのサンプルとの、および前記第1のクラスタセットの各サンプルとの距離を計算することと、
    前記残りのバッチの各サンプルについて、前記第1のクラスタセット内のサンプルとの最大距離値を決定することと、
    前記残りのバッチの前記サンプルと前記第1のクラスタセットから1つまたは複数の近いサンプルを繰返し選択することと、前記1つまたは複数の近いサンプルを選択することが、最大距離値のうちの最小距離値に基づいており、
    前記選択された1つまたは複数の近いサンプルに基づいて前記第1のクラスタセットを再構成すること
    とを含む、
    請求項1に記載の方法(400)。
  3. 1つまたは複数の近いサンプルを選択することが、
    前記最小距離値を第1の所定のしきい値と繰返し比較することと、
    前記第1の所定のしきい値未満の関連する最小距離値を含む近いサンプルを選択すること
    とを含む、
    請求項2に記載の方法(400)。
  4. 前記第1のクラスタセットが、第2の所定のしきい値に基づいて作成される、
    請求項1に記載の方法(400)。
  5. データサンプルをクラスタ化するための距離ベースのクラスタリングシステム(200)であって、
    メモリ(204)と、
    入力/出力(I/O)デバイス(206)と、
    ネットワークインターフェース(208)と、
    永続的なデータ記憶装置(210)と、
    前記メモリ(204)、前記I/Oデバイス(206)、前記ネットワークインターフェース(208)、および前記永続的なデータ記憶装置(210)に結合されたコンピュータプロセッサ(202)と
    を備え、前記コンピュータプロセッサ(202)が、
    1つまたは複数のバッチを受信することと、前記1つまたは複数のバッチのそれぞれが複数のサンプルを含み、
    前記複数のサンプルのそれぞれの距離を生成するための多次元行列を作成することと、
    前記多次元行列の次元を、サンプルのペアリング情報に基づいて単一次元に簡単にすることと、前記サンプルのペアリング情報が、最小値のインデックスに基づいて前記多次元行列から抽出され、
    前記バッチ内の前記サンプルのそれぞれの間の最低距離を決定することと、
    新しいバッチ内の2つのサンプル間の前記最低距離に基づいて後続のクラスタを作成することと
    を行なうように構成されている、
    距離ベースのクラスタリングシステム。
  6. 前記クラスタセットの作成が、
    残りのバッチの各サンプルについて、前記残りのバッチの残りのサンプルとの、および第1のクラスタセットの各サンプルとの距離を計算することと、
    前記残りのバッチの各サンプルについて、前記第1のクラスタセット内のサンプルとの最大距離を決定することと、
    1つまたは複数の近いサンプルを前記残りのバッチの前記サンプルと前記第1のクラスタセットから繰返し選択することと、前記1つまたは複数の近いサンプルを選択することが、最大距離値のうちの最小距離に基づいており、
    前記選択された1つまたは複数の近いサンプルに基づいて前記クラスタセットを再構成すること
    とを含む、
    請求項5に記載の距離ベースのクラスタリングシステム。
  7. 前記多次元行列が、前記新しいバッチにおける各サンプルの、それ自体との、および前記クラスタにおける各サンプルとの距離を生成するための、三次元(3D)行列および二次元(2D)行列を含む、
    請求項5に記載の距離ベースのクラスタリングシステム。
  8. 前記多次元行列が、各行からの最小距離を考慮することによって、および前記多次元行列に記憶された前記サンプルのペアリング情報を保持することによって、単一次元に簡単にされる、
    請求項5に記載の距離ベースのクラスタリングシステム。
  9. 前記プロセッサ(202)が、新しいバッチ内の各サンプルのそれ自体との、およびクラスタ内の各サンプルとの距離を計算することによって、前記3D行列を作成するように構成されている、
    請求項5に記載の距離ベースのクラスタリングシステム。
  10. 前記プロセッサ202が、各サンプルの、クラスタのそれぞれにおける他のサンプルすべてとの最長距離を決定し、前記三次元行列を二次元行列に簡単にするように構成されている、
    請求項9に記載の距離ベースのクラスタリングシステム。

JP2022578770A 2021-06-25 2022-03-18 データサンプルをクラスタ化する方法およびシステム Pending JP2023537194A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN202141028708 2021-06-25
IN202141028708 2021-06-25
PCT/IB2022/052471 WO2022269370A1 (en) 2021-06-25 2022-03-18 Method and system for clustering data samples

Publications (1)

Publication Number Publication Date
JP2023537194A true JP2023537194A (ja) 2023-08-31

Family

ID=84544218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022578770A Pending JP2023537194A (ja) 2021-06-25 2022-03-18 データサンプルをクラスタ化する方法およびシステム

Country Status (4)

Country Link
US (1) US20240104144A1 (ja)
EP (1) EP4359962A1 (ja)
JP (1) JP2023537194A (ja)
WO (1) WO2022269370A1 (ja)

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263337B1 (en) * 1998-03-17 2001-07-17 Microsoft Corporation Scalable system for expectation maximization clustering of large databases
US6092072A (en) * 1998-04-07 2000-07-18 Lucent Technologies, Inc. Programmed medium for clustering large databases
US20040064299A1 (en) * 2001-08-10 2004-04-01 Howard Mark Automated system and method for spectroscopic analysis
WO2006087854A1 (ja) * 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
CN102855259B (zh) * 2011-06-30 2015-05-13 Sap欧洲公司 大规模数据聚类分析的并行化
TWI451336B (zh) * 2011-12-20 2014-09-01 Univ Nat Cheng Kung 預測模型之建模樣本的篩選方法及其電腦程式產品
CN104156463A (zh) * 2014-08-21 2014-11-19 南京信息工程大学 一种基于MapReduce的大数据聚类集成方法
CN105550744A (zh) * 2015-12-06 2016-05-04 北京工业大学 一种基于迭代的神经网络聚类方法
WO2017127803A1 (en) * 2016-01-22 2017-07-27 The Trustees Of Columbia University In The City Of New York Methods for classification of glioma
US10685045B2 (en) * 2016-07-15 2020-06-16 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for cluster matching across samples and guided visualization of multidimensional cytometry data
US11954614B2 (en) * 2017-02-08 2024-04-09 10X Genomics, Inc. Systems and methods for visualizing a pattern in a dataset
US11416129B2 (en) * 2017-06-02 2022-08-16 The Research Foundation For The State University Of New York Data access interface
US10719301B1 (en) * 2018-10-26 2020-07-21 Amazon Technologies, Inc. Development environment for machine learning media models
US20220067585A1 (en) * 2018-12-31 2022-03-03 L&T Technology Services Limited Method and device for identifying machine learning models for detecting entities
US11645274B2 (en) * 2020-07-28 2023-05-09 Intuit Inc. Minimizing group generation in computer systems with limited computing resources
EP4359958A1 (en) * 2021-06-25 2024-05-01 L & T Technology Services Limited A system and method for examining relevancy of documents

Also Published As

Publication number Publication date
US20240104144A1 (en) 2024-03-28
EP4359962A1 (en) 2024-05-01
WO2022269370A1 (en) 2022-12-29

Similar Documents

Publication Publication Date Title
Ramírez‐Gallego et al. Fast‐mRMR: Fast minimum redundancy maximum relevance algorithm for high‐dimensional big data
JP6639420B2 (ja) フラッシュ最適化データ・レイアウトのための方法、フラッシュ最適化記憶のための装置、およびコンピュータ・プログラム
US9377959B2 (en) Data storage method and apparatus
US10922316B2 (en) Using computing resources to perform database queries according to a dynamically determined query size
US20180329999A1 (en) Methods and systems for query segmentation
Mostak An overview of MapD (massively parallel database)
CN111324777A (zh) 用于分片创建的装置和系统
CN108334951A (zh) 针对决策树的节点的数据的预统计
US11775544B2 (en) Feature sets using semi-structured data storage
CN111737292B (zh) 一种数据检索的方法以及相关装置
CN115525652A (zh) 用户访问数据处理方法及装置
EP3123360B1 (en) Partition filtering using smart index in memory
JP2023537194A (ja) データサンプルをクラスタ化する方法およびシステム
EP4145361A1 (en) Augmentation of machine learning pipeline corpus for synthesizing new machine learning pipelines
JP7213890B2 (ja) 高速化された大規模な類似度計算
CN115470190A (zh) 一种多存储池数据分类存储方法、系统与电子设备
Talan et al. An overview of Hadoop MapReduce, spark, and scalable graph processing architecture
Li et al. SP-phoenix: a massive spatial point data management system based on phoenix
KR20210085674A (ko) 다중-스트림을 지원하도록 구성된 스토리지 장치 및 그것의 동작 방법
Beavers et al. Data Nuggets: A Method for Reducing Big Data While Preserving Data Structure
US11455326B2 (en) Efficient storage and retrieval of textual data
Bicer et al. A compression framework for multidimensional scientific datasets
US11899754B2 (en) ROI-based data content graph for wide data management
CN113392124B (zh) 一种基于结构化语言的数据查询方法及装置
US11580084B2 (en) High performance dictionary for managed environment

Legal Events

Date Code Title Description
A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A525

Effective date: 20230213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240206

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20240426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20240426