JP2023537194A

JP2023537194A - データサンプルをクラスタ化する方法およびシステム

Info

Publication number: JP2023537194A
Application number: JP2022578770A
Authority: JP
Inventors: イシタダス，; マドゥスダンシン，; ムリダルバララマン，; スカントデブナス，
Original assignee: エルアンドティーテクノロジーサービシズリミテッド
Priority date: 2021-06-25
Filing date: 2022-03-18
Publication date: 2023-08-31
Also published as: US20240104144A1; EP4359962A1; WO2022269370A1

Abstract

データサンプルをクラスタ化するための方法（４００）およびシステムが開示される。方法（４００）は、複数のバッチを受信するステップ（４０２）であって、複数のバッチのそれぞれが複数のサンプルを含む、ステップ（４０２）と、複数のバッチの第１のバッチからクラスタセットを、クラスタリング技法を使用して、作成するステップ（４０４）を含んでもよい。クラスタセットの各クラスタは、１つまたは複数のサンプルを含んでもよい。１つまたは複数のサンプルは、１つまたは複数のサンプルのばらつき、および各クラスタに関連付けられるクラスタの属性に基づいて決定される。方法は、存在するクラスタセットを、複数のバッチのうち残りのバッチからのサンプルで再ポピュレートするステップ（４００Ａ）；新しいクラスタセットを、存在するクラスタセットに追加し、新しいクラスタセットを、残りのバッチからのサンプルでポピュレートするステップ（４００Ｂ）のうちの少なくとも１つを含む、クラスタセットを再構成するステップ（４０６）をさらに含んでもよい。【選択図】図４

Description

本開示は、一般に、クラスタリング方法に関し、より詳細には、データサンプルをクラスタ化し、大規模データセットのクラスタを管理する方法およびシステムに関する。

クラスタリングは、意味のあるエンティティのグループを見つけ、あるデータセットのために形成されたクラスタを区別するために使用されることがある。しかしながら、大規模データセットのクラスタリングは、困難な問題となっている。クラスタリングアルゴリズムは、メモリおよび時間の複雑さの点からコストがかかるため、データセットのサイズが大きくなったことで、メモリ使用、文書処理、および実行時間要件を満足する、効率的なクラスタリング技法に対する需要が急増した。大規模データセットを扱う、そのようなクラスタリングアルゴリズムは、形成されるクラスタの精度の点で、パフォーマンスが良くない場合がある。その上、存在するクラスタリングアルゴリズムには、既存のクラスタを用いてデータセットをクラスタリングし続ける柔軟性がない。そのような場合、どちらのクラスタも、最初から再形成される必要がある、またはクラスタリングモデルを使用して、新しいサンプルについてクラスタの数を予測してもよい。

したがって、データのボリュームを管理するための、またデータ分析用にそのようなデータを容易にクラスタ化しつつ、クラスタ内でのコンパクトさおよび個々のクラスタの分離を確実にするために、効率的で、スケーラブルかつ正確な方法およびシステムの必要性がある。

実施形態によれば、データサンプルをクラスタ化する方法が開示される。方法は、複数のバッチを受信することを含み（複数のバッチのそれぞれが複数のサンプルを含み）、複数のバッチの第１のバッチからクラスタセットを、クラスタリング技法を使用して、作成することとを含んでもよい。クラスタセットの各クラスタは、１つまたは複数のサンプルを含んでもよい。１つまたは複数のサンプルは、１つまたは複数のサンプルのばらつき、およびに各クラスタに関連付けられるクラスタの属性に基づいて決定される。方法は、存在するクラスタセットを、複数のバッチのうち残りのバッチからのサンプルで再ポピュレートすること；新しいクラスタセットを、存在するクラスタセットに追加し、新しいクラスタセットを、複数のバッチのうち残りのバッチからのサンプルでポピュレートすることのうちの少なくとも１つを含む、クラスタセットを再構成することをさらに含んでもよい。

別の実施形態では、データサンプルをクラスタ化するためのシステムが開示される。システムは、プロセッサおよびプロセッサに通信可能に結合されたメモリを含んでもよい。メモリは、プロセッサ実行可能命令を記憶するように構成されてもよい。プロセッサ実行可能命令は、実行されると、プロセッサに、複数のバッチを受信することであって、複数のバッチのそれぞれが複数のサンプルを含む、受信することと、複数のバッチの第１のバッチからクラスタセットを、クラスタリング技法を使用して、作成することとを行なわせる。クラスタセットの各クラスタは、１つまたは複数のサンプルを含んでもよい。１つまたは複数のサンプルは、１つまたは複数のサンプルのばらつき、およびに各クラスタに関連付けられるクラスタの属性に基づいて決定される。プロセッサ実行可能命令は、実行されると、プロセッサに、下記のうちの少なくとも１つを含む、クラスタセットを再構成することをさらに行なわせる：存在するクラスタセットを、複数のバッチのうち残りのバッチからのサンプルで再ポピュレートすること；新しいクラスタセットを、存在するクラスタセットに追加し、新しいクラスタセットを、複数のバッチのうち残りのバッチからのサンプルでポピュレートすること。

前述の一般的な説明および以降の詳細な説明の両方とも、例示的で説明的に過ぎず、特許請求されるように、本発明を限定するものではないことを理解されたい。

本開示に組み込まれ、その一部を成す添付の図面は、説明と併せて、例示の実施形態を図示し、開示される原理を説明する役割を果たすものである。

本開示の実施形態による、大規模データセットのクラスタを管理するための、距離ベースのクラスタリングシステム用の環境を図示するブロック図である。本開示の実施形態による、大規模データセットのクラスタを管理するための、例示的な距離ベースのクラスタリングシステムを図示するブロック図である。本開示の実施形態による、大規模データセットのクラスタを管理するための、距離ベースのクラスタリングシステムについての例示的な動作をまとめて図示するブロック図である。本開示の実施形態による、大規模データセットのクラスタを管理するための、距離ベースのクラスタリングシステムについての例示的な動作をまとめて図示するブロック図である。本開示の実施形態による、大規模データセットのクラスタを管理するための例示的な方法を図示するフローチャートである。

例示的な実施形態を、添付の図面を参照して説明する。同一または類似の部分を参照するために、便利であれば、同一の参照符号を図面全体で使用する。ここでは開示される原理の例および特徴が説明されるが、開示される実施形態の思想および範囲から逸脱することなく、修正形態、適合形態、および他の実装形態が可能である。以下の詳細な説明は、単なる例として考えられるように、また真の範囲および思想は、以下の特許請求の範囲によって示されるように、意図されている。追加的な例示の実施形態を下に列挙する。

以下で説明する実装形態は、大規模データセットのクラスタを管理するための、開示されるシステムおよび方法において見出されることがある。データセットは、個々のまたは多次元的な属性を有する可能性がある情報の関連するセットの集合に対応する。大規模データセットは大量のデータを含むことがあり、さらなる処理のために、そのすべてをメモリにロードすることを管理できない場合がある。大規模データセットは、構造化されたデータソースおよびフォーマットを含むことができる。本開示の例示的な態様は、メモリと時間の複雑さに対処しつつ、存在するクラスタリングアルゴリズムのベンチマーク精度を維持することができる、距離ベースのクラスタリング方法を提供する。開示される距離ベースのクラスタリング方法は、予め定義されたクラスタが既に形成されている場合、新しいデータポイントをクラスタリングし続けられるようにする。開示される距離ベースのクラスタリング方法は、サンプルを既存のクラスタに導入する柔軟性を提供するか、新しいサンプルがそれ自身のクラスタを形成できるようにする。開示される距離ベースのクラスタリング方法は、限定はしないが、電気通信、ヘルスケア、バイオインフォマティクス、バンキング、マーケティング、生物学、保険、都市計画、地震研究、ウェブ文書分類、および輸送サービスなど、大規模データセットに関連付けられる用途でのデータ分析を容易にするものである。

図１は、本開示の実施形態による、大規模データセットのクラスタを管理するシステム用の環境を図示するブロック図である。図１を参照すると、環境１００が示されている。環境１００は、距離ベースのクラスタリングシステム１０２、データベース１０４、外部デバイス１０６、および通信ネットワーク１０８を含む。距離ベースのクラスタリングシステム１０２は、通信ネットワーク１０８を介して、データベース１０４および外部デバイス１０６に、通信可能に結合される。

距離ベースのクラスタリングシステム１０２は、予め定義されたクラスタが既に形成された後、新しいデータポイントをクラスタ化するように構成され得る好適なロジック、回路、インターフェース、および／またはコードを含んでもよい。実施形態によれば、距離ベースのクラスタリングシステム１０２は、サンプルを既存のクラスタに導入する柔軟性を提供するか、新しいサンプルがそれ自身のクラスタを形成できるようにするように構成されてもよい。したがって、距離ベースのクラスタリングシステム１０２は、類似の項目を自動的にグループ化して、隠れた類似性および重要な概念を発見しつつ、意味のある知見を得るよう大量のデータを少数のクラスタにまとめることができる。これにより、ユーザ（図１には図示せず）が、大規模データセットに対応する大量のデータを十分理解できるようになる。

実施形態によれば、多次元行列を作成するための距離ベースのクラスタリングシステム１０２によって、様々な距離メトリクスを使用することができる。様々な距離メトリクスとしては、限定はしないが、ユークリッド距離、マンハッタン距離、ミンコフスキー距離、およびジャカード距離を挙げることができる。

例として、距離ベースのクラスタリングシステム１０２は、当業者に良く知られたいくつかの技術を使用して、複数の分散型クラウドベースのリソースとして実装されてもよい。距離ベースのクラスタリングシステム１０２の実装形態の他の例としては、ウェブ／クラウドサーバ、アプリケーションサーバ、メディアサーバ、および家庭用電子（ＣＥ）デバイスを挙げることができるが、それに限定されない。

データベース１０４は、気象部門、電気通信システム、センサ類など、それらに限定しないが、様々なソースによって生成され得るデータセットをキャプチャするように構成され得る、好適なロジック、回路、インターフェース、および／またはコードを含んでもよい。データサイズは、テラバイトからペタバイトまで変わることがあり、本思想の実際の新規性は、データのサイズが大きくなったときに目に見えるが、アルゴリズムは小さいデータセットでも動作する。

例えば、データベース１０４はまた、データセットとともにメタデータも記憶することができ、通信ネットワーク１０８を介してアクセスされてもよい。図１の例は、単一のデータベース（データベース１０４）を距離ベースのクラスタリングシステム１０２の一部として含んでいるが、距離ベースのクラスタリングシステム１０２はまた、環境１００の他の場所に配置されてもよいことを理解されたい。例えば、別個の記憶デバイスが、ローカル接続を介して、または通信ネットワーク１０８上で、距離ベースのクラスタリングシステム１０２に結合されてもよい。

外部デバイス１０６は、距離ベースのクラスタリングシステム１０２から、大規模データセットの意味のある知見の表示をレンダリングするように構成され得る、好適なロジック、回路、インターフェース、および／またはコードを含んでもよい。これにより、外部デバイス１０６に関連付けられるユーザが、大規模データセットに対応する大量のデータを十分理解できるようになる。外部デバイス１０６の機能性は、高速コンピューティングデバイスなどのポータブルデバイス、および／またはサーバなどの非ポータブルデバイスに実装されてもよい。外部デバイス１０６の例としては、スマートフォン、モバイルデバイス、およびラップトップを挙げることができるが、それらに限定しない。

通信ネットワーク１０８は、通信媒体を含むことがあり、それを通じて、距離ベースのクラスタリングシステム１０２、データベース１０４、および外部デバイス１０６は、互いに通信することができる。通信ネットワーク１０８の例としては、インターネット、クラウドネットワーク、ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ（Ｗｉ－Ｆｉ）ネットワーク、パーソナルエリアネットワーク（ＰＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、またはメトロポリタンエリアネットワーク（ＭＡＮ）を挙げることができるが、それらに限定しない。環境１００内の様々なデバイスは、様々な有線および無線通信プロトコルにしたがって、通信ネットワーク１０８に接続するように構成することができる。そのような有線および無線通信プロトコルの例としては、ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ／ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ（ＴＣＰ／ＩＰ）、ＵｓｅｒＤａｔａｇｒａｍＰｒｏｔｏｃｏｌ（ＵＤＰ）、ＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ（ＨＴＴＰ）、ＦｉｌｅＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ（ＦＴＰ）、ＺｉｇＢｅｅ、ＥＤＧＥ、ＩＥＥＥ８０２．１１、ｌｉｇｈｔｆｉｄｅｌｉｔｙ（Ｌｉ－Ｆｉ）、８０２．１６、ＩＥＥＥ８０２．１１ｓ、ＩＥＥＥ８０２．１１ｇ、マルチホップ通信、無線アクセスポイント（ＡＰ）、デバイス間通信、セルラ通信プロトコル、およびＢｌｕｅｔｏｏｔｈ（ＢＴ）通信プロトコルを挙げることができるが、それらに限定しない。

図２は、本開示の実施形態による、大規模データセットのクラスタを管理するための、例示的な距離ベースのクラスタリングシステム１０２を図示するブロック図である。図２は、図１の要素と関連して説明される。

図２を参照すると、距離ベースのクラスタリングシステム１０２のブロック図２００が示されている。距離ベースのクラスタリングシステム１０２は、プロセッサ２０２、メモリ２０４、入力／出力（Ｉ／Ｏ）デバイス２０６、ネットワークインターフェース２０８、および永続的なデータ記憶装置２１０を含むことができる。

プロセッサ２０２は、メモリ２０４、Ｉ／Ｏデバイス２０６、ネットワークインターフェース２０８、および永続的なデータ記憶装置２１０に通信可能に結合されてもよい。１つまたは複数の実施形態では、距離ベースのクラスタリングシステム１０２はまた、１つまたは複数のデータベース、例えばデータベース１０４を介して、データセットをキャプチャするプロビジョン／機能性も含むことができる。

プロセッサ２０２は、クラスタを作成して大規模データセットの各バッチで更新するように構成され得る好適なロジック、回路、インターフェース、および／またはコードを含んでもよい。プロセッサ２０２は、当業者に既知であり得る、複数のプロセッサ技術に基づいて実装することができる。プロセッサ２０２の実装形態の例としては、グラフィック処理ユニット（ＧＰＵ）、縮小命令セットコンピューティング（ＲＩＳＣ）プロセッサ、特定用途向け集積回路（ＡＳＩＣ）プロセッサ、複合命令セットコンピューティング（ＣＩＳＣ）プロセッサ、マイクロコントローラ、人工知能（ＡＩ）アクセラレータチップ、コプロセッサ、中央処理装置（ＣＰＵ）、および／またはそれらの組合せがある。

メモリ２０４は、プロセッサ２０２によって実行可能な命令を記憶するように構成され得る好適なロジック、回路、および／またはインターフェースを含んでもよい。メモリ２０４の実装形態の例としては、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、電気的消去可能プログラム可能読み取り専用メモリ（ＥＥＰＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、ＣＰＵキャッシュ、および／またはセキュアデジタル（ＳＤ）カードを挙げることができるが、それらに限定しない。

Ｉ／Ｏデバイス２０６は、ユーザと距離ベースのクラスタリングシステム１０２との間でＩ／Ｏインターフェースとして機能するように構成され得る、好適なロジック、回路、および／またはインターフェースを含んでもよい。ユーザには、距離ベースのクラスタリングシステム１０２を操作するデータアナリストが含まれる場合がある。Ｉ／Ｏデバイス２０６には、距離ベースのクラスタリングシステム１０２の異なる動作可能なコンポーネントと通信するように構成され得る様々な入出力デバイスが含まれる場合がある。Ｉ／Ｏデバイス２０６の例としては、タッチスクリーン、キーボード、マウス、ジョイスティック、マイクロフォン、およびディスプレイスクリーンを挙げることができるが、それらに限定しない。

ネットワークインターフェース２０８は、距離ベースのクラスタリングシステム１０２の異なるコンポーネントが、通信ネットワーク１０８を介して、環境１００内の外部デバイスなど、他のデバイスと通信するのを容易にするように構成され得る好適なロジック、回路、インターフェース、および／またはコードを含んでもよい。ネットワークインターフェース２０８は、有線または無線通信をサポートするよう、既知の技術を実装するように構成されてもよい。ネットワークインターフェース２０８のコンポーネントとしては、アンテナ、高周波（ＲＦ）トランシーバ、１つもしくは複数の増幅器、チューナ、１つもしくは複数の発振器、デジタル信号プロセッサ、コーデック（ＣＯＤＥＣ）チップセット、識別モジュール、および／またはローカルバッファを挙げることができるが、それらに限定しない。

ネットワークインターフェース２０８は、オフラインおよびオンラインの無線通信を介して、インターネット、イントラネット、ならびに／または携帯電話ネットワーク、無線ローカルエリアネットワーク（ＷＬＡＮ）、パーソナルエリアネットワーク、および／もしくはメトリポリタンエリアネットワーク（ＭＡＮ）などの無線ネットワークなどのネットワークと通信するように構成されてもよい。無線通信は、ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ（ＧＳＭ）、ＥｎｈａｎｃｅｄＤａｔａＧＳＭＥｎｖｉｒｏｎｍｅｎｔ（ＥＤＧＥ）、広帯域符号分割多重接続（Ｗ－ＣＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、ＬＴＥ、時分割多元接続（ＴＤＭＡ）、Ｂｌｕｅｔｏｏｔｈ、ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ（Ｗｉ－Ｆｉ）（ＩＥＥＥ８０２．１１、ＩＥＥＥ８０２．１１ｂ、ＩＥＥＥ８０２．１１ｇ、ＩＥＥＥ８０２．１１ｎ、および／またはあらゆる他のＩＥＥＥ８０２．１１プロトコルなど）、ボイスオーバーＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ（ＶｏＩＰ）、Ｗｉ－ＭＡＸ、モノのインターネット（ＩｏＴ）技術、マシンタイプ通信（ＭＴＣ）技術、電子メール、インスタントメッセージング、および／またはショートメッセージサービス（ＳＭＳ）用のプロトコルなど、複数の通信規格、プロトコル、および技術のうち、いずれを使用してもよい。

永続的なデータ記憶装置２１０は、データベース、プロセッサ２０２によって実行可能なプログラム命令、およびオペレーティングシステムを記憶するように構成され得る好適なロジック、回路、および／またはインターフェースを含んでもよい。永続的なデータ記憶装置２１２は、コンピュータ実行可能命令を搬送もしくは有するためのコンピュータ可読記憶媒体またはそれに記憶されたデータ構造を含んでもよい。そのようなコンピュータ可読記憶媒体は、プロセッサ２０２などの汎用または特殊目的コンピュータによってアクセスすることができる、あらゆる利用可能な媒体を含んでもよい。

例として、限定はしないが、そのようなコンピュータ可読記憶媒体としては、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）もしくは他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶装置（例えば、ハードディスクドライブ（ＨＤＤ））、フラッシュメモリデバイス（例えば、ソリッドステートドライブ（ＳＳＤ）、セキュアデジタル（ＳＤ）カード、他のソリッドステートメモリデバイス）を含む有形または非一時的なコンピュータ可読記憶媒体、あるいは特定のプログラムコードを、コンピュータ実行可能命令またはデータ構造の形態で搬送もしくは記憶するために使用してもよく、汎用もしくは特殊目的コンピュータによってアクセスすることができる、あらゆる他の記憶媒体を挙げることができる。上記の組合せもまた、コンピュータ可読記憶媒体の範囲に含まれてもよい。

コンピュータ実行可能命令は、例えば、プロセッサ２０２に、距離ベースのクラスタリングシステム１０２に関連付けられる特定の動作または動作のセットを実行させるように構成された、命令およびデータを含んでもよい。距離ベースのクラスタリングシステム１０２によって実行される機能または動作は、図１で説明されるように、プロセッサ２０２によって実行される場合がある。追加的に、または代替的に、実施形態によれば、プロセッサ２０２の動作は、様々なモジュールによって実行される。

図３Ａ～図３Ｂは、本開示の実施形態による、大規模データセットを管理するための、距離ベースのクラスタリングシステム１０２についての例示的な動作をまとめて図示している。図３Ａ～図３Ｂは、図１～図２の要素と関連して説明される。

図３Ａを参照すると、本明細書で説明されるような、距離ベースのクラスタリングシステム１０２についての動作のセットを図示するダイヤグラム３００Ａが示されている。

３０２では、データ取得が実施されてもよい。データ取得の動作では、プロセッサ２０２は、従来型のクラスタリングアルゴリズム３０２Ａを使用して、サンプルを距離ベースのクラスタリングシステム１０２のための入力として取得する。サンプルは、バッチごとの様式でさらに処理されてもよい。例として、第１のバッチは従来型のクラスタリングアルゴリズムに入れられ、連続するバッチ（第２のバッチ、第３のバッチ、など）は、本明細書で説明されるようにクラスタ化され、これは先行するクラスタリングアルゴリズムの出力を考慮するものである。

実施形態によれば、従来型のクラスタリングアルゴリズムは、大規模データセットの第１のバッチをクラスタ化するために使用されてもよい。形成されるクラスタの数は、クラスタベースのモデルに与えられるしきい値に依存する場合がある。実施形態によれば、しきい値は、経験的な確率密度関数に基づいて生成されてもよい。

３０４では、クラスタの生成が実施されてもよい。実施形態によれば、プロセッサ２０２は、大規模データセットの第１のバッチから複数のクラスタを生成するように構成されてもよい。

３０６では、各クラスタの下で、サンプル選択が実施されてもよい。実施形態によれば、距離ベースのクラスタリングシステム１０２のプロセッサ２０２は、ステップ３０４で生成された各クラスタから妥当なサンプルを選択するように構成されてもよい。選択されたサンプルは、ばらつきおよびクラスタ性質の点で、クラスタを表現することができる。サンプルの選択は、サンプルの総数の低減を促すことがある。結果的に、距離ベースのクラスタリングシステム１０２は、大規模データセットについてメモリと時間の複雑さを制限することができる。

３０８では、三次元（３Ｄ）行列の作成が実施されてもよい。実施形態によれば、プロセッサ２０２は、新しいバッチにおける各サンプルの、それ自体との距離、および既存のクラスタにおける各サンプルとの距離を計算するように構成されてもよい。

３１０では、二次元（２Ｄ）行列の作成が実施されてもよい。実施形態によれば、プロセッサ２０２は、各サンプルの、既存のクラスタのそれぞれにおける他のサンプルすべてとの最長距離を決定し、それによって三次元行列を二次元行列に簡単にするように構成されてもよい。

３１２では、最低距離の選択が実施されてもよい。実施形態によれば、プロセッサ２０２は、ステップ３１０で作成された２Ｄ行列における最小距離を選択するように構成されてもよい。最小距離値を持つエンティティは、最も近い要素に対応することができる。クラスタ化のためのエンティティの選択は、所与のバッチについての再帰的なステップであってもよく、再帰的なステップは、最小距離値が所定のしきい値より低くなるまで続けることができる。動作３０８～３１２は、図３Ｂと併せて詳細に説明してある。

３１４では、新しいクラスタの作成が実施されてもよい。実施形態によれば、プロセッサ２０２は、最小距離が新しいバッチ内で２つのサンプルの間にあるかどうかに応じて、新しいクラスタを作成するように構成されてもよい。サンプルペアは、連続する反復における最低距離計算に基づいて、既存のクラスタのうちの１つに置かれてもよい。

３１６では、サンプルの、既存のクラスタとのマージが実施されてもよい。実施形態によれば、プロセッサ２０２は、クラスタ間距離の最大化およびクラスタ内距離の最小化に基づいて、サンプルを既存のクラスタとマージするように構成されてもよい。例として、最小距離が、新しいバッチ内のサンプルと先行バッチのクラスタとの間にある場合、サンプルは、既存のクラスタ内に置かれてもよい。同時に、新しいバッチ内の他のサンプルに対するクラスタの距離が更新されてもよい。

３１８では、新しいクラスタの作成または既存のクラスタ内でのサンプルの吸収が実施されてもよい。実施形態によれば、プロセッサ２０２は、各バッチの終わりに、新しいサンプルについて新しいクラスタを作成するように、または既存のクラスタ内で吸収されるように構成されてもよい。バッチ内のサンプルごとに、動作３１２～３１６が繰り返される。

３２０では、各クラスタの下で、サンプル選択が実施されてもよい。実施形態によれば、プロセッサ２０２は、各クラスタの下でサンプルを選択するように構成されてもよい。各バッチでクラスタが作成され、更新されるため、ステップ３０６で説明したようなクラスタからのサンプル選択手法は、クラスタ内の合計サンプルを低減する際に役立ち、それによってデータセットをさらにスケーラブルにする。

図３Ｂを参照すると、本開示に実施形態による、データセットの次元の低減のための動作３０８～３１２を伴うブロック図３００Ｂが、詳細に図示されている。図３Ｂは、図１～図３Ａと関連して説明される。

実施形態によれば、距離ベースのクラスタリングシステム１０２のプロセッサ２０２は、新しいバッチにおける各サンプルの、それ自体との距離、および既存のクラスタにおける各サンプルとの距離を生成するための多次元行列（３Ｄ行列、および２Ｄ行列など）を作成するように構成されてもよい。さらには、距離ベースのクラスタリングシステム１０２のプロセッサ２０２は、多次元行列の次元を低減する（３Ｄ行列を２Ｄ行列に低減するなど）一方で、同時にサンプルのペアリング情報を追跡し続けるように構成されてもよい。

新しいサンプルがクラスタリングプレーンに導入され得る場合、３Ｄ行列の作成では、プロセッサ２０２は、新しいサンプルの、各クラスタ内の他のサンプルすべてとの距離を計算するように構成されてもよい。加えて、プロセッサ２０２は、新しいバッチ内のサンプルすべての、それ自体との距離を計算するように構成されてもよい。

３Ｄ行列の作成では、プロセッサ２０２は、各サンプルの、クラスタ内の他のサンプルすべてとの最長距離を決定し、それによって３Ｄ行列を２Ｄ行列に簡単にするように構成されてもよい。これは、可能なペアすべてに対する最長距離である、ｆｕｒｔｈｅｓｔｎｅｉｇｈｂｏｒｌｉｎｋａｇｅの概念を利用するものである。

追加的に、または任意選択で、２Ｄ行列から１Ｄ行列を作成してもよい。実施形態によれば、１Ｄ行列の作成では、プロセッサ２０２は、各行から最小距離を取得し、サンプルペアリング情報を２Ｄ行列に記憶して保つことによって、２Ｄ行列を単一次元に簡単にするように構成されてもよい。故に、サンプルの、別のクラスタとの類似性は、このような２つのグループにおける最も遠い２つの点の類似性である。

実施形態によれば、プロセッサ２０２は、行列内の最低距離を決定し、それにより単一次元の距離行列中の最小値を選ぶように構成されてもよい。これは、クラスタリングプレーンにおける最近接エンティティであるペアを選ぶことと等価である。

実施形態によれば、プロセッサ２０２は、最小値についてのペアリング情報を抽出するように構成されてもよい。２Ｄ行列からの、サンプルについてのペア情報の抽出は、先行ステップで選択された最小値のインデックスに基づくことができる。

実施形態によれば、プロセッサ２０２は、サンプルペア／サンプルクラスタペアを選択するように構成されてもよい。このステップでは、新しいサンプルがどこに行くか、新しいサンプルが存在するクラスタにマージされるか、それとも新しいサンプルとのペアリングによってそれ自体のクラスタを形成するか、についての情報を知ることができる。

図４は、本開示の実施形態による、データサンプルをクラスタ化する例示的な方法４００を図示するフローチャートである。

ステップ４０２では、複数のバッチが受信されてもよい。複数のバッチのそれぞれは、複数のサンプルを含んでもよい。

ステップ４０４では、クラスタセットが、クラスタリング技法を使用して、複数のバッチのうち第１のバッチから作成されてもよい。クラスタセットの各クラスタは、１つまたは複数のサンプルを含んでもよい。１つまたは複数のサンプルは、１つまたは複数のサンプルのばらつき、およびクラスタセットの各クラスタに関連付けられるクラスタの属性に基づいて決定される。クラスタセットは、第２の所定のしきい値に基づいて作成される。第２の所定のしきい値は、経験的な確率密度関数に基づいて決定されてもよい。

ステップ４０６では、クラスタセットが再構成されてもよい。再構成には、下記のうちの少なくとも１つを含んでもよい：存在するクラスタセットを、複数のバッチのうち残りのバッチからのサンプルで再ポピュレートする（４０６Ａ）；新しいクラスタセットを、存在するクラスタセットに追加し、新しいクラスタセットを、複数のバッチのうち残りのバッチからのサンプルでポピュレートする（４０６Ｂ）。クラスタセットを再構成することは、残りのバッチの各サンプルについて、残りのバッチの残りのサンプルとの、および存在するクラスタセットの各サンプルとの距離を計算することと、残りのバッチの各サンプルについて、存在するクラスタセットにおけるサンプルとの最大距離値を決定することと、残りのバッチのサンプルおよび存在するクラスタから１つまたは複数の近いサンプルを繰返し選択することであって、１つまたは複数の近いサンプルを選択することが、最大距離値のうちの最小距離値に基づいている、選択することと、選択された１つまたは複数の近いサンプルに基づいてクラスタセットを再構成することとをさらに含んでもよい。１つまたは複数の近いサンプルを選択することは、最小距離値を第１の所定のしきい値と繰返し比較すること、および第１の所定のしきい値未満の関連する最小距離値を有する近いサンプルを選択することを含んでもよい。

さらには、１つまたは複数のコンピュータ可読記憶媒体は、本開示と一貫性のある実施形態を実装する際に利用される。コンピュータ可読記憶媒体とは、プロセッサによって可読な情報またはデータを記憶することができる、あらゆるタイプの物理メモリを称する。故に、コンピュータ可読記憶媒体は、本明細書で説明される実施形態と一貫性のあるステップまたは工程をプロセッサに実行させるための命令を含む、１つまたは複数のプロセッサによる実行のための命令を記憶する。「コンピュータ可読媒体」という用語は、有形物を含み、搬送波および一過性の信号を除外するものである、つまり非一時的であると理解されるべきである。例としては、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、揮発性メモリ、非揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ＤＶＤ、フラッシュドライブ、ディスク、およびあらゆる他の既知の物理的な記憶媒体が挙げられる。

明確にするために、上記説明は、本開示の実施形態を、異なる機能的なユニットおよびプロセッサを参照して説明したものであることを諒解されたい。しかしながら、異なる機能的なユニット、プロセッサ、またはドメイン間での機能性のあらゆる好適な分散が、本開示から逸脱することなく使用され得ることが明らかとなろう。例えば、別個のプロセッサまたはコントローラによって実施されるよう図示される機能性は、同一のプロセッサまたはコントローラによって実施されてもよい。したがって、特定の機能的なユニットへの参照は、厳密な論理的または物理的な構造または組織を示すのではなく、説明される機能性を提供するための好適な手段への参照として考えられるに過ぎない。

いくつかの実施形態に関連して本開示を説明したが、本明細書で説明した特定の形態に本開示を限定するよう意図されていない。そうではなく、本開示の範囲は、特許請求の範囲によってのみ制限される。加えて、特徴は、特定の実施形態に関連して説明されるように見えるかもしれないが、当業者であれば、説明される実施形態の様々な特徴は、本開示にしたがって組み合わせることができることを認識されよう。

さらには、個々に列挙したが、複数の手段、要素、またはプロセスステップは、例えば単一のユニットまたはプロセッサによって実装されてもよい。加えて、個々の特徴は、異なる請求項に含まれる場合があるが、これらは、可能であれば有利に組み合わされてもよく、異なる請求項に含まれることは、特徴の組合せが、実行可能ではない、および／または有利ではないということを意味するものではない。また、特徴が、請求項の１つのカテゴリに含まれることは、このカテゴリへの限定を意味するものではなく、むしろ、適当であれば特徴は他の請求項カテゴリに等しく適用可能であり得る。

Claims

データサンプルをクラスタ化する方法（４００）であって、
１つまたは複数のバッチを受信し（４０２）、前記１つまたは複数のバッチのそれぞれが複数のサンプルを含み、
前記１つまたは複数のバッチの第１のバッチから第１のクラスタセットを作成し（４０４）、前記第１のクラスタセットの各クラスタが、第１のデータサンプルのセットおよび第２のデータサンプルのセットを含み、前記第１のデータサンプルのセットおよび前記第２のデータサンプルのセットが、各クラスタに関連付けられる前記クラスタの属性の差に基づいて決定され、
前記第１のクラスタセットを再構成し（４０６）、前記再構成することが、
前記第１のクラスタセットを、前記１つまたは複数のバッチのうち残りのバッチからのサンプルで再ポピュレートすること（４０６Ａ）、および
第２のクラスタセットを、前記第１のクラスタセットに追加して、前記第２のクラスタセットを、前記１つまたは複数のバッチのうち前記残りのバッチからのサンプルでポピュレートすること（４０６Ｂ）
のうちの少なくとも１つを含む、
方法。
前記第１のクラスタセットを再構成すること（４０６）が、
前記残りのバッチの各サンプルについて、前記残りのバッチの残りのサンプルとの、および前記第１のクラスタセットの各サンプルとの距離を計算することと、
前記残りのバッチの各サンプルについて、前記第１のクラスタセット内のサンプルとの最大距離値を決定することと、
前記残りのバッチの前記サンプルと前記第１のクラスタセットから１つまたは複数の近いサンプルを繰返し選択することと、前記１つまたは複数の近いサンプルを選択することが、最大距離値のうちの最小距離値に基づいており、
前記選択された１つまたは複数の近いサンプルに基づいて前記第１のクラスタセットを再構成すること
とを含む、
請求項１に記載の方法（４００）。
１つまたは複数の近いサンプルを選択することが、
前記最小距離値を第１の所定のしきい値と繰返し比較することと、
前記第１の所定のしきい値未満の関連する最小距離値を含む近いサンプルを選択すること
とを含む、
請求項２に記載の方法（４００）。
前記第１のクラスタセットが、第２の所定のしきい値に基づいて作成される、
請求項１に記載の方法（４００）。
データサンプルをクラスタ化するための距離ベースのクラスタリングシステム（２００）であって、
メモリ（２０４）と、
入力／出力（Ｉ／Ｏ）デバイス（２０６）と、
ネットワークインターフェース（２０８）と、
永続的なデータ記憶装置（２１０）と、
前記メモリ（２０４）、前記Ｉ／Ｏデバイス（２０６）、前記ネットワークインターフェース（２０８）、および前記永続的なデータ記憶装置（２１０）に結合されたコンピュータプロセッサ（２０２）と
を備え、前記コンピュータプロセッサ（２０２）が、
１つまたは複数のバッチを受信することと、前記１つまたは複数のバッチのそれぞれが複数のサンプルを含み、
前記複数のサンプルのそれぞれの距離を生成するための多次元行列を作成することと、
前記多次元行列の次元を、サンプルのペアリング情報に基づいて単一次元に簡単にすることと、前記サンプルのペアリング情報が、最小値のインデックスに基づいて前記多次元行列から抽出され、
前記バッチ内の前記サンプルのそれぞれの間の最低距離を決定することと、
新しいバッチ内の２つのサンプル間の前記最低距離に基づいて後続のクラスタを作成することと
を行なうように構成されている、
距離ベースのクラスタリングシステム。
前記クラスタセットの作成が、
残りのバッチの各サンプルについて、前記残りのバッチの残りのサンプルとの、および第１のクラスタセットの各サンプルとの距離を計算することと、
前記残りのバッチの各サンプルについて、前記第１のクラスタセット内のサンプルとの最大距離を決定することと、
１つまたは複数の近いサンプルを前記残りのバッチの前記サンプルと前記第１のクラスタセットから繰返し選択することと、前記１つまたは複数の近いサンプルを選択することが、最大距離値のうちの最小距離に基づいており、
前記選択された１つまたは複数の近いサンプルに基づいて前記クラスタセットを再構成すること
とを含む、
請求項５に記載の距離ベースのクラスタリングシステム。
前記多次元行列が、前記新しいバッチにおける各サンプルの、それ自体との、および前記クラスタにおける各サンプルとの距離を生成するための、三次元（３Ｄ）行列および二次元（２Ｄ）行列を含む、
請求項５に記載の距離ベースのクラスタリングシステム。
前記多次元行列が、各行からの最小距離を考慮することによって、および前記多次元行列に記憶された前記サンプルのペアリング情報を保持することによって、単一次元に簡単にされる、
請求項５に記載の距離ベースのクラスタリングシステム。
前記プロセッサ（２０２）が、新しいバッチ内の各サンプルのそれ自体との、およびクラスタ内の各サンプルとの距離を計算することによって、前記３Ｄ行列を作成するように構成されている、
請求項５に記載の距離ベースのクラスタリングシステム。
前記プロセッサ２０２が、各サンプルの、クラスタのそれぞれにおける他のサンプルすべてとの最長距離を決定し、前記三次元行列を二次元行列に簡単にするように構成されている、
請求項９に記載の距離ベースのクラスタリングシステム。