JP2022080302A

JP2022080302A - コンピュータ実装方法、コンピュータプログラム製品、およびコンピュータシステム（ニューラルネットワークを用いたデータパーティショニング）

Info

Publication number: JP2022080302A
Application number: JP2021186479A
Authority: JP
Inventors: ハン、エル、シ; Si Er Han; シュウ、ジン; Jing Xu; ジャン、イン、シュエ; xue ying Zhang; ヤン、フイ、ジ; ji hui Yang; バービー、ジョージ、スティーブン; George Barbee Steven
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-11-17
Filing date: 2021-11-16
Publication date: 2022-05-27
Also published as: US20220156572A1; CN114519376A

Abstract

【課題】ニューラルネットワークを用いたデータパーティショニングを行うための方法、システム及びコンピュータプログラム製品提供する。【解決手段】方法は、複数のデータレコードを含むオリジナルデータセットを取得する４１０。オリジナルデータセット内の各データレコードは、第１の数の特徴の値を有する。複数の代表特徴データレコードを含む代表特徴データセットを決定する４２０。各代表特徴データレコードは、第２の数の代表特徴の値を有する。第２の数の代表特徴は、第１の数の特徴の値を入力としてオートエンコーダニューラルネットワークを訓練することによって得られ、第２の数は第１の数より小さい。複数の代表特徴データレコードを、第２の数の代表特徴の値に基づき、２つ以上のクラスタにセグメント化する４３０。２つ以上のクラスタ内の代表特徴データレコードを分割し、所定の数の代表特徴データサブセットを形成する４４０、４５０。【選択図】図４

Description

本開示は、機械学習全般に関し、より具体的には、ニューラルネットワークを用いたデータパーティショニングを行うための方法、システム、およびコンピュータプログラム製品に関する。

機械学習とは、明示的にプログラムすることなくコンピュータを動作させる科学である。言い換えれば、機械学習とは、分析モデルの構築を自動化するデータ分析方法である。機械学習は、コンピュータシステムがデータから学習し、パターンを識別し、人間による介入を最小限にしながら意思決定を行うことができるという考えに基づいた、人工知能の一分野である。

機械学習の大半は、教師あり学習（supervised learning）を利用している。教師あり学習とは、入力と出力の組の例に基づいて、入力を出力にマッピングする関数を学習する作業である。教師あり学習では、訓練例のセットからなるラベル付き訓練データから関数を推論する。各例は、入力オブジェクト（一般的にはベクトル）と所望の出力値（例えば、教師信号（supervisory signal））からなるペアである。

教師あり学習アルゴリズムは、訓練データを分析して推論関数（inferred function）を生成する。この関数は、新たな例のマッピングに使用することができる。最適なシナリオにおいて、教師あり学習アルゴリズムは、未知のデータのクラスラベルを正しく決定することができる。このためには、教師あり学習アルゴリズムが、訓練データから未知のデータに「合理的な」方法で一般化できる必要がある（例えば、帰納バイアス）。

「教師あり学習」という言葉は、アルゴリズムが訓練データセットから学習するという考えに由来しており、訓練データセットを教師と考えることができる。アルゴリズムは訓練データセットに対して繰り返し予測を行い、教師によって修正される。学習は、アルゴリズムが許容レベルの性能を達成した時点で終了する。

本開示は、ニューラルネットワークを用いたデータパーティショニング技術を提供することを目的とする。

例示的な実施形態によれば、データセットを処理するためのコンピュータ実装方法が提供される。この方法によれば、複数のデータレコードを含むオリジナルデータセットが取得される。オリジナルデータセット内の各データレコードは、第１の数の特徴の値を有する。複数の代表特徴データレコードを含む代表特徴データセットが決定される。各代表特徴データレコードは、第２の数の代表特徴の値を有する。第２の数の代表特徴は、第１の数の特徴の値を入力としてオートエンコーダニューラルネットワークを訓練することによって得られ、第２の数は第１の数より小さい。複数の代表特徴データレコードは、第２の数の代表特徴の値に基づき、２つ以上のクラスタにセグメント化される。２つ以上のクラスタ内の代表特徴データレコードは分割され、所定の数の代表特徴データサブセットを形成する。他の実施形態によれば、システムおよびコンピュータプログラム製品が提供される。

コンピュータシステムおよびコンピュータプログラム製品を含む他の実施形態および態様を、本明細書で詳細に説明する。これらは、請求項に係る発明の一部と見なされる。

以下、本発明の上記および他の特徴および利点を、本発明の例示的な実施形態の詳細な説明によって説明する。また、これらの特徴および利点は、以下の詳細な説明に鑑みて当業者に明らかになろう。

図１は、本発明の実施形態による、クラウドコンピューティングノードを示す図である。図２は、本発明の実施形態による、クラウドコンピューティング環境を示す図である。図３は、本発明の実施形態による、抽象化モデルレイヤを示す図である。図４は、本発明の実施形態による、データパーティションのプロセスを示すフローチャートである。図５は、本発明の実施形態による、オートエンコーダニューラルネットワークの一例を示す図である。図６Ａは、本発明の実施形態による、オリジナルデータセットの一例を示す図である。図６Ｂは、本発明の実施形態による、代表特徴データセットの一例を示す図である。図６Ｃは、本発明の実施形態による、代表特徴データセットの一例を示す図である。図６Ｄは、本発明の実施形態による、データパーティション付き代表特徴データセットの一例を示す図である。図６Ｅは、本発明の実施形態による、データパーティション付きオリジナルデータセットの一例を示す図である。図７は、本発明の実施形態による、データパーティションの品質を評価するためのプロセスを示すフローチャートである。図８は、本発明の実施形態による、オートエンコーダニューラルネットワークを用いた影響重みの計算例を示す図である。

以下、本開示の実施形態を図示した添付図面を参照して、いくつかの実施形態についてより詳細に説明する。ただし、本開示は様々な態様で実施することができ、ここに開示する実施形態に限定されるものと解釈すべきではない。

本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載した教示の実装形態はクラウドコンピューティング環境に限定されない。むしろ、本発明の実施形態は、現在公知のまたは将来開発される他の任意の種類のコンピュータ環境と共に実施することができる。

クラウドコンピューティングは、設定可能なコンピューティングリソースの共有プール（例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、記憶装置、アプリケーション、仮想マシンおよびサービス）へ、簡便かつオンデマンドのネットワークアクセスを可能にするためのサービス提供のモデルであり、最小限の管理労力または最小限のサービスプロバイダとのやり取りによって速やかに準備（provision）およびリリースできるものである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル、および少なくとも４つの実装モデルを含むことがある。

特性は以下の通りである。

オンデマンド・セルフサービス：クラウドのコンシューマは、サービスプロバイダとの人的な対話を必要することなく、必要に応じて自動的に、サーバ時間やネットワークストレージなどのコンピューティング能力を一方的に準備することができる。

ブロード・ネットワークアクセス：コンピューティング能力はネットワーク経由で利用可能であり、また、標準的なメカニズムを介してアクセスできる。それにより、異種のシンまたはシッククライアントプラットフォーム（例えば、携帯電話、ラップトップ、ＰＤＡ）による利用が促進される。

リソースプーリング：プロバイダのコンピューティングリソースはプールされ、マルチテナントモデルを利用して複数のコンシューマに提供される。様々な物理リソースおよび仮想リソースが、需要に応じて動的に割り当ておよび再割り当てされる。一般にコンシューマは、提供されたリソースの正確な位置を管理または把握していないため、位置非依存（location independence）の感覚がある。ただしコンシューマは、より高い抽象レベル（例えば、国、州、データセンタ）では場所を特定可能な場合がある。

迅速な柔軟性（elasticity）：コンピューティング能力は、迅速かつ柔軟に準備することができるため、場合によっては自動的に、直ちにスケールアウトし、また、速やかにリリースされて直ちにスケールインすることができる。コンシューマにとって、準備に利用可能なコンピューティング能力は無制限に見える場合が多く、任意の時間に任意の数量で購入することができる。

測定されるサービス：クラウドシステムは、サービスの種類（例えば、ストレージ、処理、帯域幅、アクティブユーザアカウント）に適したある程度の抽象化レベルでの測定機能を活用して、リソースの使用を自動的に制御し最適化する。リソース使用量を監視、制御、および報告して、利用されるサービスのプロバイダおよびコンシューマの両方に透明性を提供することができる。

サービスモデルは以下の通りである。

サービスとしてのソフトウェア（ＳａａＳ）：コンシューマに提供される機能は、クラウドインフラストラクチャ上で動作するプロバイダのアプリケーションを利用できることである。当該そのアプリケーションは、ウェブブラウザ（例えばウェブメール）などのシンクライアントインタフェースを介して、各種のクライアント装置からアクセスできる。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、ストレージや、個別のアプリケーション機能さえも含めて、基礎となるクラウドインフラストラクチャの管理や制御は行わない。ただし、ユーザ固有の限られたアプリケーション構成の設定はその限りではない。

サービスとしてのプラットフォーム（ＰａａＳ）：コンシューマに提供される機能は、プロバイダによってサポートされるプログラム言語およびツールを用いて、コンシューマが作成または取得したアプリケーションを、クラウドインフラストラクチャに展開（deploy）することである。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、ストレージを含む、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、展開されたアプリケーションを制御でき、かつ場合によってはそのホスティング環境の構成も制御できる。

サービスとしてのインフラストラクチャ（ＩａａＳ）：コンシューマに提供される機能は、オペレーティングシステムやアプリケーションを含む任意のソフトウェアをコンシューマが展開および実行可能な、プロセッサ、ストレージ、ネットワーク、および他の基本的なコンピューティングリソースを準備することである。コンシューマは、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、オペレーティングシステム、ストレージ、および展開されたアプリケーションを制御でき、かつ場合によっては一部のネットワークコンポーネント（例えばホストファイアウォール）を部分的に制御できる。

展開モデルは以下の通りである。

プライベートクラウド：このクラウドインフラストラクチャは、特定の組織専用で運用される。このクラウドインフラストラクチャは、当該組織またはサードパーティーによって管理することができ、オンプレミスまたはオフプレミスで存在することができる。

コミュニティクラウド：このクラウドインフラストラクチャは、複数の組織によって共有され、共通の関心事（例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス）を持つ特定のコミュニティをサポートする。このクラウドインフラストラクチャは、当該組織または第三者によって管理することができ、オンプレミスまたはオフプレミスで存在することができる。

パブリッククラウド：このクラウドインフラストラクチャは、不特定多数の人々や大規模な業界団体に提供され、クラウドサービスを販売する組織によって所有される。

ハイブリッドクラウド：このクラウドインフラストラクチャは、２つ以上のクラウドモデル（プライベート、コミュニティまたはパブリック）を組み合わせたものとなる。それぞれのモデル固有の実体は保持するが、標準または個別の技術によってバインドされ、データとアプリケーションの可搬性（例えば、クラウド間の負荷分散のためのクラウドバースティング）を実現する。

クラウドコンピューティング環境は、ステートレス性（statelessness）、低結合性（low coupling）、モジュール性（modularity）および意味論的相互運用性（semantic interoperability）に重点を置いたサービス指向型環境である。クラウドコンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。

図１に、クラウドコンピューティングノードの一例を模式的に示す。なお、クラウドコンピューティングノード１０は好適なクラウドコンピューティングノードの一例に過ぎず、本明細書に記載する本発明の実施形態の使用や機能の範囲について何らの限定も示唆するものではない。いずれにせよ、クラウドコンピューティングノード１０は、実装されること、もしくは上述した機能のいずれかを行うこと、またはその両方が可能である。

クラウドコンピューティングノード１０には、コンピュータシステム／サーバ１２または通信装置などの携帯型装置が含まれる。これらは、他の数多くの汎用または専用のコンピューティングシステム環境または構成と共に動作可能である。コンピュータシステム／サーバ１２と共に使用するのに適した周知のコンピューティングシステム、環境もしくは構成またはその組み合わせの一例としては、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電製品、ネットワークＰＣ、ミニコンピュータシステム、メインフレームコンピュータシステム、および上記のシステムまたは装置のいずれかを含む分散型クラウドコンピューティング環境などが挙げられる。

コンピュータシステム／サーバ１２は、コンピュータシステムによって実行されるプログラムモジュールなどの、コンピュータシステム実行可能命令との一般的な関連において説明することができる。一般に、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム／サーバ１２は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実行される分散型クラウドコンピューティング環境で実施することができる。分散型クラウドコンピューティング環境において、プログラムモジュールは、メモリ記憶装置を含む、ローカルおよびリモート両方のコンピュータシステム記憶媒体に記憶することができる。

図１に示すように、クラウドコンピューティングノード１０におけるコンピュータシステム／サーバ１２を、汎用コンピュータ装置として示している。コンピュータシステム／サーバ１２のコンポーネントの一例としては、１つ以上のプロセッサまたは処理ユニット１６、システムメモリ２８、およびシステムメモリ２８を含む種々のシステムコンポーネントをプロセッサ１６に接続するバス１８が挙げられる。

バス１８は、種々のバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート（ＡＧＰ）、およびプロセッサまたはローカルバスを含む複数種類のバス構造のうち１つ以上の任意のものを表す。一例として、かかるアーキテクチャは、インダストリスタンダードアーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオエレクトロニクススタンダーズアソシエーション（ＶＥＳＡ）ローカルバス、およびペリフェラルコンポーネントインターコネクト（ＰＣＩ）バスを含む。

コンピュータシステム／サーバ１２は一般的に、種々のコンピュータシステム可読媒体を含む。かかる媒体は、コンピュータシステム／サーバ１２によってアクセス可能な任意の利用可能な媒体でよく、揮発性媒体および不揮発性媒体の両方と、取り外し可能媒体および取り外し不能媒体の両方とを含む。

システムメモリ２８は、ＲＡＭ３０もしくはキャッシュメモリ３２またはその両方など、揮発性メモリとしてのコンピュータシステム可読媒体を含むことができる。コンピュータシステム／サーバ１２はさらに、他の取り外し可能／取り外し不能コンピュータシステム可読媒体および揮発性／不揮発性コンピュータシステム可読媒体を含んでもよい。一例として、ストレージシステム３４は、取り外し不能な不揮発性磁気媒体（不図示。一般に「ハードドライブ」と呼ばれる）への読み書きのために設けることができる。また、図示は省略するが、取り外し可能な不揮発性磁気ディスク（例えば、フロッピーディスク）への読み書きのための磁気ディスクドライブ、および取り外し可能な不揮発性光学ディスク（ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭや他の光学媒体など）への読み書きのための光学ディスクドライブを設けることができる。これらの例において、それぞれを、１つ以上のデータ媒体インタフェースによってバス１８に接続することができる。以下でさらに図示および説明するように、メモリ２８は、本発明の実施形態の機能を実行するように構成されたプログラムモジュールのセット（例えば、少なくとも１つ）を有する少なくとも１つのプログラム製品を含むことができる。

一例として、プログラムモジュール４２のセット（少なくとも１つ）を有するプログラム／ユーティリティ４０は、オペレーティングシステム、１つ以上のアプリケーションプログラム、他のプログラムモジュール、およびプログラムデータと同様に、メモリ２８に記憶することができる。オペレーティングシステム、１つ以上のアプリケーションプログラム、他のプログラムモジュール、およびプログラムデータ、またはそれらのいくつかの組み合わせの各々は、ネットワーク環境の実装形態を含むことができる。プログラムモジュール４２は一般に、本発明の実施形態の機能もしくは方法またはその両方を実行する。

また、コンピュータシステム／サーバ１２は、キーボード、ポインティングデバイス、ディスプレイ２４などの１つ以上の外部装置１４、ユーザとコンピュータシステム／サーバ１２との対話を可能にする１つ以上の装置、もしくはコンピュータシステム／サーバ１２と１つ以上の他のコンピュータ装置との通信を可能にする任意の装置（例えば、ネットワークカードやモデムなど）またはこれらの組み合わせと通信することができる。かかる通信は、入力／出力（Ｉ／Ｏ）インタフェース２２を介して行うことができる。さらに、コンピュータシステム／サーバ１２は、ネットワークアダプタ２０を介して１つ以上のネットワーク（ローカルエリアネットワーク（ＬＡＮ）、汎用広域ネットワーク（ＷＡＮ）、もしくはパブリックネットワーク（例えばインターネット）またはこれらの組み合わせなど）と通信することができる。図示するように、ネットワークアダプタ２０は、バス１８を介してコンピュータシステム／サーバ１２の他のコンポーネントと通信する。なお、図示は省略するが、他のハードウェアコンポーネントもしくはソフトウェアコンポーネントまたはその両方を、コンピュータシステム／サーバ１２と併用することができる。それらの一例としては、マイクロコード、デバイスドライバ、冗長化処理ユニット、外付けディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ、データアーカイブストレージシステムなどがある。

図２に、例示的なクラウドコンピューティング環境５０を示す。図示するように、クラウドコンピューティング環境５０は１つ以上のクラウドコンピューティングノード１０を含む。これらに対して、クラウドコンシューマが使用するローカルコンピュータ装置（例えば、ＰＤＡもしくは携帯電話５４Ａ、デスクトップコンピュータ５４Ｂ、ラップトップコンピュータ５４Ｃ、もしくは自動車コンピュータシステム５４Ｎまたはこれらの組み合わせなど）は通信を行うことができる。ノード１０は互いに通信することができる。ノード１０は、例えば、上述のプライベート、コミュニティ、パブリックもしくはハイブリッドクラウドまたはこれらの組み合わせなど、１つ以上のネットワークにおいて、物理的または仮想的にグループ化（不図示）することができる。これにより、クラウドコンピューティング環境５０は、サービスとしてのインフラストラクチャ、プラットフォームもしくはソフトウェアまたはこれらの組み合わせを提供することができ、クラウドコンシューマはこれらについて、ローカルコンピュータ装置上にリソースを維持する必要がない。なお、図２に示すコンピュータ装置５４Ａ～Ｎの種類は例示に過ぎず、コンピューティングノード１０およびクラウドコンピューティング環境５０は、任意の種類のネットワークもしくはネットワークアドレス指定可能接続（例えば、ウェブブラウザの使用）またはその両方を介して、任意の種類の電子装置と通信可能であることを理解されたい。

次に、クラウドコンピューティング環境５０（図２）によって提供される機能的抽象化レイヤのセットを図３に示す。なお、図３に示すコンポーネント、レイヤおよび機能は例示に過ぎず、本発明の実施形態はこれらに限定されないことをあらかじめ理解されたい。図示するように、以下のレイヤおよび対応する機能が提供される。

ハードウェアおよびソフトウェアレイヤ６０は、ハードウェアコンポーネントおよびソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム６１、縮小命令セットコンピュータ（ＲＩＳＣ）アーキテクチャベースのサーバ６２、サーバ６３、ブレードサーバ６４、記憶装置６５、ならびにネットワークおよびネットワークコンポーネント６６が含まれる。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア６７およびデータベースソフトウェア６８を含む。

仮想化レイヤ７０は、抽象化レイヤを提供する。当該レイヤから、例えば、仮想サーバ７１、仮想ストレージ７２、仮想プライベートネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティングシステム７４、ならびに仮想クライアント７５などの仮想エンティティを提供することができる。

一例として、管理レイヤ８０は以下の機能を提供することができる。リソース準備８１は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を可能にする。計量および価格設定８２は、クラウドコンピューティング環境内でリソースが利用される際のコスト追跡、およびこれらのリソースの消費に対する請求またはインボイス送付を可能にする。一例として、これらのリソースはアプリケーションソフトウェアのライセンスを含むことができる。セキュリティは、データおよび他のリソースに対する保護のみならず、クラウドコンシューマおよびタスクの識別確認を可能にする。ユーザポータル８３は、コンシューマおよびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理８４は、要求されたサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当ておよび管理を可能にする。サービス品質保証（ＳＬＡ）の計画および履行８５は、ＳＬＡに従って将来必要になると予想されるクラウドコンピューティングリソースの事前手配および調達を可能にする。

ワークロードレイヤ９０は、クラウドコンピューティング環境の利用が可能な機能の例を提供する。このレイヤから提供可能なワークロードおよび機能の例には、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想教室教育の配信９３、データ分析処理９４、取引処理９５、ならびに、データパーティショニング９６が含まれる。以下、データパーティショニング９６について図４乃至図８を参照して詳細に説明する。

機械学習において、教師ありモデルは通常、入力（すなわち、予測子）データおよび出力（すなわち、ターゲット）データからなる履歴データセットまたはオリジナルデータセットによって適合される。その後、教師ありモデルに新たな入力データを適用し、出力を予測する。このプロセスにおいて、履歴データセットは、例えば、訓練データサブセット、検証データサブセット、テストデータサブセットなどのサブセットにランダムに分割（partition）されることが多い。訓練データサブセットは、教師あり機械学習モデルの構築に用いられる。検証データサブセットは、教師あり機械学習モデルのハイパーパラメータの微調整または、教師あり学習に最適な教師あり機械学習モデルの選択に用いられる。

最終的な教師あり機械学習モデルの構築後、当該教師あり機械学習モデルの性能は、テストデータサブセットによって評価される。テストデータサブセットは、教師あり機械学習モデルの構築時には用いられない。データ分析においてハイパーパラメータの微調整や教師あり構築モデルの選択が求められない場合は、検証データサブセットは不要であり、この場合、履歴データセットは訓練データサブセットとテストデータサブセットとに分割される。

現在、ほとんどの機械学習ソフトウェアは、訓練データサブセット、検証データサブセット、およびテストデータサブセットの特定の割合に基づいて、ランダムサンプリング法によってデータパーティショニング（data partitioning）を行っている。しかし、ランダムサンプリング法には欠点が存在する。例えば、ランダムサンプリング法は、履歴データセットと同様の変数分布（variable distribution）を提供することができない。

不均衡データ（imbalanced data）の場合、各データサブセットにおけるクラス分布が履歴データセット全体におけるクラス分布と同じであること（すなわち、分布の一貫性）を保証するために、層化サンプリング法（stratified sampling methods）を用いることができる。しかし、層化サンプリング法にも欠点は存在する。例えば、層化サンプリングは、カテゴリカル変数（categorical variables）が多数存在する場合には、カテゴリの可能な組み合わせをすべて発見し、それぞれの組み合わせでサンプリングを行う必要があるため、複雑で非効率的である。また、ゆがんだ分布（skewed distribution）を有する連続変数の場合、層化サンプリングでは、各データサブセットの分布が履歴データセット全体と同じであることを保証できない。その結果、現在のサンプリング手法では、ユーザが多くの時間をかけてモデルを精緻化したとしても、高品質な教師あり機械学習モデルを構築することは困難である。

本発明の実施形態によれば、例示的な実施形態において、履歴データセットの特定のデータパーティション（data partition）の各データサブセットの特徴／変数分布が、履歴データセットの特徴／変数分布と類似している（すなわち、可能な限り近い）ことを保証する（すなわち、変数分布の一貫性を提供する）データパーティショニングが実現される。例示的な実施形態はまた、データパーティションの妥当性の評価指標を提供する。これにより、データパーティションをそのまま用いて教師あり機械学習モデルを構築可能であるか、またはパーティションの品質を高めるためにさらなるデータ収集が必要であるかの推奨を得ることができる。

例示的な実施形態では、オリジナルデータセットを処理する際に、オートエンコーダニューラルネットワーク（autoencoder neural network）を用いて、データセットの特徴のサイズを縮小する。これにより、元の特徴の非線形の組み合わせ（non-linear combinations）をキャプチャすることができる。次に、クラスタリング技術を用いて、代表特徴（feature representative）のレコードをクラスタにセグメント化する。そして、クラスタラベル変数を層化変数（stratified variable）とした層化データサンプリングにより、代表特徴データレコードをデータサブセットにさらに分割する。データパーティションの品質を評価するために、分布類似度（distribution similarity）の指標を定義する。次に、代表特徴データセットのパーティションラベルをオリジナルデータセットにマージして、最終的なデータパーティションを得る。

例示的な実施形態は、カテゴリカル変数および連続変数を処理することができる。さらに、例示的な実施形態は、データパーティションの品質指標を提供する。これにより、特定のデータパーティションが、履歴データセットに対応する教師あり機械学習モデルの構築にそのまま使用できるかどうか、あるいは、データパーティションの品質を高めるためにより多くのデータの収集が必要であるかどうかを、ユーザが判断しやすくなる。例示的な実施形態は、データパーティションの性能を向上させることができ、これにより、教師あり機械学習モデルが未知のデータをより効果的に予測することができる。

したがって、例示的な実施形態は、特定のデータセットに対応する効果的な教師あり機械学習モデルを構築する際の技術的な問題を克服する１つ以上の技術ソリューションを提供する。これらの１つ以上の技術ソリューションによって、教師あり機械学習モデル構築の分野において、技術的効果および実用性が得られる。

図４は、例示的な実施形態による、データパーティションのプロセスを示すフローチャートである。図４に示すプロセスは、例えば、図１のコンピュータシステム／サーバ１２のようなコンピュータで実施することができる。

ステップ４１０にて、コンピュータは、オリジナルデータセットを取得する。オリジナルデータセットは、複数のデータレコードを含むことができ、データセット内の各データレコードは、第１の数の特徴（例えば、ｎ個の特徴（ｎは整数））の値を有することができる。ここでは変数とも呼ばれるこの特徴は、オリジナルデータセットにおいてそれぞれ異なる変数とすることができ、データレコードとしてそれぞれ異なる値を有することができる。オリジナルデータセットは、例えば企業、事業体、組織、団体、施設、機関などの特定のエンティティに対応する元の情報体（body of information）を表すことができる。各オリジナルデータセットは、例えば保険ドメイン、銀行ドメイン、ヘルスケアドメイン、金融ドメイン、エンターテイメントドメイン、ビジネスドメインなど、特定のドメインに関連することができる。例えば、オリジナルデータセットは、保険ドメインに関連することができ、オリジナルデータセット内のデータレコードは、個人に対応するデータレコードとすることができる。データセット内の特徴は、年齢、性別、身長、体重など、個人の基本情報を含むことができる。データセット内の特徴はさらに、保険の種類、保険料、補償内容などの保険関連情報を含んでいてもよい。異なる個人（データレコード）について、特徴はそれぞれ異なる値を持つことになる。別の例として、オリジナルデータセットは銀行ドメインに関連することができ、オリジナルデータセット内のデータレコードは、企業に対応するデータレコードとすることができる。データセット内の特徴は、企業規模、事業の種類、企業への融資額、信用格付けなど、複数の情報を含むことができる。異なる企業（データレコード）について、特徴はそれぞれ異なる値を持つことになる。

図６Ａは、本発明の例示的な実施形態による、オリジナルデータセットの一例を示す図である。オリジナルデータセット６０２は、レコードＩＤ６０４および特徴６０６を含む。特徴６０６は、オリジナルデータセット６０２を所有するエンティティに対応する任意の変数を表すことができる。なお、表の各列が、それぞれ１つの特徴（Ｘ１、Ｘ２、Ｘ３、．．．Ｘｎなど）に対応する。さらに、特徴６０６は、カテゴリカル変数または連続変数とすることができる。レコードＩＤ６０４は、オリジナルデータセット６０２内の各データレコードを表すことができる。データレコードは、特徴の値を有する。例えば、ＩＤ「１」のレコードは、Ｘ１について値「０．３」、Ｘ２について値「０．７」、．．．Ｘｎについて値「０．２」を有し、ＩＤ「２」のレコードは、Ｘ１について値「０．５」、Ｘ２について値「０．２」、．．．Ｘｎについて値「０．６」を有する。

ステップ４２０にて、コンピュータは、オリジナルデータセットから代表特徴データセットを決定する。代表特徴データセットは、オリジナルデータセットと同数の代表特徴データレコードを含み、各代表特徴データレコードは、第２の数の代表特徴（例えば、ｍ個の代表特徴（ｍは整数））の値を有する。本発明の一実施形態によれば、代表特徴は、第１の数（ｎ）の特徴の値を入力としてオートエンコーダニューラルネットワークを訓練することによって得ることができる。本発明の一実施形態によれば、第２の数ｍは第１の数ｎよりも小さい。

本発明の実施形態によれば、オートエンコーダニューラルネットワークを用いて、データセットの特徴の次元を、より少ない数の代表に削減にする。オートエンコーダは、教師なしの方法で効率的なデータコーディングを学習するために用いられる人工ニューラルネットワークの一種である。オートエンコーダの目的は、信号「ノイズ」を無視するようにネットワークを訓練することにより、データセットの表現（エンコーディング）を（通常は次元削減（dimensionality reduction）のために）学習することである。オートエンコーダは、入力から出力へのコピーを学習する。オートエンコーダは、入力を表すための表現を記述する内部（隠れ）層を有し、入力を表現にマッピングするエンコーダと、表現を元の入力の再構成にマッピングするデコーダとからなる２つの主要部分で構成されている。出力層は、入力層と同数のノードを有し、その入力を再構成する（入力と出力の差を最小にする）ことを目的としている。

図６Ｂは、本発明の例示的な実施形態による、代表特徴データセットの一例を示す図である。代表特徴データセット６０３は、レコードＩＤ６０５および代表特徴６０８を含む。レコードＩＤ６０５は、オリジナルデータセットのレコードＩＤ６０４に対応する。代表特徴６０８は、オートエンコーダニューラルネットワークを用いて、オリジナルデータセット６０２の特徴６０６から得ることができる。表の各列が、それぞれ１つの代表特徴（Ｆ１、Ｆ２、Ｆ３、．．．Ｆｍなど）に対応する。ここで、ｍはｎよりも小さい整数である。レコードＩＤ６０５は、代表特徴データセット６０３内の各データレコードを表すことができる。データレコードは代表特徴の値を有する。例えば、ＩＤ「１」のレコードは、Ｆ１について値「０．２３」、Ｆ２について値「０．５１」、．．．Ｆｍについて値「０．３６」を有し、ＩＤ「２」のレコードは、Ｆ１について値「０．３１」、Ｆ２について値「０．５２」、．．．Ｆｍについて値「０．４３」を有する。

図４に戻り、ステップ４３０にて、コンピュータは、第２の数の代表特徴の値に基づいて、代表特徴データセットのデータレコードを２つ以上のクラスタにセグメント化する。本発明の一実施形態によれば、このセグメント化は、Ｋ平均法などのクラスタリング技術を用いて行うことができる。クラスタラベルの変数が作成され、各データレコードはクラスタラベルを有することになる。

図６Ｃは、本発明の例示的な実施形態による、代表特徴データセットの一例を示す図である。代表特徴データセット６０３は、レコードＩＤ６０５、代表特徴６０８およびクラスタラベル６０９を含む。代表特徴６０８およびレコードＩＤ６０５は、図６Ｂに示したものと同じである。クラスタラベル６０９は、ステップ４３０で得られた各データレコードのクラスタリング結果を表すことができる。図６Ｃの例では、データレコードは、クラスタ－１とクラスタ－２の２つのクラスタにセグメント化される。

ステップ４４０にて、コンピュータは、２つ以上のクラスタ内の代表特徴データレコードを分割して、特定の数の代表特徴データサブセット、すなわち、代表特徴データセットのデータパーティションを形成する。本発明の一実施形態によれば、代表特徴データレコードは、クラスタラベル変数を層化変数とする層化データサンプリングによって、データサブセットに分割することができる。

層化サンプリングは、総母集団をより小さなグループまたは層に分割してサンプリングプロセスを完了する、サンプリング方法の一種である。層は、母集団のパーティションを定義するものである。層は、母集団のデータに含まれる何らかの共通特徴に基づいて形成される。グループの大きさがそれぞれ異なる場合、各グループから選択される項目の数は、そのグループに含まれる項目数に比例する場合がある。

図６Ｄは、本発明の例示的な実施形態による、代表特徴データセットのデータパーティションの一例を示す図である。レコードＩＤ６０５、代表特徴６０８およびクラスタラベル６０９に加えて、代表特徴データセット６０３は、パーティションラベル６１０をさらに含む。パーティションラベル６１０は、ステップ４４０で得られた各データレコードのパーティショニング結果を表すことができる。図６Ｄの例では、パーティションラベルは、「訓練」と「テスト」を含み、対応するデータレコードが訓練データサブセットまたはテストデータサブセットのいずれに属するかを示す。

ステップ４４０にて代表特徴データセットを特定の数の代表特徴データサブセットに分割した後、コンピュータはステップ４５０にて、代表特徴データセットのデータパーティションに基づいて、オリジナルデータセットのデータパーティションを取得する。本発明の一実施形態によれば、ステップ４４０にて代表特徴データセット内の各レコードについてパーティション変数を取得し、このパーティション変数をオリジナルデータセットにマージして、オリジナルデータセットのパーティションを特定することができる。

図６Ｅは、例示的な実施形態による、オリジナルデータセットのデータパーティションの一例を示す図である。オリジナルデータセット６０２は、レコードＩＤ６０４、特徴６０６、およびパーティションラベル６１０を含む。

この例では、オリジナルデータセットのデータパーティションは、訓練データサブセットおよびテストデータサブセットを含む。ただし、このデータパーティションは例示に過ぎず、異なる例示的な実施形態を限定するものではない。言い換えれば、データパーティションは、図示よりも多いまたは少ないデータサブセットを含んでいてもよい。データサブセットは、例えば、訓練データサブセット、検証データサブセット、およびテストデータサブセットの３つのデータサブセットを含んでいてもよい。さらに、訓練データサブセットは、オリジナルデータセットのうちの特定の可変割合を含み、テストデータサブセットは、オリジナルデータセットうちの別の特定の可変割合を含む。例えば、３つのデータサブセットの場合、各データサブセットは、データセットのうちの特定の割合を含む。例えば、データセットの６０％が訓練データサブセットに含まれ、データセットの２０％が検証データサブセットに含まれ、データセットの２０％がテストデータサブセットに含まれる。

例示的な実施形態は、図４に示すプロセスにより、オリジナルデータセットの特定のデータパーティションの各データサブセットの特徴分布が、オリジナルデータセットの特徴分布と類似している（すなわち、可能な限り近い）ことを保証する（すなわち、変数分布の一貫性を提供する）データパーティショニングを実現する。さらに、例示的な実施形態は、オートエンコーダニューラルネットワークを用いてデータセットの特徴のサイズを縮小し、パーティションの品質を向上させる。

図７は、例示的な実施形態による、データパーティションの品質を評価するためのプロセスを示すフローチャートである。図７に示すプロセスは、例えば、図１のコンピュータシステム／サーバ１２のようなコンピュータで実施することができる。なお、ステップ７１０、７２０、７３０、７４０は、図４を参照して上述したステップ４１０、４２０、４３０、４４０と同様であり、これらのステップの詳細な説明は省略する。

ステップ７２０にて、オートエンコーダニューラルネットワークを用いて、オリジナルデータセットから代表特徴データセットを決定した後、コンピュータは、オートエンコーダーニューラルネットワークおよびステップ７２０で決定した代表特徴に基づいて、代表特徴の影響重み（influential weights）を計算してもよい。

本発明の一実施形態によれば、各代表特徴Ｆｉについて、その影響重みを以下のように計算することができる。まず、他の代表特徴の値を固定したまま、代表特徴Ｆｉの値をランダムに変更する。その後、元データ値の予測の精度が判定される。その精度に基づいて、各代表特徴の影響重み（ｗ_１、．．．、ｗ_ｍとして示す）が得られる。

ステップ７７０にて、ステップ７６０で計算された影響重みを用いて、ステップ７４０で得られた代表特徴データセットのデータパーティションに対してデータパーティション品質評価を行い、特徴分布の類似度を評価することができる。

各代表特徴Ｆ_ｉについて、２標本コルモゴロフ・スミルノフ（ＫＳ）検定などの統計的検定を行い、各サブセットにおけるＦ_ｉの分布がオリジナルデータセットにおけるＦ_ｉの分布と類似しているか否かをテストする。すべてのサブセットからのテスト有意値（test significant values）の平均が、代表特徴Ｆ_ｉの分布類似度の指標として用いられる。なお、各代表特徴Ｆ_ｉについての分布類似度の指標をs_ｉと表記する。データパーティションの品質は、s_ｉを重みｗ_ｉで加重平均したもの、すなわち次の通りである。

ここで、qはデータパーティションの品質であり、s_ｉは代表特徴Ｆ_ｉの分布類似度であり、ｗ_ｉは代表特徴Ｆ_ｉの影響重みである。

特徴分布の類似度測定では、例えば２標本コルモゴロフ・スミルノフ検定などの統計的検定を利用して、各データサブセットからの代表特徴の分布が代表特徴データセットにおける分布と類似しているか否かをテストすることができる。２標本コルモゴロフ・スミルノフ検定は、２つの標本を比較するための一般的なノンパラメトリック検定（nonparametric test）である。２標本コルモゴロフ・スミルノフ検定は、２つの標本の経験的累積分布関数（empirical cumulative distribution functions）の位置と形状の両方の違いに敏感である。２標本コルモゴロフ・スミルノフ検定を用いて、２つの標本が同じ分布に由来するか否かをテストすることができる。例示的な実施形態では、統計的検定の有意なｐ値に基づいて、データセットとパーティションの各データサブセットとの間の分布類似度の指標を計算する。なお、ｐ値とは、ある変量（variate）が厳密に偶然に観測値（observed value）以上の値をとる確率のことである。

ステップ７４０で代表特徴データセットを特定の数の代表特徴データサブセットに分割した後、コンピュータはステップ７５０にて、代表特徴データセットのパーティションに基づいてオリジナルデータセットのデータパーティションを得る。本発明の一実施形態によれば、ステップ７４０で代表特徴データセット内の各レコードについてパーティション変数を求め、そのパーティション変数をオリジナルデータセットにマージして、オリジナルデータセットのパーティションを特定することができる。そして、ステップ７７０で得られたデータパーティションの評価結果を、ステップ７５０で得られたオリジナルデータセットのパーティションと共に提供してもよい。

このように、本発明の例示的な実施形態は、各パーティションデータサブセットの特徴分布がオリジナルデータセットに類似するデータパーティションを実行するためのコンピュータ実装方法、コンピュータシステム、およびコンピュータプログラム製品を提供する。なお、本発明の種々の実施形態を例示として説明してきたが、網羅的であることや、これらの実施形態に限定することを意図したものではない。当業者には明らかなように、記載した各実施形態の範囲および要旨から逸脱することなく、多くの変更および変形が可能である。本明細書で用いられる用語は、各実施形態の原理、実際の用途、または市場で確認される技術に対する技術的な改善を最もよく説明するために、または、当業者が本明細書に開示する各実施形態を理解できるように選択されたものである。

本発明は、任意の可能な技術詳細レベルで統合されたシステム、方法もしくはコンピュータプログラム製品またはそれらの組み合せとすることができる。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を記憶したコンピュータ可読記憶媒体を含んでよい。

コンピュータ可読記憶媒体は、命令実行装置によって使用される命令を保持し、記憶することができる有形の装置とすることができる。コンピュータ可読記憶媒体は、一例として、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置またはこれらの適切な組み合わせであってよい。コンピュータ可読記憶媒体のより具体的な一例としては、ポータブルコンピュータディスケット、ハードディスク、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ（またはフラッシュメモリ）、ＳＲＡＭ、ＣＤ－ＲＯＭ、ＤＶＤ、メモリスティック、フロッピーディスク、パンチカードまたは溝内の隆起構造などに命令を記録した機械的に符号化された装置、およびこれらの適切な組み合せが挙げられる。本明細書で使用されるコンピュータ可読記憶装置は、電波もしくは他の自由に伝播する電磁波、導波管もしくは他の伝送媒体を介して伝播する電磁波（例えば、光ファイバケーブルを通過する光パルス）、またはワイヤを介して送信される電気信号のような、一過性の信号それ自体として解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピュータ装置／処理装置へダウンロードすることができる。あるいは、ネットワーク（例えばインターネット、ＬＡＮ、ＷＡＮもしくはワイヤレスネットワークまたはこれらの組み合わせ）を介して、外部コンピュータまたは外部記憶装置へダウンロード可能である。ネットワークは、銅製伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータもしくはエッジサーバまたはこれらの組み合わせを備えることができる。各コンピュータ装置／処理装置内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、各々のコンピュータ装置／処理装置におけるコンピュータ可読記憶媒体に記憶するために転送する。

本発明の動作を実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用構成データ、または、スモールトークやＣ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語や類似のプログラミング言語などの手続き型プログラミング言語を含む、１つ以上のプログラミング言語の任意の組み合わせで記述されたソースコードもしくはオブジェクトコードのいずれかとすることができる。コンピュータ可読プログラム命令は、スタンドアロン型ソフトウェアパッケージとして完全にユーザのコンピュータ上で、または部分的にユーザのコンピュータ上で実行可能である。あるいは、部分的にユーザのコンピュータ上でかつ部分的にリモートコンピュータ上で、または、完全にリモートコンピュータもしくはサーバ上で実行可能である。後者の場合、リモートコンピュータは、ＬＡＮやＷＡＮを含む任意の種類のネットワークを介してユーザのコンピュータに接続してもよいし、外部コンピュータに（例えば、インターネットサービスプロバイダを使用してインターネットを介して）接続してもよい。いくつかの実施形態において、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブル論理アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行する目的で当該電子回路をカスタマイズするために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行することができる。

本発明の各態様は、本明細書において、本発明の実施形態に係る方法、装置（システム）、およびコンピュータプログラム製品のフローチャートもしくはブロック図またはその両方を参照して説明されている。フローチャートもしくはブロック図またはその両方における各ブロック、および、フローチャートもしくはブロック図またはその両方における複数のブロックの組み合わせは、コンピュータ可読プログラム命令によって実行することができる。

上記のコンピュータ可読プログラム命令は、機械を生産するために、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供してよい。これにより、かかるコンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行されるこれらの命令が、フローチャートもしくはブロック図またはその両方における１つ以上のブロックにて特定される機能／動作を実行するための手段を形成する。上記のコンピュータ可読プログラム命令はさらに、コンピュータ、プログラマブルデータ処理装置もしくは他の装置またはこれらの組み合わせに対して特定の態様で機能するよう命令可能なコンピュータ可読記憶媒体に記憶してよい。これにより、命令が記憶された当該コンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方における１つ以上のブロックにて特定される機能／動作の態様を実行する命令を含む製品を構成する。

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブル装置、または他の装置にロードし、一連の動作ステップを当該コンピュータ、他のプログラマブル装置、または他の装置上で実行することにより、コンピュータ実行プロセスを生成してもよい。これにより、当該コンピュータ、他のプログラマブル装置、または他の装置上で実行される命令が、フローチャートもしくはブロック図またはその両方における１つ以上のブロックにて特定される機能／動作を実行する。

図面におけるフローチャートおよびブロック図は、本発明の種々の実施形態に係るシステム、方法およびコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を示している。この点に関して、フローチャートまたはブロック図における各ブロックは、特定の論理機能を実行するための１つ以上の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表すことができる。他の一部の実装形態において、ブロック内に示した機能は、各図に示す順序とは異なる順序で実行してもよい。例えば、連続して示される２つのブロックは、実際には、関係する機能に応じて、１つの工程として達成してもよいし、同時もしくは略同時に実行してもよいし、部分的もしくは全体的に時間的に重複した態様で実行してもよいし、または場合により逆順で実行してもよい。なお、ブロック図もしくはフローチャートまたはその両方における各ブロック、および、ブロック図もしくはフローチャートまたはその両方における複数のブロックの組み合わせは、特定の機能または動作を行う専用ハードウェアベースのシステムによって、または専用ハードウェアとコンピュータ命令との組み合わせによって実行することができる。

本発明の種々の実施形態を例示として説明してきたが、網羅的であることや、これらの実施形態に限定することを意図したものではない。当業者には明らかなように、記載した各実施形態の範囲および要旨から逸脱することなく、多くの変更および変形が可能である。本明細書で用いられる用語は、各実施形態の原理、実際の用途、または市場で確認される技術に対する技術的な改善を最もよく説明するために、または、当業者が本明細書に開示する各実施形態を理解できるように選択されたものである。

Claims

コンピュータ実装方法であって、
１つ以上の処理ユニットによって、複数のデータレコードを含むオリジナルデータセットを取得することであって、当該オリジナルデータセット内の各データレコードは第１の数の特徴の値を有することと、
１つ以上の処理ユニットによって、複数の代表特徴データレコードを含む代表特徴データセットを決定することであって、各代表特徴データレコードは第２の数の代表特徴の値を有し、当該第２の数の代表特徴は、前記第１の数の特徴の値を入力としてオートエンコーダニューラルネットワークを訓練することによって得られ、当該第２の数は当該第１の数より小さいことと、
１つ以上の処理ユニットによって、前記第２の数の代表特徴の値に基づき、前記複数の代表特徴データレコードを２つ以上のクラスタにセグメント化することと、
１つ以上の処理ユニットによって、前記２つ以上のクラスタ内の前記代表特徴データレコードを分割して、所定の数の代表特徴データサブセットを形成することと、
を含む、コンピュータ実装方法。
１つ以上の処理ユニットによって、前記所定の数の代表特徴データサブセットに従って、前記オリジナルデータセットのデータサブセットを得ることをさらに含む、
請求項１に記載のコンピュータ実装方法。
１つ以上の処理ユニットによって、前記第２の数の代表特徴のうち一の代表特徴について、当該代表特徴の影響重みを計算することをさらに含む、
請求項１に記載のコンピュータ実装方法。
前記代表特徴の前記影響重みは、
前記複数の代表特徴データレコードのうちの１つにおいて、前記代表特徴の値を変化させながら他の代表特徴の値は固定し、
前記オートエンコーダニューラルネットワークの予測の精度を判定し、
前記精度に基づいて、前記代表特徴の前記影響重みを得る、ことによって計算される、
請求項３に記載のコンピュータ実装方法。
１つ以上の処理ユニットによって、前記影響重みおよび前記代表特徴データサブセットに基づいて、データパーティションの品質を評価することをさらに含む、
請求項３に記載のコンピュータ実装方法。
１つ以上の処理ユニットによって、前記影響重みおよび前記代表特徴データサブセットに基づいてデータパーティションの品質を評価することはさらに、
各代表特徴Ｆ_ｉについて、それぞれの前記代表特徴データサブセットと前記代表特徴データセットとの間の当該代表特徴Ｆ_ｉの分布類似度s_ｉを測定することと、
前記分布類似度s_ｉおよび前記代表特徴Ｆ_ｉの前記影響重みｗ_ｉに基づいて、前記データパーティションの前記品質を得ることと、を含む、
請求項５に記載のコンピュータ実装方法。
前記データパーティションの前記品質は、以下の式によって得られ、

qは前記データパーティションの前記品質であり、s_ｉは前記代表特徴Ｆ_ｉの前記分布類似度であり、ｗ_ｉは前記代表特徴Ｆ_ｉの前記影響重みである、
請求項６に記載のコンピュータ実装方法。
１つ以上の処理ユニットによって、前記２つ以上のクラスタ内の前記代表特徴データレコードを分割して、前記所定の数の代表特徴データサブセットを形成することは、
１つ以上の処理ユニットによって、前記２つ以上のクラスタの各クラスタ内の前記代表特徴データレコードをランダムにサンプリングして、前記所定の数の代表特徴データサブセットを形成することを含む、
請求項１に記載のコンピュータ実装方法。
前記データサブセットおよび前記オリジナルデータセットからの前記特徴は、カテゴリカル変数および連続変数の１つである、
請求項２に記載のコンピュータ実装方法。
前記オリジナルデータセットは、保険ドメイン、銀行ドメイン、ヘルスケアドメイン、金融ドメイン、エンターテイメントドメイン、およびビジネスドメインのうちの１つに関連する、
請求項１に記載のコンピュータ実装方法。
１つ以上のコンピュータ可読記憶媒体と、当該１つ以上のコンピュータ可読記憶媒体に記憶されたプログラム命令とを含むコンピュータプログラム製品であって、当該プログラム命令は、
複数のデータレコードを含むオリジナルデータセットを取得するプログラム命令であって、当該オリジナルデータセット内の各データレコードは第１の数の特徴の値を有する、プログラム命令と、
複数の代表特徴データレコードを含む代表特徴データセットを決定するプログラム命令であって、各代表特徴データレコードは第２の数の代表特徴の値を有し、当該第２の数の代表特徴は、前記第１の数の特徴の値を入力としてオートエンコーダニューラルネットワークを訓練することによって得られ、当該第２の数は当該第１の数より小さい、プログラム命令と、
前記第２の数の代表特徴の値に基づき、前記複数の代表特徴データレコードを２つ以上のクラスタにセグメント化するプログラム命令と、
前記２つ以上のクラスタ内の前記代表特徴データレコードを分割して、所定の数の代表特徴データサブセットを形成するプログラム命令と、
を含む、コンピュータプログラム製品。
前記１つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
前記所定の数の代表特徴データサブセットに従って、前記オリジナルデータセットから第３の数のデータサブセットを得るプログラム命令をさらに含む、
請求項１１に記載のコンピュータプログラム製品。
前記１つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
前記第２の数の代表特徴のうち一の代表特徴について、当該代表特徴の影響重みを計算するプログラム命令をさらに含む、
請求項１１に記載のコンピュータプログラム製品。
前記代表特徴の前記影響重みは、
代表特徴データレコードにおいて、前記代表特徴の値を変化させながら他の代表特徴の値は固定するプログラム命令と、
前記オートエンコーダニューラルネットワークの予測の精度を判定するプログラム命令と、
前記精度に基づいて、前記代表特徴の前記影響重みを得るプログラム命令と、によって計算される、
請求項１３に記載のコンピュータプログラム製品。
１つ以上のコンピュータプロセッサと、
１つ以上のコンピュータ可読記憶媒体と、
前記１つ以上のコンピュータ可読記憶媒体に記憶され前記１つ以上のコンピュータプロセッサの少なくとも１つによって実行されるプログラム命令と、を含むコンピュータシステムであって、当該プログラム命令は、
複数のデータレコードを含むオリジナルデータセットを取得するプログラム命令であって、当該オリジナルデータセット内の各データレコードは第１の数の特徴の値を有する、プログラム命令と、
複数の代表特徴データレコードを含む代表特徴データセットを決定するプログラム命令であって、各代表特徴データレコードは第２の数の代表特徴の値を有し、当該第２の数の代表特徴は、前記第１の数の特徴の値を入力としてオートエンコーダニューラルネットワークを訓練することによって得られ、当該第２の数は当該第１の数より小さい、プログラム命令と、
前記第２の数の代表特徴の値に基づき、前記複数の代表特徴データレコードを２つ以上のクラスタにセグメント化するプログラム命令と、
前記２つ以上のクラスタ内の前記代表特徴データレコードを分割して、所定の数の代表特徴データサブセットを形成するプログラム命令と、
を含む、コンピュータシステム。
前記１つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
前記所定の数の代表特徴データサブセットに従って、前記オリジナルデータセットから第３の数のデータサブセットを得るプログラム命令をさらに含む、
請求項１５に記載のコンピュータシステム。
前記１つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
前記第２の数の代表特徴のうち一の代表特徴について、当該代表特徴の影響重みを計算するプログラム命令をさらに含む、
請求項１５に記載のコンピュータシステム。
前記代表特徴の前記影響重みは、
前記複数の代表特徴データレコードのうちの１つにおいて、前記代表特徴の値を変化させながら他の代表特徴の値は固定するプログラム命令と、
前記オートエンコーダニューラルネットワークの予測の精度を判定するプログラム命令と、
前記精度に基づいて、前記代表特徴の前記影響重みを得るプログラム命令と、によって計算される、
請求項１７に記載のコンピュータシステム。
前記１つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
前記影響重みおよび前記代表特徴データサブセットに基づいて、データパーティションの品質を評価するプログラム命令をさらに含む、
請求項１７に記載のコンピュータシステム。
前記影響重みおよび前記代表特徴データサブセットに基づいてデータパーティションの品質を評価することはさらに、
各代表特徴Ｆ_ｉについて、それぞれの前記代表特徴データサブセットと前記代表特徴データセットとの間の当該代表特徴Ｆ_ｉの分布類似度s_ｉを測定するプログラム命令と、
前記分布類似度s_ｉおよび前記代表特徴Ｆ_ｉの前記影響重みｗ_ｉに基づいて、前記データパーティションの前記品質を得るプログラム命令と、を含む、
請求項１９に記載のコンピュータシステム。