JP2022080302A - コンピュータ実装方法、コンピュータプログラム製品、およびコンピュータシステム(ニューラルネットワークを用いたデータパーティショニング) - Google Patents

コンピュータ実装方法、コンピュータプログラム製品、およびコンピュータシステム(ニューラルネットワークを用いたデータパーティショニング) Download PDF

Info

Publication number
JP2022080302A
JP2022080302A JP2021186479A JP2021186479A JP2022080302A JP 2022080302 A JP2022080302 A JP 2022080302A JP 2021186479 A JP2021186479 A JP 2021186479A JP 2021186479 A JP2021186479 A JP 2021186479A JP 2022080302 A JP2022080302 A JP 2022080302A
Authority
JP
Japan
Prior art keywords
representative feature
computer
representative
data
feature data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021186479A
Other languages
English (en)
Inventor
ハン、エル、シ
Si Er Han
シュウ、ジン
Jing Xu
ジャン、イン、シュエ
xue ying Zhang
ヤン、フイ、ジ
ji hui Yang
バービー、ジョージ、スティーブン
George Barbee Steven
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022080302A publication Critical patent/JP2022080302A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ニューラルネットワークを用いたデータパーティショニングを行うための方法、システム及びコンピュータプログラム製品提供する。【解決手段】方法は、複数のデータレコードを含むオリジナルデータセットを取得する410。オリジナルデータセット内の各データレコードは、第1の数の特徴の値を有する。複数の代表特徴データレコードを含む代表特徴データセットを決定する420。各代表特徴データレコードは、第2の数の代表特徴の値を有する。第2の数の代表特徴は、第1の数の特徴の値を入力としてオートエンコーダニューラルネットワークを訓練することによって得られ、第2の数は第1の数より小さい。複数の代表特徴データレコードを、第2の数の代表特徴の値に基づき、2つ以上のクラスタにセグメント化する430。2つ以上のクラスタ内の代表特徴データレコードを分割し、所定の数の代表特徴データサブセットを形成する440、450。【選択図】図4

Description

本開示は、機械学習全般に関し、より具体的には、ニューラルネットワークを用いたデータパーティショニングを行うための方法、システム、およびコンピュータプログラム製品に関する。
機械学習とは、明示的にプログラムすることなくコンピュータを動作させる科学である。言い換えれば、機械学習とは、分析モデルの構築を自動化するデータ分析方法である。機械学習は、コンピュータシステムがデータから学習し、パターンを識別し、人間による介入を最小限にしながら意思決定を行うことができるという考えに基づいた、人工知能の一分野である。
機械学習の大半は、教師あり学習(supervised learning)を利用している。教師あり学習とは、入力と出力の組の例に基づいて、入力を出力にマッピングする関数を学習する作業である。教師あり学習では、訓練例のセットからなるラベル付き訓練データから関数を推論する。各例は、入力オブジェクト(一般的にはベクトル)と所望の出力値(例えば、教師信号(supervisory signal))からなるペアである。
教師あり学習アルゴリズムは、訓練データを分析して推論関数(inferred function)を生成する。この関数は、新たな例のマッピングに使用することができる。最適なシナリオにおいて、教師あり学習アルゴリズムは、未知のデータのクラスラベルを正しく決定することができる。このためには、教師あり学習アルゴリズムが、訓練データから未知のデータに「合理的な」方法で一般化できる必要がある(例えば、帰納バイアス)。
「教師あり学習」という言葉は、アルゴリズムが訓練データセットから学習するという考えに由来しており、訓練データセットを教師と考えることができる。アルゴリズムは訓練データセットに対して繰り返し予測を行い、教師によって修正される。学習は、アルゴリズムが許容レベルの性能を達成した時点で終了する。
本開示は、ニューラルネットワークを用いたデータパーティショニング技術を提供することを目的とする。
例示的な実施形態によれば、データセットを処理するためのコンピュータ実装方法が提供される。この方法によれば、複数のデータレコードを含むオリジナルデータセットが取得される。オリジナルデータセット内の各データレコードは、第1の数の特徴の値を有する。複数の代表特徴データレコードを含む代表特徴データセットが決定される。各代表特徴データレコードは、第2の数の代表特徴の値を有する。第2の数の代表特徴は、第1の数の特徴の値を入力としてオートエンコーダニューラルネットワークを訓練することによって得られ、第2の数は第1の数より小さい。複数の代表特徴データレコードは、第2の数の代表特徴の値に基づき、2つ以上のクラスタにセグメント化される。2つ以上のクラスタ内の代表特徴データレコードは分割され、所定の数の代表特徴データサブセットを形成する。他の実施形態によれば、システムおよびコンピュータプログラム製品が提供される。
コンピュータシステムおよびコンピュータプログラム製品を含む他の実施形態および態様を、本明細書で詳細に説明する。これらは、請求項に係る発明の一部と見なされる。
以下、本発明の上記および他の特徴および利点を、本発明の例示的な実施形態の詳細な説明によって説明する。また、これらの特徴および利点は、以下の詳細な説明に鑑みて当業者に明らかになろう。
図1は、本発明の実施形態による、クラウドコンピューティングノードを示す図である。 図2は、本発明の実施形態による、クラウドコンピューティング環境を示す図である。 図3は、本発明の実施形態による、抽象化モデルレイヤを示す図である。 図4は、本発明の実施形態による、データパーティションのプロセスを示すフローチャートである。 図5は、本発明の実施形態による、オートエンコーダニューラルネットワークの一例を示す図である。 図6Aは、本発明の実施形態による、オリジナルデータセットの一例を示す図である。 図6Bは、本発明の実施形態による、代表特徴データセットの一例を示す図である。 図6Cは、本発明の実施形態による、代表特徴データセットの一例を示す図である。 図6Dは、本発明の実施形態による、データパーティション付き代表特徴データセットの一例を示す図である。 図6Eは、本発明の実施形態による、データパーティション付きオリジナルデータセットの一例を示す図である。 図7は、本発明の実施形態による、データパーティションの品質を評価するためのプロセスを示すフローチャートである。 図8は、本発明の実施形態による、オートエンコーダニューラルネットワークを用いた影響重みの計算例を示す図である。
以下、本開示の実施形態を図示した添付図面を参照して、いくつかの実施形態についてより詳細に説明する。ただし、本開示は様々な態様で実施することができ、ここに開示する実施形態に限定されるものと解釈すべきではない。
本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載した教示の実装形態はクラウドコンピューティング環境に限定されない。むしろ、本発明の実施形態は、現在公知のまたは将来開発される他の任意の種類のコンピュータ環境と共に実施することができる。
クラウドコンピューティングは、設定可能なコンピューティングリソースの共有プール(例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、記憶装置、アプリケーション、仮想マシンおよびサービス)へ、簡便かつオンデマンドのネットワークアクセスを可能にするためのサービス提供のモデルであり、最小限の管理労力または最小限のサービスプロバイダとのやり取りによって速やかに準備(provision)およびリリースできるものである。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、および少なくとも4つの実装モデルを含むことがある。
特性は以下の通りである。
オンデマンド・セルフサービス:クラウドのコンシューマは、サービスプロバイダとの人的な対話を必要することなく、必要に応じて自動的に、サーバ時間やネットワークストレージなどのコンピューティング能力を一方的に準備することができる。
ブロード・ネットワークアクセス:コンピューティング能力はネットワーク経由で利用可能であり、また、標準的なメカニズムを介してアクセスできる。それにより、異種のシンまたはシッククライアントプラットフォーム(例えば、携帯電話、ラップトップ、PDA)による利用が促進される。
リソースプーリング:プロバイダのコンピューティングリソースはプールされ、マルチテナントモデルを利用して複数のコンシューマに提供される。様々な物理リソースおよび仮想リソースが、需要に応じて動的に割り当ておよび再割り当てされる。一般にコンシューマは、提供されたリソースの正確な位置を管理または把握していないため、位置非依存(location independence)の感覚がある。ただしコンシューマは、より高い抽象レベル(例えば、国、州、データセンタ)では場所を特定可能な場合がある。
迅速な柔軟性(elasticity):コンピューティング能力は、迅速かつ柔軟に準備することができるため、場合によっては自動的に、直ちにスケールアウトし、また、速やかにリリースされて直ちにスケールインすることができる。コンシューマにとって、準備に利用可能なコンピューティング能力は無制限に見える場合が多く、任意の時間に任意の数量で購入することができる。
測定されるサービス:クラウドシステムは、サービスの種類(例えば、ストレージ、処理、帯域幅、アクティブユーザアカウント)に適したある程度の抽象化レベルでの測定機能を活用して、リソースの使用を自動的に制御し最適化する。リソース使用量を監視、制御、および報告して、利用されるサービスのプロバイダおよびコンシューマの両方に透明性を提供することができる。
サービスモデルは以下の通りである。
サービスとしてのソフトウェア(SaaS):コンシューマに提供される機能は、クラウドインフラストラクチャ上で動作するプロバイダのアプリケーションを利用できることである。当該そのアプリケーションは、ウェブブラウザ(例えばウェブメール)などのシンクライアントインタフェースを介して、各種のクライアント装置からアクセスできる。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、ストレージや、個別のアプリケーション機能さえも含めて、基礎となるクラウドインフラストラクチャの管理や制御は行わない。ただし、ユーザ固有の限られたアプリケーション構成の設定はその限りではない。
サービスとしてのプラットフォーム(PaaS):コンシューマに提供される機能は、プロバイダによってサポートされるプログラム言語およびツールを用いて、コンシューマが作成または取得したアプリケーションを、クラウドインフラストラクチャに展開(deploy)することである。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、ストレージを含む、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、展開されたアプリケーションを制御でき、かつ場合によってはそのホスティング環境の構成も制御できる。
サービスとしてのインフラストラクチャ(IaaS):コンシューマに提供される機能は、オペレーティングシステムやアプリケーションを含む任意のソフトウェアをコンシューマが展開および実行可能な、プロセッサ、ストレージ、ネットワーク、および他の基本的なコンピューティングリソースを準備することである。コンシューマは、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、オペレーティングシステム、ストレージ、および展開されたアプリケーションを制御でき、かつ場合によっては一部のネットワークコンポーネント(例えばホストファイアウォール)を部分的に制御できる。
展開モデルは以下の通りである。
プライベートクラウド:このクラウドインフラストラクチャは、特定の組織専用で運用される。このクラウドインフラストラクチャは、当該組織またはサードパーティーによって管理することができ、オンプレミスまたはオフプレミスで存在することができる。
コミュニティクラウド:このクラウドインフラストラクチャは、複数の組織によって共有され、共通の関心事(例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス)を持つ特定のコミュニティをサポートする。このクラウドインフラストラクチャは、当該組織または第三者によって管理することができ、オンプレミスまたはオフプレミスで存在することができる。
パブリッククラウド:このクラウドインフラストラクチャは、不特定多数の人々や大規模な業界団体に提供され、クラウドサービスを販売する組織によって所有される。
ハイブリッドクラウド:このクラウドインフラストラクチャは、2つ以上のクラウドモデル(プライベート、コミュニティまたはパブリック)を組み合わせたものとなる。それぞれのモデル固有の実体は保持するが、標準または個別の技術によってバインドされ、データとアプリケーションの可搬性(例えば、クラウド間の負荷分散のためのクラウドバースティング)を実現する。
クラウドコンピューティング環境は、ステートレス性(statelessness)、低結合性(low coupling)、モジュール性(modularity)および意味論的相互運用性(semantic interoperability)に重点を置いたサービス指向型環境である。クラウドコンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。
図1に、クラウドコンピューティングノードの一例を模式的に示す。なお、クラウドコンピューティングノード10は好適なクラウドコンピューティングノードの一例に過ぎず、本明細書に記載する本発明の実施形態の使用や機能の範囲について何らの限定も示唆するものではない。いずれにせよ、クラウドコンピューティングノード10は、実装されること、もしくは上述した機能のいずれかを行うこと、またはその両方が可能である。
クラウドコンピューティングノード10には、コンピュータシステム/サーバ12または通信装置などの携帯型装置が含まれる。これらは、他の数多くの汎用または専用のコンピューティングシステム環境または構成と共に動作可能である。コンピュータシステム/サーバ12と共に使用するのに適した周知のコンピューティングシステム、環境もしくは構成またはその組み合わせの一例としては、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電製品、ネットワークPC、ミニコンピュータシステム、メインフレームコンピュータシステム、および上記のシステムまたは装置のいずれかを含む分散型クラウドコンピューティング環境などが挙げられる。
コンピュータシステム/サーバ12は、コンピュータシステムによって実行されるプログラムモジュールなどの、コンピュータシステム実行可能命令との一般的な関連において説明することができる。一般に、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム/サーバ12は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実行される分散型クラウドコンピューティング環境で実施することができる。分散型クラウドコンピューティング環境において、プログラムモジュールは、メモリ記憶装置を含む、ローカルおよびリモート両方のコンピュータシステム記憶媒体に記憶することができる。
図1に示すように、クラウドコンピューティングノード10におけるコンピュータシステム/サーバ12を、汎用コンピュータ装置として示している。コンピュータシステム/サーバ12のコンポーネントの一例としては、1つ以上のプロセッサまたは処理ユニット16、システムメモリ28、およびシステムメモリ28を含む種々のシステムコンポーネントをプロセッサ16に接続するバス18が挙げられる。
バス18は、種々のバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート(AGP)、およびプロセッサまたはローカルバスを含む複数種類のバス構造のうち1つ以上の任意のものを表す。一例として、かかるアーキテクチャは、インダストリスタンダードアーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオエレクトロニクススタンダーズアソシエーション(VESA)ローカルバス、およびペリフェラルコンポーネントインターコネクト(PCI)バスを含む。
コンピュータシステム/サーバ12は一般的に、種々のコンピュータシステム可読媒体を含む。かかる媒体は、コンピュータシステム/サーバ12によってアクセス可能な任意の利用可能な媒体でよく、揮発性媒体および不揮発性媒体の両方と、取り外し可能媒体および取り外し不能媒体の両方とを含む。
システムメモリ28は、RAM30もしくはキャッシュメモリ32またはその両方など、揮発性メモリとしてのコンピュータシステム可読媒体を含むことができる。コンピュータシステム/サーバ12はさらに、他の取り外し可能/取り外し不能コンピュータシステム可読媒体および揮発性/不揮発性コンピュータシステム可読媒体を含んでもよい。一例として、ストレージシステム34は、取り外し不能な不揮発性磁気媒体(不図示。一般に「ハードドライブ」と呼ばれる)への読み書きのために設けることができる。また、図示は省略するが、取り外し可能な不揮発性磁気ディスク(例えば、フロッピーディスク)への読み書きのための磁気ディスクドライブ、および取り外し可能な不揮発性光学ディスク(CD-ROM、DVD-ROMや他の光学媒体など)への読み書きのための光学ディスクドライブを設けることができる。これらの例において、それぞれを、1つ以上のデータ媒体インタフェースによってバス18に接続することができる。以下でさらに図示および説明するように、メモリ28は、本発明の実施形態の機能を実行するように構成されたプログラムモジュールのセット(例えば、少なくとも1つ)を有する少なくとも1つのプログラム製品を含むことができる。
一例として、プログラムモジュール42のセット(少なくとも1つ)を有するプログラム/ユーティリティ40は、オペレーティングシステム、1つ以上のアプリケーションプログラム、他のプログラムモジュール、およびプログラムデータと同様に、メモリ28に記憶することができる。オペレーティングシステム、1つ以上のアプリケーションプログラム、他のプログラムモジュール、およびプログラムデータ、またはそれらのいくつかの組み合わせの各々は、ネットワーク環境の実装形態を含むことができる。プログラムモジュール42は一般に、本発明の実施形態の機能もしくは方法またはその両方を実行する。
また、コンピュータシステム/サーバ12は、キーボード、ポインティングデバイス、ディスプレイ24などの1つ以上の外部装置14、ユーザとコンピュータシステム/サーバ12との対話を可能にする1つ以上の装置、もしくはコンピュータシステム/サーバ12と1つ以上の他のコンピュータ装置との通信を可能にする任意の装置(例えば、ネットワークカードやモデムなど)またはこれらの組み合わせと通信することができる。かかる通信は、入力/出力(I/O)インタフェース22を介して行うことができる。さらに、コンピュータシステム/サーバ12は、ネットワークアダプタ20を介して1つ以上のネットワーク(ローカルエリアネットワーク(LAN)、汎用広域ネットワーク(WAN)、もしくはパブリックネットワーク(例えばインターネット)またはこれらの組み合わせなど)と通信することができる。図示するように、ネットワークアダプタ20は、バス18を介してコンピュータシステム/サーバ12の他のコンポーネントと通信する。なお、図示は省略するが、他のハードウェアコンポーネントもしくはソフトウェアコンポーネントまたはその両方を、コンピュータシステム/サーバ12と併用することができる。それらの一例としては、マイクロコード、デバイスドライバ、冗長化処理ユニット、外付けディスクドライブアレイ、RAIDシステム、テープドライブ、データアーカイブストレージシステムなどがある。
図2に、例示的なクラウドコンピューティング環境50を示す。図示するように、クラウドコンピューティング環境50は1つ以上のクラウドコンピューティングノード10を含む。これらに対して、クラウドコンシューマが使用するローカルコンピュータ装置(例えば、PDAもしくは携帯電話54A、デスクトップコンピュータ54B、ラップトップコンピュータ54C、もしくは自動車コンピュータシステム54Nまたはこれらの組み合わせなど)は通信を行うことができる。ノード10は互いに通信することができる。ノード10は、例えば、上述のプライベート、コミュニティ、パブリックもしくはハイブリッドクラウドまたはこれらの組み合わせなど、1つ以上のネットワークにおいて、物理的または仮想的にグループ化(不図示)することができる。これにより、クラウドコンピューティング環境50は、サービスとしてのインフラストラクチャ、プラットフォームもしくはソフトウェアまたはこれらの組み合わせを提供することができ、クラウドコンシューマはこれらについて、ローカルコンピュータ装置上にリソースを維持する必要がない。なお、図2に示すコンピュータ装置54A~Nの種類は例示に過ぎず、コンピューティングノード10およびクラウドコンピューティング環境50は、任意の種類のネットワークもしくはネットワークアドレス指定可能接続(例えば、ウェブブラウザの使用)またはその両方を介して、任意の種類の電子装置と通信可能であることを理解されたい。
次に、クラウドコンピューティング環境50(図2)によって提供される機能的抽象化レイヤのセットを図3に示す。なお、図3に示すコンポーネント、レイヤおよび機能は例示に過ぎず、本発明の実施形態はこれらに限定されないことをあらかじめ理解されたい。図示するように、以下のレイヤおよび対応する機能が提供される。
ハードウェアおよびソフトウェアレイヤ60は、ハードウェアコンポーネントおよびソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム61、縮小命令セットコンピュータ(RISC)アーキテクチャベースのサーバ62、サーバ63、ブレードサーバ64、記憶装置65、ならびにネットワークおよびネットワークコンポーネント66が含まれる。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア67およびデータベースソフトウェア68を含む。
仮想化レイヤ70は、抽象化レイヤを提供する。当該レイヤから、例えば、仮想サーバ71、仮想ストレージ72、仮想プライベートネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティングシステム74、ならびに仮想クライアント75などの仮想エンティティを提供することができる。
一例として、管理レイヤ80は以下の機能を提供することができる。リソース準備81は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を可能にする。計量および価格設定82は、クラウドコンピューティング環境内でリソースが利用される際のコスト追跡、およびこれらのリソースの消費に対する請求またはインボイス送付を可能にする。一例として、これらのリソースはアプリケーションソフトウェアのライセンスを含むことができる。セキュリティは、データおよび他のリソースに対する保護のみならず、クラウドコンシューマおよびタスクの識別確認を可能にする。ユーザポータル83は、コンシューマおよびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理84は、要求されたサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当ておよび管理を可能にする。サービス品質保証(SLA)の計画および履行85は、SLAに従って将来必要になると予想されるクラウドコンピューティングリソースの事前手配および調達を可能にする。
ワークロードレイヤ90は、クラウドコンピューティング環境の利用が可能な機能の例を提供する。このレイヤから提供可能なワークロードおよび機能の例には、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想教室教育の配信93、データ分析処理94、取引処理95、ならびに、データパーティショニング96が含まれる。以下、データパーティショニング96について図4乃至図8を参照して詳細に説明する。
機械学習において、教師ありモデルは通常、入力(すなわち、予測子)データおよび出力(すなわち、ターゲット)データからなる履歴データセットまたはオリジナルデータセットによって適合される。その後、教師ありモデルに新たな入力データを適用し、出力を予測する。このプロセスにおいて、履歴データセットは、例えば、訓練データサブセット、検証データサブセット、テストデータサブセットなどのサブセットにランダムに分割(partition)されることが多い。訓練データサブセットは、教師あり機械学習モデルの構築に用いられる。検証データサブセットは、教師あり機械学習モデルのハイパーパラメータの微調整または、教師あり学習に最適な教師あり機械学習モデルの選択に用いられる。
最終的な教師あり機械学習モデルの構築後、当該教師あり機械学習モデルの性能は、テストデータサブセットによって評価される。テストデータサブセットは、教師あり機械学習モデルの構築時には用いられない。データ分析においてハイパーパラメータの微調整や教師あり構築モデルの選択が求められない場合は、検証データサブセットは不要であり、この場合、履歴データセットは訓練データサブセットとテストデータサブセットとに分割される。
現在、ほとんどの機械学習ソフトウェアは、訓練データサブセット、検証データサブセット、およびテストデータサブセットの特定の割合に基づいて、ランダムサンプリング法によってデータパーティショニング(data partitioning)を行っている。しかし、ランダムサンプリング法には欠点が存在する。例えば、ランダムサンプリング法は、履歴データセットと同様の変数分布(variable distribution)を提供することができない。
不均衡データ(imbalanced data)の場合、各データサブセットにおけるクラス分布が履歴データセット全体におけるクラス分布と同じであること(すなわち、分布の一貫性)を保証するために、層化サンプリング法(stratified sampling methods)を用いることができる。しかし、層化サンプリング法にも欠点は存在する。例えば、層化サンプリングは、カテゴリカル変数(categorical variables)が多数存在する場合には、カテゴリの可能な組み合わせをすべて発見し、それぞれの組み合わせでサンプリングを行う必要があるため、複雑で非効率的である。また、ゆがんだ分布(skewed distribution)を有する連続変数の場合、層化サンプリングでは、各データサブセットの分布が履歴データセット全体と同じであることを保証できない。その結果、現在のサンプリング手法では、ユーザが多くの時間をかけてモデルを精緻化したとしても、高品質な教師あり機械学習モデルを構築することは困難である。
本発明の実施形態によれば、例示的な実施形態において、履歴データセットの特定のデータパーティション(data partition)の各データサブセットの特徴/変数分布が、履歴データセットの特徴/変数分布と類似している(すなわち、可能な限り近い)ことを保証する(すなわち、変数分布の一貫性を提供する)データパーティショニングが実現される。例示的な実施形態はまた、データパーティションの妥当性の評価指標を提供する。これにより、データパーティションをそのまま用いて教師あり機械学習モデルを構築可能であるか、またはパーティションの品質を高めるためにさらなるデータ収集が必要であるかの推奨を得ることができる。
例示的な実施形態では、オリジナルデータセットを処理する際に、オートエンコーダニューラルネットワーク(autoencoder neural network)を用いて、データセットの特徴のサイズを縮小する。これにより、元の特徴の非線形の組み合わせ(non-linear combinations)をキャプチャすることができる。次に、クラスタリング技術を用いて、代表特徴(feature representative)のレコードをクラスタにセグメント化する。そして、クラスタラベル変数を層化変数(stratified variable)とした層化データサンプリングにより、代表特徴データレコードをデータサブセットにさらに分割する。データパーティションの品質を評価するために、分布類似度(distribution similarity)の指標を定義する。次に、代表特徴データセットのパーティションラベルをオリジナルデータセットにマージして、最終的なデータパーティションを得る。
例示的な実施形態は、カテゴリカル変数および連続変数を処理することができる。さらに、例示的な実施形態は、データパーティションの品質指標を提供する。これにより、特定のデータパーティションが、履歴データセットに対応する教師あり機械学習モデルの構築にそのまま使用できるかどうか、あるいは、データパーティションの品質を高めるためにより多くのデータの収集が必要であるかどうかを、ユーザが判断しやすくなる。例示的な実施形態は、データパーティションの性能を向上させることができ、これにより、教師あり機械学習モデルが未知のデータをより効果的に予測することができる。
したがって、例示的な実施形態は、特定のデータセットに対応する効果的な教師あり機械学習モデルを構築する際の技術的な問題を克服する1つ以上の技術ソリューションを提供する。これらの1つ以上の技術ソリューションによって、教師あり機械学習モデル構築の分野において、技術的効果および実用性が得られる。
図4は、例示的な実施形態による、データパーティションのプロセスを示すフローチャートである。図4に示すプロセスは、例えば、図1のコンピュータシステム/サーバ12のようなコンピュータで実施することができる。
ステップ410にて、コンピュータは、オリジナルデータセットを取得する。オリジナルデータセットは、複数のデータレコードを含むことができ、データセット内の各データレコードは、第1の数の特徴(例えば、n個の特徴(nは整数))の値を有することができる。ここでは変数とも呼ばれるこの特徴は、オリジナルデータセットにおいてそれぞれ異なる変数とすることができ、データレコードとしてそれぞれ異なる値を有することができる。オリジナルデータセットは、例えば企業、事業体、組織、団体、施設、機関などの特定のエンティティに対応する元の情報体(body of information)を表すことができる。各オリジナルデータセットは、例えば保険ドメイン、銀行ドメイン、ヘルスケアドメイン、金融ドメイン、エンターテイメントドメイン、ビジネスドメインなど、特定のドメインに関連することができる。例えば、オリジナルデータセットは、保険ドメインに関連することができ、オリジナルデータセット内のデータレコードは、個人に対応するデータレコードとすることができる。データセット内の特徴は、年齢、性別、身長、体重など、個人の基本情報を含むことができる。データセット内の特徴はさらに、保険の種類、保険料、補償内容などの保険関連情報を含んでいてもよい。異なる個人(データレコード)について、特徴はそれぞれ異なる値を持つことになる。別の例として、オリジナルデータセットは銀行ドメインに関連することができ、オリジナルデータセット内のデータレコードは、企業に対応するデータレコードとすることができる。データセット内の特徴は、企業規模、事業の種類、企業への融資額、信用格付けなど、複数の情報を含むことができる。異なる企業(データレコード)について、特徴はそれぞれ異なる値を持つことになる。
図6Aは、本発明の例示的な実施形態による、オリジナルデータセットの一例を示す図である。オリジナルデータセット602は、レコードID604および特徴606を含む。特徴606は、オリジナルデータセット602を所有するエンティティに対応する任意の変数を表すことができる。なお、表の各列が、それぞれ1つの特徴(X1、X2、X3、...Xnなど)に対応する。さらに、特徴606は、カテゴリカル変数または連続変数とすることができる。レコードID604は、オリジナルデータセット602内の各データレコードを表すことができる。データレコードは、特徴の値を有する。例えば、ID「1」のレコードは、X1について値「0.3」、X2について値「0.7」、...Xnについて値「0.2」を有し、ID「2」のレコードは、X1について値「0.5」、X2について値「0.2」、...Xnについて値「0.6」を有する。
ステップ420にて、コンピュータは、オリジナルデータセットから代表特徴データセットを決定する。代表特徴データセットは、オリジナルデータセットと同数の代表特徴データレコードを含み、各代表特徴データレコードは、第2の数の代表特徴(例えば、m個の代表特徴(mは整数))の値を有する。本発明の一実施形態によれば、代表特徴は、第1の数(n)の特徴の値を入力としてオートエンコーダニューラルネットワークを訓練することによって得ることができる。本発明の一実施形態によれば、第2の数mは第1の数nよりも小さい。
本発明の実施形態によれば、オートエンコーダニューラルネットワークを用いて、データセットの特徴の次元を、より少ない数の代表に削減にする。オートエンコーダは、教師なしの方法で効率的なデータコーディングを学習するために用いられる人工ニューラルネットワークの一種である。オートエンコーダの目的は、信号「ノイズ」を無視するようにネットワークを訓練することにより、データセットの表現(エンコーディング)を(通常は次元削減(dimensionality reduction)のために)学習することである。オートエンコーダは、入力から出力へのコピーを学習する。オートエンコーダは、入力を表すための表現を記述する内部(隠れ)層を有し、入力を表現にマッピングするエンコーダと、表現を元の入力の再構成にマッピングするデコーダとからなる2つの主要部分で構成されている。出力層は、入力層と同数のノードを有し、その入力を再構成する(入力と出力の差を最小にする)ことを目的としている。
Figure 2022080302000002
図6Bは、本発明の例示的な実施形態による、代表特徴データセットの一例を示す図である。代表特徴データセット603は、レコードID605および代表特徴608を含む。レコードID605は、オリジナルデータセットのレコードID604に対応する。代表特徴608は、オートエンコーダニューラルネットワークを用いて、オリジナルデータセット602の特徴606から得ることができる。表の各列が、それぞれ1つの代表特徴(F1、F2、F3、...Fmなど)に対応する。ここで、mはnよりも小さい整数である。レコードID605は、代表特徴データセット603内の各データレコードを表すことができる。データレコードは代表特徴の値を有する。例えば、ID「1」のレコードは、F1について値「0.23」、F2について値「0.51」、...Fmについて値「0.36」を有し、ID「2」のレコードは、F1について値「0.31」、F2について値「0.52」、...Fmについて値「0.43」を有する。
図4に戻り、ステップ430にて、コンピュータは、第2の数の代表特徴の値に基づいて、代表特徴データセットのデータレコードを2つ以上のクラスタにセグメント化する。本発明の一実施形態によれば、このセグメント化は、K平均法などのクラスタリング技術を用いて行うことができる。クラスタラベルの変数が作成され、各データレコードはクラスタラベルを有することになる。
図6Cは、本発明の例示的な実施形態による、代表特徴データセットの一例を示す図である。代表特徴データセット603は、レコードID605、代表特徴608およびクラスタラベル609を含む。代表特徴608およびレコードID605は、図6Bに示したものと同じである。クラスタラベル609は、ステップ430で得られた各データレコードのクラスタリング結果を表すことができる。図6Cの例では、データレコードは、クラスタ-1とクラスタ-2の2つのクラスタにセグメント化される。
ステップ440にて、コンピュータは、2つ以上のクラスタ内の代表特徴データレコードを分割して、特定の数の代表特徴データサブセット、すなわち、代表特徴データセットのデータパーティションを形成する。本発明の一実施形態によれば、代表特徴データレコードは、クラスタラベル変数を層化変数とする層化データサンプリングによって、データサブセットに分割することができる。
層化サンプリングは、総母集団をより小さなグループまたは層に分割してサンプリングプロセスを完了する、サンプリング方法の一種である。層は、母集団のパーティションを定義するものである。層は、母集団のデータに含まれる何らかの共通特徴に基づいて形成される。グループの大きさがそれぞれ異なる場合、各グループから選択される項目の数は、そのグループに含まれる項目数に比例する場合がある。
図6Dは、本発明の例示的な実施形態による、代表特徴データセットのデータパーティションの一例を示す図である。レコードID605、代表特徴608およびクラスタラベル609に加えて、代表特徴データセット603は、パーティションラベル610をさらに含む。パーティションラベル610は、ステップ440で得られた各データレコードのパーティショニング結果を表すことができる。図6Dの例では、パーティションラベルは、「訓練」と「テスト」を含み、対応するデータレコードが訓練データサブセットまたはテストデータサブセットのいずれに属するかを示す。
ステップ440にて代表特徴データセットを特定の数の代表特徴データサブセットに分割した後、コンピュータはステップ450にて、代表特徴データセットのデータパーティションに基づいて、オリジナルデータセットのデータパーティションを取得する。本発明の一実施形態によれば、ステップ440にて代表特徴データセット内の各レコードについてパーティション変数を取得し、このパーティション変数をオリジナルデータセットにマージして、オリジナルデータセットのパーティションを特定することができる。
図6Eは、例示的な実施形態による、オリジナルデータセットのデータパーティションの一例を示す図である。オリジナルデータセット602は、レコードID604、特徴606、およびパーティションラベル610を含む。
この例では、オリジナルデータセットのデータパーティションは、訓練データサブセットおよびテストデータサブセットを含む。ただし、このデータパーティションは例示に過ぎず、異なる例示的な実施形態を限定するものではない。言い換えれば、データパーティションは、図示よりも多いまたは少ないデータサブセットを含んでいてもよい。データサブセットは、例えば、訓練データサブセット、検証データサブセット、およびテストデータサブセットの3つのデータサブセットを含んでいてもよい。さらに、訓練データサブセットは、オリジナルデータセットのうちの特定の可変割合を含み、テストデータサブセットは、オリジナルデータセットうちの別の特定の可変割合を含む。例えば、3つのデータサブセットの場合、各データサブセットは、データセットのうちの特定の割合を含む。例えば、データセットの60%が訓練データサブセットに含まれ、データセットの20%が検証データサブセットに含まれ、データセットの20%がテストデータサブセットに含まれる。
例示的な実施形態は、図4に示すプロセスにより、オリジナルデータセットの特定のデータパーティションの各データサブセットの特徴分布が、オリジナルデータセットの特徴分布と類似している(すなわち、可能な限り近い)ことを保証する(すなわち、変数分布の一貫性を提供する)データパーティショニングを実現する。さらに、例示的な実施形態は、オートエンコーダニューラルネットワークを用いてデータセットの特徴のサイズを縮小し、パーティションの品質を向上させる。
図7は、例示的な実施形態による、データパーティションの品質を評価するためのプロセスを示すフローチャートである。図7に示すプロセスは、例えば、図1のコンピュータシステム/サーバ12のようなコンピュータで実施することができる。なお、ステップ710、720、730、740は、図4を参照して上述したステップ410、420、430、440と同様であり、これらのステップの詳細な説明は省略する。
ステップ720にて、オートエンコーダニューラルネットワークを用いて、オリジナルデータセットから代表特徴データセットを決定した後、コンピュータは、オートエンコーダーニューラルネットワークおよびステップ720で決定した代表特徴に基づいて、代表特徴の影響重み(influential weights)を計算してもよい。
本発明の一実施形態によれば、各代表特徴Fiについて、その影響重みを以下のように計算することができる。まず、他の代表特徴の値を固定したまま、代表特徴Fiの値をランダムに変更する。その後、元データ値の予測の精度が判定される。その精度に基づいて、各代表特徴の影響重み(w、...、wとして示す)が得られる。
Figure 2022080302000003
Figure 2022080302000004
ステップ770にて、ステップ760で計算された影響重みを用いて、ステップ740で得られた代表特徴データセットのデータパーティションに対してデータパーティション品質評価を行い、特徴分布の類似度を評価することができる。
各代表特徴Fについて、2標本コルモゴロフ・スミルノフ(KS)検定などの統計的検定を行い、各サブセットにおけるFの分布がオリジナルデータセットにおけるFの分布と類似しているか否かをテストする。すべてのサブセットからのテスト有意値(test significant values)の平均が、代表特徴Fの分布類似度の指標として用いられる。なお、各代表特徴Fについての分布類似度の指標をsと表記する。データパーティションの品質は、sを重みwで加重平均したもの、すなわち次の通りである。
Figure 2022080302000005
ここで、qはデータパーティションの品質であり、sは代表特徴Fの分布類似度であり、wは代表特徴Fの影響重みである。
特徴分布の類似度測定では、例えば2標本コルモゴロフ・スミルノフ検定などの統計的検定を利用して、各データサブセットからの代表特徴の分布が代表特徴データセットにおける分布と類似しているか否かをテストすることができる。2標本コルモゴロフ・スミルノフ検定は、2つの標本を比較するための一般的なノンパラメトリック検定(nonparametric test)である。2標本コルモゴロフ・スミルノフ検定は、2つの標本の経験的累積分布関数(empirical cumulative distribution functions)の位置と形状の両方の違いに敏感である。2標本コルモゴロフ・スミルノフ検定を用いて、2つの標本が同じ分布に由来するか否かをテストすることができる。例示的な実施形態では、統計的検定の有意なp値に基づいて、データセットとパーティションの各データサブセットとの間の分布類似度の指標を計算する。なお、p値とは、ある変量(variate)が厳密に偶然に観測値(observed value)以上の値をとる確率のことである。
ステップ740で代表特徴データセットを特定の数の代表特徴データサブセットに分割した後、コンピュータはステップ750にて、代表特徴データセットのパーティションに基づいてオリジナルデータセットのデータパーティションを得る。本発明の一実施形態によれば、ステップ740で代表特徴データセット内の各レコードについてパーティション変数を求め、そのパーティション変数をオリジナルデータセットにマージして、オリジナルデータセットのパーティションを特定することができる。そして、ステップ770で得られたデータパーティションの評価結果を、ステップ750で得られたオリジナルデータセットのパーティションと共に提供してもよい。
このように、本発明の例示的な実施形態は、各パーティションデータサブセットの特徴分布がオリジナルデータセットに類似するデータパーティションを実行するためのコンピュータ実装方法、コンピュータシステム、およびコンピュータプログラム製品を提供する。なお、本発明の種々の実施形態を例示として説明してきたが、網羅的であることや、これらの実施形態に限定することを意図したものではない。当業者には明らかなように、記載した各実施形態の範囲および要旨から逸脱することなく、多くの変更および変形が可能である。本明細書で用いられる用語は、各実施形態の原理、実際の用途、または市場で確認される技術に対する技術的な改善を最もよく説明するために、または、当業者が本明細書に開示する各実施形態を理解できるように選択されたものである。
本発明は、任意の可能な技術詳細レベルで統合されたシステム、方法もしくはコンピュータプログラム製品またはそれらの組み合せとすることができる。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を記憶したコンピュータ可読記憶媒体を含んでよい。
コンピュータ可読記憶媒体は、命令実行装置によって使用される命令を保持し、記憶することができる有形の装置とすることができる。コンピュータ可読記憶媒体は、一例として、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置またはこれらの適切な組み合わせであってよい。コンピュータ可読記憶媒体のより具体的な一例としては、ポータブルコンピュータディスケット、ハードディスク、RAM、ROM、EPROM(またはフラッシュメモリ)、SRAM、CD-ROM、DVD、メモリスティック、フロッピーディスク、パンチカードまたは溝内の隆起構造などに命令を記録した機械的に符号化された装置、およびこれらの適切な組み合せが挙げられる。本明細書で使用されるコンピュータ可読記憶装置は、電波もしくは他の自由に伝播する電磁波、導波管もしくは他の伝送媒体を介して伝播する電磁波(例えば、光ファイバケーブルを通過する光パルス)、またはワイヤを介して送信される電気信号のような、一過性の信号それ自体として解釈されるべきではない。
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピュータ装置/処理装置へダウンロードすることができる。あるいは、ネットワーク(例えばインターネット、LAN、WANもしくはワイヤレスネットワークまたはこれらの組み合わせ)を介して、外部コンピュータまたは外部記憶装置へダウンロード可能である。ネットワークは、銅製伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータもしくはエッジサーバまたはこれらの組み合わせを備えることができる。各コンピュータ装置/処理装置内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、各々のコンピュータ装置/処理装置におけるコンピュータ可読記憶媒体に記憶するために転送する。
本発明の動作を実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用構成データ、または、スモールトークやC++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語や類似のプログラミング言語などの手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで記述されたソースコードもしくはオブジェクトコードのいずれかとすることができる。コンピュータ可読プログラム命令は、スタンドアロン型ソフトウェアパッケージとして完全にユーザのコンピュータ上で、または部分的にユーザのコンピュータ上で実行可能である。あるいは、部分的にユーザのコンピュータ上でかつ部分的にリモートコンピュータ上で、または、完全にリモートコンピュータもしくはサーバ上で実行可能である。後者の場合、リモートコンピュータは、LANやWANを含む任意の種類のネットワークを介してユーザのコンピュータに接続してもよいし、外部コンピュータに(例えば、インターネットサービスプロバイダを使用してインターネットを介して)接続してもよい。いくつかの実施形態において、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブル論理アレイ(PLA)を含む電子回路は、本発明の態様を実行する目的で当該電子回路をカスタマイズするために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行することができる。
本発明の各態様は、本明細書において、本発明の実施形態に係る方法、装置(システム)、およびコンピュータプログラム製品のフローチャートもしくはブロック図またはその両方を参照して説明されている。フローチャートもしくはブロック図またはその両方における各ブロック、および、フローチャートもしくはブロック図またはその両方における複数のブロックの組み合わせは、コンピュータ可読プログラム命令によって実行することができる。
上記のコンピュータ可読プログラム命令は、機械を生産するために、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供してよい。これにより、かかるコンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行されるこれらの命令が、フローチャートもしくはブロック図またはその両方における1つ以上のブロックにて特定される機能/動作を実行するための手段を形成する。上記のコンピュータ可読プログラム命令はさらに、コンピュータ、プログラマブルデータ処理装置もしくは他の装置またはこれらの組み合わせに対して特定の態様で機能するよう命令可能なコンピュータ可読記憶媒体に記憶してよい。これにより、命令が記憶された当該コンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方における1つ以上のブロックにて特定される機能/動作の態様を実行する命令を含む製品を構成する。
また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブル装置、または他の装置にロードし、一連の動作ステップを当該コンピュータ、他のプログラマブル装置、または他の装置上で実行することにより、コンピュータ実行プロセスを生成してもよい。これにより、当該コンピュータ、他のプログラマブル装置、または他の装置上で実行される命令が、フローチャートもしくはブロック図またはその両方における1つ以上のブロックにて特定される機能/動作を実行する。
図面におけるフローチャートおよびブロック図は、本発明の種々の実施形態に係るシステム、方法およびコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を示している。この点に関して、フローチャートまたはブロック図における各ブロックは、特定の論理機能を実行するための1つ以上の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表すことができる。他の一部の実装形態において、ブロック内に示した機能は、各図に示す順序とは異なる順序で実行してもよい。例えば、連続して示される2つのブロックは、実際には、関係する機能に応じて、1つの工程として達成してもよいし、同時もしくは略同時に実行してもよいし、部分的もしくは全体的に時間的に重複した態様で実行してもよいし、または場合により逆順で実行してもよい。なお、ブロック図もしくはフローチャートまたはその両方における各ブロック、および、ブロック図もしくはフローチャートまたはその両方における複数のブロックの組み合わせは、特定の機能または動作を行う専用ハードウェアベースのシステムによって、または専用ハードウェアとコンピュータ命令との組み合わせによって実行することができる。
本発明の種々の実施形態を例示として説明してきたが、網羅的であることや、これらの実施形態に限定することを意図したものではない。当業者には明らかなように、記載した各実施形態の範囲および要旨から逸脱することなく、多くの変更および変形が可能である。本明細書で用いられる用語は、各実施形態の原理、実際の用途、または市場で確認される技術に対する技術的な改善を最もよく説明するために、または、当業者が本明細書に開示する各実施形態を理解できるように選択されたものである。

Claims (20)

  1. コンピュータ実装方法であって、
    1つ以上の処理ユニットによって、複数のデータレコードを含むオリジナルデータセットを取得することであって、当該オリジナルデータセット内の各データレコードは第1の数の特徴の値を有することと、
    1つ以上の処理ユニットによって、複数の代表特徴データレコードを含む代表特徴データセットを決定することであって、各代表特徴データレコードは第2の数の代表特徴の値を有し、当該第2の数の代表特徴は、前記第1の数の特徴の値を入力としてオートエンコーダニューラルネットワークを訓練することによって得られ、当該第2の数は当該第1の数より小さいことと、
    1つ以上の処理ユニットによって、前記第2の数の代表特徴の値に基づき、前記複数の代表特徴データレコードを2つ以上のクラスタにセグメント化することと、
    1つ以上の処理ユニットによって、前記2つ以上のクラスタ内の前記代表特徴データレコードを分割して、所定の数の代表特徴データサブセットを形成することと、
    を含む、コンピュータ実装方法。
  2. 1つ以上の処理ユニットによって、前記所定の数の代表特徴データサブセットに従って、前記オリジナルデータセットのデータサブセットを得ることをさらに含む、
    請求項1に記載のコンピュータ実装方法。
  3. 1つ以上の処理ユニットによって、前記第2の数の代表特徴のうち一の代表特徴について、当該代表特徴の影響重みを計算することをさらに含む、
    請求項1に記載のコンピュータ実装方法。
  4. 前記代表特徴の前記影響重みは、
    前記複数の代表特徴データレコードのうちの1つにおいて、前記代表特徴の値を変化させながら他の代表特徴の値は固定し、
    前記オートエンコーダニューラルネットワークの予測の精度を判定し、
    前記精度に基づいて、前記代表特徴の前記影響重みを得る、ことによって計算される、
    請求項3に記載のコンピュータ実装方法。
  5. 1つ以上の処理ユニットによって、前記影響重みおよび前記代表特徴データサブセットに基づいて、データパーティションの品質を評価することをさらに含む、
    請求項3に記載のコンピュータ実装方法。
  6. 1つ以上の処理ユニットによって、前記影響重みおよび前記代表特徴データサブセットに基づいてデータパーティションの品質を評価することはさらに、
    各代表特徴Fについて、それぞれの前記代表特徴データサブセットと前記代表特徴データセットとの間の当該代表特徴Fの分布類似度sを測定することと、
    前記分布類似度sおよび前記代表特徴Fの前記影響重みwに基づいて、前記データパーティションの前記品質を得ることと、を含む、
    請求項5に記載のコンピュータ実装方法。
  7. 前記データパーティションの前記品質は、以下の式によって得られ、
    Figure 2022080302000006
    qは前記データパーティションの前記品質であり、sは前記代表特徴Fの前記分布類似度であり、wは前記代表特徴Fの前記影響重みである、
    請求項6に記載のコンピュータ実装方法。
  8. 1つ以上の処理ユニットによって、前記2つ以上のクラスタ内の前記代表特徴データレコードを分割して、前記所定の数の代表特徴データサブセットを形成することは、
    1つ以上の処理ユニットによって、前記2つ以上のクラスタの各クラスタ内の前記代表特徴データレコードをランダムにサンプリングして、前記所定の数の代表特徴データサブセットを形成することを含む、
    請求項1に記載のコンピュータ実装方法。
  9. 前記データサブセットおよび前記オリジナルデータセットからの前記特徴は、カテゴリカル変数および連続変数の1つである、
    請求項2に記載のコンピュータ実装方法。
  10. 前記オリジナルデータセットは、保険ドメイン、銀行ドメイン、ヘルスケアドメイン、金融ドメイン、エンターテイメントドメイン、およびビジネスドメインのうちの1つに関連する、
    請求項1に記載のコンピュータ実装方法。
  11. 1つ以上のコンピュータ可読記憶媒体と、当該1つ以上のコンピュータ可読記憶媒体に記憶されたプログラム命令とを含むコンピュータプログラム製品であって、当該プログラム命令は、
    複数のデータレコードを含むオリジナルデータセットを取得するプログラム命令であって、当該オリジナルデータセット内の各データレコードは第1の数の特徴の値を有する、プログラム命令と、
    複数の代表特徴データレコードを含む代表特徴データセットを決定するプログラム命令であって、各代表特徴データレコードは第2の数の代表特徴の値を有し、当該第2の数の代表特徴は、前記第1の数の特徴の値を入力としてオートエンコーダニューラルネットワークを訓練することによって得られ、当該第2の数は当該第1の数より小さい、プログラム命令と、
    前記第2の数の代表特徴の値に基づき、前記複数の代表特徴データレコードを2つ以上のクラスタにセグメント化するプログラム命令と、
    前記2つ以上のクラスタ内の前記代表特徴データレコードを分割して、所定の数の代表特徴データサブセットを形成するプログラム命令と、
    を含む、コンピュータプログラム製品。
  12. 前記1つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
    前記所定の数の代表特徴データサブセットに従って、前記オリジナルデータセットから第3の数のデータサブセットを得るプログラム命令をさらに含む、
    請求項11に記載のコンピュータプログラム製品。
  13. 前記1つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
    前記第2の数の代表特徴のうち一の代表特徴について、当該代表特徴の影響重みを計算するプログラム命令をさらに含む、
    請求項11に記載のコンピュータプログラム製品。
  14. 前記代表特徴の前記影響重みは、
    代表特徴データレコードにおいて、前記代表特徴の値を変化させながら他の代表特徴の値は固定するプログラム命令と、
    前記オートエンコーダニューラルネットワークの予測の精度を判定するプログラム命令と、
    前記精度に基づいて、前記代表特徴の前記影響重みを得るプログラム命令と、によって計算される、
    請求項13に記載のコンピュータプログラム製品。
  15. 1つ以上のコンピュータプロセッサと、
    1つ以上のコンピュータ可読記憶媒体と、
    前記1つ以上のコンピュータ可読記憶媒体に記憶され前記1つ以上のコンピュータプロセッサの少なくとも1つによって実行されるプログラム命令と、を含むコンピュータシステムであって、当該プログラム命令は、
    複数のデータレコードを含むオリジナルデータセットを取得するプログラム命令であって、当該オリジナルデータセット内の各データレコードは第1の数の特徴の値を有する、プログラム命令と、
    複数の代表特徴データレコードを含む代表特徴データセットを決定するプログラム命令であって、各代表特徴データレコードは第2の数の代表特徴の値を有し、当該第2の数の代表特徴は、前記第1の数の特徴の値を入力としてオートエンコーダニューラルネットワークを訓練することによって得られ、当該第2の数は当該第1の数より小さい、プログラム命令と、
    前記第2の数の代表特徴の値に基づき、前記複数の代表特徴データレコードを2つ以上のクラスタにセグメント化するプログラム命令と、
    前記2つ以上のクラスタ内の前記代表特徴データレコードを分割して、所定の数の代表特徴データサブセットを形成するプログラム命令と、
    を含む、コンピュータシステム。
  16. 前記1つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
    前記所定の数の代表特徴データサブセットに従って、前記オリジナルデータセットから第3の数のデータサブセットを得るプログラム命令をさらに含む、
    請求項15に記載のコンピュータシステム。
  17. 前記1つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
    前記第2の数の代表特徴のうち一の代表特徴について、当該代表特徴の影響重みを計算するプログラム命令をさらに含む、
    請求項15に記載のコンピュータシステム。
  18. 前記代表特徴の前記影響重みは、
    前記複数の代表特徴データレコードのうちの1つにおいて、前記代表特徴の値を変化させながら他の代表特徴の値は固定するプログラム命令と、
    前記オートエンコーダニューラルネットワークの予測の精度を判定するプログラム命令と、
    前記精度に基づいて、前記代表特徴の前記影響重みを得るプログラム命令と、によって計算される、
    請求項17に記載のコンピュータシステム。
  19. 前記1つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
    前記影響重みおよび前記代表特徴データサブセットに基づいて、データパーティションの品質を評価するプログラム命令をさらに含む、
    請求項17に記載のコンピュータシステム。
  20. 前記影響重みおよび前記代表特徴データサブセットに基づいてデータパーティションの品質を評価することはさらに、
    各代表特徴Fについて、それぞれの前記代表特徴データサブセットと前記代表特徴データセットとの間の当該代表特徴Fの分布類似度sを測定するプログラム命令と、
    前記分布類似度sおよび前記代表特徴Fの前記影響重みwに基づいて、前記データパーティションの前記品質を得るプログラム命令と、を含む、
    請求項19に記載のコンピュータシステム。
JP2021186479A 2020-11-17 2021-11-16 コンピュータ実装方法、コンピュータプログラム製品、およびコンピュータシステム(ニューラルネットワークを用いたデータパーティショニング) Pending JP2022080302A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/950,017 2020-11-17
US16/950,017 US20220156572A1 (en) 2020-11-17 2020-11-17 Data partitioning with neural network

Publications (1)

Publication Number Publication Date
JP2022080302A true JP2022080302A (ja) 2022-05-27

Family

ID=81587130

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021186479A Pending JP2022080302A (ja) 2020-11-17 2021-11-16 コンピュータ実装方法、コンピュータプログラム製品、およびコンピュータシステム(ニューラルネットワークを用いたデータパーティショニング)

Country Status (3)

Country Link
US (1) US20220156572A1 (ja)
JP (1) JP2022080302A (ja)
CN (1) CN114519376A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220167236A1 (en) * 2020-11-25 2022-05-26 Northeastern University Intelligence and Learning in O-RAN for 5G and 6G Cellular Networks
JP2023537193A (ja) * 2021-06-25 2023-08-31 エルアンドティー テクノロジー サービシズ リミテッド クラスタを表現するためにサンプルを選択する方法およびシステム
DE102022117429A1 (de) 2022-07-13 2024-01-18 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Speichern von Daten in einem verteilten System mit einer Vielzahl von Recheneinheiten, computerlesbares Medium, und System

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3765633A4 (en) * 2018-03-13 2021-12-01 Grail, Inc. PROCESS AND SYSTEM FOR THE SELECTION, ADMINISTRATION AND ANALYSIS OF HIGH DIMENSIONAL DATA

Also Published As

Publication number Publication date
US20220156572A1 (en) 2022-05-19
CN114519376A (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
US11379347B2 (en) Automated test case generation for deep neural networks and other model-based artificial intelligence systems
JP2022080302A (ja) コンピュータ実装方法、コンピュータプログラム製品、およびコンピュータシステム(ニューラルネットワークを用いたデータパーティショニング)
US11790231B2 (en) Determining optimal augmentations for a training data set
US20180027082A1 (en) Determining recommendations based on user intent
US11449772B2 (en) Predicting operational status of system
US11645514B2 (en) Out-of-domain encoder training
US20220147852A1 (en) Mitigating partiality in regression models
WO2023077989A1 (en) Incremental machine learning for a parametric machine learning model
JP7410040B2 (ja) 仮想エージェント・システムにおけるクエリ認識レジリエンシの判断
US20230419136A1 (en) Black-box explainer for time series forecasting
US20230177385A1 (en) Federated machine learning based on partially secured spatio-temporal data
US11741128B2 (en) Model-free high confidence data clustering
US20220114459A1 (en) Detection of associations between datasets
US20220269814A1 (en) Discovery of personal data in machine learning models
US20190138895A1 (en) Model matching and learning rate selection for fine tuning
US20220284485A1 (en) Stratified social review recommendation
US20230009237A1 (en) Multi-dimensional data labeling
US20220092437A1 (en) Efficient execution of a decision tree
US11966822B2 (en) Feature processing for machine learning
US9542616B1 (en) Determining user preferences for data visualizations
US11699082B2 (en) Multi-dimensional record correlations
US11204923B2 (en) Performance for query execution
US20200167663A1 (en) Generating a candidate set of entities from a training set
US20220198268A1 (en) Estimated online hard negative mining via probabilistic selection and scores history consideration
US20240095547A1 (en) Detecting and rectifying model drift using governance

Legal Events

Date Code Title Description
RD16 Notification of change of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7436

Effective date: 20211223

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220518

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240411