JP2022546571A

JP2022546571A - 機械学習モデル用の訓練データの生成

Info

Publication number: JP2022546571A
Application number: JP2022514467A
Authority: JP
Inventors: ソーハムバーネルジィ，; ジェィトゥセーンチョゥダリー，; プローディプホー，; ローヒージョーシ，; スネハンシューシェーカルサーフ，
Original assignee: American Express Travel Related Services Co Inc
Current assignee: American Express Travel Related Services Co Inc
Priority date: 2019-09-06
Filing date: 2020-09-04
Publication date: 2022-11-04
Anticipated expiration: 2040-09-04
Also published as: WO2021046306A1; EP4026071A1; JP7391190B2; CN114556360A; US20210073669A1; EP4026071A4; KR20220064966A

Abstract

機械学習モデルのための訓練データを生成するための様々な実施形態が開示されている。複数の元のレコードは、確率分布関数（ＰＤＦ）を識別するために解析され、ＰＤＦのサンプル空間は、複数の元のレコードを含む。複数の新しいレコードが、ＰＤＦを使用して生成される。複数の新しいレコードを含む拡張データセットが生成される。そして、拡張データセットを用いて機械学習モデルが訓練される。

Description

関連出願の相互参照
本出願は、２０１９年９月６日に出願され、「ＧＥＮＥＲＡＴＩＮＧＴＲＡＩＮＩＮＧＤＡＴＡＦＯＲＭＡＣＨＩＮＥ－ＬＥＡＲＮＩＮＧＭＯＤＥＬＳ」と題する米国特許出願第１６／５６２，９７２号の優先権とその利益を主張するものである。

機械学習モデルは、新しいデータについて正確な予測、分類、又は推論を行うために訓練させるために、大量のデータを必要とすることが多い。データセットが十分に大きくない場合、機械学習モデルは誤った推論をするように訓練される可能性がある。例えば、データセットが小さいと、利用可能なデータに対して機械学習モデルがオーバーフィットしてしまう可能性がある。このため、より小規模なデータセットでは、特定の種類のレコードが省略されることにより、機械学習モデルが特定の結果に偏る可能性がある。別の例として、小規模データセットにおける外れ値は、機械学習モデルの性能の分散を増加させることにより、機械学習モデルの性能に不釣り合いな影響を与える可能性がある。

残念ながら、十分に大きなデータセットが、機械学習モデルの訓練に使用するために、常に容易に利用できるとは限らない。例えば、めったに起こらない事象の発生を追跡すると、事象の発生がないため、データセットが小さくなることがある。別の例として、母集団の規模が小さいことに関連するデータは、メンバーの数が限られているため、データセットが小さくなることがある。

プロセッサ及びメモリを備えるコンピューティング・デバイスと、メモリに記憶された訓練データセットであって、複数のレコードを含む、訓練データセットと、メモリに記憶され、プロセッサによって実行されたとき、コンピューティング・デバイスに少なくとも、複数のレコード間の共通の特性又は類似性を識別するために訓練データセットを解析することと、複数のレコード間の識別された共通の特性又は類似性に少なくとも一部に基づいて、新しいレコードを生成することと、を行わせる第１の機械学習モデルと、メモリに記憶され、プロセッサにより実行されたとき、コンピューティング・デバイスに少なくとも、複数のレコード間の共通の特性又は類似性を識別するために訓練データセットを解析することと、第１の機械学習モデルによって生成された新しいレコードを、新しいレコードが訓練データセット内の複数のレコードと区別できないかどうかを決定するために、評価することと、新しいレコードの評価に少なくとも一部に基づいて、第１の機械学習モデルを更新することと、新しいレコードの評価に少なくとも一部に基づいて、第２の機械学習モデルを更新することと、を行わせる第２の機械学習モデルと、を備える、システムが開示される。システムのいくつかの実装では、第１の機械学習モデルは、コンピューティング・デバイスに複数の新しいレコードを生成させ、システムは、第１の機械学習モデルによって生成された複数の新しいレコードを使用して訓練される、メモリに記憶された第３の機械学習モデルを更に備える。システムのいくつかの実装において、複数の新しいレコードは、第２の機械学習モデルが第１の機械学習モデルによって生成された新しいレコードと訓練データセット内の複数のレコードの個々のものとを区別することができないという決定に応答して生成される。システムのいくつかの実装では、複数の新しいレコードは、第１の機械学習モデルによって識別される確率密度関数（ＰＤＦ）によって定義されるサンプル空間内の点の所定の数のランダム・サンプルから生成される。システムのいくつかの実装では、第１の機械学習モデルは、第２の機械学習モデルが、新しいレコードを訓練データセット内の複数のレコードから所定の率で区別することができなくなるまで、新しいレコードを繰り返し生成する。システムのいくつかの実装では、等サイズの新しいレコードが生成された場合、所定の率は５０％である。システムのいくつかの実装において、第１の機械学習モデル及び第２の機械学習モデルは、ニューラル・ネットワークである。システムのいくつかの実装では、第１の機械学習モデルは、コンピューティング・デバイスに少なくとも２回、新しいレコードを生成させ、第２の機械学習モデルは、コンピューティング・デバイスに少なくとも２回、新しいレコードを評価させ、第１の機械学習モデルを少なくとも２回更新し、第２の機械学習モデルを少なくとも２回更新させる。

確率分布関数（ＰＤＦ）を識別するために複数の元のレコードを解析することであって、ＰＤＦがサンプル空間を含み、サンプル空間が複数の元のレコードを含む、解析することと、ＰＤＦを用いて複数の新しいレコードを生成することと、複数の新しいレコードを含む拡張データセットを生成することと、拡張データセットを用いて機械学習モデルを訓練することと、を含む、コンピュータ実装方法の様々な実装が開示されている。コンピュータ実装方法のいくつかの実装では、確率分布関数を識別するために複数の元のレコードを解析することは、複数の元のレコードの個々のものに類似する新しいレコードを生成するためにジェネレータ機械学習モデルを訓練することと、新しいレコードと複数の元のレコードの個々のものとを区別するために識別器機械学習モデルを訓練することと、所定の率で識別器機械学習モデルによって間違われるジェネレータ機械学習モデルによって生成される新しいレコードに応答して確率分布関数を識別することとを更に含む。コンピュータ実装方法のいくつかの実装では、所定の率は、新しいレコードと複数の元のレコードとの間で識別器によって実行される比較の約５０パーセントである。コンピュータ実装方法のいくつかの実装では、ジェネレータ機械学習モデルは、複数のジェネレータ機械学習モデルのうちの一つであり、この方法は、複数のジェネレータ機械学習モデルのそれぞれを訓練して、複数の元のレコードの個々のものに類似する新しいレコードを生成することと、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するラン・レングス、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するジェネレータ損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する識別器損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する異なるランク、又は、複数の元のレコードに関連する第１の確率分布関数及び複数の新しいレコードに関連する第２の確率分布関数を含むコルモゴロフ・スミルノフ（ＫＳ）検定の少なくとも一つの結果に少なくとも一部に基づいて、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することと、確率分布関数が、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することに応答して更に行われることを識別することと、を更に含む。コンピュータ実装方法のいくつかの実装では、確率分布関数を使用して複数の新しいレコードを生成することは、確率分布関数によって定義されるサンプル空間内の所定の数の点をランダムに選択することを更に含む。いくつかの実装において、コンピュータ実装方法は、複数の元のレコードを拡張データセットに追加することを更に含む。コンピュータ実装方法のいくつかの実装では、機械学習モデルは、ニューラル・ネットワークを含む。

コンピューティング・デバイスは、プロセッサとメモリと、メモリに記憶された機械可読命令とを含み、機械可読命令は、プロセッサによって実行されたとき、コンピューティング・デバイスに少なくとも、確率分布関数（ＰＤＦ）を識別するために複数の元のレコードを解析することであって、ＰＤＦはサンプル空間を含み、サンプル空間は複数の元のレコードを含む、解析することと、ＰＤＦを用いて複数の新しいレコードを生成することと、複数の新しいレコードを含む拡張データセットを生成することと、拡張データセットを用いて機械学習モデルを訓練することと、を行わせるシステムの一つ又は複数の実装が開示されている。システムのいくつかの実装では、確率分布関数を識別するために複数の元のレコードを解析することをコンピューティング・デバイスに行わせる機械可読命令は、更に、コンピューティング・デバイスに少なくとも、複数の元のレコードの個々のものに類似する新しいレコードを生成するために、ジェネレータ機械学習モデルを訓練し、新しいレコードと複数の元のレコードの個々のものとを区別するために、識別器機械学習モデルを訓練し、ジェネレータ機械学習モデルによって生成された新しいレコードが識別器機械学習モデルによって所定の率で間違えられることに応答して、確率分布関数を識別することを、コンピューティング・デバイスに更に行わせる。システムのいくつかの実装では、所定の率は、新しいレコードと複数の元のレコードとの間で識別器によって実行される比較の約５０パーセントである。システムのいくつかの実装では、ジェネレータ機械学習モデルは、複数のジェネレータ機械学習モデルのうちの一つであり、機械可読命令は更に、コンピューティング・デバイスに、少なくとも複数の元のレコードの個々のものに類似する新しいレコードを生成するために複数のジェネレータ機械学習モデルのそれぞれを訓練し、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するラン・レングス、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するジェネレータ損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する識別器損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する異なるランク、又は、複数の元のレコードに関連する第１の確率分布関数及び複数の新しいレコードに関連する第２の確率分布関数を含むコルモゴロフ・スミルノフ（ＫＳ）検定の少なくとも一つの結果に少なくとも一部に基づいて、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することと、を行わせ、確率分布関数の識別は、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することに応答して更に行われる。システムのいくつかの実装では、確率分布関数を使用して複数の新しいレコードを生成するようにコンピューティング・デバイスにさせる機械可読命令は、確率分布関数によって定義されるサンプル空間内の所定の数の点をランダムに選択するようにコンピューティング・デバイスに更に行わせる。システムのいくつかの実装において、機械可読命令は、プロセッサによって実行されたとき、コンピューティング・デバイスに、複数の元のレコードを拡張データセットに少なくとも追加させることを更に行わせる。

本開示の多くの態様は、以下の図面を参照することにより、より良く理解され得る。図面の構成要素は必ずしも縮尺通りではなく、代わりに本開示の原理を明確に示すことに重点を置いている。更に、図面において、同様の参照数字は、複数の図を通して対応する部品を指定する。

本開示の一実装例を示す図面である。

本開示の様々な実施形態による、コンピューティング環境の図面である。

本開示の様々な実施形態による、図２のコンピューティング環境の様々な構成要素間の相互作用の一例を示すシーケンス図である。

本開示の様々な実施形態による、図２のコンピューティング環境内に実装される構成要素の機能の一例を示すフローチャートである。

機械学習モデルを訓練するのに不十分である可能性のある小さい又はノイズの多いデータセットを補完するために、機械学習モデルを訓練するための追加データを生成するための様々なアプローチが開示されている。小規模データセットのみが機械学習モデルの訓練に利用できる場合、データ科学者はより多くのデータを収集することでデータセットを拡張しようとすることができる。しかし、これは必ずしも現実的ではない。例えば、発生頻度の低い事象を表すデータセットは、事象の追加発生を長時間待つことでしか補完できない。別の例として、小さな母集団サイズに少なくとも一部に基づくデータセット（例えば、少人数のグループを表すデータ）は、母集団により多くのメンバーを追加するだけでは意味のある拡張ができない。

これらの小規模データセットに追加のレコードを追加することができるが、欠点もある。例えば、発生頻度の低い事象に関するデータを十分に収集し、十分なサイズのデータセットを得るためには、かなりの時間を待たなければならない場合がある。しかし、このような頻度の低い事象に対する追加データの収集に伴う遅延は、受け入れがたいものである可能性がある。別の例として、他の関連する母集団からデータを取得することで、小さな母集団に少なくとも一部に基づくデータセットを補完することができる。しかし、これでは機械学習モデルのベースとして使用されるデータの品質が低下する可能性がある。いくつかの実施例では、この品質低下により、機械学習モデルの性能に許容できない影響を与える可能性がある。

しかしながら、本開示の様々な実施形態によれば、小規模データセットに存在する以前に収集されたデータと十分に区別できない追加レコードを生成することが可能である。その結果、生成されたレコードを用いて、小規模データセットを、所望の機械学習モデル（例えば、ニューラル・ネットワーク、ベイズ・ネットワーク、スパース・マシン・ベクトル、決定木など）を訓練するのに十分なサイズに拡張することができる。以下では、機械学習のためのデータ生成のアプローチについて説明する。

図１に描かれたフローチャートは、本開示の様々な実施形態で用いられるアプローチを紹介する。図１は、本開示の様々な実施形態の概念を示すものであり、追加の詳細は、後続の図の説明において提供される。

開始するために、ステップ１０３で、小規模データセットを使用して、小規模データセットに既に存在するこれらのレコードに類似する人工データ・レコードを生成するために、ジェネレータ機械学習モデルを訓練することができる。データセットが小さいとは、機械学習モデルを正確に訓練させるためにはデータセットのサイズが不十分である場合を指すことができる。小規模データセットの例としては、発生頻度の低い事象のレコードを含むデータセットや、小規模な母集団のメンバーのレコードを含むデータセットなどがある。ジェネレータ機械学習モデルは、ニューラル・ネットワーク又はディープ・ニューラル・ネットワーク、ベイズ・ネットワーク、サポート・ベクター・マシン、決定木、遺伝的アルゴリズム、又は小規模データセットに少なくとも一部に基づいて人工レコードを生成するように訓練又は構成することができる他の機械学習アプローチのいずれかとすることができる。

例えば、ジェネレータ機械学習モデルは、生成敵対的ネットワーク（ＧＡＮ）の構成要素とすることができる。ＧＡＮでは、ジェネレータ機械学習モデルと識別器機械学習モデルを併用し、小規模データセットのサンプル空間にマッピングする確率密度関数（ＰＤＦ２３１）を識別する。ジェネレータ機械学習モデルは、小規模データセットで訓練し、小規模データセットに類似した人工データ・レコードを生成する。識別器機械学習モデルは、小規模データセットを解析することで、実データ・レコードを識別するように訓練される。

その後、ジェネレータ機械学習モデルと識別器機械学習モデルとは、互いに競合することができる。ジェネレータ機械学習モデルは、競合を通じて訓練され、最終的には小規模データセットに含まれる実データ・レコードと区別がつかないような人工データ・レコードが生成される。ジェネレータ機械学習モデルの訓練には、ジェネレータ機械学習モデルで生成した人工データ・レコードと、小規模データセットの実レコードを識別器機械学習モデルに提供する。その後、識別器機械学習モデルにより、どのレコードが人工データ・レコードと考えられるかが決定される。識別器機械学習モデルの決定の結果は、ジェネレータ機械学習モデルに提供され、ジェネレータ機械学習モデルが、識別器機械学習モデルに対して、小規模データセットに含まれる実レコードと区別できない可能性が高い人工データ・レコードを生成するように訓練させる。同様に、識別器機械学習モデルは、その決定の結果を用いて、ジェネレータ機械学習モデルが生成した人工データ・レコードを検出する能力を向上させる。識別器機械学習モデルのエラー率が約５０％（５０％、等倍の人工データをジェネレータに与えたと仮定）であれば、ジェネレータ機械学習モデルが、小規模データセットに既に存在する実データ・レコードと区別できない人工データ・レコードを生成するように訓練されていることを示すものとして用いることができる。

次に、ステップ１０６で、ジェネレータ機械学習モデルを使用して、小規模データセットを拡張するための人工データ・レコードを生成することができる。ＰＤＦ２３１を様々な点でサンプリングし、人工データ・レコードを生成することができる。いくつかの点は、様々な統計的分布（例えば、正規分布）に従って、繰り返しサンプリングされてもよいし、点のクラスタは、互いに近接してサンプリングされてもよい。次に、この人工データ・レコードを小規模データセットと組み合わせることで、拡張データセットを生成することができる。

最後に、ステップ１０９で、拡張データセットを使用して機械学習モデルを訓練することができる。例えば、拡張データセットが特定の顧客プロファイルの顧客データを含んだ場合、拡張データセットは、顧客プロファイル内の顧客に商業又は金融商品を提供するために使用される機械学習モデルを訓練するために使用することができた。しかし、前述の方法で生成した拡張データセットを用いて、あらゆる種類の機械学習モデルを訓練することができる。

図２を参照すると、本開示の様々な実施形態によるコンピューティング環境２００を示す。コンピューティング環境２００は、サーバ・コンピュータ又はコンピューティング能力を提供する他の任意のシステムを含むことができる。或いは、コンピューティング環境２０３は、一つ又は複数のサーバ・バンク又はコンピュータ・バンク又は他の配置に配置することができる複数のコンピューティング・デバイスを採用することが可能である。このようなコンピューティング・デバイスは、一つの施設に設置されることもあれば、地理的に異なる多くの場所に分散されることもある。例えば、コンピューティング環境２００は、一緒にホスト・コンピューティング・リソース、グリッド・コンピューティング・リソース、又は任意の他の分散コンピューティング配置を含むことができる複数のコンピューティング・デバイスを含むことができる。いくつかの場合において、コンピューティング環境２００は、処理、ネットワーク、ストレージ、又は他のコンピューティング関連リソースの割り当てられた容量が時間と共に変化し得る、エラスティック・コンピューティング・リソースに対応し得る。

更に、コンピューティング環境２００内の個々のコンピューティング・デバイスは、ネットワークを介して互いにデータ通信が可能である。ネットワークには、広域ネットワーク（ＷＡＮ）やローカル・エリア・ネットワーク（ＬＡＮ）が含まれ得る。これらのネットワークは、有線又は無線の構成要素、或いはそれらの組み合わせを含むことができる。有線ネットワークには、イーサネット・ネットワーク、ケーブル・ネットワーク、光ファイバー・ネットワーク、ダイヤルアップ、デジタル加入者線（ＤＳＬ）などの電話ネットワーク、統合サービス・デジタル・ネットワーク（ＩＳＤＮ）ネットワークが含まれ得る。無線ネットワークには、携帯電話ネットワーク、衛星ネットワーク、電気電子技術者協会（ＩＥＥＥ）８０２．１１無線ネットワーク（例えば、ＷＩ－ＦＩ（登録商標））、ＢＬＵＥＴＯＯＴＨ（登録商標）ネットワーク、マイクロ波伝送ネットワーク、並びに無線放送に依存するその他のネットワークが含まれ得る。また、ネットワークは、二つ以上のネットワークの組み合わせを含むことができる。ネットワークの例としては、インターネット、イントラネット、エクストラネット、ＶＰＮ（バーチャル・プライベート・ネットワーク）、及び同様のネットワークが含まれ得る。

様々なアプリケーション又は他の機能は、様々な実施形態に従ってコンピューティング環境２００で実行することができる。コンピューティング環境２００上で実行される構成要素は、一つ又は複数のジェネレータ機械学習モデル２０３、一つ又は複数の識別器機械学習モデル２０６、アプリケーション固有の機械学習モデル２０９、及びモデル選択器２１１を含むことができる。しかしながら、コンピューティング環境２００が複数のエンティティ又はテナントによって利用される共有ホスティング環境として実装される場合など、本明細書で詳細に説明しない他のアプリケーション、サービス、プロセス、システム、エンジン、又は機能も、コンピュータ環境２００でホストすることが可能である。

また、コンピューティング環境２０３からアクセス可能なデータ・ストア２１３には、様々なデータが記憶されている。データ・ストア２１３は、リレーショナル・データベース、オブジェクト指向データベース、階層型データベース、ハッシュ・テーブル又は同様のキー値データ・ストア、並びに他のデータ・ストレージ・アプリケーション又はデータ構造を含むことができる複数のデータ・ストア２１３を表すことができる。データ・ストア２１３に記憶されるデータは、以下に説明する様々なアプリケーション又は機能エンティティの動作に関連する。このデータは、元のデータセット２１６、拡張データセット２１９、及び潜在的に他のデータを含むことができる。

元のデータセット２１６は、様々な実世界のソースから収集又は蓄積されたデータを表すことができる。元のデータセット２１６は、一つ又は複数の元のレコード２２３を含むことができる。元のレコード２２３の各々は、元のデータセット２１６内の個々のデータ点を表すことができる。例えば、元のレコード２２３は、ある事象の発生に関連するデータを表すことができる。別の例として、元のレコード２２３は、個体の母集団の中の個体を表すことができる。

通常、元のデータセット２１６は、将来的に予測又は決定を実行するために、アプリケーション固有の機械学習モデル２０９を訓練するために使用することができる。しかしながら、先に述べたように、時には、元のデータセット２１６は、アプリケーション固有の機械学習モデル２０９の訓練に使用するための不十分な数の元のレコード２２３を含むことができる。異なるアプリケーション固有の機械学習モデル２０９は、許容できるほど正確な訓練のための閾値として、異なる最小数の元のレコード２２３を必要とすることができる。これらの例では、拡張データセット２１９は、元のデータセット２１６の代わりに、又はそれに加えて、アプリケーション固有の機械学習モデル２０９を訓練するために使用することができる。

拡張データセット２１９は、アプリケーション固有の機械学習モデル２０９を訓練するのに十分な数のレコードを含むデータの集合を表すことができる。したがって、拡張データセット２１９は、元のデータセット２１６に含まれていた元のレコード２２３と、ジェネレータ機械学習モデル２０３によって生成された新しいレコード２２９の両方を含むことができる。新しいレコード２２９の個々のものは、ジェネレータ機械学習モデル２０３によって生成される一方で、識別器機械学習モデル２０６によって元のレコード２２３と比較されると、元のレコード２２３と区別がつかなくなる。新しいレコード２２９は元のレコード２２３と区別がつかないので、アプリケーション固有の機械学習モデル２０９を訓練するために十分な数のレコードを提供するために、新しいレコード２２９を使用して元のレコード２２３を拡張することができる。

ジェネレータ機械学習モデル２０３は、ＰＤＦ２３１のサンプル空間内に元のレコード２２３を含む確率密度関数２３１（ＰＤＦ２３１）を識別するために実行することができる一つ又は複数のジェネレータ機械学習モデル２０３を表している。ジェネレータ機械学習モデル２０３の例には、ニューラル・ネットワーク又はディープ・ニューラル・ネットワーク、ベイズ・ネットワーク、スパース・マシン・ベクトル、決定木、及び他の任意の適用可能な機械学習技術が含まれる。元のレコード２２３をそのサンプル空間内に含むことができる多くの異なるＰＤＦ２３１が存在するので、複数のジェネレータ機械学習モデル２０３を使用して、異なる潜在的なＰＤＦ２３１を識別することができる。これらの実装では、後述するように、モデル選択器２１１によって、様々な潜在的なＰＤＦ２３１から適切なＰＤＦ２３１が選択され得る。

識別器機械学習モデル２０６は、適切なＰＤＦ２３１を識別するためにそれぞれのジェネレータ機械学習モデル２０３を訓練するために実行することができる一つ又は複数の識別器機械学習モデル２０６を表している。識別器機械学習モデル２０６の例には、ニューラル・ネットワーク又はディープ・ニューラル・ネットワーク、ベイズ・ネットワーク、スパース・マシン・ベクトル、決定木、及び他の任意の適用可能な機械学習技術が含まれる。異なるジェネレータ機械学習モデル２０６は、異なるジェネレータ機械学習モデル２０３の訓練により適している場合があるので、いくつかの実装では、複数の識別器機械学習モデル２０６が使用され得る。

アプリケーション固有の機械学習モデル２０９は、新しいデータ又は状況が提示されたときに、パターンを予測、推論、又は認識するために実行されることができる。アプリケーション固有の機械学習モデル２０９は、信用アプリケーションの評価、異常又は不正な活動（例えば、誤った又は不正な金融取引）の識別、顔認識の実行、音声認識の実行（例えば、電話中のユーザー又は顧客を認証する）、及び他の様々な活動などの様々な状況で使用することができる。その機能を果たすために、アプリケーション固有の機械学習モデル２０９は、既知の又は既存のデータのコーパスを使用して訓練することができる。これは、元のデータセット２１６、又は元のデータセット２１６がアプリケーション固有の機械学習モデル２０９を適切に訓練するために不十分な数の元のレコード２２３を有する状況において、訓練目的のために生成された拡張データセット２１９を含むことが可能である。

勾配ブースト機械学習モデル２１０は、新しいデータ又は状況が提示されたときに、パターンを予測、推論、又は認識するために実行され得る。各勾配ブースト機械学習モデル２１０は、様々な勾配ブースト技術を使用して、それぞれのジェネレータ機械学習モデル２０３によって識別されたＰＤＦ２３１から生成された機械学習モデルを表すことができる。後述するように、最良の性能を有する勾配ブースト機械学習モデル２１０は、様々なアプローチを用いて、アプリケーション固有の機械学習モデル２０９として使用するためにモデル選択器２１１によって選択されることができる。

モデル選択器２１１は、個々のジェネレータ機械学習モデル２０３及び／又は識別器機械学習モデル２０６の訓練進捗を監視するために実行され得る。理論的には、元のデータセット２１６の元のレコード２２３を含む同じサンプル空間に対して、無限個のＰＤＦ２３１が存在する。その結果、いくつかの個別ジェネレータ機械学習モデル２０３は、他のＰＤＦ２３１よりもサンプル空間に良く適合するＰＤＦ２３１を識別することができる。より良く適合するＰＤＦ２３１は、一般に、サンプル空間に対してより悪く適合するＰＤＦ２３１よりも、拡張データセット２１９に含めるための、より質の高い新しいレコード２２９を生成することになる。したがって、モデル選択器２１１は、後で更に詳細に説明するように、より良く適合するＰＤＦ２３１を識別したそれらのジェネレータ機械学習モデル２０３を識別するために実行され得る。

次に、コンピューティング環境２００の様々な構成要素の動作の一般的な説明を行う。以下の記述は、コンピューティング環境２００の様々な構成要素の動作及び構成要素間の相互作用の例示であるが、個々の構成要素の動作は、図３及び４に付随する説明において更に詳細に説明されている。

開始するために、一つ又は複数のジェネレータ機械学習モデル２０３及び識別器機械学習モデル２０６を生成して、ＰＤＦ２３１のサンプル空間内に元のレコード２２３を含む適切なＰＤＦ２３１を識別することが可能である。先に述べたように、ＰＤＦ２３１のサンプル空間内に元のデータセット２１６の元のレコード２２３を含むＰＤＦ２３１は理論的に無限個存在する。

最終的に最も適切なＰＤＦ２３１を選択できるようにするために、複数のジェネレータ機械学習モデル２０３を使用して、個々のＰＤＦ２３１を識別することができる。各ジェネレータ機械学習モデル２０３は、様々な方法で他のジェネレータ機械学習モデル２０３と異なることができる。例えば、いくつかのジェネレータ機械学習モデル２０３は、個々のジェネレータ機械学習モデル２０３を形成するニューラル・ネットワーク内の個々のパーセプトロンの様々な入力又は出力に適用される異なる重みを有していてもよい。他のジェネレータ機械学習モデル２０３は、互いに関して異なる入力を利用してもよい。更に、異なる識別器機械学習モデル２０６は、新しいレコード２２９を生成するための適切なＰＤＦ２３１を識別するために特定のジェネレータ機械学習モデル２０３を訓練する際に、より効果的である可能性がある。同様に、個々の識別器機械学習モデル２０６は、異なる入力を受け入れるか、又は個々の識別器機械学習モデル２０６の基礎となるニューラル・ネットワークを形成する個々のパーセプトロンの入力又は出力に割り当てられた重みを有することができる。

次に、各ジェネレータ機械学習モデル２０３は、各識別器機械学習モデル２０６と対にされ得る。これは、いくつかの実装において手動で行われ得るが、モデル選択器２１１は、使用されるジェネレータ機械学習モデル２０３及び識別器機械学習モデル２０６のリストを提供されることに応答して、ジェネレータ機械学習モデル２０３と識別器機械学習モデル２０６を自動的に対にすることも可能である。いずれの場合も、モデル選択器２１１が様々なジェネレータ機械学習モデル２０３及び識別器機械学習モデル２０６の性能を監視及び／又は評価するために、ジェネレータ機械学習モデル２０３及び識別器機械学習モデル２０６の各対がモデル選択器２１１に登録される。

次に、ジェネレータ機械学習モデル２０３及び識別器機械学習モデル２０６は、元のデータセット２１６の元のレコード２２３を用いて訓練され得る。ジェネレータ機械学習モデル２０３は、元のレコード２２３と区別できない新しいレコード２２９を生成しようとするように訓練することができる。識別器機械学習モデル２０６は、それが評価しているレコードが、元のデータセット内の元のレコード２２３であるか、又はそのそれぞれのジェネレータ機械学習モデル２０３によって生成された新しいレコード２２９であるかを識別するように訓練することができる。

一旦訓練されると、ジェネレータ機械学習モデル２０３及び識別器機械学習モデル２０６は、競合するために実行され得る。競合の各ラウンドでは、ジェネレータ機械学習モデル２０３が新しいレコード２２９を生成し、このレコードは識別器機械学習モデル２０６に提示される。次に、識別器機械学習モデル２０６は、新しいレコード２２９を評価し、新しいレコード２２９が元のレコード２２３であるか、実際に新しいレコード２２９であるかを決定する。そして、その評価結果を用いて、ジェネレータ機械学習モデル２０３と識別器機械学習モデル２０６の両方を訓練させ、それぞれの性能を向上させる。

ジェネレータ機械学習モデル２０３と識別器機械学習モデル２０６の対が、それぞれのＰＤＦ２３１を識別するために元のレコード２２３を使用して実行されたとき、モデル選択器２１１は、ジェネレータ機械学習モデル２０３と識別器機械学習モデル２０６との性能に関連する様々な測定基準を監視することが可能である。例えば、モデル選択器２１１は、ジェネレータ機械学習モデル２０３と識別器機械学習モデル２０６の各対のジェネレータ損失ランク、識別器損失ランク、ラン・レングス、及び差分ランクを追跡することができる。また、モデル選択器２１１は、これらの要因のうちの一つ又は複数を用いて、ジェネレータ機械学習モデル２０３によって識別された複数のＰＤＦ２３１の中から、好ましいＰＤＦ２３１を選択することもできる。

ジェネレータ損失ランクは、ジェネレータ機械学習モデル２０３によって生成されたデータ・レコードが、元のデータセット２１６の元のレコード２２３とどの程度頻繁に間違われるかを表すことができる。当初、ジェネレータ機械学習モデル２０３は、元のデータセット２１６の元のレコード２２３と容易に区別できる低品質のレコードを生成することが期待される。しかし、ジェネレータ機械学習モデル２０３が複数の反復を通じて訓練され続けると、ジェネレータ機械学習モデル２０３は、それぞれの識別器機械学習モデル２０６が元のデータセット２１６の元のレコード２２３と区別することが難しくなる、より質の高いレコードを生成することが期待される。その結果、ジェネレータ損失ランクは、１００％の損失ランクから低い損失ランクへと時間の経過と共に減少していく必要がある。損失ランクが低いほど、ジェネレータ機械学習モデル２０３は、それぞれの識別器機械学習モデル２０６が元のレコード２２３と区別がつかない新しいレコード２２９を生成するのにより有効である。

同様に、識別器損失ランクは、識別器機械学習モデル２０６が、元のレコード２２３とそれぞれのジェネレータ機械学習モデル２０３によって生成された新しいレコード２２９との間を正しく区別することにどの程度頻繁に失敗するかを表すことができる。当初、ジェネレータ機械学習モデル２０３は、元のデータセット２１６の元のレコード２２３と容易に区別できる低品質のレコードを生成することが期待される。その結果、識別器機械学習モデル２０６は、レコードが元のレコード２２３であるか、ジェネレータ機械学習モデル２０６によって生成された新しいレコード２２９であるかを決定する際に、初期エラー率が０％であることが期待されるであろう。識別器機械学習モデル２０６は、複数回の反復により訓練を続けるので、識別器機械学習モデル２０６は、元のレコード２２３と新しいレコード２２９とを区別し続けることができる必要がある。したがって、識別器損失ランクが高いほど、ジェネレータ機械学習モデル２０３は、それぞれの識別器機械学習モデル２０６が元のレコード２２３と区別がつかない新しいレコード２２９を生成するのにより有効である。

ラン・レングスは、ジェネレータ機械学習モデル２０３のジェネレータ損失ランクが減少する一方で、識別器機械学習モデル２０６の識別器損失ランクが同時に増加するラウンド数を表すことができる。一般に、ラン・レングスが長いほど、ラン・レングスが短いものと比較して、ジェネレータ機械学習モデル２０３の性能が高いことを示す。いくつかの実施例では、ジェネレータ機械学習モデル２０３と識別器機械学習モデル２０６の対に関連する複数のラン・レングスが存在する可能性がある。これは、例えば、機械学習モデルの対が、ジェネレータ損失ランクが減少し、一方、識別器損失ランクが増加する連続したラウンドのいくつかの異なるセットを有し、同時に変化が発生しない一つ又は複数のラウンドで中断されている場合に発生する可能性がある。これらの状況において、ジェネレータ機械学習モデル２０３の評価には、最も長いラン・レングスが使用されてもよい。

差分ランクは、識別器損失ランクとジェネレータ損失ランクとの差率を表すことができる。差分ランクは、ジェネレータ機械学習モデル２０３と識別器機械学習モデル２０６の訓練において、異なる時点で変化し得る。いくつかの実装では、モデル選択器２１１は、訓練中に変化する差分ランクを追跡することができ、又は最小又は最大の差分ランクのみを追跡することができる。一般に、ジェネレータ機械学習モデル２０３と識別器機械学習モデル２０６との差分ランクが大きいことは、通常、ジェネレータ機械学習モデル２０３が高品質人工データと元のレコード２２３とを概ね区別可能な識別器機械学習モデル２０６に対して区別不能な高品質人工データを生成していることを示すので好ましい。

モデル選択器２１１はまた、ジェネレータ機械学習モデル２０３によって識別されたＰＤＦ２３１と元のデータセット２１６内の元のレコード２２３との適合性をテストするために、コルモゴロフ・スミルノフ検定（ＫＳ検定）を実行することもできる。得られたＫＳ統計が小さいほど、ジェネレータ機械学習モデル２０３が、元のデータセット２１６の元のレコード２２３に密接に適合するＰＤＦ２３１を識別した可能性が高い。

ジェネレータ機械学習モデル２０３が十分に訓練された後、モデル選択器２１１は、ジェネレータ機械学習モデル２０３によって識別された一つ又は複数の潜在的なＰＤＦ２３１を選択できる。例えば、モデル選択器２１１は、識別されたＰＤＦ２３１をソートし、最長ラン・レングスに関連する（又は複数の）第１のＰＤＦ２３１、最低ジェネレータ損失ランクに関連する第２のＰＤＦ２３１、最高の識別器損失ランクに関連する第３のＰＤＦ２３１、最高の差分ランクを有する第４のＰＤＦ２３１、最小ＫＳ統計を有する第５のＰＤＦ２３１を選択し得る。しかし、あるＰＤＦ２３１は、複数のカテゴリで最も性能が高いＰＤＦ２３１である可能性がある。これらの状況では、モデル選択器２１１は、更なるテストのために、そのカテゴリ内の追加のＰＤＦ２３１を選択し得る。

モデル選択器２１１は、次に、選択されたＰＤＦ２３１のそれぞれをテストして、どのＰＤＦ２３１が最も性能が良いかを決定することができる。ジェネレータ機械学習モデル２０３によって生成されたＰＤＦ２３１を選択するために、モデル選択器２１１は、選択されたジェネレータ機械学習モデル２０３によって識別された各ＰＤＦ２３１を使用して、新しいレコード２２９を含む新しいデータセットを生成し得る。いくつかの実施例では、新しいレコード２２９を元のレコード２２３と結合して、各々それぞれのＰＤＦ２３１のためのそれぞれの拡張データセット２１９を生成することができる。次に、一つ又は複数の勾配ブースト機械学習モデル２１０が、様々な勾配ブースト技術を使用して、モデル選択器２１１によって生成され、訓練されることができる。勾配ブースト機械学習モデル２１０のそれぞれは、それぞれのＰＤＦ２３１のそれぞれの拡張データセット２１９、又はそれぞれのＰＤＦ２３１によって生成されたそれぞれの新しいレコード２２９だけを含むより小規模なデータセットを用いて訓練することができる。その後、各勾配ブースト機械学習モデル２１０の性能は、元のデータセット２１６の元のレコード２２３を使用して検証することができる。そして、最も性能の良い勾配ブースト機械学習モデル２１０は、モデル選択器２１１によって、特定のアプリケーションで使用するためのアプリケーション固有の機械学習モデル２０９として選択されることができる。

次に、図３Ａを参照すると、様々な実施形態によるジェネレータ機械学習モデル２０３と識別器機械学習モデル２０６との間の相互作用の一例を提供するシーケンス図が示されている。代替案として、図３Ａのシーケンス図は、本開示の一つ又は複数の実施形態によるコンピューティング環境２００において実装される方法の要素の一例を示すものとして見ることができる。

ステップ３０３ａから始まって、ジェネレータ機械学習モデル２０３は、新しいレコード２２９の形で人工データを生成するように訓練され得る。ジェネレータ機械学習モデル２０３は、様々な機械学習技術を使用して、元のデータセット２１６に存在する元のレコード２２３を使用して訓練することができる。例えば、ジェネレータ機械学習モデル２０３は、新しいレコード２２９を生成するために、元のレコード２２３の間の類似性を識別するように訓練することができる。

ステップ３０６ａで並行して、識別器機械学習モデル２０６は、元のレコード２２３とジェネレータ機械学習モデル２０３によって生成された新しいレコード２２９とを区別するように訓練することができる。識別器機械学習モデル２０６は、様々な機械学習技術を使用して、元のデータセット２１６に存在する元のレコード２２３を使用して訓練させることができる。例えば、識別器機械学習モデル２０６は、元のレコード２２３間の類似性を識別するように訓練することができる。元のレコード２２３と十分に類似していない任意の新しいレコード２２９は、したがって、元のレコード２２３のうちの一つではないと識別され得る。

次にステップ３０９ａで、ジェネレータ機械学習モデル２０３は、新しいレコード２２９を生成する。新しいレコード２２９は、既存の元のレコード２２３とできるだけ類似するように生成することができる。そして、新しいレコード２２９は、更なる評価のために識別器機械学習モデル２０６に供給される。

次に、ステップ３１３ａで、識別器機械学習モデル２０６は、ジェネレータ機械学習モデル２０３によって生成された新しいレコード２２９を評価し、それが元のレコード２２３と区別可能であるかどうかを決定することができる。評価を行った後、識別器機械学習モデル２０６は、その評価が正しかったかどうか（例えば、識別器機械学習モデル２０６は、新しいレコード２２９を新しいレコード２２９又は元のレコード２２３として正しく識別したか）を決定することが可能である。そして、その評価結果をジェネレータ機械学習モデル２０３に返すことができる。

ステップ３１６ａで、識別器機械学習モデル２０６は、ステップ３１３ａで実行された評価結果を用いて、自身を更新する。更新は、バック・プロパゲーションなど、様々な機械学習技術を用いて実行することができる。更新の結果、識別器機械学習モデル２０６は、ステップ３０９ａでジェネレータ機械学習モデル２０３によって生成された新しいレコード２２９を、元のデータセット２１６の元のレコード２２３と区別することがより良くできるようになる。

ステップ３１９ａで並行して、ジェネレータ機械学習モデル２０３は、識別器機械学習モデル２０６によって提供される結果を使用して、それ自体を更新する。更新は、バック・プロパゲーションなど、様々な機械学習技術を用いて実行することができる。更新の結果、ジェネレータ機械学習モデル２０３は、元のデータセット２１６の元のレコード２２３とより類似し、したがって、識別器機械学習モデル２０６によって元のレコード２２３と区別しにくい新しいレコード２２９を生成することがより良くできるようになる。

ステップ３１６ａ及び３１９ａでジェネレータ機械学習モデル２０３及び識別器機械学習モデル２０６を更新した後、ステップ３０９ａから３１９ａを繰り返すことによって、二つの機械学習モデルを更に訓練し続けることができる。二つの機械学習モデルは、識別器機械学習モデル２０６の識別器損失ランク及び／又はジェネレータ損失ランクが好ましくは所定のパーセンテージ（例えば、５０％）に達するときなど、所定の反復の数だけ又は閾値条件が満たされるまでステップ３０９ａから３１９ａを繰り返してもよい。

図３Ｂは、ジェネレータ機械学習モデル２０３と識別器機械学習モデル２０６との間の相互作用のより詳細な例を提供するシーケンス図を示す。代替案として、図３Ｂのシーケンス図は、本開示の一つ又は複数の実施形態によるコンピューティング環境２００において実装される方法の要素の一例を示すものとして見ることができる。

ステップ３０１ｂから始まって、ジェネレータ機械学習モデル２０３のパラメータは、ランダムに初期化され得る。同様にステップ３０３ｂで、識別器機械学習モデル２０６のパラメータもランダムに初期化することができる。

次に、ステップ３０６ｂで、ジェネレータ機械学習モデル２０３は、新しいレコード２２９を生成することができる。最初の新しいレコード２２９は、ジェネレータ機械学習モデル２０３がまだ訓練されていないため、品質が悪く、及び／又は性質がランダムである可能性がある。

次にステップ３０９ｂで、ジェネレータ機械学習モデル２０３は、新しいレコード２２９を識別器機械学習モデル２０６に渡すことができる。いくつかの実装では、元のレコード２２３はまた、識別器機械学習モデル２０６に渡すことができる。しかし、他の実装では、元のレコード２２３は、応答して識別器機械学習モデル２０６により検索され得る。

ステップ３１１ｂに進むと、識別器機械学習モデル２０６は、新しいレコード２２９の第１のセットと元のレコード２２３とを比較することができる。新しいレコード２２９のそれぞれについて、識別器機械学習モデル２０６は、新しいレコード２２９を、新しいレコード２２９の一つとして、又は元のレコード２２３の一つとして識別することができる。この比較結果は、ジェネレータ機械学習モデルに渡される。

次にステップ３１３ｂで、識別器機械学習モデル２０６は、ステップ３１１ｂで行った評価結果を用いて、自身を更新する。更新は、バック・プロパゲーションなど、様々な機械学習技術を用いて実行することができる。更新の結果、識別器機械学習モデル２０６は、ステップ３０６ｂでジェネレータ機械学習モデル２０３によって生成された新しいレコード２２９を、元のデータセット２１６の元のレコード２２３と区別することがより良くできるようになる。

次に、ステップ３１６ｂで、ジェネレータ機械学習モデル２０３は、生成できる新しいレコード２２９の品質を改善するためにそのパラメータを更新することができる。更新は、ステップ３１１ｂで識別器機械学習モデル２０６によって実行された、新しいレコード２２９の第１のセットと元のレコード２２３との間の比較の結果に少なくとも一部に基づくことが可能である。例えば、ジェネレータ機械学習モデル２０３の個々のパーセプトロンは、識別器機械学習モデル２０６から受け取った結果を用いて、様々なフォワード及び／又はバック・プロパゲーション技術を用いて更新することができる。

ステップ３１９ｂに進むと、ジェネレータ機械学習モデル２０３は、新しいレコード２２９の追加のセットを生成することができる。この追加の新しいレコード２２９のセットは、ステップ３１６ｂからの更新されたパラメータを使用して生成することができる。これらの追加の新しいレコード２２９は、次に、評価のために識別器機械学習モデル２０６に提供することができ、結果は、ステップ３０９ｂ～３１６ｂで前述したように、ジェネレータ機械学習モデル２０３を更に訓練するために使用することができる。このプロセスは、好ましくは、新しいレコード２２９と元のレコード２２３との量が等しいと仮定して、識別器機械学習モデル２０６のエラー率が約５０％になるまで、又は他の方法でハイパーパラメータによって他に許容されるように、繰り返し続けることが可能である。

次に、図４を参照すると、様々な実施形態によるモデル選択器２１１の一部の動作の一例を提供するフローチャートが示される。図４のフローチャートは、モデル選択器２１１の図示部分の動作を実装するために採用することができる多くの異なるタイプの機能配置の単なる一例を提供するものであることが理解される。代替案として、図４のフローチャートは、本開示の一つ又は複数の実施形態による、コンピューティング環境２００において実装される方法の要素の一例を示すものとして見ることができる。

ステップ４０３から始まって、モデル選択器２１１は、一つ又は複数のジェネレータ機械学習モデル２０３を初期化し、一つ又は複数の識別器機械学習モデル２０６はその実行を開始する。例えば、モデル選択器２１１は、ジェネレータ機械学習モデル２０３の各インスタンスの入力に対してランダムに選択された重みを使用して、ジェネレータ機械学習モデル２０３の複数のインスタンスをインスタンス化することが可能である。同様に、モデル選択器２１１は、識別器機械学習モデル２０６の各インスタンスの入力に対してランダムに選択された重みを使用して、識別器機械学習モデル２０６の複数のインスタンスをインスタンス化することが可能である。別の例として、モデル選択器２１１は、ジェネレータ機械学習モデル２０３及び／又は識別器機械学習モデル２０６の以前に生成されたインスタンス又はバリエーションを選択し得る。インスタンス化されるジェネレータ及び識別器機械学習モデル２０３、２０６の数は、ランダムに選択されてもよいし、所定の又は以前に指定された基準（例えば、モデル選択器２１１の構成で指定された所定の数）に従って選択されてもよい。いくつかの識別器機械学習モデル２０６は、他の識別器機械学習モデル２０６と比較して、特定のジェネレータ機械学習モデル２０３の訓練に適している場合があるので、ジェネレータ機械学習モデル２０３の各インスタンス化されたインスタンスは、識別器機械学習モデル２０６の各インスタンス化されたインスタンスと対にすることも可能である。

次にステップ４０６で、モデル選択器２１１はその後、図３Ａ又は３Ｂのシーケンス図に示されるプロセスに従って、ジェネレータ及び識別器機械学習モデル２０３及び２０６の各対が、それらが互いに訓練するために新しいレコード２２９を生成するときの性能を監視する。図３Ａ又は３Ｂに描かれたプロセスの各反復について、モデル選択器２１１は、対になったジェネレータ及び識別器機械学習モデル２０３及び２０６に関連する関連性能データを追跡、決定、評価、又は他の方法で識別することができる。これらの性能指標は、対になったジェネレータと識別器機械学習モデル２０３、２０６とのラン・レングス、ジェネレータ損失ランク、識別器損失ランク、差分ランク、ＫＳ統計を含むことができる。

続いてステップ４０９で、モデル選択器２１１は、ステップ４０６で収集された性能の測定基準に従って、ステップ４０３でインスタンス化された各ジェネレータ機械学習モデル２０３をランク付けすることが可能である。このランキングは、様々な条件に応じて発生し得る。例えば、モデル選択器２１１は、各ジェネレータ機械学習モデル２０３の所定の回数の反復が行われた後に、ランキングを実行することができる。別の例として、モデル選択器２１１は、ジェネレータ及び識別器機械学習モデル２０３及び２０６の対の一つ又は複数が最小ラン・レングスに達する、或いはジェネレータ損失ランク、識別器損失ランク、及び／又は差分ランクの閾値を横断するなど、特定の閾値条件又は事象が発生した後にランキングを実行することが可能である。

ランキングは、任意の数の方法で実施することができる。例えば、モデル選択器２１１は、ジェネレータ機械学習モデル２０６に対して複数のランキングを生成することができる。第１のランキングは、ラン・レングスに少なくとも一部に基づくことができる。第２のランキングは、ジェネレータ損失ランクに少なくとも一部に基づくことができる。第３のランキングは、識別器損失ランクに少なくとも一部に基づくことができる。第４のランキングは、差分ランキングに少なくとも一部に基づくことができる。最後に、第５のランキングは、ジェネレータ機械学習モデル２０３のＫＳ統計に少なくとも一部に基づくことができる。いくつかの実施例では、これらの要素をそれぞれ考慮した単一のランキングを利用することも可能である。

次にステップ４１３で、モデル選択器２１１は、ステップ４０９でランク付けされた上位ランクのジェネレータ機械学習モデル２０３の各々に関連するＰＤＦ２３１を選択することが可能である。例えば、モデル選択器２１１は、最長のラン・レングスに関連するジェネレータ機械学習モデル２０３のＰＤＦ２３１を表す第１のＰＤＦ２３１、最低のジェネレータ損失ランクに関連するジェネレータ機械学習モデル２０３のＰＤＦ２３１を表す第２のＰＤＦ２３１、最高の識別器損失ランクに関連するジェネレータ機械学習モデル２０３のＰＤＦ２３１を表す第３のＰＤＦ２３１、最高の差分ランクに関連するジェネレータ機械学習モデル２０３のＰＤＦ２３１を表す第４のＰＤＦ２３１、又は最高のＫＳ統計に関連するジェネレータ機械学習モデル２０３のＰＤＦ２３１を表す第５のＰＤＦ２３１を選択し得る。しかし、ＰＤＦ２３１を追加で選択することも可能である（各カテゴリの上位２、３、５など）。

ステップ４１６に進むと、モデル選択器２１１は、ステップ４１３で選択されたＰＤＦ２３１のそれぞれを使用して、別々の拡張データセット２１９を生成することができる。拡張データセット２１９を生成するために、モデル選択器２１１は、それぞれのＰＤＦ２３１を使用して、所定の、又は以前に指定された数の新しいレコード２２９を生成することができる。例えば、各々のそれぞれのＰＤＦ２３１は、ＰＤＦ２３１によって定義されるサンプル空間内の所定の又は以前に指定された数の点でランダムにサンプリング又は選択され得る。そして、新しいレコード２２９の各セットは、元のレコード２２３と組み合わせて、拡張データセット２１９に記憶することができる。しかし、いくつかの実装では、モデル選択器２１１は、拡張データセット２１９に新しいレコード２２９のみを記憶することができる。

次に、ステップ４１９で、モデル選択器２１１は、勾配ブースト機械学習モデル２１０のセットを生成することができる。例えば、ＸＧＢＯＯＳＴライブラリを用いて、勾配ブースト機械学習モデル２１０を生成することができる。しかし、他の勾配ブースティング・ライブラリやアプローチも使用可能である。各勾配ブースト機械学習モデル２１０は、拡張データセット２１９のそれぞれの一つを使用して訓練することができる。

続いてステップ４２３で、モデル選択器２１１は、ステップ４１９で生成された勾配ブースト機械学習モデル２１０をランク付けすることができる。例えば、モデル選択器２１１は、元のデータセット２１６の元のレコード２２３を使用して、勾配ブースト機械学習モデル２１０の各々を検証することが可能である。別の例として、モデル選択器２１１は、時間外検証データ又は他のデータソースを用いて、勾配ブースト機械学習モデル２１０の各々を検証することが可能である。次に、モデル選択器２１１は、元のレコード２２３又は時間外検証データを用いて検証したときのそれらの性能に少なくとも一部に基づいて、勾配ブースト機械学習モデル２１０の各々をランク付けすることができる。

最後に、ステップ４２６で、モデル選択器２１１は、使用するアプリケーション固有の機械学習モデル２０９として、最良又は最高ランクの勾配ブースト機械学習モデル２１０を選択することができる。次に、アプリケーション固有の機械学習モデル２０９は、元のデータセット２１６によって表される事象又は母集団に関連する予測を行うために使用することができる。

先に説明した多数のソフトウェア構成要素は、それぞれのコンピューティング・デバイスのメモリに記憶され、それぞれのコンピューティング・デバイスのプロセッサによって実行可能である。この点、「実行可能」という用語は、最終的にプロセッサで実行可能な形態にあるプログラム・ファイルを意味する。実行可能なプログラムの例としては、メモリのランダム・アクセス部分にロードしてプロセッサによって実行できる形式の機械コード、メモリのランダム・アクセス部分にロードしてプロセッサによって実行できるオブジェクトコードなどの適切な形式で表現できるソース・コード、又は別の実行可能プログラムによって解釈されてプロセッサによって実行するためにメモリのランダム・アクセス部分に命令を生成できるソース・コードに変換できるコンパイル・プログラムを挙げることができる。実行可能なプログラムは、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、ハード・ドライブ、ソリッドステート・ドライブ、ユニバーサル・シリアル・バス（ＵＳＢ）フラッシュ・ドライブ、メモリ・カード、コンパクト・ディスク（ＣＤ）やデジタル・バーサタイル・ディスク（ＤＶＤ）などの光ディスク、フロッピー・ディスク、磁気テープを含むメモリの任意の部分又は構成要素又は他のメモリ構成要素に記憶することができる。

メモリは、揮発性メモリと不揮発性メモリの両方及びデータ記憶構成要素を含む。揮発性構成要素とは、電源を切ってもデータの値が保持されない構成要素のことである。不揮発性構成要素とは、電源を切ってもデータを保持する構成要素である。したがって、メモリは、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、ハード・ディスク・ドライブ、ソリッドステート・ドライブ、ＵＳＢフラッシュ・ドライブ、メモリ・カード・リーダーを介してアクセスされるメモリ・カード、関連するフロッピー・ディスク・ドライブを介してアクセスされるフロッピー・ディスク、光ディスク・ドライブを介してアクセスされる光ディスク、適切なテープ・ドライブを介してアクセスされる磁気テープ、又は他のメモリ構成要素、或いはこれらのメモリ構成要素の任意の二つ以上の組み合わせを含むことが可能である。更に、ＲＡＭには、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）、又は磁気ランダム・アクセス・メモリ（ＭＲＡＭ）などのデバイスを含めることができる。ＲＯＭは、プログラム可能な読み取り専用メモリ（ＰＲＯＭ）、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、又は他の同様のメモリ・デバイスを含むことができる。

本明細書で説明した様々なシステムは、上述したように汎用ハードウェアによって実行されるソフトウェア又はコードで具現化することができるが、代替案として、同じものを専用ハードウェア又はソフトウェア／汎用ハードウェアと専用ハードウェアの組み合わせで具現化することも可能である。専用のハードウェアで具現化する場合は、複数の技術のいずれか一つ、又は複数の技術の組み合わせを使用する回路又はステート・マシンとして実装することができる。これらの技術には、一つ又は複数のデータ信号の印加により様々な論理機能を実装する論理ゲートを有するディスクリート論理回路、適切な論理ゲートを有する特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラム可能なゲート・アレイ（ＦＰＧＡ）、その他の構成要素等を含むことができるが、これらに限定されるものではない。このような技術は、当業者には一般的によく知られているため、本明細書では詳しく説明しない。

フローチャートとシーケンス図は、先に説明した様々なアプリケーションの一部の実装の機能と動作を示すものである。ソフトウェアで具現化する場合、各ブロックは、指定された論理機能を実装するためのプログラム命令を含むコードのモジュール、セグメント、又は部分を表すことができる。プログラム命令は、プログラミング言語で書かれた人間が読めるステートメントを含むソース・コード、又はコンピュータ・システム内のプロセッサなどの適切な実行システムによって認識可能な数値命令を含む機械コードの形態で具現化することができる。ソース・コードから様々なプロセスを経て、機械コードを変換することができる。例えば、対応するアプリケーションの実行に先立ち、コンパイラでソース・コードから機械コードを生成することができる。別の例として、インタープリタによる実行と同時にソース・コードから機械コードを生成することができる。また、その他のアプローチも使用可能である。ハードウェアで具現化する場合、各ブロックは、指定された一つ又は複数の論理機能を実装するための回路又は相互に接続された複数の回路を表すことができる。

フローチャートとシーケンス図は特定の実行順序を示しているが、実行順序は描かれているものとは異なる可能性があることが理解される。例えば、二つ以上のブロックの実行順序を、表示されている順序に対してスクランブルすることができる。また、フローチャートやシーケンス図に連続して示される二つ以上のブロックは、同時に、或いは部分的に同時進行で実行することが可能である。更に、いくつかの実施形態では、フローチャート又はシーケンス図に示されるブロックの一つ又は複数をスキップ又は省略することができる。更に、ユーティリティの向上、アカウンティング、性能測定、トラブルシューティングの補助の提供などを目的として、本書に記載されている論理フローに、任意の数のカウンタ、状態変数、警告セマフォ、又はメッセージを追加することができる。このようなすべての変形は、本開示の範囲内であることが理解される。

また、ソフトウェア又はコードを含む本明細書に記載の任意の論理又はアプリケーションは、コンピュータ・システム又は他のシステムにおけるプロセッサなどの命令実行システムによって又はそれに関連して使用するための任意の非一時的なコンピュータ可読媒体に具現化することが可能である。この意味で、論理は、コンピュータ可読媒体からフェッチされ、命令実行システムによって実行され得る命令及び宣言を含むステートメントを含むことができる。本開示の文脈では、「コンピュータ可読媒体」は、命令実行システムによって、又は命令実行システムに関連して使用するために、本明細書に記載の論理又はアプリケーションを含み、記憶、又は維持できる任意の媒体であり得る。

コンピュータ可読媒体は、磁気媒体、光学媒体、又は半導体媒体などの多くの物理媒体のうちの任意の一つを含むことができる。適切なコンピュータ可読媒体のより具体的な例としては、磁気テープ、磁気フロッピー・ディスク、磁気ハード・ディスク、メモリ・カード、ソリッドステート・ドライブ、ＵＳＢフラッシュ・ドライブ、又は光ディスクが挙げられるが、これらに限定されるものではない。また、コンピュータ可読媒体は、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）及びダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）を含むランダム・アクセス・メモリ（ＲＡＭ）、又は磁気ランダム・アクセス・メモリ（ＭＲＡＭ）であってもよい。更に、コンピュータ可読媒体は、読み取り専用メモリ（ＲＯＭ）、プログラム可能読み取り専用メモリ（ＰＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭ）、電気的に消去可能プログラム可能読み取り専用メモリ（ＥＥＰＲＯＭ）などのタイプのメモリ・デバイスであってもよい。

更に、本明細書に記載された任意の論理又はアプリケーションは、様々な方法で実装及び構造化することができる。例えば、説明した一つ又は複数のアプリケーションは、一つのアプリケーションのモジュール又は構成要素として実装することができる。更に、本明細書に記載された一つ又は複数のアプリケーションは、共有又は別々のコンピューティング・デバイス、又はそれらの組み合わせで実行することができる。例えば、本明細書で説明する複数のアプリケーションは、同じコンピューティング・デバイスで実行することもできるし、同じコンピューティング環境２００内の複数のコンピューティング・デバイスで実行することもできる。

句「Ｘ、Ｙ、又はＺの少なくとも一つ」のような離接的な言語は、特に断らない限り、他の方法で、アイテム、用語などがＸ、Ｙ、又はＺのいずれか、又はそれらの任意の組み合わせ（例えば、Ｘ、Ｙ、又はＺ）であり得ることを示すために一般的に使用されていると文脈と共に理解される。したがって、このような離接的な言語は、一般に、特定の実施形態では、Ｘの少なくとも一つ、Ｙの少なくとも一つ、又はＺの少なくとも一つがそれぞれ存在する必要があることを意味するものではなく、また、そのようなことを意味すべきではない。

本開示の上述の実施形態は、本開示の原理を明確に理解するために提示された実装の可能な実施例に過ぎないことを強調する必要がある。本開示の趣旨及び原理から実質的に逸脱することなく、上述した実施形態に対して多くの変形及び修正を行うことができる。このようなすべての修正及び変形は、本開示の範囲内に含まれ、以下の特許請求の範囲によって保護されることが意図される。

本開示のいくつかの例示的な実装は、以下の条項で規定される。これらの条項は、本開示の様々な実装及び実施形態を例示するものであるが、これらの条項は、先の説明において例示されたように、本開示の唯一の実装又は実施形態のみの説明ではない。

条項１－プロセッサ及びメモリを備えるコンピューティング・デバイスと、メモリに記憶された訓練データセットであって、複数のレコードを備える、訓練データセットと、メモリに記憶され、プロセッサによって実行されたとき、コンピューティング・デバイスに少なくとも、複数のレコード間の共通の特性又は類似性を識別するために訓練データセットを解析することと、複数のレコード間の識別された共通の特性又は類似性に少なくとも一部に基づいて、新しいレコードを生成することと、を行わせる、第１の機械学習モデルと、メモリに記憶され、プロセッサにより実行されたとき、コンピューティング・デバイスに少なくとも、複数のレコード間の共通の特性又は類似性を識別するために訓練データセットを解析することと、第１の機械学習モデルによって生成された新しいレコードを評価し、新しいレコードが訓練データセット内の複数のレコードと区別できないかどうかを決定することと、新しいレコードの評価に少なくとも一部に基づいて、第１の機械学習モデルを更新することと、新しいレコードの評価に少なくとも一部に基づいて、第２の機械学習モデルを更新することと、を行わせる、第２の機械学習モデルと、を含む、システム。

条項２－第１の機械学習モデルは、コンピューティング・デバイスに複数の新しいレコードを生成させ、システムは、第１の機械学習モデルによって生成された複数の新しいレコードを使用して訓練される、メモリに記憶された第３の機械学習モデルを更に備える、条項１のシステム。

条項３－複数の新しいレコードは、第２の機械学習モデルが第１の機械学習モデルによって生成された新しいレコードと訓練データセット内の複数のレコードの個々のものとを区別することができないという決定に応答して生成される、条項１又は２のシステム。

条項４－複数の新しいレコードは、第１の機械学習モデルによって識別される確率密度関数（ＰＤＦ）によって定義されるサンプル空間内の所定の数の点のランダム・サンプルから生成される、条項１乃至３のシステム。

条項５－第１の機械学習モデルは、第２の機械学習モデルが、新しいレコードを訓練データセット内の複数のレコードから所定の率で区別できなくなるまで、新しいレコードを繰り返し生成する、条項１乃至４のシステム。

条項６－等サイズの新しいレコードが生成されるとき、所定の率は５０％である、条項１乃至５のシステム。

条項７－機械学習モデルは、コンピューティング・デバイスに、新しいレコードを少なくとも２回生成させ、第２の機械学習モデルは、コンピューティング・デバイスに、新しいレコードを少なくとも２回評価させ、第１の機械学習モデルを少なくとも２回更新し、第２の機械学習モデルを少なくとも２回更新させる、条項１乃至６のシステム。

条項８－確率分布関数（ＰＤＦ）を識別するために複数の元のレコードを解析することであって、ＰＤＦはサンプル空間を含み、サンプル空間は複数の元のレコードを含む、解析することと、ＰＤＦを用いて複数の新しいレコードを生成することと、複数の新しいレコードを含む拡張データセットを生成することと、拡張データセットを用いて機械学習モデルを訓練することを含む、コンピュータ実装方法。

条項９－確率分布関数を識別するために複数の元のレコードを解析することが、複数の元のレコードの個々のものに類似する新しいレコードを生成するために、ジェネレータ機械学習モデルを訓練することと、新しいレコードと複数の元のレコードの個々のものとを区別するために、識別器機械学習モデルを訓練することと、ジェネレータ機械学習モデルによって生成された新しいレコードが識別器機械学習モデルによって所定の率で間違えられることに応答して、確率分布関数を識別することと、を更に含む、条項８のコンピュータ実装方法。

条項１０－所定の率は、新しいレコードと複数の元のレコードとの間で識別器によって実行される比較の約５０％である、条項９のコンピュータ実装方法。

条項１１－ジェネレータ機械学習モデルが複数のジェネレータ機械学習モデルのうちの一つであり、該方法は、複数の元のレコードの個々のものに類似する新しいレコードを生成するために複数のジェネレータ機械学習モデルのそれぞれを訓練することと、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するラン・レングス、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するジェネレータ損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する識別器損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する異なるランク、又は、複数の元のレコードに関連する第１の確率分布関数及び複数の新しいレコードに関連する第２の確率分布関数を含むコルモゴロフ・スミルノフ（ＫＳ）検定の少なくとも一つの結果に少なくとも一部に基づいて、複数のジェネレータ機械学習モデルの中からジェネレータ機械学習モデルを選択することと、を更に含み、確率分布関数を識別することは、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することに応答して更に行われる、条項９又は１０のコンピュータ実装方法。

条項１２－確率分布関数を使用して複数の新しいレコードを生成することは、確率分布関数によって定義されるサンプル空間内の所定の数の点をランダムに選択することを更に含む、条項８乃至１１のコンピュータ実装方法。

条項１３－複数の元のレコードを拡張データセットに追加することを更に含む、条項８乃至１２のコンピュータ実装方法。

条項１４－機械学習モデルがニューラル・ネットワークを含む、条項８乃至１３のコンピュータ実装方法。

条項１５－プロセッサとメモリとを備えるコンピューティング・デバイスと、メモリに記憶された機械可読命令と、を備え、機械可読命令は、プロセッサによって実行されたとき、コンピューティング・デバイスに少なくとも、確率分布関数（ＰＤＦ）を識別するために複数の元のレコードを解析することであって、ＰＤＦはサンプル空間を含み、サンプル空間は複数の元のレコードを含む、解析することと、ＰＤＦを用いて複数の新しいレコードを生成することと、複数の新しいレコードを含む拡張データセットを生成することと、拡張データセットを用いて機械学習モデルを訓練することを行わせる、システム。

条項１６－コンピューティング・デバイスに、確率分布関数を識別するために複数の元のレコードを解析させる機械可読命令は、更に、コンピューティング・デバイスに少なくとも、複数の元のレコードの個々のものに類似する新しいレコードを生成するために、ジェネレータ機械学習モデルを訓練することと、新しいレコードと複数の元のレコードの個々のものとを区別するために、識別器機械学習モデルを訓練することと、ジェネレータ機械学習モデルによって生成された新しいレコードが識別器機械学習モデルによって所定の率で間違えられることに応答して、確率分布関数を識別することと、を行わせる、条項１５のシステム。

条項１７－所定の率は、新しいレコードと複数の元のレコードとの間で識別器によって実行される比較の約５０％である、条項１６のシステム。

条項１８－ジェネレータ機械学習モデルが複数のジェネレータ機械学習モデルのうちの一つであり、機械可読命令は更に、コンピューティング・デバイスに少なくとも、複数の元のレコードの個々のものに類似する新しいレコードを生成するために複数のジェネレータ機械学習モデルのそれぞれを訓練することと、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するラン・レングス、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するジェネレータ損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する識別器損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する異なるランク、又は、複数の元のレコードに関連する第１の確率分布関数及び複数の新しいレコードに関連する第２の確率分布関数を含むコルモゴロフ・スミルノフ（ＫＳ）検定の少なくとも一つの結果に少なくとも一部に基づいて、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することを行わせ、確率分布関数の識別は、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することに応答して更に行われる、条項１６又は１７。

条項１９－コンピューティング・デバイスに確率分布関数を使用して複数の新しいレコードを生成させる機械可読命令は、確率分布関数によって定義されるサンプル空間内の所定の数の点をランダムに選択するようにコンピューティング・デバイスに更に行わせる、条項１５乃至１８のシステム。

条項２０－機械可読命令は、プロセッサによって実行されたとき、更にコンピューティング・デバイスに、複数の元のレコードを拡張データセットに少なくとも追加させる、条項１５乃至１９のシステム。

条項２１－第１の機械学習モデル及び第２の機械学習モデルを含む、非一時的なコンピュータ可読媒体であって、第１の機械学習モデルは、コンピューティング・デバイスのプロセッサによって実行されたとき、コンピューティング・デバイスに少なくとも、訓練データセットの複数のレコード間の共通の特性又は類似性を識別するために訓練データセットを解析することと、複数のレコード間の識別された共通の特性又は類似性に少なくとも一部に基づいて新しいレコードを生成することと、を行わせ、第２の機械学習モデルは、コンピューティング・デバイスのプロセッサによって実行されたとき、コンピューティング・デバイスに少なくとも、複数のレコード間の共通の特性又は類似性を識別するために訓練データセットを解析することと、第１の機械学習モデルによって生成された新しいレコードを評価し、新しいレコードが、所定のエラー率に少なくとも一部に基づいて訓練データセット内の複数のレコードと区別できないかどうかを決定することと、新しいレコードの評価に少なくとも一部に基づいて第１の機械学習モデルを更新することと、新しいレコードの評価に少なくとも一部に基づいて、第２の機械学習モデルを更新することと、を行わせる、非一時的なコンピュータ可読媒体。

条項２２－第１の機械学習モデルは、コンピューティング・デバイスに複数の新しいレコードを生成させ、システムは、第１の機械学習モデルによって生成された複数の新しいレコードを使用して訓練される、メモリに記憶された第３の機械学習モデルを更に備える、条項２１の非一時的なコンピュータ可読媒体。

条項２３－複数の新しいレコードは、第２の機械学習モデルが第１の機械学習モデルによって生成された新しいレコードと訓練データセット内の複数のレコードの個々のものとを区別することができないという決定に応答して生成される、条項２１又は２２の非一時的なコンピュータ可読媒体。

条項２４－複数の新しいレコードは、第１の機械学習モデルによって識別される確率密度関数（ＰＤＦ）によって定義されるサンプル空間内の所定の数の点のランダム・サンプルから生成される、条項２１乃至２３の非一時的なコンピュータ可読媒体。

条項２５－第１の機械学習モデルは、第２の機械学習モデルが、新しいレコードを訓練データセット内の複数のレコードから所定の率で区別できなくなるまで、新しいレコードを繰り返し生成する、条項２１乃至２４の非一時的なコンピュータ可読媒体。

条項２６－等サイズの新しいレコードが生成されるとき、所定の率は５０％である、条項２１乃至２５の非一時的なコンピュータ可読媒体。

条項２７－第１の機械学習モデルは、コンピューティング・デバイスに少なくとも２回、新しいレコードを生成させ、第２の機械学習モデルは、コンピューティング・デバイスに少なくとも２回、新しいレコードを評価させ、第１の機械学習モデルを少なくとも２回更新し、第２の機械学習モデルを少なくとも２回更新する、条項２１乃至２６の非一時的なコンピュータ可読媒体。

条項２８－コンピューティング・デバイスのプロセッサによって実行されたとき、少なくともコンピューティング・デバイスに少なくとも、確率分布関数（ＰＤＦ）を識別するために複数の元のレコードを解析することであって、ＰＤＦがサンプル空間を含み、サンプル空間が複数の元のレコードを含む、解析することと、ＰＤＦを使用して複数の新しいレコードを生成することと、複数の新しいレコードを含む拡張データセットを生成することと、拡張データセットを使用して機械学習モデルを訓練することと、を行わせる機械可読命令を含んだ非一時的なコンピュータ可読媒体。

条項２９－確率分布関数を識別するために複数の元のレコードを解析することをコンピューティング・デバイスに行わせる機械可読命令は、コンピューティング・デバイスに少なくとも、複数の元のレコードの個々のものに類似する新しいレコードを生成するために、ジェネレータ機械学習モデルを訓練することと、新しいレコードと複数の元のレコードの個々のものとを区別するために、識別器機械学習モデルを訓練することと、ジェネレータ機械学習モデルによって生成された新しいレコードが識別器機械学習モデルによって所定の率で間違えられることに応答して、確率分布関数を識別することと、を行わせる、条項２８の非一時的なコンピュータ可読媒体。

条項３０－所定の率は、新しいレコードと複数の元のレコードとの間で識別器によって実行される比較の約５０％である、条項２９の非一時的なコンピュータ可読媒体。

条項３１－ジェネレータ機械学習モデルが第１のジェネレータ機械学習モデルであり、第１のジェネレータ機械学習モデル及び少なくとも第２のジェネレータ機械学習モデルが複数のジェネレータ機械学習モデルに含まれ、機械可読命令は更に、コンピューティング・デバイスに少なくとも、複数の元のレコードの個々のものに類似する新しいレコードを生成するために、少なくとも第２のジェネレータ機械学習モデルを訓練することと、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するラン・レングス、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するジェネレータ損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する識別器損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する異なるランク、又は、複数の元のレコードに関連する第１の確率分布関数と複数の新しいレコードに関連する第２の確率分布関数とを含むコルモゴロフ・スミルノフ（ＫＳ）検定の少なくとも一つの結果に少なくとも一部に基づいて、複数のジェネレータ機械学習モデルから第１のジェネレータ機械学習モデルを選択することと、を行わせ、確率分布関数の識別が、複数のジェネレータ機械学習モデルから第１のジェネレータ機械学習モデルを選択することに応答して更に行われる、条項２９又は３０の非一時的なコンピュータ可読媒体。

条項３２－コンピューティング・デバイスに確率分布関数を使用して複数の新しいレコードを生成させる機械可読命令は、確率分布関数によって定義されるサンプル空間内の所定の数の点をランダムに選択するようにコンピューティング・デバイスに更に行わせる、条項２８乃至３１の非一時的なコンピュータ可読媒体。

条項３３－機械可読命令は、プロセッサによって実行されたとき、コンピューティング・デバイスに、複数の元のレコードを拡張データセットに少なくとも追加させる、条項２８乃至３２の非一時的なコンピュータ可読媒体。

Claims

プロセッサとメモリとを含むコンピューティング・デバイスと、
前記メモリに記憶された訓練データセットであって、複数のレコードを含む、訓練データセットと、
前記メモリに記憶され、前記プロセッサによって実行されたとき、前記コンピューティング・デバイスに少なくとも、
前記複数のレコードの間の類似性を識別するために前記訓練データセットを解析することと、
前記複数のレコード間の前記識別された類似性に少なくとも一部に基づいて、新しいレコードを生成することと、を行わせる、第１の機械学習モデルと、
前記メモリに記憶される第２の機械学習モデルであって、前記プロセッサによって実行されたとき、前記コンピューティング・デバイスに少なくとも、
前記複数のレコードの間の類似性を識別するために前記訓練データセットを解析することと、
前記第１の機械学習モデルによって生成された前記新しいレコードを、前記新しいレコードが、所定のエラー率の少なくとも一部に基づいて前記訓練データセット内の前記複数のレコードの少なくとも部分集合と区別できないかどうかを決定するために、評価することと、
前記新しいレコードの前記評価に少なくとも一部に基づいて、前記第１の機械学習モデルを更新することと、
前記新しいレコードの前記評価に少なくとも一部に基づいて、前記第２の機械学習モデルを更新することと、を行わせる、第２の機械学習モデルと、を含む、システム。
前記第１の機械学習モデルが、前記コンピューティング・デバイスに複数の新しいレコードを生成させ、
前記システムは、前記第１の機械学習モデルによって生成された前記複数の新しいレコードを使用して訓練される、前記メモリに記憶された第３の機械学習モデルを更に含む、請求項１に記載のシステム。
前記複数の新しいレコードは、前記第２の機械学習モデルが前記第１の機械学習モデルによって生成された前記新しいレコードと前記訓練データセット内の前記複数のレコードの個々のものとを区別することができないという決定に応答して生成される、請求項１又は２に記載のシステム。
前記複数の新しいレコードは、前記第１の機械学習モデルによって識別される確率密度関数（ＰＤＦ）によって定義される前記サンプル空間内の所定の数の点のランダム・サンプルから生成される、請求項１乃至３のいずれか１項に記載のシステム。
前記第１の機械学習モデルは、前記第２の機械学習モデルが前記訓練データセット内の前記複数のレコードから前記新しいレコードを所定の率で区別できなくなるまで、前記新しいレコードを繰り返し生成する、請求項１乃至４のいずれか１項に記載のシステム。
等サイズの新しいレコードが生成される場合、前記所定の率は５０％である、請求項１乃至５のいずれか１項に記載のシステム。
前記第１の機械学習モデルが、前記コンピューティング・デバイスに少なくとも２回、前記新しいレコードを生成させ、前記第２の機械学習モデルが、前記コンピューティング・デバイスに少なくとも２回、前記新しいレコードを評価させ、前記第１の機械学習モデルを少なくとも２回更新し、前記第２の機械学習モデルを少なくとも２回更新する、請求項１乃至６のいずれか１項に記載のシステム。
確率分布関数（ＰＤＦ）を識別するために複数の元のレコードを解析することであって、前記ＰＤＦはサンプル空間を含み、前記サンプル空間は前記複数の元のレコードを含む、解析することと、
前記ＰＤＦを用いた複数の新しいレコードを生成することと、
前記複数の新しいレコードを含む拡張データセットを生成することと、
前記拡張データセットを用いて、機械学習モデルを訓練することと、を含む、コンピュータ実装方法。
前記確率分布関数を識別するために前記複数の元のレコードを解析することは、
前記複数の元のレコードの個々のものに類似する新しいレコードを生成するために、ジェネレータ機械学習モデルを訓練することと、
前記新しいレコードと前記複数の元のレコードの前記個々のものとを区別するために、識別器機械学習モデルを訓練することと、
前記ジェネレータ機械学習モデルによって生成された前記新しいレコードが、前記識別器機械学習モデルによって所定の率で間違われることに応答して、前記確率分布関数を識別することと、を更に含む、請求項８に記載のコンピュータ実装方法。
前記所定の率は、前記新しいレコードと前記複数の元のレコードとの間で前記識別器によって実行される比較の約５０％である、請求項９に記載のコンピュータ実装方法。
前記ジェネレータ機械学習モデルが第１のジェネレータ機械学習モデルであり、前記第１のジェネレータ機械学習モデル及び少なくとも第２のジェネレータ機械学習モデルが複数のジェネレータ機械学習モデルに含まれ、前記方法は、
前記複数の元のレコードの個々のものに類似する前記新しいレコードを生成するために、少なくとも前記第２のジェネレータ機械学習モデルを訓練することと、
各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連するラン・レングス、
各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連するジェネレータ損失ランク、
各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連する識別器損失ランク、
各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連する異なるランク、又は
前記複数の元のレコードに関連する第１の確率分布関数と前記複数の新しいレコードに関連する第２の確率分布関数を含むコルモゴロフ・スミルノフ（ＫＳ）検定の少なくとも一つの結果、の少なくとも一部に基づいて、前記複数のジェネレータ機械学習モデルから前記第１のジェネレータ機械学習モデルを選択することと、を更に含み、
前記確率分布関数の前記識別は、前記複数のジェネレータ機械学習モデルから前記第１のジェネレータ機械学習モデルを選択することに応答して、更に行われる、請求項９又は１０に記載のコンピュータ実装方法。
前記確率分布関数を用いて前記複数の新しいレコードを生成することは、前記確率分布関数によって定義される前記サンプル空間内の所定の数の点をランダムに選択することを更に含む、請求項８乃至１１のいずれか１項に記載のコンピュータ実装方法。
前記複数の元のレコードを前記拡張データセットに追加することを更に含む、請求項８乃至１２のいずれか１項に記載のコンピュータ実装方法。
前記機械学習モデルがニューラル・ネットワークを含む、請求項８乃至１３のいずれか１項に記載のコンピュータ実装方法。
プロセッサとメモリとを含むコンピューティング・デバイスと、
前記メモリに記憶された機械可読命令と、を含み、前記機械可読命令は、前記プロセッサによって実行されたとき、前記コンピューティング・デバイスに少なくとも
確率分布関数（ＰＤＦ）を識別するために複数の元のレコードを解析することであって、前記ＰＤＦはサンプル空間を含み、前記サンプル空間は複数の元のレコードを含む、解析することと、
前記ＰＤＦを使用して複数の新しいレコードを生成することと、
前記複数の新しいレコードを含む拡張データセットを生成することと、
前記拡張データセットを用いて、機械学習モデルを訓練することと、を行わせる、システム。
前記確率分布関数を識別するために前記複数の元のレコードを解析することを前記コンピューティング・デバイスに行わせる前記機械可読命令は、前記コンピューティング・デバイスに少なくとも、
前記複数の元のレコードの個々のものに類似する新しいレコードを生成するために、ジェネレータ機械学習モデルを訓練することと、
前記新しいレコードと前記複数の元のレコードの前記個々のものとを区別するために、識別器機械学習モデルを訓練することと、
前記ジェネレータ機械学習モデルによって生成された前記新しいレコードが、前記識別器機械学習モデルによって所定の率で間違われることに応答して、前記確率分布関数を識別することと、を更に行わせる、請求項１５に記載のシステム。
前記所定の率は、前記新しいレコードと前記複数の元のレコードとの間で前記識別器によって実行される比較の約５０％である、請求項１６に記載のシステム。
前記ジェネレータ機械学習モデルが第１のジェネレータ機械学習モデルであり、前記第１のジェネレータ機械学習モデル及び少なくとも第２のジェネレータ機械学習モデルが複数のジェネレータ機械学習モデルに含まれ、前記機械可読命令は、更に、コンピューティング・デバイスに少なくとも、
前記複数の元のレコードの個々のものに類似する前記新しいレコードを生成するために、少なくとも前記第２のジェネレータ機械学習モデルを訓練することと、
各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連するラン・レングス、
各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連するジェネレータ損失ランク、
各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連する識別器損失ランク、
各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連する異なるランク、又は
前記複数の元のレコードに関連する第１の確率分布関数と前記複数の新しいレコードに関連する第２の確率分布関数を含むコルモゴロフ・スミルノフ（ＫＳ）検定の少なくとも一つの結果に、少なくとも一部に基づいて、前記複数のジェネレータ機械学習モデルから前記第１のジェネレータ機械学習モデルを選択することと、を行わせ、
前記確率分布の前記識別は、前記複数のジェネレータ機械学習モデルから前記第１のジェネレータ機械学習モデルを選択することに応答して、更に行われる、請求項１６又は１７に記載のシステム。
前記コンピューティング・デバイスに、前記確率分布関数を用いて前記複数の新しいレコードを生成させる前記機械可読命令は、前記コンピューティング・デバイスに、前記確率分布関数によって定義される前記サンプル空間内の所定の数の点をランダムに更に選択させる、請求項１５乃至１８のいずれか１項に記載のシステム。
前記機械可読命令は、前記プロセッサによって実行されたとき、更に、前記コンピューティング・デバイスに、少なくとも前記複数の元のレコードを前記拡張データセットに追加させる、請求項１５乃至１９のいずれか１項に記載のシステム。