JP2022546571A - 機械学習モデル用の訓練データの生成 - Google Patents

機械学習モデル用の訓練データの生成 Download PDF

Info

Publication number
JP2022546571A
JP2022546571A JP2022514467A JP2022514467A JP2022546571A JP 2022546571 A JP2022546571 A JP 2022546571A JP 2022514467 A JP2022514467 A JP 2022514467A JP 2022514467 A JP2022514467 A JP 2022514467A JP 2022546571 A JP2022546571 A JP 2022546571A
Authority
JP
Japan
Prior art keywords
machine learning
learning model
records
generator
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022514467A
Other languages
English (en)
Other versions
JP7391190B2 (ja
Inventor
ソーハム バーネルジィ,
ジェィトゥ セーン チョゥダリー,
プローディプ ホー,
ローヒー ジョーシ,
スネハンシュー シェーカル サーフ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
American Express Travel Related Services Co Inc
Original Assignee
American Express Travel Related Services Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Express Travel Related Services Co Inc filed Critical American Express Travel Related Services Co Inc
Publication of JP2022546571A publication Critical patent/JP2022546571A/ja
Application granted granted Critical
Publication of JP7391190B2 publication Critical patent/JP7391190B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

機械学習モデルのための訓練データを生成するための様々な実施形態が開示されている。複数の元のレコードは、確率分布関数(PDF)を識別するために解析され、PDFのサンプル空間は、複数の元のレコードを含む。複数の新しいレコードが、PDFを使用して生成される。複数の新しいレコードを含む拡張データセットが生成される。そして、拡張データセットを用いて機械学習モデルが訓練される。

Description

関連出願の相互参照
本出願は、2019年9月6日に出願され、「GENERATING TRAINING DATA FOR MACHINE-LEARNING MODELS」と題する米国特許出願第16/562,972号の優先権とその利益を主張するものである。
機械学習モデルは、新しいデータについて正確な予測、分類、又は推論を行うために訓練させるために、大量のデータを必要とすることが多い。データセットが十分に大きくない場合、機械学習モデルは誤った推論をするように訓練される可能性がある。例えば、データセットが小さいと、利用可能なデータに対して機械学習モデルがオーバーフィットしてしまう可能性がある。このため、より小規模なデータセットでは、特定の種類のレコードが省略されることにより、機械学習モデルが特定の結果に偏る可能性がある。別の例として、小規模データセットにおける外れ値は、機械学習モデルの性能の分散を増加させることにより、機械学習モデルの性能に不釣り合いな影響を与える可能性がある。
残念ながら、十分に大きなデータセットが、機械学習モデルの訓練に使用するために、常に容易に利用できるとは限らない。例えば、めったに起こらない事象の発生を追跡すると、事象の発生がないため、データセットが小さくなることがある。別の例として、母集団の規模が小さいことに関連するデータは、メンバーの数が限られているため、データセットが小さくなることがある。
プロセッサ及びメモリを備えるコンピューティング・デバイスと、メモリに記憶された訓練データセットであって、複数のレコードを含む、訓練データセットと、メモリに記憶され、プロセッサによって実行されたとき、コンピューティング・デバイスに少なくとも、複数のレコード間の共通の特性又は類似性を識別するために訓練データセットを解析することと、複数のレコード間の識別された共通の特性又は類似性に少なくとも一部に基づいて、新しいレコードを生成することと、を行わせる第1の機械学習モデルと、メモリに記憶され、プロセッサにより実行されたとき、コンピューティング・デバイスに少なくとも、複数のレコード間の共通の特性又は類似性を識別するために訓練データセットを解析することと、第1の機械学習モデルによって生成された新しいレコードを、新しいレコードが訓練データセット内の複数のレコードと区別できないかどうかを決定するために、評価することと、新しいレコードの評価に少なくとも一部に基づいて、第1の機械学習モデルを更新することと、新しいレコードの評価に少なくとも一部に基づいて、第2の機械学習モデルを更新することと、を行わせる第2の機械学習モデルと、を備える、システムが開示される。システムのいくつかの実装では、第1の機械学習モデルは、コンピューティング・デバイスに複数の新しいレコードを生成させ、システムは、第1の機械学習モデルによって生成された複数の新しいレコードを使用して訓練される、メモリに記憶された第3の機械学習モデルを更に備える。システムのいくつかの実装において、複数の新しいレコードは、第2の機械学習モデルが第1の機械学習モデルによって生成された新しいレコードと訓練データセット内の複数のレコードの個々のものとを区別することができないという決定に応答して生成される。システムのいくつかの実装では、複数の新しいレコードは、第1の機械学習モデルによって識別される確率密度関数(PDF)によって定義されるサンプル空間内の点の所定の数のランダム・サンプルから生成される。システムのいくつかの実装では、第1の機械学習モデルは、第2の機械学習モデルが、新しいレコードを訓練データセット内の複数のレコードから所定の率で区別することができなくなるまで、新しいレコードを繰り返し生成する。システムのいくつかの実装では、等サイズの新しいレコードが生成された場合、所定の率は50%である。システムのいくつかの実装において、第1の機械学習モデル及び第2の機械学習モデルは、ニューラル・ネットワークである。システムのいくつかの実装では、第1の機械学習モデルは、コンピューティング・デバイスに少なくとも2回、新しいレコードを生成させ、第2の機械学習モデルは、コンピューティング・デバイスに少なくとも2回、新しいレコードを評価させ、第1の機械学習モデルを少なくとも2回更新し、第2の機械学習モデルを少なくとも2回更新させる。
確率分布関数(PDF)を識別するために複数の元のレコードを解析することであって、PDFがサンプル空間を含み、サンプル空間が複数の元のレコードを含む、解析することと、PDFを用いて複数の新しいレコードを生成することと、複数の新しいレコードを含む拡張データセットを生成することと、拡張データセットを用いて機械学習モデルを訓練することと、を含む、コンピュータ実装方法の様々な実装が開示されている。コンピュータ実装方法のいくつかの実装では、確率分布関数を識別するために複数の元のレコードを解析することは、複数の元のレコードの個々のものに類似する新しいレコードを生成するためにジェネレータ機械学習モデルを訓練することと、新しいレコードと複数の元のレコードの個々のものとを区別するために識別器機械学習モデルを訓練することと、所定の率で識別器機械学習モデルによって間違われるジェネレータ機械学習モデルによって生成される新しいレコードに応答して確率分布関数を識別することとを更に含む。コンピュータ実装方法のいくつかの実装では、所定の率は、新しいレコードと複数の元のレコードとの間で識別器によって実行される比較の約50パーセントである。コンピュータ実装方法のいくつかの実装では、ジェネレータ機械学習モデルは、複数のジェネレータ機械学習モデルのうちの一つであり、この方法は、複数のジェネレータ機械学習モデルのそれぞれを訓練して、複数の元のレコードの個々のものに類似する新しいレコードを生成することと、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するラン・レングス、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するジェネレータ損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する識別器損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する異なるランク、又は、複数の元のレコードに関連する第1の確率分布関数及び複数の新しいレコードに関連する第2の確率分布関数を含むコルモゴロフ・スミルノフ(KS)検定の少なくとも一つの結果に少なくとも一部に基づいて、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することと、確率分布関数が、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することに応答して更に行われることを識別することと、を更に含む。コンピュータ実装方法のいくつかの実装では、確率分布関数を使用して複数の新しいレコードを生成することは、確率分布関数によって定義されるサンプル空間内の所定の数の点をランダムに選択することを更に含む。いくつかの実装において、コンピュータ実装方法は、複数の元のレコードを拡張データセットに追加することを更に含む。コンピュータ実装方法のいくつかの実装では、機械学習モデルは、ニューラル・ネットワークを含む。
コンピューティング・デバイスは、プロセッサとメモリと、メモリに記憶された機械可読命令とを含み、機械可読命令は、プロセッサによって実行されたとき、コンピューティング・デバイスに少なくとも、確率分布関数(PDF)を識別するために複数の元のレコードを解析することであって、PDFはサンプル空間を含み、サンプル空間は複数の元のレコードを含む、解析することと、PDFを用いて複数の新しいレコードを生成することと、複数の新しいレコードを含む拡張データセットを生成することと、拡張データセットを用いて機械学習モデルを訓練することと、を行わせるシステムの一つ又は複数の実装が開示されている。システムのいくつかの実装では、確率分布関数を識別するために複数の元のレコードを解析することをコンピューティング・デバイスに行わせる機械可読命令は、更に、コンピューティング・デバイスに少なくとも、複数の元のレコードの個々のものに類似する新しいレコードを生成するために、ジェネレータ機械学習モデルを訓練し、新しいレコードと複数の元のレコードの個々のものとを区別するために、識別器機械学習モデルを訓練し、ジェネレータ機械学習モデルによって生成された新しいレコードが識別器機械学習モデルによって所定の率で間違えられることに応答して、確率分布関数を識別することを、コンピューティング・デバイスに更に行わせる。システムのいくつかの実装では、所定の率は、新しいレコードと複数の元のレコードとの間で識別器によって実行される比較の約50パーセントである。システムのいくつかの実装では、ジェネレータ機械学習モデルは、複数のジェネレータ機械学習モデルのうちの一つであり、機械可読命令は更に、コンピューティング・デバイスに、少なくとも複数の元のレコードの個々のものに類似する新しいレコードを生成するために複数のジェネレータ機械学習モデルのそれぞれを訓練し、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するラン・レングス、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するジェネレータ損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する識別器損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する異なるランク、又は、複数の元のレコードに関連する第1の確率分布関数及び複数の新しいレコードに関連する第2の確率分布関数を含むコルモゴロフ・スミルノフ(KS)検定の少なくとも一つの結果に少なくとも一部に基づいて、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することと、を行わせ、確率分布関数の識別は、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することに応答して更に行われる。システムのいくつかの実装では、確率分布関数を使用して複数の新しいレコードを生成するようにコンピューティング・デバイスにさせる機械可読命令は、確率分布関数によって定義されるサンプル空間内の所定の数の点をランダムに選択するようにコンピューティング・デバイスに更に行わせる。システムのいくつかの実装において、機械可読命令は、プロセッサによって実行されたとき、コンピューティング・デバイスに、複数の元のレコードを拡張データセットに少なくとも追加させることを更に行わせる。
本開示の多くの態様は、以下の図面を参照することにより、より良く理解され得る。図面の構成要素は必ずしも縮尺通りではなく、代わりに本開示の原理を明確に示すことに重点を置いている。更に、図面において、同様の参照数字は、複数の図を通して対応する部品を指定する。
本開示の一実装例を示す図面である。
本開示の様々な実施形態による、コンピューティング環境の図面である。
本開示の様々な実施形態による、図2のコンピューティング環境の様々な構成要素間の相互作用の一例を示すシーケンス図である。
本開示の様々な実施形態による、図2のコンピューティング環境の様々な構成要素間の相互作用の一例を示すシーケンス図である。
本開示の様々な実施形態による、図2のコンピューティング環境内に実装される構成要素の機能の一例を示すフローチャートである。
機械学習モデルを訓練するのに不十分である可能性のある小さい又はノイズの多いデータセットを補完するために、機械学習モデルを訓練するための追加データを生成するための様々なアプローチが開示されている。小規模データセットのみが機械学習モデルの訓練に利用できる場合、データ科学者はより多くのデータを収集することでデータセットを拡張しようとすることができる。しかし、これは必ずしも現実的ではない。例えば、発生頻度の低い事象を表すデータセットは、事象の追加発生を長時間待つことでしか補完できない。別の例として、小さな母集団サイズに少なくとも一部に基づくデータセット(例えば、少人数のグループを表すデータ)は、母集団により多くのメンバーを追加するだけでは意味のある拡張ができない。
これらの小規模データセットに追加のレコードを追加することができるが、欠点もある。例えば、発生頻度の低い事象に関するデータを十分に収集し、十分なサイズのデータセットを得るためには、かなりの時間を待たなければならない場合がある。しかし、このような頻度の低い事象に対する追加データの収集に伴う遅延は、受け入れがたいものである可能性がある。別の例として、他の関連する母集団からデータを取得することで、小さな母集団に少なくとも一部に基づくデータセットを補完することができる。しかし、これでは機械学習モデルのベースとして使用されるデータの品質が低下する可能性がある。いくつかの実施例では、この品質低下により、機械学習モデルの性能に許容できない影響を与える可能性がある。
しかしながら、本開示の様々な実施形態によれば、小規模データセットに存在する以前に収集されたデータと十分に区別できない追加レコードを生成することが可能である。その結果、生成されたレコードを用いて、小規模データセットを、所望の機械学習モデル(例えば、ニューラル・ネットワーク、ベイズ・ネットワーク、スパース・マシン・ベクトル、決定木など)を訓練するのに十分なサイズに拡張することができる。以下では、機械学習のためのデータ生成のアプローチについて説明する。
図1に描かれたフローチャートは、本開示の様々な実施形態で用いられるアプローチを紹介する。図1は、本開示の様々な実施形態の概念を示すものであり、追加の詳細は、後続の図の説明において提供される。
開始するために、ステップ103で、小規模データセットを使用して、小規模データセットに既に存在するこれらのレコードに類似する人工データ・レコードを生成するために、ジェネレータ機械学習モデルを訓練することができる。データセットが小さいとは、機械学習モデルを正確に訓練させるためにはデータセットのサイズが不十分である場合を指すことができる。小規模データセットの例としては、発生頻度の低い事象のレコードを含むデータセットや、小規模な母集団のメンバーのレコードを含むデータセットなどがある。ジェネレータ機械学習モデルは、ニューラル・ネットワーク又はディープ・ニューラル・ネットワーク、ベイズ・ネットワーク、サポート・ベクター・マシン、決定木、遺伝的アルゴリズム、又は小規模データセットに少なくとも一部に基づいて人工レコードを生成するように訓練又は構成することができる他の機械学習アプローチのいずれかとすることができる。
例えば、ジェネレータ機械学習モデルは、生成敵対的ネットワーク(GAN)の構成要素とすることができる。GANでは、ジェネレータ機械学習モデルと識別器機械学習モデルを併用し、小規模データセットのサンプル空間にマッピングする確率密度関数(PDF231)を識別する。ジェネレータ機械学習モデルは、小規模データセットで訓練し、小規模データセットに類似した人工データ・レコードを生成する。識別器機械学習モデルは、小規模データセットを解析することで、実データ・レコードを識別するように訓練される。
その後、ジェネレータ機械学習モデルと識別器機械学習モデルとは、互いに競合することができる。ジェネレータ機械学習モデルは、競合を通じて訓練され、最終的には小規模データセットに含まれる実データ・レコードと区別がつかないような人工データ・レコードが生成される。ジェネレータ機械学習モデルの訓練には、ジェネレータ機械学習モデルで生成した人工データ・レコードと、小規模データセットの実レコードを識別器機械学習モデルに提供する。その後、識別器機械学習モデルにより、どのレコードが人工データ・レコードと考えられるかが決定される。識別器機械学習モデルの決定の結果は、ジェネレータ機械学習モデルに提供され、ジェネレータ機械学習モデルが、識別器機械学習モデルに対して、小規模データセットに含まれる実レコードと区別できない可能性が高い人工データ・レコードを生成するように訓練させる。同様に、識別器機械学習モデルは、その決定の結果を用いて、ジェネレータ機械学習モデルが生成した人工データ・レコードを検出する能力を向上させる。識別器機械学習モデルのエラー率が約50%(50%、等倍の人工データをジェネレータに与えたと仮定)であれば、ジェネレータ機械学習モデルが、小規模データセットに既に存在する実データ・レコードと区別できない人工データ・レコードを生成するように訓練されていることを示すものとして用いることができる。
次に、ステップ106で、ジェネレータ機械学習モデルを使用して、小規模データセットを拡張するための人工データ・レコードを生成することができる。PDF231を様々な点でサンプリングし、人工データ・レコードを生成することができる。いくつかの点は、様々な統計的分布(例えば、正規分布)に従って、繰り返しサンプリングされてもよいし、点のクラスタは、互いに近接してサンプリングされてもよい。次に、この人工データ・レコードを小規模データセットと組み合わせることで、拡張データセットを生成することができる。
最後に、ステップ109で、拡張データセットを使用して機械学習モデルを訓練することができる。例えば、拡張データセットが特定の顧客プロファイルの顧客データを含んだ場合、拡張データセットは、顧客プロファイル内の顧客に商業又は金融商品を提供するために使用される機械学習モデルを訓練するために使用することができた。しかし、前述の方法で生成した拡張データセットを用いて、あらゆる種類の機械学習モデルを訓練することができる。
図2を参照すると、本開示の様々な実施形態によるコンピューティング環境200を示す。コンピューティング環境200は、サーバ・コンピュータ又はコンピューティング能力を提供する他の任意のシステムを含むことができる。或いは、コンピューティング環境203は、一つ又は複数のサーバ・バンク又はコンピュータ・バンク又は他の配置に配置することができる複数のコンピューティング・デバイスを採用することが可能である。このようなコンピューティング・デバイスは、一つの施設に設置されることもあれば、地理的に異なる多くの場所に分散されることもある。例えば、コンピューティング環境200は、一緒にホスト・コンピューティング・リソース、グリッド・コンピューティング・リソース、又は任意の他の分散コンピューティング配置を含むことができる複数のコンピューティング・デバイスを含むことができる。いくつかの場合において、コンピューティング環境200は、処理、ネットワーク、ストレージ、又は他のコンピューティング関連リソースの割り当てられた容量が時間と共に変化し得る、エラスティック・コンピューティング・リソースに対応し得る。
更に、コンピューティング環境200内の個々のコンピューティング・デバイスは、ネットワークを介して互いにデータ通信が可能である。ネットワークには、広域ネットワーク(WAN)やローカル・エリア・ネットワーク(LAN)が含まれ得る。これらのネットワークは、有線又は無線の構成要素、或いはそれらの組み合わせを含むことができる。有線ネットワークには、イーサネット・ネットワーク、ケーブル・ネットワーク、光ファイバー・ネットワーク、ダイヤルアップ、デジタル加入者線(DSL)などの電話ネットワーク、統合サービス・デジタル・ネットワーク(ISDN)ネットワークが含まれ得る。無線ネットワークには、携帯電話ネットワーク、衛星ネットワーク、電気電子技術者協会(IEEE)802.11無線ネットワーク(例えば、WI-FI(登録商標))、BLUETOOTH(登録商標)ネットワーク、マイクロ波伝送ネットワーク、並びに無線放送に依存するその他のネットワークが含まれ得る。また、ネットワークは、二つ以上のネットワークの組み合わせを含むことができる。ネットワークの例としては、インターネット、イントラネット、エクストラネット、VPN(バーチャル・プライベート・ネットワーク)、及び同様のネットワークが含まれ得る。
様々なアプリケーション又は他の機能は、様々な実施形態に従ってコンピューティング環境200で実行することができる。コンピューティング環境200上で実行される構成要素は、一つ又は複数のジェネレータ機械学習モデル203、一つ又は複数の識別器機械学習モデル206、アプリケーション固有の機械学習モデル209、及びモデル選択器211を含むことができる。しかしながら、コンピューティング環境200が複数のエンティティ又はテナントによって利用される共有ホスティング環境として実装される場合など、本明細書で詳細に説明しない他のアプリケーション、サービス、プロセス、システム、エンジン、又は機能も、コンピュータ環境200でホストすることが可能である。
また、コンピューティング環境203からアクセス可能なデータ・ストア213には、様々なデータが記憶されている。データ・ストア213は、リレーショナル・データベース、オブジェクト指向データベース、階層型データベース、ハッシュ・テーブル又は同様のキー値データ・ストア、並びに他のデータ・ストレージ・アプリケーション又はデータ構造を含むことができる複数のデータ・ストア213を表すことができる。データ・ストア213に記憶されるデータは、以下に説明する様々なアプリケーション又は機能エンティティの動作に関連する。このデータは、元のデータセット216、拡張データセット219、及び潜在的に他のデータを含むことができる。
元のデータセット216は、様々な実世界のソースから収集又は蓄積されたデータを表すことができる。元のデータセット216は、一つ又は複数の元のレコード223を含むことができる。元のレコード223の各々は、元のデータセット216内の個々のデータ点を表すことができる。例えば、元のレコード223は、ある事象の発生に関連するデータを表すことができる。別の例として、元のレコード223は、個体の母集団の中の個体を表すことができる。
通常、元のデータセット216は、将来的に予測又は決定を実行するために、アプリケーション固有の機械学習モデル209を訓練するために使用することができる。しかしながら、先に述べたように、時には、元のデータセット216は、アプリケーション固有の機械学習モデル209の訓練に使用するための不十分な数の元のレコード223を含むことができる。異なるアプリケーション固有の機械学習モデル209は、許容できるほど正確な訓練のための閾値として、異なる最小数の元のレコード223を必要とすることができる。これらの例では、拡張データセット219は、元のデータセット216の代わりに、又はそれに加えて、アプリケーション固有の機械学習モデル209を訓練するために使用することができる。
拡張データセット219は、アプリケーション固有の機械学習モデル209を訓練するのに十分な数のレコードを含むデータの集合を表すことができる。したがって、拡張データセット219は、元のデータセット216に含まれていた元のレコード223と、ジェネレータ機械学習モデル203によって生成された新しいレコード229の両方を含むことができる。新しいレコード229の個々のものは、ジェネレータ機械学習モデル203によって生成される一方で、識別器機械学習モデル206によって元のレコード223と比較されると、元のレコード223と区別がつかなくなる。新しいレコード229は元のレコード223と区別がつかないので、アプリケーション固有の機械学習モデル209を訓練するために十分な数のレコードを提供するために、新しいレコード229を使用して元のレコード223を拡張することができる。
ジェネレータ機械学習モデル203は、PDF231のサンプル空間内に元のレコード223を含む確率密度関数231(PDF231)を識別するために実行することができる一つ又は複数のジェネレータ機械学習モデル203を表している。ジェネレータ機械学習モデル203の例には、ニューラル・ネットワーク又はディープ・ニューラル・ネットワーク、ベイズ・ネットワーク、スパース・マシン・ベクトル、決定木、及び他の任意の適用可能な機械学習技術が含まれる。元のレコード223をそのサンプル空間内に含むことができる多くの異なるPDF231が存在するので、複数のジェネレータ機械学習モデル203を使用して、異なる潜在的なPDF231を識別することができる。これらの実装では、後述するように、モデル選択器211によって、様々な潜在的なPDF231から適切なPDF231が選択され得る。
識別器機械学習モデル206は、適切なPDF231を識別するためにそれぞれのジェネレータ機械学習モデル203を訓練するために実行することができる一つ又は複数の識別器機械学習モデル206を表している。識別器機械学習モデル206の例には、ニューラル・ネットワーク又はディープ・ニューラル・ネットワーク、ベイズ・ネットワーク、スパース・マシン・ベクトル、決定木、及び他の任意の適用可能な機械学習技術が含まれる。異なるジェネレータ機械学習モデル206は、異なるジェネレータ機械学習モデル203の訓練により適している場合があるので、いくつかの実装では、複数の識別器機械学習モデル206が使用され得る。
アプリケーション固有の機械学習モデル209は、新しいデータ又は状況が提示されたときに、パターンを予測、推論、又は認識するために実行されることができる。アプリケーション固有の機械学習モデル209は、信用アプリケーションの評価、異常又は不正な活動(例えば、誤った又は不正な金融取引)の識別、顔認識の実行、音声認識の実行(例えば、電話中のユーザー又は顧客を認証する)、及び他の様々な活動などの様々な状況で使用することができる。その機能を果たすために、アプリケーション固有の機械学習モデル209は、既知の又は既存のデータのコーパスを使用して訓練することができる。これは、元のデータセット216、又は元のデータセット216がアプリケーション固有の機械学習モデル209を適切に訓練するために不十分な数の元のレコード223を有する状況において、訓練目的のために生成された拡張データセット219を含むことが可能である。
勾配ブースト機械学習モデル210は、新しいデータ又は状況が提示されたときに、パターンを予測、推論、又は認識するために実行され得る。各勾配ブースト機械学習モデル210は、様々な勾配ブースト技術を使用して、それぞれのジェネレータ機械学習モデル203によって識別されたPDF231から生成された機械学習モデルを表すことができる。後述するように、最良の性能を有する勾配ブースト機械学習モデル210は、様々なアプローチを用いて、アプリケーション固有の機械学習モデル209として使用するためにモデル選択器211によって選択されることができる。
モデル選択器211は、個々のジェネレータ機械学習モデル203及び/又は識別器機械学習モデル206の訓練進捗を監視するために実行され得る。理論的には、元のデータセット216の元のレコード223を含む同じサンプル空間に対して、無限個のPDF231が存在する。その結果、いくつかの個別ジェネレータ機械学習モデル203は、他のPDF231よりもサンプル空間に良く適合するPDF231を識別することができる。より良く適合するPDF231は、一般に、サンプル空間に対してより悪く適合するPDF231よりも、拡張データセット219に含めるための、より質の高い新しいレコード229を生成することになる。したがって、モデル選択器211は、後で更に詳細に説明するように、より良く適合するPDF231を識別したそれらのジェネレータ機械学習モデル203を識別するために実行され得る。
次に、コンピューティング環境200の様々な構成要素の動作の一般的な説明を行う。以下の記述は、コンピューティング環境200の様々な構成要素の動作及び構成要素間の相互作用の例示であるが、個々の構成要素の動作は、図3及び4に付随する説明において更に詳細に説明されている。
開始するために、一つ又は複数のジェネレータ機械学習モデル203及び識別器機械学習モデル206を生成して、PDF231のサンプル空間内に元のレコード223を含む適切なPDF231を識別することが可能である。先に述べたように、PDF231のサンプル空間内に元のデータセット216の元のレコード223を含むPDF231は理論的に無限個存在する。
最終的に最も適切なPDF231を選択できるようにするために、複数のジェネレータ機械学習モデル203を使用して、個々のPDF231を識別することができる。各ジェネレータ機械学習モデル203は、様々な方法で他のジェネレータ機械学習モデル203と異なることができる。例えば、いくつかのジェネレータ機械学習モデル203は、個々のジェネレータ機械学習モデル203を形成するニューラル・ネットワーク内の個々のパーセプトロンの様々な入力又は出力に適用される異なる重みを有していてもよい。他のジェネレータ機械学習モデル203は、互いに関して異なる入力を利用してもよい。更に、異なる識別器機械学習モデル206は、新しいレコード229を生成するための適切なPDF231を識別するために特定のジェネレータ機械学習モデル203を訓練する際に、より効果的である可能性がある。同様に、個々の識別器機械学習モデル206は、異なる入力を受け入れるか、又は個々の識別器機械学習モデル206の基礎となるニューラル・ネットワークを形成する個々のパーセプトロンの入力又は出力に割り当てられた重みを有することができる。
次に、各ジェネレータ機械学習モデル203は、各識別器機械学習モデル206と対にされ得る。これは、いくつかの実装において手動で行われ得るが、モデル選択器211は、使用されるジェネレータ機械学習モデル203及び識別器機械学習モデル206のリストを提供されることに応答して、ジェネレータ機械学習モデル203と識別器機械学習モデル206を自動的に対にすることも可能である。いずれの場合も、モデル選択器211が様々なジェネレータ機械学習モデル203及び識別器機械学習モデル206の性能を監視及び/又は評価するために、ジェネレータ機械学習モデル203及び識別器機械学習モデル206の各対がモデル選択器211に登録される。
次に、ジェネレータ機械学習モデル203及び識別器機械学習モデル206は、元のデータセット216の元のレコード223を用いて訓練され得る。ジェネレータ機械学習モデル203は、元のレコード223と区別できない新しいレコード229を生成しようとするように訓練することができる。識別器機械学習モデル206は、それが評価しているレコードが、元のデータセット内の元のレコード223であるか、又はそのそれぞれのジェネレータ機械学習モデル203によって生成された新しいレコード229であるかを識別するように訓練することができる。
一旦訓練されると、ジェネレータ機械学習モデル203及び識別器機械学習モデル206は、競合するために実行され得る。競合の各ラウンドでは、ジェネレータ機械学習モデル203が新しいレコード229を生成し、このレコードは識別器機械学習モデル206に提示される。次に、識別器機械学習モデル206は、新しいレコード229を評価し、新しいレコード229が元のレコード223であるか、実際に新しいレコード229であるかを決定する。そして、その評価結果を用いて、ジェネレータ機械学習モデル203と識別器機械学習モデル206の両方を訓練させ、それぞれの性能を向上させる。
ジェネレータ機械学習モデル203と識別器機械学習モデル206の対が、それぞれのPDF231を識別するために元のレコード223を使用して実行されたとき、モデル選択器211は、ジェネレータ機械学習モデル203と識別器機械学習モデル206との性能に関連する様々な測定基準を監視することが可能である。例えば、モデル選択器211は、ジェネレータ機械学習モデル203と識別器機械学習モデル206の各対のジェネレータ損失ランク、識別器損失ランク、ラン・レングス、及び差分ランクを追跡することができる。また、モデル選択器211は、これらの要因のうちの一つ又は複数を用いて、ジェネレータ機械学習モデル203によって識別された複数のPDF231の中から、好ましいPDF231を選択することもできる。
ジェネレータ損失ランクは、ジェネレータ機械学習モデル203によって生成されたデータ・レコードが、元のデータセット216の元のレコード223とどの程度頻繁に間違われるかを表すことができる。当初、ジェネレータ機械学習モデル203は、元のデータセット216の元のレコード223と容易に区別できる低品質のレコードを生成することが期待される。しかし、ジェネレータ機械学習モデル203が複数の反復を通じて訓練され続けると、ジェネレータ機械学習モデル203は、それぞれの識別器機械学習モデル206が元のデータセット216の元のレコード223と区別することが難しくなる、より質の高いレコードを生成することが期待される。その結果、ジェネレータ損失ランクは、100%の損失ランクから低い損失ランクへと時間の経過と共に減少していく必要がある。損失ランクが低いほど、ジェネレータ機械学習モデル203は、それぞれの識別器機械学習モデル206が元のレコード223と区別がつかない新しいレコード229を生成するのにより有効である。
同様に、識別器損失ランクは、識別器機械学習モデル206が、元のレコード223とそれぞれのジェネレータ機械学習モデル203によって生成された新しいレコード229との間を正しく区別することにどの程度頻繁に失敗するかを表すことができる。当初、ジェネレータ機械学習モデル203は、元のデータセット216の元のレコード223と容易に区別できる低品質のレコードを生成することが期待される。その結果、識別器機械学習モデル206は、レコードが元のレコード223であるか、ジェネレータ機械学習モデル206によって生成された新しいレコード229であるかを決定する際に、初期エラー率が0%であることが期待されるであろう。識別器機械学習モデル206は、複数回の反復により訓練を続けるので、識別器機械学習モデル206は、元のレコード223と新しいレコード229とを区別し続けることができる必要がある。したがって、識別器損失ランクが高いほど、ジェネレータ機械学習モデル203は、それぞれの識別器機械学習モデル206が元のレコード223と区別がつかない新しいレコード229を生成するのにより有効である。
ラン・レングスは、ジェネレータ機械学習モデル203のジェネレータ損失ランクが減少する一方で、識別器機械学習モデル206の識別器損失ランクが同時に増加するラウンド数を表すことができる。一般に、ラン・レングスが長いほど、ラン・レングスが短いものと比較して、ジェネレータ機械学習モデル203の性能が高いことを示す。いくつかの実施例では、ジェネレータ機械学習モデル203と識別器機械学習モデル206の対に関連する複数のラン・レングスが存在する可能性がある。これは、例えば、機械学習モデルの対が、ジェネレータ損失ランクが減少し、一方、識別器損失ランクが増加する連続したラウンドのいくつかの異なるセットを有し、同時に変化が発生しない一つ又は複数のラウンドで中断されている場合に発生する可能性がある。これらの状況において、ジェネレータ機械学習モデル203の評価には、最も長いラン・レングスが使用されてもよい。
差分ランクは、識別器損失ランクとジェネレータ損失ランクとの差率を表すことができる。差分ランクは、ジェネレータ機械学習モデル203と識別器機械学習モデル206の訓練において、異なる時点で変化し得る。いくつかの実装では、モデル選択器211は、訓練中に変化する差分ランクを追跡することができ、又は最小又は最大の差分ランクのみを追跡することができる。一般に、ジェネレータ機械学習モデル203と識別器機械学習モデル206との差分ランクが大きいことは、通常、ジェネレータ機械学習モデル203が高品質人工データと元のレコード223とを概ね区別可能な識別器機械学習モデル206に対して区別不能な高品質人工データを生成していることを示すので好ましい。
モデル選択器211はまた、ジェネレータ機械学習モデル203によって識別されたPDF231と元のデータセット216内の元のレコード223との適合性をテストするために、コルモゴロフ・スミルノフ検定(KS検定)を実行することもできる。得られたKS統計が小さいほど、ジェネレータ機械学習モデル203が、元のデータセット216の元のレコード223に密接に適合するPDF231を識別した可能性が高い。
ジェネレータ機械学習モデル203が十分に訓練された後、モデル選択器211は、ジェネレータ機械学習モデル203によって識別された一つ又は複数の潜在的なPDF231を選択できる。例えば、モデル選択器211は、識別されたPDF231をソートし、最長ラン・レングスに関連する(又は複数の)第1のPDF231、最低ジェネレータ損失ランクに関連する第2のPDF231、最高の識別器損失ランクに関連する第3のPDF231、最高の差分ランクを有する第4のPDF231、最小KS統計を有する第5のPDF231を選択し得る。しかし、あるPDF231は、複数のカテゴリで最も性能が高いPDF231である可能性がある。これらの状況では、モデル選択器211は、更なるテストのために、そのカテゴリ内の追加のPDF231を選択し得る。
モデル選択器211は、次に、選択されたPDF231のそれぞれをテストして、どのPDF231が最も性能が良いかを決定することができる。ジェネレータ機械学習モデル203によって生成されたPDF231を選択するために、モデル選択器211は、選択されたジェネレータ機械学習モデル203によって識別された各PDF231を使用して、新しいレコード229を含む新しいデータセットを生成し得る。いくつかの実施例では、新しいレコード229を元のレコード223と結合して、各々それぞれのPDF231のためのそれぞれの拡張データセット219を生成することができる。次に、一つ又は複数の勾配ブースト機械学習モデル210が、様々な勾配ブースト技術を使用して、モデル選択器211によって生成され、訓練されることができる。勾配ブースト機械学習モデル210のそれぞれは、それぞれのPDF231のそれぞれの拡張データセット219、又はそれぞれのPDF231によって生成されたそれぞれの新しいレコード229だけを含むより小規模なデータセットを用いて訓練することができる。その後、各勾配ブースト機械学習モデル210の性能は、元のデータセット216の元のレコード223を使用して検証することができる。そして、最も性能の良い勾配ブースト機械学習モデル210は、モデル選択器211によって、特定のアプリケーションで使用するためのアプリケーション固有の機械学習モデル209として選択されることができる。
次に、図3Aを参照すると、様々な実施形態によるジェネレータ機械学習モデル203と識別器機械学習モデル206との間の相互作用の一例を提供するシーケンス図が示されている。代替案として、図3Aのシーケンス図は、本開示の一つ又は複数の実施形態によるコンピューティング環境200において実装される方法の要素の一例を示すものとして見ることができる。
ステップ303aから始まって、ジェネレータ機械学習モデル203は、新しいレコード229の形で人工データを生成するように訓練され得る。ジェネレータ機械学習モデル203は、様々な機械学習技術を使用して、元のデータセット216に存在する元のレコード223を使用して訓練することができる。例えば、ジェネレータ機械学習モデル203は、新しいレコード229を生成するために、元のレコード223の間の類似性を識別するように訓練することができる。
ステップ306aで並行して、識別器機械学習モデル206は、元のレコード223とジェネレータ機械学習モデル203によって生成された新しいレコード229とを区別するように訓練することができる。識別器機械学習モデル206は、様々な機械学習技術を使用して、元のデータセット216に存在する元のレコード223を使用して訓練させることができる。例えば、識別器機械学習モデル206は、元のレコード223間の類似性を識別するように訓練することができる。元のレコード223と十分に類似していない任意の新しいレコード229は、したがって、元のレコード223のうちの一つではないと識別され得る。
次にステップ309aで、ジェネレータ機械学習モデル203は、新しいレコード229を生成する。新しいレコード229は、既存の元のレコード223とできるだけ類似するように生成することができる。そして、新しいレコード229は、更なる評価のために識別器機械学習モデル206に供給される。
次に、ステップ313aで、識別器機械学習モデル206は、ジェネレータ機械学習モデル203によって生成された新しいレコード229を評価し、それが元のレコード223と区別可能であるかどうかを決定することができる。評価を行った後、識別器機械学習モデル206は、その評価が正しかったかどうか(例えば、識別器機械学習モデル206は、新しいレコード229を新しいレコード229又は元のレコード223として正しく識別したか)を決定することが可能である。そして、その評価結果をジェネレータ機械学習モデル203に返すことができる。
ステップ316aで、識別器機械学習モデル206は、ステップ313aで実行された評価結果を用いて、自身を更新する。更新は、バック・プロパゲーションなど、様々な機械学習技術を用いて実行することができる。更新の結果、識別器機械学習モデル206は、ステップ309aでジェネレータ機械学習モデル203によって生成された新しいレコード229を、元のデータセット216の元のレコード223と区別することがより良くできるようになる。
ステップ319aで並行して、ジェネレータ機械学習モデル203は、識別器機械学習モデル206によって提供される結果を使用して、それ自体を更新する。更新は、バック・プロパゲーションなど、様々な機械学習技術を用いて実行することができる。更新の結果、ジェネレータ機械学習モデル203は、元のデータセット216の元のレコード223とより類似し、したがって、識別器機械学習モデル206によって元のレコード223と区別しにくい新しいレコード229を生成することがより良くできるようになる。
ステップ316a及び319aでジェネレータ機械学習モデル203及び識別器機械学習モデル206を更新した後、ステップ309aから319aを繰り返すことによって、二つの機械学習モデルを更に訓練し続けることができる。二つの機械学習モデルは、識別器機械学習モデル206の識別器損失ランク及び/又はジェネレータ損失ランクが好ましくは所定のパーセンテージ(例えば、50%)に達するときなど、所定の反復の数だけ又は閾値条件が満たされるまでステップ309aから319aを繰り返してもよい。
図3Bは、ジェネレータ機械学習モデル203と識別器機械学習モデル206との間の相互作用のより詳細な例を提供するシーケンス図を示す。代替案として、図3Bのシーケンス図は、本開示の一つ又は複数の実施形態によるコンピューティング環境200において実装される方法の要素の一例を示すものとして見ることができる。
ステップ301bから始まって、ジェネレータ機械学習モデル203のパラメータは、ランダムに初期化され得る。同様にステップ303bで、識別器機械学習モデル206のパラメータもランダムに初期化することができる。
次に、ステップ306bで、ジェネレータ機械学習モデル203は、新しいレコード229を生成することができる。最初の新しいレコード229は、ジェネレータ機械学習モデル203がまだ訓練されていないため、品質が悪く、及び/又は性質がランダムである可能性がある。
次にステップ309bで、ジェネレータ機械学習モデル203は、新しいレコード229を識別器機械学習モデル206に渡すことができる。いくつかの実装では、元のレコード223はまた、識別器機械学習モデル206に渡すことができる。しかし、他の実装では、元のレコード223は、応答して識別器機械学習モデル206により検索され得る。
ステップ311bに進むと、識別器機械学習モデル206は、新しいレコード229の第1のセットと元のレコード223とを比較することができる。新しいレコード229のそれぞれについて、識別器機械学習モデル206は、新しいレコード229を、新しいレコード229の一つとして、又は元のレコード223の一つとして識別することができる。この比較結果は、ジェネレータ機械学習モデルに渡される。
次にステップ313bで、識別器機械学習モデル206は、ステップ311bで行った評価結果を用いて、自身を更新する。更新は、バック・プロパゲーションなど、様々な機械学習技術を用いて実行することができる。更新の結果、識別器機械学習モデル206は、ステップ306bでジェネレータ機械学習モデル203によって生成された新しいレコード229を、元のデータセット216の元のレコード223と区別することがより良くできるようになる。
次に、ステップ316bで、ジェネレータ機械学習モデル203は、生成できる新しいレコード229の品質を改善するためにそのパラメータを更新することができる。更新は、ステップ311bで識別器機械学習モデル206によって実行された、新しいレコード229の第1のセットと元のレコード223との間の比較の結果に少なくとも一部に基づくことが可能である。例えば、ジェネレータ機械学習モデル203の個々のパーセプトロンは、識別器機械学習モデル206から受け取った結果を用いて、様々なフォワード及び/又はバック・プロパゲーション技術を用いて更新することができる。
ステップ319bに進むと、ジェネレータ機械学習モデル203は、新しいレコード229の追加のセットを生成することができる。この追加の新しいレコード229のセットは、ステップ316bからの更新されたパラメータを使用して生成することができる。これらの追加の新しいレコード229は、次に、評価のために識別器機械学習モデル206に提供することができ、結果は、ステップ309b~316bで前述したように、ジェネレータ機械学習モデル203を更に訓練するために使用することができる。このプロセスは、好ましくは、新しいレコード229と元のレコード223との量が等しいと仮定して、識別器機械学習モデル206のエラー率が約50%になるまで、又は他の方法でハイパーパラメータによって他に許容されるように、繰り返し続けることが可能である。
次に、図4を参照すると、様々な実施形態によるモデル選択器211の一部の動作の一例を提供するフローチャートが示される。図4のフローチャートは、モデル選択器211の図示部分の動作を実装するために採用することができる多くの異なるタイプの機能配置の単なる一例を提供するものであることが理解される。代替案として、図4のフローチャートは、本開示の一つ又は複数の実施形態による、コンピューティング環境200において実装される方法の要素の一例を示すものとして見ることができる。
ステップ403から始まって、モデル選択器211は、一つ又は複数のジェネレータ機械学習モデル203を初期化し、一つ又は複数の識別器機械学習モデル206はその実行を開始する。例えば、モデル選択器211は、ジェネレータ機械学習モデル203の各インスタンスの入力に対してランダムに選択された重みを使用して、ジェネレータ機械学習モデル203の複数のインスタンスをインスタンス化することが可能である。同様に、モデル選択器211は、識別器機械学習モデル206の各インスタンスの入力に対してランダムに選択された重みを使用して、識別器機械学習モデル206の複数のインスタンスをインスタンス化することが可能である。別の例として、モデル選択器211は、ジェネレータ機械学習モデル203及び/又は識別器機械学習モデル206の以前に生成されたインスタンス又はバリエーションを選択し得る。インスタンス化されるジェネレータ及び識別器機械学習モデル203、206の数は、ランダムに選択されてもよいし、所定の又は以前に指定された基準(例えば、モデル選択器211の構成で指定された所定の数)に従って選択されてもよい。いくつかの識別器機械学習モデル206は、他の識別器機械学習モデル206と比較して、特定のジェネレータ機械学習モデル203の訓練に適している場合があるので、ジェネレータ機械学習モデル203の各インスタンス化されたインスタンスは、識別器機械学習モデル206の各インスタンス化されたインスタンスと対にすることも可能である。
次にステップ406で、モデル選択器211はその後、図3A又は3Bのシーケンス図に示されるプロセスに従って、ジェネレータ及び識別器機械学習モデル203及び206の各対が、それらが互いに訓練するために新しいレコード229を生成するときの性能を監視する。図3A又は3Bに描かれたプロセスの各反復について、モデル選択器211は、対になったジェネレータ及び識別器機械学習モデル203及び206に関連する関連性能データを追跡、決定、評価、又は他の方法で識別することができる。これらの性能指標は、対になったジェネレータと識別器機械学習モデル203、206とのラン・レングス、ジェネレータ損失ランク、識別器損失ランク、差分ランク、KS統計を含むことができる。
続いてステップ409で、モデル選択器211は、ステップ406で収集された性能の測定基準に従って、ステップ403でインスタンス化された各ジェネレータ機械学習モデル203をランク付けすることが可能である。このランキングは、様々な条件に応じて発生し得る。例えば、モデル選択器211は、各ジェネレータ機械学習モデル203の所定の回数の反復が行われた後に、ランキングを実行することができる。別の例として、モデル選択器211は、ジェネレータ及び識別器機械学習モデル203及び206の対の一つ又は複数が最小ラン・レングスに達する、或いはジェネレータ損失ランク、識別器損失ランク、及び/又は差分ランクの閾値を横断するなど、特定の閾値条件又は事象が発生した後にランキングを実行することが可能である。
ランキングは、任意の数の方法で実施することができる。例えば、モデル選択器211は、ジェネレータ機械学習モデル206に対して複数のランキングを生成することができる。第1のランキングは、ラン・レングスに少なくとも一部に基づくことができる。第2のランキングは、ジェネレータ損失ランクに少なくとも一部に基づくことができる。第3のランキングは、識別器損失ランクに少なくとも一部に基づくことができる。第4のランキングは、差分ランキングに少なくとも一部に基づくことができる。最後に、第5のランキングは、ジェネレータ機械学習モデル203のKS統計に少なくとも一部に基づくことができる。いくつかの実施例では、これらの要素をそれぞれ考慮した単一のランキングを利用することも可能である。
次にステップ413で、モデル選択器211は、ステップ409でランク付けされた上位ランクのジェネレータ機械学習モデル203の各々に関連するPDF231を選択することが可能である。例えば、モデル選択器211は、最長のラン・レングスに関連するジェネレータ機械学習モデル203のPDF231を表す第1のPDF231、最低のジェネレータ損失ランクに関連するジェネレータ機械学習モデル203のPDF231を表す第2のPDF231、最高の識別器損失ランクに関連するジェネレータ機械学習モデル203のPDF231を表す第3のPDF231、最高の差分ランクに関連するジェネレータ機械学習モデル203のPDF231を表す第4のPDF231、又は最高のKS統計に関連するジェネレータ機械学習モデル203のPDF231を表す第5のPDF231を選択し得る。しかし、PDF231を追加で選択することも可能である(各カテゴリの上位2、3、5など)。
ステップ416に進むと、モデル選択器211は、ステップ413で選択されたPDF231のそれぞれを使用して、別々の拡張データセット219を生成することができる。拡張データセット219を生成するために、モデル選択器211は、それぞれのPDF231を使用して、所定の、又は以前に指定された数の新しいレコード229を生成することができる。例えば、各々のそれぞれのPDF231は、PDF231によって定義されるサンプル空間内の所定の又は以前に指定された数の点でランダムにサンプリング又は選択され得る。そして、新しいレコード229の各セットは、元のレコード223と組み合わせて、拡張データセット219に記憶することができる。しかし、いくつかの実装では、モデル選択器211は、拡張データセット219に新しいレコード229のみを記憶することができる。
次に、ステップ419で、モデル選択器211は、勾配ブースト機械学習モデル210のセットを生成することができる。例えば、XGBOOSTライブラリを用いて、勾配ブースト機械学習モデル210を生成することができる。しかし、他の勾配ブースティング・ライブラリやアプローチも使用可能である。各勾配ブースト機械学習モデル210は、拡張データセット219のそれぞれの一つを使用して訓練することができる。
続いてステップ423で、モデル選択器211は、ステップ419で生成された勾配ブースト機械学習モデル210をランク付けすることができる。例えば、モデル選択器211は、元のデータセット216の元のレコード223を使用して、勾配ブースト機械学習モデル210の各々を検証することが可能である。別の例として、モデル選択器211は、時間外検証データ又は他のデータソースを用いて、勾配ブースト機械学習モデル210の各々を検証することが可能である。次に、モデル選択器211は、元のレコード223又は時間外検証データを用いて検証したときのそれらの性能に少なくとも一部に基づいて、勾配ブースト機械学習モデル210の各々をランク付けすることができる。
最後に、ステップ426で、モデル選択器211は、使用するアプリケーション固有の機械学習モデル209として、最良又は最高ランクの勾配ブースト機械学習モデル210を選択することができる。次に、アプリケーション固有の機械学習モデル209は、元のデータセット216によって表される事象又は母集団に関連する予測を行うために使用することができる。
先に説明した多数のソフトウェア構成要素は、それぞれのコンピューティング・デバイスのメモリに記憶され、それぞれのコンピューティング・デバイスのプロセッサによって実行可能である。この点、「実行可能」という用語は、最終的にプロセッサで実行可能な形態にあるプログラム・ファイルを意味する。実行可能なプログラムの例としては、メモリのランダム・アクセス部分にロードしてプロセッサによって実行できる形式の機械コード、メモリのランダム・アクセス部分にロードしてプロセッサによって実行できるオブジェクトコードなどの適切な形式で表現できるソース・コード、又は別の実行可能プログラムによって解釈されてプロセッサによって実行するためにメモリのランダム・アクセス部分に命令を生成できるソース・コードに変換できるコンパイル・プログラムを挙げることができる。実行可能なプログラムは、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、ハード・ドライブ、ソリッドステート・ドライブ、ユニバーサル・シリアル・バス(USB)フラッシュ・ドライブ、メモリ・カード、コンパクト・ディスク(CD)やデジタル・バーサタイル・ディスク(DVD)などの光ディスク、フロッピー・ディスク、磁気テープを含むメモリの任意の部分又は構成要素又は他のメモリ構成要素に記憶することができる。
メモリは、揮発性メモリと不揮発性メモリの両方及びデータ記憶構成要素を含む。揮発性構成要素とは、電源を切ってもデータの値が保持されない構成要素のことである。不揮発性構成要素とは、電源を切ってもデータを保持する構成要素である。したがって、メモリは、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、ハード・ディスク・ドライブ、ソリッドステート・ドライブ、USBフラッシュ・ドライブ、メモリ・カード・リーダーを介してアクセスされるメモリ・カード、関連するフロッピー・ディスク・ドライブを介してアクセスされるフロッピー・ディスク、光ディスク・ドライブを介してアクセスされる光ディスク、適切なテープ・ドライブを介してアクセスされる磁気テープ、又は他のメモリ構成要素、或いはこれらのメモリ構成要素の任意の二つ以上の組み合わせを含むことが可能である。更に、RAMには、スタティック・ランダム・アクセス・メモリ(SRAM)、ダイナミック・ランダム・アクセス・メモリ(DRAM)、又は磁気ランダム・アクセス・メモリ(MRAM)などのデバイスを含めることができる。ROMは、プログラム可能な読み取り専用メモリ(PROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、又は他の同様のメモリ・デバイスを含むことができる。
本明細書で説明した様々なシステムは、上述したように汎用ハードウェアによって実行されるソフトウェア又はコードで具現化することができるが、代替案として、同じものを専用ハードウェア又はソフトウェア/汎用ハードウェアと専用ハードウェアの組み合わせで具現化することも可能である。専用のハードウェアで具現化する場合は、複数の技術のいずれか一つ、又は複数の技術の組み合わせを使用する回路又はステート・マシンとして実装することができる。これらの技術には、一つ又は複数のデータ信号の印加により様々な論理機能を実装する論理ゲートを有するディスクリート論理回路、適切な論理ゲートを有する特定用途向け集積回路(ASIC)、フィールドプログラム可能なゲート・アレイ(FPGA)、その他の構成要素等を含むことができるが、これらに限定されるものではない。このような技術は、当業者には一般的によく知られているため、本明細書では詳しく説明しない。
フローチャートとシーケンス図は、先に説明した様々なアプリケーションの一部の実装の機能と動作を示すものである。ソフトウェアで具現化する場合、各ブロックは、指定された論理機能を実装するためのプログラム命令を含むコードのモジュール、セグメント、又は部分を表すことができる。プログラム命令は、プログラミング言語で書かれた人間が読めるステートメントを含むソース・コード、又はコンピュータ・システム内のプロセッサなどの適切な実行システムによって認識可能な数値命令を含む機械コードの形態で具現化することができる。ソース・コードから様々なプロセスを経て、機械コードを変換することができる。例えば、対応するアプリケーションの実行に先立ち、コンパイラでソース・コードから機械コードを生成することができる。別の例として、インタープリタによる実行と同時にソース・コードから機械コードを生成することができる。また、その他のアプローチも使用可能である。ハードウェアで具現化する場合、各ブロックは、指定された一つ又は複数の論理機能を実装するための回路又は相互に接続された複数の回路を表すことができる。
フローチャートとシーケンス図は特定の実行順序を示しているが、実行順序は描かれているものとは異なる可能性があることが理解される。例えば、二つ以上のブロックの実行順序を、表示されている順序に対してスクランブルすることができる。また、フローチャートやシーケンス図に連続して示される二つ以上のブロックは、同時に、或いは部分的に同時進行で実行することが可能である。更に、いくつかの実施形態では、フローチャート又はシーケンス図に示されるブロックの一つ又は複数をスキップ又は省略することができる。更に、ユーティリティの向上、アカウンティング、性能測定、トラブルシューティングの補助の提供などを目的として、本書に記載されている論理フローに、任意の数のカウンタ、状態変数、警告セマフォ、又はメッセージを追加することができる。このようなすべての変形は、本開示の範囲内であることが理解される。
また、ソフトウェア又はコードを含む本明細書に記載の任意の論理又はアプリケーションは、コンピュータ・システム又は他のシステムにおけるプロセッサなどの命令実行システムによって又はそれに関連して使用するための任意の非一時的なコンピュータ可読媒体に具現化することが可能である。この意味で、論理は、コンピュータ可読媒体からフェッチされ、命令実行システムによって実行され得る命令及び宣言を含むステートメントを含むことができる。本開示の文脈では、「コンピュータ可読媒体」は、命令実行システムによって、又は命令実行システムに関連して使用するために、本明細書に記載の論理又はアプリケーションを含み、記憶、又は維持できる任意の媒体であり得る。
コンピュータ可読媒体は、磁気媒体、光学媒体、又は半導体媒体などの多くの物理媒体のうちの任意の一つを含むことができる。適切なコンピュータ可読媒体のより具体的な例としては、磁気テープ、磁気フロッピー・ディスク、磁気ハード・ディスク、メモリ・カード、ソリッドステート・ドライブ、USBフラッシュ・ドライブ、又は光ディスクが挙げられるが、これらに限定されるものではない。また、コンピュータ可読媒体は、スタティック・ランダム・アクセス・メモリ(SRAM)及びダイナミック・ランダム・アクセス・メモリ(DRAM)を含むランダム・アクセス・メモリ(RAM)、又は磁気ランダム・アクセス・メモリ(MRAM)であってもよい。更に、コンピュータ可読媒体は、読み取り専用メモリ(ROM)、プログラム可能読み取り専用メモリ(PROM)、消去可能プログラム可能読み取り専用メモリ(EPROM)、電気的に消去可能プログラム可能読み取り専用メモリ(EEPROM)などのタイプのメモリ・デバイスであってもよい。
更に、本明細書に記載された任意の論理又はアプリケーションは、様々な方法で実装及び構造化することができる。例えば、説明した一つ又は複数のアプリケーションは、一つのアプリケーションのモジュール又は構成要素として実装することができる。更に、本明細書に記載された一つ又は複数のアプリケーションは、共有又は別々のコンピューティング・デバイス、又はそれらの組み合わせで実行することができる。例えば、本明細書で説明する複数のアプリケーションは、同じコンピューティング・デバイスで実行することもできるし、同じコンピューティング環境200内の複数のコンピューティング・デバイスで実行することもできる。
句「X、Y、又はZの少なくとも一つ」のような離接的な言語は、特に断らない限り、他の方法で、アイテム、用語などがX、Y、又はZのいずれか、又はそれらの任意の組み合わせ(例えば、X、Y、又はZ)であり得ることを示すために一般的に使用されていると文脈と共に理解される。したがって、このような離接的な言語は、一般に、特定の実施形態では、Xの少なくとも一つ、Yの少なくとも一つ、又はZの少なくとも一つがそれぞれ存在する必要があることを意味するものではなく、また、そのようなことを意味すべきではない。
本開示の上述の実施形態は、本開示の原理を明確に理解するために提示された実装の可能な実施例に過ぎないことを強調する必要がある。本開示の趣旨及び原理から実質的に逸脱することなく、上述した実施形態に対して多くの変形及び修正を行うことができる。このようなすべての修正及び変形は、本開示の範囲内に含まれ、以下の特許請求の範囲によって保護されることが意図される。
本開示のいくつかの例示的な実装は、以下の条項で規定される。これらの条項は、本開示の様々な実装及び実施形態を例示するものであるが、これらの条項は、先の説明において例示されたように、本開示の唯一の実装又は実施形態のみの説明ではない。
条項1-プロセッサ及びメモリを備えるコンピューティング・デバイスと、メモリに記憶された訓練データセットであって、複数のレコードを備える、訓練データセットと、メモリに記憶され、プロセッサによって実行されたとき、コンピューティング・デバイスに少なくとも、複数のレコード間の共通の特性又は類似性を識別するために訓練データセットを解析することと、複数のレコード間の識別された共通の特性又は類似性に少なくとも一部に基づいて、新しいレコードを生成することと、を行わせる、第1の機械学習モデルと、メモリに記憶され、プロセッサにより実行されたとき、コンピューティング・デバイスに少なくとも、複数のレコード間の共通の特性又は類似性を識別するために訓練データセットを解析することと、第1の機械学習モデルによって生成された新しいレコードを評価し、新しいレコードが訓練データセット内の複数のレコードと区別できないかどうかを決定することと、新しいレコードの評価に少なくとも一部に基づいて、第1の機械学習モデルを更新することと、新しいレコードの評価に少なくとも一部に基づいて、第2の機械学習モデルを更新することと、を行わせる、第2の機械学習モデルと、を含む、システム。
条項2-第1の機械学習モデルは、コンピューティング・デバイスに複数の新しいレコードを生成させ、システムは、第1の機械学習モデルによって生成された複数の新しいレコードを使用して訓練される、メモリに記憶された第3の機械学習モデルを更に備える、条項1のシステム。
条項3-複数の新しいレコードは、第2の機械学習モデルが第1の機械学習モデルによって生成された新しいレコードと訓練データセット内の複数のレコードの個々のものとを区別することができないという決定に応答して生成される、条項1又は2のシステム。
条項4-複数の新しいレコードは、第1の機械学習モデルによって識別される確率密度関数(PDF)によって定義されるサンプル空間内の所定の数の点のランダム・サンプルから生成される、条項1乃至3のシステム。
条項5-第1の機械学習モデルは、第2の機械学習モデルが、新しいレコードを訓練データセット内の複数のレコードから所定の率で区別できなくなるまで、新しいレコードを繰り返し生成する、条項1乃至4のシステム。
条項6-等サイズの新しいレコードが生成されるとき、所定の率は50%である、条項1乃至5のシステム。
条項7-機械学習モデルは、コンピューティング・デバイスに、新しいレコードを少なくとも2回生成させ、第2の機械学習モデルは、コンピューティング・デバイスに、新しいレコードを少なくとも2回評価させ、第1の機械学習モデルを少なくとも2回更新し、第2の機械学習モデルを少なくとも2回更新させる、条項1乃至6のシステム。
条項8-確率分布関数(PDF)を識別するために複数の元のレコードを解析することであって、PDFはサンプル空間を含み、サンプル空間は複数の元のレコードを含む、解析することと、PDFを用いて複数の新しいレコードを生成することと、複数の新しいレコードを含む拡張データセットを生成することと、拡張データセットを用いて機械学習モデルを訓練することを含む、コンピュータ実装方法。
条項9-確率分布関数を識別するために複数の元のレコードを解析することが、複数の元のレコードの個々のものに類似する新しいレコードを生成するために、ジェネレータ機械学習モデルを訓練することと、新しいレコードと複数の元のレコードの個々のものとを区別するために、識別器機械学習モデルを訓練することと、ジェネレータ機械学習モデルによって生成された新しいレコードが識別器機械学習モデルによって所定の率で間違えられることに応答して、確率分布関数を識別することと、を更に含む、条項8のコンピュータ実装方法。
条項10-所定の率は、新しいレコードと複数の元のレコードとの間で識別器によって実行される比較の約50%である、条項9のコンピュータ実装方法。
条項11-ジェネレータ機械学習モデルが複数のジェネレータ機械学習モデルのうちの一つであり、該方法は、複数の元のレコードの個々のものに類似する新しいレコードを生成するために複数のジェネレータ機械学習モデルのそれぞれを訓練することと、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するラン・レングス、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するジェネレータ損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する識別器損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する異なるランク、又は、複数の元のレコードに関連する第1の確率分布関数及び複数の新しいレコードに関連する第2の確率分布関数を含むコルモゴロフ・スミルノフ(KS)検定の少なくとも一つの結果に少なくとも一部に基づいて、複数のジェネレータ機械学習モデルの中からジェネレータ機械学習モデルを選択することと、を更に含み、確率分布関数を識別することは、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することに応答して更に行われる、条項9又は10のコンピュータ実装方法。
条項12-確率分布関数を使用して複数の新しいレコードを生成することは、確率分布関数によって定義されるサンプル空間内の所定の数の点をランダムに選択することを更に含む、条項8乃至11のコンピュータ実装方法。
条項13-複数の元のレコードを拡張データセットに追加することを更に含む、条項8乃至12のコンピュータ実装方法。
条項14-機械学習モデルがニューラル・ネットワークを含む、条項8乃至13のコンピュータ実装方法。
条項15-プロセッサとメモリとを備えるコンピューティング・デバイスと、メモリに記憶された機械可読命令と、を備え、機械可読命令は、プロセッサによって実行されたとき、コンピューティング・デバイスに少なくとも、確率分布関数(PDF)を識別するために複数の元のレコードを解析することであって、PDFはサンプル空間を含み、サンプル空間は複数の元のレコードを含む、解析することと、PDFを用いて複数の新しいレコードを生成することと、複数の新しいレコードを含む拡張データセットを生成することと、拡張データセットを用いて機械学習モデルを訓練することを行わせる、システム。
条項16-コンピューティング・デバイスに、確率分布関数を識別するために複数の元のレコードを解析させる機械可読命令は、更に、コンピューティング・デバイスに少なくとも、複数の元のレコードの個々のものに類似する新しいレコードを生成するために、ジェネレータ機械学習モデルを訓練することと、新しいレコードと複数の元のレコードの個々のものとを区別するために、識別器機械学習モデルを訓練することと、ジェネレータ機械学習モデルによって生成された新しいレコードが識別器機械学習モデルによって所定の率で間違えられることに応答して、確率分布関数を識別することと、を行わせる、条項15のシステム。
条項17-所定の率は、新しいレコードと複数の元のレコードとの間で識別器によって実行される比較の約50%である、条項16のシステム。
条項18-ジェネレータ機械学習モデルが複数のジェネレータ機械学習モデルのうちの一つであり、機械可読命令は更に、コンピューティング・デバイスに少なくとも、複数の元のレコードの個々のものに類似する新しいレコードを生成するために複数のジェネレータ機械学習モデルのそれぞれを訓練することと、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するラン・レングス、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するジェネレータ損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する識別器損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する異なるランク、又は、複数の元のレコードに関連する第1の確率分布関数及び複数の新しいレコードに関連する第2の確率分布関数を含むコルモゴロフ・スミルノフ(KS)検定の少なくとも一つの結果に少なくとも一部に基づいて、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することを行わせ、確率分布関数の識別は、複数のジェネレータ機械学習モデルからジェネレータ機械学習モデルを選択することに応答して更に行われる、条項16又は17。
条項19-コンピューティング・デバイスに確率分布関数を使用して複数の新しいレコードを生成させる機械可読命令は、確率分布関数によって定義されるサンプル空間内の所定の数の点をランダムに選択するようにコンピューティング・デバイスに更に行わせる、条項15乃至18のシステム。
条項20-機械可読命令は、プロセッサによって実行されたとき、更にコンピューティング・デバイスに、複数の元のレコードを拡張データセットに少なくとも追加させる、条項15乃至19のシステム。
条項21-第1の機械学習モデル及び第2の機械学習モデルを含む、非一時的なコンピュータ可読媒体であって、第1の機械学習モデルは、コンピューティング・デバイスのプロセッサによって実行されたとき、コンピューティング・デバイスに少なくとも、訓練データセットの複数のレコード間の共通の特性又は類似性を識別するために訓練データセットを解析することと、複数のレコード間の識別された共通の特性又は類似性に少なくとも一部に基づいて新しいレコードを生成することと、を行わせ、第2の機械学習モデルは、コンピューティング・デバイスのプロセッサによって実行されたとき、コンピューティング・デバイスに少なくとも、複数のレコード間の共通の特性又は類似性を識別するために訓練データセットを解析することと、第1の機械学習モデルによって生成された新しいレコードを評価し、新しいレコードが、所定のエラー率に少なくとも一部に基づいて訓練データセット内の複数のレコードと区別できないかどうかを決定することと、新しいレコードの評価に少なくとも一部に基づいて第1の機械学習モデルを更新することと、新しいレコードの評価に少なくとも一部に基づいて、第2の機械学習モデルを更新することと、を行わせる、非一時的なコンピュータ可読媒体。
条項22-第1の機械学習モデルは、コンピューティング・デバイスに複数の新しいレコードを生成させ、システムは、第1の機械学習モデルによって生成された複数の新しいレコードを使用して訓練される、メモリに記憶された第3の機械学習モデルを更に備える、条項21の非一時的なコンピュータ可読媒体。
条項23-複数の新しいレコードは、第2の機械学習モデルが第1の機械学習モデルによって生成された新しいレコードと訓練データセット内の複数のレコードの個々のものとを区別することができないという決定に応答して生成される、条項21又は22の非一時的なコンピュータ可読媒体。
条項24-複数の新しいレコードは、第1の機械学習モデルによって識別される確率密度関数(PDF)によって定義されるサンプル空間内の所定の数の点のランダム・サンプルから生成される、条項21乃至23の非一時的なコンピュータ可読媒体。
条項25-第1の機械学習モデルは、第2の機械学習モデルが、新しいレコードを訓練データセット内の複数のレコードから所定の率で区別できなくなるまで、新しいレコードを繰り返し生成する、条項21乃至24の非一時的なコンピュータ可読媒体。
条項26-等サイズの新しいレコードが生成されるとき、所定の率は50%である、条項21乃至25の非一時的なコンピュータ可読媒体。
条項27-第1の機械学習モデルは、コンピューティング・デバイスに少なくとも2回、新しいレコードを生成させ、第2の機械学習モデルは、コンピューティング・デバイスに少なくとも2回、新しいレコードを評価させ、第1の機械学習モデルを少なくとも2回更新し、第2の機械学習モデルを少なくとも2回更新する、条項21乃至26の非一時的なコンピュータ可読媒体。
条項28-コンピューティング・デバイスのプロセッサによって実行されたとき、少なくともコンピューティング・デバイスに少なくとも、確率分布関数(PDF)を識別するために複数の元のレコードを解析することであって、PDFがサンプル空間を含み、サンプル空間が複数の元のレコードを含む、解析することと、PDFを使用して複数の新しいレコードを生成することと、複数の新しいレコードを含む拡張データセットを生成することと、拡張データセットを使用して機械学習モデルを訓練することと、を行わせる機械可読命令を含んだ非一時的なコンピュータ可読媒体。
条項29-確率分布関数を識別するために複数の元のレコードを解析することをコンピューティング・デバイスに行わせる機械可読命令は、コンピューティング・デバイスに少なくとも、複数の元のレコードの個々のものに類似する新しいレコードを生成するために、ジェネレータ機械学習モデルを訓練することと、新しいレコードと複数の元のレコードの個々のものとを区別するために、識別器機械学習モデルを訓練することと、ジェネレータ機械学習モデルによって生成された新しいレコードが識別器機械学習モデルによって所定の率で間違えられることに応答して、確率分布関数を識別することと、を行わせる、条項28の非一時的なコンピュータ可読媒体。
条項30-所定の率は、新しいレコードと複数の元のレコードとの間で識別器によって実行される比較の約50%である、条項29の非一時的なコンピュータ可読媒体。
条項31-ジェネレータ機械学習モデルが第1のジェネレータ機械学習モデルであり、第1のジェネレータ機械学習モデル及び少なくとも第2のジェネレータ機械学習モデルが複数のジェネレータ機械学習モデルに含まれ、機械可読命令は更に、コンピューティング・デバイスに少なくとも、複数の元のレコードの個々のものに類似する新しいレコードを生成するために、少なくとも第2のジェネレータ機械学習モデルを訓練することと、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するラン・レングス、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連するジェネレータ損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する識別器損失ランク、各ジェネレータ機械学習モデル及び識別器機械学習モデルに関連する異なるランク、又は、複数の元のレコードに関連する第1の確率分布関数と複数の新しいレコードに関連する第2の確率分布関数とを含むコルモゴロフ・スミルノフ(KS)検定の少なくとも一つの結果に少なくとも一部に基づいて、複数のジェネレータ機械学習モデルから第1のジェネレータ機械学習モデルを選択することと、を行わせ、確率分布関数の識別が、複数のジェネレータ機械学習モデルから第1のジェネレータ機械学習モデルを選択することに応答して更に行われる、条項29又は30の非一時的なコンピュータ可読媒体。
条項32-コンピューティング・デバイスに確率分布関数を使用して複数の新しいレコードを生成させる機械可読命令は、確率分布関数によって定義されるサンプル空間内の所定の数の点をランダムに選択するようにコンピューティング・デバイスに更に行わせる、条項28乃至31の非一時的なコンピュータ可読媒体。
条項33-機械可読命令は、プロセッサによって実行されたとき、コンピューティング・デバイスに、複数の元のレコードを拡張データセットに少なくとも追加させる、条項28乃至32の非一時的なコンピュータ可読媒体。

Claims (20)

  1. プロセッサとメモリとを含むコンピューティング・デバイスと、
    前記メモリに記憶された訓練データセットであって、複数のレコードを含む、訓練データセットと、
    前記メモリに記憶され、前記プロセッサによって実行されたとき、前記コンピューティング・デバイスに少なくとも、
    前記複数のレコードの間の類似性を識別するために前記訓練データセットを解析することと、
    前記複数のレコード間の前記識別された類似性に少なくとも一部に基づいて、新しいレコードを生成することと、を行わせる、第1の機械学習モデルと、
    前記メモリに記憶される第2の機械学習モデルであって、前記プロセッサによって実行されたとき、前記コンピューティング・デバイスに少なくとも、
    前記複数のレコードの間の類似性を識別するために前記訓練データセットを解析することと、
    前記第1の機械学習モデルによって生成された前記新しいレコードを、前記新しいレコードが、所定のエラー率の少なくとも一部に基づいて前記訓練データセット内の前記複数のレコードの少なくとも部分集合と区別できないかどうかを決定するために、評価することと、
    前記新しいレコードの前記評価に少なくとも一部に基づいて、前記第1の機械学習モデルを更新することと、
    前記新しいレコードの前記評価に少なくとも一部に基づいて、前記第2の機械学習モデルを更新することと、を行わせる、第2の機械学習モデルと、を含む、システム。
  2. 前記第1の機械学習モデルが、前記コンピューティング・デバイスに複数の新しいレコードを生成させ、
    前記システムは、前記第1の機械学習モデルによって生成された前記複数の新しいレコードを使用して訓練される、前記メモリに記憶された第3の機械学習モデルを更に含む、請求項1に記載のシステム。
  3. 前記複数の新しいレコードは、前記第2の機械学習モデルが前記第1の機械学習モデルによって生成された前記新しいレコードと前記訓練データセット内の前記複数のレコードの個々のものとを区別することができないという決定に応答して生成される、請求項1又は2に記載のシステム。
  4. 前記複数の新しいレコードは、前記第1の機械学習モデルによって識別される確率密度関数(PDF)によって定義される前記サンプル空間内の所定の数の点のランダム・サンプルから生成される、請求項1乃至3のいずれか1項に記載のシステム。
  5. 前記第1の機械学習モデルは、前記第2の機械学習モデルが前記訓練データセット内の前記複数のレコードから前記新しいレコードを所定の率で区別できなくなるまで、前記新しいレコードを繰り返し生成する、請求項1乃至4のいずれか1項に記載のシステム。
  6. 等サイズの新しいレコードが生成される場合、前記所定の率は50%である、請求項1乃至5のいずれか1項に記載のシステム。
  7. 前記第1の機械学習モデルが、前記コンピューティング・デバイスに少なくとも2回、前記新しいレコードを生成させ、前記第2の機械学習モデルが、前記コンピューティング・デバイスに少なくとも2回、前記新しいレコードを評価させ、前記第1の機械学習モデルを少なくとも2回更新し、前記第2の機械学習モデルを少なくとも2回更新する、請求項1乃至6のいずれか1項に記載のシステム。
  8. 確率分布関数(PDF)を識別するために複数の元のレコードを解析することであって、前記PDFはサンプル空間を含み、前記サンプル空間は前記複数の元のレコードを含む、解析することと、
    前記PDFを用いた複数の新しいレコードを生成することと、
    前記複数の新しいレコードを含む拡張データセットを生成することと、
    前記拡張データセットを用いて、機械学習モデルを訓練することと、を含む、コンピュータ実装方法。
  9. 前記確率分布関数を識別するために前記複数の元のレコードを解析することは、
    前記複数の元のレコードの個々のものに類似する新しいレコードを生成するために、ジェネレータ機械学習モデルを訓練することと、
    前記新しいレコードと前記複数の元のレコードの前記個々のものとを区別するために、識別器機械学習モデルを訓練することと、
    前記ジェネレータ機械学習モデルによって生成された前記新しいレコードが、前記識別器機械学習モデルによって所定の率で間違われることに応答して、前記確率分布関数を識別することと、を更に含む、請求項8に記載のコンピュータ実装方法。
  10. 前記所定の率は、前記新しいレコードと前記複数の元のレコードとの間で前記識別器によって実行される比較の約50%である、請求項9に記載のコンピュータ実装方法。
  11. 前記ジェネレータ機械学習モデルが第1のジェネレータ機械学習モデルであり、前記第1のジェネレータ機械学習モデル及び少なくとも第2のジェネレータ機械学習モデルが複数のジェネレータ機械学習モデルに含まれ、前記方法は、
    前記複数の元のレコードの個々のものに類似する前記新しいレコードを生成するために、少なくとも前記第2のジェネレータ機械学習モデルを訓練することと、
    各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連するラン・レングス、
    各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連するジェネレータ損失ランク、
    各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連する識別器損失ランク、
    各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連する異なるランク、又は
    前記複数の元のレコードに関連する第1の確率分布関数と前記複数の新しいレコードに関連する第2の確率分布関数を含むコルモゴロフ・スミルノフ(KS)検定の少なくとも一つの結果、の少なくとも一部に基づいて、前記複数のジェネレータ機械学習モデルから前記第1のジェネレータ機械学習モデルを選択することと、を更に含み、
    前記確率分布関数の前記識別は、前記複数のジェネレータ機械学習モデルから前記第1のジェネレータ機械学習モデルを選択することに応答して、更に行われる、請求項9又は10に記載のコンピュータ実装方法。
  12. 前記確率分布関数を用いて前記複数の新しいレコードを生成することは、前記確率分布関数によって定義される前記サンプル空間内の所定の数の点をランダムに選択することを更に含む、請求項8乃至11のいずれか1項に記載のコンピュータ実装方法。
  13. 前記複数の元のレコードを前記拡張データセットに追加することを更に含む、請求項8乃至12のいずれか1項に記載のコンピュータ実装方法。
  14. 前記機械学習モデルがニューラル・ネットワークを含む、請求項8乃至13のいずれか1項に記載のコンピュータ実装方法。
  15. プロセッサとメモリとを含むコンピューティング・デバイスと、
    前記メモリに記憶された機械可読命令と、を含み、前記機械可読命令は、前記プロセッサによって実行されたとき、前記コンピューティング・デバイスに少なくとも
    確率分布関数(PDF)を識別するために複数の元のレコードを解析することであって、前記PDFはサンプル空間を含み、前記サンプル空間は複数の元のレコードを含む、解析することと、
    前記PDFを使用して複数の新しいレコードを生成することと、
    前記複数の新しいレコードを含む拡張データセットを生成することと、
    前記拡張データセットを用いて、機械学習モデルを訓練することと、を行わせる、システム。
  16. 前記確率分布関数を識別するために前記複数の元のレコードを解析することを前記コンピューティング・デバイスに行わせる前記機械可読命令は、前記コンピューティング・デバイスに少なくとも、
    前記複数の元のレコードの個々のものに類似する新しいレコードを生成するために、ジェネレータ機械学習モデルを訓練することと、
    前記新しいレコードと前記複数の元のレコードの前記個々のものとを区別するために、識別器機械学習モデルを訓練することと、
    前記ジェネレータ機械学習モデルによって生成された前記新しいレコードが、前記識別器機械学習モデルによって所定の率で間違われることに応答して、前記確率分布関数を識別することと、を更に行わせる、請求項15に記載のシステム。
  17. 前記所定の率は、前記新しいレコードと前記複数の元のレコードとの間で前記識別器によって実行される比較の約50%である、請求項16に記載のシステム。
  18. 前記ジェネレータ機械学習モデルが第1のジェネレータ機械学習モデルであり、前記第1のジェネレータ機械学習モデル及び少なくとも第2のジェネレータ機械学習モデルが複数のジェネレータ機械学習モデルに含まれ、前記機械可読命令は、更に、コンピューティング・デバイスに少なくとも、
    前記複数の元のレコードの個々のものに類似する前記新しいレコードを生成するために、少なくとも前記第2のジェネレータ機械学習モデルを訓練することと、
    各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連するラン・レングス、
    各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連するジェネレータ損失ランク、
    各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連する識別器損失ランク、
    各ジェネレータ機械学習モデル及び前記識別器機械学習モデルに関連する異なるランク、又は
    前記複数の元のレコードに関連する第1の確率分布関数と前記複数の新しいレコードに関連する第2の確率分布関数を含むコルモゴロフ・スミルノフ(KS)検定の少なくとも一つの結果に、少なくとも一部に基づいて、前記複数のジェネレータ機械学習モデルから前記第1のジェネレータ機械学習モデルを選択することと、を行わせ、
    前記確率分布の前記識別は、前記複数のジェネレータ機械学習モデルから前記第1のジェネレータ機械学習モデルを選択することに応答して、更に行われる、請求項16又は17に記載のシステム。
  19. 前記コンピューティング・デバイスに、前記確率分布関数を用いて前記複数の新しいレコードを生成させる前記機械可読命令は、前記コンピューティング・デバイスに、前記確率分布関数によって定義される前記サンプル空間内の所定の数の点をランダムに更に選択させる、請求項15乃至18のいずれか1項に記載のシステム。
  20. 前記機械可読命令は、前記プロセッサによって実行されたとき、更に、前記コンピューティング・デバイスに、少なくとも前記複数の元のレコードを前記拡張データセットに追加させる、請求項15乃至19のいずれか1項に記載のシステム。
JP2022514467A 2019-09-06 2020-09-04 機械学習モデル用の訓練データの生成 Active JP7391190B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/562,972 US20210073669A1 (en) 2019-09-06 2019-09-06 Generating training data for machine-learning models
US16/562,972 2019-09-06
PCT/US2020/049337 WO2021046306A1 (en) 2019-09-06 2020-09-04 Generating training data for machine-learning models

Publications (2)

Publication Number Publication Date
JP2022546571A true JP2022546571A (ja) 2022-11-04
JP7391190B2 JP7391190B2 (ja) 2023-12-04

Family

ID=74851051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022514467A Active JP7391190B2 (ja) 2019-09-06 2020-09-04 機械学習モデル用の訓練データの生成

Country Status (6)

Country Link
US (1) US20210073669A1 (ja)
EP (1) EP4026071A4 (ja)
JP (1) JP7391190B2 (ja)
KR (1) KR20220064966A (ja)
CN (1) CN114556360A (ja)
WO (1) WO2021046306A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11158090B2 (en) * 2019-11-22 2021-10-26 Adobe Inc. Enhanced video shot matching using generative adversarial networks
KR20210071130A (ko) * 2019-12-05 2021-06-16 삼성전자주식회사 컴퓨팅 장치, 컴퓨팅 장치의 동작 방법, 그리고 저장 매체
KR20220019894A (ko) * 2020-08-10 2022-02-18 삼성전자주식회사 반도체 공정의 시뮬레이션 방법 및 반도체 장치의 제조 방법
US20230083443A1 (en) * 2021-09-16 2023-03-16 Evgeny Saveliev Detecting anomalies in physical access event streams by computing probability density functions and cumulative probability density functions for current and future events using plurality of small scale machine learning models and historical context of events obtained from stored event stream history via transformations of the history into a time series of event counts or via augmenting the event stream records with delay/lag information
WO2023219371A1 (ko) * 2022-05-09 2023-11-16 삼성전자주식회사 학습 데이터를 증강시키는 전자 장치 및 그 제어 방법
KR20240052394A (ko) 2022-10-14 2024-04-23 고려대학교 산학협력단 한국어 상식 추론 능력 데이터 생성 장치 및 방법
US12111797B1 (en) 2023-09-22 2024-10-08 Storytellers.ai LLC Schema inference system
US11961005B1 (en) * 2023-12-18 2024-04-16 Storytellers.ai LLC System for automated data preparation, training, and tuning of machine learning models

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015176175A (ja) * 2014-03-13 2015-10-05 日本電気株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019046269A (ja) * 2017-09-04 2019-03-22 株式会社Soat 機械学習用訓練データの生成
US20190197670A1 (en) * 2017-12-27 2019-06-27 Facebook, Inc. Automatic Image Correction Using Machine Learning
US20190197358A1 (en) * 2017-12-21 2019-06-27 International Business Machines Corporation Generative Adversarial Network Medical Image Generation for Training of a Classifier

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016061283A1 (en) * 2014-10-14 2016-04-21 Skytree, Inc. Configurable machine learning method selection and parameter optimization system and method
US20160132787A1 (en) * 2014-11-11 2016-05-12 Massachusetts Institute Of Technology Distributed, multi-model, self-learning platform for machine learning
US10332028B2 (en) * 2015-08-25 2019-06-25 Qualcomm Incorporated Method for improving performance of a trained machine learning model
GB201517462D0 (en) * 2015-10-02 2015-11-18 Tractable Ltd Semi-automatic labelling of datasets
KR101990326B1 (ko) * 2018-11-28 2019-06-18 한국인터넷진흥원 감가율 자동 조정 방식의 강화 학습 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015176175A (ja) * 2014-03-13 2015-10-05 日本電気株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019046269A (ja) * 2017-09-04 2019-03-22 株式会社Soat 機械学習用訓練データの生成
US20190197358A1 (en) * 2017-12-21 2019-06-27 International Business Machines Corporation Generative Adversarial Network Medical Image Generation for Training of a Classifier
US20190197670A1 (en) * 2017-12-27 2019-06-27 Facebook, Inc. Automatic Image Correction Using Machine Learning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GOODFELLOW, IJ ET AL.: ""Generative Adversarial Networks"", ARXIV.ORG [ONLINE], JPN6023018959, 2014, pages 1 - 9, ISSN: 0005056743 *
伊藤 多一 ほか: ""7.1 SeqGANによる文章生成"", 現場で使える!PYTHON深層強化学習入門 強化学習と深層学習による探索と制御, vol. 第1版, JPN6023018960, 2019, pages 238 - 257, ISSN: 0005056744 *

Also Published As

Publication number Publication date
EP4026071A4 (en) 2023-08-09
US20210073669A1 (en) 2021-03-11
JP7391190B2 (ja) 2023-12-04
WO2021046306A1 (en) 2021-03-11
CN114556360A (zh) 2022-05-27
KR20220064966A (ko) 2022-05-19
EP4026071A1 (en) 2022-07-13

Similar Documents

Publication Publication Date Title
JP7391190B2 (ja) 機械学習モデル用の訓練データの生成
TWI769754B (zh) 基於隱私保護確定目標業務模型的方法及裝置
WO2021164382A1 (zh) 针对用户分类模型进行特征处理的方法及装置
US20170262773A1 (en) Method and system for generating a training model for fabricating synthetic data and for fabricating synthetic data
CN110427560A (zh) 一种应用于推荐系统的模型训练方法以及相关装置
CN108205570A (zh) 一种数据检测方法和装置
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
Alghobiri A comparative analysis of classification algorithms on diverse datasets
US9324026B2 (en) Hierarchical latent variable model estimation device, hierarchical latent variable model estimation method, supply amount prediction device, supply amount prediction method, and recording medium
CN115293919A (zh) 面向社交网络分布外泛化的图神经网络预测方法及系统
US11295229B1 (en) Scalable generation of multidimensional features for machine learning
CN110457387A (zh) 一种应用于网络中用户标签确定的方法及相关装置
CN110472742A (zh) 一种模型变量确定方法、装置及设备
CN111984842B (zh) 银行客户数据处理方法及装置
CN117785993A (zh) 图模式的挖掘方法及装置
Ying et al. FrauDetector+ An Incremental Graph-Mining Approach for Efficient Fraudulent Phone Call Detection
KR20080053103A (ko) 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치
CN115936104A (zh) 用于训练机器学习模型的方法和装置
US11704315B1 (en) Trimming blackhole clusters
CN114360653A (zh) 一种基于数据遗传变异的样本生成及生存评估方法、装置
KR100727555B1 (ko) 시간 가중치 엔트로피를 이용한 결정 트리 생성 방법 및이를 기록한 기록매체
CN114090850A (zh) 日志分类方法、电子设备及计算机可读存储介质
CN113191527A (zh) 一种基于预测模型进行人口预测的预测方法及装置
CN115329958A (zh) 模型迁移方法、装置及电子设备
Almuammar et al. Learning patterns from imbalanced evolving data streams

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220418

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231121

R150 Certificate of patent or registration of utility model

Ref document number: 7391190

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150