JP2021518024A - 機械学習アルゴリズムのためのデータを生成する方法、システム - Google Patents

機械学習アルゴリズムのためのデータを生成する方法、システム Download PDF

Info

Publication number
JP2021518024A
JP2021518024A JP2020561567A JP2020561567A JP2021518024A JP 2021518024 A JP2021518024 A JP 2021518024A JP 2020561567 A JP2020561567 A JP 2020561567A JP 2020561567 A JP2020561567 A JP 2020561567A JP 2021518024 A JP2021518024 A JP 2021518024A
Authority
JP
Japan
Prior art keywords
data
model
machine learning
field
learning algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020561567A
Other languages
English (en)
Other versions
JP7169369B2 (ja
Inventor
ジャック カッパー
ジャック カッパー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2021518024A publication Critical patent/JP2021518024A/ja
Application granted granted Critical
Publication of JP7169369B2 publication Critical patent/JP7169369B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Abstract

【課題】機械学習アルゴリズムのトレーニングに使用される履歴データには、機械学習アルゴリズムの精度と有用性に影響を与える不完全なデータが含まれる。【解決手段】無効なデータ値がないクリーンデータセットと無効なデータ値を持つ不良データセットに分離される。クリーンデータセットは、複数の完全なデータレコードからデータレコード内の単一の無効なデータ値の置換値を生成するようにトレーニングされた2次モデルとなる機械学習アルゴリズム、複数の無効なデータ値の置換値を複数の完全なデータレコードから生成するようにトレーニングされた3次モデルとなる機械学習クラスタリングアルゴリズムを生成するために使用される。不良データセット内の無効なデータ値を置換データ値で置き換えて、拡張トレーニングデータが作成され、クリーンデータセットと組み合わせて、より正確で有用な主モデルをトレーニングする。【選択図】なし

Description

本発明は、機械学習に関し、より具体的には、機械学習アルゴリズムのトレーニングお
よび適用に使用されるデータの完全性および品質を改善し、そのようなアルゴリズムのコ
ンピュータ実装および実行の有用性および精度を高めるためのシステム及び方法に関する
数学的モデルとは、現実の世界で役立つように十分な精度と普遍性のある現象を説明す
る数学的表現である。この数学的モデルには2つの基本的な形式がある。1つは「第一原
理」モデルであり、これは、物理学、化学、生物学等の基本的な法則に基づいて対象の現
象を記述する。もう1つは「経験的」モデルであり、これは、現象に関連するデータを収
集して分析することにより、対象の現象を厳密に記述する。このタイプのデータ解析は、
「機械学習」と呼ばれることもあり、対象となる現象を推定的に説明するデータの集合体
に学習アルゴリズムを繰り返し適用する。このアルゴリズムは、実際の事象における動き
を反映または管理するデータ内の関係を見出し、学習する。
図1は、機械学習プロセスを実施するためのコンピューティングシステム100の概要
を示す。図1の右側においては、モデル開発者がコンピューティングシステムに情報を入
力することを可能にするキーボード102およびマウス104と、出力を表示するための
モニタ106が示されている。このコンピューティングシステムにおいて、ネットワーク
インターフェース、プリンター、スキャナー、タッチパッド、USBポート等、他の従来
の入出力デバイスが設けられていてもよい。また、コンピューティングシステム100は
、ディスクドライブまたは固体メモリデバイスに常駐する非一時的記憶媒体110、プロ
グラムおよびデータを記憶モジュール110にロードして実行する中央処理装置(CPU
)112を含むコンピューティングモジュール108、データを処理するためのプログラ
ム、およびプログラムを実行するときにCPUによって使用される一時的記憶媒体である
ランダムアクセスメモリ(RAM)114を含む。コンピューティングモジュール108
は、キーボード102およびマウス104(または他のI / Oデバイス)からCPU1
12へのユーザ入力によって制御され、CPU112はまた、オペレーティングシステム
ソフトウェアの制御下にあり、これにより、CPUがモニタ106に情報を表示する。ま
た、コンピューティングシステム100は、図に示されているように、双方向接続を介し
てクラウドCと通信する。
図1の左側は、本明細書に記載されているデータ準備技術を使用することができる典型
的な機械学習プロセスを示している。このプロセスは、ステップS102で始まり、ここ
ではモデル化プロセスの目的が指定される。少なくとも、分析に関与する特定のドメイン
(主題)を十分に理解している人が、予測、分類、クラスタリングなどの問題の性質と、
モデルの品質や有用性を判断するために使用される適切な評価指標を特定する。このモデ
ルが予測モデルまたは分類モデルである場合、開発者は、関連する1つ以上の現象を表す
1つ以上の値(「ターゲット値」と呼ばれることが多い)も識別する。
ステップS104では、経験的モデルを生成するための機械学習アルゴリズムが選択さ
れる。一般的に、予測問題においては教師あり学習が採用され、アルゴリズムによって得
られる結果は連続的な数値である。予測機械学習アルゴリズムは、利用可能な履歴データ
をモデル出力として連続曲線(あるいは直線)に適合させる。分類問題においても教師付
き学習が採用され、分類問題によって得られる結果は(ラベルで識別される)離散クラス
である。一般に、分類機械学習アルゴリズムは、レコード内のデータがレコードが特定の
クラスに属していることを示す確率を最大化するように動作する。クラスタリング分析に
おいては、通常、モデルの出力としてデータの類似性を識別する教師なし学習アルゴリズ
ムが採用される。このように、問題の性質(予測、分類、またはクラスタリング分析)に
より、モデル開発者による適切なアルゴリズムが選択される。このモデルのコンピュータ
実装は、市販されているソフトウェアを用いるか、特定の目的のために開発者によって作
成されたソフトウェアを用いることができる。一般的には、求められる結果が数値である
か、離散的なカテゴリーの区分であるか、求められる結果が特定のデータにおけるデータ
値が他のデータにおけるデータ値に近いことの判定であるか、に関わらず、機械学習アル
ゴリズムは、得られたデータセットと、データに関連付けられた対象の出力との関係を求
める。
ステップS106においては、数学的モデルが構築されるべきデータとなる単数または
複数のデータソースが識別され、必要に応じて、非一時的記憶媒体110内の単一のファ
イル(データセット)に集約される。この集約は、コンピューティングシステム100に
よって実行される、あるいは、個別に実行され、結果となるデータセットを非一時的記憶
媒体110にコピーしてもよい。コンピューティングシステム100を使用して集約が実
行される場合、元のデータは、一般的な例としては、スプレッドシート、テキストファイ
ル、またはOracle Corp.やMicrosoft Corpから入手できるデ
ータベースなど、さまざまな形式のものとすることができる。CPU 112は、データ
ベースからの抽出、USBストレージデバイスからのコピー、またはクラウドCからのダ
ウンロードなどの任意の適切なモードによって、元のデータを非一時的記憶媒体110に
ロードする。典型的な機械学習ドメインでは、元のデータには数千、時には数百万のデー
タポイントが含まれる。このようなデータの例としては、情報が元のデータセットの一部
とはなっていなかった個人の信用スコアを予測するための、経験的な数学的モデルを作成
するために使用される数千の個人に関する多種多様な履歴情報がある。様々な市販のプロ
グラムにより、コンピューティングシステム100は、多数の個別のデータポイントに対
して一般的に使用されるフォーマットのデータを受け入れることができる。これらには、
Microsoft Excel(登録商標)のスプレッドシートで結合されて単純なタ
ブ区切りファイルとして保存されたデータや、データベースから直接抽出されてタブ区切
りまたはカンマ区切りのファイルに保存されたデータが含まれるが、これらに限定されな
い。
図1に示されているプロセスの残りのステップは、選択された機械学習アルゴリズムに
従ってコンピューティングシステムによって実装され、識別されたデータを使用して指定
されたモデルを開発する。予備的なステップS102、S104、S106は、図1の矢
印Aで示されているように、コンピューティングシステムによって実装される機械学習プ
ロセス自体から概念的に分離されている。つまり、ここに描かれている準備手順は、プロ
セスの概念的な手順を表す。例えば、コンピューティングシステムは、データを編成する
ため、またはデータを含むファイルまたはデータベースとインターフェースするための適
切なプログラムを含むことができるが、これは本明細書においては一般的に使用されるも
のであり、コンピュータ実装の経験的モデル開発における特有のものではない。
次のステップS108において、コンピューティングシステム100は、機械学習アル
ゴリズムが使用するための履歴データを準備する。このデータの準備としては、データを
ある形式で配置する、例えば同じ数のフィールドをもつデータを直列に並べたデータレコ
ードを作成することがあり、このためにはステップS104で選択した機械学習アルゴリ
ズムが用いられる。機械学習による経験的モデル開発におけるデータの基本的な役割は、
データの整合性が、結果として得られるモデルの品質、したがってユーティリティに重大
な影響を与えることを意味する。一方、アルゴリズムで操作されるデータは機械学習にお
いては非常に重要であるが、機械学習アルゴリズム自体は、アルゴリズムで使用されるデ
ータの有効性/整合性に影響を与える問題(たとえば、特定のデータポイントの値を無効
とすることの必要性)に直接対処しない。機械学習アルゴリズムとは無関係に、このよう
なデータ問題を処理するために従来技術で使用されたアプローチのいくつかについて、以
下でさらに説明する。
次のステップS110で、モデル開発者は、データを処理するためにアルゴリズムによ
って使用されるパラメータを指定する。特定のアルゴリズムには、アルゴリズムの実行を
許可する期間やパフォーマンスを測定するために内部で使用される目的関数など、アルゴ
リズムの動作を制御するパラメータ値がある。アルゴリズムのパラメータは、モデル開発
者の経験、選択したアルゴリズムのタイプの公開されたヒューリスティックに基づいて、
または遺伝的アルゴリズムなどの汎用最適化ルーチンによって自動的に設定できる。
ステップS112では、機械学習アルゴリズムがコンピューティングシステム100上
でトレーニングされる。本発明の用語では、このトレーニングの最終結果は「1次モデル
」と呼ばれる。本明細書で論じる実施例では、機械学習アルゴリズムをトレーニングする
ことによって生成される1次モデルを使用して、その人に利用可能な個々のデータポイン
トに基づいて出力値(たとえば、人の信用スコア)を生成することができる。つまり、そ
の場合の主要なモデルの目的は、アルゴリズムのトレーニングに使用された履歴データに
表されなかった個人によってもたらされた信用リスクを最も正確に表す信用スコアを生成
することである。このような結果を生成するための多くの機械学習アルゴリズムは、Fa
ir Isaac CooporationのFICO(登録商標)スコアを生成するた
めに使用されるものなど、市販のソフトウェアおよびシステムで採用されている。
次のステップS114は、トレーニングに使用された人に対してアルゴリズムによって
生成された出力値(クレジットスコア)を、これに対応し履歴データに含まれる実際のク
レジットスコアと比較することにより、アルゴリズムの性能を評価する。結果が満足であ
るということは、アルゴリズムのパラメータの変更(S110毎)の際に、通常、対象と
なったドメインの特性や、高性能であることと、要する時間、トレーニングデータの量、
コストとの間のトレードオフの関係に応じて、モデル開発者によって定められる。このよ
うにモデルが選択された基準を満たしている場合、決定ステップS116での答えは「Y
es」であり、モデルは稼働状態に置かれる。一方、ステップS116の答えが「No」
である場合、プロセスはステップS110に戻り、そこで新しいアルゴリズムパラメータ
が入力され、その後、以前と同様にステップS112からS116に進む(図には示され
ていないが、プロセスは、ステップS106で追加のデータを取得し、後続のステップを
介してステップS116に進むことも含むことができる。)。ターゲット値やアルゴリズ
ムを実行するコンピューティングシステム100に対する入力のない状態で、前のトレー
ニングデータと同じ方法で編成された新しいデータポイントセットを使用して新たな出力
値を生成するために、トレーニング済みモデルを用いることができる(ここでの説明にお
いては、説明のために教師あり機械学習を使用しているが、明細書全体を通して説明され
ているシステムと方法は、教師なし学習にも適用できる。)。
しかしながら、典型的な「現実世界」におけるデータソースによって生成されたデータ
に機械学習アルゴリズムを適用すると、データの整合性と品質に関する問題が数多く発生
する。このような場合としては、例えば人間がフォームを完成させたときに誤ってまたは
故意に省略されたデータ、人間がフォームを書き起こして情報をコンピューティングシス
テムに入力したときに発生した誤植、機械学習アルゴリズムでの使用に適した形式に変換
ために生データに対して光学式文字認識または音声認識を行った際のエラーを含むデータ
、等があるが、これらに限定されない。データがソース(センサ等)からリポジトリ(デ
ータベース等)に移動する際に、ハードウェアに起因してエラーが発生することもある。
また、センサの故障により、データが全く得られない場合もある。また、データの流れる
経路においてノイズが大きな場合、例えば電磁干渉、ワイヤ端子コネクタの腐食、ケーブ
ルの欠陥や損傷がある場合、これらはリポジトリに配置されるべき送信された本来のデー
タを損なう原因となる。このような欠陥のあるデータが検出された場合、影響を受ける機
械学習プロセスには基本的に2つの選択肢がある。一方は、このデータを(有効とされた
が同じ状況で取得された他のデータと共に)無視することであり、他方は、このデータを
他のデータに置換することである。後者の場合には、置換後のデータは、正しい値を反映
する可能性が高いデータである必要があるが、これによって、同様の状況で取得された全
てのデータを希望に沿った形で用いることができる。
経験的モデル(機械学習)開発プロセスにおいてはデータ品質は極めて重要であり、か
つ経験的モデリングアルゴリズム自身は大幅に進歩しているにも関わらず、現在世界中の
システムで常時生成されている膨大な量の生データを考慮した場合、対象となる現象の主
要なモデルを開発するために機械学習アルゴリズムで用いられる履歴データの品質を向上
させる技術については、ほとんど進展は見られない。先行技術においても、モデルが使用
された後において、モデルによって使用される新たなデータを準備するための技術におい
ては、同様に進展が見られない。本明細書全体において、「欠損データ」とは、値を持た
ないレコード(データポイント)内のフィールドを指す。より一般的な用語は「無効デー
タ」である。これは、不適切に表現されたデータ(例えば、数値であるべきところにおい
て数値以外の文字を含むデータ)や、はデータを生成したシステムの開発者または管理者
によって設定された制限を超えた値となるデータを指す。このため、「無効データ」とい
う用語には「欠損データ」が含まれる。場合によっては、この説明ではこれらの用語が交
換可能に使用されるが、当業者は、用語が使用される状況からこれらの用語において意図
された意味を理解することができる。
このように質の悪いデータを処理するための現在のアプローチのいくつかは、http
s://stats.idre.ucla.edu/wp−contents/unlo
ads/2017/01/Missing−Data−Techniques_UCLA
.pdfからオンラインで入手できる「Missing Data Technique
s with SAS」という題名のUCLA Institute for Digi
tal Research and Education(IDRE)、2017年のレ
ポートで説明されている。機械学習アルゴリズム用のデータの準備に関する先行技術のも
う1つの情報源は、Loery−Bori、M.、「Dealing With Mis
sing Data:Key Assumptions and Methods fo
r Applied Analysis」、Tech.Rept. No.4、Bost
on Univ.School of Public Health、May6、201
3年、であり、http://www.bu.edu/sph/files/2014/
05/Marina−tech−report。pdfからオンラインで入手できる。こ
れらの文書においては、機械学習の状況下において無効なデータを処理するための従来技
術が詳細に説明されている。
欠損データを処理するための最も単純なアプローチは、それを無視することである。こ
の場合、データレコードのフィールドに値が含まれていない場合、レコード全体が破棄さ
れる(すなわち、機械学習アルゴリズムによる処理の対象から除外される)。このアプロ
ーチを実行するのは容易である一方、データ量が問題となる場合(すなわち、対象となる
イベントが非常に稀れにしか発生しないために、それらに関連するデータを保持して利用
することが求められる場合)には、これによる悪影響が発生する。無効なデータが一連の
連続した数値データポイントの中のものである場合は、他の方法が使用可能である。この
アプローチにおいては、同じシリーズの他のデータ(たとえば、表形式で編成されたデー
タセット全体の同じ列のデータポイント)を使用して代替値が計算される。この場合、デ
ータフィールドが個人の年齢などの数値である場合、有効なデータポイントは指定された
範囲の値となる。前記の無効データとしては、そのフィールドのデータがない場合、明ら
かに個人の年齢を表していない数値(430等)である場合、のいずれかである。この場
合には、このデータポイントを単純に無視する代わりに、無効な値は、例えば同じ系列の
有効な値の平均、その系列の有効な値のモード値(最頻値)、最大値、最小値に置き換え
られる。いずれの場合においても、置換値をそのような方法によって設定することにより
、不適切な値が提供されることに対する保証はほぼ確保され、少なくともレコード全体を
破棄する必要はなくなる。前記のIDREレポートでは、より複雑な置換値の設定方法に
ついて記載されており、ここでは、特定のシリーズのデータの線形性についての必ずしも
保証されない仮定が要求される。このため、これらの手法は、データ系列において単一の
データポイントが欠落している場合には一定の効果が認められるものの、特定のデータ系
列における複数の無効データを置換するために使用した場合には、最終モデルにエラーが
発生する可能性が高くなる。
上記の従来技術のアプローチは、全て数学的に実行可能であり、実装が比較的容易であ
るため、好ましい。しかしながら、これらのアプローチは単純であるために、欠落データ
と同じ列(フィールド)または同じ行(レコード)にある有効なデータと全体としては関
連性がないために適切ではない値が、欠損データとして採用される場合がある。あるいは
、これらのアプローチは、特に、無効なデータと同じレコード内の有効なデータ値に対応
した状況を不明瞭にする傾向がある。すなわち、特定のレコードのデータ値には、対象シ
ステムの状態の表現、特定の時点におけるレコードで表される実体の属性等と、論理的な
?がりがある。これに対して、特定のデータレコード内の欠落または無効な数値データ値
を置き換えるための既知のアプローチは、一般的には、レコード内の有効なデータの論理
的および時間的関係を適切に考慮できない。
非数値(記号またはカテゴリ)データに対しても、同様のアプローチが使用されている
。このようなデータの典型的なアプローチは、全ての「適切な」値のモードを使用するか
、単に零値を使用することである。このため、シンボリック値またはカテゴリ値は、通常
「1−of−n」バイナリ値に変換され、無効なデータの場合、n値はすべて零になる。
例として、個人の職業のフィールドを考える。データセット全体で、カテゴリは「弁護士
」、「エンジニア」、「マネージャー」、「医師」とする。この場合、機械学習アルゴリ
ズムによって処理される前において、nは4であり、1つの列(フィールド)で発生する
これらのシンボリック/カテゴリ値は4つのバイナリ列(フィールド)に変換され、それ
ぞれに0又は1のいずれかが含まれる(従って、レコードのサイズは3フィールドだけ増
加する)。ここで、「弁護士」は1000、「エンジニア」は0100、「マネージャー
」は0010「医師」は0001に、それぞれ変換される。その結果、欠落した値または
無効な値が0000に変換されると、アルゴリズムはその値を数学的に処理できるが、実
際の表現は適正でないために、最適なモデルが生成されなくなる。
従って、先行技術においては、モデルが実際に使用される際にこのモデルの正確性を高
めるために用いられるデータに欠落あるいは無効な部分が存在する場合におけるこのデー
タに対する対応が十分ではない。具体的には、無効な値が発生した状況を考慮した上で無
効な値の置換値を生成し、その結果、利用可能な履歴データをより完全に活用し、一次現
象のより正確ななモデルを作成できるようにして、既に使用されているモデルに対して、
無効または欠落した部分が存在するデータが提示された場合においても有効となるような
出力を得ることができるような、システムと方法が求められた。
本発明の目的は、修正されたデータによるトレーニング後において、特にトレーニング
後において適正でない部分を含むデータを扱う際に、より優れた性能を発揮させるために
、1次モデルとなる機械学習アルゴリズムのトレーニングに使用するための修正されたデ
ータを準備するシステムと方法を提供することである。教師あり機械学習は、履歴データ
の集合の中で関連のある1つ以上の出力が、履歴出力値の複数の事例のそれぞれに関連付
けられた複数の履歴データ値と因果関係を持っているという仮定に基づいて動作する。教
師なし機械学習は、履歴データセット内の複数のデータ値で関連のあるクラスターを表す
関連付けを発見し、識別して動作する。本発明の一態様は、履歴データ内の欠落データ又
は無効データの事例を置き換える既知のシステムおよび方法を改善し、教師あり機械学習
を使用して開発され対象の現象を予測または分類する機械学習アルゴリズム、又は教師な
し学習を使用して開発された機械学習アルゴリズムが新たなデータに適用される場合にお
ける精度と有用性を改善する。
本発明の1つの重要な側面は、履歴データ中に存在する有効な値から、この履歴データ
中における欠損データ又は無効データに対する置換データ値を、対象となる出力を定義す
るための他の履歴データの全体的状況を考慮して生成する1つ以上のデータ置換モデルを
作成することにより、1次モデルとなる機械学習アルゴリズムの精度と有用性を改善する
システムと方法を提供する。
本発明の別の態様では、本明細書で説明されるシステム及び方法は、機械学習アルゴリ
ズム用のデータを準備する際に使用するための、このようなデータ置換モデルの2つのタ
イプのうちの1つを作成する。2次モデルは、データレコード内の単一の欠損データ又は
無効データを置き換えるために帰属データ値を生成し、3次モデルは、データレコード内
のそれぞれの複数のデータ値を置き換えるために複数の帰属データ値を生成する。
本発明の1つの特定の態様は、それぞれが複数のデータ値を含む複数の履歴データレコ
ードを有する基本データセットを使用して1次モデルとなる機械学習アルゴリズムをトレ
ーニングするためのコンピューティングシステムで使用される。コンピュータ実装方法は
、履歴データレコードに無効データが含まれている場合に、1次モデルの有用性と精度を
高めるように、複数の履歴データレコードを準備する。この方法は、基本データセットを
、無効データを含む不完全なデータレコードを持つ不完全データセットと、無効データ値
を含まない完全なデータレコードを持つクリーンデータセットに分離する。この方法は、
クリーンデータセットから、複数の完全なデータレコードから不完全なデータレコード内
の単一の無効データの置換値を生成するようにトレーニングされた2次モデルである機械
学習アルゴリズム、複数の完全なデータレコードから不完全なデータレコード内の複数の
無効データの置換値を生成するようにトレーニングされた3次モデルである機械学習クラ
スタリングアルゴリズム、のうちの少なくともいずれかを生成する。欠陥のあるデータセ
ット内の少なくともいくつかのレコードのそれぞれの無効データを置換データに置き換え
ることにより、拡張トレーニングデータレコードが作成される。1次モデルは、拡張トレ
ーニングデータレコードと組み合わせたクリーンデータセットのデータレコードを使用し
てトレーニングされる。
本発明の別の態様は、それぞれがデータ値を含む複数のフィールドを含む履歴データレ
コードでトレーニングされ、コンピュータ実装された1次モデルである機械学習アルゴリ
ズムを使用して、希望の出力を生成する方法を含む。新しいデータレコードの1つ以上の
フィールドに無効データが含まれている場合、トレーニング済みの1次モデルは、履歴デ
ータの各フィールドに対応する複数のフィールドを持つ新しいデータレコードから、より
正確な出力を生成する。そのため、新しいデータレコードは、クリーンな履歴データレコ
ードを使用してトレーニングされ、無効データを含む単一のフィールドをもつ新しいデー
タレコードの置換値を生成する、コンピューターに実装された2次モデルである機械学習
アルゴリズム、クリーンな履歴データレコードを使用して無効データを含む複数のフィー
ルドを持つ新しいデータレコードの置換値を生成するようにトレーニングされた、コンピ
ューターに実装された3次モデルである機械学習クラスタリングアルゴリズム、のうちの
いずれかを使用して生成される。
本発明の別の態様は、本明細書に記載のデータ準備方法のコンピューティングシステム
による実装を容易にするためのデータ構造またはコンピュータオブジェクトの作成および
記憶や、特に、1次モデルである機械学習アルゴリズムによって処理されるデータレコー
ドの欠損データを置換するためにトレーニングされた2次モデル機械学習アルゴリズムお
よび3次モデル機械学習クラスタリングアルゴリズムの使用を含む。そのようなデータ構
造の1つは、フィールドのデータレコード内の位置、フィールドの識別マーク(名前等)
、フィールドに含まれるデータ値が1次モデルのトレーニングに関して有用かどうかを示
すステータス/エリミネーションコード、及び必要となる2次モデルのタイプを示すコー
ド(好ましい実施形態における2次モデルのタイプはは予測タイプ、分類タイプのいずれ
か)を含む、データレコード内の各フィールドにヒューリスティックを適用した編集結果
をもつフィールドステータスデータ構造である。
2つ目のデータ構造又はコンピューターオブジェクトは、コンピューティングシステム
が処理に用いる1次モデルに提示されたデータレコードの欠損データを置き換えるために
、2次モデル又は3次モデルのどちらを用いるかを決定するために用いられる。このデー
タ構造は、記憶された3次モデルであるクラスタリングアルゴリズムを使用して無効デー
タをもつ複数のフィールドを含むデータレコードの置換データを生成するための指示を先
頭にもつ置換モデルデータ構造を備える。置換モデルデータ構造の残りの部分には、無効
データを含む単一のフィールドをもつデータレコードにおける置換データを生成するため
に、モデルの名前を指定することによりコンピューティングシステムが適切な2次モデル
にアクセスできるようにするための情報が含まれる。
本発明及びこれらの実施形態のこれらおよび他の態様および特徴は、この説明が進むに
つれてより詳細に記載される。発明の概要は、以下に詳細に説明される概念の選択を簡略
化された形で紹介するためにのみ、ここに提供される。さらなる要約は、以下の好ましい
実施形態の説明に従い、本明細書に開示されるシステム、方法、およびデータ構造の追加
の一般的および特定の目的、態様、および顕著な特徴を指摘する。上記の発明の概要も以
下の更なる概要も、本明細書で請求される主題の主要なまたは本質的な特徴を必ずしも特
定することを意図するものではない。
以下に記載する詳細な説明は、同様の数字および文字が全体を通して同様の特徴を指す
添付の図面と併せて解釈することによって、より深く理解される。以下は、詳細な説明で
使用される図面の簡単な説明である。
図1は、経験的数学モデルを生成するためのデータの集合体に対して機械学習アルゴリズムを適用するための、従来の経験的モデリングプロセス、コンピューティングシステムの動作のフローチャートを示す。
図2は、機械学習を使用して主要な経験的モデルを開発する際に使用するさまざまなデータセットの編成の代表的な概要である。
図3は、従来のデータレコードの構造についての代表的な情報を示し、本発明によるシステム及び方法を適用する際の準備段階における、利用可能な履歴データレコードの初期分析の結果を示す。
図4A、図4B、及び図4Cを含む図4は、欠損値又は無効な値を含むデータレコードを、完全で名目上有効な値を含むデータレコードから分離し、本明細書に記載される本発明の実施形態による1次モデルを開発するための入力として有用ではないデータフィールドを更なる考察から排除した削減済みクリーンデータセットを生成するためにヒューリスティックを適用した結果を示す。
図5A及び図5Bを含む図5は、1次モデルの開発に使用するため(図5A)、及び単一又は複数の欠損/無効データの置換値をそれぞれ生成するための2次モデル、3次モデルの開発に使用し1次モデルの入力として指定されたフィールドのみを含み名目上有効なデータレコードを含み分離された補助クリーンデータセット(図5B)を作成するために、図4Bに示される処理によって作成されたデータセット内の完全で名目上有効なデータレコードの分割を示す。
図6A及び図6Bを含む図6は、特定のデータレコード内の単一の欠損/無効データを置き換えるための2次モデルの2つの例をトレーニングするために使用されるデータレコードの構造を示す。
図7は、特定のデータレコード内の複数の欠損/無効なデータを置き換えるための3次モデルとして使用するための自己組織化マップをトレーニングするための一実施形態を示す。
図8は、特定のデータレコードを完成するために置換データ値が必要なときに使用する適切な2次又は3次モデルを識別するために使用されるデータ構造の要素を示す。
図9は、図7に従ってトレーニングされた3次モデルを使用することにより、2つの欠損/無効データ値を有するレコードの潜在的な置換値を識別するための一実施形態を示す。
図10は、図9に従って識別された潜在的な置換値を使用して、特定のデータレコード内の複数の欠損/無効データの各々について置換データ値を生成するためのプロセスを説明する。
図11は、図6に従ってトレーニングされた2次モデルを使用し、特定のデータレコードにおいて単一の置換データ値を生成するためのプロセスを示す。
当業者は、図面における縮尺は厳密なものではなく、一般に本質的に非常に概略的であ
ることを容易に理解し、それでもこの記載は、以下の詳細な説明を考慮してた上で本明細
書に記載のシステムおよび方法を作成および使用するためには十分である。
以下の説明は、一般に「機械学習」と呼ばれるものの基礎となる基本理論と原理を完全
に理解していることを前提とする。本主題を実装する様々な方法を示す特定の実施形態の
例を説明することは、機械学習、ニューラルネットワーク、および数学モデリングの関連
する原理の当業者によって容易に理解されるであろう。このため、当業者が本明細書に記
載される実施形態を実現することを可能にするためには必要ではない特定の事項の詳細の
記載は省略される。
当業者が認識するように、本明細書で開示され特許請求の範囲で記載される内容の説明
において、様々な図で説明され、図示される制御回路や構成要素は、それらに起因する機
能を実行できる任意の電子計算システムの例示であることを意味する。このようなコンピ
ューティングシステムは、通常、必要な入出力インターフェースデバイスと、適切なオペ
レーティングシステムおよびプログラム命令を実行するためのアプリケーションソフトウ
ェアを備えた中央処理装置(CPU)とを含む。さらに、システムの要素を指す用語は、
参照を簡単にするために本明細書で使用される。例えば、「コンポーネント」という用語

「モジュール」、「システム」、「装置」、「インターフェース」等は、そうでないこと
が明示されない限り、一般に、ハードウェア、ハードウェアとソフトウェア(ファームウ
ェア)の組み合わせ、ソフトウェア、または実行中のソフトウェアのいずれかであるコン
ピュータ関連のエンティティを指すものとする。更に、さらに、「モジュール」又は「コ
ンポーネント」という用語は、それ自体が自己完結型の構造を意味するのではなく、特定
の機能を実行するために組み合わせるさまざまなハードウェアおよびファームウェアを含
むことができる。このため、電子計算デバイスで実行されているアプリケーション、デバ
イス自体の両方がこの「コンポーネント」になりうる。1つ又は複数のコンポーネントは
、プロセス及び/又は実行中のスレッド内に常駐することができ、コンポーネントは、1
つのコンピューティングデバイス上にローカライズする、及び/又は2つ以上のそのよう
なデバイス間で分散することができる。
図2は、本発明の本実施形態の適用に適した方法でデータを予備分割するために使用す
ることができる例示的な従来技術の方法の概要を示す。対象となるいくつかの事象に因果
関係があると推定される履歴データの生の値は、複数のソース(Data Souece
)A、B、C、・・・Nから取得できるデータに含まれている。前記の信用格付けの例に
おいては、データソースは、個々の消費者の1つ以上の商業信用格付け会社のデータレコ
ードから取得でき。対象となる事象は、データの各行に関連付けられた個人の信用スコア
のデータである。個人のデータに郵便番号又は住所が含まれている場合、国勢調査データ
を取得し、同じ郵便番号の個人に関連付けることができるような望ましい人口統計情報を
組み込むことができる。すべてのソースから取得されたデータは、図1に示したコンピュ
ーティングモジュール108の非一時的記憶媒体110のベースデータセット(Base
Dataset)210に整理されて配置される。履歴データは、対象となる1つ以上
の事象を反映する関連性(クラスター)を予測、分類、または識別するための1次モデル
や、本書に記載されているシステムと方法の重要な側面に従って1次モデルの有用性と精
度を高めるために、1次モデル及び3次モデルを開発するために使用される。
ベースデータセット210は、オプションでモデリングデータセット(Modelin
g Dataset)212と検証データセット(Validation Datase
t)214に分割される。モデリングデータセット212は、1次モデルの開発(トレー
ニング)で使用されるデータセットである。検証データセット214は、後述する状況で
使用された際に1次モデルがどの程度適切に機能するかを推定するために用いられる。ベ
ースデータセットを分割するためには既知の選択方法を使用でき、例えば、ラウンドロビ
ン方式、ランダム選択方式を用いる、あるいは最新のデータレコードを検証データセット
214に配置することができる。モデリングデータセット212、検証データセット21
4に配置されるデータの量は、対象となる事象の性質およびベースデータセット210の
サイズに応じて変化し、典型的には、利用可能なデータの70%から80%がモデリング
データセット212に配置され、残り(20%から30%)が検証データセット214に
配置される。
1次モデルの開発において教師あり学習アルゴリズムが採用される場合、モデリングデ
ータセット212は、トレーニングデータセット(Training Dataset)
212Aとテストデータセット(Testing Dataset)212Bに更に分割
されてもよい。教師あり学習アルゴリズムがトレーニングデータセットを反復処理する際
に、選択されたアルゴリズムの内部のさまざまな要素(アルゴリズム係数や重みなど)の
値がアルゴリズムの特性に従って調整される。教師あり学習アルゴリズムの性能は、現在
の状態のアルゴリズムを使用してテストデータセット212Bを処理し、適切な性能指数
の値、たとえば、履歴データの対象となる現象(クレジットスコアなど)とアルゴリズム
の出力との間の全体的な平均二乗誤差、を計算することによって定期的に評価される。こ
の開発ステップは、アルゴリズムがトレーニングデータセット212Aに対して過剰適合
したことによって、将来における予測能力が損なわれるのを防ぐのに役立つ。試験データ
セット212Bに対するアルゴリズムの性能の改善が停止すると、このアルゴリズムはト
レーニングされたとみなされ、このアルゴリズムの重み、係数のに対する更なる調整は行
われない。検証データセット214は、モデリングデータセット212から開発された1
次モデルが使用され、モデリングデータセットに含まれていない新しいデータを処理する
ときのパフォーマンスを推定するために使用される。1次モデルの開発に教師なし学習ア
ルゴリズムが使用される場合、ターゲット値はなく、ベースデータセット210全体が使
用される場合があり、数回の反復動作の後にトレーニングが終了する。その場合、ベース
データセットは、モデリングデータセットと検証データセットには分割されない。
データレコードの初期構造と従来の準備処理操作の詳細について、図3を参照して説明
する。この説明では、明確にするために限られた数のデータポイントが使用されているが
、実際のデータセットは、対象の事象との因果関係があると想定される数千または数百万
のデータポイント(教師あり学習のデータの場合は各行に含まれる目標値とされる)から
なる行(レコード)で構成され、各行には数百以上のデータポイント(フィールド)を含
むことができる。この単純化された例では、データソースAはv1とV2で表される2つ
のデータ値を含み、データソースBは、v3、v4、v5、v6で表される4つのデータ
値を含み、データソースCは、v7、v8、v9、およびv10で示される4つのデータ
値を含む。コンピューティングシステム100の入力/出力デバイス(キーボード102
、マウス104、モニター106等)とすぐに利用できる市販のソフトウェアをモデル開
発者が使用して、異なるソースから、コンピューティングモジュール108による処理に
おいて用いられる非一時的記憶媒体110のベースデータセット210にデータをロード
する。
図3は、離散データ値v1からv10が同時に整列され、複数のデータ行[1からN)
をもつ初期構成310をもつ複数のフィールドを含むデータレコードの形式でベースデー
タセット210に配置される方法が形式312によって概念的に示されている。このデー
タ構造では、各フィールドの値(フィールド値)は「vf」として識別され、「v」はデ
ータ値、「f」はレコード内のフィールド(列)番号であり、「(I)」で識別されるフ
ィールド値は、モデル開発者が1次モデルの入力値として指定する。「(T)」で識別さ
れるフィールド値は、その行の目標値(つまり、対象となる事象)として指定される。こ
こで言及されるクレジットスコアの例に適用される場合には、値v1〜v9は消費者の履
歴情報であり、v10は特定の時間における履歴データv1〜v9に対応する消費者のク
レジットスコアである。(1次モデルが教師なし学習アルゴリズムを採用している場合、
目標値は指定されない。)
図3の大きな矢印で示されているように、ベースデータセットの初期構造310には、
それぞれが形式312で示されるようなデータとなる複数の行が含まれ、複雑な機械学習
環境では数百のデータフィールドがあり、各行において、そのいくつかは目標値である場
合があり、対応するフィールド値を含み各々が形式312で示されるデータとなっている
数千以上の行についても同様である。この例示的な実施形態では、1次モデルが教師あり
学習アルゴリズムである場合、この1次モデルは履歴目標値vf(T)を生成する履歴入
力値vf(I)間の経験的関係を確立する。これにより、このアルゴリズムは、モデルが
使用されるときに、モデルへの個々の入力に関連するデータ値のセットの目標値を予測ま
たは分類できる。あるいは、1次モデルが教師なし学習アルゴリズムによって作成された
場合、このアルゴリズムは、整数の「ノード」番号で識別される、類似していると認識さ
れるデータレコードのクラスターを識別し、この状況は、この1次モデルがサービスに使
用された場合において、新しいデータレコードに対して、最も類似しているクラスターの
ノード番号を割り当てる動作と同様である。
データレコードの構造が決定された後、ベースデータセット全体が、ベースデータセッ
ト210の初期構造310の各行312からデータセット(フェーズ1データセット)3
30の対応する行320へ実線矢印で示されるようにするフェーズ1処理を受ける。この
処理は、データフィールドから図3におけるデータ型表示である320(v1)、320
(v2)、320(v3)、・・・320(v9)、320(v10)へ向かう実線矢印
で示されるように、各フィールドのデータ型(つまり、フィールドが数値データ(Num
eric)であるか、あるいは非数値のシンボル(Symbolic)であるかが予め判
明している)を関連付ける。有効な目標値のないレコードは1次モデルのトレーニングに
使用できないため、フェーズ1の処理では、目標値(開発者が指定した場合)がないか無
効なデータレコードは破棄される。特定のフィールドの欠損データ/無効データの型が数
値であるかシンボルであるかの判断は、ヒューリスティックに基づく。例えば、特定のフ
ィールド(v5等)の有効な値の99%が数値である場合は、つまりエラーなしで整数ま
たは浮動小数点の数に直接変換できるため、このフィールドは数値フィールドであるとみ
なされ、それ以外の場合は、シンボルのフィールドであるとみなされる。この結果が、図
4を参照して次の段落でより完全に説明されるように、複数のN行320を含むフェーズ
1データセット330である。フェーズ1データセットは、非一時的記憶媒体110(図
1)に記憶される。
図4Aは、フェーズ1データセット330を概念的に、N行320、320、・・
・320、320、…、320、及びK列(この例ではK = 10)の行列として
表し、各列は履歴データにおける履歴データのフィールドの一つに対応し、履歴データの
目標値v10(T)(K=10の場合)を含むK番目の列は、同じ行の他のデータである
v1(I)〜v9(I)の目標値となる。フェーズ1データセット330は、図4Aの矢
印で示されるようにフェーズ2処理を受ける。この処理においては、フェーズ1データセ
ット内の全てのデータレコードが分析され、図4Aの影付きのフィールドで示されている
、欠損データまたは無効データを含むデータレコード(列320及び列320)はコ
ンピューティングモジュール108の非一時的記憶媒体110にフェーズ2不良データセ
ット(Phase2 Faulty Dataset)402として記憶される。欠損デ
ータ、無効データは様々な方法によって識別可能である。一般的には、欠損データは、間
に他の文字を介在せずに区切り文字が2つ連続する(例えば、2つのデータの区切りとな
るべきコンマが連続して2つある場合)箇所として定義できる。又は、区切り記号がデー
タレコードの最初又は最後にある場合、データレコードの最初又は最後のデータがそれぞ
れ欠落している。無効データは、フィールド値が数値であることが予想される場合にアル
ファベット文字または記号文字を含む場合、または開発者または管理者によって指定され
たデータレコード内のフィールドの有効な値の範囲外の値である場合には、このフィール
ドのデータは無効データであると推定される。後に続く処理を効率的に行うために、全て
の無効データは、フェーズ2不良データセット402に記憶される際には、データが存在
しないものとして(すなわち、欠損データとして)設定される。行320、320
320等、無効データや欠損データのない完全なデータレコードは、非一時的記憶媒体
110においてフェーズ2クリーンデータセット(Phase2 Clean Data
set)404として記憶される。本明細書に記載されるシステムおよび方法の本実施形
態に従って、フェーズ2不良データセット402内の欠損データ又は無効データは、可能
な範囲で置換される。
次に、フェーズ2クリーンデータセット404は、図4Bに概略的に示されているフェ
ーズ3処理を受ける。ここでは、フェーズ2クリーンデータセット404全体の全てのフ
ィールドで見つかった値からの統計的な結果が計算され、その後、ヒューリスティックが
適用されることによって1次モデルの開発に役立たないフィールドが認識され、削除され
る。図4Bにおいて再び示されたN番目(最後)の行320は、フェーズ2処理データ
セットのデータ行へフェーズ3処理が適用される例である。最初の例となる列v1では、
データの数値はシーケンス番号を示し、例えばレコード番号1としてv1=1001、レ
コード番号2としてv1=1002、レコード番号50としてv1=1050等、とされ
る。ヒューリスティック分析においては、レコード毎にこれらの値は1ずつ単調に増加し
ており、このようにレコード毎に単調に1ずつ連続する値が目標値に影響を及ぼすことは
なく、クラスタリングに影響することもないため、412で記号「≠」で示されるように
、v1のフィールドは以降の解析においては除外される。次の例は、特有の数値が多く含
まれるシンボルである。例えば、v8が通常のフォーマットの社会保障番号(ダッシュを
含むnnn−nn−nnnnの形式)である場合、ヒューリスティック分析によって、4
14で記号「≠」で示されるように、更にv8のフィールドも以降の解析においては除外
される。これは、社会保障番号を構成する一連の文字列はランダムな文字列であり、これ
が目標値に影響を及ぼすことはなく、クラスタリングに影響することもないためである。
このような既知のヒューリスティックを開発者が適用し、他のフィールドについても同様
に除外することができる。
他のデータは、図5を参照して後述されるように、図4Bの矢印で示されるように、こ
のようなD行420を含むフェーズ3削減済みクリーンデータセット(phase3 r
educed dataset)430に変換される(D行の数は、適正でない値をもつ
行がクリーンデータセット404には含まれないため、フェーズ1データセットの数であ
るNとは異なる)。このデータセットに適用される用語は次のとおりである。「D」は行
(レコード)番号である。「Rx」は、この値が削減済みクリーンデータセット430中
のものである(このためv1、v8は含まれない)ことを示し、数値「x」は削減済みク
リーンデータセット中の列(フィールド)番号である。「vf」はフェーズ2クリーンデ
ータセット中の列番号(前記の通り)を示し、「(I)」はこのデータが目標値(「(T
)」で示される)ではないことを示す。フェーズ3削減済みクリーンデータセット430
は、非一時的記憶媒体110(図1参照)に保存される。
フェーズ3の処理に関連して、フィールドステータスデータ構造(Field Sta
tus Data Structure)440(その抽象は図4Cに示されている)は
、フェーズ1データセット330の各データフィールドに対して構築され、非一時的記憶
媒体110に記憶される。フィールドステータスデータ構造440のエントリは、データ
セット構造のエントリに含まれる一般的な情報を示すボックス442に示されている形式
を有する。エントリの最初の要素を構成する「Field Number」442aは、
フェーズ1データセット330のレコード(行)でこのエントリに対応するフィールドの
位置を一意的に示す識別子である。エントリの2番目の要素は「Field Name」
442bであり、エントリの3番目の要素はフィールドの「Status」442cであ
り、削減済みクリーンデータセット430を生成する処理中に決定される。エントリの最
後の要素は、フィールドの「Type」442d(「numeric(数値)」、「sy
mbolic(シンボル)」、あるいはフェーズ3の処理中にフィールドが削除された場
合は「ignore(無視)」)である。フィールドステータスデータ構造440の第1
の例である444においては、Field Number「1」(v1)が関連付けら
れていることが示され、データセットの「Sequence」という名前のフィールドで
あることが示され、「Status」の「5」は、これがシーケンス情報であるために機
械学習アルゴリズムにとっては有益ではなく「ignore」とされ、このフィールドが
削減済みクリーンデータセットからは除去されていることが示されている。2番目の例で
ある444においては、フェーズ3処理で削除されなかったフィールドがフィールドス
テータスデータ構造においてどのように表されるかが示されており、Field Num
berが「4」、Field Nameが「Income(収入)」、Statusが0
(0は、フェーズ3の処理中に削除されなかった全てのフィールドに対して付与される)
、Typeは「numeric」とされる。
フィールドステータスデータ構造440の実際のソフトウェア実装において、エントリ
の必要な要素は、単一のフィールドに格納されている単一のソフトウェアオブジェクトに
組み合わせることができる、あるいは、エントリの個々の要素は、同じタイプの項目の配
列に格納でき、これにより、特定のフィールドに関する情報は、このフィールドに関連す
る要素の各配列のフィールド番号に対応する場所で利用できる。コンピューティングシス
テム100の中央処理装置(CPU)112は、フィールドステータスデータ構造440
の情報を使用し、有効なデータ値が欠落しているときにフィールドの代替値を提供するた
めに2次モデルを作成する必要があるか否かと、後述するような2次モデルの種類(予測
又は分類)とを定める。削減済みクリーンデータセット430を生成するためには、フェ
ーズ2クリーンデータセット404の各レコードが最後に1回処理され、その間にフィー
ルドステータスデータ構造440の要素が各フィールドに対して参照され、0以外のST
ATUSをもつ各フィールドは削減済みクリーンデータセット430用にアセンブルされ
たデータレコードには含まれない。
図5Aは、本実施形態の次のフェーズに従ってフェーズ3削減済みクリーンデータセッ
ト430を処理した結果を示す。削減済みクリーンデータセット430のデータレコード
420、420、420、・・・、420は、本実施形態による1次モデルを開
発する際に使用するために、図2に関連して前記のとおり説明されたように、クリーンモ
デリングデータセット(Clean Modeling Dataset)502とクリ
ーン検証データセット(Clean Validation Dataset)504に
分割される。典型的には、利用可能なデータレコード(行)の70%から80%をクリー
ンモデリングデータセット502に、残りのデータレコードはクリーン検証データセット
504に分割される。説明されたように、実際の分割は、置換なしのラウンドロビンやラ
ンダム選択等の一般的な選択手法を使用して行われる。図5Bは、前記の形式420に対
応するがR8v10(T)ターゲットフィールドをもたないデータレコード(行)520
、520、…、520を含む補助クリーンデータセット(auxiliary c
lean dataset)510を示す。補助クリーンデータセット510は、以下で
説明するように、データフィールドの置換値を提供するために使用される2次モデル、3
次モデルを開発するために使用される。削減済みクリーンデータセット430のサイズと
モデル開発者の判断に応じて、削減済みクリーンデータセット430の全てのデータレコ
ード(1次モデルのターゲットフィールドとして指定されたフィールドを除く)を補助ク
リーンデータセット510に配置できる。又は、削減済みクリーンデータセット430内
のデータレコードは、モデリングおよび検証データセット(図示せず)にさらに分割され
、それにより、説明されるべき2次モデル性能の推定が検証データセットを介して計算さ
れる。
図6は図6A、図6Bを含み、単一のフィールドだけが欠損データ/無効データである
行のデータフィールド値を置き換えるために使用される2次モデルの作成について説明す
る図である。ベースデータセット210に記憶される2次モデルの数は、1次モデルの入
力フィールドの数でもある補助クリーンデータセット510のフィールドの数に等しい。
補助クリーンデータセット510からの2次モデルトレーニング用レコードでは、特定の
2次モデルのトレーニング用レコードを形成するために、1つのフィールドがトレーニン
グターゲット値として一時的に指定され、残りのフィールドがトレーニング入力値として
指定される。各2次モデルの種類(予測又は分類)は、フィールドステータスデータ構造
440の対応するエントリのタイプ要素442dに含まれる、その特定の2次モデルのト
レーニングターゲットとして選択されたフィールドのタイプによって決定される。図6A
は、元のフィールドv2(図3ではシンボリック値を含み、したがってフィールドステー
タスデータ構造440の対応するエントリに「symbolic」のType442dを
有するフィールドとして識別される)の分類モデルのトレーニングレコード610の構造
を示す。ここで、R1v2(履歴データ値v2を表す縮小レコードフィールドR1)は、
目的が分類であることを示す表記(CT)で表されるターゲット値612をもつ。図6B
は、元のフィールドv9の予測モデルのトレーニングレコード620の構造を示す(図3
では、数値を含むフィールドとして識別され、したがって、フィールドステータスデータ
構造440の対応するエントリに「numeric」のタイプ442dを有する)。ここ
で、R7v9(履歴データ値v9を表す縮小レコードフィールドR7)は、目的が予測で
あることを示す表記(PT)で表されるターゲット値622をもつ。
2次モデルの作成に使用される機械学習アルゴリズムの形式は、モデル開発者により選
択される。好ましい実施形態でにおいては、2次モデルは、逆伝播によってトレーニング
される多層フィードフォワードニューラルネットワークである。2次モデルの作成に適し
たこのタイプの基本的なアルゴリズムの例は、Wikipediaのエントリ「フィード
フォワードニューラルネットワーク」(https://en.wikipedia.o
rg/wiki/Feedfoward_neural_network)で説明されて
いる。また、機械学習及び人工知能の当業者に知られている他のタイプのアルゴリズムを
使用して、本明細書の議論と整合する2次モデルを作成できることも明らかである。トレ
ーニングの終わりに、新しいデータレコードを使用してモデルを実行するために必要なす
べての情報を含む各2次モデルは、非一時的記憶媒体110に記憶される。各2次モデル
が作成されると、一貫した規則に従って名前が付けられる。好ましい実施形態では、この
名前は、1次モデルの目的を識別する用語を含み、データレコード320内の対応するフ
ィールドの位置及び1次モデルの入力レコード420内のフィールドの位置を示すための
情報がこれに付加される。例えば、「Credit_F002_M001」という名前の
2次モデルは、対象となるクレジット関連の問題に対して作られた1次モデルにおいて、
入力番号1(図4Bにおけるクリーンデータセット430の最初の位置R1となるM00
1)にマップされているデータレコードのフィールド番号2(F002、値v2、図3)
に対するモデルである。この2次モデル名は、図8を参照して以下で詳しく説明するよう
に、置換モデルデータ構造に配置される。
図7は、3次モデルをトレーニングし、トレーニング結果に関する情報を保持するプロ
セスを示す。3次モデルの好ましい実施形態は、コホーネン自己組織化マップ(T.Ko
honen、「Self−Organizing Maps」、3rd Edition
、Springer−Verlag、2001年)である。本明細書で説明される3次モ
デルのトレーニングに適した自己組織化マップアルゴリズムを説明する他の参考資料とし
ては、J.Brownlee、「Clever Algorithms」、1st Ed
ition、Jason Brownlee(2011年)(セクション8.6、836
頁から842頁)や、J.Tian等、「Anomaly Detection Usi
ng Self−Organizing Maps−BasedK^Nearest N
eighbor Algorithm」、European Conference o
f the Prognostics and Health Management
Society(2014年)がある。これら3つの全ては、本発明の本実施形態を実施
するために使用できるクラスタリングアルゴリズムに関する背景技術の参考として本明細
書に組み込まれる。以下で説明するように、変換された、補助クリーンデータセット51
0(図5B)のデータレコード520は、この例示的な実施形態の3次モデルをトレー
ニングするために使用される。当業者は、3次モデルの構築において、クラスタを定義す
るための重みのセットを調整するために複数のトレーニングデータレコードを自律的に使
用できる任意の適切なクラスタリングアルゴリズムを使用できることを認識するであろう
。この重みのセットは、当該技術分野では、クラスタの「重心」と呼ばれることがある。
本実施形態において、3次モデルをトレーニングする特定のアルゴリズムの適用を明確
にするために、アルゴリズムがみなしたデータレコードのセットを識別する方法として、
より一般的な「クラスタ」の代わりに「ノード(NODE)」という用語が使用される。
「ノード」は、その重みの値によって数学的に定義され、整数で識別される。アルゴリズ
ムのトレーニングプロセス中に、データレコードは、番号で識別される特定のノードに、
ノードの重みを使用する類似度計算に基づき、「割り当て」られる。図7では、ノードの
重みは「Wp−y」という表記で指定され、ここで、pはノード番号、yはノード内の重
みWの番号を示す。例えば、重みW1−3はノード番号1の3つ目の重み値である。 補
助クリーンデータセット510のある一つのレコード520のノードの重みに対する類
似度は、[(X−Y+(X−Y+・・・+(X−Y]1/2で示
されるような、d次元空間内の任意の2つのd次元ベクトルXとYの間のユークリッド距
離などの類似度メトリックによって計算される。各ノードにおける重みの初期値は−1.
0〜+1.0の範囲でランダムに設定される。ノード内の重みWの数(すなわち問題空間
の「次元数」)は、特定のデータレコードについて、以下で説明するように、変換の総数
に等しくなる。従って、全ての3次モデルのトレーニングデータレコードは同じ数の変換
値を持ち、各ノードの重みの数は3次モデルのトレーニングデータレコードの変換値の数
と等しい。図7の文字Pで示される特定の3次モデル内のノード又はクラスタの数は、通
常、補助クリーンデータセット510内のデータレコードの数Dに基づくヒューリスティ
ックを使用して決定される。例えば、上記のTianの論文では、5× [√(レコード数
)]を使用して自己組織化マップアルゴリズムのノードの総数を計算することが提案され
ている。
3次モデルのトレーニング中、個々のトレーニングデータレコードはそれぞれ、補助ク
リーンデータセット510のデータレコード520の構造に対応する構造をもつ。ただ
し、数学的類似度メトリックを計算するには、前述のようにシンボリック値を1−of−
n数値に変換する必要がある。本実施形態における値v2及びv6はシンボリックである
(図3)。ここでは、これらの各フィールドは2つの一意のシンボリック値であると想定
されるため、各フィールドは2つの変換値によって表される。特定のシンボリック値の場
合、変換値の1つは「0」になり、他方は「1」になる。3次モデルのこのような特徴は
、値v2と重みWn−1及びWn−2の対応、および値v6と重みWn−6及びWn−7
の対応によって図7に示される。データレコードの数値vも同様に変換(スケーリング)
され、その範囲は−1.0≦v≦+1.0になる。変換値をもつ最終的なトレーニングデ
ータレコードは、3次モデルの各ノードにおける重みWx−1〜Wx−9(ここでは参照
を容易にするためにWx1〜Wx9とする)があるのと同じ数の値をもつ。
3次モデルマップを構築する次のステップは、補助クリーンデータセット510内のす
べての変換されたデータレコードを個別に繰り返し処理することを含む。これは、各ノー
ドの重みとスケーリングされた各変換済みデータレコードの値を使用して類似度メトリッ
クを計算することを含み、図5Bに示されたデータレコード520〜520が上記の
ように変換及びスケーリングされたことを示すためにプライム(’)が付加されて図7に
示されている。前記のように、本例はP個のノードを有し、類似度メトリックは、各ノー
ドPに関して、クリーンで変換された各データレコード520’〜520’に対して
計算される。ノード番号1に関する特定のデータレコードの類似度メトリックの計算は、
入力フィールド変換からノード1の対応するノードの重みへの実線701で表される(
明確化のために、図7では行701、701、701、及び701のみにラベル
が付与されている。)。入力フィールドの変換された値からノード2の対応するノードの
重みへの2点鎖線702は、同じ変換されたデータレコードとノード2のノードの重み
の間の類似度メトリックの計算を表す(明確化のために、図7では702、702
702、702、702、702、及び702の行のみにラベルが付与されて
いる。)。ノード3に関連付けられた点線703(対応する重み値Wを示す添え字「i」
を有する)、及びノードPに関連付けられた点線(そのうちいくつかは明確に化のために
にラベル付与されていない)は検討中のデータレコードに関するこれらのノードに関する
類似度メトリックの計算を表す。類似度メトリックがユークリッド距離の場合、計算は式
[(v2trans1−Wx1)+(v2trans2−Wx2)+(v3−Wx3
+・・・+(v9−Wx9)1/2に従う。ここで、v2trans1及びv2
trans2は、フィールド2の元の値v2の変換後の値を示す。同様に、フィールド6
の元の値v6の変換後の値を示す2つの値v6trans1とv6trans2がある。
検討中の現在のデータレコード(すなわちデータレコード520’〜520’のう
ちの1つ)と全てのノード間で類似度メトリックが計算された後、データレコードに「最
も近い」(最小のユークリッド距離をもつ)ノードが最も類似していると見なされ、「勝
者」と宣言される。次に、勝者ノードと、例えば円や正方形などの近傍形状によって識別
される隣接ノードにおける重みの値が、この近傍の各ノードの重心とデータレコードとの
間の距離が小さくなるように、学習係数に従って、自己組織化マップアルゴリズムを実装
するために使用される既知の技術と同様に調整される。このプロセスは、指定された反復
回数(例えば変換された各レコードのフィールド数の1000倍等、ヒューリスティック
に基づいて定まる値)、又は全てのノードのそれぞれの重みが収束するまで繰り返される
。収束は、機械学習に精通している人に知られている様々な方法で定義できる。例えば、
任意のノードにおける現在の重みと以前の重みの間の距離の2乗が、モデル開発者が指定
した所定のしきい値の2乗より小さくなるまで反復計算させることができる。本発明者は
、ノードのセット内の任意の2つのノード間の可能な最大のユークリッド距離の0.1%
を閾値として使用したが、トレーニングレコードの数に応じて他の値を使用することもで
きる。重み調整値がしきい値を下回ると、指定された反復回数に達していなくても、3次
モデルのトレーニングが終了し、一般に、収束閾値はマップの安定性の指標となる。
3次モデルのトレーニングが終了すると、3次モデルに関する情報がデータ構造に配置
され、コンピューティングシステム100の非一時的記憶媒体110に格納される。この
情報には、フィールド値に適用される変換のタイプと、3次モデルの各ノードの重みの最
終値が含まれる。他に含まれる値としては、各ノードが「勝者」と宣言された割合/頻度
がある。この値は、モデルトレーニング中に特定のノードが勝者と宣言される度にノード
固有のカウンターをインクリメントし、各ノードのカウンターの最終値を、処理されたト
レーニングデータレコードの総数の積で割ることによって決定され、この例では、補助ク
リーンデータセット510のデータレコードの数Dに、データセット全体の実際の反復回
数を掛けたものとなる(収束したためにトレーニングが終了する可能性を考慮したため)
。特定のノードがどのデータレコードとも最も類似していなかった場合、その重みは調整
されず、ノードのカウンターの値は零であり、勝つ頻度は零となる。
図8は、1次モデルのトレーニングに使用される履歴データレコード、又は1次モデル
が使用された後においてこの1次モデルで処理するためにコンピューティングシステムに
導入された新しいデータレコードにおける無効データの欠落値の代替値を生成する2次及
び3次モデルに関する情報を効率的に維持するために非一時的記憶媒体110に格納され
る置換モデルデータ構造(Replecement Model Data Struc
ture)800を示す。この置換モデルデータ構造は、図4Cに関連して上記で説明さ
れたフィールドステータスデータ構造440に以前に配置された情報を含む。また、著作
権情報を含むエントリ、非一時的記憶媒体110に保存されている2次及び3次モデルデ
ータ構造のデフォルトの場所を含むエントリ、その他の情報を含むエントリ等の管理情報
も含まれる。置換モデルデータ構造800は、コンピューティングシステムが本明細書で
説明されている方法を実施するときに、図1のデータ準備ステップS106中にコンピュ
ーティングシステム100において作成される。
一実施形態では、置換モデルデータ構造800は、JSON(Java Script
Object Notation)フォーマットで格納される。置換モデルデータ構造
が不注意または悪意により変更されることを防止するために、MD5又はSHA−256
ハッシュ署名等の署名を生成し、生成時にデータ構造に追加することもできる。置換モデ
ルデータ構造と2次及び3次モデルが配されて実行されると、以下に説明するように、こ
のデータ構造はコンピューティングシステムによって検証される。これにより、元のコン
ピューティングシステム100またはモデルとデータ構造が生成されたコンピューティン
グシステムとは異なるコンピューティングシステムのいずれかで実装が行われる際の、セ
キュリティレベルが高まる。
少なくとも、置換モデルデータ構造800には、無効な値を含む1つ以上のフィールド
をもつデータレコードに対して1次モデルを適用するに際して、コンピューティングシス
テム100が適切な2次モデル又は3次モデルをこのデータレコードに適用するのに十分
な情報を含む。本実施形態では、データ構造800は、本例では「クラスタリング」であ
る3次モデルの名前を含む第1のエントリ802を有し、これは、3次モデルを生成する
ために使用されるアルゴリズムのタイプを反映することが好ましい。ボックス804に示
される一般的な形式とされた他のエントリは、ベースデータセット210において図3に
示されるように編成されたデータレコードの各入力フィールドに対応する。この追加の各
エントリにおいて、(a)「Fld Name」(フィールド名)要素804aは、デー
タセット210内のデータレコード内のフィールドに関連付けられた、エントリが対応す
るフィールドの名前を含む。(b)「Fld Index」(フィールドインデックス)
要素804bは、1次モデルの入力データレコード520におけるフィールドの値のゼロ
ベースの位置を示す(ここで、レコード320内のフィールドの相対的な位置は、レコー
ド520内の対応する場所において維持される)、あるいは、フェーズ3の処理でフィー
ルドが削除された場合は空になる(図4B)。(c)最終要素804cは、(i)フィー
ルドの置換値を生成するために使用する2次モデルの名前を示すか、または(ii)フェ
ーズ3の処理中にフィールドが削除された理由を示すコードを含む(図10)。コンピュ
ーティングシステムは、データレコード320のフィールドを識別するフィールド番号(
図4C参照)を使用し、置換モデルデータ構造800の適切なエントリにアクセスし、次
に、フィールドに作成された2次モデルの名前、あるいはフィールドが削除され、1次モ
デルで使用されなかったことを示すコード(図4Cのステータス/削除コード442Cに
対応)を含むエントリの要素804cにアクセスする。
例えば、図8に示す本実施形態では、データ構造800のエントリ806は、データ
レコード320のフェーズ3の処理中に値が削除されなかったフィールド2に対応する。
このエントリには、フィールド名要素804aとして「Occupation」が含まれ
、フィールドインデックス要素804bには0が含まれる(1次モデルで使用するレコー
ド520の位置R1に対応)。要素804cは、図6に関連して前述したように、フィー
ルド2の置換値を生成するために作成された2次モデルの名前(この例では「Credi
t_F002_M001」)を含む。フォーム320(図3)のデータレコードが1次モ
デルによる処理のために提示され、データレコードでフィールド2の値のみが欠落してい
る場合、コンピューティングシステムは、フィールド2に対応するデータ構造800のエ
ントリにアクセスし、フィールド2の2次モデルを使用し、フェーズ3の処理で削除され
なかったデータレコード320の入力フィールドの他のすべての値を処理して、フィール
ド2の置換値を生成し、次に、フィールド2の置換値をデータレコード320から削除さ
れていない他の入力フィールドの値と組み合わせ、1次モデルのトレーニングに使用する
完全なデータレコード420、あるいは1次モデルによる処理のための完全なデータレコ
ード520を準備する。
1次モデルによる処理のために提示されたデータレコードのフィールドがフェーズ3処
理(図4B)で削除された場合、データ構造800のフィールドの対応するエントリ80
には、「SSN」(社会保障番号)等のフィールド名804aがフィールド8に与え
られ、フィールドインデックス804bは空になり、モデル名804cの代わりに、フィ
ールドN−v8(I)が削除されたことを示すコード(この例では「05」)が用いられ
る(図4B参照)。図4Bで説明した処理の結果として、複数のコード値の1つがこのフ
ィールドに割り当てられる可能性があり、この場合、各値はフィールドが削除された特定
の理由を示す、又は不特定の理由でフィールドが削除されたことを単に示す1つのグロー
バルコード値となる。本明細書で説明するデータ準備システムおよび方法で置換モデルデ
ータ構造800を使用すると、データ構造800の2次及び3次モデルに関する情報が非
一時的記憶媒体110からロードされ、計算モジュール108内のCPU112による高
速アクセスのための一時的記憶媒体(RAM)114に格納されたリスト(配列)に配置
される。
必要なときに正しいモデルへの効率的で明確なアクセスを可能とするために、データ構
造要素802からの3次モデルの名前が、一時的記憶媒体114にロードされたリストの
最初の位置(リストインデックス値「0」)に配置される。3次モデルは特定の個々のフ
ィールドに関連付けられていないため、その名前のみが必要な情報となる。2次モデル名
又は削除理由コードを含む、データレコード320の各フィールドに関する情報は、フォ
ーム804のデータ構造に配置される。次に、すべてのフィールドのデータ構造が一時的
記憶媒体114のリスト位置(インデックス)1〜Fに配置される。ここで、Fは、図3
の構造320をもつデータレコードのフィールド数である(ここで使用する例ではF=1
0)。特定のフィールドがターゲットフィールドTとして指定された場合、そのフィール
ドに対応するデータ構造804は、リスト位置TLに配置される。データ構造の要素80
4bには空のインデックス値が与えられ、理由コードまたは2次モデル名の代わりに、ラ
ベル「TARGET」がデータ構造の要素804cで使用される。
Eが1〜F(TL以外)までの数となるフィールドEが、上記のフェーズ3処理中にさ
らなる検討から除外された場合、フィールドの対応するデータ構造804がリスト位置E
Lに配置される。データ構造要素804bには空のインデックス値が与えられ、2次モデ
ル名の代わりに、フィールドが削除された理由のコードがデータ構造の要素804cで使
用される。好ましい実施形態では、通常は2桁としてフォーマットされたコードが、フィ
ールドが削除された理由を示すために使用され、この理由コードは常に少数の限定された
文字を有する。このため、データ構造の要素442c(図4C)内の理由コード「5」は
、それがデータ構造の要素804c内に配置されると、実際には「05」としてフォーマ
ットされる。2次モデルの作成時に上記の命名規則(例えば「Credit_F002_
M001」)を使用すると、2次モデルの名前が常に2文字以上になる。これにより、フ
ィールドが1次モデルで使用されているかどうかの判断が効率的に行われる。すなわち、
データ構造の要素804cの長さが2の場合、データ構造の要素804のリスト内の位置
に対応するフィールド番号Fは、1次モデルでは使用されないため、データレコード32
0にフィールドの値が含まれていない場合でも、置換値を生成する必要がない。データ構
造の要素804cのモデル名部分の長さが2より大きく、かつインデックス部分が空でな
い場合(つまり、このフィールドがターゲットフィールドではない場合)、指定されたフ
ィールドの置換値を生成するモデルが存在し、このモデルがデータレコード320で1つ
のみのフィールド値だけが欠落している場合に使用できる。
要約すると、汎用データ構造の要素804の特定のインスタンス(すなわち、データ構
造800に対応する一時的記憶媒体114内のリスト内のエントリ)は、フィールドの名
前を含み、このリスト内の位置によってこれを表し、データレコード320のフィールド
の位置を反映する1ベースのフィールド番号が3次モデルを反映する(例えば、一時的記
憶媒体114におけるこのリストのエントリ「0」は3次モデルを反映し、エントリ「1
」にはデータレコード320のフィールド1の情報が含まれ、エントリ「2」にはフィー
ルド2の情報が含まれる)。リストのデータ構造804に含まれるインデックス値804
bは、1次モデルによる処理を意図した新しいデータレコード内のフィールド値を1次モ
デルが期待する位置を示す。このデータ準備システムは、リストのエントリのフィールド
識別情報を使用して、あいまいさを解決し、適切なフィールド値が含まれているがフィー
ルドが1次モデルが必要とする順序ではないデータレコードのセットの場合に1次モデル
で使用するためにフィールド値を正しい順序で適切に整理し、1次モデルで使用するため
に検証する。すなわち、一時的記憶媒体114内のデータ構造のエントリ804(すなわ
ち、806、806等)のリストは、データレコードが1次モデルをトレーニングす
るためのものである場合には、構造320を備えたデータレコードからのフィールドを、
データレコード420(図4B)の構造を備えた入力フィールドにマッピングする、ある
いはデータレコードが1次モデルの処理で使用されている場合には、データレコード52
0(図5A)の構造を有する入力フィールドにマッピングするために用いられる。Tre
e Map、Hash Map、Linked List等、インデックスまたは「キー
」値を介してデータへの直接ランダムアクセスを提供する様々な代替手法が、本実施形態
で論じたようにリスト(配列)を使用せずに、一時的記憶媒体内のデータ構造800の基
本機能を提供するために使用可能である。
次に、2次モデル及び3次モデルを使用して、欠損データ又は無効なデータの置換値を
生成する方法について説明する。図9、10を使用して、図7に付随する説明に従ってト
レーニングされた3次モデルが、900(図5BのフィールドD−R2v3に対応)、
900(フィールドD−R6v7に対応)のような複数の欠損データをもつ例であるデ
ータレコード900に関連してどのように用いられるかを説明する。データレコード90
0は、前記の方法で変換(スケーリング)され、類似度メトリック901(ここではユー
クリッド距離)は、変換後のデータレコード900の値と訓練された3次モデルのノード
の重みの最終値との間のものとして計算される。ここで、計算に使用されるのは、有効な
データを含むデータレコード900のフィールドの変換された値と、訓練された3次モデ
ルの各ノードの対応する重みである。値がないか無効であるフィールドの変換後の値、及
びこれらのフィールドに対応する各ノードの重みは、計算では使用されない。
図7においても、これらの類似度メトリック計算は、有効な入力データフィールドから
ノード番号1(TR)(「TR]はノードの重みの値が、図7に関連して上記で説明した
トレーニングから得られた値であることを示す)の重みまでの実線901、有効フィー
ルドからノード番号2(TR)の重みまでの2点鎖線902を用いて示されており、ノ
ード番号3(TR)からノード番号P(TR)までの残りのノードについても同様に点線
903から900Pを用いて示されている。図7と同様に、類似度の計算は、データ
レコードのすべての有効なフィールドの値を、すべてのノードの対応する重みに変換して
実行されるが、図をわかりやすくするために、図9ではすべての行にはラベルは付与され
ていない。好ましい実施形態では、ユーザは、任意の所与のデータレコードにおいて置き
換えられるべき最大数の値を、例えば、フィールドの30%以下として指定することがで
きる。複数の無効値が検出され、無効値の数がユーザーによって指定された最大値を超え
ない場合、コンピューティングシステム100は、上記のようにリスト位置0に格納され
ているデータ構造802に含まれている3次モデルの名前毎に置換値を生成するために使
用される3次モデルを特定するために、一時的記憶媒体RAM114にロードされた置換
モデルデータ構造800のリスト表現にアクセスする。すなわち、図9に示されたように
ここで説明された類似度メトリック計算は、有効なフィールドの変換値のみが各ノードの
対応する重みとともに使用されることを除いて、図7に示されたように前記のように説明
された計算に対応する。各ノードの類似度メトリックが計算された後、各ノードは、デー
タレコード900に最も近いノード(最小のユークリッド距離)からデータレコード90
0に最も遠いノード(最大のユークリッド距離)までランク付けされる。
図10は、フィールド3、7の有効なデータ(値v3、v7)が欠落しているデータレ
コード900を使用する例について、図7で開発された3次モデルを使用して置換値を生
成する方法を示すフローチャートである。図10では、ノードの重みはWCW−1、WC
W−2、WCW−3、・・・、WCW−7、WCW−8、WCW−9とされる。欠損/無
効データのフィールドは3、7であるため、重みWCW−3、WCW−8は、欠落値v3
、v7の置換を生成するために使用される。つまり、図7に示すように、重みWp−3は
値v3に対応し、重みWp−8は値v7に対応する。ステップS902は、訓練されたノ
ード1(TR)からP(TR)を、欠損データを有する対象のデータレコードとの類似度
の順にランク付けする。この例では、これは、図9に関連して説明されたプロセスによっ
て決定され、類似度メトリックは、対象のデータレコード900内の有効データの変換値
とノードの対応する重みとの間のユークリッド距離である。ステップS904v3及びS
904v7は、図7に関連して上述したトレーニングプロセスにおいてランク付けされた
ノードが「勝った」頻度をチェックする。一般に、勝者であるとみなされるための最適な
頻度は開発者の裁量で設定される。最小許容頻度の例は1/Pであり、これは、各ノード
が同じ確率で勝つことを表す。ステップS906v3及びS906v7は、必要な勝利頻
度も達成した上位J個の候補勝利ノードのそれぞれの重みW3及びW8の合計を計算する
。好ましい実施形態では、Jは3等の小さい数であるが、任意の適切な小さい数を使用す
ることができる。ステップS908v3及びS908v7では、各候補ノードからのそれ
ぞれの重みを合計し、それぞれの合計をJで除算することにより、各重みW3およびW8
について、上位J候補ノードの重みの平均が計算される。フィールド3、7の元の欠損値
のそれぞれの置換値を取得するために、データレコード901のそれぞれのフィールドに
使用される逆変換が、ステップS910v3及びS910v7で平均に適用される。全て
の欠損値に対して置換値が生成された後、この例ではD−R2v3(I)REPL及びD
−R2v7(I)REPLをデータレコード900に挿入し、図10の矢印で示すように
、新しい完全なデータレコード900Rが生成される。
Jの値の選択はは、モデル開発者の裁量に任される。Jの適切な値を選択する基準は、
ノードの数Pに対して比較的小さいことである。多すぎるノードに基づいて重みの平均が
算出された場合、異常な数の異なるノードが考慮されるため、無効なデータを正確に表す
置換値の機能に悪影響を及ぼす。ただし、3次モデルのトレーニングプロセスの確率的性
質により、最上位ノード以外のノードが無効なデータを含むデータレコードをより代表的
に表す可能性があるため、Jの値は1より大きくする必要がある。上位のいくつかのノー
ドが同点であった場合のランク付けを考慮した場合、Jを奇数とすることが好ましい。こ
のため、一般的にはJ = 3とされる。
データレコードが最初にフェーズ2不良データセット402(図4A)に由来する場合
、このデータレコードをフェーズ2クリーンデータセット404に追加し、1次モデルを
再トレーニングするための拡張トレーニングデータとすることができる。あるいは、デー
タレコードが、すでに稼働中の1次モデルによって処理されるべき新しいデータを含むデ
ータレコードであった場合、このデータレコードがこの1次モデルで処理できるようにな
る。
図11は、フィールドX−R1v2(I)、X−R1v3(I)、・・・、X−R1v
6(I)、X−R1v7(I)、X−R1v9(I)をもち単一の無効値1100を有
するデータレコード1100が2次モデルがどのように使用されるかを説明している。欠
落している値の元のフィールド番号(この例では「4」)を識別した後、データレコード
1100の値は、フィールドY−R1v2(I)、Y−R1v3(I)、Y−R1v5(
I)、Y−R1v6(I)、Y−R1v7(I)Y−R1v9(I)をもつ新しいデータ
レコード1102に、それらの相対的な順序を維持して再編成される。このデータレコー
ドは、フィールド4に対応する2次モデルによってステップS1102で処理される。こ
の2次モデルは、コンピューティングシステムが一時的記憶媒体114に常駐する置換モ
デルデータ構造の対応する位置4のエントリ804を参照し、エントリの要素804cを
参照することにより、適切な2次モデルの検索が可能であるため、使用すべきモデルとし
て識別される。要約すると、データレコード1100の全ての有効な値がデータレコード
1102に配置され、これがフィールド4のための2次モデルの入力となり、これが置換
値を生成する。次に、ステップS1104において、置換値R3v4(I)REPLがデ
ータレコード1102内の欠損データの代わりに使用され、完全なデータレコード110
4が作成される。データレコードが最初にフェーズ2不良データセット402からのもの
である場合、データレコード1104をフェーズ2クリーンデータセット404に追加し
て、1次モデルをトレーニングまたは再トレーニングするための追加のデータレコードの
形式として拡張トレーニングデータを提供できる。あるいは、データレコードが、すでに
稼働中の1次モデルによって処理される新しいデータを含むデータレコードであった場合
、このデータレコードが1次モデルで処理できるようになる。
[結論]
本明細書で説明する主題の一態様は、機械学習アルゴリズムで使用するためのデータを
自律的かつ自動的に準備するためのシステムに関する。例示的なそのようなシステムは、
電子的に接続された非一時的記憶媒体、一時的記憶媒体、および上記の結果を達成するた
めに組み合わせて以下のタスクのさまざまなタスクを実行するように構成およびプログラ
ムされた1つ以上の中央処理装置を含むコンピューティングシステムを含むことができる


・非一時的記憶媒体のデータセットからデータレコードを抽出し、一時的記憶媒体に転送
する。

・一時的記憶媒体の各データレコードを処理し、データレコードの各フィールドのタイプ
を判別し、任意のフィールドで発生する可能性のある無効な値を識別する。

・無効な値のないデータレコードを第1のデータセットとし、無効な値のデータレコード
を含む第2のデータセットとして識別して分離する。

・第1のデータセットと第2のデータセットを、データ準備システムで後で使用するため
に非一時的記憶媒体に配置する。

・第1のデータセットの全てのデータレコードにヒューリスティックを適用して、主とな
る機械学習アルゴリズムの開発に役立たないと思われるフィールドを特定する。

・全てのフィールドの型と第1のデータセットの全てのフィールドにヒューリスティック
を適用した結果に関する情報を保持する第1データ構造を一時的記憶媒体に構築する。

・ヒューリスティックの最後の適用の後に、データ準備システムが後で使用するために、
第1データ構造を非一時的記憶媒体に配置する。

・第1のデータセットのデータレコードで入力フィールドとして指定され、かつヒューリ
スティックによって削除されなかった全てのフィールドについて、予測または分類機械学
習アルゴリズムに基づいて、フィールド毎に予測または分類機械学習アルゴリズムに基づ
いて、2次モデルである単一フィールドモデルを構築する。この単一フィールドモデルの
入力は、モデル化されているフィールドとデータレコードのターゲットフィールドを除き
、データレコードの他の全ての非消去フィールドである。

・第1データセットのデータレコードの入力フィールドとして指定されたすべての非消去
フィールドを使用し、クラスタリング機械学習アルゴリズムに基づく3次モデルを更に構
築する。

・フィールドの名前、フィールドのステータス、1次モデルで使用されるデータレコー
ド内のフィールド値の位置、フィールドの置換値を生成する2次モデルの名前等、フィー
ルドに関する情報を保持する第2データ構造を一時的記憶媒体に構築する。

・単一フィールド用のモデルである2次モデルとクラスタリングモデルである3次モデル
を第2データセットのデータレコードに適用する。データレコードに無効な値が1つしか
ない場合は単一フィールド用モデルを使用し、データレコードに複数の無効な値がある場
合のクラスタリングモデルを使用し、第1データセットに置換値を含むデータレコードを
追加する、あるいは、単一フィールド用のモデルとクラスタリングモデルを、新しいデー
タレコードに無効な値がある場合に、1次モデルで使用されるこの新しいデータレコード
に同様に適用する。

・第1データ構造のデータレコードと上記の拡張データレコードを使用し、第1データ構
造で特定されたヒューリスティックによって排除されたフィールドを無視し、機械学習ア
ルゴリズムに基づく1次モデルを開発する。各フィールド(モデルに対する入力またはタ
ーゲット)の使用の有無は、モデル開発者によりが指定される。
本明細書で開示および主張されるシステム、方法、および装置の別の特徴は、1次モデ
ルによって使用されるフィールドに関する情報、ならびに2次モデルおよび3次クラスタ
リングモデルに関する情報を含むデータ構造を作成する能力である。このデータ構造は、
1次モデルでの使用を目的としたデータレコード内の無効な値を持つフィールドの置換値
の生成に使用できる。さらに、3次モデルは、類似度メトリックを計算するクラスタリン
グアルゴリズムを実装し、アルゴリズムがデータレコードを類似するデータレコードのグ
ループを識別するノードに関連付け、対象となるデータレコードの複数のフィールドに無
効な値が含まれる場合に、候補ノードを識別してフィールドの置換値の生成を実行できる
ようにする。別の態様では、単一フィールドを対象とする2次モデルは、フィールドが連
続数値または離散クラスラベルを含むかどうかに応じて、予測モデル、分類モデルのいず
れである非線形モデルとなる。
上記のクラスタリングモデルは、クラスタリングモデルのトレーニングに使用されるデ
ータレコードに対して類似度計算を実行できるように、フィールドに適用された変換の性
質に関する情報を含むプログラムでアクセス可能なデータ構造を組み込むことができる。
さらに、このモデルには、クラスタリングモデルのトレーニング中に計算された類似度メ
トリックの値に基づいてデータレコードがモデルの各ノードに割り当てられた頻度に関す
る情報を含む、プログラムでアクセス可能なデータ構造を組み込むことができる。
別の側面では、クラスタリングモデルは、データレコードの品質がこのモデルで特定さ
れるノードに対応し、この品質がプログラムでアクセス可能であり、その組織が1次モデ
ルのトレーニングに使用されるデータレコードから削除されなかったフィールドに対応す
る、あるいはマッピングされるデータ構造で要約されるような形式とすることができる。
さらに別の例示的なクラスタリングモデルでは、1次モデルによる処理のために、複数の
欠損値を含むデータレコードの置換値が、1次モデルによる処理を目的としたデータレコ
ードの欠損値に対応する候補ノードの重みの平均の逆変換を実行することによって生成さ
れる。この平均は、類似度メトリックに基づいてデータレコードに最も類似し、クラスタ
リングモデルのトレーニング中に十分な頻度で重みが調整された所定数のトップノードか
らの重み値を使用して計算され、類似度はデータレコードにおける有効な変換値と、各ノ
ードの対応する重み値によって算出される。
本明細書に提示される例および実施形態において、2次および3次モデルの開発、およ
び当選頻度と類似度メトリックの計算は、汎用中央処理装置(CPU)を使用するコンピ
ューティングシステムで実行されるが、当業者は、1次モデル、2次、および4次モデル
の開発、ならびにフィールド値の置換および3次モデルによって使用される類似度メトリ
ックおよび他の値の計算のためのモデルを選択するための決定ロジックの実装は、計算エ
ンジンとしてグラフィックプロセッシングユニット(GPU)を使用する専用コンピュー
ティングシステム、またはクラスタリングモデルで類似度メトリックやその他の値を計算
するために使用されるような機械学習アルゴリズムやその他の並列操作を効率的に実装す
るように特別に設計されたその他のハイブリッドハードウェアソフトウェアシステムを使
用して実行できることを認識する。
さらに、このシステム、方法は、方法における様々なステップを実装するために使用さ
れるコンピュータおよび関連するコンピュータメモリがローカルコンピューティングシス
テム100に常駐する実施形態として文脈で一般的に説明されているが、本発明の様々な
態様によるシステムおよび方法を実装するためのコンピューティングシステムは、全体的
または部分的にクラウドベースであり得る。例えば、開発者がクラウドベースのサーバー
に履歴データ値のベースデータセットをアップロードし、開発者のローカルコンピュータ
ーに常駐する1次モデルのトレーニングに使用される2次モデル、3次モデルを生成でき
るシステムをベンダーが利用できるようにすることができる。同様に、ここで説明された
モデル開発中に作成される様々なデータセットとデータ構造は、クラウドベースのストレ
ージ、ローカルストレージ、またはその両方の組み合わせに保存できる。あるいは、ベン
ダーは、開示されたシステムと方法を実装するために必要なコンピューターソフトウェア
のパッケージを開発者に提供し、履歴データを使用して1次モデルをトレーニングするた
めのデータを準備する、あるいはトレーニング後に1次モデルで処理するための新しいデ
ータを1次モデルの稼働後に準備することができる。
この概要は、上記で詳細に説明した概念の選択を簡略化した形で紹介することのみを目
的とする。ここでは、本明細書で詳細に説明されるシステム、装置、および方法の発明の
概念および態様のすべての重要なまたは本質的な特徴を特定することは必ずしも意図され
ていない。当業者は、本発明の選択された好ましい実施形態のみが図示および説明されて
いることを容易に認識し、本発明の精神および範囲から逸脱することなく、上記で具体的
に述べたもの以外の様々な変更および修正を行うことができることを理解する。この発明
の範囲は、特許請求の範囲によってのみ定義される。
図1の左側は、本明細書に記載されているデータ準備技術を使用することができる典型
的な機械学習プロセスを示している。このプロセスは、ステップS102で始まり、ここ
ではモデル化プロセスの目的が指定される。少なくとも、分析に関与する特定のドメイン
(主題)を十分に理解している人が、予測、分類、クラスタリングなどの問題の性質と、
モデルの品質や有用性を判断するために使用される適切な評価指標を特定する。このモデ
ルが予測モデルまたは分類モデルである場合、開発者は、関連する1つ以上の現象を表す
1つ以上の値(「ターゲット値」として呼ばれることが多い)も識別する。

ステップS104では、経験的モデルを生成するための機械学習アルゴリズムが選択さ
れる。一般的に、予測問題においては教師あり学習が採用され、アルゴリズムによって得
られる結果は連続的な数値である。予測機械学習アルゴリズムは、利用可能な履歴データ
をモデル出力として連続曲線(あるいは直線)に適合させる。分類問題においても教師付
き学習が採用され、分類問題によって得られる結果は(ラベルで識別される)離散クラス
である。一般に、分類機械学習アルゴリズムは、レコード内のデータがレコードが特定の
カテゴリーに属していることを示す確率を最大化するように動作する。クラスタリング分
析においては、通常、モデルの出力としてデータの類似性を識別する教師なし学習アルゴ
リズムが採用される。このように、問題の性質(予測、分類、またはクラスタリング分析
)により、モデル開発者による適切なアルゴリズムが選択される。このモデルのコンピュ
ータ実装は、市販されているソフトウェアを用いるか、特定の目的のために開発者によっ
て作成されたソフトウェアを用いることができる。一般的には、求められる結果が数値で
あるか、離散的なカテゴリーの区分であるか、求められる結果が特定のデータにおける
ータ値を示す出力が他のデータにおけるデータ値に近いことの判定であるか、に関わらず
、機械学習アルゴリズムは、得られたデータセットと、データに関連付けられた対象の出
力との関係を求める。

Claims (26)

  1. 1次モデルである機械学習アルゴリズムのトレーニングに使用するための複数の履歴デ
    ータレコードを準備するシステムであって、
    各前記履歴データレコードには、1次モデルである機械学習アルゴリズムをトレーニン
    グして対象の出力を生成するための入力として指定されたデータ値を含む複数のフィール
    ドが含まれ、前記履歴データレコード内の指定された入力に無効なデータ値が含まれる場
    合に、トレーニングされる1次モデルである機械学習アルゴリズムの有用性と精度を高め
    るために、複数の前記履歴データレコード内の指定された入力を準備するコンピューター
    実装方法を実行し、
    この方法は、
    前記履歴データレコードを含むベースデータセットを、無効なデータ値をもつ不完全な
    データレコードをもつ不良データセットと、無効なデータ値がない完全なデータレコード
    をもつクリーンデータセットに分離し、
    前記不良データセットと前記クリーンデータセットをコンピューターのメモリに保存し

    保存された前記クリーンデータセットから、(1)複数の完全なデータレコードの入力
    として指定された各フィールドの値から、不完全なデータレコードの入力として指定され
    た対応するフィールドの単一の無効なデータ値の置換値を生成するようにトレーニングさ
    れた、コンピューター実装された複数の2次モデルとなる機械学習アルゴリズム、(2)
    入力として指定されたフィールドの全ての値を含む複数の完全なデータレコードから、不
    完全なデータレコードの入力として指定された複数の無効なデータ値を生成するようにト
    レーニングされた、コンピュータ実装された3次モデルとなる機械学習クラスタリングア
    ルゴリズム、のうちの少なくともいずれかを生成し、
    コンピュータに実装されたプログラムを使用し、格納された前記不良データセットの入
    力として指定されたそれぞれの無効なデータ値の少なくとも一部を置換データ値で置き換
    えることにより、拡張トレーニングデータレコードを作成し、当該拡張トレーニングデー
    タレコードを前記クリーンデータセットの完全なデータレコードと共に使用し、新しいデ
    ータレコードから対象の出力を生成するときに、前記1次モデルの機械学習アルゴリズム
    をトレーニングしてその精度を向上させる、
    ことを特徴とする、システム。
  2. 前記方法は更に、
    前記拡張トレーニングデータレコードを使用して、前記1次モデルである機械学習アル
    ゴリズムをトレーニングし、
    入力として指定された前記履歴データレコードの各前記フィールドに対応するフィール
    ドをもつ新データレコードを作成し、
    コンピュータのメモリに前記新データレコードを保存し、
    保存された前記新データレコードに、前記2次モデルとなる機械学習アルゴリズムを適
    用して前記新データレコードを完成し、無効なデータ値を含む単一のフィールドをもつ前
    記新データレコードのデータの置換値を生成、あるいは前記3次モデルとなる機械学習ク
    ラスタリングアルゴリズムを適用して無効なデータ値を含む複数のフィールドをもつ前記
    新データレコードのデータの置換値を生成し、
    トレーニング済みの前記1次モデルとなる機械学習アルゴリズムを使用して、前記新デ
    ータレコードから目的の出力を生成する、
    ことを特徴とする、請求項1に記載のシステム。
  3. 履歴データレコードの少なくとも1つのフィールドは、数値形式のターゲット値を含む
    対象の出力として指定され、
    前記1次モデルとなる機械学習アルゴリズムは、教師あり学習を使用し、前記履歴デー
    タレコードの入力として指定されたフィールドのデータ値を前記履歴データレコードの前
    記ターゲット値に関連付ける曲線を適合させる、
    ことを特徴とする、請求項1に記載のシステム。
  4. 履歴データレコードにおける少なくとも1つのフィールドは2つ以上の離散したクラス
    の形式でターゲット値を含む対象の出力として指定され、前記1次モデルとなる機械学習
    アルゴリズムは、教師あり学習を使用し、前記履歴データレコードで入力として指定され
    たデータの値を、前記データレコードが、前記履歴データレコードにおける前記ターゲッ
    ト値を含む2つ以上の離散したクラスの1つのメンバーであると判断される確率を最大化
    ように設定する、
    ことを特徴とする、請求項1に記載のシステム。
  5. 対象となる前記1次モデルとなる機械学習アルゴリズムの出力は、入力として指定され
    た値をもつデータレコードの集合体が、入力として指定された値をもち前記集合体の中に
    ない他のデータレコードに類似しているかを判定する、
    ことを特徴とする、請求項1に記載のシステム。
  6. 前記2次モデルとなる機械学習アルゴリズムは、連続数値形式の値をもつフィールドの
    置換値を生成する予測モデルと、離散クラスの形式の値をもつフィールドの置換値を生成
    する分類モデル、の少なくともいずれかを有する、
    ことを特徴とする、請求項1に記載のシステム。
  7. 前記2次モデルとなる機械学習アルゴリズムは、逆伝播によってトレーニングされた多
    層フィードフォワードニューラルネットワークで構成されることを特徴とする、請求項1
    に記載のシステム。
  8. 前記3次モデルとなる機械学習アルゴリズムは、履歴データレコードの総数に基づく複
    数のクラスターを特徴とする自己組織化マップを備えることを特徴とする、請求項1に記
    載のシステム。
  9. 前記1次モデルのトレーニングのために、複数の履歴データレコード内の指定された
    入力を準備する方法は、更に、
    ヒューリスティック分析を使用し、対象の出力を生成するために前記1次モデルとなる
    機械学習アルゴリズムをトレーニングするために役立たないデータ値をもち、前記1次モ
    デルとなる機械学習アルゴリズムの入力として指定されたフィールドを特定し、
    前記1次モデルとなる機械学習アルゴリズムをトレーニングして目的の出力を生成する
    ために役立たないデータ値をもつ前記フィールドが除去された削減済みクリーンデータセ
    ットを作成し、当該削減済みクリーンデータセットをコンピューターメモリに格納し、
    目的の出力を表すフィールドをもたない補助クリーンデータセットを作成し、当該補助
    クリーンデータセットを保存し、
    保存された前記補助クリーンデータセットを複数の前記2次モデルとなる機械学習アル
    ゴリズムと前記3次モデルとなる機械学習クラスタリングアルゴリズムのトレーニングデ
    ータとして使用する、
    ことを特徴とする、請求項1に記載のシステム。
  10. 複数の履歴データレコードでトレーニングされたコンピューターに実装された1次モデ
    ルである機械学習アルゴリズムを使用する方法であって、
    各前記履歴データレコードには、前記1次モデルとなる機械学習アルゴリズムをトレー
    ニングして対象の出力を生成するための入力として指定された複数のフィールドが含まれ
    、前記方法は、新データレコードの1つ以上のフィールドに無効なデータ値が含まれてい
    る場合、前記履歴データレコードのフィールドに対応する複数のフィールドが入力として
    指定された前記新データレコードから対応する対象となる出力を生成し、
    無効なデータ値を含む単一のフィールドの置換値を生成するために前記履歴データレコ
    ードを使用してトレーニングされコンピューターに実装された2次モデルとなる機械学習
    アルゴリズム、無効なデータ値を含む複数のフィールドをもつデータレコードの置換値を
    生成するために前記履歴データレコードを使用してトレーニングされ、コンピューターに
    実装された3次モデルとなる機械学習クラスタリングアルゴリズム、のうちのいずれかを
    用い、
    無効なデータ値を含む前記新データレコードの各フィールドのデータ値に対応する1つ
    又は複数の置換値を代入して前記新データレコードを完成させ、
    前記1次モデルとなる機械学習アルゴリズムを使用し、完成した前記新データレコード
    から、前記新データレコードに関連した出力を生成する、
    ことを特徴とする、方法。
  11. 複数の前記履歴データレコードを含むベースデータセットにアクセスし、
    保存された前記ベースデータセットから、無効なデータ値のない完全な前記履歴データ
    レコードをもつクリーンデータセットを分離し、
    前記クリーンデータセットをコンピューターのメモリに保存し、
    保存された前記クリーンデータセットから、前記2次モデルとなる機械学習アルゴリズ
    ムと前記3次モデルとなる機械学習クラスタリングアルゴリズムを生成する、
    ことを特徴とする、請求項10に記載の方法。
  12. 無効なデータ値を含む不完全な履歴データレコードを含む不良データセットをコンピュ
    ーターのメモリに保存し、
    コンピューターに実装されたプログラムを使用して、保存された前記不良データセット
    のデータレコード内のそれぞれの無効なデータ値の少なくとも一部を置換データ値に置き
    換えた拡張トレーニングデータレコードを作成し、当該拡張トレーニングデータレコード
    をコンピューターメモリーに格納し、
    前記拡張トレーニングデータレコードと組み合わせた前記クリーンデータセットのデー
    タレコードを使用し、前記1次モデルとなる機械学習アルゴリズムをトレーニングする、
    ことを特徴とする、請求項11に記載の方法。
  13. 保存されたベースデータセット内の無効なデータ値を置き換えるための複数の2次モデ
    ルとなる機械学習アルゴリズムを生成する方法であって、
    前記ベースデータセットは、関心のある出力を生成するために1次モデルとなる機械学
    習アルゴリズムをトレーニングするための入力として指定された複数のフィールドをそれ
    ぞれもつ複数の履歴データレコードを含み、
    ヒューリスティック分析を使用し、前記1次モデルとなる機械学習アルゴリズムの入力
    として指定された前記履歴データレコードにおける、前記1次モデルとなる機械学習アル
    ゴリズムをトレーニングして目的の出力を生成するためには役立たないデータ値をもつフ
    ィールドを特定し、
    前記ベースデータセットのデータレコードの各フィールドに関連付けられたエントリを
    含むフィールドステータスデータ構造をコンピューターメモリに保存し、各フィールドに
    関連付けられたエントリには、保存された前記ベースデータセットのデータレコード内の
    フィールドの位置を示すフィールド番号要素と、前記フィールドに含まれるデータ値が前
    記1次モデルをトレーニングして対象の出力を生成するために役立つか否かを示す消去コ
    ード要素が含まれ、
    前記ベースデータセットから無効なデータ値をもつデータレコードを削除して、クリー
    ンデータセットを作成し、
    前記クリーンデータセットのデータレコードから、対応する消去コード要素が前記1次
    モデルをトレーニングするためには役立たないことを示すフィールドを消去することによ
    り、削減済みクリーンデータセットを作成し、
    前記削減済みクリーンデータセットのデータレコードから、前記1次モデルとなる機械
    学習アルゴリズムの対象出力として指定されたデータ値をもつフィールドを削除すること
    により、補助クリーンデータセットを作成し、
    前記補助クリーンデータセットのデータレコードを、データ入力の1つを除くすべての
    フィールドをトレーニング入力値を含むものとして順次指定し、かつ残りの1つのフィー
    ルドデータ値を、そのフィールドの前記2次モデルとなる機械学習アルゴリズムのトレー
    ニング出力値として指定することで、トレーニングされコンピューターに実装された複数
    の前記2次モデルとなる機械学習アルゴリズムのトレーニングデータとして使用し、
    コンピュータのメモリに、前記ベースデータセットの各フィールドに関連付けられたエ
    ントリをもつ置換モデルデータ構造を保存する、
    ここで、
    前記置換モデルデータ構造の各エントリの位置は対応する前記フィールドステータスデー
    タ構造のフィールド番号要素を示し、各エントリには、
    (a)1次モデルとなる機械学習アルゴリズムで使用するために編成されたデータレコー
    ド内のフィールド値の位置を示すフィールドインデックス要素、
    (b)(1)前記フィールドに関連付けられたトレーニング済みの前記2次モデルとなる
    機械学習アルゴリズム、(2)前記2次モデルとなる機械学習アルゴリズムが前記フィー
    ルドに関連付けられていないこと、のいずれかを示す2次モデル要素、
    が含まれる、
    ことを特徴とする、方法。
  14. 各前記フィールドステータスデータ構造のエントリに、
    (i)エントリに関連付けられたフィールドのデータ値を使用して前記2次モデルとなる
    機械学習アルゴリズムを生成するか否か、
    及び
    (ii)前記フィールドの前記2次モデルとなる機械学習アルゴリズムを生成するために
    使用されるデータレコードのトレーニング出力のデータ値は、連続数値形式、離散クラス
    形式のどちらであるか、
    が含まれることを特徴とする、請求項13に記載の方法。
  15. 前記2次モデルとなる機械学習アルゴリズムは、逆伝播によってトレーニングされた多
    層フィードフォワードニューラルネットワークで構成されることを特徴とする、請求項1
    4に記載の方法。
  16. 請求項13に記載された方法でトレーニングされた2次モデルとなる機械学習アルゴリ
    ズムを使用して1次モデルとなる機械学習アルゴリズムをトレーニングする方法であって

    (a)前記ベースデータセットから削除された欠陥のある履歴データレコードを含む不良
    データセットを作成し、当該不良データセットをコンピューターのメモリに保存し、
    (b)前記不良データセットで、無効なデータ値をもつ単一のフィールドをもつ、欠陥の
    あるデータレコードを認識し、
    (c)無効なデータ値をもつ単一のフィールドに対応する前記置換モデルデータ構造のエ
    ントリにアクセスし、欠陥のある前記データレコードの単一の前記フィールドが、前記フ
    ィールドに関連するトレーニングされた前記2次モデルとなる機械学習アルゴリズムを有
    するかどうかを決定し、
    (d)ステップ(c)でアクセスされた前記フィールドに関連するトレーニングされた前
    記2次モデルとなる機械学習アルゴリズムを使用して、置換データ値を作成し、
    (e)欠陥のある前記データレコード内の無効なデータ値を前記置換値に置き換えた拡張
    トレーニングデータレコードを作成し、
    (f)欠陥のある前記データセット内の異なるデータレコードに対して、ステップ(b)
    〜(e)を複数回繰り返し、
    (g)前記クリーンデータセットのデータレコードを前記拡張トレーニングデータレコー
    ドと組み合わせて使用して、前記1次モデルとなる機械学習アルゴリズムをトレーニング
    する、
    ことを特徴とする、請求項13に記載の方法。
  17. 請求項16に記載された方法でトレーニングされた前記1次モデルとなる機械学習アル
    ゴリズムを使用して、前記ベースデータセットの入力フィールドに対応する入力フィール
    ドを備えた新データレコードから対象の出力を生成する方法であって、
    (a)前記新データレコードにおける、無効なデータ値をもつ単一のフィールドを識別し

    (b)無効なデータ値を有する単一の前記フィールドに対応する前記置換モデルデータ構
    造のエントリにアクセスし、欠陥のあるデータレコードの単一の前記フィールドが、前記
    フィールドに関連するトレーニングされた前記2次モデルとなる機械学習アルゴリズムを
    有するか否かを決定し、
    (c)ステップ(b)でアクセスされた前記フィールドに関連するトレーニングされた前
    記2次モデルとなる機械学習アルゴリズムを使用し、前記新データレコード内の無効なデ
    ータ値の置換データ値を作成し、
    (d)無効なデータ値を前記置換データ値に置き換えて、拡張新データレコードを作成し

    (e)前記1次モデルとなる機械学習アルゴリズムを使用して、前記拡張新データレコー
    ドから目的の出力を生成する、
    ことを特徴とする請求項16に記載の方法。
  18. 対象となる出力を生成するために1次モデルとなる機械学習アルゴリズムをトレーニン
    グするための入力として指定された複数のフィールドをそれぞれもつ複数の履歴データレ
    コードを含んで保存されたベースデータセット内において、無効なデータ値を置き換える
    ための3次モデルとなる機械学習アルゴリズムを生成する方法であって、
    ヒューリスティック分析を使用し、前記対象となる出力を生成するために前記1次モデ
    ルとなる機械学習アルゴリズムをトレーニングするためには役立たないデータ値を含む、
    前記1次モデルとなる機械学習アルゴリズムの入力として指定された前記履歴データレコ
    ードのフィールドを特定し、
    前記ベースメモリデータセットの各フィールドに関連付けられたエントリを含み、各フ
    ィールドステータスエントリとして、保存されている前記ベースデータセットのデータレ
    コード内のフィールドの位置を示すフィールド番号要素と、前記フィールドに含まれるデ
    ータ値が前記1次モデルをトレーニングして前記対象となる出力を生成するために役立つ
    か否かを示す消去コード要素が含まれるフィールドステータスデータ構造をコンピュータ
    メモリに保存し、
    前記ベースデータセットから無効なデータ値をもつデータレコードを削除してクリーン
    データセットを作成し、
    前記クリーンデータセットのデータレコードから、関連付けられているフィールドが前
    記1次モデルをトレーニングするためには役立たないことを示す前記消去コード要素を削
    除することにより、削減済みクリーンデータセットを作成し、
    前記削減済みクリーンデータセットのデータレコードから、前記1次モデルとなる機械
    学習アルゴリズムの対象の出力として指定されたデータ値をもつフィールドを削除するこ
    とにより、補助クリーンデータセットを作成し、
    コンピュータに実装された前記3次モデルとなる機械学習クラスタリングアルゴリズム
    のトレーニングデータとして、前記補助クリーンデータセット内のデータレコードを、前
    記補助クリーンデータセット内のデータレコード内の全てのデータ値をトレーニング入力
    値として使用して、前記3次モデルとなる機械学習クラスタリングアルゴリズムをトレー
    ニングし、
    トレーニング済みの前記3次モデルとなる機械学習クラスタリングアルゴリズムを特定
    する3次モデルエントリを含む置換モデルデータ構造をコンピューターメモリに保存する

    ことを特徴とする、方法。
  19. 前記3次モデルとなる機械学習アルゴリズムを使用して前記1次モデルとなる機械学習
    アルゴリズムをトレーニングする方法であって、
    (a)前記ベースデータセットから削除された障害のある履歴データレコードを含む不
    良データセットを作成してコンピューターのメモリに保存し、
    前記不良データセットで、無効なデータ値をもつ複数のフィールドをもつ不良データレ
    コードを識別し、
    (c)前記置換モデルデータ構造の前記3次モデルエントリにアクセスし、
    (d)ステップ(c)でアクセスされた、トレーニングされた前記3次モデルとなる機
    械学習アルゴリズムを使用して、前記不良データレコード内の無効なデータ値の置換デー
    タ値を作成し、
    (e)前記不良データレコード内の無効なデータ値を置換値に置き換えて、拡張トレー
    ニングデータレコードを作成し、
    (f)前記不良データセット内の異なるデータレコードに対して、ステップ(b)〜(
    e)を複数回繰り返し、
    (g)前記クリーンデータセットのデータレコードを前記拡張トレーニングデータレコ
    ードと組み合わせて使用し、前記1次モデルとなる機械学習アルゴリズムをトレーニング
    する、
    ことを特徴とする請求項18に記載の方法。
  20. トレーニングされた前記3次モデルとなる機械学習クラスタリングアルゴリズムが、前
    記補助クリーンデータセットのデータ値に対応するそれぞれの重みをもつ複数のノードを
    備えた自己組織化マップを含み、
    ステップ(d)において、
    前記自己組織化マップの各ノードの重みと、前記不良データレコード内の有効なデータ
    値をもつ各フィールドとの間の距離で定義される類似度メトリックを計算し、前記距離に
    基づいて、無効なデータ値をもつ前記不良データレコードの各フィールドの対応する値に
    最も近い重みをもつ所定数の勝者ノードを指定し、
    無効なデータ値のそれぞれに関連付けられた前記勝者ノードの重みの平均を計算し、
    前記重みの平均を使用し、前記重みに関連付けられたフィールドの無効なデータ値のそ
    れぞれに対してそれぞれの前記置換データ値を生成する、
    ことを特徴とする、請求項19に記載の方法。
  21. トレーニングされた前記1次モデルとなる機械学習アルゴリズムを使用し、前記ベース
    データセットの入力フィールドに対応する入力フィールドを有する新データレコードから
    対象となる出力を生成する方法であって、
    前記新データレコードにおける無効なデータ値をもつ複数のフィールドを識別し、
    トレーニングされた前記3次モデルとなる機械学習アルゴリズムを使用して、前記新デ
    ータレコード内の無効なデータ値の置換データ値を作成し、
    無効なデータ値を前記置換データ値に置き換えた新拡張データレコードを作成し、
    前記1次モデルとなる機械学習アルゴリズムを使用して、新拡張データレコードから対
    象となる出力を生成する、
    ことを特徴とする、請求項19に記載の方法。
  22. 対象となる出力をする1次モデルとなる機械学習アルゴリズムをトレーニングするため
    の入力として指定された複数のフィールドをそれぞれもつ複数の履歴データレコードを含
    んで保存されたベースデータセット内の無効なデータ値を置き換えるための複数の2次モ
    デルとなる機械学習アルゴリズムと3次モデルとなる機械学習アルゴリズムを生成する方
    法であって、
    ヒューリスティック分析を使用し、対象となる出力を生成するために前記1次モデルと
    なる機械学習アルゴリズムをトレーニングするために役立たないデータ値を含む、前記1
    次モデルとなる機械学習アルゴリズムの入力として指定された履歴データレコードのフィ
    ールドを特定し、
    前記ベースデータセットのデータレコードの各フィールドに関連付けられたエントリを
    含み、当該エントリには、保存されている前記ベースデータセットのデータレコード内の
    フィールドの位置を示すフィールド番号要素と、当該フィールドに含まれるデータ値が前
    記1次モデルをトレーニングして対象の出力を生成するために役立つか否かを示す消去コ
    ード要素が含まれるフィールドステータスデータ構造をコンピュータのメモリに保存し、
    前記ベースデータセットから無効なデータ値をもつデータレコードを削除してクリーン
    データセットを作成し、
    前記クリーンデータセットのデータレコードから、前記1次モデルをトレーニングする
    ためのユーティリティを持たないことを示す消去コード要素をもつフィールドを消去する
    ことにより、削減済みクリーンデータセットを作成し、
    前記削減済みクリーンデータセットのデータレコードから、前記1次モデルとなる機械
    学習アルゴリズムの対象の出力として指定されたデータ値をもつフィールドを削除するこ
    とにより、補助クリーンデータセットを作成し、
    前記補助クリーンデータセットのデータレコードを、データ入力の1つを除くすべての
    フィールドをトレーニング入力値を含むものとして順次指定し、残りの1つのフィールド
    データ値を前記2次モデルとなる機械学習アルゴリズムのトレーニング出力値として、複
    数の前記2次モデルとなる機械学習アルゴリズムのトレーニングに使用し、
    前記補助クリーンデータセット内のデータレコードを、前記補助クリーンデータセット
    内のデータレコード内の全てののデータ値をトレーニング入力値として使用することでト
    レーニングされた、コンピュータに実装された3次モデルとなる機械学習クラスタリング
    アルゴリズムのトレーニングデータとして使用し、
    コンピュータメモリに、トレーニングされた前記3次モデルとなる機械学習アルゴリズ
    ムを特定する3次モデルエントリ、及び前記ベースデータセット内のそれぞれのフィール
    ドに関連付けられた前記2次モデルに対応する複数の2次モデルエントリを含む置換モデ
    ルデータ構造を格納し、
    前記置換モデルデータ構造の各エントリの位置は、対応するフィールドステータスデー
    タ構造のフィールド番号要素を示し、各エントリには
    (a)前記1次モデルとなる機械学習アルゴリズムで使用するために編成されたデータレ
    コード内のフィールド値の位置を示すフィールドインデックス要素、
    及び
    (b)(i)前記フィールドに関連するトレーニングされた前記2次モデルとなる機械学
    習アルゴリズム、あるいは(ii)前記2次モデルとなる機械学習アルゴリズムが前記フ
    ィールドに関連しないこと、を示す2次モデル要素
    が含まれることを特徴とする、方法。
  23. 前記フィールドステータスデータ構造の各々のエントリに、
    (i)当該エントリに関連付けられているフィールドのデータ値を使用して、2次モデル
    となる機械学習アルゴリズムを生成するか否か、
    及び
    (ii)前記フィールドの前記2次モデルとなる機械学習アルゴリズムを生成するために
    使用されるデータレコードのトレーニング出力のデータ値が、連続数値形式か離散クラス
    形式のどちらであるか、
    を示すタイプコード要素を含めることを特徴とする、請求項22に記載の方法。
  24. 前記2次モデルとなる機械学習アルゴリズムは、逆伝播によってトレーニングされた多
    層フィードフォワードニューラルネットワークで構成されたことを特徴とする、請求項2
    3に記載の方法。
  25. トレーニングされた2次モデルとなる機械学習アルゴリズム、及び請求項22のように
    生成されトレーニングされた前記3次モデルとなる機械学習アルゴリズムを使用して1次
    モデルとなる機械学習アルゴリズムをトレーニングする方法であって、
    (a)前記ベースデータセットから削除された欠陥のある履歴データレコードを含む不
    良データセットを作成してコンピューターのメモリに保存し、
    (b)前記不良データセットで、無効なデータ値をもつ単一のフィールドをもつ不良デ
    ータレコードを識別し、
    (c)無効なデータ値をもつ単一のフィールドに対応する前記置換モデルデータ構造の
    エントリにアクセスし、前記欠陥データレコードの単一のフィールドに、そのフィールド
    に関連付けられたトレーニング済みの2次モデルとなる機械学習アルゴリズムがあるかど
    うかを判断し、
    (d)ステップ(c)でアクセスされた前記フィールドに関連するトレーニング済みの
    前記2次モデルとなる機械学習アルゴリズムを使用して、置換データ値を作成し、
    (e)当該不良データレコード内の無効なデータ値を当該置換データ値に置き換えて、
    拡張トレーニングデータレコードを作成し、
    (f)前記不良データセット内の異なるデータレコードに対して、ステップ(b)〜(
    e)を複数回繰り返し、
    (g)前記不良データセット内で、無効なデータ値をもつ複数のフィールドをもつ不良
    データレコードを識別し、
    (h)前記置換モデルデータ構造の前記3次モデルエントリにアクセスし、
    (i)ステップ(h)でアクセスされた前記のトレーニングされた3次モデルとなる機
    械学習アルゴリズムを使用し、当該不良データレコード内の無効なデータ値の置換データ
    値を作成し、
    (j)当該不良データレコード内の複数の無効なデータ値を当該置換データ値に置き換
    えて、拡張トレーニングデータレコードを作成し、
    (k)前記クリーンデータセットのデータレコードをステップ(e)及び(j)で作成
    された前記拡張トレーニングデータレコードと組み合わせて使用して、前記1次モデルと
    なる機械学習アルゴリズムをトレーニングする、
    ことを特徴とする、請求項22に記載の方法。
  26. トレーニングされた前記3次モデルとなる機械学習クラスタリングアルゴリズムは、前
    記補助クリーンデータセットのデータ値に対応するそれぞれの重みを有する複数のノード
    を備えた自己組織化マップを含み、
    ステップ(k)において、
    前記自己組織化マップの各ノードの重みと、前記不良データレコード内の有効なデータ
    値をもつ各フィールドとの間の距離で定義される類似度メトリックを計算し、前記距離に
    基づいて、無効なデータ値をもつ前記不良データレコードの各フィールドの対応する値に
    最も近い重みをもつ所定数の勝利ノードを指定し、
    無効なデータ値のそれぞれに関連付けられた勝者ノードの重みの平均を計算し、
    前記重みの平均を使用し、前記重みに関連付けられたフィールドの無効なデータ値のそ
    れぞれに対してそれぞれの前記置換データ値を生成する、
    ことを特徴とする、請求項25に記載の方法。
JP2020561567A 2018-01-22 2019-01-21 機械学習アルゴリズムのためのデータを生成する方法、システム Active JP7169369B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862620059P 2018-01-22 2018-01-22
US62/620,059 2018-01-22
PCT/US2019/014392 WO2019144066A1 (en) 2018-01-22 2019-01-21 Systems and methods for preparing data for use by machine learning algorithms

Publications (2)

Publication Number Publication Date
JP2021518024A true JP2021518024A (ja) 2021-07-29
JP7169369B2 JP7169369B2 (ja) 2022-11-10

Family

ID=67301239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020561567A Active JP7169369B2 (ja) 2018-01-22 2019-01-21 機械学習アルゴリズムのためのデータを生成する方法、システム

Country Status (7)

Country Link
US (2) US10713597B2 (ja)
EP (1) EP3743859A4 (ja)
JP (1) JP7169369B2 (ja)
AU (1) AU2019210306A1 (ja)
CA (1) CA3088899C (ja)
SG (1) SG11202006609QA (ja)
WO (1) WO2019144066A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102461631B1 (ko) * 2018-09-12 2022-10-31 삼성에스디에스 주식회사 데이터의 결측치 보정 방법 및 장치
US11837002B2 (en) * 2019-02-01 2023-12-05 Intuit Inc. System and method for spatial encoding and feature generators for enhancing information extraction
US20200265270A1 (en) * 2019-02-20 2020-08-20 Caseware International Inc. Mutual neighbors
US10810630B1 (en) * 2019-03-29 2020-10-20 Adp, Llc Method and system for predictive modeling of signage location and pricing
JP7420144B2 (ja) 2019-10-15 2024-01-23 日本電気株式会社 モデル生成方法、モデル生成装置、プログラム
US11893772B1 (en) * 2019-12-06 2024-02-06 Amazon Technologies, Inc. Artificial intelligence system with iterative two-phase active learning
CN111460229B (zh) * 2020-02-23 2023-06-09 华中科技大学 单用户多工作负载之间json解析优化方法和系统
US11555943B2 (en) 2020-03-20 2023-01-17 Saudi Arabian Oil Company Method for identifying misallocated historical production data using machine learning to improve a predictive ability of a reservoir simulation
CA3179205A1 (en) * 2020-04-03 2021-10-07 Insurance Services Office, Inc. Systems and methods for computer modeling using incomplete data
CN111553072B (zh) * 2020-04-27 2023-11-03 新奥数能科技有限公司 设备特性曲线的确定方法及装置
US11593714B2 (en) * 2020-05-06 2023-02-28 Citrix Systems, Inc. Adaptive anomaly detector
CA3120412A1 (en) * 2020-06-02 2021-12-02 Banque Nationale Du Canada An automated and dynamic method and system for clustering data records
US11615272B2 (en) * 2020-06-17 2023-03-28 Capital One Services, Llc Anomaly analysis using a blockchain, and applications thereof
US11568284B2 (en) 2020-06-26 2023-01-31 Intuit Inc. System and method for determining a structured representation of a form document utilizing multiple machine learning models
US11640573B2 (en) * 2020-07-29 2023-05-02 Dell Products L.P. Intelligent scoring model for assessing the skills of a customer support agent
US20220083918A1 (en) * 2020-09-16 2022-03-17 International Business Machines Corporation Intelligent scoring of missing data records
CN112115369B (zh) * 2020-09-29 2023-08-18 中国银行股份有限公司 特征数据的筛选方法、装置、电子设备及计算机存储介质
CN112464569A (zh) * 2020-12-10 2021-03-09 北京明略软件系统有限公司 一种机器学习方法及系统
KR102362872B1 (ko) * 2021-06-08 2022-02-15 오브젠 주식회사 인공지능 학습을 위한 클린 라벨 데이터 정제 방법
US20230196453A1 (en) * 2021-12-22 2023-06-22 Brex Inc. Deduplication of accounts using account data collision detected by machine learning models
CN115282401B (zh) * 2022-07-22 2023-04-21 深圳市第二人民医院(深圳市转化医学研究院) 静脉输液泵控制系统、静脉输液泵控制方法和存储介质
CN116204820B (zh) * 2023-04-24 2023-07-21 山东科技大学 一种基于稀有类挖掘的冲击危险性等级判别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334719A (ja) * 2006-06-16 2007-12-27 Hitachi Software Eng Co Ltd 遺伝子発現解析の欠損値補完システム
US8443013B1 (en) * 2011-07-29 2013-05-14 Google Inc. Predictive analytical modeling for databases
WO2013125482A1 (ja) * 2012-02-24 2013-08-29 日本電気株式会社 文書評価装置、文書評価方法、及びコンピュータ読み取り可能な記録媒体

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6260036B1 (en) * 1998-05-07 2001-07-10 Ibm Scalable parallel algorithm for self-organizing maps with applications to sparse data mining problems
US6826550B2 (en) * 2000-12-15 2004-11-30 International Business Machines Corporation Method, system, and program for converting application program code to executable code using neural networks based on characteristics of the inputs
US7089592B2 (en) 2001-03-15 2006-08-08 Brighterion, Inc. Systems and methods for dynamic detection and prevention of electronic fraud
US8380594B2 (en) 2004-10-22 2013-02-19 Itg Software Solutions, Inc. Methods and systems for using multiple data sets to analyze performance metrics of targeted companies
US7593903B2 (en) 2004-12-03 2009-09-22 Hewlett-Packard Development Company, L.P. Method and medium for feature selection of partially labeled data
WO2007147166A2 (en) 2006-06-16 2007-12-21 Quantum Leap Research, Inc. Consilence of data-mining
US7921069B2 (en) * 2007-06-28 2011-04-05 Yahoo! Inc. Granular data for behavioral targeting using predictive models
US8514392B1 (en) 2010-01-06 2013-08-20 The United States Of America As Represented By The Secretary Of The Army Spectrophotopolarimeter sensor and artificial neural network analytics for distant chemical and biological threat detection
US9094291B1 (en) 2010-12-14 2015-07-28 Symantec Corporation Partial risk score calculation for a data object
US9349105B2 (en) * 2013-12-18 2016-05-24 International Business Machines Corporation Machine learning with incomplete data sets
US20180053114A1 (en) 2014-10-23 2018-02-22 Brighterion, Inc. Artificial intelligence for context classifier
US9697469B2 (en) * 2014-08-13 2017-07-04 Andrew McMahon Method and system for generating and aggregating models based on disparate data from insurance, financial services, and public industries
US20160078367A1 (en) * 2014-10-15 2016-03-17 Brighterion, Inc. Data clean-up method for improving predictive model training
US9697248B1 (en) 2014-11-20 2017-07-04 CoreLogic Credco, LLC Supervised machine learning of data de-duplication
US10733515B1 (en) * 2017-02-21 2020-08-04 Amazon Technologies, Inc. Imputing missing values in machine learning models
US10325224B1 (en) * 2017-03-23 2019-06-18 Palantir Technologies Inc. Systems and methods for selecting machine learning training data
US10402741B2 (en) * 2017-05-18 2019-09-03 Sas Institute Inc. Analytic system based on multiple task learning with incomplete data
US11436428B2 (en) * 2017-06-06 2022-09-06 Sightline Innovation Inc. System and method for increasing data quality in a machine learning process
US10776760B2 (en) * 2017-11-17 2020-09-15 The Boeing Company Machine learning based repair forecasting

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334719A (ja) * 2006-06-16 2007-12-27 Hitachi Software Eng Co Ltd 遺伝子発現解析の欠損値補完システム
US8443013B1 (en) * 2011-07-29 2013-05-14 Google Inc. Predictive analytical modeling for databases
WO2013125482A1 (ja) * 2012-02-24 2013-08-29 日本電気株式会社 文書評価装置、文書評価方法、及びコンピュータ読み取り可能な記録媒体

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JOSE M. JEREZ, ET AL.: ""Missing data imputation using statistical and machine learning methods in a real breast cancer prob", IN: ARTIFICIAL INTELLIGENCE IN MEDICINE, vol. 50, no. 2, JPN6021047727, October 2010 (2010-10-01), pages 105 - 115, XP055831585, ISSN: 0004650899, DOI: 10.1016/j.artmed.2010.05.002 *
PEDRO J. GARCIA-LAENCINA, ET AL.: ""Pattern classification with missing data: a review"", IN: NEURAL COMPUT & APPLIC, vol. 19, JPN6021047729, 3 September 2009 (2009-09-03), pages 20, ISSN: 0004650897 *
ジョン・W・フォアマン著,トップスタジオ訳, 「データ・スマート EXCELではじめるデータサイエンス入門」, vol. 初版, JPN6022042903, 1 September 2017 (2017-09-01), JP, pages 273 - 274, ISSN: 0004893420 *
月本 洋(外1名), 「やさしい確率・情報・データマイニング」, vol. 第2版, JPN6021047728, 22 November 2013 (2013-11-22), JP, pages 84 - 86, ISSN: 0004650898 *
齊藤 史哲: "「自己組織化写像を用いたSub-baggingによる欠損値データの推定」", 電気学会論文誌C, vol. 137, no. 8, JPN6022042902, 1 August 2017 (2017-08-01), JP, pages 1102 - 1110, ISSN: 0004893419 *

Also Published As

Publication number Publication date
AU2019210306A1 (en) 2020-07-30
CA3088899A1 (en) 2019-07-25
WO2019144066A1 (en) 2019-07-25
US10713597B2 (en) 2020-07-14
US20200401939A1 (en) 2020-12-24
EP3743859A4 (en) 2021-11-17
EP3743859A1 (en) 2020-12-02
SG11202006609QA (en) 2020-08-28
CA3088899C (en) 2021-04-06
US20190340533A1 (en) 2019-11-07
JP7169369B2 (ja) 2022-11-10

Similar Documents

Publication Publication Date Title
JP7169369B2 (ja) 機械学習アルゴリズムのためのデータを生成する方法、システム
US20220075670A1 (en) Systems and methods for replacing sensitive data
US20200050968A1 (en) Interactive interfaces for machine learning model evaluations
CA2953826C (en) Machine learning service
Yakout et al. Guided data repair
US20230139783A1 (en) Schema-adaptable data enrichment and retrieval
CN111198817B (zh) 一种基于卷积神经网络的SaaS软件故障诊断方法及装置
US11556785B2 (en) Generation of expanded training data contributing to machine learning for relationship data
US11037073B1 (en) Data analysis system using artificial intelligence
Han et al. SlimML: Removing non-critical input data in large-scale iterative machine learning
CN111930944B (zh) 文件标签分类方法及装置
Cadenas et al. NIP-an imperfection processor to data mining datasets
CN113571198A (zh) 转化率预测方法、装置、设备及存储介质
JPWO2011016281A1 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
CN112463378A (zh) 一种服务器资产扫描方法、系统、电子设备及存储介质
Ghosh et al. Understanding Machine Learning
Franco et al. Genetic algorithms for parameter estimation in modelling of index returns
US11688113B1 (en) Systems and methods for generating a single-index model tree
CN117891811B (zh) 一种客户数据采集分析方法、装置及云服务器
US20230281275A1 (en) Identification method and information processing device
Haavisto Automating the Certificate Verification Process
Rohaan Prioritizing requests for quotation on sales potential
Singh Generative Modeling for Healthcare Applications and Energy Demand Response with Normalizing Flows
Sevier Text Classification of installation Support Contract Topic Models for Category Management
CN115982289A (zh) 一种关系挖掘方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200918

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221028

R150 Certificate of patent or registration of utility model

Ref document number: 7169369

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150