JP2023544011A

JP2023544011A - 自動特徴量エンジニアリングを運用するシステムおよび方法

Info

Publication number: JP2023544011A
Application number: JP2023519186A
Authority: JP
Inventors: マックスカンタージェームズ; クマルヴェラマチャネニーカリヤン
Original assignee: アルテリックスインコーポレイテッド
Priority date: 2020-09-30
Filing date: 2021-09-16
Publication date: 2023-10-19
Also published as: KR20230078764A; US11941497B2; CA3191371A1; AU2021353828A1; US20220101190A1; CN116235158A; AU2021353828B2; EP4222651A1; WO2022072150A1

Abstract

特徴量エンジニアリングツールは、機械学習モデルをトレーニングするための特徴のグループを自動的に生成する。特徴量エンジニアリングツールは、データセットのプリミティブを選択し、選択的プリミティブおよびデータセットに基づいて複数の特徴を合成する。特徴量エンジニアリングツールは、複数の特徴をデータセットの異なる部分に繰り返し適用し、複数の特徴の有用性を評価する。評価に基づいて、複数の特徴のいくつかを除去して、特徴のグループを取得する。特徴量エンジニアリングツールはまた、グループ内の各特徴の重要度係数を決定する。機械学習モデルは、特徴およびそれらの重要度係数に基づいて生成され、新しいデータに基づいて予測を行うために使用することができる。

Description

本発明は、一般に、データストリームの処理に関し、特に、ストリーム内のデータに対して機械学習を実行するのに有効な特徴量エンジニアリングに関する。

本出願は、２０２０年９月３０日に出願された米国非仮特許出願第１７／０３９，４２８号の優先権を主張し、参照によりその全体が組み込まれる。

特徴量エンジニアリングは、典型的に、ビジネスや他の企業によって分析される複雑なデータの予測特徴を識別し、抽出するプロセスである。特徴は、機械学習モデルによる予測の正確性の鍵である。したがって、特徴量エンジニアリングは、データ分析プロジェクトが成功するかどうかの決定要因となることがよくある。特徴量エンジニアリングは、一般的に、時間のかかるプロセスである。現在利用可能な特徴量エンジニアリングツールでは、以前の作業を再利用することが困難であるため、まったく新しい特徴量エンジニアリングパイプラインが、すべてのデータ分析プロジェクトに対して構築される必要がある。また、現在利用可能な特徴量エンジニアリングツールは、一般的に、良好な予測精度を達成するために大量のデータを必要とする。したがって、現在の特徴量エンジニアリングツールは、企業のデータ処理ニーズに効率的に対応することができない。

上記およびその他の問題は、データ分析システムでデータブロックを処理するための方法、コンピュータ実装のデータ分析システム、およびコンピュータ読み取り可能なメモリによって対処される。本方法の一実施形態は、データソースからデータセットを受信するステップを含む。この方法は、受信したデータセットに基づいて複数のプリミティブのプールからプリミティブを選択するステップをさらに含む。選択されたプリミティブのそれぞれは、１つまた複数の特徴を合成するためにデータセットの少なくとも一部に適用されるように構成される。この方法は、選択されたプリミティブを受信されたデータセットに適用することによって、複数の特徴を合成するステップをさらに含む。この方法は、複数の特徴を反復的に評価し、複数の特徴から一部の特徴を除去し、特徴のサブセットを取得するステップをさらに含む。各反復は、データセットの異なる部分を評価された特徴に適用することによって、複数の特徴のうちの少なくとも一部の特徴の有用性を評価するステップと、評価された特徴の有用性に基づいて評価された特徴の一部を除去し、特徴のサブセットを生成するステップとを含む、評価するステップとを含む。方法はまた、特徴のサブセットのそれぞれの特徴の重要度係数を決定することを含む。方法はまた、特徴のサブセットおよび特徴のサブセットの各特徴の重要度係数に基づいて、機械学習モデルを生成することを含む。機械学習モデルは、新しいデータに基づいて予測を行うために使用されるように構成される。

コンピュータ実装データ分析システムの一実施形態は、コンピュータプログラム命令を実行するためのコンピュータプロセッサを含む。このシステムは、動作を実行するコンピュータプロセッサによって、実行可能なコンピュータプログラム命令を格納する非一時的なコンピュータ可読メモリも含む。動作は、データソースからデータセットを受信することを含む。動作は、受信されたデータセットに基づいて複数のプリミティブのプールからプリミティブを選択することをさらに含む。選択されたプリミティブのそれぞれは、１つまた複数の特徴を合成するためにデータセットの少なくとも一部に適用されるように構成される。この動作は、選択されたプリミティブを受信されたデータセットに適用することによって、複数の特徴を合成することをさらに含む。この動作は、複数の特徴を反復的に評価し、複数の特徴から一部の特徴を除去し、特徴のサブセットを取得することをさらに含む。各反復は、データセットの異なる部分を評価された特徴に適用することによって、複数の特徴のうちの少なくとも一部の特徴の有用性を評価することと、評価された特徴の有用性に基づいて評価された特徴の一部を除去し、特徴のサブセットを生成することとを含む。動作はまた、特徴のサブセットのそれぞれの特徴の重要度係数を決定することを含む。方法はまた、特徴のサブセットおよび特徴のサブセットのそれぞれの特徴の重要度係数に基づいて、機械学習モデルを生成することを含む。機械学習モデルは、新しいデータに基づいて予測を行うために使用されるように構成される。

非一時的なコンピュータ可読メモリの実施形態は、実行可能なコンピュータプログラム命令を格納する。この命令は、動作を実行するために実行可能である。動作は、データソースからデータセットを受信することを含む。動作は、受信されたデータセットに基づいて複数のプリミティブのプールからプリミティブを選択することをさらに含む。選択されたプリミティブのそれぞれは、１つまた複数の特徴を合成するためにデータセットの少なくとも一部に適用されるように構成される。この動作は、選択されたプリミティブを受信されたデータセットに適用することによって、複数の特徴を合成することをさらに含む。この動作は、複数の特徴を反復的に評価し、複数の特徴から一部の特徴を除去し、特徴のサブセットを取得することをさらに含む。各反復は、データセットの異なる部分を評価された特徴に適用することによって、複数の特徴のうちの少なくとも一部の特徴の有用性を評価することと、評価された特徴の有用性に基づいて評価された特徴の一部を除去し、特徴のサブセットを生成することとを含む。動作はまた、特徴のサブセットのそれぞれの特徴の重要度係数を決定することを含む。方法はまた、特徴のサブセットおよび特徴のサブセットのそれぞれの特徴の重要度係数に基づいて、機械学習モデルを生成することを含む。機械学習モデルは、新しいデータに基づいて予測を行うために使用されるように構成される。

本発明のさらなる特徴および利点は、添付の図を参照して、以下の本発明の詳細な説明から明らかになるであろう。
一実施形態による、機械学習サーバーを含む機械学習環境を示すブロック図である。一実施形態による、機械学習サーバーの特徴量エンジニアリングアプリケーションのより詳細な図を示すブロック図である。一実施形態による、特徴量エンジニアリングアプリケーションの特徴生成モジュールのより詳細な図を示すブロック図である。一実施形態による、機械学習モデルの生成方法を示すフローチャートである。一実施形態による、機械学習モデルをトレーニングし、トレーニングされたモデルを使用して予測を行う方法を示すフローチャートである。一実施形態による、図１の機械学習サーバーとして使用するための典型的なコンピュータシステムの機能図を示すハイレベルブロック図である。

図面は、例示のみを目的として、多様な実施形態を示している。当業者は、本明細書に例示された構造および方法の代替的実施形態が、本明細書に記載の本発明の原理から逸脱することなく利用することができることを以下の説明から容易に認識する。様々な図面における同様の参照記号および表示は、同様の要素を指す。

図１は、一実施形態による、機械学習サーバー１１０を含む機械学習環境１００を示すブロック図である。環境１００は、ネットワーク１３０を介して機械学習サーバー１１０に接続された多様なデータソース１２０をさらに含む。図示の環境１００は、多様なデータソース１２０に結合された１つの機械学習サーバー１１０のみを含むが、実施形態は、多様な機械学習サーバーおよび単一のデータソースを有することができる。

データソース１２０は、電子データをデータ分析システム１１０に提供する。データソース１２０は、ハードディスクドライブ（ＨＤＤ）またはソリッドステートドライブ（ＳＳＤ）などのストレージデバイス、複数のストレージデバイスへのアクセスを管理および提供するコンピュータ、ストレージエリアネットワーク（ＳＡＮ）、データベース、またはクラウドストレージシステムであり得る。データソース１２０はまた、別のソースからデータを取り出すことができるコンピュータシステムであってもよい。データソース１２０は、機械学習サーバー１１０から遠隔であってもよく、ネットワーク１３０を介してデータを提供してもよい。さらに、データソース１２０の一部またはすべては、データ分析システムに直接に結合され、ネットワーク１３０を介してデータを渡すことなく、データを提供してもよい。

データソース１２０によって提供されるデータは、データレコード（例えば、行）に編成することができる。各データレコードは、１つまたは複数の値が含まれる。例えば、データソース１２０によって提供されるデータレコードは、一連のコンマ区切りされた値を含む場合がある。データは、データ分析システム１１０を使用する企業に関連する情報を記述する。例えば、データソース１２０からのデータは、ウェブサイト上でアクセス可能なコンテンツおよび／またはアプリケーションとのコンピュータベースの相互作用（例えば、クリック追跡データ）を記述することができる。別の例として、データソース１２０からのデータは、オンラインおよび／または店舗での顧客取引を記述することができる。企業は、製造業、販売業、金融業、銀行業などの様々な産業の１つまたは複数に属することができる。

機械学習サーバー１１０は、機械学習モデルを構築し、機械学習モデルを提供してデータに基づく予測を行うために利用されるコンピュータベースのシステムである。例示的な予測は、顧客が一定期間内に取引を行うかどうか、取引が不正であるかどうか、ユーザーがコンピュータベースの相互作用を実行するかどうかなどを含む。データは、ネットワーク１３０を介して１つまたは複数の多様なデータソース１２０から回収、収集、またはアクセスされる。機械学習サーバー１１０は、多種多様なデータソース１２０からのデータへのアクセス、準備、ブレンディング、および分析に用いられるスケーラブルなソフトウェアツール及びハードウェアリソースを実装することができる。機械学習サーバー１１０は、本明細書で記述される特徴量エンジニアリングおよびモデリング技術を含む機械学習機能を実装するために使用されるコンピューティングデバイスであり得る。

機械学習サーバー１１０は、特徴量エンジニアリングアプリケーション１４０およびモデリングアプリケーション１５０として図１に示される１つまたは複数のソフトウェアアプリケーションをサポートするように構成され得る。特徴量エンジニアリングアプリケーション１４０は、自動化された特徴量エンジニアリングを実行し、データソース１２０によって提供されるデータ（例えば、時間および関係データセット）から予測変数、すなわち特徴を抽出する。各特徴は、対応する機械学習モデルを使用して行われる予測（ターゲット予測と呼ばれる）に潜在的に関連する変数である。

一実施形態では、特徴量エンジニアリングアプリケーション１４０は、データに基づいてプリミティブのプールからプリミティブを選択する。プリミティブのプールは、特徴量エンジニアリングアプリケーション１４０によって維持される。プリミティブは、データセット内の生データに適用して、関連付けられた値を有する１つまたは複数の新しい特徴を作成することができる個々の計算を定義する。選択されたプリミティブは、入力および出力データタイプを制限するため、さまざまな種類のデータセットに適用して積み重ねて新しい計算を作成できる。特徴量エンジニアリングアプリケーション１４０は、選択されたプリミティブをデータソースによって提供されるデータに適用することによって特徴を合成する。次に、特徴を評価して、データの異なる部分を各反復の特徴に適用する反復プロセスを通じて、それぞれの特徴の重要性を決定する。特徴量エンジニアリングアプリケーション１４０は、反復ごとに一部の特徴を除去して、除去された特徴よりも予測に役立つ特徴のサブセットを取得する。

サブセット内の各特徴について、特徴量エンジニアリングアプリケーション１４０は、例えばランダムフォレストを使用することによって、重要度係数を決定する。重要度係数は、特徴がターゲット予測にどの程度重要／関連があるかを示す。サブセット内の特徴およびそれらの重要度係数は、モデリングアプリケーション１５０に送信されて、機械学習モデルを構築することができる。

特徴量エンジニアリングアプリケーション１４０の１つの利点は、プリミティブの使用することにより、特徴が生データから抽出される従来の特徴量エンジニアリングプロセスよりも特徴量エンジニアリングプロセスをより効率的にすることである。また、特徴量エンジニアリングアプリケーション１４０は、プリミティブから生成された特徴の評価および重要度係数に基づいてプリミティブを評価することができる。プリミティブの評価を記述するメタデータを生成し、そのメタデータを使用して、別のデータまたは別の予測問題に対してプリミティブを選択するかどうかを決定できる。従来の特徴量エンジニアリングプロセスは、特徴をより迅速かつ適切にエンジニアリングするためのいずれかガイダンスまたはソリューションを提供することなく、多数の特徴（数百万など）を生成できる。特徴量エンジニアリングアプリケーション１４０の別の利点は、特徴を評価するために大量のデータを必要としないことである。むしろ、特徴を評価するために反復的な方法を適用し、各反復でデータの異なる部分を使用する。

特徴量エンジニアリングアプリケーション１４０は、ユーザーが特徴量エンジニアリングプロセスに貢献することを可能にするグラフィカルユーザーインタフェース（ＧＵＩ）を提供することができる。一例として、特徴量エンジニアリングアプリケーション１４０に関連付けられたＧＵＩは、ユーザーが特徴量エンジニアリングアプリケーション１４０によって選択された特徴を編集することを可能にする特徴選択ツールを提供する。また、考慮すべき変数を指定し、特徴の最大許容深さ、生成された特徴の最大数、含まれるデータの日付範囲（例えば、カットオフ時間によって指定される）などの特徴の特性を変更するオプションをユーザーに提供することもできる。特徴量エンジニアリングアプリケーション１４０についてのより詳細は、図２～図４と併せて記述される。

モデリングアプリケーション１５０は、特徴量エンジニアリングアプリケーション１４０から受信した特徴および特徴の重要度係数を用いて機械学習モデルをトレーニングする。線形サポートベクトルマシン（線形ＳＶＭ）、他のアルゴリズム（例えば、ＡｄａＢｏｏｓｔ）のブースティング、ニューラルネットワーク、ロジスティック回帰、ナイーブベイズ、メモリベースの学習、ランダムフォレスト、バッグ木、決定木、ブースト木、またはブーストスタンプなどの異なる機械学習技術は、異なる実施形態で使用され得る。生成された機械学習モデルは、新しいデータセット（例えば、同じまたは異なるデータソース１２０からのデータセット）から抽出された特徴に適用されると、ターゲット予測を行う。新しいデータセットは、１つまたは複数の特徴が欠落している可能性があるが、これらの特徴は、ヌル（ｎｕｌｌ）値で依然として含まれる可能性がある。いくつかの実施形態では、モデリングアプリケーション１５０は、次元削減を適用して（例えば、線形判別分析（ＬＤＡ）、主成分分析（ＰＣＡ）などを介して）、新しいデータセットの特徴のデータ量をより小さく、より代表的なデータセットに低減する。

いくつかの実施形態では、モデリングアプリケーション１５０は、新しいデータセットに展開する前に予測を検証する。例えば、モデリングアプリケーション１５０は、モデルの精度を定量化するために、トレーニングされたモデルを検証データセットに適用する。精度測定に適用される一般的な指標には、適合率＝真陽性（ＴＰ）／（（真陽性（ＴＰ）＋偽陽性（ＦＰ））および再現率＝真陽性（ＴＰ）／（（真陽性（ＴＰ）＋偽陰性（ＦＮ））が含まれ、適合率は、モデルが予測した合計のうち（ＴＰ＋ＴＦまたは偽陽性）、モデルが正しく予測した結果（ＴＰまたは真陽性）の数であり、再現率は、実際に発生した合計数（ＴＰ＋ＦＮまたは偽陰性）のうち、モデルが正しく予測（ＴＰ）した結果の数である。Ｆ値（Ｆ値＝２*ＰＲ（適合率*再現率）／Ｐ＋Ｒ（適合率＋再現率））は、適合率と再現率を１つの尺度に統合する。一実施形態では、モデリングアプリケーション１５０は、機械学習モデルが十分に正確であるという精度測定指示、またはいくつかのトレーニングラウンドが行われたなどの停止条件が発生するまで、機械学習モデルを反復的に再トレーニングする。

いくつかの実施形態では、モデリングアプリケーション１５０は、特定のビジネスニーズに合わせて機械学習モデルを調整する。例えば、モデリングアプリケーション１５０は、不正な金融取引を認識するための機械学習モデルを構築し、例えば、より重要な取引を強調する方法で予測される確率を変換することによって、ビジネスのニーズを反映するためにより重要な（例えば、高価値取引）不正取引を強調するようにモデルを調整する。モデリングアプリケーション１５０についてのより詳細は、図５と併せて記述される。

ネットワーク１３０は、機械学習サーバー１１０とデータソース１２０との間の通信経路を表す。一実施形態では、ネットワーク１３０は、インターネットであり、標準の通信技術および／またはプロトコルを使用する。したがって、ネットワーク１３０は、イーサネット、８０２．１１、ＷｉＭＡＸ（ｗｏｒｌｄｗｉｄｅｉｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒｍｉｃｒｏｗａｖｅａｃｃｅｓｓｓ）、３Ｇ、ロングタームエボリューション（ＬＴＥ）、デジタル加入者線（ＤＳＬ）、非同期転送モード（ＡＴＭ）、ＩｎｆｉｎｉＢａｎｄ、ＰＣＩＥｘｐｒｅｓｓＡｄｖａｎｃｅｄＳｗｉｔｃｈｉｎｇなどの技術を使用するリンクを含むことができる。同様に、ネットワーク１３０で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング（ＭＰＬＳ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザーデータグラムプロトコル（ＵＤＰ）、ｈｙｐｅｒｔｅｘｔｔｒａｎｓｐｏｒｔｐｒｏｔｏｃｏｌ（ＨＴＴＰ）、シンプルメール転送プロトコル（ＳＭＴＰ）、ファイル転送プロトコル（ＦＴＰ）などを含むことができる。

ネットワーク１３０を介して交換されるデータは、ハイパーテキストマークアップ言語（ＨＴＭＬ）、拡張マークアップ言語（ＸＭＬ）などを含む技術および／またはフォーマットを使用して表されることができる。さらに、すべてまたは一部のリンクは、セキュアソケットレイヤー（ＳＳＬ）、トランスポートレイヤーセキュリティ（ＴＬＳ）、仮想プライベートネットワーク（ＶＰＮ）、インターネットプロトコルセキュリティ（ＩＰｓｅｃ）などの従来の暗号化技術を使用して、暗号化されることができる。別の実施形態では、実在物は、上記の技術の代わりに、またはそれに加えて、カスタムおよび／または専用のデータ通信技術を使用することができる。

図２は、一実施形態による、特徴量エンジニアリングアプリケーション２００を示すブロック図である。特徴量エンジニアリングアプリケーション２００は、図１の特徴量エンジニアリングアプリケーション１４０の一実施形態である。特徴量エンジニアリングアプリケーション２００は、プリミティブ選択モジュール２１０、特徴生成モジュール２２０、モデル生成モジュール２３０、及びデータベース２４０を含む。特徴量エンジニアリングアプリケーション２００は、データソース１２０からデータセットを受信し、データセットに基づいて機械学習モデルを生成する。当業者は、他の実施形態がここで説明したものとは異なるおよび／または他のコンポーネントを有することができ、機能が異なる方法でコンポーネントの間に分散できることを認識するであろう。

プリミティブ選択モジュール２１０は、特徴量エンジニアリングアプリケーション２００によって維持されるプリミティブのプールから１つまたは複数のプリミティブを選択する。プリミティブのプールは、数百または数千のプリミティブなどの多数のプリミティブを含む。各プリミティブは、データに適用されると、データに対して計算を実行し、関連付けられた値を有する特徴を生成するアルゴリズムを備えている。プリミティブは、１つまたは複数の属性に関連付けられている。プリミティブの属性は、プリミティブの記述（例えば、データに適用されるときにプリミティブによって実行される計算を指定する自然言語記述）、入力タイプ（すなわち、入力データのタイプ）、戻り値タイプ（すなわち、出力データのタイプ）、プリミティブが以前の特徴量エンジニアリングプロセスにおいてどれほど有用であったかを示すプリミティブのメタデータ、または他の属性であり得る。

いくつかの実施形態では、プリミティブのプールは、多様な異なるタイプのプリミティブを含む。プリミティブの１つのタイプは、集約プリミティブである。集約プリミティブは、データセットに適用されると、データセット内の関連データを識別し、関連データに対して判定を実行し、判定を要約および／または集約する値を作成する。例えば、集約プリミティブ「カウント」は、データセット内の関連する行の値を識別し、値の各々が非ヌル（ｎｕｌｌ）値であるかどうかを判定し、データセットの行の非ヌル（ｎｕｌｌ）値の数のカウントを返す（出力する）。別のタイプのプリミティブは、変換プリミティブである。変換プリミティブは、データセットに適用されると、データセット内の１つまたは複数の既存の変数から新しい変数を作成する。例えば、変換プリミティブ「ウィークエンド」は、データセット内のタイムスタンプを評価し、タイムスタンプによって示される日付が週末に発生するかどうかを示すバイナリ値（例えば、真または偽）を返す。別の例示的な変換プリミティブは、タイムスタンプを評価し、指定された日付までの日数（例えば、特定の休日までの日数）を示すカウントを返す。

プリミティブ選択モジュール２１０は、図１のデータソース１２０の１つなどのデータソースから受信したデータセットに基づいてプリミティブのセットを選択する。いくつかの実施形態では、プリミティブ選択モジュール２１０は、プリミティブを選択するためにスキムビューアプローチ、サマリービューアプローチ、または両方のアプローチを使用する。スキムビューアプローチでは、プリミティブ選択モジュール２１０は、データセットの１つまたは複数の意味表現を識別する。データセットの意味表現は、データセットの特性を記述し、データセット内のデータに対して計算を実行せずに取得し得る。データセットの意味表現の例には、データセット内の１つまたは複数の特定の変数（列の名前など）の存在、列の数、行の数、データセットの入力タイプ、データセットのその他の属性、およびそれらのいくつかの組み合わせが含まれる。スキムビューアプローチを使用してプリミティブを選択するために、プリミティブ選択モジュール２１０は、データセットの識別された意味表現がプール内のプリミティブの属性と一致するかどうかを判定する。一致がある場合、プリミティブ選択モジュール２１０は、プリミティブを選択する。

スキムビューアプローチは、ルールベースの分析である。データセットの識別された意味表現がプリミティブの属性と一致するかどうかの決定は、特徴量エンジニアリングアプリケーション２００によって維持されるルールに基づいている。ルールは、例えば、データセットの意味表現とプリミティブの属性のキーワードの一致に基づいて、データセットのどの意味表現がプリミティブのどの属性と一致するかを指定する。一例では、データセットの意味表現は、列名「生年月日」であり、プリミティブ選択モジュール２１０は、その入力タイプがデータセットの意味表現に一致する「生年月日」であるプリミティブを選択する。別の例では、データセットの意味表現は、列名「タイムスタンプ」であり、プリミティブ選択モジュール２１０は、プリミティブがタイムスタンプを示すデータと共に使用するのに適切であることを示す属性を有するプリミティブを選択する。

サマリービューアプローチでは、プリミティブ選択モジュール２１０は、データセットから代表的なベクトルを生成する。代表的なベクトルは、データセット内のテーブルの数、テーブルあたりの列の数、各列の平均数、および各行の平均数を示すデータなど、データセットを記述するデータを符号化する。したがって、代表的なベクトルは、データセットのフィンガープリントとして機能する。フィンガープリントは、データセットのコンパクトな表現であり、ハッシュ関数、ラビンのフィンガープリントアルゴリズム、または他のタイプのフィンガープリント関数などの１つまたは複数のフィンガープリント関数をデータセットに適用することによって生成され得る。

プリミティブ選択モジュール２１０は、代表的なベクトルに基づいてデータセットのプリミティブを選択する。例えば、プリミティブ選択モジュール２１０は、データセットの代表的なベクトルを機械学習モデルに入力する。機械学習モデルは、データセットのためのプリミティブを出力する。機械学習モデルは、例えば、代表的なベクトルに基づいてデータセットのためのプリミティブを選択するようにプリミティブ選択モジュール２１０によってトレーニングされる。これは、複数のトレーニングデータセットの複数の代表的なベクトル、および複数のトレーニングデータセットのそれぞれのプリミティブのセットを含むトレーニングデータに基づいてトレーニングすることができる。複数のトレーニングデータセットのそれぞれについてのプリミティブのセットは、対応するトレーニングデータセットに基づいて予測を行うために有用であると判定された特徴を生成するために使用されている。いくつかの実施形態では、機械学習モデルは、継続的にトレーニングされる。例えば、プリミティブ選択モジュール２１０は、データセットの代表的なベクトルおよび選択されたプリミティブの少なくともいくつかに基づいて、機械学習モデルをさらにトレーニングすることができる。

プリミティブ選択モジュール２１０は、特徴量エンジニアリングアプリケーション２００によってサポートされるＧＵＩ内のユーザー（例えば、データ分析エンジニア）に表示するために選択されたプリミティブを提供することができる。ＧＵＩはまた、プリミティブのセットに他のプリミティブを追加する、新しいプリミティブを作成する、選択されたプリミティブ、他のタイプのアクション、またはそれらのいくつかの組み合わせを除去するなど、ユーザーがプリミティブを編集することを可能にし得る。

特徴生成モジュール２２０は、グループ内の各特徴のグループおよび重要度係数を生成する。いくつかの実施形態では、特徴生成モジュール２２０は、選択されたプリミティブおよびデータセットに基づいて複数の特徴を合成する。いくつかの実施形態では、特徴生成モジュール２２０は、選択されたプリミティブのそれぞれをデータセットの少なくとも一部に適用して、１つまたは複数の特徴を合成する。例えば、特徴生成モジュール２２０は、データセット内の「タイムスタンプ」という名前の列に「ウィークエンド」プリミティブを適用して、日付が週末に発生するかどうかを示す特徴を合成する。特徴生成モジュール２２０は、数百または数百万の特徴のような、データセットのための多数の特徴を合成することができる。

特徴生成モジュール２２０は、特徴を評価し、評価に基づいて特徴の一部を除去して、特徴のグループを取得する。いくつかの実施形態では、特徴生成モジュール２２０は、反復プロセスを通じて特徴を評価する。反復の各ラウンドにおいて、特徴生成モジュール２２０は、以前の反復によって除去されなかった特徴（「残りの特徴」とも称される）をデータセットの異なる部分に適用し、各特徴の有用性スコアを決定する。特徴生成モジュール２２０は、残りの特徴から有用性スコアが最も低い一部の特徴を除去する。いくつかの実施形態では、特徴生成モジュール２２０は、ランダムフォレストを使用して特徴の有用性スコアを決定する。

反復が行われ、特徴のグループが取得された後、特徴生成モジュール２２０は、グループ内の各特徴の重要度係数を決定する。特徴の重要度係数は、特徴がターゲット変数を予測するためにどれほど重要であるかを示す。いくつかの実施形態では、特徴生成モジュール２２０は、ランダムフォレスト、例えば、データセットの少なくとも一部に基づいて構築されたフォレストを使用することによって重要度係数を決定する。いくつかの実施形態では、特徴生成モジュール２２０は、特徴およびデータセットの異なる部分を機械学習モデルに入力することによって特徴の重要度スコアを調整する。機械学習モデルは、特徴の第２の重要度スコアを出力する。特徴生成モジュール２２０は、重要度係数を第２の重要度スコアと比較して、重要度係数を調整するかどうかを決定する。例えば、特徴生成モジュール２２０は、重要度係数を重要度係数と第２の重要度係数の平均に変更することができる。

次に、特徴生成モジュール２２０は、特徴のグループおよびそれらの重要度係数をモデリングアプリケーション、例えば、モデリングアプリケーション１５０に送信して、機械学習モデルをトレーニングする。

いくつかの実施形態では、特徴生成モジュール２２０は、インクリメンタルアプローチに基づいて追加の特徴を生成し得る。例えば、特徴生成モジュール２２０は、例えば特徴のグループが生成され、それらの重要度係数が決定された後に、プリミティブ選択モジュール２１０を通じてユーザーによって追加された新しいプリミティブを受信する。特徴生成モジュール２２０は、追加の特徴を生成し、追加の特徴を評価し、および／または生成および評価された特徴のグループを変更することなく、新しいプリミティブに基づいて追加の特徴の重要度係数を決定する。

メタデータ生成モジュール２３０は、グループ内の特徴を合成するために使用されるプリミティブに関連付けられたメタデータを生成する。プリミティブのメタデータは、プリミティブがデータセットにとってどれほど役立つかを示す。メタデータ生成モジュール２３０は、有用性スコアおよび／またはプリミティブから生成された特徴の重要度係数に基づいて、プリミティブのメタデータを生成し得る。メタデータは、他のデータセットおよび／または異なる予測のためのプリミティブを選択するために、後続の特徴量エンジニアリングプロセスにおいてプリミティブ選択モジュール２１０によって使用され得る。メタデータ生成モジュール２３０は、グループ内の特徴を合成するために使用されたプリミティブの代表的なベクトルを検索し、代表的なベクトルおよびプリミティブを、代表的なベクトルに基づいてプリミティブを選択するために使用される機械学習モデルにフィードバックすることができ、機械学習モデルをさらにトレーニングする。

いくつかの実施形態では、メタデータ生成モジュール２３０は、グループ内の特徴の自然言語記述を生成する。特徴の自然言語記述は、特徴に含まれるアルゴリズム、特徴をデータに適用する結果、特徴の機能など、特徴の属性を記述する情報を含む。

データベース２４０は、特徴量エンジニアリングアプリケーション２００によって受信され、使用され、生成されたデータなど、特徴量エンジニアリングアプリケーション２００に関連付けられたデータを格納する。例えば、データベース２４０は、データソース、プリミティブ、特徴、特徴の重要度係数、特徴の有用性スコアを決定するために使用されるランダムフォレスト、プリミティブを選択し、特徴の重要度係数を決定するための機械学習モデル、メタデータ生成モジュール２３０によって生成されるメタデータなどから受信されるデータセットを格納する。

図３は、一実施形態による、特徴生成モジュール３００を示すブロック図である。特徴生成モジュール３００は、図２の特徴生成モジュール２２０の一実施形態である。それは、機械学習モデルをトレーニングするためのデータセットに基づいて特徴を生成する。特徴生成モジュール３００は、合成モジュール３１０、評価モジュール３２０、ランキングモジュール３３０、および完成化モジュール３４０を含む。当業者は、他の実施形態がここで記述したものとは異なるおよび／または他のコンポーネントを有することができ、機能が異なる方法でコンポーネントの間に分散できることを認識するであろう。

合成モジュール３１０は、データセットおよびデータセットのために選択されたプリミティブに基づいて、複数の特徴を合成する。各プリミティブについて、合成モジュール３１０は、データセットの一部、例えば、データセットの１つまたは複数の列を識別する。例えば、生年月日の入力タイプを有するプリミティブの場合、合成モジュール３１０は、データセット内の生年月日列のデータを識別する。合成モジュール３１０は、識別された列にプリミティブを適用して、列の各行の特徴を生成する。合成モジュール３１０は、数百または数百万などのデータセットのための多数の特徴を生成することができる。

評価モジュール３２０は、合成された特徴の有用性スコアを決定する。特徴の有用性スコアは、データセットに基づいて行われた予測に対して特徴がどの程度有用であるかを示す。いくつかの実施形態では、評価モジュール３２０は、データセットの異なる部分を特徴に反復的に適用して、特徴の有用性を評価する。例えば、第１の反復では、評価モジュール３２０は、データセットの所定の割合（２５％など）を特徴に適用して、第１のランダムフォレストを構築する。第１のランダムフォレストには、多数の決定木が含まれる。各決定木は、複数のノードを含む。すべてのノードは、特徴に対応し、特徴の値に基づいてノードを介してツリーを転送する方法を説明する条件を含む（例えば、週末に日付が発生した場合は、１つの分岐を取り、そうでない場合は、別の分岐を取る）。各ノードの特徴は、情報利得またはジニ不純度低減に基づいて決定される。情報利得またはジニ不純度の低減を最大化する特徴が、分割特徴として選択される。評価モジュール３２０は、決定木にわたる特徴による情報利得またはジニ不純度の低減のいずれかに基づいて、特徴の個々の有用性スコアを決定する。特徴の個々の有用性スコアは、１つの決定木に固有です。ランダムフォレスト内の決定木のそれぞれについて特徴の個々の有用性スコアを決定した後、評価モジュール３２０は、特徴の個々の有用性スコアを組み合わせることによって特徴の第１の有用性スコアを決定する。一例では、特徴の第１の有用性スコアは、特徴の個々の有用性スコアの平均である。評価モジュール３２０は、特徴の８０％が残るように、最も低い第１の有用性スコアを有する特徴の２０％を除去する。これらの特徴は、第１の残りの特徴と呼ばれる。

第２の反復において、評価モジュール３２０は、第１の残りの特徴をデータセットの異なる部分に適用する。データセットの異なる部分は、第１の反復で使用されるデータセットの部分とは異なるデータセットの２５％であり得るか、または第１の反復で使用されるデータセットの部分を含むデータセットの５０％であり得る。評価モジュール３２０は、データセットの異なる部分を使用して第２のランダムフォレストを構築し、第２のランダムフォレストを使用することによって、残りの特徴のそれぞれについて第２の有用性スコアを決定する。評価モジュール３２０は、第１の残りの特徴の２０％および第１の残りの特徴の残りを除去する（すなわち、第１の残りの特徴の８０％が第２の残りの特徴を形成する）。

同様に、後続の反復ごとに、評価モジュール３２０は、前のラウンドからの残りの特徴をデータセットの異なる部分に適用し、前のラウンドからの残りの特徴の有用性スコアを決定し、残りの特徴のいくつかを除去して、より小さな特徴のグループを取得する。

評価モジュール３２０は、条件が満たされていると判定するまで繰り返しプロセスを継続することができる。条件は、閾値数の特徴が残っていること、残りの特徴の最低有用性スコアが閾値を上回っていること、データセット全体が特徴に適用されていること、閾値数のラウンドが反復、他の条件、またはそれらのいくつかの組み合わせで完了していることであり得る。最後のラウンドの残りの特徴、すなわち、評価モジュール３２０によって除去されない特徴は、機械学習モデルをトレーニングするために選択される。

ランキングモジュール３３０は、選択された特徴をランク付けし、選択された特徴ごとに重要度スコアを決定する。いくつかの実施形態では、ランキングモジュール３３０は、選択された特徴およびデータセットに基づいてランダムフォレストを構築する。ランキングモジュール３３０は、ランダムフォレスト内の各決定木に基づいて選択された特徴の個々のランキングスコアを決定し、選択された特徴のランキングスコアとして個々のランキングスコアの平均を取得する。ランキングモジュール３３０は、それらのランキングスコアに基づいて、選択された特徴の重要度係数を決定する。例えば、ランキングモジュール３３０は、それらのランキングスコアに基づいて選択された特徴をランク付けし、最高ランクの選択された特徴の重要度スコアが１であると決定する。次いで、ランキングモジュール３３０は、選択された特徴の残りのそれぞれのランキングスコアと最高ランクの選択された特徴のランキングスコアとの比を、対応する選択された特徴の重要度係数として決定する。

完成化モジュール３４０は、選択された特徴を完成化する。いくつかの実施形態では、完成化モジュール３４０は、選択された特徴を再ランク付けして、選択された特徴のそれぞれについて第２のランク付けスコアを決定する。特徴の第２のランキングスコアがその初期ランキングスコアと異なるという判定に応答して、完成化モジュール３４０は、グループから特徴を除去し、特徴の重要度の不確実性を示す特徴のメタデータを生成し、矛盾および不確実性をエンドユーザーに警告することができる。

図４は、一実施形態による、機械学習モデルの生成する方法４００を示すフローチャートである。いくつかの実施形態では、方法は、特徴量エンジニアリングアプリケーション１４０によって実行されるが、方法における動作の一部またはすべては、他の実施形態では、他のエンティティによって実行され得る。いくつかの実施形態では、フローチャートの動作は、異なる順序で実行され、異なるおよび／または追加のステップを含む。

特徴量エンジニアリングアプリケーション１４０は、データソース、例えば、データソース１２０のうちの１つからデータセットを受信する４１０。

特徴量エンジニアリングアプリケーション１４０は、受信したデータセットに基づいてプリミティブのプールからプリミティブを選択する４２０。各々の選択されたプリミティブは、１つまた複数の特徴を合成するためにデータセットの少なくとも一部に適用されるように構成される。いくつかの実施形態では、特徴量エンジニアリングアプリケーション１４０は、データセットの意味表現を生成し、データセットの意味表現に一致する属性に関連付けられたプリミティブを選択することによって、プリミティブを選択する。追加または代替として、特徴量エンジニアリングアプリケーション１４０は、データセットの代表ベクトルを生成し、代表ベクトルを機械学習モデルに入力する。機械学習モデルは、ベクトルに基づいて選択されたプリミティブを出力する。

特徴量エンジニアリングアプリケーション１４０は、選択されたプリミティブおよび受信されたデータセットに基づいて複数の特徴を合成する４３０。特徴量エンジニアリングアプリケーション１４０は、選択されたプリミティブのそれぞれをデータセットの関連部分に適用して、特徴を合成する。例えば、選択されたプリミティブごとに、特徴量エンジニアリングアプリケーション１４０は、データセット内の１つまたは複数の変数を識別し、プリミティブを変数に適用して特徴を生成する。

特徴量エンジニアリングアプリケーション１４０は、複数の特徴を繰り返し評価４４０して、複数の特徴から一部の特徴を除去して、特徴のサブセットを取得する。各反復において、特徴量エンジニアリングアプリケーション１４０は、データセットの異なる部分を評価された特徴に適用することによって複数の特徴のうちの少なくとも一部の特徴の有用性を評価し、評価された特徴の有用性に基づいて評価された特徴のいくつかを除去する。

特徴量エンジニアリングアプリケーション１４０は、特徴のサブセットの各特徴の重要度係数を決定する４５０。いくつかの実施形態では、特徴量エンジニアリングアプリケーション１４０は、特徴のサブセットおよびデータセットの少なくとも一部に基づいてランダムフォレストを構築し、特徴のサブセットの重要度係数を決定する。

特徴量エンジニアリングアプリケーション１４０は、特徴のサブセットおよび特徴のサブセットの各特徴の重要度係数に基づいて機械学習モデルを生成する４６０。機械学習モデルは、新しいデータに基づいて予測を行うために使用されるように構成される。

図５は、一実施形態による、機械学習モデルをトレーニングし、トレーニングされたモデルを使用して予測を行う方法５００を示すフローチャートである。いくつかの実施形態では、方法は、特徴量エンジニアリングアプリケーション１４０によって実行されるが、方法における動作の一部またはすべては、他の実施形態では、他のエンティティによって実行され得る。いくつかの実施形態では、フローチャートの動作は、異なる順序で実行され、異なるおよび／または追加のステップを含む。

モデリングアプリケーション１５０は、特徴および特徴の重要度係数に基づいてモデルをトレーニングする５１０。いくつかの実施形態では、特徴および重要度係数は、特徴量エンジニアリングアプリケーション１４０によって、例えば、上述の方法４００を使用することによって生成される。モデリングアプリケーション１５０は、異なる実施形態において異なる機械学習技術を使用し得る。機械学習技術の例としては、線形サポートベクトルマシン（線形ＳＶＭ）、他のアルゴリズム（例えば、ＡｄａＢｏｏｓｔ）のブースティング、ニューラルネットワーク、ロジスティック回帰、ナイーブベイズ、メモリベースの学習、ランダムフォレスト、バッグ木、決定木、ブースト木、またはブーストスタンプなどを含む。

モデリングアプリケーション１５０は、企業に関連付けられたデータソース（例えば、データソース１２０）からデータセットを受信する５２０。企業は、製造業、販売業、金融業、銀行業などの様々な産業の１つまたは複数に属することができる。いくつかの実施形態では、モデリングアプリケーション１５０は、特定の産業のニーズに合わせてトレーニングされたモデルを調整する。例えば、トレーニングされたモデルは、不正な金融取引を認識することであり、モデリングアプリケーション１５０は、例えば、より重要な取引を強調する方法で予測された確率を変換することによって、企業のニーズを反映するためにより重要である不正な取引（例えば、高価値取引）を強調するようにトレーニングされたモデルを調整する。

モデリングアプリケーション１５０は、受信したデータセットから特徴の値を取得する５３０。いくつかの実施形態では、モデリングアプリケーション１５０は、例えば、特徴がデータセットに含まれる変数である実施形態では、データセットから特徴の値を検索する。いくつかの実施形態では、モデリングアプリケーション１５０は、特徴を合成するために使用されたプリミティブをデータセットに適用することによって、特徴の値を取得する。

モデリングアプリケーション１５０は、トレーニングされたモデルに特徴の値を入力する５４０。トレーニングされたモデルは、予測を出力する。予測は、顧客が一定期間内に取引を行うかどうか、取引が不正であるかどうか、ユーザーがコンピュータベースの相互作用を実行するかどうかなどの予測であり得る。

図６は、一実施形態による、図１の機械学習サーバー１１０として使用するための典型的なコンピュータシステム６００の機能図を示すハイレベルブロック図である。

例示されるコンピュータシステムは、チップセット６０４に結合された少なくとも１つのプロセッサ６０２を含む。プロセッサ６０２は、同じダイ上に多様なプロセッサコアを含むことができる。チップセット６０４は、メモリコントローラーハブ６２０および入力／出力（Ｉ／Ｏ）コントローラーハブ６２２を含む。メモリ６０６およびグラフィックアダプター６１２は、メモリコントローラーハブ６２０に結合されて、ディスプレイ６１８は、グラフィックアダプター６１２に結合される。ストレージデバイス６０８、キーボード６１０、ポインティングデバイス６１４、およびネットワークアダプター６１６は、Ｉ／Ｏコントローラーハブ６２２に結合され得る。いくつかの別の実施形態では、コンピュータシステム６００は、追加のコンポーネント、より少ないコンポーネント、または異なるコンポーネントを有してもよく、コンポーネントは、異なる結合であってもよい。例えば、コンピュータシステム６００の実施形態は、ディスプレイおよび／またはキーボードを欠く場合がある。加えて、コンピュータシステム６００は、いくつかの実施形態では、ラック搭載ブレードサーバーとして、またはクラウドサーバーインスタンスとしてインスタンス化され得る。

メモリ６０６は、プロセッサ６０２によって使用される命令およびデータを保持する。いくつかの実施形態では、メモリ６０６は、ランダムアクセスメモリである。ストレージデバイス６０８は、非一時的なコンピュータ可読記憶媒体である。ストレージデバイス６０８は、ＨＤＤ、ＳＳＤ、または他のタイプの非一時的なコンピュータ可読記憶媒体とすることができる。機械学習サーバー１１０によって処理および分析されたデータは、メモリ６０６および／またはストレージデバイス６０８に格納され得る。

ポインティングデバイス６１４は、マウス、トラックボール、または他のタイプのポインティングデバイスであり得、キーボード６１０と組み合わせて使用して、データをコンピュータシステム６００に入力する。グラフィックアダプター６１２は、画像および他の情報をディスプレイ６１８に表示する。ある実施形態において、ディスプレイ６１８は、ユーザー入力および選択を受信するためのタッチスクリーン機能を含む。ネットワークアダプター６１６は、コンピュータシステム６００をネットワーク１６０に結合する。

コンピュータシステム６００は、本明細書で説明される機能を提供するためのコンピュータモジュールを実行するように適合されている。本明細書で使用される「モジュール」という用語は、特定の機能を提供するためのコンピュータプログラム命令およびその他のロジックを指す。モジュールは、ハードウェア、ファームウェア、および／またはソフトウェアで実装されることができる。モジュールは、１つまたは複数のプロセスを含むことができ、および／またはプロセスの一部のみによって提供されることができる。モジュールは、典型的にストレージデバイス６０８に格納され、メモリ６０６にロードされ、プロセッサ６０２によって実行される。

コンポーネントの特定の命名、用語の大文字化、属性、データ構造、またはその他のプログラミングまたは構造上の側面は、必須または重要ではなく、説明されている実施形態を実装するメカニズムは、異なる名前、フォーマット、またはプロトコルを有してもよい。さらに、システムは、説明したようにハードウェアとソフトウェアの組み合わせを介して、または完全にハードウェア要素で実装され得る。また、本明細書で記述される様々なシステムコンポーネント間の機能の特定の分割は、単なる例示であり、必須ではない。単一のシステムコンポーネントによって実行される機能は、代わりに多様なコンポーネントによって実行される場合があり、多様なコンポーネントによって実行される機能は、代わりに単一のコンポーネントによって実行される場合がある。

上記の説明のいくつかの部分は、情報の動作のアルゴリズムおよび記号表現に関する特徴を示している。これらのアルゴリズムの記述および表現は、データ処理技術の当業者が自分の作業の内容を他の当業者に最も効果的に伝えるために使用する手段である。これらの動作は、機能的または論理的に説明されているが、コンピュータプログラムによって実装されると理解される。さらに、一般性を失うことなく、これらの動作の配置をモジュールまたは機能名で参照すると便利な場合もある。

上記の説明から明らかなように特に明記しない限り、説明全体を通して、「処理する」または「コンピューティングする」または「計算する」または「決定する」または「表示する」などの用語を利用する説明は、コンピュータシステムのメモリまたはレジスタ、またはその他の情報ストレージ、伝送または表示デバイス内の物理（電子）量として表されるデータを動作および変換する、コンピュータシステムまたは同様の電子コンピューティングデバイスのアクションとプロセスと関連する。

本明細書で説明される特定の実施形態は、アルゴリズムの形式で説明される処理ステップおよび命令を含む。実施形態の処理ステップおよび命令は、ソフトウェア、ファームウェア、またはハードウェアで実施でき、ソフトウェアで実施した場合、ダウンロードしてリアルタイムネットワークオペレーティングシステムで使用される異なるプラットフォームに常駐し、そこから動作できることに留意されたい。

最後に、明細書で使用される文言は、主に読みやすさと説明目的のために選択されたものであり、本発明の主題を描写または制限するために選択されたものではないことに留意されたい。したがって、実施形態の開示は、例示的であることを意図しているが、限定を意図したものではない。

データソース１２０は、電子データを機械学習サーバー１１０に提供する。データソース１２０は、ハードディスクドライブ（ＨＤＤ）またはソリッドステートドライブ（ＳＳＤ）などのストレージデバイス、複数のストレージデバイスへのアクセスを管理および提供するコンピュータ、ストレージエリアネットワーク（ＳＡＮ）、データベース、またはクラウドストレージシステムであり得る。データソース１２０はまた、別のソースからデータを取り出すことができるコンピュータシステムであってもよい。データソース１２０は、機械学習サーバー１１０から遠隔であってもよく、ネットワーク１３０を介してデータを提供してもよい。さらに、データソース１２０の一部またはすべては、データ分析システムに直接に結合され、ネットワーク１３０を介してデータを渡すことなく、データを提供してもよい。

データソース１２０によって提供されるデータは、データレコード（例えば、行）に編成することができる。各データレコードは、１つまたは複数の値が含まれる。例えば、データソース１２０によって提供されるデータレコードは、一連のコンマ区切りされた値を含む場合がある。データは、機械学習サーバー１１０を使用する企業に関連する情報を記述する。例えば、データソース１２０からのデータは、ウェブサイト上でアクセス可能なコンテンツおよび／またはアプリケーションとのコンピュータベースの相互作用（例えば、クリック追跡データ）を記述することができる。別の例として、データソース１２０からのデータは、オンラインおよび／または店舗での顧客取引を記述することができる。企業は、製造業、販売業、金融業、銀行業などの様々な産業の１つまたは複数に属することができる。

図２は、一実施形態による、特徴量エンジニアリングアプリケーション２００を示すブロック図である。特徴量エンジニアリングアプリケーション２００は、図１の特徴量エンジニアリングアプリケーション１４０の一実施形態である。特徴量エンジニアリングアプリケーション２００は、プリミティブ選択モジュール２１０、特徴生成モジュール２２０、メタデータ生成モジュール２３０、及びデータベース２４０を含む。特徴量エンジニアリングアプリケーション２００は、データソース１２０からデータセットを受信し、データセットに基づいて機械学習モデルを生成する。当業者は、他の実施形態がここで説明したものとは異なるおよび／または他のコンポーネントを有することができ、機能が異なる方法でコンポーネントの間に分散できることを認識するであろう。

Claims

コンピュータ実装方法であって、
データソースからデータセットを受信するステップと、
前記受信されたデータセットに基づいて複数のプリミティブのプールからプリミティブを選択するステップであって、前記選択されたプリミティブのそれぞれは、１つまたは複数の特徴を合成するために前記データセットの少なくとも一部に適用されるように構成されている、選択するステップと、
前記選択されたプリミティブを前記受信されたデータセットに適用することによって、複数の特徴を合成するステップと、
前記複数の特徴を反復的に評価し、前記複数の特徴から一部の特徴を除去し、特徴のサブセットを取得するステップであって、各反復は、
前記データセットの異なる部分を前記評価された特徴に適用することによって、前記複数の特徴のうちの少なくとも一部の特徴の有用性を評価するステップと、
前記評価された特徴の有用性に基づいて前記評価された特徴の一部を除去し、前記特徴のサブセットを生成するステップとを含む、評価するステップと、
前記特徴のサブセットのそれぞれの特徴の重要度係数を決定するステップと、
前記特徴のサブセットおよび前記特徴のサブセットのそれぞれの特徴の前記重要度係数に基づいて機械学習モデルを生成するステップであって、前記機械学習モデルは、新しいデータに基づいて予測を行うために使用されるように構成される、生成するステップを備えた方法。
前記受信されたデータセットに基づいて前記複数のプリミティブから前記プリミティブを選択するステップは、
前記受信されたデータセットの意味表現を生成するステップと、
前記受信されたデータセットの前記意味表現に一致する属性に関連付けられたプリミティブを選択するステップと
を含む請求項１に記載の方法。
前記受信されたデータセットに基づいて前記複数のプリミティブから前記プリミティブを選択するステップは、
前記受信されたデータセットから代表的なベクトルを生成するステップと、
前記代表的なベクトルを機械学習モデルに入力するステップであって、前記機械学習モデルが、前記代表的なベクトルに基づいて前記選択されたプリミティブを出力する、ステップと
を含む請求項１に記載の方法。
前記複数の特徴を反復的に評価し、前記複数の特徴から一部の特徴を除去し、前記特徴のサブセットを取得するステップは、
前記複数の特徴を前記データセットの第１の部分に適用し、前記複数の特徴のそれぞれの第１の有用性スコアを決定するステップと、
前記複数の特徴のそれぞれの前記第１の有用性スコアに基づいて前記複数の特徴の一部を除去し、特徴の予備サブセットを取得するステップと、
前記特徴の予備サブセットをデータセットの第２の部分に適用し、前記特徴の予備サブセットのそれぞれの第２の有用性スコアを決定するステップと、
前記特徴の予備サブセットのそれぞれの第２の有用性スコアに基づいて、前記特徴の予備サブセットから前記特徴の予備サブセットの一部を除去するステップと
を含む請求項１に記載の方法。
前記特徴のサブセットのそれぞれについての前記重要度係数を決定するステップは、
前記特徴のサブセットおよび前記データセットの第１の部分を機械学習モデルに入力することによって前記特徴のサブセットをランク付けするステップであって、前記機械学習モデルは、前記特徴のサブセットのそれぞれについて第１のランキングスコアを出力する、ステップと、
それらのランキングスコアに基づいて、前記特徴のサブセットの前記重要度係数を決定するステップと
を含む請求項１に記載の方法。
前記特徴のサブセットおよび前記データセットの第２の部分を機械学習モデルに入力することによって前記特徴のサブセットをランク付けするステップであって、前記機械学習モデルは、前記特徴のサブセットのそれぞれについて第２のランキングスコアを出力する、ステップと、
前記特徴の前記ランキングスコアに基づいて、前記特徴のサブセットのそれぞれについて第２の重要度係数を決定するステップと、
前記特徴の第２の重要度スコアに基づいて、前記特徴のサブセットのそれぞれの前記重要度スコアを調整するステップと
をさらに含む請求項５に記載の方法。
前記プリミティブのサブセットおよび前記受信されたデータセットに基づいて前記複数の特徴を合成するステップは、
前記サブセット内のそれぞれのプリミティブについて、
前記データセット内の１つまたは複数の変数を識別するステップと、
前記プリミティブを前記１つまたは複数の変数に適用して、前記複数の特徴のうちの１つまたは複数の特徴を生成するステップと
を含む請求項１に記載の方法。
システムであって、
コンピュータプログラム命令を実行するためのコンピュータプロセッサと、
前記コンピュータプロセッサが動作を実行するために実行可能なコンピュータプログラム命令を格納する非一時的なコンピュータ可読メモリと、
を備え、前記動作は、
データソースからデータセットを受信することと、
前記受信されたデータセットに基づいて複数のプリミティブのプールからプリミティブを選択することであって、前記選択されたプリミティブのそれぞれは、１つまたは複数の特徴を合成するために前記データセットの少なくとも一部に適用されるように構成されている、ことと、
前記選択されたプリミティブを前記受信されたデータセットに適用することによって、複数の特徴を合成することと、
前記複数の特徴を反復的に評価し、前記複数の特徴から一部の特徴を除去し、特徴のサブセットを取得することであって、各反復は、
前記データセットの異なる部分を前記評価された特徴に適用することによって、前記複数の特徴のうちの少なくとも一部の特徴の有用性を評価することと、
前記評価された特徴の有用性に基づいて前記評価された特徴の一部を除去し、前記特徴のサブセットを生成することとを含む、ことと、
前記特徴のサブセットのそれぞれの特徴の重要度係数を決定することと、
前記特徴のサブセットおよび前記特徴のサブセットのそれぞれの特徴の前記重要度係数に基づいて機械学習モデルを生成することであって、前記機械学習モデルは、新しいデータに基づいて予測を行うために使用されるように構成されること
を備えたシステム。
前記受信されたデータセットに基づいて前記複数のプリミティブから前記プリミティブを選択することは、
前記受信されたデータセットの意味表現を生成することと、
前記受信されたデータセットの前記意味表現に一致する属性に関連付けられたプリミティブを選択することと
を含む請求項８に記載のシステム。
前記受信されたデータセットに基づいて前記複数のプリミティブから前記プリミティブのサブセットを選択することは、
前記受信されたデータセットから代表的なベクトルを生成することと、
前記代表的なベクトルを機械学習モデルに入力することであって、前記機械学習モデルは、前記代表的なベクトルに基づいて前記選択されたプリミティブを出力する、ことと
を含む請求項８に記載のシステム。
前記複数の特徴を反復的に評価し、前記複数の特徴から一部の特徴を除去し、前記特徴のサブセットを取得することは、
前記複数の特徴を前記データセットの第１の部分に適用し、前記複数の特徴のそれぞれの第１の有用性スコアを決定することと、
前記複数の特徴のそれぞれの前記第１の有用性スコアに基づいて前記複数の特徴の一部を除去し、特徴の予備サブセットを取得することと、
前記特徴の予備サブセットをデータセットの第２の部分に適用し、前記特徴の予備サブセットのそれぞれの第２の有用性スコアを決定することと、
前記特徴の予備サブセットのそれぞれの第２の有用性スコアに基づいて、前記特徴の予備サブセットから前記特徴の予備サブセットの一部を除去することと
を含む請求項８に記載のシステム。
前記特徴のサブセットのそれぞれについての前記重要度係数を決定することは、
前記特徴のサブセットおよび前記データセットの第１の部分を機械学習モデルに入力することによって前記特徴のサブセットをランク付けすることであって、前記機械学習モデルは、前記特徴のサブセットのそれぞれについて第１のランキングスコアを出力する、ことと、
それらのランキングスコアに基づいて、前記特徴のサブセットの前記重要度係数を決定することと
を含む請求項８に記載のシステム。
前記特徴のサブセットおよび前記データセットの第２の部分を機械学習モデルに入力することによって前記特徴のサブセットをランク付けすることであって、前記機械学習モデルは、前記特徴のサブセットのそれぞれについて第２のランキングスコアを出力する、ことと、
前記特徴の前記ランキングスコアに基づいて、前記特徴のサブセットのそれぞれについて第２の重要度係数を決定することと、
前記特徴の第２の重要度スコアに基づいて、前記特徴のサブセットのそれぞれの前記重要度スコアを調整することと
をさらに含む請求項１２に記載のシステム。
前記プリミティブのサブセットおよび前記受信されたデータセットに基づいて前記複数の特徴を合成することは、
前記サブセット内のそれぞれのプリミティブについて、
前記データセット内の１つまたは複数の変数を識別することと、
前記プリミティブを前記１つまたは複数の変数に適用して、前記複数の特徴のうちの１つまたは複数の特徴を生成することと
を含む請求項８に記載のシステム。
データ分析システムにおいてデータブロックを処理するための実行可能なコンピュータプログラム命令を格納する非一時的なコンピュータ可読メモリであって、前記命令は、
データソースからデータセットを受信することと、
前記受信されたデータセットに基づいて複数のプリミティブのプールからプリミティブを選択することであって、前記選択されたプリミティブのそれぞれは、１つまたは複数の特徴を合成するために前記データセットの少なくとも一部に適用されるように構成されている、ことと、
前記選択されたプリミティブを前記受信されたデータセットに適用することによって、複数の特徴を合成することと、
前記複数の特徴を反復的に評価し、前記複数の特徴から一部の特徴を除去し、特徴のサブセットを取得することであって、各反復は、
前記データセットの異なる部分を前記評価された特徴に適用することによって、前記複数の特徴のうちの少なくとも一部の特徴の有用性を評価することと、
前記評価された特徴の有用性に基づいて前記評価された特徴の一部を除去し、前記特徴のサブセットを生成することとを含む、ことと、
前記特徴のサブセットのそれぞれの特徴の重要度係数を決定することと、
前記特徴のサブセットおよび前記特徴のサブセットのそれぞれの特徴の前記重要度係数に基づいて機械学習モデルを生成することであって、前記機械学習モデルは、新しいデータに基づいて予測を行うために使用されるように構成されることと
を含む操作を実行するために実行可能である、非一時的なコンピュータ可読メモリ。
前記受信されたデータセットに基づいて前記複数のプリミティブから前記プリミティブを選択することは、
前記受信されたデータセットの意味表現を生成することと、
前記受信されたデータセットの前記意味表現に一致する属性に関連付けられたプリミティブを選択することと
を含む請求項１５に記載の非一時的なコンピュータ可読メモリ。
前記受信されたデータセットに基づいて前記複数のプリミティブから前記プリミティブを選択することは、
前記受信されたデータセットから代表的なベクトルを生成することと、
前記代表的なベクトルを機械学習モデルに入力することであって、前記機械学習モデルは、前記代表的なベクトルに基づいて前記選択されたプリミティブを出力する、ことと
を含む請求項１５に記載の非一時的なコンピュータ可読メモリ。
前記複数の特徴を反復的に評価し、前記複数の特徴から一部の特徴を除去し、前記特徴のサブセットを取得することは、
前記複数の特徴を前記データセットの第１の部分に適用し、前記複数の特徴のそれぞれの第１の有用性スコアを決定することと、
前記複数の特徴のそれぞれの前記第１の有用性スコアに基づいて前記複数の特徴の一部を除去し、特徴の予備サブセットを取得することと、
前記特徴の予備サブセットをデータセットの第２の部分に適用し、前記特徴の予備サブセットのそれぞれの第２の有用性スコアを決定することと、
前記特徴の予備サブセットのそれぞれの第２の有用性スコアに基づいて、前記特徴の予備サブセットから前記特徴の予備サブセットの一部を除去することを含む請求項１５に記載の非一時的なコンピュータ可読メモリ。
前記特徴のサブセットのそれぞれについての前記重要度係数を決定することは、
前記特徴のサブセットおよび前記データセットの第１の部分を機械学習モデルに入力することによって前記特徴のサブセットをランク付けすることであって、前記機械学習モデルは、前記特徴のサブセットのそれぞれについて第１のランキングスコアを出力する、ことと、
それらのランキングスコアに基づいて、前記特徴のサブセットの前記重要度係数を決定することと
を含む請求項１５に記載の非一時的なコンピュータ可読メモリ。
前記特徴のサブセットおよび前記データセットの第２の部分を機械学習モデルに入力することによって前記特徴のサブセットをランク付けすることであって、前記機械学習モデルは、前記特徴のサブセットのそれぞれについて第２のランキングスコアを出力する、ことと、
前記特徴の前記ランキングスコアに基づいて、前記特徴のサブセットのそれぞれについて第２の重要度係数を決定することと、
前記特徴の第２の重要度スコアに基づいて、前記特徴のサブセットのそれぞれの前記重要度スコアを調整することと
をさらに含む請求項１９に記載の非一時的なコンピュータ可読メモリ。