JP2022548654A

JP2022548654A - 機械学習モデルにおいて動的外れ値偏り低減を実装するように構成されるコンピュータベースシステム、コンピュータコンポーネント及びコンピュータオブジェクト

Info

Publication number: JP2022548654A
Application number: JP2022517214A
Authority: JP
Inventors: リチャードビー．ジョーンズ、
Original assignee: ハートフォードスチームボイラーインスペクションアンドインシュアランスカンパニー
Priority date: 2019-09-18
Filing date: 2020-09-18
Publication date: 2022-11-21
Anticipated expiration: 2040-09-18
Also published as: EP4214652A1; EP4022532A1; CN114556382A; KR20230070272A; GB2617045B; MX2023003217A; GB202305640D0; GB2603358A; GB2614849A; CA3154671A1; US20210110313A1; JP2024026276A; CA3195894A1; US11288602B2; JP7399269B2; KR20220066924A; DE112021004908T5; AU2021343372A1; BR112022005003A2; CN116569189A

Abstract

システム及び方法は、ユーザ活動のためのトレーニングデータを受信すること、偏り基準を受信すること、機械学習モデルのモデルパラメータのセットを決定することであって、（１）機械学習モデルをトレーニングデータに適用し、（２）モデル予測誤差を生成し、（３）モデル予測誤差に基づいて非外れ値目的変数を識別するためのデータ選択ベクトルを生成し、（４）データ選択ベクトルを利用して、非外れ値データセットを生成し、（５）非外れ値データセットに基づいて、更新されたモデルパラメータを決定し、（６）打ち切り実行終了基準が満たされるまでステップ（１）～（５）を繰り返すことを含むこと、外れ値分類器機械学習モデルの分類器モデルパラメータをトレーニングすること、外れ値分類器機械学習モデルを活動関連データに適用して、非外れ値活動関連データを決定すること、及び機械学習モデルを非外れ値活動関連データに適用して、ユーザ活動に関する将来の活動関連属性を予測することを行うためのプロセッサを含む。

Description

本開示は、一般に、機械学習モデルにおける偏り低減を実装するように構成される改良されたコンピュータベースシステム、コンピュータコンポーネント、及びコンピュータオブジェクトに関する。

（優先権の主張）
本出願は、２０１９年９月１８日に出願された“ＣＯＭＰＵＴＥＲ－ＢＡＳＥＤＳＹＳＴＥＭＳ，ＣＯＭＰＵＴＩＮＧＣＯＭＰＯＮＥＮＴＳＡＮＤＣＯＭＰＵＴＩＮＧＯＢＪＥＣＴＳＣＯＮＦＩＧＵＲＥＤＴＯＩＭＰＬＥＭＥＮＴＤＹＮＡＭＩＣＯＵＴＬＩＥＲＢＩＡＳＲＥＤＵＣＴＩＯＮＩＮＭＡＣＨＩＮＥＬＥＡＲＮＩＮＧＭＯＤＥＬＳ”という名称の米国仮出願第６２／９０２，０７４号に対する優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。

（著作権表示）
この特許文書の開示の一部は、著作権保護の対象となる資料を含んでいる。著作権所有者は、特許商標庁の特許ファイル又は記録に記載されているように、特許書類又は特許開示のいずれかによるファクシミリ複製に対して異論はないが、それ以外の場合は、全ての著作権を留保する。次の通知は、この文書の一部を構成する図面及び以下に記載されるソフトウェア及びデータに適用される。著作権、ＨａｒｔｆｏｒｄＳｔｅａｍＢｏｉｌｅｒＩｎｓｐｅｃｔｉｏｎａｎｄＩｎｓｕｒａｎｃｅＣｏｍｐａｎｙ，無断複写複製転載禁止

機械学習モデルは、サンプル／トレーニングデータから学習したパターン及び推論に基づいて予測又は決定を形成するための１つ以上のコンピュータ又は処理装置を含み得る。サンプル／トレーニングデータ選択における偏りは、機械学習モデルの予測と決定に反映され得る。

本開示の実施形態は、動的外れ値偏り低減機械学習モデルのための方法を含む。本方法は、少なくとも１つのプロセッサによって、少なくとも１つのユーザ活動に関する少なくとも１つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと、前記少なくとも１つのプロセッサによって、１つ以上の外れ値を決定するために使用される少なくとも１つの偏り基準を受信するステップと、前記少なくとも１つのプロセッサによって、機械学習モデルに関するモデルパラメータのセットを決定するステップであって、（１）前記少なくとも１つのプロセッサによって、初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値のセットを決定すること、（２）前記少なくとも１つのプロセッサによって、前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値と比較することによって、データ要素誤差の誤差セットを生成すること、（３）前記少なくとも１つのプロセッサによって、前記データ要素誤差の誤差セット及び前記少なくとも１つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成すること、（４）前記少なくとも１つのプロセッサによって、前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、（５）前記少なくとも１つのプロセッサによって、前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、及び、（６）前記少なくとも１つのプロセッサによって、少なくとも１つの打ち切り実行終了基準が満たされるまで、反復としてステップ（１）～（５）を繰り返すことにより、前記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータのセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成することを含むステップと、前記少なくとも１つのプロセッサによって、前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングするステップであって、少なくとも１つの外れ値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデルを取得するステップと、前記少なくとも１つのプロセッサによって、前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも１つのユーザ活動に関する活動関連データのデータセットに適用して、ｉ）前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及びｉｉ）前記活動関連データのデータセットにおいて非外れ値活動関連データのセットを決定するステップと、前記少なくとも１つのプロセッサによって、前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少なくとも１つのユーザ活動に関連する将来の活動関連属性を予測するステップとを含む。

本開示の実施形態は、動的外れ値偏り低減機械学習モデルのためのシステムを含む。本システムは、ソフトウェア命令が記憶された非一時的なコンピュータ可読記憶媒体と通信する少なくとも１つのプロセッサを備えており、前記ソフトウェア命令は、実行されると、少なくとも１つのプロセッサによって、少なくとも１つのユーザ活動に関する少なくとも１つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと、１つ以上の外れ値を決定するために使用される少なくとも１つの偏り基準を受信するステップと、機械学習モデルのモデルパラメータのセットを決定するステップであって、（１）初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値のセットを決定すること、（２）前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値と比較することによって、データ要素誤差の誤差セットを生成すること、（３）前記データ要素誤差の誤差セット及び前記少なくとも１つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成すること、（４）前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、（５）前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、（６）少なくとも１つの打ち切り実行終了基準が満たされるまで、反復としてステップ（１）～（５）を繰り返すことにより、前記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータのセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成することを含むステップと、前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングするステップであって、少なくとも１つの外れ値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデルを取得するステップと、前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも１つのユーザ活動に関する活動関連データのデータセットに適用して、ｉ）前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及びｉｉ）前記活動関連データのデータセットにおいて非外れ値活動関連データのセットを決定するステップと、前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少なくとも１つのユーザ活動に関連する将来の活動関連属性を予測するステップを実行させる。

本開示の実施形態のシステム及び方法は、前記少なくとも１つのプロセッサによって、前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、前記少なくとも１つのプロセッサによって、前記外れ値トレーニングデータセットを使用して、少なくとも１つの外れ値固有機械学習モデルの少なくとも１つの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップとをさらに含む。

本開示の実施形態のシステム及び方法は、前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データ値を予測するステップとをさらに含む。

本開示の実施形態のシステム及び方法は、前記少なくとも１つのプロセッサによって、前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、前記少なくとも１つのプロセッサによって、前記外れ値トレーニングデータセットを使用して、外れ値固有機械学習モデルの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記活動関連データ値を予測するステップとをさらに含む。

本開示の実施形態のシステム及び方法は、前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データのセットに関する前記活動関連データ値を予測するステップと、前記少なくとも１つのプロセッサによって、前記外れ値分類器機械学習モデルを利用して、前記活動関連データ値の外れ値活動関連データ値を識別するステップと、前記少なくとも１つのプロセッサによって、前記外れ値活動関連データ値を除去するステップとをさらに含む。

本開示の実施形態のシステム及び方法において、前記トレーニングデータセットは、コンクリート組成及びコンクリート硬化発現の関数としてのコンクリート圧縮強度の前記少なくとも１つの活動関連属性を含む。

本開示の実施形態のシステム及び方法において、前記トレーニングデータセットは、家庭環境条件及び照明条件の関数としてのエネルギ使用データの前記少なくとも１つの活動関連属性を含む。

本開示の実施形態のシステム及び方法は、前記少なくとも１つのプロセッサによって、少なくとも１つのデータ要素を有する予測を生成するためのＡＰＩ（アプリケーションプログラミングインターフェース）要求を受信するステップと、前記少なくとも１つのプロセッサによって、前記機械学習モデルの実行をスケジュールするために少なくとも１つのクラウドコンピュータリソースをインスタンス化するステップと、前記少なくとも１つのプロセッサによって、実行される前記スケジュールに従って、前記機械学習モデルを利用して、前記少なくとも１つのデータ要素に関する少なくとも１つの活動関連データ要素値を予測するステップと、前記少なくとも１つのプロセッサによって、前記少なくとも１つの活動関連データ要素値を前記ＡＰＩ要求に関連付けられるコンピュータ装置に戻すステップとをさらに含む。

本開示の実施形態のシステム及び方法において、前記トレーニングデータセットは、医療データセットの３次元患者画像の前記少なくとも１つの活動関連属性を含み、前記機械学習モデルは、前記医療データセットに基づいて２つ以上の物理ベースのレンダリングパラメータを含む前記活動関連データ値を予測するように構成される。

本開示の実施形態のシステム及び方法において、前記トレーニングデータセットは、電子機械コマンドに対してシミュレートされた制御結果の前記少なくとも１つの活動関連属性を含み、前記機械学習モデルは、前記電子機械に対する制御コマンドを含む前記活動関連データ値を予測するように構成される。

本開示の実施形態のシステム及び方法は、前記少なくとも１つのプロセッサによって、前記活動関連データのセットを活動関連データの複数のサブセットに分割するステップと、前記少なくとも１つのプロセッサによって、前記活動関連データの複数のサブセットのうちの活動関連データの各サブセットに対するアンサンブルモデルを決定するステップであって、前記機械学習モデルは、複数のモデルのアンサンブルを含み、各アンサンブルモデルは、前記複数のモデルのアンサンブルからのモデルのランダムな組み合わせを含むステップと、前記少なくとも１つのプロセッサによって、各アンサンブルモデルを利用して、個別にアンサンブル固有活動関連データ値を予測するステップと、前記少なくとも１つのプロセッサによって、前記アンサンブル固有活動関連データ値及び既知の値に基づいて、各アンサンブルモデルにおける誤差を決定するステップと、前記少なくとも１つのプロセッサによって、最小誤差に基づいて最高性能のアンサンブルモデルを選択するステップとをさらに含む。

本開示の様々な実施形態は、添付図面を参照してさらに説明され得る。同様の構造は、複数の図面を通して同じ番号によって参照される。図示された図面は必ずしも縮尺通りではなく、その代わりに一般的に本開示の原理を説明することに重点が置かれている。したがって、本明細書に開示される特定の構造的及び機能的詳細は、限定として解釈されるべきではなく、単に、当業者に１つ以上の例示的な実施形態を様々に使用することを教示するための代表的な基礎として解釈されるべきである。

本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、概略的なフローチャートを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、概略的なフローチャートを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。

本明細書には、添付の図面と併せて、本開示の様々な詳細な実施形態が開示されている。しかしながら、開示された実施形態は単なる例示であることを理解されたい。さらに、本開示の様々な実施形態に関連して与えられる例の各々は、例示であり、限定ではない。

本明細書を通して、以下の用語は、文脈により他の明示がない限り、本明細書に明示的に関連する意味を有する。本明細書で使用される「１つの実施形態において」及び「いくつかの実施形態において」という語句は、必ずしも（複数の）同じ実施形態を指すわけではないが、そうであってもよい。さらに、本明細書で使用される「他の実施形態において」及び「他のいくつかの実施形態において」という語句は、必ずしも異なる実施形態を指すわけではないが、そうであってもよい。したがって、以下に説明するように、様々な実施形態は、本開示の範囲又は精神から逸脱することなく、容易に組み合わせることができる。

さらに、「に基づく」という用語は排他的なものではなく、文脈が明確に指示しない限り、記載されていない追加の要因に基づき得る。さらに、本明細書全体を通して、不定冠詞（“ａ”、“ａｎ”）、及び前記（“ｔｈｅ”）の意味は複数の参照を含む。「において（“ｉｎ”）」の意味は、「の中で（“ｉｎ”）」及び「の上で（“ｏｎ”）」を含む。

本明細書に記載される様々な実施形態の少なくとも１つの態様／機能性は、リアルタイム及び／又は動的に実行され得ることが理解される。本明細書中で使用する場合、「リアルタイム」という用語は、別のイベント／アクションが発生したときに、瞬間的に又は略瞬間的に発生し得るイベント／アクションを指す。例えば、「リアルタイム処理」、「リアルタイム計算」、及び「リアルタイム実行」は全て、関連する物理的プロセス（例えば、ユーザがモバイル装置上のアプリケーションと相互作用すること）が発生する実際の時間中の計算の性能に関係し、計算の結果は物理的プロセスのガイドに使用することができる。

本明細書で使用される場合、「動的に」及び「自動的に」という用語、並びにそれらの論理的及び／又は言語的関連物及び／又は派生物は、所定のイベント及び／又はアクションが、いかなる人間の介入もなしにトリガされ及び／又は発生し得ることを意味する。いくつかの実施形態では、本開示によるイベント及び／又はアクションは、リアルタイムで及び／又は、ナノ秒、数ナノ秒、ミリ秒、数ミリ秒、秒、数秒、分、数分、毎時、数時間、毎日、数日、毎週、毎月等の少なくとも１つの既定の周期性に基づき得る。

いくつかの実施形態では、関連する装置を備えた例示的な新規な特別にプログラムされたコンピュータシステムは、分散ネットワーク環境で動作し、１つ以上の適切なデータ通信ネットワーク（例えば、インターネット、衛星等）を介して互いに通信し、限定されないが、ＩＰＸ／ＳＰＸ、Ｘ．２５、ＡＸ．２５、ＡｐｐｌｅＴａｌｋ（ＴＭ）、ＴＣＰ／ＩＰ（例えば、ＨＴＴＰ）、近距離無線通信（ＮＦＣ）、ＲＦＩＤ、狭帯域モノのインターネット（ＮＢＩＯＴ）、３Ｇ、４Ｇ、５Ｇ、ＧＳＭ（登録商標）、ＧＰＲＳ、ＷｉＦｉ、ＷｉＭａｘ、ＣＤＭＡ、衛星、ＺｉｇＢｅｅ（登録商標）、及び他の適切な通信モード等の１つ以上の適切なデータ通信プロトコル／モードを利用するように構成される。いくつかの実施形態では、ＮＦＣは、ＮＦＣ対応装置が「スワイプ」、「バンプ」、「タップ」、又は通信のために他のやり方で近接して移動される、短距離無線通信技術を表し得る。

本明細書に開示された材料は、ソフトウェア又はファームウェア、或いはそれらの組み合わせとして、或いは１つ以上のプロセッサによって読み取られかつ実行され得る機械可読媒体に記憶された命令として実装され得る。機械可読媒体は、機械（例えば、コンピュータ装置）によって読み取り可能な形式で情報を記憶又は送信するための任意の媒体及び／又は機構を含み得る。例えば、機械可読媒体は、読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリ装置、電気的、光学的、音響的又は他の形態の伝搬信号（例えば、搬送波、赤外線信号、デジタル信号等）、及びその他を含み得る。

本明細書で使用される場合、「コンピュータエンジン」及び「エンジン」という用語は、他のソフトウェア及び／又はハードウェアコンポーネント（例えば、ライブラリ、ソフトウェア開発キット（ＳＤＫ）、オブジェクト等）を管理／制御するように設計／プログラム／構成された少なくとも１つのソフトウェアコンポーネント及び／又は少なくとも１つのソフトウェアコンポーネントと少なくとも１つのハードウェアコンポーネントとの組み合わせを示す。

ハードウェア要素の例としては、プロセッサ、マイクロプロセッサ、回路、回路素子（例えば、トランジスタ、抵抗器、コンデンサ、インダクタ等）、集積回路、特定用途向け集積回路（ＡＳＩＣ）、プログラマブル論理装置（ＰＬＤ）、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、論理ゲート、レジスタ、半導体装置、チップ、マイクロチップ、チップセット等が挙げられる。いくつかの実施形態では、１つ以上のプロセッサは、複合命令セットコンピュータ（ＣＩＳＣ）又は縮小命令セットコンピュータ（ＲＩＳＣ）プロセッサ、ｘ８６命令セットと互換性のあるプロセッサ、マルチコア、又はその他のマイクロプロセッサ又は中央処理装置（ＣＰＵ）として実装することができる。様々な実装では、１つ以上のプロセッサは、（複数の）デュアルコアプロセッサ、（複数の）デュアルコアモバイルプロセッサ等であってもよい。

ソフトウェアの例には、ソフトウェアコンポーネント、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、マシンプログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、関数、メソッド、プロシージャ、ソフトウェアインターフェース、アプリケーションプログラムインターフェース（ＡＰＩ）、命令セット、コンピュータコード、コンピュータコード、コードセグメント、コンピュータコードセグメント、単語、値、記号、又はそれらの任意の組み合わせが含まれ得る。実施形態がハードウェア要素及び／又はソフトウェア要素を使用して実装されるかどうかを判断することは、所望の計算速度、電力レベル、耐熱性、処理サイクルバジェット、入力データ速度、出力データ速度、メモリリソース、データバス速度、及び他の設計上又は性能上の制約等の任意の数の要因に従って変化し得る。

少なくとも１つの実施形態の１つ以上の態様は、プロセッサ内の様々なロジックを表す機械可読媒体に記憶された代表的な命令によって実装されてもよく、これは、機械によって読み取られると、本明細書に記載の技術を実行するためのロジックを機械に作成させる。「ＩＰコア」として知られるこのような表現は、ロジック又はプロセッサを作成する製造機械にロードされるように、有形の機械可読媒体上に記憶され、様々な顧客又は製造施設に供給され得る。留意点として、本明細書に記載される様々な実施形態は、当然のことながら、任意の適切なハードウェア及び／又はコンピュータソフトウェア言語（例えば、Ｃ＋＋、Ｏｂｊｅｃｔｉｖｅ－Ｃ、Ｓｗｉｆｔ、Ｊａｖａ、ＪａｖａＳｃｒｉｐｔ、Ｐｙｔｈｏｎ、Ｐｅｒｌ、ＱＴ等）を使用して実装されてもよい。

いくつかの実施形態では、本開示の例示的な新規なコンピュータベース装置の１つ以上は、少なくとも１つのパーソナルコンピュータ（ＰＣ）、ラップトップコンピュータ、ウルトララップトップコンピュータ、タブレット、タッチパッド、ポータブルコンピュータ、ハンドヘルドコンピュータ、パームトップコンピュータ、パーソナルデジタルアシスタント（ＰＤＡ）、セルラ電話、複合セルラ電話／ＰＤＡ、テレビ、スマートデバイス（スマートフォン、スマートタブレット、スマートテレビ等）、モバイルインターネットデバイス（ＭＩＤ）、メッセージング装置、データ通信装置等を含むか、部分的に又は全体的にそれらに組み込まれてもよい。

本明細書で使用される場合、「サーバ」という用語は、処理、データベース、及び通信機能を提供するサービスポイントを指すものとして理解されるべきである。限定ではなく例として、「サーバ」という用語は、関連する通信器及びデータ記憶装置及びデータベース機能を有する単一の物理プロセッサを指してもよく、又は、プロセッサ及び関連するネットワーク及び記憶装置のネットワーク化又はクラスタ化された複合体、並びにサーバによって提供されるサービスをサポートするオペレーティングソフトウェア及び１つ以上のデータベースシステム及びアプリケーションソフトウェアを指してもよい。クラウドサーバがその例である。

いくつかの実施形態では、本明細書に詳細に記載されるように、本開示の例示的な新規なコンピュータベースシステムのうちの１つ以上は、ファイル、連絡先、タスク、電子メール、ツイート、地図、アプリケーション全体（例えば、電卓）等の任意の適切な形態であり得る任意のデジタルオブジェクト及び／又はデータユニットを（例えば、特定のアプリケーションの内部及び／又は外部から）取得、操作、転送、記憶、変換、生成、及び／又は出力し得る。いくつかの実施形態では、本明細書に詳細に記載されるように、本開示の例示的な新規なコンピュータベースシステムのうちの１つ以上は、限定されないが、例えば、（１）ＡｍｉｇａＯＳ、ＡｍｉｇａＯＳ４、（２）ＦｒｅｅＢＳＤ、ＮｅｔＢＳＤ、ＯｐｅｎＢＳＤ、（３）Ｌｉｎｕｘ、（４）ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ、（５）ＯｐｅｎＶＭＳ、（６）ＯＳＸ（ＭａｃＯＳ）、（７）ＯＳ／２、（８）Ｓｏｌａｒｉｓ、（９）Ｔｒｕ６４ＵＮＩＸ（登録商標）、ＵＮＩＸ、（１０）ＶＭ，（１１）Ａｎｄｒｏｉｄ，（１２）Ｂａｄａ，（１３）ＢｌａｃｋＢｅｒｒｙＯＳ，（１４）ＦｉｒｅｆｏｘＯＳ，（１５）ｉＯＳ，（１６）ＥｍｂｅｄｄｅｄＬｉｎｕｘ，（１７）ＰａｌｍＯＳ，（１８）Ｓｙｍｂｉａｎ，（１９）Ｔｉｚｅｎ，（２０）ＷｅｂＯＳ，（２１）ＷｉｎｄｏｗｓＭｏｂｉｌｅ，（２２）ＷｉｎｄｏｗｓＰｈｏｎｅ，（２３）ＡｄｏｂｅＡＩＲ，（２４）ＡｄｏｂｅＦｌａｓｈ，（２５）ＡｄｏｂｅＳｈｏｃｋｗａｖｅ，（２６）ＢｉｎａｒｙＲｕｎｔｉｍｅＥｎｖｉｒｏｎｍｅｎｔｆｏｒＷｉｒｅｌｅｓｓ（ＢＲＥＷ）、（２７）Ｃｏｃｏａ（ＡＰＩ）、（２８）ＣｏｃｏａＴｏｕｃｈ，（２９）ＪａｖａＰｌａｔｆｏｒｍｓ，（３０）ＪａｖａＦＸ，（３１）ＪａｖａＦＸＭｏｂｉｌｅ，（３２）ＭｉｃｒｏｓｏｆｔＸＮＡ，（３３）Ｍｏｎｏ，（３４）ＭｏｚｉｌｌａＰｒｉｓｍ，ＸＵＬａｎｄＸＵＬＲｕｎｎｅｒ，（３５）．ＮＥＴＦｒａｍｅｗｏｒｋ、（３６）Ｓｉｌｖｅｒｌｉｇｈｔ、（３７）ＯｐｅｎＷｅｂＰｌａｔｆｏｒｍ、（３８）ＯｒａｃｌｅＤａｔａｂａｓｅ、（３９）Ｑｔ、（４０）ＳＡＰＮｅｔＷｅａｖｅｒ、（４１）Ｓｍａｒｔｆａｃｅ、（４２）Ｖｅｘｉ、及び（４３）Ｗｉｎｄｏｗｓランタイム等の様々なコンピュータプラットフォームの１つ以上にまたがって実装されてもよい。

いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム、及び／又は例示的な新規なコンピュータベース装置は、本開示の原理と一致する特徴を実装するためにソフトウェア命令の代わりに又はそれと組み合わせて使用され得る配線回路を利用するように構成されてもよい。したがって、本開示の原理と一致する実装は、ハードウェア回路とソフトウェアの特定の組み合わせに限定されない。例えば、様々な実施形態は、限定されないが、スタンドアロンソフトウェアパッケージ、ソフトウェアパッケージの組合せ等のソフトウェアコンポーネントとして、多くの異なるやり方で具現化されてもよく、又は、より大きなソフトウェア製品に「ツール」として組み込まれるソフトウェアパッケージであってもよい。

例えば、本開示の１つ以上の原理に従って特別にプログラムされた例示的なソフトウェアは、スタンドアロン製品として、又は既存のソフトウェアアプリケーションにインストールするためのアドインパッケージとして、ネットワーク、例えばウェブサイトからダウンロード可能であってもよい。例えば、本開示の１つ以上の原理に従って特別にプログラムされた例示的なソフトウェアは、クライアントサーバソフトウェアアプリケーションとして、又はウェブ対応ソフトウェアアプリケーションとしても利用可能であり得る。例えば、本開示の１つ以上の原理に従って特別にプログラムされた例示的なソフトウェアは、ハードウェア装置にインストールされるソフトウェアパッケージとして具体化されてもよい。

いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム／プラットフォーム、例示的な新規なコンピュータベース装置、及び／又は例示的な新規なコンピュータベースコンポーネントは、限定されないが、少なくとも１００人（例えば、限定されないが、１００～９９９）、少なくとも１，０００人（例えば、限定されないが、１，０００～９，９９９）、少なくとも１０，０００人（例えば、限定されないが、１０，０００～９９，９９９）、少なくとも１００，０００人（例えば、限定されないが、１００，０００～９９９，９９９）、少なくとも１，０００，０００人（例えば、限定されないが、１，０００～９，９９９，９９９）、少なくとも１０，０００，０００人（例えば、限定されないが、１０，０００，０００～９９，９９９，９９９）、少なくとも１００，０００，０００人（例えば、限定されないが、１００，０００，０００～９９９，９９９，９９９）、少なくとも１，０００，０００，０００人（例えば、限定されないが、１，０００，０００，０００，０００，０００～１０，０００，０００，０００）であり得る多数の同時ユーザを処理するように構成され得る。

いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム及び／又は例示的な新規なコンピュータベース装置は、本開示の別個の、特別にプログラムされたグラフィカルユーザインタフェースの実装（例えば、デスクトップ、Ｗｅｂアプリ等）に出力するように構成されてもよい。本開示の様々な実装では、最終出力は、限定されないが、コンピュータのスクリーン、モバイル装置のスクリーン等であり得るディスプレイスクリーン上に表示され得る。様々な実装では、ディスプレイはホログラフィックディスプレイであってもよい。様々な実装では、ディスプレイは、視覚投影を受けることができる透明表面であってもよい。このような投影は、様々な形態の情報、画像、及び／又はオブジェクトを伝達し得る。例えば、そのような投影は、モバイル拡張現実（ＭＡＲ）アプリケーションのための視覚オーバーレイであり得る。

本明細書では、「クラウド」、「インターネットクラウド」、「クラウドコンピュータ」、「クラウドアーキテクチャ」、及び類似する用語は、（１）リアルタイム通信ネットワーク（例えば、インターネット）を介して接続された多数のコンピュータ、（２）接続された多数のコンピュータ（例えば、物理マシン、仮想マシン（ＶＭ））で同時にプログラム又はアプリケーションを実行する能力を提供すること、（３）ネットワークベースのサービスであって、実際のサーバハードウェアによって提供されるように見えるが、実際には仮想ハードウェア（例えば、仮想サーバ）によって提供され、１つ以上の実マシン上で実行されるソフトウェアによってシミュレートされるもの（例えば、エンドユーザに影響を与えることなく、その場で移動及びスケールアップ（又はスケールダウン）することを可能にする）のうちの少なくとも１つに対応する。

いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム及び／又は例示的な新規なコンピュータベース装置は、１つ以上の暗号化技術（例えば、秘密／公開鍵ペア、３ＤＥＳ（ＴｒｉｐｌｅＤａｔａＥｎｃｒｙｐｔｉｏｎＳｔａｎｄａｒｄ）、ブロック暗号アルゴリズム（例えば、ＩＤＥＡ、ＲＣ２、ＲＣ５、ＣＡＳＴ、Ｓｋｉｐｊａｃｋ）、暗号ハッシュアルゴリズム（例えば、ＭＤ５、ＲＩＰＥＭＤ－１６０、ＲＴＲ０、ＳＨＡ－１、ＳＨＡ－２、Ｔｉｇｅｒ（ＴＴＨ）、ＷＨＩＲＬＰＯＯＬ、ＲＮＧ）を利用することによって、データを安全に記憶及び／又は送信するように構成されてもよい。

前述の例は、もちろん例示的であり、限定的ではない。

本明細書で使用される「ユーザ」という用語は、少なくとも１人のユーザを意味する。いくつかの実施形態では、「ユーザ」、「加入者」、「消費者」、又は「顧客」という用語は、本明細書に記載される１つ以上のアプリケーションのユーザ及び／又はデータプロバイダによって供給されるデータの消費者を指すと理解されるべきである。限定ではなく例として、「ユーザ」又は「加入者」という用語は、ブラウザセッションにおいてインターネットを介してデータ又はサービスプロバイダによって提供されるデータを受信する人を指してもよく、又はデータを受信してデータを記憶若しくは処理する自動化ソフトウェアアプリケーションを指してもよい。

図１は、本開示の１つ以上の実施形態による機械学習における偏り低減のための例示的なコンピュータベースシステム１００のブロック図を示す。しかしながら、これらのコンポーネントの全てが１つ以上の実施形態を実施するために必要とされるわけではなく、コンポーネントの配置及びタイプの変更は、本開示の様々な実施形態の精神又は範囲から逸脱することなく行われ得る。いくつかの実施形態では、例示的なコンピュータベースシステム１００の例示的な新規なコンピュータ装置及び／又は例示的な新規なコンピュータコンポーネントは、本明細書で詳述するように、多数のメンバ及び／又は同時トランザクションを管理するように構成されてもよい。いくつかの実施形態では、例示的なコンピュータベースシステム／プラットフォーム１００は、ここでの実施形態に記載されているように、動的外れ値偏り低減（ＤＯＢＲ；ｄｙｎａｍｉｃｏｕｔｌｉｅｒｂｉａｓｒｅｄｕｃｔｉｏｎ）を含む、データの評価、キャッシュ、検索、及び／又はデータベース接続プーリングのための様々な戦略を組み込んだスケーラブルなコンピュータ及び／又はネットワークアーキテクチャに基づき得る。スケーラブルなアーキテクチャの一例は、複数のサーバを動作させることが可能なアーキテクチャである。

いくつかの実施形態では、図１を参照すると、例示的なコンピュータベースシステム１００のメンバ１０２～１０４（例えば、クライアント）は、ネットワーク１０５等のネットワーク（例えば、クラウドネットワーク）を介して、例えば、サーバ１０６及び１０７等の他のコンピュータ装置と相互にメッセージを送受信することができる実質的に任意のコンピュータ装置を含み得る。いくつかの実施形態では、メンバ装置１０２～１０４は、パーソナルコンピュータ、マルチプロセッサシステム、マイクロプロセッサベース又はプログラム可能な消費者電子機器、ネットワークＰＣ等であってもよい。いくつかの実施形態では、メンバ装置１０２～１０４内の１つ以上のメンバ装置は、通常、携帯電話、スマートフォン、ポケットベル、トランシーバ、無線周波数（ＲＦ）装置、赤外線（ＩＲ）装置、ＣＢ、１つ以上の前述の装置を組み合わせた統合装置、又は実質的に任意のモバイルコンピュータ装置等の無線通信媒体を使用して接続するコンピュータ装置を含み得る。いくつかの実施形態では、メンバ装置１０２～１０４内の１つ以上のメンバ装置は、ＰＤＡ、ポケットＰＣ、ウェアラブルコンピュータ、ラップトップ、タブレット、デスクトップコンピュータ、ネットブック、テレビゲーム装置、ページャ、スマートフォン、ウルトラモバイルパーソナルコンピュータ（ＵＭＰＣ）、及び／又は有線及び／又は無線通信媒体（例えば、ＮＦＣ、ＲＦＩＤ、ＮＢＩＯＴ、３Ｇ、４Ｇ、５Ｇ、ＧＳＭ（登録商標）、ＧＰＲＳ、ＷｉＦｉ、ＷｉＭａｘ、ＣＤＭＡ、衛星、ＺｉｇＢｅｅ（登録商標）等）を介して通信するように設置された任意の他の装置等の有線又は無線通信媒体を使用して接続可能な装置であってもよい。いくつかの実施形態では、メンバ装置１０２～１０４内の１つ以上のメンバ装置は、とりわけインターネットブラウザ、モバイルアプリケーション、音声通話、ビデオゲーム、ビデオ会議、及び電子メール等の１つ以上のアプリケーションを含み、それらを実行し得る。いくつかの実施形態では、メンバ装置１０２～１０４内の１つ以上のメンバ装置は、ウェブページ等を受信及び送信するように構成されてもよい。いくつかの実施形態では、本開示の例示的な特別にプログラムされたブラウザアプリケーションは、限定されないが、ハイパーテキストマークアップ言語（ＨＴＭＬ）等のＳＭＧＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）、無線アプリケーションプロトコル（ＷＡＰ）、無線マークアップ言語（ＷＭＬ）等のハンドヘルドデバイスマークアップ言語（ＨＤＭＬ）、ＷＭＬＳｃｒｉｐｔ、ＸＭＬ、ＪａｖａＳｃｒｉｐｔ等を含む実質的に任意のウェブベース言語を使用して、グラフィックス、テキスト、マルチメディア等を受信及び表示するように構成されてもよい。いくつかの実施形態では、メンバ装置１０２～１０４内のメンバ装置は、Ｊａｖａ，．Ｎｅｔ，ＱＴ，Ｃ，Ｃ＋＋及び／又は他の適切なプログラミング言語のいずれかによって特別にプログラムされてもよい。いくつかの実施形態では、メンバ装置１０２～１０４内の１つ以上のメンバ装置は、限定されないが、メッセージ機能、ブラウジング、検索、再生、ストリーミング、又はローカルに保存又はアップロードされたメッセージ、画像及び／又はビデオ、及び／又はゲームを含む様々な形式のコンテンツの表示等の様々な可能なタスクを実行するために、アプリケーションを含むか又は実行するように特別にプログラムされてもよい。

いくつかの実施形態では、例示的なネットワーク１０５は、それに結合された任意のコンピュータ装置へのネットワークアクセス、データ転送及び／又は他のサービスを提供してもよい。いくつかの実施形態では、例示的なネットワーク１０５は、例えば、限定されないが、ＧＳＭ（登録商標）（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ）アソシエーション、ＩＥＴＦ（ＩｎｔｅｒｎｅｔＥｎｇｉｎｅｅｒｉｎｇＴａｓｋＦｏｒｃｅ）、及びＷｉＭＡＸ（ＷｏｒｌｄｗｉｄｅＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓ）フォーラムによって設定された１つ以上の規格に少なくとも部分的に基づき得る少なくとも１つの特別なネットワークアーキテクチャを含みかつ実装してもよい。いくつかの実施形態では、例示的なネットワーク１０５は、ＧＳＭ（登録商標）アーキテクチャ、ＧＰＲＳ（ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ）アーキテクチャ、ＵＭＴＳ（ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ）アーキテクチャ、及びＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）と呼ばれるＵＭＴＳの進化のうちの１つ以上を実装してもよい。いくつかの実施形態では、例示的なネットワーク１０５は、代替として又は上記のうちの１つ以上と組み合わせて、ＷｉＭＡＸフォーラムによって定義されたＷｉＭＡＸアーキテクチャを含みかつ実装してもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なネットワーク１０５は、例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、仮想ＬＡＮ（ＶＬＡＮ）、企業ＬＡＮ、レイヤ３仮想プライベートネットワーク（ＶＰＮ）、企業ＩＰネットワーク、又はそれらの任意の組み合わせのうちの少なくとも１つを含んでもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なネットワーク１０５上の少なくとも１つのコンピュータネットワーク通信は、限定されないが、ＮＦＣ、ＲＦＩＤ、狭帯域モノのインターネット（ＮＢＩＯＴ）、ＺｉｇＢｅｅ（登録商標）、３Ｇ、４Ｇ、５Ｇ、ＧＳＭ（登録商標）、ＧＰＲＳ、ＷｉＦｉ、ＷｉＭａｘ、ＣＤＭＡ、衛星、及びそれらの任意の組み合わせ等の少なくとも部分的に１つの通信モードに基づいて送信され得る。いくつかの実施形態では、例示的なネットワーク１０５は、ネットワーク接続型ストレージ（ＮＡＳ）、ストレージエリアネットワーク（ＳＡＮ）、コンテンツ配信ネットワーク（ＣＤＮ）、又は他の形態のコンピュータ又は機械可読媒体等の大容量記憶装置を含んでもよい。

いくつかの実施形態では、例示的なサーバ１０６又は例示的なサーバ１０７は、ネットワークオペレーティングシステムを実行するウェブサーバ（又は一連のサーバ）であってもよく、その例としては、限定されないが、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓＳｅｒｖｅｒ、ＮｏｖｅｌｌＮｅｔＷａｒｅ、又はＬｉｎｕｘが挙げられる。いくつかの実施形態では、例示的なサーバ１０６又は例示的なサーバ１０７は、クラウド及び／又はネットワークコンピュータのために使用され、及び／又はこれらを提供してもよい。図１には示されていないが、いくつかの実施形態では、例示的なサーバ１０６又は例示的なサーバ１０７は、電子メール、ＳＭＳメッセージング、テキストメッセージング、広告コンテンツプロバイダ等の外部システムへの接続を有し得る。また、例示的なサーバ１０６の任意の特徴が例示的なサーバ１０７に実装されてもよく、その逆も同様である。

いくつかの実施形態では、例示的なサーバ１０６及び１０７のうちの１つ以上は、限定されないが、認証サーバ、検索サーバ、電子メールサーバ、ソーシャルネットワーキングサービスサーバ、ＳＭＳサーバ、ＩＭサーバ、ＭＭＳサーバ、交換サーバ、写真共有サービスサーバ、広告提供サーバ、金融／銀行関連サービスサーバ、旅行サービスサーバ、又はメンバコンピュータ装置１０１～１０４のユーザのための任意の適切な同様のサービスベースサーバとして実行するように特別にプログラムされてもよい。

いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例えば、１つ以上の例示的なコンピュータメンバ装置１０２～１０４、例示的なサーバ１０６、及び／又は例示的なサーバ１０７は、スクリプト言語、リモートプロシージャコール、電子メール、ツイート、ショートメッセージサービス（ＳＭＳ）、マルチメディアメッセージサービス（ＭＭＳ）、インスタントメッセージング（ＩＭ）、インターネットリレーチャット（ＩＲＣ）、ｍＩＲＣ、Ｊａｂｂｅｒ、アプリケーションプログラミングインターフェース、ＳＯＡＰ（ＳｉｍｐｌｅＯｂｊｅｃｔＡｃｃｅｓｓＰｒｏｔｏｃｏｌ）メソッド、ＣＯＲＢＡ（ＣｏｍｍｏｎＯｂｊｅｃｔＲｅｑｕｅｓｔＢｒｏｋｅｒＡｒｃｈｉｔｅｃｔｕｒｅ）、ＨＴＴＰ（ＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）、ＲＥＳＴ（ＲｅｐｒｅｓｅｎｔａｔｉｏｎａｌＳｔａｔｅＴｒａｎｓｆｅｒ）、又はそれらの任意の組み合わせを使用して情報を送信、処理、及び受信するように構成され得る特別にプログラムされたソフトウェアモジュールを含み得る。

図２は、本開示の１つ以上の実施形態による、別の例示的なコンピュータベースシステム／プラットフォーム２００のブロック図を示す。しかしながら、これらのコンポーネントの全てが１つ以上の実施形態を実施するために必要とされるわけではなく、コンポーネントの配置及びタイプの変更は、本開示の様々な実施形態の精神又は範囲から逸脱することなく行われ得る。いくつかの実施形態では、図示されたメンバコンピュータ装置２０２ａ、２０２ｂ～２０２ｎのそれぞれは、少なくとも、プロセッサ２１０又はフラッシュメモリに結合されたランダムアクセスメモリ（ＲＡＭ）２０８等のコンピュータ可読媒体を含む。いくつかの実施形態では、プロセッサ２１０は、メモリ２０８に記憶されたコンピュータ実行可能プログラム命令を実行してもよい。いくつかの実施形態では、プロセッサ２１０は、マイクロプロセッサ、ＡＳＩＣ、及び／又は状態マシンを含み得る。いくつかの実施形態では、プロセッサ２１０は、プロセッサ２１０によって実行されたときに、プロセッサ２１０に本明細書に記載の１つ以上のステップを実行させることができる命令を記憶する、例えばコンピュータ可読媒体等の媒体を含むか、又はこれらと通信可能であってもよい。いくつかの実施形態では、コンピュータ可読媒体の例は、限定されないが、クライアント２０２ａのプロセッサ２１０等のプロセッサにコンピュータ可読命令を提供することができる電子、光学、磁気、又はその他の記憶装置又は伝送装置を含み得る。いくつかの実施形態では、適切な媒体の他の例として、限定されないが、フロッピーディスク、ＣＤ－ＲＯＭ、ＤＶＤ、磁気ディスク、メモリチップ、ＲＯＭ、ＲＡＭ、ＡＳＩＣ、構成プロセッサ、全ての光学媒体、全ての磁気テープ又は他の磁気媒体、又はコンピュータプロセッサが命令を読み取ることができる任意の他の媒体が挙げられる。また、様々な他の形態のコンピュータ可読媒体が、命令をコンピュータに送信又は伝送してもよく、これはルータ、プライベート又はパブリックネットワーク、又は有線及び無線の両方の他の送信装置又はチャネルを含む。いくつかの実施形態では、命令は、例えば、Ｃ、Ｃ＋＋、ＶｉｓｕａｌＢａｓｉｃ、Ｊａｖａ、Ｐｙｔｈｏｎ、Ｐｅｒｌ、ＪａｖａＳｃｒｉｐｔ等を含む任意のコンピュータプログラミング言語からのコードを含み得る。

いくつかの実施形態では、メンバコンピュータ装置２０２ａから２０２ｎは、マウス、ＣＤ－ＲＯＭ、ＤＶＤ、物理キーボード又は仮想キーボード、ディスプレイ、又は他の入力又は出力装置等の多数の外部又は内部装置も備え得る。いくつかの実施形態では、メンバコンピュータ装置２０２ａから２０２ｎ（例えば、クライアント）の例は、ネットワーク２０６に接続される任意のタイプのプロセッサベースのプラットフォームであってもよく、限定されないが、パーソナルコンピュータ、デジタルアシスタント、パーソナルデジタルアシスタント、スマートフォン、ポケットベル、デジタルタブレット、ラップトップコンピュータ、インターネット家電、及び他のプロセッサベースの装置等である。いくつかの実施形態では、メンバコンピュータ装置２０２ａから２０２ｎは、本明細書に詳細に記載された１つ以上の原理／方法論に従って、１つ以上のアプリケーションプログラムで特別にプログラムされ得る。いくつかの実施形態では、メンバコンピュータ装置２０２ａから２０２ｎは、Ｍｉｃｒｏｓｏｆｔ（ＴＭ）、Ｗｉｎｄｏｗｓ（ＴＭ）、及び／又はＬｉｎｕｘ等のブラウザ又はブラウザ対応アプリケーションをサポートすることができる任意のオペレーティングシステム上で動作し得る。いくつかの実施形態では、図示されたメンバコンピュータ装置２０２ａ～２０２ｎは、例えば、Ｍｉｃｒｏｓｏｆｔ社のＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ（ＴＭ）、ＡｐｐｌｅＣｏｍｐｕｔｅｒ社のＳａｆａｒｉ（ＴＭ）、ＭｏｚｉｌｌａＦｉｒｅｆｏｘ、及び／又はＯｐｅｒａ等のブラウザアプリケーションプログラムを実行するパーソナルコンピュータを含み得る。いくつかの実施形態では、メンバコンピュータクライアント装置２０２ａから２０２ｎを介して、ユーザ２１２ａから２１２ｎは、例示的なネットワーク２０６を介して、互いに及び／又はネットワーク２０６に結合された他のシステム及び／又は装置と通信することができる。図２に示すように、例示的なサーバ装置２０４及び２１３もネットワーク２０６に結合されてもよい。いくつかの実施形態では、１つ以上のメンバコンピュータ装置２０２ａ～２０２ｎは、モバイルクライアントであってもよい。

いくつかの実施形態では、例示的なデータベース２０７及び２１５の少なくとも１つのデータベースは、データベース管理システム（ＤＢＭＳ）によって管理されるデータベースを含む任意のタイプのデータベースであり得る。いくつかの実施形態では、例示的なＤＢＭＳ管理データベースは、それぞれのデータベースにおけるデータの組織化、記憶、管理、及び／又は検索を制御するエンジンとして特別にプログラムされ得る。いくつかの実施形態では、例示的なＤＢＭＳ管理データベースは、クエリ、バックアップ及び複製、ルールの実施、セキュリティの提供、計算、性能変更及びアクセスロギング、及び／又は自動最適化を行う能力を提供するように特別にプログラムされてもよい。いくつかの実施形態では、例示的なＤＢＭＳ管理データベースは、Ｏｒａｃｌｅデータベース、ＩＢＭＤＢ２、ＡｄａｐｔｉｖｅＳｅｒｖｅｒＥｎｔｅｒｐｒｉｓｅ、ＦｉｌｅＭａｋｅｒ、ＭｉｃｒｏｓｏｆｔＡｃｃｅｓｓ、ＭｉｃｒｏｓｏｆｔＳＱＬＳｅｒｖｅｒ、ＭｙＳＱＬ、ＰｏｓｔｇｒｅＳＱＬ、及びＮｏＳＱＬの実装から選択されてもよい。いくつかの実施形態では、例示的なＤＢＭＳ管理データベースは、階層モデル、ネットワークモデル、リレーショナルモデル、オブジェクトモデル、又はフィールド、レコード、ファイル及び／又はオブジェクトを含み得る１つ以上の適用可能なデータ構造をもたらし得る何らかの他の適切な機構を含み得る本開示の特定のデータベースモデルに従って、例示的なＤＢＭＳ管理データベース内の各データベースのそれぞれのスキーマを定義するように特別にプログラムされ得る。いくつかの実施形態では、例示的なＤＢＭＳ管理データベースは、記憶されるデータに関するメタデータを含むように特別にプログラムされ得る。

いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム／プラットフォーム、例示的な新規なコンピュータベース装置、及び／又は例示的な新規なコンピュータベースコンポーネントは、限定されないが、ＩａａＳ（ｉｎｆｒａｓｔｒｕｃｔｕｒｅａｓｅｒｖｉｃｅ）、ＰａａＳ（ｐｌａｔｆｏｒｍａｓａｓｅｒｖｉｃｅ）、及び／又はＳａａＳ（ｓｏｆｔｗａｒｅａｓａｓｅｒｖｉｃｅ）等のクラウドコンピュータ／アーキテクチャで動作するように特に構成されてもよい。図３及び図４は、本開示の例示的な新規なコンピュータベースシステム／プラットフォーム、例示的な新規なコンピュータベース装置、及び／又は例示的な新規なコンピュータベースコンポーネントが動作するように具体的に構成され得る（複数の）クラウドコンピュータ／アーキテクチャの例示的な実装の概略を示す。

本発明の例示的なコンピュータベースシステム及び／又は装置の実施形態では、特にベンチマーク研究のための一般化された線形モデルの精度及び理解を向上させるために、動的外れ値偏り低減（ＤＯＢＲ）が使用されてもよい。しかしながら、これは、１つ以上の独立変数及び１つの従属変数が存在する多種多様な分析モデルに適用され得る方法である。本開示及びその実施形態は、機械学習モデル予測の精度を改善するためのＤＯＢＲの新規な適用を例示するものである。

複数の実施形態では、ＤＯＢＲは予測モデルではない。その代わりに、複数の実施形態では、これは、モデル予測の精度を向上させることができる予測モデル又は解釈モデルへのアドオン方法である。複数の実施形態では、ＤＯＢＲに識別された外れ値は、データが供給された目的変数とモデル計算値との差に基づく。外れ値が識別されると、事前に決定された選択基準を介して、外れ値依存データレコード及びモデル生成依存変数が分析から除去される。これらのレコードを恒久的に除去して、さらなる分析を続け得る。しかしながら、例示的な新規なシステム及び方法の他の実施形態では、モデルの反復ごとに、外れ値識別プロセスは、その計算パラメータによって定義される最後の反復の予測モデルを用いて、全てのレコードが外れ値精査を受けるようにデータセット全体を含む。したがって、本発明の例示的な実施形態は、例えば、トレーニングデータの選択偏りの伝播を低減するために、各反復においてデータセット全体を含むことによって、機械学習モデルにおける偏りを低減する。したがって、機械学習モデルをより正確かつ効率的にトレーニング及び実装して、機械学習システムの動作を改善することができる。

図５は、本開示の１つ以上の実施形態による、機械学習における例示的な新規な偏り低減システムのブロック図を示す。

いくつかの実施形態では、偏り低減システム３００は、例えば機械学習エンジンによる分析下のデータセットにおける動的外れ値偏り低減（ＤＯＢＲ）のためのコンポーネントを含み得る。いくつかの実施形態では、ＤＯＢＲは、事前定義された基準に従って外れ値レコードを除去するための反復プロセスを提供する。この条件は、パーセンテージで表されるユーザ定義の誤差許容値である。これは、ここでの検討の後半に記載される洞察及びその他の分析結果に潜在的に基づいて、ユーザがモデルで許容できる誤差の量を示す。値１００％は、全ての誤差が許容され、ＤＯＢＲプロセスでレコードが除去されないことを示す。０％を選択すると、全てのレコードが除去される。一般に、工業用途では８０から９５％の範囲の誤差許容値が観測されている。

いくつかの実施形態では、ユーザは、ディスプレイ装置３１２及びユーザ入力装置３０８を使用する数あるユーザ相互作用動作の中で、ユーザ入力装置３０８を介して誤差許容値を入力し、ディスプレイ装置３１２を介して結果を表示するように、偏り低減システム３００と相互作用してもよい。誤差許容値に基づいて、偏り低減システム３００は、偏り低減システム３００と通信するデータベース３１０又は他の記憶装置に受信されたデータセット３１１を分析してもよい。偏り低減システム３００は、データベース３１０又は他の記憶装置を介してデータセット３１１を受信し、精度及び効率を改善するために、動的外れ値偏り低減を有する１つ以上の機械学習モデルを用いて予測を行ってもよい。

いくつかの実施形態では、偏り低減システム３００は、数あるコンポーネントの中でも、例えば、記憶装置及びメモリ装置、キャッシュ、バッファ、バス、入出力（Ｉ／Ｏ）インターフェース、プロセッサ、コントローラ、ネットワーキング及び通信装置、オペレーティングシステム、カーネル、装置ドライバ等を含む、ハードウェア及びソフトウェアコンポーネントの組み合わせを含む。いくつかの実施形態では、プロセッサ３０７は、他のコンポーネントの機能を実装するために、複数の他のコンポーネントと通信する。いくつかの実施形態では、各コンポーネントは、コンポーネント機能の実行のためにプロセッサ３０７上でスケジュールされた時間を有するが、いくつかの実施形態では、各コンポーネントは、プロセッサ３０７の処理システム内の１つ以上のプロセッサにスケジュールされる。他の実施形態では、各コンポーネントは、それに含まれる自身のプロセッサを有する。

いくつかの実施形態では、偏り低減システム３００のコンポーネントは、数あるコンポーネントの中でも、例えば、モデルインデックス３０２及びモデルライブラリ３０３と通信するＤＯＢＲエンジン３０１、リグレッサパラメータライブラリ３０５、分類器パラメータライブラリ３０４、及びＤＯＢＲフィルタ３０６を含み得る。各コンポーネントは、数あるコンポーネントの中でも、例えば、メモリ及び記憶装置、処理装置、通信装置、入出力（Ｉ／Ｏ）インターフェース、コントローラ、ネットワーキング及び通信装置、オペレーティングシステム、カーネル、装置ドライバ、命令セット等のコンポーネント機能を実装するためのハードウェア及びソフトウェアの組み合わせを含み得る。

いくつかの実施形態では、ＤＯＢＲエンジン３０１は、機械学習モデルをインスタンス化して実行するためのモデルエンジンを含む。ＤＯＢＲエンジン３０１は、モデルインデックス３０２を使用して、モデルライブラリ３０３におけるインスタンス化のためにモデルにアクセスしてもよい。例えば、モデルライブラリ３０３は、ＤＯＢＲエンジン３０１等のエンジンによって使用するために選択的にアクセス及びインスタンス化され得る機械学習モデルのライブラリを含み得る。いくつかの実施形態では、モデルライブラリ３０３は、数ある可能な分類器及びリグレッサの中でも、例えば、サポートベクトルマシン（ＳＶＭ）、線形リグレッサ、Ｌａｓｓｏモデル、決定木リグレッサ、決定木分類器、ランダムフォレストリグレッサ、ランダムフォレスト分類器、Ｋ近傍リグレッサ、Ｋ近傍分類器、勾配ブースティングリグレッサ、勾配ブースティング分類器等の機械学習モデルを含み得る。例えば、モデルライブラリ３０３は、以下の例示的な擬似コード１に従ってモデルをインポートすることができる。

しかしながら、いくつかの実施形態では、モデルライブラリ３０３内の機械学習モデルのライブラリへのアクセスを容易にするために、ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１によって関数として使用されるモデル識別子に各モデルをインデックス付けするモデルインデックス３０２を使用してもよい。例えば、数ある回帰モデル及び分類モデルの中でも、例えば、線形回帰、ＸＧＢｏｏｓｔ回帰、サポートベクトル回帰、Ｌａｓｓｏ、Ｋ近傍回帰、バギング回帰、勾配ブースティング回帰、ランダムフォレスト回帰、決定木回帰を含むモデルは、番号識別子によってインデックス付けされ、かつ名前でラベル付けされ得る。例えば、以下の擬似コード２は、モデルインデックス３０２によって使用されるモデルインデックスコードの例を示す。

モデルライブラリ３０３及びモデルインデックス３０２のための擬似コードの他の実施形態も考えられる。いくつかの実施形態では、ソフトウェア命令は、それぞれのモデルライブラリ３０３又はモデルインデックス３０２のメモリ内に記憶され、プロセッサ３０７に提供するためにキャッシュ内にバッファされる。いくつかの実施形態では、ＤＯＢＲエンジン３０１は、通信及び／又はＩ／Ｏ装置を介してインデックスにアクセス又は呼び出すことによってモデルインデックス３０２を利用してもよく、通信及び／又はＩ／Ｏ装置を介してモデルライブラリ３０３から関数としてモデルを呼び出すためにインデックスを利用してもよい。

いくつかの実施形態では、ＤＯＢＲエンジン３０１によって呼び出されるモデルの最適化及びカスタマイズを容易にするために、偏り低減システム３００は、数ある記憶装置及びメモリ装置の中でも、例えば、ハードドライブ、ソリッドステートドライブ、ランダムアクセスメモリ（ＲＡＭ）、フラッシュ記憶装置等のメモリ又は記憶装置にモデルパラメータを記録してもよい。例えば、リグレッサパラメータは、リグレッサパラメータライブラリ３０５に記録されかつ調整され得る。したがって、リグレッサパラメータライブラリ３０５は、例えばリアルタイムで、複数のリグレッサのための多数のパラメータを記憶し、調整し、通信するのに十分なメモリ及び帯域幅で構成された記憶装置及び通信ハードウェアを含み得る。例えば、ＤＯＢＲエンジン３０１によってインスタンス化された各回帰機械学習モデルについて、各パラメータは、リグレッサパラメータライブラリ３０５において初期化及び更新され得る。いくつかの実施形態では、ユーザは、ユーザ入力装置３０８を介して、パラメータの初期セットを確立してもよい。しかしながら、いくつかの実施形態では、パラメータの初期セットは、予め決められていてもよく、又はランダムに生成されてもよい。回帰機械学習モデルのインスタンス化の際に、ＤＯＢＲエンジン３０１は、モデルインデックス３０２で識別されたモデルを、リグレッサパラメータライブラリ３０５内のパラメータのセットに相互に関連付けてもよい。例えば、ＤＯＢＲエンジン３０１は、例えば、所定の回帰モデルに関連付けられた識別（ＩＤ）番号に従って、パラメータのセットを呼び出してもよい。例えば、リグレッサパラメータライブラリ３０５は、以下の擬似コード３に類似した各回帰モデルのパラメータを識別してもよい。

同様に、いくつかの実施形態では、分類器パラメータは、分類器パラメータライブラリ３０４に記録されかつ調整されてもよい。したがって、分類器パラメータライブラリ３０４は、例えばリアルタイムで、複数のリグレッサのための多数のパラメータを記憶し、調整し、通信するのに十分なメモリ及び帯域幅で構成された記憶装置及び通信ハードウェアを含み得る。例えば、ＤＯＢＲエンジン３０１によってインスタンス化された各分類機械学習モデルに対して、リグレッサパラメータライブラリ３０５において、それぞれのパラメータが初期化され、かつ更新されてもよい。いくつかの実施形態では、ユーザは、ユーザ入力装置３０８を介して、パラメータの初期セットを確立してもよい。しかしながら、いくつかの実施形態では、パラメータの初期セットは予め決定されてもよい。回帰機械学習モデルのインスタンス化の際に、ＤＯＢＲエンジン３０１は、モデルインデックス３０２で識別されたモデルを、リグレッサパラメータライブラリ３０５内のパラメータのセットに相互に関連付けてもよい。例えば、ＤＯＢＲエンジン３０１は、例えば、所定の回帰モデルに関連付けられた識別（ＩＤ）番号に従って、一組のパラメータを呼び出してもよい。例えば、リグレッサパラメータライブラリ３０５は、以下の擬似コード４に類似した各回帰モデルのパラメータを識別してもよい。

いくつかの実施形態では、モデルインデックス３０２を介してモデルライブラリ３０３からモデルのセットを呼び出して受け取り、リグレッサパラメータライブラリ３０５及び／又は分類器パラメータライブラリ３０４からそれぞれのパラメータを受信することによって、ＤＯＢＲエンジン３０１は、例えば、ＤＯＢＲエンジン３０１のキャッシュ又はバッファに、１つ以上のインスタンス化及び初期化されたモデルをロードしてもよい。いくつかの実施形態では、データセット３１１は、次に、データベース３１０から、例えば、同一又は異なるキャッシュ又はバッファ又はＤＯＢＲエンジン３０１の他の記憶装置にロードされ得る。次に、ＤＯＢＲエンジン３０１におけるプロセッサ３０７又は１つのプロセッサは、各モデルを実行して、例えば、活動に関連する所定の入力属性に基づいて活動の結果又はパラメータを特徴付ける活動関連データ値のそれぞれの予測にデータセット３１１を変換してもよい。例えば、家庭及び／又は商業環境における機器のエネルギ使用量、様々な用途及び組成におけるコンクリート圧縮強度、物体又は画像認識、音声認識、又は他の機械学習用途である。例えば、ＤＯＢＲエンジン３０１は、数ある要因の中でも、過去のエネルギ使用量、時期、時刻、場所のデータセット３１１に基づいて、機器のエネルギ使用量をモデル化してもよい。ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続されたモデルインデックス３０２を介して、モデルライブラリ３０３からリグレッサのセットを呼び出してもよい。次に、ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続されたリグレッサパラメータライブラリ３０５において、機器のエネルギ使用量の推定のためにリグレッサに関連するパラメータファイル又はログを呼び出してもよい。次に、ＤＯＢＲエンジン３０１は、プロセッサ３０７を利用して、モデル及びモデルパラメータ、時刻及び日付、位置、又は他の要因及びそれらの組み合わせに基づいて将来のエネルギ消費量を予測してもよい。

同様に、例えば、ＤＯＢＲエンジン３０１は、数ある要因の中でも、コンクリート材料、時期、時刻、位置、湿度、硬化時間、経年のデータセット３１１に基づいて、コンクリート圧縮強度をモデル化してもよい。ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続されたモデルインデックス３０２を介して、モデルライブラリ３０３からリグレッサのセットを呼び出してもよい。次に、ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続されたリグレッサパラメータライブラリ３０５におけるコンクリート圧縮強度推定のために、リグレッサに関連するパラメータファイル又はログを呼び出してもよい。次に、ＤＯＢＲエンジン３０１は、プロセッサ３０７を利用して、特定のコンクリート組成、時間及び日付、位置、又は他の要因及びそれらの組み合わせに関するモデル及びモデルパラメータに基づいて、将来のコンクリート圧縮強度を予測してもよい。

別の例として、ＤＯＢＲエンジン３０１は、数ある要因の中でも、発話及びグラウンドトゥルース音声転写のデータセット３１１に基づいて音声認識を実行してもよい。ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続されたモデルインデックス３０２を介して、モデルライブラリ３０３から分類器のセットを呼び出してもよい。次に、ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続された分類器パラメータライブラリ３０４において、音声認識のための分類器に関連付けられたパラメータファイル又はログを呼び出してもよい。次に、ＤＯＢＲエンジン３０１は、プロセッサ３０７を利用して、１つ以上の発話のセットに対するモデル及びモデルパラメータに基づいて、記録された音声データの転写を予測してもよい。

別の例として、ＤＯＢＲエンジン３０１は、米国特許第１０，３３９，６９５号に記載されているように、数ある要因の中でも、画像化及び／又は可視化にわたる複数のレンダリングパラメータの設定のデータセット３１１に基づいて、医療画像のためのレンダリング設定を自動的に予測してもよい。ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続されたモデルインデックス３０２を介して、モデルライブラリ３０３から分類器のセットを呼び出してもよい。次に、ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続された分類器パラメータライブラリ３０４における設定をレンダリングするために、分類器に関連付けられたパラメータファイル又はログを呼び出してもよい。次いで、ＤＯＢＲエンジン３０１は、プロセッサ３０７を利用して、１つ以上の医療データセットのセットのためのモデル及びモデルパラメータに基づいてレンダリング設定データを予測してもよい。

別の例として、ＤＯＢＲエンジン３０１は、米国特許第１０，３１７，８５４号に記載されているように、数ある要因の中でも、機械制御コマンド結果及び機械制御コマンドのシミュレーション結果のデータセット３１１に基づいて機械のロボット制御を実行してもよい。ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続されたモデルインデックス３０２を介して、モデルライブラリ３０３から回帰モデルのセットを呼び出してもよい。次に、ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続されたリグレッサパラメータライブラリ３０５におけるロボット制御のための回帰モデルに関連するパラメータファイル又はログを呼び出してもよい。次に、ＤＯＢＲエンジン３０１は、プロセッサ３０７を利用して、制御コマンドのセット、環境情報、センサデータ及び／又はコマンドのシミュレーションに関するモデル及びモデルパラメータに基づいて、特定の制御コマンドの成功又は失敗を予測してもよい。

いくつかの実施形態では、偏り低減システム３００は、例えば、リモートユーザのためのクラウドサービスとして、クラウド環境において機械学習モデルを実装してもよい。米国特許第１０，４５２，９９２号に記載されているように、このようなクラウドサービスは、多数のユーザ、前述のものを含む多種多様なアルゴリズム及び問題サイズ、並びにユーザのユースケースに特有の他の潜在的なモデル、データセット、及びパラメータ調整をサポートするように設計され得る。一実施形態では、偏り低減システム３００が実装されるサービスによって、多数のプログラミングインターフェース（アプリケーションプログラミングインターフェース（ＡＰＩ）等）が定義されてもよく、これは、ユーザがモデルの調整又は高度な統計若しくは人工知能技術の学習に多くの時間と労力を費やすことなく、機械学習のベストプラクティスを比較的迅速に使用し始めるように非熟練ユーザをガイドする。インターフェースは、例えば、非専門家が、機械学習モデルを構築し、トレーニングし、使用するために使用される手順の様々な側面について、デフォルト設定又はパラメータに依存することを可能にしてもよく、ここで、デフォルトは、個々のユーザに類似したモデルについて、分類器パラメータライブラリ３０４及び／又はリグレッサパラメータライブラリ３０５におけるパラメータの１つ以上のセットから導出される。デフォルト設定又はパラメータは、ＤＯＢＲエンジン３０１及びオプティマイザ３０６を介してユーザのデータセットを用いたトレーニングを使用してユーザの機械学習モデルをカスタマイズするための開始点として使用されてもよい。同時に、ユーザは、入力レコードの処理、特徴処理、モデル構築、実行、評価等、様々な種類の機械学習タスクに使用することを希望するパラメータ又は設定をカスタマイズしてもよい。少なくともいくつかの実施形態では、様々なタイプの機械学習タスクを実装する予め定義されたライブラリを使用することに加えて、又はその代わりに、クラウドサービス偏り低減システム３００は、例えば、カスタマイズされた機能をサービスに登録することによって、サービスの拡張可能な組み込み機能を有し得る。このようなカスタマイズされたモジュール又は機能を実装するクライアントのビジネスニーズ又は目標に応じて、モジュールがサービスの他のユーザと共有される場合もあれば、カスタマイズされたモジュールの使用がその実装者／所有者に制限される場合もあり得る。

いくつかの実施形態では、クラウドサービス、ローカル又はリモートシステムとして実装されているかどうか、又は他のシステムアーキテクチャに実装されているかどうかに関わらず、偏り低減システム３００は、米国特許第９，６４６，２６２号に記載されているように、機械学習モデルのトレーニング及び実装に対するアンサンブルアプローチを可能にするモデルをモデルライブラリ３０３に含んでもよい。このようなアプローチは、電子活動データの電子データセットを用いたデータ分析への応用に有用であり得る。いくつかの実施形態では、データベース３１０は、１つ以上の構造化又は非構造化データソースを含み得る。所定の実施形態では、教師なし学習モジュールは、例えば、モデルライブラリ３０３からのモデルのアンサンブルにおいて、複数の教師なし学習技術を用いて、非構造化データセットを組織化データセットにアセンブルするように構成される。例えば、教師なし学習モジュールは、非構造化データセットを組織化データセットの複数のバージョンにアセンブルするように構成され、一方で、教師あり学習モジュールは、所定の実施形態では、組織化データセットの複数のバージョンの各バージョンに基づいて１つ以上の機械学習アンサンブルを生成し、ＤＯＢＲエンジン３０１及びオプティマイザ３０６を使用して各アンサンブル内の各モデルをトレーニングした後に、例えばモデル誤差に従って、どの機械学習アンサンブルが最も高い予測性能を示すかを決定するように構成される。

データセット３１１に基づいて予測を行うようにハードウェアを制御するためのＤＯＢＲエンジン３０１命令の例を以下の擬似コード５に示す。

しかしながら、いくつかの実施形態では、データセット３１１内の外れ値は、実装されたモデルの精度を低下させ、したがって、所与のアプリケーションにおける所与のモデルについてのパラメータの正確なセットを達成するためのトレーニングの反復回数を増加させ得る。精度及び効率を改善するために、ＤＯＢＲエンジン３０１は、データセット内のデータ点誤差を動的にテストして外れ値を決定するためのＤＯＢＲフィルタ３０１ｂを含み得る。したがって、より正確な又は代表的なデータセット３１１を提供するために外れ値が除去され得る。いくつかの実施形態では、ＤＯＢＲフィルタ３０１ｂは、事前定義された基準、例えば、上述されたものであって、ユーザ入力装置３０８を介してユーザによって提供されたユーザ定義の誤差許容値の対象となる外れ値データ点を除去するための反復機構を提供してもよい。いくつかの実施形態では、ユーザ定義の誤差許容値はパーセンテージとして表されてもよく、例えば、１００％の値は誤差の全てが許容され、フィルタ３０１ｂによってデータ点が除去されないことを意味し、一方で、例えば、０％の値はデータ点の全てが除去される結果となる。いくつかの実施形態では、フィルタ３０１ｂは、例えば約８０％から約９５％の範囲の誤差許容値で構成されてもよい。例えば、フィルタ３０１ｂは、以下の擬似コード６に示すような機能を実行するように構成されてもよい。

いくつかの実施形態では、ＤＯＢＲフィルタ３０１ｂは、オプティマイザ３０６と協働して動作し、これは、リグレッサパラメータライブラリ３０５及び分類器パラメータライブラリ３０４における各モデルについて、誤差を決定し、かつパラメータを最適化するように構成される。したがって、いくつかの実施形態では、オプティマイザ３０６は、モデルを決定し、その誤差をＤＯＢＲエンジン３０１のフィルタ３０１ｂに伝達してもよい。したがって、いくつかの実施形態では、オプティマイザ３０６は、例えば、データセット３１１及びモデル予測を受信し、数ある誤差測定の中でも、例えば、外れ値、収束、誤差、絶対値誤差を決定するのに十分なメモリ容量及び帯域幅を有する記憶装置及び／又はメモリ装置並びに通信装置を含み得る。例えば、オプティマイザ３０６は、以下の擬似コード７に示されるような機能を実行するように構成されてもよい。

いくつかの実施形態では、偏り低減システム３００は、次に、例えば、ディスプレイ３１２を介して、さもなければ予測に偏りを与えるであろう外れ値の低減により、より正確かつ効率的なやり方で、ＤＯＢＲエンジン３０１によって生成される数あるデータの中で、機械学習モデル予測、外れ値分析、予測の収束をユーザに戻し得る。

図６は、本開示の１つ以上の実施形態による例示的な新規な方法論のフローチャートを示す。

上述のＤＯＢＲエンジン３０１及びフィルタ３０１ｂ等のＤＯＢＲは、事前定義された基準の対象となる外れ値レコードを除去するための反復プロセスを提供する。この条件は、パーセンテージで表されるユーザ定義の誤差許容値である。これは、ここでの検討の後半に記載される洞察及びその他の分析結果に潜在的に基づいて、ユーザがモデルで許容できる誤差の量を示す。値１００％は、全ての誤差が許容され、ＤＯＢＲプロセスでレコードが除去されないことを示す。０％を選択すると、全てのレコードが除去される。一般に、工業用途では８０から９５％の範囲の誤差許容値が観測されている。

しかしながら、いくつかの実施形態では、データセットが外れ値を含まない場合、ＤＯＢＲは値を提供しないことにも留意されたい。ただし、実際の状況では、データセットで作業する前に分析者がこの知識を持っていることはまれである。この検討の後半で示されるように、ＤＯＢＲ法の実施形態は、モデル外れ値を表すデータセットのパーセンテージを決定することもできる。この事前分析ステップは、適切な誤差許容値の設定、又は外れ値が存在する場合に役立ち得る。

以下のステップは、完全なデータセットに適用される基本的なＤＯＢＲ法の概要を示す。

事前分析：一実施形態では、まず誤差許容基準を選択し、例えば、∝＝８０％を選択する。（データからこの値をどのように決定するかは、ＤＯＢＲ法を説明した後に示す。）次に、例えば下記の式１に従って、誤差許容基準Ｃ（∝）を定義する。

ここで、∝は誤差許容基準であり、Ｃは誤差許容基準の関数であり、f（）は比較関数であり、yはデータレコードの値であり、y_predは予測値であり、y_tarは目標値である。

他の関数関係を使用してＣ（α）を設定し得るが、パーセンタイル関数は、次の式２のような所定のデータレコードがモデルに含まれるか除外されるかの理由を理解するための直感的なガイドとなる。

ここで、P_∝はパーセンタイル関数であり、iはレコードエントリのインデックスであり、mはレコードエントリの数である。

ＤＯＢＲ手順は反復的であるため、一実施形態では、収束基準も定義され、ここでは、それは０．５％に設定される。

一実施形態では、データセット{x，y_tar}４０４、解モデルM４０８、及び誤差許容基準∝４２４が与えられると、ＤＯＢＲは、モデルM４０８のトレーニングにおける偏りを低減するように実装され得る。いくつかの実施形態では、解モデルM４０８は、例えば、処理装置及びメモリ及び／又は記憶装置を含むモデルエンジンによって実装される。一実施形態によれば、例示的な方法論は、全てのレコードについて、モデル係数Ｍ（ｃ）４０２及びモデル推定値{y_pred}４１０を計算し、例えば下記の式３に従って、完全な入力データセット{x，y_tar}４０４に解モデルM４０８を適用する。

ここで、０は初期状態を示し、xは入力レコードを示す。

次に、例示的な実施形態によれば、合計誤差関数４１８は、例えば以下の式４に従って初期モデル合計誤差e_０を計算する。

ここで、e_０は初期モデル合計誤差であり、０は初期値である。

次に、例示的な実施形態によれば、誤差関数４１２は、例えば下記の式５に従ってモデル誤差を計算する。

ここで、Eは予測されたレコード誤差であり、kはレコード選択の反復を表す。

次に、例示的な実施形態によれば、誤差関数４１２は、例えば下記の式６に従って新しいデータレコード選択ベクトル{I_k}を計算する。

ここで、Iはレコード選択ベクトルである。

次に、例示的な実施形態によれば、データレコードセレクタ４１４は、例えば以下の式７に従って、レコード選択ベクトルが１に等しいレコードのみを選択することによって、モデル計算に含まれる非外れ値データレコードを計算する。

ここで、inは、非外れ値としてＤＯＢＲに含まれるレコードのセットを参照するインデックスである。

次に、例示的な実施形態によれば、最新の係数４０２を有するモデル４０８は、例えば以下の式８に従って、ＤＯＢＲ選択データレコード４１６から新しい予測値４２０及びモデル係数４０２を計算する。

次に、例示的な実施形態によれば、モデル４０８は、新しいモデル係数を使用して、完全なデータセットに対する新しい予測値４２０を計算する。このステップは、形式ステップにおけるＤＯＢＲ選択レコードの予測値４２０の計算を再現するが、実際には、例えば下記の式９に従って、新しいモデルはＤＯＢＲ除去レコードのみに適用され得る。

次に、例示的な実施形態によれば、合計誤差関数４１８は、例えば以下の式１０に従ってモデル合計誤差を計算する。

ここで、y^はターゲット出力である。

次に、例示的な実施形態によれば、収束テスト４２４は、例えば下記の式１１に従ってモデルの収束をテストする。

ここで、βは収束基準４２２であり、例えば０．５％である。

いくつかの実施形態では、収束テスト４２４は、例えば、パーセント誤差が、例えば、０．５％未満であれば、反復プロセスを終了してもよい。そうでなければ、プロセスは初期データセット４０４に戻ってもよい。次に、上記の各ステップを実行し、収束基準４２２が再テストされてもよい。このプロセスは、収束テスト４２４が収束基準４２４を下回るまで繰り返される。

図７は、本開示の１つ以上の実施形態による、偏りを低減した別の例示的なコンピュータベース機械学習モデルのモデル誤差と誤差許容基準との関係の一例を示すグラフである。

∝はＤＯＢＲへの入力パラメータであり、モデル結果は選択された値に基づいて変化し得るため、一実施形態では、どの値が使用されるかを正当化するためにデータベースの手順を文書化することが重要である。ＤＯＢＲが開発及び適用された実際の応用において、その選択のための理論的根拠は（まだ）ない。しかしながら、実際には、モデル誤差対∝のプロットは、外れ値の見かけの効果が減少する勾配の変化を生じ得る。図１は、本発明の一実施形態による発電ベンチマーキングに関連する非線形回帰４０２の計算に対するこのプロットを示す。

一実施形態では、この曲線の一般的な形状は、∝＝１００％で常に最大の誤差で始まり、∝＝０％のときモデル誤差は０であるということで予め決定されている。図７において、曲線勾配は∝＝８５％の付近で変化することに注意されたい。また、より小さい全ての∝値に対して勾配は略一定である。この時点での勾配の変化は、データレコードの除去に関してモデルの変動性が変化していないこと、又は言い換えれば、これらの誤差許容レベルに外れ値が存在しないことを示唆している。∝＝８５％を超えると、少なくとも２つの見かけの勾配変化があり、これはあるデータセット割合がこのモデルでは説明できない特性又は現象を含むことを示唆している。この視覚テストは、適切な誤差許容レベルを設定し、ＤＯＢＲが必要かどうかを判断するのに役立ち得る。図７の線の勾配が変化しない場合、このモデルは、観察されたデータの変動性を十分に説明する。モデルの外れ値はなく、ＤＯＢＲを適用する必要はない。

追加の変動性の特定のパーセンテージがデータセットに追加されたシミュレーション研究において、図６のような曲線は、シミュレーションにプログラムされた誤差許容値に略近いところでより小さい値の勾配と交差する初期の急な勾配線を示す。しかしながら、実際には、外れ値が観測された場合、一定の勾配への遷移は一般的に徐々に起こり、モデルで説明されていない複数のタイプの変動が存在することを示唆している。

適切な誤差許容値の計算は、ＤＯＢＲの使用に必要な部分であり、これはモデル結果に対する外れ値の影響の量と重大度も視覚的に示す。このステップは∝の選択を文書化し、外れ値データからのモデル予測値と比較して外れ値の影響が最小であると判断される場合は、ＤＯＢＲを使用しないことを正当化することができる。

いくつかの実施形態では、∝及びモデル誤差対∝値は、特定のシナリオについて最良の性能のモデル又はモデルのアンサンブルを識別するためのメトリックとして使用することができる。異なるデータセットでは線形性の程度が変化し得るため、データとモデルに対する正確な∝値によってモデルの性能が変化し得る。したがって、誤差許容レベルの関数としてのモデル誤差を使用して、正確な予測を形成するために、データの変動性に対する多少の許容範囲を示すモデル誤差を持つことによって、所与のモデルがデータの変動性をどの程度説明できるかを決定することができる。例えば、モデル予測の正確さ及び精度は、例えば、高い誤差許容値に対して低いモデル誤差を示すモデル及び／又はモデルパラメータを選択して、外れ値データに対してより寛容なモデルを選択することによって調整されてもよい。

いくつかの実施形態では、モデル選択は、例えば、モデル誤差及び誤差許容基準のバランスに従ってデータセットに対する最良の性能モデルを識別するように、ルールベースのプログラミング及び／又は機械学習モデルを用いて自動化されてもよい。したがって、データセット内の外れ値を最適に説明するモデルが自動的に選択され得る。例えば、モデル誤差は、１つ以上の誤差許容値についてモデル間で比較されてもよく、最も低いモデル誤差を有するモデルが、予測を生成するために自動的に選択される。

結果として、本開示の態様によるＤＯＢＲ機械学習技術は、より効果的なモデルトレーニングを提供するとともに、個々のデータセットのデータ及びモデル特性に対する可視性を改善する。その結果、例えば、人工知能、データ分析、ビジネスインテリジェンス及びその他の分野では、様々な種類のデータに対して、機械学習モデルがより効果的かつ効率的に試され得る。その後、アプリケーションとデータの種類に対する最適なモデルを決定するために、モデルの性能がより効率的に評価され得る。例えば、人工知能アプリケーションは、生成される知能のタイプに対してＤＯＢＲを用いて選択及びトレーニングされたモデルを用いて改善され得る。同様に、ビジネスインテリジェンスとデータ分析、及び物理的な挙動の予測、コンテンツの推奨、リソース使用の予測、自然言語処理、その他の機械学習アプリケーション等の他のアプリケーションは、ＤＯＢＲを使用してモデルパラメータを調整すると共に、外れ値の特性と、外れ値に応じたモデル誤差に基づいてモデルを選択することによって改善され得る。

図８は、本開示の１つ以上の実施形態による、偏りを低減した別の例示的なコンピュータベース機械学習モデルのモデル誤差と誤差許容基準との関係の一例を示すグラフである。

データセット上のＤＯＢＲの実施形態の例として、Ｃａｌｉｆｏｒｎｉａ－Ｉｒｖｉｎｅ大学の機械学習データリポジトリからダウンロードしたコンクリート圧縮強度データセット５０４を使用する。このデータセットには、８つの独立変数を持つ１０３０個の観測、レコード、又はインスタンスが含まれる。最初の７つは、経過日数によるコンクリート組成、すなわち、セメント量、高性能減水剤、高炉スラグ、粗骨材、フライアッシュ、細骨材、水、及び経年を記述する。

出力変数は、メガパスカル（ＭＰａ）で測定されたコンクリート圧縮強度（Concrete Compressive Strength）である。比較のために、１ＭＰａ≒１４５ｐｓｉとした。線形回帰モデルは、例えば以下の式１２に従って構築される。

ここで、a_iは線形回帰モデルによって計算された係数であり、x_iは８つの変数の観測値であり、iは変数インデックスである。

図８は、ＤＯＢＲ誤差許容パーセンテージ∝の関数として１００から６０％まで線形回帰モデル５０４を実行することによって構成されている。∝＝１００％から約∝＝９５％までは、回帰５０６によって示されるように、モデル誤差に急峻な低下があり、αの関数としての誤差の減少は、∝＝８５％まで僅かに低い割合で減少する。この点から先は、回帰５０８で示されるように、∝は一定の割合で減少する。誤差が一定の割合で減少し始める点は、モデルの外れ値の影響がモデル計算から除外される点である。この場合、選択点は∝＝８５％である。

一実施形態では、次にＤＯＢＲは修正され、線形回帰モデルは∝＝９２．５％について再実行され、非外れ値データに適合する最良のモデルを決定する。図９及び図１０は、完全なデータセット５１２（図９）及びＤＯＢＲバージョン（図１０）を用いたこれらの計算の結果を示し、外れ値が特定されて計算から除去されている。赤色の十字で示された外れ値５１６は、非外れ値モデルから計算される。これらのプロットの両方は、図９及び図１０について、それぞれ斜線５１０及び５１４によって実際対予測の目標値を示し、同等であることが示されている。完全なデータセット計算（図９）は、外れ値がどのように結果を偏らせ得るかを示している。ＤＯＢＲ修正プロット（図１０）は、対角線５１４が非外れ値５１８を二等分して除去された偏り、及びさらなる研究を正当化し得る明らかな外れ値データ点５１６のグループを示す。

図９は、本開示の１つ以上の実施形態による、偏りが低減していない基準コンピュータベース機械学習モデルの予測される圧縮強度と圧縮強度との関係の一例を示すグラフである。

図１０は、本開示の１つ以上の実施形態による、偏りが低減した別の例示的なコンピュータベース機械学習モデルの予測される圧縮強度と圧縮強度との間の関係の一例を示すグラフである。

外れ値の識別及び上記のタイプのプロットにおいてそれらが形成することがあるパターンは、工業的応用におけるＤＯＢＲ法の付加的利益のために有用であった。外れ値は、他の方法では単純に観察されないパターン又はグループを形成し得る。この情報は、分析者が提供するモデルによってＤＯＢＲを使用するだけで作成される。追加情報又は前提条件は不要である。実際には、ＤＯＢＲで定義された外れ値セットは、基礎となるモデルの改善、洞察の提供、又は検証に有用な情報を提供することができる。

図１１は、本開示の１つ以上の実施形態による、ＤＯＢＲによる機械学習予測のための別の例示的なコンピュータベースシステムのブロック図である。

本発明の一実施形態では、機械学習手順は、ｎ個の独立変数と、長さがｍ個のレコードと、目的変数Y^の配列(m×１)とからなるデータセットX^で始まる。一実施形態では、機械学習モデルをトレーニングするために、データセット{X^，Y^}は、例えば以下の式１３に従って、事前に決定されたサイズのランダムに選択された２つのサブセットに分割される。その１つはモデルをトレーニングするためであり、もう１つはその予測精度をテストするためである。

ここで、x^はデータセットの独立変数X^のサブセットであり、y^はデータセットの独立変数Y^のサブセットである。

この検討では、{X^，Y^}の７０％／３０％分割がトレーニング（ｎレコード）及びテスト（ｊレコード）に使用されるが（例えば、レコードの７０％がトレーニングであり、３０％がテストである）、例えば、５０％／５０％、６０％／４０％、８０％／２０％、９０％／１０％、９５％／５％、又は他の適切なトレーニング／テスト分割等の任意の適切な分割を使用し得る。(x^，y^)_trainを使用してトレーニングされた機械学習モデルLは、例えば下記の式１４で表される予測された目的変数{y_pred}のセットを計算することによってテストされる。

例示的な実施形態では、モデル精度は、次に、ノルム||y_pred，y_test||として測定され、これは、例えば、以下の形式を有してもよい。

例示的な実施形態では、トレーニング及びテスト環境において、入力変数及び出力変数の両方を有するため、外れ値を直接測定することができる。一般に、実際の目的変数値からの大きな偏差等のあるモデル予測{y_pred}の外れ値は、モデルLが特定の入力値を既知の目的変数に近い予測値に変換できないことに起因する。これらのレコードの入力データには、モデルが目的変数によって与えられた現実にマッピングできない要因及び／又は現象の影響が含まれる。モデル係数は全てのデータレコードが同等に有効であるという前提で計算されるため、データセットにこれらのレコードを保持すると、結果に偏りが生じ得る。

いくつかの実施形態では、上述のＤＯＢＲプロセスは、例えば、上述の図６を参照して、結果を不利に偏らせる外れ値を除去することによってデータに適合する最良のモデルを分析者が望む所与のデータセットに対して作用する。外れ値が除去された初期データセットのサブセットにモデル解を制限することで、モデルの予測精度が向上する。例示的な実施形態では、ＤＯＢＲ支援ソリューションは、２つの出力結果を有する。すなわち、ａ）モデルがデータを記述するｘ値、モデルパラメータ、及びモデル解のセット、及びｂ）モデルがデータを記述しないｘ値、モデルパラメータ、及びモデル解のセットである。

したがって、制限されたデータセットについてより正確なモデルを計算することに加えて、複数の実施形態では、ＤＯＢＲは、高いモデル予測誤差の１つ以上の原因を理解するために、所与のモデルに関してさらに研究され得る外れ値データセットも提供する。

このセクションで既に示した機械学習フレームワークの例示的な実施形態では、予測モデルはトレーニングデータから計算され、そのモデルのみがテスト段階で使用される。設計上、テスト段階は外れ値を決定するために目標値を使用しなくてもよいため、図６を参照して上述したＤＯＢＲ法は適用されなくてもよい。しかしながら、ＤＯＢＲ法には上記では利用されなかった可能性がある例示的な態様があり、すなわち前述のＤＯＢＲの出力結果によって示唆された外れ値－非外れ値分類の可能性がある。

本発明の一実施形態の機械学習アプリケーションにおけるＤＯＢＲを説明するために、データセットは、ランダムに選択された２つの部分に分割されてもよく、その１つはトレーニング用であり、もう１つはテスト用である。トレーニング段階では、独立変数と目的変数の両方が保持されるが、テストでは目的変数が隠されて、目的変数を予測するために独立変数が使用される。既知の目的変数値は、モデルの予測誤差の測定にのみ使用される。

一実施形態では、ｎレコードを有するトレーニングデータセット{x，y_tar}_train６０４、機械学習モデルL６０８、及び誤差許容基準∝６２２が与えられると、ＤＯＢＲは、機械学習モデルL６０８のトレーニングにおける偏りを低減するように実装され得る。いくつかの実施形態では、機械学習モデルL６０８は、例えば、処理装置、メモリ及び／又は記憶装置を含むモデルエンジンによって実装される。一実施形態によれば、例示的な方法論モデルは、全てのレコードについて{y_train}を推定し、例えば下記の式１６に従って、機械学習モデルL６０８を完全な入力データセット{x，y_tar}_train６０４に適用する。

ここで、０は初期状態を示し、xは入力レコードを示す。

次いで、例示的な実施形態によれば、合計誤差関数６１８は、例えば下記の式１７に従って、初期モデル合計誤差e₀を計算する。

ここで、e₀は初期モデル合計誤差である。

次に、例示的な実施形態によれば、誤差関数６１２は、例えば以下の式１８に従ってモデル誤差を計算する。

ここで、Eは予測レコード誤差であり、kは反復を表す。

次に、例示的な実施形態によれば、誤差関数６１２は、例えば以下の式１９に従って新しいデータレコード選択ベクトルを計算する。

ここで、Iはレコード選択ベクトルである。

次に、例示的な実施形態によれば、データレコードセレクタ６１４は、例えば以下の式２０に従って、レコード選択ベクトルが１に等しいレコードのみを選択することによって、モデル計算に含まれる非外れ値データレコードを計算する。

次に、例示的な実施形態によれば、最新の係数６０２を有する機械学習モジュール６０８は、例えば下記の式２１に従って、ＤＯＢＲ選択データレコードを使用して完全なトレーニングセット６０４に対する新しい予測値６２０を計算する。

次に、例示的な実施形態によれば、総誤差関数６１８は、例えば以下の式２２に従って、モデル総誤差を計算する。

次に、例示的な実施形態によれば、収束テスト６２４は、例えば下記の式２３に従って、モデルの収束をテストする。

ここで、βは収束基準６２２であり、例えば０．５％である。

いくつかの実施形態では、収束テスト６２４は、例えば、パーセント誤差が、例えば、０．５％未満であれば、反復プロセスを終了してもよい。そうでなければ、プロセスはトレーニングデータセット６０４に戻ってもよい。

いくつかの実施形態では、ＤＯＢＲ反復手順は、テストデータセットに対するその精度を測定するのではなく、モデルがそれ自体をどれだけよく予測できるかを測定する。ここでの目的は、目的変数を予測するモデルの機能をテストすることであり、大きな偏差を持つレコードを系統的に除去して、データ予測が比較的良好なデータの大部分に焦点を当てるようにモデルの能力を向上させる。このプロセスは、同じデータセットで行われる必要がある。テストセットで外れ値が特定された場合、トレーニングセットからレコードを除去することは意味がない。このプロセスは、新しいモデル（新しいモデルパラメータ）が計算された後に、前の反復で除去されたレコードが再入力されるという点で、ＤＯＢＲ法の基本である。このプロセスでは、同じデータセットを使用する必要がある。

一実施形態では、この反復手順は、学習モデルが定義された後に実行される。解決すべき問題に基づいて、一実施形態では、ユーザは機械学習アルゴリズムを選択し、次いで、モデルを「調整」又は設定する特定のハイパーパラメータを決定する。これらのパラメータは、クロス検証等の標準的な技術を使用して選択すること、又はユーザが指定した特定のパラメータ範囲の関数として単にテスト誤差をプロットすることによって選択され得る。使用される特定の値は、モデルが過不足なく適合していることを保証しながら、予測精度対計算時間を最適化し得る。このプロセスを支援する堅牢なツールがいくつかあるが、ユーザ体験と直感も最良のモデルハイパーパラメータを選択する際に貴重な利点である。特定のモデル及び関連するハイパーパラメータは、以下に説明する例で使用される。

誤差許容値対モデル誤差プロットは、誤差許容値のシーケンスを適用し、結果を表にするか又はプロットすることによって、このステップから計算される。これらのプロットは、これらの誤差の寄与がモデルに適合するデータレコードの誤差の寄与よりも僅かに大きいという意味で、外れ値であるデータセットの割合を識別する。また、実際には、これらのプロットは、モデルで説明されない複数の種類の変動を示し得る。勾配は、モデルの勾配に収束するにつれて変化し得る。これらの変動は、モデルでは説明されない追加のデータコーディングされた挙動の性質の調査に役立ち得る。異なる勾配間隔を占めるレコードが特定されてもよく、それらをさらに調査することで、より堅牢なモデルの構築に役立つ洞察を得ることができる。

一実施形態では、上述のように、トレーニング時に２つのモデルが計算される。

ここで、{y_ref}は精度の向上を測定するための基準として使用される参照モデルである。

ここで、{y_Base}は、収束された外れ値の打ち切られたレコードから構築され、非外れ値データ(x，y)_inでトレーニングされたＤＯＢＲベースモデルである。

複数の実施形態では、モデル１及びモデル２に関連する誤差は、例えば、それぞれε_ref＝||{y_ref}，{y_test}||及びε_Base＝||{y_Base}，{y_test}||である。

したがって、複数の実施形態では、基本モデル{y_Base}は、それが非外れ値レコードのより良い予測器であり得ることを示唆している。しかしながら、テストデータセットは、非打ち切りであり、非外れ値と外れ値の両方を含んでいる。そのため、非外れ値のカスタマイズされたモデルを非打ち切りテストデータに適用することで、{y_ref}と比較してより良い予測モデルが生成されるかどうかは不明である。しかしながら、多くの場合、ε_Baseはε_refに対して統計的に等しいか又はより大きいかのいずれかであることが観察され得る。

目的が特定のデータセットの最適な予測モデルを計算することである非機械学習アプリケーションでは、選択された（非外れ値の）レコードから計算されるＤＯＢＲモデルは、識別された外れ値レコードが省略されるため、常により低いモデル誤差を生成する。外れ値がない限定的な場合には、データセットは同じであるので、ＤＯＢＲモデル誤差は全モデル誤差に等しい。

しかしながら、機械学習アプリケーションでは、目的は、利用可能なデータのサブセットを使用してモデルを開発し（トレーニング）、次いで、別のサブセットでその予測精度を測定すること（テスト）であってもよい。しかし、いくつかの実施形態では、ＤＯＢＲ法は、モデルパラメータを計算する前に、各反復でモデルの外れ値を除去する。機械学習モデルの開発では、これはトレーニング段階で行われ得るが、定義上、テストのターゲット値は、外れ値に関する高度な知識がなくても、モデルの予測精度を測定するためにのみ使用され得る。この観測は、標準的なＤＯＢＲ法がトレーニング段階で計算されたＤＯＢＲモデル情報のより多くを利用して一般化され得ることを意味する。

図１１は、本開示の１つ以上の実施形態による、偏りを低減した機械学習のための別の例示的なコンピュータベースシステムのブロック図である。

複数の実施形態では、上述のように、トレーニング時に、非外れ値(x，y)_inに対するＤＯＢＲ選択トレーニングデータセット値、非外れ値{I_in}に対するＤＯＢＲトレーニングデータ選択ベクトル、外れ値(x，y)_outに対するＤＯＢＲ選択トレーニングデータセット値、及び外れ値{１-I_in}に対するＤＯＢＲトレーニングデータ選択ベクトルという情報が生成される。

複数の実施形態では、ＤＯＢＲは、トレーニングデータを２つの相互に排他的なサブセットに分類する。さらに、対応する選択ベクトルもあり、これは、例えば、次の式２４に従って、トレーニングデータセット内の各レコードに対して（非外れ値又は外れ値）分類値であるバイナリを提供する。

複数の実施形態では、トレーニングデータ属性x_trainの完全なセット、及びＤＯＢＲ生成分類{I_train}は、例えばモデルライブラリ３０３に記憶された分類器機械学習モデルCを構築／トレーニングするために使用される。このモデルは、トレーニングデータセットＤＯＢＲ確立知識に基づいてテストデータレコードを外れ値又は非外れ値として分類するために、テストデータセットx_testに適用される。例えば、分類器機械学習モデルCは、以下の式２５に従って実装される。

したがって、一実施形態では、{I_C}は２つのテスト予測データセットを生成する。すなわち、
x_testinとx_testoutであり、ここでは、それぞれI_Ci＝１又は０である。上記の情報によって、テストデータセットの分析のためのいくつかの可能な「完全データセット」予測モデルが作成される。いくつかの実施形態では、データセット全体に対して最も予測的な改善を示したのは以下の３つである。

いくつかの実施形態では、{y_１}に関して、機械学習モデルL６０８は、非外れ値データ(x，y)_inによって定義され、非外れ値のテスト値を予測するためにＤＯＢＲテスト分類データx_testinに適用される。外れ値データについても同じ手順が行われる。複数の実施形態では、この組み合わせの目的は、その対応するデータセットを備えた最も正確な予測モデルを使用することである。言い換えると、このモデルは、ＤＯＢＲ分類で定義されたそれぞれのデータセットに個別に適用された非外れ値及び外れ値モデルの全体的な予測精度をテストする。

いくつかの実施形態では、{y_２}について、機械学習モデルL６０８は、トレーニングデータによって定義され、ＤＯＢＲテスト分類データx_testinにも適用される。このモデルは、L(x，y)_trainの広範な知識を使用して、ＤＯＢＲで定義された外れ値及び非外れ値ｘの値のターゲット値を予測する。このモデルの目的は、ＤＯＢＲによって分類された非外れ値及び外れ値データセットに別々に適用される完全トレーニングモデルの予測精度をテストすることである。

いくつかの実施形態では、第３のモデル{y_３}は、以前の２つのアプローチの予測特性を結合するハイブリッドである。このモデルは、もしあれば、L(x，y)_train、合計トレーニングに対してトレーニングされたモデル６０８と、L(x，y)_out、それぞれの分類されたデータセットに適用されたトレーニングセットにおけるＤＯＢＲによって分類された外れ値に対してトレーニングされた特定のモデルとを結合することの予測利益をテストする。さらなる研究で検討され得る追加のハイブリッドモデルもある。

これらの３つのモデル及び他の実施形態のそれぞれにおいて、完全なテストデータセットは、ＤＯＢＲによって分類された非外れ値及び外れ値の両方のレコードを利用して予測される。機械学習モデル全体の予測精度を向上させるＤＯＢＲ法の能力は、これらのモデルでテストされている。しかし、ＤＯＢＲの主な利点は、モデルの外れ値を識別し、それらを除去し、残りの非外れ値から最良のモデル予測器を計算することである。また、定義によれば、ＤＯＢＲ定義の外れ値は、利用される機械学習モデルを考慮して、現在の変数（又は特徴）に適切に記述されていない変動を含むレコードである。

いくつかの実施形態では、外れ値データセット及び非外れ値データセットが計算される場合、分析者は３つの選択肢を有する。一実施形態では、第１の選択肢は、基本モデル{y_ref}を適用し、ＤＯＢＲを適用しないことである。これは、リスク許容対モデル誤差曲線が線形関係に近い場合のデータ駆動型戦略である。一実施形態では、第２の選択肢は、１つ以上のモデル、すなわち、{y₁}、{y₂}又は{y₃}を適用し、結果を組み合わせ、例えば平均することである。一実施形態では、第３の選択肢は、非外れ値レコードのみについて予測を開発し、この特殊化された新しいデータセットについてモデリング戦略を開発するために外れ値データをさらに研究することであり、例えば、機械学習モデルの変更、又は説明できない変動の主要因となる変数の追加等である。

選択肢３については、非外れ値データセットを計算する複数のやり方があり、ここでは２つの可能な選択について説明する。比較的多数の可能性がある理由の１つは、多くの適用された機械学習モデルの非線形性に起因し得る。一般的に、{I_C}*L[(x，y)_train，x_test]≠L[(x，y)_train，{I_C}*x_test]である。この不等式は、多くの機械学習モデルの複雑さに起因し得る。例えば、線形回帰では等式が適用されるが、機械学習モデルの一般的ルールとしてではない。

複数の実施形態では、非外れ値予測に関して、ＤＯＢＲ法は、最初は、完全なデータセットの予測を改善するように設計されていなかった。設計により、この方法は与えられたモデル及びデータセットに基づいて最良の外れ値セットに収束する。残りのデータ及びモデルの計算では精度が向上するが、どのように外れ値を予測すべきかに関するガイダンスはない。黙示の決定は、非外れ値モデルに存在しない一意のデータ変動を反映する外れ値データセットに異なるモデルを適用することである。

複数の実施形態では、非外れ値予測精度をテストするために２つのモデルが定義され、分析から外れ値を除去する。非外れ値データセットを選択するための第１の選択は、例えば以下のモデル６に従って、ＤＯＢＲ分類ベクトル{I_C}を参照モデル{y_ref}に適用する。

複数の実施形態では、参照モデルは、データセットx_testから予測を行うために、完全なトレーニングデータ定義モデルを利用する。次に、トレーニングデータセットから取得されたＤＯＢＲ法の知識に基づいて、予測された外れ値を除去するために分類ベクトルが適用される。このモデルは、ＤＯＢＲを最も一般的又は広範な領域モデルに適用する。

複数の実施形態では、第２のモデルは、非外れ値トレーニングデータからトレーニング段階から作成されたＤＯＢＲモデルを使用することによって、最も狭い、又は「正確な」やり方でＤＯＢＲを、例えば以下のモデル７に従って、分類モデル{I_C}によって選択されたレコードのみに適用する。

本研究で開発された解析的定式化から形成され得るモデルは他にもあり、問題によっては、それらは予測可能性を大きく改善できる可能性があり得る。しかしながら、ここで使用されているモデル、{y₄}及び{y₅}は、トレーニング領域の使用率とモデル定義の観点から、最も広くかつ狭いバージョンを表すケースを制限している。

複数の実施形態では、例えば、モデル３～７等の上記で定義されたＤＯＢＲ開発モデルの予測精度をテストするために、モデル{y₁}、{y₂}及び{y₃}（それぞれモデル３、４、５）に関する比較基準として{y_ref}を使用する。{y₄}及び{y₅}（それぞれモデル６及び７）について、外れ値以外のデータセットに関するモデル予測であり、比較基準は{I_C}*y_testである。したがって、複数の実施形態では、誤差は、例えば、以下の式２６、２７及び２８に従って決定され得る（ここで、ｍはテストデータセットの長さであり、Ｇは非外れ値データセットの長さである）。

例示的な実施形態の以下の例では、ＤＯＢＲの予測精度の尺度は、どの程度、（もしあれば）ε₁、ε₂及び／又はε₃がε_Refを下回るかによって測定される。非外れ値データセット誤差ε₄及びε₅について、改善の尺度は、外れ値調整ベース誤差ε_Refに対する誤差の減少である。例示の結果に関して、その調整を以下に説明する。

例示的な新規なＤＯＢＲ改良の機械学習例のいくつかの実施形態では、先に定義された５つのモデルの精度は、７つの機械学習回帰モデル、すなわち、線形回帰、ｋ最近傍、ＬＡＳＳＯ、サポートベクトル、決定木、バギング、及びランダムフォレストによってテストされてもよい。これらの機械学習回帰モデルは、広範なモデル構造の例である。特に、ニューラルネットワーク、クラスタリング、アンサンブルモデル、及びそれらの組み合わせ等の追加又は代替のモデルも考えられる。

線形回帰は、プロセスに関する洞察を分析者に与える方法であり、ここでは、係数（又はモデルパラメータ）が技術／プロセス関連の意味を持ち得る。方程式で表されるプロセスのモデルは、分析者によって提供されなければならず、係数は、予測の目標値とデータ供給の目標値との間の誤差を最小化することによって決定される。

“ｌｅａｓｔａｂｓｏｌｕｔｅｓｈｒｉｎｋａｇｅａｎｄｓｅｌｅｃｔｉｏｎｏｐｅｒａｔｏｒ”の省略形であるＬＡＳＳＯは、回帰関連の方法であり、ここでは、目的関数に加算項が追加される。この項は、回帰係数の絶対値の合計であり、ユーザ指定のパラメータに従って最小化される。この加算項の目的は、可変（又は特徴）係数の値を増加させるためのペナルティを追加することである。最小化は支配的係数のみを保持し、変数（又は特徴）共分散又は共線性の解釈困難な影響の低減に役立ち得る。

決定木回帰は、人間の思考を模倣でき、直感的かつ簡単に解釈することができる。モデルは、ｘ値がどのように目的変数を生成するかを論理的に示す決定木構造を選択する。リーフあたりの最大深度及び最小サンプル等の特定のパラメータは、トレーニング／テストの機械学習実践で分析者によって設定される。

ランダムフォレスト回帰は、決定木法に基づいている。森林が木で構成されているように、ランダムなフォレスト回帰モデルは決定木のグループで構成される。分析者は、推定量（フォレスト内のツリーの数）、複数のツリーのうちの決定木の最大深さに類似したいくつかのパラメータ、リーフ特性、及びモデル誤差がどのように計算及び適用されるかに関連する技術的パラメータを与えることにより、フォレスト構造を定義する。

ｋ‐ＮＮはｋ最近傍法を意味し、ここで予測値はｘ（又は特徴）領域におけるｋ最近傍から計算される。距離を測定するメトリック及び使用する最近傍ノードの特定の数を選択することは、所与のデータセットでの予測のためにモデルを調整するときに分析者によって設定される主要なパラメータである。これは、回帰及び分類の予測に適した簡単な方法である。

サポートベクトル回帰は、複数の変動を持つ汎用的な機械学習法である。回帰とは、モデルをデータに適合させることを意味し、最適化は通常、予測変数と目的変数との間の誤差を最小化することである。サポートベクトル回帰では、誤差基準は、誤差がある値「ε」よりも小さい場合、「近似は十分である」と言い、「ε」よりも大きい誤差のみが測定されかつ最適化されるように一般化される。この属性に加えて、この方法は、標準又は場合によってはユーザ定義の変換関数又はカーネルを使用して、データを非線形領域に変換することを可能にする。多次元データ構造は、回帰の従来の精神でデータをモデル化するのではなく、堅牢な予測を計算することを目的とする場合に使用される。

バギング回帰では、置換されたランダムサブセットの描画から予測推定値が計算される。各ランダムサンプルは、目的変数の決定木（既定）予測を計算する。最終的なアンサンブル予測値は、いくつかのやり方で計算可能であり、平均値はその一例である。主要な機械学習変数は、各アンサンブル内の推定量の数、各推定量をトレーニングするために描画する変数（又は特徴）とサンプルの数、及び選択／置換のガイドラインである。この方法は、決定木回帰のような他の方法と比較して分散を低減できる。

分類器モデルC[(I_training，x_train)，x_test]は、テストデータセット内の非外れ値及び外れ値を定義するためにＤＯＢＲ非外れ値／外れ値分類及びトレーニングセットｘ値に適用されるため、１つの例示である。これは、トレーニングセットからテストデータセット又は生産データセットに外れ値の知識を転送するため、ＤＯＢＲの機械学習アプリケーションにおける重要なステップである。不適切な分類がある場合、機械学習予測の精度を向上させるためのＤＯＢＲ法の有用性は実現されない。

決定木、ｋ‐ＮＮ，ランダムフォレスト、及びバギング分類器モデルを、それらの分類精度についてテストした。バギング及びランダムフォレストモデルを選択し、両方のモデルを、非外れ値に対して正しい誤差許容率を生成するように調整した。より詳細な分類分析は、他のモデルを示唆し得る。分類精度が最重要ではあるが、広範な分類器分析は、この初期の議論の範囲外である。

図１２は、本開示の１つ以上の実施形態による、コンクリート強度を予測するための偏りを低減したいくつかの例示的なコンピュータベース機械学習モデルのモデル誤差と誤差許容基準との関係の一例を示すグラフである。

最初の例では、コンクリート圧縮強度に関して前述したものと同じデータセットが使用され、ここで、ＤＯＢＲが完全なデータセットに適用される。簡単なレビューとして、このデータセットは８つの定量的入力変数によって定義されたその組成及び曝露の関数としてのコンクリート圧縮強度を含む。データセットは１，０３０のレコード又はインスタンスを有しており、カリフォルニア大学アーバイン校の機械学習リポジトリアーカイブで見つけることができる。

機械学習トレーニング実践では、このデータセットが７０％：３０％分割に割けられ、ここでは、モデルの調整はトレーニングデータセット（７０％）に対して実行され、予測結果はテストデータセット（３０％）で測定された。

コンクリート圧縮強度予測における７つの機械学習モデルのモデル調整結果を以下の表１に示す。

（例えば、Ｐｙｔｈｏｎ３．６用の）デフォルトモデルパラメータは、結果に情報を追加しないため示されていない。複数の実施形態では、調整プロセスは、トレーニングを最小化するパラメータを選択し、平均二乗誤差を指標として使用してデータセット誤差をテストする実践である。より洗練されたアルゴリズムを適用することもできたが、単純なアプローチを使用して、結果がどちらのデータセット誤差にも過不足なく適合することを確認した。

一実施形態では、ＤＯＢＲを適用するために、もしあれば、誤差が過度に大きいデータのパーセンテージの決定が実行される。複数の実施形態では、機械学習モデルは、誤差許容率のシーケンスに適用され、対応するモデル誤差を記録する。テストデータセットは機械学習モデルの予測精度を測定するためにのみ使用されるため、これはトレーニングデータセットに対してのみ行われる。モデルに含まれるデータのパーセンテージ「誤差許容値」は、ユーザが許容することを受け入れるモデル誤差の合計量を指し、モデルが適切に記述するデータの割合も示す。

複数の実施形態では、誤差許容パーセンテージシーケンスは、２の増分で１００％～６０％の範囲である。

図１３は、本開示の１つ以上の実施形態による、エネルギ使用を予測するための偏りを低減したいくつかの例示的なコンピュータベース機械学習モデルのモデル誤差と誤差許容基準との関係の一例を示すグラフである。

第２の例には、機器のエネルギ使用データと共に家庭環境及び照明条件が含まれ、サンプリングは１０分ごとに４か月半にわたり行われた。これは、２９個の属性、すなわち、２８個の入力変数と１個の出力（目的変数）、及び１９，７３５個のレコードから構成されている。データセットと文書は、カリフォルニア大学アーバイン校の機械学習リポジトリアーカイブで見つけられる。

上記と同様に、複数の実施形態では、機器のエネルギ使用予測における７つの機械学習モデルのモデル調整結果を以下の表２に示す。

複数の実施形態では、（例えば、Ｐｙｔｈｏｎ３．６用の）デフォルトモデルパラメータは、結果に情報を追加しないため示されていない。調整プロセスは、指標として平均二乗誤差を用いて、トレーニングとテストデータセット誤差を最小化するパラメータを選択する実践であった。より洗練されたアルゴリズムを適用することもできたが、単純なアプローチを使用して、結果がどちらのデータセット誤差にも過不足なく適合することを確認した。

図１２及び図１３は、高変動データに適応する機械学習モデルの能力を部分的に示す。線が線形（直線）に近いほど、モデルがデータを適切に記述する能力は高くなり、これにより、もしあっても、外れ値は少なくなる。コンクリートデータに適用されたいくつかのモデルの線形特性は、それらがトレーニングデータセット全体を略完全に記述できることを示ししている。エネルギデータセットの結果の非線形性は、モデルが不正確な予測又は外れ値を生成するデータレコードの割合が高いことを示している。

例えば、線形回帰５３０、ＬＡＳＳＯ５４０、決定木回帰５２２、ランダムフォレスト回帰５２８、ｋ－近傍回帰５２４、サポートベクトル回帰（ＳＶＲ）５２０及びバギング回帰５２６を含む上記のコンクリートのデータプロット、並びに例えば、線形回帰７３０、ＬＡＳＳＯ７４０、決定木回帰７２２、ランダムフォレスト回帰７２８、ｋ－近傍回帰７２４、サポートベクトル回帰（ＳＶＲ）７２０及びバギング回帰７２６を含む上記のエネルギ使用データプロットにおける各曲線について、本発明の実施形態に従って、外れ値の割合が始まる誤差許容値を決定するように、低い誤差許容パーセンテージによって定義される直線が外挿され得る。このプロセスは自動化することができるが、実際には、選択された誤差許容値が分析者の判断を確実に反映するように手動で実行されてもよい。

外挿の実践及び誤差許容率の選択は比較的簡単なプロセスであるが、非常に重要な意味を有する。これは、提案されたモデルがどの程度データに適合するかを示す。誤差許容値の補数は、外れ値であるデータセットのパーセンテージであり、すなわち、モデルが比較的正確な予測を行うことができないレコードのパーセンテージである。これは、所与のデータセット及び実際の適用に対して機械学習（又は任意のモデル）を選択する際に重要な情報である。表３は、２つの例示的なデータセットの各モードについて選択された誤差許容値を示す。

複数の実施形態では、ＤＯＢＲ選択値のみの予測精度が参照モデルと比較される。これは、その方法自体では完全なデータセットの予測精度の向上に関する特定の情報が提供されないため、ＤＯＢＲの基本的な有用性である。そのため、ＤＯＢＲ分析では、データセットの一部の予測能力は向上するが、外れ値のレコードに関する情報は提供されないという分析者にとってのトレードオフが生じる可能性がある。このセクションで取り扱う問題は、もしあれば、ＤＯＢＲで選択された結果が、対応する参照モデルのテストデータ予測と比較してどの程度正確であるかということである。

完全なデータセットに対して基準誤差が計算される。非外れ値データセットとの比較のための調整された基準誤差値は、完全な基準誤差に誤差許容値を掛けることによって計算される。例えば、基準誤差が１０．０であり、誤差許容値が８０％である場合、調整された基準誤差は１０×８０％すなわち８．０である。この解釈では、「誤差許容」の定義が使用される。例えば、非外れ値データを８０％のデータについて計算した場合、誤差合計の８０％は依然として非外れ値データに残るはずである。これが誤差許容の定義である。

ＤＯＢＲ選択非外れ値の予測精度性能を測定した結果が以下の表４及び表５に示されており、それぞれが、例えば、コンクリート強度データセット及びエネルギデータセットに対応する。基準誤差は、実際の誤差許容パーセンテージに||{y_Ref}，{y_test}||の点推定値を乗算することによって計算される。ランダムフォレスト分類器は、ＤＯＢＲの予測精度向上に関する結論を変更しないと判断されたため、コンクリートのデータセットには適用されなかった。

以下の全ての統計について、結果は、トレーニング及びテストデータのサブセットの１００のランダムな試行選択からの平均±９５％信頼区間を示す。以下の表のいくつかの例では、計算時間の問題を管理するために、サポートベクトルの結果は、より少ない反復回数（５回又は１０回）から計算された。

表４に示すように、ＤＯＢＲ選択レコードを使用した予測の改善はほとんどない。この結果は驚くべきものではなく、実際には、図１２に示された誤差許容対モデル誤差曲線の形状に基づいて予測される。

また、予測されるように、図１３に基づいて、表５は、バギング分類器及びランダムフォレスト分類器の両方について、参照モデル値からのＤＯＢＲ選択予測にかなりの改善があることを示しており、それぞれ、以下では図１４Ａ及び図１４Ｂを参照されたい。ＤＯＢＲモデル{y₅}={y_1in}は、モデル学習前の外れ値の除去を示唆する最大の改善を示し、ＤＯＢＲ分類と結合して、完全（非ＤＯＢＲ）モデルに対してＤＯＢＲ分類を単に使用するよりも良い結果を提供する。モデル間の改善結果の相違は、モデルの選択が重要であることを示している。この決定は分析者によって行われるが、モデル別に予測精度を比較することは興味深いことである。モデルの実行時間及び他のいくつかの要因も重要であり、この研究は１つのモデルが他のモデルよりも有効であることを示唆するために設計又は意図されたものではない。

表５の結論は明白であり、統計的に有意である。図１３のようなプロットに示すように、外れ値偏りの可能性を考慮して、ＤＯＢＲ法を用いた機械学習モデルは、ＤＯＢＲを用いない機械学習モデルを用いるよりも、非外れ値レコードに対してより良好な予測精度を提供することができる。したがって、ＤＯＢＲを有する機械学習モデルを含む例示的な新規なコンピュータシステムは、予測を行う際の精度を改善すると共に誤差を低減し、それによって、モデルを実装する性能及び効率を向上させる。しかし、改善の達成には代償を伴う場合がある。すなわち、識別された外れ値に対して予測値又は考慮が与えられない場合がある。複数の実施形態では、外れ値レコードがどのようにモデル化されるかは、適用に基づいて変化し得る。

表６には、バギング分類器を用いたコンクリート圧縮強度データセットのトレーニング／テストサンプリングの予測精度結果が示されている。ランダムフォレスト分類器はこのデータセットに適用されなかった。この表は、トレーニングデータセットとテストデータセットの１００個のランダムな選択について、テストデータと各モデルの間の信頼度９５％での二乗平均平方根誤差（式１５を参照）を示している。

線形回帰とＬＡＳＳＯでは、基本モデル又は参照モデルの誤差が最大になる。しかしながら、{y₁}モデルは、決定木を除く他の全てのモデルと統計的に同じ予測精度を示す。この場合、決定木モデルは最高の予測精度を生成し、線形回帰とＬＡＳＳＯを除く全てのモデルはＤＯＢＲを追加しても改善されないと分かる。

表７は、例えば、ＤＯＢＲモデル：バギング分類器のコンクリート圧縮強度予測精度性能の各場合における参照モデルに対するＤＯＢＲモデルの予測精度の増加（＋）又は減少（－）を示す。

線形回帰及びＬＡＳＳＯのモデル誤差対誤差許容曲線は最大非線形性を持つプロットであり、他は略直線であり、モデルが目的変数を適切に予測し、外れ値分析を必要としないことを示唆するので、これらの結果は驚くべきものではない。そして、これが表７で伝えられるメッセージである。予測されたコンクリート圧縮強度に関するモデル出力は、添付の付録Ａに示されている。

ここで、表８のエネルギ消費予測誤差の結果を見ると、例えば、バギング及びランダムフォレスト分類器に関する機器エネルギ消費予測誤差を含む異なる状況が存在する。バギング、線形回帰及びＬＡＳＳＯモデルは最大の参照予測誤差を有し、ランダムフォレストモデルは最小である。右の３つの列のＤＯＢＲモデル誤差は、多くの場合、ＤＯＢＲモデルが参照モデルよりも高い予測精度を生成することを示している。

興味深いことに、バギング参照モデルは最大の基準誤差値を有するが、そのＤＯＢＲ拡張モデルの結果は一般に他のモデルと同じ統計的範囲にある。また、実用上の理由から、サポートベクトルモデルは１０回の反復のみが実行された。これは、そのモデル結果全体の不確実性の増加を説明する。

例えば、ＤＯＢＲモデルの機器エネルギ消費予測精度性能に関する詳細な改善結果を表９に示す。少なくとも１つのＤＯＢＲモデルによって、ほとんどの機械学習モデルに対して何らかの予測精度の向上がもたらされることに留意されたい。しかしながら、比較的大きな違いもあるため、ＤＯＢＲがもたらした予測可能性の改善に関する決定的な結果は得られていない。エネルギデータについてのモデル誤差対誤差許容曲線から、全てのプロットは非線形特性を示しており、ランダムフォレスト及び決定木モデルは最小の曲率を有している。そして、モデル、特にランダムフォレストは、ここに示された結果に基づいて、この変動を適切にモデル化することができると分かる。予測されるエネルギ使用に関するモデル出力は、添付の付録Ｂに示されている。

図１４Ａ及び図１４Ｂは、本開示の１つ以上の実施形態による、ＤＯＢＲ分類器を備えた本発明の例示的なコンピュータベースシステムの例示的な実施形態による、分類器モデルにおける非外れ値及び外れ値分布のプロットを示す。

コンクリートのデータセットは比較的小さいため、データプロットから視覚的な洞察を得ることができるが、この場合、ＤＯＢＲにはほとんど価値がないため、このデータセットをグラフ化しても、ＤＯＢＲの動作に関する理解は向上しない。しかしながら、エネルギデータセットの予測については、ＤＯＢＲによって予測が大幅に改善された。しかし、比較的大きなサイズであるため（１３，８１４件のトレーニングレコード、５，９２１件のテストレコード）、直接散布図の視覚化を解釈するのは困難である。図９及び図１０のような多数の点を有する散布図は、あらゆる詳細を消し去り得る。表３に示された誤差改善結果は、非外れ値データセットについての合計であるが、ＤＯＢＲ法及び分類モデルがこれらの結果をどのように生成するかについての疑問が残る。

複数の実施形態では、この問題に対処するために、２つのモデル表現、すなわち、外れ値及び非外れ値のデータセットの{y₄}、ランダムフォレスト分類器（図１４Ａ）及び{y₅}、バギング分類器（図１４Ｂ）についての誤差分布を分析し得る。一実施形態では、非外れ値誤差は、設計上、外れ値誤差よりも小さいはずであるが、例示的な新規なＤＯＢＲモデル及び分類プロセスは、トレーニングデータのみから構築されるので、テストデータセットは、以前には見られなかった情報を含み得る。その結果、モデル及び分類の計算は正確ではない場合があり、分類の誤差の範囲はこれらのプロットで視覚化され得る。この作業は、表５に示すように、２つのアプローチがそれぞれ最大及び最小の改善効果を有するため、線形回帰モデルとバギング回帰モデルに対して実行される。

議論のために、基準誤差値は、図１４Ａ及び図１４Ｂの両方のプロットにおいて強調表示される。上の矢印のセットは、８０％の非外れ値誤差値が１，０００未満であることを示しており、これは誤差値の２０％が＞１，０００であることを示している。また、下の矢印のセットは、外れ値分布について、外れ値の約２０％が＜１，０００の誤差を有するか又は８０％が＞１，０００の誤差を有することを示しており、これは外れ値の誤差を代表している。誤差許容パーセント値の事前知識がなければ、分類プロセスの精度を正確に計算することはできないが、上記のプロットは、誤分類が発生しても、ほとんどの値が適切に分類されることを示している。

図１５は、本開示の１つ以上の実施形態に従った、坑井掘削における非生産時間を予測するためのＤＯＢＲトレーニングされた機械学習モデルを有する、本発明の例示的なコンピュータベースシステムの例示的な実施形態の例示的な使用事例について、誤差許容値の関数としてのモデル誤差のプロットを示す。

沖合の坑井掘削作業は石油及びガス産業にとって独自の課題を有している。気象及び深海からの観測可能な物流及び環境リスクに加えて、高温、高圧、振動環境で作動する隠れたダウンホールリスクがある。掘削時間は過密なスケジュールに保たれ、ダウンホール設備の故障による遅延（非生産時間又はＮＰＴ）は、大きな収益ペナルティとなり得る。

ＮＰＴの管理を支援するために、機械学習モデルは、掘削目標を設定する契約条件にこれらの推定遅延を含めることを目的として、将来の停止時間イベントの予測を支援するように構築される。履歴イベントを確認すると、ドリル距離［ｆｅｅｔ］、穴サイズ［ｉｎｃｈ］、ツールサイズ［ｉｎｃｈ］、位置圧力の重大度、最大ドッグレッグ［ｄｅｇ／１００ｆｔ］、振動の重要度カテゴリ、曲率カテゴリ、ＮＰＴ（ｈｒ）が含まれている。

線形、ｘｇｂｏｏｓｔ，勾配ブースティング，及びランダムフォレスト回帰モデルを８０／２０トレーニング／テスト分割によってダウンホール設備故障データに適用して、モデル予測精度を測定した。ハイパーバンドを使用して、以下の表１０に示されたモデル及び関連パラメータ値を調整した。

ＤＯＢＲ計算外れ値情報をテストデータセットに転送する分類関数は、例えば５に等しい推定器の数を有するランダムフォレストモデルとして選択され得る。この調整活動は、分析のトレーニング部分でも達成される。パラメータ選択のメトリックは、トレーニングセットの正しく分類された要素の割合を計算し、それをモデルの誤差許容値と比較することである。

この分析には線形回帰が含まれており、それは、係数が追加のベストプラクティスの改善を識別するのに役立つエンジニアリングの洞察を提供できる唯一のモデルであるためである。その他のモデルは、予測の観点からはより堅牢であるが、洞察はほとんど得られない。

この明細書で説明されているように、基本的なＤＯＢＲプロセスを構築できるＤＯＢＲ関連モデルがいくつかある。この例では、３つのモデルが示されている。Ｍは、所定のハイパーチューニングされたモデルを表す。

ＤＯＢＲを使用して、トレーニング及びテストデータセットの内側値（ｉｎｌｉｅｒ）と外れ値（ｏｕｔｌｉｅｒ）を選択した。

ここで、Data_xin_scrub及びData_yin_scrubはトレーニングセットからのＤＯＢＲ計算内側値であり、Data_xout_scrub及びData_yout_scrubはトレーニングセットからのＤＯＢＲ計算外れ値であり、DOBR_Model_testin及びDOBR_Model_testoutはそれぞれＤＯＢＲ分類モデルから計算されたテストデータセットの内側値及び外れ値であり、BaseModel_yin，BaseModel_youtはＤＯＢＲ分類モデルを使用して内側値及び外れ値に分類された非ＤＯＢＲ計算モデル結果であり、IはBaseModel値をＤＯＢＲ定義内側値に関するBaseModel_yinに、及びＤＯＢＲ定義外れ値に関するBaseModel_yinに割り当てる。

これらのサブセットから、次の３つのＤＯＢＲモデルが得られる。
ａ．DOBR_Model＃１＝［DOBR_Model_testin，DOBR_Model_testout］
ｂ．DOBR_Model＃２＝［BaseModel_yin，DOBR_Model_testout］
ｃ．DOBR_Model＃３＝［DOBR_Model_testin，BaseModel_yout］

上述のハイパーチューニングされたモデルの誤差許容パーセンテージ対モデル誤差曲線を実行すると、図１５に示すような曲線が生成される。これらの曲線の重要な特性は曲率であり、誤差値自体ではない。一般に、領域（０、１００％）上の所与の曲線の勾配が線形であるほど、外れ値の影響は小さくなる。沖合のダウンホール設備の故障データについて、曲線は誤差許容値が約８０％になるまでは線形であり、それから様々な非線形勾配が現れる。誤差許容値の関数として勾配を分析する場合、次の表（表１１）は、ＤＯＢＲ分析のために決定された誤差許容閾値を示す。

モデルは全て、計算されたハイパーパラメータ及び割り当てられた誤差許容値を使用して実行された。予測されたＮＰＴに関するモデル出力は添付の付録Ｃに示されており、誤差結果は以下の表１２に示されている。

これで、３つのＤＯＢＲモデルと並んで非ＤＯＢＲモデルも有するので、将来の予測のために稼働中にどのモデルを使用するかを選択できる立場にある。全体として、線形モデルが最も予測精度が低く、ＤＯＢＲモデル＃１又は＃２が最も優れている。この時点で、分析者はこれらの精度の数値と他の実際的な考慮事項、例えば、将来の予測に適用するモデルを選択するための計算時間とのバランスを取ることができる。

ＤＯＢＲを使用して機械学習モデルをトレーニング及び実装した結果はコンクリート圧縮歪みの予測及びエネルギの予測に関する用途であったが、他の用途も考えられる。

例えば、画像レンダリング及び可視化には、米国特許第１０，３３９，６９５号に記載されているように、例えば医療データに基づいてレンダリングパラメータを自動的に予測して実行するように機械学習モデルが利用されてもよい。ＤＯＢＲは、コンテンツベースのレンダリングのための機械学習モデルをトレーニング及び実行するために利用されてもよい。患者の三次元領域を表す医療データセットが入力データとして利用されてもよい。ＤＯＢＲを使用して、トレーニング医療データセットから外れ値を除去してもよく、その結果、上述のＤＯＢＲ技術に従って、機械学習モデルは非外れ値データに対してトレーニングされ得る。機械学習モデルは、医療データセットから特徴を抽出し、医療データセットの入力に基づいて２つ以上の物理ベースのレンダリングパラメータに関する値を出力するために、トレーニング医療データセットからの非外れ値データのディープラーニングを使用してトレーニングされる。いくつかの実施形態では、物理ベースのレンダリングパラメータは、一貫したデータ処理、照明設計、ビュー設計、材料の妥当性、又は内部レンダラプロパティのための制御である。物理ベースのレンダラは、適用から得られる出力値を使用して、患者の３次元領域のフォトリアリスティック画像をレンダリングする。

機械学習モデルをトレーニング及び実装するためのＤＯＢＲの別の例示的な適用例では、米国特許第１０，３１７，８５４号に記載されているように、機械が制御コマンドを出力するための制御コマンドを生成するために、上述のＤＯＢＲ技術を用いて機械学習モデルがトレーニングされてもよい。このような例では、シミュレータは、制御コマンドに基づいて機械の作業動作のシミュレーションを実行してもよい。シミュレータは、制御コマンドに基づいて機械の物理的アクションをシミュレートすることによって、機械学習モデルをトレーニングするための完全なデータセットを生成し得る。このようなデータセットは、各シミュレーションのための入力として使用される作業動作データ、制御コマンドデータ及び機械データを含むモデルパラメータをトレーニングする際に、外れ値シミュレーションが除去されることを確実にするために、ＤＯＢＲ反復を使用して処理されてもよい。

いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なＤＯＢＲ機械学習モデルは、所望の非外れ値データのための履歴品質データを考慮し得る計算アルゴリズムのモンテカルロ法（例えば、Ｓｏｌｏｖａｙ－Ｓｔｒａｓｓｅｎ型アルゴリズム、Ｂａｉｌｌｉｅ－ＰＳＷ型アルゴリズム、Ｍｉｌｌｅｒ－Ｒａｂｉｎ型アルゴリズム、及び／又はＳｃｈｒｅｉｅｒ－Ｓｉｍｓ型アルゴリズム）に少なくとも部分的に基づいてもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なＤＯＢＲ機械学習モデルは、例えば、限定されないが、少なくとも１つの機械学習技術（例えば、限定されないが、決定木、ブースティング、サポートベクトルマシン、ニューラルネットワーク、最近傍アルゴリズム、単純ベイズ、バギング、ランダムフォレスト等）を、収集された及び／又はコンパイルされたセンサデータ（例えば、環境及び／又は貨物の物理的／視覚的外観に関する様々な種類の視覚データ）に適用することによって、連続的にトレーニングされ得る。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なニュートラルネットワーク技術は、限定されないが、フィードフォワードニューラルネットワーク、動径基底関数ネットワーク、リカレントニューラルネットワーク、畳み込みネットワーク（例えば、Ｕ－ｎｅｔ）、又は他の適切なネットワークのうちの１つであってもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、ニューラルネットワークの例示的な実装は、以下のように実行され得る。
ｉ）ニューラルネットワークアーキテクチャ／モデルを定義する。
ｉｉ）入力データを例示的なニューラルネットワークモデルに転送する。
ｉｉｉ）模範的なモデルを段階的にトレーニングする。
ｉｖ）特定のタイムステップ数における精度を決定する。
ｖ）新たに受信した入力データを処理するために、模範的なトレーニングされたモデルを適用する。
ｖｉ）選択的に、かつ並列的に、既定の周期性で模範的なトレーニングされたモデルをトレーニングし続ける。

いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なトレーニングされたニューラルネットワークモデルは、少なくとも１つのニューラルネットワークトポロジ、一連の活性化関数、及び接続重みによって、ニューラルネットワークを指定し得る。例えば、ニューラルネットワークのトポロジは、ニューラルネットワークのノード及びそのようなノード間の接続の構成を含み得る。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なトレーニングされたニューラルネットワークモデルは、限定されないが、偏り値／関数及び／又は集約関数を含む他のパラメータを含むように指定されてもよい。例えば、ノードの活性化関数は、ステップ関数、サイン関数、連続又は区分線形関数、シグモイド関数、双曲線正接関数、又はノードが活性化される閾値を表す他のタイプの数学関数であってもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的な集約関数は、ノードへの入力信号を結合（例えば、合算、積算等）する数学関数であってもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載された任意の実施形態の組み合わせにおいて、例示的な集約関数の出力は、例示的な活性化関数への入力として使用されてもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載された任意の実施形態の組み合わせにおいて、偏りは、ノードが多かれ少なかれ活性化され得るように、集約関数及び／又は活性化関数によって使用され得る一定値又は関数であり得る。

いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なニューラルネットワークにおける各接続の例示的接続データは、ノード対又は接続重みの少なくとも１つを含んでもよい。例えば、例示的なニューラルネットワークがノードＮ１からノードＮ２への接続を含む場合、その接続に関する例示的な接続データは、ノード対＜Ｎ１、Ｎ２＞を含んでもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、接続重みは、Ｎ２において入力される前にＮ１の出力が変更されるかどうか及び／又はどのように変更されるかに影響する数値量であってもよい。リカレントネットワークの例では、ノードがそれ自体への接続を有していてもよい（例えば、接続データは、ノード対＜Ｎ１、Ｎ１＞を含んでもよい）。

いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なトレーニングされたニューラルネットワークモデルは、種識別子（ＩＤ）及び適合度データも含み得る。例えば、各種ＩＤは、複数の種（貨物の損失区分等）のうち、モデルがどの種に分類されるかを示し得る。例えば、適合度データは、例示的なトレーニングされたニューラルネットワークモデルが入力感覚データセットをどの程度よくモデル化するかを示し得る。例えば、適合度データは、モデルに関する適合度関数の評価に基づいて決定される適合度値を含み得る。例えば、例示的な適合度関数は、入力感覚データセットに対して例示的なトレーニングされたニューラルネットワークモデルをテストすることによって生成される誤差の頻度及び／又は大きさに基づく目的関数であってもよい。簡単な例として、入力感覚データセットが１０行を含み、入力感覚データセットがＡ及びＢと示される２つの列を含み、例示的なトレーニングされたニューラルネットワークモデルが、Ａの入力値を考慮してＢの予測値を出力すると仮定する。この例において、例示的なトレーニングされたニューラルネットワークモデルをテストすることは、入力センサデータセットからのＡの１０個の値のそれぞれを入力すること、Ｂの予測値を入力センサデータセットからのＢの対応する実際値と比較すること、及びＢの２つの予測値及び実際値が異なるかどうか及び／又はどの程度異なるかを決定することを含み得る。例示として、特定のニューラルネットワークが１０行のうちの９行についてＢの値を正確に予測した場合、例示的な適合度関数は、対応するモデルに９／１０＝０．９の適合度値を割り当ててもよい。先の例示は説明のためのものであり、限定を意図するものではないことを理解されたい。いくつかの実施形態では、例示的な適合度関数は、例えば、入力ノードの数、ノード層、隠れ層、接続、計算の複雑さ等の誤差頻度又は誤差率に関係のない要因に基づき得る。

いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、本開示は、少なくとも１つの以下のうちのいくつかの態様を利用してもよい。
米国特許出願第８１９５４８４号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８５４８８３３号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８５５４５８８号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８５５４５８９号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８５９５０３６号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８６７６６１０号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８７１９０５９号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８８１２３３１号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎｇａｎｄｃｒｅｄｉｔｅｎｈａｎｃｅｍｅｎｔｓｙｓｔｅｍａｎｄｍｅｔｈｏｄｆｏｒｉｎｓｕｒｉｎｇｐｒｏｊｅｃｔｓａｖｉｎｇｓという名称を有する。

次に、本開示の少なくともいくつかの態様を、以下の番号を付した項目を参照して説明する。
［項目１］
少なくとも１つのプロセッサによって、少なくとも１つのユーザ活動に関する少なくとも１つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと、
前記少なくとも１つのプロセッサによって、１つ以上の外れ値を決定するために使用される少なくとも１つの偏り基準を受信するステップと、
前記少なくとも１つのプロセッサによって、機械学習モデルに関するモデルパラメータのセットを決定するステップであって、
（１）前記少なくとも１つのプロセッサによって、初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値のセットを決定すること、
（２）前記少なくとも１つのプロセッサによって、前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値と比較することによって、データ要素誤差の誤差セットを生成すること、
（３）前記少なくとも１つのプロセッサによって、前記データ要素誤差の誤差セット及び前記少なくとも１つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成すること、
（４）前記少なくとも１つのプロセッサによって、前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、
（５）前記少なくとも１つのプロセッサによって、前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、
（６）前記少なくとも１つのプロセッサによって、少なくとも１つの打ち切り実行終了基準が満たされるまで、反復としてステップ（１）～（５）を繰り返すことにより、前記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータのセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成すること
を含むステップと、
前記少なくとも１つのプロセッサによって、前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングするステップであって、少なくとも１つの外れ値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデルを取得するステップと、
前記少なくとも１つのプロセッサによって、前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも１つのユーザ活動に関する活動関連データのデータセットに適用して、
ｉ）前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及び
ｉｉ）前記活動関連データのデータセットにおいて非外れ値活動関連データのセット
を決定するステップと、
前記少なくとも１つのプロセッサによって、前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少なくとも１つのユーザ活動に関連する将来の活動関連属性を予測するステップと
を含む、方法。
［項目２］
ソフトウェア命令が記憶された非一時的なコンピュータ可読記憶媒体と通信する少なくとも１つのプロセッサを備えるシステムであって、
前記ソフトウェア命令は、実行されると、
前記少なくとも１つのプロセッサによって、少なくとも１つのユーザ活動に関する少なくとも１つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと、
１つ以上の外れ値を決定するために使用される少なくとも１つの偏り基準を受信するステップと、
機械学習モデルに関するモデルパラメータのセットを決定するステップであって、
（１）初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値のセットを決定すること、
（２）前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値と比較することによって、データ要素誤差の誤差セットを生成すること、
（３）前記データ要素誤差の誤差セット及び前記少なくとも１つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成すること、
（４）前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、
（５）前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、及び
（６）少なくとも１つの打ち切り実行終了基準が満たされるまで、反復としてステップ（１）～（５）を繰り返すことにより、前記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータのセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成すること
を含むステップと、
前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングするステップであって、少なくとも１つの外れ値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデルを取得するステップと、
前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも１つのユーザ活動に関する活動関連データのデータセットに適用して、
ｉ）前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及び
ｉｉ）前記活動関連データのデータセットにおいて非外れ値活動関連データのセット
を決定するステップと、
前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少なくとも１つのユーザ活動に関連する将来の活動関連属性を予測するステップと
を実行させる、システム。
［項目３］
前記少なくとも１つのプロセッサによって、前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値トレーニングデータセットを使用して、少なくとも１つの外れ値固有機械学習モデルの少なくとも１つの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと
をさらに含む、項目１及び／又は２に記載のシステム及び方法。
［項目４］
前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データ値を予測するステップと
をさらに含む、項目１及び／又は２に記載のシステム及び方法。
［項目５］
前記少なくとも１つのプロセッサによって、前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値トレーニングデータセットを使用して、外れ値固有機械学習モデルの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記活動関連データ値を予測するステップと
をさらに含む、項目１及び／又は２に記載のシステム及び方法。
［項目６］
前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データのセットに関する前記活動関連データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値分類器機械学習モデルを利用して、前記活動関連データ値の外れ値活動関連データ値を識別するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値活動関連データ値を除去するステップと
をさらに含む、項目１及び／又は２に記載のシステム及び方法。
［項目７］
前記トレーニングデータセットは、コンクリート組成及びコンクリート硬化発現の関数としてのコンクリート圧縮強度の前記少なくとも１つの活動関連属性を含む、項目１及び／又は２に記載のシステム及び方法。
［項目８］
前記トレーニングデータセットは、家庭環境条件及び照明条件の関数としてのエネルギ使用データの前記少なくとも１つの活動関連属性を含む、項目１及び／又は２に記載のシステム及び方法。
［項目９］
前記少なくとも１つのプロセッサによって、少なくとも１つのデータ要素を有する予測を生成するためのＡＰＩ（アプリケーションプログラミングインターフェース）要求を受信するステップと、
前記少なくとも１つのプロセッサによって、前記機械学習モデルの実行をスケジュールするために少なくとも１つのクラウドコンピュータリソースをインスタンス化するステップと、
前記少なくとも１つのプロセッサによって、実行される前記スケジュールに従って、前記機械学習モデルを利用して、前記少なくとも１つのデータ要素に関する少なくとも１つの活動関連データ要素値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記少なくとも１つの活動関連データ要素値を前記ＡＰＩ要求に関連付けられるコンピュータ装置に戻すステップと
をさらに含む、項目１及び／又は２に記載のシステム及び方法。
［項目１０］
前記トレーニングデータセットは、医療データセットの３次元患者画像の前記少なくとも１つの活動関連属性を含み、
前記機械学習モデルは、前記医療データセットに基づいて２つ以上の物理ベースのレンダリングパラメータを含む前記活動関連データ値を予測するように構成される、項目１及び／又は２に記載のシステム及び方法。
［項目１１］
前記トレーニングデータセットは、電子機械コマンドに対してシミュレートされた制御結果の前記少なくとも１つの活動関連属性を含み、
前記機械学習モデルは、前記電子機械に対する制御コマンドを含む前記活動関連データ値を予測するように構成される、項目１及び／又は２に記載のシステム及び方法。
［項目１２］
前記少なくとも１つのプロセッサによって、前記活動関連データのセットを活動関連データの複数のサブセットに分割するステップと、
前記少なくとも１つのプロセッサによって、前記活動関連データの前記複数のサブセットのうちの活動関連データの各サブセットに対するアンサンブルモデルを決定するステップであって、
前記機械学習モデルは、複数のモデルのアンサンブルを含み、
各アンサンブルモデルは、前記複数のモデルのアンサンブルからのモデルのランダムな組み合わせを含むステップと、
前記少なくとも１つのプロセッサによって、各アンサンブルモデルを利用して、個別にアンサンブル固有活動関連データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記アンサンブル固有活動関連データ値及び既知の値に基づいて、各アンサンブルモデルにおける誤差を決定するステップと、
前記少なくとも１つのプロセッサによって、最小誤差に基づいて最高性能のアンサンブルモデルを選択するステップと
をさらに含む、項目１及び／又は２に記載のシステム及び方法。

本開示の１つ以上の実施形態が記載されてきたが、これらの実施形態は例示的なものに過ぎず、限定的なものではなく、本明細書に記載された本発明の方法論、本発明のシステム／プラットフォーム、及び本発明の装置の様々な実施形態を互いに任意の組み合わせで利用することができることを含む、多くの修正が当業者には自明であり得ることが理解される。さらに、様々なステップは、任意の所望の順序で実行され得る（そして、任意の所望のステップが追加されてもよく、及び／又は任意の所望のステップが除去されてもよい）。

Claims

少なくとも１つのプロセッサによって、少なくとも１つのユーザ活動に関する少なくとも１つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと、
前記少なくとも１つのプロセッサによって、１つ以上の外れ値を決定するために使用される少なくとも１つの偏り基準を受信するステップと、
前記少なくとも１つのプロセッサによって、機械学習モデルに関するモデルパラメータのセットを決定するステップであって、
（１）前記少なくとも１つのプロセッサによって、初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値のセットを決定すること、
（２）前記少なくとも１つのプロセッサによって、前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値と比較することによって、データ要素誤差の誤差セットを生成すること、
（３）前記少なくとも１つのプロセッサによって、前記データ要素誤差の誤差セット及び前記少なくとも１つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成すること、
（４）前記少なくとも１つのプロセッサによって、前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、
（５）前記少なくとも１つのプロセッサによって、前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、
（６）前記少なくとも１つのプロセッサによって、少なくとも１つの打ち切り実行終了基準が満たされるまで、反復としてステップ（１）～（５）を繰り返すことにより、前記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータのセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成すること
を含むステップと、
前記少なくとも１つのプロセッサによって、前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングするステップであって、少なくとも１つの外れ値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデルを取得するステップと、
前記少なくとも１つのプロセッサによって、前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも１つのユーザ活動に関する活動関連データのデータセットに適用して、
ｉ）前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及び
ｉｉ）前記活動関連データのデータセットにおいて非外れ値活動関連データのセット
を決定するステップと、
前記少なくとも１つのプロセッサによって、前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少なくとも１つのユーザ活動に関連する将来の活動関連属性を予測するステップと
を含む、方法。
前記少なくとも１つのプロセッサによって、前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値トレーニングデータセットを使用して、少なくとも１つの外れ値固有機械学習モデルの少なくとも１つの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと
をさらに含む、請求項１に記載の方法。
前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して、された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データ値を予測するステップと
をさらに含む、請求項１に記載の方法。
前記少なくとも１つのプロセッサによって、前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値トレーニングデータセットを使用して、外れ値固有機械学習モデルの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記活動関連データ値を予測するステップと
をさらに含む、請求項１に記載の方法。
前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データのセットに関する前記活動関連データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値分類器機械学習モデルを利用して、前記活動関連データ値の外れ値活動関連データ値を識別するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値活動関連データ値を除去するステップと
をさらに含む、請求項１に記載の方法。
前記トレーニングデータセットは、コンクリート組成及びコンクリート硬化発現の関数としてのコンクリート圧縮強度の前記少なくとも１つの活動関連属性を含む、請求項１に記載の方法。
前記トレーニングデータセットは、家庭環境条件及び照明条件の関数としてのエネルギ使用データの前記少なくとも１つの活動関連属性を含む、請求項１に記載の方法。
前記少なくとも１つのプロセッサによって、少なくとも１つのデータ要素を有する予測を生成するためのＡＰＩ（アプリケーションプログラミングインターフェース）要求を受信するステップと、
前記少なくとも１つのプロセッサによって、前記機械学習モデルの実行をスケジュールするために少なくとも１つのクラウドコンピュータリソースをインスタンス化するステップと、
前記少なくとも１つのプロセッサによって、実行される前記スケジュールに従って、前記機械学習モデルを利用して、前記少なくとも１つのデータ要素に関する少なくとも１つの活動関連データ要素値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記少なくとも１つの活動関連データ要素値を前記ＡＰＩ要求に関連付けられるコンピュータ装置に戻すステップと
をさらに含む、請求項１に記載の方法。
前記トレーニングデータセットは、医療データセットの３次元患者画像の前記少なくとも１つの活動関連属性を含み、
前記機械学習モデルは、前記医療データセットに基づいて２つ以上の物理ベースのレンダリングパラメータを含む前記活動関連データ値を予測するように構成される、請求項１に記載の方法。
前記トレーニングデータセットは、電子機械のコマンドに対してシミュレートされた制御結果の前記少なくとも１つの活動関連属性を含み、
前記機械学習モデルは、前記電子機械に対する制御コマンドを含む前記活動関連データ値を予測するように構成される、請求項１に記載の方法。
前記少なくとも１つのプロセッサによって、前記活動関連データのセットを活動関連データの複数のサブセットに分割するステップと、
前記少なくとも１つのプロセッサによって、前記活動関連データの複数のサブセットのうちの活動関連データの各サブセットに対するアンサンブルモデルを決定するステップであって、
前記機械学習モデルは、複数のモデルのアンサンブルを含み、
各アンサンブルモデルは、前記複数のモデルのアンサンブルからのモデルのランダムな組み合わせを含むステップと、
前記少なくとも１つのプロセッサによって、各アンサンブルモデルを利用して、個別にアンサンブル固有活動関連データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記アンサンブル固有活動関連データ値及び既知の値に基づいて、各アンサンブルモデルにおける誤差を決定するステップと、
前記少なくとも１つのプロセッサによって、最小誤差に基づいて最高性能のアンサンブルモデルを選択するステップと
をさらに含む、請求項１に記載の方法。
ソフトウェア命令が記憶された非一時的なコンピュータ可読記憶媒体と通信する少なくとも１つのプロセッサを備えるシステムであって、
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
少なくとも１つのユーザ活動に関する少なくとも１つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと、
１つ以上の外れ値を決定するために使用される少なくとも１つの偏り基準を受信するステップと、
機械学習モデルに関するモデルパラメータのセットを決定するステップであって、
（１）初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値のセットを決定すること、
（２）前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値と比較することによって、データ要素誤差の誤差セットを生成すること、
（３）前記データ要素誤差の誤差セット及び前記少なくとも１つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成すること、
（４）前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、
（５）前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、
（６）少なくとも１つの打ち切り実行終了基準が満たされるまで、反復としてステップ（１）～（５）を繰り返すことにより、前記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータのセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成すること
を含むステップと、
前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングするステップであって、少なくとも１つの外れ値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデルを取得するステップと、
前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも１つのユーザ活動に関する活動関連データのデータセットに適用して、
ｉ）前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及び
ｉｉ）前記活動関連データのデータセットにおいて非外れ値活動関連データのセット
を決定するステップと、
前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少なくとも１つのユーザ活動に関連する将来の活動関連属性を予測するステップと
を実行させる、システム。
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
前記外れ値トレーニングデータセットを使用して、少なくとも１つの外れ値固有機械学習モデルの少なくとも１つの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、
前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと
をさらに実行させる、請求項１２に記載のシステム。
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
前記一般化された機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、
一般化された機械学習モデルを利用して、前記活動関連データ値を予測するステップと
をさらに実行させる、請求項１２に記載のシステム。
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
前記外れ値トレーニングデータセットを使用して、外れ値固有機械学習モデルの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、
前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、
前記外れ値固有機械学習モデルを利用して、前記活動関連データ値を予測するステップと
をさらに実行させる、請求項１２に記載のシステム。
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
前記一般化された機械学習モデルを利用して、前記活動関連データのセットに関する前記活動関連データ値を予測するステップと、
前記外れ値分類器機械学習モデルを利用して、前記活動関連データ値の外れ値活動関連データ値を識別するステップと、
前記外れ値活動関連データ値を除去するステップと
をさらに実行させる、請求項１２に記載のシステム。
前記トレーニングデータセットは、コンクリート組成及びコンクリート硬化発現の関数としてのコンクリート圧縮強度の前記少なくとも１つの活動関連属性を含む、請求項１２に記載のシステム。
前記トレーニングデータセットは、家庭環境条件及び照明条件の関数としてのエネルギ使用データの前記少なくとも１つの活動関連属性を含む、請求項１２に記載のシステム。
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
少なくとも１つのデータ要素を有する予測を生成するためのＡＰＩ（アプリケーションプログラミングインターフェース）要求を受信するステップと、
前記機械学習モデルの実行をスケジュールするために少なくとも１つのクラウドコンピュータリソースをインスタンス化するステップと、
実行される前記スケジュールに従って、前記機械学習モデルを利用して、前記少なくとも１つのデータ要素に関する少なくとも１つの活動関連データ要素値を予測するステップと、
前記少なくとも１つの活動関連データ要素値を前記ＡＰＩ要求に関連付けられるコンピュータ装置に戻すステップと
をさらに実行させる、請求項１２に記載のシステム。
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
前記活動関連データのセットを活動関連データの複数のサブセットに分割するステップと、
前記活動関連データの複数のサブセットのうちの活動関連データの各サブセットに対するアンサンブルモデルを決定するステップであって、
前記機械学習モデルは、複数のモデルのアンサンブルを含み、
各アンサンブルモデルは、前記複数のモデルのアンサンブルからのモデルのランダムな組み合わせを含むステップと、
各アンサンブルモデルを利用して、個別にアンサンブル固有活動関連データ値を予測するステップと、
前記アンサンブル固有活動関連データ値及び既知の値に基づいて、各アンサンブルモデルにおける誤差を決定するステップと、
最小誤差に基づいて最高性能のアンサンブルモデルを選択するステップと
をさらに実行させる、請求項１２に記載のシステム。