JP2024026276A

JP2024026276A - 機械学習モデルにおいて動的外れ値偏り低減を実装するように構成されるコンピュータベースシステム、コンピュータコンポーネント及びコンピュータオブジェクト

Info

Publication number: JP2024026276A
Application number: JP2023205241A
Authority: JP
Inventors: リチャードビー．ジョーンズ、; B Jones Richard
Original assignee: Hartford Steam Boiler Inspection and Insurance Co
Current assignee: Hartford Steam Boiler Inspection and Insurance Co
Priority date: 2019-09-18
Filing date: 2023-12-05
Publication date: 2024-02-28
Also published as: NO20230419A1; DE112021004908T5; GB2603358A; GB2617045A; MX2023003217A; GB2603358B; GB202204238D0; CA3195894A1; GB202305640D0; CN116569189A; CN114556382A; JP7399269B2; BR112022005003A2; US11288602B2; KR20230070272A; GB2617045B; KR20220066924A; WO2022060411A1; WO2021055847A1; EP4214652A1

Abstract

【課題】動的外れ値偏り低減機械学習モデルのためのシステム及び方法を提供する。【解決手段】機械学習モデルのモデルパラメータのセットを決定する方法は、機械学習モデルをトレーニングデータに適用し、モデル予測誤差を生成し、モデル予測誤差に基づいて非外れ値目的変数を識別するためのデータ選択ベクトルを生成し、データ選択ベクトルを利用して、非外れ値データセットを生成し、非外れ値データセットに基づき、更新されたモデルパラメータを決定し、それらを打ち切り実行終了基準が満たされるまで繰り返し、外れ値分類器機械学習モデルの分類器モデルパラメータをトレーニングし、外れ値分類器機械学習モデルを活動関連データに適用して、非外れ値活動関連データを決定し、機械学習モデルを非外れ値活動関連データに適用して、ユーザ活動に関する将来の活動関連属性を予測する。【選択図】図６

Description

本開示は、一般に、機械学習モデルにおける偏り低減を実装するように構成される改良
されたコンピュータベースシステム、コンピュータコンポーネント、及びコンピュータオ
ブジェクトに関する。

（優先権の主張）
本出願は、２０１９年９月１８日に出願された“ＣＯＭＰＵＴＥＲ－ＢＡＳＥＤＳＹ
ＳＴＥＭＳ，ＣＯＭＰＵＴＩＮＧＣＯＭＰＯＮＥＮＴＳＡＮＤＣＯＭＰＵＴＩＮＧ
ＯＢＪＥＣＴＳＣＯＮＦＩＧＵＲＥＤＴＯＩＭＰＬＥＭＥＮＴＤＹＮＡＭＩＣ
ＯＵＴＬＩＥＲＢＩＡＳＲＥＤＵＣＴＩＯＮＩＮＭＡＣＨＩＮＥＬＥＡＲＮ
ＩＮＧＭＯＤＥＬＳ”という名称の米国仮出願第６２／９０２，０７４号に対する優先
権を主張するものであり、その全体が参照により本明細書に組み込まれる。

（著作権表示）
この特許文書の開示の一部は、著作権保護の対象となる資料を含んでいる。著作権所有
者は、特許商標庁の特許ファイル又は記録に記載されているように、特許書類又は特許開
示のいずれかによるファクシミリ複製に対して異論はないが、それ以外の場合は、全ての
著作権を留保する。次の通知は、この文書の一部を構成する図面及び以下に記載されるソ
フトウェア及びデータに適用される。著作権、ＨａｒｔｆｏｒｄＳｔｅａｍＢｏｉｌ
ｅｒＩｎｓｐｅｃｔｉｏｎａｎｄＩｎｓｕｒａｎｃｅＣｏｍｐａｎｙ，無断複写
複製転載禁止

機械学習モデルは、サンプル／トレーニングデータから学習したパターン及び推論に基
づいて予測又は決定を形成するための１つ以上のコンピュータ又は処理装置を含み得る。
サンプル／トレーニングデータ選択における偏りは、機械学習モデルの予測と決定に反映
され得る。

本開示の実施形態は、動的外れ値偏り低減機械学習モデルのための方法を含む。本方法
は、少なくとも１つのプロセッサによって、少なくとも１つのユーザ活動に関する少なく
とも１つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップ
と、前記少なくとも１つのプロセッサによって、１つ以上の外れ値を決定するために使用
される少なくとも１つの偏り基準を受信するステップと、前記少なくとも１つのプロセッ
サによって、機械学習モデルに関するモデルパラメータのセットを決定するステップであ
って、（１）前記少なくとも１つのプロセッサによって、初期モデルパラメータのセット
を有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値
のセットを決定すること、（２）前記少なくとも１つのプロセッサによって、前記モデル
予測値のセットを前記トレーニングデータセットの対応する実際値と比較することによっ
て、データ要素誤差の誤差セットを生成すること、（３）前記少なくとも１つのプロセッ
サによって、前記データ要素誤差の誤差セット及び前記少なくとも１つの偏り基準に少な
くとも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成
すること、（４）前記少なくとも１つのプロセッサによって、前記トレーニングデータセ
ットに対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること
、（５）前記少なくとも１つのプロセッサによって、前記非外れ値データセットに基づい
て前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、及
び、（６）前記少なくとも１つのプロセッサによって、少なくとも１つの打ち切り実行終
了基準が満たされるまで、反復としてステップ（１）～（５）を繰り返すことにより、前
記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータ
のセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメ
ータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット
、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成す
ることを含むステップと、前記少なくとも１つのプロセッサによって、前記トレーニング
データセット及び前記データ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器
機械学習モデルの分類器モデルパラメータのセットをトレーニングするステップであって
、少なくとも１つの外れ値データ要素を識別するように構成されるトレーニングされた外
れ値分類器機械学習モデルを取得するステップと、前記少なくとも１つのプロセッサによ
って、前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも１つのユ
ーザ活動に関する活動関連データのデータセットに適用して、ｉ）前記活動関連データの
データセットにおいて外れ値活動関連データのセット、及びｉｉ）前記活動関連データの
データセットにおいて非外れ値活動関連データのセットを決定するステップと、前記少な
くとも１つのプロセッサによって、前記機械学習モデルを前記非外れ値活動関連データ要
素のセットに適用して、前記少なくとも１つのユーザ活動に関連する将来の活動関連属性
を予測するステップとを含む。

本開示の実施形態は、動的外れ値偏り低減機械学習モデルのためのシステムを含む。本
システムは、ソフトウェア命令が記憶された非一時的なコンピュータ可読記憶媒体と通信
する少なくとも１つのプロセッサを備えており、前記ソフトウェア命令は、実行されると
、少なくとも１つのプロセッサによって、少なくとも１つのユーザ活動に関する少なくと
も１つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと
、１つ以上の外れ値を決定するために使用される少なくとも１つの偏り基準を受信するス
テップと、機械学習モデルのモデルパラメータのセットを決定するステップであって、（
１）初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニングデー
タセットに適用して、モデル予測値のセットを決定すること、（２）前記モデル予測値の
セットを前記トレーニングデータセットの対応する実際値と比較することによって、デー
タ要素誤差の誤差セットを生成すること、（３）前記データ要素誤差の誤差セット及び前
記少なくとも１つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識別す
るためのデータ選択ベクトルを生成すること、（４）前記トレーニングデータセットに対
して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、（５）
前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモデルパラ
メータのセットを決定すること、（６）少なくとも１つの打ち切り実行終了基準が満たさ
れるまで、反復としてステップ（１）～（５）を繰り返すことにより、前記更新されたモ
デルパラメータとして前記機械学習モデルに関する前記モデルパラメータのセットを取得
することであって、これにより、各反復は、前記更新されたモデルパラメータのセットを
前記初期モデルパラメータのセットとして使用して、前記予測値のセット、前記誤差セッ
ト、前記データ選択ベクトル、及び前記非外れ値データセットを再生成することを含むス
テップと、前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分
的に基づいて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレー
ニングするステップであって、少なくとも１つの外れ値データ要素を識別するように構成
されるトレーニングされた外れ値分類器機械学習モデルを取得するステップと、前記トレ
ーニングされた外れ値分類器機械学習モデルを、前記少なくとも１つのユーザ活動に関す
る活動関連データのデータセットに適用して、ｉ）前記活動関連データのデータセットに
おいて外れ値活動関連データのセット、及びｉｉ）前記活動関連データのデータセットに
おいて非外れ値活動関連データのセットを決定するステップと、前記機械学習モデルを前
記非外れ値活動関連データ要素のセットに適用して、前記少なくとも１つのユーザ活動に
関連する将来の活動関連属性を予測するステップを実行させる。

本開示の実施形態のシステム及び方法は、前記少なくとも１つのプロセッサによって、
前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニン
グデータセットを決定するステップと、前記少なくとも１つのプロセッサによって、前記
外れ値トレーニングデータセットを使用して、少なくとも１つの外れ値固有機械学習モデ
ルの少なくとも１つの外れ値固有モデルパラメータをトレーニングして、外れ値データ値
を予測するステップと、前記少なくとも１つのプロセッサによって、前記外れ値固有機械
学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連デー
タ値を予測するステップとをさらに含む。

本開示の実施形態のシステム及び方法は、前記少なくとも１つのプロセッサによって、
前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化された
モデルパラメータをトレーニングして、データ値を予測するステップと、前記少なくとも
１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記外れ値活
動関連データのセットに関する外れ値活動関連データ値を予測するステップと、前記少な
くとも１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活
動関連データ値を予測するステップとをさらに含む。

本開示の実施形態のシステム及び方法は、前記少なくとも１つのプロセッサによって、
前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニン
グデータセットを決定するステップと、前記少なくとも１つのプロセッサによって、前記
外れ値トレーニングデータセットを使用して、外れ値固有機械学習モデルの外れ値固有モ
デルパラメータをトレーニングして、外れ値データ値を予測するステップと、前記少なく
とも１つのプロセッサによって、前記トレーニングデータセットを使用して、一般化され
た機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測
するステップと、前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モ
デルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を
予測するステップと、前記少なくとも１つのプロセッサによって、前記外れ値固有機械学
習モデルを利用して、前記活動関連データ値を予測するステップとをさらに含む。

本開示の実施形態のシステム及び方法は、前記少なくとも１つのプロセッサによって、
前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化された
モデルパラメータをトレーニングして、データ値を予測するステップと、前記少なくとも
１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連
データのセットに関する前記活動関連データ値を予測するステップと、前記少なくとも１
つのプロセッサによって、前記外れ値分類器機械学習モデルを利用して、前記活動関連デ
ータ値の外れ値活動関連データ値を識別するステップと、前記少なくとも１つのプロセッ
サによって、前記外れ値活動関連データ値を除去するステップとをさらに含む。

本開示の実施形態のシステム及び方法において、前記トレーニングデータセットは、コ
ンクリート組成及びコンクリート硬化発現の関数としてのコンクリート圧縮強度の前記少
なくとも１つの活動関連属性を含む。

本開示の実施形態のシステム及び方法において、前記トレーニングデータセットは、家
庭環境条件及び照明条件の関数としてのエネルギ使用データの前記少なくとも１つの活動
関連属性を含む。

本開示の実施形態のシステム及び方法は、前記少なくとも１つのプロセッサによって、
少なくとも１つのデータ要素を有する予測を生成するためのＡＰＩ（アプリケーションプ
ログラミングインターフェース）要求を受信するステップと、前記少なくとも１つのプロ
セッサによって、前記機械学習モデルの実行をスケジュールするために少なくとも１つの
クラウドコンピュータリソースをインスタンス化するステップと、前記少なくとも１つの
プロセッサによって、実行される前記スケジュールに従って、前記機械学習モデルを利用
して、前記少なくとも１つのデータ要素に関する少なくとも１つの活動関連データ要素値
を予測するステップと、前記少なくとも１つのプロセッサによって、前記少なくとも１つ
の活動関連データ要素値を前記ＡＰＩ要求に関連付けられるコンピュータ装置に戻すステ
ップとをさらに含む。

本開示の実施形態のシステム及び方法において、前記トレーニングデータセットは、医
療データセットの３次元患者画像の前記少なくとも１つの活動関連属性を含み、前記機械
学習モデルは、前記医療データセットに基づいて２つ以上の物理ベースのレンダリングパ
ラメータを含む前記活動関連データ値を予測するように構成される。

本開示の実施形態のシステム及び方法において、前記トレーニングデータセットは、電
子機械コマンドに対してシミュレートされた制御結果の前記少なくとも１つの活動関連属
性を含み、前記機械学習モデルは、前記電子機械に対する制御コマンドを含む前記活動関
連データ値を予測するように構成される。

本開示の実施形態のシステム及び方法は、前記少なくとも１つのプロセッサによって、
前記活動関連データのセットを活動関連データの複数のサブセットに分割するステップと
、前記少なくとも１つのプロセッサによって、前記活動関連データの複数のサブセットの
うちの活動関連データの各サブセットに対するアンサンブルモデルを決定するステップで
あって、前記機械学習モデルは、複数のモデルのアンサンブルを含み、各アンサンブルモ
デルは、前記複数のモデルのアンサンブルからのモデルのランダムな組み合わせを含むス
テップと、前記少なくとも１つのプロセッサによって、各アンサンブルモデルを利用して
、個別にアンサンブル固有活動関連データ値を予測するステップと、前記少なくとも１つ
のプロセッサによって、前記アンサンブル固有活動関連データ値及び既知の値に基づいて
、各アンサンブルモデルにおける誤差を決定するステップと、前記少なくとも１つのプロ
セッサによって、最小誤差に基づいて最高性能のアンサンブルモデルを選択するステップ
とをさらに含む。

本開示の様々な実施形態は、添付図面を参照してさらに説明され得る。同様の構造は、
複数の図面を通して同じ番号によって参照される。図示された図面は必ずしも縮尺通りで
はなく、その代わりに一般的に本開示の原理を説明することに重点が置かれている。した
がって、本明細書に開示される特定の構造的及び機能的詳細は、限定として解釈されるべ
きではなく、単に、当業者に１つ以上の例示的な実施形態を様々に使用することを教示す
るための代表的な基礎として解釈されるべきである。

本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、概略的なフローチャートを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、概略的なフローチャートを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。

本明細書には、添付の図面と併せて、本開示の様々な詳細な実施形態が開示されている
。しかしながら、開示された実施形態は単なる例示であることを理解されたい。さらに、
本開示の様々な実施形態に関連して与えられる例の各々は、例示であり、限定ではない。

本明細書を通して、以下の用語は、文脈により他の明示がない限り、本明細書に明示的
に関連する意味を有する。本明細書で使用される「１つの実施形態において」及び「いく
つかの実施形態において」という語句は、必ずしも（複数の）同じ実施形態を指すわけで
はないが、そうであってもよい。さらに、本明細書で使用される「他の実施形態において
」及び「他のいくつかの実施形態において」という語句は、必ずしも異なる実施形態を指
すわけではないが、そうであってもよい。したがって、以下に説明するように、様々な実
施形態は、本開示の範囲又は精神から逸脱することなく、容易に組み合わせることができ
る。

さらに、「に基づく」という用語は排他的なものではなく、文脈が明確に指示しない限
り、記載されていない追加の要因に基づき得る。さらに、本明細書全体を通して、不定冠
詞（“ａ”、“ａｎ”）、及び前記（“ｔｈｅ”）の意味は複数の参照を含む。「におい
て（“ｉｎ”）」の意味は、「の中で（“ｉｎ”）」及び「の上で（“ｏｎ”）」を含む
。

本明細書に記載される様々な実施形態の少なくとも１つの態様／機能性は、リアルタイ
ム及び／又は動的に実行され得ることが理解される。本明細書中で使用する場合、「リア
ルタイム」という用語は、別のイベント／アクションが発生したときに、瞬間的に又は略
瞬間的に発生し得るイベント／アクションを指す。例えば、「リアルタイム処理」、「リ
アルタイム計算」、及び「リアルタイム実行」は全て、関連する物理的プロセス（例えば
、ユーザがモバイル装置上のアプリケーションと相互作用すること）が発生する実際の時
間中の計算の性能に関係し、計算の結果は物理的プロセスのガイドに使用することができ
る。

本明細書で使用される場合、「動的に」及び「自動的に」という用語、並びにそれらの
論理的及び／又は言語的関連物及び／又は派生物は、所定のイベント及び／又はアクショ
ンが、いかなる人間の介入もなしにトリガされ及び／又は発生し得ることを意味する。い
くつかの実施形態では、本開示によるイベント及び／又はアクションは、リアルタイムで
及び／又は、ナノ秒、数ナノ秒、ミリ秒、数ミリ秒、秒、数秒、分、数分、毎時、数時間
、毎日、数日、毎週、毎月等の少なくとも１つの既定の周期性に基づき得る。

いくつかの実施形態では、関連する装置を備えた例示的な新規な特別にプログラムされ
たコンピュータシステムは、分散ネットワーク環境で動作し、１つ以上の適切なデータ通
信ネットワーク（例えば、インターネット、衛星等）を介して互いに通信し、限定されな
いが、ＩＰＸ／ＳＰＸ、Ｘ．２５、ＡＸ．２５、ＡｐｐｌｅＴａｌｋ（ＴＭ）、ＴＣＰ／
ＩＰ（例えば、ＨＴＴＰ）、近距離無線通信（ＮＦＣ）、ＲＦＩＤ、狭帯域モノのインタ
ーネット（ＮＢＩＯＴ）、３Ｇ、４Ｇ、５Ｇ、ＧＳＭ（登録商標）、ＧＰＲＳ、ＷｉＦｉ
、ＷｉＭａｘ、ＣＤＭＡ、衛星、ＺｉｇＢｅｅ（登録商標）、及び他の適切な通信モード
等の１つ以上の適切なデータ通信プロトコル／モードを利用するように構成される。いく
つかの実施形態では、ＮＦＣは、ＮＦＣ対応装置が「スワイプ」、「バンプ」、「タップ
」、又は通信のために他のやり方で近接して移動される、短距離無線通信技術を表し得る
。

本明細書に開示された材料は、ソフトウェア又はファームウェア、或いはそれらの組み
合わせとして、或いは１つ以上のプロセッサによって読み取られかつ実行され得る機械可
読媒体に記憶された命令として実装され得る。機械可読媒体は、機械（例えば、コンピュ
ータ装置）によって読み取り可能な形式で情報を記憶又は送信するための任意の媒体及び
／又は機構を含み得る。例えば、機械可読媒体は、読み出し専用メモリ（ＲＯＭ）、ラン
ダムアクセスメモリ（ＲＡＭ）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリ
装置、電気的、光学的、音響的又は他の形態の伝搬信号（例えば、搬送波、赤外線信号、
デジタル信号等）、及びその他を含み得る。

本明細書で使用される場合、「コンピュータエンジン」及び「エンジン」という用語は
、他のソフトウェア及び／又はハードウェアコンポーネント（例えば、ライブラリ、ソフ
トウェア開発キット（ＳＤＫ）、オブジェクト等）を管理／制御するように設計／プログ
ラム／構成された少なくとも１つのソフトウェアコンポーネント及び／又は少なくとも１
つのソフトウェアコンポーネントと少なくとも１つのハードウェアコンポーネントとの組
み合わせを示す。

ハードウェア要素の例としては、プロセッサ、マイクロプロセッサ、回路、回路素子（
例えば、トランジスタ、抵抗器、コンデンサ、インダクタ等）、集積回路、特定用途向け
集積回路（ＡＳＩＣ）、プログラマブル論理装置（ＰＬＤ）、デジタル信号プロセッサ（
ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、論理ゲート、レジスタ
、半導体装置、チップ、マイクロチップ、チップセット等が挙げられる。いくつかの実施
形態では、１つ以上のプロセッサは、複合命令セットコンピュータ（ＣＩＳＣ）又は縮小
命令セットコンピュータ（ＲＩＳＣ）プロセッサ、ｘ８６命令セットと互換性のあるプロ
セッサ、マルチコア、又はその他のマイクロプロセッサ又は中央処理装置（ＣＰＵ）とし
て実装することができる。様々な実装では、１つ以上のプロセッサは、（複数の）デュア
ルコアプロセッサ、（複数の）デュアルコアモバイルプロセッサ等であってもよい。

ソフトウェアの例には、ソフトウェアコンポーネント、プログラム、アプリケーション
、コンピュータプログラム、アプリケーションプログラム、システムプログラム、マシン
プログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、
ソフトウェアモジュール、ルーチン、サブルーチン、関数、メソッド、プロシージャ、ソ
フトウェアインターフェース、アプリケーションプログラムインターフェース（ＡＰＩ）
、命令セット、コンピュータコード、コンピュータコード、コードセグメント、コンピュ
ータコードセグメント、単語、値、記号、又はそれらの任意の組み合わせが含まれ得る。
実施形態がハードウェア要素及び／又はソフトウェア要素を使用して実装されるかどうか
を判断することは、所望の計算速度、電力レベル、耐熱性、処理サイクルバジェット、入
力データ速度、出力データ速度、メモリリソース、データバス速度、及び他の設計上又は
性能上の制約等の任意の数の要因に従って変化し得る。

少なくとも１つの実施形態の１つ以上の態様は、プロセッサ内の様々なロジックを表す
機械可読媒体に記憶された代表的な命令によって実装されてもよく、これは、機械によっ
て読み取られると、本明細書に記載の技術を実行するためのロジックを機械に作成させる
。「ＩＰコア」として知られるこのような表現は、ロジック又はプロセッサを作成する製
造機械にロードされるように、有形の機械可読媒体上に記憶され、様々な顧客又は製造施
設に供給され得る。留意点として、本明細書に記載される様々な実施形態は、当然のこと
ながら、任意の適切なハードウェア及び／又はコンピュータソフトウェア言語（例えば、
Ｃ＋＋、Ｏｂｊｅｃｔｉｖｅ－Ｃ、Ｓｗｉｆｔ、Ｊａｖａ、ＪａｖａＳｃｒｉｐｔ、Ｐｙ
ｔｈｏｎ、Ｐｅｒｌ、ＱＴ等）を使用して実装されてもよい。

いくつかの実施形態では、本開示の例示的な新規なコンピュータベース装置の１つ以上
は、少なくとも１つのパーソナルコンピュータ（ＰＣ）、ラップトップコンピュータ、ウ
ルトララップトップコンピュータ、タブレット、タッチパッド、ポータブルコンピュータ
、ハンドヘルドコンピュータ、パームトップコンピュータ、パーソナルデジタルアシスタ
ント（ＰＤＡ）、セルラ電話、複合セルラ電話／ＰＤＡ、テレビ、スマートデバイス（ス
マートフォン、スマートタブレット、スマートテレビ等）、モバイルインターネットデバ
イス（ＭＩＤ）、メッセージング装置、データ通信装置等を含むか、部分的に又は全体的
にそれらに組み込まれてもよい。

本明細書で使用される場合、「サーバ」という用語は、処理、データベース、及び通信
機能を提供するサービスポイントを指すものとして理解されるべきである。限定ではなく
例として、「サーバ」という用語は、関連する通信器及びデータ記憶装置及びデータベー
ス機能を有する単一の物理プロセッサを指してもよく、又は、プロセッサ及び関連するネ
ットワーク及び記憶装置のネットワーク化又はクラスタ化された複合体、並びにサーバに
よって提供されるサービスをサポートするオペレーティングソフトウェア及び１つ以上の
データベースシステム及びアプリケーションソフトウェアを指してもよい。クラウドサー
バがその例である。

いくつかの実施形態では、本明細書に詳細に記載されるように、本開示の例示的な新規
なコンピュータベースシステムのうちの１つ以上は、ファイル、連絡先、タスク、電子メ
ール、ツイート、地図、アプリケーション全体（例えば、電卓）等の任意の適切な形態で
あり得る任意のデジタルオブジェクト及び／又はデータユニットを（例えば、特定のアプ
リケーションの内部及び／又は外部から）取得、操作、転送、記憶、変換、生成、及び／
又は出力し得る。いくつかの実施形態では、本明細書に詳細に記載されるように、本開示
の例示的な新規なコンピュータベースシステムのうちの１つ以上は、限定されないが、例
えば、（１）ＡｍｉｇａＯＳ、ＡｍｉｇａＯＳ４、（２）ＦｒｅｅＢＳＤ、ＮｅｔＢＳＤ
、ＯｐｅｎＢＳＤ、（３）Ｌｉｎｕｘ、（４）ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ、（
５）ＯｐｅｎＶＭＳ、（６）ＯＳＸ（ＭａｃＯＳ）、（７）ＯＳ／２、（８）Ｓｏｌ
ａｒｉｓ、（９）Ｔｒｕ６４ＵＮＩＸ（登録商標）、ＵＮＩＸ、（１０）ＶＭ，（１
１）Ａｎｄｒｏｉｄ，（１２）Ｂａｄａ，（１３）ＢｌａｃｋＢｅｒｒｙＯＳ，（１４
）ＦｉｒｅｆｏｘＯＳ，（１５）ｉＯＳ，（１６）ＥｍｂｅｄｄｅｄＬｉｎｕｘ，（
１７）ＰａｌｍＯＳ，（１８）Ｓｙｍｂｉａｎ，（１９）Ｔｉｚｅｎ，（２０）Ｗｅｂ
ＯＳ，（２１）ＷｉｎｄｏｗｓＭｏｂｉｌｅ，（２２）ＷｉｎｄｏｗｓＰｈｏｎｅ，
（２３）ＡｄｏｂｅＡＩＲ，（２４）ＡｄｏｂｅＦｌａｓｈ，（２５）Ａｄｏｂｅ
Ｓｈｏｃｋｗａｖｅ，（２６）ＢｉｎａｒｙＲｕｎｔｉｍｅＥｎｖｉｒｏｎｍｅｎｔ
ｆｏｒＷｉｒｅｌｅｓｓ（ＢＲＥＷ）、（２７）Ｃｏｃｏａ（ＡＰＩ）、（２８）Ｃ
ｏｃｏａＴｏｕｃｈ，（２９）ＪａｖａＰｌａｔｆｏｒｍｓ，（３０）ＪａｖａＦＸ
，（３１）ＪａｖａＦＸＭｏｂｉｌｅ，（３２）ＭｉｃｒｏｓｏｆｔＸＮＡ，（３３
）Ｍｏｎｏ，（３４）ＭｏｚｉｌｌａＰｒｉｓｍ，ＸＵＬａｎｄＸＵＬＲｕｎｎｅ
ｒ，（３５）．ＮＥＴＦｒａｍｅｗｏｒｋ、（３６）Ｓｉｌｖｅｒｌｉｇｈｔ、（３７
）ＯｐｅｎＷｅｂＰｌａｔｆｏｒｍ、（３８）ＯｒａｃｌｅＤａｔａｂａｓｅ、（
３９）Ｑｔ、（４０）ＳＡＰＮｅｔＷｅａｖｅｒ、（４１）Ｓｍａｒｔｆａｃｅ、（４
２）Ｖｅｘｉ、及び（４３）Ｗｉｎｄｏｗｓランタイム等の様々なコンピュータプラット
フォームの１つ以上にまたがって実装されてもよい。

いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム、及び
／又は例示的な新規なコンピュータベース装置は、本開示の原理と一致する特徴を実装す
るためにソフトウェア命令の代わりに又はそれと組み合わせて使用され得る配線回路を利
用するように構成されてもよい。したがって、本開示の原理と一致する実装は、ハードウ
ェア回路とソフトウェアの特定の組み合わせに限定されない。例えば、様々な実施形態は
、限定されないが、スタンドアロンソフトウェアパッケージ、ソフトウェアパッケージの
組合せ等のソフトウェアコンポーネントとして、多くの異なるやり方で具現化されてもよ
く、又は、より大きなソフトウェア製品に「ツール」として組み込まれるソフトウェアパ
ッケージであってもよい。

例えば、本開示の１つ以上の原理に従って特別にプログラムされた例示的なソフトウェ
アは、スタンドアロン製品として、又は既存のソフトウェアアプリケーションにインスト
ールするためのアドインパッケージとして、ネットワーク、例えばウェブサイトからダウ
ンロード可能であってもよい。例えば、本開示の１つ以上の原理に従って特別にプログラ
ムされた例示的なソフトウェアは、クライアントサーバソフトウェアアプリケーションと
して、又はウェブ対応ソフトウェアアプリケーションとしても利用可能であり得る。例え
ば、本開示の１つ以上の原理に従って特別にプログラムされた例示的なソフトウェアは、
ハードウェア装置にインストールされるソフトウェアパッケージとして具体化されてもよ
い。

いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム／プラ
ットフォーム、例示的な新規なコンピュータベース装置、及び／又は例示的な新規なコン
ピュータベースコンポーネントは、限定されないが、少なくとも１００人（例えば、限定
されないが、１００～９９９）、少なくとも１，０００人（例えば、限定されないが、１
，０００～９，９９９）、少なくとも１０，０００人（例えば、限定されないが、１０，
０００～９９，９９９）、少なくとも１００，０００人（例えば、限定されないが、１０
０，０００～９９９，９９９）、少なくとも１，０００，０００人（例えば、限定されな
いが、１，０００～９，９９９，９９９）、少なくとも１０，０００，０００人（例えば
、限定されないが、１０，０００，０００～９９，９９９，９９９）、少なくとも１００
，０００，０００人（例えば、限定されないが、１００，０００，０００～９９９，９９
９，９９９）、少なくとも１，０００，０００，０００人（例えば、限定されないが、１
，０００，０００，０００，０００，０００～１０，０００，０００，０００）であり得
る多数の同時ユーザを処理するように構成され得る。

いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム及び／
又は例示的な新規なコンピュータベース装置は、本開示の別個の、特別にプログラムされ
たグラフィカルユーザインタフェースの実装（例えば、デスクトップ、Ｗｅｂアプリ等）
に出力するように構成されてもよい。本開示の様々な実装では、最終出力は、限定されな
いが、コンピュータのスクリーン、モバイル装置のスクリーン等であり得るディスプレイ
スクリーン上に表示され得る。様々な実装では、ディスプレイはホログラフィックディス
プレイであってもよい。様々な実装では、ディスプレイは、視覚投影を受けることができ
る透明表面であってもよい。このような投影は、様々な形態の情報、画像、及び／又はオ
ブジェクトを伝達し得る。例えば、そのような投影は、モバイル拡張現実（ＭＡＲ）アプ
リケーションのための視覚オーバーレイであり得る。

本明細書では、「クラウド」、「インターネットクラウド」、「クラウドコンピュータ
」、「クラウドアーキテクチャ」、及び類似する用語は、（１）リアルタイム通信ネット
ワーク（例えば、インターネット）を介して接続された多数のコンピュータ、（２）接続
された多数のコンピュータ（例えば、物理マシン、仮想マシン（ＶＭ））で同時にプログ
ラム又はアプリケーションを実行する能力を提供すること、（３）ネットワークベースの
サービスであって、実際のサーバハードウェアによって提供されるように見えるが、実際
には仮想ハードウェア（例えば、仮想サーバ）によって提供され、１つ以上の実マシン上
で実行されるソフトウェアによってシミュレートされるもの（例えば、エンドユーザに影
響を与えることなく、その場で移動及びスケールアップ（又はスケールダウン）すること
を可能にする）のうちの少なくとも１つに対応する。

いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム及び／
又は例示的な新規なコンピュータベース装置は、１つ以上の暗号化技術（例えば、秘密／
公開鍵ペア、３ＤＥＳ（ＴｒｉｐｌｅＤａｔａＥｎｃｒｙｐｔｉｏｎＳｔａｎｄａ
ｒｄ）、ブロック暗号アルゴリズム（例えば、ＩＤＥＡ、ＲＣ２、ＲＣ５、ＣＡＳＴ、Ｓ
ｋｉｐｊａｃｋ）、暗号ハッシュアルゴリズム（例えば、ＭＤ５、ＲＩＰＥＭＤ－１６０
、ＲＴＲ０、ＳＨＡ－１、ＳＨＡ－２、Ｔｉｇｅｒ（ＴＴＨ）、ＷＨＩＲＬＰＯＯＬ、Ｒ
ＮＧ）を利用することによって、データを安全に記憶及び／又は送信するように構成され
てもよい。

前述の例は、もちろん例示的であり、限定的ではない。

本明細書で使用される「ユーザ」という用語は、少なくとも１人のユーザを意味する。
いくつかの実施形態では、「ユーザ」、「加入者」、「消費者」、又は「顧客」という用
語は、本明細書に記載される１つ以上のアプリケーションのユーザ及び／又はデータプロ
バイダによって供給されるデータの消費者を指すと理解されるべきである。限定ではなく
例として、「ユーザ」又は「加入者」という用語は、ブラウザセッションにおいてインタ
ーネットを介してデータ又はサービスプロバイダによって提供されるデータを受信する人
を指してもよく、又はデータを受信してデータを記憶若しくは処理する自動化ソフトウェ
アアプリケーションを指してもよい。

図１は、本開示の１つ以上の実施形態による機械学習における偏り低減のための例示的
なコンピュータベースシステム１００のブロック図を示す。しかしながら、これらのコン
ポーネントの全てが１つ以上の実施形態を実施するために必要とされるわけではなく、コ
ンポーネントの配置及びタイプの変更は、本開示の様々な実施形態の精神又は範囲から逸
脱することなく行われ得る。いくつかの実施形態では、例示的なコンピュータベースシス
テム１００の例示的な新規なコンピュータ装置及び／又は例示的な新規なコンピュータコ
ンポーネントは、本明細書で詳述するように、多数のメンバ及び／又は同時トランザクシ
ョンを管理するように構成されてもよい。いくつかの実施形態では、例示的なコンピュー
タベースシステム／プラットフォーム１００は、ここでの実施形態に記載されているよう
に、動的外れ値偏り低減（ＤＯＢＲ；ｄｙｎａｍｉｃｏｕｔｌｉｅｒｂｉａｓｒｅ
ｄｕｃｔｉｏｎ）を含む、データの評価、キャッシュ、検索、及び／又はデータベース接
続プーリングのための様々な戦略を組み込んだスケーラブルなコンピュータ及び／又はネ
ットワークアーキテクチャに基づき得る。スケーラブルなアーキテクチャの一例は、複数
のサーバを動作させることが可能なアーキテクチャである。

いくつかの実施形態では、図１を参照すると、例示的なコンピュータベースシステム１
００のメンバ１０２～１０４（例えば、クライアント）は、ネットワーク１０５等のネッ
トワーク（例えば、クラウドネットワーク）を介して、例えば、サーバ１０６及び１０７
等の他のコンピュータ装置と相互にメッセージを送受信することができる実質的に任意の
コンピュータ装置を含み得る。いくつかの実施形態では、メンバ装置１０２～１０４は、
パーソナルコンピュータ、マルチプロセッサシステム、マイクロプロセッサベース又はプ
ログラム可能な消費者電子機器、ネットワークＰＣ等であってもよい。いくつかの実施形
態では、メンバ装置１０２～１０４内の１つ以上のメンバ装置は、通常、携帯電話、スマ
ートフォン、ポケットベル、トランシーバ、無線周波数（ＲＦ）装置、赤外線（ＩＲ）装
置、ＣＢ、１つ以上の前述の装置を組み合わせた統合装置、又は実質的に任意のモバイル
コンピュータ装置等の無線通信媒体を使用して接続するコンピュータ装置を含み得る。い
くつかの実施形態では、メンバ装置１０２～１０４内の１つ以上のメンバ装置は、ＰＤＡ
、ポケットＰＣ、ウェアラブルコンピュータ、ラップトップ、タブレット、デスクトップ
コンピュータ、ネットブック、テレビゲーム装置、ページャ、スマートフォン、ウルトラ
モバイルパーソナルコンピュータ（ＵＭＰＣ）、及び／又は有線及び／又は無線通信媒体
（例えば、ＮＦＣ、ＲＦＩＤ、ＮＢＩＯＴ、３Ｇ、４Ｇ、５Ｇ、ＧＳＭ（登録商標）、Ｇ
ＰＲＳ、ＷｉＦｉ、ＷｉＭａｘ、ＣＤＭＡ、衛星、ＺｉｇＢｅｅ（登録商標）等）を介し
て通信するように設置された任意の他の装置等の有線又は無線通信媒体を使用して接続可
能な装置であってもよい。いくつかの実施形態では、メンバ装置１０２～１０４内の１つ
以上のメンバ装置は、とりわけインターネットブラウザ、モバイルアプリケーション、音
声通話、ビデオゲーム、ビデオ会議、及び電子メール等の１つ以上のアプリケーションを
含み、それらを実行し得る。いくつかの実施形態では、メンバ装置１０２～１０４内の１
つ以上のメンバ装置は、ウェブページ等を受信及び送信するように構成されてもよい。い
くつかの実施形態では、本開示の例示的な特別にプログラムされたブラウザアプリケーシ
ョンは、限定されないが、ハイパーテキストマークアップ言語（ＨＴＭＬ）等のＳＭＧＬ
（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）、無
線アプリケーションプロトコル（ＷＡＰ）、無線マークアップ言語（ＷＭＬ）等のハンド
ヘルドデバイスマークアップ言語（ＨＤＭＬ）、ＷＭＬＳｃｒｉｐｔ、ＸＭＬ、Ｊａｖａ
Ｓｃｒｉｐｔ等を含む実質的に任意のウェブベース言語を使用して、グラフィックス、テ
キスト、マルチメディア等を受信及び表示するように構成されてもよい。いくつかの実施
形態では、メンバ装置１０２～１０４内のメンバ装置は、Ｊａｖａ，．Ｎｅｔ，ＱＴ，Ｃ
，Ｃ＋＋及び／又は他の適切なプログラミング言語のいずれかによって特別にプログラム
されてもよい。いくつかの実施形態では、メンバ装置１０２～１０４内の１つ以上のメン
バ装置は、限定されないが、メッセージ機能、ブラウジング、検索、再生、ストリーミン
グ、又はローカルに保存又はアップロードされたメッセージ、画像及び／又はビデオ、及
び／又はゲームを含む様々な形式のコンテンツの表示等の様々な可能なタスクを実行する
ために、アプリケーションを含むか又は実行するように特別にプログラムされてもよい。

いくつかの実施形態では、例示的なネットワーク１０５は、それに結合された任意のコ
ンピュータ装置へのネットワークアクセス、データ転送及び／又は他のサービスを提供し
てもよい。いくつかの実施形態では、例示的なネットワーク１０５は、例えば、限定され
ないが、ＧＳＭ（登録商標）（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅｃ
ｏｍｍｕｎｉｃａｔｉｏｎ）アソシエーション、ＩＥＴＦ（ＩｎｔｅｒｎｅｔＥｎｇｉ
ｎｅｅｒｉｎｇＴａｓｋＦｏｒｃｅ）、及びＷｉＭＡＸ（ＷｏｒｌｄｗｉｄｅＩｎ
ｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓ）フォーラ
ムによって設定された１つ以上の規格に少なくとも部分的に基づき得る少なくとも１つの
特別なネットワークアーキテクチャを含みかつ実装してもよい。いくつかの実施形態では
、例示的なネットワーク１０５は、ＧＳＭ（登録商標）アーキテクチャ、ＧＰＲＳ（Ｇｅ
ｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ）アーキテクチャ、ＵＭＴＳ（
ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔ
ｅｍ）アーキテクチャ、及びＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）と呼ば
れるＵＭＴＳの進化のうちの１つ以上を実装してもよい。いくつかの実施形態では、例示
的なネットワーク１０５は、代替として又は上記のうちの１つ以上と組み合わせて、Ｗｉ
ＭＡＸフォーラムによって定義されたＷｉＭＡＸアーキテクチャを含みかつ実装してもよ
い。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態
の組み合わせにおいて、例示的なネットワーク１０５は、例えば、ローカルエリアネット
ワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、仮想ＬＡＮ
（ＶＬＡＮ）、企業ＬＡＮ、レイヤ３仮想プライベートネットワーク（ＶＰＮ）、企業Ｉ
Ｐネットワーク、又はそれらの任意の組み合わせのうちの少なくとも１つを含んでもよい
。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の
組み合わせにおいて、例示的なネットワーク１０５上の少なくとも１つのコンピュータネ
ットワーク通信は、限定されないが、ＮＦＣ、ＲＦＩＤ、狭帯域モノのインターネット（
ＮＢＩＯＴ）、ＺｉｇＢｅｅ（登録商標）、３Ｇ、４Ｇ、５Ｇ、ＧＳＭ（登録商標）、Ｇ
ＰＲＳ、ＷｉＦｉ、ＷｉＭａｘ、ＣＤＭＡ、衛星、及びそれらの任意の組み合わせ等の少
なくとも部分的に１つの通信モードに基づいて送信され得る。いくつかの実施形態では、
例示的なネットワーク１０５は、ネットワーク接続型ストレージ（ＮＡＳ）、ストレージ
エリアネットワーク（ＳＡＮ）、コンテンツ配信ネットワーク（ＣＤＮ）、又は他の形態
のコンピュータ又は機械可読媒体等の大容量記憶装置を含んでもよい。

いくつかの実施形態では、例示的なサーバ１０６又は例示的なサーバ１０７は、ネット
ワークオペレーティングシステムを実行するウェブサーバ（又は一連のサーバ）であって
もよく、その例としては、限定されないが、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓＳｅ
ｒｖｅｒ、ＮｏｖｅｌｌＮｅｔＷａｒｅ、又はＬｉｎｕｘが挙げられる。いくつかの実
施形態では、例示的なサーバ１０６又は例示的なサーバ１０７は、クラウド及び／又はネ
ットワークコンピュータのために使用され、及び／又はこれらを提供してもよい。図１に
は示されていないが、いくつかの実施形態では、例示的なサーバ１０６又は例示的なサー
バ１０７は、電子メール、ＳＭＳメッセージング、テキストメッセージング、広告コンテ
ンツプロバイダ等の外部システムへの接続を有し得る。また、例示的なサーバ１０６の任
意の特徴が例示的なサーバ１０７に実装されてもよく、その逆も同様である。

いくつかの実施形態では、例示的なサーバ１０６及び１０７のうちの１つ以上は、限定
されないが、認証サーバ、検索サーバ、電子メールサーバ、ソーシャルネットワーキング
サービスサーバ、ＳＭＳサーバ、ＩＭサーバ、ＭＭＳサーバ、交換サーバ、写真共有サー
ビスサーバ、広告提供サーバ、金融／銀行関連サービスサーバ、旅行サービスサーバ、又
はメンバコンピュータ装置１０１～１０４のユーザのための任意の適切な同様のサービス
ベースサーバとして実行するように特別にプログラムされてもよい。

いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の
組み合わせにおいて、例えば、１つ以上の例示的なコンピュータメンバ装置１０２～１０
４、例示的なサーバ１０６、及び／又は例示的なサーバ１０７は、スクリプト言語、リモ
ートプロシージャコール、電子メール、ツイート、ショートメッセージサービス（ＳＭＳ
）、マルチメディアメッセージサービス（ＭＭＳ）、インスタントメッセージング（ＩＭ
）、インターネットリレーチャット（ＩＲＣ）、ｍＩＲＣ、Ｊａｂｂｅｒ、アプリケーシ
ョンプログラミングインターフェース、ＳＯＡＰ（ＳｉｍｐｌｅＯｂｊｅｃｔＡｃｃ
ｅｓｓＰｒｏｔｏｃｏｌ）メソッド、ＣＯＲＢＡ（ＣｏｍｍｏｎＯｂｊｅｃｔＲｅ
ｑｕｅｓｔＢｒｏｋｅｒＡｒｃｈｉｔｅｃｔｕｒｅ）、ＨＴＴＰ（Ｈｙｐｅｒｔｅｘ
ｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）、ＲＥＳＴ（Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ
ａｌＳｔａｔｅＴｒａｎｓｆｅｒ）、又はそれらの任意の組み合わせを使用して情報
を送信、処理、及び受信するように構成され得る特別にプログラムされたソフトウェアモ
ジュールを含み得る。

図２は、本開示の１つ以上の実施形態による、別の例示的なコンピュータベースシステ
ム／プラットフォーム２００のブロック図を示す。しかしながら、これらのコンポーネン
トの全てが１つ以上の実施形態を実施するために必要とされるわけではなく、コンポーネ
ントの配置及びタイプの変更は、本開示の様々な実施形態の精神又は範囲から逸脱するこ
となく行われ得る。いくつかの実施形態では、図示されたメンバコンピュータ装置２０２
ａ、２０２ｂ～２０２ｎのそれぞれは、少なくとも、プロセッサ２１０又はフラッシュメ
モリに結合されたランダムアクセスメモリ（ＲＡＭ）２０８等のコンピュータ可読媒体を
含む。いくつかの実施形態では、プロセッサ２１０は、メモリ２０８に記憶されたコンピ
ュータ実行可能プログラム命令を実行してもよい。いくつかの実施形態では、プロセッサ
２１０は、マイクロプロセッサ、ＡＳＩＣ、及び／又は状態マシンを含み得る。いくつか
の実施形態では、プロセッサ２１０は、プロセッサ２１０によって実行されたときに、プ
ロセッサ２１０に本明細書に記載の１つ以上のステップを実行させることができる命令を
記憶する、例えばコンピュータ可読媒体等の媒体を含むか、又はこれらと通信可能であっ
てもよい。いくつかの実施形態では、コンピュータ可読媒体の例は、限定されないが、ク
ライアント２０２ａのプロセッサ２１０等のプロセッサにコンピュータ可読命令を提供す
ることができる電子、光学、磁気、又はその他の記憶装置又は伝送装置を含み得る。いく
つかの実施形態では、適切な媒体の他の例として、限定されないが、フロッピーディスク
、ＣＤ－ＲＯＭ、ＤＶＤ、磁気ディスク、メモリチップ、ＲＯＭ、ＲＡＭ、ＡＳＩＣ、構
成プロセッサ、全ての光学媒体、全ての磁気テープ又は他の磁気媒体、又はコンピュータ
プロセッサが命令を読み取ることができる任意の他の媒体が挙げられる。また、様々な他
の形態のコンピュータ可読媒体が、命令をコンピュータに送信又は伝送してもよく、これ
はルータ、プライベート又はパブリックネットワーク、又は有線及び無線の両方の他の送
信装置又はチャネルを含む。いくつかの実施形態では、命令は、例えば、Ｃ、Ｃ＋＋、Ｖ
ｉｓｕａｌＢａｓｉｃ、Ｊａｖａ、Ｐｙｔｈｏｎ、Ｐｅｒｌ、ＪａｖａＳｃｒｉｐｔ等
を含む任意のコンピュータプログラミング言語からのコードを含み得る。

いくつかの実施形態では、メンバコンピュータ装置２０２ａから２０２ｎは、マウス、
ＣＤ－ＲＯＭ、ＤＶＤ、物理キーボード又は仮想キーボード、ディスプレイ、又は他の入
力又は出力装置等の多数の外部又は内部装置も備え得る。いくつかの実施形態では、メン
バコンピュータ装置２０２ａから２０２ｎ（例えば、クライアント）の例は、ネットワー
ク２０６に接続される任意のタイプのプロセッサベースのプラットフォームであってもよ
く、限定されないが、パーソナルコンピュータ、デジタルアシスタント、パーソナルデジ
タルアシスタント、スマートフォン、ポケットベル、デジタルタブレット、ラップトップ
コンピュータ、インターネット家電、及び他のプロセッサベースの装置等である。いくつ
かの実施形態では、メンバコンピュータ装置２０２ａから２０２ｎは、本明細書に詳細に
記載された１つ以上の原理／方法論に従って、１つ以上のアプリケーションプログラムで
特別にプログラムされ得る。いくつかの実施形態では、メンバコンピュータ装置２０２ａ
から２０２ｎは、Ｍｉｃｒｏｓｏｆｔ（ＴＭ）、Ｗｉｎｄｏｗｓ（ＴＭ）、及び／又はＬ
ｉｎｕｘ等のブラウザ又はブラウザ対応アプリケーションをサポートすることができる任
意のオペレーティングシステム上で動作し得る。いくつかの実施形態では、図示されたメ
ンバコンピュータ装置２０２ａ～２０２ｎは、例えば、Ｍｉｃｒｏｓｏｆｔ社のＩｎｔｅ
ｒｎｅｔＥｘｐｌｏｒｅｒ（ＴＭ）、ＡｐｐｌｅＣｏｍｐｕｔｅｒ社のＳａｆａｒｉ
（ＴＭ）、ＭｏｚｉｌｌａＦｉｒｅｆｏｘ、及び／又はＯｐｅｒａ等のブラウザアプリ
ケーションプログラムを実行するパーソナルコンピュータを含み得る。いくつかの実施形
態では、メンバコンピュータクライアント装置２０２ａから２０２ｎを介して、ユーザ２
１２ａから２１２ｎは、例示的なネットワーク２０６を介して、互いに及び／又はネット
ワーク２０６に結合された他のシステム及び／又は装置と通信することができる。図２に
示すように、例示的なサーバ装置２０４及び２１３もネットワーク２０６に結合されても
よい。いくつかの実施形態では、１つ以上のメンバコンピュータ装置２０２ａ～２０２ｎ
は、モバイルクライアントであってもよい。

いくつかの実施形態では、例示的なデータベース２０７及び２１５の少なくとも１つの
データベースは、データベース管理システム（ＤＢＭＳ）によって管理されるデータベー
スを含む任意のタイプのデータベースであり得る。いくつかの実施形態では、例示的なＤ
ＢＭＳ管理データベースは、それぞれのデータベースにおけるデータの組織化、記憶、管
理、及び／又は検索を制御するエンジンとして特別にプログラムされ得る。いくつかの実
施形態では、例示的なＤＢＭＳ管理データベースは、クエリ、バックアップ及び複製、ル
ールの実施、セキュリティの提供、計算、性能変更及びアクセスロギング、及び／又は自
動最適化を行う能力を提供するように特別にプログラムされてもよい。いくつかの実施形
態では、例示的なＤＢＭＳ管理データベースは、Ｏｒａｃｌｅデータベース、ＩＢＭＤ
Ｂ２、ＡｄａｐｔｉｖｅＳｅｒｖｅｒＥｎｔｅｒｐｒｉｓｅ、ＦｉｌｅＭａｋｅｒ、
ＭｉｃｒｏｓｏｆｔＡｃｃｅｓｓ、ＭｉｃｒｏｓｏｆｔＳＱＬＳｅｒｖｅｒ、Ｍｙ
ＳＱＬ、ＰｏｓｔｇｒｅＳＱＬ、及びＮｏＳＱＬの実装から選択されてもよい。いくつか
の実施形態では、例示的なＤＢＭＳ管理データベースは、階層モデル、ネットワークモデ
ル、リレーショナルモデル、オブジェクトモデル、又はフィールド、レコード、ファイル
及び／又はオブジェクトを含み得る１つ以上の適用可能なデータ構造をもたらし得る何ら
かの他の適切な機構を含み得る本開示の特定のデータベースモデルに従って、例示的なＤ
ＢＭＳ管理データベース内の各データベースのそれぞれのスキーマを定義するように特別
にプログラムされ得る。いくつかの実施形態では、例示的なＤＢＭＳ管理データベースは
、記憶されるデータに関するメタデータを含むように特別にプログラムされ得る。

いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム／プラ
ットフォーム、例示的な新規なコンピュータベース装置、及び／又は例示的な新規なコン
ピュータベースコンポーネントは、限定されないが、ＩａａＳ（ｉｎｆｒａｓｔｒｕｃ
ｔｕｒｅａｓｅｒｖｉｃｅ）、ＰａａＳ（ｐｌａｔｆｏｒｍａｓａｓｅｒｖｉ
ｃｅ）、及び／又はＳａａＳ（ｓｏｆｔｗａｒｅａｓａｓｅｒｖｉｃｅ）等のクラ
ウドコンピュータ／アーキテクチャで動作するように特に構成されてもよい。図３及び図
４は、本開示の例示的な新規なコンピュータベースシステム／プラットフォーム、例示的
な新規なコンピュータベース装置、及び／又は例示的な新規なコンピュータベースコンポ
ーネントが動作するように具体的に構成され得る（複数の）クラウドコンピュータ／アー
キテクチャの例示的な実装の概略を示す。

本発明の例示的なコンピュータベースシステム及び／又は装置の実施形態では、特にベ
ンチマーク研究のための一般化された線形モデルの精度及び理解を向上させるために、動
的外れ値偏り低減（ＤＯＢＲ）が使用されてもよい。しかしながら、これは、１つ以上の
独立変数及び１つの従属変数が存在する多種多様な分析モデルに適用され得る方法である
。本開示及びその実施形態は、機械学習モデル予測の精度を改善するためのＤＯＢＲの新
規な適用を例示するものである。

複数の実施形態では、ＤＯＢＲは予測モデルではない。その代わりに、複数の実施形態
では、これは、モデル予測の精度を向上させることができる予測モデル又は解釈モデルへ
のアドオン方法である。複数の実施形態では、ＤＯＢＲに識別された外れ値は、データが
供給された目的変数とモデル計算値との差に基づく。外れ値が識別されると、事前に決定
された選択基準を介して、外れ値依存データレコード及びモデル生成依存変数が分析から
除去される。これらのレコードを恒久的に除去して、さらなる分析を続け得る。しかしな
がら、例示的な新規なシステム及び方法の他の実施形態では、モデルの反復ごとに、外れ
値識別プロセスは、その計算パラメータによって定義される最後の反復の予測モデルを用
いて、全てのレコードが外れ値精査を受けるようにデータセット全体を含む。したがって
、本発明の例示的な実施形態は、例えば、トレーニングデータの選択偏りの伝播を低減す
るために、各反復においてデータセット全体を含むことによって、機械学習モデルにおけ
る偏りを低減する。したがって、機械学習モデルをより正確かつ効率的にトレーニング及
び実装して、機械学習システムの動作を改善することができる。

図５は、本開示の１つ以上の実施形態による、機械学習における例示的な新規な偏り低
減システムのブロック図を示す。

いくつかの実施形態では、偏り低減システム３００は、例えば機械学習エンジンによる
分析下のデータセットにおける動的外れ値偏り低減（ＤＯＢＲ）のためのコンポーネント
を含み得る。いくつかの実施形態では、ＤＯＢＲは、事前定義された基準に従って外れ値
レコードを除去するための反復プロセスを提供する。この条件は、パーセンテージで表さ
れるユーザ定義の誤差許容値である。これは、ここでの検討の後半に記載される洞察及び
その他の分析結果に潜在的に基づいて、ユーザがモデルで許容できる誤差の量を示す。値
１００％は、全ての誤差が許容され、ＤＯＢＲプロセスでレコードが除去されないことを
示す。０％を選択すると、全てのレコードが除去される。一般に、工業用途では８０から
９５％の範囲の誤差許容値が観測されている。

いくつかの実施形態では、ユーザは、ディスプレイ装置３１２及びユーザ入力装置３０
８を使用する数あるユーザ相互作用動作の中で、ユーザ入力装置３０８を介して誤差許容
値を入力し、ディスプレイ装置３１２を介して結果を表示するように、偏り低減システム
３００と相互作用してもよい。誤差許容値に基づいて、偏り低減システム３００は、偏り
低減システム３００と通信するデータベース３１０又は他の記憶装置に受信されたデータ
セット３１１を分析してもよい。偏り低減システム３００は、データベース３１０又は他
の記憶装置を介してデータセット３１１を受信し、精度及び効率を改善するために、動的
外れ値偏り低減を有する１つ以上の機械学習モデルを用いて予測を行ってもよい。

いくつかの実施形態では、偏り低減システム３００は、数あるコンポーネントの中でも
、例えば、記憶装置及びメモリ装置、キャッシュ、バッファ、バス、入出力（Ｉ／Ｏ）イ
ンターフェース、プロセッサ、コントローラ、ネットワーキング及び通信装置、オペレー
ティングシステム、カーネル、装置ドライバ等を含む、ハードウェア及びソフトウェアコ
ンポーネントの組み合わせを含む。いくつかの実施形態では、プロセッサ３０７は、他の
コンポーネントの機能を実装するために、複数の他のコンポーネントと通信する。いくつ
かの実施形態では、各コンポーネントは、コンポーネント機能の実行のためにプロセッサ
３０７上でスケジュールされた時間を有するが、いくつかの実施形態では、各コンポーネ
ントは、プロセッサ３０７の処理システム内の１つ以上のプロセッサにスケジュールされ
る。他の実施形態では、各コンポーネントは、それに含まれる自身のプロセッサを有する
。

いくつかの実施形態では、偏り低減システム３００のコンポーネントは、数あるコンポ
ーネントの中でも、例えば、モデルインデックス３０２及びモデルライブラリ３０３と通
信するＤＯＢＲエンジン３０１、リグレッサパラメータライブラリ３０５、分類器パラメ
ータライブラリ３０４、及びＤＯＢＲフィルタ３０６を含み得る。各コンポーネントは、
数あるコンポーネントの中でも、例えば、メモリ及び記憶装置、処理装置、通信装置、入
出力（Ｉ／Ｏ）インターフェース、コントローラ、ネットワーキング及び通信装置、オペ
レーティングシステム、カーネル、装置ドライバ、命令セット等のコンポーネント機能を
実装するためのハードウェア及びソフトウェアの組み合わせを含み得る。

いくつかの実施形態では、ＤＯＢＲエンジン３０１は、機械学習モデルをインスタンス
化して実行するためのモデルエンジンを含む。ＤＯＢＲエンジン３０１は、モデルインデ
ックス３０２を使用して、モデルライブラリ３０３におけるインスタンス化のためにモデ
ルにアクセスしてもよい。例えば、モデルライブラリ３０３は、ＤＯＢＲエンジン３０１
等のエンジンによって使用するために選択的にアクセス及びインスタンス化され得る機械
学習モデルのライブラリを含み得る。いくつかの実施形態では、モデルライブラリ３０３
は、数ある可能な分類器及びリグレッサの中でも、例えば、サポートベクトルマシン（Ｓ
ＶＭ）、線形リグレッサ、Ｌａｓｓｏモデル、決定木リグレッサ、決定木分類器、ランダ
ムフォレストリグレッサ、ランダムフォレスト分類器、Ｋ近傍リグレッサ、Ｋ近傍分類器
、勾配ブースティングリグレッサ、勾配ブースティング分類器等の機械学習モデルを含み
得る。例えば、モデルライブラリ３０３は、以下の例示的な擬似コード１に従ってモデル
をインポートすることができる。

しかしながら、いくつかの実施形態では、モデルライブラリ３０３内の機械学習モデル
のライブラリへのアクセスを容易にするために、ＤＯＢＲエンジン３０１は、ＤＯＢＲエ
ンジン３０１によって関数として使用されるモデル識別子に各モデルをインデックス付け
するモデルインデックス３０２を使用してもよい。例えば、数ある回帰モデル及び分類モ
デルの中でも、例えば、線形回帰、ＸＧＢｏｏｓｔ回帰、サポートベクトル回帰、Ｌａｓ
ｓｏ、Ｋ近傍回帰、バギング回帰、勾配ブースティング回帰、ランダムフォレスト回帰、
決定木回帰を含むモデルは、番号識別子によってインデックス付けされ、かつ名前でラベ
ル付けされ得る。例えば、以下の擬似コード２は、モデルインデックス３０２によって使
用されるモデルインデックスコードの例を示す。

モデルライブラリ３０３及びモデルインデックス３０２のための擬似コードの他の実施
形態も考えられる。いくつかの実施形態では、ソフトウェア命令は、それぞれのモデルラ
イブラリ３０３又はモデルインデックス３０２のメモリ内に記憶され、プロセッサ３０７
に提供するためにキャッシュ内にバッファされる。いくつかの実施形態では、ＤＯＢＲエ
ンジン３０１は、通信及び／又はＩ／Ｏ装置を介してインデックスにアクセス又は呼び出
すことによってモデルインデックス３０２を利用してもよく、通信及び／又はＩ／Ｏ装置
を介してモデルライブラリ３０３から関数としてモデルを呼び出すためにインデックスを
利用してもよい。

いくつかの実施形態では、ＤＯＢＲエンジン３０１によって呼び出されるモデルの最適
化及びカスタマイズを容易にするために、偏り低減システム３００は、数ある記憶装置及
びメモリ装置の中でも、例えば、ハードドライブ、ソリッドステートドライブ、ランダム
アクセスメモリ（ＲＡＭ）、フラッシュ記憶装置等のメモリ又は記憶装置にモデルパラメ
ータを記録してもよい。例えば、リグレッサパラメータは、リグレッサパラメータライブ
ラリ３０５に記録されかつ調整され得る。したがって、リグレッサパラメータライブラリ
３０５は、例えばリアルタイムで、複数のリグレッサのための多数のパラメータを記憶し
、調整し、通信するのに十分なメモリ及び帯域幅で構成された記憶装置及び通信ハードウ
ェアを含み得る。例えば、ＤＯＢＲエンジン３０１によってインスタンス化された各回帰
機械学習モデルについて、各パラメータは、リグレッサパラメータライブラリ３０５にお
いて初期化及び更新され得る。いくつかの実施形態では、ユーザは、ユーザ入力装置３０
８を介して、パラメータの初期セットを確立してもよい。しかしながら、いくつかの実施
形態では、パラメータの初期セットは、予め決められていてもよく、又はランダムに生成
されてもよい。回帰機械学習モデルのインスタンス化の際に、ＤＯＢＲエンジン３０１は
、モデルインデックス３０２で識別されたモデルを、リグレッサパラメータライブラリ３
０５内のパラメータのセットに相互に関連付けてもよい。例えば、ＤＯＢＲエンジン３０
１は、例えば、所定の回帰モデルに関連付けられた識別（ＩＤ）番号に従って、パラメー
タのセットを呼び出してもよい。例えば、リグレッサパラメータライブラリ３０５は、以
下の擬似コード３に類似した各回帰モデルのパラメータを識別してもよい。

同様に、いくつかの実施形態では、分類器パラメータは、分類器パラメータライブラリ
３０４に記録されかつ調整されてもよい。したがって、分類器パラメータライブラリ３０
４は、例えばリアルタイムで、複数のリグレッサのための多数のパラメータを記憶し、調
整し、通信するのに十分なメモリ及び帯域幅で構成された記憶装置及び通信ハードウェア
を含み得る。例えば、ＤＯＢＲエンジン３０１によってインスタンス化された各分類機械
学習モデルに対して、リグレッサパラメータライブラリ３０５において、それぞれのパラ
メータが初期化され、かつ更新されてもよい。いくつかの実施形態では、ユーザは、ユー
ザ入力装置３０８を介して、パラメータの初期セットを確立してもよい。しかしながら、
いくつかの実施形態では、パラメータの初期セットは予め決定されてもよい。回帰機械学
習モデルのインスタンス化の際に、ＤＯＢＲエンジン３０１は、モデルインデックス３０
２で識別されたモデルを、リグレッサパラメータライブラリ３０５内のパラメータのセッ
トに相互に関連付けてもよい。例えば、ＤＯＢＲエンジン３０１は、例えば、所定の回帰
モデルに関連付けられた識別（ＩＤ）番号に従って、一組のパラメータを呼び出してもよ
い。例えば、リグレッサパラメータライブラリ３０５は、以下の擬似コード４に類似した
各回帰モデルのパラメータを識別してもよい。

いくつかの実施形態では、モデルインデックス３０２を介してモデルライブラリ３０３
からモデルのセットを呼び出して受け取り、リグレッサパラメータライブラリ３０５及び
／又は分類器パラメータライブラリ３０４からそれぞれのパラメータを受信することによ
って、ＤＯＢＲエンジン３０１は、例えば、ＤＯＢＲエンジン３０１のキャッシュ又はバ
ッファに、１つ以上のインスタンス化及び初期化されたモデルをロードしてもよい。いく
つかの実施形態では、データセット３１１は、次に、データベース３１０から、例えば、
同一又は異なるキャッシュ又はバッファ又はＤＯＢＲエンジン３０１の他の記憶装置にロ
ードされ得る。次に、ＤＯＢＲエンジン３０１におけるプロセッサ３０７又は１つのプロ
セッサは、各モデルを実行して、例えば、活動に関連する所定の入力属性に基づいて活動
の結果又はパラメータを特徴付ける活動関連データ値のそれぞれの予測にデータセット３
１１を変換してもよい。例えば、家庭及び／又は商業環境における機器のエネルギ使用量
、様々な用途及び組成におけるコンクリート圧縮強度、物体又は画像認識、音声認識、又
は他の機械学習用途である。例えば、ＤＯＢＲエンジン３０１は、数ある要因の中でも、
過去のエネルギ使用量、時期、時刻、場所のデータセット３１１に基づいて、機器のエネ
ルギ使用量をモデル化してもよい。ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１
のバスに接続されたモデルインデックス３０２を介して、モデルライブラリ３０３からリ
グレッサのセットを呼び出してもよい。次に、ＤＯＢＲエンジン３０１は、ＤＯＢＲエン
ジン３０１のバスに接続されたリグレッサパラメータライブラリ３０５において、機器の
エネルギ使用量の推定のためにリグレッサに関連するパラメータファイル又はログを呼び
出してもよい。次に、ＤＯＢＲエンジン３０１は、プロセッサ３０７を利用して、モデル
及びモデルパラメータ、時刻及び日付、位置、又は他の要因及びそれらの組み合わせに基
づいて将来のエネルギ消費量を予測してもよい。

同様に、例えば、ＤＯＢＲエンジン３０１は、数ある要因の中でも、コンクリート材料
、時期、時刻、位置、湿度、硬化時間、経年のデータセット３１１に基づいて、コンクリ
ート圧縮強度をモデル化してもよい。ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０
１のバスに接続されたモデルインデックス３０２を介して、モデルライブラリ３０３から
リグレッサのセットを呼び出してもよい。次に、ＤＯＢＲエンジン３０１は、ＤＯＢＲエ
ンジン３０１のバスに接続されたリグレッサパラメータライブラリ３０５におけるコンク
リート圧縮強度推定のために、リグレッサに関連するパラメータファイル又はログを呼び
出してもよい。次に、ＤＯＢＲエンジン３０１は、プロセッサ３０７を利用して、特定の
コンクリート組成、時間及び日付、位置、又は他の要因及びそれらの組み合わせに関する
モデル及びモデルパラメータに基づいて、将来のコンクリート圧縮強度を予測してもよい
。

別の例として、ＤＯＢＲエンジン３０１は、数ある要因の中でも、発話及びグラウンド
トゥルース音声転写のデータセット３１１に基づいて音声認識を実行してもよい。ＤＯＢ
Ｒエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続されたモデルインデックス３
０２を介して、モデルライブラリ３０３から分類器のセットを呼び出してもよい。次に、
ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続された分類器パラメー
タライブラリ３０４において、音声認識のための分類器に関連付けられたパラメータファ
イル又はログを呼び出してもよい。次に、ＤＯＢＲエンジン３０１は、プロセッサ３０７
を利用して、１つ以上の発話のセットに対するモデル及びモデルパラメータに基づいて、
記録された音声データの転写を予測してもよい。

別の例として、ＤＯＢＲエンジン３０１は、米国特許第１０，３３９，６９５号に記載
されているように、数ある要因の中でも、画像化及び／又は可視化にわたる複数のレンダ
リングパラメータの設定のデータセット３１１に基づいて、医療画像のためのレンダリン
グ設定を自動的に予測してもよい。ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１
のバスに接続されたモデルインデックス３０２を介して、モデルライブラリ３０３から分
類器のセットを呼び出してもよい。次に、ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン
３０１のバスに接続された分類器パラメータライブラリ３０４における設定をレンダリン
グするために、分類器に関連付けられたパラメータファイル又はログを呼び出してもよい
。次いで、ＤＯＢＲエンジン３０１は、プロセッサ３０７を利用して、１つ以上の医療デ
ータセットのセットのためのモデル及びモデルパラメータに基づいてレンダリング設定デ
ータを予測してもよい。

別の例として、ＤＯＢＲエンジン３０１は、米国特許第１０，３１７，８５４号に記載
されているように、数ある要因の中でも、機械制御コマンド結果及び機械制御コマンドの
シミュレーション結果のデータセット３１１に基づいて機械のロボット制御を実行しても
よい。ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続されたモデルイ
ンデックス３０２を介して、モデルライブラリ３０３から回帰モデルのセットを呼び出し
てもよい。次に、ＤＯＢＲエンジン３０１は、ＤＯＢＲエンジン３０１のバスに接続され
たリグレッサパラメータライブラリ３０５におけるロボット制御のための回帰モデルに関
連するパラメータファイル又はログを呼び出してもよい。次に、ＤＯＢＲエンジン３０１
は、プロセッサ３０７を利用して、制御コマンドのセット、環境情報、センサデータ及び
／又はコマンドのシミュレーションに関するモデル及びモデルパラメータに基づいて、特
定の制御コマンドの成功又は失敗を予測してもよい。

いくつかの実施形態では、偏り低減システム３００は、例えば、リモートユーザのため
のクラウドサービスとして、クラウド環境において機械学習モデルを実装してもよい。米
国特許第１０，４５２，９９２号に記載されているように、このようなクラウドサービス
は、多数のユーザ、前述のものを含む多種多様なアルゴリズム及び問題サイズ、並びにユ
ーザのユースケースに特有の他の潜在的なモデル、データセット、及びパラメータ調整を
サポートするように設計され得る。一実施形態では、偏り低減システム３００が実装され
るサービスによって、多数のプログラミングインターフェース（アプリケーションプログ
ラミングインターフェース（ＡＰＩ）等）が定義されてもよく、これは、ユーザがモデル
の調整又は高度な統計若しくは人工知能技術の学習に多くの時間と労力を費やすことなく
、機械学習のベストプラクティスを比較的迅速に使用し始めるように非熟練ユーザをガイ
ドする。インターフェースは、例えば、非専門家が、機械学習モデルを構築し、トレーニ
ングし、使用するために使用される手順の様々な側面について、デフォルト設定又はパラ
メータに依存することを可能にしてもよく、ここで、デフォルトは、個々のユーザに類似
したモデルについて、分類器パラメータライブラリ３０４及び／又はリグレッサパラメー
タライブラリ３０５におけるパラメータの１つ以上のセットから導出される。デフォルト
設定又はパラメータは、ＤＯＢＲエンジン３０１及びオプティマイザ３０６を介してユー
ザのデータセットを用いたトレーニングを使用してユーザの機械学習モデルをカスタマイ
ズするための開始点として使用されてもよい。同時に、ユーザは、入力レコードの処理、
特徴処理、モデル構築、実行、評価等、様々な種類の機械学習タスクに使用することを希
望するパラメータ又は設定をカスタマイズしてもよい。少なくともいくつかの実施形態で
は、様々なタイプの機械学習タスクを実装する予め定義されたライブラリを使用すること
に加えて、又はその代わりに、クラウドサービス偏り低減システム３００は、例えば、カ
スタマイズされた機能をサービスに登録することによって、サービスの拡張可能な組み込
み機能を有し得る。このようなカスタマイズされたモジュール又は機能を実装するクライ
アントのビジネスニーズ又は目標に応じて、モジュールがサービスの他のユーザと共有さ
れる場合もあれば、カスタマイズされたモジュールの使用がその実装者／所有者に制限さ
れる場合もあり得る。

いくつかの実施形態では、クラウドサービス、ローカル又はリモートシステムとして実
装されているかどうか、又は他のシステムアーキテクチャに実装されているかどうかに関
わらず、偏り低減システム３００は、米国特許第９，６４６，２６２号に記載されている
ように、機械学習モデルのトレーニング及び実装に対するアンサンブルアプローチを可能
にするモデルをモデルライブラリ３０３に含んでもよい。このようなアプローチは、電子
活動データの電子データセットを用いたデータ分析への応用に有用であり得る。いくつか
の実施形態では、データベース３１０は、１つ以上の構造化又は非構造化データソースを
含み得る。所定の実施形態では、教師なし学習モジュールは、例えば、モデルライブラリ
３０３からのモデルのアンサンブルにおいて、複数の教師なし学習技術を用いて、非構造
化データセットを組織化データセットにアセンブルするように構成される。例えば、教師
なし学習モジュールは、非構造化データセットを組織化データセットの複数のバージョン
にアセンブルするように構成され、一方で、教師あり学習モジュールは、所定の実施形態
では、組織化データセットの複数のバージョンの各バージョンに基づいて１つ以上の機械
学習アンサンブルを生成し、ＤＯＢＲエンジン３０１及びオプティマイザ３０６を使用し
て各アンサンブル内の各モデルをトレーニングした後に、例えばモデル誤差に従って、ど
の機械学習アンサンブルが最も高い予測性能を示すかを決定するように構成される。

データセット３１１に基づいて予測を行うようにハードウェアを制御するためのＤＯＢ
Ｒエンジン３０１命令の例を以下の擬似コード５に示す。

しかしながら、いくつかの実施形態では、データセット３１１内の外れ値は、実装され
たモデルの精度を低下させ、したがって、所与のアプリケーションにおける所与のモデル
についてのパラメータの正確なセットを達成するためのトレーニングの反復回数を増加さ
せ得る。精度及び効率を改善するために、ＤＯＢＲエンジン３０１は、データセット内の
データ点誤差を動的にテストして外れ値を決定するためのＤＯＢＲフィルタ３０１ｂを含
み得る。したがって、より正確な又は代表的なデータセット３１１を提供するために外れ
値が除去され得る。いくつかの実施形態では、ＤＯＢＲフィルタ３０１ｂは、事前定義さ
れた基準、例えば、上述されたものであって、ユーザ入力装置３０８を介してユーザによ
って提供されたユーザ定義の誤差許容値の対象となる外れ値データ点を除去するための反
復機構を提供してもよい。いくつかの実施形態では、ユーザ定義の誤差許容値はパーセン
テージとして表されてもよく、例えば、１００％の値は誤差の全てが許容され、フィルタ
３０１ｂによってデータ点が除去されないことを意味し、一方で、例えば、０％の値はデ
ータ点の全てが除去される結果となる。いくつかの実施形態では、フィルタ３０１ｂは、
例えば約８０％から約９５％の範囲の誤差許容値で構成されてもよい。例えば、フィルタ
３０１ｂは、以下の擬似コード６に示すような機能を実行するように構成されてもよい。

いくつかの実施形態では、ＤＯＢＲフィルタ３０１ｂは、オプティマイザ３０６と協働
して動作し、これは、リグレッサパラメータライブラリ３０５及び分類器パラメータライ
ブラリ３０４における各モデルについて、誤差を決定し、かつパラメータを最適化するよ
うに構成される。したがって、いくつかの実施形態では、オプティマイザ３０６は、モデ
ルを決定し、その誤差をＤＯＢＲエンジン３０１のフィルタ３０１ｂに伝達してもよい。
したがって、いくつかの実施形態では、オプティマイザ３０６は、例えば、データセット
３１１及びモデル予測を受信し、数ある誤差測定の中でも、例えば、外れ値、収束、誤差
、絶対値誤差を決定するのに十分なメモリ容量及び帯域幅を有する記憶装置及び／又はメ
モリ装置並びに通信装置を含み得る。例えば、オプティマイザ３０６は、以下の擬似コー
ド７に示されるような機能を実行するように構成されてもよい。

いくつかの実施形態では、偏り低減システム３００は、次に、例えば、ディスプレイ３
１２を介して、さもなければ予測に偏りを与えるであろう外れ値の低減により、より正確
かつ効率的なやり方で、ＤＯＢＲエンジン３０１によって生成される数あるデータの中で
、機械学習モデル予測、外れ値分析、予測の収束をユーザに戻し得る。

図６は、本開示の１つ以上の実施形態による例示的な新規な方法論のフローチャートを
示す。

上述のＤＯＢＲエンジン３０１及びフィルタ３０１ｂ等のＤＯＢＲは、事前定義された
基準の対象となる外れ値レコードを除去するための反復プロセスを提供する。この条件は
、パーセンテージで表されるユーザ定義の誤差許容値である。これは、ここでの検討の後
半に記載される洞察及びその他の分析結果に潜在的に基づいて、ユーザがモデルで許容で
きる誤差の量を示す。値１００％は、全ての誤差が許容され、ＤＯＢＲプロセスでレコー
ドが除去されないことを示す。０％を選択すると、全てのレコードが除去される。一般に
、工業用途では８０から９５％の範囲の誤差許容値が観測されている。

しかしながら、いくつかの実施形態では、データセットが外れ値を含まない場合、ＤＯ
ＢＲは値を提供しないことにも留意されたい。ただし、実際の状況では、データセットで
作業する前に分析者がこの知識を持っていることはまれである。この検討の後半で示され
るように、ＤＯＢＲ法の実施形態は、モデル外れ値を表すデータセットのパーセンテージ
を決定することもできる。この事前分析ステップは、適切な誤差許容値の設定、又は外れ
値が存在する場合に役立ち得る。

以下のステップは、完全なデータセットに適用される基本的なＤＯＢＲ法の概要を示す
。

事前分析：一実施形態では、まず誤差許容基準を選択し、例えば、∝＝８０％を選択す
る。（データからこの値をどのように決定するかは、ＤＯＢＲ法を説明した後に示す。）
次に、例えば下記の式１に従って、誤差許容基準Ｃ（∝）を定義する。

ここで、∝は誤差許容基準であり、Ｃは誤差許容基準の関数であり、f（）は比較関数
であり、yはデータレコードの値であり、y_predは予測値であり、y_tarは目標値である。

他の関数関係を使用してＣ（α）を設定し得るが、パーセンタイル関数は、次の式２の
ような所定のデータレコードがモデルに含まれるか除外されるかの理由を理解するための
直感的なガイドとなる。

ここで、P_∝はパーセンタイル関数であり、iはレコードエントリのインデックスであり
、mはレコードエントリの数である。

ＤＯＢＲ手順は反復的であるため、一実施形態では、収束基準も定義され、ここでは、
それは０．５％に設定される。

一実施形態では、データセット{x，y_tar}４０４、解モデルM４０８、及び誤差許容基準
∝４２４が与えられると、ＤＯＢＲは、モデルM４０８のトレーニングにおける偏りを低
減するように実装され得る。いくつかの実施形態では、解モデルM４０８は、例えば、処
理装置及びメモリ及び／又は記憶装置を含むモデルエンジンによって実装される。一実施
形態によれば、例示的な方法論は、全てのレコードについて、モデル係数Ｍ（ｃ）４０２
及びモデル推定値{y_pred}４１０を計算し、例えば下記の式３に従って、完全な入力デー
タセット{x，y_tar}４０４に解モデルM４０８を適用する。

ここで、０は初期状態を示し、xは入力レコードを示す。

次に、例示的な実施形態によれば、合計誤差関数４１８は、例えば以下の式４に従って
初期モデル合計誤差e_０を計算する。

ここで、e_０は初期モデル合計誤差であり、０は初期値である。

次に、例示的な実施形態によれば、誤差関数４１２は、例えば下記の式５に従ってモデ
ル誤差を計算する。

ここで、Eは予測されたレコード誤差であり、kはレコード選択の反復を表す。

次に、例示的な実施形態によれば、誤差関数４１２は、例えば下記の式６に従って新し
いデータレコード選択ベクトル{I_k}を計算する。

ここで、Iはレコード選択ベクトルである。

次に、例示的な実施形態によれば、データレコードセレクタ４１４は、例えば以下の式
７に従って、レコード選択ベクトルが１に等しいレコードのみを選択することによって、
モデル計算に含まれる非外れ値データレコードを計算する。

ここで、inは、非外れ値としてＤＯＢＲに含まれるレコードのセットを参照するインデ
ックスである。

次に、例示的な実施形態によれば、最新の係数４０２を有するモデル４０８は、例えば
以下の式８に従って、ＤＯＢＲ選択データレコード４１６から新しい予測値４２０及びモ
デル係数４０２を計算する。

次に、例示的な実施形態によれば、モデル４０８は、新しいモデル係数を使用して、完
全なデータセットに対する新しい予測値４２０を計算する。このステップは、形式ステッ
プにおけるＤＯＢＲ選択レコードの予測値４２０の計算を再現するが、実際には、例えば
下記の式９に従って、新しいモデルはＤＯＢＲ除去レコードのみに適用され得る。

次に、例示的な実施形態によれば、合計誤差関数４１８は、例えば以下の式１０に従っ
てモデル合計誤差を計算する。

ここで、y^はターゲット出力である。

次に、例示的な実施形態によれば、収束テスト４２４は、例えば下記の式１１に従って
モデルの収束をテストする。

ここで、βは収束基準４２２であり、例えば０．５％である。

いくつかの実施形態では、収束テスト４２４は、例えば、パーセント誤差が、例えば、
０．５％未満であれば、反復プロセスを終了してもよい。そうでなければ、プロセスは初
期データセット４０４に戻ってもよい。次に、上記の各ステップを実行し、収束基準４２
２が再テストされてもよい。このプロセスは、収束テスト４２４が収束基準４２４を下回
るまで繰り返される。

図７は、本開示の１つ以上の実施形態による、偏りを低減した別の例示的なコンピュー
タベース機械学習モデルのモデル誤差と誤差許容基準との関係の一例を示すグラフである
。

∝はＤＯＢＲへの入力パラメータであり、モデル結果は選択された値に基づいて変化し
得るため、一実施形態では、どの値が使用されるかを正当化するためにデータベースの手
順を文書化することが重要である。ＤＯＢＲが開発及び適用された実際の応用において、
その選択のための理論的根拠は（まだ）ない。しかしながら、実際には、モデル誤差対∝
のプロットは、外れ値の見かけの効果が減少する勾配の変化を生じ得る。図１は、本発明
の一実施形態による発電ベンチマーキングに関連する非線形回帰４０２の計算に対するこ
のプロットを示す。

一実施形態では、この曲線の一般的な形状は、∝＝１００％で常に最大の誤差で始まり
、∝＝０％のときモデル誤差は０であるということで予め決定されている。図７において
、曲線勾配は∝＝８５％の付近で変化することに注意されたい。また、より小さい全ての
∝値に対して勾配は略一定である。この時点での勾配の変化は、データレコードの除去に
関してモデルの変動性が変化していないこと、又は言い換えれば、これらの誤差許容レベ
ルに外れ値が存在しないことを示唆している。∝＝８５％を超えると、少なくとも２つの
見かけの勾配変化があり、これはあるデータセット割合がこのモデルでは説明できない特
性又は現象を含むことを示唆している。この視覚テストは、適切な誤差許容レベルを設定
し、ＤＯＢＲが必要かどうかを判断するのに役立ち得る。図７の線の勾配が変化しない場
合、このモデルは、観察されたデータの変動性を十分に説明する。モデルの外れ値はなく
、ＤＯＢＲを適用する必要はない。

追加の変動性の特定のパーセンテージがデータセットに追加されたシミュレーション研
究において、図６のような曲線は、シミュレーションにプログラムされた誤差許容値に略
近いところでより小さい値の勾配と交差する初期の急な勾配線を示す。しかしながら、実
際には、外れ値が観測された場合、一定の勾配への遷移は一般的に徐々に起こり、モデル
で説明されていない複数のタイプの変動が存在することを示唆している。

適切な誤差許容値の計算は、ＤＯＢＲの使用に必要な部分であり、これはモデル結果に
対する外れ値の影響の量と重大度も視覚的に示す。このステップは∝の選択を文書化し、
外れ値データからのモデル予測値と比較して外れ値の影響が最小であると判断される場合
は、ＤＯＢＲを使用しないことを正当化することができる。

いくつかの実施形態では、∝及びモデル誤差対∝値は、特定のシナリオについて最良の
性能のモデル又はモデルのアンサンブルを識別するためのメトリックとして使用すること
ができる。異なるデータセットでは線形性の程度が変化し得るため、データとモデルに対
する正確な∝値によってモデルの性能が変化し得る。したがって、誤差許容レベルの関数
としてのモデル誤差を使用して、正確な予測を形成するために、データの変動性に対する
多少の許容範囲を示すモデル誤差を持つことによって、所与のモデルがデータの変動性を
どの程度説明できるかを決定することができる。例えば、モデル予測の正確さ及び精度は
、例えば、高い誤差許容値に対して低いモデル誤差を示すモデル及び／又はモデルパラメ
ータを選択して、外れ値データに対してより寛容なモデルを選択することによって調整さ
れてもよい。

いくつかの実施形態では、モデル選択は、例えば、モデル誤差及び誤差許容基準のバラ
ンスに従ってデータセットに対する最良の性能モデルを識別するように、ルールベースの
プログラミング及び／又は機械学習モデルを用いて自動化されてもよい。したがって、デ
ータセット内の外れ値を最適に説明するモデルが自動的に選択され得る。例えば、モデル
誤差は、１つ以上の誤差許容値についてモデル間で比較されてもよく、最も低いモデル誤
差を有するモデルが、予測を生成するために自動的に選択される。

結果として、本開示の態様によるＤＯＢＲ機械学習技術は、より効果的なモデルトレー
ニングを提供するとともに、個々のデータセットのデータ及びモデル特性に対する可視性
を改善する。その結果、例えば、人工知能、データ分析、ビジネスインテリジェンス及び
その他の分野では、様々な種類のデータに対して、機械学習モデルがより効果的かつ効率
的に試され得る。その後、アプリケーションとデータの種類に対する最適なモデルを決定
するために、モデルの性能がより効率的に評価され得る。例えば、人工知能アプリケーシ
ョンは、生成される知能のタイプに対してＤＯＢＲを用いて選択及びトレーニングされた
モデルを用いて改善され得る。同様に、ビジネスインテリジェンスとデータ分析、及び物
理的な挙動の予測、コンテンツの推奨、リソース使用の予測、自然言語処理、その他の機
械学習アプリケーション等の他のアプリケーションは、ＤＯＢＲを使用してモデルパラメ
ータを調整すると共に、外れ値の特性と、外れ値に応じたモデル誤差に基づいてモデルを
選択することによって改善され得る。

図８は、本開示の１つ以上の実施形態による、偏りを低減した別の例示的なコンピュー
タベース機械学習モデルのモデル誤差と誤差許容基準との関係の一例を示すグラフである
。

データセット上のＤＯＢＲの実施形態の例として、Ｃａｌｉｆｏｒｎｉａ－Ｉｒｖｉｎ
ｅ大学の機械学習データリポジトリからダウンロードしたコンクリート圧縮強度データセ
ット５０４を使用する。このデータセットには、８つの独立変数を持つ１０３０個の観測
、レコード、又はインスタンスが含まれる。最初の７つは、経過日数によるコンクリート
組成、すなわち、セメント量、高性能減水剤、高炉スラグ、粗骨材、フライアッシュ、細
骨材、水、及び経年を記述する。

出力変数は、メガパスカル（ＭＰａ）で測定されたコンクリート圧縮強度（Concrete C
ompressive Strength）である。比較のために、１ＭＰａ≒１４５ｐｓｉとした。線形回
帰モデルは、例えば以下の式１２に従って構築される。

ここで、a_iは線形回帰モデルによって計算された係数であり、x_iは８つの変数の観測値
であり、iは変数インデックスである。

図８は、ＤＯＢＲ誤差許容パーセンテージ∝の関数として１００から６０％まで線形回
帰モデル５０４を実行することによって構成されている。∝＝１００％から約∝＝９５％
までは、回帰５０６によって示されるように、モデル誤差に急峻な低下があり、αの関数
としての誤差の減少は、∝＝８５％まで僅かに低い割合で減少する。この点から先は、回
帰５０８で示されるように、∝は一定の割合で減少する。誤差が一定の割合で減少し始め
る点は、モデルの外れ値の影響がモデル計算から除外される点である。この場合、選択点
は∝＝８５％である。

一実施形態では、次にＤＯＢＲは修正され、線形回帰モデルは∝＝９２．５％について
再実行され、非外れ値データに適合する最良のモデルを決定する。図９及び図１０は、完
全なデータセット５１２（図９）及びＤＯＢＲバージョン（図１０）を用いたこれらの計
算の結果を示し、外れ値が特定されて計算から除去されている。赤色の十字で示された外
れ値５１６は、非外れ値モデルから計算される。これらのプロットの両方は、図９及び図
１０について、それぞれ斜線５１０及び５１４によって実際対予測の目標値を示し、同等
であることが示されている。完全なデータセット計算（図９）は、外れ値がどのように結
果を偏らせ得るかを示している。ＤＯＢＲ修正プロット（図１０）は、対角線５１４が非
外れ値５１８を二等分して除去された偏り、及びさらなる研究を正当化し得る明らかな外
れ値データ点５１６のグループを示す。

図９は、本開示の１つ以上の実施形態による、偏りが低減していない基準コンピュータ
ベース機械学習モデルの予測される圧縮強度と圧縮強度との関係の一例を示すグラフであ
る。

図１０は、本開示の１つ以上の実施形態による、偏りが低減した別の例示的なコンピュ
ータベース機械学習モデルの予測される圧縮強度と圧縮強度との間の関係の一例を示すグ
ラフである。

外れ値の識別及び上記のタイプのプロットにおいてそれらが形成することがあるパター
ンは、工業的応用におけるＤＯＢＲ法の付加的利益のために有用であった。外れ値は、他
の方法では単純に観察されないパターン又はグループを形成し得る。この情報は、分析者
が提供するモデルによってＤＯＢＲを使用するだけで作成される。追加情報又は前提条件
は不要である。実際には、ＤＯＢＲで定義された外れ値セットは、基礎となるモデルの改
善、洞察の提供、又は検証に有用な情報を提供することができる。

図１１は、本開示の１つ以上の実施形態による、ＤＯＢＲによる機械学習予測のための
別の例示的なコンピュータベースシステムのブロック図である。

本発明の一実施形態では、機械学習手順は、ｎ個の独立変数と、長さがｍ個のレコード
と、目的変数Y^の配列(m×１)とからなるデータセットX^で始まる。一実施形態では、機
械学習モデルをトレーニングするために、データセット{X^，Y^}は、例えば以下の式１３
に従って、事前に決定されたサイズのランダムに選択された２つのサブセットに分割され
る。その１つはモデルをトレーニングするためであり、もう１つはその予測精度をテスト
するためである。

ここで、x^はデータセットの独立変数X^のサブセットであり、y^はデータセットの独立
変数Y^のサブセットである。

この検討では、{X^，Y^}の７０％／３０％分割がトレーニング（ｎレコード）及びテス
ト（ｊレコード）に使用されるが（例えば、レコードの７０％がトレーニングであり、３
０％がテストである）、例えば、５０％／５０％、６０％／４０％、８０％／２０％、９
０％／１０％、９５％／５％、又は他の適切なトレーニング／テスト分割等の任意の適切
な分割を使用し得る。(x^，y^)_trainを使用してトレーニングされた機械学習モデルLは、
例えば下記の式１４で表される予測された目的変数{y_pred}のセットを計算することによ
ってテストされる。

例示的な実施形態では、モデル精度は、次に、ノルム||y_pred，y_test||として測定され
、これは、例えば、以下の形式を有してもよい。

例示的な実施形態では、トレーニング及びテスト環境において、入力変数及び出力変数
の両方を有するため、外れ値を直接測定することができる。一般に、実際の目的変数値か
らの大きな偏差等のあるモデル予測{y_pred}の外れ値は、モデルLが特定の入力値を既知の
目的変数に近い予測値に変換できないことに起因する。これらのレコードの入力データに
は、モデルが目的変数によって与えられた現実にマッピングできない要因及び／又は現象
の影響が含まれる。モデル係数は全てのデータレコードが同等に有効であるという前提で
計算されるため、データセットにこれらのレコードを保持すると、結果に偏りが生じ得る
。

いくつかの実施形態では、上述のＤＯＢＲプロセスは、例えば、上述の図６を参照して
、結果を不利に偏らせる外れ値を除去することによってデータに適合する最良のモデルを
分析者が望む所与のデータセットに対して作用する。外れ値が除去された初期データセッ
トのサブセットにモデル解を制限することで、モデルの予測精度が向上する。例示的な実
施形態では、ＤＯＢＲ支援ソリューションは、２つの出力結果を有する。すなわち、ａ）
モデルがデータを記述するｘ値、モデルパラメータ、及びモデル解のセット、及びｂ）モ
デルがデータを記述しないｘ値、モデルパラメータ、及びモデル解のセットである。

したがって、制限されたデータセットについてより正確なモデルを計算することに加え
て、複数の実施形態では、ＤＯＢＲは、高いモデル予測誤差の１つ以上の原因を理解する
ために、所与のモデルに関してさらに研究され得る外れ値データセットも提供する。

このセクションで既に示した機械学習フレームワークの例示的な実施形態では、予測モ
デルはトレーニングデータから計算され、そのモデルのみがテスト段階で使用される。設
計上、テスト段階は外れ値を決定するために目標値を使用しなくてもよいため、図６を参
照して上述したＤＯＢＲ法は適用されなくてもよい。しかしながら、ＤＯＢＲ法には上記
では利用されなかった可能性がある例示的な態様があり、すなわち前述のＤＯＢＲの出力
結果によって示唆された外れ値－非外れ値分類の可能性がある。

本発明の一実施形態の機械学習アプリケーションにおけるＤＯＢＲを説明するために、
データセットは、ランダムに選択された２つの部分に分割されてもよく、その１つはトレ
ーニング用であり、もう１つはテスト用である。トレーニング段階では、独立変数と目的
変数の両方が保持されるが、テストでは目的変数が隠されて、目的変数を予測するために
独立変数が使用される。既知の目的変数値は、モデルの予測誤差の測定にのみ使用される
。

一実施形態では、ｎレコードを有するトレーニングデータセット{x，y_tar}_train６０４
、機械学習モデルL６０８、及び誤差許容基準∝６２２が与えられると、ＤＯＢＲは、機
械学習モデルL６０８のトレーニングにおける偏りを低減するように実装され得る。いく
つかの実施形態では、機械学習モデルL６０８は、例えば、処理装置、メモリ及び／又は
記憶装置を含むモデルエンジンによって実装される。一実施形態によれば、例示的な方法
論モデルは、全てのレコードについて{y_train}を推定し、例えば下記の式１６に従って、
機械学習モデルL６０８を完全な入力データセット{x，y_tar}_train６０４に適用する。

ここで、０は初期状態を示し、xは入力レコードを示す。

次いで、例示的な実施形態によれば、合計誤差関数６１８は、例えば下記の式１７に従
って、初期モデル合計誤差e₀を計算する。

ここで、e₀は初期モデル合計誤差である。

次に、例示的な実施形態によれば、誤差関数６１２は、例えば以下の式１８に従ってモ
デル誤差を計算する。

ここで、Eは予測レコード誤差であり、kは反復を表す。

次に、例示的な実施形態によれば、誤差関数６１２は、例えば以下の式１９に従って新
しいデータレコード選択ベクトルを計算する。

ここで、Iはレコード選択ベクトルである。

次に、例示的な実施形態によれば、データレコードセレクタ６１４は、例えば以下の式
２０に従って、レコード選択ベクトルが１に等しいレコードのみを選択することによって
、モデル計算に含まれる非外れ値データレコードを計算する。

次に、例示的な実施形態によれば、最新の係数６０２を有する機械学習モジュール６０
８は、例えば下記の式２１に従って、ＤＯＢＲ選択データレコードを使用して完全なトレ
ーニングセット６０４に対する新しい予測値６２０を計算する。

次に、例示的な実施形態によれば、総誤差関数６１８は、例えば以下の式２２に従って
、モデル総誤差を計算する。

次に、例示的な実施形態によれば、収束テスト６２４は、例えば下記の式２３に従って
、モデルの収束をテストする。

ここで、βは収束基準６２２であり、例えば０．５％である。

いくつかの実施形態では、収束テスト６２４は、例えば、パーセント誤差が、例えば、
０．５％未満であれば、反復プロセスを終了してもよい。そうでなければ、プロセスはト
レーニングデータセット６０４に戻ってもよい。

いくつかの実施形態では、ＤＯＢＲ反復手順は、テストデータセットに対するその精度
を測定するのではなく、モデルがそれ自体をどれだけよく予測できるかを測定する。ここ
での目的は、目的変数を予測するモデルの機能をテストすることであり、大きな偏差を持
つレコードを系統的に除去して、データ予測が比較的良好なデータの大部分に焦点を当て
るようにモデルの能力を向上させる。このプロセスは、同じデータセットで行われる必要
がある。テストセットで外れ値が特定された場合、トレーニングセットからレコードを除
去することは意味がない。このプロセスは、新しいモデル（新しいモデルパラメータ）が
計算された後に、前の反復で除去されたレコードが再入力されるという点で、ＤＯＢＲ法
の基本である。このプロセスでは、同じデータセットを使用する必要がある。

一実施形態では、この反復手順は、学習モデルが定義された後に実行される。解決すべ
き問題に基づいて、一実施形態では、ユーザは機械学習アルゴリズムを選択し、次いで、
モデルを「調整」又は設定する特定のハイパーパラメータを決定する。これらのパラメー
タは、クロス検証等の標準的な技術を使用して選択すること、又はユーザが指定した特定
のパラメータ範囲の関数として単にテスト誤差をプロットすることによって選択され得る
。使用される特定の値は、モデルが過不足なく適合していることを保証しながら、予測精
度対計算時間を最適化し得る。このプロセスを支援する堅牢なツールがいくつかあるが、
ユーザ体験と直感も最良のモデルハイパーパラメータを選択する際に貴重な利点である。
特定のモデル及び関連するハイパーパラメータは、以下に説明する例で使用される。

誤差許容値対モデル誤差プロットは、誤差許容値のシーケンスを適用し、結果を表にす
るか又はプロットすることによって、このステップから計算される。これらのプロットは
、これらの誤差の寄与がモデルに適合するデータレコードの誤差の寄与よりも僅かに大き
いという意味で、外れ値であるデータセットの割合を識別する。また、実際には、これら
のプロットは、モデルで説明されない複数の種類の変動を示し得る。勾配は、モデルの勾
配に収束するにつれて変化し得る。これらの変動は、モデルでは説明されない追加のデー
タコーディングされた挙動の性質の調査に役立ち得る。異なる勾配間隔を占めるレコード
が特定されてもよく、それらをさらに調査することで、より堅牢なモデルの構築に役立つ
洞察を得ることができる。

一実施形態では、上述のように、トレーニング時に２つのモデルが計算される。

ここで、{y_ref}は精度の向上を測定するための基準として使用される参照モデルである
。

ここで、{y_Base}は、収束された外れ値の打ち切られたレコードから構築され、非外れ
値データ(x，y)_inでトレーニングされたＤＯＢＲベースモデルである。

複数の実施形態では、モデル１及びモデル２に関連する誤差は、例えば、それぞれε_re
_f＝||{y_ref}，{y_test}||及びε_Base＝||{y_Base}，{y_test}||である。

したがって、複数の実施形態では、基本モデル{y_Base}は、それが非外れ値レコードの
より良い予測器であり得ることを示唆している。しかしながら、テストデータセットは、
非打ち切りであり、非外れ値と外れ値の両方を含んでいる。そのため、非外れ値のカスタ
マイズされたモデルを非打ち切りテストデータに適用することで、{y_ref}と比較してより
良い予測モデルが生成されるかどうかは不明である。しかしながら、多くの場合、ε_Base
はε_refに対して統計的に等しいか又はより大きいかのいずれかであることが観察され得
る。

目的が特定のデータセットの最適な予測モデルを計算することである非機械学習アプリ
ケーションでは、選択された（非外れ値の）レコードから計算されるＤＯＢＲモデルは、
識別された外れ値レコードが省略されるため、常により低いモデル誤差を生成する。外れ
値がない限定的な場合には、データセットは同じであるので、ＤＯＢＲモデル誤差は全モ
デル誤差に等しい。

しかしながら、機械学習アプリケーションでは、目的は、利用可能なデータのサブセッ
トを使用してモデルを開発し（トレーニング）、次いで、別のサブセットでその予測精度
を測定すること（テスト）であってもよい。しかし、いくつかの実施形態では、ＤＯＢＲ
法は、モデルパラメータを計算する前に、各反復でモデルの外れ値を除去する。機械学習
モデルの開発では、これはトレーニング段階で行われ得るが、定義上、テストのターゲッ
ト値は、外れ値に関する高度な知識がなくても、モデルの予測精度を測定するためにのみ
使用され得る。この観測は、標準的なＤＯＢＲ法がトレーニング段階で計算されたＤＯＢ
Ｒモデル情報のより多くを利用して一般化され得ることを意味する。

図１１は、本開示の１つ以上の実施形態による、偏りを低減した機械学習のための別の
例示的なコンピュータベースシステムのブロック図である。

複数の実施形態では、上述のように、トレーニング時に、非外れ値(x，y)_inに対するＤ
ＯＢＲ選択トレーニングデータセット値、非外れ値{I_in}に対するＤＯＢＲトレーニング
データ選択ベクトル、外れ値(x，y)_outに対するＤＯＢＲ選択トレーニングデータセット
値、及び外れ値{１-I_in}に対するＤＯＢＲトレーニングデータ選択ベクトルという情報が
生成される。

複数の実施形態では、ＤＯＢＲは、トレーニングデータを２つの相互に排他的なサブセ
ットに分類する。さらに、対応する選択ベクトルもあり、これは、例えば、次の式２４に
従って、トレーニングデータセット内の各レコードに対して（非外れ値又は外れ値）分類
値であるバイナリを提供する。

複数の実施形態では、トレーニングデータ属性x_trainの完全なセット、及びＤＯＢＲ生
成分類{I_train}は、例えばモデルライブラリ３０３に記憶された分類器機械学習モデルC
を構築／トレーニングするために使用される。このモデルは、トレーニングデータセット
ＤＯＢＲ確立知識に基づいてテストデータレコードを外れ値又は非外れ値として分類する
ために、テストデータセットx_testに適用される。例えば、分類器機械学習モデルCは、以
下の式２５に従って実装される。

したがって、一実施形態では、{I_C}は２つのテスト予測データセットを生成する。すな
わち、
x_testinとx_testoutであり、ここでは、それぞれI_Ci＝１又は０である。上記の情報によ
って、テストデータセットの分析のためのいくつかの可能な「完全データセット」予測モ
デルが作成される。いくつかの実施形態では、データセット全体に対して最も予測的な改
善を示したのは以下の３つである。

いくつかの実施形態では、{y_１}に関して、機械学習モデルL６０８は、非外れ値データ
(x，y)_inによって定義され、非外れ値のテスト値を予測するためにＤＯＢＲテスト分類デ
ータx_testinに適用される。外れ値データについても同じ手順が行われる。複数の実施形
態では、この組み合わせの目的は、その対応するデータセットを備えた最も正確な予測モ
デルを使用することである。言い換えると、このモデルは、ＤＯＢＲ分類で定義されたそ
れぞれのデータセットに個別に適用された非外れ値及び外れ値モデルの全体的な予測精度
をテストする。

いくつかの実施形態では、{y_２}について、機械学習モデルL６０８は、トレーニングデ
ータによって定義され、ＤＯＢＲテスト分類データx_testinにも適用される。このモデル
は、L(x，y)_trainの広範な知識を使用して、ＤＯＢＲで定義された外れ値及び非外れ値ｘ
の値のターゲット値を予測する。このモデルの目的は、ＤＯＢＲによって分類された非外
れ値及び外れ値データセットに別々に適用される完全トレーニングモデルの予測精度をテ
ストすることである。

いくつかの実施形態では、第３のモデル{y_３}は、以前の２つのアプローチの予測特性
を結合するハイブリッドである。このモデルは、もしあれば、L(x，y)_train、合計トレー
ニングに対してトレーニングされたモデル６０８と、L(x，y)_out、それぞれの分類された
データセットに適用されたトレーニングセットにおけるＤＯＢＲによって分類された外れ
値に対してトレーニングされた特定のモデルとを結合することの予測利益をテストする。
さらなる研究で検討され得る追加のハイブリッドモデルもある。

これらの３つのモデル及び他の実施形態のそれぞれにおいて、完全なテストデータセッ
トは、ＤＯＢＲによって分類された非外れ値及び外れ値の両方のレコードを利用して予測
される。機械学習モデル全体の予測精度を向上させるＤＯＢＲ法の能力は、これらのモデ
ルでテストされている。しかし、ＤＯＢＲの主な利点は、モデルの外れ値を識別し、それ
らを除去し、残りの非外れ値から最良のモデル予測器を計算することである。また、定義
によれば、ＤＯＢＲ定義の外れ値は、利用される機械学習モデルを考慮して、現在の変数
（又は特徴）に適切に記述されていない変動を含むレコードである。

いくつかの実施形態では、外れ値データセット及び非外れ値データセットが計算される
場合、分析者は３つの選択肢を有する。一実施形態では、第１の選択肢は、基本モデル{y
_ref}を適用し、ＤＯＢＲを適用しないことである。これは、リスク許容対モデル誤差曲線
が線形関係に近い場合のデータ駆動型戦略である。一実施形態では、第２の選択肢は、１
つ以上のモデル、すなわち、{y₁}、{y₂}又は{y₃}を適用し、結果を組み合わせ、例えば平
均することである。一実施形態では、第３の選択肢は、非外れ値レコードのみについて予
測を開発し、この特殊化された新しいデータセットについてモデリング戦略を開発するた
めに外れ値データをさらに研究することであり、例えば、機械学習モデルの変更、又は説
明できない変動の主要因となる変数の追加等である。

選択肢３については、非外れ値データセットを計算する複数のやり方があり、ここでは
２つの可能な選択について説明する。比較的多数の可能性がある理由の１つは、多くの適
用された機械学習モデルの非線形性に起因し得る。一般的に、{I_C}*L[(x，y)_train，x_tes
_t]≠L[(x，y)_train，{I_C}*x_test]である。この不等式は、多くの機械学習モデルの複雑さ
に起因し得る。例えば、線形回帰では等式が適用されるが、機械学習モデルの一般的ルー
ルとしてではない。

複数の実施形態では、非外れ値予測に関して、ＤＯＢＲ法は、最初は、完全なデータセ
ットの予測を改善するように設計されていなかった。設計により、この方法は与えられた
モデル及びデータセットに基づいて最良の外れ値セットに収束する。残りのデータ及びモ
デルの計算では精度が向上するが、どのように外れ値を予測すべきかに関するガイダンス
はない。黙示の決定は、非外れ値モデルに存在しない一意のデータ変動を反映する外れ値
データセットに異なるモデルを適用することである。

複数の実施形態では、非外れ値予測精度をテストするために２つのモデルが定義され、
分析から外れ値を除去する。非外れ値データセットを選択するための第１の選択は、例え
ば以下のモデル６に従って、ＤＯＢＲ分類ベクトル{I_C}を参照モデル{y_ref}に適用する。

複数の実施形態では、参照モデルは、データセットx_testから予測を行うために、完全
なトレーニングデータ定義モデルを利用する。次に、トレーニングデータセットから取得
されたＤＯＢＲ法の知識に基づいて、予測された外れ値を除去するために分類ベクトルが
適用される。このモデルは、ＤＯＢＲを最も一般的又は広範な領域モデルに適用する。

複数の実施形態では、第２のモデルは、非外れ値トレーニングデータからトレーニング
段階から作成されたＤＯＢＲモデルを使用することによって、最も狭い、又は「正確な」
やり方でＤＯＢＲを、例えば以下のモデル７に従って、分類モデル{I_C}によって選択され
たレコードのみに適用する。

本研究で開発された解析的定式化から形成され得るモデルは他にもあり、問題によって
は、それらは予測可能性を大きく改善できる可能性があり得る。しかしながら、ここで使
用されているモデル、{y₄}及び{y₅}は、トレーニング領域の使用率とモデル定義の観点か
ら、最も広くかつ狭いバージョンを表すケースを制限している。

複数の実施形態では、例えば、モデル３～７等の上記で定義されたＤＯＢＲ開発モデル
の予測精度をテストするために、モデル{y₁}、{y₂}及び{y₃}（それぞれモデル３、４、５
）に関する比較基準として{y_ref}を使用する。{y₄}及び{y₅}（それぞれモデル６及び７）
について、外れ値以外のデータセットに関するモデル予測であり、比較基準は{I_C}*y_test
である。したがって、複数の実施形態では、誤差は、例えば、以下の式２６、２７及び２
８に従って決定され得る（ここで、ｍはテストデータセットの長さであり、Ｇは非外れ値
データセットの長さである）。

例示的な実施形態の以下の例では、ＤＯＢＲの予測精度の尺度は、どの程度、（もしあ
れば）ε₁、ε₂及び／又はε₃がε_Refを下回るかによって測定される。非外れ値データセ
ット誤差ε₄及びε₅について、改善の尺度は、外れ値調整ベース誤差ε_Refに対する誤差
の減少である。例示の結果に関して、その調整を以下に説明する。

例示的な新規なＤＯＢＲ改良の機械学習例のいくつかの実施形態では、先に定義された
５つのモデルの精度は、７つの機械学習回帰モデル、すなわち、線形回帰、ｋ最近傍、Ｌ
ＡＳＳＯ、サポートベクトル、決定木、バギング、及びランダムフォレストによってテス
トされてもよい。これらの機械学習回帰モデルは、広範なモデル構造の例である。特に、
ニューラルネットワーク、クラスタリング、アンサンブルモデル、及びそれらの組み合わ
せ等の追加又は代替のモデルも考えられる。

線形回帰は、プロセスに関する洞察を分析者に与える方法であり、ここでは、係数（又
はモデルパラメータ）が技術／プロセス関連の意味を持ち得る。方程式で表されるプロセ
スのモデルは、分析者によって提供されなければならず、係数は、予測の目標値とデータ
供給の目標値との間の誤差を最小化することによって決定される。

“ｌｅａｓｔａｂｓｏｌｕｔｅｓｈｒｉｎｋａｇｅａｎｄｓｅｌｅｃｔｉｏｎ
ｏｐｅｒａｔｏｒ”の省略形であるＬＡＳＳＯは、回帰関連の方法であり、ここでは、
目的関数に加算項が追加される。この項は、回帰係数の絶対値の合計であり、ユーザ指定
のパラメータに従って最小化される。この加算項の目的は、可変（又は特徴）係数の値を
増加させるためのペナルティを追加することである。最小化は支配的係数のみを保持し、
変数（又は特徴）共分散又は共線性の解釈困難な影響の低減に役立ち得る。

決定木回帰は、人間の思考を模倣でき、直感的かつ簡単に解釈することができる。モデ
ルは、ｘ値がどのように目的変数を生成するかを論理的に示す決定木構造を選択する。リ
ーフあたりの最大深度及び最小サンプル等の特定のパラメータは、トレーニング／テスト
の機械学習実践で分析者によって設定される。

ランダムフォレスト回帰は、決定木法に基づいている。森林が木で構成されているよう
に、ランダムなフォレスト回帰モデルは決定木のグループで構成される。分析者は、推定
量（フォレスト内のツリーの数）、複数のツリーのうちの決定木の最大深さに類似したい
くつかのパラメータ、リーフ特性、及びモデル誤差がどのように計算及び適用されるかに
関連する技術的パラメータを与えることにより、フォレスト構造を定義する。

ｋ‐ＮＮはｋ最近傍法を意味し、ここで予測値はｘ（又は特徴）領域におけるｋ最近傍
から計算される。距離を測定するメトリック及び使用する最近傍ノードの特定の数を選択
することは、所与のデータセットでの予測のためにモデルを調整するときに分析者によっ
て設定される主要なパラメータである。これは、回帰及び分類の予測に適した簡単な方法
である。

サポートベクトル回帰は、複数の変動を持つ汎用的な機械学習法である。回帰とは、モ
デルをデータに適合させることを意味し、最適化は通常、予測変数と目的変数との間の誤
差を最小化することである。サポートベクトル回帰では、誤差基準は、誤差がある値「ε
」よりも小さい場合、「近似は十分である」と言い、「ε」よりも大きい誤差のみが測定
されかつ最適化されるように一般化される。この属性に加えて、この方法は、標準又は場
合によってはユーザ定義の変換関数又はカーネルを使用して、データを非線形領域に変換
することを可能にする。多次元データ構造は、回帰の従来の精神でデータをモデル化する
のではなく、堅牢な予測を計算することを目的とする場合に使用される。

バギング回帰では、置換されたランダムサブセットの描画から予測推定値が計算される
。各ランダムサンプルは、目的変数の決定木（既定）予測を計算する。最終的なアンサン
ブル予測値は、いくつかのやり方で計算可能であり、平均値はその一例である。主要な機
械学習変数は、各アンサンブル内の推定量の数、各推定量をトレーニングするために描画
する変数（又は特徴）とサンプルの数、及び選択／置換のガイドラインである。この方法
は、決定木回帰のような他の方法と比較して分散を低減できる。

分類器モデルC[(I_training，x_train)，x_test]は、テストデータセット内の非外れ値及
び外れ値を定義するためにＤＯＢＲ非外れ値／外れ値分類及びトレーニングセットｘ値に
適用されるため、１つの例示である。これは、トレーニングセットからテストデータセッ
ト又は生産データセットに外れ値の知識を転送するため、ＤＯＢＲの機械学習アプリケー
ションにおける重要なステップである。不適切な分類がある場合、機械学習予測の精度を
向上させるためのＤＯＢＲ法の有用性は実現されない。

決定木、ｋ‐ＮＮ，ランダムフォレスト、及びバギング分類器モデルを、それらの分類
精度についてテストした。バギング及びランダムフォレストモデルを選択し、両方のモデ
ルを、非外れ値に対して正しい誤差許容率を生成するように調整した。より詳細な分類分
析は、他のモデルを示唆し得る。分類精度が最重要ではあるが、広範な分類器分析は、こ
の初期の議論の範囲外である。

図１２は、本開示の１つ以上の実施形態による、コンクリート強度を予測するための偏
りを低減したいくつかの例示的なコンピュータベース機械学習モデルのモデル誤差と誤差
許容基準との関係の一例を示すグラフである。

最初の例では、コンクリート圧縮強度に関して前述したものと同じデータセットが使用
され、ここで、ＤＯＢＲが完全なデータセットに適用される。簡単なレビューとして、こ
のデータセットは８つの定量的入力変数によって定義されたその組成及び曝露の関数とし
てのコンクリート圧縮強度を含む。データセットは１，０３０のレコード又はインスタン
スを有しており、カリフォルニア大学アーバイン校の機械学習リポジトリアーカイブで見
つけることができる。

機械学習トレーニング実践では、このデータセットが７０％：３０％分割に割けられ、
ここでは、モデルの調整はトレーニングデータセット（７０％）に対して実行され、予測
結果はテストデータセット（３０％）で測定された。

コンクリート圧縮強度予測における７つの機械学習モデルのモデル調整結果を以下の表
１に示す。

（例えば、Ｐｙｔｈｏｎ３．６用の）デフォルトモデルパラメータは、結果に情報を追加
しないため示されていない。複数の実施形態では、調整プロセスは、トレーニングを最小
化するパラメータを選択し、平均二乗誤差を指標として使用してデータセット誤差をテス
トする実践である。より洗練されたアルゴリズムを適用することもできたが、単純なアプ
ローチを使用して、結果がどちらのデータセット誤差にも過不足なく適合することを確認
した。

一実施形態では、ＤＯＢＲを適用するために、もしあれば、誤差が過度に大きいデータ
のパーセンテージの決定が実行される。複数の実施形態では、機械学習モデルは、誤差許
容率のシーケンスに適用され、対応するモデル誤差を記録する。テストデータセットは機
械学習モデルの予測精度を測定するためにのみ使用されるため、これはトレーニングデー
タセットに対してのみ行われる。モデルに含まれるデータのパーセンテージ「誤差許容値
」は、ユーザが許容することを受け入れるモデル誤差の合計量を指し、モデルが適切に記
述するデータの割合も示す。

複数の実施形態では、誤差許容パーセンテージシーケンスは、２の増分で１００％～６
０％の範囲である。

図１３は、本開示の１つ以上の実施形態による、エネルギ使用を予測するための偏りを
低減したいくつかの例示的なコンピュータベース機械学習モデルのモデル誤差と誤差許容
基準との関係の一例を示すグラフである。

第２の例には、機器のエネルギ使用データと共に家庭環境及び照明条件が含まれ、サン
プリングは１０分ごとに４か月半にわたり行われた。これは、２９個の属性、すなわち、
２８個の入力変数と１個の出力（目的変数）、及び１９，７３５個のレコードから構成さ
れている。データセットと文書は、カリフォルニア大学アーバイン校の機械学習リポジト
リアーカイブで見つけられる。

上記と同様に、複数の実施形態では、機器のエネルギ使用予測における７つの機械学習
モデルのモデル調整結果を以下の表２に示す。

複数の実施形態では、（例えば、Ｐｙｔｈｏｎ３．６用の）デフォルトモデルパラメー
タは、結果に情報を追加しないため示されていない。調整プロセスは、指標として平均二
乗誤差を用いて、トレーニングとテストデータセット誤差を最小化するパラメータを選択
する実践であった。より洗練されたアルゴリズムを適用することもできたが、単純なアプ
ローチを使用して、結果がどちらのデータセット誤差にも過不足なく適合することを確認
した。

図１２及び図１３は、高変動データに適応する機械学習モデルの能力を部分的に示す。
線が線形（直線）に近いほど、モデルがデータを適切に記述する能力は高くなり、これに
より、もしあっても、外れ値は少なくなる。コンクリートデータに適用されたいくつかの
モデルの線形特性は、それらがトレーニングデータセット全体を略完全に記述できること
を示ししている。エネルギデータセットの結果の非線形性は、モデルが不正確な予測又は
外れ値を生成するデータレコードの割合が高いことを示している。

例えば、線形回帰５３０、ＬＡＳＳＯ５４０、決定木回帰５２２、ランダムフォレスト
回帰５２８、ｋ－近傍回帰５２４、サポートベクトル回帰（ＳＶＲ）５２０及びバギング
回帰５２６を含む上記のコンクリートのデータプロット、並びに例えば、線形回帰７３０
、ＬＡＳＳＯ７４０、決定木回帰７２２、ランダムフォレスト回帰７２８、ｋ－近傍回
帰７２４、サポートベクトル回帰（ＳＶＲ）７２０及びバギング回帰７２６を含む上記の
エネルギ使用データプロットにおける各曲線について、本発明の実施形態に従って、外れ
値の割合が始まる誤差許容値を決定するように、低い誤差許容パーセンテージによって定
義される直線が外挿され得る。このプロセスは自動化することができるが、実際には、選
択された誤差許容値が分析者の判断を確実に反映するように手動で実行されてもよい。

外挿の実践及び誤差許容率の選択は比較的簡単なプロセスであるが、非常に重要な意味
を有する。これは、提案されたモデルがどの程度データに適合するかを示す。誤差許容値
の補数は、外れ値であるデータセットのパーセンテージであり、すなわち、モデルが比較
的正確な予測を行うことができないレコードのパーセンテージである。これは、所与のデ
ータセット及び実際の適用に対して機械学習（又は任意のモデル）を選択する際に重要な
情報である。表３は、２つの例示的なデータセットの各モードについて選択された誤差許
容値を示す。

複数の実施形態では、ＤＯＢＲ選択値のみの予測精度が参照モデルと比較される。これ
は、その方法自体では完全なデータセットの予測精度の向上に関する特定の情報が提供さ
れないため、ＤＯＢＲの基本的な有用性である。そのため、ＤＯＢＲ分析では、データセ
ットの一部の予測能力は向上するが、外れ値のレコードに関する情報は提供されないとい
う分析者にとってのトレードオフが生じる可能性がある。このセクションで取り扱う問題
は、もしあれば、ＤＯＢＲで選択された結果が、対応する参照モデルのテストデータ予測
と比較してどの程度正確であるかということである。

完全なデータセットに対して基準誤差が計算される。非外れ値データセットとの比較の
ための調整された基準誤差値は、完全な基準誤差に誤差許容値を掛けることによって計算
される。例えば、基準誤差が１０．０であり、誤差許容値が８０％である場合、調整され
た基準誤差は１０×８０％すなわち８．０である。この解釈では、「誤差許容」の定義が
使用される。例えば、非外れ値データを８０％のデータについて計算した場合、誤差合計
の８０％は依然として非外れ値データに残るはずである。これが誤差許容の定義である。

ＤＯＢＲ選択非外れ値の予測精度性能を測定した結果が以下の表４及び表５に示されて
おり、それぞれが、例えば、コンクリート強度データセット及びエネルギデータセットに
対応する。基準誤差は、実際の誤差許容パーセンテージに||{y_Ref}，{y_test}||の点推定
値を乗算することによって計算される。ランダムフォレスト分類器は、ＤＯＢＲの予測精
度向上に関する結論を変更しないと判断されたため、コンクリートのデータセットには適
用されなかった。

以下の全ての統計について、結果は、トレーニング及びテストデータのサブセットの１
００のランダムな試行選択からの平均±９５％信頼区間を示す。以下の表のいくつかの例
では、計算時間の問題を管理するために、サポートベクトルの結果は、より少ない反復回
数（５回又は１０回）から計算された。

表４に示すように、ＤＯＢＲ選択レコードを使用した予測の改善はほとんどない。この
結果は驚くべきものではなく、実際には、図１２に示された誤差許容対モデル誤差曲線の
形状に基づいて予測される。

また、予測されるように、図１３に基づいて、表５は、バギング分類器及びランダムフ
ォレスト分類器の両方について、参照モデル値からのＤＯＢＲ選択予測にかなりの改善が
あることを示しており、それぞれ、以下では図１４Ａ及び図１４Ｂを参照されたい。ＤＯ
ＢＲモデル{y₅}={y_1in}は、モデル学習前の外れ値の除去を示唆する最大の改善を示し、
ＤＯＢＲ分類と結合して、完全（非ＤＯＢＲ）モデルに対してＤＯＢＲ分類を単に使用す
るよりも良い結果を提供する。モデル間の改善結果の相違は、モデルの選択が重要である
ことを示している。この決定は分析者によって行われるが、モデル別に予測精度を比較す
ることは興味深いことである。モデルの実行時間及び他のいくつかの要因も重要であり、
この研究は１つのモデルが他のモデルよりも有効であることを示唆するために設計又は意
図されたものではない。

表５の結論は明白であり、統計的に有意である。図１３のようなプロットに示すように
、外れ値偏りの可能性を考慮して、ＤＯＢＲ法を用いた機械学習モデルは、ＤＯＢＲを用
いない機械学習モデルを用いるよりも、非外れ値レコードに対してより良好な予測精度を
提供することができる。したがって、ＤＯＢＲを有する機械学習モデルを含む例示的な新
規なコンピュータシステムは、予測を行う際の精度を改善すると共に誤差を低減し、それ
によって、モデルを実装する性能及び効率を向上させる。しかし、改善の達成には代償を
伴う場合がある。すなわち、識別された外れ値に対して予測値又は考慮が与えられない場
合がある。複数の実施形態では、外れ値レコードがどのようにモデル化されるかは、適用
に基づいて変化し得る。

表６には、バギング分類器を用いたコンクリート圧縮強度データセットのトレーニング
／テストサンプリングの予測精度結果が示されている。ランダムフォレスト分類器はこの
データセットに適用されなかった。この表は、トレーニングデータセットとテストデータ
セットの１００個のランダムな選択について、テストデータと各モデルの間の信頼度９５
％での二乗平均平方根誤差（式１５を参照）を示している。

線形回帰とＬＡＳＳＯでは、基本モデル又は参照モデルの誤差が最大になる。しかしな
がら、{y₁}モデルは、決定木を除く他の全てのモデルと統計的に同じ予測精度を示す。こ
の場合、決定木モデルは最高の予測精度を生成し、線形回帰とＬＡＳＳＯを除く全てのモ
デルはＤＯＢＲを追加しても改善されないと分かる。

表７は、例えば、ＤＯＢＲモデル：バギング分類器のコンクリート圧縮強度予測精度性
能の各場合における参照モデルに対するＤＯＢＲモデルの予測精度の増加（＋）又は減少
（－）を示す。

線形回帰及びＬＡＳＳＯのモデル誤差対誤差許容曲線は最大非線形性を持つプロットで
あり、他は略直線であり、モデルが目的変数を適切に予測し、外れ値分析を必要としない
ことを示唆するので、これらの結果は驚くべきものではない。そして、これが表７で伝え
られるメッセージである。予測されたコンクリート圧縮強度に関するモデル出力は、添付
の付録Ａに示されている。

ここで、表８のエネルギ消費予測誤差の結果を見ると、例えば、バギング及びランダム
フォレスト分類器に関する機器エネルギ消費予測誤差を含む異なる状況が存在する。バギ
ング、線形回帰及びＬＡＳＳＯモデルは最大の参照予測誤差を有し、ランダムフォレスト
モデルは最小である。右の３つの列のＤＯＢＲモデル誤差は、多くの場合、ＤＯＢＲモデ
ルが参照モデルよりも高い予測精度を生成することを示している。

興味深いことに、バギング参照モデルは最大の基準誤差値を有するが、そのＤＯＢＲ拡
張モデルの結果は一般に他のモデルと同じ統計的範囲にある。また、実用上の理由から、
サポートベクトルモデルは１０回の反復のみが実行された。これは、そのモデル結果全体
の不確実性の増加を説明する。

例えば、ＤＯＢＲモデルの機器エネルギ消費予測精度性能に関する詳細な改善結果を表
９に示す。少なくとも１つのＤＯＢＲモデルによって、ほとんどの機械学習モデルに対し
て何らかの予測精度の向上がもたらされることに留意されたい。しかしながら、比較的大
きな違いもあるため、ＤＯＢＲがもたらした予測可能性の改善に関する決定的な結果は得
られていない。エネルギデータについてのモデル誤差対誤差許容曲線から、全てのプロッ
トは非線形特性を示しており、ランダムフォレスト及び決定木モデルは最小の曲率を有し
ている。そして、モデル、特にランダムフォレストは、ここに示された結果に基づいて、
この変動を適切にモデル化することができると分かる。予測されるエネルギ使用に関する
モデル出力は、添付の付録Ｂに示されている。

図１４Ａ及び図１４Ｂは、本開示の１つ以上の実施形態による、ＤＯＢＲ分類器を備え
た本発明の例示的なコンピュータベースシステムの例示的な実施形態による、分類器モデ
ルにおける非外れ値及び外れ値分布のプロットを示す。

コンクリートのデータセットは比較的小さいため、データプロットから視覚的な洞察を
得ることができるが、この場合、ＤＯＢＲにはほとんど価値がないため、このデータセッ
トをグラフ化しても、ＤＯＢＲの動作に関する理解は向上しない。しかしながら、エネル
ギデータセットの予測については、ＤＯＢＲによって予測が大幅に改善された。しかし、
比較的大きなサイズであるため（１３，８１４件のトレーニングレコード、５，９２１件
のテストレコード）、直接散布図の視覚化を解釈するのは困難である。図９及び図１０の
ような多数の点を有する散布図は、あらゆる詳細を消し去り得る。表３に示された誤差改
善結果は、非外れ値データセットについての合計であるが、ＤＯＢＲ法及び分類モデルが
これらの結果をどのように生成するかについての疑問が残る。

複数の実施形態では、この問題に対処するために、２つのモデル表現、すなわち、外れ
値及び非外れ値のデータセットの{y₄}、ランダムフォレスト分類器（図１４Ａ）及び{y₅}
、バギング分類器（図１４Ｂ）についての誤差分布を分析し得る。一実施形態では、非外
れ値誤差は、設計上、外れ値誤差よりも小さいはずであるが、例示的な新規なＤＯＢＲモ
デル及び分類プロセスは、トレーニングデータのみから構築されるので、テストデータセ
ットは、以前には見られなかった情報を含み得る。その結果、モデル及び分類の計算は正
確ではない場合があり、分類の誤差の範囲はこれらのプロットで視覚化され得る。この作
業は、表５に示すように、２つのアプローチがそれぞれ最大及び最小の改善効果を有する
ため、線形回帰モデルとバギング回帰モデルに対して実行される。

議論のために、基準誤差値は、図１４Ａ及び図１４Ｂの両方のプロットにおいて強調表
示される。上の矢印のセットは、８０％の非外れ値誤差値が１，０００未満であることを
示しており、これは誤差値の２０％が＞１，０００であることを示している。また、下の
矢印のセットは、外れ値分布について、外れ値の約２０％が＜１，０００の誤差を有する
か又は８０％が＞１，０００の誤差を有することを示しており、これは外れ値の誤差を代
表している。誤差許容パーセント値の事前知識がなければ、分類プロセスの精度を正確に
計算することはできないが、上記のプロットは、誤分類が発生しても、ほとんどの値が適
切に分類されることを示している。

図１５は、本開示の１つ以上の実施形態に従った、坑井掘削における非生産時間を予測
するためのＤＯＢＲトレーニングされた機械学習モデルを有する、本発明の例示的なコン
ピュータベースシステムの例示的な実施形態の例示的な使用事例について、誤差許容値の
関数としてのモデル誤差のプロットを示す。

沖合の坑井掘削作業は石油及びガス産業にとって独自の課題を有している。気象及び深
海からの観測可能な物流及び環境リスクに加えて、高温、高圧、振動環境で作動する隠れ
たダウンホールリスクがある。掘削時間は過密なスケジュールに保たれ、ダウンホール設
備の故障による遅延（非生産時間又はＮＰＴ）は、大きな収益ペナルティとなり得る。

ＮＰＴの管理を支援するために、機械学習モデルは、掘削目標を設定する契約条件にこ
れらの推定遅延を含めることを目的として、将来の停止時間イベントの予測を支援するよ
うに構築される。履歴イベントを確認すると、ドリル距離［ｆｅｅｔ］、穴サイズ［ｉｎ
ｃｈ］、ツールサイズ［ｉｎｃｈ］、位置圧力の重大度、最大ドッグレッグ［ｄｅｇ／１
００ｆｔ］、振動の重要度カテゴリ、曲率カテゴリ、ＮＰＴ（ｈｒ）が含まれている。

線形、ｘｇｂｏｏｓｔ，勾配ブースティング，及びランダムフォレスト回帰モデルを８
０／２０トレーニング／テスト分割によってダウンホール設備故障データに適用して、モ
デル予測精度を測定した。ハイパーバンドを使用して、以下の表１０に示されたモデル及
び関連パラメータ値を調整した。

ＤＯＢＲ計算外れ値情報をテストデータセットに転送する分類関数は、例えば５に等し
い推定器の数を有するランダムフォレストモデルとして選択され得る。この調整活動は、
分析のトレーニング部分でも達成される。パラメータ選択のメトリックは、トレーニング
セットの正しく分類された要素の割合を計算し、それをモデルの誤差許容値と比較するこ
とである。

この分析には線形回帰が含まれており、それは、係数が追加のベストプラクティスの改
善を識別するのに役立つエンジニアリングの洞察を提供できる唯一のモデルであるためで
ある。その他のモデルは、予測の観点からはより堅牢であるが、洞察はほとんど得られな
い。

この明細書で説明されているように、基本的なＤＯＢＲプロセスを構築できるＤＯＢＲ
関連モデルがいくつかある。この例では、３つのモデルが示されている。Ｍは、所定のハ
イパーチューニングされたモデルを表す。

ＤＯＢＲを使用して、トレーニング及びテストデータセットの内側値（ｉｎｌｉｅｒ）
と外れ値（ｏｕｔｌｉｅｒ）を選択した。

ここで、Data_xin_scrub及びData_yin_scrubはトレーニングセットからのＤＯＢＲ計算
内側値であり、Data_xout_scrub及びData_yout_scrubはトレーニングセットからのＤＯＢ
Ｒ計算外れ値であり、DOBR_Model_testin及びDOBR_Model_testoutはそれぞれＤＯＢＲ分
類モデルから計算されたテストデータセットの内側値及び外れ値であり、BaseModel_yin
，BaseModel_youtはＤＯＢＲ分類モデルを使用して内側値及び外れ値に分類された非ＤＯ
ＢＲ計算モデル結果であり、IはBaseModel値をＤＯＢＲ定義内側値に関するBaseModel_yi
nに、及びＤＯＢＲ定義外れ値に関するBaseModel_yinに割り当てる。

これらのサブセットから、次の３つのＤＯＢＲモデルが得られる。
ａ．DOBR_Model＃１＝［DOBR_Model_testin，DOBR_Model_testout］
ｂ．DOBR_Model＃２＝［BaseModel_yin，DOBR_Model_testout］
ｃ．DOBR_Model＃３＝［DOBR_Model_testin，BaseModel_yout］

上述のハイパーチューニングされたモデルの誤差許容パーセンテージ対モデル誤差曲線
を実行すると、図１５に示すような曲線が生成される。これらの曲線の重要な特性は曲率
であり、誤差値自体ではない。一般に、領域（０、１００％）上の所与の曲線の勾配が線
形であるほど、外れ値の影響は小さくなる。沖合のダウンホール設備の故障データについ
て、曲線は誤差許容値が約８０％になるまでは線形であり、それから様々な非線形勾配が
現れる。誤差許容値の関数として勾配を分析する場合、次の表（表１１）は、ＤＯＢＲ分
析のために決定された誤差許容閾値を示す。

モデルは全て、計算されたハイパーパラメータ及び割り当てられた誤差許容値を使用し
て実行された。予測されたＮＰＴに関するモデル出力は添付の付録Ｃに示されており、誤
差結果は以下の表１２に示されている。

これで、３つのＤＯＢＲモデルと並んで非ＤＯＢＲモデルも有するので、将来の予測の
ために稼働中にどのモデルを使用するかを選択できる立場にある。全体として、線形モデ
ルが最も予測精度が低く、ＤＯＢＲモデル＃１又は＃２が最も優れている。この時点で、
分析者はこれらの精度の数値と他の実際的な考慮事項、例えば、将来の予測に適用するモ
デルを選択するための計算時間とのバランスを取ることができる。

ＤＯＢＲを使用して機械学習モデルをトレーニング及び実装した結果はコンクリート圧
縮歪みの予測及びエネルギの予測に関する用途であったが、他の用途も考えられる。

例えば、画像レンダリング及び可視化には、米国特許第１０，３３９，６９５号に記載
されているように、例えば医療データに基づいてレンダリングパラメータを自動的に予測
して実行するように機械学習モデルが利用されてもよい。ＤＯＢＲは、コンテンツベース
のレンダリングのための機械学習モデルをトレーニング及び実行するために利用されても
よい。患者の三次元領域を表す医療データセットが入力データとして利用されてもよい。
ＤＯＢＲを使用して、トレーニング医療データセットから外れ値を除去してもよく、その
結果、上述のＤＯＢＲ技術に従って、機械学習モデルは非外れ値データに対してトレーニ
ングされ得る。機械学習モデルは、医療データセットから特徴を抽出し、医療データセッ
トの入力に基づいて２つ以上の物理ベースのレンダリングパラメータに関する値を出力す
るために、トレーニング医療データセットからの非外れ値データのディープラーニングを
使用してトレーニングされる。いくつかの実施形態では、物理ベースのレンダリングパラ
メータは、一貫したデータ処理、照明設計、ビュー設計、材料の妥当性、又は内部レンダ
ラプロパティのための制御である。物理ベースのレンダラは、適用から得られる出力値を
使用して、患者の３次元領域のフォトリアリスティック画像をレンダリングする。

機械学習モデルをトレーニング及び実装するためのＤＯＢＲの別の例示的な適用例では
、米国特許第１０，３１７，８５４号に記載されているように、機械が制御コマンドを出
力するための制御コマンドを生成するために、上述のＤＯＢＲ技術を用いて機械学習モデ
ルがトレーニングされてもよい。このような例では、シミュレータは、制御コマンドに基
づいて機械の作業動作のシミュレーションを実行してもよい。シミュレータは、制御コマ
ンドに基づいて機械の物理的アクションをシミュレートすることによって、機械学習モデ
ルをトレーニングするための完全なデータセットを生成し得る。このようなデータセット
は、各シミュレーションのための入力として使用される作業動作データ、制御コマンドデ
ータ及び機械データを含むモデルパラメータをトレーニングする際に、外れ値シミュレー
ションが除去されることを確実にするために、ＤＯＢＲ反復を使用して処理されてもよい
。

いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の
組み合わせにおいて、例示的なＤＯＢＲ機械学習モデルは、所望の非外れ値データのため
の履歴品質データを考慮し得る計算アルゴリズムのモンテカルロ法（例えば、Ｓｏｌｏｖ
ａｙ－Ｓｔｒａｓｓｅｎ型アルゴリズム、Ｂａｉｌｌｉｅ－ＰＳＷ型アルゴリズム、Ｍｉ
ｌｌｅｒ－Ｒａｂｉｎ型アルゴリズム、及び／又はＳｃｈｒｅｉｅｒ－Ｓｉｍｓ型アルゴ
リズム）に少なくとも部分的に基づいてもよい。いくつかの実施形態では、及び選択的に
、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なＤＯＢＲ機
械学習モデルは、例えば、限定されないが、少なくとも１つの機械学習技術（例えば、限
定されないが、決定木、ブースティング、サポートベクトルマシン、ニューラルネットワ
ーク、最近傍アルゴリズム、単純ベイズ、バギング、ランダムフォレスト等）を、収集さ
れた及び／又はコンパイルされたセンサデータ（例えば、環境及び／又は貨物の物理的／
視覚的外観に関する様々な種類の視覚データ）に適用することによって、連続的にトレー
ニングされ得る。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任
意の実施形態の組み合わせにおいて、例示的なニュートラルネットワーク技術は、限定さ
れないが、フィードフォワードニューラルネットワーク、動径基底関数ネットワーク、リ
カレントニューラルネットワーク、畳み込みネットワーク（例えば、Ｕ－ｎｅｔ）、又は
他の適切なネットワークのうちの１つであってもよい。いくつかの実施形態では、及び選
択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、ニューラルネ
ットワークの例示的な実装は、以下のように実行され得る。
ｉ）ニューラルネットワークアーキテクチャ／モデルを定義する。
ｉｉ）入力データを例示的なニューラルネットワークモデルに転送する。
ｉｉｉ）模範的なモデルを段階的にトレーニングする。
ｉｖ）特定のタイムステップ数における精度を決定する。
ｖ）新たに受信した入力データを処理するために、模範的なトレーニングされたモデル
を適用する。
ｖｉ）選択的に、かつ並列的に、既定の周期性で模範的なトレーニングされたモデルを
トレーニングし続ける。

いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の
組み合わせにおいて、例示的なトレーニングされたニューラルネットワークモデルは、少
なくとも１つのニューラルネットワークトポロジ、一連の活性化関数、及び接続重みによ
って、ニューラルネットワークを指定し得る。例えば、ニューラルネットワークのトポロ
ジは、ニューラルネットワークのノード及びそのようなノード間の接続の構成を含み得る
。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の
組み合わせにおいて、例示的なトレーニングされたニューラルネットワークモデルは、限
定されないが、偏り値／関数及び／又は集約関数を含む他のパラメータを含むように指定
されてもよい。例えば、ノードの活性化関数は、ステップ関数、サイン関数、連続又は区
分線形関数、シグモイド関数、双曲線正接関数、又はノードが活性化される閾値を表す他
のタイプの数学関数であってもよい。いくつかの実施形態では、及び選択的に、上記又は
以下に記載される任意の実施形態の組み合わせにおいて、例示的な集約関数は、ノードへ
の入力信号を結合（例えば、合算、積算等）する数学関数であってもよい。いくつかの実
施形態では、及び選択的に、上記又は以下に記載された任意の実施形態の組み合わせにお
いて、例示的な集約関数の出力は、例示的な活性化関数への入力として使用されてもよい
。いくつかの実施形態では、及び選択的に、上記又は以下に記載された任意の実施形態の
組み合わせにおいて、偏りは、ノードが多かれ少なかれ活性化され得るように、集約関数
及び／又は活性化関数によって使用され得る一定値又は関数であり得る。

いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の
組み合わせにおいて、例示的なニューラルネットワークにおける各接続の例示的接続デー
タは、ノード対又は接続重みの少なくとも１つを含んでもよい。例えば、例示的なニュー
ラルネットワークがノードＮ１からノードＮ２への接続を含む場合、その接続に関する例
示的な接続データは、ノード対＜Ｎ１、Ｎ２＞を含んでもよい。いくつかの実施形態では
、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、接続
重みは、Ｎ２において入力される前にＮ１の出力が変更されるかどうか及び／又はどのよ
うに変更されるかに影響する数値量であってもよい。リカレントネットワークの例では、
ノードがそれ自体への接続を有していてもよい（例えば、接続データは、ノード対＜Ｎ１
、Ｎ１＞を含んでもよい）。

いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の
組み合わせにおいて、例示的なトレーニングされたニューラルネットワークモデルは、種
識別子（ＩＤ）及び適合度データも含み得る。例えば、各種ＩＤは、複数の種（貨物の損
失区分等）のうち、モデルがどの種に分類されるかを示し得る。例えば、適合度データは
、例示的なトレーニングされたニューラルネットワークモデルが入力感覚データセットを
どの程度よくモデル化するかを示し得る。例えば、適合度データは、モデルに関する適合
度関数の評価に基づいて決定される適合度値を含み得る。例えば、例示的な適合度関数は
、入力感覚データセットに対して例示的なトレーニングされたニューラルネットワークモ
デルをテストすることによって生成される誤差の頻度及び／又は大きさに基づく目的関数
であってもよい。簡単な例として、入力感覚データセットが１０行を含み、入力感覚デー
タセットがＡ及びＢと示される２つの列を含み、例示的なトレーニングされたニューラル
ネットワークモデルが、Ａの入力値を考慮してＢの予測値を出力すると仮定する。この例
において、例示的なトレーニングされたニューラルネットワークモデルをテストすること
は、入力センサデータセットからのＡの１０個の値のそれぞれを入力すること、Ｂの予測
値を入力センサデータセットからのＢの対応する実際値と比較すること、及びＢの２つの
予測値及び実際値が異なるかどうか及び／又はどの程度異なるかを決定することを含み得
る。例示として、特定のニューラルネットワークが１０行のうちの９行についてＢの値を
正確に予測した場合、例示的な適合度関数は、対応するモデルに９／１０＝０．９の適合
度値を割り当ててもよい。先の例示は説明のためのものであり、限定を意図するものでは
ないことを理解されたい。いくつかの実施形態では、例示的な適合度関数は、例えば、入
力ノードの数、ノード層、隠れ層、接続、計算の複雑さ等の誤差頻度又は誤差率に関係の
ない要因に基づき得る。

いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の
組み合わせにおいて、本開示は、少なくとも１つの以下のうちのいくつかの態様を利用し
てもよい。
米国特許出願第８１９５４８４号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎ
ｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８５４８８３３号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎ
ｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８５５４５８８号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎ
ｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８５５４５８９号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎ
ｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８５９５０３６号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎ
ｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８６７６６１０号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎ
ｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８７１９０５９号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎ
ｇｓｙｓｔｅｍａｎｄｍｅｔｈｏｄという名称を有する。
米国特許出願第８８１２３３１号、Ｉｎｓｕｒａｎｃｅｐｒｏｄｕｃｔ，ｒａｔｉｎ
ｇａｎｄｃｒｅｄｉｔｅｎｈａｎｃｅｍｅｎｔｓｙｓｔｅｍａｎｄｍｅｔｈ
ｏｄｆｏｒｉｎｓｕｒｉｎｇｐｒｏｊｅｃｔｓａｖｉｎｇｓという名称を有する
。

次に、本開示の少なくともいくつかの態様を、以下の番号を付した項目を参照して説明
する。
［項目１］
少なくとも１つのプロセッサによって、少なくとも１つのユーザ活動に関する少なくと
も１つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと
、
前記少なくとも１つのプロセッサによって、１つ以上の外れ値を決定するために使用され
る少なくとも１つの偏り基準を受信するステップと、
前記少なくとも１つのプロセッサによって、機械学習モデルに関するモデルパラメータの
セットを決定するステップであって、
（１）前記少なくとも１つのプロセッサによって、初期モデルパラメータのセットを有
する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値のセ
ットを決定すること、
（２）前記少なくとも１つのプロセッサによって、前記モデル予測値のセットを前記ト
レーニングデータセットの対応する実際値と比較することによって、データ要素誤差の誤
差セットを生成すること、
（３）前記少なくとも１つのプロセッサによって、前記データ要素誤差の誤差セット及
び前記少なくとも１つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識
別するためのデータ選択ベクトルを生成すること、
（４）前記少なくとも１つのプロセッサによって、前記トレーニングデータセットに対
して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、
（５）前記少なくとも１つのプロセッサによって、前記非外れ値データセットに基づい
て前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、
（６）前記少なくとも１つのプロセッサによって、少なくとも１つの打ち切り実行終了
基準が満たされるまで、反復としてステップ（１）～（５）を繰り返すことにより、前記
更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータの
セットを取得することであって、これにより、各反復は、前記更新されたモデルパラメー
タのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット、
前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成する
こと
を含むステップと、
前記少なくとも１つのプロセッサによって、前記トレーニングデータセット及び前記デ
ータ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器
モデルパラメータのセットをトレーニングするステップであって、少なくとも１つの外れ
値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデ
ルを取得するステップと、
前記少なくとも１つのプロセッサによって、前記トレーニングされた外れ値分類器機械
学習モデルを、前記少なくとも１つのユーザ活動に関する活動関連データのデータセット
に適用して、
ｉ）前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及び
ｉｉ）前記活動関連データのデータセットにおいて非外れ値活動関連データのセット
を決定するステップと、
前記少なくとも１つのプロセッサによって、前記機械学習モデルを前記非外れ値活動関
連データ要素のセットに適用して、前記少なくとも１つのユーザ活動に関連する将来の活
動関連属性を予測するステップと
を含む、方法。
［項目２］
ソフトウェア命令が記憶された非一時的なコンピュータ可読記憶媒体と通信する少なく
とも１つのプロセッサを備えるシステムであって、
前記ソフトウェア命令は、実行されると、
前記少なくとも１つのプロセッサによって、少なくとも１つのユーザ活動に関する少な
くとも１つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステッ
プと、
１つ以上の外れ値を決定するために使用される少なくとも１つの偏り基準を受信するステ
ップと、
機械学習モデルに関するモデルパラメータのセットを決定するステップであって、
（１）初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニング
データセットに適用して、モデル予測値のセットを決定すること、
（２）前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値と
比較することによって、データ要素誤差の誤差セットを生成すること、
（３）前記データ要素誤差の誤差セット及び前記少なくとも１つの偏り基準に少なくと
も部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成する
こと、
（４）前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、非
外れ値データセットを生成すること、
（５）前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモ
デルパラメータのセットを決定すること、及び
（６）少なくとも１つの打ち切り実行終了基準が満たされるまで、反復としてステップ
（１）～（５）を繰り返すことにより、前記更新されたモデルパラメータとして前記機械
学習モデルに関する前記モデルパラメータのセットを取得することであって、これにより
、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータのセ
ットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル、
及び前記非外れ値データセットを再生成すること
を含むステップと、
前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づ
いて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングす
るステップであって、少なくとも１つの外れ値データ要素を識別するように構成されるト
レーニングされた外れ値分類器機械学習モデルを取得するステップと、
前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも１つのユーザ
活動に関する活動関連データのデータセットに適用して、
ｉ）前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及び
ｉｉ）前記活動関連データのデータセットにおいて非外れ値活動関連データのセット
を決定するステップと、
前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少な
くとも１つのユーザ活動に関連する将来の活動関連属性を予測するステップと
を実行させる、システム。
［項目３］
前記少なくとも１つのプロセッサによって、前記データ選択ベクトルを前記トレーニン
グデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値トレーニングデータセットを使
用して、少なくとも１つの外れ値固有機械学習モデルの少なくとも１つの外れ値固有モデ
ルパラメータをトレーニングして、外れ値データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、
前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップ
と
をさらに含む、項目１及び／又は２に記載のシステム及び方法。
［項目４］
前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して
、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、デ
ータ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用し
て、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステ
ップと、
前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用し
て、前記活動関連データ値を予測するステップと
をさらに含む、項目１及び／又は２に記載のシステム及び方法。
［項目５］
前記少なくとも１つのプロセッサによって、前記データ選択ベクトルを前記トレーニン
グデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値トレーニングデータセットを使
用して、外れ値固有機械学習モデルの外れ値固有モデルパラメータをトレーニングして、
外れ値データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して
、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、デ
ータ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して
、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステッ
プと、
前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して
、前記活動関連データ値を予測するステップと
をさらに含む、項目１及び／又は２に記載のシステム及び方法。
［項目６］
前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して
、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、デ
ータ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用し
て、前記活動関連データのセットに関する前記活動関連データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値分類器機械学習モデルを利用し
て、前記活動関連データ値の外れ値活動関連データ値を識別するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値活動関連データ値を除去するス
テップと
をさらに含む、項目１及び／又は２に記載のシステム及び方法。
［項目７］
前記トレーニングデータセットは、コンクリート組成及びコンクリート硬化発現の関数
としてのコンクリート圧縮強度の前記少なくとも１つの活動関連属性を含む、項目１及び
／又は２に記載のシステム及び方法。
［項目８］
前記トレーニングデータセットは、家庭環境条件及び照明条件の関数としてのエネルギ
使用データの前記少なくとも１つの活動関連属性を含む、項目１及び／又は２に記載のシ
ステム及び方法。
［項目９］
前記少なくとも１つのプロセッサによって、少なくとも１つのデータ要素を有する予測
を生成するためのＡＰＩ（アプリケーションプログラミングインターフェース）要求を受
信するステップと、
前記少なくとも１つのプロセッサによって、前記機械学習モデルの実行をスケジュール
するために少なくとも１つのクラウドコンピュータリソースをインスタンス化するステッ
プと、
前記少なくとも１つのプロセッサによって、実行される前記スケジュールに従って、前
記機械学習モデルを利用して、前記少なくとも１つのデータ要素に関する少なくとも１つ
の活動関連データ要素値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記少なくとも１つの活動関連データ要素
値を前記ＡＰＩ要求に関連付けられるコンピュータ装置に戻すステップと
をさらに含む、項目１及び／又は２に記載のシステム及び方法。
［項目１０］
前記トレーニングデータセットは、医療データセットの３次元患者画像の前記少なくと
も１つの活動関連属性を含み、
前記機械学習モデルは、前記医療データセットに基づいて２つ以上の物理ベースのレン
ダリングパラメータを含む前記活動関連データ値を予測するように構成される、項目１及
び／又は２に記載のシステム及び方法。
［項目１１］
前記トレーニングデータセットは、電子機械コマンドに対してシミュレートされた制御
結果の前記少なくとも１つの活動関連属性を含み、
前記機械学習モデルは、前記電子機械に対する制御コマンドを含む前記活動関連データ
値を予測するように構成される、項目１及び／又は２に記載のシステム及び方法。
［項目１２］
前記少なくとも１つのプロセッサによって、前記活動関連データのセットを活動関連デ
ータの複数のサブセットに分割するステップと、
前記少なくとも１つのプロセッサによって、前記活動関連データの前記複数のサブセット
のうちの活動関連データの各サブセットに対するアンサンブルモデルを決定するステップ
であって、
前記機械学習モデルは、複数のモデルのアンサンブルを含み、
各アンサンブルモデルは、前記複数のモデルのアンサンブルからのモデルのランダム
な組み合わせを含むステップと、
前記少なくとも１つのプロセッサによって、各アンサンブルモデルを利用して、個別に
アンサンブル固有活動関連データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記アンサンブル固有活動関連データ値及
び既知の値に基づいて、各アンサンブルモデルにおける誤差を決定するステップと、
前記少なくとも１つのプロセッサによって、最小誤差に基づいて最高性能のアンサンブ
ルモデルを選択するステップと
をさらに含む、項目１及び／又は２に記載のシステム及び方法。

本開示の１つ以上の実施形態が記載されてきたが、これらの実施形態は例示的なものに
過ぎず、限定的なものではなく、本明細書に記載された本発明の方法論、本発明のシステ
ム／プラットフォーム、及び本発明の装置の様々な実施形態を互いに任意の組み合わせで
利用することができることを含む、多くの修正が当業者には自明であり得ることが理解さ
れる。さらに、様々なステップは、任意の所望の順序で実行され得る（そして、任意の所
望のステップが追加されてもよく、及び／又は任意の所望のステップが除去されてもよい
）。

本開示の実施形態のシステム及び方法は、前記少なくとも１つのプロセッサによって、前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、前記少なくとも１つのプロセッサによって、前記外れ値トレーニングデータセットを使用して、外れ値固有機械学習モデルの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データ値を予測するステップとをさらに含む。

Claims

少なくとも１つのプロセッサによって、少なくとも１つのユーザ活動に関する少なくと
も１つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと
、
前記少なくとも１つのプロセッサによって、１つ以上の外れ値を決定するために使用さ
れる少なくとも１つの偏り基準を受信するステップと、
前記少なくとも１つのプロセッサによって、機械学習モデルに関するモデルパラメータ
のセットを決定するステップであって、
（１）前記少なくとも１つのプロセッサによって、初期モデルパラメータのセットを
有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値の
セットを決定すること、
（２）前記少なくとも１つのプロセッサによって、前記モデル予測値のセットを前記
トレーニングデータセットの対応する実際値と比較することによって、データ要素誤差の
誤差セットを生成すること、
（３）前記少なくとも１つのプロセッサによって、前記データ要素誤差の誤差セット
及び前記少なくとも１つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を
識別するためのデータ選択ベクトルを生成すること、
（４）前記少なくとも１つのプロセッサによって、前記トレーニングデータセットに
対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、
（５）前記少なくとも１つのプロセッサによって、前記非外れ値データセットに基づ
いて前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、
（６）前記少なくとも１つのプロセッサによって、少なくとも１つの打ち切り実行終
了基準が満たされるまで、反復としてステップ（１）～（５）を繰り返すことにより、前
記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータ
のセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメ
ータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット
、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成す
ること
を含むステップと、
前記少なくとも１つのプロセッサによって、前記トレーニングデータセット及び前記デ
ータ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器
モデルパラメータのセットをトレーニングするステップであって、少なくとも１つの外れ
値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデ
ルを取得するステップと、
前記少なくとも１つのプロセッサによって、前記トレーニングされた外れ値分類器機械
学習モデルを、前記少なくとも１つのユーザ活動に関する活動関連データのデータセット
に適用して、
ｉ）前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及
び
ｉｉ）前記活動関連データのデータセットにおいて非外れ値活動関連データのセット
を決定するステップと、
前記少なくとも１つのプロセッサによって、前記機械学習モデルを前記非外れ値活動関
連データ要素のセットに適用して、前記少なくとも１つのユーザ活動に関連する将来の活
動関連属性を予測するステップと
を含む、方法。
前記少なくとも１つのプロセッサによって、前記データ選択ベクトルを前記トレーニン
グデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値トレーニングデータセットを使
用して、少なくとも１つの外れ値固有機械学習モデルの少なくとも１つの外れ値固有モデ
ルパラメータをトレーニングして、外れ値データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して
、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステッ
プと
をさらに含む、請求項１に記載の方法。
前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データ値を予測するステップと
をさらに含む、請求項１に記載の方法。
前記少なくとも１つのプロセッサによって、前記データ選択ベクトルを前記トレーニン
グデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値トレーニングデータセットを使
用して、外れ値固有機械学習モデルの外れ値固有モデルパラメータをトレーニングして、
外れ値データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して
、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、デ
ータ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して
、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステッ
プと、
前記少なくとも１つのプロセッサによって、前記外れ値固有機械学習モデルを利用して
、前記活動関連データ値を予測するステップと
をさらに含む、請求項１に記載の方法。
前記少なくとも１つのプロセッサによって、前記トレーニングデータセットを使用して
、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、デ
ータ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記一般化された機械学習モデルを利用し
て、前記活動関連データのセットに関する前記活動関連データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値分類器機械学習モデルを利用し
て、前記活動関連データ値の外れ値活動関連データ値を識別するステップと、
前記少なくとも１つのプロセッサによって、前記外れ値活動関連データ値を除去するス
テップと
をさらに含む、請求項１に記載の方法。
前記トレーニングデータセットは、コンクリート組成及びコンクリート硬化発現の関数
としてのコンクリート圧縮強度の前記少なくとも１つの活動関連属性を含む、請求項１に
記載の方法。
前記トレーニングデータセットは、家庭環境条件及び照明条件の関数としてのエネルギ
使用データの前記少なくとも１つの活動関連属性を含む、請求項１に記載の方法。
前記少なくとも１つのプロセッサによって、少なくとも１つのデータ要素を有する予測
を生成するためのＡＰＩ（アプリケーションプログラミングインターフェース）要求を受
信するステップと、
前記少なくとも１つのプロセッサによって、前記機械学習モデルの実行をスケジュール
するために少なくとも１つのクラウドコンピュータリソースをインスタンス化するステッ
プと、
前記少なくとも１つのプロセッサによって、実行される前記スケジュールに従って、前
記機械学習モデルを利用して、前記少なくとも１つのデータ要素に関する少なくとも１つ
の活動関連データ要素値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記少なくとも１つの活動関連データ要素
値を前記ＡＰＩ要求に関連付けられるコンピュータ装置に戻すステップと
をさらに含む、請求項１に記載の方法。
前記トレーニングデータセットは、医療データセットの３次元患者画像の前記少なくと
も１つの活動関連属性を含み、
前記機械学習モデルは、前記医療データセットに基づいて２つ以上の物理ベースのレン
ダリングパラメータを含む前記活動関連データ値を予測するように構成される、請求項１
に記載の方法。
前記トレーニングデータセットは、電子機械のコマンドに対してシミュレートされた制
御結果の前記少なくとも１つの活動関連属性を含み、
前記機械学習モデルは、前記電子機械に対する制御コマンドを含む前記活動関連データ
値を予測するように構成される、請求項１に記載の方法。
前記少なくとも１つのプロセッサによって、前記活動関連データのセットを活動関連デ
ータの複数のサブセットに分割するステップと、
前記少なくとも１つのプロセッサによって、前記活動関連データの複数のサブセットの
うちの活動関連データの各サブセットに対するアンサンブルモデルを決定するステップで
あって、
前記機械学習モデルは、複数のモデルのアンサンブルを含み、
各アンサンブルモデルは、前記複数のモデルのアンサンブルからのモデルのランダム
な組み合わせを含むステップと、
前記少なくとも１つのプロセッサによって、各アンサンブルモデルを利用して、個別に
アンサンブル固有活動関連データ値を予測するステップと、
前記少なくとも１つのプロセッサによって、前記アンサンブル固有活動関連データ値及
び既知の値に基づいて、各アンサンブルモデルにおける誤差を決定するステップと、
前記少なくとも１つのプロセッサによって、最小誤差に基づいて最高性能のアンサンブ
ルモデルを選択するステップと
をさらに含む、請求項１に記載の方法。
ソフトウェア命令が記憶された非一時的なコンピュータ可読記憶媒体と通信する少なく
とも１つのプロセッサを備えるシステムであって、
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
少なくとも１つのユーザ活動に関する少なくとも１つの活動関連属性を表す目的変数の
トレーニングデータセットを受信するステップと、
１つ以上の外れ値を決定するために使用される少なくとも１つの偏り基準を受信するス
テップと、
機械学習モデルに関するモデルパラメータのセットを決定するステップであって、
（１）初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニン
グデータセットに適用して、モデル予測値のセットを決定すること、
（２）前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値
と比較することによって、データ要素誤差の誤差セットを生成すること、
（３）前記データ要素誤差の誤差セット及び前記少なくとも１つの偏り基準に少なく
とも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成す
ること、
（４）前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、
非外れ値データセットを生成すること、
（５）前記非外れ値データセットに基づいて前記機械学習モデルに関する更新された
モデルパラメータのセットを決定すること、
（６）少なくとも１つの打ち切り実行終了基準が満たされるまで、反復としてステッ
プ（１）～（５）を繰り返すことにより、前記更新されたモデルパラメータとして前記機
械学習モデルに関する前記モデルパラメータのセットを取得することであって、これによ
り、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータの
セットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル
、及び前記非外れ値データセットを再生成すること
を含むステップと、
前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づ
いて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングす
るステップであって、少なくとも１つの外れ値データ要素を識別するように構成されるト
レーニングされた外れ値分類器機械学習モデルを取得するステップと、
前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも１つのユーザ
活動に関する活動関連データのデータセットに適用して、
ｉ）前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及
び
ｉｉ）前記活動関連データのデータセットにおいて非外れ値活動関連データのセット
を決定するステップと、
前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少な
くとも１つのユーザ活動に関連する将来の活動関連属性を予測するステップと
を実行させる、システム。
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニ
ングデータセットを決定するステップと、
前記外れ値トレーニングデータセットを使用して、少なくとも１つの外れ値固有機械学
習モデルの少なくとも１つの外れ値固有モデルパラメータをトレーニングして、外れ値デ
ータ値を予測するステップと、
前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関す
る外れ値活動関連データ値を予測するステップと
をさらに実行させる、請求項１２に記載のシステム。
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化され
たモデルパラメータをトレーニングして、データ値を予測するステップと、
前記一般化された機械学習モデルを利用して、前記外れ値活動関連データのセットに関
する外れ値活動関連データ値を予測するステップと、
一般化された機械学習モデルを利用して、前記活動関連データ値を予測するステップと
をさらに実行させる、請求項１２に記載のシステム。
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニ
ングデータセットを決定するステップと、
前記外れ値トレーニングデータセットを使用して、外れ値固有機械学習モデルの外れ値
固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、
前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化され
たモデルパラメータをトレーニングして、データ値を予測するステップと、
前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関す
る外れ値活動関連データ値を予測するステップと、
前記外れ値固有機械学習モデルを利用して、前記活動関連データ値を予測するステップ
と
をさらに実行させる、請求項１２に記載のシステム。
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化され
たモデルパラメータをトレーニングして、データ値を予測するステップと、
前記一般化された機械学習モデルを利用して、前記活動関連データのセットに関する前
記活動関連データ値を予測するステップと、
前記外れ値分類器機械学習モデルを利用して、前記活動関連データ値の外れ値活動関連
データ値を識別するステップと、
前記外れ値活動関連データ値を除去するステップと
をさらに実行させる、請求項１２に記載のシステム。
前記トレーニングデータセットは、コンクリート組成及びコンクリート硬化発現の関数
としてのコンクリート圧縮強度の前記少なくとも１つの活動関連属性を含む、請求項１２
に記載のシステム。
前記トレーニングデータセットは、家庭環境条件及び照明条件の関数としてのエネルギ
使用データの前記少なくとも１つの活動関連属性を含む、請求項１２に記載のシステム。
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
少なくとも１つのデータ要素を有する予測を生成するためのＡＰＩ（アプリケーション
プログラミングインターフェース）要求を受信するステップと、
前記機械学習モデルの実行をスケジュールするために少なくとも１つのクラウドコンピ
ュータリソースをインスタンス化するステップと、
実行される前記スケジュールに従って、前記機械学習モデルを利用して、前記少なくと
も１つのデータ要素に関する少なくとも１つの活動関連データ要素値を予測するステップ
と、
前記少なくとも１つの活動関連データ要素値を前記ＡＰＩ要求に関連付けられるコンピ
ュータ装置に戻すステップと
をさらに実行させる、請求項１２に記載のシステム。
前記ソフトウェア命令は、実行されると、前記少なくとも１つのプロセッサによって、
前記活動関連データのセットを活動関連データの複数のサブセットに分割するステップ
と、
前記活動関連データの複数のサブセットのうちの活動関連データの各サブセットに対す
るアンサンブルモデルを決定するステップであって、
前記機械学習モデルは、複数のモデルのアンサンブルを含み、
各アンサンブルモデルは、前記複数のモデルのアンサンブルからのモデルのランダム
な組み合わせを含むステップと、
各アンサンブルモデルを利用して、個別にアンサンブル固有活動関連データ値を予測す
るステップと、
前記アンサンブル固有活動関連データ値及び既知の値に基づいて、各アンサンブルモデ
ルにおける誤差を決定するステップと、
最小誤差に基づいて最高性能のアンサンブルモデルを選択するステップと
をさらに実行させる、請求項１２に記載のシステム。