JP2022548654A - 機械学習モデルにおいて動的外れ値偏り低減を実装するように構成されるコンピュータベースシステム、コンピュータコンポーネント及びコンピュータオブジェクト - Google Patents

機械学習モデルにおいて動的外れ値偏り低減を実装するように構成されるコンピュータベースシステム、コンピュータコンポーネント及びコンピュータオブジェクト Download PDF

Info

Publication number
JP2022548654A
JP2022548654A JP2022517214A JP2022517214A JP2022548654A JP 2022548654 A JP2022548654 A JP 2022548654A JP 2022517214 A JP2022517214 A JP 2022517214A JP 2022517214 A JP2022517214 A JP 2022517214A JP 2022548654 A JP2022548654 A JP 2022548654A
Authority
JP
Japan
Prior art keywords
outlier
model
activity
data
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022517214A
Other languages
English (en)
Other versions
JP7399269B2 (ja
Inventor
リチャード ビー. ジョーンズ、
Original Assignee
ハートフォード スチーム ボイラー インスペクション アンド インシュアランス カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ハートフォード スチーム ボイラー インスペクション アンド インシュアランス カンパニー filed Critical ハートフォード スチーム ボイラー インスペクション アンド インシュアランス カンパニー
Publication of JP2022548654A publication Critical patent/JP2022548654A/ja
Priority to JP2023205241A priority Critical patent/JP2024026276A/ja
Application granted granted Critical
Publication of JP7399269B2 publication Critical patent/JP7399269B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

システム及び方法は、ユーザ活動のためのトレーニングデータを受信すること、偏り基準を受信すること、機械学習モデルのモデルパラメータのセットを決定することであって、(1)機械学習モデルをトレーニングデータに適用し、(2)モデル予測誤差を生成し、(3)モデル予測誤差に基づいて非外れ値目的変数を識別するためのデータ選択ベクトルを生成し、(4)データ選択ベクトルを利用して、非外れ値データセットを生成し、(5)非外れ値データセットに基づいて、更新されたモデルパラメータを決定し、(6)打ち切り実行終了基準が満たされるまでステップ(1)~(5)を繰り返すことを含むこと、外れ値分類器機械学習モデルの分類器モデルパラメータをトレーニングすること、外れ値分類器機械学習モデルを活動関連データに適用して、非外れ値活動関連データを決定すること、及び機械学習モデルを非外れ値活動関連データに適用して、ユーザ活動に関する将来の活動関連属性を予測することを行うためのプロセッサを含む。

Description

本開示は、一般に、機械学習モデルにおける偏り低減を実装するように構成される改良されたコンピュータベースシステム、コンピュータコンポーネント、及びコンピュータオブジェクトに関する。
(優先権の主張)
本出願は、2019年9月18日に出願された“COMPUTER-BASED SYSTEMS,COMPUTING COMPONENTS AND COMPUTING OBJECTS CONFIGURED TO IMPLEMENT DYNAMIC OUTLIER BIAS REDUCTION IN MACHINE LEARNING MODELS”という名称の米国仮出願第62/902,074号に対する優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。
(著作権表示)
この特許文書の開示の一部は、著作権保護の対象となる資料を含んでいる。著作権所有者は、特許商標庁の特許ファイル又は記録に記載されているように、特許書類又は特許開示のいずれかによるファクシミリ複製に対して異論はないが、それ以外の場合は、全ての著作権を留保する。次の通知は、この文書の一部を構成する図面及び以下に記載されるソフトウェア及びデータに適用される。著作権、Hartford Steam Boiler Inspection and Insurance Company,無断複写複製転載禁止
機械学習モデルは、サンプル/トレーニングデータから学習したパターン及び推論に基づいて予測又は決定を形成するための1つ以上のコンピュータ又は処理装置を含み得る。サンプル/トレーニングデータ選択における偏りは、機械学習モデルの予測と決定に反映され得る。
本開示の実施形態は、動的外れ値偏り低減機械学習モデルのための方法を含む。本方法は、少なくとも1つのプロセッサによって、少なくとも1つのユーザ活動に関する少なくとも1つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと、前記少なくとも1つのプロセッサによって、1つ以上の外れ値を決定するために使用される少なくとも1つの偏り基準を受信するステップと、前記少なくとも1つのプロセッサによって、機械学習モデルに関するモデルパラメータのセットを決定するステップであって、(1)前記少なくとも1つのプロセッサによって、初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値のセットを決定すること、(2)前記少なくとも1つのプロセッサによって、前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値と比較することによって、データ要素誤差の誤差セットを生成すること、(3)前記少なくとも1つのプロセッサによって、前記データ要素誤差の誤差セット及び前記少なくとも1つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成すること、(4)前記少なくとも1つのプロセッサによって、前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、(5)前記少なくとも1つのプロセッサによって、前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、及び、(6)前記少なくとも1つのプロセッサによって、少なくとも1つの打ち切り実行終了基準が満たされるまで、反復としてステップ(1)~(5)を繰り返すことにより、前記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータのセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成することを含むステップと、前記少なくとも1つのプロセッサによって、前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングするステップであって、少なくとも1つの外れ値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデルを取得するステップと、前記少なくとも1つのプロセッサによって、前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも1つのユーザ活動に関する活動関連データのデータセットに適用して、i)前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及びii)前記活動関連データのデータセットにおいて非外れ値活動関連データのセットを決定するステップと、前記少なくとも1つのプロセッサによって、前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少なくとも1つのユーザ活動に関連する将来の活動関連属性を予測するステップとを含む。
本開示の実施形態は、動的外れ値偏り低減機械学習モデルのためのシステムを含む。本システムは、ソフトウェア命令が記憶された非一時的なコンピュータ可読記憶媒体と通信する少なくとも1つのプロセッサを備えており、前記ソフトウェア命令は、実行されると、少なくとも1つのプロセッサによって、少なくとも1つのユーザ活動に関する少なくとも1つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと、1つ以上の外れ値を決定するために使用される少なくとも1つの偏り基準を受信するステップと、機械学習モデルのモデルパラメータのセットを決定するステップであって、(1)初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値のセットを決定すること、(2)前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値と比較することによって、データ要素誤差の誤差セットを生成すること、(3)前記データ要素誤差の誤差セット及び前記少なくとも1つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成すること、(4)前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、(5)前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、(6)少なくとも1つの打ち切り実行終了基準が満たされるまで、反復としてステップ(1)~(5)を繰り返すことにより、前記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータのセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成することを含むステップと、前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングするステップであって、少なくとも1つの外れ値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデルを取得するステップと、前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも1つのユーザ活動に関する活動関連データのデータセットに適用して、i)前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及びii)前記活動関連データのデータセットにおいて非外れ値活動関連データのセットを決定するステップと、前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少なくとも1つのユーザ活動に関連する将来の活動関連属性を予測するステップを実行させる。
本開示の実施形態のシステム及び方法は、前記少なくとも1つのプロセッサによって、前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、前記少なくとも1つのプロセッサによって、前記外れ値トレーニングデータセットを使用して、少なくとも1つの外れ値固有機械学習モデルの少なくとも1つの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、前記少なくとも1つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップとをさらに含む。
本開示の実施形態のシステム及び方法は、前記少なくとも1つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、前記少なくとも1つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、前記少なくとも1つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データ値を予測するステップとをさらに含む。
本開示の実施形態のシステム及び方法は、前記少なくとも1つのプロセッサによって、前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、前記少なくとも1つのプロセッサによって、前記外れ値トレーニングデータセットを使用して、外れ値固有機械学習モデルの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、前記少なくとも1つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、前記少なくとも1つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、前記少なくとも1つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記活動関連データ値を予測するステップとをさらに含む。
本開示の実施形態のシステム及び方法は、前記少なくとも1つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、前記少なくとも1つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データのセットに関する前記活動関連データ値を予測するステップと、前記少なくとも1つのプロセッサによって、前記外れ値分類器機械学習モデルを利用して、前記活動関連データ値の外れ値活動関連データ値を識別するステップと、前記少なくとも1つのプロセッサによって、前記外れ値活動関連データ値を除去するステップとをさらに含む。
本開示の実施形態のシステム及び方法において、前記トレーニングデータセットは、コンクリート組成及びコンクリート硬化発現の関数としてのコンクリート圧縮強度の前記少なくとも1つの活動関連属性を含む。
本開示の実施形態のシステム及び方法において、前記トレーニングデータセットは、家庭環境条件及び照明条件の関数としてのエネルギ使用データの前記少なくとも1つの活動関連属性を含む。
本開示の実施形態のシステム及び方法は、前記少なくとも1つのプロセッサによって、少なくとも1つのデータ要素を有する予測を生成するためのAPI(アプリケーションプログラミングインターフェース)要求を受信するステップと、前記少なくとも1つのプロセッサによって、前記機械学習モデルの実行をスケジュールするために少なくとも1つのクラウドコンピュータリソースをインスタンス化するステップと、前記少なくとも1つのプロセッサによって、実行される前記スケジュールに従って、前記機械学習モデルを利用して、前記少なくとも1つのデータ要素に関する少なくとも1つの活動関連データ要素値を予測するステップと、前記少なくとも1つのプロセッサによって、前記少なくとも1つの活動関連データ要素値を前記API要求に関連付けられるコンピュータ装置に戻すステップとをさらに含む。
本開示の実施形態のシステム及び方法において、前記トレーニングデータセットは、医療データセットの3次元患者画像の前記少なくとも1つの活動関連属性を含み、前記機械学習モデルは、前記医療データセットに基づいて2つ以上の物理ベースのレンダリングパラメータを含む前記活動関連データ値を予測するように構成される。
本開示の実施形態のシステム及び方法において、前記トレーニングデータセットは、電子機械コマンドに対してシミュレートされた制御結果の前記少なくとも1つの活動関連属性を含み、前記機械学習モデルは、前記電子機械に対する制御コマンドを含む前記活動関連データ値を予測するように構成される。
本開示の実施形態のシステム及び方法は、前記少なくとも1つのプロセッサによって、前記活動関連データのセットを活動関連データの複数のサブセットに分割するステップと、前記少なくとも1つのプロセッサによって、前記活動関連データの複数のサブセットのうちの活動関連データの各サブセットに対するアンサンブルモデルを決定するステップであって、前記機械学習モデルは、複数のモデルのアンサンブルを含み、各アンサンブルモデルは、前記複数のモデルのアンサンブルからのモデルのランダムな組み合わせを含むステップと、前記少なくとも1つのプロセッサによって、各アンサンブルモデルを利用して、個別にアンサンブル固有活動関連データ値を予測するステップと、前記少なくとも1つのプロセッサによって、前記アンサンブル固有活動関連データ値及び既知の値に基づいて、各アンサンブルモデルにおける誤差を決定するステップと、前記少なくとも1つのプロセッサによって、最小誤差に基づいて最高性能のアンサンブルモデルを選択するステップとをさらに含む。
本開示の様々な実施形態は、添付図面を参照してさらに説明され得る。同様の構造は、複数の図面を通して同じ番号によって参照される。図示された図面は必ずしも縮尺通りではなく、その代わりに一般的に本開示の原理を説明することに重点が置かれている。したがって、本明細書に開示される特定の構造的及び機能的詳細は、限定として解釈されるべきではなく、単に、当業者に1つ以上の例示的な実施形態を様々に使用することを教示するための代表的な基礎として解釈されるべきである。
本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、所定のコンピュータベースアーキテクチャを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、概略的なフローチャートを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、概略的なフローチャートを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。 本開示の少なくともいくつかの実施形態のいくつかの例示的な態様を例示する、グラフを示す。
本明細書には、添付の図面と併せて、本開示の様々な詳細な実施形態が開示されている。しかしながら、開示された実施形態は単なる例示であることを理解されたい。さらに、本開示の様々な実施形態に関連して与えられる例の各々は、例示であり、限定ではない。
本明細書を通して、以下の用語は、文脈により他の明示がない限り、本明細書に明示的に関連する意味を有する。本明細書で使用される「1つの実施形態において」及び「いくつかの実施形態において」という語句は、必ずしも(複数の)同じ実施形態を指すわけではないが、そうであってもよい。さらに、本明細書で使用される「他の実施形態において」及び「他のいくつかの実施形態において」という語句は、必ずしも異なる実施形態を指すわけではないが、そうであってもよい。したがって、以下に説明するように、様々な実施形態は、本開示の範囲又は精神から逸脱することなく、容易に組み合わせることができる。
さらに、「に基づく」という用語は排他的なものではなく、文脈が明確に指示しない限り、記載されていない追加の要因に基づき得る。さらに、本明細書全体を通して、不定冠詞(“a”、“an”)、及び前記(“the”)の意味は複数の参照を含む。「において(“in”)」の意味は、「の中で(“in”)」及び「の上で(“on”)」を含む。
本明細書に記載される様々な実施形態の少なくとも1つの態様/機能性は、リアルタイム及び/又は動的に実行され得ることが理解される。本明細書中で使用する場合、「リアルタイム」という用語は、別のイベント/アクションが発生したときに、瞬間的に又は略瞬間的に発生し得るイベント/アクションを指す。例えば、「リアルタイム処理」、「リアルタイム計算」、及び「リアルタイム実行」は全て、関連する物理的プロセス(例えば、ユーザがモバイル装置上のアプリケーションと相互作用すること)が発生する実際の時間中の計算の性能に関係し、計算の結果は物理的プロセスのガイドに使用することができる。
本明細書で使用される場合、「動的に」及び「自動的に」という用語、並びにそれらの論理的及び/又は言語的関連物及び/又は派生物は、所定のイベント及び/又はアクションが、いかなる人間の介入もなしにトリガされ及び/又は発生し得ることを意味する。いくつかの実施形態では、本開示によるイベント及び/又はアクションは、リアルタイムで及び/又は、ナノ秒、数ナノ秒、ミリ秒、数ミリ秒、秒、数秒、分、数分、毎時、数時間、毎日、数日、毎週、毎月等の少なくとも1つの既定の周期性に基づき得る。
いくつかの実施形態では、関連する装置を備えた例示的な新規な特別にプログラムされたコンピュータシステムは、分散ネットワーク環境で動作し、1つ以上の適切なデータ通信ネットワーク(例えば、インターネット、衛星等)を介して互いに通信し、限定されないが、IPX/SPX、X.25、AX.25、AppleTalk(TM)、TCP/IP(例えば、HTTP)、近距離無線通信(NFC)、RFID、狭帯域モノのインターネット(NBIOT)、3G、4G、5G、GSM(登録商標)、GPRS、WiFi、WiMax、CDMA、衛星、ZigBee(登録商標)、及び他の適切な通信モード等の1つ以上の適切なデータ通信プロトコル/モードを利用するように構成される。いくつかの実施形態では、NFCは、NFC対応装置が「スワイプ」、「バンプ」、「タップ」、又は通信のために他のやり方で近接して移動される、短距離無線通信技術を表し得る。
本明細書に開示された材料は、ソフトウェア又はファームウェア、或いはそれらの組み合わせとして、或いは1つ以上のプロセッサによって読み取られかつ実行され得る機械可読媒体に記憶された命令として実装され得る。機械可読媒体は、機械(例えば、コンピュータ装置)によって読み取り可能な形式で情報を記憶又は送信するための任意の媒体及び/又は機構を含み得る。例えば、機械可読媒体は、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリ装置、電気的、光学的、音響的又は他の形態の伝搬信号(例えば、搬送波、赤外線信号、デジタル信号等)、及びその他を含み得る。
本明細書で使用される場合、「コンピュータエンジン」及び「エンジン」という用語は、他のソフトウェア及び/又はハードウェアコンポーネント(例えば、ライブラリ、ソフトウェア開発キット(SDK)、オブジェクト等)を管理/制御するように設計/プログラム/構成された少なくとも1つのソフトウェアコンポーネント及び/又は少なくとも1つのソフトウェアコンポーネントと少なくとも1つのハードウェアコンポーネントとの組み合わせを示す。
ハードウェア要素の例としては、プロセッサ、マイクロプロセッサ、回路、回路素子(例えば、トランジスタ、抵抗器、コンデンサ、インダクタ等)、集積回路、特定用途向け集積回路(ASIC)、プログラマブル論理装置(PLD)、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、論理ゲート、レジスタ、半導体装置、チップ、マイクロチップ、チップセット等が挙げられる。いくつかの実施形態では、1つ以上のプロセッサは、複合命令セットコンピュータ(CISC)又は縮小命令セットコンピュータ(RISC)プロセッサ、x86命令セットと互換性のあるプロセッサ、マルチコア、又はその他のマイクロプロセッサ又は中央処理装置(CPU)として実装することができる。様々な実装では、1つ以上のプロセッサは、(複数の)デュアルコアプロセッサ、(複数の)デュアルコアモバイルプロセッサ等であってもよい。
ソフトウェアの例には、ソフトウェアコンポーネント、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、マシンプログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、関数、メソッド、プロシージャ、ソフトウェアインターフェース、アプリケーションプログラムインターフェース(API)、命令セット、コンピュータコード、コンピュータコード、コードセグメント、コンピュータコードセグメント、単語、値、記号、又はそれらの任意の組み合わせが含まれ得る。実施形態がハードウェア要素及び/又はソフトウェア要素を使用して実装されるかどうかを判断することは、所望の計算速度、電力レベル、耐熱性、処理サイクルバジェット、入力データ速度、出力データ速度、メモリリソース、データバス速度、及び他の設計上又は性能上の制約等の任意の数の要因に従って変化し得る。
少なくとも1つの実施形態の1つ以上の態様は、プロセッサ内の様々なロジックを表す機械可読媒体に記憶された代表的な命令によって実装されてもよく、これは、機械によって読み取られると、本明細書に記載の技術を実行するためのロジックを機械に作成させる。「IPコア」として知られるこのような表現は、ロジック又はプロセッサを作成する製造機械にロードされるように、有形の機械可読媒体上に記憶され、様々な顧客又は製造施設に供給され得る。留意点として、本明細書に記載される様々な実施形態は、当然のことながら、任意の適切なハードウェア及び/又はコンピュータソフトウェア言語(例えば、C++、Objective-C、Swift、Java、JavaScript、Python、Perl、QT等)を使用して実装されてもよい。
いくつかの実施形態では、本開示の例示的な新規なコンピュータベース装置の1つ以上は、少なくとも1つのパーソナルコンピュータ(PC)、ラップトップコンピュータ、ウルトララップトップコンピュータ、タブレット、タッチパッド、ポータブルコンピュータ、ハンドヘルドコンピュータ、パームトップコンピュータ、パーソナルデジタルアシスタント(PDA)、セルラ電話、複合セルラ電話/PDA、テレビ、スマートデバイス(スマートフォン、スマートタブレット、スマートテレビ等)、モバイルインターネットデバイス(MID)、メッセージング装置、データ通信装置等を含むか、部分的に又は全体的にそれらに組み込まれてもよい。
本明細書で使用される場合、「サーバ」という用語は、処理、データベース、及び通信機能を提供するサービスポイントを指すものとして理解されるべきである。限定ではなく例として、「サーバ」という用語は、関連する通信器及びデータ記憶装置及びデータベース機能を有する単一の物理プロセッサを指してもよく、又は、プロセッサ及び関連するネットワーク及び記憶装置のネットワーク化又はクラスタ化された複合体、並びにサーバによって提供されるサービスをサポートするオペレーティングソフトウェア及び1つ以上のデータベースシステム及びアプリケーションソフトウェアを指してもよい。クラウドサーバがその例である。
いくつかの実施形態では、本明細書に詳細に記載されるように、本開示の例示的な新規なコンピュータベースシステムのうちの1つ以上は、ファイル、連絡先、タスク、電子メール、ツイート、地図、アプリケーション全体(例えば、電卓)等の任意の適切な形態であり得る任意のデジタルオブジェクト及び/又はデータユニットを(例えば、特定のアプリケーションの内部及び/又は外部から)取得、操作、転送、記憶、変換、生成、及び/又は出力し得る。いくつかの実施形態では、本明細書に詳細に記載されるように、本開示の例示的な新規なコンピュータベースシステムのうちの1つ以上は、限定されないが、例えば、(1)AmigaOS、AmigaOS4、(2)FreeBSD、NetBSD、OpenBSD、(3)Linux、(4)Microsoft Windows、(5)OpenVMS、(6)OS X(Mac OS)、(7)OS/2、(8)Solaris、(9)Tru 64 UNIX(登録商標)、UNIX、(10)VM,(11)Android,(12)Bada,(13)BlackBerry OS,(14)Firefox OS,(15)iOS,(16)Embedded Linux,(17)Palm OS,(18)Symbian,(19)Tizen,(20)WebOS,(21)Windows Mobile,(22)Windows Phone,(23)Adobe AIR,(24)Adobe Flash,(25)Adobe Shockwave,(26)Binary Runtime Environment for Wireless(BREW)、(27)Cocoa(API)、(28)Cocoa Touch,(29)Java Platforms,(30)JavaFX,(31)JavaFX Mobile,(32)Microsoft XNA,(33)Mono,(34)Mozilla Prism,XUL and XULRunner,(35).NET Framework、(36)Silverlight、(37)Open Web Platform、(38)Oracle Database、(39)Qt、(40)SAP NetWeaver、(41)Smartface、(42)Vexi、及び(43)Windowsランタイム等の様々なコンピュータプラットフォームの1つ以上にまたがって実装されてもよい。
いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム、及び/又は例示的な新規なコンピュータベース装置は、本開示の原理と一致する特徴を実装するためにソフトウェア命令の代わりに又はそれと組み合わせて使用され得る配線回路を利用するように構成されてもよい。したがって、本開示の原理と一致する実装は、ハードウェア回路とソフトウェアの特定の組み合わせに限定されない。例えば、様々な実施形態は、限定されないが、スタンドアロンソフトウェアパッケージ、ソフトウェアパッケージの組合せ等のソフトウェアコンポーネントとして、多くの異なるやり方で具現化されてもよく、又は、より大きなソフトウェア製品に「ツール」として組み込まれるソフトウェアパッケージであってもよい。
例えば、本開示の1つ以上の原理に従って特別にプログラムされた例示的なソフトウェアは、スタンドアロン製品として、又は既存のソフトウェアアプリケーションにインストールするためのアドインパッケージとして、ネットワーク、例えばウェブサイトからダウンロード可能であってもよい。例えば、本開示の1つ以上の原理に従って特別にプログラムされた例示的なソフトウェアは、クライアントサーバソフトウェアアプリケーションとして、又はウェブ対応ソフトウェアアプリケーションとしても利用可能であり得る。例えば、本開示の1つ以上の原理に従って特別にプログラムされた例示的なソフトウェアは、ハードウェア装置にインストールされるソフトウェアパッケージとして具体化されてもよい。
いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム/プラットフォーム、例示的な新規なコンピュータベース装置、及び/又は例示的な新規なコンピュータベースコンポーネントは、限定されないが、少なくとも100人(例えば、限定されないが、100~999)、少なくとも1,000人(例えば、限定されないが、1,000~9,999)、少なくとも10,000人(例えば、限定されないが、10,000~99,999)、少なくとも100,000人(例えば、限定されないが、100,000~999,999)、少なくとも1,000,000人(例えば、限定されないが、1,000~9,999,999)、少なくとも10,000,000人(例えば、限定されないが、10,000,000~99,999,999)、少なくとも100,000,000人(例えば、限定されないが、100,000,000~999,999,999)、少なくとも1,000,000,000人(例えば、限定されないが、1,000,000,000,000,000~10,000,000,000)であり得る多数の同時ユーザを処理するように構成され得る。
いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム及び/又は例示的な新規なコンピュータベース装置は、本開示の別個の、特別にプログラムされたグラフィカルユーザインタフェースの実装(例えば、デスクトップ、Webアプリ等)に出力するように構成されてもよい。本開示の様々な実装では、最終出力は、限定されないが、コンピュータのスクリーン、モバイル装置のスクリーン等であり得るディスプレイスクリーン上に表示され得る。様々な実装では、ディスプレイはホログラフィックディスプレイであってもよい。様々な実装では、ディスプレイは、視覚投影を受けることができる透明表面であってもよい。このような投影は、様々な形態の情報、画像、及び/又はオブジェクトを伝達し得る。例えば、そのような投影は、モバイル拡張現実(MAR)アプリケーションのための視覚オーバーレイであり得る。
本明細書では、「クラウド」、「インターネットクラウド」、「クラウドコンピュータ」、「クラウドアーキテクチャ」、及び類似する用語は、(1)リアルタイム通信ネットワーク(例えば、インターネット)を介して接続された多数のコンピュータ、(2)接続された多数のコンピュータ(例えば、物理マシン、仮想マシン(VM))で同時にプログラム又はアプリケーションを実行する能力を提供すること、(3)ネットワークベースのサービスであって、実際のサーバハードウェアによって提供されるように見えるが、実際には仮想ハードウェア(例えば、仮想サーバ)によって提供され、1つ以上の実マシン上で実行されるソフトウェアによってシミュレートされるもの(例えば、エンドユーザに影響を与えることなく、その場で移動及びスケールアップ(又はスケールダウン)することを可能にする)のうちの少なくとも1つに対応する。
いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム及び/又は例示的な新規なコンピュータベース装置は、1つ以上の暗号化技術(例えば、秘密/公開鍵ペア、3DES(Triple Data Encryption Standard)、ブロック暗号アルゴリズム(例えば、IDEA、RC2、RC5、CAST、Skipjack)、暗号ハッシュアルゴリズム(例えば、MD5、RIPEMD-160、RTR0、SHA-1、SHA-2、Tiger(TTH)、WHIRLPOOL、RNG)を利用することによって、データを安全に記憶及び/又は送信するように構成されてもよい。
前述の例は、もちろん例示的であり、限定的ではない。
本明細書で使用される「ユーザ」という用語は、少なくとも1人のユーザを意味する。いくつかの実施形態では、「ユーザ」、「加入者」、「消費者」、又は「顧客」という用語は、本明細書に記載される1つ以上のアプリケーションのユーザ及び/又はデータプロバイダによって供給されるデータの消費者を指すと理解されるべきである。限定ではなく例として、「ユーザ」又は「加入者」という用語は、ブラウザセッションにおいてインターネットを介してデータ又はサービスプロバイダによって提供されるデータを受信する人を指してもよく、又はデータを受信してデータを記憶若しくは処理する自動化ソフトウェアアプリケーションを指してもよい。
図1は、本開示の1つ以上の実施形態による機械学習における偏り低減のための例示的なコンピュータベースシステム100のブロック図を示す。しかしながら、これらのコンポーネントの全てが1つ以上の実施形態を実施するために必要とされるわけではなく、コンポーネントの配置及びタイプの変更は、本開示の様々な実施形態の精神又は範囲から逸脱することなく行われ得る。いくつかの実施形態では、例示的なコンピュータベースシステム100の例示的な新規なコンピュータ装置及び/又は例示的な新規なコンピュータコンポーネントは、本明細書で詳述するように、多数のメンバ及び/又は同時トランザクションを管理するように構成されてもよい。いくつかの実施形態では、例示的なコンピュータベースシステム/プラットフォーム100は、ここでの実施形態に記載されているように、動的外れ値偏り低減(DOBR;dynamic outlier bias reduction)を含む、データの評価、キャッシュ、検索、及び/又はデータベース接続プーリングのための様々な戦略を組み込んだスケーラブルなコンピュータ及び/又はネットワークアーキテクチャに基づき得る。スケーラブルなアーキテクチャの一例は、複数のサーバを動作させることが可能なアーキテクチャである。
いくつかの実施形態では、図1を参照すると、例示的なコンピュータベースシステム100のメンバ102~104(例えば、クライアント)は、ネットワーク105等のネットワーク(例えば、クラウドネットワーク)を介して、例えば、サーバ106及び107等の他のコンピュータ装置と相互にメッセージを送受信することができる実質的に任意のコンピュータ装置を含み得る。いくつかの実施形態では、メンバ装置102~104は、パーソナルコンピュータ、マルチプロセッサシステム、マイクロプロセッサベース又はプログラム可能な消費者電子機器、ネットワークPC等であってもよい。いくつかの実施形態では、メンバ装置102~104内の1つ以上のメンバ装置は、通常、携帯電話、スマートフォン、ポケットベル、トランシーバ、無線周波数(RF)装置、赤外線(IR)装置、CB、1つ以上の前述の装置を組み合わせた統合装置、又は実質的に任意のモバイルコンピュータ装置等の無線通信媒体を使用して接続するコンピュータ装置を含み得る。いくつかの実施形態では、メンバ装置102~104内の1つ以上のメンバ装置は、PDA、ポケットPC、ウェアラブルコンピュータ、ラップトップ、タブレット、デスクトップコンピュータ、ネットブック、テレビゲーム装置、ページャ、スマートフォン、ウルトラモバイルパーソナルコンピュータ(UMPC)、及び/又は有線及び/又は無線通信媒体(例えば、NFC、RFID、NBIOT、3G、4G、5G、GSM(登録商標)、GPRS、WiFi、WiMax、CDMA、衛星、ZigBee(登録商標)等)を介して通信するように設置された任意の他の装置等の有線又は無線通信媒体を使用して接続可能な装置であってもよい。いくつかの実施形態では、メンバ装置102~104内の1つ以上のメンバ装置は、とりわけインターネットブラウザ、モバイルアプリケーション、音声通話、ビデオゲーム、ビデオ会議、及び電子メール等の1つ以上のアプリケーションを含み、それらを実行し得る。いくつかの実施形態では、メンバ装置102~104内の1つ以上のメンバ装置は、ウェブページ等を受信及び送信するように構成されてもよい。いくつかの実施形態では、本開示の例示的な特別にプログラムされたブラウザアプリケーションは、限定されないが、ハイパーテキストマークアップ言語(HTML)等のSMGL(Standard Generalized Markup Language)、無線アプリケーションプロトコル(WAP)、無線マークアップ言語(WML)等のハンドヘルドデバイスマークアップ言語(HDML)、WMLScript、XML、JavaScript等を含む実質的に任意のウェブベース言語を使用して、グラフィックス、テキスト、マルチメディア等を受信及び表示するように構成されてもよい。いくつかの実施形態では、メンバ装置102~104内のメンバ装置は、Java,.Net,QT,C,C++及び/又は他の適切なプログラミング言語のいずれかによって特別にプログラムされてもよい。いくつかの実施形態では、メンバ装置102~104内の1つ以上のメンバ装置は、限定されないが、メッセージ機能、ブラウジング、検索、再生、ストリーミング、又はローカルに保存又はアップロードされたメッセージ、画像及び/又はビデオ、及び/又はゲームを含む様々な形式のコンテンツの表示等の様々な可能なタスクを実行するために、アプリケーションを含むか又は実行するように特別にプログラムされてもよい。
いくつかの実施形態では、例示的なネットワーク105は、それに結合された任意のコンピュータ装置へのネットワークアクセス、データ転送及び/又は他のサービスを提供してもよい。いくつかの実施形態では、例示的なネットワーク105は、例えば、限定されないが、GSM(登録商標)(Global System for Mobile communication)アソシエーション、IETF(Internet Engineering Task Force)、及びWiMAX(Worldwide Interoperability for Microwave Access)フォーラムによって設定された1つ以上の規格に少なくとも部分的に基づき得る少なくとも1つの特別なネットワークアーキテクチャを含みかつ実装してもよい。いくつかの実施形態では、例示的なネットワーク105は、GSM(登録商標)アーキテクチャ、GPRS(General Packet Radio Service)アーキテクチャ、UMTS(Universal Mobile Telecommunications System)アーキテクチャ、及びLTE(Long Term Evolution)と呼ばれるUMTSの進化のうちの1つ以上を実装してもよい。いくつかの実施形態では、例示的なネットワーク105は、代替として又は上記のうちの1つ以上と組み合わせて、WiMAXフォーラムによって定義されたWiMAXアーキテクチャを含みかつ実装してもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なネットワーク105は、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、仮想LAN(VLAN)、企業LAN、レイヤ3仮想プライベートネットワーク(VPN)、企業IPネットワーク、又はそれらの任意の組み合わせのうちの少なくとも1つを含んでもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なネットワーク105上の少なくとも1つのコンピュータネットワーク通信は、限定されないが、NFC、RFID、狭帯域モノのインターネット(NBIOT)、ZigBee(登録商標)、3G、4G、5G、GSM(登録商標)、GPRS、WiFi、WiMax、CDMA、衛星、及びそれらの任意の組み合わせ等の少なくとも部分的に1つの通信モードに基づいて送信され得る。いくつかの実施形態では、例示的なネットワーク105は、ネットワーク接続型ストレージ(NAS)、ストレージエリアネットワーク(SAN)、コンテンツ配信ネットワーク(CDN)、又は他の形態のコンピュータ又は機械可読媒体等の大容量記憶装置を含んでもよい。
いくつかの実施形態では、例示的なサーバ106又は例示的なサーバ107は、ネットワークオペレーティングシステムを実行するウェブサーバ(又は一連のサーバ)であってもよく、その例としては、限定されないが、Microsoft Windows Server、Novell NetWare、又はLinuxが挙げられる。いくつかの実施形態では、例示的なサーバ106又は例示的なサーバ107は、クラウド及び/又はネットワークコンピュータのために使用され、及び/又はこれらを提供してもよい。図1には示されていないが、いくつかの実施形態では、例示的なサーバ106又は例示的なサーバ107は、電子メール、SMSメッセージング、テキストメッセージング、広告コンテンツプロバイダ等の外部システムへの接続を有し得る。また、例示的なサーバ106の任意の特徴が例示的なサーバ107に実装されてもよく、その逆も同様である。
いくつかの実施形態では、例示的なサーバ106及び107のうちの1つ以上は、限定されないが、認証サーバ、検索サーバ、電子メールサーバ、ソーシャルネットワーキングサービスサーバ、SMSサーバ、IMサーバ、MMSサーバ、交換サーバ、写真共有サービスサーバ、広告提供サーバ、金融/銀行関連サービスサーバ、旅行サービスサーバ、又はメンバコンピュータ装置101~104のユーザのための任意の適切な同様のサービスベースサーバとして実行するように特別にプログラムされてもよい。
いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例えば、1つ以上の例示的なコンピュータメンバ装置102~104、例示的なサーバ106、及び/又は例示的なサーバ107は、スクリプト言語、リモートプロシージャコール、電子メール、ツイート、ショートメッセージサービス(SMS)、マルチメディアメッセージサービス(MMS)、インスタントメッセージング(IM)、インターネットリレーチャット(IRC)、mIRC、Jabber、アプリケーションプログラミングインターフェース、SOAP(Simple Object Access Protocol)メソッド、CORBA(Common Object Request Broker Architecture)、HTTP(Hypertext Transfer Protocol)、REST(Representational State Transfer)、又はそれらの任意の組み合わせを使用して情報を送信、処理、及び受信するように構成され得る特別にプログラムされたソフトウェアモジュールを含み得る。
図2は、本開示の1つ以上の実施形態による、別の例示的なコンピュータベースシステム/プラットフォーム200のブロック図を示す。しかしながら、これらのコンポーネントの全てが1つ以上の実施形態を実施するために必要とされるわけではなく、コンポーネントの配置及びタイプの変更は、本開示の様々な実施形態の精神又は範囲から逸脱することなく行われ得る。いくつかの実施形態では、図示されたメンバコンピュータ装置202a、202b~202nのそれぞれは、少なくとも、プロセッサ210又はフラッシュメモリに結合されたランダムアクセスメモリ(RAM)208等のコンピュータ可読媒体を含む。いくつかの実施形態では、プロセッサ210は、メモリ208に記憶されたコンピュータ実行可能プログラム命令を実行してもよい。いくつかの実施形態では、プロセッサ210は、マイクロプロセッサ、ASIC、及び/又は状態マシンを含み得る。いくつかの実施形態では、プロセッサ210は、プロセッサ210によって実行されたときに、プロセッサ210に本明細書に記載の1つ以上のステップを実行させることができる命令を記憶する、例えばコンピュータ可読媒体等の媒体を含むか、又はこれらと通信可能であってもよい。いくつかの実施形態では、コンピュータ可読媒体の例は、限定されないが、クライアント202aのプロセッサ210等のプロセッサにコンピュータ可読命令を提供することができる電子、光学、磁気、又はその他の記憶装置又は伝送装置を含み得る。いくつかの実施形態では、適切な媒体の他の例として、限定されないが、フロッピーディスク、CD-ROM、DVD、磁気ディスク、メモリチップ、ROM、RAM、ASIC、構成プロセッサ、全ての光学媒体、全ての磁気テープ又は他の磁気媒体、又はコンピュータプロセッサが命令を読み取ることができる任意の他の媒体が挙げられる。また、様々な他の形態のコンピュータ可読媒体が、命令をコンピュータに送信又は伝送してもよく、これはルータ、プライベート又はパブリックネットワーク、又は有線及び無線の両方の他の送信装置又はチャネルを含む。いくつかの実施形態では、命令は、例えば、C、C++、Visual Basic、Java、Python、Perl、JavaScript等を含む任意のコンピュータプログラミング言語からのコードを含み得る。
いくつかの実施形態では、メンバコンピュータ装置202aから202nは、マウス、CD-ROM、DVD、物理キーボード又は仮想キーボード、ディスプレイ、又は他の入力又は出力装置等の多数の外部又は内部装置も備え得る。いくつかの実施形態では、メンバコンピュータ装置202aから202n(例えば、クライアント)の例は、ネットワーク206に接続される任意のタイプのプロセッサベースのプラットフォームであってもよく、限定されないが、パーソナルコンピュータ、デジタルアシスタント、パーソナルデジタルアシスタント、スマートフォン、ポケットベル、デジタルタブレット、ラップトップコンピュータ、インターネット家電、及び他のプロセッサベースの装置等である。いくつかの実施形態では、メンバコンピュータ装置202aから202nは、本明細書に詳細に記載された1つ以上の原理/方法論に従って、1つ以上のアプリケーションプログラムで特別にプログラムされ得る。いくつかの実施形態では、メンバコンピュータ装置202aから202nは、Microsoft(TM)、Windows(TM)、及び/又はLinux等のブラウザ又はブラウザ対応アプリケーションをサポートすることができる任意のオペレーティングシステム上で動作し得る。いくつかの実施形態では、図示されたメンバコンピュータ装置202a~202nは、例えば、Microsoft社のInternet Explorer(TM)、Apple Computer社のSafari(TM)、Mozilla Firefox、及び/又はOpera等のブラウザアプリケーションプログラムを実行するパーソナルコンピュータを含み得る。いくつかの実施形態では、メンバコンピュータクライアント装置202aから202nを介して、ユーザ212aから212nは、例示的なネットワーク206を介して、互いに及び/又はネットワーク206に結合された他のシステム及び/又は装置と通信することができる。図2に示すように、例示的なサーバ装置204及び213もネットワーク206に結合されてもよい。いくつかの実施形態では、1つ以上のメンバコンピュータ装置202a~202nは、モバイルクライアントであってもよい。
いくつかの実施形態では、例示的なデータベース207及び215の少なくとも1つのデータベースは、データベース管理システム(DBMS)によって管理されるデータベースを含む任意のタイプのデータベースであり得る。いくつかの実施形態では、例示的なDBMS管理データベースは、それぞれのデータベースにおけるデータの組織化、記憶、管理、及び/又は検索を制御するエンジンとして特別にプログラムされ得る。いくつかの実施形態では、例示的なDBMS管理データベースは、クエリ、バックアップ及び複製、ルールの実施、セキュリティの提供、計算、性能変更及びアクセスロギング、及び/又は自動最適化を行う能力を提供するように特別にプログラムされてもよい。いくつかの実施形態では、例示的なDBMS管理データベースは、Oracleデータベース、IBM DB2、Adaptive Server Enterprise、FileMaker、Microsoft Access、Microsoft SQL Server、MySQL、PostgreSQL、及びNoSQLの実装から選択されてもよい。いくつかの実施形態では、例示的なDBMS管理データベースは、階層モデル、ネットワークモデル、リレーショナルモデル、オブジェクトモデル、又はフィールド、レコード、ファイル及び/又はオブジェクトを含み得る1つ以上の適用可能なデータ構造をもたらし得る何らかの他の適切な機構を含み得る本開示の特定のデータベースモデルに従って、例示的なDBMS管理データベース内の各データベースのそれぞれのスキーマを定義するように特別にプログラムされ得る。いくつかの実施形態では、例示的なDBMS管理データベースは、記憶されるデータに関するメタデータを含むように特別にプログラムされ得る。
いくつかの実施形態では、本開示の例示的な新規なコンピュータベースシステム/プラットフォーム、例示的な新規なコンピュータベース装置、及び/又は例示的な新規なコンピュータベースコンポーネントは、限定されないが、IaaS( infrastructure a service)、PaaS(platform as a service)、及び/又はSaaS(software as a service)等のクラウドコンピュータ/アーキテクチャで動作するように特に構成されてもよい。図3及び図4は、本開示の例示的な新規なコンピュータベースシステム/プラットフォーム、例示的な新規なコンピュータベース装置、及び/又は例示的な新規なコンピュータベースコンポーネントが動作するように具体的に構成され得る(複数の)クラウドコンピュータ/アーキテクチャの例示的な実装の概略を示す。
本発明の例示的なコンピュータベースシステム及び/又は装置の実施形態では、特にベンチマーク研究のための一般化された線形モデルの精度及び理解を向上させるために、動的外れ値偏り低減(DOBR)が使用されてもよい。しかしながら、これは、1つ以上の独立変数及び1つの従属変数が存在する多種多様な分析モデルに適用され得る方法である。本開示及びその実施形態は、機械学習モデル予測の精度を改善するためのDOBRの新規な適用を例示するものである。
複数の実施形態では、DOBRは予測モデルではない。その代わりに、複数の実施形態では、これは、モデル予測の精度を向上させることができる予測モデル又は解釈モデルへのアドオン方法である。複数の実施形態では、DOBRに識別された外れ値は、データが供給された目的変数とモデル計算値との差に基づく。外れ値が識別されると、事前に決定された選択基準を介して、外れ値依存データレコード及びモデル生成依存変数が分析から除去される。これらのレコードを恒久的に除去して、さらなる分析を続け得る。しかしながら、例示的な新規なシステム及び方法の他の実施形態では、モデルの反復ごとに、外れ値識別プロセスは、その計算パラメータによって定義される最後の反復の予測モデルを用いて、全てのレコードが外れ値精査を受けるようにデータセット全体を含む。したがって、本発明の例示的な実施形態は、例えば、トレーニングデータの選択偏りの伝播を低減するために、各反復においてデータセット全体を含むことによって、機械学習モデルにおける偏りを低減する。したがって、機械学習モデルをより正確かつ効率的にトレーニング及び実装して、機械学習システムの動作を改善することができる。
図5は、本開示の1つ以上の実施形態による、機械学習における例示的な新規な偏り低減システムのブロック図を示す。
いくつかの実施形態では、偏り低減システム300は、例えば機械学習エンジンによる分析下のデータセットにおける動的外れ値偏り低減(DOBR)のためのコンポーネントを含み得る。いくつかの実施形態では、DOBRは、事前定義された基準に従って外れ値レコードを除去するための反復プロセスを提供する。この条件は、パーセンテージで表されるユーザ定義の誤差許容値である。これは、ここでの検討の後半に記載される洞察及びその他の分析結果に潜在的に基づいて、ユーザがモデルで許容できる誤差の量を示す。値100%は、全ての誤差が許容され、DOBRプロセスでレコードが除去されないことを示す。0%を選択すると、全てのレコードが除去される。一般に、工業用途では80から95%の範囲の誤差許容値が観測されている。
いくつかの実施形態では、ユーザは、ディスプレイ装置312及びユーザ入力装置308を使用する数あるユーザ相互作用動作の中で、ユーザ入力装置308を介して誤差許容値を入力し、ディスプレイ装置312を介して結果を表示するように、偏り低減システム300と相互作用してもよい。誤差許容値に基づいて、偏り低減システム300は、偏り低減システム300と通信するデータベース310又は他の記憶装置に受信されたデータセット311を分析してもよい。偏り低減システム300は、データベース310又は他の記憶装置を介してデータセット311を受信し、精度及び効率を改善するために、動的外れ値偏り低減を有する1つ以上の機械学習モデルを用いて予測を行ってもよい。
いくつかの実施形態では、偏り低減システム300は、数あるコンポーネントの中でも、例えば、記憶装置及びメモリ装置、キャッシュ、バッファ、バス、入出力(I/O)インターフェース、プロセッサ、コントローラ、ネットワーキング及び通信装置、オペレーティングシステム、カーネル、装置ドライバ等を含む、ハードウェア及びソフトウェアコンポーネントの組み合わせを含む。いくつかの実施形態では、プロセッサ307は、他のコンポーネントの機能を実装するために、複数の他のコンポーネントと通信する。いくつかの実施形態では、各コンポーネントは、コンポーネント機能の実行のためにプロセッサ307上でスケジュールされた時間を有するが、いくつかの実施形態では、各コンポーネントは、プロセッサ307の処理システム内の1つ以上のプロセッサにスケジュールされる。他の実施形態では、各コンポーネントは、それに含まれる自身のプロセッサを有する。
いくつかの実施形態では、偏り低減システム300のコンポーネントは、数あるコンポーネントの中でも、例えば、モデルインデックス302及びモデルライブラリ303と通信するDOBRエンジン301、リグレッサパラメータライブラリ305、分類器パラメータライブラリ304、及びDOBRフィルタ306を含み得る。各コンポーネントは、数あるコンポーネントの中でも、例えば、メモリ及び記憶装置、処理装置、通信装置、入出力(I/O)インターフェース、コントローラ、ネットワーキング及び通信装置、オペレーティングシステム、カーネル、装置ドライバ、命令セット等のコンポーネント機能を実装するためのハードウェア及びソフトウェアの組み合わせを含み得る。
いくつかの実施形態では、DOBRエンジン301は、機械学習モデルをインスタンス化して実行するためのモデルエンジンを含む。DOBRエンジン301は、モデルインデックス302を使用して、モデルライブラリ303におけるインスタンス化のためにモデルにアクセスしてもよい。例えば、モデルライブラリ303は、DOBRエンジン301等のエンジンによって使用するために選択的にアクセス及びインスタンス化され得る機械学習モデルのライブラリを含み得る。いくつかの実施形態では、モデルライブラリ303は、数ある可能な分類器及びリグレッサの中でも、例えば、サポートベクトルマシン(SVM)、線形リグレッサ、Lassoモデル、決定木リグレッサ、決定木分類器、ランダムフォレストリグレッサ、ランダムフォレスト分類器、K近傍リグレッサ、K近傍分類器、勾配ブースティングリグレッサ、勾配ブースティング分類器等の機械学習モデルを含み得る。例えば、モデルライブラリ303は、以下の例示的な擬似コード1に従ってモデルをインポートすることができる。
Figure 2022548654000002
しかしながら、いくつかの実施形態では、モデルライブラリ303内の機械学習モデルのライブラリへのアクセスを容易にするために、DOBRエンジン301は、DOBRエンジン301によって関数として使用されるモデル識別子に各モデルをインデックス付けするモデルインデックス302を使用してもよい。例えば、数ある回帰モデル及び分類モデルの中でも、例えば、線形回帰、XGBoost回帰、サポートベクトル回帰、Lasso、K近傍回帰、バギング回帰、勾配ブースティング回帰、ランダムフォレスト回帰、決定木回帰を含むモデルは、番号識別子によってインデックス付けされ、かつ名前でラベル付けされ得る。例えば、以下の擬似コード2は、モデルインデックス302によって使用されるモデルインデックスコードの例を示す。
Figure 2022548654000003
モデルライブラリ303及びモデルインデックス302のための擬似コードの他の実施形態も考えられる。いくつかの実施形態では、ソフトウェア命令は、それぞれのモデルライブラリ303又はモデルインデックス302のメモリ内に記憶され、プロセッサ307に提供するためにキャッシュ内にバッファされる。いくつかの実施形態では、DOBRエンジン301は、通信及び/又はI/O装置を介してインデックスにアクセス又は呼び出すことによってモデルインデックス302を利用してもよく、通信及び/又はI/O装置を介してモデルライブラリ303から関数としてモデルを呼び出すためにインデックスを利用してもよい。
いくつかの実施形態では、DOBRエンジン301によって呼び出されるモデルの最適化及びカスタマイズを容易にするために、偏り低減システム300は、数ある記憶装置及びメモリ装置の中でも、例えば、ハードドライブ、ソリッドステートドライブ、ランダムアクセスメモリ(RAM)、フラッシュ記憶装置等のメモリ又は記憶装置にモデルパラメータを記録してもよい。例えば、リグレッサパラメータは、リグレッサパラメータライブラリ305に記録されかつ調整され得る。したがって、リグレッサパラメータライブラリ305は、例えばリアルタイムで、複数のリグレッサのための多数のパラメータを記憶し、調整し、通信するのに十分なメモリ及び帯域幅で構成された記憶装置及び通信ハードウェアを含み得る。例えば、DOBRエンジン301によってインスタンス化された各回帰機械学習モデルについて、各パラメータは、リグレッサパラメータライブラリ305において初期化及び更新され得る。いくつかの実施形態では、ユーザは、ユーザ入力装置308を介して、パラメータの初期セットを確立してもよい。しかしながら、いくつかの実施形態では、パラメータの初期セットは、予め決められていてもよく、又はランダムに生成されてもよい。回帰機械学習モデルのインスタンス化の際に、DOBRエンジン301は、モデルインデックス302で識別されたモデルを、リグレッサパラメータライブラリ305内のパラメータのセットに相互に関連付けてもよい。例えば、DOBRエンジン301は、例えば、所定の回帰モデルに関連付けられた識別(ID)番号に従って、パラメータのセットを呼び出してもよい。例えば、リグレッサパラメータライブラリ305は、以下の擬似コード3に類似した各回帰モデルのパラメータを識別してもよい。
Figure 2022548654000004
Figure 2022548654000005
Figure 2022548654000006
Figure 2022548654000007
Figure 2022548654000008
同様に、いくつかの実施形態では、分類器パラメータは、分類器パラメータライブラリ304に記録されかつ調整されてもよい。したがって、分類器パラメータライブラリ304は、例えばリアルタイムで、複数のリグレッサのための多数のパラメータを記憶し、調整し、通信するのに十分なメモリ及び帯域幅で構成された記憶装置及び通信ハードウェアを含み得る。例えば、DOBRエンジン301によってインスタンス化された各分類機械学習モデルに対して、リグレッサパラメータライブラリ305において、それぞれのパラメータが初期化され、かつ更新されてもよい。いくつかの実施形態では、ユーザは、ユーザ入力装置308を介して、パラメータの初期セットを確立してもよい。しかしながら、いくつかの実施形態では、パラメータの初期セットは予め決定されてもよい。回帰機械学習モデルのインスタンス化の際に、DOBRエンジン301は、モデルインデックス302で識別されたモデルを、リグレッサパラメータライブラリ305内のパラメータのセットに相互に関連付けてもよい。例えば、DOBRエンジン301は、例えば、所定の回帰モデルに関連付けられた識別(ID)番号に従って、一組のパラメータを呼び出してもよい。例えば、リグレッサパラメータライブラリ305は、以下の擬似コード4に類似した各回帰モデルのパラメータを識別してもよい。
Figure 2022548654000009
Figure 2022548654000010
いくつかの実施形態では、モデルインデックス302を介してモデルライブラリ303からモデルのセットを呼び出して受け取り、リグレッサパラメータライブラリ305及び/又は分類器パラメータライブラリ304からそれぞれのパラメータを受信することによって、DOBRエンジン301は、例えば、DOBRエンジン301のキャッシュ又はバッファに、1つ以上のインスタンス化及び初期化されたモデルをロードしてもよい。いくつかの実施形態では、データセット311は、次に、データベース310から、例えば、同一又は異なるキャッシュ又はバッファ又はDOBRエンジン301の他の記憶装置にロードされ得る。次に、DOBRエンジン301におけるプロセッサ307又は1つのプロセッサは、各モデルを実行して、例えば、活動に関連する所定の入力属性に基づいて活動の結果又はパラメータを特徴付ける活動関連データ値のそれぞれの予測にデータセット311を変換してもよい。例えば、家庭及び/又は商業環境における機器のエネルギ使用量、様々な用途及び組成におけるコンクリート圧縮強度、物体又は画像認識、音声認識、又は他の機械学習用途である。例えば、DOBRエンジン301は、数ある要因の中でも、過去のエネルギ使用量、時期、時刻、場所のデータセット311に基づいて、機器のエネルギ使用量をモデル化してもよい。DOBRエンジン301は、DOBRエンジン301のバスに接続されたモデルインデックス302を介して、モデルライブラリ303からリグレッサのセットを呼び出してもよい。次に、DOBRエンジン301は、DOBRエンジン301のバスに接続されたリグレッサパラメータライブラリ305において、機器のエネルギ使用量の推定のためにリグレッサに関連するパラメータファイル又はログを呼び出してもよい。次に、DOBRエンジン301は、プロセッサ307を利用して、モデル及びモデルパラメータ、時刻及び日付、位置、又は他の要因及びそれらの組み合わせに基づいて将来のエネルギ消費量を予測してもよい。
同様に、例えば、DOBRエンジン301は、数ある要因の中でも、コンクリート材料、時期、時刻、位置、湿度、硬化時間、経年のデータセット311に基づいて、コンクリート圧縮強度をモデル化してもよい。DOBRエンジン301は、DOBRエンジン301のバスに接続されたモデルインデックス302を介して、モデルライブラリ303からリグレッサのセットを呼び出してもよい。次に、DOBRエンジン301は、DOBRエンジン301のバスに接続されたリグレッサパラメータライブラリ305におけるコンクリート圧縮強度推定のために、リグレッサに関連するパラメータファイル又はログを呼び出してもよい。次に、DOBRエンジン301は、プロセッサ307を利用して、特定のコンクリート組成、時間及び日付、位置、又は他の要因及びそれらの組み合わせに関するモデル及びモデルパラメータに基づいて、将来のコンクリート圧縮強度を予測してもよい。
別の例として、DOBRエンジン301は、数ある要因の中でも、発話及びグラウンドトゥルース音声転写のデータセット311に基づいて音声認識を実行してもよい。DOBRエンジン301は、DOBRエンジン301のバスに接続されたモデルインデックス302を介して、モデルライブラリ303から分類器のセットを呼び出してもよい。次に、DOBRエンジン301は、DOBRエンジン301のバスに接続された分類器パラメータライブラリ304において、音声認識のための分類器に関連付けられたパラメータファイル又はログを呼び出してもよい。次に、DOBRエンジン301は、プロセッサ307を利用して、1つ以上の発話のセットに対するモデル及びモデルパラメータに基づいて、記録された音声データの転写を予測してもよい。
別の例として、DOBRエンジン301は、米国特許第10,339,695号に記載されているように、数ある要因の中でも、画像化及び/又は可視化にわたる複数のレンダリングパラメータの設定のデータセット311に基づいて、医療画像のためのレンダリング設定を自動的に予測してもよい。DOBRエンジン301は、DOBRエンジン301のバスに接続されたモデルインデックス302を介して、モデルライブラリ303から分類器のセットを呼び出してもよい。次に、DOBRエンジン301は、DOBRエンジン301のバスに接続された分類器パラメータライブラリ304における設定をレンダリングするために、分類器に関連付けられたパラメータファイル又はログを呼び出してもよい。次いで、DOBRエンジン301は、プロセッサ307を利用して、1つ以上の医療データセットのセットのためのモデル及びモデルパラメータに基づいてレンダリング設定データを予測してもよい。
別の例として、DOBRエンジン301は、米国特許第10,317,854号に記載されているように、数ある要因の中でも、機械制御コマンド結果及び機械制御コマンドのシミュレーション結果のデータセット311に基づいて機械のロボット制御を実行してもよい。DOBRエンジン301は、DOBRエンジン301のバスに接続されたモデルインデックス302を介して、モデルライブラリ303から回帰モデルのセットを呼び出してもよい。次に、DOBRエンジン301は、DOBRエンジン301のバスに接続されたリグレッサパラメータライブラリ305におけるロボット制御のための回帰モデルに関連するパラメータファイル又はログを呼び出してもよい。次に、DOBRエンジン301は、プロセッサ307を利用して、制御コマンドのセット、環境情報、センサデータ及び/又はコマンドのシミュレーションに関するモデル及びモデルパラメータに基づいて、特定の制御コマンドの成功又は失敗を予測してもよい。
いくつかの実施形態では、偏り低減システム300は、例えば、リモートユーザのためのクラウドサービスとして、クラウド環境において機械学習モデルを実装してもよい。米国特許第10,452,992号に記載されているように、このようなクラウドサービスは、多数のユーザ、前述のものを含む多種多様なアルゴリズム及び問題サイズ、並びにユーザのユースケースに特有の他の潜在的なモデル、データセット、及びパラメータ調整をサポートするように設計され得る。一実施形態では、偏り低減システム300が実装されるサービスによって、多数のプログラミングインターフェース(アプリケーションプログラミングインターフェース(API)等)が定義されてもよく、これは、ユーザがモデルの調整又は高度な統計若しくは人工知能技術の学習に多くの時間と労力を費やすことなく、機械学習のベストプラクティスを比較的迅速に使用し始めるように非熟練ユーザをガイドする。インターフェースは、例えば、非専門家が、機械学習モデルを構築し、トレーニングし、使用するために使用される手順の様々な側面について、デフォルト設定又はパラメータに依存することを可能にしてもよく、ここで、デフォルトは、個々のユーザに類似したモデルについて、分類器パラメータライブラリ304及び/又はリグレッサパラメータライブラリ305におけるパラメータの1つ以上のセットから導出される。デフォルト設定又はパラメータは、DOBRエンジン301及びオプティマイザ306を介してユーザのデータセットを用いたトレーニングを使用してユーザの機械学習モデルをカスタマイズするための開始点として使用されてもよい。同時に、ユーザは、入力レコードの処理、特徴処理、モデル構築、実行、評価等、様々な種類の機械学習タスクに使用することを希望するパラメータ又は設定をカスタマイズしてもよい。少なくともいくつかの実施形態では、様々なタイプの機械学習タスクを実装する予め定義されたライブラリを使用することに加えて、又はその代わりに、クラウドサービス偏り低減システム300は、例えば、カスタマイズされた機能をサービスに登録することによって、サービスの拡張可能な組み込み機能を有し得る。このようなカスタマイズされたモジュール又は機能を実装するクライアントのビジネスニーズ又は目標に応じて、モジュールがサービスの他のユーザと共有される場合もあれば、カスタマイズされたモジュールの使用がその実装者/所有者に制限される場合もあり得る。
いくつかの実施形態では、クラウドサービス、ローカル又はリモートシステムとして実装されているかどうか、又は他のシステムアーキテクチャに実装されているかどうかに関わらず、偏り低減システム300は、米国特許第9,646,262号に記載されているように、機械学習モデルのトレーニング及び実装に対するアンサンブルアプローチを可能にするモデルをモデルライブラリ303に含んでもよい。このようなアプローチは、電子活動データの電子データセットを用いたデータ分析への応用に有用であり得る。いくつかの実施形態では、データベース310は、1つ以上の構造化又は非構造化データソースを含み得る。所定の実施形態では、教師なし学習モジュールは、例えば、モデルライブラリ303からのモデルのアンサンブルにおいて、複数の教師なし学習技術を用いて、非構造化データセットを組織化データセットにアセンブルするように構成される。例えば、教師なし学習モジュールは、非構造化データセットを組織化データセットの複数のバージョンにアセンブルするように構成され、一方で、教師あり学習モジュールは、所定の実施形態では、組織化データセットの複数のバージョンの各バージョンに基づいて1つ以上の機械学習アンサンブルを生成し、DOBRエンジン301及びオプティマイザ306を使用して各アンサンブル内の各モデルをトレーニングした後に、例えばモデル誤差に従って、どの機械学習アンサンブルが最も高い予測性能を示すかを決定するように構成される。
データセット311に基づいて予測を行うようにハードウェアを制御するためのDOBRエンジン301命令の例を以下の擬似コード5に示す。
Figure 2022548654000011
Figure 2022548654000012
Figure 2022548654000013
Figure 2022548654000014
Figure 2022548654000015
Figure 2022548654000016
しかしながら、いくつかの実施形態では、データセット311内の外れ値は、実装されたモデルの精度を低下させ、したがって、所与のアプリケーションにおける所与のモデルについてのパラメータの正確なセットを達成するためのトレーニングの反復回数を増加させ得る。精度及び効率を改善するために、DOBRエンジン301は、データセット内のデータ点誤差を動的にテストして外れ値を決定するためのDOBRフィルタ301bを含み得る。したがって、より正確な又は代表的なデータセット311を提供するために外れ値が除去され得る。いくつかの実施形態では、DOBRフィルタ301bは、事前定義された基準、例えば、上述されたものであって、ユーザ入力装置308を介してユーザによって提供されたユーザ定義の誤差許容値の対象となる外れ値データ点を除去するための反復機構を提供してもよい。いくつかの実施形態では、ユーザ定義の誤差許容値はパーセンテージとして表されてもよく、例えば、100%の値は誤差の全てが許容され、フィルタ301bによってデータ点が除去されないことを意味し、一方で、例えば、0%の値はデータ点の全てが除去される結果となる。いくつかの実施形態では、フィルタ301bは、例えば約80%から約95%の範囲の誤差許容値で構成されてもよい。例えば、フィルタ301bは、以下の擬似コード6に示すような機能を実行するように構成されてもよい。
Figure 2022548654000017
いくつかの実施形態では、DOBRフィルタ301bは、オプティマイザ306と協働して動作し、これは、リグレッサパラメータライブラリ305及び分類器パラメータライブラリ304における各モデルについて、誤差を決定し、かつパラメータを最適化するように構成される。したがって、いくつかの実施形態では、オプティマイザ306は、モデルを決定し、その誤差をDOBRエンジン301のフィルタ301bに伝達してもよい。したがって、いくつかの実施形態では、オプティマイザ306は、例えば、データセット311及びモデル予測を受信し、数ある誤差測定の中でも、例えば、外れ値、収束、誤差、絶対値誤差を決定するのに十分なメモリ容量及び帯域幅を有する記憶装置及び/又はメモリ装置並びに通信装置を含み得る。例えば、オプティマイザ306は、以下の擬似コード7に示されるような機能を実行するように構成されてもよい。
Figure 2022548654000018
いくつかの実施形態では、偏り低減システム300は、次に、例えば、ディスプレイ312を介して、さもなければ予測に偏りを与えるであろう外れ値の低減により、より正確かつ効率的なやり方で、DOBRエンジン301によって生成される数あるデータの中で、機械学習モデル予測、外れ値分析、予測の収束をユーザに戻し得る。
図6は、本開示の1つ以上の実施形態による例示的な新規な方法論のフローチャートを示す。
上述のDOBRエンジン301及びフィルタ301b等のDOBRは、事前定義された基準の対象となる外れ値レコードを除去するための反復プロセスを提供する。この条件は、パーセンテージで表されるユーザ定義の誤差許容値である。これは、ここでの検討の後半に記載される洞察及びその他の分析結果に潜在的に基づいて、ユーザがモデルで許容できる誤差の量を示す。値100%は、全ての誤差が許容され、DOBRプロセスでレコードが除去されないことを示す。0%を選択すると、全てのレコードが除去される。一般に、工業用途では80から95%の範囲の誤差許容値が観測されている。
しかしながら、いくつかの実施形態では、データセットが外れ値を含まない場合、DOBRは値を提供しないことにも留意されたい。ただし、実際の状況では、データセットで作業する前に分析者がこの知識を持っていることはまれである。この検討の後半で示されるように、DOBR法の実施形態は、モデル外れ値を表すデータセットのパーセンテージを決定することもできる。この事前分析ステップは、適切な誤差許容値の設定、又は外れ値が存在する場合に役立ち得る。
以下のステップは、完全なデータセットに適用される基本的なDOBR法の概要を示す。
事前分析:一実施形態では、まず誤差許容基準を選択し、例えば、∝=80%を選択する。(データからこの値をどのように決定するかは、DOBR法を説明した後に示す。)次に、例えば下記の式1に従って、誤差許容基準C(∝)を定義する。
Figure 2022548654000019
ここで、∝は誤差許容基準であり、Cは誤差許容基準の関数であり、f()は比較関数であり、yはデータレコードの値であり、ypredは予測値であり、ytarは目標値である。
他の関数関係を使用してC(α)を設定し得るが、パーセンタイル関数は、次の式2のような所定のデータレコードがモデルに含まれるか除外されるかの理由を理解するための直感的なガイドとなる。
Figure 2022548654000020
ここで、Pはパーセンタイル関数であり、iはレコードエントリのインデックスであり、mはレコードエントリの数である。
DOBR手順は反復的であるため、一実施形態では、収束基準も定義され、ここでは、それは0.5%に設定される。
一実施形態では、データセット{x,ytar}404、解モデルM408、及び誤差許容基準∝424が与えられると、DOBRは、モデルM408のトレーニングにおける偏りを低減するように実装され得る。いくつかの実施形態では、解モデルM408は、例えば、処理装置及びメモリ及び/又は記憶装置を含むモデルエンジンによって実装される。一実施形態によれば、例示的な方法論は、全てのレコードについて、モデル係数M(c)402及びモデル推定値{ypred}410を計算し、例えば下記の式3に従って、完全な入力データセット{x,ytar}404に解モデルM408を適用する。
Figure 2022548654000021
ここで、0は初期状態を示し、xは入力レコードを示す。
次に、例示的な実施形態によれば、合計誤差関数418は、例えば以下の式4に従って初期モデル合計誤差eを計算する。
Figure 2022548654000022
ここで、eは初期モデル合計誤差であり、0は初期値である。
次に、例示的な実施形態によれば、誤差関数412は、例えば下記の式5に従ってモデル誤差を計算する。
Figure 2022548654000023
ここで、Eは予測されたレコード誤差であり、kはレコード選択の反復を表す。
次に、例示的な実施形態によれば、誤差関数412は、例えば下記の式6に従って新しいデータレコード選択ベクトル{Ik}を計算する。
Figure 2022548654000024
ここで、Iはレコード選択ベクトルである。
次に、例示的な実施形態によれば、データレコードセレクタ414は、例えば以下の式7に従って、レコード選択ベクトルが1に等しいレコードのみを選択することによって、モデル計算に含まれる非外れ値データレコードを計算する。
Figure 2022548654000025
ここで、inは、非外れ値としてDOBRに含まれるレコードのセットを参照するインデックスである。
次に、例示的な実施形態によれば、最新の係数402を有するモデル408は、例えば以下の式8に従って、DOBR選択データレコード416から新しい予測値420及びモデル係数402を計算する。
Figure 2022548654000026
次に、例示的な実施形態によれば、モデル408は、新しいモデル係数を使用して、完全なデータセットに対する新しい予測値420を計算する。このステップは、形式ステップにおけるDOBR選択レコードの予測値420の計算を再現するが、実際には、例えば下記の式9に従って、新しいモデルはDOBR除去レコードのみに適用され得る。
Figure 2022548654000027
次に、例示的な実施形態によれば、合計誤差関数418は、例えば以下の式10に従ってモデル合計誤差を計算する。
Figure 2022548654000028
ここで、y^はターゲット出力である。
次に、例示的な実施形態によれば、収束テスト424は、例えば下記の式11に従ってモデルの収束をテストする。
Figure 2022548654000029
ここで、βは収束基準422であり、例えば0.5%である。
いくつかの実施形態では、収束テスト424は、例えば、パーセント誤差が、例えば、0.5%未満であれば、反復プロセスを終了してもよい。そうでなければ、プロセスは初期データセット404に戻ってもよい。次に、上記の各ステップを実行し、収束基準422が再テストされてもよい。このプロセスは、収束テスト424が収束基準424を下回るまで繰り返される。
図7は、本開示の1つ以上の実施形態による、偏りを低減した別の例示的なコンピュータベース機械学習モデルのモデル誤差と誤差許容基準との関係の一例を示すグラフである。
∝はDOBRへの入力パラメータであり、モデル結果は選択された値に基づいて変化し得るため、一実施形態では、どの値が使用されるかを正当化するためにデータベースの手順を文書化することが重要である。DOBRが開発及び適用された実際の応用において、その選択のための理論的根拠は(まだ)ない。しかしながら、実際には、モデル誤差対∝のプロットは、外れ値の見かけの効果が減少する勾配の変化を生じ得る。図1は、本発明の一実施形態による発電ベンチマーキングに関連する非線形回帰402の計算に対するこのプロットを示す。
一実施形態では、この曲線の一般的な形状は、∝=100%で常に最大の誤差で始まり、∝=0%のときモデル誤差は0であるということで予め決定されている。図7において、曲線勾配は∝=85%の付近で変化することに注意されたい。また、より小さい全ての∝値に対して勾配は略一定である。この時点での勾配の変化は、データレコードの除去に関してモデルの変動性が変化していないこと、又は言い換えれば、これらの誤差許容レベルに外れ値が存在しないことを示唆している。∝=85%を超えると、少なくとも2つの見かけの勾配変化があり、これはあるデータセット割合がこのモデルでは説明できない特性又は現象を含むことを示唆している。この視覚テストは、適切な誤差許容レベルを設定し、DOBRが必要かどうかを判断するのに役立ち得る。図7の線の勾配が変化しない場合、このモデルは、観察されたデータの変動性を十分に説明する。モデルの外れ値はなく、DOBRを適用する必要はない。
追加の変動性の特定のパーセンテージがデータセットに追加されたシミュレーション研究において、図6のような曲線は、シミュレーションにプログラムされた誤差許容値に略近いところでより小さい値の勾配と交差する初期の急な勾配線を示す。しかしながら、実際には、外れ値が観測された場合、一定の勾配への遷移は一般的に徐々に起こり、モデルで説明されていない複数のタイプの変動が存在することを示唆している。
適切な誤差許容値の計算は、DOBRの使用に必要な部分であり、これはモデル結果に対する外れ値の影響の量と重大度も視覚的に示す。このステップは∝の選択を文書化し、外れ値データからのモデル予測値と比較して外れ値の影響が最小であると判断される場合は、DOBRを使用しないことを正当化することができる。
いくつかの実施形態では、∝及びモデル誤差対∝値は、特定のシナリオについて最良の性能のモデル又はモデルのアンサンブルを識別するためのメトリックとして使用することができる。異なるデータセットでは線形性の程度が変化し得るため、データとモデルに対する正確な∝値によってモデルの性能が変化し得る。したがって、誤差許容レベルの関数としてのモデル誤差を使用して、正確な予測を形成するために、データの変動性に対する多少の許容範囲を示すモデル誤差を持つことによって、所与のモデルがデータの変動性をどの程度説明できるかを決定することができる。例えば、モデル予測の正確さ及び精度は、例えば、高い誤差許容値に対して低いモデル誤差を示すモデル及び/又はモデルパラメータを選択して、外れ値データに対してより寛容なモデルを選択することによって調整されてもよい。
いくつかの実施形態では、モデル選択は、例えば、モデル誤差及び誤差許容基準のバランスに従ってデータセットに対する最良の性能モデルを識別するように、ルールベースのプログラミング及び/又は機械学習モデルを用いて自動化されてもよい。したがって、データセット内の外れ値を最適に説明するモデルが自動的に選択され得る。例えば、モデル誤差は、1つ以上の誤差許容値についてモデル間で比較されてもよく、最も低いモデル誤差を有するモデルが、予測を生成するために自動的に選択される。
結果として、本開示の態様によるDOBR機械学習技術は、より効果的なモデルトレーニングを提供するとともに、個々のデータセットのデータ及びモデル特性に対する可視性を改善する。その結果、例えば、人工知能、データ分析、ビジネスインテリジェンス及びその他の分野では、様々な種類のデータに対して、機械学習モデルがより効果的かつ効率的に試され得る。その後、アプリケーションとデータの種類に対する最適なモデルを決定するために、モデルの性能がより効率的に評価され得る。例えば、人工知能アプリケーションは、生成される知能のタイプに対してDOBRを用いて選択及びトレーニングされたモデルを用いて改善され得る。同様に、ビジネスインテリジェンスとデータ分析、及び物理的な挙動の予測、コンテンツの推奨、リソース使用の予測、自然言語処理、その他の機械学習アプリケーション等の他のアプリケーションは、DOBRを使用してモデルパラメータを調整すると共に、外れ値の特性と、外れ値に応じたモデル誤差に基づいてモデルを選択することによって改善され得る。
図8は、本開示の1つ以上の実施形態による、偏りを低減した別の例示的なコンピュータベース機械学習モデルのモデル誤差と誤差許容基準との関係の一例を示すグラフである。
データセット上のDOBRの実施形態の例として、California-Irvine大学の機械学習データリポジトリからダウンロードしたコンクリート圧縮強度データセット504を使用する。このデータセットには、8つの独立変数を持つ1030個の観測、レコード、又はインスタンスが含まれる。最初の7つは、経過日数によるコンクリート組成、すなわち、セメント量、高性能減水剤、高炉スラグ、粗骨材、フライアッシュ、細骨材、水、及び経年を記述する。
出力変数は、メガパスカル(MPa)で測定されたコンクリート圧縮強度(Concrete Compressive Strength)である。比較のために、1MPa≒145psiとした。線形回帰モデルは、例えば以下の式12に従って構築される。
Figure 2022548654000030
ここで、aiは線形回帰モデルによって計算された係数であり、xiは8つの変数の観測値であり、iは変数インデックスである。
図8は、DOBR誤差許容パーセンテージ∝の関数として100から60%まで線形回帰モデル504を実行することによって構成されている。∝=100%から約∝=95%までは、回帰506によって示されるように、モデル誤差に急峻な低下があり、αの関数としての誤差の減少は、∝=85%まで僅かに低い割合で減少する。この点から先は、回帰508で示されるように、∝は一定の割合で減少する。誤差が一定の割合で減少し始める点は、モデルの外れ値の影響がモデル計算から除外される点である。この場合、選択点は∝=85%である。
一実施形態では、次にDOBRは修正され、線形回帰モデルは∝=92.5%について再実行され、非外れ値データに適合する最良のモデルを決定する。図9及び図10は、完全なデータセット512(図9)及びDOBRバージョン(図10)を用いたこれらの計算の結果を示し、外れ値が特定されて計算から除去されている。赤色の十字で示された外れ値516は、非外れ値モデルから計算される。これらのプロットの両方は、図9及び図10について、それぞれ斜線510及び514によって実際対予測の目標値を示し、同等であることが示されている。完全なデータセット計算(図9)は、外れ値がどのように結果を偏らせ得るかを示している。DOBR修正プロット(図10)は、対角線514が非外れ値518を二等分して除去された偏り、及びさらなる研究を正当化し得る明らかな外れ値データ点516のグループを示す。
図9は、本開示の1つ以上の実施形態による、偏りが低減していない基準コンピュータベース機械学習モデルの予測される圧縮強度と圧縮強度との関係の一例を示すグラフである。
図10は、本開示の1つ以上の実施形態による、偏りが低減した別の例示的なコンピュータベース機械学習モデルの予測される圧縮強度と圧縮強度との間の関係の一例を示すグラフである。
外れ値の識別及び上記のタイプのプロットにおいてそれらが形成することがあるパターンは、工業的応用におけるDOBR法の付加的利益のために有用であった。外れ値は、他の方法では単純に観察されないパターン又はグループを形成し得る。この情報は、分析者が提供するモデルによってDOBRを使用するだけで作成される。追加情報又は前提条件は不要である。実際には、DOBRで定義された外れ値セットは、基礎となるモデルの改善、洞察の提供、又は検証に有用な情報を提供することができる。
図11は、本開示の1つ以上の実施形態による、DOBRによる機械学習予測のための別の例示的なコンピュータベースシステムのブロック図である。
本発明の一実施形態では、機械学習手順は、n個の独立変数と、長さがm個のレコードと、目的変数Y^の配列(m×1)とからなるデータセットX^で始まる。一実施形態では、機械学習モデルをトレーニングするために、データセット{X^,Y^}は、例えば以下の式13に従って、事前に決定されたサイズのランダムに選択された2つのサブセットに分割される。その1つはモデルをトレーニングするためであり、もう1つはその予測精度をテストするためである。
Figure 2022548654000031
ここで、x^はデータセットの独立変数X^のサブセットであり、y^はデータセットの独立変数Y^のサブセットである。
この検討では、{X^,Y^}の70%/30%分割がトレーニング(nレコード)及びテスト(jレコード)に使用されるが(例えば、レコードの70%がトレーニングであり、30%がテストである)、例えば、50%/50%、60%/40%、80%/20%、90%/10%、95%/5%、又は他の適切なトレーニング/テスト分割等の任意の適切な分割を使用し得る。(x^,y^)trainを使用してトレーニングされた機械学習モデルLは、例えば下記の式14で表される予測された目的変数{ypred}のセットを計算することによってテストされる。
Figure 2022548654000032
例示的な実施形態では、モデル精度は、次に、ノルム||ypred,ytest||として測定され、これは、例えば、以下の形式を有してもよい。
Figure 2022548654000033
例示的な実施形態では、トレーニング及びテスト環境において、入力変数及び出力変数の両方を有するため、外れ値を直接測定することができる。一般に、実際の目的変数値からの大きな偏差等のあるモデル予測{ypred}の外れ値は、モデルLが特定の入力値を既知の目的変数に近い予測値に変換できないことに起因する。これらのレコードの入力データには、モデルが目的変数によって与えられた現実にマッピングできない要因及び/又は現象の影響が含まれる。モデル係数は全てのデータレコードが同等に有効であるという前提で計算されるため、データセットにこれらのレコードを保持すると、結果に偏りが生じ得る。
いくつかの実施形態では、上述のDOBRプロセスは、例えば、上述の図6を参照して、結果を不利に偏らせる外れ値を除去することによってデータに適合する最良のモデルを分析者が望む所与のデータセットに対して作用する。外れ値が除去された初期データセットのサブセットにモデル解を制限することで、モデルの予測精度が向上する。例示的な実施形態では、DOBR支援ソリューションは、2つの出力結果を有する。すなわち、a)モデルがデータを記述するx値、モデルパラメータ、及びモデル解のセット、及びb)モデルがデータを記述しないx値、モデルパラメータ、及びモデル解のセットである。
したがって、制限されたデータセットについてより正確なモデルを計算することに加えて、複数の実施形態では、DOBRは、高いモデル予測誤差の1つ以上の原因を理解するために、所与のモデルに関してさらに研究され得る外れ値データセットも提供する。
このセクションで既に示した機械学習フレームワークの例示的な実施形態では、予測モデルはトレーニングデータから計算され、そのモデルのみがテスト段階で使用される。設計上、テスト段階は外れ値を決定するために目標値を使用しなくてもよいため、図6を参照して上述したDOBR法は適用されなくてもよい。しかしながら、DOBR法には上記では利用されなかった可能性がある例示的な態様があり、すなわち前述のDOBRの出力結果によって示唆された外れ値-非外れ値分類の可能性がある。
本発明の一実施形態の機械学習アプリケーションにおけるDOBRを説明するために、データセットは、ランダムに選択された2つの部分に分割されてもよく、その1つはトレーニング用であり、もう1つはテスト用である。トレーニング段階では、独立変数と目的変数の両方が保持されるが、テストでは目的変数が隠されて、目的変数を予測するために独立変数が使用される。既知の目的変数値は、モデルの予測誤差の測定にのみ使用される。
一実施形態では、nレコードを有するトレーニングデータセット{x,ytar}train604、機械学習モデルL608、及び誤差許容基準∝622が与えられると、DOBRは、機械学習モデルL608のトレーニングにおける偏りを低減するように実装され得る。いくつかの実施形態では、機械学習モデルL608は、例えば、処理装置、メモリ及び/又は記憶装置を含むモデルエンジンによって実装される。一実施形態によれば、例示的な方法論モデルは、全てのレコードについて{ytrain}を推定し、例えば下記の式16に従って、機械学習モデルL608を完全な入力データセット{x,ytar}train604に適用する。
Figure 2022548654000034
ここで、0は初期状態を示し、xは入力レコードを示す。
次いで、例示的な実施形態によれば、合計誤差関数618は、例えば下記の式17に従って、初期モデル合計誤差e0を計算する。
Figure 2022548654000035
ここで、e0は初期モデル合計誤差である。
次に、例示的な実施形態によれば、誤差関数612は、例えば以下の式18に従ってモデル誤差を計算する。
Figure 2022548654000036
ここで、Eは予測レコード誤差であり、kは反復を表す。
次に、例示的な実施形態によれば、誤差関数612は、例えば以下の式19に従って新しいデータレコード選択ベクトルを計算する。
Figure 2022548654000037
ここで、Iはレコード選択ベクトルである。
次に、例示的な実施形態によれば、データレコードセレクタ614は、例えば以下の式20に従って、レコード選択ベクトルが1に等しいレコードのみを選択することによって、モデル計算に含まれる非外れ値データレコードを計算する。
Figure 2022548654000038
ここで、inは、非外れ値としてDOBRに含まれるレコードのセットを参照するインデックスである。
次に、例示的な実施形態によれば、最新の係数602を有する機械学習モジュール608は、例えば下記の式21に従って、DOBR選択データレコードを使用して完全なトレーニングセット604に対する新しい予測値620を計算する。
Figure 2022548654000039
次に、例示的な実施形態によれば、総誤差関数618は、例えば以下の式22に従って、モデル総誤差を計算する。
Figure 2022548654000040
次に、例示的な実施形態によれば、収束テスト624は、例えば下記の式23に従って、モデルの収束をテストする。
Figure 2022548654000041
ここで、βは収束基準622であり、例えば0.5%である。
いくつかの実施形態では、収束テスト624は、例えば、パーセント誤差が、例えば、0.5%未満であれば、反復プロセスを終了してもよい。そうでなければ、プロセスはトレーニングデータセット604に戻ってもよい。
いくつかの実施形態では、DOBR反復手順は、テストデータセットに対するその精度を測定するのではなく、モデルがそれ自体をどれだけよく予測できるかを測定する。ここでの目的は、目的変数を予測するモデルの機能をテストすることであり、大きな偏差を持つレコードを系統的に除去して、データ予測が比較的良好なデータの大部分に焦点を当てるようにモデルの能力を向上させる。このプロセスは、同じデータセットで行われる必要がある。テストセットで外れ値が特定された場合、トレーニングセットからレコードを除去することは意味がない。このプロセスは、新しいモデル(新しいモデルパラメータ)が計算された後に、前の反復で除去されたレコードが再入力されるという点で、DOBR法の基本である。このプロセスでは、同じデータセットを使用する必要がある。
一実施形態では、この反復手順は、学習モデルが定義された後に実行される。解決すべき問題に基づいて、一実施形態では、ユーザは機械学習アルゴリズムを選択し、次いで、モデルを「調整」又は設定する特定のハイパーパラメータを決定する。これらのパラメータは、クロス検証等の標準的な技術を使用して選択すること、又はユーザが指定した特定のパラメータ範囲の関数として単にテスト誤差をプロットすることによって選択され得る。使用される特定の値は、モデルが過不足なく適合していることを保証しながら、予測精度対計算時間を最適化し得る。このプロセスを支援する堅牢なツールがいくつかあるが、ユーザ体験と直感も最良のモデルハイパーパラメータを選択する際に貴重な利点である。特定のモデル及び関連するハイパーパラメータは、以下に説明する例で使用される。
誤差許容値対モデル誤差プロットは、誤差許容値のシーケンスを適用し、結果を表にするか又はプロットすることによって、このステップから計算される。これらのプロットは、これらの誤差の寄与がモデルに適合するデータレコードの誤差の寄与よりも僅かに大きいという意味で、外れ値であるデータセットの割合を識別する。また、実際には、これらのプロットは、モデルで説明されない複数の種類の変動を示し得る。勾配は、モデルの勾配に収束するにつれて変化し得る。これらの変動は、モデルでは説明されない追加のデータコーディングされた挙動の性質の調査に役立ち得る。異なる勾配間隔を占めるレコードが特定されてもよく、それらをさらに調査することで、より堅牢なモデルの構築に役立つ洞察を得ることができる。
一実施形態では、上述のように、トレーニング時に2つのモデルが計算される。
Figure 2022548654000042
ここで、{yref}は精度の向上を測定するための基準として使用される参照モデルである。
Figure 2022548654000043
ここで、{yBase}は、収束された外れ値の打ち切られたレコードから構築され、非外れ値データ(x,y)inでトレーニングされたDOBRベースモデルである。
複数の実施形態では、モデル1及びモデル2に関連する誤差は、例えば、それぞれεref=||{yref},{ytest}||及びεBase=||{yBase},{ytest}||である。
したがって、複数の実施形態では、基本モデル{yBase}は、それが非外れ値レコードのより良い予測器であり得ることを示唆している。しかしながら、テストデータセットは、非打ち切りであり、非外れ値と外れ値の両方を含んでいる。そのため、非外れ値のカスタマイズされたモデルを非打ち切りテストデータに適用することで、{yref}と比較してより良い予測モデルが生成されるかどうかは不明である。しかしながら、多くの場合、εBaseはεrefに対して統計的に等しいか又はより大きいかのいずれかであることが観察され得る。
目的が特定のデータセットの最適な予測モデルを計算することである非機械学習アプリケーションでは、選択された(非外れ値の)レコードから計算されるDOBRモデルは、識別された外れ値レコードが省略されるため、常により低いモデル誤差を生成する。外れ値がない限定的な場合には、データセットは同じであるので、DOBRモデル誤差は全モデル誤差に等しい。
しかしながら、機械学習アプリケーションでは、目的は、利用可能なデータのサブセットを使用してモデルを開発し(トレーニング)、次いで、別のサブセットでその予測精度を測定すること(テスト)であってもよい。しかし、いくつかの実施形態では、DOBR法は、モデルパラメータを計算する前に、各反復でモデルの外れ値を除去する。機械学習モデルの開発では、これはトレーニング段階で行われ得るが、定義上、テストのターゲット値は、外れ値に関する高度な知識がなくても、モデルの予測精度を測定するためにのみ使用され得る。この観測は、標準的なDOBR法がトレーニング段階で計算されたDOBRモデル情報のより多くを利用して一般化され得ることを意味する。
図11は、本開示の1つ以上の実施形態による、偏りを低減した機械学習のための別の例示的なコンピュータベースシステムのブロック図である。
複数の実施形態では、上述のように、トレーニング時に、非外れ値(x,y)inに対するDOBR選択トレーニングデータセット値、非外れ値{Iin}に対するDOBRトレーニングデータ選択ベクトル、外れ値(x,y)outに対するDOBR選択トレーニングデータセット値、及び外れ値{1-Iin}に対するDOBRトレーニングデータ選択ベクトルという情報が生成される。
複数の実施形態では、DOBRは、トレーニングデータを2つの相互に排他的なサブセットに分類する。さらに、対応する選択ベクトルもあり、これは、例えば、次の式24に従って、トレーニングデータセット内の各レコードに対して(非外れ値又は外れ値)分類値であるバイナリを提供する。
Figure 2022548654000044
複数の実施形態では、トレーニングデータ属性xtrainの完全なセット、及びDOBR生成分類{Itrain}は、例えばモデルライブラリ303に記憶された分類器機械学習モデルCを構築/トレーニングするために使用される。このモデルは、トレーニングデータセットDOBR確立知識に基づいてテストデータレコードを外れ値又は非外れ値として分類するために、テストデータセットxtestに適用される。例えば、分類器機械学習モデルCは、以下の式25に従って実装される。
Figure 2022548654000045
したがって、一実施形態では、{IC}は2つのテスト予測データセットを生成する。すなわち、
xtestinとxtestoutであり、ここでは、それぞれICi=1又は0である。上記の情報によって、テストデータセットの分析のためのいくつかの可能な「完全データセット」予測モデルが作成される。いくつかの実施形態では、データセット全体に対して最も予測的な改善を示したのは以下の3つである。
Figure 2022548654000046
Figure 2022548654000047
Figure 2022548654000048
いくつかの実施形態では、{y}に関して、機械学習モデルL608は、非外れ値データ(x,y)inによって定義され、非外れ値のテスト値を予測するためにDOBRテスト分類データxtestinに適用される。外れ値データについても同じ手順が行われる。複数の実施形態では、この組み合わせの目的は、その対応するデータセットを備えた最も正確な予測モデルを使用することである。言い換えると、このモデルは、DOBR分類で定義されたそれぞれのデータセットに個別に適用された非外れ値及び外れ値モデルの全体的な予測精度をテストする。
いくつかの実施形態では、{y}について、機械学習モデルL608は、トレーニングデータによって定義され、DOBRテスト分類データxtestinにも適用される。このモデルは、L(x,y)trainの広範な知識を使用して、DOBRで定義された外れ値及び非外れ値xの値のターゲット値を予測する。このモデルの目的は、DOBRによって分類された非外れ値及び外れ値データセットに別々に適用される完全トレーニングモデルの予測精度をテストすることである。
いくつかの実施形態では、第3のモデル{y}は、以前の2つのアプローチの予測特性を結合するハイブリッドである。このモデルは、もしあれば、L(x,y)train、合計トレーニングに対してトレーニングされたモデル608と、L(x,y)out、それぞれの分類されたデータセットに適用されたトレーニングセットにおけるDOBRによって分類された外れ値に対してトレーニングされた特定のモデルとを結合することの予測利益をテストする。さらなる研究で検討され得る追加のハイブリッドモデルもある。
これらの3つのモデル及び他の実施形態のそれぞれにおいて、完全なテストデータセットは、DOBRによって分類された非外れ値及び外れ値の両方のレコードを利用して予測される。機械学習モデル全体の予測精度を向上させるDOBR法の能力は、これらのモデルでテストされている。しかし、DOBRの主な利点は、モデルの外れ値を識別し、それらを除去し、残りの非外れ値から最良のモデル予測器を計算することである。また、定義によれば、DOBR定義の外れ値は、利用される機械学習モデルを考慮して、現在の変数(又は特徴)に適切に記述されていない変動を含むレコードである。
いくつかの実施形態では、外れ値データセット及び非外れ値データセットが計算される場合、分析者は3つの選択肢を有する。一実施形態では、第1の選択肢は、基本モデル{yref}を適用し、DOBRを適用しないことである。これは、リスク許容対モデル誤差曲線が線形関係に近い場合のデータ駆動型戦略である。一実施形態では、第2の選択肢は、1つ以上のモデル、すなわち、{y1}、{y2}又は{y3}を適用し、結果を組み合わせ、例えば平均することである。一実施形態では、第3の選択肢は、非外れ値レコードのみについて予測を開発し、この特殊化された新しいデータセットについてモデリング戦略を開発するために外れ値データをさらに研究することであり、例えば、機械学習モデルの変更、又は説明できない変動の主要因となる変数の追加等である。
選択肢3については、非外れ値データセットを計算する複数のやり方があり、ここでは2つの可能な選択について説明する。比較的多数の可能性がある理由の1つは、多くの適用された機械学習モデルの非線形性に起因し得る。一般的に、{IC}*L[(x,y)train,xtest]≠L[(x,y)train,{IC}*xtest]である。この不等式は、多くの機械学習モデルの複雑さに起因し得る。例えば、線形回帰では等式が適用されるが、機械学習モデルの一般的ルールとしてではない。
複数の実施形態では、非外れ値予測に関して、DOBR法は、最初は、完全なデータセットの予測を改善するように設計されていなかった。設計により、この方法は与えられたモデル及びデータセットに基づいて最良の外れ値セットに収束する。残りのデータ及びモデルの計算では精度が向上するが、どのように外れ値を予測すべきかに関するガイダンスはない。黙示の決定は、非外れ値モデルに存在しない一意のデータ変動を反映する外れ値データセットに異なるモデルを適用することである。
複数の実施形態では、非外れ値予測精度をテストするために2つのモデルが定義され、分析から外れ値を除去する。非外れ値データセットを選択するための第1の選択は、例えば以下のモデル6に従って、DOBR分類ベクトル{IC}を参照モデル{yref}に適用する。
Figure 2022548654000049
複数の実施形態では、参照モデルは、データセットxtestから予測を行うために、完全なトレーニングデータ定義モデルを利用する。次に、トレーニングデータセットから取得されたDOBR法の知識に基づいて、予測された外れ値を除去するために分類ベクトルが適用される。このモデルは、DOBRを最も一般的又は広範な領域モデルに適用する。
複数の実施形態では、第2のモデルは、非外れ値トレーニングデータからトレーニング段階から作成されたDOBRモデルを使用することによって、最も狭い、又は「正確な」やり方でDOBRを、例えば以下のモデル7に従って、分類モデル{IC}によって選択されたレコードのみに適用する。
Figure 2022548654000050
本研究で開発された解析的定式化から形成され得るモデルは他にもあり、問題によっては、それらは予測可能性を大きく改善できる可能性があり得る。しかしながら、ここで使用されているモデル、{y4}及び{y5}は、トレーニング領域の使用率とモデル定義の観点から、最も広くかつ狭いバージョンを表すケースを制限している。
複数の実施形態では、例えば、モデル3~7等の上記で定義されたDOBR開発モデルの予測精度をテストするために、モデル{y1}、{y2}及び{y3}(それぞれモデル3、4、5)に関する比較基準として{yref}を使用する。{y4}及び{y5}(それぞれモデル6及び7)について、外れ値以外のデータセットに関するモデル予測であり、比較基準は{IC}*ytestである。したがって、複数の実施形態では、誤差は、例えば、以下の式26、27及び28に従って決定され得る(ここで、mはテストデータセットの長さであり、Gは非外れ値データセットの長さである)。
Figure 2022548654000051
Figure 2022548654000052
Figure 2022548654000053
例示的な実施形態の以下の例では、DOBRの予測精度の尺度は、どの程度、(もしあれば)ε1、ε2及び/又はε3がεRefを下回るかによって測定される。非外れ値データセット誤差ε4及びε5について、改善の尺度は、外れ値調整ベース誤差εRefに対する誤差の減少である。例示の結果に関して、その調整を以下に説明する。
例示的な新規なDOBR改良の機械学習例のいくつかの実施形態では、先に定義された5つのモデルの精度は、7つの機械学習回帰モデル、すなわち、線形回帰、k最近傍、LASSO、サポートベクトル、決定木、バギング、及びランダムフォレストによってテストされてもよい。これらの機械学習回帰モデルは、広範なモデル構造の例である。特に、ニューラルネットワーク、クラスタリング、アンサンブルモデル、及びそれらの組み合わせ等の追加又は代替のモデルも考えられる。
線形回帰は、プロセスに関する洞察を分析者に与える方法であり、ここでは、係数(又はモデルパラメータ)が技術/プロセス関連の意味を持ち得る。方程式で表されるプロセスのモデルは、分析者によって提供されなければならず、係数は、予測の目標値とデータ供給の目標値との間の誤差を最小化することによって決定される。
“least absolute shrinkage and selection operator”の省略形であるLASSOは、回帰関連の方法であり、ここでは、目的関数に加算項が追加される。この項は、回帰係数の絶対値の合計であり、ユーザ指定のパラメータに従って最小化される。この加算項の目的は、可変(又は特徴)係数の値を増加させるためのペナルティを追加することである。最小化は支配的係数のみを保持し、変数(又は特徴)共分散又は共線性の解釈困難な影響の低減に役立ち得る。
決定木回帰は、人間の思考を模倣でき、直感的かつ簡単に解釈することができる。モデルは、x値がどのように目的変数を生成するかを論理的に示す決定木構造を選択する。リーフあたりの最大深度及び最小サンプル等の特定のパラメータは、トレーニング/テストの機械学習実践で分析者によって設定される。
ランダムフォレスト回帰は、決定木法に基づいている。森林が木で構成されているように、ランダムなフォレスト回帰モデルは決定木のグループで構成される。分析者は、推定量(フォレスト内のツリーの数)、複数のツリーのうちの決定木の最大深さに類似したいくつかのパラメータ、リーフ特性、及びモデル誤差がどのように計算及び適用されるかに関連する技術的パラメータを与えることにより、フォレスト構造を定義する。
k‐NNはk最近傍法を意味し、ここで予測値はx(又は特徴)領域におけるk最近傍から計算される。距離を測定するメトリック及び使用する最近傍ノードの特定の数を選択することは、所与のデータセットでの予測のためにモデルを調整するときに分析者によって設定される主要なパラメータである。これは、回帰及び分類の予測に適した簡単な方法である。
サポートベクトル回帰は、複数の変動を持つ汎用的な機械学習法である。回帰とは、モデルをデータに適合させることを意味し、最適化は通常、予測変数と目的変数との間の誤差を最小化することである。サポートベクトル回帰では、誤差基準は、誤差がある値「ε」よりも小さい場合、「近似は十分である」と言い、「ε」よりも大きい誤差のみが測定されかつ最適化されるように一般化される。この属性に加えて、この方法は、標準又は場合によってはユーザ定義の変換関数又はカーネルを使用して、データを非線形領域に変換することを可能にする。多次元データ構造は、回帰の従来の精神でデータをモデル化するのではなく、堅牢な予測を計算することを目的とする場合に使用される。
バギング回帰では、置換されたランダムサブセットの描画から予測推定値が計算される。各ランダムサンプルは、目的変数の決定木(既定)予測を計算する。最終的なアンサンブル予測値は、いくつかのやり方で計算可能であり、平均値はその一例である。主要な機械学習変数は、各アンサンブル内の推定量の数、各推定量をトレーニングするために描画する変数(又は特徴)とサンプルの数、及び選択/置換のガイドラインである。この方法は、決定木回帰のような他の方法と比較して分散を低減できる。
分類器モデルC[(Itraining,xtrain),xtest]は、テストデータセット内の非外れ値及び外れ値を定義するためにDOBR非外れ値/外れ値分類及びトレーニングセットx値に適用されるため、1つの例示である。これは、トレーニングセットからテストデータセット又は生産データセットに外れ値の知識を転送するため、DOBRの機械学習アプリケーションにおける重要なステップである。不適切な分類がある場合、機械学習予測の精度を向上させるためのDOBR法の有用性は実現されない。
決定木、k‐NN,ランダムフォレスト、及びバギング分類器モデルを、それらの分類精度についてテストした。バギング及びランダムフォレストモデルを選択し、両方のモデルを、非外れ値に対して正しい誤差許容率を生成するように調整した。より詳細な分類分析は、他のモデルを示唆し得る。分類精度が最重要ではあるが、広範な分類器分析は、この初期の議論の範囲外である。
図12は、本開示の1つ以上の実施形態による、コンクリート強度を予測するための偏りを低減したいくつかの例示的なコンピュータベース機械学習モデルのモデル誤差と誤差許容基準との関係の一例を示すグラフである。
最初の例では、コンクリート圧縮強度に関して前述したものと同じデータセットが使用され、ここで、DOBRが完全なデータセットに適用される。簡単なレビューとして、このデータセットは8つの定量的入力変数によって定義されたその組成及び曝露の関数としてのコンクリート圧縮強度を含む。データセットは1,030のレコード又はインスタンスを有しており、カリフォルニア大学アーバイン校の機械学習リポジトリアーカイブで見つけることができる。
機械学習トレーニング実践では、このデータセットが70%:30%分割に割けられ、ここでは、モデルの調整はトレーニングデータセット(70%)に対して実行され、予測結果はテストデータセット(30%)で測定された。
コンクリート圧縮強度予測における7つの機械学習モデルのモデル調整結果を以下の表1に示す。
Figure 2022548654000054
(例えば、Python3.6用の)デフォルトモデルパラメータは、結果に情報を追加しないため示されていない。複数の実施形態では、調整プロセスは、トレーニングを最小化するパラメータを選択し、平均二乗誤差を指標として使用してデータセット誤差をテストする実践である。より洗練されたアルゴリズムを適用することもできたが、単純なアプローチを使用して、結果がどちらのデータセット誤差にも過不足なく適合することを確認した。
一実施形態では、DOBRを適用するために、もしあれば、誤差が過度に大きいデータのパーセンテージの決定が実行される。複数の実施形態では、機械学習モデルは、誤差許容率のシーケンスに適用され、対応するモデル誤差を記録する。テストデータセットは機械学習モデルの予測精度を測定するためにのみ使用されるため、これはトレーニングデータセットに対してのみ行われる。モデルに含まれるデータのパーセンテージ「誤差許容値」は、ユーザが許容することを受け入れるモデル誤差の合計量を指し、モデルが適切に記述するデータの割合も示す。
複数の実施形態では、誤差許容パーセンテージシーケンスは、2の増分で100%~60%の範囲である。
図13は、本開示の1つ以上の実施形態による、エネルギ使用を予測するための偏りを低減したいくつかの例示的なコンピュータベース機械学習モデルのモデル誤差と誤差許容基準との関係の一例を示すグラフである。
第2の例には、機器のエネルギ使用データと共に家庭環境及び照明条件が含まれ、サンプリングは10分ごとに4か月半にわたり行われた。これは、29個の属性、すなわち、28個の入力変数と1個の出力(目的変数)、及び19,735個のレコードから構成されている。データセットと文書は、カリフォルニア大学アーバイン校の機械学習リポジトリアーカイブで見つけられる。
上記と同様に、複数の実施形態では、機器のエネルギ使用予測における7つの機械学習モデルのモデル調整結果を以下の表2に示す。
Figure 2022548654000055
複数の実施形態では、(例えば、Python3.6用の)デフォルトモデルパラメータは、結果に情報を追加しないため示されていない。調整プロセスは、指標として平均二乗誤差を用いて、トレーニングとテストデータセット誤差を最小化するパラメータを選択する実践であった。より洗練されたアルゴリズムを適用することもできたが、単純なアプローチを使用して、結果がどちらのデータセット誤差にも過不足なく適合することを確認した。
一実施形態では、DOBRを適用するために、もしあれば、誤差が過度に大きいデータのパーセンテージの決定が実行される。複数の実施形態では、機械学習モデルは、誤差許容率のシーケンスに適用され、対応するモデル誤差を記録する。テストデータセットは機械学習モデルの予測精度を測定するためにのみ使用されるため、これはトレーニングデータセットに対してのみ行われる。モデルに含まれるデータのパーセンテージ「誤差許容値」は、ユーザが許容することを受け入れるモデル誤差の合計量を指し、モデルが適切に記述するデータの割合も示す。
複数の実施形態では、誤差許容パーセンテージシーケンスは、2の増分で100%~60%の範囲である。
図12及び図13は、高変動データに適応する機械学習モデルの能力を部分的に示す。線が線形(直線)に近いほど、モデルがデータを適切に記述する能力は高くなり、これにより、もしあっても、外れ値は少なくなる。コンクリートデータに適用されたいくつかのモデルの線形特性は、それらがトレーニングデータセット全体を略完全に記述できることを示ししている。エネルギデータセットの結果の非線形性は、モデルが不正確な予測又は外れ値を生成するデータレコードの割合が高いことを示している。
例えば、線形回帰530、LASSO540、決定木回帰522、ランダムフォレスト回帰528、k-近傍回帰524、サポートベクトル回帰(SVR)520及びバギング回帰526を含む上記のコンクリートのデータプロット、並びに例えば、線形回帰730、LASSO 740、決定木回帰722、ランダムフォレスト回帰728、k-近傍回帰724、サポートベクトル回帰(SVR)720及びバギング回帰726を含む上記のエネルギ使用データプロットにおける各曲線について、本発明の実施形態に従って、外れ値の割合が始まる誤差許容値を決定するように、低い誤差許容パーセンテージによって定義される直線が外挿され得る。このプロセスは自動化することができるが、実際には、選択された誤差許容値が分析者の判断を確実に反映するように手動で実行されてもよい。
外挿の実践及び誤差許容率の選択は比較的簡単なプロセスであるが、非常に重要な意味を有する。これは、提案されたモデルがどの程度データに適合するかを示す。誤差許容値の補数は、外れ値であるデータセットのパーセンテージであり、すなわち、モデルが比較的正確な予測を行うことができないレコードのパーセンテージである。これは、所与のデータセット及び実際の適用に対して機械学習(又は任意のモデル)を選択する際に重要な情報である。表3は、2つの例示的なデータセットの各モードについて選択された誤差許容値を示す。
Figure 2022548654000056
複数の実施形態では、DOBR選択値のみの予測精度が参照モデルと比較される。これは、その方法自体では完全なデータセットの予測精度の向上に関する特定の情報が提供されないため、DOBRの基本的な有用性である。そのため、DOBR分析では、データセットの一部の予測能力は向上するが、外れ値のレコードに関する情報は提供されないという分析者にとってのトレードオフが生じる可能性がある。このセクションで取り扱う問題は、もしあれば、DOBRで選択された結果が、対応する参照モデルのテストデータ予測と比較してどの程度正確であるかということである。
完全なデータセットに対して基準誤差が計算される。非外れ値データセットとの比較のための調整された基準誤差値は、完全な基準誤差に誤差許容値を掛けることによって計算される。例えば、基準誤差が10.0であり、誤差許容値が80%である場合、調整された基準誤差は10×80%すなわち8.0である。この解釈では、「誤差許容」の定義が使用される。例えば、非外れ値データを80%のデータについて計算した場合、誤差合計の80%は依然として非外れ値データに残るはずである。これが誤差許容の定義である。
DOBR選択非外れ値の予測精度性能を測定した結果が以下の表4及び表5に示されており、それぞれが、例えば、コンクリート強度データセット及びエネルギデータセットに対応する。基準誤差は、実際の誤差許容パーセンテージに||{yRef},{ytest}||の点推定値を乗算することによって計算される。ランダムフォレスト分類器は、DOBRの予測精度向上に関する結論を変更しないと判断されたため、コンクリートのデータセットには適用されなかった。
以下の全ての統計について、結果は、トレーニング及びテストデータのサブセットの100のランダムな試行選択からの平均±95%信頼区間を示す。以下の表のいくつかの例では、計算時間の問題を管理するために、サポートベクトルの結果は、より少ない反復回数(5回又は10回)から計算された。
Figure 2022548654000057
Figure 2022548654000058
表4に示すように、DOBR選択レコードを使用した予測の改善はほとんどない。この結果は驚くべきものではなく、実際には、図12に示された誤差許容対モデル誤差曲線の形状に基づいて予測される。
また、予測されるように、図13に基づいて、表5は、バギング分類器及びランダムフォレスト分類器の両方について、参照モデル値からのDOBR選択予測にかなりの改善があることを示しており、それぞれ、以下では図14A及び図14Bを参照されたい。DOBRモデル{y5}={y1in}は、モデル学習前の外れ値の除去を示唆する最大の改善を示し、DOBR分類と結合して、完全(非DOBR)モデルに対してDOBR分類を単に使用するよりも良い結果を提供する。モデル間の改善結果の相違は、モデルの選択が重要であることを示している。この決定は分析者によって行われるが、モデル別に予測精度を比較することは興味深いことである。モデルの実行時間及び他のいくつかの要因も重要であり、この研究は1つのモデルが他のモデルよりも有効であることを示唆するために設計又は意図されたものではない。
表5の結論は明白であり、統計的に有意である。図13のようなプロットに示すように、外れ値偏りの可能性を考慮して、DOBR法を用いた機械学習モデルは、DOBRを用いない機械学習モデルを用いるよりも、非外れ値レコードに対してより良好な予測精度を提供することができる。したがって、DOBRを有する機械学習モデルを含む例示的な新規なコンピュータシステムは、予測を行う際の精度を改善すると共に誤差を低減し、それによって、モデルを実装する性能及び効率を向上させる。しかし、改善の達成には代償を伴う場合がある。すなわち、識別された外れ値に対して予測値又は考慮が与えられない場合がある。複数の実施形態では、外れ値レコードがどのようにモデル化されるかは、適用に基づいて変化し得る。
表6には、バギング分類器を用いたコンクリート圧縮強度データセットのトレーニング/テストサンプリングの予測精度結果が示されている。ランダムフォレスト分類器はこのデータセットに適用されなかった。この表は、トレーニングデータセットとテストデータセットの100個のランダムな選択について、テストデータと各モデルの間の信頼度95%での二乗平均平方根誤差(式15を参照)を示している。
Figure 2022548654000059
線形回帰とLASSOでは、基本モデル又は参照モデルの誤差が最大になる。しかしながら、{y1}モデルは、決定木を除く他の全てのモデルと統計的に同じ予測精度を示す。この場合、決定木モデルは最高の予測精度を生成し、線形回帰とLASSOを除く全てのモデルはDOBRを追加しても改善されないと分かる。
表7は、例えば、DOBRモデル:バギング分類器のコンクリート圧縮強度予測精度性能の各場合における参照モデルに対するDOBRモデルの予測精度の増加(+)又は減少(-)を示す。
Figure 2022548654000060
線形回帰及びLASSOのモデル誤差対誤差許容曲線は最大非線形性を持つプロットであり、他は略直線であり、モデルが目的変数を適切に予測し、外れ値分析を必要としないことを示唆するので、これらの結果は驚くべきものではない。そして、これが表7で伝えられるメッセージである。予測されたコンクリート圧縮強度に関するモデル出力は、添付の付録Aに示されている。
ここで、表8のエネルギ消費予測誤差の結果を見ると、例えば、バギング及びランダムフォレスト分類器に関する機器エネルギ消費予測誤差を含む異なる状況が存在する。バギング、線形回帰及びLASSOモデルは最大の参照予測誤差を有し、ランダムフォレストモデルは最小である。右の3つの列のDOBRモデル誤差は、多くの場合、DOBRモデルが参照モデルよりも高い予測精度を生成することを示している。
Figure 2022548654000061
興味深いことに、バギング参照モデルは最大の基準誤差値を有するが、そのDOBR拡張モデルの結果は一般に他のモデルと同じ統計的範囲にある。また、実用上の理由から、サポートベクトルモデルは10回の反復のみが実行された。これは、そのモデル結果全体の不確実性の増加を説明する。
例えば、DOBRモデルの機器エネルギ消費予測精度性能に関する詳細な改善結果を表9に示す。少なくとも1つのDOBRモデルによって、ほとんどの機械学習モデルに対して何らかの予測精度の向上がもたらされることに留意されたい。しかしながら、比較的大きな違いもあるため、DOBRがもたらした予測可能性の改善に関する決定的な結果は得られていない。エネルギデータについてのモデル誤差対誤差許容曲線から、全てのプロットは非線形特性を示しており、ランダムフォレスト及び決定木モデルは最小の曲率を有している。そして、モデル、特にランダムフォレストは、ここに示された結果に基づいて、この変動を適切にモデル化することができると分かる。予測されるエネルギ使用に関するモデル出力は、添付の付録Bに示されている。
Figure 2022548654000062
図14A及び図14Bは、本開示の1つ以上の実施形態による、DOBR分類器を備えた本発明の例示的なコンピュータベースシステムの例示的な実施形態による、分類器モデルにおける非外れ値及び外れ値分布のプロットを示す。
コンクリートのデータセットは比較的小さいため、データプロットから視覚的な洞察を得ることができるが、この場合、DOBRにはほとんど価値がないため、このデータセットをグラフ化しても、DOBRの動作に関する理解は向上しない。しかしながら、エネルギデータセットの予測については、DOBRによって予測が大幅に改善された。しかし、比較的大きなサイズであるため(13,814件のトレーニングレコード、5,921件のテストレコード)、直接散布図の視覚化を解釈するのは困難である。図9及び図10のような多数の点を有する散布図は、あらゆる詳細を消し去り得る。表3に示された誤差改善結果は、非外れ値データセットについての合計であるが、DOBR法及び分類モデルがこれらの結果をどのように生成するかについての疑問が残る。
複数の実施形態では、この問題に対処するために、2つのモデル表現、すなわち、外れ値及び非外れ値のデータセットの{y4}、ランダムフォレスト分類器(図14A)及び{y5}、バギング分類器(図14B)についての誤差分布を分析し得る。一実施形態では、非外れ値誤差は、設計上、外れ値誤差よりも小さいはずであるが、例示的な新規なDOBRモデル及び分類プロセスは、トレーニングデータのみから構築されるので、テストデータセットは、以前には見られなかった情報を含み得る。その結果、モデル及び分類の計算は正確ではない場合があり、分類の誤差の範囲はこれらのプロットで視覚化され得る。この作業は、表5に示すように、2つのアプローチがそれぞれ最大及び最小の改善効果を有するため、線形回帰モデルとバギング回帰モデルに対して実行される。
議論のために、基準誤差値は、図14A及び図14Bの両方のプロットにおいて強調表示される。上の矢印のセットは、80%の非外れ値誤差値が1,000未満であることを示しており、これは誤差値の20%が>1,000であることを示している。また、下の矢印のセットは、外れ値分布について、外れ値の約20%が<1,000の誤差を有するか又は80%が>1,000の誤差を有することを示しており、これは外れ値の誤差を代表している。誤差許容パーセント値の事前知識がなければ、分類プロセスの精度を正確に計算することはできないが、上記のプロットは、誤分類が発生しても、ほとんどの値が適切に分類されることを示している。
図15は、本開示の1つ以上の実施形態に従った、坑井掘削における非生産時間を予測するためのDOBRトレーニングされた機械学習モデルを有する、本発明の例示的なコンピュータベースシステムの例示的な実施形態の例示的な使用事例について、誤差許容値の関数としてのモデル誤差のプロットを示す。
沖合の坑井掘削作業は石油及びガス産業にとって独自の課題を有している。気象及び深海からの観測可能な物流及び環境リスクに加えて、高温、高圧、振動環境で作動する隠れたダウンホールリスクがある。掘削時間は過密なスケジュールに保たれ、ダウンホール設備の故障による遅延(非生産時間又はNPT)は、大きな収益ペナルティとなり得る。
NPTの管理を支援するために、機械学習モデルは、掘削目標を設定する契約条件にこれらの推定遅延を含めることを目的として、将来の停止時間イベントの予測を支援するように構築される。履歴イベントを確認すると、ドリル距離[feet]、穴サイズ[inch]、ツールサイズ[inch]、位置圧力の重大度、最大ドッグレッグ[deg/100ft]、振動の重要度カテゴリ、曲率カテゴリ、NPT(hr)が含まれている。
線形、xgboost,勾配ブースティング,及びランダムフォレスト回帰モデルを80/20トレーニング/テスト分割によってダウンホール設備故障データに適用して、モデル予測精度を測定した。ハイパーバンドを使用して、以下の表10に示されたモデル及び関連パラメータ値を調整した。
Figure 2022548654000063
DOBR計算外れ値情報をテストデータセットに転送する分類関数は、例えば5に等しい推定器の数を有するランダムフォレストモデルとして選択され得る。この調整活動は、分析のトレーニング部分でも達成される。パラメータ選択のメトリックは、トレーニングセットの正しく分類された要素の割合を計算し、それをモデルの誤差許容値と比較することである。
この分析には線形回帰が含まれており、それは、係数が追加のベストプラクティスの改善を識別するのに役立つエンジニアリングの洞察を提供できる唯一のモデルであるためである。その他のモデルは、予測の観点からはより堅牢であるが、洞察はほとんど得られない。
この明細書で説明されているように、基本的なDOBRプロセスを構築できるDOBR関連モデルがいくつかある。この例では、3つのモデルが示されている。Mは、所定のハイパーチューニングされたモデルを表す。
DOBRを使用して、トレーニング及びテストデータセットの内側値(inlier)と外れ値(outlier)を選択した。
Figure 2022548654000064
ここで、Data_xin_scrub及びData_yin_scrubはトレーニングセットからのDOBR計算内側値であり、Data_xout_scrub及びData_yout_scrubはトレーニングセットからのDOBR計算外れ値であり、DOBR_Model_testin及びDOBR_Model_testoutはそれぞれDOBR分類モデルから計算されたテストデータセットの内側値及び外れ値であり、BaseModel_yin,BaseModel_youtはDOBR分類モデルを使用して内側値及び外れ値に分類された非DOBR計算モデル結果であり、IはBaseModel値をDOBR定義内側値に関するBaseModel_yinに、及びDOBR定義外れ値に関するBaseModel_yinに割り当てる。
これらのサブセットから、次の3つのDOBRモデルが得られる。
a.DOBR_Model#1=[DOBR_Modeltestin,DOBR_Modeltestout
b.DOBR_Model#2=[BaseModelyin,DOBR_Modeltestout
c.DOBR_Model#3=[DOBR_Modeltestin,BaseModelyout
上述のハイパーチューニングされたモデルの誤差許容パーセンテージ対モデル誤差曲線を実行すると、図15に示すような曲線が生成される。これらの曲線の重要な特性は曲率であり、誤差値自体ではない。一般に、領域(0、100%)上の所与の曲線の勾配が線形であるほど、外れ値の影響は小さくなる。沖合のダウンホール設備の故障データについて、曲線は誤差許容値が約80%になるまでは線形であり、それから様々な非線形勾配が現れる。誤差許容値の関数として勾配を分析する場合、次の表(表11)は、DOBR分析のために決定された誤差許容閾値を示す。
Figure 2022548654000065
モデルは全て、計算されたハイパーパラメータ及び割り当てられた誤差許容値を使用して実行された。予測されたNPTに関するモデル出力は添付の付録Cに示されており、誤差結果は以下の表12に示されている。
Figure 2022548654000066
これで、3つのDOBRモデルと並んで非DOBRモデルも有するので、将来の予測のために稼働中にどのモデルを使用するかを選択できる立場にある。全体として、線形モデルが最も予測精度が低く、DOBRモデル#1又は#2が最も優れている。この時点で、分析者はこれらの精度の数値と他の実際的な考慮事項、例えば、将来の予測に適用するモデルを選択するための計算時間とのバランスを取ることができる。
DOBRを使用して機械学習モデルをトレーニング及び実装した結果はコンクリート圧縮歪みの予測及びエネルギの予測に関する用途であったが、他の用途も考えられる。
例えば、画像レンダリング及び可視化には、米国特許第10,339,695号に記載されているように、例えば医療データに基づいてレンダリングパラメータを自動的に予測して実行するように機械学習モデルが利用されてもよい。DOBRは、コンテンツベースのレンダリングのための機械学習モデルをトレーニング及び実行するために利用されてもよい。患者の三次元領域を表す医療データセットが入力データとして利用されてもよい。DOBRを使用して、トレーニング医療データセットから外れ値を除去してもよく、その結果、上述のDOBR技術に従って、機械学習モデルは非外れ値データに対してトレーニングされ得る。機械学習モデルは、医療データセットから特徴を抽出し、医療データセットの入力に基づいて2つ以上の物理ベースのレンダリングパラメータに関する値を出力するために、トレーニング医療データセットからの非外れ値データのディープラーニングを使用してトレーニングされる。いくつかの実施形態では、物理ベースのレンダリングパラメータは、一貫したデータ処理、照明設計、ビュー設計、材料の妥当性、又は内部レンダラプロパティのための制御である。物理ベースのレンダラは、適用から得られる出力値を使用して、患者の3次元領域のフォトリアリスティック画像をレンダリングする。
機械学習モデルをトレーニング及び実装するためのDOBRの別の例示的な適用例では、米国特許第10,317,854号に記載されているように、機械が制御コマンドを出力するための制御コマンドを生成するために、上述のDOBR技術を用いて機械学習モデルがトレーニングされてもよい。このような例では、シミュレータは、制御コマンドに基づいて機械の作業動作のシミュレーションを実行してもよい。シミュレータは、制御コマンドに基づいて機械の物理的アクションをシミュレートすることによって、機械学習モデルをトレーニングするための完全なデータセットを生成し得る。このようなデータセットは、各シミュレーションのための入力として使用される作業動作データ、制御コマンドデータ及び機械データを含むモデルパラメータをトレーニングする際に、外れ値シミュレーションが除去されることを確実にするために、DOBR反復を使用して処理されてもよい。
いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なDOBR機械学習モデルは、所望の非外れ値データのための履歴品質データを考慮し得る計算アルゴリズムのモンテカルロ法(例えば、Solovay-Strassen型アルゴリズム、Baillie-PSW型アルゴリズム、Miller-Rabin型アルゴリズム、及び/又はSchreier-Sims型アルゴリズム)に少なくとも部分的に基づいてもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なDOBR機械学習モデルは、例えば、限定されないが、少なくとも1つの機械学習技術(例えば、限定されないが、決定木、ブースティング、サポートベクトルマシン、ニューラルネットワーク、最近傍アルゴリズム、単純ベイズ、バギング、ランダムフォレスト等)を、収集された及び/又はコンパイルされたセンサデータ(例えば、環境及び/又は貨物の物理的/視覚的外観に関する様々な種類の視覚データ)に適用することによって、連続的にトレーニングされ得る。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なニュートラルネットワーク技術は、限定されないが、フィードフォワードニューラルネットワーク、動径基底関数ネットワーク、リカレントニューラルネットワーク、畳み込みネットワーク(例えば、U-net)、又は他の適切なネットワークのうちの1つであってもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、ニューラルネットワークの例示的な実装は、以下のように実行され得る。
i)ニューラルネットワークアーキテクチャ/モデルを定義する。
ii)入力データを例示的なニューラルネットワークモデルに転送する。
iii)模範的なモデルを段階的にトレーニングする。
iv)特定のタイムステップ数における精度を決定する。
v)新たに受信した入力データを処理するために、模範的なトレーニングされたモデルを適用する。
vi)選択的に、かつ並列的に、既定の周期性で模範的なトレーニングされたモデルをトレーニングし続ける。
いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なトレーニングされたニューラルネットワークモデルは、少なくとも1つのニューラルネットワークトポロジ、一連の活性化関数、及び接続重みによって、ニューラルネットワークを指定し得る。例えば、ニューラルネットワークのトポロジは、ニューラルネットワークのノード及びそのようなノード間の接続の構成を含み得る。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なトレーニングされたニューラルネットワークモデルは、限定されないが、偏り値/関数及び/又は集約関数を含む他のパラメータを含むように指定されてもよい。例えば、ノードの活性化関数は、ステップ関数、サイン関数、連続又は区分線形関数、シグモイド関数、双曲線正接関数、又はノードが活性化される閾値を表す他のタイプの数学関数であってもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的な集約関数は、ノードへの入力信号を結合(例えば、合算、積算等)する数学関数であってもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載された任意の実施形態の組み合わせにおいて、例示的な集約関数の出力は、例示的な活性化関数への入力として使用されてもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載された任意の実施形態の組み合わせにおいて、偏りは、ノードが多かれ少なかれ活性化され得るように、集約関数及び/又は活性化関数によって使用され得る一定値又は関数であり得る。
いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なニューラルネットワークにおける各接続の例示的接続データは、ノード対又は接続重みの少なくとも1つを含んでもよい。例えば、例示的なニューラルネットワークがノードN1からノードN2への接続を含む場合、その接続に関する例示的な接続データは、ノード対<N1、N2>を含んでもよい。いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、接続重みは、N2において入力される前にN1の出力が変更されるかどうか及び/又はどのように変更されるかに影響する数値量であってもよい。リカレントネットワークの例では、ノードがそれ自体への接続を有していてもよい(例えば、接続データは、ノード対<N1、N1>を含んでもよい)。
いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、例示的なトレーニングされたニューラルネットワークモデルは、種識別子(ID)及び適合度データも含み得る。例えば、各種IDは、複数の種(貨物の損失区分等)のうち、モデルがどの種に分類されるかを示し得る。例えば、適合度データは、例示的なトレーニングされたニューラルネットワークモデルが入力感覚データセットをどの程度よくモデル化するかを示し得る。例えば、適合度データは、モデルに関する適合度関数の評価に基づいて決定される適合度値を含み得る。例えば、例示的な適合度関数は、入力感覚データセットに対して例示的なトレーニングされたニューラルネットワークモデルをテストすることによって生成される誤差の頻度及び/又は大きさに基づく目的関数であってもよい。簡単な例として、入力感覚データセットが10行を含み、入力感覚データセットがA及びBと示される2つの列を含み、例示的なトレーニングされたニューラルネットワークモデルが、Aの入力値を考慮してBの予測値を出力すると仮定する。この例において、例示的なトレーニングされたニューラルネットワークモデルをテストすることは、入力センサデータセットからのAの10個の値のそれぞれを入力すること、Bの予測値を入力センサデータセットからのBの対応する実際値と比較すること、及びBの2つの予測値及び実際値が異なるかどうか及び/又はどの程度異なるかを決定することを含み得る。例示として、特定のニューラルネットワークが10行のうちの9行についてBの値を正確に予測した場合、例示的な適合度関数は、対応するモデルに9/10=0.9の適合度値を割り当ててもよい。先の例示は説明のためのものであり、限定を意図するものではないことを理解されたい。いくつかの実施形態では、例示的な適合度関数は、例えば、入力ノードの数、ノード層、隠れ層、接続、計算の複雑さ等の誤差頻度又は誤差率に関係のない要因に基づき得る。
いくつかの実施形態では、及び選択的に、上記又は以下に記載される任意の実施形態の組み合わせにおいて、本開示は、少なくとも1つの以下のうちのいくつかの態様を利用してもよい。
米国特許出願第8195484号、Insurance product,rating system and methodという名称を有する。
米国特許出願第8548833号、Insurance product,rating system and methodという名称を有する。
米国特許出願第8554588号、Insurance product,rating system and methodという名称を有する。
米国特許出願第8554589号、Insurance product,rating system and methodという名称を有する。
米国特許出願第8595036号、Insurance product,rating system and methodという名称を有する。
米国特許出願第8676610号、Insurance product,rating system and methodという名称を有する。
米国特許出願第8719059号、Insurance product,rating system and methodという名称を有する。
米国特許出願第8812331号、Insurance product,rating and credit enhancement system and method for insuring project savingsという名称を有する。
次に、本開示の少なくともいくつかの態様を、以下の番号を付した項目を参照して説明する。
[項目1]
少なくとも1つのプロセッサによって、少なくとも1つのユーザ活動に関する少なくとも1つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと、
前記少なくとも1つのプロセッサによって、1つ以上の外れ値を決定するために使用される少なくとも1つの偏り基準を受信するステップと、
前記少なくとも1つのプロセッサによって、機械学習モデルに関するモデルパラメータのセットを決定するステップであって、
(1)前記少なくとも1つのプロセッサによって、初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値のセットを決定すること、
(2)前記少なくとも1つのプロセッサによって、前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値と比較することによって、データ要素誤差の誤差セットを生成すること、
(3)前記少なくとも1つのプロセッサによって、前記データ要素誤差の誤差セット及び前記少なくとも1つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成すること、
(4)前記少なくとも1つのプロセッサによって、前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、
(5)前記少なくとも1つのプロセッサによって、前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、
(6)前記少なくとも1つのプロセッサによって、少なくとも1つの打ち切り実行終了基準が満たされるまで、反復としてステップ(1)~(5)を繰り返すことにより、前記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータのセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成すること
を含むステップと、
前記少なくとも1つのプロセッサによって、前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングするステップであって、少なくとも1つの外れ値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデルを取得するステップと、
前記少なくとも1つのプロセッサによって、前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも1つのユーザ活動に関する活動関連データのデータセットに適用して、
i)前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及び
ii)前記活動関連データのデータセットにおいて非外れ値活動関連データのセット
を決定するステップと、
前記少なくとも1つのプロセッサによって、前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少なくとも1つのユーザ活動に関連する将来の活動関連属性を予測するステップと
を含む、方法。
[項目2]
ソフトウェア命令が記憶された非一時的なコンピュータ可読記憶媒体と通信する少なくとも1つのプロセッサを備えるシステムであって、
前記ソフトウェア命令は、実行されると、
前記少なくとも1つのプロセッサによって、少なくとも1つのユーザ活動に関する少なくとも1つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと、
1つ以上の外れ値を決定するために使用される少なくとも1つの偏り基準を受信するステップと、
機械学習モデルに関するモデルパラメータのセットを決定するステップであって、
(1)初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値のセットを決定すること、
(2)前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値と比較することによって、データ要素誤差の誤差セットを生成すること、
(3)前記データ要素誤差の誤差セット及び前記少なくとも1つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成すること、
(4)前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、
(5)前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、及び
(6)少なくとも1つの打ち切り実行終了基準が満たされるまで、反復としてステップ(1)~(5)を繰り返すことにより、前記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータのセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成すること
を含むステップと、
前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングするステップであって、少なくとも1つの外れ値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデルを取得するステップと、
前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも1つのユーザ活動に関する活動関連データのデータセットに適用して、
i)前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及び
ii)前記活動関連データのデータセットにおいて非外れ値活動関連データのセット
を決定するステップと、
前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少なくとも1つのユーザ活動に関連する将来の活動関連属性を予測するステップと
を実行させる、システム。
[項目3]
前記少なくとも1つのプロセッサによって、前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
前記少なくとも1つのプロセッサによって、前記外れ値トレーニングデータセットを使用して、少なくとも1つの外れ値固有機械学習モデルの少なくとも1つの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、
前記少なくとも1つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと
をさらに含む、項目1及び/又は2に記載のシステム及び方法。
[項目4]
前記少なくとも1つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
前記少なくとも1つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、
前記少なくとも1つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データ値を予測するステップと
をさらに含む、項目1及び/又は2に記載のシステム及び方法。
[項目5]
前記少なくとも1つのプロセッサによって、前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
前記少なくとも1つのプロセッサによって、前記外れ値トレーニングデータセットを使用して、外れ値固有機械学習モデルの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、
前記少なくとも1つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
前記少なくとも1つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、
前記少なくとも1つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記活動関連データ値を予測するステップと
をさらに含む、項目1及び/又は2に記載のシステム及び方法。
[項目6]
前記少なくとも1つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
前記少なくとも1つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データのセットに関する前記活動関連データ値を予測するステップと、
前記少なくとも1つのプロセッサによって、前記外れ値分類器機械学習モデルを利用して、前記活動関連データ値の外れ値活動関連データ値を識別するステップと、
前記少なくとも1つのプロセッサによって、前記外れ値活動関連データ値を除去するステップと
をさらに含む、項目1及び/又は2に記載のシステム及び方法。
[項目7]
前記トレーニングデータセットは、コンクリート組成及びコンクリート硬化発現の関数としてのコンクリート圧縮強度の前記少なくとも1つの活動関連属性を含む、項目1及び/又は2に記載のシステム及び方法。
[項目8]
前記トレーニングデータセットは、家庭環境条件及び照明条件の関数としてのエネルギ使用データの前記少なくとも1つの活動関連属性を含む、項目1及び/又は2に記載のシステム及び方法。
[項目9]
前記少なくとも1つのプロセッサによって、少なくとも1つのデータ要素を有する予測を生成するためのAPI(アプリケーションプログラミングインターフェース)要求を受信するステップと、
前記少なくとも1つのプロセッサによって、前記機械学習モデルの実行をスケジュールするために少なくとも1つのクラウドコンピュータリソースをインスタンス化するステップと、
前記少なくとも1つのプロセッサによって、実行される前記スケジュールに従って、前記機械学習モデルを利用して、前記少なくとも1つのデータ要素に関する少なくとも1つの活動関連データ要素値を予測するステップと、
前記少なくとも1つのプロセッサによって、前記少なくとも1つの活動関連データ要素値を前記API要求に関連付けられるコンピュータ装置に戻すステップと
をさらに含む、項目1及び/又は2に記載のシステム及び方法。
[項目10]
前記トレーニングデータセットは、医療データセットの3次元患者画像の前記少なくとも1つの活動関連属性を含み、
前記機械学習モデルは、前記医療データセットに基づいて2つ以上の物理ベースのレンダリングパラメータを含む前記活動関連データ値を予測するように構成される、項目1及び/又は2に記載のシステム及び方法。
[項目11]
前記トレーニングデータセットは、電子機械コマンドに対してシミュレートされた制御結果の前記少なくとも1つの活動関連属性を含み、
前記機械学習モデルは、前記電子機械に対する制御コマンドを含む前記活動関連データ値を予測するように構成される、項目1及び/又は2に記載のシステム及び方法。
[項目12]
前記少なくとも1つのプロセッサによって、前記活動関連データのセットを活動関連データの複数のサブセットに分割するステップと、
前記少なくとも1つのプロセッサによって、前記活動関連データの前記複数のサブセットのうちの活動関連データの各サブセットに対するアンサンブルモデルを決定するステップであって、
前記機械学習モデルは、複数のモデルのアンサンブルを含み、
各アンサンブルモデルは、前記複数のモデルのアンサンブルからのモデルのランダムな組み合わせを含むステップと、
前記少なくとも1つのプロセッサによって、各アンサンブルモデルを利用して、個別にアンサンブル固有活動関連データ値を予測するステップと、
前記少なくとも1つのプロセッサによって、前記アンサンブル固有活動関連データ値及び既知の値に基づいて、各アンサンブルモデルにおける誤差を決定するステップと、
前記少なくとも1つのプロセッサによって、最小誤差に基づいて最高性能のアンサンブルモデルを選択するステップと
をさらに含む、項目1及び/又は2に記載のシステム及び方法。
本開示の1つ以上の実施形態が記載されてきたが、これらの実施形態は例示的なものに過ぎず、限定的なものではなく、本明細書に記載された本発明の方法論、本発明のシステム/プラットフォーム、及び本発明の装置の様々な実施形態を互いに任意の組み合わせで利用することができることを含む、多くの修正が当業者には自明であり得ることが理解される。さらに、様々なステップは、任意の所望の順序で実行され得る(そして、任意の所望のステップが追加されてもよく、及び/又は任意の所望のステップが除去されてもよい)。

Claims (20)

  1. 少なくとも1つのプロセッサによって、少なくとも1つのユーザ活動に関する少なくとも1つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと、
    前記少なくとも1つのプロセッサによって、1つ以上の外れ値を決定するために使用される少なくとも1つの偏り基準を受信するステップと、
    前記少なくとも1つのプロセッサによって、機械学習モデルに関するモデルパラメータのセットを決定するステップであって、
    (1)前記少なくとも1つのプロセッサによって、初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値のセットを決定すること、
    (2)前記少なくとも1つのプロセッサによって、前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値と比較することによって、データ要素誤差の誤差セットを生成すること、
    (3)前記少なくとも1つのプロセッサによって、前記データ要素誤差の誤差セット及び前記少なくとも1つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成すること、
    (4)前記少なくとも1つのプロセッサによって、前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、
    (5)前記少なくとも1つのプロセッサによって、前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、
    (6)前記少なくとも1つのプロセッサによって、少なくとも1つの打ち切り実行終了基準が満たされるまで、反復としてステップ(1)~(5)を繰り返すことにより、前記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータのセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成すること
    を含むステップと、
    前記少なくとも1つのプロセッサによって、前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングするステップであって、少なくとも1つの外れ値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデルを取得するステップと、
    前記少なくとも1つのプロセッサによって、前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも1つのユーザ活動に関する活動関連データのデータセットに適用して、
    i)前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及び
    ii)前記活動関連データのデータセットにおいて非外れ値活動関連データのセット
    を決定するステップと、
    前記少なくとも1つのプロセッサによって、前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少なくとも1つのユーザ活動に関連する将来の活動関連属性を予測するステップと
    を含む、方法。
  2. 前記少なくとも1つのプロセッサによって、前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
    前記少なくとも1つのプロセッサによって、前記外れ値トレーニングデータセットを使用して、少なくとも1つの外れ値固有機械学習モデルの少なくとも1つの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、
    前記少なくとも1つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと
    をさらに含む、請求項1に記載の方法。
  3. 前記少なくとも1つのプロセッサによって、前記トレーニングデータセットを使用して、された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
    前記少なくとも1つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、
    前記少なくとも1つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データ値を予測するステップと
    をさらに含む、請求項1に記載の方法。
  4. 前記少なくとも1つのプロセッサによって、前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
    前記少なくとも1つのプロセッサによって、前記外れ値トレーニングデータセットを使用して、外れ値固有機械学習モデルの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、
    前記少なくとも1つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
    前記少なくとも1つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、
    前記少なくとも1つのプロセッサによって、前記外れ値固有機械学習モデルを利用して、前記活動関連データ値を予測するステップと
    をさらに含む、請求項1に記載の方法。
  5. 前記少なくとも1つのプロセッサによって、前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
    前記少なくとも1つのプロセッサによって、前記一般化された機械学習モデルを利用して、前記活動関連データのセットに関する前記活動関連データ値を予測するステップと、
    前記少なくとも1つのプロセッサによって、前記外れ値分類器機械学習モデルを利用して、前記活動関連データ値の外れ値活動関連データ値を識別するステップと、
    前記少なくとも1つのプロセッサによって、前記外れ値活動関連データ値を除去するステップと
    をさらに含む、請求項1に記載の方法。
  6. 前記トレーニングデータセットは、コンクリート組成及びコンクリート硬化発現の関数としてのコンクリート圧縮強度の前記少なくとも1つの活動関連属性を含む、請求項1に記載の方法。
  7. 前記トレーニングデータセットは、家庭環境条件及び照明条件の関数としてのエネルギ使用データの前記少なくとも1つの活動関連属性を含む、請求項1に記載の方法。
  8. 前記少なくとも1つのプロセッサによって、少なくとも1つのデータ要素を有する予測を生成するためのAPI(アプリケーションプログラミングインターフェース)要求を受信するステップと、
    前記少なくとも1つのプロセッサによって、前記機械学習モデルの実行をスケジュールするために少なくとも1つのクラウドコンピュータリソースをインスタンス化するステップと、
    前記少なくとも1つのプロセッサによって、実行される前記スケジュールに従って、前記機械学習モデルを利用して、前記少なくとも1つのデータ要素に関する少なくとも1つの活動関連データ要素値を予測するステップと、
    前記少なくとも1つのプロセッサによって、前記少なくとも1つの活動関連データ要素値を前記API要求に関連付けられるコンピュータ装置に戻すステップと
    をさらに含む、請求項1に記載の方法。
  9. 前記トレーニングデータセットは、医療データセットの3次元患者画像の前記少なくとも1つの活動関連属性を含み、
    前記機械学習モデルは、前記医療データセットに基づいて2つ以上の物理ベースのレンダリングパラメータを含む前記活動関連データ値を予測するように構成される、請求項1に記載の方法。
  10. 前記トレーニングデータセットは、電子機械のコマンドに対してシミュレートされた制御結果の前記少なくとも1つの活動関連属性を含み、
    前記機械学習モデルは、前記電子機械に対する制御コマンドを含む前記活動関連データ値を予測するように構成される、請求項1に記載の方法。
  11. 前記少なくとも1つのプロセッサによって、前記活動関連データのセットを活動関連データの複数のサブセットに分割するステップと、
    前記少なくとも1つのプロセッサによって、前記活動関連データの複数のサブセットのうちの活動関連データの各サブセットに対するアンサンブルモデルを決定するステップであって、
    前記機械学習モデルは、複数のモデルのアンサンブルを含み、
    各アンサンブルモデルは、前記複数のモデルのアンサンブルからのモデルのランダムな組み合わせを含むステップと、
    前記少なくとも1つのプロセッサによって、各アンサンブルモデルを利用して、個別にアンサンブル固有活動関連データ値を予測するステップと、
    前記少なくとも1つのプロセッサによって、前記アンサンブル固有活動関連データ値及び既知の値に基づいて、各アンサンブルモデルにおける誤差を決定するステップと、
    前記少なくとも1つのプロセッサによって、最小誤差に基づいて最高性能のアンサンブルモデルを選択するステップと
    をさらに含む、請求項1に記載の方法。
  12. ソフトウェア命令が記憶された非一時的なコンピュータ可読記憶媒体と通信する少なくとも1つのプロセッサを備えるシステムであって、
    前記ソフトウェア命令は、実行されると、前記少なくとも1つのプロセッサによって、
    少なくとも1つのユーザ活動に関する少なくとも1つの活動関連属性を表す目的変数のトレーニングデータセットを受信するステップと、
    1つ以上の外れ値を決定するために使用される少なくとも1つの偏り基準を受信するステップと、
    機械学習モデルに関するモデルパラメータのセットを決定するステップであって、
    (1)初期モデルパラメータのセットを有する前記機械学習モデルを前記トレーニングデータセットに適用して、モデル予測値のセットを決定すること、
    (2)前記モデル予測値のセットを前記トレーニングデータセットの対応する実際値と比較することによって、データ要素誤差の誤差セットを生成すること、
    (3)前記データ要素誤差の誤差セット及び前記少なくとも1つの偏り基準に少なくとも部分的に基づいて、非外れ値目的変数を識別するためのデータ選択ベクトルを生成すること、
    (4)前記トレーニングデータセットに対して前記データ選択ベクトルを利用して、非外れ値データセットを生成すること、
    (5)前記非外れ値データセットに基づいて前記機械学習モデルに関する更新されたモデルパラメータのセットを決定すること、
    (6)少なくとも1つの打ち切り実行終了基準が満たされるまで、反復としてステップ(1)~(5)を繰り返すことにより、前記更新されたモデルパラメータとして前記機械学習モデルに関する前記モデルパラメータのセットを取得することであって、これにより、各反復は、前記更新されたモデルパラメータのセットを前記初期モデルパラメータのセットとして使用して、前記予測値のセット、前記誤差セット、前記データ選択ベクトル、及び前記非外れ値データセットを再生成すること
    を含むステップと、
    前記トレーニングデータセット及び前記データ選択ベクトルに少なくとも部分的に基づいて、外れ値分類器機械学習モデルの分類器モデルパラメータのセットをトレーニングするステップであって、少なくとも1つの外れ値データ要素を識別するように構成されるトレーニングされた外れ値分類器機械学習モデルを取得するステップと、
    前記トレーニングされた外れ値分類器機械学習モデルを、前記少なくとも1つのユーザ活動に関する活動関連データのデータセットに適用して、
    i)前記活動関連データのデータセットにおいて外れ値活動関連データのセット、及び
    ii)前記活動関連データのデータセットにおいて非外れ値活動関連データのセット
    を決定するステップと、
    前記機械学習モデルを前記非外れ値活動関連データ要素のセットに適用して、前記少なくとも1つのユーザ活動に関連する将来の活動関連属性を予測するステップと
    を実行させる、システム。
  13. 前記ソフトウェア命令は、実行されると、前記少なくとも1つのプロセッサによって、
    前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
    前記外れ値トレーニングデータセットを使用して、少なくとも1つの外れ値固有機械学習モデルの少なくとも1つの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、
    前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと
    をさらに実行させる、請求項12に記載のシステム。
  14. 前記ソフトウェア命令は、実行されると、前記少なくとも1つのプロセッサによって、
    前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
    前記一般化された機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、
    一般化された機械学習モデルを利用して、前記活動関連データ値を予測するステップと
    をさらに実行させる、請求項12に記載のシステム。
  15. 前記ソフトウェア命令は、実行されると、前記少なくとも1つのプロセッサによって、
    前記データ選択ベクトルを前記トレーニングデータセットに適用して、外れ値トレーニングデータセットを決定するステップと、
    前記外れ値トレーニングデータセットを使用して、外れ値固有機械学習モデルの外れ値固有モデルパラメータをトレーニングして、外れ値データ値を予測するステップと、
    前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
    前記外れ値固有機械学習モデルを利用して、前記外れ値活動関連データのセットに関する外れ値活動関連データ値を予測するステップと、
    前記外れ値固有機械学習モデルを利用して、前記活動関連データ値を予測するステップと
    をさらに実行させる、請求項12に記載のシステム。
  16. 前記ソフトウェア命令は、実行されると、前記少なくとも1つのプロセッサによって、
    前記トレーニングデータセットを使用して、一般化された機械学習モデルの一般化されたモデルパラメータをトレーニングして、データ値を予測するステップと、
    前記一般化された機械学習モデルを利用して、前記活動関連データのセットに関する前記活動関連データ値を予測するステップと、
    前記外れ値分類器機械学習モデルを利用して、前記活動関連データ値の外れ値活動関連データ値を識別するステップと、
    前記外れ値活動関連データ値を除去するステップと
    をさらに実行させる、請求項12に記載のシステム。
  17. 前記トレーニングデータセットは、コンクリート組成及びコンクリート硬化発現の関数としてのコンクリート圧縮強度の前記少なくとも1つの活動関連属性を含む、請求項12に記載のシステム。
  18. 前記トレーニングデータセットは、家庭環境条件及び照明条件の関数としてのエネルギ使用データの前記少なくとも1つの活動関連属性を含む、請求項12に記載のシステム。
  19. 前記ソフトウェア命令は、実行されると、前記少なくとも1つのプロセッサによって、
    少なくとも1つのデータ要素を有する予測を生成するためのAPI(アプリケーションプログラミングインターフェース)要求を受信するステップと、
    前記機械学習モデルの実行をスケジュールするために少なくとも1つのクラウドコンピュータリソースをインスタンス化するステップと、
    実行される前記スケジュールに従って、前記機械学習モデルを利用して、前記少なくとも1つのデータ要素に関する少なくとも1つの活動関連データ要素値を予測するステップと、
    前記少なくとも1つの活動関連データ要素値を前記API要求に関連付けられるコンピュータ装置に戻すステップと
    をさらに実行させる、請求項12に記載のシステム。
  20. 前記ソフトウェア命令は、実行されると、前記少なくとも1つのプロセッサによって、
    前記活動関連データのセットを活動関連データの複数のサブセットに分割するステップと、
    前記活動関連データの複数のサブセットのうちの活動関連データの各サブセットに対するアンサンブルモデルを決定するステップであって、
    前記機械学習モデルは、複数のモデルのアンサンブルを含み、
    各アンサンブルモデルは、前記複数のモデルのアンサンブルからのモデルのランダムな組み合わせを含むステップと、
    各アンサンブルモデルを利用して、個別にアンサンブル固有活動関連データ値を予測するステップと、
    前記アンサンブル固有活動関連データ値及び既知の値に基づいて、各アンサンブルモデルにおける誤差を決定するステップと、
    最小誤差に基づいて最高性能のアンサンブルモデルを選択するステップと
    をさらに実行させる、請求項12に記載のシステム。
JP2022517214A 2019-09-18 2020-09-18 機械学習モデルにおいて動的外れ値偏り低減を実装するように構成されるコンピュータベースシステム、コンピュータコンポーネント及びコンピュータオブジェクト Active JP7399269B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023205241A JP2024026276A (ja) 2019-09-18 2023-12-05 機械学習モデルにおいて動的外れ値偏り低減を実装するように構成されるコンピュータベースシステム、コンピュータコンポーネント及びコンピュータオブジェクト

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962902074P 2019-09-18 2019-09-18
US62/902,074 2019-09-18
PCT/US2020/051627 WO2021055847A1 (en) 2019-09-18 2020-09-18 Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023205241A Division JP2024026276A (ja) 2019-09-18 2023-12-05 機械学習モデルにおいて動的外れ値偏り低減を実装するように構成されるコンピュータベースシステム、コンピュータコンポーネント及びコンピュータオブジェクト

Publications (2)

Publication Number Publication Date
JP2022548654A true JP2022548654A (ja) 2022-11-21
JP7399269B2 JP7399269B2 (ja) 2023-12-15

Family

ID=72717923

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022517214A Active JP7399269B2 (ja) 2019-09-18 2020-09-18 機械学習モデルにおいて動的外れ値偏り低減を実装するように構成されるコンピュータベースシステム、コンピュータコンポーネント及びコンピュータオブジェクト
JP2023205241A Pending JP2024026276A (ja) 2019-09-18 2023-12-05 機械学習モデルにおいて動的外れ値偏り低減を実装するように構成されるコンピュータベースシステム、コンピュータコンポーネント及びコンピュータオブジェクト

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023205241A Pending JP2024026276A (ja) 2019-09-18 2023-12-05 機械学習モデルにおいて動的外れ値偏り低減を実装するように構成されるコンピュータベースシステム、コンピュータコンポーネント及びコンピュータオブジェクト

Country Status (13)

Country Link
US (1) US11288602B2 (ja)
EP (2) EP4022532A1 (ja)
JP (2) JP7399269B2 (ja)
KR (2) KR20220066924A (ja)
CN (2) CN114556382A (ja)
AU (1) AU2021343372A1 (ja)
BR (1) BR112022005003A2 (ja)
CA (2) CA3154671A1 (ja)
DE (1) DE112021004908T5 (ja)
GB (4) GB202402945D0 (ja)
MX (1) MX2023003217A (ja)
NO (1) NO20230419A1 (ja)
WO (2) WO2021055847A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9069725B2 (en) 2011-08-19 2015-06-30 Hartford Steam Boiler Inspection & Insurance Company Dynamic outlier bias reduction system and method
CN115186844A (zh) 2014-04-11 2022-10-14 哈佛蒸汽锅炉检验和保险公司 基于系统操作和性能数据建模来改进未来的可靠性预测
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11328177B2 (en) * 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11657323B2 (en) * 2020-03-10 2023-05-23 International Business Machines Corporation Machine learning model accuracy fairness
US11501239B2 (en) * 2020-03-18 2022-11-15 International Business Machines Corporation Metric specific machine learning model improvement through metric specific outlier removal
US20220189630A1 (en) * 2020-12-14 2022-06-16 Medtronic Minimed, Inc. Machine learning models for detecting outliers and erroneous sensor use conditions and correcting, blanking, or terminating glucose sensors
CN113176761B (zh) * 2021-04-28 2022-09-06 西安电子科技大学 多加工特征薄板零件质量预测与工艺参数优化方法
CN113408742B (zh) * 2021-06-24 2023-06-02 桂林理工大学 一种基于机器学习的高精度海表温度反演方法
CN113722813A (zh) * 2021-07-20 2021-11-30 中科云谷科技有限公司 用于泵车臂架状况监测的方法、装置及泵车
WO2023049128A1 (en) * 2021-09-21 2023-03-30 Genentech, Inc. Model routing and robust outlier detection
US20230116246A1 (en) * 2021-09-27 2023-04-13 Indian Institute Of Technology Delhi System and method for optimizing data transmission in a communication network
US20230229976A1 (en) * 2022-01-20 2023-07-20 Visa International Service Association System, method, and computer program product for time-based ensemble learning using supervised and unsupervised machine learning models
US11775791B2 (en) * 2022-03-02 2023-10-03 Ricoh Company, Ltd. Cloud-based parallel ink estimation for production printers
US11755863B1 (en) * 2022-03-02 2023-09-12 Ricoh Company, Ltd. Ink estimation model updates for production printers
WO2023205445A1 (en) * 2022-04-22 2023-10-26 Iqvia Inc. Machine learning for data anonymization
CN115460567B (zh) * 2022-11-09 2023-03-24 清华大学 数据处理方法、装置、计算机设备和存储介质
CN116384257B (zh) * 2023-05-29 2023-09-29 浙江大学 一种空分整装冷箱装配误差预测与公差优化方法
CN116625827B (zh) * 2023-06-17 2024-01-23 广州市盛通建设工程质量检测有限公司 含钢渣细集料的混凝土抗压测试方法、装置、设备及介质
CN116843080B (zh) * 2023-07-12 2024-03-19 济南明泉数字商务有限公司 一种基于机器学习的尿素生产碳元素足迹预测方法及系统
CN117302236B (zh) * 2023-09-27 2024-03-26 湖北天凯风林电子有限公司 一种基于深度学习的车辆状态监测方法及系统
CN117251816A (zh) * 2023-10-26 2023-12-19 南方电网能源发展研究院有限责任公司 碳排放数据的验证方法、装置、计算机设备和存储介质

Family Cites Families (122)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58160241U (ja) 1982-04-21 1983-10-25 呉羽化学工業株式会社 b型バツフル
JPS59180731U (ja) 1983-05-23 1984-12-03 バブコツク日立株式会社 板状触媒水洗装置
JPH0336071Y2 (ja) 1985-10-04 1991-07-31
JPH0227976Y2 (ja) 1986-03-19 1990-07-27
JPH0313329Y2 (ja) 1987-04-27 1991-03-27
US5339392A (en) 1989-07-27 1994-08-16 Risberg Jeffrey S Apparatus and method for creation of a user definable video displayed document showing changes in real time data
US6069324A (en) 1995-10-12 2000-05-30 Yazaki Corporation Load deflecting degree computing apparatus and carrying weight computing apparatus for vehicle
US7010336B2 (en) 1997-08-14 2006-03-07 Sensys Medical, Inc. Measurement site dependent data preprocessing method for robust calibration and prediction
US6085216A (en) 1997-12-31 2000-07-04 Xerox Corporation Method and system for efficiently allocating resources for solving computationally hard problems
JP2001318745A (ja) 2000-05-11 2001-11-16 Sony Corp データ処理装置およびデータ処理方法、並びに記録媒体
US6847976B1 (en) 2000-06-15 2005-01-25 Terrence B. Peace Method and apparatus for significance testing and confidence interval construction based on user-specified distribution
US20040172401A1 (en) 2000-06-15 2004-09-02 Peace Terrence B. Significance testing and confidence interval construction based on user-specified distributions
US6832205B1 (en) 2000-06-30 2004-12-14 General Electric Company System and method for automatically predicting the timing and costs of service events in a life cycle of a product
US7124059B2 (en) 2000-10-17 2006-10-17 Accenture Global Services Gmbh Managing maintenance for an item of equipment
US6988092B1 (en) 2000-12-28 2006-01-17 Abb Research Ltd. Method for evaluation of energy utilities
US7043461B2 (en) 2001-01-19 2006-05-09 Genalytics, Inc. Process and system for developing a predictive model
US7039654B1 (en) 2002-09-12 2006-05-02 Asset Trust, Inc. Automated bot development system
US20030171879A1 (en) 2002-03-08 2003-09-11 Pittalwala Shabbir H. System and method to accomplish pipeline reliability
US7313550B2 (en) 2002-03-27 2007-12-25 Council Of Scientific & Industrial Research Performance of artificial neural network models in the presence of instrumental noise and measurement errors
US20070219741A1 (en) 2005-05-20 2007-09-20 Emilio Miguelanez Methods and apparatus for hybrid outlier detection
US20040122625A1 (en) 2002-08-07 2004-06-24 Nasser Loren A. Apparatus and method for predicting total ownership cost
JP4042492B2 (ja) 2002-08-07 2008-02-06 トヨタ自動車株式会社 エンジン制御パラメータの適合方法及び適合システム
JP4109527B2 (ja) 2002-10-01 2008-07-02 新日本製鐵株式会社 制御モデルの学習方法、制御モデルの学習装置、コンピュータプログラム、及びコンピュータ読み取り可能な記憶媒体
US7634384B2 (en) 2003-03-18 2009-12-15 Fisher-Rosemount Systems, Inc. Asset optimization reporting in a process plant
US8478534B2 (en) 2003-06-11 2013-07-02 The Research Foundation For The State University Of New York Method for detecting discriminatory data patterns in multiple sets of data and diagnosing disease
DE10331207A1 (de) 2003-07-10 2005-01-27 Daimlerchrysler Ag Verfahren und Vorrichtung zur Vorhersage einer Ausfall-Häufigkeit
WO2005015476A2 (en) 2003-08-07 2005-02-17 Hsb Solomon Associates, Llc System and method for determining equivalency factors for use in comparative performance analysis of industrial facilities
US20050125322A1 (en) 2003-11-21 2005-06-09 General Electric Company System, method and computer product to detect behavioral patterns related to the financial health of a business entity
US20050131794A1 (en) 2003-12-15 2005-06-16 Lifson Kalman A. Stock portfolio and method
EP1548623A1 (en) 2003-12-23 2005-06-29 Sap Ag Outlier correction
JP4728968B2 (ja) 2004-02-06 2011-07-20 テスト アドバンテージ, インコーポレイテッド データ解析の方法および装置
JP4719694B2 (ja) 2004-02-13 2011-07-06 ウオーターズ・テクノロジーズ・コーポレイシヨン 化学物質を追跡し、定量化するためのシステムおよび方法
US7469228B2 (en) 2004-02-20 2008-12-23 General Electric Company Systems and methods for efficient frontier supplementation in multi-objective portfolio analysis
CA2501003C (en) 2004-04-23 2009-05-19 F. Hoffmann-La Roche Ag Sample analysis to provide characterization data
WO2005122881A1 (en) 2004-06-21 2005-12-29 Aorora Technologies Pty Ltd Cardiac monitoring system
DE102004032822A1 (de) 2004-07-06 2006-03-23 Micro-Epsilon Messtechnik Gmbh & Co Kg Verfahren zur Verarbeitung von Messwerten
US20060069667A1 (en) 2004-09-30 2006-03-30 Microsoft Corporation Content evaluation
US7536364B2 (en) 2005-04-28 2009-05-19 General Electric Company Method and system for performing model-based multi-objective asset optimization and decision-making
US20060247798A1 (en) 2005-04-28 2006-11-02 Subbu Rajesh V Method and system for performing multi-objective predictive modeling, monitoring, and update for an asset
US8195484B2 (en) 2005-06-15 2012-06-05 Hartford Steam Boiler Inspection And Insurance Company Insurance product, rating system and method
US7966150B2 (en) 2005-11-17 2011-06-21 Florida Power & Light Company Data analysis applications
US8290753B2 (en) 2006-01-24 2012-10-16 Vextec Corporation Materials-based failure analysis in design of electronic devices, and prediction of operating life
WO2007117233A1 (en) 2006-04-07 2007-10-18 Hsb Solomon Associates, Llc Emission trading product and method
US7447611B2 (en) 2006-05-09 2008-11-04 Hsb Solomon Associates, Llc Power generation performance analysis system and method
US20100262442A1 (en) 2006-07-20 2010-10-14 Standard Aero, Inc. System and method of projecting aircraft maintenance costs
CN101616629A (zh) 2006-08-31 2009-12-30 非线性医药有限公司 用于预测心律失常死亡的自动降噪系统
US8014591B2 (en) * 2006-09-13 2011-09-06 Aurilab, Llc Robust pattern recognition system and method using socratic agents
US20080104624A1 (en) 2006-11-01 2008-05-01 Motorola, Inc. Method and system for selection and scheduling of content outliers
JP5116307B2 (ja) 2007-01-04 2013-01-09 ルネサスエレクトロニクス株式会社 集積回路装置異常検出装置、方法およびプログラム
US8346691B1 (en) 2007-02-20 2013-01-01 Sas Institute Inc. Computer-implemented semi-supervised learning systems and methods
WO2008126209A1 (ja) 2007-03-27 2008-10-23 Fujitsu Limited 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
US20080300888A1 (en) 2007-05-30 2008-12-04 General Electric Company Systems and Methods for Providing Risk Methodologies for Performing Supplier Design for Reliability
US8040246B2 (en) 2007-12-04 2011-10-18 Avaya Inc. Systems and methods for facilitating a first response mission at an incident scene
JP5003566B2 (ja) 2008-04-01 2012-08-15 三菱電機株式会社 ネットワーク性能予測システム、ネットワーク性能予測方法およびプログラム
JP4991627B2 (ja) 2008-05-16 2012-08-01 株式会社日立製作所 計画執行管理装置およびそのプログラム
US8386412B2 (en) 2008-12-12 2013-02-26 At&T Intellectual Property I, L.P. Methods and apparatus to construct histogram and wavelet synopses for probabilistic data
US8509990B2 (en) 2008-12-15 2013-08-13 Panasonic Avionics Corporation System and method for performing real-time data analysis
US9111212B2 (en) 2011-08-19 2015-08-18 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
JP5297855B2 (ja) 2009-03-26 2013-09-25 Dowaメタルテック株式会社 銅合金板材およびその製造方法
JP2010250674A (ja) 2009-04-17 2010-11-04 Nec Corp 作業時間予測装置、方法、およびプログラム
US10739741B2 (en) 2009-06-22 2020-08-11 Johnson Controls Technology Company Systems and methods for detecting changes in energy usage in a building
US8311772B2 (en) 2009-12-21 2012-11-13 Teradata Us, Inc. Outlier processing
RU2523191C2 (ru) 2009-12-31 2014-07-20 Абб Рисерч Лтд Способ и система управления для планирования нагрузки электростанции
JP5581965B2 (ja) 2010-01-19 2014-09-03 オムロン株式会社 Mppt制御器、太陽電池制御装置、太陽光発電システム、mppt制御プログラム、およびmppt制御器の制御方法
US20110246409A1 (en) 2010-04-05 2011-10-06 Indian Statistical Institute Data set dimensionality reduction processes and machines
CN102081765A (zh) 2011-01-19 2011-06-01 西安交通大学 输电设备状态检修的系统性控制方法
JP5592813B2 (ja) 2011-01-28 2014-09-17 株式会社日立ソリューションズ東日本 生涯需要予測方法、プログラムおよび生涯需要予測装置
US10557840B2 (en) 2011-08-19 2020-02-11 Hartford Steam Boiler Inspection And Insurance Company System and method for performing industrial processes across facilities
US9069725B2 (en) 2011-08-19 2015-06-30 Hartford Steam Boiler Inspection & Insurance Company Dynamic outlier bias reduction system and method
EP2788952A4 (en) 2011-12-08 2015-08-19 Copperleaf Technologies Inc DEVICE, SYSTEMS AND METHOD FOR CAPITAL INVESTMENT PLANNING
US9158303B2 (en) 2012-03-27 2015-10-13 General Electric Company Systems and methods for improved reliability operations
US8812331B2 (en) 2012-04-27 2014-08-19 Richard B. Jones Insurance product, rating and credit enhancement system and method for insuring project savings
US8686364B1 (en) 2012-09-17 2014-04-01 Jp3 Measurement, Llc Method and system for determining energy content and detecting contaminants in a fluid stream
EP3514700A1 (en) 2013-02-20 2019-07-24 Hartford Steam Boiler Inspection and Insurance Company Dynamic outlier bias reduction system and method
US9536364B2 (en) 2013-02-25 2017-01-03 GM Global Technology Operations LLC Vehicle integration of BLE nodes to enable passive entry and passive start features
US9646262B2 (en) 2013-06-17 2017-05-09 Purepredictive, Inc. Data intelligence using machine learning
CN115186844A (zh) 2014-04-11 2022-10-14 哈佛蒸汽锅炉检验和保险公司 基于系统操作和性能数据建模来改进未来的可靠性预测
US9568519B2 (en) 2014-05-15 2017-02-14 International Business Machines Corporation Building energy consumption forecasting procedure using ambient temperature, enthalpy, bias corrected weather forecast and outlier corrected sensor data
DE112015002433T5 (de) 2014-05-23 2017-03-23 Datarobot Systeme und Techniken zur prädikativen Datenanalytik
US10452992B2 (en) 2014-06-30 2019-10-22 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
US9996933B2 (en) 2015-12-22 2018-06-12 Qualcomm Incorporated Methods and apparatus for outlier detection and correction of structured light depth maps
US9760690B1 (en) 2016-03-10 2017-09-12 Siemens Healthcare Gmbh Content-based medical image rendering based on machine learning
JP6457421B2 (ja) 2016-04-04 2019-01-23 ファナック株式会社 シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法
US10198339B2 (en) 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
US20190213446A1 (en) 2016-06-30 2019-07-11 Intel Corporation Device-based anomaly detection using random forest models
US11429859B2 (en) 2016-08-15 2022-08-30 Cangrade, Inc. Systems and processes for bias removal in a predictive performance model
US20190287039A1 (en) 2016-10-20 2019-09-19 Consolidated Research, Inc. System and method for dynamically evaluating service provider performance
US11315045B2 (en) 2016-12-29 2022-04-26 Intel Corporation Entropy-based weighting in random forest models
CN107391569B (zh) 2017-06-16 2020-09-15 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
US10638979B2 (en) 2017-07-10 2020-05-05 Glysens Incorporated Analyte sensor data evaluation and error reduction apparatus and methods
US10474667B2 (en) 2017-07-29 2019-11-12 Vmware, Inc Methods and systems to detect and correct outliers in a dataset stored in a data-storage device
WO2019033055A1 (en) 2017-08-10 2019-02-14 Clearag, Inc. DEVELOPING COMPLEX AGRICULTURAL SIMULATIONS MODELS FROM LIMITED DATA SETS
JP6837949B2 (ja) 2017-09-08 2021-03-03 株式会社日立製作所 予測システム及び方法
US20190108561A1 (en) 2017-10-05 2019-04-11 Mindtree Ltd. Purchase Intent Determination And Real Time In-store Shopper Assistance
EP3483797A1 (en) 2017-11-13 2019-05-15 Accenture Global Solutions Limited Training, validating, and monitoring artificial intelligence and machine learning models
US10521654B2 (en) 2018-03-29 2019-12-31 Fmr Llc Recognition of handwritten characters in digital images using context-based machine learning
WO2019204520A1 (en) * 2018-04-17 2019-10-24 VideaHealth, Inc. Dental image feature detection
CN109299156A (zh) 2018-08-21 2019-02-01 平安科技(深圳)有限公司 电子装置、基于XGBoost的电力数据异常预测方法及存储介质
US20200074269A1 (en) 2018-09-05 2020-03-05 Sartorius Stedim Data Analytics Ab Computer-implemented method, computer program product and system for data analysis
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US20200160229A1 (en) 2018-11-15 2020-05-21 Adobe Inc. Creating User Experiences with Behavioral Information and Machine Learning
US11204847B2 (en) 2018-12-21 2021-12-21 Microsoft Technology Licensing, Llc Machine learning model monitoring
US11797550B2 (en) 2019-01-30 2023-10-24 Uptake Technologies, Inc. Data science platform
CN113614756A (zh) 2019-03-26 2021-11-05 Hrl实验室有限责任公司 用于具有可编程人机混合集成学习的预报警报的系统和方法
US11593650B2 (en) 2019-03-27 2023-02-28 GE Precision Healthcare LLC Determining confident data samples for machine learning models on unseen data
US11210587B2 (en) 2019-04-23 2021-12-28 Sciencelogic, Inc. Distributed learning anomaly detector
US20200387836A1 (en) 2019-06-04 2020-12-10 Accenture Global Solutions Limited Machine learning model surety
US11354602B2 (en) 2019-06-04 2022-06-07 Bank Of America Corporation System and methods to mitigate poisoning attacks within machine learning systems
US20200402665A1 (en) 2019-06-19 2020-12-24 GE Precision Healthcare LLC Unplanned readmission prediction using an interactive augmented intelligent (iai) system
CN110378386A (zh) 2019-06-20 2019-10-25 平安科技(深圳)有限公司 基于有监督的无标记异常识别方法、装置及存储介质
US20220351024A1 (en) 2019-06-24 2022-11-03 Telefonaktiebolaget Lm Ericsson (Publ) Method for detecting uncommon input
US11954610B2 (en) 2019-08-09 2024-04-09 GE Precision Healthcare LLC Active surveillance and learning for machine learning model authoring and deployment
CN110458374A (zh) 2019-08-23 2019-11-15 山东浪潮通软信息科技有限公司 一种基于arima和svm的企业用电最大需量预测方法
CN110411957B (zh) 2019-08-28 2021-11-19 北京农业质量标准与检测技术研究中心 水果货架期及新鲜程度的无损快速预测方法及装置
CN110543618A (zh) 2019-09-05 2019-12-06 上海应用技术大学 基于概率密度函数估计的圆度不确定度评定方法
CA3222363A1 (en) 2019-11-06 2021-05-14 Centurylink Intellectual Property Llc Predictive resource allocation in an edge computing network
CN110909822B (zh) 2019-12-03 2022-11-11 中国科学院微小卫星创新研究院 一种基于改进的高斯过程回归模型的卫星异常检测方法
CN111080502B (zh) 2019-12-17 2023-09-08 清华苏州环境创新研究院 一种区域企业数据异常行为的大数据识别方法
CN111157698B (zh) 2019-12-24 2022-10-21 核工业北京地质研究院 一种利用发射率数据获取黑土土壤全钾含量的反演方法
CN111709447A (zh) 2020-05-14 2020-09-25 中国电力科学研究院有限公司 电网异常检测方法、装置、计算机设备和存储介质
US11007891B1 (en) 2020-10-01 2021-05-18 Electricfish Energy Inc. Fast electric vehicle charging and distributed grid resource adequacy management system
CN112257963B (zh) 2020-11-20 2023-08-29 北京轩宇信息技术有限公司 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置

Also Published As

Publication number Publication date
EP4214652A1 (en) 2023-07-26
EP4022532A1 (en) 2022-07-06
CN114556382A (zh) 2022-05-27
KR20230070272A (ko) 2023-05-22
GB2617045B (en) 2024-05-01
MX2023003217A (es) 2023-06-22
GB202305640D0 (en) 2023-05-31
GB2603358A (en) 2022-08-03
GB2614849A (en) 2023-07-19
CA3154671A1 (en) 2021-03-25
US20210110313A1 (en) 2021-04-15
JP2024026276A (ja) 2024-02-28
CA3195894A1 (en) 2022-03-24
US11288602B2 (en) 2022-03-29
JP7399269B2 (ja) 2023-12-15
KR20220066924A (ko) 2022-05-24
DE112021004908T5 (de) 2023-07-06
AU2021343372A1 (en) 2023-05-04
BR112022005003A2 (pt) 2022-09-06
CN116569189A (zh) 2023-08-08
NO20230419A1 (en) 2023-04-18
GB202204238D0 (en) 2022-05-11
GB2603358B (en) 2023-08-30
GB202402945D0 (en) 2024-04-17
GB2617045A (en) 2023-09-27
WO2022060411A1 (en) 2022-03-24
WO2021055847A1 (en) 2021-03-25

Similar Documents

Publication Publication Date Title
JP7399269B2 (ja) 機械学習モデルにおいて動的外れ値偏り低減を実装するように構成されるコンピュータベースシステム、コンピュータコンポーネント及びコンピュータオブジェクト
US11914680B2 (en) Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11615348B2 (en) Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US8364613B1 (en) Hosting predictive models
US20190057284A1 (en) Data processing apparatus for accessing shared memory in processing structured data for modifying a parameter vector data structure
US11023819B2 (en) Machine-learning models applied to interaction data for facilitating experience-based modifications to interface elements in online environments
US20220245424A1 (en) Microgenre-based hyper-personalization with multi-modal machine learning
US11694165B2 (en) Key-value memory network for predicting time-series metrics of target entities
US11803793B2 (en) Automated data forecasting using machine learning
JP2024504179A (ja) 人工知能推論モデルを軽量化する方法およびシステム
RU2813245C1 (ru) Компьютерные системы, вычислительные компоненты и вычислительные объекты, выполненные с возможностью реализации уменьшения обусловленного выбросовыми значениями динамического отклонения в моделях машинного обучения
Logeswaran et al. High utility itemset mining using genetic algorithm assimilated with off policy reinforcement learning to adaptively calibrate crossover operation
US20230195842A1 (en) Automated feature engineering for predictive modeling using deep reinforcement learning
Xu et al. An Online Prediction Framework for Dynamic Service-Generated QoS Big Data
KR102441837B1 (ko) 빅데이터 기반 대리점과 거래처를 실시간으로 연결하여 재고를 관리하고 수수료를 정산하는 플랫폼의 운영방법
Deng et al. A two-stage framework for credit scoring based on feature augmentation and dimension reduction
Volokyta et al. Method of Automatic Depersonalization of Databases for Application in Machine Learning Problems
CN116756668A (zh) 资源转移异常检测方法、装置、计算机设备和存储介质
CN115564560A (zh) 风险评估方法、装置和存储介质
CN117573973A (zh) 资源推荐方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231017

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231205

R150 Certificate of patent or registration of utility model

Ref document number: 7399269

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150