JP5982489B2 - 動的外れ値偏り低減システム及び方法 - Google Patents

動的外れ値偏り低減システム及び方法 Download PDF

Info

Publication number
JP5982489B2
JP5982489B2 JP2014527202A JP2014527202A JP5982489B2 JP 5982489 B2 JP5982489 B2 JP 5982489B2 JP 2014527202 A JP2014527202 A JP 2014527202A JP 2014527202 A JP2014527202 A JP 2014527202A JP 5982489 B2 JP5982489 B2 JP 5982489B2
Authority
JP
Japan
Prior art keywords
values
error
value
datasets
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014527202A
Other languages
English (en)
Other versions
JP2014524629A (ja
JP2014524629A5 (ja
Inventor
リチャード ブラッドリー ジョーンズ、
リチャード ブラッドリー ジョーンズ、
Original Assignee
ハートフォード スチーム ボイラー インスペクション アンド インシュアランス カンパニー
ハートフォード スチーム ボイラー インスペクション アンド インシュアランス カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ハートフォード スチーム ボイラー インスペクション アンド インシュアランス カンパニー, ハートフォード スチーム ボイラー インスペクション アンド インシュアランス カンパニー filed Critical ハートフォード スチーム ボイラー インスペクション アンド インシュアランス カンパニー
Publication of JP2014524629A publication Critical patent/JP2014524629A/ja
Publication of JP2014524629A5 publication Critical patent/JP2014524629A5/ja
Application granted granted Critical
Publication of JP5982489B2 publication Critical patent/JP5982489B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/0004Gaseous mixtures, e.g. polluted air
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • G06F7/588Random number generators, i.e. based on natural stochastic processes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Pathology (AREA)
  • Combustion & Propulsion (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Food Science & Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Transition And Organic Metals Composition Catalysts For Addition Polymerization (AREA)

Description

本発明は、外れ値成分が分析展開から除去される(又はフィルタリングされる)データ分析に関する。分析は、単純な統計の計算、又は、展開においてデータを使用する数学モデルを伴う複雑な操作に関する。外れ値データのフィルタリングは、データ品質及びデータ認証の操作を目的とし、又は、代表的な標準、統計、後の分析に適用されるデータ群、回帰分析、時系列分析、若しくは数学モデル展開のための適格なデータを計算することを目的とする。
関連出願の相互参照
本国際特許出願は、2011年8月19日に出願された「Dynamic Outlier Bias Reduction System and Method」という名称の米国仮特許出願第13/213,780号の優先権を主張する。これは、その全体が参照として本明細書に組み入れられる。
基準において又はデータ主導モデル展開において外れ値データを除去することは、基礎となるデータから代表的かつ公正な分析を展開することを保証する予備分析作業の重要な一部をなす。例えば、二酸化炭素(CO)、オゾン(O)、水蒸気(HO)、ハイドロフルオロカーボン(HFC)、パーフルオロカーボン(PFC)、クロロフルオロカーボン(CFC)、六フッ化硫黄(SF)、メタン(CH)、亜酸化窒素(NO)、一酸化炭素(CO)、窒素酸化物(NO)及び非メタン揮発性有機化合物(NMVOC)の排出に対する温室効果ガス基準の公正なベンチマークを展開するには、基準展開で使用される収集工業データが所定の特性を示すことが必要となる。少数の工業地帯による極端に良い又は悪いパフォーマンスが、他の工業地帯に対して計算される基準に偏りを与えるべきではない。かかるパフォーマンス結果が基準計算に含まれることは、不公正又は非代表的と判断される。過去においてパフォーマンス外れ値は、主観的入力を必要とする半定量的プロセスを介して除去されていた。現行のシステム及び方法は、データ主導型アプローチである。これは、当該タスクを、予備分析又は予備的モデル展開段階においてではなく、モデル展開の一体的部分として行う。
偏りの除去は、データ変更を立証するべく正当化理由が所定形式で文書化される主観的プロセスとなり得る。しかしながら、外れ値除去の形式はいずれも、計算結果を変更する可能性を伴うデータ打ち切りの形式である。かかるデータフィルタリングは、計算における偏り又は誤差を低減するかもしれないししないかもしれず、完全な分析開示の趣旨では、外れ値を除去するための厳格なデータ除去の指針及び文書が、分析結果に含まれる必要がある。したがって、当業界には、データ品質操作、データ認証、統計計算又は数学モデル展開等にとって有用な動的な統計プロセスを使用して、外れ値データ偏りを客観的に除去する新たなシステム及び方法を与える必要性がある。外れ値偏り除去のシステム及び方法はまた、データを代表カテゴリに分類するべく使用することもできる。この場合、データは、各群にカスタマイズされた数学モデルの展開に適用される。好ましい実施形態において、数学モデルの乗法的及び加法的因子として、及びさらに他の、本質的に非線形の数値パラメータとして係数が定義される。例えば、f(x,y,z)=a*x+b*y+d*sin(ez)+fとの数学モデルにおいて、a、b、c、d、e及びfはすべて係数として定義される。これらの項の値は、固定されるか又は数学モデルの展開の一部となる。
国際公開第2007/117233(A1)号パンフレット
好ましい実施形態は、外れ値偏りを低減するコンピュータ実装方法であって以下のステップを含む。一の偏り基準を選択するステップ、一のデータセットを与えるステップ、複数のモデル係数の一セットを与えるステップ、複数の目標値の一セットを選択するステップ、(1)完成した当該データセットに対して複数の予測値の一セットを生成するステップ、(2)当該データセットに対して一の誤差セットを生成するステップ、(3)当該誤差セット及び当該偏り基準に基づいて複数の誤差しきい値の一セットを生成するステップ、(4)当該誤差セット及び複数の誤差しきい値の当該セットに基づいてプロセッサが一の打ち切られたデータセットを生成するステップ、(5)プロセッサが複数の新モデル係数の一セットを生成するステップ、並びに(6)複数の新モデル係数の当該セットを使用して一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(5)を繰り返すステップである。好ましい実施形態において、複数の予測値の当該セットは、当該データセット及び複数のモデル係数の当該セットに基づいて生成される。好ましい実施形態において、当該誤差セットは、複数の予測値の当該セット及び複数の目標値の当該セットに基づいて生成された複数の絶対誤差の一セット及び複数の相対誤差の一セットを含む。他の実施形態において、当該誤差セットは、複数の予測値の当該セットと複数の目標値の当該セットとの差分として計算された複数の値を含む。他の実施形態において、複数の新係数の当該セットを生成するステップはさらに、線形又は非線形の最適化モデルを使用して達成することができる複数の予測値の当該セットと複数の実際値の当該セットとの間の複数の誤差の当該セットを最小化するステップを含む。好ましい実施形態において、当該打ち切りパフォーマンス終了基準は、一の標準誤差及び一の決定係数に基づく。
他の実施形態は、外れ値偏りを低減するコンピュータ実装方法を含む。この方法は以下のステップを含む。すなわち、一の誤差基準を選択するステップ、一のデータセットを選択するステップ、複数の実際値の一セットを選択するステップ、複数のモデル係数の一の初期セットを選択するステップ、完成した当該データセット及び複数のモデル係数の当該初期セットに基づいて複数のモデル予測値の一セットを生成するステップ、(1)完成した当該データセットに対する当該モデル予測値及び複数の実際値の当該セットに基づいて複数の誤差の一セットを生成するステップ、(2)完成した当該データセットに対する複数の誤差の完成した当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを生成するステップ、(3)一の外れ値除去済みデータセットを生成するステップであって、そのフィルタリングは完成した当該データセット及び複数の誤差しきい値の当該セットに基づくステップ、(4)当該フィルタリングされたデータセット及び複数の旧係数の当該セットに基づいて複数の新係数の一セットを生成するステップであって、複数の新係数の当該セットの生成はコンピュータプロセッサによって行われるステップ、(5)当該フィルタリングされたデータセット及び複数の新モデル係数の当該セットに基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成するステップであって、複数の外れ値偏り低減済みモデル予測値の当該セットの生成はコンピュータプロセッサによって行われるステップ、(6)当該モデル予測値及び複数の実際値の当該セットに基づいて複数のモデルパフォーマンス値の一セットを生成するステップ、先の反復からの複数の係数の当該セットの代わりに複数の新係数の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(6)を繰り返すステップ、並びに複数のモデル予測値の当該セットをコンピュータデータ媒体に格納するステップである。
他の実施形態は、外れ値偏りを低減するコンピュータ実装方法を含む。この方法は以下のステップを含む。すなわち、施設に対する一の目標変数を選択するステップ、当該目標変数の複数の実際値の一セットを選択するステップ、当該目標変数に関連する当該施設に対する複数の変数を識別するステップ、当該施設に対する一のデータセットを取得するステップであって当該データセットは当該複数の変数に対する複数の値を含むステップ、一の偏り基準を選択するステップ、複数のモデル係数の一セットを選択するステップ、(1)完成した当該データセット及び複数のモデル係数の当該セットに基づいて複数の予測値の一セットを生成するステップ、(2)複数の予測値の当該セット及び複数の実際値の当該セットに基づいて複数の打ち切りモデルパフォーマンス値の一セットを生成するステップ、(3)当該目標変数に対する複数の予測値の当該セット及び複数の実際値の当該セットに基づいて一の誤差セットを生成するステップ、(4)当該誤差セット及び当該偏り基準に基づいて複数の誤差しきい値の一セットを生成するステップ、(5)当該データセット及び複数の誤差しきい値の当該セットに基づいてプロセッサが一の打ち切られたデータセットを生成するステップ、(6)当該打ち切られたデータセット及び複数のモデル係数の当該セットに基づいて当該プロセッサが複数の新モデル係数の一セットを生成するステップ、(7)当該データセット及び複数の新モデル係数の当該セットに基づいて当該プロセッサが複数の新予測値の一セットを生成するステップ、(8)複数の新予測値の当該セット及び複数の実際値の当該セットに基づいて複数の新打ち切りモデルパフォーマンス値の一セットを生成するステップ、複数の新係数の当該セットを使用して一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(8)を繰り返すステップ、並びに複数の新モデル予測値の当該セットをコンピュータデータ媒体に格納するステップである。
他の実施形態は、外れ値偏りを低減するコンピュータ実装方法を含む。この方法は以下のステップを含む。すなわち、施設に対する一の目標変数を決定するステップであって当該目標変数は工業施設に対するその製造、金融パフォーマンス又は排出に関連する測定基準であるステップ、当該施設に対する複数の変数を識別するステップであって、当該複数の変数は、当該目標変数に影響する当該施設に対する複数の直接的変数と、それぞれが当該目標変数に影響する少なくとも一つの直接的施設変数の関数である当該施設に対する複数の変換された変数の一セットとであるステップ、一の絶対誤差及び一の相対誤差を含む一の誤差基準を選択するステップ、当該施設に対する一のデータセットを取得するステップであって当該データセットは当該複数の変数に対する複数の値を含むステップ、当該目標変数の複数の実際値の一セットを選択するステップ、複数のモデル係数の一の初期セットを選択するステップ、完成した当該データセット及び複数のモデル係数の当該初期セットに基づいて複数のモデル予測値の一セットを生成するステップ、複数のモデル予測値の当該完成したセット及び複数の実際値の当該セットに基づいて複数の誤差の完成した一セットを生成するステップであって、相対誤差が式:相対誤差=((予測値−実際値)/実際値(「m」は参照番号)を使用して計算され、かつ、絶対誤差が式:絶対誤差=(予測値−実際値を使用して計算されるステップ、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数のモデルパフォーマンス値の一セットを生成するステップであって全体的な複数のモデルパフォーマンス値の当該セットは第1標準誤差及び第1決定係数を含むステップ、(1)完成した当該データセットに対する当該モデル予測値及び複数の実際値の当該セットに基づいて複数の誤差の一セットを生成するステップ、(2)複数の誤差の完成した当該セット及び完成した当該データセットに対する当該誤差基準に基づいて複数の誤差しきい値の一セットを生成するステップ、(3)当該誤差しきい値以上の誤差値を有するデータを除去することによって一の外れ値除去済みデータセットを生成するステップであってそのフィルタリングは完成した当該データセット及び複数の誤差しきい値の当該セットに基づくステップ、(4)一の線形最適化モデル及び一の非線形最適化モデルの少なくとも一つを使用して複数の予測値の当該セットと複数の実際値の当該セットとの間の誤差を最小化することにより、当該外れ値除去済みデータセット及び複数のモデル係数の当該セットに基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成するステップであって新しい当該モデル予測値の生成はコンピュータプロセッサによって行われるステップ、(5)当該外れ値除去済みデータセット及び複数の係数の旧セットに基づいて複数の新係数の一セットを生成するステップであって複数の新係数の当該セットの生成は当該コンピュータプロセッサによって行われるステップ、(6)複数の新予測モデル値の当該セット及び複数の実際値の当該セットに基づいて全体的な複数のモデルパフォーマンス値の一セットを生成するステップであって複数のモデルパフォーマンス値の当該セットは第2標準誤差及び第2決定係数を含むステップ、先の反復からの複数の係数の当該セットの代わりに複数の新係数の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(6)を繰り返すステップであって、当該パフォーマンス終了基準は一の標準誤差終了値及び一の決定係数終了値を含み、かつ、当該パフォーマンス終了基準を満たすことは当該標準誤差終了値が当該第1及び第2標準誤差間の差分よりも大きくかつ当該決定係数終了値が当該第1及び第2決定係数間の差分よりも大きいことを含むステップ、並びに複数の新モデル予測値の当該セットをコンピュータデータ媒体に格納するステップである。
他の実施形態は、外れ値偏りを低減するコンピュータ実装方法を含む。この方法は以下のステップを含む。すなわち、一の誤差基準を選択するステップ、一のデータセットを選択するステップ、複数の実際値の一セットを選択するステップ、複数のモデル予測値の一の初期セットを選択するステップ、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の誤差の一セットを決定するステップ、(1)複数の誤差の完成した当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを決定するステップ、(2)一の外れ値除去済みデータセットを生成するステップであってそのフィルタリングは当該データセット及び複数の誤差しきい値の当該セットに基づくステップ、(3)当該外れ値除去済みデータセット及び複数の旧モデル予測値に基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成するステップであって複数の外れ値偏り低減済みモデル予測値の当該セットの生成はコンピュータプロセッサによって行われるステップ、(4)複数の新モデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の誤差の一セットを決定するステップ、先の反復からの複数のモデル予測値の当該セットの代わりに複数の新モデル予測値を使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(4)を繰り返すステップ、並びに複数の外れ値偏り低減済みモデル予測値の当該セットをコンピュータデータ媒体に格納するステップである。
他の実施形態は、外れ値偏りを低減するコンピュータ実装方法を含む。この方法は以下のステップを含む。すなわち、施設に対する一の目標変数を決定するステップ、当該施設に対する複数の変数を識別するステップであって、当該複数の変数は、当該目標変数に影響する当該施設に対する複数の直接的変数と、それぞれが当該目標変数に影響する少なくとも一つの直接的施設変数の関数である当該施設に対する複数の変換された変数の一セットとであるステップ、一の絶対誤差及び一の相対誤差を含む一の誤差基準を選択するステップ、当該複数の変数に対する複数の値を含む一のデータセットを取得するステップ、当該目標変数の複数の実際値の一セットを選択するステップ、複数のモデル係数の一の初期セットを選択するステップ、複数のモデル係数の一セットを当該データセットに適用することによって複数のモデル予測値の一セットを生成するステップ、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数のパフォーマンス値の一セットを決定するステップであって複数のパフォーマンス値の当該セットは第1標準誤差及び第1決定係数を含むステップ、(1)複数のモデル予測値の当該セット及び完成した当該データセットに対する複数の実際値の当該セットに基づいて複数の誤差の一セットを生成するステップであって相対誤差が式:相対誤差=((予測値−実際値)/実際値(「m」は参照番号)を使用して計算され、かつ、絶対誤差が式:絶対誤差=(予測値−実際値)を使用して計算されるステップ、(2)完成した当該データセットに対する複数の誤差の完成した当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを生成するステップ、(3)複数の誤差しきい値の当該セット以上の複数の誤差値を有するデータを除去することによって、一の外れ値除去済みデータセットを生成するステップであってそのフィルタリングは当該データセット及び複数の誤差しきい値の当該セットに基づくステップ、(4)当該外れ値除去済みデータセット及び複数の旧係数の当該セットに基づいて複数の新係数の一セットを生成するステップ、(5)一の線形最適化モデル及び一の非線形最適化モデルの少なくとも一つを使用して複数の予測値の当該セットと複数の実際値の当該セットとの間の誤差を最小化することにより、当該外れ値除去済みデータセット及び複数の新モデル係数の当該セットに基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成するステップであって当該モデル予測値の生成はコンピュータプロセッサによって行われるステップ、(6)複数の外れ値偏り低減済みモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の更新済みパフォーマンス値の一セットを生成するステップであって当該更新済みパフォーマンス値の当該セットは第2標準誤差及び第2決定係数を含むステップ、先の反復からの複数の係数の当該セットの代わりに複数の新係数の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(6)を繰り返すステップであって、当該パフォーマンス終了基準は一の標準誤差終了値及び一の決定係数終了値を含み、かつ、当該パフォーマンス終了基準を満たすことは当該標準誤差終了値が当該第1及び第2標準誤差間の差分よりも大きくかつ当該決定係数終了値が当該第1及び第2決定係数間の差分よりも大きいことを含むステップ、並びに複数の外れ値偏り低減因子の当該セットをコンピュータデータ媒体に格納するステップである。
他の実施形態は、一のモデルを展開するときに使用される一のデータセットの実現性を評価するコンピュータ実装方法を含む。この方法は以下のステップを含む。すなわち、複数のデータ値を含む一の目標データセットを与えるステップ、当該目標データセットに基づいて一のランダム目標データセットを生成するステップ、複数の偏り基準値の一セットを選択するステップ、当該データセット及び選択された各偏り基準値に基づいてプロセッサが一の外れ値偏り低減済み目標データセットを生成するステップ、ランダムな当該データセット及び選択された各偏り基準値に基づいてプロセッサが一の外れ値偏り低減済みランダムデータセットを生成するステップ、当該外れ値偏り低減済みデータセット及び当該外れ値偏り低減済みランダムデータセットに対して複数の誤差値の一セットを計算するステップ、当該外れ値偏り低減済みデータセット及び当該外れ値偏り低減済みランダムデータセットに対して複数の相関係数の一セットを計算するステップ、選択された前記複数の偏り基準値と対応する誤差値及び相関係数とに基づいて当該データセット及び当該ランダムデータセットに対する複数の偏り基準曲線を生成するステップ、並びに当該データセットに対する当該偏り基準曲線と当該ランダムデータセットに対する当該偏り基準曲線とを対比するステップである。当該外れ値偏り低減済み目標データセット及び当該外れ値偏り低減済みランダム目標データセットは、動的外れ値偏り除去法を使用して生成される。当該ランダム目標データセットは、当該複数のデータ値の範囲内にある複数の値から展開された複数の任意抽出データ値からなり得る。また、複数の誤差値の当該セットは複数の標準誤差の一セットを含み得る。ここで、複数の相関係数の当該セットは複数の決定係数値の一セットを含む。他の実施形態はさらに、当該目標データセットに対する当該偏り基準曲線と当該ランダム目標データセットに対する当該偏り基準曲線との対比に基づいて、展開された当該モデルをサポートする当該目標データセットの実現性及びその逆に関する自動化されたアドバイスを生成するステップを含む。アドバイスは、相関係数しきい値及び/又は誤差しきい値のような、分析者によって選択されたパラメータに基づいて生成することができる。さらに他の実施形態はさらに以下のステップを含む。すなわち、当該モデル予測値に対応する複数の実際データ値を含む一の実際データセットを与えるステップ、当該実際データセットに基づいて一のランダム実際データセットを生成するステップ、当該実際データセット及び選択された各偏り基準値に基づいてプロセッサが一の外れ値偏り低減済み実際データセットを生成するステップ、当該ランダム実際データセット及び選択された各偏り基準値に基づいて当該プロセッサが一の外れ値偏り低減済みランダム実際データセットを生成するステップ、選択された各偏り基準に対し当該外れ値偏り低減済みランダム目標データセット及び当該外れ値偏り低減済みランダム実際データに基づいて一のランダムデータプロットを生成するステップ、選択された各偏り基準に対し当該外れ値偏り低減済み目標データセット及び当該外れ値偏り低減済み実際目標データセットに基づいて一の現実的データプロットを生成するステップ、並びに当該ランダムデータプロットと選択された各偏り基準に対応する当該現実的データプロットとを対比するステップである。
好ましい実施形態は、プロセッサ及び格納サブシステムを含むサーバと、一のデータセットを含みかつ当該格納サブシステムによって格納されるデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを備えるシステムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一の偏り基準を選択すること、複数のモデル係数の一セットを与えること、複数の目標値の一セットを選択すること、(1)当該データセットに対する複数の予測値の一セットを生成すること、(2)当該データセットに対する一の誤差セットを生成すること、(3)当該誤差セット及び当該偏り基準に基づいて複数の誤差しきい値の一のセットを生成すること、(4)当該誤差セット及び複数の誤差しきい値の当該セットに基づいて一の打ち切られたデータセットを生成すること、(5)複数の新モデル係数の一セットを生成すること、並びに(6)複数の新モデル係数の当該セットを使用して一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(5)を繰り返すことである。好ましい実施形態において、複数の予測値の当該セットは、当該データセット及び複数のモデル係数の当該セットに基づいて生成される。好ましい実施形態において、当該誤差セットは、複数予測値の当該セット及び複数目標値の当該セットに基づいて生成された複数の絶対誤差の一セット及び複数の相対誤差の一セットを含む。他の実施形態において、当該誤差セットは、複数の予測値の当該セットと複数の目標値の当該セットとの差分として計算された値を含む。他の実施形態において、複数の新係数の当該セットを生成するステップはさらに、複数の予測値の当該セットと複数の実際値の当該セットとの間の複数の誤差の当該セットを最小化するステップを含む。これは、線形又は非線形最適化モデルを使用して達成することができる。好ましい実施形態において、当該打ち切りパフォーマンス終了基準は、一の標準誤差及び一の決定係数に基づく。
本発明の他の実施形態は、プロセッサ及び格納サブシステムを含むサーバと、一のデータセットを含みかつ当該格納サブシステムによって格納されるデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを備えるシステムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一の誤差基準を選択すること、複数の実際値の一セットを選択すること、複数の係数の一の初期セットを選択すること、当該データセット及び複数の係数の当該初期セットから複数のモデル予測値の一の完成したセットを生成すること、(1)完成した当該データセットに対する当該モデル予測値及び複数の実際値の当該セットに基づいて複数の誤差の一セットを生成すること、(2)完成した当該データセットに対する複数の誤差の完成した当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを生成すること、(3)一の外れ値除去済みデータセットを生成することであってそのフィルタリングは完成した当該データセット及び複数の誤差しきい値の当該セットに基づくこと、(4)当該外れ値除去済みデータセット及び複数の係数の当該セットに基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成することであって、複数の外れ値偏り低減済みモデル予測値の当該セットの生成はコンピュータプロセッサによって行われること、(5)当該外れ値除去済みデータセット及び複数の旧係数の当該セットに基づいて複数の新係数の一セットを生成することであって複数の新係数の当該セットの生成は当該コンピュータプロセッサによって行われること、(6)当該外れ値偏り低減済みモデル予測値及び複数の実際値の当該セットに基づいて複数のモデルパフォーマンス値の一セットを生成すること、先の反復からの複数の係数の当該セットの代わりに複数の新係数の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(6)を繰り返すこと、並びに全体的な複数の外れ値偏り低減モデル予測値の一セットをコンピュータデータ媒体に格納することである。
さらに他の実施形態は、プロセッサ及び格納サブシステムを含むサーバと、当該格納サブシステムによって格納されるデータベースであって施設に対する一の目標変数、当該目標変数の複数の実際値の一セット、当該目標変数に関連する当該施設に対する複数の変数、当該複数の変数に対する複数の値を含む当該施設に対する一のデータセットを含むデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを備えるシステムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一の偏り基準を選択すること、複数のモデル係数の一セットを選択すること、(1)当該データセット及び複数のモデル係数の当該セットに基づいて複数の予測値の一セットを生成すること、(2)複数の予測値の当該セット及び複数の実際値の当該セットに基づいて複数の打ち切りモデルパフォーマンス値の一セットを生成すること、(3)当該目標変数に対する複数の予測値の当該セット及び複数の実際値の当該セットに基づいて一の誤差セットを生成すること、(4)当該誤差セット及び当該偏り基準に基づいて複数の誤差しきい値の一セットを生成すること、(5)当該データセット及び複数の誤差しきい値の当該セットに基づいて一の打ち切られたデータセットを生成すること、(6)当該打ち切られたデータセット及び複数のモデル係数の当該セットに基づいて複数の新モデル係数の一セットを生成すること、(7)当該データセット及び複数の新モデル係数の当該セットに基づいて複数の新予測値の一セットを生成すること、(8)複数の新予測値の当該セット及び複数の実際値の当該セットに基づいて複数の新打ち切りモデルパフォーマンス値の一セットを生成すること、複数の新係数の当該セットを使用して一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(8)を繰り返すこと、並びに複数の新モデル予測値の当該セットを当該格納サブシステムに格納することである。
他の実施形態は、プロセッサ及び格納サブシステムを含むサーバと、施設に対する一のデータセットを含みかつ当該格納サブシステムによって格納されるデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを備えるシステムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一の目標変数を決定すること、複数の変数を識別することであって当該複数の変数は、当該目標変数に影響する当該施設に対する複数の直接的変数と、それぞれが当該目標変数に影響する少なくとも一つの直接的変数の関数である当該施設に対する複数の変換された変数の一セットとであること、一の絶対誤差及び一の相対誤差を含む一の誤差基準を選択すること、当該目標変数の複数の実際値の一セットを選択すること、複数の係数の一の初期セットを選択すること、当該データセット及び複数の係数の当該初期セットから複数のモデル予測値の一セットを生成すること、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の誤差の一セットを決定することであって、相対誤差が式:相対誤差=((予測値−実際値)/実際値(「m」は参照番号)を使用して計算され、かつ、絶対誤差が式:絶対誤差=(予測値−実際値を使用して計算されること、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数のパフォーマンス値の一セットを決定することであって複数のパフォーマンス値の当該セットは第1標準誤差及び第1決定係数を含むこと、(1)当該モデル予測値及び複数の実際値の当該セットに基づいて複数の誤差の一セットを生成すること、(2)完成した当該データセットに対する複数の誤差の完成した当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを生成すること、(3)複数の誤差しきい値の当該セットの外にある複数の誤差値を有するデータをフィルタリングすることによって、一の外れ値除去済みデータセットを生成することであってそのフィルタリングは当該データセット及び複数の誤差しきい値の当該セットに基づくこと、(4)一の線形最適化モデル及び一の非線形最適化モデルの少なくとも一つを使用して複数の予測値の当該セットと複数の実際値の当該セットとの間の一の誤差を最小化することにより、当該外れ値除去済みデータセット及び複数の係数の当該セットに基づいて複数の新モデル予測値の一セットを生成することであって当該外れ値偏り低減済みモデル予測値の生成はコンピュータプロセッサによって行われること、(5)当該外れ値除去済みデータセット及び複数の旧係数の当該セットに基づいて複数の新係数の一セットを生成することであって複数の新係数の当該セットの生成は当該コンピュータプロセッサによって行われること、(6)複数の新モデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数のパフォーマンス値の一セットを生成することであって複数のモデルパフォーマンス値の当該セットは第2標準誤差及び第2決定係数を含むこと、先の反復からの複数の係数の当該セットの代わりに複数の新係数の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(6)を繰り返すことであって、当該パフォーマンス終了基準は一の標準誤差終了値及び一の決定係数を含み、かつ、当該パフォーマンス終了基準を満たすことは当該標準誤差終了値が当該第1及び第2標準誤差間の差分よりも大きくかつ当該決定係数終了値が当該第1及び第2決定係数間の差分よりも大きいことを含むこと、並びに複数の新モデル予測値の当該セットをコンピュータデータ媒体に格納することである。
本発明の他の実施形態は、プロセッサ及び格納サブシステムを含むサーバと、一のデータセットを含みかつ当該格納サブシステムによって格納されるデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを備えるシステムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一の誤差基準を選択すること、一のデータセットを選択すること、複数の実際値の一セットを選択すること、複数のモデル予測値の一の初期セットを選択すること、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の誤差の一セットを決定すること、(1)複数の誤差の完成した当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを決定すること、(2)一の外れ値除去済みデータセットを生成するステップであってそのフィルタリングは当該データセット及び複数の誤差しきい値の当該セットに基づくこと、(3)当該外れ値除去済みデータセット及び複数のモデル予測値の完成した当該セットに基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成することであって複数の外れ値偏り低減済みモデル予測値の当該セットの生成はコンピュータプロセッサによって行われること、(4)複数の外れ値偏り低減モデル予測値の当該セット及び複数の実際値の対応するセットに基づいて複数の誤差の一セットを決定すること、複数のモデル予測値の当該セットの代わりに複数の外れ値偏り低減モデル予測値の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(4)を繰り返すこと、並びに複数の外れ値偏り低減因子の当該セットをコンピュータデータ媒体に格納することである。
本発明の他の実施形態は、プロセッサ及び格納サブシステムを含むサーバと、一のデータセットを含みかつ当該格納サブシステムによって格納されるデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを備えるシステムを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一の目標変数を決定すること、当該施設に対する複数の変数を識別することであって、当該複数の変数は、当該目標変数に影響する当該施設に対する複数の直接的変数と、それぞれが当該目標変数に影響する少なくとも一つの主要施設変数の関数である当該施設に対する複数の変換された変数の一セットとであること、一の絶対誤差及び一の相対誤差を含む一の誤差基準を選択すること、当該複数の変数に対する複数の値を含む一のデータセットを取得して当該目標変数の複数の実際値の一セットを選択すること、複数の係数の一の初期セットを選択すること、複数のモデル係数の当該セットを当該データセットに適用することによって複数のモデル予測値の一セットを生成すること、複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数のパフォーマンス値の一セットを決定することであって複数のパフォーマンス値の当該セットは第1標準誤差及び第1決定係数を含むこと、(1)複数のモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の誤差の一セットを決定することであって、相対誤差が式:相対誤差=((予測値−実際値)/実際値(「k」は参照番号)を使用して計算され、かつ、絶対誤差が式:絶対誤差=(予測値−実際値を使用して計算されること、(2)完成した当該データセットに対する複数の誤差の当該セット及び当該誤差基準に基づいて複数の誤差しきい値の一セットを決定すること、(3)当該誤差しきい値以上の誤差値を有するデータを除去することによって、一の外れ値除去済みデータセットを生成することであってそのフィルタリングは当該データセット及び複数の誤差しきい値の当該セットに基づくこと、(4)当該外れ値除去済みデータセット及び複数の旧係数の当該セットに基づいて複数の新係数の一セットを生成すること、(5)一の線形最適化モデル及び一の非線形最適化モデルの少なくとも一つを使用して複数の予測値の当該セットと複数の実際値の当該セットとの間の一の誤差を最小化することと当該外れ値除去済みデータセット及び複数の係数の当該セットとに基づいて複数の外れ値偏り低減済みモデル予測値の一セットを生成すること、(5)複数の外れ値偏り低減済みモデル予測値の当該セット及び複数の実際値の当該セットに基づいて複数の更新済みパフォーマンス値の一セットを生成することであって当該更新済みパフォーマンス値の当該セットは第2標準誤差及び第2決定係数を含むこと、先の反復からの複数の係数の当該セットの代わりに複数の新係数の当該セットを使用しながら一のパフォーマンス終了基準が満たされるまでステップ(1)〜(5)を繰り返すことであって、当該パフォーマンス終了基準は一の標準誤差終了値及び一の決定係数終了値を含み、かつ、当該パフォーマンス終了基準を満たすことは当該標準誤差終了値が当該第1及び第2標準誤差間の差分よりも大きくかつ当該決定係数終了値が当該第1及び第2決定係数間の差分よりも大きいことを含むこと、並びに複数の外れ値偏り低減因子の当該セットをコンピュータデータ媒体に格納することである。
さらに他の実施形態は、一のモデルを展開するときに使用される一のデータセットの実現性を評価するシステムを含む。当該システムは、プロセッサ及び格納サブシステムを含むサーバと、複数のモデル予測値を含む一の目標データセットを含みかつ当該格納サブシステムによって格納されるデータベースと、当該格納サブシステムによって格納されるコンピュータプログラムとを含む。当該コンピュータプログラムは、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、一のランダム目標データセットを生成すること、複数の偏り基準値の一セットを選択すること、当該目標データセット及び選択された各偏り基準値に基づいて複数の外れ値偏り低減済みデータセットを生成すること、当該ランダム目標データセット及び選択された各偏り基準値に基づいて一の外れ値偏り低減済みランダム目標データセットを生成すること、当該外れ値偏り低減済み目標データセット及び当該外れ値偏り低減済みランダム目標データセットに対する複数の誤差値の一セットを計算すること、当該外れ値偏り低減済み目標データセット及び当該外れ値偏り低減済みランダム目標データセットに対する複数の相関係数の一セットを計算すること、選択された各偏り基準に対する対応する誤差値及び相関係数に基づいて当該目標データセット及び当該ランダム目標データセットに対する複数の偏り基準曲線を生成すること、並びに当該目標データセットに対する当該偏り基準曲線と当該ランダム目標データセットに対する当該偏り基準曲線とを対比することである。プロセッサは、動的外れ値偏り除去法を使用して当該外れ値偏り低減済み目標データセット及び当該外れ値偏り低減済みランダム目標データセットを生成する。当該ランダム目標データセットは、当該複数のデータ値の範囲内にある複数の値から展開された複数の任意抽出データ値からなり得る。また、複数の誤差値の当該セットは複数の標準誤差の一セットを含み得る。複数の相関係数の当該セットは複数の決定係数値の一セットを含む。他の実施形態において、プログラムはさらに、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、当該目標データセットに対する当該偏り基準曲線と当該ランダム目標データセットに対する当該偏り基準曲線との対比に基づいて自動化されたアドバイスを生成させることである。アドバイスは、相関係数しきい値及び/又は誤差しきい値のような、分析者によって選択されたパラメータに基づいて生成することができる。さらに他の実施形態において、システムのデータベースはさらに、当該モデル予測値に対応する複数の実際データ値を備える一の実際データセットを含み、かつ、当該プログラムはさらに、実行されると当該プロセッサに以下のことを引き起こす命令を含む。すなわち、当該実際データセットに基づいて一のランダム実際データセットを生成すること、当該実際データセット及び選択された各偏り基準値に基づいて一の外れ値偏り低減済み実際データセットを生成すること、当該ランダム実際データセット及び選択された各偏り基準値に基づいて一の外れ値偏り低減済みランダム実際データセットを生成すること、選択された各偏り基準に対し当該外れ値偏り低減済みランダム目標データセット及び当該外れ値偏り低減済みランダム実際データに基づいて一のランダムデータプロットを生成すること、選択された各偏り基準に対し当該外れ値偏り低減済み目標データセット及び当該外れ値偏り低減済み実際目標データセットに基づいて一の現実的データプロットを生成すること、並びに当該ランダムデータプロットと選択された各偏り基準に対応する当該現実的データプロットとを対比することである。
データ外れ値を特定及び除去する方法の一実施形態を例示するフローチャートである。 データ品質操作のためにデータ外れ値を特定及び除去する方法の一実施形態を例示するフローチャートである。 データ認証のためにデータ外れ値を特定及び除去する方法の一実施形態を例示するフローチャートである。 本発明の方法を実装する例示的ノードである。 データセットの定量評価のための例示的グラフである。 図6A及び6Bは、図5のデータセットの定量的評価のためのグラフであり、それぞれデータセット全体に対する任意抽出データセット及び現実的データセットを例示する。 図7A及び7Bは、図5のデータセットの定量的評価のためのグラフであり、それぞれデータの30%を外れ値として除去した後の任意抽出データセット及び現実的データセットを例示する。 図8A及び8Bは、図5のデータセットの定量的評価のためのグラフであり、それぞれデータの50%を外れ値として除去した後の任意抽出データセット及び現実的データセットを例示する。
以下の開示は、構造化された内容に対するアクセス及び管理のためのシステム及び方法の異なる特徴を実装する多くの異なる実施形態又は例を与える。コンポーネント、プロセス及び実装の特定の例は、本発明を明確にすることに役立てるべく説明される。これらは単なる例であって、本発明を特許請求の範囲に記載されるものから制限することを意図しない。周知の要素は、本発明の好ましい実施形態を不必要な詳細によって不明瞭にすることがないように、詳細な説明なしに提示される。ほとんどの箇所に対し、本発明の好ましい実施形態の完全な理解を得るのに不必要な詳細は、かかる詳細が当業者のスキル内にある限り省略される。
動的外れ値偏り低減の一実施形態の数学的記述は以下の通りである。
Figure 0005982489
Figure 0005982489
Figure 0005982489
動的外れ値偏り低減の一実施形態の他の数学的記述は以下のとおりである。
Figure 0005982489
Figure 0005982489
Figure 0005982489
現行の打ち切られたデータセットから新モデル係数が計算される各反復の後、先の反復からの除去されたデータに現行の打ち切られたデータをプラスしたものが再び組み合わせられる。この組み合わせは、完成したデータセットにおけるすべてのデータ値を包含する。現行のモデル係数はその後、予測値の完成されたセットを計算するべく、完成されたデータセットに適用される。予測値の完成されたセットに対して絶対及び相対誤差が計算され、新たな偏り基準百分位数しきい値が計算される。絶対又は相対誤差がしきい値よりも大きなデータ値すべてを除去することにより新たな打ち切られたデータセットが作られ、その後、非線形最適化モデルが新たに打ち切られたデータセットに適用されて新たなモデル係数が計算される。このプロセスにより、すべてのデータ値がモデルデータセットに包含される可能性を、反復ごとに調べることができる。モデル係数が当該データに最適適合する値に収束するときは、先の反復において除外されたいくつかのデータ値がその後の反復において含められることもあり得る。
一実施形態において、温室効果ガス排出のばらつきが、モデル予測値の偏りにつながる排出結果の過大評価又は過小評価をもたらし得る。環境条件及び計算手順での誤差のような、これらの非工業的影響により、特定の施設に対する結果が、モデル予測値における偏りが除去されない限り、同様の施設と根本的に異なることとなる。モデル予測値における偏りはまた、独特の操作条件によっても存在する。
施設の計算が誤っていること又は独特の酌量すべき特徴を有していることが分析者に確信できるのであれば、施設のデータを単に計算から除去することにより、偏りは手動で除去することができる。しかしながら、多くの異なる会社、地域及び国から施設のパフォーマンスを測定する場合、データ詳細の正確な先験的知識は現実的ではない。したがって、分析者に基づくデータ除去手順はいずれも、モデル結果に対して文書化されず、データにサポートされない偏りを加える可能性を有する。
一実施形態において、モデル係数計算から除去される統計的な外れ値を決定するべく、データ及び所定の全体的な誤差基準を使用する手順に動的外れ値偏り低減が適用される。これは、データによりもたらされる大域的誤差基準を使用して、例えば百分位数関数を使用して、外れ値を識別するデータ主導型プロセスである。動的外れ値偏り低減の使用は、モデル予測値における偏りの低減に限られない。この実施形態におけるその使用は図示的かつ例示的にすぎない。動的外れ値偏り低減はまた、例えば任意の統計データセットから外れ値を除去するべく使用される。これは、例えば、算術平均、線形回帰及び傾向線の計算における使用を含むがこれらに限られない。外れ値の施設は依然として計算結果から順位付けされているが、外れ値は、モデル係数又は統計結果を計算するべく適用されるフィルタリング済みデータセットにおいて使用されない。
外れ値を除去するべく一般に使用される標準手順は、データセットの標準偏差(σ)を計算して平均からの2σ間隔外にあるデータすべてを、例えば外れ値として単純に画定することである。この手順は、一般には実際に検定不可能な統計的仮定を有する。本発明の一実施形態において適用される動的外れ値偏り低減方法の記述は、図1にまとめられており、相対誤差及び絶対誤差の双方を使用する。例えば、施設「m」に対し:
相対誤差=((予測値−実際値)/実際値 (1)
絶対誤差=(予測値−実際値 (2)
となる。
ステップ110において、分析者は、計算から除去される外れ値を画定する誤差しきい値基準を特定する。例えば、誤差関数として百分位数操作を使用して、相対及び絶対誤差に対する80パーセントの百分位数値が設定され得る。この意味は、相対誤差に対する第80百分位数値未満のデータ値及び絶対誤差に対する第80百分位数値のデータ値の計算が含まれ、かつ、残りの値は除去されるか又は外れ値とみなされるということである。この例では、除去されるのを回避するべきデータ値に対しては、当該データ値は、相対及び絶対誤差の双方が第80百分位数値未満でなければならない。しかしながら、相対及び絶対誤差の双方に対する百分位数しきい値は独立して変化し得るので、他の実施形態においては、一方の百分位数しきい値のみが使用される。
ステップ120において、モデル標準誤差及び決定係数(r)のパーセント変化基準が特定される。これらの統計の値がモデルごとに変わる一方、先の反復手順におけるパーセント変化は、例えば5パーセントのように、予備的に設定することができる。これらの値は、反復手順を終了させるべく使用することができる。他の終了基準は単純な反復回数であり得る。
ステップ130において、各施設に対するモデル係数及び予測値を生成する最適化計算が行われる。
ステップ140において、式(1)及び(2)を使用してすべての施設に対する相対及び絶対誤差の双方が計算される。
ステップ150において、ステップ110で特定されたしきい値基準を有する誤差関数がステップ140で計算されたデータに適用されて、外れ値しきい値が決定される。
ステップ160において、データが、選択された構成に応じ、相対誤差、絶対誤差又は双方の誤差がステップ150で計算された誤差しきい値より小さい施設のみを含むようにフィルタリングされる。
ステップ170において、外れ値除去済みデータセットを使用して最適化計算が行われる。
ステップ180において、標準誤差及びrのパーセント変化が、ステップ120で特定された基準と対比される。パーセント変化が基準よりも大きい場合、ステップ140に戻ることによってプロセスが繰り返される。そうでない場合、反復手順はステップ190で終了し、この動的外れ値偏り低減基準から計算された結果的なモデルが完成される。モデル結果が、その現行反復の、過去に除去された又は容認されたデータの状態にかかわらず、すべての施設に対して適用される。
他の実施形態において、プロセスは、所定の反復パラメータの選択から開始される。具体的には、(1)一方、他方又は双方が反復プロセスにおいて使用される絶対誤差及び相対誤差百分位数値、(2)決定係数(rとしても知られる)の改善値、及び(3)標準誤差改善値である。
プロセスは、原データセット、実際データのセット、及び、当該原データセットに基づいて予測値を計算するべく使用される少なくとも一つの係数又は一つの因子のいずれかから開始する。係数又は係数のセットが原データセットに適用されて予測値のセットが作られる。係数のセットは、スカラー、指数、パラメータ及び周期関数を含むがこれらに限られない。予測データのセットはその後、実際データのセットと対比される。予測データと実際データとの差分に基づいて標準誤差及び決定係数が計算される。ユーザ選択の絶対及び相対誤差百分位数値に基づいてデータ外れ値を除去するべく、各データ点に関連付けられた絶対及び相対誤差が使用される。データの順位付けは必要ない。絶対及び/又は相対誤差に対する百分位数値に関連付けられた範囲から外れたデータが、すべて原データセットから除去されるからである。データをフィルタリングするべく絶対及び相対誤差を使用することは例示的であって、例示目的のみに限られる。本方法は、絶対若しくは相対誤差のみについて又は他の関数について行うことができるからである。
ユーザ選択の百分位数範囲内にある絶対及び相対誤差に関連付けられたデータは、外れ値除去済みデータセットであり、プロセスの各反復がそれ自身のフィルタリング済みデータセットを有する。この第1外れ値除去済みデータセットが使用されて、実際値と対比される予測値が決定される。誤差を最適化することにより少なくとも一つの係数が決定され、その後当該係数が使用されて第1外れ値除去済みデータセットに基づく予測値が生成される。外れ値偏り低減済み係数は、一の反復から次の反復へ知識が伝えられるメカニズムとして機能する。
第1外れ値除去済みデータセットが作られた後、標準誤差及び決定係数が計算され、かつ、原データセットの標準誤差及び決定係数と対比される。標準誤差の差分及び決定係数の差分の双方が各改善値未満であればプロセスは停止する。しかしながら、改善基準の少なくとも一つが満たされなければプロセスはもう一回の反復に続く。標準誤差及び決定係数を反復プロセスのチェックに使用することは図示的かつ例示的にすぎない。当該チェックは、標準誤差のみ若しくは決定係数のみ、異なる統計的チェック、又は他の(反復回数のような)パフォーマンス終了基準を使用して行うことができるからである。
第1反復が改善基準を満たすことができない場合、新セットの予測値を決定するべく、第1外れ値偏り低減済みデータ係数を原データに適用することによって第2反復が開始される。この場合、原データが再び処理され、第1外れ値除去済みデータセットの係数が使用されている間に当該データ点に対する絶対及び相対誤差並びに原データセットに対する標準誤差及び決定係数値が確立される。データはその後フィルタリングされ、第2外れ値除去済みデータセットが形成され、かつ、第2外れ値除去済みデータセットに基づく係数が決定される。
しかしながら、第2外れ値除去済みデータセットは必ずしも、第1外れ値除去済みデータセットのサブセットというわけではなく、外れ値偏り低減済みモデル係数の第2セット、第2標準誤差及び第2決定係数に関連付けられる。これらの値がひとたび決定されると、第2標準誤差が第1標準誤差と対比され、かつ、第2決定係数が第1決定係数と対比される。
(標準誤差及び決定係数の)改善値がこれらのパラメータの差分を超過するとプロセスは終了する。そうでなければ、原データをなおも再び処理することによってもう一回の反復が開始される。このとき、原データセットを処理しかつ新セットの予測値を生成するべく第2外れ値偏り低減済み係数が使用される。絶対及び相対誤差に対するユーザ選択の百分位数値に基づくフィルタリングによって、第3外れ値偏り低減済み係数のセットを決定するべく最適化される第3外れ値除去済みデータセットが作られる。プロセスは、誤差改善又は他の(収束基準又は特定の反復数のような)終了基準が満たされるまで続けられる。
このプロセスの出力は、係数又はモデルパラメータのセットである。ここで、係数又はモデルパラメータは、数学的な値(又は値のセット)であって、例えば、データ、線形方程式の傾き及び切片値、指数、又は多項式の係数を対比するためのモデル予測値であるがこれに限られない。動的外れ値偏り低減の出力は、それ独自の出力値ではなくむしろ、出力値を決定するべくデータを修正する係数である。
図2に例示される他の実施形態において、動的外れ値偏り低減は、データが特定の使用に対して適切であることを確証するべく、データの一貫性及び正確性を評価するデータ品質法として適用される。データ品質操作に対し、本方法は反復手順を伴わない。このプロセスの間、動的外れ値偏り低減とともに他のデータ品質法を使用することもできる。本方法は、所与のデータセットの算術平均計算に対して適用される。データ品質基準は、例えば、連続するデータ値が同じ範囲内に包含されることである。すなわち、あまりにもかけ離れた間隔の値はいずれも、劣った品質データを構成する。この場合、誤差項が関数の連続的な値から構成され、かつ、動的外れ値偏り低減がこれらの誤差値に適用される。
ステップ210において、初期データが任意の順序でリストアップされる。
ステップ220は、データセットに対して行われる関数又は操作を構成する。この実施形態の例では、関数及び操作は、各ラインが当該ライン以上にある全データの平均に対応する連続的算術平均計算が追従するデータの昇順順位付けである。
ステップ230は、ステップ220の結果からの連続する値を使用してデータから相対及び絶対誤差を計算する。
ステップ240により、分析者は望ましい外れ値除去誤差基準(%)を入力することができる。品質基準値は、ステップ220のデータに基づくステップ230の誤差計算からの結果値である。
ステップ250は、データ品質外れ値フィルタリング済みデータセットを示す。相対及び絶対誤差が、ステップ240で与えられた特定誤差基準を超える場合、特定値が除去される。
ステップ260は、完成されたデータセットと外れ値除去済みデータセットとの算術平均計算の対比を示す。分析者は、適用される数学又は統計計算すべてにおいて、識別された外れ値除去済みデータ成分が実際に劣った品質であるか否かを判断する最終ステップとなる。動的外れ値偏り低減システム及び方法によって、分析者が直接的にデータを除去することがなくなり、最適な実施指針が、分析者に見直しを促しかつ実施妥当性に対する結果をチェックしてくれる。
図3に例示される他の実施形態において、動的外れ値偏り低減は、データが特定の使用に対して適切であるか否かを決定するべく、データセットの合理的正確性を検定するデータ認証法として適用される。データ認証操作に対し、本方法は反復手順を伴わない。この例では、動的外れ値偏り低減は、2つのデータセット間のピアソン相関係数の計算に適用される。ピアソン相関係数は、データセットにおいて他のデータ点とは相対的に異なる値に対する感度が高い。この統計に対してデータセットを認証することは、当該結果が、極端な値の影響以外に大部分のデータが示唆するものを代表していることを保証する上で重要である。この例におけるデータ認証プロセスは、連続するデータ値が特定された範囲内に包含されるということである。すなわち、あまりにもかけ離れた間隔の値(例えば特定された範囲外にある値)はいずれも、劣った品質データであることを意味する。これは、当該関数の連続値の誤差項を構築することによって達成される。これらの誤差値に動的外れ値偏り低減が適用されることにより、外れ値除去済みデータセットが認証済みデータとなる。
ステップ310において、対のデータが任意の順序でリストアップされる。
ステップ320は、データセットにおいて並べられた各対に対して相対及び絶対誤差を計算する。
ステップ330により、分析者は望ましいデータ認証基準を入力することができる。本例では、90%の相対及び絶対双方の誤差しきい値が選択される。ステップ330における品質基準値の項目は、ステップ320に示されたデータに対する結果的な絶対及び相対誤差百分位数の値である。
ステップ340は、外れ値除去プロセスを示す。このプロセスでは、相対及び絶対双方の誤差値が、ステップ330で入力されたユーザ選択の百分位数値に対応する値を超える基準を使用して、無効かもしれないデータがデータセットから除去される。実際には、他の誤差基準を使用することができるので、この例に示されるように複数の基準が適用される場合、外れ値除去のルールを決定するべく誤差値の任意の組み合わせを適用することができる。
ステップ350は、認証済みデータ及び原データ値統計結果を計算する。このケースでは、ピアソン相関係数である。これらの結果はその後、分析者によって実施妥当性が調べられる。
他の実施形態において、データセット全体の認証を行うべく動的外れ値偏り低減が使用される。標準誤差改善値、決定係数改善値、並びに絶対及び相対誤差しきい値が選択され、その後当該データセットが誤差基準に従ってフィルタリングされる。原データセットが高品質であっても、絶対及び相対誤差しきい値から外れた誤差値を有するデータが依然としていくつか存在する。したがって、データのなんらかの除去が必要か否かを決定することは重要である。第1反復後に外れ値除去済みデータセットが標準誤差改善及び決定係数の改善基準に合格する場合、原データセットは認証済みとなる。フィルタリングされたデータセットが、あまりにも小さくて有意とみなすことができない(例えば選択された改善値未満の)標準誤差及び決定係数を生成しているからである。
他の実施形態において、データ外れ値除去の反復が当該計算にどのような影響を与えているのかについての洞察を与えるべく動的外れ値偏り低減が使用される。グラフ又はデータ表が与えられるので、各反復が行われているときのデータ外れ値除去計算の進捗をユーザが観測することができる。この段階的アプローチにより、分析者は、結果に値及び知識を加え得る計算の独特な特性を観測することができる。例えば、収束の速度及び性質によって、多次元データセットに対する代表的因子を計算することに与える動的外れ値偏り低減の影響が示される。
例示のとおり、87のレコードの劣った品質のデータセットに対して線形回帰計算を考慮する。回帰対象の式の形式はy=mx+bである。表1は、5回の反復に対する反復プロセスの結果を示す。注目すべきなのは、95%の相対及び絶対誤差基準を使用して、3回の反復で収束が達成されることである。回帰係数の変化を観測することができる。動的外れ値偏り低減方法は、79のレコードに基づいて計算データセットを低減させた。相対的に低い決定係数(r=39%)は、r統計に対する及び計算された回帰係数に対する付加的な外れ値除去効果を検討するべく、低い(<95%)基準を検定する必要があることを示している。
Figure 0005982489
表2は、80%の相対及び絶対誤差基準を使用して動的外れ値偏り低減を適用した結果を示す。注目すべきなのは、外れ値誤差基準の15パーセントポイント(95%から80%)の変化が、(79から51のレコードが含まれる)許容データの35%の付加的な減少を伴うrの35パーセントポイント(39%から74%)の増加をもたらしたことである。分析者は、外れ値除去済み結果を幅広い聴衆に伝えるべく、かつ、分析結果のデータばらつきの効果に関する洞察を与えるべく、分析プロセスにおける表1及び2の外れ値除去済みデータ及び数値結果とともに、回帰線の変化のグラフ図を使用することができる。
Figure 0005982489
図4に例示されるように、本方法を行うべく使用されるシステムの一実施形態は、コンピュータシステムを含む。ハードウェアは、必要な数値計算を行うのに十分なシステムメモリ420を包含するプロセッサ410からなる。プロセッサ410は、本方法を行うべくシステムメモリ420にあるコンピュータプログラムを実行する。ディスプレイ440の操作を可能にするべく、ビデオ及び格納コントローラ430が使用される。システムは、様々なデータ入力用データ格納装置を含む。例えば、フロッピー(登録商標)ディスクユニット450、内部/外部ディスクドライブ460、内部CD/DVD470、テープユニット480、及び他のタイプの電子格納媒体490である。上述のデータ格納装置は、図示的かつ例示的にすぎない。これらの格納媒体が使用されてデータセット及び外れ値除去基準がシステムに入力され、外れ値除去済みデータセットが格納され、計算因子が格納され、並びに、システム生成傾向線及び傾向線反復グラフが格納される。計算は、統計ソフトウェアパッケージに適用すること、又は例えばマイクロソフト(登録商標)のエクセル(登録商標)を使用してスプレッドシート形式で入力されたデータから行うことができる。計算は、企業専用システム実装のために設計されるカスタマイズされたソフトウェアプログラムを使用して、又はエクセル等のデータベース及びスプレッドシートプログラムと互換性のある市販ソフトウェアを使用して行われる。システムはまた、動的外れ値偏り低減システム及び方法計算とともに使用されるデータを与えるべく、他のデータベースと連携する専有の又は公共の外部格納媒体300とのインタフェースを有し得る。出力装置は、計算ワークシート等のシステム生成グラフ及びレポートを、イントラネット又はインターネットを介して管理等の職員、プリンタ520、入力装置450、460、470、480、490として上述したものと同様の電子格納媒体、及び専有の格納データベース530に送信する遠距離通信装置510であり得る。これらの出力装置はここでは、図示的かつ例示的にすぎない。
図5、6A、6B、7A、7B、8A及び8Bに例示されるように、一実施形態において、データセットの品質を定量的かつ定性的に評価するべく動的外れ値偏り低減を使用することができる。これは、データセットのデータ値の誤差及び相関が、適切な範囲内から展開されたランダムデータ値からなるベンチマークデータセットの誤差及び相関と対比されることに基づく。一実施形態において、誤差は、データセットの標準誤差となるように指定することができる。相関は、データセットの決定係数(r)となるように指定することができる。他の実施形態において、相関は、一般にケンドールのタウ(τ)係数と称されるケンドールの順位相関係数となるように指定することができる。さらに他の実施形態において、相関は、スピアマンの順位相関係数又はスピアマンのρ(ロー)係数となるように指定することができる。上述のように、動的外れ値偏り低減は、外れ値として識別されるデータ値を体系的に除去するべく使用される。基礎となるモデル又はプロセスの代表が記述されるわけではない。通常、外れ値は、相対的に少数のデータ値に関連付けられる。しかしながら実際は、データセットは、知らぬ間に疑似値又はランダムノイズで汚染され得る。図5、6A、6B、7A、7B、8A及び8Bのグラフ図は、基礎となるモデルがデータによってサポートされない状況を識別するべく、動的外れ値偏り低減システム及び方法をどのようにして適用することができるのかを例示する。外れ値低減は、予測モデルと実際データ値との間で計算された相対及び/又は絶対誤差が、例えば80%のような百分位数に基づく偏り基準よりも大きいデータ値を除去することによって行われる。これが意味するのは、相対又は絶対誤差百分位数の値が、第80百分位数(データ値の80%がこの値未満の誤差を有する)に関連付けられた百分位数しきい値よりも大きい場合に、データ値が除去されるということである。
図5に例示されるように、実際データセットの範囲内で展開された現実的モデル展開データセット及びランダム値のデータセットの双方が対比される。実際には、分析者が任意のデータセット汚染について先行知識を有していないのが典型的であるから、かかる理解は、動的外れ値偏り低減システム及び方法を使用していくつかのモデル計算からの反復結果を観測することに基づく必要がある。図5は、双方のデータセットに対する一例のモデル展開計算結果を例示する。標準誤差、すなわちモデルで説明がつかない誤差量の尺度が、どの程度のデータばらつきが当該モデルによって説明されるのかを表す決定係数(%)又はrに対してプロットされる。各点の隣にある百分位数の値が偏り基準を表す。例えば、90%は、第90百分位数よりも大きな相対又は絶対誤差値に対するデータ値が当該モデルから外れ値として除去されることを示す。これは、最高誤差を有するデータ値の10%を反復ごとに除去することに対応する。
図5に例示されるように、ランダム及び現実的データセットモデルの双方に対し、偏り基準を増加させることによって誤差が低減される。すなわち、標準誤差及び決定係数が双方のデータセットに対して改善される。しかしながら、ランダムデータセットに対する標準誤差は、現実的モデルデータセットよりも2倍から3倍大きくなる。分析者は、80%の決定係数要件を、例えばモデルパラメータを決定するための許容可能精度レベルとして使用することができる。図5では、ランダムデータセットに対する70%の偏り基準において、及び現実的データに対する近似的に85%の偏り基準において80%のrが達成される。しかしながら、ランダムデータセットに対する対応標準誤差は、現実的データセットのものよりも2倍以上大きい。すなわち、モデルデータセット分析を異なる偏り基準で体系的に実行し、かつ、計算を代表的な疑似データセットで繰り返して図5に示されるように結果をプロットすることにより、分析者は、データセットに対する許容可能な偏り基準(すなわち除去されたデータ値の許容可能なパーセント)、ひいては全体的なデータセット品質を評価することができる。さらに、かかる体系的なモデルデータセット分析は、設定可能なパラメータセットに基づくモデル展開において使用されるデータセットの実現性に関するアドバイスを自動的に与えるべく使用することができる。例えば、データセットに対する動的外れ値偏り除去を使用してモデルが展開される一実施形態において、異なる偏り基準のもとで計算されたモデルデータセットに対する及び代表的疑似データセットに対する誤差及び相関係数の値は、展開されたモデルをサポートする際のデータセットの実現性、及び本質的にはデータセットをサポートする際の展開されたモデルの実現性に関するアドバイスを自動的に与えるべく使用することができる。
図5に例示されるように、いくつかのケースに対してこれらのモデルパフォーマンス値の挙動を観測することにより、データ値が、モデル化されるプロセスを代表するか否かを決定するための定量的土台を得ることができる。例えば、図5を参照すると、100%の偏り基準(すなわち偏り低減なし)における現実的データセットに対する標準誤差は、近似的に65%の偏り基準(すなわち最高誤差が除去されたデータ値の35%)におけるランダムデータセットに対する標準誤差に対応する。かかる知見により、データが汚染されていないとの結論がサポートされる。
図5の例示的なグラフにより容易とされる上述の定量分析に加え、動的外れ値偏り低減は、強力ではなくても同等の、データセットの品質評価を補助する主観的手順において利用することができる。これは、外れ値及び包含される結果の双方に対し、モデル予測値を、データが与える実際目標値に対してプロットすることにより行われる。
図6A及び6Bは、図5における現実的曲線及びランダム曲線双方の、100%の点に対する当該プロットを例示する。図6Aにおける大きな散布は、任意の目標値に、及び結果的にモデルが意図的なランダム性にフィッティングできないことに一致する。図6Bは、実際のデータの集まりに一致しかつ一般的であって、モデル予測及び実際値が、モデル予測値が実際目標値に等しい線(以下実際=予測線とする)付近に群をなしている。
図7A及び7Bは、図5における70%の点からの結果を例示する(すなわちデータの30%が外れ値として除去されている)。図7A及び7Bにおいて外れ値偏り低減は、実際=予測線から最も離れた点を除去するように示されているが、図7A及び7B間のモデル正確性の大きなばらつきが示すのは、このデータセットがモデル化されるプロセスを表していることである。
図8A及び8Bは、図5における50%の点からの結果を示す(すなわちデータの50%が外れ値として除去されている)。このケースでは、データの約半数が外れ値として識別されており、これほどのばらつきがデータセットから除去されてもなお、モデルは図8Aにおいて、ランダムデータセットを厳密に記述するわけではない。実際=予測線付近の一般的なばらつきは、各ケースでの除去済みデータを考慮すれば図6A及び7Aにおけるものとほぼ同様である。図8Bは、ばらつきの50%が除去された場合、モデルが、実際データに厳密にマッチする予測結果を生成できたことを示す。図5に示されたパフォーマンス基準の分析に加え、これらのタイプの可視プロットの分析は、分析者が、モデル展開に対する実施において実際データセットの品質を評価するべく使用することができる。図5、6A、6B、7A、7B、8A及び8Bは、可視プロットを例示する。ここで、分析は、様々な偏り基準値に対応するパフォーマンス基準傾向に基づく。他の実施形態では、分析は、分析者が選択する様々な偏り基準に対応するモデル係数傾向のような、偏り基準値に対応する他の変数に基づき得る。
本発明の好ましい実施形態の上記開示及び記載は、図示的かつ例示的であって、当業者には、例示のシステム及び方法の詳細において、本発明の範囲を逸脱することなく様々な変更をなし得ることが理解される。

Claims (46)

  1. コンピュータに実装された方法であって、
    外れ値偏りを低減するステップを含み、
    前記外れ値偏りを低減するステップは、
    一以上の外れ値を決定するべく使用される一の偏り基準を選択するステップと、
    少なくとも一つの変数に対して集められたすべての実際値を含む一の完成データセットを与えるステップと、
    数学モデルに関連付けられた複数のモデル係数の一セットを与えるステップと、
    (1)前記数学モデルの前記完成データセットへの適用に基づいて、前記完成データセットに対する複数の予測値の一セットをプロセッサが生成するステップと、
    (2)前記複数の予測値の一セットを、前記完成データセットの対応実際値と対比することによって一の誤差セットを前記プロセッサが生成するステップと、
    (3)前記誤差セット及び前記偏り基準に基づいて複数の誤差しきい値の一セットを前記プロセッサが生成するステップと、
    (4)前記複数の誤差しきい値の一セットの外にある対応誤差セット値を有する前記完成データセットの要素を含む除去データセットを前記プロセッサが生成するステップと、
    (5)前記除去データセット内には存在しない前記完成データセットのすべての要素を含む一の打ち切データセットを前記プロセッサが生成するステップと、
    (6)前記打ち切データセットに基づいて、前記数学モデルに関連付けられた複数の更新モデル係数の一セットを前記プロセッサが生成するステップと、
    (7)一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(6)を一反復として繰り返し、前記反復において、前記複数の予測値の一セット、前記誤差セット、前記複数の誤差しきい値の一セット、前記除去データセット、及び前記打ち切データセットが、前記複数の更新モデル係数の一セットを使用して生成されるステップと
    を含む方法。
  2. 前記複数の予測値の一セットは、前記完成データセット及び前記複数のモデル係数の一セットに基づいて生成され、
    前記複数の予測値の一セットは独立的に、前記少なくとも一つの変数に対して集められた前記すべての実際値から生成される、請求項1に記載の方法。
  3. 前記誤差セットは、式:相対誤差=((予測値−実際値)/実際値(「m」は参照番号)を使用して生成された複数の相対誤差の一セットである、請求項1に記載の方法。
  4. 前記誤差セットは、式:絶対誤差=(予測値−実際値(「m」は参照番号)を使用して生成された複数の絶対誤差の一セットである、請求項1に記載の方法。
  5. 前記誤差セットは、複数の絶対誤差の一セット及び複数の相対誤差の一セットである、請求項1に記載の方法。
  6. 前記誤差セットは、前記対応実際値と前記複数の予測値の一セットとの差分である、請求項1に記載の方法。
  7. 前記複数の更新モデル係数の一セットは、前記打ち切データセット及び前記複数のモデル係数の一セットに基づいて生成される、請求項1に記載の方法。
  8. 前記外れ値偏りを低減するステップは、
    前記複数のモデル係数の一セット及び前記対応実際値に基づいて複数のパフォーマンス値の一セットを生成するステップと、
    前記複数の更新モデル係数の一セット及び前記対応実際値に基づいて複数の更新パフォーマンス値の一セットを生成するステップと
    をさらに含み、
    前記打ち切りパフォーマンス終了基準を満たすことは、前記複数のパフォーマンス値の一セット及び前記複数の更新パフォーマンス値の一セットに基づく、請求項1に記載の方法。
  9. 前記複数のパフォーマンス値の一セットは、第1標準誤差値及び第1決定係数値の少なくとも一つを含み、
    前記複数の更新パフォーマンス値の一セットは、第2標準誤差値及び第2決定係数値の少なくとも一つを含む、請求項8に記載の方法。
  10. 前記打ち切りパフォーマンス終了基準は一の標準誤差を含む、請求項1に記載の方法。
  11. 前記打ち切りパフォーマンス終了基準は一の決定係数を含む、請求項1に記載の方法。
  12. 前記複数の更新モデル係数の一セットを生成するステップは、前記複数の予測値の一セットと前記対応実際値との間の前記複数の誤差の一セットを最小化するステップをさらに含む、請求項1に記載の方法。
  13. 前記複数の予測値の一セットと前記対応実際値との間の前記複数の誤差の一セットは、非線形最適化モデルを使用して最小化される、請求項12に記載の方法。
  14. 前記複数の予測値の一セットと前記対応実際値との間の前記複数の誤差の一セットは、線形最適化モデルを使用して最小化される、請求項12に記載の方法。
  15. 前記完成データセットは、工業プラント施設、発電施設、及び精製施設の少なくとも一つである施設に対する複数のパフォーマンス値を含む、請求項1に記載の方法。
  16. 前記外れ値偏りを低減するステップは、
    前記完成データセットに基づいて一のランダムデータセットを生成するステップと、
    前記打ち切りパフォーマンス終了基準が満たされるまで前記ランダムデータセットに対してステップ(1)〜(6)を繰り返すステップと、
    前記偏り基準に対応する前記完成データセット及び前記ランダムデータセットに対して複数の最終パフォーマンス値の一セットを生成するステップと、
    第2偏り基準を選択するステップと、
    前記第2偏り基準を使用して前記打ち切りパフォーマンス終了基準が満たされるまで前記完成データセット及び前記ランダムデータセットに対してステップ(1)〜(6)を繰り返すステップと、
    前記第2偏り基準に基づいて前記完成データセット及び前記ランダムデータセットに対して複数の最終パフォーマンス値の第2セットを生成するステップと、
    前記完成データセットに対する前記複数の最終パフォーマンス値の一セット及び前記複数の最終パフォーマンス値の第2セットを、前記ランダムデータセットに対する前記複数の最終パフォーマンス値の一セット及び前記複数の最終パフォーマンス値の第2セットと対比するステップと
    をさらに含む、請求項1に記載の方法。
  17. 前記ランダムデータセットは、前記完成データセットにおける前記値の範囲内にある複数の値から展開された複数の任意抽出データ値からなる、請求項16に記載の方法。
  18. コンピュータに実装された方法であって、
    外れ値偏りを低減するステップを含み、
    前記外れ値偏りを低減するステップは、
    施設に対する少なくとも一つの目標変数を選択するステップと、
    前記少なくとも一つの目標変数に対して決定された複数の実際値の一セットを選択するステップと、
    前記施設に対する一の完成データセットを取得するステップであって、前記完成データセットは、前記少なくとも一つの目標変数に対して集められたすべての実際値を含むステップと、
    一以上の外れ値を識別することに対応する一の偏り基準を選択するステップと、
    少なくとも一つの数学モデルにおいて使用される複数のモデル係数の一セットを選択するステップと、
    (1)前記少なくとも一つの数学モデルを前記完成データセットに適用することから決定された複数の予測値の一セットをプロセッサが生成するステップと、
    (2)前記複数の予測値の一セット及び前記複数の実際値の一セットから決定された複数の打ち切りモデルパフォーマンス値の一セットを前記プロセッサが生成するステップと、
    (3)前記少なくとも一つの目標変数に対する前記複数の予測値の一セット及び前記複数の実際値の一セットから決定された一の誤差セットを前記プロセッサが生成するステップと、
    (4)前記誤差セット及び前記偏り基準から決定された複数の誤差しきい値の一セットを前記プロセッサが生成するステップと、
    (5)前記複数の誤差しきい値の一セットの外にある対応誤差セット値を有する前記完成データセットの要素を含む除去データセットを前記プロセッサが生成するステップと、
    (6)前記除去データセット内には存在しない前記完成データセットのすべての要素を含む一の打ち切データセットを前記プロセッサが生成するステップと、
    (7)前記打ち切データセット及び前記複数のモデル係数の一セットから決定された前記少なくとも一つの数学モデルに関連付けられた複数の更新モデル係数の一セットを前記プロセッサが生成するステップと、
    (8)前記完成データセット及び前記複数の更新モデル係数の一セットから決定された複数の更新予測値の一セットを前記プロセッサが生成するステップと、
    (9)前記複数の更新予測値の一セット及び前記複数の実際値の一セットに基づいて複数の更新打ち切りモデルパフォーマンス値の一セットを前記プロセッサが生成するステップと、
    一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(9)を一反復として繰り返し、前記反復において、前記複数の予測値の一セット、前記誤差セット、前記複数の誤差しきい値の一セット、前記除去データセット、及び前記打ち切データセットが、前記複数の更新モデル係数の一セットを使用して生成され、前記打ち切りパフォーマンス終了基準が満たされることは、前記複数の打ち切りモデルパフォーマンス値の一セット及び前記複数の更新打ち切りモデルパフォーマンス値の一セットから決定されるステップと、
    前記複数の更新予測値の一セットを非一時的コンピュータデータ媒体に格納するステップと
    を含む方法。
  19. 前記偏り基準は、一の相対誤差及び一の絶対誤差の少なくとも一つを含み、
    前記複数の予測値の一セットは独立的に、前記少なくとも一つの目標変数に対して集められた前記すべての実際値から生成される、請求項18に記載の方法。
  20. 前記複数の打ち切りモデルパフォーマンス値の一セットは第1標準誤差及び第1決定係数を含み、
    前記複数の更新打ち切りモデルパフォーマンス値の一セットは第2標準誤差及び第2決定係数を含む、請求項18に記載の方法。
  21. 前記誤差セットは、一の相対誤差及び一の絶対誤差の少なくとも一つを含み、
    前記誤差セットは、前記目標変数に対する前記複数の予測値の一セットと前記複数の実際値の一セットとの対比によって生成される、請求項18に記載の方法。
  22. 前記複数の更新モデル係数の一セットは、一の線形最適化モデル及び一の非線形最適化モデルの少なくとも一つを使用して前記複数の予測値の一セットと前記複数の実際値の一セットとの間の誤差を最小化することによって生成される、請求項18に記載の方法。
  23. 前記打ち切りパフォーマンス終了基準は、一の標準誤差終了値及び一の決定係数終了値を含み、
    前記打ち切りパフォーマンス終了基準を満たすことは、前記標準誤差終了値が前記第1標準誤差及び第2標準誤差間の差分よりも大きくかつ前記決定係数終了値が前記第1決定係数及び第2決定係数間の差分よりも大きいことを含む、請求項20に記載の方法。
  24. システムであって、
    プロセッサ及び格納サブシステムを含むサーバと、
    少なくとも一つの変数に対して集められたすべての実際値を含む一の完成データセットを含みかつ前記格納サブシステムによって格納されるデータベースと、
    前記格納サブシステムによって格納されるコンピュータプログラムと
    を含み、
    前記コンピュータプログラムは、実行されると前記プロセッサに、
    一以上の外れ値を決定することに関連付けられた一の偏り基準を選択することと、
    数学モデルに関連付けられた複数のモデル係数の一セットを与えることと、
    (1)前記数学モデルを前記完成データセットに適用することに基づいて前記完成データセットに対する複数の予測値の一セットを生成することと、
    (2)前記複数の予測値の一セットと前記完成データセットの対応実際値との対比によって一の誤差セットを生成することと、
    (3)前記誤差セット及び前記偏り基準に基づいて複数の誤差しきい値の一のセットを生成することと、
    (4)前記複数の誤差しきい値の一セットの外にある対応誤差セット値を有する前記完成データセットの要素を含む除去データセットを生成することと、
    (5)前記除去データセット内には存在しない前記完成データセットのすべての要素を含む一の打ち切データセットを生成することと、
    (6)前記打ち切データセットに基づいて前記数学モデルに関連付けられた複数の更新モデル係数の一セットを生成することと、
    (7)一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(6)を一反復として繰り返して外れ値偏り低減をもたらし、前記反復において、前記複数の予測値の一セット、前記誤差セット、前記複数の誤差しきい値の一セット、前記除去データセット、及び前記打ち切データセットが、前記複数の更新モデル係数の一セットを使用して再生成されることと
    を引き起こすことによって外れ値偏りを低減する命令を含むシステム。
  25. 前記複数の予測値の一セットは、前記完成データセット及び複数のモデル係数の前記セットに基づいて生成され、
    前記複数の予測値の一セットは独立的に、前記少なくとも一つの変数に対して集められた前記すべての実際値から生成される、請求項24に記載のシステム。
  26. 前記誤差セットは、式:相対誤差=((予測値−実際値)/実際値(「m」は参照番号)を使用して生成された複数の相対誤差の一セットである、請求項24に記載のシステム。
  27. 前記誤差セットは、式:絶対誤差=(予測値−実際値(「m」は参照番号)を使用して生成された複数の絶対誤差の一セットである、請求項24に記載のシステム。
  28. 前記誤差セットは、複数の絶対誤差の一セット及び複数の相対誤差の一セットである、請求項24に記載のシステム。
  29. 前記誤差セットは、前記対応実際値と前記複数の予測値の一セットとの差分である、請求項24に記載のシステム。
  30. 前記複数の更新モデル係数の一セットは、前記打ち切データセット及び前記複数のモデル係数の一セットに基づいて生成される、請求項24に記載のシステム。
  31. 前記コンピュータプログラムは、実行されると前記プロセッサに、
    前記複数のモデル係数の一セット及び前記対応実際値に基づいて複数のパフォーマンス値の一セットを生成することと、
    前記複数の更新モデル係数の一セット及び前記対応実際値に基づいて複数の更新パフォーマンス値の一セットを生成することと
    を引き起こすことにより外れ値偏りを低減する命令をさらに含み、
    前記打ち切りパフォーマンス終了基準を満たすことは、前記複数のパフォーマンス値の一セット及び前記複数の更新パフォーマンス値の一セットに基づく、請求項24に記載のシステム。
  32. 前記複数のパフォーマンス値の一セットは、第1標準誤差値及び第1決定係数値の少なくとも一つを含み、
    前記複数の更新パフォーマンス値の一セットは、第2標準誤差値及び第2決定係数値の少なくとも一つを含む、請求項31に記載のシステム。
  33. 前記打ち切りパフォーマンス終了基準は一の標準誤差を含む、請求項24に記載のシステム。
  34. 前記打ち切りパフォーマンス終了基準は一の決定係数を含む、請求項24に記載のシステム。
  35. 前記複数の更新モデル係数の一セットを生成することは、実行されると前記プロセッサに、前記複数の予測値の一セットと前記対応実際値との間の前記複数の誤差の一セットを最小化することを引き起こすことにより外れ値偏りを低減する命令を含む、請求項24に記載のシステム。
  36. 前記複数の予測値の一セットと前記対応実際値との間の前記複数の誤差の一セットは、非線形最適化モデルを使用して最小化される、請求項35に記載のシステム。
  37. 前記複数の予測値の一セットと前記対応実際値との間の前記複数の誤差の一セットは、線形最適化モデルを使用して最小化される、請求項35に記載のシステム。
  38. 前記完成データセットは、工業プラント施設、発電施設、及び精製施設の少なくとも一つである施設に対する複数のパフォーマンス値を含む、請求項24に記載のシステム。
  39. 前記コンピュータプログラムは、実行されると前記プロセッサに、
    前記完成データセットに基づいて一のランダムデータセットを生成することと、
    前記打ち切りパフォーマンス終了基準が満たされるまで前記ランダムデータセットに対してステップ(1)〜(6)を繰り返すことと、
    前記偏り基準に対応する前記完成データセット及び前記ランダムデータセットに対して複数の最終パフォーマンス値の一セットを生成することと、
    第2偏り基準を選択することと、
    前記第2偏り基準を使用して前記打ち切りパフォーマンス終了基準が満たされるまで前記完成データセット及び前記ランダムデータセットに対してステップ(1)〜(6)を繰り返すことと、
    前記第2偏り基準に基づいて前記完成データセット及び前記ランダムデータセットに対して複数の最終パフォーマンス値の第2セットを生成することと、
    前記完成データセットに対する前記複数の最終パフォーマンス値の一セット及び前記複数の最終パフォーマンス値の第2セットを、前記ランダムデータセットに対する前記複数の最終パフォーマンス値の一セット及び前記複数の最終パフォーマンス値の第2セットと対比することと
    を引き起こす命令をさらに含む、請求項24に記載のシステム。
  40. 前記ランダムデータセットは、前記完成データセットにおける前記値の範囲内にある複数の値から展開された複数の任意抽出データ値からなる、請求項39に記載のシステム。
  41. システムであって、
    プロセッサ及び非一時的格納サブシステムを含むサーバと、
    前記非一時的格納サブシステムによって格納されるデータベースであって、
    施設に対する少なくとも一つの目標変数と、
    前記少なくとも一つの目標変数に対して決定された複数の実際値の一セットと、
    前記施設に対する一の完成データセットであって、前記完成データセットは、前記少なくとも一つの目標変数から集められたすべての実際値を含むデータセットと
    を含むデータベースと、
    前記非一時的格納サブシステムによって格納されるコンピュータプログラムと
    を含み、
    前記コンピュータプログラムは、実行されると前記プロセッサに、
    一以上の外れ値を識別する一の偏り基準を選択することと、
    少なくとも一つの数学モデルにおいて使用される複数のモデル係数の一セットを選択することと、
    (1)前記少なくとも一つの数学モデルを前記完成データセットに適用することから決定された複数の予測値の一セットを生成することと、
    (2)前記複数の予測値の一セット及び前記複数の実際値の一セットから決定された複数の打ち切りモデルパフォーマンス値の一セットを生成することと、
    (3)前記少なくとも一つの目標変数に対する前記複数の予測値の一セット及び前記複数の実際値の一セットに基づいて一の誤差セットを生成することと、
    (4)前記誤差セット及び前記偏り基準から決定された複数の誤差しきい値の一セットを生成することと、
    (5)前記複数の誤差しきい値の一セットの外にある対応誤差セット値を有する前記完成データセットの要素を含む除去データセットを生成することと、
    (6)前記除去データセットの一部ではない前記完成データセットのすべての要素を含む、決定された一の打ち切データセットを生成することと、
    (7)前記打ち切データセット及び前記複数のモデル係数の一セットから決定されかつ前記数学モデルに関連付けられた複数の更新モデル係数の一セットを生成することと、
    (8)前記完成データセット及び前記複数の更新モデル係数の一セットから決定された複数の更新予測値の一セットを生成することと、
    (9)前記複数の更新予測値の一セット及び前記複数の実際値の一セットから決定された複数の更新打ち切りモデルパフォーマンス値の一セットを生成することと、
    一の打ち切りパフォーマンス終了基準が満たされるまでステップ(1)〜(9)を一反復として繰り返して外れ値偏りを低減することであって、前記反復において、前記複数の予測値の一セット、前記誤差セット、前記複数の誤差しきい値の一セット、前記除去データセット、及び前記打ち切データセットが、前記複数の更新モデル係数の一セットを使用して再生成され、前記打ち切りパフォーマンス終了基準が満たされることは、前記複数の打ち切りモデルパフォーマンス値の一セット及び前記複数の更新打ち切りモデルパフォーマンス値の一セットから決定されることと、
    前記複数の更新予測値の一セットを前記非一時的格納サブシステムに格納することと
    を引き起こすことによって外れ値偏りを低減する命令を含むシステム。
  42. 前記偏り基準は、一の相対誤差及び一の絶対誤差の少なくとも一つを含み、
    前記複数の予測値の一セットは独立的に、前記少なくとも一つの目標変数に対して集められた前記すべての実際値から生成される、請求項41に記載のシステム。
  43. 前記複数の打ち切りモデルパフォーマンス値の一セットは第1標準誤差及び第1決定係数を含み、
    前記複数の更新打ち切りモデルパフォーマンス値の一セットは第2標準誤差及び第2決定係数を含む、請求項41に記載のシステム。
  44. 前記誤差セットは、一の相対誤差及び一の絶対誤差の少なくとも一つを含み、
    前記誤差セットは、前記少なくとも一つの目標変数に対する前記複数の予測値の一セットと前記複数の実際値の一セットとの対比によって生成される、請求項41に記載のシステム。
  45. 一の打ち切られた因子を生成することは、実行されると前記プロセッサに、前記複数の予測値の一セットと前記複数の実際値の一セットとの間の前記複数の誤差の一セットを最小化することを引き起こして外れ値偏りを低減する命令を含む、請求項41に記載のシステム。
  46. 前記打ち切りパフォーマンス終了基準は、一の標準誤差終了値及び一の決定係数終了値を含み、
    前記打ち切りパフォーマンス終了基準を満たすことは、前記標準誤差終了値が前記第1標準誤差及び第2標準誤差間の差分よりも大きくかつ前記決定係数終了値が前記第1決定係数及び第2決定係数間の差分よりも大きいことを含む、請求項43に記載のシステム。
JP2014527202A 2011-08-19 2012-08-17 動的外れ値偏り低減システム及び方法 Active JP5982489B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/213,780 2011-08-19
US13/213,780 US9069725B2 (en) 2011-08-19 2011-08-19 Dynamic outlier bias reduction system and method
PCT/US2012/051390 WO2013028532A1 (en) 2011-08-19 2012-08-17 Dynamic outlier bias reduction system and method

Publications (3)

Publication Number Publication Date
JP2014524629A JP2014524629A (ja) 2014-09-22
JP2014524629A5 JP2014524629A5 (ja) 2015-10-08
JP5982489B2 true JP5982489B2 (ja) 2016-08-31

Family

ID=46981069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014527202A Active JP5982489B2 (ja) 2011-08-19 2012-08-17 動的外れ値偏り低減システム及び方法

Country Status (7)

Country Link
US (6) US9069725B2 (ja)
EP (2) EP2745213A1 (ja)
JP (1) JP5982489B2 (ja)
KR (1) KR102024953B1 (ja)
CN (3) CN104254848B (ja)
CA (2) CA3197787A1 (ja)
WO (1) WO2013028532A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10409891B2 (en) 2014-04-11 2019-09-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US10557840B2 (en) 2011-08-19 2020-02-11 Hartford Steam Boiler Inspection And Insurance Company System and method for performing industrial processes across facilities
US11288602B2 (en) 2019-09-18 2022-03-29 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11334645B2 (en) 2011-08-19 2022-05-17 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785890B2 (en) * 2012-08-10 2017-10-10 Fair Isaac Corporation Data-driven product grouping
US9606055B2 (en) * 2013-01-09 2017-03-28 Ppg Industries Ohio, Inc. Systems and methods for statistical measurement control of spectrophotometric data
US11321775B2 (en) * 2013-06-27 2022-05-03 Euroclear Sa/Nv Asset inventory system
EP2854045B1 (de) 2013-09-27 2016-04-06 Deutsche Telekom AG Verfahren und System zum Bewerten von erhobenen Messwerten eines Systems
US10162345B2 (en) 2015-04-21 2018-12-25 International Business Machines Corporation Enhanced emergency reporting system
CN104897537B (zh) * 2015-06-11 2017-08-08 杭州电子科技大学 基于无人机的pm2.5浓度采集装置和数据过滤方法
EP3107000A3 (en) * 2015-06-17 2016-12-28 Tata Consultancy Services Limited System and method for detecting outliers in real-time for a univariate time-series signal
US10884999B2 (en) * 2015-10-28 2021-01-05 Qomplx, Inc. Distributable model with biases contained within distributed data
US10860951B2 (en) 2015-10-28 2020-12-08 Qomplx, Inc. System and method for removing biases within a distributable model
US10628456B2 (en) 2015-10-30 2020-04-21 Hartford Fire Insurance Company Universal analytical data mart and data structure for same
US11244401B2 (en) 2015-10-30 2022-02-08 Hartford Fire Insurance Company Outlier system for grouping of characteristics
US10942929B2 (en) 2015-10-30 2021-03-09 Hartford Fire Insurance Company Universal repository for holding repeatedly accessible information
US10102241B2 (en) 2016-05-20 2018-10-16 Microsoft Technology Licensing, Llc Detecting errors in spreadsheets
CN108510068A (zh) * 2017-02-27 2018-09-07 顾泽苍 一种超深度回归分析学习方法
CN108510070A (zh) * 2017-02-27 2018-09-07 顾泽苍 一种穿越不同空间的模糊事件概率测度值的获得方法
US10706028B2 (en) * 2017-04-25 2020-07-07 Citrix Systems, Inc. Detecting outliers in server transaction time as a form of time series data
CN107943582B (zh) * 2017-11-14 2020-08-04 Oppo广东移动通信有限公司 特征处理方法、装置、存储介质及电子设备
CN109995573B (zh) * 2018-01-02 2022-04-01 中国移动通信有限公司研究院 确定用于预测计算资源的样本空间的方法、计算资源分配方法及装置
US11860971B2 (en) * 2018-05-24 2024-01-02 International Business Machines Corporation Anomaly detection
US10831592B1 (en) * 2018-09-27 2020-11-10 Juniper Networks, Inc Apparatus, system, and method for correcting slow field-replaceable units in network devices
US11507859B2 (en) 2019-01-08 2022-11-22 Colorado State University Research Foundation Trackable reasoning and analysis for crowdsourcing and evaluation
CN110458416B (zh) * 2019-07-17 2023-06-27 创新先进技术有限公司 风控方法及风控装置
KR102634916B1 (ko) * 2019-08-29 2024-02-06 주식회사 엘지에너지솔루션 온도 추정 모델 결정 방법 및 장치, 온도 추정 모델이 적용된 배터리 관리 시스템
CN111125909B (zh) * 2019-12-24 2023-03-31 奇瑞汽车股份有限公司 一种一维汽车热管理模型的自动化标定方法
US20220067122A1 (en) * 2020-08-26 2022-03-03 Coupang Corp. System and method for capping outliers during an experiment test
US12051110B2 (en) * 2020-09-09 2024-07-30 Chicago Mercantile Exchange Inc. Linear model partitioner
CN114781085B (zh) * 2022-04-20 2023-07-04 江苏大学镇江流体工程装备技术研究院 一种实时动态迭代优化的叶轮设计方法
CN117330987B (zh) * 2023-12-01 2024-02-20 国网山西省电力公司营销服务中心 基于时间的电池健康状态评估的方法、系统、介质和设备

Family Cites Families (146)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0227976Y2 (ja) 1986-03-19 1990-07-27
US5339392A (en) 1989-07-27 1994-08-16 Risberg Jeffrey S Apparatus and method for creation of a user definable video displayed document showing changes in real time data
ES2202433T3 (es) 1995-10-12 2004-04-01 Yazaki Corporation Dispositivo para calcular una mala distribucion de la carga en un vehiculo y dispositivo para calcular la carga del vehiculo.
US7010336B2 (en) 1997-08-14 2006-03-07 Sensys Medical, Inc. Measurement site dependent data preprocessing method for robust calibration and prediction
US6085216A (en) 1997-12-31 2000-07-04 Xerox Corporation Method and system for efficiently allocating resources for solving computationally hard problems
JP2001318745A (ja) 2000-05-11 2001-11-16 Sony Corp データ処理装置およびデータ処理方法、並びに記録媒体
US6847976B1 (en) * 2000-06-15 2005-01-25 Terrence B. Peace Method and apparatus for significance testing and confidence interval construction based on user-specified distribution
US20040172401A1 (en) * 2000-06-15 2004-09-02 Peace Terrence B. Significance testing and confidence interval construction based on user-specified distributions
US6832205B1 (en) 2000-06-30 2004-12-14 General Electric Company System and method for automatically predicting the timing and costs of service events in a life cycle of a product
US7124059B2 (en) 2000-10-17 2006-10-17 Accenture Global Services Gmbh Managing maintenance for an item of equipment
US6988092B1 (en) 2000-12-28 2006-01-17 Abb Research Ltd. Method for evaluation of energy utilities
US7043461B2 (en) 2001-01-19 2006-05-09 Genalytics, Inc. Process and system for developing a predictive model
US7039654B1 (en) 2002-09-12 2006-05-02 Asset Trust, Inc. Automated bot development system
US20030171879A1 (en) 2002-03-08 2003-09-11 Pittalwala Shabbir H. System and method to accomplish pipeline reliability
US7313550B2 (en) 2002-03-27 2007-12-25 Council Of Scientific & Industrial Research Performance of artificial neural network models in the presence of instrumental noise and measurement errors
US20070219741A1 (en) * 2005-05-20 2007-09-20 Emilio Miguelanez Methods and apparatus for hybrid outlier detection
JP4042492B2 (ja) 2002-08-07 2008-02-06 トヨタ自動車株式会社 エンジン制御パラメータの適合方法及び適合システム
US20040122625A1 (en) 2002-08-07 2004-06-24 Nasser Loren A. Apparatus and method for predicting total ownership cost
JP4109527B2 (ja) * 2002-10-01 2008-07-02 新日本製鐵株式会社 制御モデルの学習方法、制御モデルの学習装置、コンピュータプログラム、及びコンピュータ読み取り可能な記憶媒体
JP2004145496A (ja) 2002-10-23 2004-05-20 Hitachi Ltd 機器設備の保守支援方法
JP2004191359A (ja) 2002-10-24 2004-07-08 Mitsubishi Heavy Ind Ltd リスクマネージメント装置
JP3968039B2 (ja) 2003-03-06 2007-08-29 東京電力株式会社 保守計画立案支援方法及び装置
US7634384B2 (en) 2003-03-18 2009-12-15 Fisher-Rosemount Systems, Inc. Asset optimization reporting in a process plant
WO2004111201A2 (en) 2003-06-11 2004-12-23 Research Foundation Of State University Of New York Data classification using point-wise tests
DE10331207A1 (de) 2003-07-10 2005-01-27 Daimlerchrysler Ag Verfahren und Vorrichtung zur Vorhersage einer Ausfall-Häufigkeit
CN1209724C (zh) * 2003-08-04 2005-07-06 西安交通大学 基于概率模型的设备状态动态自适应报警方法
WO2005015476A2 (en) 2003-08-07 2005-02-17 Hsb Solomon Associates, Llc System and method for determining equivalency factors for use in comparative performance analysis of industrial facilities
US20050125322A1 (en) 2003-11-21 2005-06-09 General Electric Company System, method and computer product to detect behavioral patterns related to the financial health of a business entity
US20050131794A1 (en) 2003-12-15 2005-06-16 Lifson Kalman A. Stock portfolio and method
EP1548623A1 (en) 2003-12-23 2005-06-29 Sap Ag Outlier correction
SG149899A1 (en) 2004-02-06 2009-02-27 Test Advantage Inc Methods and apparatus for data analysis
EP1718962B1 (en) 2004-02-13 2016-04-13 Waters Technologies Corporation System and method for tracking and quantitating chemical entities
US7469228B2 (en) 2004-02-20 2008-12-23 General Electric Company Systems and methods for efficient frontier supplementation in multi-objective portfolio analysis
CA2501003C (en) 2004-04-23 2009-05-19 F. Hoffmann-La Roche Ag Sample analysis to provide characterization data
AU2005253651A1 (en) 2004-06-21 2005-12-29 Intersection Medical, Inc. Cardiac monitoring system
DE102004032822A1 (de) 2004-07-06 2006-03-23 Micro-Epsilon Messtechnik Gmbh & Co Kg Verfahren zur Verarbeitung von Messwerten
US20060069667A1 (en) 2004-09-30 2006-03-30 Microsoft Corporation Content evaluation
US20060247798A1 (en) 2005-04-28 2006-11-02 Subbu Rajesh V Method and system for performing multi-objective predictive modeling, monitoring, and update for an asset
US7536364B2 (en) 2005-04-28 2009-05-19 General Electric Company Method and system for performing model-based multi-objective asset optimization and decision-making
US8195484B2 (en) 2005-06-15 2012-06-05 Hartford Steam Boiler Inspection And Insurance Company Insurance product, rating system and method
US7966150B2 (en) 2005-11-17 2011-06-21 Florida Power & Light Company Data analysis applications
US8290753B2 (en) 2006-01-24 2012-10-16 Vextec Corporation Materials-based failure analysis in design of electronic devices, and prediction of operating life
EP2013844A4 (en) 2006-04-07 2010-07-07 Hsb Solomon Associates Llc EMISSIONS TRADING PRODUCT AND METHOD
US7447611B2 (en) 2006-05-09 2008-11-04 Hsb Solomon Associates, Llc Power generation performance analysis system and method
US20100262442A1 (en) 2006-07-20 2010-10-14 Standard Aero, Inc. System and method of projecting aircraft maintenance costs
CN101616629A (zh) 2006-08-31 2009-12-30 非线性医药有限公司 用于预测心律失常死亡的自动降噪系统
WO2008033439A2 (en) 2006-09-13 2008-03-20 Aurilab, Llc Robust pattern recognition system and method using socratic agents
US20080104624A1 (en) 2006-11-01 2008-05-01 Motorola, Inc. Method and system for selection and scheduling of content outliers
JP4702851B2 (ja) * 2006-12-07 2011-06-15 Kddi株式会社 トラヒック量変動の上限値を予測するトラヒック量予測装置、プログラム及び方法
KR100877061B1 (ko) 2006-12-14 2009-01-08 엘에스산전 주식회사 다변수 예측제어 시스템 및 방법
JP5116307B2 (ja) 2007-01-04 2013-01-09 ルネサスエレクトロニクス株式会社 集積回路装置異常検出装置、方法およびプログラム
JP2008191900A (ja) 2007-02-05 2008-08-21 Toshiba Corp プラントの信頼性重視保全運用支援システム及び運用支援方法
US8346691B1 (en) * 2007-02-20 2013-01-01 Sas Institute Inc. Computer-implemented semi-supervised learning systems and methods
WO2008126209A1 (ja) 2007-03-27 2008-10-23 Fujitsu Limited 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
US20080300888A1 (en) 2007-05-30 2008-12-04 General Electric Company Systems and Methods for Providing Risk Methodologies for Performing Supplier Design for Reliability
JP2009098093A (ja) 2007-10-19 2009-05-07 Gyoseiin Genshino Iinkai Kakuno Kenkyusho 設備の有効メンテナンスモニタ装置
US8040246B2 (en) 2007-12-04 2011-10-18 Avaya Inc. Systems and methods for facilitating a first response mission at an incident scene
JP5003566B2 (ja) 2008-04-01 2012-08-15 三菱電機株式会社 ネットワーク性能予測システム、ネットワーク性能予測方法およびプログラム
JP4991627B2 (ja) 2008-05-16 2012-08-01 株式会社日立製作所 計画執行管理装置およびそのプログラム
US8352148B2 (en) 2008-05-21 2013-01-08 General Electric Company System for controlling input profiles of combined cycle power generation system
US20160239749A1 (en) 2008-10-28 2016-08-18 Sas Institute Inc. Use of object group models and hierarchies for output predictions
US8386412B2 (en) * 2008-12-12 2013-02-26 At&T Intellectual Property I, L.P. Methods and apparatus to construct histogram and wavelet synopses for probabilistic data
US8509990B2 (en) 2008-12-15 2013-08-13 Panasonic Avionics Corporation System and method for performing real-time data analysis
US9111212B2 (en) 2011-08-19 2015-08-18 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
JP2010250674A (ja) 2009-04-17 2010-11-04 Nec Corp 作業時間予測装置、方法、およびプログラム
US10739741B2 (en) 2009-06-22 2020-08-11 Johnson Controls Technology Company Systems and methods for detecting changes in energy usage in a building
JP2011048688A (ja) 2009-08-27 2011-03-10 Hitachi Ltd プラントライフサイクル評価装置及び方法
GB2486965B (en) 2009-10-21 2016-08-03 Ibm Method and system for improving software execution time by optimizing a performance model
KR101010717B1 (ko) 2009-11-10 2011-01-24 한국동서발전(주) 상태기반 발전소 운전 및 정비 관리 시스템
US8311772B2 (en) 2009-12-21 2012-11-13 Teradata Us, Inc. Outlier processing
CN102117731B (zh) * 2009-12-31 2013-01-02 中芯国际集成电路制造(上海)有限公司 半导体工艺生产流程中的测量数据的监测方法和装置
RU2523191C2 (ru) 2009-12-31 2014-07-20 Абб Рисерч Лтд Способ и система управления для планирования нагрузки электростанции
JP5581965B2 (ja) * 2010-01-19 2014-09-03 オムロン株式会社 Mppt制御器、太陽電池制御装置、太陽光発電システム、mppt制御プログラム、およびmppt制御器の制御方法
US20110246409A1 (en) * 2010-04-05 2011-10-06 Indian Statistical Institute Data set dimensionality reduction processes and machines
CN102081765A (zh) 2011-01-19 2011-06-01 西安交通大学 输电设备状态检修的系统性控制方法
JP5592813B2 (ja) 2011-01-28 2014-09-17 株式会社日立ソリューションズ東日本 生涯需要予測方法、プログラムおよび生涯需要予測装置
US9069725B2 (en) 2011-08-19 2015-06-30 Hartford Steam Boiler Inspection & Insurance Company Dynamic outlier bias reduction system and method
US10557840B2 (en) 2011-08-19 2020-02-11 Hartford Steam Boiler Inspection And Insurance Company System and method for performing industrial processes across facilities
WO2013082724A1 (en) 2011-12-08 2013-06-13 Copperleaf Technologies Inc. Capital asset investment planning apparatus, systems and methods
US9158303B2 (en) 2012-03-27 2015-10-13 General Electric Company Systems and methods for improved reliability operations
US8812331B2 (en) 2012-04-27 2014-08-19 Richard B. Jones Insurance product, rating and credit enhancement system and method for insuring project savings
KR101329395B1 (ko) 2012-06-04 2013-11-14 한국남동발전 주식회사 발전설비 관리 시스템 및 그 제어방법
DE102013009033A1 (de) 2012-07-18 2014-01-23 Tesona Gmbh & Co. Kg Hochtemperaturmesssensoranordnung
US8686364B1 (en) 2012-09-17 2014-04-01 Jp3 Measurement, Llc Method and system for determining energy content and detecting contaminants in a fluid stream
CN103077428B (zh) 2012-12-25 2016-04-06 上海发电设备成套设计研究院 一种厂级多台发电机组可靠性在线预测方法
EP3514700A1 (en) 2013-02-20 2019-07-24 Hartford Steam Boiler Inspection and Insurance Company Dynamic outlier bias reduction system and method
US9536364B2 (en) 2013-02-25 2017-01-03 GM Global Technology Operations LLC Vehicle integration of BLE nodes to enable passive entry and passive start features
US9646262B2 (en) 2013-06-17 2017-05-09 Purepredictive, Inc. Data intelligence using machine learning
CN104254880B (zh) 2013-11-26 2016-03-30 株式会社日本功勒克斯 纸张类处理装置
US10409891B2 (en) 2014-04-11 2019-09-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US9568519B2 (en) 2014-05-15 2017-02-14 International Business Machines Corporation Building energy consumption forecasting procedure using ambient temperature, enthalpy, bias corrected weather forecast and outlier corrected sensor data
JP6444494B2 (ja) 2014-05-23 2018-12-26 データロボット, インコーポレイテッド 予測データ分析のためのシステムおよび技術
US10452992B2 (en) 2014-06-30 2019-10-22 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
CN105436180B (zh) 2015-12-15 2017-12-15 洛阳兰迪玻璃机器股份有限公司 一种真空玻璃等离子体清洗方法和设备
US9996933B2 (en) 2015-12-22 2018-06-12 Qualcomm Incorporated Methods and apparatus for outlier detection and correction of structured light depth maps
US9760690B1 (en) 2016-03-10 2017-09-12 Siemens Healthcare Gmbh Content-based medical image rendering based on machine learning
JP6457421B2 (ja) 2016-04-04 2019-01-23 ファナック株式会社 シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法
US10198339B2 (en) 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
US20190213446A1 (en) 2016-06-30 2019-07-11 Intel Corporation Device-based anomaly detection using random forest models
WO2018004661A1 (en) 2016-07-01 2018-01-04 Intel Corporation Monitoring electrical substation networks
US11429859B2 (en) 2016-08-15 2022-08-30 Cangrade, Inc. Systems and processes for bias removal in a predictive performance model
US20190287039A1 (en) 2016-10-20 2019-09-19 Consolidated Research, Inc. System and method for dynamically evaluating service provider performance
US11315045B2 (en) 2016-12-29 2022-04-26 Intel Corporation Entropy-based weighting in random forest models
US20180307741A1 (en) 2017-04-25 2018-10-25 Intel Corporation Filtering training data for simpler rbf models
CN107391569B (zh) 2017-06-16 2020-09-15 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
US10638979B2 (en) 2017-07-10 2020-05-05 Glysens Incorporated Analyte sensor data evaluation and error reduction apparatus and methods
US10474667B2 (en) 2017-07-29 2019-11-12 Vmware, Inc Methods and systems to detect and correct outliers in a dataset stored in a data-storage device
WO2019033055A1 (en) 2017-08-10 2019-02-14 Clearag, Inc. DEVELOPING COMPLEX AGRICULTURAL SIMULATIONS MODELS FROM LIMITED DATA SETS
JP6837949B2 (ja) 2017-09-08 2021-03-03 株式会社日立製作所 予測システム及び方法
CA3075861A1 (en) 2017-09-15 2019-03-21 Tandemlaunch Inc. System and method for classifying passive human-device interactions through ongoing device context awareness
US11023826B2 (en) 2017-09-29 2021-06-01 Oracle International Corporation System and method for data visualization using machine learning and automatic insight of facts associated with a set of data
US20190108561A1 (en) 2017-10-05 2019-04-11 Mindtree Ltd. Purchase Intent Determination And Real Time In-store Shopper Assistance
EP3483797A1 (en) 2017-11-13 2019-05-15 Accenture Global Solutions Limited Training, validating, and monitoring artificial intelligence and machine learning models
US11423336B2 (en) 2018-03-29 2022-08-23 Nec Corporation Method and system for model integration in ensemble learning
US10521654B2 (en) 2018-03-29 2019-12-31 Fmr Llc Recognition of handwritten characters in digital images using context-based machine learning
US20190313963A1 (en) 2018-04-17 2019-10-17 VideaHealth, Inc. Dental Image Feature Detection
CN109299156A (zh) 2018-08-21 2019-02-01 平安科技(深圳)有限公司 电子装置、基于XGBoost的电力数据异常预测方法及存储介质
US12001949B2 (en) 2018-09-05 2024-06-04 Sartorius Stedim Data Analytics Ab Computer-implemented method, computer program product and system for data analysis
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US20200160229A1 (en) 2018-11-15 2020-05-21 Adobe Inc. Creating User Experiences with Behavioral Information and Machine Learning
US11461702B2 (en) 2018-12-04 2022-10-04 Bank Of America Corporation Method and system for fairness in artificial intelligence based decision making engines
US11204847B2 (en) 2018-12-21 2021-12-21 Microsoft Technology Licensing, Llc Machine learning model monitoring
US11797550B2 (en) 2019-01-30 2023-10-24 Uptake Technologies, Inc. Data science platform
CN113614756A (zh) 2019-03-26 2021-11-05 Hrl实验室有限责任公司 用于具有可编程人机混合集成学习的预报警报的系统和方法
US11593650B2 (en) 2019-03-27 2023-02-28 GE Precision Healthcare LLC Determining confident data samples for machine learning models on unseen data
WO2020219685A1 (en) 2019-04-23 2020-10-29 Sciencelogic, Inc. Distributed learning anomaly detector
US20200364583A1 (en) 2019-05-14 2020-11-19 Robert D. Pedersen Iot sensor network artificial intelligence warning, control and monitoring systems and methods
US11354602B2 (en) 2019-06-04 2022-06-07 Bank Of America Corporation System and methods to mitigate poisoning attacks within machine learning systems
US20200387836A1 (en) 2019-06-04 2020-12-10 Accenture Global Solutions Limited Machine learning model surety
US20200402665A1 (en) 2019-06-19 2020-12-24 GE Precision Healthcare LLC Unplanned readmission prediction using an interactive augmented intelligent (iai) system
CN110378386B (zh) 2019-06-20 2024-09-06 平安科技(深圳)有限公司 基于有监督的无标记异常识别方法、装置及存储介质
EP3987444A1 (en) 2019-06-24 2022-04-27 Telefonaktiebolaget LM Ericsson (publ) Method for detecting uncommon input
US11954610B2 (en) 2019-08-09 2024-04-09 GE Precision Healthcare LLC Active surveillance and learning for machine learning model authoring and deployment
CN110458374A (zh) 2019-08-23 2019-11-15 山东浪潮通软信息科技有限公司 一种基于arima和svm的企业用电最大需量预测方法
CN110411957B (zh) 2019-08-28 2021-11-19 北京农业质量标准与检测技术研究中心 水果货架期及新鲜程度的无损快速预测方法及装置
CN110543618A (zh) 2019-09-05 2019-12-06 上海应用技术大学 基于概率密度函数估计的圆度不确定度评定方法
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11288602B2 (en) 2019-09-18 2022-03-29 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US20210136178A1 (en) 2019-11-06 2021-05-06 Centurylink Intellectual Property Llc Predictive resource allocation in an edge computing network utilizing geolocation for orchestration
CN110909822B (zh) 2019-12-03 2022-11-11 中国科学院微小卫星创新研究院 一种基于改进的高斯过程回归模型的卫星异常检测方法
CN111080502B (zh) 2019-12-17 2023-09-08 清华苏州环境创新研究院 一种区域企业数据异常行为的大数据识别方法
CN111157698B (zh) 2019-12-24 2022-10-21 核工业北京地质研究院 一种利用发射率数据获取黑土土壤全钾含量的反演方法
CN111709447A (zh) 2020-05-14 2020-09-25 中国电力科学研究院有限公司 电网异常检测方法、装置、计算机设备和存储介质
US11007891B1 (en) 2020-10-01 2021-05-18 Electricfish Energy Inc. Fast electric vehicle charging and distributed grid resource adequacy management system
CN112257963B (zh) 2020-11-20 2023-08-29 北京轩宇信息技术有限公司 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10557840B2 (en) 2011-08-19 2020-02-11 Hartford Steam Boiler Inspection And Insurance Company System and method for performing industrial processes across facilities
US11334645B2 (en) 2011-08-19 2022-05-17 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US11868425B2 (en) 2011-08-19 2024-01-09 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US10409891B2 (en) 2014-04-11 2019-09-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US11550874B2 (en) 2014-04-11 2023-01-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US11803612B2 (en) 2018-09-28 2023-10-31 Hartford Steam Boiler Inspection And Insurance Company Systems and methods of dynamic outlier bias reduction in facility operating data
US11288602B2 (en) 2019-09-18 2022-03-29 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models

Also Published As

Publication number Publication date
CN106933779A (zh) 2017-07-07
EP2745213A1 (en) 2014-06-25
KR102024953B1 (ko) 2019-11-04
US11868425B2 (en) 2024-01-09
US20220277058A1 (en) 2022-09-01
KR20140092805A (ko) 2014-07-24
CN104254848B (zh) 2017-04-12
US11334645B2 (en) 2022-05-17
CN104254848A (zh) 2014-12-31
US20180329865A1 (en) 2018-11-15
CN106919539A (zh) 2017-07-04
EP3493079A1 (en) 2019-06-05
US20240152571A1 (en) 2024-05-09
CA3197787A1 (en) 2013-02-28
JP2014524629A (ja) 2014-09-22
US20150278160A1 (en) 2015-10-01
WO2013028532A1 (en) 2013-02-28
CA2845827C (en) 2023-06-27
US9069725B2 (en) 2015-06-30
US20130046727A1 (en) 2013-02-21
US20150309963A1 (en) 2015-10-29
CA2845827A1 (en) 2013-02-28

Similar Documents

Publication Publication Date Title
JP5982489B2 (ja) 動的外れ値偏り低減システム及び方法
JP6613329B2 (ja) コンピュータ実装方法、コンピュータシステム及びコンピュータ装置
US11803612B2 (en) Systems and methods of dynamic outlier bias reduction in facility operating data
US20150309964A1 (en) Dynamic outlier bias reduction system and method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150817

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150817

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20150817

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20150903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151013

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160801

R150 Certificate of patent or registration of utility model

Ref document number: 5982489

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250