CN106933779A - 动态离群值偏倚减少系统和方法 - Google Patents

动态离群值偏倚减少系统和方法 Download PDF

Info

Publication number
CN106933779A
CN106933779A CN201710142741.7A CN201710142741A CN106933779A CN 106933779 A CN106933779 A CN 106933779A CN 201710142741 A CN201710142741 A CN 201710142741A CN 106933779 A CN106933779 A CN 106933779A
Authority
CN
China
Prior art keywords
bias
data set
value
model
outlier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710142741.7A
Other languages
English (en)
Inventor
R·B·琼斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hartford Steam Boiler Inspection and Insurance Co
Original Assignee
Hartford Steam Boiler Inspection and Insurance Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hartford Steam Boiler Inspection and Insurance Co filed Critical Hartford Steam Boiler Inspection and Insurance Co
Publication of CN106933779A publication Critical patent/CN106933779A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/0004Gaseous mixtures, e.g. polluted air
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • G06F7/588Random number generators, i.e. based on natural stochastic processes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Pathology (AREA)
  • Combustion & Propulsion (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Food Science & Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Transition And Organic Metals Composition Catalysts For Addition Polymerization (AREA)

Abstract

本申请涉及动态离群值偏倚减少系统和方法。这里描述了用于进行数据过滤以减少功能性和趋势线离群值偏倚的系统和方法。通过客观统计方法从数据集合中去除离群值。基于绝对误差、相对误差或两者确定偏倚。根据数据、模型系数或趋势线计算来计算误差值。当误差值大于或等于用户提供的标准时,去除离群数据记录。对于优化方法或其他迭代计算,去除的数据在每次迭代中被重应用到模型以计算新结果。利用完整数据集的模型值,计算新误差值并且重应用离群值偏倚减少过程。以迭代方式对于模型系数和离群值去除数据最小化整体误差,直到达到用户定义的误差改进限度为止。经过滤的数据可用于验证、离群值偏倚减少和数据质量操作。

Description

动态离群值偏倚减少系统和方法
本申请是申请日为2012年8月17日、发明名称为“动态离群值偏倚减少系统和方法”的中国专利申请201280048043.6的分案申请。
相关申请的交叉引用
此国际专利申请要求2011年8月19日递交的标题为“Dynamic Outlier BiasReduction System and Method”、序列号为13/213,780的美国非临时专利申请的权益和优先权,这里通过引用将该美国申请全部并入。
技术领域
本发明涉及对数据的分析,其中离群元素被从分析开发中去除(或过滤掉)。分析可与简单统计量的计算或者在其开发中涉及使用数据的数学模型的更复杂操作有关。离群数据过滤的目的可以是执行数据质量和数据验证操作,或者计算能够应用于后续分析、回归分析、时间序列分析中的代表性标准、统计量、数据群组或者用于数学模型开发的合格数据。
背景技术
在标准或数据驱动模型开发中去除离群数据是分析前工作的一个重要部分,用来确保从底层数据开发出有代表性的且合理的分析。例如,为二氧化碳(CO2)、臭氧(O3)、水蒸气(H2O)、氢氟碳(HFC)、全氟化碳(PFC)、含氯氟烃(CFC)、六氟化硫(SF6)、甲烷(CH4)、一氧化二氮(N2O)、一氧化碳(CO)、氧化氮(NOx)以及非甲烷挥发性有机化合物(NMVOC)排放的温室气体标准开发公正的基准要求在标准开发中使用的所收集的工业数据表现出某些属性。少数几个工业场所的极好或极坏的性能不应当导致为其他场所计算的标准的偏倚。可以判断将这种性能结果包括在标准计算中是不合理或者没有代表性的。过去,经由一种要求主观输入的半定量过程来去除性能离群值(outlier)。本系统和方法是一种数据驱动的方案,该方案把此任务作为模型开发的一个组成部分来执行,而不是在分析前或模型开发前阶段执行。
偏倚(bias)的去除可以是一个主观过程,其中以某种形式记录认为恰当的理由以证实数据变化。然而,任何形式的离群值去除都是一种带着改变计算结果的潜在可能性的数据审查。这种数据过滤可能减少或不减少计算中的偏倚或误差,并且本着完全分析公开的精神,严格的数据去除指导方针和去除离群值的证明材料需要与分析结果包括在一起。因此,在现有技术中需要提供一种新的系统和方法,用于利用一种对于数据质量操作、数据验证、统计计算或数学模型开发等等有用的动态统计过程来客观地去除离群数据偏倚。离群值偏倚去除系统和方法还可用于将数据分组成代表性类别,其中数据被应用到为每个群组定制的数学模型开发。在优选实施例中,系数被定义为数学模型中的乘法和加法因子以及在性质上非线性的其他数值参数。例如,在数学模型f(x,y,z)=a*x+b*yc+d*sin(ez)+f中,a、b、c、d、e和f全都被定义为系数。这些项的值可以固定或者是数学模型的开发的一部分。
发明内容
优选实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:选择偏倚标准;提供数据集合;提供模型系数的集合;选择目标值的集合;(1)为完整数据集合生成预测值的集合;(2)为数据集生成误差集合;(3)基于误差集合和偏倚标准生成误差阈值的集合;(4)由处理器基于误差集合和误差阈值的集合生成经审查的数据集合;(5)由处理器生成新模型系数的集合;(6)使用新模型系数的集合,重复步骤(1)-(5),除非满足了审查性能终止标准。在优选实施例中,可基于数据集合和模型系数的集合来生成预测值的集合。在优选实施例中,误差集合可包括基于预测值的集合和目标值的集合生成的绝对误差的集合和相对误差的集合。在另一实施例中,误差集合可包括作为预测值的集合与目标值的集合之间的差异计算出的值。在另一实施例中,生成新系数的集合的步骤还可包括最小化预测值的集合与实际值的集合之间的误差的集合的步骤,这可利用线性或非线性优化模型来实现。在优选实施例中,审查性能终止标准可基于标准误差(standarderror)和确定系数(coefficient of determination)。
另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:选择误差标准;选择数据集合;选择实际值的集合;选择模型系数的初始集合;基于完整数据集合和模型系数的初始集合生成模型预测值的集合;(1)对于完整数据集,基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)生成离群值被去除的数据集合,其中过滤基于完整数据集合和误差阈值的集合;(4)基于经过滤的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成由计算机处理器执行;(5)基于经过滤的数据集合和新模型系数的集合生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(6)基于模型预测值和实际值的集合生成模型性能值的集合;在用新系数的集合替代来自先前迭代的系数的集合的同时,重复步骤(1)-(6),除非:满足性能终止标准;并且将模型预测值的集合存储在计算机数据介质中。
另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:为设施选择目标变量;选择目标变量的实际值的集合;为设施识别与目标变量有关的多个变量;为设施获得数据集合,该数据集合包括多个变量的值;选择偏倚标准;选择模型系数的集合;(1)基于完整数据集合和模型系数的集合生成预测值的集合;(2)基于预测值的集合和实际值的集合生成审查模型性能值的集合;(3)对于目标变量,基于预测值的集合和实际值的集合生成误差集合;(4)基于误差集合和偏倚标准生成误差阈值的集合;(5)由处理器基于数据集合和误差阈值的集合生成经审查的数据集合;(6)由处理器基于经审查的数据集合和模型系数的集合生成新模型系数的集合;(7)由处理器基于数据集合和新模型系数的集合生成新预测值的集合;(8)基于新预测值的集合和实际值的集合生成新审查模型性能值的集合;使用新系数的集合,重复步骤(1)-(8),除非满足了审查性能终止标准;以及将新模型预测值的集合存储在计算机数据介质中。
另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:为设施选择目标变量,其中目标变量是关于工业设施的度量,与其生产、金融性能或排放有关;为设施识别多个变量,其中多个变量包括:设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个直接设施变量的函数;选择误差标准,包括:绝对误差,以及相对误差;为设施获得数据集合,其中数据集合包括多个变量的值;选择目标变量的实际值的集合;选择模型系数的初始集合;基于完整数据集合和模型系数的初始集合生成模型预测值的集合;基于模型预测值的集合和实际值的集合生成误差的完整集合,其中相对误差是利用如下公式计算的:相对误差m=((预测值m–实际值m)/实际值m)2,其中“m”是参考编号,并且其中绝对误差是利用如下公式计算的:绝对误差m=(预测值m–实际值m)2;基于模型预测值的集合和实际值的集合生成模型性能值的集合,其中整体模型性能值的集合包括:第一标准误差,以及第一确定系数;(1)对于完整数据集合,基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)通过去除具有大于或等于误差阈值的误差值的数据生成离群值被去除的数据集合,其中过滤是基于完整数据集合和误差阈值的集合的;(4)通过利用线性优化模型和非线性优化模型中的至少一个,最小化预测值的集合与实际值的集合之间的误差,来基于离群值被去除的数据集合和模型系数的集合生成离群值偏倚减少模型预测值的集合,其中新模型预测值的生成是由计算机处理器执行的;(5)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成是由计算机处理器执行的;(6)基于新预测模型值的集合和实际值的集合生成整体模型性能值的集合,其中模型性能值的集合包括:第二标准误差,以及第二确定系数;在用新系数的集合替代来自先前迭代的系数集合的同时,重复步骤(1)-(6),除非:满足了性能终止标准,其中性能终止标准包括:标准误差终止值和确定系数终止值,并且其中满足性能终止标准包括:标准误差终止值大于第一和第二标准误差之间的差异,并且确定系数终止值大于第一和第二确定系数之间的差异;以及将新模型预测值的集合存储在计算机数据介质中。
另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:选择误差标准;选择数据集合;选择实际值的集合;选择模型预测值的初始集合;基于模型预测值的集合和实际值的集合确定误差的集合;(1)基于误差的完整集合和误差标准确定误差阈值的集合;(2)生成离群值被去除的数据集合,其中过滤基于数据集合和误差阈值的集合;(3)基于离群值被去除的数据集合和先前模型预测值生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(4)基于新模型预测值的集合和实际值的集合确定误差的集合;在用新模型预测值的集合替代来自先前迭代的模型预测值的集合的同时,重复步骤(1)-(4),除非:满足了性能终止标准;以及将离群值偏倚减少模型预测值的集合存储在计算机数据介质中。
另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:为设施选择目标变量;为设施识别多个变量,其中多个变量包括:设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个直接设施变量的函数;选择误差标准,包括:绝对误差,以及相对误差;获得数据集合,其中数据集合包括多个变量的值,以及选择目标变量的实际值的集合;选择模型系数的初始集合;通过将模型系数的集合应用到数据集合来生成模型预测值的集合;基于模型预测值的集合和实际值的集合确定性能值的集合,其中性能值的集合包括:第一标准误差,以及第一确定系数;(1)对于完整数据集合,基于模型预测值的集合和实际值的集合生成误差的集合,其中相对误差是利用如下公式计算的:相对误差m=((预测值m–实际值m)/实际值m)2,其中“m”是参考编号,并且其中绝对误差是利用如下公式计算的:绝对误差m=(预测值m–实际值m)2;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)通过去除具有大于或等于误差阈值的集合的误差值的数据来生成离群值被去除的数据集合,其中过滤是基于数据集合和误差阈值的集合的;(4)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合;(5)通过利用线性优化模型和非线性优化模型中的至少一个,最小化预测值的集合与实际值的集合之间的误差,来基于离群值被去除的数据集合和新模型系数的集合生成离群值偏倚减少模型预测值的集合,其中模型预测值的生成是由计算机处理器执行的;(6)基于离群值偏倚减少模型预测值的集合和实际值的集合生成经更新的性能值的集合,其中经更新的性能值的集合包括:第二标准误差,以及第二确定系数;在用新系数的集合替代来自先前迭代的系数集合的同时,重复步骤(1)-(6),除非:满足了性能终止标准,其中性能终止标准包括:标准误差终止值,以及确定系数终止值,并且其中满足性能终止标准包括:标准误差终止值大于第一和第二标准误差之间的差异,并且确定系数终止值大于第一和第二确定系数之间的差异;以及将离群值偏倚减少因子的集合存储在计算机数据介质中。
另一实施例包括一种用于评估数据集合用于开发模型的可行性的由计算机实现的方法,包括以下步骤:提供包括多个数据值的目标数据集合;基于目标数据集合生成随机目标数据集合;选择偏倚标准值的集合;由处理器基于数据集合和每个所选择的偏倚标准值生成离群值偏倚减少目标数据集合;由处理器基于随机数据集合和每个所选偏倚标准值生成离群值偏倚减少随机数据集合;对于离群值偏倚减少数据集合和离群值偏倚减少随机数据集合计算误差值的集合;对于离群值偏倚减少数据集合和离群值偏倚减少随机数据集合计算相关系数的集合;基于所选偏倚标准值和相应的误差值和相关系数为数据集合和随机数据集合生成偏倚标准曲线;以及将数据集合的偏倚标准曲线与随机数据集合的偏倚标准曲线相比较。离群值偏倚减少目标数据集合和离群值偏倚减少随机目标数据集合是利用动态离群值偏倚去除方法生成的。随机目标数据集合可包括从多个数据值的范围内的值开发出来的随机化数据值。另外,误差值的集合可包括标准误差的集合,并且其中相关系数的集合包括确定系数值的集合。另一实施例还可包括以下步骤:基于将目标数据集合的偏倚标准曲线与随机目标数据集合的偏倚标准曲线相比较,生成关于目标数据集合支持所开发的模型以及所开发的模型支持目标数据集合的可行性的自动化建议。可基于分析者选择的参数——例如相关系数阈值和/或误差阈值——来生成建议。另外一个实施例还包括以下步骤:提供实际数据集合,其包括与模型预测值相对应的多个实际数据值;基于实际数据集合生成随机实际数据集合;由处理器基于实际数据集合和每个所选偏倚标准值生成离群值偏倚减少实际数据集合;由处理器基于随机实际数据集合和每个所选偏倚标准生成离群值偏倚减少随机实际数据集合;对于每个所选偏倚标准,基于离群值偏倚减少随机目标数据集合和离群值偏倚减少随机实际数据生成随机数据图线;对于每个所选偏倚标准,基于离群值偏倚减少目标数据集合和离群值偏倚减少实际目标数据集合生成真实数据图线;以及将与每个所选偏倚标准相对应的随机数据图线与真实数据图线相比较。
优选实施例包括一种系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:数据集合;以及由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:选择偏倚标准;提供模型系数的集合;选择目标值的集合;(1)为数据集合生成预测值的集合;(2)为数据集生成误差集合;(3)基于误差集合和偏倚标准生成误差阈值的集合;(4)基于误差集合和误差阈值的集合生成经审查的数据集合;(5)生成新模型系数的集合;以及(6)使用新模型系数的集合,重复步骤(1)-(5),除非满足了审查性能终止标准。在优选实施例中,可基于数据集合和模型系数的集合来生成预测值的集合。在优选实施例中,误差集合可包括基于预测值的集合和目标值的集合生成的绝对误差的集合和相对误差的集合。在另一实施例中,误差集合可包括作为预测值的集合与目标值的集合之间的差异计算出的值。在另一实施例中,生成新系数的集合的步骤还可包括最小化预测值的集合与实际值的集合之间的误差的集合的步骤,这可利用线性或非线性优化模型来实现。在优选实施例中,审查性能终止标准可基于标准误差和确定系数。
本发明的另一实施例包括一种系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:数据集合;以及由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:选择误差标准;选择实际值的集合;选择系数的初始集合;从数据集合和系数的初始集合生成模型预测值的完整集合;(1)对于完整数据集合,基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)生成离群值被去除的数据集合,其中过滤基于完整数据集合和误差阈值的集合;(4)基于离群值被去除的数据集合和系数的集合生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(5)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成由计算机处理器执行;(6)基于离群值偏倚减少模型预测值和实际值的集合生成模型性能值的集合;在用新系数的集合替代来自先前迭代的系数的集合的同时,重复步骤(1)-(6),除非:满足性能终止标准;并且将整体离群值偏倚减少模型预测值的集合存储在计算机数据介质中。
另一实施例包括一种系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:设施的目标变量;目标变量的实际值的集合;设施的与目标变量有关的多个变量;设施的数据集合,该数据集合包括多个变量的值;以及由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:选择偏倚标准;选择模型系数的集合;(1)基于数据集合和模型系数的集合生成预测值的集合;(2)基于预测值的集合和实际值的集合生成审查模型性能值的集合;(3)对于目标变量,基于预测值的集合和实际值的集合生成误差集合;(4)基于误差集合和偏倚标准生成误差阈值的集合;(5)基于数据集合和误差阈值的集合生成经审查的数据集合;(6)基于经审查的数据集合和模型系数的集合生成新模型系数的集合;(7)基于数据集合和新模型系数的集合生成新预测值的集合;(8)基于新预测值的集合和实际值的集合生成新审查模型性能值的集合;使用新系数的集合,重复步骤(1)-(8),除非满足了审查性能终止标准;以及将新模型预测值的集合存储在存储子系统中。
另一实施例包括一种系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:设施的数据集合;以及由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:确定目标变量;识别多个变量,其中多个变量包括:设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个直接变量的函数;选择误差标准,包括:绝对误差,以及相对误差;选择目标变量的实际值的集合;选择系数的初始集合;基于数据集合和系数的初始集合生成模型预测值的集合;基于模型预测值的集合和实际值的集合生成误差的集合,其中相对误差是利用如下公式计算的:相对误差m=((预测值m–实际值m)/实际值m)2,其中“m”是参考编号,并且其中绝对误差是利用如下公式计算的:绝对误差m=(预测值m–实际值m)2;基于模型预测值的集合和实际值的集合确定性能值的集合;其中性能值的集合包括:第一标准误差,以及第一确定系数;(1)基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)通过过滤掉具有误差阈值的集合以外的误差值的数据来生成离群值被去除的数据集合,其中过滤是基于数据集合和误差阈值的集合的;(4)通过利用线性优化模型和非线性优化模型中的至少一个,最小化模型预测值的集合与实际值的集合之间的误差,来基于离群值被去除的数据集合和系数的集合生成新模型预测值的集合,其中离群值偏倚减少模型预测值的生成是由计算机处理器执行的;(5)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成是由计算机处理器执行的;(6)基于新预测模型值的集合和实际值的集合生成性能值的集合,其中模型性能值的集合包括:第二标准误差,以及第二确定系数;在用新系数的集合替代来自先前迭代的系数集合的同时,重复步骤(1)-(6),除非:满足了性能终止标准,其中性能终止标准包括:标准误差,以及确定系数,并且其中满足性能终止标准包括:标准误差终止值大于第一和第二标准误差之间的差异,并且确定系数终止值大于第一和第二确定系数之间的差异;以及将新模型预测值的集合存储在计算机数据介质中。
本发明的另一实施例包括一种系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:数据集合,由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:选择误差标准;选择数据集合;选择实际值的集合;选择模型预测值的初始集合;基于模型预测值的集合和实际值的集合确定误差的集合;(1)基于误差的完整集合和误差标准确定误差阈值的集合;(2)生成离群值被去除的数据集合,其中过滤基于数据集合和误差阈值的集合;(3)基于离群值被去除的数据集合和模型预测值的完整集合生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(4)基于离群值偏倚减少模型预测值的集合和实际值的相应集合确定误差的集合;在用离群值偏倚减少模型预测值的集合替代模型预测值的集合的同时,重复步骤(1)-(4),除非:满足了性能终止标准;以及将离群值偏倚减少因子的集合存储在计算机数据介质中。
本发明的另一实施例包括一种系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:数据集合,由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:确定目标变量;为设施识别多个变量,其中多个变量包括:设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个主设施变量的函数;选择误差标准,包括:绝对误差,以及相对误差;获得数据集合,其中数据集合包括多个变量的值,以及选择目标变量的实际值的集合;选择系数的初始集合;通过将模型系数的集合应用到数据集合来生成模型预测值的集合;基于模型预测值的集合和实际值的集合确定性能值的集合,其中性能值的集合包括:第一标准误差,以及第一确定系数;(1)基于模型预测值的集合和实际值的集合确定误差的集合,其中相对误差是利用如下公式计算的:相对误差k=((预测值k–实际值k)/实际值k)2,其中“k”是参考编号,并且其中绝对误差是利用如下公式计算的:绝对误差k=(预测值k–实际值k)2;(2)对于完整数据集合,基于误差的集合和误差标准确定误差阈值的集合;(3)通过去除具有大于或等于误差阈值的误差值的数据来生成离群值被去除的数据集合,其中过滤是基于数据集合和误差阈值的集合的;(4)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合;(5)通过利用线性优化模型和非线性优化模型中的至少一个,最小化预测值的集合与实际值的集合之间的误差,来基于离群值被去除的数据集合和系数的集合生成离群值偏倚减少模型值的集合;(5)基于离群值偏倚减少模型预测值的集合和实际值的集合确定经更新的性能值的集合,其中经更新的性能值的集合包括:第二标准误差,以及第二确定系数;在用新系数的集合替代来自先前迭代的系数集合的同时,重复步骤(1)-(5),除非:满足了性能终止标准,其中性能终止标准包括:标准误差终止值,以及确定系数终止值,并且其中满足性能终止标准包括:标准误差终止值大于第一和第二标准误差之间的差异,并且确定系数终止值大于第一和第二确定系数之间的差异;以及将离群值偏倚减少因子的集合存储在计算机数据介质中。
另一实施例包括一种用于评估数据集合用于开发模型的可行性的系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:目标数据集合,其包括多个模型预测值;由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:生成随机目标数据集合;选择偏倚标准值的集合;基于目标数据集合和每个所选择的偏倚标准值生成离群值偏倚减少数据集合;基于随机目标数据集合和每个所选偏倚标准值生成离群值偏倚减少随机目标数据集合;对于离群值偏倚减少目标数据集合和离群值偏倚减少随机目标数据集合计算误差值的集合;对于离群值偏倚减少目标数据集合和离群值偏倚减少随机目标数据集合计算相关系数的集合;对于每个所选偏倚标准,基于相应的误差值和相关系数,对于目标数据集合和随机目标数据集合生成偏倚标准曲线;以及将目标数据集合的偏倚标准曲线与随机目标数据集合的偏倚标准曲线相比较。处理器利用动态离群值偏倚去除方法来生成离群值偏倚减少目标数据集合和离群值偏倚减少随机目标数据集合。随机目标数据集合可包括从多个数据值的范围内的值开发出来的随机化数据值。另外,误差值的集合可包括标准误差的集合,并且相关系数的集合包括确定系数值的集合。在另一实施例中,该程序还包括在被执行时使得处理器进行以下操作的指令:基于将目标数据集合的偏倚标准曲线与随机目标数据集合的偏倚标准曲线相比较,生成自动化建议。可基于分析者选择的参数——例如相关系数阈值和/或误差阈值——来生成建议。在另外一个实施例中,系统的数据库还包括实际数据集合,其包括与模型预测值相对应的多个实际数据值,并且程序还包括当被执行时使得处理器进行以下操作的指令:基于实际数据集合生成随机实际数据集合;基于实际数据集合和每个所选偏倚标准值生成离群值偏倚减少实际数据集合;基于随机实际数据集合和每个所选偏倚标准生成离群值偏倚减少随机实际数据集合;对于每个所选偏倚标准,基于离群值偏倚减少随机目标数据集合和离群值偏倚减少随机实际数据生成随机数据图线;对于每个所选偏倚标准,基于离群值偏倚减少目标数据集合和离群值偏倚减少实际目标数据集合生成真实数据图线;以及将与每个所选偏倚标准相对应的随机数据图线与真实数据图线相比较。
附图说明
图1是示出数据离群值识别和去除方法的实施例的流程图。
图2是示出用于数据质量操作的数据离群值识别和去除方法的实施例的流程图。
图3是示出用于数据验证的数据离群值识别和去除方法的实施例的流程图。
图4是用于实现本发明的方法的说明性节点。
图5是数据集合的定量评估的说明性图线。
图6A和6B是图5的数据集合的定性评估的说明性图线,分别示出了整个数据集合的随机化和真实数据集合。
图7A和7B是图5的数据集合的定性评估的说明性图线,分别示出了在将30%的数据作为离群值去除之后的随机化和真实数据集合。
图8A和8B是图5的数据集合的定性评估的说明性图线,分别示出了在将50%的数据作为离群值去除之后的随机化和真实数据集合。
具体实施方式
以下公开提供了许多不同实施例,或者示例,用于实现用于访问和管理结构化内容的系统和方法的不同特征。描述了组件、过程和实现方式的具体示例来帮助阐明本发明。这些只是示例,而并不打算偏离权利要求中所述地限制本发明。公知的元素在没有详细描述的情况下给出,以免以不必要的细节模糊本发明的优选实施例。大多数情况下,省略了获得对本发明的优选实施例的完整理解所不必要的细节,因为这样的细节在相关领域的普通技术人员的技能范围内。
动态离群值偏倚减少的一个实施例的数学描述如下所示:
术语:
-所有数据记录的集合:其中:
-第k次迭代的接受数据记录的集合
-第k次迭代的离群(去除)数据记录的集合
-对于计算出的模型预测值的集合
-对于数据记录的离群模型预测值的集合
-模型所基于的实际值(目标值)的集合
-作为使用的模型计算的结果计算出的第k+1次迭代时的模型系数的集合
-从存储模型得出的和用户提供的系数产生的模型计算
C-用户提供的误差标准(%)
-误差阈值函数
F(Ψ,C)-误差阈值(E)
-迭代终止标准,例如迭代计数、r2、标准误差等等
初始计算,k=0
初始步骤1:利用初始模型系数估计通过将模型应用到完整数据集合来计算初始模型预测值:
初始步骤2:计算初始模型性能结果:
初始步骤3:计算(一个或多个)模型误差阈值:
初始步骤4:过滤数据记录以去除离群值:
迭代计算,k>0
迭代步骤1:通过将模型应用到接受数据集合来计算预测值:
迭代步骤2:计算模型性能结果:
如果达到终止标准,则停止,否则去到步骤3:
迭代步骤3:利用当前模型为去除的数据 计算结果:
迭代步骤4:计算模型误差阈值:
迭代步骤5:过滤数据记录以去除离群值:
动态离群值偏倚减少的一个实施例的另一数学描述如下所示:
术语:
-所有数据记录的集合:其中:
-第k次迭代的接受数据记录的集合
-第k次迭代的离群(去除)数据记录的集合
-对于计算出的模型预测值的集合
-对于的离群模型预测值的集合
-模型所基于的实际值(目标值)的集合
-作为使用的模型计算的结果计算出的第k+1次迭代时的模型系数的集合
-从存储模型得出的和用户提供的系数的产生的模型计算
CRE-用户提供的相对误差标准(%)
CAE-用户提供的绝对误差标准(%)
-所有数据记录的相对误差值
-所有数据记录的绝对误差值
-第k次迭代的相对误差阈值,其中
-第k次迭代的绝对误差阈值,其中
-迭代终止标准,例如迭代计数、r2、标准误差等等
初始计算,k=0
初始步骤1:利用初始模型系数估计通过将模型应用到完整数据集合来计算初始模型预测值:
初始步骤2:计算初始模型性能结果:
初始步骤3:计算模型误差阈值:
初始步骤4:过滤数据记录以去除离群值:
迭代计算,k>0
迭代步骤1:通过将模型应用到离群值被去除的数据集合来计算模型预测值:
迭代步骤2:计算模型性能结果:
如果达到终止标准,则停止,否则去到步骤3:
迭代步骤3:利用当前模型为去除的数据计算结果:
迭代步骤4:计算模型误差阈值:
迭代步骤5:过滤数据记录以去除离群值:
递增k并去到迭代步骤1。
在从当前审查的数据集计算新模型系数的每次迭代之后,从先前迭代去除的数据加上当前审查的数据被重组合。此组合涵盖了完整数据集中的所有数据值。随后将当前模型系数应用到完整数据集以计算预测值的完整集合。对于预测值的完整集合计算绝对和相对误差,并且计算新的偏倚标准百分位阈值。通过去除绝对或相对误差大于阈值的所有数据值来创建新的审查数据集,然后向新审查的数据集应用非线性优化模型来计算新的模型系数。此过程使得所有数据值在每一次迭代中都能够被审查以查明其是否可能包括在模型数据集中。随着模型系数收敛在最佳拟合数据的值上,在先前迭代中排除的一些数据值有可能将被包括入后续迭代中。
在一个实施例中,GHG排放的变动可导致对排放结果的过高估计或过低估计,这导致了模型预测值中的偏倚。这些非工业影响——例如环境条件和计算过程中的误差——可使得关于特定设施的结果与类似设施的极为不同,除非去除了模型预测值中的偏倚。模型预测值中的偏倚也可由于独特的操作条件而存在。
如果分析者确信一设施的计算有差错或者拥有独特的、情有可原的特性,则可以通过简单地将设施的数据从计算中去除来去除偏倚。然而,当测量来自许多不同的公司、地区和国家的设施性能时,数据细节的精确先验知识是不现实的。因此,任何基于分析者的数据去除过程都具有向模型结果添加无事实根据的、无数据支持的偏倚的潜在可能。
在一个实施例中,动态离群值偏倚减少被应用到使用数据和规定的整体误差标准来确定被从模型系数计算中去除的统计离群值的过程。这是一个数据驱动的过程,其利用由数据产生的全局误差标准来识别离群值,其中该误差标准例如使用百分位函数。动态离群值偏倚减少的使用不限于模型预测值中的偏倚的减少,并且其在此实施例中的使用只是说明性和示范性的。动态离群值偏倚减少也可用于例如从任何统计数据集合中去除离群值,包括用于算术平均、线性回线和趋势线的计算,但不限于这些计算。离群设施仍从计算结果中排名,但离群值不用在被应用来计算模型系数或统计结果的经过滤的数据集合中。
常用于去除离群值的标准过程是计算数据集合的标准偏差(σ)并且简单地将例如在均值的2σ间隔外的所有数据定义为离群值。此过程具有一般在实践中不能测试的统计假设。在本发明的实施例中应用的动态离群值偏倚减少方法描述在图1中概略示出,其使用了相对误差和绝对误差两者。例如,对于一设施“m”,
相对误差m=((预测值m–实际值m)/实际值m)2 (1)
绝对误差m=(预测值m–实际值m)2 (2)
在步骤110中,分析者规定误差阈值标准,该误差阈值标准将定义要从计算中去除的离群值。例如,使用百分位运算作为误差函数,可以设定相对和绝对误差的80%的百分位值。这意味着,对于相对误差小于第80百分位值的数据值和对于绝对误差计算小于第80百分位值的数据值将被包括,而剩余的值被去除或被认为是离群值。在此示例中,一个数据值要避免被去除,则该数据值必须小于相对和绝对误差两者的第80百分位值。然而,可以独立地改变相对和绝对误差的百分位阈值,并且在另一实施例中,可以只使用百分位阈值中的一个。
在步骤120中,规定模型标准误差和确定系数(r2)百分比变化标准。虽然这些统计量的值在模型与模型之间将有变化,但在前迭代过程中的百分比变化可被预设在例如5%。这些值可用于终止迭代过程。另一个终止标准可以是简单的迭代计数。
在步骤130中,执行优化计算,其为每个设施产生模型系数和预测值。
在步骤140中,利用式(1)和(2)计算所有设施的相对和绝对误差。
在步骤150中,向在步骤140中计算出的数据应用具有在步骤110中规定的阈值标准的误差函数以确定离群值阈值。
在步骤160中,过滤数据以仅包括如下设施:对于这些设施,相对误差、绝对误差或者这两个误差(这取决于所选择的配置)小于在步骤150中计算出的误差阈值。
在步骤170中,仅利用离群值被去除的数据集合来执行优化计算。
在步骤180中,将标准误差和r2的百分比变化与在步骤120中规定的标准相比较。如果百分比变化大于标准,则通过返回到步骤140来重复该过程。否则,在步骤190中终止迭代过程,并且完成了从这个动态离群值偏倚减少标准过程计算出的结果模型。模型结果被应用到所有设施,无论其当前迭代过去去除或许可数据状态如何。
在另一实施例中,该过程开始于选择某些迭代参数,具体而言:
(1)绝对误差和相对误差百分位值,其中一者、另一者或两者可用在迭代过程中,
(2)确定系数(也称为r2)改进值,以及
(3)标准误差改进值。
该过程开始于原始数据集合、实际数据的集合以及用于基于原始数据集合计算预测值的至少一个系数或因子。系数或系数的集合将被应用到原始数据集合以创建预测值的集合。系数的集合可包括但不限于标量、指数、参数和周期函数。随后将预测数据的集合与实际数据的集合相比较。基于预测数据与实际数据之间的差异来计算标准误差和确定系数。与数据点中的每一个相关联的绝对和相对误差被用于基于用户选择的绝对和相对误差百分位值来去除数据离群值。对数据排名是不必要的,因为落在与绝对和/或相对误差的百分位值相关联的范围之外的所有数据都被从原始数据集合中去除。使用绝对和相对误差来过滤数据是说明性的并且仅用于示范,因为可以仅用绝对误差或仅用相对误差来者用另一函数来执行该方法。
与在用户选择的百分位范围内的绝对和相对误差相关联的数据是离群值被去除的数据集合,并且该过程的每次迭代将具有其自己的经过滤的数据集合。这个第一离群值被去除的数据集合被用于确定将与实际值相比较的预测值。通过优化误差来确定至少一个系数,然后将这些系数用于基于第一离群值被去除的数据集合生成预测值。离群值偏倚减少的系数充当用来从一次迭代向下一次迭代传递知识的机制。
在创建第一离群值被去除的数据集合之后,计算标准误差和确定系数并将其与原始数据集合的标准误差和确定系数相比较。如果标准误差的差异和确定系数的差异都低于其各自的改进值,则该过程停止。然而,如果改进标准中的至少一个未得到满足,则该过程继续另一次迭代。将标准误差和确定系数用作对迭代过程的检查只是说明性和示范性的,因为该检查可仅利用标准误差或仅利用确定系数、利用不同的统计检查或者利用某种其他的性能终止标准(例如迭代次数)来执行。
假设第一次迭代未能满足改进标准,则第二次迭代开始,将第一离群值偏倚减少数据系数应用到原始数据以确定预测值的新集合。然后再次处理原始数据,从而在使用第一离群值被去除的数据集合系数的同时,对于数据点建立绝对和相对误差,并且对于原始数据集合建立标准误差和确定系数值。然后过滤数据以形成第二离群值被去除的数据集合并基于第二离群值被去除的数据集合来确定系数。
然而,第二离群值被去除的数据集合不一定是第一离群值被去除的数据集合的子集,并且其与离群值偏倚减少模型系数的第二集合、第二标准误差和第二确定系数相关联。一旦确定了这些值,就将第二标准误差与第一标准误差相比较,并且将第二确定系数再次与第一确定系数相比较。
如果(标准误差和确定系数的)改进值超过这些参数的差异,则该过程将结束。如果否,则另一迭代将开始,再次处理原始数据;这一次使用第二离群值偏倚减少系数来处理原始数据集合并生成预测值的新集合。基于用户为绝对和相对误差选择的百分位值的过滤将创建第三离群值被去除的数据集合,该集合将被优化以确定第三离群值偏倚减少系数的集合。该过程将继续,直到满足误差改进或其他终止标准为止(例如收敛标准或规定的迭代次数)。
此过程的输出将是系数或模型参数的集合,其中系数或模型参数是数学值(或值的集合),例如但不限于用于比较数据的模型预测值、线性方程的斜率和截距值、指数或者多项式的系数。动态离群值偏倚减少的输出本身不是输出值,而是将会修改数据以确定输出值的系数。
在图2中所示的另一实施例中,将动态离群值偏倚减少作为一种数据质量技术应用来评估数据的一致性和准确性以核实数据对于特定的用途是适当的。对于数据质量操作,该方法可不涉及迭代过程。在此过程期间可与动态离群值偏倚减少并行地使用其他数据质量技术。该方法被应用到给定数据集合的算术平均计算。数据质量标准对于此示例是连续的数据值被包含在某个范围内。从而,值间隔得太开的任何值都将构成质量不佳的数据。然后构造函数的连续值的误差项,并且向这些误差值应用动态离群值偏倚减少。
在步骤210中,按任何顺序列出初始数据。
步骤220构成对数据集执行的函数或操作。在此实施例示例中,函数和操作是对数据的升序排名,然后是连续的算术平均计算,其中每一行对应于该行和该行上方的所有数据的平均。
步骤230利用来自步骤220的结果的连续值从数据计算相对和绝对误差。
步骤240允许分析者输入期望的离群值去除误差标准(%)。质量标准值是基于步骤220中的数据来自步骤230中的误差计算的结果值。
步骤250示出数据质量离群值过滤数据集。如果相对和绝对误差超过步骤240中给出的规定误差标准,则去除具体的值。
步骤260示出了完整的数据集和离群值被去除的数据集之间的算术平均计算比较。分析者像所有应用的数学或统计计算中那样进行最终步骤,判断所识别出的离群值被去除的数据元素是否实际质量不佳。动态离群值偏倚减少系统和方法消除了分析者直接去除数据的情况,但最佳实践指导方针建议分析者就实际相关性审查并检查结果。
在图3中所示的另一实施例中,应用动态离群值偏倚减少作为一种数据验证技术,该技术测试数据集合的合理准确性以确定数据对于特定的用途是否适当。对于数据验证操作,该方法可不涉及迭代过程。在此示例中,动态离群值偏倚减少被应用到两个数据集合之间的皮尔逊相关系数的计算。皮尔逊相关系数对于数据集合中的与其他数据点相对不同的值可以敏感。就这个统计量验证数据集合对于确保结果代表大部分数据表明什么而不是极值的影响是重要的。数据验证过程对于此示例是连续的数据值被包含在规定范围内。从而,值间隔得太开(例如在规定范围以外)的任何值将表示质量不佳的数据。这是通过构造函数的连续值的误差项来完成的。动态离群值偏倚减少被应用到这些误差值,并且离群值被去除的数据集合是经验证的数据。
在步骤310中,按任何顺序列出配对的数据。
步骤320对于数据集中的每个有序对计算相对和绝对误差。
步骤330允许分析者输入期望的数据验证标准。在示例中,选择90%相对和绝对误差阈值。步骤330中的质量标准值输入是步骤320中所示的数据的结果绝对和相对误差百分位值。
步骤340示出了离群值去除过程,其中利用相对和绝对误差值两者都超过与在步骤330中输入的用户选择百分位值相对应的值这个标准从数据集中去除可能无效的数据。在实践中可以使用其他误差标准,并且当如此示例中所示那样应用多个标准时,可以应用误差值的任何组合来确定离群值去除规则。
步骤350计算经验证数据和原始数据值统计结果。在此情况下,皮尔逊相关系数。随后分析者就实际相关性审查这些结果。
在另一实施例中,动态离群值偏倚减少用于执行整个数据集合的验证。选择标准误差改进值、确定系数改进值和绝对和相对误差阈值,然后根据误差标准来过滤数据集合。即使原始数据集合具有高质量,也仍将会有一些数据会具有落在绝对和相对误差阈值以外的误差值。因此,确定对数据的任何去除是否必要,是重要的。如果离群值被去除的数据集合在第一次迭代之后通过了标准误差改进和确定系数改进标准,则原始数据集合已得到验证,因为经过滤的数据集合产生了太小以至于不被认为有意义(例如在所选择的改进值以下)的标准误差和确定系数。
在另一实施例中,动态离群值偏倚减少用于提供关于数据离群值去除的迭代如何影响计算的洞悉。提供图线或数据表格来允许用户观察随着每次迭代被执行,数据离群值去除计算的进展。这个分步方案使得分析者能够观察计算的能够向结果添加价值和知识的独特属性。例如,速度和收敛性质可指示动态离群值偏倚减少对计算多维数据集合的代表性因子的影响。
作为说明,考虑对87个记录的质量不佳数据集合的线性回归计算。回归的方程的形式是y=mx+b。表1示出了5次迭代的迭代过程的结果。注意,利用95%的相对和绝对误差标准,在3次迭代中实现收敛。可以观察到回归系数的变化,并且动态离群值偏倚减少方法基于79个记录缩减了计算数据集合。相对低的确定系数(r2=39%)表明,应当测试更低(<95%)的标准以研究对r2统计量和对计算出的回归系数的额外离群值去除效果。
表1:动态离群值偏倚减少示例:95%的线性回归
迭代 N 误差 r2 m b
0 87 3.903 25% -0.428 41.743
1 78 3.048 38% -0.452 43.386
2 83 3.040 39% -0.463 44.181
3 79 3.030 39% -0.455 43.630
4 83 3.040 39% -0.463 44.181
5 79 3.030 39% -0.455 43.630
在表2中,利用80%的相对和绝对误差标准示出了应用动态离群值偏倚减少的结果。注意,离群值误差标准中的15个百分点(95%到80%)的变化产生了r2的35个百分点(39%到74%)的增加,并且许可的数据有35%的额外减少(包括79个记录到包括51个记录)。分析者在分析过程中可使用回归线的变化的图形视图,其中带有离群值被去除的数据和表1和2的数值结果,以将离群值被去除的结果传达给更宽的受众并且提供关于数据可变性对分析结果的效果的更多洞悉。
表2:动态离群值偏倚减少示例80%的线性回归
迭代 N 误差 r2 m b
0 87 3.903 25% -0.428 41.743
1 49 1.607 73% -0.540 51.081
2 64 1.776 68% -0.561 52.361
3 51 1.588 74% -0.558 52.514
4 63 1.789 68% -0.559 52.208
5 51 1.588 74% -0.558 52.514
如图4中所示,用于执行该方法的系统的一个实施例包括计算系统。硬件包括处理器410,处理器410包含充足的系统存储器420以执行所需的数值计算。处理器410执行驻留在系统存储器420中的计算机程序以执行该方法。视频和存储控制器430可用于使能显示器440的操作。系统包括用于数据输入的各种数据存储设备,例如软盘单元450、内部/外部盘驱动器460、内部CD/DVD 470、磁带单元480和其他类型的电子存储介质490。上述数据存储设备只是说明性和示范性的。这些存储介质用于将数据集合和离群值去除标准输入到系统中,存储离群值被去除的数据集合,存储计算出的因子,以及存储系统产生的趋势线和趋势线迭代图。计算可应用统计软件包或者可根据例如利用Microsoft Excel以电子数据表格式输入的数据执行。计算是利用为公司特定的系统实现设计的定制软件程序或者利用兼容Excel或其他数据库和电子数据表程序的市售软件来执行的。系统还可与专有的或公共的外部存储介质300接口以与其他数据库链接来提供要用于动态离群值偏倚减少系统和方法计算的数据。输出设备可以是用于经由内联网或因特网将计算工作表和其他由系统产生的图线和报告发送到管理人员或其他人员的电信设备510、打印机520、与作为输入设备450、460、470、480、490提及的那些类似的电子存储介质以及专有的存储数据库530。这里使用的这些输出设备只是说明性和示范性的。
如图5、6A、6B、7A、7B、8A和8B中所示,在一个实施例中,动态离群值偏倚减少可用于基于与基准数据集的误差和相关性相比的数据集合的数据值的误差和相关性来定量地和定性地评估数据集合的质量,其中基准数据集由从适当范围内开发出来的随机数据值构成。在一个实施例中,可以指定误差为数据集合的标准误差,并且可以指定相关性为数据集合的确定系数(r2)。在另一实施例中,可以指定相关性为肯德尔等级相关系数,通常称为肯德尔τ系数。在另外一个实施例中,可以指定相关性为斯皮尔曼等级相关系数,或者斯皮尔曼ρ系数。如上所述,动态离群值偏倚减少用于系统地去除被识别为离群值、不代表所描述的底层模型或过程的数据值。通常,离群值与相对少量的数据值相关联。然而,在实践中,数据集可能不知不觉地被伪造值或随机噪声所污染。图5、6A、6B、7A、7B、8A和8B的图示说明了可如何应用动态离群值偏倚减少系统和方法来识别数据不支持底层模型的情形。通过去除如下数据值来执行离群值减少:对于这些数据值,在模型预测值与实际数据值之间计算出的相对和/或绝对误差大于基于百分位的偏倚标准,例如80%。这意味着,如果相对或绝对误差百分位值大于与第80百分位相关联的百分位阈值(80%的数据值具有小于此值的误差),则去除数据值。
如图5中所示,真实模型开发数据集和在实际数据集的范围内开发的随机值的数据集两者被比较。因为在实践中,分析者通常不具有关于任何数据集污染的先验知识,所以这种实现必须来自于观察使用动态离群值偏倚减少系统和方法的若干个模型计算的迭代结果。图5示出了两个数据集的示范性模型开发计算结果。相对于表示模型解释了多少数据变动的确定系数(%)或r2,绘出作为模型未解释的误差量的度量的标准误差。每个点旁边的百分位值表示偏倚标准。例如,90%表示相对或绝对误差值大于第90百分位的数据值作为离群值被从模型中去除。这相当于每次迭代去除具有最高误差的10%的数据值。
如图5所示,对于随机和真实数据集模型两者,通过增大偏倚标准来减少误差,即,对于两个数据集都改进标准误差和确定系数。然而,随机数据集的标准误差是真实模型数据集的两倍或三倍那么大。分析者可使用例如80%确定系数要求作为确定模型参数的可接受精度水平。在图5中,对于随机数据集在70%的偏倚标准下实现80%的r2,而对于真实数据在大约85%的偏倚标准下实现80%的r2。然而,随机数据集的相应标准误差超过真实数据集的两倍那么大。从而,通过以不同的偏倚标准系统地运行模型数据集分析并且以代表性伪造数据集重复这些计算并且如图5中所示绘出结果,分析者可以评估数据集合的可接受偏倚标准(即,去除的数据值的可接受百分比),并且相应地评估整体数据集质量。另外,这种系统性的模型数据集分析可用于自动提出关于数据集合用来基于可配置的参数集合开发模型的可行性的建议。例如,在利用动态离群值偏倚去除为数据集开发模型的一个实施例中,在不同的偏倚标准下计算出的模型数据集和代表性伪造数据集的误差和相关系数值可用于自动提出关于以下可行性的建议:数据集合在支持所开发的模型方面的可行性,以及本质而言,所发开的模型在支持数据集方面的可行性。
如图5中所示,对于若干种情况观察这些模型性能值的行为提供了用于确定数据值是否代表被建模的过程的定量基础。例如,参考图5,100%偏倚标准下(即,无偏倚减少)真实数据集合的标准误差对应于大约65%偏倚标准下(即,具有最高误差的35%的数据被去除)随机数据集合的标准误差。这种发现支持了数据未受污染的结论。
除了上述由图5的说明性图线促进的定量分析以外,动态离群值偏倚减少还可同样地——甚至更强大地——用在主观过程中来帮助评估数据集的质量。这是通过对于离群值和包括的结果两者对照在给定实际目标值的情况下的数据绘出模型预测值来完成的。
图6A和6B对于图5中的真实和随机曲线两者的100%点示出了这些图线。图6A中的大分散与任意的目标值和由此造成的模型不能拟合此故意随机性相一致。图6B与实际数据收集一致且共通,因为模型预测和实际值更多地聚集在模型预测值等于实际目标值的线(以下称为实际=预测线)附近。
图7A和7B示出了来自图5中的70%点的结果(即,30%的数据被作为离群值去除)。在图7A和7B中,离群值偏倚减少被示为去除了最远离实际=预测线的点,但在图7A和7B之间模型准确度的大变动表明此数据集代表了被建模的过程。
图8A和8B示出了来自图5中的50%点的结果(即,50%的数据被作为离群值去除)。在此情况下,大约一半的数据被识别为离群值,并且甚至是在这样的大变动被从数据集中去除的情况下,图8A中的模型仍没有紧密地描述随机数据集。考虑到每种情况中去除的数据,实际=预测线附近的一般变动与图6A和7A中的大致相同。图8B示出了在去除变动性的50%的情况下,模型能够产生紧密匹配实际数据的预测结果。除了对图5中所示的性能标准的分析以外,对这些类型的可视图线的分析也可被分析者用于在实践中就模型开发评估实际数据集的质量。虽然图5、6A、6B、7A、7B、8A和8B示出了其中分析基于与各种偏倚标准值相对应的性能标准趋势的可视图线,但在其他实施例中,分析可基于与偏倚标准值相对应的其他变量,例如与分析者选择的各种偏倚标准相对应的模型系数趋势。
对本发明的优选实施例的以上公开和描述是对其的例示和说明,并且本领域技术人员将会理解,在不脱离本发明的范围的情况下,可对所例示的系统和方法的细节进行各种改变。

Claims (20)

1.一种计算机实现的方法,所述方法包括以下步骤:
由被专门编程的计算系统以电子方式接收包括针对至少一个目标变量收集的所有实际数据值的目标数据集合;
由所述被专门编程的计算系统基于所述目标数据集合生成随机数据集合;
由所述被专门编程的计算系统以电子方式接收被用于确定一个或多个离群值的多个偏倚标准值;
由所述被专门编程的计算系统使用所述目标数据集合和模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少目标数据集合;
由所述被专门编程的计算系统使用所述随机数据集合和所述模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少随机数据集合;
由所述被专门编程的计算系统计算用于所述离群值偏倚减少目标数据集合中的每一个的至少一个目标误差值以及用于所述离群值偏倚减少随机数据集合中的每一个的至少一个随机误差值;
由所述被专门编程的计算系统计算用于所述离群值偏倚减少目标数据集合中的每一个的至少一个目标相关值以及用于所述离群值偏倚减少随机数据集合中的每一个的至少一个随机相关值;
由所述被专门编程的计算系统基于用于所述离群值偏倚减少目标数据集合中的每一个的所述至少一个目标误差值和所述至少一个目标相关值来构建第一偏倚标准曲线;
由所述被专门编程的计算系统基于用于所述离群值偏倚减少随机数据集合中的每一个的所述至少一个随机误差值和所述至少一个随机相关值来构建第二偏倚标准曲线;以及
由所述被专门编程的计算系统比较所述第一偏倚标准曲线和所述第二偏倚标准曲线以确定被用于开发所述模型的所述目标数据集合的可行性。
2.如权利要求1所述的计算机实现的方法,其中所述随机数据集合包括在所述模型的多个预测值的范围内生成的多个随机数据值。
3.如权利要求1所述的计算机实现的方法,还包括,由所述被专门编程的计算系统将所述第一偏倚标准曲线与所述第二偏倚标准曲线的比较翻译为指示被用于开发所述模型的所述目标数据集合的可行性的自动化建议消息。
4.如权利要求1所述的计算机实现的方法,其中所述至少一个目标误差值是标准误差,并且其中所述至少一个目标相关值是确定系数值。
5.如权利要求1所述的计算机实现的方法,其中,由所述被专门编程的计算系统使用所述目标数据集合和所述模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少目标数据集合包括:
针对所述偏倚标准值中的每个偏倚标准值:
由所述被专门编程的计算系统通过将所述模型应用到所述目标数据集合来生成用于所述目标数据集合的多个模型预测值;
由所述被专门编程的计算系统使用所述目标数据集合和所述模型预测值来计算多个误差值;
由所述被专门编程的计算系统将所述误差值与对应的偏倚标准值进行比较;
由所述被专门编程的计算系统移除所述目标数据集合内的离群值以形成从所述误差值与所述对应的偏倚标准值的比较确定的对应的离群值偏倚减少目标数据集合;以及
由所述被专门编程的计算系统优化所述模型以基于所述对应的离群值偏倚减少目标数据集合来形成更新的模型。
6.如权利要求5所述的计算机实现的方法,其中所述误差值包括多个相对误差值和多个绝对误差值。
7.如权利要求5所述的计算机实现的方法,其中所述被专门编程的计算系统使用所述目标数据集合针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少目标数据集合还包括:
针对所述偏倚标准值中的每个偏倚标准值:
由所述被专门编程的计算系统将所述误差值与预定义的终止标准进行比较以确定优化所述模型的终止;以及
当所述误差值与所述预定义的终止标准的比较不表示优化所述模型的终止时,由所述被专门编程的计算系统通过将所述更新的模型应用到所述目标数据集合来生成用于所述目标数据集合的多个第二模型预测值。
8.如权利要求1所述的计算机实现的方法,其中,由所述被专门编程的计算系统比较所述第一偏倚标准曲线和所述第二偏倚标准曲线以确定被用于开发所述模型的所述目标数据集合的可行性包括:
由所述被专门编程的计算系统基于所述至少一个目标误差值确定所述第一偏倚标准曲线上的第一偏倚标准值;
由所述被专门编程的计算系统基于所述至少一个随机误差值确定所述第二偏倚标准曲线上的第二偏倚标准值;以及
由所述被专门编程的计算系统将所述第一偏倚标准值与所述第二偏倚标准值进行比较,其中所述至少一个目标误差值和所述至少一个随机误差值是相同的。
9.如权利要求1所述的计算机实现的方法,还包括:
通过比较若干迭代来确定所述离群值偏倚减少对每个偏倚标准值的影响以优化用于所述偏倚标准值中的每个偏倚标准值的所述更新的模型;以及
比较用于所述偏倚标准值中的每个偏倚标准值的所述至少一个目标相关值的差别。
10.如权利要求1所述的计算机实现的方法,其中所述随机数据集合包括基于所述目标数据集合的所有随机数据值,并且其中由所述被专门编程的计算系统使用所述随机数据集合和所述模型针对所述偏倚标准值中的每个偏倚标准值生成多个离群值偏倚减少随机数据集合包括:
对于所述偏倚标准值中的每个偏倚标准值:
由所述被专门编程的计算系统通过将所述模型应用到所述随机数据集合来生成用于所述随机数据集合的多个模型预测值;
由所述被专门编程的计算系统使用所述随机数据集合和所述模型预测值来计算多个误差值;
由所述被专门编程的计算系统将所述误差值与对应的偏倚标准值进行比较;
由所述被专门编程的计算系统移除所述随机数据集合内的离群值以形成从所述误差值与所述对应的偏倚标准值的比较确定的对应的离群值偏倚减少随机数据集合;以及
由所述被专门编程的计算系统优化所述模型以基于所述对应的离群值偏倚减少随机数据集合来形成更新的模型。
11.一种对于评估开发模型中使用的数据集合的可行性而被专门化的系统,所述系统包括:
服务器,所述服务器包括处理器和非暂态存储子系统;
由所述非暂态存储子系统存储的数据库,所述数据库包括目标数据集合,所述目标数据集合包括针对至少一个目标变量收集的所有实际数据值;
由所述非暂态存储子系统存储的计算程序,所述计算程序包括指令,所述指令当由所述处理器执行时,使得所述系统对于评估用于开发所述模型的所述目标数据集合的可行性而被专门化以至少执行以下操作:
从所述目标数据集合生成随机数据集合;
获得被用于确定一个或多个离群值的偏倚标准值集合;
针对所述偏倚标准值集合中的一个或多个偏倚标准值执行对所述目标数据集合的动态离群值偏倚减少以生成一个或多个离群值偏倚减少目标数据集合;
针对所述偏倚标准值集合中的一个或多个偏倚标准值执行对所述随机数据集合的动态离群值偏倚减少以生成一个或多个离群值偏倚减少随机数据集合;
计算用于所述一个或多个离群值偏倚减少目标数据集合的目标误差值集合以及用于所述一个或多个离群值偏倚减少随机数据集合的随机误差值集合;
计算用于所述离群值偏倚减少目标数据集合的目标相关系数集合以及用于所述离群值偏倚减少随机数据集合中的随机相关系数集合;
从所述一个或多个偏倚标准值、所述目标误差值集合、所述随机误差值集合、所述目标相关系数集合和所述随机相关系数集合构建用于所述目标数据集合的第一偏倚标准曲线和用于所述随机数据集合的第二偏倚标准曲线;以及
比较所述第一偏倚标准曲线和所述第二偏倚标准曲线以确定被用于开发所述模型的所述目标数据集合的可行性。
12.如权利要求11所述的系统,其中所述指令当由所述处理器执行时,使得对于评估用于开发所述模型的所述目标数据集合的可行性而被专门化的所述系统将所述第一偏倚标准曲线与所述第二偏倚标准曲线的比较翻译为指示被用于开发所述模型的所述目标数据集合的可行性的自动化建议消息。
13.如权利要求11所述的系统,其中所述指令当由所述处理器执行时,使得对于评估用于开发所述模型的所述目标数据集合的可行性而被专门化的所述系统通过至少执行以下操作来针对所述偏倚标准值集合中的一个或多个偏倚标准值执行对所述目标数据集合的动态离群值偏倚减少以生成一个或多个离群值偏倚减少目标数据集合:
针对所述一个或多个偏倚标准值中的每个偏倚标准值:
通过将所述模型应用到所述目标数据集合来生成用于所述目标数据集合的多个模型预测值;
计算从所述目标数据集合和所述模型预测值确定的多个误差值;
将所述误差值与对应的偏倚标准值进行比较;
移除所述目标数据集合内的离群值以形成从所述误差值与所述对应的偏倚标准值的比较确定的对应的离群值偏倚减少目标数据集合;以及
优化所述模型以形成从所述对应的离群值偏倚减少目标数据集合确定的更新的模型。
14.如权利要求13所述的系统,其中所述指令当由所述处理器执行时,使得对于评估用于开发所述模型的所述目标数据集合的可行性而被专门化的所述系统通过至少执行以下操作来针对所述偏倚标准值集合中的一个或多个偏倚标准值执行对所述目标数据集合的动态离群值偏倚减少以生成一个或多个离群值偏倚减少目标数据集合:
针对所述一个或多个偏倚标准值中的每个偏倚标准值:
将所述误差值与预定义的终止标准进行比较以确定优化所述模型的终止;以及
当所述误差值与所述预定义的终止标准的比较不表示优化所述模型的终止时,通过将所述更新的模型应用到所述目标数据集合来生成用于所述目标数据集合的多个第二模型预测值。
15.如权利要求11所述的系统,其中所述指令当由所述处理器执行时,使得对于评估用于开发所述模型的所述目标数据集合的可行性而被专门化的所述系统通过至少执行以下操作来比较所述第一偏倚标准曲线和所述第二偏倚标准曲线以确定被用于开发所述模型的所述目标数据集合的可行性:
确定所述第一偏倚标准曲线上的与所述目标误差值集合中的第一目标误差值对应的第一偏倚标准值;
确定所述第二偏倚标准曲线上的与所述随机误差值集合中的第一随机误差值对应的第二偏倚标准值;以及
将所述第一偏倚标准值与所述第二偏倚标准值进行比较,其中所述第一目标误差值和所述第一随机误差值是相同的。
16.如权利要求11所述的系统,其中所述指令当由所述处理器执行时,使得对于评估用于开发所述模型的所述目标数据集合的可行性而被专门化的所述系统通过比较若干迭代来确定所述离群值偏倚减少对每个偏倚标准值的影响以优化用于所述偏倚标准值中的每个偏倚标准值的所述模型;以及比较所述目标相关系数集合的差别。
17.如权利要求11所述的系统,其中所述指令当由所述处理器执行时,使得对于评估用于开发所述模型的所述目标数据集合的可行性而被专门化的所述系统通过至少执行以下操作来针对所述偏倚标准值集合中的一个或多个偏倚标准值执行对所述目标数据集合的动态离群值偏倚减少以生成一个或多个离群值偏倚减少目标数据集合:
针对所述一个或多个偏倚标准值中的每个偏倚标准值:
通过将所述模型应用到所述目标数据集合来生成用于所述目标数据集合的多个模型预测值;
计算从所述目标数据集合和所述模型预测值确定的多个误差值;
将所述误差值与对应的偏倚标准值进行比较;
移除所述目标数据集合内的离群值以形成从所述误差值与所述对应的偏倚标准值的比较确定的对应的离群值偏倚减少目标数据集合;以及
优化所述模型以形成从所述对应的离群值偏倚减少目标数据集合确定的更新的模型。
18.一种对于评估用于开发模型的数据集合的可行性而被专门化的装置,所述装置包括:
耦接到非暂态计算机可读介质的处理器,其中所述非暂态计算机可读介质包括指令,所述指令当由所述处理器执行时,使得所述装置至少执行以下操作:
接收包括针对至少一个目标变量收集的所有实际数据值的目标数据集合;
基于所述目标数据集合生成随机数据集合;
接收被用于确定一个或多个离群值的多个偏倚标准值;
通过对所述目标数据集合应用数学模型和动态离群值偏倚减少来产生与所述偏倚标准值相关联的多个离群值偏倚减少目标数据集合;
通过对所述随机数据集合应用所述数学模型和所述动态离群值偏倚减少来产生与所述偏倚标准值相关联的多个离群值偏倚减少随机数据集合;
计算用于所述离群值偏倚减少目标数据集合中的每一个的至少一个目标误差值以及用于所述离群值偏倚减少随机数据集合中的每一个的至少一个随机误差值集合;
计算用于所述离群值偏倚减少目标数据集合中的每一个的至少一个目标相关值以及用于所述离群值偏倚减少随机数据集合中的每一个的至少一个随机相关值;
基于用于所述离群值偏倚减少目标数据集合中的每一个的所述至少一个目标误差值和所述至少一个目标相关值来构建第一偏倚标准曲线;
基于用于所述离群值偏倚减少随机数据集合中的每一个的所述至少一个随机误差值和所述至少一个随机相关值来构建第二偏倚标准曲线;以及
比较所述第一偏倚标准曲线和所述第二偏倚标准曲线以确定被用于开发所述数学模型的所述目标数据集合的可行性。
19.如权利要求18所述的装置,其中所述指令当由所述处理器执行时,使得所述装置通过至少执行以下操作来通过对所述目标数据集合应用数学模型和动态离群值偏倚减少来产生与所述偏倚标准值相关联的多个离群值偏倚减少目标数据集合:
针对所述一个或多个偏倚标准值中的每个偏倚标准值:
通过将所述数学模型应用到所述目标数据集合来生成用于所述目标数据集合的多个模型预测值;
计算从所述目标数据集合和所述模型预测值确定的多个误差值;
将所述误差值与对应的偏倚标准值进行比较;
移除所述目标数据集合内的离群值以形成从所述误差值与所述对应的偏倚标准值的比较确定的对应的离群值偏倚减少目标数据集合;以及
优化所述数学模型以形成从所述对应的离群值偏倚减少目标数据集合确定的更新的数学模型。
20.如权利要求18所述的装置,其中所述指令当由所述处理器执行时,使得所述装置通过至少执行以下操作来比较所述第一偏倚标准曲线和所述第二偏倚标准曲线以确定被用于开发所述模型的所述目标数据集合的可行性:
确定所述第一偏倚标准曲线上的与所述至少一个目标误差值对应的第一偏倚标准值;
确定所述第二偏倚标准曲线上的与所述至少一个随机误差值对应的第二偏倚标准值;以及
将所述第一偏倚标准值与所述第二偏倚标准值进行比较,其中所述至少一个目标误差值和所述至少一个随机误差值是相同的。
CN201710142741.7A 2011-08-19 2012-08-17 动态离群值偏倚减少系统和方法 Pending CN106933779A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/213,780 2011-08-19
US13/213,780 US9069725B2 (en) 2011-08-19 2011-08-19 Dynamic outlier bias reduction system and method
CN201280048043.6A CN104254848B (zh) 2011-08-19 2012-08-17 动态离群值偏倚减少系统和方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201280048043.6A Division CN104254848B (zh) 2011-08-19 2012-08-17 动态离群值偏倚减少系统和方法

Publications (1)

Publication Number Publication Date
CN106933779A true CN106933779A (zh) 2017-07-07

Family

ID=46981069

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201280048043.6A Active CN104254848B (zh) 2011-08-19 2012-08-17 动态离群值偏倚减少系统和方法
CN201710142741.7A Pending CN106933779A (zh) 2011-08-19 2012-08-17 动态离群值偏倚减少系统和方法
CN201710142639.7A Pending CN106919539A (zh) 2011-08-19 2012-08-17 动态离群值偏倚减少系统和方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201280048043.6A Active CN104254848B (zh) 2011-08-19 2012-08-17 动态离群值偏倚减少系统和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201710142639.7A Pending CN106919539A (zh) 2011-08-19 2012-08-17 动态离群值偏倚减少系统和方法

Country Status (7)

Country Link
US (6) US9069725B2 (zh)
EP (2) EP2745213A1 (zh)
JP (1) JP5982489B2 (zh)
KR (1) KR102024953B1 (zh)
CN (3) CN104254848B (zh)
CA (2) CA3197787A1 (zh)
WO (1) WO2013028532A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10409891B2 (en) 2014-04-11 2019-09-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US10557840B2 (en) 2011-08-19 2020-02-11 Hartford Steam Boiler Inspection And Insurance Company System and method for performing industrial processes across facilities
US11288602B2 (en) 2019-09-18 2022-03-29 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11334645B2 (en) 2011-08-19 2022-05-17 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785890B2 (en) * 2012-08-10 2017-10-10 Fair Isaac Corporation Data-driven product grouping
US9606055B2 (en) * 2013-01-09 2017-03-28 Ppg Industries Ohio, Inc. Systems and methods for statistical measurement control of spectrophotometric data
US11321775B2 (en) * 2013-06-27 2022-05-03 Euroclear Sa/Nv Asset inventory system
EP2854045B1 (de) 2013-09-27 2016-04-06 Deutsche Telekom AG Verfahren und System zum Bewerten von erhobenen Messwerten eines Systems
US10162345B2 (en) 2015-04-21 2018-12-25 International Business Machines Corporation Enhanced emergency reporting system
CN104897537B (zh) * 2015-06-11 2017-08-08 杭州电子科技大学 基于无人机的pm2.5浓度采集装置和数据过滤方法
EP3107000A3 (en) * 2015-06-17 2016-12-28 Tata Consultancy Services Limited System and method for detecting outliers in real-time for a univariate time-series signal
US10884999B2 (en) * 2015-10-28 2021-01-05 Qomplx, Inc. Distributable model with biases contained within distributed data
US10860951B2 (en) 2015-10-28 2020-12-08 Qomplx, Inc. System and method for removing biases within a distributable model
US10628456B2 (en) 2015-10-30 2020-04-21 Hartford Fire Insurance Company Universal analytical data mart and data structure for same
US11244401B2 (en) 2015-10-30 2022-02-08 Hartford Fire Insurance Company Outlier system for grouping of characteristics
US10942929B2 (en) 2015-10-30 2021-03-09 Hartford Fire Insurance Company Universal repository for holding repeatedly accessible information
US10102241B2 (en) 2016-05-20 2018-10-16 Microsoft Technology Licensing, Llc Detecting errors in spreadsheets
CN108510068A (zh) * 2017-02-27 2018-09-07 顾泽苍 一种超深度回归分析学习方法
CN108510070A (zh) * 2017-02-27 2018-09-07 顾泽苍 一种穿越不同空间的模糊事件概率测度值的获得方法
US10706028B2 (en) * 2017-04-25 2020-07-07 Citrix Systems, Inc. Detecting outliers in server transaction time as a form of time series data
CN107943582B (zh) * 2017-11-14 2020-08-04 Oppo广东移动通信有限公司 特征处理方法、装置、存储介质及电子设备
CN109995573B (zh) * 2018-01-02 2022-04-01 中国移动通信有限公司研究院 确定用于预测计算资源的样本空间的方法、计算资源分配方法及装置
US11860971B2 (en) * 2018-05-24 2024-01-02 International Business Machines Corporation Anomaly detection
US10831592B1 (en) * 2018-09-27 2020-11-10 Juniper Networks, Inc Apparatus, system, and method for correcting slow field-replaceable units in network devices
US11507859B2 (en) 2019-01-08 2022-11-22 Colorado State University Research Foundation Trackable reasoning and analysis for crowdsourcing and evaluation
CN110458416B (zh) * 2019-07-17 2023-06-27 创新先进技术有限公司 风控方法及风控装置
KR102634916B1 (ko) * 2019-08-29 2024-02-06 주식회사 엘지에너지솔루션 온도 추정 모델 결정 방법 및 장치, 온도 추정 모델이 적용된 배터리 관리 시스템
CN111125909B (zh) * 2019-12-24 2023-03-31 奇瑞汽车股份有限公司 一种一维汽车热管理模型的自动化标定方法
US20220067122A1 (en) * 2020-08-26 2022-03-03 Coupang Corp. System and method for capping outliers during an experiment test
US12051110B2 (en) * 2020-09-09 2024-07-30 Chicago Mercantile Exchange Inc. Linear model partitioner
CN114781085B (zh) * 2022-04-20 2023-07-04 江苏大学镇江流体工程装备技术研究院 一种实时动态迭代优化的叶轮设计方法
CN117330987B (zh) * 2023-12-01 2024-02-20 国网山西省电力公司营销服务中心 基于时间的电池健康状态评估的方法、系统、介质和设备

Family Cites Families (146)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0227976Y2 (zh) 1986-03-19 1990-07-27
US5339392A (en) 1989-07-27 1994-08-16 Risberg Jeffrey S Apparatus and method for creation of a user definable video displayed document showing changes in real time data
ES2202433T3 (es) 1995-10-12 2004-04-01 Yazaki Corporation Dispositivo para calcular una mala distribucion de la carga en un vehiculo y dispositivo para calcular la carga del vehiculo.
US7010336B2 (en) 1997-08-14 2006-03-07 Sensys Medical, Inc. Measurement site dependent data preprocessing method for robust calibration and prediction
US6085216A (en) 1997-12-31 2000-07-04 Xerox Corporation Method and system for efficiently allocating resources for solving computationally hard problems
JP2001318745A (ja) 2000-05-11 2001-11-16 Sony Corp データ処理装置およびデータ処理方法、並びに記録媒体
US6847976B1 (en) * 2000-06-15 2005-01-25 Terrence B. Peace Method and apparatus for significance testing and confidence interval construction based on user-specified distribution
US20040172401A1 (en) * 2000-06-15 2004-09-02 Peace Terrence B. Significance testing and confidence interval construction based on user-specified distributions
US6832205B1 (en) 2000-06-30 2004-12-14 General Electric Company System and method for automatically predicting the timing and costs of service events in a life cycle of a product
US7124059B2 (en) 2000-10-17 2006-10-17 Accenture Global Services Gmbh Managing maintenance for an item of equipment
US6988092B1 (en) 2000-12-28 2006-01-17 Abb Research Ltd. Method for evaluation of energy utilities
US7043461B2 (en) 2001-01-19 2006-05-09 Genalytics, Inc. Process and system for developing a predictive model
US7039654B1 (en) 2002-09-12 2006-05-02 Asset Trust, Inc. Automated bot development system
US20030171879A1 (en) 2002-03-08 2003-09-11 Pittalwala Shabbir H. System and method to accomplish pipeline reliability
US7313550B2 (en) 2002-03-27 2007-12-25 Council Of Scientific & Industrial Research Performance of artificial neural network models in the presence of instrumental noise and measurement errors
US20070219741A1 (en) * 2005-05-20 2007-09-20 Emilio Miguelanez Methods and apparatus for hybrid outlier detection
JP4042492B2 (ja) 2002-08-07 2008-02-06 トヨタ自動車株式会社 エンジン制御パラメータの適合方法及び適合システム
US20040122625A1 (en) 2002-08-07 2004-06-24 Nasser Loren A. Apparatus and method for predicting total ownership cost
JP4109527B2 (ja) * 2002-10-01 2008-07-02 新日本製鐵株式会社 制御モデルの学習方法、制御モデルの学習装置、コンピュータプログラム、及びコンピュータ読み取り可能な記憶媒体
JP2004145496A (ja) 2002-10-23 2004-05-20 Hitachi Ltd 機器設備の保守支援方法
JP2004191359A (ja) 2002-10-24 2004-07-08 Mitsubishi Heavy Ind Ltd リスクマネージメント装置
JP3968039B2 (ja) 2003-03-06 2007-08-29 東京電力株式会社 保守計画立案支援方法及び装置
US7634384B2 (en) 2003-03-18 2009-12-15 Fisher-Rosemount Systems, Inc. Asset optimization reporting in a process plant
WO2004111201A2 (en) 2003-06-11 2004-12-23 Research Foundation Of State University Of New York Data classification using point-wise tests
DE10331207A1 (de) 2003-07-10 2005-01-27 Daimlerchrysler Ag Verfahren und Vorrichtung zur Vorhersage einer Ausfall-Häufigkeit
CN1209724C (zh) * 2003-08-04 2005-07-06 西安交通大学 基于概率模型的设备状态动态自适应报警方法
WO2005015476A2 (en) 2003-08-07 2005-02-17 Hsb Solomon Associates, Llc System and method for determining equivalency factors for use in comparative performance analysis of industrial facilities
US20050125322A1 (en) 2003-11-21 2005-06-09 General Electric Company System, method and computer product to detect behavioral patterns related to the financial health of a business entity
US20050131794A1 (en) 2003-12-15 2005-06-16 Lifson Kalman A. Stock portfolio and method
EP1548623A1 (en) 2003-12-23 2005-06-29 Sap Ag Outlier correction
SG149899A1 (en) 2004-02-06 2009-02-27 Test Advantage Inc Methods and apparatus for data analysis
EP1718962B1 (en) 2004-02-13 2016-04-13 Waters Technologies Corporation System and method for tracking and quantitating chemical entities
US7469228B2 (en) 2004-02-20 2008-12-23 General Electric Company Systems and methods for efficient frontier supplementation in multi-objective portfolio analysis
CA2501003C (en) 2004-04-23 2009-05-19 F. Hoffmann-La Roche Ag Sample analysis to provide characterization data
AU2005253651A1 (en) 2004-06-21 2005-12-29 Intersection Medical, Inc. Cardiac monitoring system
DE102004032822A1 (de) 2004-07-06 2006-03-23 Micro-Epsilon Messtechnik Gmbh & Co Kg Verfahren zur Verarbeitung von Messwerten
US20060069667A1 (en) 2004-09-30 2006-03-30 Microsoft Corporation Content evaluation
US20060247798A1 (en) 2005-04-28 2006-11-02 Subbu Rajesh V Method and system for performing multi-objective predictive modeling, monitoring, and update for an asset
US7536364B2 (en) 2005-04-28 2009-05-19 General Electric Company Method and system for performing model-based multi-objective asset optimization and decision-making
US8195484B2 (en) 2005-06-15 2012-06-05 Hartford Steam Boiler Inspection And Insurance Company Insurance product, rating system and method
US7966150B2 (en) 2005-11-17 2011-06-21 Florida Power & Light Company Data analysis applications
US8290753B2 (en) 2006-01-24 2012-10-16 Vextec Corporation Materials-based failure analysis in design of electronic devices, and prediction of operating life
EP2013844A4 (en) 2006-04-07 2010-07-07 Hsb Solomon Associates Llc EMISSIONS TRADING PRODUCT AND METHOD
US7447611B2 (en) 2006-05-09 2008-11-04 Hsb Solomon Associates, Llc Power generation performance analysis system and method
US20100262442A1 (en) 2006-07-20 2010-10-14 Standard Aero, Inc. System and method of projecting aircraft maintenance costs
CN101616629A (zh) 2006-08-31 2009-12-30 非线性医药有限公司 用于预测心律失常死亡的自动降噪系统
WO2008033439A2 (en) 2006-09-13 2008-03-20 Aurilab, Llc Robust pattern recognition system and method using socratic agents
US20080104624A1 (en) 2006-11-01 2008-05-01 Motorola, Inc. Method and system for selection and scheduling of content outliers
JP4702851B2 (ja) * 2006-12-07 2011-06-15 Kddi株式会社 トラヒック量変動の上限値を予測するトラヒック量予測装置、プログラム及び方法
KR100877061B1 (ko) 2006-12-14 2009-01-08 엘에스산전 주식회사 다변수 예측제어 시스템 및 방법
JP5116307B2 (ja) 2007-01-04 2013-01-09 ルネサスエレクトロニクス株式会社 集積回路装置異常検出装置、方法およびプログラム
JP2008191900A (ja) 2007-02-05 2008-08-21 Toshiba Corp プラントの信頼性重視保全運用支援システム及び運用支援方法
US8346691B1 (en) * 2007-02-20 2013-01-01 Sas Institute Inc. Computer-implemented semi-supervised learning systems and methods
WO2008126209A1 (ja) 2007-03-27 2008-10-23 Fujitsu Limited 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
US20080300888A1 (en) 2007-05-30 2008-12-04 General Electric Company Systems and Methods for Providing Risk Methodologies for Performing Supplier Design for Reliability
JP2009098093A (ja) 2007-10-19 2009-05-07 Gyoseiin Genshino Iinkai Kakuno Kenkyusho 設備の有効メンテナンスモニタ装置
US8040246B2 (en) 2007-12-04 2011-10-18 Avaya Inc. Systems and methods for facilitating a first response mission at an incident scene
JP5003566B2 (ja) 2008-04-01 2012-08-15 三菱電機株式会社 ネットワーク性能予測システム、ネットワーク性能予測方法およびプログラム
JP4991627B2 (ja) 2008-05-16 2012-08-01 株式会社日立製作所 計画執行管理装置およびそのプログラム
US8352148B2 (en) 2008-05-21 2013-01-08 General Electric Company System for controlling input profiles of combined cycle power generation system
US20160239749A1 (en) 2008-10-28 2016-08-18 Sas Institute Inc. Use of object group models and hierarchies for output predictions
US8386412B2 (en) * 2008-12-12 2013-02-26 At&T Intellectual Property I, L.P. Methods and apparatus to construct histogram and wavelet synopses for probabilistic data
US8509990B2 (en) 2008-12-15 2013-08-13 Panasonic Avionics Corporation System and method for performing real-time data analysis
US9111212B2 (en) 2011-08-19 2015-08-18 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
JP2010250674A (ja) 2009-04-17 2010-11-04 Nec Corp 作業時間予測装置、方法、およびプログラム
US10739741B2 (en) 2009-06-22 2020-08-11 Johnson Controls Technology Company Systems and methods for detecting changes in energy usage in a building
JP2011048688A (ja) 2009-08-27 2011-03-10 Hitachi Ltd プラントライフサイクル評価装置及び方法
GB2486965B (en) 2009-10-21 2016-08-03 Ibm Method and system for improving software execution time by optimizing a performance model
KR101010717B1 (ko) 2009-11-10 2011-01-24 한국동서발전(주) 상태기반 발전소 운전 및 정비 관리 시스템
US8311772B2 (en) 2009-12-21 2012-11-13 Teradata Us, Inc. Outlier processing
CN102117731B (zh) * 2009-12-31 2013-01-02 中芯国际集成电路制造(上海)有限公司 半导体工艺生产流程中的测量数据的监测方法和装置
RU2523191C2 (ru) 2009-12-31 2014-07-20 Абб Рисерч Лтд Способ и система управления для планирования нагрузки электростанции
JP5581965B2 (ja) * 2010-01-19 2014-09-03 オムロン株式会社 Mppt制御器、太陽電池制御装置、太陽光発電システム、mppt制御プログラム、およびmppt制御器の制御方法
US20110246409A1 (en) * 2010-04-05 2011-10-06 Indian Statistical Institute Data set dimensionality reduction processes and machines
CN102081765A (zh) 2011-01-19 2011-06-01 西安交通大学 输电设备状态检修的系统性控制方法
JP5592813B2 (ja) 2011-01-28 2014-09-17 株式会社日立ソリューションズ東日本 生涯需要予測方法、プログラムおよび生涯需要予測装置
US9069725B2 (en) 2011-08-19 2015-06-30 Hartford Steam Boiler Inspection & Insurance Company Dynamic outlier bias reduction system and method
US10557840B2 (en) 2011-08-19 2020-02-11 Hartford Steam Boiler Inspection And Insurance Company System and method for performing industrial processes across facilities
WO2013082724A1 (en) 2011-12-08 2013-06-13 Copperleaf Technologies Inc. Capital asset investment planning apparatus, systems and methods
US9158303B2 (en) 2012-03-27 2015-10-13 General Electric Company Systems and methods for improved reliability operations
US8812331B2 (en) 2012-04-27 2014-08-19 Richard B. Jones Insurance product, rating and credit enhancement system and method for insuring project savings
KR101329395B1 (ko) 2012-06-04 2013-11-14 한국남동발전 주식회사 발전설비 관리 시스템 및 그 제어방법
DE102013009033A1 (de) 2012-07-18 2014-01-23 Tesona Gmbh & Co. Kg Hochtemperaturmesssensoranordnung
US8686364B1 (en) 2012-09-17 2014-04-01 Jp3 Measurement, Llc Method and system for determining energy content and detecting contaminants in a fluid stream
CN103077428B (zh) 2012-12-25 2016-04-06 上海发电设备成套设计研究院 一种厂级多台发电机组可靠性在线预测方法
EP3514700A1 (en) 2013-02-20 2019-07-24 Hartford Steam Boiler Inspection and Insurance Company Dynamic outlier bias reduction system and method
US9536364B2 (en) 2013-02-25 2017-01-03 GM Global Technology Operations LLC Vehicle integration of BLE nodes to enable passive entry and passive start features
US9646262B2 (en) 2013-06-17 2017-05-09 Purepredictive, Inc. Data intelligence using machine learning
CN104254880B (zh) 2013-11-26 2016-03-30 株式会社日本功勒克斯 纸张类处理装置
US10409891B2 (en) 2014-04-11 2019-09-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US9568519B2 (en) 2014-05-15 2017-02-14 International Business Machines Corporation Building energy consumption forecasting procedure using ambient temperature, enthalpy, bias corrected weather forecast and outlier corrected sensor data
JP6444494B2 (ja) 2014-05-23 2018-12-26 データロボット, インコーポレイテッド 予測データ分析のためのシステムおよび技術
US10452992B2 (en) 2014-06-30 2019-10-22 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
CN105436180B (zh) 2015-12-15 2017-12-15 洛阳兰迪玻璃机器股份有限公司 一种真空玻璃等离子体清洗方法和设备
US9996933B2 (en) 2015-12-22 2018-06-12 Qualcomm Incorporated Methods and apparatus for outlier detection and correction of structured light depth maps
US9760690B1 (en) 2016-03-10 2017-09-12 Siemens Healthcare Gmbh Content-based medical image rendering based on machine learning
JP6457421B2 (ja) 2016-04-04 2019-01-23 ファナック株式会社 シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法
US10198339B2 (en) 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
US20190213446A1 (en) 2016-06-30 2019-07-11 Intel Corporation Device-based anomaly detection using random forest models
WO2018004661A1 (en) 2016-07-01 2018-01-04 Intel Corporation Monitoring electrical substation networks
US11429859B2 (en) 2016-08-15 2022-08-30 Cangrade, Inc. Systems and processes for bias removal in a predictive performance model
US20190287039A1 (en) 2016-10-20 2019-09-19 Consolidated Research, Inc. System and method for dynamically evaluating service provider performance
US11315045B2 (en) 2016-12-29 2022-04-26 Intel Corporation Entropy-based weighting in random forest models
US20180307741A1 (en) 2017-04-25 2018-10-25 Intel Corporation Filtering training data for simpler rbf models
CN107391569B (zh) 2017-06-16 2020-09-15 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
US10638979B2 (en) 2017-07-10 2020-05-05 Glysens Incorporated Analyte sensor data evaluation and error reduction apparatus and methods
US10474667B2 (en) 2017-07-29 2019-11-12 Vmware, Inc Methods and systems to detect and correct outliers in a dataset stored in a data-storage device
WO2019033055A1 (en) 2017-08-10 2019-02-14 Clearag, Inc. DEVELOPING COMPLEX AGRICULTURAL SIMULATIONS MODELS FROM LIMITED DATA SETS
JP6837949B2 (ja) 2017-09-08 2021-03-03 株式会社日立製作所 予測システム及び方法
CA3075861A1 (en) 2017-09-15 2019-03-21 Tandemlaunch Inc. System and method for classifying passive human-device interactions through ongoing device context awareness
US11023826B2 (en) 2017-09-29 2021-06-01 Oracle International Corporation System and method for data visualization using machine learning and automatic insight of facts associated with a set of data
US20190108561A1 (en) 2017-10-05 2019-04-11 Mindtree Ltd. Purchase Intent Determination And Real Time In-store Shopper Assistance
EP3483797A1 (en) 2017-11-13 2019-05-15 Accenture Global Solutions Limited Training, validating, and monitoring artificial intelligence and machine learning models
US11423336B2 (en) 2018-03-29 2022-08-23 Nec Corporation Method and system for model integration in ensemble learning
US10521654B2 (en) 2018-03-29 2019-12-31 Fmr Llc Recognition of handwritten characters in digital images using context-based machine learning
US20190313963A1 (en) 2018-04-17 2019-10-17 VideaHealth, Inc. Dental Image Feature Detection
CN109299156A (zh) 2018-08-21 2019-02-01 平安科技(深圳)有限公司 电子装置、基于XGBoost的电力数据异常预测方法及存储介质
US12001949B2 (en) 2018-09-05 2024-06-04 Sartorius Stedim Data Analytics Ab Computer-implemented method, computer program product and system for data analysis
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US20200160229A1 (en) 2018-11-15 2020-05-21 Adobe Inc. Creating User Experiences with Behavioral Information and Machine Learning
US11461702B2 (en) 2018-12-04 2022-10-04 Bank Of America Corporation Method and system for fairness in artificial intelligence based decision making engines
US11204847B2 (en) 2018-12-21 2021-12-21 Microsoft Technology Licensing, Llc Machine learning model monitoring
US11797550B2 (en) 2019-01-30 2023-10-24 Uptake Technologies, Inc. Data science platform
CN113614756A (zh) 2019-03-26 2021-11-05 Hrl实验室有限责任公司 用于具有可编程人机混合集成学习的预报警报的系统和方法
US11593650B2 (en) 2019-03-27 2023-02-28 GE Precision Healthcare LLC Determining confident data samples for machine learning models on unseen data
WO2020219685A1 (en) 2019-04-23 2020-10-29 Sciencelogic, Inc. Distributed learning anomaly detector
US20200364583A1 (en) 2019-05-14 2020-11-19 Robert D. Pedersen Iot sensor network artificial intelligence warning, control and monitoring systems and methods
US11354602B2 (en) 2019-06-04 2022-06-07 Bank Of America Corporation System and methods to mitigate poisoning attacks within machine learning systems
US20200387836A1 (en) 2019-06-04 2020-12-10 Accenture Global Solutions Limited Machine learning model surety
US20200402665A1 (en) 2019-06-19 2020-12-24 GE Precision Healthcare LLC Unplanned readmission prediction using an interactive augmented intelligent (iai) system
CN110378386B (zh) 2019-06-20 2024-09-06 平安科技(深圳)有限公司 基于有监督的无标记异常识别方法、装置及存储介质
EP3987444A1 (en) 2019-06-24 2022-04-27 Telefonaktiebolaget LM Ericsson (publ) Method for detecting uncommon input
US11954610B2 (en) 2019-08-09 2024-04-09 GE Precision Healthcare LLC Active surveillance and learning for machine learning model authoring and deployment
CN110458374A (zh) 2019-08-23 2019-11-15 山东浪潮通软信息科技有限公司 一种基于arima和svm的企业用电最大需量预测方法
CN110411957B (zh) 2019-08-28 2021-11-19 北京农业质量标准与检测技术研究中心 水果货架期及新鲜程度的无损快速预测方法及装置
CN110543618A (zh) 2019-09-05 2019-12-06 上海应用技术大学 基于概率密度函数估计的圆度不确定度评定方法
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11288602B2 (en) 2019-09-18 2022-03-29 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US20210136178A1 (en) 2019-11-06 2021-05-06 Centurylink Intellectual Property Llc Predictive resource allocation in an edge computing network utilizing geolocation for orchestration
CN110909822B (zh) 2019-12-03 2022-11-11 中国科学院微小卫星创新研究院 一种基于改进的高斯过程回归模型的卫星异常检测方法
CN111080502B (zh) 2019-12-17 2023-09-08 清华苏州环境创新研究院 一种区域企业数据异常行为的大数据识别方法
CN111157698B (zh) 2019-12-24 2022-10-21 核工业北京地质研究院 一种利用发射率数据获取黑土土壤全钾含量的反演方法
CN111709447A (zh) 2020-05-14 2020-09-25 中国电力科学研究院有限公司 电网异常检测方法、装置、计算机设备和存储介质
US11007891B1 (en) 2020-10-01 2021-05-18 Electricfish Energy Inc. Fast electric vehicle charging and distributed grid resource adequacy management system
CN112257963B (zh) 2020-11-20 2023-08-29 北京轩宇信息技术有限公司 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10557840B2 (en) 2011-08-19 2020-02-11 Hartford Steam Boiler Inspection And Insurance Company System and method for performing industrial processes across facilities
US11334645B2 (en) 2011-08-19 2022-05-17 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US11868425B2 (en) 2011-08-19 2024-01-09 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US10409891B2 (en) 2014-04-11 2019-09-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US11550874B2 (en) 2014-04-11 2023-01-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US11803612B2 (en) 2018-09-28 2023-10-31 Hartford Steam Boiler Inspection And Insurance Company Systems and methods of dynamic outlier bias reduction in facility operating data
US11288602B2 (en) 2019-09-18 2022-03-29 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models

Also Published As

Publication number Publication date
EP2745213A1 (en) 2014-06-25
KR102024953B1 (ko) 2019-11-04
US11868425B2 (en) 2024-01-09
US20220277058A1 (en) 2022-09-01
KR20140092805A (ko) 2014-07-24
CN104254848B (zh) 2017-04-12
US11334645B2 (en) 2022-05-17
CN104254848A (zh) 2014-12-31
US20180329865A1 (en) 2018-11-15
CN106919539A (zh) 2017-07-04
EP3493079A1 (en) 2019-06-05
US20240152571A1 (en) 2024-05-09
CA3197787A1 (en) 2013-02-28
JP5982489B2 (ja) 2016-08-31
JP2014524629A (ja) 2014-09-22
US20150278160A1 (en) 2015-10-01
WO2013028532A1 (en) 2013-02-28
CA2845827C (en) 2023-06-27
US9069725B2 (en) 2015-06-30
US20130046727A1 (en) 2013-02-21
US20150309963A1 (en) 2015-10-29
CA2845827A1 (en) 2013-02-28

Similar Documents

Publication Publication Date Title
CN104254848B (zh) 动态离群值偏倚减少系统和方法
CN104090861B (zh) 动态离群值偏倚减少系统和方法
US9111212B2 (en) Dynamic outlier bias reduction system and method
US11803612B2 (en) Systems and methods of dynamic outlier bias reduction in facility operating data
Chun Bayesian analysis of the sequential inspection plan via the Gibbs sampler

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170707

RJ01 Rejection of invention patent application after publication