CN104254848B - 动态离群值偏倚减少系统和方法 - Google Patents
动态离群值偏倚减少系统和方法 Download PDFInfo
- Publication number
- CN104254848B CN104254848B CN201280048043.6A CN201280048043A CN104254848B CN 104254848 B CN104254848 B CN 104254848B CN 201280048043 A CN201280048043 A CN 201280048043A CN 104254848 B CN104254848 B CN 104254848B
- Authority
- CN
- China
- Prior art keywords
- value
- error
- model
- coefficient
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/58—Random or pseudo-random number generators
- G06F7/588—Random number generators, i.e. based on natural stochastic processes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Combustion & Propulsion (AREA)
- General Health & Medical Sciences (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Transition And Organic Metals Composition Catalysts For Addition Polymerization (AREA)
Abstract
这里描述了用于进行数据过滤以减少功能性和趋势线离群值偏倚的系统和方法。通过客观统计方法从数据集合中去除离群值。基于绝对误差、相对误差或两者确定偏倚。根据数据、模型系数或趋势线计算来计算误差值。当误差值大于或等于用户提供的标准时,去除离群数据记录。对于优化方法或其他迭代计算,去除的数据在每次迭代中被重应用到模型以计算新结果。利用完整数据集的模型值,计算新误差值并且重应用离群值偏倚减少过程。以迭代方式对于模型系数和离群值去除数据最小化整体误差,直到达到用户定义的误差改进限度为止。经过滤的数据可用于验证、离群值偏倚减少和数据质量操作。
Description
相关申请的交叉引用
此国际专利申请要求2011年8月19日递交的标题为“Dynamic Outlier BiasReduction System and Method”、序列号为13/213,780的美国非临时专利申请的权益和优先权,这里通过引用将该美国申请全部并入。
技术领域
本发明涉及对数据的分析,其中离群元素被从分析开发中去除(或过滤掉)。分析可与简单统计量的计算或者在其开发中涉及使用数据的数学模型的更复杂操作有关。离群数据过滤的目的可以是执行数据质量和数据验证操作,或者计算能够应用于后续分析、回归分析、时间序列分析中的代表性标准、统计量、数据群组或者用于数学模型开发的合格数据。
背景技术
在标准或数据驱动模型开发中去除离群数据是分析前工作的一个重要部分,用来确保从底层数据开发出有代表性的且合理的分析。例如,为二氧化碳(CO2)、臭氧(O3)、水蒸气(H2O)、氢氟碳(HFC)、全氟化碳(PFC)、含氯氟烃(CFC)、六氟化硫(SF6)、甲烷(CH4)、一氧化二氮(N2O)、一氧化碳(CO)、氧化氮(NOx)以及非甲烷挥发性有机化合物(NMVOC)排放的温室气体标准开发公正的基准要求在标准开发中使用的所收集的工业数据表现出某些属性。少数几个工业场所的极好或极坏的性能不应当导致为其他场所计算的标准的偏倚。可以判断将这种性能结果包括在标准计算中是不合理或者没有代表性的。过去,经由一种要求主观输入的半定量过程来去除性能离群值(outlier)。本系统和方法是一种数据驱动的方案,该方案把此任务作为模型开发的一个组成部分来执行,而不是在分析前或模型开发前阶段执行。
偏倚(bias)的去除可以是一个主观过程,其中以某种形式记录认为恰当的理由以证实数据变化。然而,任何形式的离群值去除都是一种带着改变计算结果的潜在可能性的数据审查。这种数据过滤可能减少或不减少计算中的偏倚或误差,并且本着完全分析公开的精神,严格的数据去除指导方针和去除离群值的证明材料需要与分析结果包括在一起。因此,在现有技术中需要提供一种新的系统和方法,用于利用一种对于数据质量操作、数据验证、统计计算或数学模型开发等等有用的动态统计过程来客观地去除离群数据偏倚。离群值偏倚去除系统和方法还可用于将数据分组成代表性类别,其中数据被应用到为每个群组定制的数学模型开发。在优选实施例中,系数被定义为数学模型中的乘法和加法因子以及在性质上非线性的其他数值参数。例如,在数学模型f(x,y,z)=a*x+b*yc+d*sin(ez)+f中,a、b、c、d、e和f全都被定义为系数。这些项的值可以固定或者是数学模型的开发的一部分。
发明内容
优选实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:选择偏倚标准;提供数据集合;提供模型系数的集合;选择目标值的集合;(1)为完整数据集合生成预测值的集合;(2)为数据集生成误差集合;(3)基于误差集合和偏倚标准生成误差阈值的集合;(4)由处理器基于误差集合和误差阈值的集合生成经审查的数据集合;(5)由处理器生成新模型系数的集合;(6)使用新模型系数的集合,重复步骤(1)-(5),除非满足了审查性能终止标准。在优选实施例中,可基于数据集合和模型系数的集合来生成预测值的集合。在优选实施例中,误差集合可包括基于预测值的集合和目标值的集合生成的绝对误差的集合和相对误差的集合。在另一实施例中,误差集合可包括作为预测值的集合与目标值的集合之间的差异计算出的值。在另一实施例中,生成新系数的集合的步骤还可包括最小化预测值的集合与实际值的集合之间的误差的集合的步骤,这可利用线性或非线性优化模型来实现。在优选实施例中,审查性能终止标准可基于标准误差(standarderror)和确定系数(coefficient of determination)。
另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:选择误差标准;选择数据集合;选择实际值的集合;选择模型系数的初始集合;基于完整数据集合和模型系数的初始集合生成模型预测值的集合;(1)对于完整数据集,基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)生成离群值被去除的数据集合,其中过滤基于完整数据集合和误差阈值的集合;(4)基于经过滤的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成由计算机处理器执行;(5)基于经过滤的数据集合和新模型系数的集合生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(6)基于模型预测值和实际值的集合生成模型性能值的集合;在用新系数的集合替代来自先前迭代的系数的集合的同时,重复步骤(1)-(6),除非:满足性能终止标准;并且将模型预测值的集合存储在计算机数据介质中。
另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:为设施选择目标变量;选择目标变量的实际值的集合;为设施识别与目标变量有关的多个变量;为设施获得数据集合,该数据集合包括多个变量的值;选择偏倚标准;选择模型系数的集合;(1)基于完整数据集合和模型系数的集合生成预测值的集合;(2)基于预测值的集合和实际值的集合生成审查模型性能值的集合;(3)对于目标变量,基于预测值的集合和实际值的集合生成误差集合;(4)基于误差集合和偏倚标准生成误差阈值的集合;(5)由处理器基于数据集合和误差阈值的集合生成经审查的数据集合;(6)由处理器基于经审查的数据集合和模型系数的集合生成新模型系数的集合;(7)由处理器基于数据集合和新模型系数的集合生成新预测值的集合;(8)基于新预测值的集合和实际值的集合生成新审查模型性能值的集合;使用新系数的集合,重复步骤(1)-(8),除非满足了审查性能终止标准;以及将新模型预测值的集合存储在计算机数据介质中。
另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:为设施选择目标变量,其中目标变量是关于工业设施的度量,与其生产、金融性能或排放有关;为设施识别多个变量,其中多个变量包括:设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个直接设施变量的函数;选择误差标准,包括:绝对误差,以及相对误差;为设施获得数据集合,其中数据集合包括多个变量的值;选择目标变量的实际值的集合;选择模型系数的初始集合;基于完整数据集合和模型系数的初始集合生成模型预测值的集合;基于模型预测值的集合和实际值的集合生成误差的完整集合,其中相对误差是利用如下公式计算的:相对误差m=((预测值m-实际值m)/实际值m)2,其中“m”是参考编号,并且其中绝对误差是利用如下公式计算的:绝对误差m=(预测值m-实际值m)2;基于模型预测值的集合和实际值的集合生成模型性能值的集合,其中整体模型性能值的集合包括:第一标准误差,以及第一确定系数;(1)对于完整数据集合,基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)通过去除具有大于或等于误差阈值的误差值的数据生成离群值被去除的数据集合,其中过滤是基于完整数据集合和误差阈值的集合的;(4)通过利用线性优化模型和非线性优化模型中的至少一个,最小化预测值的集合与实际值的集合之间的误差,来基于离群值被去除的数据集合和模型系数的集合生成离群值偏倚减少模型预测值的集合,其中新模型预测值的生成是由计算机处理器执行的;(5)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成是由计算机处理器执行的;(6)基于新预测模型值的集合和实际值的集合生成整体模型性能值的集合,其中模型性能值的集合包括:第二标准误差,以及第二确定系数;在用新系数的集合替代来自先前迭代的系数集合的同时,重复步骤(1)-(6),除非:满足了性能终止标准,其中性能终止标准包括:标准误差终止值和确定系数终止值,并且其中满足性能终止标准包括:标准误差终止值大于第一和第二标准误差之间的差异,并且确定系数终止值大于第一和第二确定系数之间的差异;以及将新模型预测值的集合存储在计算机数据介质中。
另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:选择误差标准;选择数据集合;选择实际值的集合;选择模型预测值的初始集合;基于模型预测值的集合和实际值的集合确定误差的集合;(1)基于误差的完整集合和误差标准确定误差阈值的集合;(2)生成离群值被去除的数据集合,其中过滤基于数据集合和误差阈值的集合;(3)基于离群值被去除的数据集合和先前模型预测值生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(4)基于新模型预测值的集合和实际值的集合确定误差的集合;在用新模型预测值的集合替代来自先前迭代的模型预测值的集合的同时,重复步骤(1)-(4),除非:满足了性能终止标准;以及将离群值偏倚减少模型预测值的集合存储在计算机数据介质中。
另一实施例包括一种用于减少离群值偏倚的由计算机实现的方法,包括以下步骤:为设施选择目标变量;为设施识别多个变量,其中多个变量包括:设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个直接设施变量的函数;选择误差标准,包括:绝对误差,以及相对误差;获得数据集合,其中数据集合包括多个变量的值,以及选择目标变量的实际值的集合;选择模型系数的初始集合;通过将模型系数的集合应用到数据集合来生成模型预测值的集合;基于模型预测值的集合和实际值的集合确定性能值的集合,其中性能值的集合包括:第一标准误差,以及第一确定系数;(1)对于完整数据集合,基于模型预测值的集合和实际值的集合生成误差的集合,其中相对误差是利用如下公式计算的:相对误差m=((预测值m-实际值m)/实际值m)2,其中“m”是参考编号,并且其中绝对误差是利用如下公式计算的:绝对误差m=(预测值m-实际值m)2;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)通过去除具有大于或等于误差阈值的集合的误差值的数据来生成离群值被去除的数据集合,其中过滤是基于数据集合和误差阈值的集合的;(4)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合;(5)通过利用线性优化模型和非线性优化模型中的至少一个,最小化预测值的集合与实际值的集合之间的误差,来基于离群值被去除的数据集合和新模型系数的集合生成离群值偏倚减少模型预测值的集合,其中模型预测值的生成是由计算机处理器执行的;(6)基于离群值偏倚减少模型预测值的集合和实际值的集合生成经更新的性能值的集合,其中经更新的性能值的集合包括:第二标准误差,以及第二确定系数;在用新系数的集合替代来自先前迭代的系数集合的同时,重复步骤(1)-(6),除非:满足了性能终止标准,其中性能终止标准包括:标准误差终止值,以及确定系数终止值,并且其中满足性能终止标准包括:标准误差终止值大于第一和第二标准误差之间的差异,并且确定系数终止值大于第一和第二确定系数之间的差异;以及将离群值偏倚减少因子的集合存储在计算机数据介质中。
另一实施例包括一种用于评估数据集合用于开发模型的可行性的由计算机实现的方法,包括以下步骤:提供包括多个数据值的目标数据集合;基于目标数据集合生成随机目标数据集合;选择偏倚标准值的集合;由处理器基于数据集合和每个所选择的偏倚标准值生成离群值偏倚减少目标数据集合;由处理器基于随机数据集合和每个所选偏倚标准值生成离群值偏倚减少随机数据集合;对于离群值偏倚减少数据集合和离群值偏倚减少随机数据集合计算误差值的集合;对于离群值偏倚减少数据集合和离群值偏倚减少随机数据集合计算相关系数的集合;基于所选偏倚标准值和相应的误差值和相关系数为数据集合和随机数据集合生成偏倚标准曲线;以及将数据集合的偏倚标准曲线与随机数据集合的偏倚标准曲线相比较。离群值偏倚减少目标数据集合和离群值偏倚减少随机目标数据集合是利用动态离群值偏倚去除方法生成的。随机目标数据集合可包括从多个数据值的范围内的值开发出来的随机化数据值。另外,误差值的集合可包括标准误差的集合,并且其中相关系数的集合包括确定系数值的集合。另一实施例还可包括以下步骤:基于将目标数据集合的偏倚标准曲线与随机目标数据集合的偏倚标准曲线相比较,生成关于目标数据集合支持所开发的模型以及所开发的模型支持目标数据集合的可行性的自动化建议。可基于分析者选择的参数——例如相关系数阈值和/或误差阈值——来生成建议。另外一个实施例还包括以下步骤:提供实际数据集合,其包括与模型预测值相对应的多个实际数据值;基于实际数据集合生成随机实际数据集合;由处理器基于实际数据集合和每个所选偏倚标准值生成离群值偏倚减少实际数据集合;由处理器基于随机实际数据集合和每个所选偏倚标准生成离群值偏倚减少随机实际数据集合;对于每个所选偏倚标准,基于离群值偏倚减少随机目标数据集合和离群值偏倚减少随机实际数据生成随机数据图线;对于每个所选偏倚标准,基于离群值偏倚减少目标数据集合和离群值偏倚减少实际目标数据集合生成真实数据图线;以及将与每个所选偏倚标准相对应的随机数据图线与真实数据图线相比较。
优选实施例包括一种系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:数据集合;以及由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:选择偏倚标准;提供模型系数的集合;选择目标值的集合;(1)为数据集合生成预测值的集合;(2)为数据集生成误差集合;(3)基于误差集合和偏倚标准生成误差阈值的集合;(4)基于误差集合和误差阈值的集合生成经审查的数据集合;(5)生成新模型系数的集合;以及(6)使用新模型系数的集合,重复步骤(1)-(5),除非满足了审查性能终止标准。在优选实施例中,可基于数据集合和模型系数的集合来生成预测值的集合。在优选实施例中,误差集合可包括基于预测值的集合和目标值的集合生成的绝对误差的集合和相对误差的集合。在另一实施例中,误差集合可包括作为预测值的集合与目标值的集合之间的差异计算出的值。在另一实施例中,生成新系数的集合的步骤还可包括最小化预测值的集合与实际值的集合之间的误差的集合的步骤,这可利用线性或非线性优化模型来实现。在优选实施例中,审查性能终止标准可基于标准误差和确定系数。
本发明的另一实施例包括一种系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:数据集合;以及由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:选择误差标准;选择实际值的集合;选择系数的初始集合;从数据集合和系数的初始集合生成模型预测值的完整集合;(1)对于完整数据集合,基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)生成离群值被去除的数据集合,其中过滤基于完整数据集合和误差阈值的集合;(4)基于离群值被去除的数据集合和系数的集合生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(5)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成由计算机处理器执行;(6)基于离群值偏倚减少模型预测值和实际值的集合生成模型性能值的集合;在用新系数的集合替代来自先前迭代的系数的集合的同时,重复步骤(1)-(6),除非:满足性能终止标准;并且将整体离群值偏倚减少模型预测值的集合存储在计算机数据介质中。
另一实施例包括一种系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:设施的目标变量;目标变量的实际值的集合;设施的与目标变量有关的多个变量;设施的数据集合,该数据集合包括多个变量的值;以及由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:选择偏倚标准;选择模型系数的集合;(1)基于数据集合和模型系数的集合生成预测值的集合;(2)基于预测值的集合和实际值的集合生成审查模型性能值的集合;(3)对于目标变量,基于预测值的集合和实际值的集合生成误差集合;(4)基于误差集合和偏倚标准生成误差阈值的集合;(5)基于数据集合和误差阈值的集合生成经审查的数据集合;(6)基于经审查的数据集合和模型系数的集合生成新模型系数的集合;(7)基于数据集合和新模型系数的集合生成新预测值的集合;(8)基于新预测值的集合和实际值的集合生成新审查模型性能值的集合;使用新系数的集合,重复步骤(1)-(8),除非满足了审查性能终止标准;以及将新模型预测值的集合存储在存储子系统中。
另一实施例包括一种系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:设施的数据集合;以及由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:确定目标变量;识别多个变量,其中多个变量包括:设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个直接变量的函数;选择误差标准,包括:绝对误差,以及相对误差;选择目标变量的实际值的集合;选择系数的初始集合;基于数据集合和系数的初始集合生成模型预测值的集合;基于模型预测值的集合和实际值的集合生成误差的集合,其中相对误差是利用如下公式计算的:相对误差m=((预测值m-实际值m)/实际值m)2,其中“m”是参考编号,并且其中绝对误差是利用如下公式计算的:绝对误差m=(预测值m-实际值m)2;基于模型预测值的集合和实际值的集合确定性能值的集合;其中性能值的集合包括:第一标准误差,以及第一确定系数;(1)基于模型预测值和实际值的集合生成误差的集合;(2)对于完整数据集合,基于误差的完整集合和误差标准生成误差阈值的集合;(3)通过过滤掉具有误差阈值的集合以外的误差值的数据来生成离群值被去除的数据集合,其中过滤是基于数据集合和误差阈值的集合的;(4)通过利用线性优化模型和非线性优化模型中的至少一个,最小化模型预测值的集合与实际值的集合之间的误差,来基于离群值被去除的数据集合和系数的集合生成新模型预测值的集合,其中离群值偏倚减少模型预测值的生成是由计算机处理器执行的;(5)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合,其中新系数的集合的生成是由计算机处理器执行的;(6)基于新预测模型值的集合和实际值的集合生成性能值的集合,其中模型性能值的集合包括:第二标准误差,以及第二确定系数;在用新系数的集合替代来自先前迭代的系数集合的同时,重复步骤(1)-(6),除非:满足了性能终止标准,其中性能终止标准包括:标准误差,以及确定系数,并且其中满足性能终止标准包括:标准误差终止值大于第一和第二标准误差之间的差异,并且确定系数终止值大于第一和第二确定系数之间的差异;以及将新模型预测值的集合存储在计算机数据介质中。
本发明的另一实施例包括一种系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:数据集合,由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:选择误差标准;选择数据集合;选择实际值的集合;选择模型预测值的初始集合;基于模型预测值的集合和实际值的集合确定误差的集合;(1)基于误差的完整集合和误差标准确定误差阈值的集合;(2)生成离群值被去除的数据集合,其中过滤基于数据集合和误差阈值的集合;(3)基于离群值被去除的数据集合和模型预测值的完整集合生成离群值偏倚减少模型预测值的集合,其中离群值偏倚减少模型预测值的集合的生成由计算机处理器执行;(4)基于离群值偏倚减少模型预测值的集合和实际值的相应集合确定误差的集合;在用离群值偏倚减少模型预测值的集合替代模型预测值的集合的同时,重复步骤(1)-(4),除非:满足了性能终止标准;以及将离群值偏倚减少因子的集合存储在计算机数据介质中。
本发明的另一实施例包括一种系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:数据集合,由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:确定目标变量;为设施识别多个变量,其中多个变量包括:设施的影响目标变量的多个直接变量;以及设施的经变换变量的集合,每个经变换变量是影响目标变量的至少一个主设施变量的函数;选择误差标准,包括:绝对误差,以及相对误差;获得数据集合,其中数据集合包括多个变量的值,以及选择目标变量的实际值的集合;选择系数的初始集合;通过将模型系数的集合应用到数据集合来生成模型预测值的集合;基于模型预测值的集合和实际值的集合确定性能值的集合,其中性能值的集合包括:第一标准误差,以及第一确定系数;(1)基于模型预测值的集合和实际值的集合确定误差的集合,其中相对误差是利用如下公式计算的:相对误差k=((预测值k-实际值k)/实际值k)2,其中“k”是参考编号,并且其中绝对误差是利用如下公式计算的:绝对误差k=(预测值k-实际值k)2;(2)对于完整数据集合,基于误差的集合和误差标准确定误差阈值的集合;(3)通过去除具有大于或等于误差阈值的误差值的数据来生成离群值被去除的数据集合,其中过滤是基于数据集合和误差阈值的集合的;(4)基于离群值被去除的数据集合和先前系数的集合生成新系数的集合;(5)通过利用线性优化模型和非线性优化模型中的至少一个,最小化预测值的集合与实际值的集合之间的误差,来基于离群值被去除的数据集合和系数的集合生成离群值偏倚减少模型值的集合;(5)基于离群值偏倚减少模型预测值的集合和实际值的集合确定经更新的性能值的集合,其中经更新的性能值的集合包括:第二标准误差,以及第二确定系数;在用新系数的集合替代来自先前迭代的系数集合的同时,重复步骤(1)-(5),除非:满足了性能终止标准,其中性能终止标准包括:标准误差终止值,以及确定系数终止值,并且其中满足性能终止标准包括:标准误差终止值大于第一和第二标准误差之间的差异,并且确定系数终止值大于第一和第二确定系数之间的差异;以及将离群值偏倚减少因子的集合存储在计算机数据介质中。
另一实施例包括一种用于评估数据集合用于开发模型的可行性的系统,其包括:服务器,其包括:处理器,以及存储子系统;由存储子系统存储的数据库,其包括:目标数据集合,其包括多个模型预测值;由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作的指令:生成随机目标数据集合;选择偏倚标准值的集合;基于目标数据集合和每个所选择的偏倚标准值生成离群值偏倚减少数据集合;基于随机目标数据集合和每个所选偏倚标准值生成离群值偏倚减少随机目标数据集合;对于离群值偏倚减少目标数据集合和离群值偏倚减少随机目标数据集合计算误差值的集合;对于离群值偏倚减少目标数据集合和离群值偏倚减少随机目标数据集合计算相关系数的集合;对于每个所选偏倚标准,基于相应的误差值和相关系数,对于目标数据集合和随机目标数据集合生成偏倚标准曲线;以及将目标数据集合的偏倚标准曲线与随机目标数据集合的偏倚标准曲线相比较。处理器利用动态离群值偏倚去除方法来生成离群值偏倚减少目标数据集合和离群值偏倚减少随机目标数据集合。随机目标数据集合可包括从多个数据值的范围内的值开发出来的随机化数据值。另外,误差值的集合可包括标准误差的集合,并且相关系数的集合包括确定系数值的集合。在另一实施例中,该程序还包括在被执行时使得处理器进行以下操作的指令:基于将目标数据集合的偏倚标准曲线与随机目标数据集合的偏倚标准曲线相比较,生成自动化建议。可基于分析者选择的参数——例如相关系数阈值和/或误差阈值——来生成建议。在另外一个实施例中,系统的数据库还包括实际数据集合,其包括与模型预测值相对应的多个实际数据值,并且程序还包括当被执行时使得处理器进行以下操作的指令:基于实际数据集合生成随机实际数据集合;基于实际数据集合和每个所选偏倚标准值生成离群值偏倚减少实际数据集合;基于随机实际数据集合和每个所选偏倚标准生成离群值偏倚减少随机实际数据集合;对于每个所选偏倚标准,基于离群值偏倚减少随机目标数据集合和离群值偏倚减少随机实际数据生成随机数据图线;对于每个所选偏倚标准,基于离群值偏倚减少目标数据集合和离群值偏倚减少实际目标数据集合生成真实数据图线;以及将与每个所选偏倚标准相对应的随机数据图线与真实数据图线相比较。
附图说明
图1是示出数据离群值识别和去除方法的实施例的流程图。
图2是示出用于数据质量操作的数据离群值识别和去除方法的实施例的流程图。
图3是示出用于数据验证的数据离群值识别和去除方法的实施例的流程图。
图4是用于实现本发明的方法的说明性节点。
图5是数据集合的定量评估的说明性图线。
图6A和6B是图5的数据集合的定性评估的说明性图线,分别示出了整个数据集合的随机化和真实数据集合。
图7A和7B是图5的数据集合的定性评估的说明性图线,分别示出了在将30%的数据作为离群值去除之后的随机化和真实数据集合。
图8A和8B是图5的数据集合的定性评估的说明性图线,分别示出了在将50%的数据作为离群值去除之后的随机化和真实数据集合。
具体实施方式
以下公开提供了许多不同实施例,或者示例,用于实现用于访问和管理结构化内容的系统和方法的不同特征。描述了组件、过程和实现方式的具体示例来帮助阐明本发明。这些只是示例,而并不打算偏离权利要求中所述地限制本发明。公知的元素在没有详细描述的情况下给出,以免以不必要的细节模糊本发明的优选实施例。大多数情况下,省略了获得对本发明的优选实施例的完整理解所不必要的细节,因为这样的细节在相关领域的普通技术人员的技能范围内。
动态离群值偏倚减少的一个实施例的数学描述如下所示:
术语:
-所有数据记录的集合:其中:
-第k次迭代的接受数据记录的集合
-第k次迭代的离群(去除)数据记录的集合
-对于计算出的模型预测值的集合
-对于数据记录的离群模型预测值的集合
-模型所基于的实际值(目标值)的集合
-作为使用的模型计算的结果计算出的第k+1次迭代时的模型系数的集合
-从存储模型得出的和用户提供的系数产生的模型计算
C-用户提供的误差标准(%)
-误差阈值函数
F(ψ,C)-误差阈值(E)
-迭代终止标准,例如迭代计数、r2、标准误差等等初始计算,k=0
初始步骤1:利用初始模型系数估计通过将模型应用到完整数据集合来计算初始模型预测值:
初始步骤2:计算初始模型性能结果:
初始步骤3:计算(一个或多个)模型误差阈值:
初始步骤4:过滤数据记录以去除离群值:
迭代计算,k>0
迭代步骤1:通过将模型应用到接受数据集合来计算预测值:
迭代步骤2:计算模型性能结果:
如果达到终止标准,则停止,否则去到步骤3:
迭代步骤3:利用当前模型为去除的数据 计算结果:
迭代步骤4:计算模型误差阈值:
迭代步骤5:过滤数据记录以去除离群值:
动态离群值偏倚减少的一个实施例的另一数学描述如下所示:
术语:
-所有数据记录的集合:其中:
-第k次迭代的接受数据记录的集合
-第k次迭代的离群(去除)数据记录的集合
-对于计算出的模型预测值的集合
-对于的离群模型预测值的集合
-模型所基于的实际值(目标值)的集合
-作为使用的模型计算的结果计算出的第k+1次迭代时的模型系数的集合
-从存储模型得出的和用户提供的系数的产生的模型计算
CRE-用户提供的相对误差标准(%)
CAE-用户提供的绝对误差标准(%)
-所有数据记录的相对误差值
-所有数据记录的绝对误差值
-第k次迭代的相对误差阈值,其中
-第k次迭代的绝对误差阈值,其中
-迭代终止标准,例如迭代计数、r2、标准误差等等
初始计算,k=0
初始步骤1:利用初始模型系数估计通过将模型应用到完整数据集合来计算初始模型预测值:
初始步骤2:计算初始模型性能结果:
初始步骤3:计算模型误差阈值:
初始步骤4:过滤数据记录以去除离群值:
迭代计算,k>0
迭代步骤1:通过将模型应用到离群值被去除的数据集合来计算模型预测值:
迭代步骤2:计算模型性能结果:
如果达到终止标准,则停止,否则去到步骤3:
迭代步骤3:利用当前模型为去除的数据计算结果:
迭代步骤4:计算模型误差阈值:
迭代步骤5:过滤数据记录以去除离群值:
递增k并去到迭代步骤1。
在从当前审查的数据集计算新模型系数的每次迭代之后,从先前迭代去除的数据加上当前审查的数据被重组合。此组合涵盖了完整数据集中的所有数据值。随后将当前模型系数应用到完整数据集以计算预测值的完整集合。对于预测值的完整集合计算绝对和相对误差,并且计算新的偏倚标准百分位阈值。通过去除绝对或相对误差大于阈值的所有数据值来创建新的审查数据集,然后向新审查的数据集应用非线性优化模型来计算新的模型系数。此过程使得所有数据值在每一次迭代中都能够被审查以查明其是否可能包括在模型数据集中。随着模型系数收敛在最佳拟合数据的值上,在先前迭代中排除的一些数据值有可能将被包括入后续迭代中。
在一个实施例中,GHG排放的变动可导致对排放结果的过高估计或过低估计,这导致了模型预测值中的偏倚。这些非工业影响——例如环境条件和计算过程中的误差——可使得关于特定设施的结果与类似设施的极为不同,除非去除了模型预测值中的偏倚。模型预测值中的偏倚也可由于独特的操作条件而存在。
如果分析者确信一设施的计算有差错或者拥有独特的、情有可原的特性,则可以通过简单地将设施的数据从计算中去除来去除偏倚。然而,当测量来自许多不同的公司、地区和国家的设施性能时,数据细节的精确先验知识是不现实的。因此,任何基于分析者的数据去除过程都具有向模型结果添加无事实根据的、无数据支持的偏倚的潜在可能。
在一个实施例中,动态离群值偏倚减少被应用到使用数据和规定的整体误差标准来确定被从模型系数计算中去除的统计离群值的过程。这是一个数据驱动的过程,其利用由数据产生的全局误差标准来识别离群值,其中该误差标准例如使用百分位函数。动态离群值偏倚减少的使用不限于模型预测值中的偏倚的减少,并且其在此实施例中的使用只是说明性和示范性的。动态离群值偏倚减少也可用于例如从任何统计数据集合中去除离群值,包括用于算术平均、线性回线和趋势线的计算,但不限于这些计算。离群设施仍从计算结果中排名,但离群值不用在被应用来计算模型系数或统计结果的经过滤的数据集合中。
常用于去除离群值的标准过程是计算数据集合的标准偏差(σ)并且简单地将例如在均值的2σ间隔外的所有数据定义为离群值。此过程具有一般在实践中不能测试的统计假设。在本发明的实施例中应用的动态离群值偏倚减少方法描述在图1中概略示出,其使用了相对误差和绝对误差两者。例如,对于一设施“m”,
相对误差m=((预测值m-实际值m)/实际值m)2 (1)
绝对误差m=(预测值m-实际值m)2 (2)
在步骤110中,分析者规定误差阈值标准,该误差阈值标准将定义要从计算中去除的离群值。例如,使用百分位运算作为误差函数,可以设定相对和绝对误差的80%的百分位值。这意味着,对于相对误差小于第80百分位值的数据值和对于绝对误差计算小于第80百分位值的数据值将被包括,而剩余的值被去除或被认为是离群值。在此示例中,一个数据值要避免被去除,则该数据值必须小于相对和绝对误差两者的第80百分位值。然而,可以独立地改变相对和绝对误差的百分位阈值,并且在另一实施例中,可以只使用百分位阈值中的一个。
在步骤120中,规定模型标准误差和确定系数(r2)百分比变化标准。虽然这些统计量的值在模型与模型之间将有变化,但在前迭代过程中的百分比变化可被预设在例如5%。这些值可用于终止迭代过程。另一个终止标准可以是简单的迭代计数。
在步骤130中,执行优化计算,其为每个设施产生模型系数和预测值。
在步骤140中,利用式(1)和(2)计算所有设施的相对和绝对误差。
在步骤150中,向在步骤140中计算出的数据应用具有在步骤110中规定的阈值标准的误差函数以确定离群值阈值。
在步骤160中,过滤数据以仅包括如下设施:对于这些设施,相对误差、绝对误差或者这两个误差(这取决于所选择的配置)小于在步骤150中计算出的误差阈值。
在步骤170中,仅利用离群值被去除的数据集合来执行优化计算。
在步骤180中,将标准误差和r2的百分比变化与在步骤120中规定的标准相比较。如果百分比变化大于标准,则通过返回到步骤140来重复该过程。否则,在步骤190中终止迭代过程,并且完成了从这个动态离群值偏倚减少标准过程计算出的结果模型。模型结果被应用到所有设施,无论其当前迭代过去去除或许可数据状态如何。
在另一实施例中,该过程开始于选择某些迭代参数,具体而言:
(1)绝对误差和相对误差百分位值,其中一者、另一者或两者可用在迭代过程中,
(2)确定系数(也称为r2)改进值,以及
(3)标准误差改进值。
该过程开始于原始数据集合、实际数据的集合以及用于基于原始数据集合计算预测值的至少一个系数或因子。系数或系数的集合将被应用到原始数据集合以创建预测值的集合。系数的集合可包括但不限于标量、指数、参数和周期函数。随后将预测数据的集合与实际数据的集合相比较。基于预测数据与实际数据之间的差异来计算标准误差和确定系数。与数据点中的每一个相关联的绝对和相对误差被用于基于用户选择的绝对和相对误差百分位值来去除数据离群值。对数据排名是不必要的,因为落在与绝对和/或相对误差的百分位值相关联的范围之外的所有数据都被从原始数据集合中去除。使用绝对和相对误差来过滤数据是说明性的并且仅用于示范,因为可以仅用绝对误差或仅用相对误差来者用另一函数来执行该方法。
与在用户选择的百分位范围内的绝对和相对误差相关联的数据是离群值被去除的数据集合,并且该过程的每次迭代将具有其自己的经过滤的数据集合。这个第一离群值被去除的数据集合被用于确定将与实际值相比较的预测值。通过优化误差来确定至少一个系数,然后将这些系数用于基于第一离群值被去除的数据集合生成预测值。离群值偏倚减少的系数充当用来从一次迭代向下一次迭代传递知识的机制。
在创建第一离群值被去除的数据集合之后,计算标准误差和确定系数并将其与原始数据集合的标准误差和确定系数相比较。如果标准误差的差异和确定系数的差异都低于其各自的改进值,则该过程停止。然而,如果改进标准中的至少一个未得到满足,则该过程继续另一次迭代。将标准误差和确定系数用作对迭代过程的检查只是说明性和示范性的,因为该检查可仅利用标准误差或仅利用确定系数、利用不同的统计检查或者利用某种其他的性能终止标准(例如迭代次数)来执行。
假设第一次迭代未能满足改进标准,则第二次迭代开始,将第一离群值偏倚减少数据系数应用到原始数据以确定预测值的新集合。然后再次处理原始数据,从而在使用第一离群值被去除的数据集合系数的同时,对于数据点建立绝对和相对误差,并且对于原始数据集合建立标准误差和确定系数值。然后过滤数据以形成第二离群值被去除的数据集合并基于第二离群值被去除的数据集合来确定系数。
然而,第二离群值被去除的数据集合不一定是第一离群值被去除的数据集合的子集,并且其与离群值偏倚减少模型系数的第二集合、第二标准误差和第二确定系数相关联。一旦确定了这些值,就将第二标准误差与第一标准误差相比较,并且将第二确定系数再次与第一确定系数相比较。
如果(标准误差和确定系数的)改进值超过这些参数的差异,则该过程将结束。如果否,则另一迭代将开始,再次处理原始数据;这一次使用第二离群值偏倚减少系数来处理原始数据集合并生成预测值的新集合。基于用户为绝对和相对误差选择的百分位值的过滤将创建第三离群值被去除的数据集合,该集合将被优化以确定第三离群值偏倚减少系数的集合。该过程将继续,直到满足误差改进或其他终止标准为止(例如收敛标准或规定的迭代次数)。
此过程的输出将是系数或模型参数的集合,其中系数或模型参数是数学值(或值的集合),例如但不限于用于比较数据的模型预测值、线性方程的斜率和截距值、指数或者多项式的系数。动态离群值偏倚减少的输出本身不是输出值,而是将会修改数据以确定输出值的系数。
在图2中所示的另一实施例中,将动态离群值偏倚减少作为一种数据质量技术应用来评估数据的一致性和准确性以核实数据对于特定的用途是适当的。对于数据质量操作,该方法可不涉及迭代过程。在此过程期间可与动态离群值偏倚减少并行地使用其他数据质量技术。该方法被应用到给定数据集合的算术平均计算。数据质量标准对于此示例是连续的数据值被包含在某个范围内。从而,值间隔得太开的任何值都将构成质量不佳的数据。然后构造函数的连续值的误差项,并且向这些误差值应用动态离群值偏倚减少。
在步骤210中,按任何顺序列出初始数据。
步骤220构成对数据集执行的函数或操作。在此实施例示例中,函数和操作是对数据的升序排名,然后是连续的算术平均计算,其中每一行对应于该行和该行上方的所有数据的平均。
步骤230利用来自步骤220的结果的连续值从数据计算相对和绝对误差。
步骤240允许分析者输入期望的离群值去除误差标准(%)。质量标准值是基于步骤220中的数据来自步骤230中的误差计算的结果值。
步骤250示出数据质量离群值过滤数据集。如果相对和绝对误差超过步骤240中给出的规定误差标准,则去除具体的值。
步骤260示出了完整的数据集和离群值被去除的数据集之间的算术平均计算比较。分析者像所有应用的数学或统计计算中那样进行最终步骤,判断所识别出的离群值被去除的数据元素是否实际质量不佳。动态离群值偏倚减少系统和方法消除了分析者直接去除数据的情况,但最佳实践指导方针建议分析者就实际相关性审查并检查结果。
在图3中所示的另一实施例中,应用动态离群值偏倚减少作为一种数据验证技术,该技术测试数据集合的合理准确性以确定数据对于特定的用途是否适当。对于数据验证操作,该方法可不涉及迭代过程。在此示例中,动态离群值偏倚减少被应用到两个数据集合之间的皮尔逊相关系数的计算。皮尔逊相关系数对于数据集合中的与其他数据点相对不同的值可以敏感。就这个统计量验证数据集合对于确保结果代表大部分数据表明什么而不是极值的影响是重要的。数据验证过程对于此示例是连续的数据值被包含在规定范围内。从而,值间隔得太开(例如在规定范围以外)的任何值将表示质量不佳的数据。这是通过构造函数的连续值的误差项来完成的。动态离群值偏倚减少被应用到这些误差值,并且离群值被去除的数据集合是经验证的数据。
在步骤310中,按任何顺序列出配对的数据。
步骤320对于数据集中的每个有序对计算相对和绝对误差。
步骤330允许分析者输入期望的数据验证标准。在示例中,选择90%相对和绝对误差阈值。步骤330中的质量标准值输入是步骤320中所示的数据的结果绝对和相对误差百分位值。
步骤340示出了离群值去除过程,其中利用相对和绝对误差值两者都超过与在步骤330中输入的用户选择百分位值相对应的值这个标准从数据集中去除可能无效的数据。在实践中可以使用其他误差标准,并且当如此示例中所示那样应用多个标准时,可以应用误差值的任何组合来确定离群值去除规则。
步骤350计算经验证数据和原始数据值统计结果。在此情况下,皮尔逊相关系数。随后分析者就实际相关性审查这些结果。
在另一实施例中,动态离群值偏倚减少用于执行整个数据集合的验证。选择标准误差改进值、确定系数改进值和绝对和相对误差阈值,然后根据误差标准来过滤数据集合。即使原始数据集合具有高质量,也仍将会有一些数据会具有落在绝对和相对误差阈值以外的误差值。因此,确定对数据的任何去除是否必要,是重要的。如果离群值被去除的数据集合在第一次迭代之后通过了标准误差改进和确定系数改进标准,则原始数据集合已得到验证,因为经过滤的数据集合产生了太小以至于不被认为有意义(例如在所选择的改进值以下)的标准误差和确定系数。
在另一实施例中,动态离群值偏倚减少用于提供关于数据离群值去除的迭代如何影响计算的洞悉。提供图线或数据表格来允许用户观察随着每次迭代被执行,数据离群值去除计算的进展。这个分步方案使得分析者能够观察计算的能够向结果添加价值和知识的独特属性。例如,速度和收敛性质可指示动态离群值偏倚减少对计算多维数据集合的代表性因子的影响。
作为说明,考虑对87个记录的质量不佳数据集合的线性回归计算。回归的方程的形式是y=mx+b。表1示出了5次迭代的迭代过程的结果。注意,利用95%的相对和绝对误差标准,在3次迭代中实现收敛。可以观察到回归系数的变化,并且动态离群值偏倚减少方法基于79个记录缩减了计算数据集合。相对低的确定系数(r2=39%)表明,应当测试更低(<95%)的标准以研究对r2统计量和对计算出的回归系数的额外离群值去除效果。
表1:动态离群值偏倚减少示例:
95%的线性回归
迭代 | N | 误差 | r2 | m | b |
0 | 87 | 3.903 | 25% | -0.428 | 41.743 |
1 | 78 | 3.048 | 38% | -0.452 | 43.386 |
2 | 83 | 3.040 | 39% | -0.463 | 44.181 |
3 | 79 | 3.030 | 39% | -0.455 | 43.630 |
4 | 83 | 3.040 | 39% | -0.463 | 44.181 |
5 | 79 | 3.030 | 39% | -0.455 | 43.630 |
在表2中,利用80%的相对和绝对误差标准示出了应用动态离群值偏倚减少的结果。注意,离群值误差标准中的15个百分点(95%到80%)的变化产生了r2的35个百分点(39%到74%)的增加,并且许可的数据有35%的额外减少(包括79个记录到包括51个记录)。分析者在分析过程中可使用回归线的变化的图形视图,其中带有离群值被去除的数据和表1和2的数值结果,以将离群值被去除的结果传达给更宽的受众并且提供关于数据可变性对分析结果的效果的更多洞悉。
表2:动态离群值偏倚减少示例
80%的线性回归
迭代 | N | 误差 | r2 | m | b |
0 | 87 | 3.903 | 25% | -0.428 | 41.743 |
1 | 49 | 1.607 | 73% | -0.540 | 51.081 |
2 | 64 | 1.776 | 68% | -0.561 | 52.361 |
3 | 51 | 1.588 | 74% | -0.558 | 52.514 |
4 | 63 | 1.789 | 68% | -0.559 | 52.208 |
5 | 51 | 1.588 | 74% | -0.558 | 52.514 |
如图4中所示,用于执行该方法的系统的一个实施例包括计算系统。硬件包括处理器410,处理器410包含充足的系统存储器420以执行所需的数值计算。处理器410执行驻留在系统存储器420中的计算机程序以执行该方法。视频和存储控制器430可用于使能显示器440的操作。系统包括用于数据输入的各种数据存储设备,例如软盘单元450、内部/外部盘驱动器460、内部CD/DVD470、磁带单元480和其他类型的电子存储介质490。上述数据存储设备只是说明性和示范性的。这些存储介质用于将数据集合和离群值去除标准输入到系统中,存储离群值被去除的数据集合,存储计算出的因子,以及存储系统产生的趋势线和趋势线迭代图。计算可应用统计软件包或者可根据例如利用Microsoft Excel以电子数据表格式输入的数据执行。计算是利用为公司特定的系统实现设计的定制软件程序或者利用兼容Excel或其他数据库和电子数据表程序的市售软件来执行的。系统还可与专有的或公共的外部存储介质300接口以与其他数据库链接来提供要用于动态离群值偏倚减少系统和方法计算的数据。输出设备可以是用于经由内联网或因特网将计算工作表和其他由系统产生的图线和报告发送到管理人员或其他人员的电信设备510、打印机520、与作为输入设备450、460、470、480、490提及的那些类似的电子存储介质以及专有的存储数据库530。这里使用的这些输出设备只是说明性和示范性的。
如图5、6A、6B、7A、7B、8A和8B中所示,在一个实施例中,动态离群值偏倚减少可用于基于与基准数据集的误差和相关性相比的数据集合的数据值的误差和相关性来定量地和定性地评估数据集合的质量,其中基准数据集由从适当范围内开发出来的随机数据值构成。在一个实施例中,可以指定误差为数据集合的标准误差,并且可以指定相关性为数据集合的确定系数(r2)。在另一实施例中,可以指定相关性为肯德尔等级相关系数,通常称为肯德尔τ系数。在另外一个实施例中,可以指定相关性为斯皮尔曼等级相关系数,或者斯皮尔曼ρ系数。如上所述,动态离群值偏倚减少用于系统地去除被识别为离群值、不代表所描述的底层模型或过程的数据值。通常,离群值与相对少量的数据值相关联。然而,在实践中,数据集可能不知不觉地被伪造值或随机噪声所污染。图5、6A、6B、7A、7B、8A和8B的图示说明了可如何应用动态离群值偏倚减少系统和方法来识别数据不支持底层模型的情形。通过去除如下数据值来执行离群值减少:对于这些数据值,在模型预测值与实际数据值之间计算出的相对和/或绝对误差大于基于百分位的偏倚标准,例如80%。这意味着,如果相对或绝对误差百分位值大于与第80百分位相关联的百分位阈值(80%的数据值具有小于此值的误差),则去除数据值。
如图5中所示,真实模型开发数据集和在实际数据集的范围内开发的随机值的数据集两者被比较。因为在实践中,分析者通常不具有关于任何数据集污染的先验知识,所以这种实现必须来自于观察使用动态离群值偏倚减少系统和方法的若干个模型计算的迭代结果。图5示出了两个数据集的示范性模型开发计算结果。相对于表示模型解释了多少数据变动的确定系数(%)或r2,绘出作为模型未解释的误差量的度量的标准误差。每个点旁边的百分位值表示偏倚标准。例如,90%表示相对或绝对误差值大于第90百分位的数据值作为离群值被从模型中去除。这相当于每次迭代去除具有最高误差的10%的数据值。
如图5所示,对于随机和真实数据集模型两者,通过增大偏倚标准来减少误差,即,对于两个数据集都改进标准误差和确定系数。然而,随机数据集的标准误差是真实模型数据集的两倍或三倍那么大。分析者可使用例如80%确定系数要求作为确定模型参数的可接受精度水平。在图5中,对于随机数据集在70%的偏倚标准下实现80%的r2,而对于真实数据在大约85%的偏倚标准下实现80%的r2。然而,随机数据集的相应标准误差超过真实数据集的两倍那么大。从而,通过以不同的偏倚标准系统地运行模型数据集分析并且以代表性伪造数据集重复这些计算并且如图5中所示绘出结果,分析者可以评估数据集合的可接受偏倚标准(即,去除的数据值的可接受百分比),并且相应地评估整体数据集质量。另外,这种系统性的模型数据集分析可用于自动提出关于数据集合用来基于可配置的参数集合开发模型的可行性的建议。例如,在利用动态离群值偏倚去除为数据集开发模型的一个实施例中,在不同的偏倚标准下计算出的模型数据集和代表性伪造数据集的误差和相关系数值可用于自动提出关于以下可行性的建议:数据集合在支持所开发的模型方面的可行性,以及本质而言,所发开的模型在支持数据集方面的可行性。
如图5中所示,对于若干种情况观察这些模型性能值的行为提供了用于确定数据值是否代表被建模的过程的定量基础。例如,参考图5,100%偏倚标准下(即,无偏倚减少)真实数据集合的标准误差对应于大约65%偏倚标准下(即,具有最高误差的35%的数据被去除)随机数据集合的标准误差。这种发现支持了数据未受污染的结论。
除了上述由图5的说明性图线促进的定量分析以外,动态离群值偏倚减少还可同样地——甚至更强大地——用在主观过程中来帮助评估数据集的质量。这是通过对于离群值和包括的结果两者对照在给定实际目标值的情况下的数据绘出模型预测值来完成的。
图6A和6B对于图5中的真实和随机曲线两者的100%点示出了这些图线。图6A中的大分散与任意的目标值和由此造成的模型不能拟合此故意随机性相一致。图6B与实际数据收集一致且共通,因为模型预测和实际值更多地聚集在模型预测值等于实际目标值的线(以下称为实际=预测线)附近。
图7A和7B示出了来自图5中的70%点的结果(即,30%的数据被作为离群值去除)。在图7A和7B中,离群值偏倚减少被示为去除了最远离实际=预测线的点,但在图7A和7B之间模型准确度的大变动表明此数据集代表了被建模的过程。
图8A和8B示出了来自图5中的50%点的结果(即,50%的数据被作为离群值去除)。在此情况下,大约一半的数据被识别为离群值,并且甚至是在这样的大变动被从数据集中去除的情况下,图8A中的模型仍没有紧密地描述随机数据集。考虑到每种情况中去除的数据,实际=预测线附近的一般变动与图6A和7A中的大致相同。图8B示出了在去除变动性的50%的情况下,模型能够产生紧密匹配实际数据的预测结果。除了对图5中所示的性能标准的分析以外,对这些类型的可视图线的分析也可被分析者用于在实践中就模型开发评估实际数据集的质量。虽然图5、6A、6B、7A、7B、8A和8B示出了其中分析基于与各种偏倚标准值相对应的性能标准趋势的可视图线,但在其他实施例中,分析可基于与偏倚标准值相对应的其他变量,例如与分析者选择的各种偏倚标准相对应的模型系数趋势。
对本发明的优选实施例的以上公开和描述是对其的例示和说明,并且本领域技术人员将会理解,在不脱离本发明的范围的情况下,可对所例示的系统和方法的细节进行各种改变。
Claims (46)
1.一种由计算机实现的方法,包括以下步骤:
减少离群值偏倚,其中,减少离群值偏倚包括以下步骤:
选择用于确定一个或多个离群值的偏倚标准;
提供完整数据集合,其中,所述完整数据集合包括为至少一个变量收集的所有实际值;
提供与数学模型相关联的模型系数的集合;
(1)由处理器基于向完整数据集合应用所述数学模型而为所述完整数据集合生成预测值的集合;
(2)由处理器通过比较所述完整数据集合的预测值的集合与对应的实际值来生成误差集合;
(3)由处理器基于误差集合和偏倚标准生成误差阈值的集合;
(4)由处理器生成包括所述完整数据集合中具有对应的误差集合值在所述误差阈值的集合之外的元素的去除的数据集合;
(5)由处理器生成包括所述完整数据集合中不在所述去除的数据集合中的所有元素的经审查的数据集合;
(6)由处理器基于经审查的数据集合生成与所述数学模型相关联的经更新的模型系数的集合;以及
(7)重复步骤(1)-(6)作为迭代,除非满足了审查性能终止标准,在所述迭代处,通过使用经更新的模型系数的集合生成所述预测值的集合、误差集合、误差阈值的集合、去除的数据集合以及经审查的数据集合。
2.根据权利要求1所述的方法,其中,基于完整数据集合和模型系数的集合来生成预测值的集合,并且其中,预测值的集合独立地从为多个变量中的至少一个变量收集的所有实际值生成。
3.根据权利要求1所述的方法,其中,误差集合是通过使用下式计算的相对误差的集合:
相对误差m=((预测值m-实际值m)/实际值m)2,
其中“m”是参考编号。
4.根据权利要求1所述的方法,其中,误差集合是通过使用下式计算的绝对误差的集合:
绝对误差m=(预测值m-实际值m)2,
其中“m”是参考编号。
5.根据权利要求1所述的方法,其中,误差集合是绝对误差的集合和相对误差的集合。
6.根据权利要求1所述的方法,其中,误差集合是对应的实际值与预测值的集合之间的差异。
7.根据权利要求1所述的方法,其中,基于经审查的数据集合和模型系数的集合生成经更新的模型系数的集合。
8.根据权利要求1所述的方法,其中,减少离群值偏倚还包括以下步骤:
基于模型系数的集合和对应的实际值生成性能值的集合;
基于经更新的模型系数的集合和对应的实际值生成经更新的性能值的集合;以及
其中,满足审查性能终止基于性能值的集合和经更新的性能值的集合。
9.根据权利要求8所述的方法,其中,性能值的集合包括以下中的至少一个:
第一标准误差值和第一确定系数的值;并且
其中,经更新的性能值的集合包括以下中的至少一个:
第二标准误差值和第二确定系数的值。
10.根据权利要求1所述的方法,其中,审查性能终止标准包括标准误差。
11.根据权利要求1所述的方法,其中,审查性能终止标准包括确定系数。
12.根据权利要求1所述的方法,其中,生成经更新的模型系数的集合的步骤还包括:
最小化预测值的集合与对应的实际值之间的误差的集合。
13.根据权利要求12所述的方法,其中,通过利用非线性优化模型最小化预测值的集合与对应的实际值之间的误差的集合。
14.根据权利要求12所述的方法,其中,通过利用线性优化模型最小化预测值的集合与对应的实际值之间的误差的集合。
15.根据权利要求1所述的方法,其中,完整数据集合包括设施的性能值,并且其中,所述设施是以下中的至少一个:工业工厂设施、发电设施以及提炼设施。
16.根据权利要求1所述的方法,其中,减少离群值偏倚还包括以下步骤:
基于完整数据集合生成随机数据集合;
对随机数据集合重复步骤(1)-(6),直到满足审查性能终止标准;
为完整数据集合和随机数据集合生成对应于偏倚标准的最终性能值的集合;
选择第二偏倚标准;
使用第二偏倚标准,对完整数据集合和随机数据集合重复步骤(1)-(6),直到满足审查性能终止标准;
基于第二偏倚标准,为完整数据集合和随机数据集合生成第二最终性能值的集合;以及
比较完整数据集合的最终性能值的集合和第二最终性能值的集合与随机数据集合的最终性能值的集合和第二最终性能值的集合。
17.根据权利要求16所述的方法,其中,随机数据集合包括从完整数据集合中的值的范围内的值开发出来的随机化数据值。
18.一种由计算机实现的方法,包括以下步骤:
减少离群值偏倚,其中,减少离群值偏倚包括以下步骤:
为设施选择至少一个目标变量;
选择为所述至少一个目标变量确定的实际值的集合;
为设施获得完整数据集合,其中该完整数据集合包括为所述至少一个目标变量收集的所有实际值;
选择与识别一个或多个离群值对应的偏倚标准;
选择在至少一个数学模型中使用的模型系数的集合;
(1)由处理器生成根据向完整数据集合应用所述至少一个数学模型而确定的预测值的集合;
(2)由处理器生成根据预测值的集合和实际值的集合而确定的审查模型性能值的集合;
(3)对于所述至少一个目标变量,由处理器生成根据预测值的集合和实际值的集合而确定的误差集合;
(4)由处理器生成根据误差集合和偏倚标准而确定的误差阈值的集合;
(5)由处理器生成包括所述完整数据集合中具有对应的误差集合值在所述误差阈值的集合之外的元素的去除的数据集合;
(6)由处理器生成包括所述完整数据集合中不是所述去除的数据集合的一部分的所有元素的经审查的数据集合;
(7)由处理器生成根据经审查的数据集合和模型系数的集合而确定的与至少一个数学模型相关联的经更新的模型系数的集合;
(8)由处理器生成根据完整数据集合和经更新的模型系数的集合而确定的经更新的预测值的集合;
(9)由处理器生成根据经更新的预测值的集合和实际值的集合而确定的经更新的审查模型性能值的集合;
重复步骤(1)-(9)作为迭代,除非满足了审查性能终止标准,在所述迭代处,通过使用经更新的模型系数的集合生成所述预测值的集合、误差集合、误差阈值的集合、去除的数据集合以及经审查的数据集合,其中,满足所述审查性能终止标准是根据审查模型性能值的集合和经更新的审查模型性能值的集合而确定的;以及
将经更新的模型预测值的集合存储在计算机数据介质中。
19.根据权利要求18所述的方法,其中,偏倚标准包括以下中的至少一个:相对误差以及绝对误差,并且其中,预测值的集合独立地从为至少一个目标变量收集的所有实际值生成。
20.根据权利要求18所述的方法,其中:
审查模型性能值的集合包括:
第一标准误差;和
第一确定系数;并且
其中,经更新的审查模型性能值的集合包括:
第二标准误差;和
第二确定系数。
21.根据权利要求18所述的方法,其中,误差集合包括以下中的至少一个:相对误差以及绝对误差,并且其中,对于目标变量,通过比较预测值的集合和实际值的集合来生成误差集合。
22.根据权利要求18所述的方法,其中,通过利用以下中的至少一个来最小化预测值的集合与实际值的集合之间的误差来生成经更新的模型系数的集合:
线性优化模型;以及
非线性优化模型。
23.根据权利要求18所述的方法,其中:
审查性能终止标准包括:
标准误差终止值,以及
确定系数终止值,并且
其中,满足审查性能终止标准包括:
标准误差终止值大于第一标准误差和第二标准误差之间的差异;以及
确定系数终止值大于第一确定系数和第二确定系数之间的差异。
24.一种用于减少离群值偏倚的系统,其包括:
服务器,其包括:
处理器,以及
存储子系统;
由存储子系统存储的数据库,其包括:
完整数据集合,其中,所述完整数据集合包括为至少一个变量收集的所有实际值;
由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作以减少离群值偏倚的指令:
选择与确定一个或多个离群值相关联的偏倚标准;
提供与数学模型相关联的模型系数的集合;
(1)基于向完整数据集合应用数学模型而为完整数据集合生成预测值的集合;
(2)通过比较完整数据集合的预测值的集合与对应的实际值来生成误差集合;
(3)基于误差集合和偏倚标准生成误差阈值的集合;
(4)生成包括所述完整数据集合中具有对应的误差集合值在所述误差阈值的集合之外的元素的去除的数据集合;
(5)生成包括所述完整数据集中不在所述去除的数据集合中的所有元素的经审查的数据集合;
(6)基于经审查的数据集合生成与数学模型相关联的经更新的模型系数的集合;以及
(7)重复步骤(1)-(6)作为迭代,除非满足了审查性能终止标准,借此导致减少离群值偏倚,在所述迭代处,通过使用经更新的模型系数的集合重新生成所述预测值的集合、误差集合、误差阈值的集合、去除的数据集合以及经审查的数据集合。
25.根据权利要求24所述的系统,其中,基于完整数据集合和模型系数的集合来生成预测值的集合,并且其中,预测值的集合独立地从为多个变量中的至少一个变量收集的所有实际值生成。
26.根据权利要求24所述的系统,其中,误差集合是通过使用下式计算的相对误差的集合:
相对误差m=((预测值m-实际值m)/实际值m)2,
其中“m”是参考编号。
27.根据权利要求24所述的系统,其中,误差集合是通过使用下式计算的绝对误差的集合:
绝对误差m=(预测值m一实际值m)2,
其中“m”是参考编号。
28.根据权利要求24所述的系统,其中,误差集合是绝对误差的集合和相对误差的集合。
29.根据权利要求24所述的系统,其中,误差集合是实际值的集合与预测值的集合之间的差异。
30.根据权利要求24所述的系统,其中,基于经审查的数据集合和模型系数的集合来生成经更新的模型系数的集合。
31.根据权利要求24所述的系统,所述程序还包括在被执行时使得处理器执行以下步骤以减少离群值偏倚的指令:
基于模型系数的集合和对应的实际值生成性能值的集合;以及
基于经更新的模型系数的集合和对应的实际值生成经更新的性能值的集合;并且
其中,满足审查性能终止基于性能值的集合和经更新的性能值的集合。
32.根据权利要求31所述的系统,其中,性能值的集合包括以下中的至少一个:第一标准误差值和第一确定系数的值;并且
其中,经更新的性能值的集合包括以下中的至少一个:第二标准误差值和第二确定系数的值。
33.根据权利要求24所述的系统,其中,审查性能终止标准包括标准误差。
34.根据权利要求24所述的系统,其中,审查性能终止标准包括确定系数。
35.根据权利要求24所述的系统,其中,生成经更新的系数的集合包括当被执行时使得处理器执行以下操作以减少离群值偏倚的指令:
最小化预测值的集合与对应的实际值之间的误差的集合。
36.根据权利要求35所述的系统,其中,通过利用非线性优化模型最小化预测值的集合与对应的实际值之间的误差的集合。
37.根据权利要求35所述的系统,其中,通过利用线性优化模型最小化预测值的集合与对应的实际值之间的误差的集合。
38.根据权利要求24所述的系统,其中,完整数据集合包括设施的性能值,并且其中,所述设施是以下中的至少一个:工业工厂设施、发电设施以及提炼设施。
39.根据权利要求24所述的系统,所述程序还包括当被执行时使得处理器执行以下操作的指令:
基于完整数据集合生成随机数据集合;
对随机数据集合重复步骤(1)-(6),直到满足审查性能终止标准;
为完整数据集合和随机数据集合生成对应于偏倚标准的最终性能值的集合;
选择第二偏倚标准;
使用第二偏倚标准,对完整数据集合和随机数据集合重复步骤(1)-(6),直到满足审查性能终止标准;
基于第二偏倚标准为完整数据集合和随机数据集合生成第二最终性能值的集合;以及
比较完整数据集合的最终性能值的集合和第二最终性能值的集合与随机数据集合的最终性能值的集合和第二最终性能值的集合。
40.根据权利要求39所述的系统,其中,随机数据集合包括从完整数据集合中的值的范围内的值开发出来的随机化数据值。
41.一种用于减少离群值偏倚的系统,其包括:
服务器,其包括:
处理器,以及
存储子系统;
由所述存储子系统存储的数据库,其包括:
设施的至少一个目标变量;
为所述至少一个目标变量确定的实际值的集合;
设施的完整数据集合,其中该完整数据集合包括为所述至少一个目标变量收集的所有实际值;以及
由存储子系统存储的计算机程序,其包括当被执行时使得处理器进行以下操作以减少离群值偏倚的指令:
选择用于识别一个或多个离群值的偏倚标准;
选择在至少一个数学模型中使用的模型系数的集合;
(1)生成根据向完整数据集合应用所述至少一个数学模型而确定的预测值的集合;
(2)生成根据预测值的集合和对应的实际值而确定的审查模型性能值的集合;
(3)对于至少一个目标变量,生成根据预测值的集合和实际值的集合而确定的误差集合;
(4)生成根据误差集合和偏倚标准而确定的误差阈值的集合;
(5)生成包括所述完整数据集合中具有对应的误差集合值在所述误差阈值的集合之外的元素的去除的数据集合;
(6)生成包括完整数据集合中不是所述去除的数据集合的一部分的所有元素的经审查的数据集合;
(7)生成根据经审查的数据集合和模型系数的集合而确定的与数学模型相关联的经更新的模型系数的集合;
(8)生成根据完整数据集合和经更新的模型系数的集合而确定的经更新的预测值的集合;
(9)生成根据经更新的预测值的集合和实际值的集合而确定的经更新的审查模型性能值的集合;
重复步骤(1)-(9)作为迭代,除非满足了审查性能终止标准,在所述迭代处,通过使用经更新的模型系数的集合生成所述预测值的集合、误差集合、误差阈值的集合、去除的数据集合以及经审查的数据集合,其中,满足所述审查性能终止标准是根据审查模型性能值的集合和经更新的审查模型性能值的集合而确定的;以及
将经更新的模型预测值的集合存储在存储子系统中。
42.根据权利要求41所述的系统,其中,偏倚标准包括以下中的至少一个:相对误差以及绝对误差,其中,预测值的集合独立地从为至少一个目标变量收集的所有实际值生成。
43.根据权利要求41所述的系统,其中:
审查模型性能值的集合包括:
第一标准误差;和
第一确定系数;并且
其中,经更新的审查模型性能值的集合包括:
第二标准误差;和
第二确定系数。
44.根据权利要求41所述的系统,其中,误差集合包括以下中的至少一个:
相对误差以及绝对误差,其中,对于至少一个目标变量,通过比较预测值的集合和实际值的集合来生成误差集合。
45.根据权利要求41所述的系统,其中,生成经审查的因子包括当被执行时使得处理器执行以下操作以减少离群值偏倚的指令:
最小化预测值的集合与实际值的集合之间的误差。
46.根据权利要求45所述的系统,其中:
审查性能终止标准包括:
标准误差终止值,以及
确定系数终止值,并且
其中,满足审查性能终止标准包括:
标准误差终止值大于第一标准误差和第二标准误差之间的差异;以及
确定系数终止值大于第一确定系数和第二确定系数之间的差异。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710142639.7A CN106919539A (zh) | 2011-08-19 | 2012-08-17 | 动态离群值偏倚减少系统和方法 |
CN201710142741.7A CN106933779A (zh) | 2011-08-19 | 2012-08-17 | 动态离群值偏倚减少系统和方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/213,780 | 2011-08-19 | ||
US13/213,780 US9069725B2 (en) | 2011-08-19 | 2011-08-19 | Dynamic outlier bias reduction system and method |
PCT/US2012/051390 WO2013028532A1 (en) | 2011-08-19 | 2012-08-17 | Dynamic outlier bias reduction system and method |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710142741.7A Division CN106933779A (zh) | 2011-08-19 | 2012-08-17 | 动态离群值偏倚减少系统和方法 |
CN201710142639.7A Division CN106919539A (zh) | 2011-08-19 | 2012-08-17 | 动态离群值偏倚减少系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104254848A CN104254848A (zh) | 2014-12-31 |
CN104254848B true CN104254848B (zh) | 2017-04-12 |
Family
ID=46981069
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280048043.6A Active CN104254848B (zh) | 2011-08-19 | 2012-08-17 | 动态离群值偏倚减少系统和方法 |
CN201710142639.7A Pending CN106919539A (zh) | 2011-08-19 | 2012-08-17 | 动态离群值偏倚减少系统和方法 |
CN201710142741.7A Pending CN106933779A (zh) | 2011-08-19 | 2012-08-17 | 动态离群值偏倚减少系统和方法 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710142639.7A Pending CN106919539A (zh) | 2011-08-19 | 2012-08-17 | 动态离群值偏倚减少系统和方法 |
CN201710142741.7A Pending CN106933779A (zh) | 2011-08-19 | 2012-08-17 | 动态离群值偏倚减少系统和方法 |
Country Status (7)
Country | Link |
---|---|
US (6) | US9069725B2 (zh) |
EP (2) | EP2745213A1 (zh) |
JP (1) | JP5982489B2 (zh) |
KR (1) | KR102024953B1 (zh) |
CN (3) | CN104254848B (zh) |
CA (2) | CA3197787A1 (zh) |
WO (1) | WO2013028532A1 (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10557840B2 (en) | 2011-08-19 | 2020-02-11 | Hartford Steam Boiler Inspection And Insurance Company | System and method for performing industrial processes across facilities |
US9069725B2 (en) | 2011-08-19 | 2015-06-30 | Hartford Steam Boiler Inspection & Insurance Company | Dynamic outlier bias reduction system and method |
US9785890B2 (en) * | 2012-08-10 | 2017-10-10 | Fair Isaac Corporation | Data-driven product grouping |
US9606055B2 (en) * | 2013-01-09 | 2017-03-28 | Ppg Industries Ohio, Inc. | Systems and methods for statistical measurement control of spectrophotometric data |
US11321775B2 (en) * | 2013-06-27 | 2022-05-03 | Euroclear Sa/Nv | Asset inventory system |
EP2854045B1 (de) | 2013-09-27 | 2016-04-06 | Deutsche Telekom AG | Verfahren und System zum Bewerten von erhobenen Messwerten eines Systems |
CA2945543C (en) | 2014-04-11 | 2021-06-15 | Hartford Steam Boiler Inspection And Insurance Company | Improving future reliability prediction based on system operational and performance data modelling |
US10162345B2 (en) | 2015-04-21 | 2018-12-25 | International Business Machines Corporation | Enhanced emergency reporting system |
CN104897537B (zh) * | 2015-06-11 | 2017-08-08 | 杭州电子科技大学 | 基于无人机的pm2.5浓度采集装置和数据过滤方法 |
EP3107000A3 (en) * | 2015-06-17 | 2016-12-28 | Tata Consultancy Services Limited | System and method for detecting outliers in real-time for a univariate time-series signal |
US10860951B2 (en) * | 2015-10-28 | 2020-12-08 | Qomplx, Inc. | System and method for removing biases within a distributable model |
US10884999B2 (en) * | 2015-10-28 | 2021-01-05 | Qomplx, Inc. | Distributable model with biases contained within distributed data |
US11244401B2 (en) | 2015-10-30 | 2022-02-08 | Hartford Fire Insurance Company | Outlier system for grouping of characteristics |
US10628456B2 (en) | 2015-10-30 | 2020-04-21 | Hartford Fire Insurance Company | Universal analytical data mart and data structure for same |
US10942929B2 (en) | 2015-10-30 | 2021-03-09 | Hartford Fire Insurance Company | Universal repository for holding repeatedly accessible information |
US10102241B2 (en) | 2016-05-20 | 2018-10-16 | Microsoft Technology Licensing, Llc | Detecting errors in spreadsheets |
CN108510070A (zh) * | 2017-02-27 | 2018-09-07 | 顾泽苍 | 一种穿越不同空间的模糊事件概率测度值的获得方法 |
CN108510068A (zh) * | 2017-02-27 | 2018-09-07 | 顾泽苍 | 一种超深度回归分析学习方法 |
US10706028B2 (en) * | 2017-04-25 | 2020-07-07 | Citrix Systems, Inc. | Detecting outliers in server transaction time as a form of time series data |
CN107943582B (zh) * | 2017-11-14 | 2020-08-04 | Oppo广东移动通信有限公司 | 特征处理方法、装置、存储介质及电子设备 |
CN109995573B (zh) * | 2018-01-02 | 2022-04-01 | 中国移动通信有限公司研究院 | 确定用于预测计算资源的样本空间的方法、计算资源分配方法及装置 |
US11860971B2 (en) * | 2018-05-24 | 2024-01-02 | International Business Machines Corporation | Anomaly detection |
US10831592B1 (en) * | 2018-09-27 | 2020-11-10 | Juniper Networks, Inc | Apparatus, system, and method for correcting slow field-replaceable units in network devices |
US11636292B2 (en) * | 2018-09-28 | 2023-04-25 | Hartford Steam Boiler Inspection And Insurance Company | Dynamic outlier bias reduction system and method |
US11507859B2 (en) | 2019-01-08 | 2022-11-22 | Colorado State University Research Foundation | Trackable reasoning and analysis for crowdsourcing and evaluation |
CN110458416B (zh) * | 2019-07-17 | 2023-06-27 | 创新先进技术有限公司 | 风控方法及风控装置 |
KR102634916B1 (ko) * | 2019-08-29 | 2024-02-06 | 주식회사 엘지에너지솔루션 | 온도 추정 모델 결정 방법 및 장치, 온도 추정 모델이 적용된 배터리 관리 시스템 |
US11328177B2 (en) * | 2019-09-18 | 2022-05-10 | Hartford Steam Boiler Inspection And Insurance Company | Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models |
CA3154671A1 (en) * | 2019-09-18 | 2021-03-25 | Hartford Steam Boiler Inspection And Insurance Company | Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models |
US11615348B2 (en) | 2019-09-18 | 2023-03-28 | Hartford Steam Boiler Inspection And Insurance Company | Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models |
CN111125909B (zh) * | 2019-12-24 | 2023-03-31 | 奇瑞汽车股份有限公司 | 一种一维汽车热管理模型的自动化标定方法 |
US20220067122A1 (en) * | 2020-08-26 | 2022-03-03 | Coupang Corp. | System and method for capping outliers during an experiment test |
US20220076333A1 (en) * | 2020-09-09 | 2022-03-10 | Chicago Mercantile Exchange Inc. | Linear model partitioner |
CN114781085B (zh) * | 2022-04-20 | 2023-07-04 | 江苏大学镇江流体工程装备技术研究院 | 一种实时动态迭代优化的叶轮设计方法 |
CN117330987B (zh) * | 2023-12-01 | 2024-02-20 | 国网山西省电力公司营销服务中心 | 基于时间的电池健康状态评估的方法、系统、介质和设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1472674A (zh) * | 2003-08-04 | 2004-02-04 | 西安交通大学 | 基于概率模型的设备状态动态自适应报警方法 |
WO2007117233A1 (en) * | 2006-04-07 | 2007-10-18 | Hsb Solomon Associates, Llc | Emission trading product and method |
CN102117731A (zh) * | 2009-12-31 | 2011-07-06 | 中芯国际集成电路制造(上海)有限公司 | 半导体工艺生产流程中的测量数据的监测方法和装置 |
Family Cites Families (142)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0227976Y2 (zh) | 1986-03-19 | 1990-07-27 | ||
US5339392A (en) | 1989-07-27 | 1994-08-16 | Risberg Jeffrey S | Apparatus and method for creation of a user definable video displayed document showing changes in real time data |
CA2231652C (en) | 1995-10-12 | 2001-07-31 | Yazaki Corporation | Load deflecting degree computing apparatus and carrying weight computing apparatus for vehicle |
US7010336B2 (en) | 1997-08-14 | 2006-03-07 | Sensys Medical, Inc. | Measurement site dependent data preprocessing method for robust calibration and prediction |
US6085216A (en) | 1997-12-31 | 2000-07-04 | Xerox Corporation | Method and system for efficiently allocating resources for solving computationally hard problems |
JP2001318745A (ja) | 2000-05-11 | 2001-11-16 | Sony Corp | データ処理装置およびデータ処理方法、並びに記録媒体 |
US20040172401A1 (en) * | 2000-06-15 | 2004-09-02 | Peace Terrence B. | Significance testing and confidence interval construction based on user-specified distributions |
US6847976B1 (en) * | 2000-06-15 | 2005-01-25 | Terrence B. Peace | Method and apparatus for significance testing and confidence interval construction based on user-specified distribution |
US6832205B1 (en) | 2000-06-30 | 2004-12-14 | General Electric Company | System and method for automatically predicting the timing and costs of service events in a life cycle of a product |
US7124059B2 (en) | 2000-10-17 | 2006-10-17 | Accenture Global Services Gmbh | Managing maintenance for an item of equipment |
US6988092B1 (en) | 2000-12-28 | 2006-01-17 | Abb Research Ltd. | Method for evaluation of energy utilities |
US7043461B2 (en) | 2001-01-19 | 2006-05-09 | Genalytics, Inc. | Process and system for developing a predictive model |
US7039654B1 (en) | 2002-09-12 | 2006-05-02 | Asset Trust, Inc. | Automated bot development system |
US20030171879A1 (en) | 2002-03-08 | 2003-09-11 | Pittalwala Shabbir H. | System and method to accomplish pipeline reliability |
US7313550B2 (en) | 2002-03-27 | 2007-12-25 | Council Of Scientific & Industrial Research | Performance of artificial neural network models in the presence of instrumental noise and measurement errors |
US20070219741A1 (en) * | 2005-05-20 | 2007-09-20 | Emilio Miguelanez | Methods and apparatus for hybrid outlier detection |
JP4042492B2 (ja) | 2002-08-07 | 2008-02-06 | トヨタ自動車株式会社 | エンジン制御パラメータの適合方法及び適合システム |
US20040122625A1 (en) | 2002-08-07 | 2004-06-24 | Nasser Loren A. | Apparatus and method for predicting total ownership cost |
JP4109527B2 (ja) * | 2002-10-01 | 2008-07-02 | 新日本製鐵株式会社 | 制御モデルの学習方法、制御モデルの学習装置、コンピュータプログラム、及びコンピュータ読み取り可能な記憶媒体 |
JP2004145496A (ja) | 2002-10-23 | 2004-05-20 | Hitachi Ltd | 機器設備の保守支援方法 |
JP2004191359A (ja) | 2002-10-24 | 2004-07-08 | Mitsubishi Heavy Ind Ltd | リスクマネージメント装置 |
JP3968039B2 (ja) | 2003-03-06 | 2007-08-29 | 東京電力株式会社 | 保守計画立案支援方法及び装置 |
US7634384B2 (en) | 2003-03-18 | 2009-12-15 | Fisher-Rosemount Systems, Inc. | Asset optimization reporting in a process plant |
US8478534B2 (en) | 2003-06-11 | 2013-07-02 | The Research Foundation For The State University Of New York | Method for detecting discriminatory data patterns in multiple sets of data and diagnosing disease |
DE10331207A1 (de) | 2003-07-10 | 2005-01-27 | Daimlerchrysler Ag | Verfahren und Vorrichtung zur Vorhersage einer Ausfall-Häufigkeit |
WO2005015476A2 (en) | 2003-08-07 | 2005-02-17 | Hsb Solomon Associates, Llc | System and method for determining equivalency factors for use in comparative performance analysis of industrial facilities |
US20050125322A1 (en) | 2003-11-21 | 2005-06-09 | General Electric Company | System, method and computer product to detect behavioral patterns related to the financial health of a business entity |
US20050131794A1 (en) | 2003-12-15 | 2005-06-16 | Lifson Kalman A. | Stock portfolio and method |
EP1548623A1 (en) | 2003-12-23 | 2005-06-29 | Sap Ag | Outlier correction |
SG149899A1 (en) | 2004-02-06 | 2009-02-27 | Test Advantage Inc | Methods and apparatus for data analysis |
EP1718962B1 (en) | 2004-02-13 | 2016-04-13 | Waters Technologies Corporation | System and method for tracking and quantitating chemical entities |
US7469228B2 (en) | 2004-02-20 | 2008-12-23 | General Electric Company | Systems and methods for efficient frontier supplementation in multi-objective portfolio analysis |
CA2501003C (en) | 2004-04-23 | 2009-05-19 | F. Hoffmann-La Roche Ag | Sample analysis to provide characterization data |
AU2005253651A1 (en) | 2004-06-21 | 2005-12-29 | Intersection Medical, Inc. | Cardiac monitoring system |
DE102004032822A1 (de) | 2004-07-06 | 2006-03-23 | Micro-Epsilon Messtechnik Gmbh & Co Kg | Verfahren zur Verarbeitung von Messwerten |
US20060069667A1 (en) | 2004-09-30 | 2006-03-30 | Microsoft Corporation | Content evaluation |
US20060247798A1 (en) | 2005-04-28 | 2006-11-02 | Subbu Rajesh V | Method and system for performing multi-objective predictive modeling, monitoring, and update for an asset |
US7536364B2 (en) | 2005-04-28 | 2009-05-19 | General Electric Company | Method and system for performing model-based multi-objective asset optimization and decision-making |
US8195484B2 (en) | 2005-06-15 | 2012-06-05 | Hartford Steam Boiler Inspection And Insurance Company | Insurance product, rating system and method |
US7966150B2 (en) | 2005-11-17 | 2011-06-21 | Florida Power & Light Company | Data analysis applications |
US8290753B2 (en) | 2006-01-24 | 2012-10-16 | Vextec Corporation | Materials-based failure analysis in design of electronic devices, and prediction of operating life |
US7447611B2 (en) | 2006-05-09 | 2008-11-04 | Hsb Solomon Associates, Llc | Power generation performance analysis system and method |
US20100262442A1 (en) | 2006-07-20 | 2010-10-14 | Standard Aero, Inc. | System and method of projecting aircraft maintenance costs |
US20100152595A1 (en) | 2006-08-31 | 2010-06-17 | Non-Linear Medicine, Inc. | Automated noise reduction system for predicting arrhythmic deaths |
WO2008033439A2 (en) | 2006-09-13 | 2008-03-20 | Aurilab, Llc | Robust pattern recognition system and method using socratic agents |
US20080104624A1 (en) | 2006-11-01 | 2008-05-01 | Motorola, Inc. | Method and system for selection and scheduling of content outliers |
JP4702851B2 (ja) * | 2006-12-07 | 2011-06-15 | Kddi株式会社 | トラヒック量変動の上限値を予測するトラヒック量予測装置、プログラム及び方法 |
KR100877061B1 (ko) | 2006-12-14 | 2009-01-08 | 엘에스산전 주식회사 | 다변수 예측제어 시스템 및 방법 |
JP5116307B2 (ja) | 2007-01-04 | 2013-01-09 | ルネサスエレクトロニクス株式会社 | 集積回路装置異常検出装置、方法およびプログラム |
JP2008191900A (ja) | 2007-02-05 | 2008-08-21 | Toshiba Corp | プラントの信頼性重視保全運用支援システム及び運用支援方法 |
US8346691B1 (en) * | 2007-02-20 | 2013-01-01 | Sas Institute Inc. | Computer-implemented semi-supervised learning systems and methods |
WO2008126209A1 (ja) | 2007-03-27 | 2008-10-23 | Fujitsu Limited | 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム |
US20080300888A1 (en) | 2007-05-30 | 2008-12-04 | General Electric Company | Systems and Methods for Providing Risk Methodologies for Performing Supplier Design for Reliability |
JP2009098093A (ja) | 2007-10-19 | 2009-05-07 | Gyoseiin Genshino Iinkai Kakuno Kenkyusho | 設備の有効メンテナンスモニタ装置 |
US8054177B2 (en) | 2007-12-04 | 2011-11-08 | Avaya Inc. | Systems and methods for facilitating a first response mission at an incident scene using patient monitoring |
JP5003566B2 (ja) | 2008-04-01 | 2012-08-15 | 三菱電機株式会社 | ネットワーク性能予測システム、ネットワーク性能予測方法およびプログラム |
JP4991627B2 (ja) | 2008-05-16 | 2012-08-01 | 株式会社日立製作所 | 計画執行管理装置およびそのプログラム |
US8352148B2 (en) | 2008-05-21 | 2013-01-08 | General Electric Company | System for controlling input profiles of combined cycle power generation system |
US20160239749A1 (en) | 2008-10-28 | 2016-08-18 | Sas Institute Inc. | Use of object group models and hierarchies for output predictions |
US8386412B2 (en) * | 2008-12-12 | 2013-02-26 | At&T Intellectual Property I, L.P. | Methods and apparatus to construct histogram and wavelet synopses for probabilistic data |
US8509990B2 (en) | 2008-12-15 | 2013-08-13 | Panasonic Avionics Corporation | System and method for performing real-time data analysis |
US9111212B2 (en) | 2011-08-19 | 2015-08-18 | Hartford Steam Boiler Inspection And Insurance Company | Dynamic outlier bias reduction system and method |
JP2010250674A (ja) | 2009-04-17 | 2010-11-04 | Nec Corp | 作業時間予測装置、方法、およびプログラム |
US10739741B2 (en) | 2009-06-22 | 2020-08-11 | Johnson Controls Technology Company | Systems and methods for detecting changes in energy usage in a building |
JP2011048688A (ja) | 2009-08-27 | 2011-03-10 | Hitachi Ltd | プラントライフサイクル評価装置及び方法 |
US20120203536A1 (en) | 2009-10-21 | 2012-08-09 | International Business Machines Corporation | Method and system for software behaviour management |
KR101010717B1 (ko) | 2009-11-10 | 2011-01-24 | 한국동서발전(주) | 상태기반 발전소 운전 및 정비 관리 시스템 |
US8311772B2 (en) | 2009-12-21 | 2012-11-13 | Teradata Us, Inc. | Outlier processing |
AU2010337991B2 (en) | 2009-12-31 | 2014-06-26 | Abb Schweiz Ag | Method and control system for scheduling load of a power plant |
JP5581965B2 (ja) * | 2010-01-19 | 2014-09-03 | オムロン株式会社 | Mppt制御器、太陽電池制御装置、太陽光発電システム、mppt制御プログラム、およびmppt制御器の制御方法 |
US20110246409A1 (en) * | 2010-04-05 | 2011-10-06 | Indian Statistical Institute | Data set dimensionality reduction processes and machines |
CN102081765A (zh) | 2011-01-19 | 2011-06-01 | 西安交通大学 | 输电设备状态检修的系统性控制方法 |
JP5592813B2 (ja) | 2011-01-28 | 2014-09-17 | 株式会社日立ソリューションズ東日本 | 生涯需要予測方法、プログラムおよび生涯需要予測装置 |
US9069725B2 (en) | 2011-08-19 | 2015-06-30 | Hartford Steam Boiler Inspection & Insurance Company | Dynamic outlier bias reduction system and method |
US10557840B2 (en) | 2011-08-19 | 2020-02-11 | Hartford Steam Boiler Inspection And Insurance Company | System and method for performing industrial processes across facilities |
EP2788952A4 (en) | 2011-12-08 | 2015-08-19 | Copperleaf Technologies Inc | DEVICE, SYSTEMS AND METHOD FOR CAPITAL INVESTMENT PLANNING |
US9158303B2 (en) | 2012-03-27 | 2015-10-13 | General Electric Company | Systems and methods for improved reliability operations |
US8812331B2 (en) | 2012-04-27 | 2014-08-19 | Richard B. Jones | Insurance product, rating and credit enhancement system and method for insuring project savings |
KR101329395B1 (ko) | 2012-06-04 | 2013-11-14 | 한국남동발전 주식회사 | 발전설비 관리 시스템 및 그 제어방법 |
DE102013009033A1 (de) | 2012-07-18 | 2014-01-23 | Tesona Gmbh & Co. Kg | Hochtemperaturmesssensoranordnung |
US8686364B1 (en) | 2012-09-17 | 2014-04-01 | Jp3 Measurement, Llc | Method and system for determining energy content and detecting contaminants in a fluid stream |
CN103077428B (zh) | 2012-12-25 | 2016-04-06 | 上海发电设备成套设计研究院 | 一种厂级多台发电机组可靠性在线预测方法 |
EP2770442A3 (en) | 2013-02-20 | 2014-09-17 | Hartford Steam Boiler Inspection and Insurance Company | Dynamic outlier bias reduction system and method |
US9536364B2 (en) | 2013-02-25 | 2017-01-03 | GM Global Technology Operations LLC | Vehicle integration of BLE nodes to enable passive entry and passive start features |
US9646262B2 (en) | 2013-06-17 | 2017-05-09 | Purepredictive, Inc. | Data intelligence using machine learning |
CN104254880B (zh) | 2013-11-26 | 2016-03-30 | 株式会社日本功勒克斯 | 纸张类处理装置 |
CA2945543C (en) | 2014-04-11 | 2021-06-15 | Hartford Steam Boiler Inspection And Insurance Company | Improving future reliability prediction based on system operational and performance data modelling |
US9568519B2 (en) | 2014-05-15 | 2017-02-14 | International Business Machines Corporation | Building energy consumption forecasting procedure using ambient temperature, enthalpy, bias corrected weather forecast and outlier corrected sensor data |
GB2541625A (en) | 2014-05-23 | 2017-02-22 | Datarobot | Systems and techniques for predictive data analytics |
US10452992B2 (en) | 2014-06-30 | 2019-10-22 | Amazon Technologies, Inc. | Interactive interfaces for machine learning model evaluations |
CN105436180B (zh) | 2015-12-15 | 2017-12-15 | 洛阳兰迪玻璃机器股份有限公司 | 一种真空玻璃等离子体清洗方法和设备 |
US9996933B2 (en) | 2015-12-22 | 2018-06-12 | Qualcomm Incorporated | Methods and apparatus for outlier detection and correction of structured light depth maps |
US9760690B1 (en) | 2016-03-10 | 2017-09-12 | Siemens Healthcare Gmbh | Content-based medical image rendering based on machine learning |
JP6457421B2 (ja) | 2016-04-04 | 2019-01-23 | ファナック株式会社 | シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法 |
US10198339B2 (en) | 2016-05-16 | 2019-02-05 | Oracle International Corporation | Correlation-based analytic for time-series data |
US20190213446A1 (en) | 2016-06-30 | 2019-07-11 | Intel Corporation | Device-based anomaly detection using random forest models |
US11101652B2 (en) | 2016-07-01 | 2021-08-24 | Intel Corporation | Monitoring electrical substation networks |
US11429859B2 (en) | 2016-08-15 | 2022-08-30 | Cangrade, Inc. | Systems and processes for bias removal in a predictive performance model |
US20190287039A1 (en) | 2016-10-20 | 2019-09-19 | Consolidated Research, Inc. | System and method for dynamically evaluating service provider performance |
US11315045B2 (en) | 2016-12-29 | 2022-04-26 | Intel Corporation | Entropy-based weighting in random forest models |
US20180307741A1 (en) | 2017-04-25 | 2018-10-25 | Intel Corporation | Filtering training data for simpler rbf models |
CN107391569B (zh) | 2017-06-16 | 2020-09-15 | 阿里巴巴集团控股有限公司 | 数据类型的识别、模型训练、风险识别方法、装置及设备 |
US10638979B2 (en) | 2017-07-10 | 2020-05-05 | Glysens Incorporated | Analyte sensor data evaluation and error reduction apparatus and methods |
US10474667B2 (en) | 2017-07-29 | 2019-11-12 | Vmware, Inc | Methods and systems to detect and correct outliers in a dataset stored in a data-storage device |
WO2019033055A1 (en) | 2017-08-10 | 2019-02-14 | Clearag, Inc. | DEVELOPING COMPLEX AGRICULTURAL SIMULATIONS MODELS FROM LIMITED DATA SETS |
JP6837949B2 (ja) | 2017-09-08 | 2021-03-03 | 株式会社日立製作所 | 予測システム及び方法 |
AU2018333873B2 (en) | 2017-09-15 | 2023-12-21 | Contxtful Technologies Inc. | System and method for classifying passive human-device interactions through ongoing device context awareness |
US11188845B2 (en) | 2017-09-29 | 2021-11-30 | Oracle International Corporation | System and method for data visualization using machine learning and automatic insight of segments associated with a set of data |
US20190108561A1 (en) | 2017-10-05 | 2019-04-11 | Mindtree Ltd. | Purchase Intent Determination And Real Time In-store Shopper Assistance |
EP3483797A1 (en) | 2017-11-13 | 2019-05-15 | Accenture Global Solutions Limited | Training, validating, and monitoring artificial intelligence and machine learning models |
US11423336B2 (en) | 2018-03-29 | 2022-08-23 | Nec Corporation | Method and system for model integration in ensemble learning |
US10521654B2 (en) | 2018-03-29 | 2019-12-31 | Fmr Llc | Recognition of handwritten characters in digital images using context-based machine learning |
US20190313963A1 (en) | 2018-04-17 | 2019-10-17 | VideaHealth, Inc. | Dental Image Feature Detection |
CN109299156A (zh) | 2018-08-21 | 2019-02-01 | 平安科技(深圳)有限公司 | 电子装置、基于XGBoost的电力数据异常预测方法及存储介质 |
US11636292B2 (en) | 2018-09-28 | 2023-04-25 | Hartford Steam Boiler Inspection And Insurance Company | Dynamic outlier bias reduction system and method |
US20200160229A1 (en) | 2018-11-15 | 2020-05-21 | Adobe Inc. | Creating User Experiences with Behavioral Information and Machine Learning |
US11461702B2 (en) | 2018-12-04 | 2022-10-04 | Bank Of America Corporation | Method and system for fairness in artificial intelligence based decision making engines |
US11204847B2 (en) | 2018-12-21 | 2021-12-21 | Microsoft Technology Licensing, Llc | Machine learning model monitoring |
US11797550B2 (en) | 2019-01-30 | 2023-10-24 | Uptake Technologies, Inc. | Data science platform |
EP3948707A1 (en) | 2019-03-26 | 2022-02-09 | HRL Laboratories, LLC | Systems and methods for forecast alerts with programmable human-machine hybrid ensemble learning |
US11593650B2 (en) | 2019-03-27 | 2023-02-28 | GE Precision Healthcare LLC | Determining confident data samples for machine learning models on unseen data |
WO2020219685A1 (en) | 2019-04-23 | 2020-10-29 | Sciencelogic, Inc. | Distributed learning anomaly detector |
US20200364583A1 (en) | 2019-05-14 | 2020-11-19 | Robert D. Pedersen | Iot sensor network artificial intelligence warning, control and monitoring systems and methods |
US11354602B2 (en) | 2019-06-04 | 2022-06-07 | Bank Of America Corporation | System and methods to mitigate poisoning attacks within machine learning systems |
US20200387836A1 (en) | 2019-06-04 | 2020-12-10 | Accenture Global Solutions Limited | Machine learning model surety |
US20200402665A1 (en) | 2019-06-19 | 2020-12-24 | GE Precision Healthcare LLC | Unplanned readmission prediction using an interactive augmented intelligent (iai) system |
CN110378386A (zh) | 2019-06-20 | 2019-10-25 | 平安科技(深圳)有限公司 | 基于有监督的无标记异常识别方法、装置及存储介质 |
EP3987444A1 (en) | 2019-06-24 | 2022-04-27 | Telefonaktiebolaget LM Ericsson (publ) | Method for detecting uncommon input |
US11954610B2 (en) | 2019-08-09 | 2024-04-09 | GE Precision Healthcare LLC | Active surveillance and learning for machine learning model authoring and deployment |
CN110458374A (zh) | 2019-08-23 | 2019-11-15 | 山东浪潮通软信息科技有限公司 | 一种基于arima和svm的企业用电最大需量预测方法 |
CN110411957B (zh) | 2019-08-28 | 2021-11-19 | 北京农业质量标准与检测技术研究中心 | 水果货架期及新鲜程度的无损快速预测方法及装置 |
CN110543618A (zh) | 2019-09-05 | 2019-12-06 | 上海应用技术大学 | 基于概率密度函数估计的圆度不确定度评定方法 |
CA3154671A1 (en) | 2019-09-18 | 2021-03-25 | Hartford Steam Boiler Inspection And Insurance Company | Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models |
US11615348B2 (en) | 2019-09-18 | 2023-03-28 | Hartford Steam Boiler Inspection And Insurance Company | Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models |
US11328177B2 (en) | 2019-09-18 | 2022-05-10 | Hartford Steam Boiler Inspection And Insurance Company | Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models |
US20210132994A1 (en) | 2019-11-06 | 2021-05-06 | Centurylink Intellectual Property Llc | Predictive resource allocation for network growth in an edge computing network |
CN110909822B (zh) | 2019-12-03 | 2022-11-11 | 中国科学院微小卫星创新研究院 | 一种基于改进的高斯过程回归模型的卫星异常检测方法 |
CN111080502B (zh) | 2019-12-17 | 2023-09-08 | 清华苏州环境创新研究院 | 一种区域企业数据异常行为的大数据识别方法 |
CN111157698B (zh) | 2019-12-24 | 2022-10-21 | 核工业北京地质研究院 | 一种利用发射率数据获取黑土土壤全钾含量的反演方法 |
CN111709447A (zh) | 2020-05-14 | 2020-09-25 | 中国电力科学研究院有限公司 | 电网异常检测方法、装置、计算机设备和存储介质 |
US11007891B1 (en) | 2020-10-01 | 2021-05-18 | Electricfish Energy Inc. | Fast electric vehicle charging and distributed grid resource adequacy management system |
CN112257963B (zh) | 2020-11-20 | 2023-08-29 | 北京轩宇信息技术有限公司 | 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置 |
-
2011
- 2011-08-19 US US13/213,780 patent/US9069725B2/en active Active
-
2012
- 2012-08-17 WO PCT/US2012/051390 patent/WO2013028532A1/en active Application Filing
- 2012-08-17 CN CN201280048043.6A patent/CN104254848B/zh active Active
- 2012-08-17 CN CN201710142639.7A patent/CN106919539A/zh active Pending
- 2012-08-17 KR KR1020147007293A patent/KR102024953B1/ko active IP Right Grant
- 2012-08-17 CA CA3197787A patent/CA3197787A1/en active Pending
- 2012-08-17 JP JP2014527202A patent/JP5982489B2/ja active Active
- 2012-08-17 EP EP12769196.2A patent/EP2745213A1/en not_active Ceased
- 2012-08-17 EP EP18192489.5A patent/EP3493079A1/en active Pending
- 2012-08-17 CA CA2845827A patent/CA2845827C/en active Active
- 2012-08-17 CN CN201710142741.7A patent/CN106933779A/zh active Pending
-
2015
- 2015-06-12 US US14/738,266 patent/US20150309963A1/en not_active Abandoned
- 2015-06-12 US US14/738,186 patent/US20150278160A1/en not_active Abandoned
-
2018
- 2018-04-26 US US15/963,817 patent/US11334645B2/en active Active
-
2022
- 2022-05-16 US US17/745,596 patent/US11868425B2/en active Active
-
2024
- 2024-01-08 US US18/407,017 patent/US20240152571A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1472674A (zh) * | 2003-08-04 | 2004-02-04 | 西安交通大学 | 基于概率模型的设备状态动态自适应报警方法 |
WO2007117233A1 (en) * | 2006-04-07 | 2007-10-18 | Hsb Solomon Associates, Llc | Emission trading product and method |
CN102117731A (zh) * | 2009-12-31 | 2011-07-06 | 中芯国际集成电路制造(上海)有限公司 | 半导体工艺生产流程中的测量数据的监测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106919539A (zh) | 2017-07-04 |
US9069725B2 (en) | 2015-06-30 |
US20150278160A1 (en) | 2015-10-01 |
US20150309963A1 (en) | 2015-10-29 |
JP2014524629A (ja) | 2014-09-22 |
US20220277058A1 (en) | 2022-09-01 |
US20180329865A1 (en) | 2018-11-15 |
KR102024953B1 (ko) | 2019-11-04 |
EP2745213A1 (en) | 2014-06-25 |
KR20140092805A (ko) | 2014-07-24 |
EP3493079A1 (en) | 2019-06-05 |
JP5982489B2 (ja) | 2016-08-31 |
WO2013028532A1 (en) | 2013-02-28 |
CA2845827A1 (en) | 2013-02-28 |
US11868425B2 (en) | 2024-01-09 |
CN104254848A (zh) | 2014-12-31 |
CN106933779A (zh) | 2017-07-07 |
US20130046727A1 (en) | 2013-02-21 |
US11334645B2 (en) | 2022-05-17 |
US20240152571A1 (en) | 2024-05-09 |
CA2845827C (en) | 2023-06-27 |
CA3197787A1 (en) | 2013-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104254848B (zh) | 动态离群值偏倚减少系统和方法 | |
CN104090861B (zh) | 动态离群值偏倚减少系统和方法 | |
US11803612B2 (en) | Systems and methods of dynamic outlier bias reduction in facility operating data | |
US20130231904A1 (en) | Dynamic outlier bias reduction system and method | |
WO2008088652A2 (en) | Method and system for generating a predictive analysis of the performance of peer reviews | |
Coulson et al. | Indexing variability: a case study with climate change impacts on ecosystems | |
Shapiro et al. | DPCM: a method for modelling and analysing design process changes based on the applied signposting model | |
Morales Tabares et al. | Intelligent data analysis to calculate the operational reliability coefficient | |
Shafqat et al. | Monitoring and comparing air and green house gases emissions of various countries | |
Baiocchi | Economic applications of nonparametric methods | |
Biffl et al. | Investigating reinspection decision accuracy regarding product-quality and cost-benefit estimates | |
JP2008197873A (ja) | スペクトル分布および統計分布解析方法、スペクトル分布および統計分布解析装置、スペクトル分布および統計分布解析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |