CN111967717A - 一种基于信息熵值的数据质量评价方法 - Google Patents

一种基于信息熵值的数据质量评价方法 Download PDF

Info

Publication number
CN111967717A
CN111967717A CN202010699213.3A CN202010699213A CN111967717A CN 111967717 A CN111967717 A CN 111967717A CN 202010699213 A CN202010699213 A CN 202010699213A CN 111967717 A CN111967717 A CN 111967717A
Authority
CN
China
Prior art keywords
factor
data
evaluation
dependent variable
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010699213.3A
Other languages
English (en)
Inventor
翟伟辰
何军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gechuang Dongzhi Shenzhen Technology Co ltd
Original Assignee
Gechuang Dongzhi Shenzhen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gechuang Dongzhi Shenzhen Technology Co ltd filed Critical Gechuang Dongzhi Shenzhen Technology Co ltd
Priority to CN202010699213.3A priority Critical patent/CN111967717A/zh
Publication of CN111967717A publication Critical patent/CN111967717A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Manufacturing & Machinery (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Factory Administration (AREA)

Abstract

本发明提出了一种基于信息熵值的数据质量评价方法,所述方法在数据进行建模之前,对数据集进行评估,包括:对建模所需的数据集进行数据量评估,获得数据量评估得分;在数据量评估结果的基础上,对数据集中的因子有效性进行评估,获得因子评估得分;对建模数据中的因变量进行评估,获得因变量评估得分;利用所述数据量评估得分、因子评估得分和因变量评估得分获得数据集的综合评分,以所述综合评分为依据,对数据集质量进行评判,获得数据集质量的评判结果。

Description

一种基于信息熵值的数据质量评价方法
技术领域
本发明提出了一种基于信息熵值的数据质量评价方法,属于数据处理技术领域。
背景技术
实现智能制造的转型升级,其中一个重要的应用就是工厂的品质智能化分析,通过采集 制造业企业采集的数据,对数据进行有效的分析挖掘,构建模型对生产进行监控是目前制造 业企业智能化的一个重要应用。而在对数据进行分析之前,使用者往往遇到数据样本是否满 足建模要求的问题,分析人员通常的做法是通过模型构建,模型评估,最终模型的准确率来 评估数据质量是否满足要求。而通常制造业企业对于数采和数据分析通常都是分离的,进行 数据采集的工作人员无法及时对数据进行评估,而到了建模阶段才发现数据质量的不足,导 致数据采集工作需要附加新的工作。这就导致现有的数据分析软件通常使用模型评分的方式 来评价模型的构建好坏,但该种方式会受到多种因素的影响:1.受到建模数据质量的影响, 当建模数据质量不佳时,模型评分将受到显著影响,并且该方法无法判断建模数据不佳的具 体原因。2、受到建模算法的影响,不同的建模算法也会导致模型评分的波动。3受到建模参 数的影响。
发明内容
本发明提供了一种基于信息熵值的数据质量评价方法,用于解决当建模数据质量不佳时, 模型评分受到显著影响,但是无法判断建模数据不佳的具体原因的问题,所采取的技术方案 如下:
一种基于信息熵值的数据质量评价方法,所述方法在数据进行建模之前,对数据集进行 评估,包括:
对建模所需的数据集进行数据量评估,获得数据量评估得分;
在数据量评估结果的基础上,对数据集中的因子有效性进行评估,获得因子评估得分, 其中,因子指分析者分析的建模数据,每列数据均被视为一个因子;
对建模数据中的因变量进行评估,获得因变量评估得分,其中,因变量指建模数据中的 分析目标;
利用所述数据量评估得分、因子评估得分和因变量评估得分获得数据集的综合评分,以 所述综合评分为依据,对数据集质量进行评判,获得数据集质量的评判结果。
进一步地,所述针对数据分析的数据量进行数据量评估,获得数据量评估得分,包括:
检测数据集中的样本量,对样本量进行评估,获得样本量评估结果;
根据样本量的具体数量,对数据集中的因子量进行评估,获得因子量评估结果;
综合样本量评估结果和因子量得分结果,获取所述数据量评估得分。
进一步地,样本量与因子量的比值范围为:样本量:因子量=5:1——25:1。
进一步地,在数据量评估结果的基础上,对数据集中的因子有效性进行评估,获得因子 评估得分,包括:
利用熵值法计算衡量因子信息量,获得因子信息量评估结果;
针对单个因子,利用皮尔森相关系数方式或者互信息方式对所述单个因子的有效性进行 评估,获得因子有效性评估结果;
针对多个因子,利用复相关性指标对所述多个因子共同作用对因变量的解释效用进行评 估,获得因子综合有效性评估结果;当复相关性指标绝对值超过第一阈值时(比如0.6),确 定所述多个因子共同的解释能力较好;当复相关性指标绝对值小于第二阈值时(比如0.3), 确定所述多个因子共同的解释能力不佳;
利用数据集中的因子的方差膨胀系数VIF来衡量自变量总是否需存在高线性相关的因 子,当VIF大于膨胀系数阈值10时,确定所述因子为共线性因子,并剔除所述共线性因子, 以此实现对因子冗余程度的评估,并获得因子冗余程度评估结果;
综合因子信息量评估结果、因子有效性评估结果、因子综合有效性评估结果和因子冗余 程度评估结果获得因子评估得分。
进一步地,所述利用熵值法计算衡量因子信息量,获得因子信息量评估结果,包括:
针对连续型因子,采用信息熵阈值的方式进行信息序列判断,判断方式包括:
甄别当信息熵阈值小于同等长度随机序列的信息熵10%时,确定所述连续型因子为低信 息序列,或者,
根据变异系数大小判断所述因子序列是否为低信息序列,当所述变异系数小于0.5%时, 确定所述连续型因子为低信息序列;
针对离散型因子,采用类别集中度来评判所述离散型因子是否为低信息序列,当离散型 因子中某个子类别超过总样本量85%时,判定为低信息序列;当低信息序列达到90%以上时, 判定所述数据集质量较差。
进一步地,所述利用皮尔森相关系数方式对所述单个因子的有效性进行评估,包括:
设定有效性判断阈值;
计算获得因子序列与因变量之间的皮尔森相关系数;
判断所述皮尔森相关系数,当所述皮尔森相关系数高于所述有效性判断阈值时,确定因 子序列与因变量变化具有一致性;当所述皮尔森相关系数小于所述有效性判断阈值时,确定 因子序列与因变量变化不具有一致性;
当因子序列与因变量变化具有一致性时,表示因子具备有效性;当因子序列与因变量变 化不具有一致性时,因子不具备有效性。
进一步地,所述利用互信息方式对所述单个因子的有效性进行评估,包括:
设定互信息熵值阈值;
计算因变量与自变量之间的互信息熵值;
判断互信息熵值,当所述互信息熵值高于所述互信息熵值阈值时,表明因变量与自变量 之间的关联关系较强;当所述互信息熵值低于所述互信息熵值阈值时,确定表明因变量与自 变量之间的关联关系较弱;
当因变量与自变量之间的关联关系较强时,表示因子具备有效性;当因变量与自变量之 间的关联关系较弱时,因子不具备有效性。
进一步地,所述对建模数据中的因变量进行评估,获得因变量评估得分,包括:
针对离散类型因变量,通过样本均衡评判方法判断所述样本是否均衡,根据所述样本的 均衡程度对离散类型因变量进行评估,获得离散类型因变量评估结果;
针对连续类型因变量,通过因变量分布情况,分散情况和极端情况分别进行评判,获得 连续类型因变量评估结果;
综合所述离散类型因变量评估结果和连续类型因变量评估结果获得因变量评估得分。
进一步地,所述样本均衡评判方法为:离散类型因变量对应的某一子类别总数<(total_num/n_class)*0.5,其中,n_class表示样本类别数,total_num表示数据集中的样本 总数。
进一步地,所述方法还包括:利用评估后的数据集构建应用模型,实时监控应用模型的 数据是否存在异常,如果存在异常,则对所述数据集进行重新调整和评估;
其中,实时监控应用模型的数据是否存在异常的过程包括:
获取所述应用模型对应的数据指标,通过如下公式确定所述数据指标对应的加权特征值 Q:
Figure BDA0002592390180000041
其中,N表示所述应用模型中的数据总量,所述Pij表示第i个数据的第j个参数特征; 所述αi表示第i个参数数据的类型参数,所述αj表示第j个参数特征的类型参数;
根据所述加权特征值Q和异常指标函数确定所述指标是否为异常指标;
Figure BDA0002592390180000042
Figure BDA0002592390180000043
其中,T表示指标参考值,当T≥t时,表示指标无异常,当T<t时,表示指标有异常;t为预先设置的指标参考阈值;λ1表示权值特征比例调节参数,λ1的取值范围为(0,0.8];λ2表示异常函数参数,λ2的取值范围为[0.1,0.7],并且λ12≤1。
本发明有益效果:
本发明提出的一种基于信息熵值的数据质量评价方法,专门针对数据建模前,对数据质 量的评估。将数据质量和建模算法分开能更好的让使用者判断建模效果不佳等问题出现的原 因。在数据进行建模之前,先对数据集进行评价,评估其数据质量是否满足建模要求。如满 足则进行后续的模型构建,模型评价及应用上线等工作,如不满足则进行更换数据集的流程, 如增加采集的时间和范围,增加解释力度强的因子。本发明不通过建模和模型评价来最终判 断数据质量是否满足建模要求,是为了排除建模算法和参数选择导致的模型评价的指标波动。 本发明通过对数据量,因子信息量,因子有效性评估,预测因变量评估四种方法来从多个角 度评估数据质量,排除了其他影响因素,能够帮助分析者快速的识别数据中的质量问题,更 加适用于目前制造业企业数据采集与建模应用的场景。
附图说明
图1为本发明所述方法的原理示意图;
图2为本发明所述方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅 用于说明和解释本发明,并不用于限定本发明。
本发明提供了一种基于信息熵值的数据质量评价方法,用于解决当建模数据质量不佳时, 模型评分受到显著影响,但是无法判断建模数据不佳的具体原因的问题。
本发明实施例提出了一种基于信息熵值的数据质量评价方法,如图1和图2所示,所述 方法在数据进行建模之前,对数据集进行评估,包括:
S1、对建模所需的数据集进行数据量评估,获得数据量评估得分;
S2、在数据量评估结果的基础上,对数据集中的因子有效性进行评估,获得因子评估得 分,其中,因子指分析者分析的建模数据,每列数据均被视为一个因子;
S3、对建模数据中的因变量进行评估,获得因变量评估得分,其中,因变量指建模数据 中的分析目标;
S4、利用所述数据量评估得分、因子评估得分和因变量评估得分获得数据集的综合评分, 以所述综合评分为依据,对数据集质量进行评判,获得数据集质量的评判结果。
上述技术方案的工作原理为:数据量是建模能否成功的一个重要因素;一般来说,足够 多的数据量能让模型学习到更多的数据规律,并且样本量的量级不同,所使用的评测方法, 建模方法均不同。很多统计方法和检验条件都是建立在总体服从正态分布的基础上,然而样 本量较小时,各种正态性检验的效率都比较低,不能正确识别总体分布的正态性,理论上要 求用非参数检验的方法。而样本量比较大时,正态性检验的效率较高,并且根据中心极限定 理,在大样本量时,即使总体分布不是正态分布,也可以通过相关统计量进行正态分布逼近。 样本量的大小评价同样需要考虑目标因子的水平数量,基于实验设计和统计学理论,每个目 标因子水平需要至少30个样本数量进行表征,因此样本数量至少需满足30*N个样本以上才 算满足基础建模质量(N代表目标因子水平)。此外样本数量还需要跟因子数量满足对应的 比例关系;当因子数量比样本数量多时,容易过度解读因子效用造成过拟合,当样本数量比 因子数量多时,则模型拟合较优。因此合适的样本量与因子量的比例是数据质量评估的关键 指标。
本实施例通过对建模所需的数据集进行数据量评估,获得数据量评估得分;然后在数据 量评估结果的基础上,对数据集中的因子有效性进行评估,获得因子评估得分,其中,因子 指分析者分析的建模数据,每列数据均被视为一个因子;并且,对建模数据中的因变量进行 评估,获得因变量评估得分,其中,因变量指建模数据中的分析目标;最后,通过上述体系 最终得到综合评分,使用者可根据综合评分为依据,对数据集质量进行评判。经三方面评估 加权求和后得到综合评分。
评判标准=w1*样本量评估得分+w2*因子有效性评估得分+w3*目标变量评估 得分。
其中,w1,w2,w3分别表示样本量评估得分的权重、因子有效性评估得分的权重、目标变 量评估得分的权重。可自定义w1,w2,w3的权重值,也可根据采样的数据集来评判权重w1,w2,w3,并划分综合评分的阈值,通过阈值得到综合评判标准。
上述技术方案的效果为:本发明不通过建模和模型评价来最终判断数据质量是否满足建 模要求,是为了排除建模算法和参数选择导致的模型评价的指标波动。本发明通过对数据量, 因子信息量,因子有效性评估,预测因变量评估四种方法来从多个角度评估数据质量,排除 了其他影响因素,能够帮助分析者快速的识别数据中的质量问题,更加适用于目前制造业企 业数据采集与建模应用的场景。
本发明的一个实施例,所述针对数据分析的数据量进行数据量评估,获得数据量评估得 分,包括:
S101、检测数据集中的样本量,对样本量进行评估,获得样本量评估结果;
S102、根据样本量的具体数量,对数据集中的因子量进行评估,获得因子量评估结果;
S103、综合样本量评估结果和因子量得分结果,获取所述数据量评估得分。
其中,样本量与因子量的比值范围为:样本量:因子量=5:1——25:1。
上述技术方案的工作原理为:
样本量评估:本专利根据对大量样本集进行建模评估,根据建模效果与上述统计分析理 论结合,对样本量多少进行赋权评分。主要分为3个档次,因变量各个水平样本量小于50个 样本时,样本量在50到500之间时与样本量在500之上时。样本量评估主要表现样本对总体 的代表性,对总体各个层次水平的表达程度。
因子量评估:当样本量较多时,模型可以学习更多自变量因子在不同水平不同层次下是 如何影响因变量的。因此相关有效的因子越多,则模型解释效果越好。但当样本量较少时, 模型自变量因子又较多时,模型可能过度学习个别自变量因子的变化,导致模型泛化能力不 强,因此因子量与样本量需呈一定比例,能减少模型过度拟合,欠拟合的效果。根据对历史 样本的建模评估,当样本量:因子量在5:1之下时,模型因子数量相对较少,样本量:因子 量在25:1之上时,模型因子数量相对较多。
上述技术方案的效果为:能够帮助分析者快速的识别数据中的质量问题,更加适用于目 前制造业企业数据采集与建模应用的场景。
本发明的一个实施例,在数据量评估结果的基础上,对数据集中的因子有效性进行评估, 获得因子评估得分,包括:
S201、利用熵值法计算衡量因子信息量,获得因子信息量评估结果;
S202、针对单个因子,利用皮尔森相关系数方式或者互信息方式对所述单个因子的有效 性进行评估,获得因子有效性评估结果;
S203、针对多个因子,利用复相关性指标对所述多个因子共同作用对因变量的解释效用 进行评估,获得因子综合有效性评估结果;当复相关性指标绝对值超过第一阈值时(比如0.6), 确定所述多个因子共同的解释能力较好;当复相关性指标绝对值小于第二阈值时(比如0.3), 确定所述多个因子共同的解释能力不佳;
S204、利用数据集中的因子的方差膨胀系数VIF来衡量自变量总是否需存在高线性相关 的因子,当VIF大于膨胀系数阈值10时,确定所述因子为共线性因子,并剔除所述共线性因 子,以此实现对因子冗余程度的评估,并获得因子冗余程度评估结果;
S205、综合因子信息量评估结果、因子有效性评估结果、因子综合有效性评估结果和因 子冗余程度评估结果获得因子评估得分。
其中,所述利用熵值法计算衡量因子信息量,获得因子信息量评估结果,包括:
S2011、针对连续型因子,采用信息熵阈值的方式进行信息序列判断,判断方式包括:
甄别当信息熵阈值小于同等长度随机序列的信息熵10%时,确定所述连续型因子为低信 息序列,或者,
根据变异系数大小判断所述因子序列是否为低信息序列,当所述变异系数小于0.5%时, 确定所述连续型因子为低信息序列;
S2012、针对离散型因子,采用类别集中度来评判所述离散型因子是否为低信息序列,当 离散型因子中某个子类别超过总样本量85%时,判定为低信息序列;当低信息序列达到90% 以上时,判定所述数据集质量较差。
同时,所述利用皮尔森相关系数方式对所述单个因子的有效性进行评估,包括:
S2021a、设定有效性判断阈值;
S2022a、计算获得因子序列与因变量之间的皮尔森相关系数;
S2023a判断所述皮尔森相关系数,当所述皮尔森相关系数高于所述有效性判断阈值时, 确定因子序列与因变量变化具有一致性;当所述皮尔森相关系数小于所述有效性判断阈值时, 确定因子序列与因变量变化不具有一致性;
当因子序列与因变量变化具有一致性时,表示因子具备有效性;当因子序列与因变量变 化不具有一致性时,因子不具备有效性。
另外,所述利用互信息方式对所述单个因子的有效性进行评估,包括:
S2021b、设定互信息熵值阈值;
S2022b、计算因变量与自变量之间的互信息熵值;
S2023b、判断互信息熵值,当所述互信息熵值高于所述互信息熵值阈值时,表明因变量 与自变量之间的关联关系较强;当所述互信息熵值低于所述互信息熵值阈值时,确定表明因 变量与自变量之间的关联关系较弱;
当因变量与自变量之间的关联关系较强时,表示因子具备有效性;当因变量与自变量之 间的关联关系较弱时,因子不具备有效性。
上述技术方案的工作原理为:
在数据量评估的基础上,还需要对因子的质量进行评估。因子质量评估分为2个方面:
1、针对因子信息量进行评估。
因子信息量代表每个影响因子其数据中所包含的数据信息,该信息量通过熵值法计算衡 量。在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发 生情况的平均不确定性。若信源符号有n种取值:U1…Ui…Un,对应概率为:P1…Pi…Pn, 且各种符号的出现彼此独立。这时,信源的平均不确定性应当为单个符号不确定性-logPi的 统计平均值(E),可称为信息熵,即:
Figure BDA0002592390180000081
信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反 之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度 量。本发明借助信息熵的概念来衡量建模因子信息量的大小,目的在于筛查携带信息量小的 因子。
针对连续型因子,采用信息熵阈值的方式进行甄别,当信息熵阈值小于同等长度随机序 列的信息熵10%时,认为其为低信息序列,同时还可根据变异系数大小判断该因子序列是否 为低信息序列。
针对离散型因子,采用类别集中度来评判该序列是否为低信息序列,当离散型因子某个 子类别超过总样本量85%时,判定为低信息序列。当低信息序列达到一定比例时,判定该数 据集质量较差。
2、针对因子有效性进行评估。
因子有效性旨在因子序列与因变量变化的一致性,如果该因子有效性高,则该因子与因 变量变化具有一定的变化规律,那么该因子对因变量的解释能力较强。反之如果该因子序列 与因变量变化不具变化规律,那么该因子对因变量的解释能力较弱,因子有效性较低。本发 明通过皮尔森相关系数衡量两者一致变化规律,通过设定阈值对因子有效性进行评估。如果 该数据集没有高度有效性的因子,则说明该数据集质量较差,对因变量的解释能力也较差。
第二种衡量方法为信息论中的互信息法,互信息旨在描述当因变量为某一个确定的水平 或层次时,因变量的混乱程度。因此当因变量与自变量的互信息熵值越低,表明该因变量与 自变量有较强关联关系,互信息能够衡量因变量与自变量之间的非线性关系,是对因子相关 关系很好的补充。
3、针对因子综合有效性进行评估。
上述因子衡量中主要衡量单个因子,单个自变量对因变量的有效性,而2.3主要描述多 个因子共同作用对于因变量的解释效用。该效用通过复相关性指标衡量,当复相关性指标绝 对值超过一定阈值时(比如0.6),可认为多个因子共同的解释能力较好。当复相关性指标绝 对值小于一定阈值时(比如0.3),可认为多个因子共同的解释能力不佳。
4、针对因子冗余程度进行评估。
如果数据集因子中掺杂高度自相关的因子,那么因子本身可以相互表示,相互影响,从 而导致建模的模型过度拟合。本专利通过数据集因子的方差膨胀系数VIF来衡量自变量中是 否存在高线性相关的因子。当VIF大于阈值10时,被认为共线性因子,并考虑进行剔除。通 过此方法从而对数据集因子冗余程度进行评估。
上述技术方案的效果为:通过对因子信息量,单个因子有效性,因子综合有效性以及因 子冗余程度的评估,能够对数据集的各特征实施全方位的评估,同时利用上述给出的评估方 法对各指标进行评估,能够有效提高数据集评估的准确性,同时能够精确筛选出数据集中的 数据质量缺陷,为后续模型构建提供高质量的数据集合。
本发明的一个实施例,所述对建模数据中的因变量进行评估,获得因变量评估得分,包 括:
针对离散类型因变量,通过样本均衡评判方法判断所述样本是否均衡,根据所述样本的 均衡程度对离散类型因变量进行评估,获得离散类型因变量评估结果;
针对连续类型因变量,通过因变量分布情况,分散情况和极端情况分别进行评判,获得 连续类型因变量评估结果;
综合所述离散类型因变量评估结果和连续类型因变量评估结果获得因变量评估得分。
其中,所述样本均衡评判方法为:离散类型因变量对应的某一子类别总数<(total_num/ n_class)*0.5,其中,n_class表示样本类别数,total_num表示数据集中的样本总数。
上述技术方案的工作原理为:
因变量虽然受自变量影响而变化,但因变量在收集采样时也需要设置多个水平,已满足 模型的学习需要。因变量需要尽量与真实分布相近,并尽量囊括因变量的各种可能,以至于 模型能具有良好的泛化能力。本专利分别就不同类型的因变量进行了讨论:
针对离散类型因变量,通过样本是否均衡进行评判,样本均衡的评判方法是:某个类总 数小于(total_num/n_class)*0.5(n_class类别数,total_num:样本总数)
针对连续类型因变量,通过因变量分布情况,分散情况,极端情况分别进行评判。通过 因变量分布与标准正态分布进行比较,判断出两者分布差异,主要甄别更集中的高峰分布和 拖尾和孤岛分布。高集中的分布通常由于采用过于集中,导致模型学习因子变化的能力不强, 而拖尾和孤岛分布则是异常样本数量占比过少,导致模型对异常样本的拟合不佳。分散情况 和极端情况都描述着因变量的变异浮动,如果变异幅度过大则说明整个制造业体系不稳定, 可影响可变动的因素较多且影响较大,随机波动也较大这是模型所不能解释的部分。
上述技术方案的效果为:通过对离散类型因变量和连续类型因变量评估,能够精确确定 系统体系存在的问题。
本发明的一个实施例,所述方法还包括:利用评估后的数据集构建应用模型,实时监控 应用模型的数据是否存在异常,如果存在异常,则对所述数据集进行重新调整和评估;
其中,实时监控应用模型的数据是否存在异常的过程包括:
步骤1、获取所述应用模型对应的数据指标,通过如下公式确定所述数据指标对应的加 权特征值Q:
Figure BDA0002592390180000101
其中,N表示所述应用模型中的数据总量,所述Pij表示第i个数据的第j个参数特征; 所述αi表示第i个参数数据的类型参数,所述αj表示第j个参数特征的类型参数;
步骤2、根据所述加权特征值Q和异常指标函数确定所述指标是否为异常指标;
Figure BDA0002592390180000102
Figure BDA0002592390180000103
其中,T表示指标参考值,当T≥t时,表示指标无异常,当T<t时,表示指标有异常;t为预先设置的指标参考阈值;λ1表示权值特征比例调节参数,λ1的取值范围为(0,0.8];λ2表示异常函数参数,λ2的取值范围为[0.1,0.7],并且λ12≤1。
上述技术方案的效果为:利用数据的加权特征值和异常指标函数能够精确且准确的确定 后续应用系统中是否存在指标异常的问题,并将指标异常问题反馈给进行数据集评价方法的 系统或模块,进行数据集的再次评估,提高后续应用系统运行的稳定性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范 围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则 本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于信息熵值的数据质量评价方法,其特征在于,所述方法在数据进行建模之前,对数据集进行评估,包括:
对建模所需的数据集进行数据量评估,获得数据量评估得分;
在数据量评估结果的基础上,对数据集中的因子有效性进行评估,获得因子评估得分;
对建模数据中的因变量进行评估,获得因变量评估得分;
利用所述数据量评估得分、因子评估得分和因变量评估得分获得数据集的综合评分,以所述综合评分为依据,对数据集质量进行评判,获得数据集质量的评判结果。
2.根据权利要求1所述方法,其特征在于,所述针对数据分析的数据量进行数据量评估,获得数据量评估得分,包括:
检测数据集中的样本量,对样本量进行评估,获得样本量评估结果;
根据样本量的具体数量,对数据集中的因子量进行评估,获得因子量评估结果;
综合样本量评估结果和因子量得分结果,获取所述数据量评估得分。
3.根据权利要求2所述方法,其特征在于,样本量与因子量的比值范围为:样本量:因子量=5:1——25:1。
4.根据权利要求1所述方法,其特征在于,在数据量评估结果的基础上,对数据集中的因子有效性进行评估,获得因子评估得分,包括:
利用熵值法计算衡量因子信息量,获得因子信息量评估结果;
针对单个因子,利用皮尔森相关系数方式或者互信息方式对所述单个因子的有效性进行评估,获得因子有效性评估结果;
针对多个因子,利用复相关性指标对所述多个因子共同作用对因变量的解释效用进行评估,获得因子综合有效性评估结果;当复相关性指标绝对值超过第一阈值时,确定所述多个因子共同的解释能力较好;当复相关性指标绝对值小于第二阈值时,确定所述多个因子共同的解释能力不佳;
利用数据集中的因子的方差膨胀系数VIF来衡量自变量总是否需存在高线性相关的因子,当VIF大于膨胀系数阈值10时,确定所述因子为共线性因子,并剔除所述共线性因子,以此实现对因子冗余程度的评估,并获得因子冗余程度评估结果;
综合因子信息量评估结果、因子有效性评估结果、因子综合有效性评估结果和因子冗余程度评估结果获得因子评估得分。
5.根据权利要求4所述方法,其特征在于,所述利用熵值法计算衡量因子信息量,获得因子信息量评估结果,包括:
针对连续型因子,采用信息熵阈值的方式进行信息序列判断,判断方式包括:
甄别当信息熵阈值小于同等长度随机序列的信息熵10%时,确定所述连续型因子为低信息序列,或者,
根据变异系数大小判断所述因子序列是否为低信息序列,当所述变异系数小于0.5%时,确定所述连续型因子为低信息序列;
针对离散型因子,采用类别集中度来评判所述离散型因子是否为低信息序列,当离散型因子中某个子类别超过总样本量85%时,判定为低信息序列;当低信息序列达到90%以上时,判定所述数据集质量较差。
6.根据权利要求4所述方法,其特征在于,所述利用皮尔森相关系数方式对所述单个因子的有效性进行评估,包括:
设定有效性判断阈值;
计算获得因子序列与因变量之间的皮尔森相关系数;
判断所述皮尔森相关系数,当所述皮尔森相关系数高于所述有效性判断阈值时,确定因子序列与因变量变化具有一致性;当所述皮尔森相关系数小于所述有效性判断阈值时,确定因子序列与因变量变化不具有一致性;
当因子序列与因变量变化具有一致性时,表示因子具备有效性;当因子序列与因变量变化不具有一致性时,因子不具备有效性。
7.根据权利要求4所述方法,其特征在于,所述利用互信息方式对所述单个因子的有效性进行评估,包括:
设定互信息熵值阈值;
计算因变量与自变量之间的互信息熵值;
判断互信息熵值,当所述互信息熵值高于所述互信息熵值阈值时,表明因变量与自变量之间的关联关系较强;当所述互信息熵值低于所述互信息熵值阈值时,确定表明因变量与自变量之间的关联关系较弱;
当因变量与自变量之间的关联关系较强时,表示因子具备有效性;当因变量与自变量之间的关联关系较弱时,因子不具备有效性。
8.根据权利要求1所述方法,其特征在于,所述对建模数据中的因变量进行评估,获得因变量评估得分,包括:
针对离散类型因变量,通过样本均衡评判方法判断所述样本是否均衡,根据所述样本的均衡程度对离散类型因变量进行评估,获得离散类型因变量评估结果;
针对连续类型因变量,通过因变量分布情况,分散情况和极端情况分别进行评判,获得连续类型因变量评估结果;
综合所述离散类型因变量评估结果和连续类型因变量评估结果获得因变量评估得分。
9.根据权利要求1所述方法,其特征在于,所述样本均衡评判方法为:离散类型因变量对应的某一子类别总数<(total_num/n_class)*0.5,其中,n_class表示样本类别数,total_num表示数据集中的样本总数。
10.根据权利要求1所述方法,其特征在于,所述方法还包括:利用评估后的数据集构建应用模型,实时监控应用模型的数据是否存在异常,如果存在异常,则对所述数据集进行重新调整和评估;
其中,实时监控应用模型的数据是否存在异常的过程包括:
获取所述应用模型对应的数据指标,通过如下公式确定所述数据指标对应的加权特征值Q:
Figure FDA0002592390170000031
其中,N表示所述应用模型中的数据总量,所述Pij表示第i个数据的第j个参数特征;所述αi表示第i个参数数据的类型参数,所述αj表示第j个参数特征的类型参数;
根据所述加权特征值Q和异常指标函数确定所述指标是否为异常指标;
Figure FDA0002592390170000032
Figure FDA0002592390170000033
其中,T表示指标参考值,当T≥t时,表示指标无异常,当T<t时,表示指标有异常;t为预先设置的指标参考阈值;λ1表示权值特征比例调节参数,λ1的取值范围为(0,0.8];λ2表示异常函数参数,λ2的取值范围为[0.1,0.7],并且λ12≤1。
CN202010699213.3A 2020-07-20 2020-07-20 一种基于信息熵值的数据质量评价方法 Pending CN111967717A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010699213.3A CN111967717A (zh) 2020-07-20 2020-07-20 一种基于信息熵值的数据质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010699213.3A CN111967717A (zh) 2020-07-20 2020-07-20 一种基于信息熵值的数据质量评价方法

Publications (1)

Publication Number Publication Date
CN111967717A true CN111967717A (zh) 2020-11-20

Family

ID=73360559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010699213.3A Pending CN111967717A (zh) 2020-07-20 2020-07-20 一种基于信息熵值的数据质量评价方法

Country Status (1)

Country Link
CN (1) CN111967717A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529677A (zh) * 2020-12-22 2021-03-19 四川新网银行股份有限公司 一种自动化数据质量评估方法和可读存储介质
CN113657747A (zh) * 2021-08-12 2021-11-16 中国安全生产科学研究院 一种企业安全生产标准化级别智能评定系统
CN114121204A (zh) * 2021-12-09 2022-03-01 上海森亿医疗科技有限公司 基于患者主索引的患者记录匹配方法、存储介质及设备
CN114692089A (zh) * 2022-04-20 2022-07-01 京东科技控股股份有限公司 单变量处理方法及变量筛选方法
CN115048556A (zh) * 2022-08-12 2022-09-13 日照福瑞德科技有限公司 一种激光切割机的保护镜片状态监测方法及系统
CN115168135A (zh) * 2022-06-09 2022-10-11 北京思特奇信息技术股份有限公司 应用系统的变更评估方法及系统
CN115525869A (zh) * 2022-09-19 2022-12-27 南京航空航天大学 一种数据集合的价值评估及采样方法
CN117893100A (zh) * 2024-03-15 2024-04-16 中国标准化研究院 基于卷积神经网络的质量评价数据更新模型的构建方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529677A (zh) * 2020-12-22 2021-03-19 四川新网银行股份有限公司 一种自动化数据质量评估方法和可读存储介质
CN113657747A (zh) * 2021-08-12 2021-11-16 中国安全生产科学研究院 一种企业安全生产标准化级别智能评定系统
CN114121204A (zh) * 2021-12-09 2022-03-01 上海森亿医疗科技有限公司 基于患者主索引的患者记录匹配方法、存储介质及设备
CN114692089A (zh) * 2022-04-20 2022-07-01 京东科技控股股份有限公司 单变量处理方法及变量筛选方法
CN115168135A (zh) * 2022-06-09 2022-10-11 北京思特奇信息技术股份有限公司 应用系统的变更评估方法及系统
CN115168135B (zh) * 2022-06-09 2025-08-05 北京思特奇信息技术股份有限公司 应用系统的变更评估方法及系统
CN115048556A (zh) * 2022-08-12 2022-09-13 日照福瑞德科技有限公司 一种激光切割机的保护镜片状态监测方法及系统
CN115048556B (zh) * 2022-08-12 2023-01-10 日照福瑞德科技有限公司 一种激光切割机的保护镜片状态监测方法及系统
CN115525869A (zh) * 2022-09-19 2022-12-27 南京航空航天大学 一种数据集合的价值评估及采样方法
CN117893100A (zh) * 2024-03-15 2024-04-16 中国标准化研究院 基于卷积神经网络的质量评价数据更新模型的构建方法
CN117893100B (zh) * 2024-03-15 2024-05-28 中国标准化研究院 基于卷积神经网络的质量评价数据更新模型的构建方法

Similar Documents

Publication Publication Date Title
CN111967717A (zh) 一种基于信息熵值的数据质量评价方法
CN108805202B (zh) 一种用于电解槽故障预警的机器学习方法及其应用
CN113298373B (zh) 一种金融风险评估方法、装置、存储介质和设备
CN113935535A (zh) 一种面向中长期预测模型的主成分分析方法
CN110490486B (zh) 一种企业大数据管理系统
CN106295858A (zh) 一种电能表非健康度预测方法
CN118917390B (zh) 基于知识大模型的服务知识库管理系统及方法
CN114022307A (zh) 分等级、分时级的孤寡老人用电量异常变化分析方法
CN118037137A (zh) 一种基于卷积神经网络的产品质量事故数量的确定方法
CN108875118A (zh) 一种高炉铁水硅含量预测模型准确度评价方法和设备
CN111915022A (zh) 滑移式岩溶危岩稳定系数快速识别的高斯过程方法及装置
CN120106690B (zh) 用于延伸率分析的铜线拉伸质量检测方法及系统
CN115659271A (zh) 传感器异常检测方法、模型训练方法、系统、设备及介质
CN113110972A (zh) 一种时序数据异常检测方法、装置及介质
CN103198208B (zh) 一种适用于小子样情形的权重确定方法
CN114943424B (zh) 一种企业经营指标关系生成方法及系统
CN118626281B (zh) 一种用于错敏词检测的快速校对方法及系统
CN119849680A (zh) 一种原料品质智能筛检优化系统
CN109634854B (zh) 一种检测软件工程算法组态异常的方法
CN119359434A (zh) 一种企业融资业务的风险智能评估方法
CN116599054A (zh) 一种基于行业特征的线路负荷分类预测方法、设备和介质
CN113836813A (zh) 一种基于数据分析的高炉风口漏水检测方法
CN113298148A (zh) 一种面向生态环境评价的不平衡数据重采样方法
CN120764863B (zh) 基于多传感器数据的能碳排放监测方法
CN121070804B (zh) 一种基于动态置信区间的ab测试试验效果评估的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201120