CN114648235A - 一种基于数据画像的工业数据质量量化分析报告生成方法 - Google Patents

一种基于数据画像的工业数据质量量化分析报告生成方法 Download PDF

Info

Publication number
CN114648235A
CN114648235A CN202210323279.1A CN202210323279A CN114648235A CN 114648235 A CN114648235 A CN 114648235A CN 202210323279 A CN202210323279 A CN 202210323279A CN 114648235 A CN114648235 A CN 114648235A
Authority
CN
China
Prior art keywords
data
value
industrial
values
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210323279.1A
Other languages
English (en)
Inventor
王婧
杨正益
汤宝平
李琪康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210323279.1A priority Critical patent/CN114648235A/zh
Publication of CN114648235A publication Critical patent/CN114648235A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明涉及工业大数据技术领域,具体涉及一种基于数据画像的工业数据质量量化分析报告生成方法,用于工业数据的数据质量分析,包括以下步骤:S1、获取工业数据并进行预处理;S2、对工业数据进行时序数据特征筛查处理,提取出工业数据的时序数据特征;S3、以时序数据特征为基础进行分析处理,得到各项预设的数据指标的对应值;S4、综合各数据指标进行数据质量综合分析,生成数据质量量化分析报告。本方法能够简化工业数据的数据质量的量化分析难度,并保证较高分析精度,可以有效的应用于工业数据的实际应用。

Description

一种基于数据画像的工业数据质量量化分析报告生成方法
技术领域
本发明涉及工业大数据技术领域,具体涉及一种基于数据画像的工业数据质量量化分析报告生成方法。
背景技术
数据质量作为一个相对的概念,在不同历史阶段有不同的概念和标准,现阶段,数据质量的概念已从狭义转向广义。在概念研究方面,F.Hermans等人指出数据质量应该包含准确性、一致性、适时性和完整性四个方面,并认为可以从这些方面进行数据质量描述;C.Cappiello等人立足用户的视角,认为数据质量应描述为数据对于特定使用者期望的满足程度。在质量评价研究方面,B.Piprani等人从精度、可靠性、唯一性和有效性等多种维度制订了评价指标,并进行了相关验证。因此,广义上数据质量可以被认为是反映多维度的数据对特定需求的满意程度。
工业大数据是大量工业产品设备的工业数据的集合,这些数据由于直接与生产活动关联,通过对工业大数据的合理使用,可以对工业产品的各个环节起到优化升级的作用,例如,生产设备的预防性维修、产品生产过程的优化、供应链的升级、产品的营销辅助等等。但是,想要工业大数据发挥出上述效果,必须满足一个前提条件,那就是工业数据的数据质量要过关,否则不仅不能起到上述效果,还会对工业生产造成各种负面作用。
在大数据质量评价方面,国内有较多学者对之进行了相关研究,莫祖英构建了微博信息质量的评价指标体系(莫祖英,马费成,罗毅.微博信息质量评价模型构建研究[J].信息资源管理学报,2013,3(02):12-18.),李贺等人对用户生成内容构建了质量评价指标体系(李贺,张世颖.移动互联网用户生成内容质量评价体系研究[J].情报理论与实践,2015,38(10):6-11.)。除此,2013年发表的《数据组织过程中的数据质量评价研究》以基于生命周期的数据质量管理框架为出发点,提出了数据组织过程中的数据质量评价模型和方法,包括数据质量维度、数据质量评价指标、数据质量综合评价模型以及数据质量评价方法等。
然而,学者的研究更多地关注了用户所产生的大数据,而非工业大数据。与用户大数据相比,工业大数据具有密集且繁多的特点,现有的分析模型虽然对如何评估数据质量给出了相关定义和模型,但都仅是对工业数据的数据质量进行了大致的定性分析和评估,而缺乏明确的定量分析结论和报告,如果直接通过获取的工业数据来分析其相关的定量评价指标,需要进行大量的数据量化计算。除此,工业数据对于精度等要求远超过一般类型的大数据,为保证分析的精度,所需进行的数据量化计算工作量就更加巨大,就进一步限制了工业数据的分析效率。
综上,如何简化工业数据的数据质量的量化分析难度,并保证较高分析精度,能够有效的应用于工业大数据的实际应用,成为了工业大数据应用技术行业内急需解决的问题。
发明内容
针对上述现有技术的不足,本发明提出了一种基于数据画像的工业数据质量量化分析报告生成方法,能够简化工业大数据的数据质量的量化分析难度,并保证较高分析精度,可以有效的应用于工业大数据的实际应用。
本发明采用了如下的技术方案:
一种基于数据画像的工业数据质量量化分析报告生成方法,其特征在于,用于工业数据的数据质量分析,包括以下步骤:
S1、获取工业数据并进行预处理;
S2、对工业数据进行时序数据特征筛查处理,提取出工业数据的时序数据特征;
S3、以时序数据特征为基础进行分析处理,得到各项预设的数据指标的对应值;
S4、综合各数据指标进行数据质量综合分析,生成数据质量量化分析报告。
上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S2包括:
S21、分析数据中有缺失的数据的数量,得到数据的缺失值;
S22、统计零值数及噪声值,并分析有效数据的数量;所述零值数表示数据中零值的数量;所述噪声值表示数据中因外界环境噪声产生的数据的数量;
S23、统计重复的数据数量,并记为重复值;
S24、通过核密度估计的方式统计异常值,所述异常值表示数据中的存在异常的数据数量;
S25、统计数据的采集频率阈值,并记为采集间隔;
S26、提取出工业数据的时序数据特征。
上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S23中,所述重复值包括时序重复值、字段重复值及字段组合重复值;所述时序重复值表示一个时间段里数据记录重复的个数,所述字段重复值表示某字段重复的数据个数,所述字段组合重复值表示某字段组合重复的数据个数。
上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S24中,统计异常值时,结合数据分布、时序变化、数值变化速度、数值变化加速度、最大值、最小值、平均数、中位数及标准差进行统计分析;
其中,数据分布表示数据各个字段在不同数值区间的分布情况;时序变化表示连续的两个数据的数值的差值;数值变化速度表示连续的两个数据的数值差值与时间戳差值的比值;数值变化加速度表示连续的两个数据的数值变化速度的差值;最大值为所有数据中取值最大的数值;最小值为所有数据中取值最小的数值;平均数为所有数据取值的平均数值;中位数为所有数据取值的中位数;标准差为所有数据取值的中位数。
上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S26中,所述时序数据特征包括:数据分布、采集间隔、时序变化、数值变化速度、数值变化加速度、数据缺失值、最大值、最小值、平均值、中位数、标准差、零值数、异常值、噪声值和重复值。
上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S3中,根据工业数据的采集间隔分析及时性,根据数据缺失值分析完整性,根据异常值分析一致性,根据零值数及噪声值分析有效性,根据时序重复值、字段重复值及字段组合重复值分析重复性;
其中,所述及时性表示数据处理的及时程度;所述一致性表示在业务定义一致性的情况下,逻辑关系正确、完整,差异原因可解释、可追溯的数据的占比情况;所述完整性表示数据中重复值的占比程度;所述有效性表示符合当前属性的规范的数据的占比情况;所述重复性表示在某时间段里数据重复的概率。
上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S3中,进行某数据指标的计算时,通过自适应滑动窗口进行计算,按照预设的顺序移动滑动窗口,直到遍历所有数据后得到计算结果;遍历过程中,按照预设的规则实时调节滑动窗口的大小;其中,预设的规则包括,根据当前滑动窗口的大小及数据指标结果的数量对滑动窗口进行调节,若数据指标结果在预设的阈值范围内,则滑动窗口按预设规则变大;若数据指标结果超出阈值范围,则滑动窗口按预设规则变小。
上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S4中,综合各数据指标进行数据质量综合分析时,通过以下公式进行分析:
Figure BDA0003570855330000031
其中,v表示数据质量综合分析的得分,A表示时序数据特征集,Aj是第j个时序数据特征,j∈{1,2,…,m},m表示时序数据特征的数量;B表示数据指标集合,Bi是第i个数据指标,i∈{1,2,…,n},n表示数据指标的数量,Bi(Aj)表示对工业数据集的第j个时序数据特征进行第i个数据指标评价时的分值,B全部采用正向指标,值越大质量越好;w表示评价数据指标的权重,w(Bi)是数据指标Bi的权重值,0<w(Bi)<1且
Figure BDA0003570855330000032
上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S4中,所述时序数据特征集A包括数据分布A1、时序变化A2、数值变化速度A3、数值变化加速度A4、最大值A5、最小值A6、平均值A7、中位数A8、标准差A9、异常值A10、采集间隔A11、数据缺失值A12、零值数A13、噪声值A14、时序重复值A15、字段或字段组合重复值A16;所述数据指标集合包括一致性B1、及时性B2、完整性B3、有效性B4和重复性B5
上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,
所述一致性B1按如下公式计算:
Figure BDA0003570855330000041
其中,N为总数据个数;
所述及时性B2按如下公式计算:
Figure BDA0003570855330000042
其中,m11表示在规定的时间间隔阈值内,按照采集间隔A11采集的数据个数;
所述完整性B3按如下公式计算:
Figure BDA0003570855330000043
所述有效性B4按如下公式计算:
Figure BDA0003570855330000044
所述重复性B5按如下公式计算:B5=B51+B52;其中,B51表示时序重复率,
Figure BDA0003570855330000045
Figure BDA0003570855330000046
B52表示字段或字段组合重复率,
Figure BDA0003570855330000047
与现有技术相比,本发明具有如下有益效果:
1.由于现有的研究给出了评价数据质量用的数据指标,本领域技术人员在进行工业数据的质量分析时,大都是直接根据获取的数据进行数据指标的分析,这样的方式好处在于简单直接,目的明确,直接从工业数据到数据指标即可。但是,由于工业数据有密集切繁多的特性,这样的方式需要进行非常大的计算量,数据质量评估的效率非常低。不过,由于简单直接且目的明确的优点,本领域技术人员基本都默认了上述技术思路,在进行过程改进时,也只是改进具体的计算方法,以尽可能的提升一些计算效率。
本发明人则跳出了“直接从工业大数据到数据指标”这样的思路框架,创造性的加入了“提取时序数据特征”这个中间分析步骤作为工业数据与数据指标之间的桥梁。一方面,加入“提取时序数据特征”后,不用直接用海量的工业大数据直接进行统计分析,而是通过时序数据特征来进行分析。时序数据特征与初始的工业数据相比,数据体量会减少若干个数量级,数据体量减少后,分析速度自然会加快。另一方面,本申请在提取工业数据的时序数据特征的过程中,会对工业数据进行时序数据特征筛查处理,相当于,本申请在提取时序数据特征的同时,会剔除部分原始采集的工业数据,从而进一步提升整体的处理效率。与现有技术相比,可以极大的提升量化分析报告的生成效率。
2.在提升效率的基础上,为了保证分析的精度,本申请从繁多的时序数据特征中选择了出了十多项时序数据特征,作为本申请分析使用的基础数据体系,通过这些时序数据特征,能够非常准确的分析各项数据指标的准确性,从而保证最终得到的量化分析报告的准确性。
3.在通过数据特征分析数据指标时,本申请创造性的引入了通常用于质检领域的“自适应滑动窗口”的思想,对进入窗口的数据,在不同的粒度下进行判别,并合并为最后的质量判别依据。极大的缩减了分析时间。这样基于自适应滑动窗口的思想单独计算每一项数据指标数值,从局部到整体计算数据指标,可进一步缩减计算的时间,提高效率。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为实施例中的流程示意图;
图2为实施例中的S2、S3的模型示意图;
图3为实施例中基于滑动窗口思想的重复性数据指标计算流程图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
由于现有的研究给出了评价数据质量用的数据指标,本领域技术人员在进行工业大数据的质量分析时,大都是直接根据获取的数据进行数据指标的分析,这样的方式好处在于简单直接,目的明确,直接从工业数据到数据指标即可;但是,由于工业数据有密集切繁多的特性,这样的方式需要进行非常大的计算量,数据质量评估的效率非常低。但由于简单直接且目的明确的优点,本领域技术人员基本都默认了上述技术思路,在进行过程改进时,也只是改进具体的计算方法,以尽可能的提升一些计算效率。本发明人则跳出了“直接从工业大数据到数据指标”这样的思路框架,创造性的引入了“提取时序数据特征”这个中间分析步骤作为工业大数据与数据指标之间的桥梁,并从繁多的时序数据特征中选择了出了十多项时序数据特征,作为本申请分析使用的基础数据体系,在保证准确性的同时,极大的提升了量化分析报告的生成效率。具体如下:
实施例
如图1、图2所示,一种基于数据画像的工业数据质量量化分析报告生成方法,用于工业数据的质量分析,包括以下步骤:
S1、获取工业数据并进行预处理。具体的,获取的工业数据包括工业工程的传感器监测数据、运行参数数据和历史数据。数据预处理的具体内容,本领域技术人员可依据获取的工业数据的类型、格式等特点具体设置,在此不再赘述。
S2、对工业数据进行时序数据特征筛查处理,提取出工业数据的时序数据特征;具体包括:
S21、分析数据中有缺失的数据的数量,得到数据的缺失值;所述重复值包括时序重复值、字段重复值及字段组合重复值;
S22、统计零值数及噪声值,并分析有效数据的数量;所述零值数表示数据中零值的数量;所述噪声值表示数据中因外界环境噪声产生的数据的数量;
S23、统计重复的数据数量,并记为重复值;
S24、通过核密度估计的方式统计异常值,所述异常值表示数据中的存在异常的数据数量;具体实施时,结合数据分布、时序变化、数值变化速度、数值变化加速度、最大值、最小值、平均数、中位数及标准差进行异常值的统计分析;
S25、统计数据的采集频率阈值,并记为采集间隔;
S26、提取出工业数据的时序数据特征。
其中,所述时序数据特征包括:数据分布、采集间隔、时序变化、数值变化速度、数值变化加速度、数据缺失值、最大值、最小值、平均值、中位数、标准差、零值数、异常值、噪声值和重复值。其中,重复值包括时序重复、字段重复及字段组合重复的数据。本实施例中的各项时序特征具体描述如下:
(1)数据分布A1:统计了数据各个字段在不同数值区间的分布情况;
(2)时序变化A2:连续的两个数据的数值的差值,即xk+1-xk;xk为第k个采集时刻所采集的数据值,xk+1为第k+1个采集时刻所采集的数据值;
(3)数值变化速度A3:连续的两个数据的数值差值与时间戳差值的比值,即
Figure BDA0003570855330000061
tk为第k个采集时刻,xk为tk采集的数据值;tk+1为第k+1个采集时刻,xk+1为tk+1采集的数据值。
(4)数值变化加速度A4:连续的两个数据的数值变化速度的差值,即
Figure BDA0003570855330000062
tk+1为第k+1个采集时刻,xk+1为tk+1采集的数据值;tk为第k个采集时刻,xk为tk采集的数据值;tk-1为第k-1个采集时刻,xk-1为tk-1采集的数据值。
(5)最大值A5:统计了所有数据中取值最大的数值;
(6)最小值A6:统计了所有数据中取值最小的数值;
(7)平均值A7:统计了所有数据取值的平均数值;
(8)中位数A8:统计了所有数据取值的中位数;
(9)标准差A9:统计了所有数据取值的标准差;
(10)异常值A10:统计了所有数据中的异常点的个数;
(11)采集间隔A11:连续的两个数据的采集时间戳的差值,即tk+1-tk;tk+1为第k+1个采集时刻,tk为第k个采集时刻。
(12)数据缺失值A12:统计了数据中有缺失的数据的个数;
(13)零值数A13:统计了所有数据中的零值的个数;
(14)噪声值A14:统计数据中因外界环境噪声产生的数据的个数;
(15)时序重复值A15:统计一个时间段里,数据记录重复的个数;
(16)字段或字段组合重复值A16:统计某字段或字段组合重复的数据个数。
除了上述这些时序数据特征之外,在一些特定的工业大数据领域中,也可能存在其它的与相应领域相关性较强的数据特征。
S3、以时序数据特征为基础进行分析处理,得到各项预设的数据指标的对应值。其中,所述数据指标包括及时性、完整性、一致性、有效性和重复性。具体的,根据工业数据的采集间隔(即采集频率)分析及时性,根据数据缺失值分析完整性,根据异常值分析一致性,根据零值数及噪声值分析有效性,根据时序重复值、字段重复值及字段组合重复值分析重复性。关于一致性、完整性、有效性、重复性、及时性这五个指标的具体描述如下:
(1)一致性B1
规定:指在业务定义一致性的情况下,关联数据间的逻辑关系是正确和完整的,差异原因可解释、可追溯。
计算:根据历史数据的数据分布A1、时序变化A2、数值变化速度A3、数值变化加速度A4、最大值A5、最小值A6、平均值A7、中位数A8、标准差A9,判断数据是否异常,从而统计历史数据中存在的异常数据的个数,确定为异常值A10;假设总数据个数为N,则:
Figure BDA0003570855330000071
(2)及时性B2
规定:指数据处理的及时程度。主要包括在规定时限内(满足相关规范或业务处理要求),完成数据的刷新、处理、提供等操作。
计算:根据数据采集间隔A11计算,在规定的时间间隔阈值内,按照采集间隔A11采集的数据个数为m11,总数据个数为N,则:
Figure BDA0003570855330000072
(3)完整性B3
规定:是指当前实体,在其数据属性中数据字段的完整程度,即是否有数据缺失或字段缺失。它是用来衡量采集数据缺失程度的指标。同时,它反映了时间维度和空间维度的数据质量指标。
计算:假设数据缺失值A12,数据个数为N,则:
Figure BDA0003570855330000081
(4)有效性B4
规定:是度量数据是否符合当前属性的规范。根据设备使用相关文档,将实际数据情况与规定的数据规则如数据范围、单位等作对比,满足一定有效性判别准则的、符合接收条件的数据比例,或者落入相应可接受值域的数据比例,即数据应该按照约定的要求被记录和使用。有效性是用以衡量采集数据异常程度的指标,可反映时间维度和空间维度的数据质量。
计算:根据数据的零值数A13和噪声值A14计算,假设总数据个数为N,则:
Figure BDA0003570855330000082
(5)重复性B5
划分为时序重复率B51和字段或字段组合重复率B52;B5=B51+B52
①时序重复率B51
规定:在一个时间段里,数据重复的概率。
计算:根据时序重复值A15,假设总数据个数为N,则:
Figure BDA0003570855330000083
②字段或字段组合重复率B52
规定:某字段或字段组合的重复率。
计算:根据某字段或字段组合重复值A16,假设总数据个数为N,则:
Figure BDA0003570855330000084
具体实施时,S3中进行某数据指标的计算时,通过自适应滑动窗口进行计算,按照预设的顺序移动滑动窗口,直到遍历所有数据后得到计算结果;遍历过程中,按照预设的规则实时调节滑动窗口的大小;其中,预设的规则包括,根据当前滑动窗口的大小及数据指标结果的数量对滑动窗口进行调节,若数据指标结果在预设的阈值范围内,则滑动窗口按预设规则变大;若数据指标结果超出阈值范围,则滑动窗口按预设规则变小。变化或变小的具体幅度,本领域技术人员可结合分析的内容具体设置,在此不再赘述。
为便于理解,本实施例中以重复性这一数据指标的计算为例进行说明:
如图3所示,以数据的时间戳为索引,在活动窗口内检测相邻数据间是否出现重复记录,并且按照重复率大小对滑动窗口大小进行调整。通过使用自适应滑动窗口,相似重复的记录也就较大可能地处于窗口内。设置滑动窗口下限为20,上限为80,通过比较滑动窗口内重复数据的个数,改变滑动窗口的大小。首先判断当前滑动窗口的大小,再检验当前数据重复数,然后根据自己制定的规则对窗口大小进行改变。接着,使用大小改变后的滑动窗口继续遍历数据,直到数据检查完毕,算法结束。采用这样的统计分析方式,当数据指标结果超出阈值范围,即表现效果差时,滑动窗口变小;也就是说,当数据在某一方面表现良好,则数据在该方面上的计算效率也会大大提高。其他数据指标的计算原理同上,在此不再赘述。
S4、综合各数据指标进行数据质量综合分析,生成数据质量报告。本实施例中,数据质量报告的内容包括图形说明和文字说明。
具体的,综合各数据指标进行数据质量综合分析时,通过以下公式进行分析:
Figure BDA0003570855330000091
其中,v表示数据质量综合分析的得分,A表示时序数据特征集,Aj是第j个时序数据特征,j∈{1,2,…,m},m表示时序数据特征的数量;B表示数据指标集合,Bi是第i个数据指标,i∈{1,2,…,n},n表示数据指标的数量,Bi(Aj)表示对工业数据集的第j个时序数据特征进行第i个数据指标评价时的分值,B全部采用正向指标,值越大质量越好;w表示评价数据指标的权重,w(Bi)是数据指标Bi的权重值,0<w(Bi)<1且
Figure BDA0003570855330000092
具体的,时序数据特征集A包括数据分布A1、时序变化A2、数值变化速度A3、数值变化加速度A4、最大值A5、最小值A6、平均值A7、中位数A8、标准差A9、异常值A10、采集间隔A11、数据缺失值A12、零值数A13、噪声值A14、时序重复值A15、字段或字段组合重复值A16;数据指标集合包括一致性B1、及时性B2、完整性B3、有效性B4和重复性B5
为了便于理解,上述时序数据特征集A也可以理解为采集的数据库中的关系集,Aj则为关系集中的第j个关系,此处的“关系”即数据库里面表与表之间的关系(即一对一,一对多,多对多),由于对于同一项工业设备,会收集海量的工业数据,从而得到包含多份记录工业设备数据的表格的数据集。数据集中的表格之间有相连的关系,通过相应的关系可以得到数据关系集。由于数据质量评价一般针对一个数据集进行,而一个数据集有多种关系,所以每个关系可以用多种数据指标从不同方面进行评价。单独一种数据指标并不能直接确定相关数据集数据质量的好坏,所以我们选择综合计算,通过对多个数据指标分配不同的权重来进行数据质量评价。
本申请由浅至深逐步分析数据特点,生成数据画像。先从浅层次判断数据质量,即对设备采集数据指标分类进行数据质量判别,以初步获得数据的有效性评价。再根据初步评价得到的数据特征,计算得出数据关于一致性、完整性、有效性、重复性、及时性这五个指标的数据质量判断。最后,综合以上结果,得到更加全面、有效的数据画像。
与现有技术“直接从工业大数据到数据指标”相比,本申请创造性的加入了“提取时序数据特征”这个中间分析步骤作为工业大数据与数据指标之间的桥梁。一方面,加入“提取时序数据特征”后,不用直接用海量的工业数据直接进行统计分析,而是通过时序数据特征来进行分析。时序数据特征与初始的工业数据相比,数据体量会减少若干个数量级,数据体量减少后,分析速度自然会加快。另一方面,本申请在提取工业数据的时序数据特征的过程中,会对工业数据进行时序数据特征筛查处理,相当于,本申请在提取时序数据特征的同时,会剔除部分原始采集的工业数据,从而进一步提升整体的处理效率。与现有技术相比,可以极大的提升量化分析报告的生成效率。在提升效率的基础上,为了保证分析的精度,本申请从繁多的时序数据特征中选择了出了十多项时序数据特征,作为本申请分析使用的基础数据体系,通过这些时序数据特征,能够非常准确的分析各项数据指标的准确性,从而保证最终得到的量化分析报告的准确性。
并且,由于工业数据具有密集且繁多的特点,为使检查效率尽可能提高,在通过数据特征分析数据指标时,本申请创造性的引入了通常用于质检领域的“自适应滑动窗口”的思想,对进入窗口的数据,在不同的粒度下进行判别,并合并为最后的质量判别依据。极大的缩减了分析时间,进一步提升了本方法的效率。
综上,本发明提出了一种能够简化工业数据的数据质量的量化分析难度,并保证较高分析精度,可以有效的应用于工业大数据实际应用的基于数据画像的工业数据质量量化分析报告生成方法。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于数据画像的工业数据质量量化分析报告生成方法,其特征在于,用于工业数据的数据质量分析,包括以下步骤:
S1、获取工业数据并进行预处理;
S2、对工业数据进行时序数据特征筛查处理,提取出工业数据的时序数据特征;
S3、以时序数据特征为基础进行分析处理,得到各项预设的数据指标的对应值;
S4、综合各数据指标进行数据质量综合分析,生成数据质量量化分析报告。
2.如权利要求1所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于,S2包括:
S21、分析数据中有缺失的数据的数量,得到数据的缺失值;
S22、统计零值数及噪声值,并分析有效数据的数量;所述零值数表示数据中零值的数量;所述噪声值表示数据中因外界环境噪声产生的数据的数量;
S23、统计重复的数据数量,并记为重复值;
S24、通过核密度估计的方式统计异常值,所述异常值表示数据中的存在异常的数据数量;
S25、统计数据的采集频率阈值,并记为采集间隔;
S26、提取出工业数据的时序数据特征。
3.如权利要求2所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于:S23中,所述重复值包括时序重复值、字段重复值及字段组合重复值;所述时序重复值表示一个时间段里数据记录重复的个数,所述字段重复值表示某字段重复的数据个数,所述字段组合重复值表示某字段组合重复的数据个数。
4.如权利要求3所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于:S24中,统计异常值时,结合数据分布、时序变化、数值变化速度、数值变化加速度、最大值、最小值、平均数、中位数及标准差进行统计分析;
其中,数据分布表示数据各个字段在不同数值区间的分布情况;时序变化表示连续的两个数据的数值的差值;数值变化速度表示连续的两个数据的数值差值与时间戳差值的比值;数值变化加速度表示连续的两个数据的数值变化速度的差值;最大值为所有数据中取值最大的数值;最小值为所有数据中取值最小的数值;平均数为所有数据取值的平均数值;中位数为所有数据取值的中位数;标准差为所有数据取值的中位数。
5.如权利要求4所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于:S26中,所述时序数据特征包括:数据分布、采集间隔、时序变化、数值变化速度、数值变化加速度、数据缺失值、最大值、最小值、平均值、中位数、标准差、零值数、异常值、噪声值和重复值。
6.如权利要求5所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于:S3中,根据工业数据的采集间隔分析及时性,根据数据缺失值分析完整性,根据异常值分析一致性,根据零值数及噪声值分析有效性,根据时序重复值、字段重复值及字段组合重复值分析重复性;
其中,所述及时性表示数据处理的及时程度;所述一致性表示在业务定义一致性的情况下,逻辑关系正确、完整,差异原因可解释、可追溯的数据的占比情况;所述完整性表示数据中重复值的占比程度;所述有效性表示符合当前属性的规范的数据的占比情况;所述重复性表示在某时间段里数据重复的概率。
7.如权利要求6所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于:S3中,进行某数据指标的计算时,通过自适应滑动窗口进行计算,按照预设的顺序移动滑动窗口,直到遍历所有数据后得到计算结果;遍历过程中,按照预设的规则实时调节滑动窗口的大小;其中,预设的规则包括,根据当前滑动窗口的大小及数据指标结果的数量对滑动窗口进行调节,若数据指标结果在预设的阈值范围内,则滑动窗口按预设规则变大;若数据指标结果超出阈值范围,则滑动窗口按预设规则变小。
8.如权利要求7所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于:S4中,综合各数据指标进行数据质量综合分析时,通过以下公式进行分析:
Figure FDA0003570855320000021
其中,v表示数据质量综合分析的得分,A表示时序数据特征集,Aj是第j个时序数据特征,j∈{1,2,…,m},m表示时序数据特征的数量;B表示数据指标集合,Bi是第i个数据指标,i∈{1,2,…,n},n表示数据指标的数量,Bi(Aj)表示对工业数据集的第j个时序数据特征进行第i个数据指标评价时的分值,B全部采用正向指标,值越大质量越好;w表示评价数据指标的权重,w(Bi)是数据指标Bi的权重值,0<w(Bi)<1且
Figure FDA0003570855320000022
9.如权利要求8所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于:S4中,所述时序数据特征集A包括数据分布A1、时序变化A2、数值变化速度A3、数值变化加速度A4、最大值A5、最小值A6、平均值A7、中位数A8、标准差A9、异常值A10、采集间隔A11、数据缺失值A12、零值数A13、噪声值A14、时序重复值A15、字段或字段组合重复值A16;所述数据指标集合包括一致性B1、及时性B2、完整性B3、有效性B4和重复性B5
10.如权利要求9所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于:
所述一致性B1按如下公式计算:
Figure FDA0003570855320000031
其中,N为总数据个数;
所述及时性B2按如下公式计算:
Figure FDA0003570855320000032
其中,m11表示在规定的时间间隔阈值内,按照采集间隔A11采集的数据个数;
所述完整性B3按如下公式计算:
Figure FDA0003570855320000033
所述有效性B4按如下公式计算:
Figure FDA0003570855320000034
所述重复性B5按如下公式计算:B5=B51+B52;其中,B51表示时序重复率,
Figure FDA0003570855320000035
Figure FDA0003570855320000036
B52表示字段或字段组合重复率,
Figure FDA0003570855320000037
CN202210323279.1A 2022-03-29 2022-03-29 一种基于数据画像的工业数据质量量化分析报告生成方法 Pending CN114648235A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210323279.1A CN114648235A (zh) 2022-03-29 2022-03-29 一种基于数据画像的工业数据质量量化分析报告生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210323279.1A CN114648235A (zh) 2022-03-29 2022-03-29 一种基于数据画像的工业数据质量量化分析报告生成方法

Publications (1)

Publication Number Publication Date
CN114648235A true CN114648235A (zh) 2022-06-21

Family

ID=81995497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210323279.1A Pending CN114648235A (zh) 2022-03-29 2022-03-29 一种基于数据画像的工业数据质量量化分析报告生成方法

Country Status (1)

Country Link
CN (1) CN114648235A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115297381A (zh) * 2022-08-03 2022-11-04 北京国信互通科技有限公司 一种基于特殊作业现场的数据处理方法、装置及系统
CN117390379A (zh) * 2023-12-11 2024-01-12 博睿康医疗科技(上海)有限公司 在线信号测量装置、信号特征的置信度测量装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115297381A (zh) * 2022-08-03 2022-11-04 北京国信互通科技有限公司 一种基于特殊作业现场的数据处理方法、装置及系统
CN117390379A (zh) * 2023-12-11 2024-01-12 博睿康医疗科技(上海)有限公司 在线信号测量装置、信号特征的置信度测量装置
CN117390379B (zh) * 2023-12-11 2024-03-19 博睿康医疗科技(上海)有限公司 在线信号测量装置、信号特征的置信度测量装置

Similar Documents

Publication Publication Date Title
CN105117602B (zh) 一种计量装置运行状态预警方法
CN114648235A (zh) 一种基于数据画像的工业数据质量量化分析报告生成方法
CN109193650B (zh) 一种基于高维随机矩阵理论的电网薄弱点评估方法
CN111027615A (zh) 基于机器学习的中间件故障预警方法和系统
Yang Measuring software product quality with ISO standards base on fuzzy logic technique
CN110321493A (zh) 一种社交网络的异常检测与优化方法、系统及计算机设备
CN114201374A (zh) 基于混合机器学习的运维时序数据异常检测方法及系统
CN111126627B (zh) 基于分离度指数的模型训练系统
CN107664690B (zh) 一种预测变压器油中溶解气体浓度的方法
CN107357941A (zh) 一种可实时对水雨情数据进行检验的系统和方法
CN112559591B (zh) 一种用于冷轧辊制造过程的离群检测系统及其检测方法
CN109582555A (zh) 数据异常检测方法、装置、检测系统及存储介质
CN117592656A (zh) 基于碳数据核算的碳足迹监控方法及系统
CN116485020B (zh) 一种基于大数据的供应链风险识别预警方法、系统及介质
JP2019117464A (ja) 異常監視システム、異常監視方法及びプログラム
CN110196797B (zh) 适于信用评分卡系统的自动优化方法和系统
CN114595945A (zh) 一种面向制造过程的航空产品mbom健康度评价方法
CN115392663A (zh) 一种基于大数据的数据采集处理方法
CN111597510B (zh) 一种输变电运检数据质量评估方法及系统
CN114090377A (zh) 一种数据监控方法及装置
Yalaoui et al. A survey on data quality: principles, taxonomies and comparison of approaches
CN113705920A (zh) 火电厂用水数据样本集的生成方法和终端设备
CN113919691A (zh) 一种调频服务指标测算方法及相关装置
CN117318053B (zh) 用于储能电站的能源需求预测方法及系统
CN113221332B (zh) 一种基于云模型理论的海岸侵蚀脆弱性评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination