CN118194204A - 工业数据特征选择与异常值检测方法、系统、设备与介质 - Google Patents
工业数据特征选择与异常值检测方法、系统、设备与介质 Download PDFInfo
- Publication number
- CN118194204A CN118194204A CN202410594141.4A CN202410594141A CN118194204A CN 118194204 A CN118194204 A CN 118194204A CN 202410594141 A CN202410594141 A CN 202410594141A CN 118194204 A CN118194204 A CN 118194204A
- Authority
- CN
- China
- Prior art keywords
- data
- industrial production
- process variable
- industrial
- variable characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 121
- 238000013450 outlier detection Methods 0.000 title claims description 14
- 238000009776 industrial production Methods 0.000 claims abstract description 103
- 230000002159 abnormal effect Effects 0.000 claims abstract description 54
- 230000008569 process Effects 0.000 claims abstract description 53
- 238000001914 filtration Methods 0.000 claims abstract description 31
- 238000004519 manufacturing process Methods 0.000 claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012098 association analyses Methods 0.000 claims 1
- 238000011161 development Methods 0.000 abstract description 6
- 239000000571 coke Substances 0.000 description 15
- 238000004939 coking Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010219 correlation analysis Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 241000196324 Embryophyta Species 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- -1 carrier Substances 0.000 description 2
- 239000003245 coal Substances 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000004611 spectroscopical analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 235000002566 Capsicum Nutrition 0.000 description 1
- 238000004497 NIR spectroscopy Methods 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 241000049606 Rexia Species 0.000 description 1
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 239000011574 phosphorus Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000009628 steelmaking Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 239000011593 sulfur Substances 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000003039 volatile agent Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- General Factory Administration (AREA)
Abstract
本发明公开了一种工业数据特征选择与异常值检测方法、系统、设备与介质,它们是一一对应的方案,方案中:可以从海量的工业生产的过程变量中识别出对工业生产结果有较大影响的部分过程变量,该部分可以有效缩减模型输入特征的数量,较大幅度提高工作效率;同时,可以使用滤波的方法对原始数据中异常值进行检测,该部分可以取代人工,快速将异常数据从原始数据集中挑出,大大提高数据集制作的效率;此外,还将特征选择与异常值检测两个部分工具化,在工程应用中可以缩减掉这两部分的开发工作,提高工程交付工作效率。
Description
技术领域
本发明涉及工业生产大数据预处理及工业数据集处理技术领域,尤其涉及一种工业数据特征选择与异常值检测方法、系统、设备与介质。
背景技术
在工业数字化转型浪潮背景下,工业领域涌现很多数据驱动建模、智能优化、数据挖掘与数据分析的工作。高效、优质的工业数据集是帮助工业AI(ArtificialIntelligence,人工智能)应用成功的前提条件、重要基础。
目前,研发人员在制作工业数据集中有三大共性痛点。
痛点一,变量多、理解难、数据集制作周期长。工业数据维度过多、跨学科知识壁垒高。模型开发人员在启用数据集制作之前需要耗费较多时间精力去甄别关键变量(特征选择),严重影响工业AI应用及数字化工程项目的开发成本与交付周期。
目前在深度学习中用于特征选择的方法主要有:(1)使用相关性度量进行特征选择;(2)使用LASSO(Least Absolute Shrinkage and Selection Operator,最小绝对收缩和选择算法)进行稀疏选择;(3)使用集成方法进行特征选择;(4)神经网络自动选择特征;(5)利用主成分分析进行降维等。
以上5种特征选择相关方案一一对应的文献如下:
文献1:臧冬伟,陆宝宏,朱从飞等.基于灰色关联分析的GA-BP网络需水预测模型研究[J].水电能源科学,2015,33(07):39-42+6.。
文献2:李鱼强,潘天红,李浩然等.近红外光谱LASSO特征选择方法及其聚类分析应用研究[J].光谱学与光谱分析,2019,39(12):3809-3815. 。
文献3: 刘艺,曹建军,刁兴春等. 特征选择稳定性研究综述[J].软件学报,2018,29(09):2559-2579.DOI:10.13328/j.cnki.jos.005394.。
文献4:周朝刚,胡锦榛,蒋朝敏等.基于BP神经网络算法的脱磷转炉终点磷含量预报模型[J].炼钢,2021,37(02):10-15.。
文献5:苏键,陈军,何洁. 主成分分析法及其应用[J].轻工科技,2012,28(09):12-13+16.。
但是,以上方案并不能直接应用于工业生产大数据的特征选择。
痛点二,异常数据人工核查难。工业大数据由工业设备、传感器等感知层数据、人工填报数据、应用系统中得来,现实情况中由于传感器故障、人为操作谬误、系统误差、多异构数据源、网络传输乱序等因素极易出现噪声、缺失值、数据不一致的情况,未经数据预处理的数据集直接用于模型训练会对模型的精度和可靠性产生严重的负面影响。因此在建模前,往往需要对数据进行预处理,消除数据中的噪声、纠正不一致、识别和删除离群数据来提高模型鲁棒性,防止模型过拟合。
异常数据靠人工很难准确甄别。目前用于异常数据检测的方法有KNN(K NearestNeighbors,K近邻算法),DBSCAN(Density-Based Spatial Clustering of Applicationswith Noise,基于密度的聚类算法),K-means(K-Means Clustering Algorithm,K均值聚类算法),PCA(Principal Components Analysis,主成分分析)等。
以上异常数据检测相关方案一一对应的文献如下:
文献7:张著英,黄玉龙,王翰虎. 一个高效的KNN分类算法[J].计算机科学,2008,(03):170-172.赵丹梦. 基于机器学习的短期风能预测[D].西安建筑科技大学,2023.DOI:10.27393/d.cnki.gxazu.2022.000629.。
文献8:冯少荣,肖文俊. 基于密度的DBSCAN聚类算法的研究及应用[J].计算机工程与应用,2007,(20):216-221.。
文献9:艾力米努尔·库尔班,谢娟英,姚若侠. 融合最近邻矩阵与局部密度的自适应K-means聚类算法[J].计算机科学与探索,2023,17(02):355-366.。
文献10:金慧芳,史东梅,陈正发等. 基于聚类及PCA分析的红壤坡耕地耕层土壤质量评价指标[J].农业工程学报,2018,34(07):155-164.。
但是,以上方案的抗干扰能力较弱,直接运用于工业生产大数据的异常值检测容易被各类因素干扰。
痛点三,每个工业数据集的制作都需要开发人员针对上述两个问题单独进行技术处理,因此,开发人员亟待需要一套将特征选择与异常值检测两个步骤工具化的方案,减少开发任务,提高工作效率。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供一种工业数据特征选择与异常值检测方法、系统、设备与介质,可以减少输入特征的数量,并准确筛选出异常数据;同时,可以减少开发任务,提高工作效率。
本发明的目的是通过以下技术方案实现的:
一种工业数据特征选择与异常值检测方法,包括:
收集工业生产大数据,并划分为两类,一类为工业生产结果数据,另一类为工业生产的过程变量特征数据;
以所述工业生产结果数据作为参考,逐一计算每一工业生产的过程变量特征数据与工业生产结果数据之间的关联度,并筛选出关联度满足设定要求的工业生产的过程变量特征数据;
对于筛选出的每一工业生产的过程变量特征数据,采用滤波的方法分别进行异常值检测。
一种工业数据特征选择与异常值检测系统,包括:
数据收集与划分单元,用于收集工业生产大数据,并划分为两类,一类为工业生产结果数据,另一类为工业生产的过程变量特征数据;
关联度计算与特征选择单元,用于以所述工业生产结果数据作为参考,逐一计算每一工业生产的过程变量特征数据与工业生产结果数据之间的关联度,并筛选出关联度满足设定要求的工业生产的过程变量特征数据;
异常值检测单元,用于对于筛选出的每一工业生产的过程变量特征数据,采用滤波的方法分别进行异常值检测。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出:(1)可以从海量的工业生产的过程变量中识别出对工业生产结果有较大影响的部分过程变量。该部分可以有效缩减模型输入特征的数量,较大幅度提高工作效率;(2)可以使用滤波的方法对原始数据中异常值进行检测,该部分可以取代人工,快速将异常数据从原始数据集中挑出,大大提高数据集制作的效率。(3)将特征选择与异常值检测两个部分工具化,在工程应用中可以缩减掉这两部分的开发工作,提高工程交付工作效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种工业数据特征选择与异常值检测方法的流程图;
图2为本发明实施例提供的实验示例中1号焦炉烟道机侧温度数据示意图;
图3为本发明实施例提供的实验示例中针对异常数据值处理后的数据示意图;
图4为本发明实施例提供的一种工业数据特征选择与异常值检测系统的示意图;
图5为本发明实施例提供的一种工业数据特征选择与异常值检测系统的架构图;
图6为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
下面对本发明所提供的一种工业数据特征选择与异常值检测方法、系统、设备与介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
实施例一
本发明实施例提供一种工业数据特征选择与异常值检测方法,如图1所示,其主要包括如下步骤:
步骤1、收集工业生产大数据,并划分为两类,一类为工业生产结果,另一类为工业生产的过程变量特征数据。
步骤2、以所述工业生产结果数据作为参考,逐一计算每一工业生产的过程变量特征数据与工业生产结果数据之间的关联度,并筛选出关联度满足设定要求的工业生产的过程变量特征数据。
步骤3、对于筛选出的每一工业生产的过程变量特征数据,采用滤波的方法分别进行异常值检测。
本发明实施例提供的上述方案,可以应用工业生产过程建模与优化的数据集制作工作;以焦化厂的焦炉炼焦工段的大数据为例,基于本发明提供的上述方案,可以预测焦炉炼焦生产过程中产生的各类数据特征是否正常,是否满足焦化厂的焦炉炼焦工段的需求;之后,可以用于焦化厂的焦炉炼焦工段的数据集制作工作。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的方法进行详细描述。
一、数据收集。
本发明实施例中,主要收集工业生产大数据;此处的大数据(Big Data)是本领域的通用术语,本部分主要是收集与工业生产相关的大数据(即工业生产大数据),用于后续处理。
工业生产大数据通常包含工业生产结果与工业生产的过程变量特征两类数据;根据实际情况,工业生产的过程变量特征数据还可以进一步划分为生产工艺数据、工业生成设备状态数据等等。
二、关联度计算与特征选择。
本发明实施例中,以所述工业生产结果数据作为参考,逐一计算每一工业生产的过程变量特征数据与工业生产结果数据之间的关联度,并筛选出关联度满足设定要求的工业生产的过程变量特征数据。
作为举例,可采用灰色关联度分析法,逐一计算每一工业生产的过程变量特征数据与工业生产结果数据之间的关联度。
灰色关联度分析法(Grey Relation Analysis,GRA)对于一个系统发展变化态势提供了量化的度量,非常适合动态历程分析。同时对样本量的多少和样本有无规律并没有要求,量化结果基本上与定性分析相符合。
灰色关联度分析法是一种多因素统计分析的方法,即在一个灰色系统中,可以了解所关注的某个因素受其他的因素影响的相对强弱,简而言之:假设可以确定某一个因素A可能是与其他的某几个因素相关的,那么需要进一步确定知道该因素A与哪些因素相对而言关系更强,以及与哪些因素相对关系较弱,依次类推,把这些其他因素进行排序,得到一个分析结果,由此即可确定指标A与哪些因素更为相关。
本发明实施例中,采用灰色关联度分析法,逐一计算每一工业生产的过程变量特征数据与工业生产结果数据之间的关联度的优选实施方式如下:
(1)数据无量纲化处理。
由于系统中各因素的物理意义不同,单位不同,导致数据的量纲也不一定相同,不便于比较,或在比较时难以得到正确的结论。因此在进行灰色关联度分析时,一般都要进行无量纲化的数据处理。数据无量纲化处理的方法有均值化、初值化、区间值化、导数化、零化等。
本发明实施例中,将工业生产结果与每一工业生产的过程变量特征数据分别进行无量纲化处理,将处理后的第i个工业生产的过程变量特征数据记为,工业生产结果数据记为/>;/>,n为工业生产的过程变量特征数据的数目,每一个/>均通过后续步骤计算与/>的关联度。
(2)计算差序列。
本发明实施例中,与/>为长度相同的序列数据,逐一计算相同位置数据值的绝对差值,获得差序列,其中第k个位置的绝对差值/>计算方式表示为:
;
其中,m为的长度,/>、/>分别为/>与/>第k个位置的数据值。
(3)获取两极差。
此部分可以直接从计算出的差序列中的获取两极差,即最大差值与最小差值/>。
(4)计算关联系数。
本发明实施例中,结合两极差以及差序列,计算出中每一位置的关联系数。
对于中的第k个位置,其关联系数/>的计算方式表示为:
;
其中,为/>与/>中第k个位置数据值的绝对差值,为最小差值,/>为最大差值,/>为设定的比例系数,作为举例,/>的取值范围可以为0-3。
(5)计算关联度。
本发明实施例中,结合中所有位置的关联系数,计算出与工业生产结果数据之间的关联度:
计算所有位置的关联系数之和的均值,作为与工业生产结果数据之间的关联度,表示为:
;
其中,m为的长度,/>为/>中的第k个位置的关联系数。
或者,计算所有位置的关联系数加权和的均值,作为与工业生产结果数据之间的关联度,表示为:
;
其中,为第i个工业生产的过程变量特征数据的权重,权重主要体现不同工业生产的过程变量特征数据在评价过程中所起作用不同,其具体权重值可以由用户根据实际情况或者经验进行设定。
以焦化厂焦炉炼焦生产为例,收集焦化厂焦炉炼焦生产时的真实工业数据,收集到的数据可以分为以下:(1)用于描述配合煤的工业指标数据,包括但不限于配合煤的挥发分、水分、硫分、灰分等,可以用符号表示。(2)生产过程中各类操作类变量,包括但不限于焦炉的温控、压控、时间控制数据,例如焦炉烟道焦侧吸力、焦炉烟道焦侧温度、焦炉蓄热室吸力、焦炉使用煤气主管压力、结焦时间等,用符号/>进行表示。(3)焦炭产量、荒煤气产量等,用符号/>进行表示。
上述示例中,与/>属于工业生产的过程变量特征数据,/>属于工业生产结果数据,基于前文介绍的方案,可以计算/>与/>对/>的关联度。
基于前文介绍的关联度计算方式,完成所有工业生产的过程变量特征数据与工业生产结果数据之间的关联度计算后,可以按照关联度大小做降序排列,排列中越高前表明与工业生产结果相关性越高,基于此,可以筛选出排列靠前的一部分工业生产的过程变量特征数据;在实际应用中,所筛选的工业生产的过程变量特征数据的数量可以由用户根据实际情况或者经验设定。
三、异常值检测。
本发明实施例中,可以对筛选出的每一工业生产的过程变量特征数据,采用滤波的方法分别进行异常值检测,即:对于筛选出的每一工业生产的过程变量特征数据,采用滤波方法利用滑动窗口寻找所有异常数据值,对于每一异常数据值使用所属滑动窗口中的数据中值进行替换。
上述方案中,所述采用滤波方法利用滑动窗口寻找所有异常数据值包括:对于当前数据值,生成长度固定的滑动窗口,计算滑动窗口内数据中值,计算滑动窗口内数据值与数据中值偏差的中位数,若中位数超过设定倍数的标准偏差(即标准差),则当前数据值为异常数据值。
本发明实施例中,数据中值是在一个滑动窗口内的每个数据点(数据值)的中位数,偏差的中位数是滑动窗口内数据值与数据中值做差的值的中位数,标准差通常是中位数标准偏差的某个倍数(例如2倍或3倍)。
本发明实施例中,可以采用Hampel滤波方法,对异常数据值进行筛选与剔除。Hampel滤波方法是一种基于中位数的离群值检测方法,相比于其他方法,Hampel滤波方法可以在多个领域都有广泛的应用,例如在图像处理中,Hampel滤波方法可用于去除图像中的椒盐噪声等。在金融领域中,Hampel滤波方法可以用于检测和去除市场数据中的异常值,从而得到更加准确的市场走势分析结果。在医学领域中,Hampel滤波方法可以用于消除医学图像中的噪声,从而提高医学诊断的准确率。在统计学中,Hampel滤波方法是一种用于检测和处理时间序列数据中异常值的稳健方法。在通信系统中,Hampel滤波方法被广泛用于去除信号传输过程中产生的噪声,提高信号的质量和可靠性。在工业自动化领域,Hampel滤波方法可以去除各种传感器和执行器产生的信号的噪声和干扰。总之,Hampel滤波方法在许多领域中都有应用,特别是在需要去除噪声、检测异常值和进行数据预处理的领域中更是如此。
使用Hampel滤波方法时,首先过滤寻找数据中所有的异常数据值。对信号中的每个数据值生成长度固定的滑动窗口,计算窗口段的信号中值,进一步计算每个数据值与此中值偏差的中位数,其中与中位数相差超过K个标准差的离群数据值即要找的异常数据值。然后用滑动段的中值取代此段中的异常数据值,此处的K是一个可设置的参数,作为举例,可设置K=3。此部分方案可以描述为:
q = Hampel(p);
其中,p表示原始数据(序列形式),它是通过前述步骤筛选出的工业生产的过程变量特征数据;Hampel(.)表示Hampel滤波方法,q是使用Hampel滤波方法处理后的数据。
对输入的原始数据p进行Hampel滤波时,对于原始数据p的每个样本,计算由样本及其周围多个样本组成的窗口的中值,例如,6个样本,两侧各3个,每个样本为原始数据p中的一个数据值。并利用中位数绝对值估计了各样本对中值的标准差。如果某个样本与中值相差超过三个标准差,则用中值替换该样本。如果原始数据p是一个矩阵,则将原始数据p的每一列都看成是独立的通道,均单独进行处理。
Hampel滤波方法的伪代码可以描述为:
for each data point p[d]:
# 计算滑动窗口内的中位数(median)
median = median_of_window(p[d - s: d + s + 1])
# 计算滑动窗口内所有绝对偏差的中位数(MAD)
MAD= median_of_absolute_deviations(p[d - s:d + s + 1], median)
# 计算阈值(threshold)
threshold = s *MAD
# 如果当前数据点是异常值,则替换为中位数
if abs(p[d] - median) > threshold:
p[d] = median
上述伪代码中,第一行(for each data point p[d])表示针对数据点p[d],数据点p[d]是原始数据p中的第d个元素(即第d个数据值),原始数据p可以是向量或矩阵;p[d -s: d + s + 1]为滑动窗口的范围,包含有2s+1个数据点,s是每侧的相邻样本数,必须是整数,例如,s=3;median是中位数,返回一个和p大小一样的向量或矩阵;median_of_window是一个函数,用于计算滑动窗口内数据点的中位数,median_of_absolute_deviations是一个函数,用于计算给定数据点集合的MAD;ads是一个函数,用于计算绝对值。
为了便于理解,下面提供一个具体实验示例。图2为1号焦炉烟道机侧温度采集的实测数据,将实测数据每隔20000个离散点修改为异常数据,采用Hampel滤波方法进行数据处理时,在每个窗口中,每个数据值都将与偏差中位数的绝对值(MAD)进行比较,如果数据值超过 MAD的3倍(参数 3 也是可参数化的),则该数据值将被视为离群值,图2中使用符号A1标记的曲线部分为原始数据,使用A2标记的曲线部分组要用来衡量原始数据是否为正常数据的范围,+-号意指所测的异常数据比阈值大则显示为+,反则为-;经Hampel滤波方法检验出七个圆形标记的异常数据值,即与前述修改的异常数据吻合,可以表明本发明通过Hampel滤波方法可以准确检测出异常数据值,如图3所示,为使用异常数据值前后两个数据点的中值替换异常数据值后的数据曲线。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例二
本发明还提供一种工业数据特征选择与异常值检测系统,其主要用于实现前述实施例提供的方法,如图4所示,该系统主要包括:
数据收集与划分单元,用于收集工业生产大数据,并划分为两类,一类为工业生产结果数据,另一类为工业生产的过程变量特征数据;
关联度计算与特征选择单元,用于以所述工业生产结果数据作为参考,逐一计算每一工业生产的过程变量特征数据与工业生产结果数据之间的关联度,并筛选出关联度满足设定要求的工业生产的过程变量特征数据;
异常值检测单元,用于对于筛选出的每一工业生产的过程变量特征数据,采用滤波的方法分别进行异常值检测。
图5提供了具体应用中的系统架构图,考虑篇幅问题工业生产结果数据未示出,生产工艺数据与工业生成设备状态数据均属于工业生产的过程变量特征数据,其中的生产工艺数据提供了具体的示例。
本发明实施例提供的系统,将特征选择与异常值检测工具化,在工程应用中可以缩减掉这部分的开发工作,提高模型工程交付工作效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图6所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.一种工业数据特征选择与异常值检测方法,其特征在于,包括:
收集工业生产大数据,并划分为两类,一类为工业生产结果数据,另一类为工业生产的过程变量特征数据;
以所述工业生产结果数据作为参考,逐一计算每一工业生产的过程变量特征数据与工业生产结果数据之间的关联度,并筛选出关联度满足设定要求的工业生产的过程变量特征数据;
对于筛选出的每一工业生产的过程变量特征数据,采用滤波的方法分别进行异常值检测。
2.根据权利要求1所述的一种工业数据特征选择与异常值检测方法,其特征在于,还包括:采用灰色关联度分析法,逐一计算每一工业生产的过程变量特征数据与工业生产结果数据之间的关联度。
3.根据权利要求2所述的一种工业数据特征选择与异常值检测方法,其特征在于,所述采用灰色关联度分析法,逐一计算每一工业生产的过程变量特征数据与工业生产结果数据之间的关联度包括:
数据无量纲化处理:将工业生产结果与每一工业生产的过程变量特征数据分别进行无量纲化处理,将处理后的第i个工业生产的过程变量特征数据记为,工业生产结果数据记为/>;
之后,对于第i个工业生产的过程变量特征数据,它与工业生产结果数据之间的关联度的计算方式如下:
与/>为长度相同的序列数据,逐一计算相同位置数据值的绝对差值,获得差序列,,n为工业生产的过程变量特征数据的数目;
从差序列中的获取两极差,即最大差值与最小差值;
结合两极差以及差序列,计算出中每一位置的关联系数;
结合中所有位置的关联系数,计算出与工业生产结果数据之间的关联度。
4.根据权利要求3所述的一种工业数据特征选择与异常值检测方法,其特征在于,结合两极差以及差序列,计算出中每一位置的关联系数包括:
对于中的第k个位置,其关联系数/>的计算方式表示为:
;
其中,为/>与/>中第k个位置数据值的绝对差值,/>为最小差值,/>为最大差值,/>为设定的比例系数。
5.根据权利要求3或4所述的一种工业数据特征选择与异常值检测方法,其特征在于,结合中所有位置的关联系数,计算出与工业生产结果数据之间的关联度包括:
计算所有位置的关联系数之和的均值,作为与工业生产结果数据之间的关联度,表示为:
;
其中,m为的长度,/>为/>中的第k个位置的关联系数;
或者,计算所有位置的关联系数加权和的均值,作为与工业生产结果数据之间的关联度,表示为:
;
其中,为第i个工业生产的过程变量特征数据的权重。
6.根据权利要求1所述的一种工业数据特征选择与异常值检测方法,其特征在于,对于筛选出的每一工业生产的过程变量特征数据,采用滤波的方法分别进行异常值检测包括:
对于筛选出的每一工业生产的过程变量特征数据,采用滤波方法利用滑动窗口寻找所有异常数据值,对于每一异常数据值使用所属滑动窗口中的数据中值进行替换。
7.根据权利要求6所述的一种工业数据特征选择与异常值检测方法,其特征在于,所述采用滤波方法利用滑动窗口寻找所有异常数据值包括:
对于当前数据值,生成长度固定的滑动窗口,计算滑动窗口内数据中值,计算滑动窗口内数据值与数据中值偏差的中位数,若中位数超过设定的标准差,则当前数据值为异常数据值。
8.一种工业数据特征选择与异常值检测系统,其特征在于,包括:
数据收集与划分单元,用于收集工业生产大数据,并划分为两类,一类为工业生产结果数据,另一类为工业生产的过程变量特征数据;
关联度计算与特征选择单元,用于以所述工业生产结果数据作为参考,逐一计算每一工业生产的过程变量特征数据与工业生产结果数据之间的关联度,并筛选出关联度满足设定要求的工业生产的过程变量特征数据;
异常值检测单元,用于对于筛选出的每一工业生产的过程变量特征数据,采用滤波的方法分别进行异常值检测。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410594141.4A CN118194204A (zh) | 2024-05-14 | 2024-05-14 | 工业数据特征选择与异常值检测方法、系统、设备与介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410594141.4A CN118194204A (zh) | 2024-05-14 | 2024-05-14 | 工业数据特征选择与异常值检测方法、系统、设备与介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118194204A true CN118194204A (zh) | 2024-06-14 |
Family
ID=91400529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410594141.4A Pending CN118194204A (zh) | 2024-05-14 | 2024-05-14 | 工业数据特征选择与异常值检测方法、系统、设备与介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118194204A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288258A (zh) * | 2019-07-02 | 2019-09-27 | 中国石油化工股份有限公司 | 一种高含水油藏剩余油挖潜方法 |
CN115438239A (zh) * | 2021-06-04 | 2022-12-06 | 国家计算机网络与信息安全管理中心 | 一种自动化异常样本筛选的异常检测方法及装置 |
CN117521912A (zh) * | 2023-11-23 | 2024-02-06 | 国家电网有限公司大数据中心 | 一种碳排放测算模型及对比评价方法及其应用 |
-
2024
- 2024-05-14 CN CN202410594141.4A patent/CN118194204A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288258A (zh) * | 2019-07-02 | 2019-09-27 | 中国石油化工股份有限公司 | 一种高含水油藏剩余油挖潜方法 |
CN115438239A (zh) * | 2021-06-04 | 2022-12-06 | 国家计算机网络与信息安全管理中心 | 一种自动化异常样本筛选的异常检测方法及装置 |
CN117521912A (zh) * | 2023-11-23 | 2024-02-06 | 国家电网有限公司大数据中心 | 一种碳排放测算模型及对比评价方法及其应用 |
Non-Patent Citations (2)
Title |
---|
乔景慧: "《机器学习理论与应用》", 30 June 2022, 机械工业出版社, pages: 151 - 152 * |
彭澎等: "基于AHP的北京市目标工业能源市场的灰色关联分析", 《现代电力》, vol. 20, no. 5, 31 October 2003 (2003-10-31), pages 104 - 107 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263846B (zh) | 基于故障数据深度挖掘及学习的故障诊断方法 | |
CN115169479A (zh) | 污水处理过程远程监控方法、系统及存储介质 | |
CN110175247B (zh) | 一种优化基于深度学习的异常检测模型的方法 | |
CN113342476B (zh) | 一种基于迁移学习的设备集群跨域故障预测方法及系统 | |
CN108549908A (zh) | 基于多采样概率核主成分模型的化工过程故障检测方法 | |
CN114015825B (zh) | 基于注意力机制的高炉热负荷异常状态监测方法 | |
CN115856204B (zh) | 基于三维回声状态网络的掘进工作面瓦斯浓度预测方法 | |
CN113919540A (zh) | 一种生产过程运行状态的监测方法及相关设备 | |
CN117421616B (zh) | 一种矿山竖井井筒检测系统及方法 | |
Zhang et al. | A novel plant-wide process monitoring framework based on distributed Gap-SVDD with adaptive radius | |
CN117419828B (zh) | 基于光纤传感器的新能源电池温度监测方法 | |
CN110543869A (zh) | 滚珠丝杠寿命预测方法、装置、计算机设备及存储介质 | |
CN117313015A (zh) | 一种基于时序和多变量的时间序列异常检测方法及系统 | |
KR102366787B1 (ko) | 슬라이딩 윈도우 기법을 이용한 제조설비의 실시간 다변량 이상감지 시스템 | |
CN118194204A (zh) | 工业数据特征选择与异常值检测方法、系统、设备与介质 | |
CN116720080A (zh) | 同源气象要素融合检验方法 | |
CN114638039B (zh) | 一种基于低秩矩阵恢复的结构健康监测特征数据解释方法 | |
CN115795350A (zh) | 一种血流变测试杯生产过程中异常数据信息处理方法 | |
CN113205146A (zh) | 一种基于片段统计特征比较的时序数据异常波动检测算法 | |
CN113011086A (zh) | 一种基于ga-svr算法森林生物量的估测方法 | |
CN111625525A (zh) | 一种环境数据修复/填充方法及系统 | |
Fan et al. | Forecasting the Chinese Grain Yield Using Hybrid ARIMA and Error-Corrected Grey Model base on the Wavelet Transform. | |
CN118010103B (zh) | 高寒环境下等厚度水泥土搅拌墙智能监测方法及系统 | |
Sumalatha et al. | Real Time Big Data Analytics for Agricultural Land Hotspot Prediction | |
CN114548535A (zh) | 一种污水处理过程参数长窗预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |