CN113704241B

CN113704241B - 一种低业务依赖的能源数据智能稽核方法

Info

Publication number: CN113704241B
Application number: CN202111256821.8A
Authority: CN
Inventors: 何东; 应张驰; 黄海潮; 谢裕清; 陈珊; 张烨华; 冯珺; 毛冬; 赵帅
Original assignee: Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-03-08
Anticipated expiration: 2041-10-27
Also published as: CN113704241A

Abstract

本发明提出了一种低业务依赖的能源数据智能稽核方法，包括：确定相互对应的文本字段、日期时间字段以及数值字段；将文本字段、日期时间字段调整为标准模板规定的格式；对日期时间字段和数值字段进行数据拟合，判断数值字段中的数据，若为时序数据，基于与拟合曲线的偏离程度标记数值字段的第一异常数据，若为非时序数据，基于孤立森林算法标记数值字段的第二异常数据；根据拟合曲线的趋势生成第一异常数据的修正建议值；根据数值字段中其他数据在二叉树中的异常分值确定修正权重，根据加权求和的结果生成第二异常数据的修正建议值。由业务规则驱动的稽核方式转变为由数据本身特征驱动，提高了能源数据的稽核效率与异常数据修正的准确性。

Description

一种低业务依赖的能源数据智能稽核方法

技术领域

本发明属于数据处理技术领域，尤其涉及一种低业务依赖的能源数据智能稽核方法。

背景技术

数据质量稽核是数据质量管控的重要环节，其目的在于将海量数据处理为符合既定规则的数据，以满足用户在后续业务中对数据的使用需求。目前，各类能源企业通过多年的信息化建设与运行，已经累积了海量数据，覆盖能源生产、传输、消费的全产业链，数据价值潜力巨大。因此，数据质量稽核在能源企业的信息化建设中十分关键。

现有的数据质量稽核方法主要根据能源企业的具体业务内容制定相应的稽核规则，由于所要稽核处理的能源数据因地区和行业的自然界限，导致数据分散在不同的能源企业和不同的地区，来自电力、石油、天然气、煤炭、水等多个能源行业由于数据标准和业务内容的不同，其能源数据的特点存在较大的差异，现有的数据质量稽核方法往往是仅针对单一类型的数据制定的，在检测出异常数据后仍需要熟悉相关业务的人员针对不同数据特点对异常数据进行人工修正，或者预先针对不同业务建立一定标准数据，通过与标准数据进行比对无法实现异常数据的修正，上述方法要求对业务情况十分熟悉才能实现正确的人工修正或建立准确的标准数据，导致能源数据的稽核效率较低，并且对异常数据的修正容易受到主观因素影响，进而对于能源数据的汇聚、整合、分析和价值变现存在着很大的束缚和制约.

发明内容

为了解决现有技术中存在的缺点和不足，本发明提出了一种低业务依赖的能源数据智能稽核方法，包括：

S100：能源数据中心获取企业中各个能源设备产生的运行数据，剔除运行数据中与能源无关的无效数据后生成数据采集日志，通过特征提取确定数据采集日志中相互对应的文本字段、日期时间字段以及数值字段；

S200：获取预先设置的标准模板，通过正则匹配分别将文本字段、日期时间字段调整为标准模板规定的格式；

S300：对调整后相同文本字段对应的日期时间字段和数值字段进行数据拟合，得到与数值字段对应的拟合曲线，根据拟合曲线的趋势判断数值字段中的数据是否为时序数据；

S400：若为时序数据，基于与拟合曲线的偏离程度标记数值字段的第一异常数据，若为非时序数据，基于孤立森林算法构建数值字段的二叉树，根据数值字段中的数据在二叉树中的异常分值标记数值字段的第二异常数据；

S500：计算第一异常数据在数值字段中的第一占比，若第一占比未超过预设限值，根据拟合曲线的趋势生成第一异常数据的修正建议值，若第一占比超过第一预设限值，向能源设备发送稽核未通过的信息；

S600：计算第二异常数据在数值字段中的第二占比，若第二占比未超过预设限值，根据数值字段中其他数据在二叉树中的异常分值确定修正权重，所述其他数据为数值字段中除第二异常数据以外的数据，根据对其他数据以修正权重进行加权求和的结果生成第二异常数据的修正建议值，若第二占比超过第一预设限值，向能源设备发送稽核未通过的信息。

可选的，所述S100包括：

获取采集记录中用于解释数据类型的元数据，对元数据进行特征提取，根据元数据的特征将数据采集日志解析为文本字段、日期时间字段和数值字段；

其中，文本字段下的数据包括企业的名称、地址、邮编、电话号码以及能源设备的类型、型号；

日期时间字段下的数据为运行数据的生成时间；

数值字段下的数据包括能源设备的实时能源消耗量、实时能源产量、实时碳排放量以及实时产热量、企业消耗的各类能源的单价、能源设备的运维成本以及传输能源的成本。

可选的，所述S200包括：

为标准格式模版建立对应的正则表达式；

将文本字段进行分词处理得到子文本字段，将子文本字段与正则表达式进行匹配，将匹配成功的子文本字段调整为与标准格式模板一致的格式，若存在未匹配成功的子文本字段，将未匹配成功的子文本字段设置为新的标准格式模版；

将所有子文本字段按照在文本字段中的原始顺序拼接，得到调整为标准模板规定格式的文本字段。

可选的，所述S300包括：

确定对应相同文本字段的日期时间字段和数值字段；

以所述日期时间字段中的日期时间为横坐标，以数值字段中的数据为纵坐标，基于最小二乘法进行数据拟合，得到拟合曲线；

若拟合曲线的趋势呈线性或周期性，将拟合曲线对应的数值字段中的数据判定为时序数据，否则判定为非时序数据。

可选的，所述基于与拟合曲线的偏离程度标记数值字段的第一异常数据，包括：

依次计算相同日期时间字段下时序数据与拟合曲线上拟合值的偏离误差，若所述偏离误差超过第二预设限值，则将所述时序数据标记为第一异常数据。

可选的，所述基于孤立森林算法构建数值字段的二叉树，根据数值字段中的数据在二叉树中的异常分值标记数值字段的第二异常数据，包括：

S410：在数值字段中随机抽取样本数据，为一棵二叉树随机选择样本数据的一个预设特征；

S420：获取样本数据在选取的预设特征下的最大值和最小值，在最大值和最小值之间随机选择一个值作为二叉树的根节点，将样本数据中小于所述值的样本数据划到左分支，大于等于所述值的样本数据划到右分支；

S430：在左右两个分支的样本数据中重复S420，直至样本数据不可再分，二叉树达到最大深度；

S440：重新选择另外一个预设特征，重复S410~S430构建另一棵二叉树，直至所有预设特征对应的二叉树都生成完毕；

S450：确定各个非时序数据在各个二叉树中的所属节点，根据所属节点的二叉树路径与所属节点中样本数据的情况，估算非时序数据在所有二叉树中的异常分值，将异常分值大于第三预设限值的非时序数据标记为第二异常数据。

可选的，所述S450包括：

获取非时序数据x与二叉树对应的特征值，确定所述特征值在二叉树中的所属叶节点，获取所属叶节点中的样本数以及非时序数据从二叉树的根节点到达所属叶节点过程中经过的边数；

结合欧拉常数对样本数进行修正，计算边数与修正后的样本数的和为非时序数据在二叉树上的路径长度；

计算非时序数据x在所有二叉树上路径长度的平均值，将所述平均值与修正后的样本数的比值取反后作为指数进行幂运算，所述幂运算的底为2；

将幂运算的结果作为非时序数据的异常分值。

可选的，所述样本数的修正计算公式为：

C(T.size)=2[ln(T.size-1)+c]-[2(T.size-1)/T.size]；

其中，C(T.size)表示修正后的样本数，T.size为样本数，c为欧拉常数。

可选的，所述S500包括：

若拟合曲线呈周期性，确定拟合曲线的周期，计算与第一异常数据的时间间隔为周期整数倍的时序数据的平均值，得到第一异常数据的修正建议值；

若拟合曲线呈非周期性，将拟合曲线中与第一异常数据对应同一日期时间字段的拟合值作为第一异常数据的修正建议值。

可选的，所述S600包括：

获取数值字段中其他数据在二叉树中的异常分值，取所述异常分值的倒数进行归一化处理，将归一化处理后的结果作为修正权重；

基于修正权重对其他数据进行加权求和，将加权求和的结果作为第二异常数据的修正建议值，将第二异常数据调整为修正建议值。

本发明提供的技术方案带来的有益效果是：

（1）本发明利用提出的智能稽核方法，将数据异常检测由业务规则驱动的方式转变为由数据本身特征驱动的方式，基于数据的特征划分不同类型的字段，解决了不同企业上传的能源数据标准不同而难以统一稽核的问题，降低对业务人员经验的依赖。

（2）针对数值形式的数据，本发明将数值形式的数据分为时序数据和非时序数据两种情况，基于两种情况下的数据分布的不同特点，选择线性拟合和孤立森林两种算法之一完成异常数据的标记。同时能够根据异常数据的标记情况确定是否自行修正，并基于能源数据本身的趋势特点，分别针对时序数据和非时序数据基于线性拟合和孤立森立林的算法思想提供两种不同修正处理方式，从而减少了需要人工修正能源数据的情况，并且无需与事先建立的标准数据进行比对即可得到修正建议值，为后续的数据修正提供科学合理的参考建议，降低了建立标准数据时的主观因素影响，提高了能源数据的稽核效率与异常数据修正的准确性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提出的一种低业务依赖的能源数据智能稽核方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

实施例一

如图1所示，本实施例提出了一种低业务依赖的能源数据智能稽核方法，包括：

S500：计算第一异常数据在数值字段中的第一占比，若第一占比未超过预设限值，根据拟合曲线的趋势生成第一异常数据的修正建议值，若第一占比超过预设限值，向能源设备发送稽核未通过的信息；

S600：计算第二异常数据在数值字段中的第二占比，若第二占比未超过预设限值，根据数值字段中其他数据在二叉树中的异常分值确定修正权重，所述其他数据为数值字段中除第二异常数据以外的数据，根据对其他数据以修正权重进行加权求和的结果生成第二异常数据的修正建议值，若第二占比超过预设限值，向能源设备发送稽核未通过的信息。

数据稽核是数据质量管控的一个核心内容，其重点在于实现数据的完整性和一致性检查，从而提升数据质量。通常数据稽核是一个包括数据采集、预处理、与标准格式比对以及数据修正的完整数据质量管控链条。本实施例针对来自电力、石油、天然气、煤炭、水等多个能源企业的能源数据进行智能稽核。本实施例将各个企业的各个能源设备所产生的运行数据汇集到能源数据中心上，能源数据中心是一个基于物联网技术构建的数据处理平台，能源数据中心设有多个数据端口，安装在各个能源设备上的数据采集装置获取到运行数据后，通过数据端口上传至能源数据中心。由于本实施例主要针对能源方面的数据进行智能稽核，因此能源数据中心将运行数据中与能源无关的无效数据剔除，无效数据为能源设备在运行时的技术参数，例如电力机组的相电压、电流、频率等参数，使用石油或天然气的燃烧炉内的气压等参数。

能源数据中心基于剔除后的数据生成数据采集日志，由此可见，所述数据采集日志中所有数据均与能源相关。数据采集日志由多条采集记录构成，对数据采集日志的每条采集记录进行特征提取，具体为获取数据采集日志中用于解释数据类型的元数据，对元数据进行特征提取，元数据是用于解释采集记录中数据特性和内容的数据，一般是结构化数据，元数据中描述了采集记录中各个数据属性、字段长度等信息，因此通过元数据的特征能够区分出文本类、日期类和数值类的数据，从而实现将数据采集日志解析为文本字段、日期时间字段和数值字段。其中，文本字段下的数据包括企业的名称、地址、邮编、电话号码以及能源设备的类型、型号，日期时间字段下的数据为运行数据的生成时间，数值字段下的数据包括能源设备的实时能源消耗量、实时能源产量、实时碳排放量以及实时产热量、企业消耗的各类能源的单价、能源设备的运维成本以及传输能源的成本。

能源数据中心完成运行数据的预处理，得到能源数据，并将能源数据分为文本、日期时间和数值三种类型，这个过程作为后续统一标准格式以及能源数据修正的基础。

由于数据采集设备具有一定的寿命周期，不可避免的需要更换，因此企业存在在同一能源设备上更换数据采集设备的情况，当前后更换的数据采集设备来自不同厂家、不同型号时，就可能存在上传的能源数据格式不统一的问题，若不进行格式统一处理，可能会造成数据冗余，加大了数据稽核的处理压力。因此，本实施例对于文本字段和日期时间字段采用正则匹配的方式实现格式的统一，正则匹配是指将待匹配字段与预先设置的正则表达式进行匹配，正则表达式是一种事先定义好的一些特定字符组合成的规则字符串，若待匹配字段与正则表达式匹配，则该正则表达式对应的标准格式模板即为待匹配字段的标准格式模板，具体为：

为文本字段的标准格式模版建立对应的正则表达式；

例如，子文本字段为企业名称的简称，通过与正则表达式匹配确定企业名称的全称，将子文本字段调整为企业名称全称的格式。

对于日期时间字段，确定预设的时间标准格式，如所述时间标准格式预先设置为xxxx/年xx月/xx日/xx:xx:xx的格式，即时间顺序为年、月、日、小时、分钟、秒，将所有日期时间字段调整至与时间标准格式一致。

经过上述调整后，将对应相同文本字段的日期时间字段和数值字段合并到一起，以每个调整后的文本字段为单位，检测其对应的数值字段的异常数据，具体为：

以所述日期时间字段中的日期时间为横坐标，以数值字段中的数据为纵坐标，基于最小二乘法进行数据拟合，得到拟合曲线；若拟合曲线的趋势呈线性或周期性，将拟合曲线对应的数值字段中的数据判定为时序数据，否则判定为非时序数据。本实施例针对时序数据和非时序数据中异常数据的分布特性的不同，采用不同的分析方法确定异常数据。

本实施例中时序数据为实时能源消耗量、实时能源产量、实时碳排放量以及实时产热量这一类型的数据，即数值会随着有规律的时间变化，因此可能存在的异常数据的分布情况具有仅相对于相近时段内的其他时序数据较为疏离，但在所有时序数据中的疏离程度不明显的特点，因此本实施例依照时序数据与拟合值之间的偏离程度检测异常数据，具体为：依次计算相同日期时间字段下时序数据与拟合曲线上拟合值的偏离误差，若所述偏离误差超过第二预设限值，则将所述时序数据标记为第一异常数据。

对于标记出的第一异常数据，若第一占比超过预设限值，则认为异常数据的比例过高，仅自行修正难以解决异常数据的问题，因此基于第一异常数据所在的数值字段对应的文本字段，确定产生第二异常数据的能源设备，并向能源设备发送稽核未通过的信息，进而从源头上解决异常数据大量存在的现象。若第一占比未超过预设限值，则本实施例根据S300中拟合曲线对第一异常数据进行修正，具体为：

本实施例中的非时序数据为企业消耗的各类能源的单价、能源设备的运维成本以及传输能源的成本这一类相对固定的数据，其数值大小与时间变化的关联程度不高，因此异常数据与其他非时序数据均较为疏离，因此本实施例采用孤立森林法（IsolationForest，IF）的算法思想对非时序数据进行多次切分，异常数据可能需要较少几次切分就可以将它们单独划分出来，而正常数据则恰恰相反，由此实现非时序数据的异常数据检测。具体包括：

S450：确定各个非时序数据在各个二叉树（iTree）中的所属节点，具体为：获取非时序数据x与二叉树对应的特征值，确定所述特征值在二叉树中的所属叶节点，获取所属叶节点中的样本数以及非时序数据从二叉树的根节点到达所属叶节点过程中经过的边数。其中，所属叶节点中的样本数记为T.size，并根据T.size计算非时序数据x二叉树上的路径长度记为h(x)，h(x)的计算公式为：h(x)=e+C(T.size)，e表示非时序数据x从二叉树的根节点到叶节点过程中经过的边的数量，C(T.size)为修正后的样本数，C(T.size)=2[ln(T.size-1)+c]-[2(T.size-1)/T.size]，c为欧拉常数，c=0.5772156649。

根据所属节点的二叉树路径与所属节点中样本数据的情况，即结合h(x)和C(T.size)估算非时序数据在所有二叉树中的异常分值，异常分值Score(x)的计算公式为：Score(x)=2^{-E(h(x))/C(T.size)}，E(h(x))为x在所有二叉树的路径长度h(x)的平均值，将异常分值大于第三预设限值的非时序数据标记为第二异常数据。

从异常分值的计算公式可以看出，如果x在多棵 iTree 中的平均路径长度越短，代表x在所有非时序数据中越疏离，异常分值越接近1，表明x越异常；如果x在多棵 iTree中的平均路径长度越长，代表x在所有非时序数据中越集中，异常越接近0，表示x越正常。

对于标记出的第二异常数据，若第二占比超过预设限值，则认为异常数据的比例过高，仅自行修正难以解决异常数据的问题，因此基于第二异常数据所在的数值字段对应的文本字段，确定产生第二异常数据的能源设备，并向能源设备发送稽核未通过的信息，进而从源头上解决异常数据大量存在的现象。若第二占比未超过预设限值，则本实施例结合二叉树中各个叶节点的样本情况生成相应的修正建议值，具体为：

获取数值字段中其他数据在二叉树中的异常分值，取所述异常分值的倒数进行归一化处理，将归一化处理后的结果作为修正权重。由于异常分值越大，说明对应的数据越不准确，为了提高修正结果的准确性，应使异常分值越小的数据在修正建议值中所占的权重越大，因此本实施例中取异常分值的倒数作为权重设置依据，归一化处理的目的是为了满足通常对权重的设置习惯，即所有权重的和为1。最后，将加权求和的结果作为第二异常数据的修正建议值。

后续在对能源数据进行修正时，就可以参考上述过程得到的修正建议值，分别对第一异常数据和第二异常数据进行修正。

上述实施例中的各个序号仅仅为了描述，不代表各部件的组装或使用过程中的先后顺序。

以上所述仅为本发明的实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种低业务依赖的能源数据智能稽核方法，其特征在于，包括：

S500：计算第一异常数据在数值字段中的第一占比，若第一占比未超过预设限值，根据拟合曲线的趋势生成第一异常数据的修正建议值，具体为：若拟合曲线呈周期性，确定拟合曲线的周期，计算与第一异常数据的时间间隔为周期整数倍的时序数据的平均值，得到第一异常数据的修正建议值；若拟合曲线呈非周期性，将拟合曲线中与第一异常数据对应同一日期时间字段的拟合值作为第一异常数据的修正建议值；若第一占比超过第一预设限值，向能源设备发送稽核未通过的信息；

S600：计算第二异常数据在数值字段中的第二占比，若第二占比未超过预设限值，根据数值字段中其他数据在二叉树中的异常分值确定修正权重，所述其他数据为数值字段中除第二异常数据以外的数据，根据对其他数据以修正权重进行加权求和的结果生成第二异常数据的修正建议值，若第二占比超过第一预设限值，向能源设备发送稽核未通过的信息；

所述S300包括：

确定对应相同文本字段的日期时间字段和数值字段；

若拟合曲线的趋势呈线性或周期性，将拟合曲线对应的数值字段中的数据判定为时序数据，否则判定为非时序数据；

所述S600包括：

基于修正权重对其他数据进行加权求和，将加权求和的结果作为第二异常数据的修正建议值。

2.根据权利要求1所述的一种低业务依赖的能源数据智能稽核方法，其特征在于，所述S100包括：

获取数据采集日志中用于解释数据类型的元数据，对元数据进行特征提取，根据元数据的特征将数据采集日志解析为文本字段、日期时间字段和数值字段；

日期时间字段下的数据为运行数据的生成时间；

3.根据权利要求1所述的一种低业务依赖的能源数据智能稽核方法，其特征在于，所述S200包括：

为文本字段的标准格式模版建立对应的正则表达式；

将所有子文本字段按照在文本字段中的原始顺序拼接，得到调整为标准模板规定格式的文本字段；

确定预设的时间标准格式，将所有日期时间字段调整至与时间标准格式一致。

4.根据权利要求1所述的一种低业务依赖的能源数据智能稽核方法，其特征在于，所述基于与拟合曲线的偏离程度标记数值字段的第一异常数据，包括：

5.根据权利要求1所述的一种低业务依赖的能源数据智能稽核方法，其特征在于，所述基于孤立森林算法构建数值字段的二叉树，根据数值字段中的数据在二叉树中的异常分值标记数值字段的第二异常数据，包括：

6.根据权利要求5所述的一种低业务依赖的能源数据智能稽核方法，其特征在于，所述S450包括：

将幂运算的结果作为非时序数据的异常分值。

7.根据权利要求6所述的一种低业务依赖的能源数据智能稽核方法，其特征在于，所述样本数的修正计算公式为：

C(T.size)=2[ln(T.size-1)+c]-[2(T.size-1)/T.size]；

8.根据权利要求1所述的一种低业务依赖的能源数据智能稽核方法，其特征在于，所述S500包括：