CN117150407A

CN117150407A - 一种工业碳排放数据的异常检测方法

Info

Publication number: CN117150407A
Application number: CN202311134141.8A
Authority: CN
Inventors: 陈赟; 周敏; 沈浩; 谢邦鹏; 傅超然; 赵文恺; 洪祎祺; 杜海舟; 陈通浩; 蔡艺文; 蒋嘉航
Original assignee: Shanghai Electric Power University; State Grid Shanghai Electric Power Co Ltd
Current assignee: Shanghai Electric Power University; State Grid Shanghai Electric Power Co Ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-12-01

Abstract

本发明涉及一种工业碳排放数据的异常检测方法，包括以下内容对工业碳排放数据进行预处理，获得碳排放的时间序列T；采用矩阵轮廓技术对时间序列T进行特征提取，获得时间序列T的特征序列；根据所述特征序列建立预测模型，在所述预测模型输入测试集获得测试集的预测特征序列；将特征序列与预测特征序列进行对比，计算预测误差值，将误差值高于阈值的数据作为异常数据点。本发明通过设置阈值来实现工业碳排放数据的异常检测，检测的精确度较高。

Description

一种工业碳排放数据的异常检测方法

技术领域

本发明涉及工业碳排放异常检测领域，特别涉及一种基于矩阵轮廓技术的工业碳排放数据的异常检测方法。

背景技术

随着经济快速发展，不同产业体系逐渐成型，随之而来的碳排放也将不断增加、扩大。促进高能耗行业和领域的减碳迫在眉睫。在此背景下，对产业内企业的碳排放数据进行分级分类显得尤为重要，这有助于分析碳排放量的驱动因素以及碳管理效率的影响因素，为企业和管理部门提供减排决策的客观参考。

企业的碳排放数据实质上属于时间序列数据，这类数据具有强烈的周期性、季节性，带有一定量的噪声等特点，对于企业碳排放数据的异常实际上就是对于这类时间序列数据的异常检测。对于企业来说，企业碳排放主要来源是由购买的能源(包括电力、蒸汽、加热和冷却)产生的间接排放，以及工业过程中直接燃烧产生的温室气体排放。对于大部分企业来说，掌握碳排放方面的异常信息和变化，就能实现对碳排放的进一步把控，因此，有效针对企业的碳排放异常检测方式是很有必要的。

发明内容

本发明提出了一种工业碳排放数据的异常检测方法，并设计了预测模型，称为MP-GRU模型，全称为Matrix Profile-Gated Recurrent Unit，该预测模型可以应用于工业领域，实现工业碳排放的异常检测。

本发明引入矩阵轮廓这一算法来获取工业碳排放时间序列数据的特征。对时间序列预测使用了门控循环单元(GRU)网络模型，相较于传统RNN，GRU网络模型对长期依赖有着很好的支持，信息持久性较高，相较于LSTM，GRU网络模型的参数量更少，更容易收敛。所述预测模型对输入的工业碳排放时间序列数据使用矩阵轮廓技术获取其特征，再使用GRU网络模型对其特征进行预测。最后，在异常检测步骤中，将预测的数据与原始工业碳排放时间序列数据进行矩阵轮廓技术提取后的特征数据进行对比，计算每个数据点的误差值，并设置阈值为平均值的三倍标准差，将大于阈值的数据标记为异常数据点。

本发明提出的一种工业碳排放数据的异常检测方法，包括以下步骤：

S1、对工业碳排放数据进行预处理，获得碳排放的时间序列T，T＝{t₁,t₂,…,t_n}，n是时间序列T的长度；

S2、采用矩阵轮廓技术对时间序列T进行特征提取，获得时间序列T的特征序列；

S3、根据所述步骤S2的特征序列建立预测模型，在所述预测模型输入测试集获得测试集的预测特征序列；所述测试集是步骤S1的时间序列T；

S4、将步骤S2的特征序列与步骤S4的预测特征序列进行对比，计算预测误差值，将误差值高于阈值的数据作为异常数据点。

进一步地，所述步骤S2包含以下内容：

获取时间序列的所有子序列间的欧式距离；

其中一个子序列T_i,m表示从i点开始，长度为m的连续的数据点，T_i,m＝{t_i,t_i+1,…,t_i+m-1}，1≤i≤n–m+1；欧式距离D_i＝{d_i,1，d_i,2，…，d_i,n-m+1}，其中d_i,j是子序列T_i,m和子序列T_j,m之间的欧式距离，1≤i，j≤n–m+1；

以及去除距离轮廓中的重叠部分；

获取矩阵轮廓；

矩阵轮廓P＝{min(D₁),min(D₂),…,min(D_n-m+1)}，表示每个子序列与其欧式距离最近的非自身匹配子序列。

进一步地，所述步骤S3的预测模型，包括GRU层，dropout层和全连接网络层。

进一步地，所述GRU层具有两层结构，第一层的GRU层单元数量为32，第二层的GRU层单元数量为16，第一层的GRU层后设有第一层dropout层，第二层的GRU层后设有第二层dropout层；第二层dropout层的输出连接全连接网络层，所述全连接网络层的层数为2层。

进一步地，预测模型中加入了激活函数引入非线性关系，从而提高模型的学习能力。

进一步地，所述激活函数是线性整流函数ReLU，预测模型通过梯度下降法最小化损失函数，对网络结构中的权重等参数反向进行逐层调整，通过不断进行迭代训练提高网络对于目标任务的辨识精度。所述目标任务是步骤S3中获得测试集的预测特征序列

进一步地，预测模型的参数为：

dropout层的遗忘率d＝0.1；

GRU的层数n＝2和时间窗口windows＝5；

模型训练的批次大小batch_size＝32和轮次epoch＝100；

当损失函数的值小于0.1时，模型训练完毕。

进一步地，对所述预测模型进行评估，使用包括精确率、Recall、F1分数、MCC指标，在充血性心力衰竭数据集上评估所述预测模型的性能；

所述精确率表示了在所有预测为正的样本中实际正样本的概率，其表达公式为：

其中TP表示将正类预测为正类数，FP表示将负类预测为正类数，精确率越接近1则说明预测模型表现越好；

召回率Recall表示的是样本中的正例被预测正确的概率，表达公式为：

其中FN表示将正类预测为负类数，Recall越接近1则说明预测模型表现越好；

F1分数表达公式为：

其中Pre表示精确率，Recall表示召回率，F1分数越接近1则说明模型表现越好；

MCC是一个描述实际分类与预测分类之间的相关系数，表达公式为：

其中TN表示将负类预测为负类数，MCC越接近1则说明模型表现越好。

进一步地，所述步骤S1还包含对工业碳排放数据进行数据去重、数据格式转换、数据缺失值处理的步骤。

本发明使用MP-GRU模型，通过轮廓矩阵这一算法来提取工业碳排放时间序列数据的特征，并且对时间序列预测使用了门控循环单元(GRU)网络模型，最后通过设置阈值来实现工业碳排放数据的异常检测，检测的精确度较高，这有助于企业掌握碳排放方面的异常信息和变化，从而实现对碳排放的进一步把控，为企业的碳管理提供客观的参考。

附图说明

图1为本发明的预测模型示意图；

图2为本发明的预测模型结构图；

图3为异常检测结果曲线图；

图4为本发明的异常检测方法流程图。

具体实施方式

以下结合附图和具体实施方式对本发明提出的一种工业碳排放数据的异常检测方法作进一步详细说明。

图1为本发明MP-GRU预测模型的整体框架，其中工业碳排放数据为输入的时间序列T数据。所以在步骤S1工业碳排放数据预处理步骤，首先需要明确企业的碳排放数据收集的范围和目标，例如确定收集的时间段、收集的区域、收集的排放类型等。然后要对收集到的数据进行数据清洗，包括数据去重、数据格式转换、数据缺失值处理等。在数据清洗过程中，需要注意数据的准确性、完整性和一致性。数据清洗完成后，就得到了预测模型的输入碳排放时间序列T，T＝{t₁,t₂,…,t_n}，n是T的长度。

在步骤S2碳排放时间序列特征提取步骤中，将预处理后的时间序列T输入到矩阵轮廓单元中，进行时间序列的特征提取，输出为输入的时间序列T的特征序列。矩阵轮廓单元所用到的矩阵轮廓技术的具体的步骤为：

(1)计算获取时间序列的所有子序列间的欧式距离。

对于一个时间序列T，子序列T_i,m表示从i点开始，长度为m的连续的数据点，即T_i,m＝{t_i,t_i+1,…,t_i+m-1}，1≤i≤n–m+1。一般来说，子序列的长度n是基于领域知识来设置的。

通过计算子序列T_i,m和时间序列T的所有子序列的欧式距离，可以得到子序列T_i,m一个距离轮廓D_i，D_i＝{d_i,1，d_i,2，…，d_i,n-m+1}，其中d_i,j(1≤i，j≤n–m+1)是T_i,m和T_j,m之间的欧式距离。

(2)忽略不重要的匹配，关注于非自身匹配。

对于子序列T_i,m的距离轮廓D_i，第i个位置的值d_i,i代表子序列与其自身的欧拉距离，即为0。同时，第i个位置前后的值也接近于0，这是因为子序列T_i,m与另一个子序列T_j,m有重叠部分。若两个子序列有重叠部分，例如子序列T_i,m和另一个子序列T_j,m都是T的子序列，该两个子序列在T中有重叠部分，就表示两个子序列有重叠。若子序列的长度为m，那么i的前后指的是i–m+1≤j≤i+m–1。本发明所用到的矩阵轮廓技术关注于非自身匹配，所以忽略上述两种不重要的匹配。

需要说明的是，忽略指的是在D_i中去除对应的数据点，因为后续求的轮廓矩阵P里面的每一项是D_i中的最小值，若不去除重叠部分，即与自身的匹配，那么D_i的最小值一定为0，轮廓矩阵P也就没有意义。关注则表示的是在D_i中保留对应的数据点。

(3)计算获取矩阵轮廓。

对于一个时间序列T，矩阵轮廓P＝{min(D₁),min(D₂),…,min(D_n-m+1)}，其中1≤i≤n–m+1，表示每个子序列与其欧式距离最近的非自身匹配子序列。

由上述三个步骤(1)(2)(3)可以看出，矩阵轮廓技术可以提取出输入时间序列T的特征序列，它能反映出子序列在整个时间序列T中的其他子序列的相似性。

在步骤S3的预测中，建立了基于GRU的时间序列预测模型，如图2所示，包括GRU层，dropout层和全连接网络层。在所述预测模型输入测试集获得测试集的预测特征序列；测试集是步骤S1的时间序列T。

所述GRU层具有两层结构，第一层的GRU单元数量为32，第二层的GRU单元数量为16，每层GRU层后都有一层dropout。第二层的GRU单元后的为第二层dropout层的输出连接全连接网络层，所述全连接网络层的层数为2层，最后得到基于GRU的时间序列预测模型的最终输出。

由于大多数碳排放数据都是非线性的，线性运算无法表达计算效果，所以在模型中加入激活函数引入非线性关系，从而提高模型的学习能力。所述模型的激活函数选择ReLU，全称为“Rectified Linear Unit”中文翻译为线性整流函数，此算法无需指数运算，运算速度较快，故选其为训练的激活函数。模型通过梯度下降法最小化损失函数，这里损失函数是均方误差，对网络结构中的权重等参数反向进行逐层调整，通过不断进行迭代训练提高网络对于目标任务的辨识精度。所述标任务是步骤S3中获得测试集的预测特征序列。

另外的预测模型的参数为：

dropout层的遗忘率d＝0.1；

GRU的层数n＝2和时间窗口windows＝5；

模型训练的批次大小batch_size＝32和轮次epoch＝100；

当损失函数较小时，模型训练完毕。利用训练好的预测模型输入测试集，即可利用预测模型得到输入测试集的预测序列，完成预测步骤。

在异常检测步骤，将步骤S3得到的预测序列与S2步骤得到的时序数据特征，即预测前的时间序列，计算一组预测误差值：PE＝{AE₁，AE₂，…，AE_n-m+1}，其中AE_i为预测序列与预测前时间序列的每个点的值的差的绝对值。

最后，本发明选择平均值加三倍标准差作为阈值，高于阈值的数据作为异常数据点。再将对应的异常数据点对应回S2步骤的输入，即原时间序列T，就能得到原序列的异常数据点，异常检测结果如图3所示。

为了体现出本发明所述方法的可行性与准确性，在模型性能评估部分，使用精确率、Recall、F1分数、MCC等指标，在Chfdb_chf13数据集上来评估模型的性能。Chfdb全称是BIDMC Congestive Heart Failure Database，中文翻译为充血性心力衰竭数据集，Chf13是其中的一组数据集。该数据来源于公开数据集：https://www.physionet.org/content/ chfdb/1.0.0/。

精确率表示了在所有预测为正的样本中实际正样本的概率，表达公式如下：

其中TP表示将正类预测为正类数，FP为表示将负类预测为正类数，精确率越接近1则说明模型表现越好。

召回率Recall表示的是样本中的正例被预测正确的概率，表达公式如下：

其中FN表示将正类预测为负类数，Recall越接近1则说明模型表现越好。

F1分数兼顾了精确率和召回率，表达公式如下：

其中Pre表示精确率，Recall表示召回率，F1 Score越接近1则说明模型表现越好。

MCC是一个描述实际分类与预测分类之间的相关系数，表达公式如下：

其中TN为True Negative，表示将负类预测为负类数，MCC越接近1则说明模型表现越好。

利用keras2.9.0平台，在Jupyter上进行模型的训练，结果显示，本专利所采用MP-GRU模型的精确率，Recall，F1 Score，MCC分别为0.78，1，0.876，0.846，都十分接近1，说明本专利所采用的MP-GRU模型可以较高精确地实现工业碳排放数据的异常检测。keras是构建预测模型所使用的Python库名称，2.9.0为版本号，keras库主要包含了Python编写的各种高级神经网络应用接口。

本发明具有以下有益效果：

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种工业碳排放数据的异常检测方法，包括以下步骤：

S4、将步骤S2的特征序列与步骤S3的预测特征序列进行对比，计算预测误差值，将误差值高于阈值的数据作为异常数据点。

2.如权利要求1所述的工业碳排放数据的异常检测方法，其特征在于，所述步骤S2包含以下内容：

获取时间序列T的所有子序列间的欧式距离；

其中一个子序列T_i,m表示从i点开始，长度为m的连续的数据点，T_i,m＝{t_i,t_i+1,…,t_i+m-1}，1≤i≤n–m+1；距离轮廓D_i＝{d_i,1，d_i,2，…，d_i,n-m+1}，其中d_i,j是子序列T_i,m和子序列T_j,m之间的欧式距离，1≤i，j≤n–m+1；

以及去除距离轮廓中的重叠部分；

获取矩阵轮廓；

3.如权利要求1所述的工业碳排放数据的异常检测方法，其特征在于，所述步骤S3的预测模型，包括GRU层，dropout层和全连接网络层。

4.如权利要求3所述的工业碳排放数据的异常检测方法，其特征在于，所述GRU层具有两层结构，第一层的GRU层单元数量为32，第二层的GRU层单元数量为16，第一层的GRU层后设有第一层dropout层，第二层的GRU层后设有第二层dropout层；第二层dropout层的输出连接全连接网络层，所述全连接网络层的层数为2层。

5.如权利要求4所述的工业碳排放数据的异常检测方法，其特征在于，预测模型中加入了激活函数引入非线性关系，以提高预测模型的学习能力。

6.如权利要求5所述的工业碳排放数据的异常检测方法，其特征在于，所述激活函数是线性整流函数，预测模型通过梯度下降法最小化损失函数，对预测模型的网络结构中的权重参数反向进行逐层调整，通过进行迭代训练提高网络对于目标任务的辨识精度，所述目标任务是步骤S3中获得测试集的预测特征序列。

7.如权利要求6所述的工业碳排放数据的异常检测方法，其特征在于，预测模型的参数包括：

dropout层的遗忘率d＝0.1；

GRU的层数n＝2和时间窗口windows＝5；

模型训练的批次大小batch_size＝32和轮次epoch＝100。

8.如权利要求6所述的工业碳排放数据的异常检测方法，其特征在于，当损失函数的值小于0.1时，预测模型训练完毕。

9.如权利要求3所述的工业碳排放数据的异常检测方法，其特征在于，对所述预测模型进行评估，使用包括精确率、召回率、F1分数、MCC指标，在充血性心力衰竭数据集上评估所述预测模型的性能；

F1分数表达公式为：

10.如权利要求1所述的工业碳排放数据的异常检测方法，其特征在于，所述步骤S1还包含对工业碳排放数据进行数据去重、数据格式转换、数据缺失值处理的步骤。