CN117349678A

CN117349678A - 基于改进生成对抗网络的热计量数据异常检测方法及装置

Info

Publication number: CN117349678A
Application number: CN202311232009.0A
Authority: CN
Inventors: 郭方洪; 凌育城; 丁云; 郎冠华; 王淼; 陈晟琦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2024-01-05

Abstract

本发明公开了一种基于改进生成对抗网络的热计量数据异常检测方法及装置，包括获取热计量数据，构建与热计算数据维度对应输入通道和输出通道的生成对抗网络。本基于改进生成对抗网络的热计量数据异常检测方法及装置采用生成对抗网络可以充分学习数据之间潜在耦合特征，从而大幅度提升异常检测的准确度；并采用动态调整强化比例，根据生成对抗网络的精度调整第一训练集的强化比例，并强化后的第一训练集训练生成对抗网络，使得到满足精度的生成对抗网络，解决了现有技术中不易获取大量数据训练网络的问题；且利用生成对抗网络生成的待检测数据子序列的重构数据与待检测数据的子序列进行对比，判断并定位异常的子序列。

Description

基于改进生成对抗网络的热计量数据异常检测方法及装置

技术领域

本发明属于热计量领域，具体涉及基于改进生成对抗网络的热计量数据异常检测方法及装置。

背景技术

目前我国冬季城镇区域建筑供暖的主要方式为水系统供暖，水系统供暖是一种采用水作为热能输送介质的供暖系统。城镇区域供暖是由一个中心热源将热水通过高温管道不断的送入每个热用户，如暖气片、地暖、风机盘等，高温水和室内的空气进行热交换后成为低温水，再由回水管道将送回到中心热源，这样可以达到循环输送热能的目的。中心热源是某个区域内的供暖热源，典型的如分布于一个住宅小区的热力站，热力站的供热管道连接着小区热用户的供水管和回水管，使得热能不断送入到小区内的每个热用户。目前为了提供更好的服务给热用户，供暖行业研究出了很多新型的热计量表，这些热计量表可以实时监测供暖管道内热用户数据，包括供水温度、回水温度和管道内液体流速等，且管道内液体流速的计算依据供水温度和回水温度，一般管道内液体流速容易出现异常，因此需要对热计量数据的异常进行检测。

现有技术下，针对热用户数据这类多维热计量数据的异常检测方法一般分为统计学方法和深度学习方法，统计学方法主要包括均值法、前推法、热卡填充法，虽然统计学方法比较简单，但是当数据的异常部分占数据整体的比例较大时，统计学的准确率会大大降低。深度学习方法通过学习时序数据的潜在模型，然后再对数据进行拟合从而实现数据异常检测，然而该类方法无法学习到多维数据之间的强耦合关系，所以不能很好的建立时空相关性，其数据异常检测效果不理想，所以现有技术中采用生成对抗网络(GAN网络)可以充分学习数据之间潜在耦合特征。

但现有技术下训练生成对抗网络需要大量的数据，但是不同低区的供热公司的供热方式存在不同，以及用户数据涉及隐私问题导致一些小规模供热公司的数据量不足以支持训练复杂GAN网络。

发明内容

本发明的目的在于针对解决背景技术中提出的问题，提出基于改进生成对抗网络的热计量数据异常检测方法。

为实现上述目的，本发明所采取的技术方案为：

本发明提出的一种基于改进生成对抗网络的热计量数据异常检测方法，包括：

获取热计量数据，构建与热计算数据维度对应输入通道和输出通道的生成对抗网络；

将热计量数据划分为第一训练集和第二训练集，利用第一训练集对生成对抗网络进行训练，得到训练好的第一生成对抗网络；

然后利用第二训练集测试第一生成对抗网络的精度，并根据网络的精度动态调整对第一训练集强化的比例，利用强化后的第一训练集继续训练第一生成对抗网络，得到精度满足要求的第二生成对抗网络；

将待检测数据划分为预设数量的子序列输入至第二生成对抗网络中，分别生成子序列的重构数据，将每个重构数据与待检测数据的子序列进行对比，判断并定位异常的子序列。

优选地，获取热计量数据，构建与热计算数据维度对应输入通道和输出通道的生成对抗网络，包括：

热计量数据包括供水温度、回水温度和管道内液体流速三维数据，并分别对于三维数据进行线性归一化处理，使得各维数据映射到统一度量空间，构建的生成对抗网络包括生成器和判别器，其中：

生成器包括分别对应三维数据的三个输出通道，每个输出通道由三层卷积层组成，每层卷积层的卷积核的尺寸为3×1，且步长为1；

判别器包括分别对应三维数据的三个输入通道，每个输入通道由三层反卷积层组成，每层反卷积层的反卷积核的尺寸为3×1，且步长为1。

优选地，利用第二训练集测试第一生成对抗网络的精度，并根据网络的精度动态调整对第一训练集强化的比例，利用强化后的第一训练集继续训练第一生成对抗网络，得到精度满足要求的第二生成对抗网络，包括：

首先计算第一生成对抗网络中的生成器的生成样本与真实数据的均方根误差，并用r_G表示，且将r_G作为判断生成器精度的阈值，公式如下：

其中，x^real表示真实数据的其中一个数据序列即第一训练集中的的其中一个数据序列，z表示取自潜空间的一组高斯白噪声子序列，G(z)表示z输入至生成器中得到生成器的输出，M表示第一训练集中数据序列的数量；

将第二训练集中的各数据序列划分为预设数量的子序列，然后将划分成子序列的第二训练集的数据序列输入至第一生成对抗网络的判别器中，并通过过拟合启发式算法r_v值验证第一生成对抗网络的精度，且r_v值越接近1表示判别器没有出现过拟合现象，r_v值越接近0表示判别器出现了过拟合现象，并设置r_v的阈值为r_v’，r_v值的公式如下：

其中，D_train、D_validation和D_generated分别表示第一训练集、第二训练集和生成器生成样本经过判别器的输出，E[·]表示判别器输出的平均值；

第一训练集的强化比例k的初始值为1，当r_v值小于阈值r_v’时，表示判别器出现了过拟合现象，此时增大强化比例k，并按照增大后的强化比例k从第一训练集中随机抽取数据序列，且在抽取的数据序列上添加高斯白噪声来强化第一训练集；

获得强化后的第一训练集后再重新训练生成对抗网络，并计算均方根误差和r_v值，当r_v值大于阈值r_v’时，表示判别器没有出现过拟合现象，此时判断均方根误差是否大于r_G，若均方根误差小于r_G，则表示强化比例k符合要求，若均方根误差大于r_G，则表示强化比例k较大，此时减小强化比例k，再根据减小后的强化比例k来强化第一训练集，直到均方根误差和r_v值都符合阈值条件，得到最终的强化比例k，并根据最终的强化比例k强化第一训练集，得到最终强化后的第一训练集，将最终强化后的第一训练集训练第一生成对抗网络，得到精度满足要求的第二生成对抗网络。

优选地，将待检测数据划分为预设数量的子序列输入至第二生成对抗网络中，分别生成子序列的重构数据，将每个重构数据与待检测数据的子序列进行对比，判断并定位异常的子序列，包括：

将待检测数据通过滑动窗口划分成子序列y＝{y_i|i＝1,2,...,m}，当一旦检测到一个窗口内一个点为异常则该窗口被标记为异常。将每个子序列输入至第二生成对抗网络的生成器中，生成每个子序列的重构数据，计算每个重构数据与待检测数据的子序列的误差分数A，且公式如下：

A＝α·||y_i-G(z_i')||+β·||D(y_i)-D(G(z_i'))||

其中，α、β均为常数，且α+β＝1，||·||表示L2范数，y_i表示待检测数据通过滑动窗口划分的第i个子序列，z_i'表示将中的管道内液体流速替换成高斯白噪声并保留供水温度和回水温度，G(z_i')表示通过生成器拟合供水温度和回水温度的特征生成y_i的重构数据，即生成y_i中管道内液体流速的重构数据，D(y_i)表示y_i经过判别器的输出，D(G(z_i'))表示重构数据经过判别器的输出。

得到每个重构数据与待检测数据的子序列的误差分数A后，当误差分数高于预设的阈值时，判定对应的待检测数据的子序列为异常子序列。

优选地，生成对抗网络的损失函数的公式如下：

其中，G表示生成器，D表示判别器，V(D,G)表示损失函数，P_data表示第一训练集中数据的分布即真实数据的分布，P_Z表示高斯白噪声服从的噪声分布，sigmoid表示激活函数，D(G(z))表示一组高斯白噪声子序列z作为生成器的输入，然后再输入至判别器中得到判别器的输出，表示固定生成器训练判别器，/>表示固定判别器训练生成器，使得生成器生成的样本和真实数据的差异最小化。

一种基于改进生成对抗网络的热计量数据异常检测装置，包括处理器以及存储有若干计算机指令的存储器，计算机指令被处理器执行时实现基于改进生成对抗网络的热计量数据异常检测方法的步骤。

与现有技术相比，本发明的有益效果为：

本基于改进生成对抗网络的热计量数据异常检测方法及装置采用生成对抗网络可以充分学习数据之间潜在耦合特征，从而大幅度提升异常检测的准确度；并采用动态调整强化比例，根据生成对抗网络的精度调整第一训练集的强化比例，并强化后的第一训练集训练生成对抗网络，使得到满足精度的生成对抗网络，解决了现有技术中不易获取大量数据训练网络的问题；且利用生成对抗网络生成的待检测数据子序列的重构数据与待检测数据的子序列进行对比，判断并定位异常的子序列。

附图说明

图1为本发明基于改进生成对抗网络的热计量数据异常检测方法及装置的流程示意图；

图2为本发明生成对抗网络中生成器和判别器的结构示意图；

图3为本发明强化第一训练集的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，当组件被称为与另一个组件“连接”时，它可以直接与另一个组件连接或者也可以存在居中的组件。除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

在一个实施例中，如图1-3所示一种基于改进生成对抗网络的热计量数据异常检测方法，包括：

需要说明的是，首先搭建生成对抗网络的运算环境，采用一台计算机作为服务器，在服务器上搭建热用户管理数据库，按照不同的供热地区和建筑类型创建数据表保存数据，利用热用户室内供暖装置上的供温传感器、回温传感器和流速传感器测量热水管当中液体的供水温度、回水温度和管道内液体流速等供热数据，将供热数据通过通信传回服务器上传到服务器数据库当中。然后在本地准备一台Windows操作系统的工作台，将服务器上的数据下载到本地工作台，基于数据的维度和长度利用Python语言搭建生成对抗网络模型。搭建自动化脚本对数据进行分类和预处理制成训练数据集(第一训练集)、验证数据集(第二训练集)和测试数据集，创建数据输入通道。然后利用均方根误差公式搭建网络的输出通道，将网络产生的重构数据与测试数据通过输出通道的误差公式计算误差，检测异常数据。

步骤1、获取热计量数据，构建与热计算数据维度对应输入通道和输出通道的生成对抗网络。

具体为，热计量数据包括供水温度、回水温度和管道内液体流速三维数据，并分别对于三维数据进行线性归一化处理，使得各维数据映射到统一度量空间，构建的生成对抗网络包括生成器和判别器，其中：

需要说明的是，分别对每个维度数据进行线性归一化处理时，采用如下公式：

其中，x_nom表示每个维度数据进行线性归一化处理后的，x表示每个维度数据的原始数据，x_max表示每个维度数据中的最大值，x_min表示每个维度数据中的最小值，进行线性归一化处理后，使得每个维度额数据映射到[0,1]统一度量空间。

本发明采用DCGAN网络，通过充分提取数据的时空特征而进一步提升了GAN网络，生成器包括依次设置的第一全连接层、第一批量归一化层和三个输出通道，第一全连接层包括两层神经元，两层神经元的激活函数使用Relu函数；判别器包括依次设置的三个输入通道、第二批量归一化层和第二全连接层，第二全连接层包括两层神经元，第一层神经元的激活函数使用LeakyRelu函数，第二层神经元的激活函数使用sigmoid函数。

步骤2、将热计量数据划分为第一训练集和第二训练集，利用第一训练集对生成对抗网络进行训练，得到训练好的第一生成对抗网络。

具体为，第一训练集用于训练生成对抗网络以及调整网络参数，且表示为其中N表示原始热计量数据的维度，T表示原始热计量数据的长度，第二训练集用于验证生成对抗网络的精度，且表示为/>并利用测试数据集用于测试生成对抗网络的异常检测性能，且第一训练集、第二训练集和测试数据集的选取比例本实施例采用6：2：2。

在对生成对抗网络训练过程中，先将强化比例k的初始值设置为默认的1，即对第一训练集不进行增强效果，然后使用长度t为步长为s的滑动窗口对第一训练集中的数据序列划分预设数量的子序列作为判别器的输入之一(第一训练集中有若干个数据序列，将每个第一训练集中的数据序列划分为一组子序列)，取自潜空间的一组高斯白噪声子序列z＝{z_ii＝1,2,...,m}作为生成器的输入，并且生成器输出数据序列x^gen作为判别器的输入之二，并使用最大均值化差异函数(Max Mean Discrepancy，MMD)作为判别器的决策函数，公式如下：

其中，

其中，x^real表示第一训练集中的其中一个数据序列，表示第一训练集中的一个数据序列的第i个子序列，m表示子序列的数量，/>表示生成器输出的数据序列x^gen的第i个子序列，φ(·)表示存在一个映射函数将原始空间映射到希尔伯特空间，MMD函数通过将x^gen和x^real两个处于不同的分布空间数据映射到同一个希尔伯特空间来计算两个数据的距离，所以当MMD值越小时，两个数据的距离越小，其分布也就越接近，反之则越不同。

DCGAN网络采用的是联合训练的方法通过对抗性来学习数据的分布，通过生成器和判别器二者间的动态博弈过程分析真实数据的潜在分布特征并构建能够生成近似于真实数据的模型。生成器的目的是学习真实数据分布并生成相似度逼近于真实样本的生成样本以逃避判别器的鉴别，而判别器的目的则是判断输入数据是否来自真实数据。

生成对抗网络的损失函数使用生成器与判别器的输出计算，且公式如下：

通过生成器和判别器两者交替迭代训练，求得最优判别器为：

其中，P_g表示生成器生成样本的分布。

再将最优判别器输入至损失函数中，获得最优生成器为G^*：

其中，Div(P_g,P_data)表示生成样本分布与真实数据分别的差异。

步骤3、然后利用第二训练集测试第一生成对抗网络的精度，并根据网络的精度动态调整对第一训练集强化的比例，利用强化后的第一训练集继续训练第一生成对抗网络，得到精度满足要求的第二生成对抗网络。

具体为，首先计算第一生成对抗网络中的生成器的生成样本与真实数据的均方根误差，并用r_G表示，且将r_G作为判断生成器精度的阈值，公式如下：

将第二训练集中的各数据序列划分为预设数量的子序列，然后将划分成子序列的第二训练集的数据序列输入至第一生成对抗网络的判别器中，并通过过拟合启发式算法r_v值验证第一生成对抗网络的精度，且r_v值越接近1表示判别器没有出现过拟合现象，r_v值越接近0表示判别器出现了过拟合现象，并设置r_v的阈值为r_v’(本实施例中阈值r_v’取0.9)，r_v值的公式如下：

其中，D_train、D_validation和D_generated分别表示第一训练集、第二训练集和生成器生成样本经过判别器的输出，E[·]表示判别器输出的平均值，即判别器输出各训练集或生成器生成样本中数据序列的平均值；

第一训练集的强化比例k的初始值为1，当r_v值小于阈值r_v’时，表示判别器出现了过拟合现象(使得生成器生成样本的多样性降低，判别器无法区分辨出验证集)，此时增大强化比例k(本实施例中以0.2为一个步进增大k值，来使得训练数据的多样性的提升，增强生成器和判别器的性能)，并按照增大后的强化比例k从第一训练集中随机抽取数据序列，且在抽取的数据序列上添加高斯白噪声来强化第一训练集；

获得强化后的第一训练集后再重新训练第一生成对抗网络，并计算均方根误差和r_v值，当r_v值大于阈值r_v’时，表示判别器没有出现过拟合现象，此时判断均方根误差是否大于r_G，若均方根误差小于r_G，则表示强化比例k符合要求，若均方根误差大于r_G，则表示强化比例k较大(使得添加的高斯白噪声干扰了判别器的决策，导致生成器无法准确获取数据的特征)，此时减小强化比例k(本实施例中以0.1为一个步进减小k值)，再根据减小后的强化比例k来强化第一训练集，直到均方根误差和r_v值都符合阈值条件，得到最终的强化比例k，并根据最终的强化比例k强化第一训练集，得到最终强化后的第一训练集，将最终强化后的第一训练集训练第一生成对抗网络，得到精度满足要求的第二生成对抗网络。

步骤4、将待检测数据划分为预设数量的子序列输入至第二生成对抗网络中，分别生成子序列的重构数据，将每个重构数据与待检测数据的子序列进行对比，判断并定位异常的子序列。

需要说明的是，将待检测数据作为第二生成对抗网络的判别器的输入，判别器通过提取第一训练集和第二训练集中的供水温度、回水温度和管道内液体流速之间的潜在耦合特征关系，判断当前数据是否为异常数据。

具体为，将待检测数据通过滑动窗口划分成子序列y＝{y_i|i＝1,2,...,m}，当一旦检测到一个窗口内一个点为异常则该窗口被标记为异常。将每个子序列输入至第二生成对抗网络的生成器中，生成每个子序列的重构数据，计算每个重构数据与待检测数据的子序列的误差分数A，且公式如下：

A＝α·||y_i-G(z_i')||+β·||D(y_i)-D(G(z_i'))||

其中，α、β均为常数，且α+β＝1，||·||表示L2范数，y_i表示待检测数据通过滑动窗口划分的第i个子序列，z_i'表示将中的管道内液体流速替换成高斯白噪声并保留供水温度和回水温度，G(z_i')表示通过生成器拟合供水温度和回水温度的特征生成y_i的重构数据，即生成y_i中管道内液体流速的重构数据(由于热计量数据中的供水温度、回水温度和管道内液体流速，一般容易出现异常的是管道内液体流速，因此只需要重构管道内液体流速的重构数据)，D(y_i)表示y_i经过判别器的输出，D(G(z_i'))表示重构数据经过判别器的输出。

在另一个实施例中，一种基于改进生成对抗网络的热计量数据异常检测装置，包括处理器以及存储有若干计算机指令的存储器，计算机指令被处理器执行时实现步骤1至步骤4中任意一项方法的步骤。

关于基于改进生成对抗网络的热计量数据异常检测装置的具体限定可以参见上文中对于基于改进生成对抗网络的热计量数据异常检测方法的限定，在此不再赘述。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请描述较为具体和详细的实施例，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于改进生成对抗网络的热计量数据异常检测方法，其特征在于：所述基于改进生成对抗网络的热计量数据异常检测方法，包括：

2.如权利要求1所述的基于改进生成对抗网络的热计量数据异常检测方法，其特征在于：所述获取热计量数据，构建与热计算数据维度对应输入通道和输出通道的生成对抗网络，包括：

所述热计量数据包括供水温度、回水温度和管道内液体流速三维数据，并分别对于三维数据进行线性归一化处理，使得各维数据映射到统一度量空间，构建的生成对抗网络包括生成器和判别器，其中：

3.如权利要求2所述的基于改进生成对抗网络的热计量数据异常检测方法，其特征在于：所述利用第二训练集测试第一生成对抗网络的精度，并根据网络的精度动态调整对第一训练集强化的比例，利用强化后的第一训练集继续训练第一生成对抗网络，得到精度满足要求的第二生成对抗网络，包括：

4.如权利要求3所述的基于改进生成对抗网络的热计量数据异常检测方法，其特征在于：所述将待检测数据划分为预设数量的子序列输入至第二生成对抗网络中，分别生成子序列的重构数据，将每个重构数据与待检测数据的子序列进行对比，判断并定位异常的子序列，包括：

A＝α·||y_i-G(z_i')||+β·||D(y_i)-D(G(z_i'))||

5.如权利要求4所述的基于改进生成对抗网络的热计量数据异常检测方法，其特征在于：所述生成对抗网络的损失函数的公式如下：

6.一种基于改进生成对抗网络的热计量数据异常检测装置，包括处理器以及存储有若干计算机指令的存储器，其特征在于：所述计算机指令被处理器执行时实现权利要求1至权利要求5中任意一项所述方法的步骤。