CN117349678A - 基于改进生成对抗网络的热计量数据异常检测方法及装置 - Google Patents
基于改进生成对抗网络的热计量数据异常检测方法及装置 Download PDFInfo
- Publication number
- CN117349678A CN117349678A CN202311232009.0A CN202311232009A CN117349678A CN 117349678 A CN117349678 A CN 117349678A CN 202311232009 A CN202311232009 A CN 202311232009A CN 117349678 A CN117349678 A CN 117349678A
- Authority
- CN
- China
- Prior art keywords
- data
- training set
- countermeasure network
- generator
- generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 117
- 230000002787 reinforcement Effects 0.000 claims abstract description 20
- 230000002159 abnormal effect Effects 0.000 claims abstract description 17
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 29
- 238000005728 strengthening Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 19
- 239000007788 liquid Substances 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 230000008878 coupling Effects 0.000 abstract description 6
- 238000010168 coupling process Methods 0.000 abstract description 6
- 238000005859 coupling reaction Methods 0.000 abstract description 6
- 238000010438 heat treatment Methods 0.000 description 13
- 230000005856 abnormality Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 5
- 230000002547 anomalous effect Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于改进生成对抗网络的热计量数据异常检测方法及装置,包括获取热计量数据,构建与热计算数据维度对应输入通道和输出通道的生成对抗网络。本基于改进生成对抗网络的热计量数据异常检测方法及装置采用生成对抗网络可以充分学习数据之间潜在耦合特征,从而大幅度提升异常检测的准确度;并采用动态调整强化比例,根据生成对抗网络的精度调整第一训练集的强化比例,并强化后的第一训练集训练生成对抗网络,使得到满足精度的生成对抗网络,解决了现有技术中不易获取大量数据训练网络的问题;且利用生成对抗网络生成的待检测数据子序列的重构数据与待检测数据的子序列进行对比,判断并定位异常的子序列。
Description
技术领域
本发明属于热计量领域,具体涉及基于改进生成对抗网络的热计量数据异常检测方法及装置。
背景技术
目前我国冬季城镇区域建筑供暖的主要方式为水系统供暖,水系统供暖是一种采用水作为热能输送介质的供暖系统。城镇区域供暖是由一个中心热源将热水通过高温管道不断的送入每个热用户,如暖气片、地暖、风机盘等,高温水和室内的空气进行热交换后成为低温水,再由回水管道将送回到中心热源,这样可以达到循环输送热能的目的。中心热源是某个区域内的供暖热源,典型的如分布于一个住宅小区的热力站,热力站的供热管道连接着小区热用户的供水管和回水管,使得热能不断送入到小区内的每个热用户。目前为了提供更好的服务给热用户,供暖行业研究出了很多新型的热计量表,这些热计量表可以实时监测供暖管道内热用户数据,包括供水温度、回水温度和管道内液体流速等,且管道内液体流速的计算依据供水温度和回水温度,一般管道内液体流速容易出现异常,因此需要对热计量数据的异常进行检测。
现有技术下,针对热用户数据这类多维热计量数据的异常检测方法一般分为统计学方法和深度学习方法,统计学方法主要包括均值法、前推法、热卡填充法,虽然统计学方法比较简单,但是当数据的异常部分占数据整体的比例较大时,统计学的准确率会大大降低。深度学习方法通过学习时序数据的潜在模型,然后再对数据进行拟合从而实现数据异常检测,然而该类方法无法学习到多维数据之间的强耦合关系,所以不能很好的建立时空相关性,其数据异常检测效果不理想,所以现有技术中采用生成对抗网络(GAN网络)可以充分学习数据之间潜在耦合特征。
但现有技术下训练生成对抗网络需要大量的数据,但是不同低区的供热公司的供热方式存在不同,以及用户数据涉及隐私问题导致一些小规模供热公司的数据量不足以支持训练复杂GAN网络。
发明内容
本发明的目的在于针对解决背景技术中提出的问题,提出基于改进生成对抗网络的热计量数据异常检测方法。
为实现上述目的,本发明所采取的技术方案为:
本发明提出的一种基于改进生成对抗网络的热计量数据异常检测方法,包括:
获取热计量数据,构建与热计算数据维度对应输入通道和输出通道的生成对抗网络;
将热计量数据划分为第一训练集和第二训练集,利用第一训练集对生成对抗网络进行训练,得到训练好的第一生成对抗网络;
然后利用第二训练集测试第一生成对抗网络的精度,并根据网络的精度动态调整对第一训练集强化的比例,利用强化后的第一训练集继续训练第一生成对抗网络,得到精度满足要求的第二生成对抗网络;
将待检测数据划分为预设数量的子序列输入至第二生成对抗网络中,分别生成子序列的重构数据,将每个重构数据与待检测数据的子序列进行对比,判断并定位异常的子序列。
优选地,获取热计量数据,构建与热计算数据维度对应输入通道和输出通道的生成对抗网络,包括:
热计量数据包括供水温度、回水温度和管道内液体流速三维数据,并分别对于三维数据进行线性归一化处理,使得各维数据映射到统一度量空间,构建的生成对抗网络包括生成器和判别器,其中:
生成器包括分别对应三维数据的三个输出通道,每个输出通道由三层卷积层组成,每层卷积层的卷积核的尺寸为3×1,且步长为1;
判别器包括分别对应三维数据的三个输入通道,每个输入通道由三层反卷积层组成,每层反卷积层的反卷积核的尺寸为3×1,且步长为1。
优选地,利用第二训练集测试第一生成对抗网络的精度,并根据网络的精度动态调整对第一训练集强化的比例,利用强化后的第一训练集继续训练第一生成对抗网络,得到精度满足要求的第二生成对抗网络,包括:
首先计算第一生成对抗网络中的生成器的生成样本与真实数据的均方根误差,并用rG表示,且将rG作为判断生成器精度的阈值,公式如下:
其中,xreal表示真实数据的其中一个数据序列即第一训练集中的的其中一个数据序列,z表示取自潜空间的一组高斯白噪声子序列,G(z)表示z输入至生成器中得到生成器的输出,M表示第一训练集中数据序列的数量;
将第二训练集中的各数据序列划分为预设数量的子序列,然后将划分成子序列的第二训练集的数据序列输入至第一生成对抗网络的判别器中,并通过过拟合启发式算法rv值验证第一生成对抗网络的精度,且rv值越接近1表示判别器没有出现过拟合现象,rv值越接近0表示判别器出现了过拟合现象,并设置rv的阈值为rv’,rv值的公式如下:
其中,Dtrain、Dvalidation和Dgenerated分别表示第一训练集、第二训练集和生成器生成样本经过判别器的输出,E[·]表示判别器输出的平均值;
第一训练集的强化比例k的初始值为1,当rv值小于阈值rv’时,表示判别器出现了过拟合现象,此时增大强化比例k,并按照增大后的强化比例k从第一训练集中随机抽取数据序列,且在抽取的数据序列上添加高斯白噪声来强化第一训练集;
获得强化后的第一训练集后再重新训练生成对抗网络,并计算均方根误差和rv值,当rv值大于阈值rv’时,表示判别器没有出现过拟合现象,此时判断均方根误差是否大于rG,若均方根误差小于rG,则表示强化比例k符合要求,若均方根误差大于rG,则表示强化比例k较大,此时减小强化比例k,再根据减小后的强化比例k来强化第一训练集,直到均方根误差和rv值都符合阈值条件,得到最终的强化比例k,并根据最终的强化比例k强化第一训练集,得到最终强化后的第一训练集,将最终强化后的第一训练集训练第一生成对抗网络,得到精度满足要求的第二生成对抗网络。
优选地,将待检测数据划分为预设数量的子序列输入至第二生成对抗网络中,分别生成子序列的重构数据,将每个重构数据与待检测数据的子序列进行对比,判断并定位异常的子序列,包括:
将待检测数据通过滑动窗口划分成子序列y={yi|i=1,2,...,m},当一旦检测到一个窗口内一个点为异常则该窗口被标记为异常。将每个子序列输入至第二生成对抗网络的生成器中,生成每个子序列的重构数据,计算每个重构数据与待检测数据的子序列的误差分数A,且公式如下:
A=α·||yi-G(zi')||+β·||D(yi)-D(G(zi'))||
其中,α、β均为常数,且α+β=1,||·||表示L2范数,yi表示待检测数据通过滑动窗口划分的第i个子序列,zi'表示将中的管道内液体流速替换成高斯白噪声并保留供水温度和回水温度,G(zi')表示通过生成器拟合供水温度和回水温度的特征生成yi的重构数据,即生成yi中管道内液体流速的重构数据,D(yi)表示yi经过判别器的输出,D(G(zi'))表示重构数据经过判别器的输出。
得到每个重构数据与待检测数据的子序列的误差分数A后,当误差分数高于预设的阈值时,判定对应的待检测数据的子序列为异常子序列。
优选地,生成对抗网络的损失函数的公式如下:
其中,G表示生成器,D表示判别器,V(D,G)表示损失函数,Pdata表示第一训练集中数据的分布即真实数据的分布,PZ表示高斯白噪声服从的噪声分布,sigmoid表示激活函数,D(G(z))表示一组高斯白噪声子序列z作为生成器的输入,然后再输入至判别器中得到判别器的输出,表示固定生成器训练判别器,/>表示固定判别器训练生成器,使得生成器生成的样本和真实数据的差异最小化。
一种基于改进生成对抗网络的热计量数据异常检测装置,包括处理器以及存储有若干计算机指令的存储器,计算机指令被处理器执行时实现基于改进生成对抗网络的热计量数据异常检测方法的步骤。
与现有技术相比,本发明的有益效果为:
本基于改进生成对抗网络的热计量数据异常检测方法及装置采用生成对抗网络可以充分学习数据之间潜在耦合特征,从而大幅度提升异常检测的准确度;并采用动态调整强化比例,根据生成对抗网络的精度调整第一训练集的强化比例,并强化后的第一训练集训练生成对抗网络,使得到满足精度的生成对抗网络,解决了现有技术中不易获取大量数据训练网络的问题;且利用生成对抗网络生成的待检测数据子序列的重构数据与待检测数据的子序列进行对比,判断并定位异常的子序列。
附图说明
图1为本发明基于改进生成对抗网络的热计量数据异常检测方法及装置的流程示意图;
图2为本发明生成对抗网络中生成器和判别器的结构示意图;
图3为本发明强化第一训练集的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,当组件被称为与另一个组件“连接”时,它可以直接与另一个组件连接或者也可以存在居中的组件。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
在一个实施例中,如图1-3所示一种基于改进生成对抗网络的热计量数据异常检测方法,包括:
需要说明的是,首先搭建生成对抗网络的运算环境,采用一台计算机作为服务器,在服务器上搭建热用户管理数据库,按照不同的供热地区和建筑类型创建数据表保存数据,利用热用户室内供暖装置上的供温传感器、回温传感器和流速传感器测量热水管当中液体的供水温度、回水温度和管道内液体流速等供热数据,将供热数据通过通信传回服务器上传到服务器数据库当中。然后在本地准备一台Windows操作系统的工作台,将服务器上的数据下载到本地工作台,基于数据的维度和长度利用Python语言搭建生成对抗网络模型。搭建自动化脚本对数据进行分类和预处理制成训练数据集(第一训练集)、验证数据集(第二训练集)和测试数据集,创建数据输入通道。然后利用均方根误差公式搭建网络的输出通道,将网络产生的重构数据与测试数据通过输出通道的误差公式计算误差,检测异常数据。
步骤1、获取热计量数据,构建与热计算数据维度对应输入通道和输出通道的生成对抗网络。
具体为,热计量数据包括供水温度、回水温度和管道内液体流速三维数据,并分别对于三维数据进行线性归一化处理,使得各维数据映射到统一度量空间,构建的生成对抗网络包括生成器和判别器,其中:
生成器包括分别对应三维数据的三个输出通道,每个输出通道由三层卷积层组成,每层卷积层的卷积核的尺寸为3×1,且步长为1;
判别器包括分别对应三维数据的三个输入通道,每个输入通道由三层反卷积层组成,每层反卷积层的反卷积核的尺寸为3×1,且步长为1。
需要说明的是,分别对每个维度数据进行线性归一化处理时,采用如下公式:
其中,xnom表示每个维度数据进行线性归一化处理后的,x表示每个维度数据的原始数据,xmax表示每个维度数据中的最大值,xmin表示每个维度数据中的最小值,进行线性归一化处理后,使得每个维度额数据映射到[0,1]统一度量空间。
本发明采用DCGAN网络,通过充分提取数据的时空特征而进一步提升了GAN网络,生成器包括依次设置的第一全连接层、第一批量归一化层和三个输出通道,第一全连接层包括两层神经元,两层神经元的激活函数使用Relu函数;判别器包括依次设置的三个输入通道、第二批量归一化层和第二全连接层,第二全连接层包括两层神经元,第一层神经元的激活函数使用LeakyRelu函数,第二层神经元的激活函数使用sigmoid函数。
步骤2、将热计量数据划分为第一训练集和第二训练集,利用第一训练集对生成对抗网络进行训练,得到训练好的第一生成对抗网络。
具体为,第一训练集用于训练生成对抗网络以及调整网络参数,且表示为其中N表示原始热计量数据的维度,T表示原始热计量数据的长度,第二训练集用于验证生成对抗网络的精度,且表示为/>并利用测试数据集用于测试生成对抗网络的异常检测性能,且第一训练集、第二训练集和测试数据集的选取比例本实施例采用6:2:2。
在对生成对抗网络训练过程中,先将强化比例k的初始值设置为默认的1,即对第一训练集不进行增强效果,然后使用长度t为步长为s的滑动窗口对第一训练集中的数据序列划分预设数量的子序列作为判别器的输入之一(第一训练集中有若干个数据序列,将每个第一训练集中的数据序列划分为一组子序列),取自潜空间的一组高斯白噪声子序列z={zii=1,2,...,m}作为生成器的输入,并且生成器输出数据序列xgen作为判别器的输入之二,并使用最大均值化差异函数(Max Mean Discrepancy,MMD)作为判别器的决策函数,公式如下:
其中,
其中,xreal表示第一训练集中的其中一个数据序列,表示第一训练集中的一个数据序列的第i个子序列,m表示子序列的数量,/>表示生成器输出的数据序列xgen的第i个子序列,φ(·)表示存在一个映射函数将原始空间映射到希尔伯特空间,MMD函数通过将xgen和xreal两个处于不同的分布空间数据映射到同一个希尔伯特空间来计算两个数据的距离,所以当MMD值越小时,两个数据的距离越小,其分布也就越接近,反之则越不同。
DCGAN网络采用的是联合训练的方法通过对抗性来学习数据的分布,通过生成器和判别器二者间的动态博弈过程分析真实数据的潜在分布特征并构建能够生成近似于真实数据的模型。生成器的目的是学习真实数据分布并生成相似度逼近于真实样本的生成样本以逃避判别器的鉴别,而判别器的目的则是判断输入数据是否来自真实数据。
生成对抗网络的损失函数使用生成器与判别器的输出计算,且公式如下:
其中,G表示生成器,D表示判别器,V(D,G)表示损失函数,Pdata表示第一训练集中数据的分布即真实数据的分布,PZ表示高斯白噪声服从的噪声分布,sigmoid表示激活函数,D(G(z))表示一组高斯白噪声子序列z作为生成器的输入,然后再输入至判别器中得到判别器的输出,表示固定生成器训练判别器,/>表示固定判别器训练生成器,使得生成器生成的样本和真实数据的差异最小化。
通过生成器和判别器两者交替迭代训练,求得最优判别器为:
其中,Pg表示生成器生成样本的分布。
再将最优判别器输入至损失函数中,获得最优生成器为G*:
其中,Div(Pg,Pdata)表示生成样本分布与真实数据分别的差异。
步骤3、然后利用第二训练集测试第一生成对抗网络的精度,并根据网络的精度动态调整对第一训练集强化的比例,利用强化后的第一训练集继续训练第一生成对抗网络,得到精度满足要求的第二生成对抗网络。
具体为,首先计算第一生成对抗网络中的生成器的生成样本与真实数据的均方根误差,并用rG表示,且将rG作为判断生成器精度的阈值,公式如下:
其中,xreal表示真实数据的其中一个数据序列即第一训练集中的的其中一个数据序列,z表示取自潜空间的一组高斯白噪声子序列,G(z)表示z输入至生成器中得到生成器的输出,M表示第一训练集中数据序列的数量;
将第二训练集中的各数据序列划分为预设数量的子序列,然后将划分成子序列的第二训练集的数据序列输入至第一生成对抗网络的判别器中,并通过过拟合启发式算法rv值验证第一生成对抗网络的精度,且rv值越接近1表示判别器没有出现过拟合现象,rv值越接近0表示判别器出现了过拟合现象,并设置rv的阈值为rv’(本实施例中阈值rv’取0.9),rv值的公式如下:
其中,Dtrain、Dvalidation和Dgenerated分别表示第一训练集、第二训练集和生成器生成样本经过判别器的输出,E[·]表示判别器输出的平均值,即判别器输出各训练集或生成器生成样本中数据序列的平均值;
第一训练集的强化比例k的初始值为1,当rv值小于阈值rv’时,表示判别器出现了过拟合现象(使得生成器生成样本的多样性降低,判别器无法区分辨出验证集),此时增大强化比例k(本实施例中以0.2为一个步进增大k值,来使得训练数据的多样性的提升,增强生成器和判别器的性能),并按照增大后的强化比例k从第一训练集中随机抽取数据序列,且在抽取的数据序列上添加高斯白噪声来强化第一训练集;
获得强化后的第一训练集后再重新训练第一生成对抗网络,并计算均方根误差和rv值,当rv值大于阈值rv’时,表示判别器没有出现过拟合现象,此时判断均方根误差是否大于rG,若均方根误差小于rG,则表示强化比例k符合要求,若均方根误差大于rG,则表示强化比例k较大(使得添加的高斯白噪声干扰了判别器的决策,导致生成器无法准确获取数据的特征),此时减小强化比例k(本实施例中以0.1为一个步进减小k值),再根据减小后的强化比例k来强化第一训练集,直到均方根误差和rv值都符合阈值条件,得到最终的强化比例k,并根据最终的强化比例k强化第一训练集,得到最终强化后的第一训练集,将最终强化后的第一训练集训练第一生成对抗网络,得到精度满足要求的第二生成对抗网络。
步骤4、将待检测数据划分为预设数量的子序列输入至第二生成对抗网络中,分别生成子序列的重构数据,将每个重构数据与待检测数据的子序列进行对比,判断并定位异常的子序列。
需要说明的是,将待检测数据作为第二生成对抗网络的判别器的输入,判别器通过提取第一训练集和第二训练集中的供水温度、回水温度和管道内液体流速之间的潜在耦合特征关系,判断当前数据是否为异常数据。
具体为,将待检测数据通过滑动窗口划分成子序列y={yi|i=1,2,...,m},当一旦检测到一个窗口内一个点为异常则该窗口被标记为异常。将每个子序列输入至第二生成对抗网络的生成器中,生成每个子序列的重构数据,计算每个重构数据与待检测数据的子序列的误差分数A,且公式如下:
A=α·||yi-G(zi')||+β·||D(yi)-D(G(zi'))||
其中,α、β均为常数,且α+β=1,||·||表示L2范数,yi表示待检测数据通过滑动窗口划分的第i个子序列,zi'表示将中的管道内液体流速替换成高斯白噪声并保留供水温度和回水温度,G(zi')表示通过生成器拟合供水温度和回水温度的特征生成yi的重构数据,即生成yi中管道内液体流速的重构数据(由于热计量数据中的供水温度、回水温度和管道内液体流速,一般容易出现异常的是管道内液体流速,因此只需要重构管道内液体流速的重构数据),D(yi)表示yi经过判别器的输出,D(G(zi'))表示重构数据经过判别器的输出。
得到每个重构数据与待检测数据的子序列的误差分数A后,当误差分数高于预设的阈值时,判定对应的待检测数据的子序列为异常子序列。
在另一个实施例中,一种基于改进生成对抗网络的热计量数据异常检测装置,包括处理器以及存储有若干计算机指令的存储器,计算机指令被处理器执行时实现步骤1至步骤4中任意一项方法的步骤。
本基于改进生成对抗网络的热计量数据异常检测方法及装置采用生成对抗网络可以充分学习数据之间潜在耦合特征,从而大幅度提升异常检测的准确度;并采用动态调整强化比例,根据生成对抗网络的精度调整第一训练集的强化比例,并强化后的第一训练集训练生成对抗网络,使得到满足精度的生成对抗网络,解决了现有技术中不易获取大量数据训练网络的问题;且利用生成对抗网络生成的待检测数据子序列的重构数据与待检测数据的子序列进行对比,判断并定位异常的子序列。
关于基于改进生成对抗网络的热计量数据异常检测装置的具体限定可以参见上文中对于基于改进生成对抗网络的热计量数据异常检测方法的限定,在此不再赘述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请描述较为具体和详细的实施例,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种基于改进生成对抗网络的热计量数据异常检测方法,其特征在于:所述基于改进生成对抗网络的热计量数据异常检测方法,包括:
获取热计量数据,构建与热计算数据维度对应输入通道和输出通道的生成对抗网络;
将热计量数据划分为第一训练集和第二训练集,利用第一训练集对生成对抗网络进行训练,得到训练好的第一生成对抗网络;
然后利用第二训练集测试第一生成对抗网络的精度,并根据网络的精度动态调整对第一训练集强化的比例,利用强化后的第一训练集继续训练第一生成对抗网络,得到精度满足要求的第二生成对抗网络;
将待检测数据划分为预设数量的子序列输入至第二生成对抗网络中,分别生成子序列的重构数据,将每个重构数据与待检测数据的子序列进行对比,判断并定位异常的子序列。
2.如权利要求1所述的基于改进生成对抗网络的热计量数据异常检测方法,其特征在于:所述获取热计量数据,构建与热计算数据维度对应输入通道和输出通道的生成对抗网络,包括:
所述热计量数据包括供水温度、回水温度和管道内液体流速三维数据,并分别对于三维数据进行线性归一化处理,使得各维数据映射到统一度量空间,构建的生成对抗网络包括生成器和判别器,其中:
生成器包括分别对应三维数据的三个输出通道,每个输出通道由三层卷积层组成,每层卷积层的卷积核的尺寸为3×1,且步长为1;
判别器包括分别对应三维数据的三个输入通道,每个输入通道由三层反卷积层组成,每层反卷积层的反卷积核的尺寸为3×1,且步长为1。
3.如权利要求2所述的基于改进生成对抗网络的热计量数据异常检测方法,其特征在于:所述利用第二训练集测试第一生成对抗网络的精度,并根据网络的精度动态调整对第一训练集强化的比例,利用强化后的第一训练集继续训练第一生成对抗网络,得到精度满足要求的第二生成对抗网络,包括:
首先计算第一生成对抗网络中的生成器的生成样本与真实数据的均方根误差,并用rG表示,且将rG作为判断生成器精度的阈值,公式如下:
其中,xreal表示真实数据的其中一个数据序列即第一训练集中的的其中一个数据序列,z表示取自潜空间的一组高斯白噪声子序列,G(z)表示z输入至生成器中得到生成器的输出,M表示第一训练集中数据序列的数量;
将第二训练集中的各数据序列划分为预设数量的子序列,然后将划分成子序列的第二训练集的数据序列输入至第一生成对抗网络的判别器中,并通过过拟合启发式算法rv值验证第一生成对抗网络的精度,且rv值越接近1表示判别器没有出现过拟合现象,rv值越接近0表示判别器出现了过拟合现象,并设置rv的阈值为rv’,rv值的公式如下:
其中,Dtrain、Dvalidation和Dgenerated分别表示第一训练集、第二训练集和生成器生成样本经过判别器的输出,E[·]表示判别器输出的平均值;
第一训练集的强化比例k的初始值为1,当rv值小于阈值rv’时,表示判别器出现了过拟合现象,此时增大强化比例k,并按照增大后的强化比例k从第一训练集中随机抽取数据序列,且在抽取的数据序列上添加高斯白噪声来强化第一训练集;
获得强化后的第一训练集后再重新训练生成对抗网络,并计算均方根误差和rv值,当rv值大于阈值rv’时,表示判别器没有出现过拟合现象,此时判断均方根误差是否大于rG,若均方根误差小于rG,则表示强化比例k符合要求,若均方根误差大于rG,则表示强化比例k较大,此时减小强化比例k,再根据减小后的强化比例k来强化第一训练集,直到均方根误差和rv值都符合阈值条件,得到最终的强化比例k,并根据最终的强化比例k强化第一训练集,得到最终强化后的第一训练集,将最终强化后的第一训练集训练第一生成对抗网络,得到精度满足要求的第二生成对抗网络。
4.如权利要求3所述的基于改进生成对抗网络的热计量数据异常检测方法,其特征在于:所述将待检测数据划分为预设数量的子序列输入至第二生成对抗网络中,分别生成子序列的重构数据,将每个重构数据与待检测数据的子序列进行对比,判断并定位异常的子序列,包括:
将待检测数据通过滑动窗口划分成子序列y={yi|i=1,2,...,m},当一旦检测到一个窗口内一个点为异常则该窗口被标记为异常。将每个子序列输入至第二生成对抗网络的生成器中,生成每个子序列的重构数据,计算每个重构数据与待检测数据的子序列的误差分数A,且公式如下:
A=α·||yi-G(zi')||+β·||D(yi)-D(G(zi'))||
其中,α、β均为常数,且α+β=1,||·||表示L2范数,yi表示待检测数据通过滑动窗口划分的第i个子序列,zi'表示将中的管道内液体流速替换成高斯白噪声并保留供水温度和回水温度,G(zi')表示通过生成器拟合供水温度和回水温度的特征生成yi的重构数据,即生成yi中管道内液体流速的重构数据,D(yi)表示yi经过判别器的输出,D(G(zi'))表示重构数据经过判别器的输出。
得到每个重构数据与待检测数据的子序列的误差分数A后,当误差分数高于预设的阈值时,判定对应的待检测数据的子序列为异常子序列。
5.如权利要求4所述的基于改进生成对抗网络的热计量数据异常检测方法,其特征在于:所述生成对抗网络的损失函数的公式如下:
其中,G表示生成器,D表示判别器,V(D,G)表示损失函数,Pdata表示第一训练集中数据的分布即真实数据的分布,PZ表示高斯白噪声服从的噪声分布,sigmoid表示激活函数,D(G(z))表示一组高斯白噪声子序列z作为生成器的输入,然后再输入至判别器中得到判别器的输出,表示固定生成器训练判别器,/>表示固定判别器训练生成器,使得生成器生成的样本和真实数据的差异最小化。
6.一种基于改进生成对抗网络的热计量数据异常检测装置,包括处理器以及存储有若干计算机指令的存储器,其特征在于:所述计算机指令被处理器执行时实现权利要求1至权利要求5中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311232009.0A CN117349678A (zh) | 2023-09-22 | 2023-09-22 | 基于改进生成对抗网络的热计量数据异常检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311232009.0A CN117349678A (zh) | 2023-09-22 | 2023-09-22 | 基于改进生成对抗网络的热计量数据异常检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117349678A true CN117349678A (zh) | 2024-01-05 |
Family
ID=89367459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311232009.0A Pending CN117349678A (zh) | 2023-09-22 | 2023-09-22 | 基于改进生成对抗网络的热计量数据异常检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117349678A (zh) |
-
2023
- 2023-09-22 CN CN202311232009.0A patent/CN117349678A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860982A (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
CN109948920B (zh) | 一种基于证据理论的电力市场结算数据风险处理方法 | |
CN109711549A (zh) | 一种基于遗传算法优化bp神经网络的奶牛乳房炎检测方法 | |
CN109085805A (zh) | 一种基于多采样率因子分析模型的工业过程故障检测方法 | |
CN109902340A (zh) | 一种计及复杂气象耦合特性的多源-荷联合场景生成方法 | |
CN111680726A (zh) | 基于近邻成分分析和k近邻学习融合的变压器故障诊断方法和系统 | |
Ding et al. | Performance prediction for a fuel cell air compressor based on the combination of backpropagation neural network optimized by genetic algorithm (GA-BP) and support vector machine (SVM) algorithms | |
CN111310722A (zh) | 一种基于改进神经网络的电力设备图像的故障识别方法 | |
Zhang et al. | Causal discovery-based external attention in neural networks for accurate and reliable fault detection and diagnosis of building energy systems | |
CN108520201A (zh) | 一种基于加权混合范数回归的鲁棒人脸识别方法 | |
CN111192158A (zh) | 一种基于深度学习的变电站日负荷曲线相似度匹配方法 | |
CN116738764B (zh) | 一种基于奇异值阈值算法的海洋平台舱室舒适度评估方法 | |
CN110222098A (zh) | 基于流数据聚类算法的电力大数据流异常检测 | |
CN117349678A (zh) | 基于改进生成对抗网络的热计量数据异常检测方法及装置 | |
CN107742000B (zh) | 锅炉燃烧含氧量建模方法 | |
CN116756575B (zh) | 基于bgain-dd网络的非侵入式负荷分解方法 | |
Sun et al. | A novel in-situ sensor calibration method for building thermal systems based on virtual samples and autoencoder | |
Zhou et al. | Incorporating external data into the analysis of clinical trials via Bayesian additive regression trees | |
CN112330112A (zh) | 一种基于云模型的新能源冷热电联供系统用户用能评价方法 | |
CN117096871A (zh) | 一种基于时空分布的风电功率概率密度的预测方法 | |
CN110210052A (zh) | 光伏发电出力波动性分量统计特性分析的方法 | |
CN111915077B (zh) | 基于机器学习的配煤炼焦热态预测方法和系统 | |
CN108459585A (zh) | 基于稀疏局部嵌入深度卷积网络的电站风机故障诊断方法 | |
CN114189313A (zh) | 一种电表数据重构方法及装置 | |
CN117555941A (zh) | 基于改进生成对抗网络的时序型热计量数据异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |