CN117555941A - 基于改进生成对抗网络的时序型热计量数据异常检测方法 - Google Patents
基于改进生成对抗网络的时序型热计量数据异常检测方法 Download PDFInfo
- Publication number
- CN117555941A CN117555941A CN202311487505.0A CN202311487505A CN117555941A CN 117555941 A CN117555941 A CN 117555941A CN 202311487505 A CN202311487505 A CN 202311487505A CN 117555941 A CN117555941 A CN 117555941A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- countermeasure network
- training data
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 128
- 230000002159 abnormal effect Effects 0.000 claims abstract description 55
- 239000011159 matrix material Substances 0.000 claims abstract description 24
- 230000002787 reinforcement Effects 0.000 claims abstract description 20
- 238000009826 distribution Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 239000000284 extract Substances 0.000 claims abstract description 5
- 230000003014 reinforcing effect Effects 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 46
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 26
- 238000005728 strengthening Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 11
- 230000008878 coupling Effects 0.000 claims description 9
- 238000010168 coupling process Methods 0.000 claims description 9
- 238000005859 coupling reaction Methods 0.000 claims description 9
- 230000005856 abnormality Effects 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 2
- 238000005496 tempering Methods 0.000 abstract 1
- 238000010438 heat treatment Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 14
- 238000007619 statistical method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01K—MEASURING TEMPERATURE; MEASURING QUANTITY OF HEAT; THERMALLY-SENSITIVE ELEMENTS NOT OTHERWISE PROVIDED FOR
- G01K17/00—Measuring quantity of heat
- G01K17/06—Measuring quantity of heat conveyed by flowing media, e.g. in heating systems e.g. the quantity of heat in a transporting medium, delivered to or consumed in an expenditure device
- G01K17/08—Measuring quantity of heat conveyed by flowing media, e.g. in heating systems e.g. the quantity of heat in a transporting medium, delivered to or consumed in an expenditure device based upon measurement of temperature difference or of a temperature
- G01K17/10—Measuring quantity of heat conveyed by flowing media, e.g. in heating systems e.g. the quantity of heat in a transporting medium, delivered to or consumed in an expenditure device based upon measurement of temperature difference or of a temperature between an inlet and an outlet point, combined with measurement of rate of flow of the medium if such, by integration during a certain time-interval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Combustion & Propulsion (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明公开了一种基于改进生成对抗网络的时序型热计量数据异常检测方法。步骤一,通过热用户采集装置收集时序型热计量数据,如:供温、回温和流量等;步骤二,基于时序型热计量数据的维度和长度,构建生成对抗网络;步骤三,设置指示矩阵,并通过指示矩阵将时序型热计量数据数据划分为正常数据以及异常数据;步骤四,对正常数据进行预处理并划分为第一训练数据和第二训练数据;步骤五,根据生成对抗网络,对第一训练数据进行分组并且计算强化比例,按所得强化比例对第一训练数据进行强化;步骤六,将强化后的第一训练数据输入到生成对抗网络当中,使生成对抗网络提取到第一训练数据的时空特征,再将第二训练数据输入到生成对抗网络当中,拟合第一训练数据的特征生成独立同分布的重构数据,完成训练。步骤七、将异常数据替换随机特征空间的数据输入到训练完成的生成对抗网络中,生成重构数据并进行对比检测,定位异常发生区间。
Description
技术领域
本发明属于热计量领域,具体涉及一种基于改进生成对抗网络的时序型热计量数据异常检测方法。
背景技术
目前我国冬季城镇区域建筑供暖的主要方式为水系统供暖,水系统供暖是一种采用水作为热能输送介质的供暖系统。城镇区域供暖是由一个中心热源将热水通过高温管道不断的送入每个热用户,如暖气片、地暖、风机盘等,高温水和室内的空气进行热交换后成为低温水,再由回水管道将送回到中心热源,这样可以达到循环输送热能的目的。中心热源是某个区域内的供暖热源,典型的如分布于一个住宅小区的热力站,热力站的供热管道连接着小区热用户的供水管和回水管,使得热能不断送入到小区内的每个热用户。
目前为了提供更好的服务给热用户,供暖行业研究出了很多新型的热计量表,这些热计量表可以实时监测供暖管道内热用户数据,包括供温、回温、流量、阀门开度等,再结合用户房间内的温度来控制管道内热水流量,从而满足用户舒适度要求。由于管道温度较大以及管道老化等问题,使这些供热管道的工作环境非常恶劣,导致很多用户的家庭热系统经常出现故障,也就使得采集到的热用户数据会出现异常。异常部分数据会严重影响整体数据质量,不仅会阻碍供热公司正确的去判断用户的用热情况,导致用户的用热体验下降,甚至会使供热公司因为缺少相关重要数据从而产生经济损失。所以这些热用户数据在用于提高供热公司的服务水平外,还可以用于检测出供热管道是否出现异常来保证供热公司的服务质量。
现有技术下,针对热用户数据这类多维时序型数据的异常检测方法一般分为统计学方法和深度学习方法,统计学方法主要包括均值法、前推法、热卡填充法,虽然统计学方法比较简单,但是当数据的异常部分占数据整体的比例较大时,统计学的准确率会大大降低。深度学习方法通过学习时序数据的潜在模型,然后再对数据进行拟合从而实现数据异常检测,然而该类方法无法学习到多维数据之间的强耦合关系,所以不能很好的建立时空相关性,其数据异常检测效果不理想。针对这个问题,文献A data imputation method formultivariate time series based on generative adversarialnetwork(2019)采用一种改进的生成对抗网络(Generative Adversarial Networks, GAN)通过充分提取多维时序数据的时空特性,实现对多维时序数据的精确异常检测。
现有技术下训练GAN网络需要大量的数据,但是不同地区的供热公司的供热方式存在不同,以及用户数据涉及隐私问题导致一些小规模供热公司的数据量不足以支持训练复杂GAN网络,所以本发明基于GAN网络提出一种改进的数据异常检测方法,首先通过对正常数据进行数据增强的预处理,然后将采用反卷积模块提取正常多维时序数据的时空相关性,再学习多维数据之间的强耦合关系来拟合多维时序数据,最后利用训练完成的GAN网络当中的判别器来检测数据是否出现异常,然后再将生成器重构生成的数据替代异常部分完成异常数据的修正。
综上所述,现有的热用户数据异常检测方法存下以下问题:
1)当异常的部分占正常数据比例较大时,统计学方法准确度会下降。而普通的深度学习方法难以学习到数据的潜在特征,导致精度不足。
2)利用生成对抗网络可以充分学习数据之间潜在耦合特征,从而大幅度提升异常检测的准确度,但是训练生成对抗网络需要大量的数据,由于不同区域的热用户数量有限会导致数据量不足。
发明内容
本发明的目的是针对上述异常检测的问题所在,提出一种基于改进生成对抗网络的时序型热计量数据异常检测方法,该方法为解决传统的学习的精度不够问题,采用深度学习的方法拟合数据特征。同时通过强化数据集的方法来使得训练网络需要的数据量符合要求。
为了实现上述目的,本发明所采用的技术方案如下:
一种基于改进生成对抗网络的时序型热计量数据异常检测方法,
步骤一,通过热用户采集装置收集时序型热计量数据,包括供温、回温和流量;
步骤二,基于时序型热计量数据的维度和长度,构建生成对抗网络;
步骤三,设置指示矩阵,并通过指示矩阵将时序型热计量数据数据划分为正常数据以及异常数据;
步骤四,对正常数据进行预处理并划分为第一训练数据和第二训练数据;
步骤五,根据生成对抗网络,对第一训练数据进行分组并且计算强化比例,按所得强化比例对第一训练数据进行强化;
步骤六,将强化后的第一训练数据输入到生成对抗网络当中,使生成对抗网络提取到第一训练数据的时空特征,再将第二训练数据输入到生成对抗网络当中,拟合第一训练数据的特征生成独立同分布的重构数据,完成训练;
步骤七、将异常数据替换随机特征空间的数据输入到训练完成的生成对抗网络中,生成重构数据并进行对比检测,定位异常发生区间。
步骤二所述的基于时序型热计量数据维度和长度,构建生成对抗网络,为通过时序热计量数据的宽度信息将生成对抗网络的输入设置为三维卷积输入,对应供温、回温和流量三维数据,再将生成对抗网络的输出窗口设置为三维线性输出,对应重构后的供温、回温和流量三维数据。
步骤三,使用指示矩阵对收集的数据进行区分,划分为正常的数据集和异常的数据集,正常的数据在矩阵当中用1表示,异常的数据在矩阵当中用0来表示。
步骤四,对正常的数据进行预处理:采用归一化方法,将正常数据中不同变量映射到同一度量空间,然后按6:2的比例随机将正常的数据分成第一训练数据和第二训练数据,第一训练数据集用于网络的训练,第二训练数据集用于网络精确度的验证。
步骤六,通过数据增强技术强化第一训练数据集:根据第一训练数据集大小设置训练批次数量,再将第一训练数据随机平均分配给每个批次,然后按比例随机抽取每个批次当中的数据添加随机高斯白噪声产生与第一训练数据独立同分布增强数据,将增强数据随机混合进入每个数据批次当中制备成强化后的第一训练数据集。
所述的方法,在训练批次中对数据添加随机扰动从而获取增强数据:
首先根据每个训练批次当中数据量设置强化比例ρ,然后将增强数据加入训练批次当中得到强化第一训练数据集,再将强化后的第一训练数据重新输入到生成对抗网络中训练,根据生成对抗网络的精度动态调整强化比例ρ值。
所述的方法,根据生成对抗网络精度动态调整强化比例ρ值:调整过强化比例ρ值后的第一训练数据集重新输入生成对抗网络中进行训练,计算强化比例调整前后的均方根误差,均方根误差过大则减小强化比例ρ,均方根误差过小则增大强化比例ρ。
步骤六,利用生成对抗网络的判别器提取第一训练数据的时空特征,再利用生成器拟合第一训练数据的潜在时空特征,生成与第一训练数据独立同分布的重构数据,再将第二训练数据输入到生成对抗网络当中,利用训练完成的生成器拟合第一训练数据当中的供水温、回水温和流量的潜在耦合时空特征生成第二训练数据的重构数据,测试网络的精确度。
所述的方法,通过生成对抗网络中的生成器判别器提取第一训练数据的时空特征:将供温、回温和阀门开度三维时序数据通过三维滑动卷积核,提取数据中每个变量的时间特征和变量之间的空间特征;通过生成对抗网络当中的判别器拟合时空特征:通过三维反卷积将判别器提取的特征重新映射到训练数据的标记空间中,再通过线性连接层拟合训练数据线性特征重构训练数据。
步骤七、利用网络生成异常热计量数据的重构数据,再将重构数据与异常数据进行对比检测异常:将异常热计量数据的供水温、回水温和阀门开度等变量输入到训练完成后生成对抗网络当中,拟合时空特征输出重构流量数据,将重构流量数据与异常流量数据通过滑动窗口的方式计算每个窗口均方根误差,保留误差大的窗口,定位计量异常发生时间段。
与现有的时序型热计量数据异常检测方法相比,本发明的有益效果为:
1、受不同地区气温和建筑规模邮箱,导致不同热用户的用热习惯不同。传统的数据异常检测方法难以对不同的热计量数据进行建模,本发明提供生成对抗网络方法进行拟合数据之前的潜在耦合关系特征,生成重构数据用于检测异常。
2、受数据量的影响,导致生成对抗网络的训练任务需要大量的数据支持,常见的数据强化方法收到单一模型结构的影响,当网络模型结构变化时强化方案则不再适用,本发明采用了动态调整强化强度的方案根据不同数据类型和网络结构调整强化策略。
3、本发明利用卷积块能够提取数据之间特征的特点,将卷积块组成判别器与线性数据进行结合,通过滑动卷积模块提取热计量数据之间时空特征,再利用反卷积块组成生成器拟合数据特征生成重构数据。
4、本发明采用重构数据与异常数据进行对比分析,判断出异常发生的事件段,有助于供热公司判断异常发生原因和减少损失。
附图说明
图1为整体网络工作流程图。
图2为网络训练流程图。
图3为数据强化步骤。
具体实施方式
以下结合附图和实施例对本发明做进一步的阐述。
参考图1,本发明所采用的步骤如下:
S1、通过热用户终端装置传感器采集得到时序型热计量数据,包括供温、回温、流量以及阀门开度等数据。
S2、基于收集得到的数据长度和维度构建生成对抗网络,具体网络结构如图2所示。
S3、对数据进行预处理,设置指示矩阵将原数据数据划分为正常数据以及异常数据,将异常数据作为验证数据,将正常数据划分为训练数据和测试数据。
S4、将正常数据进行归一化处理,使变量都处于同一度量空间加快网络收敛速度,并且按照比例分成第一训练数据集和第二训练数据集。
S5、根据网络结构对训练数据进行划分训练批次并且计算强化比例,按所得强化比例添加随机高斯白噪声产生与训练数据独立同分布的增强数据,添加到训练数据当中,强化策略如图3所示,步骤为:
1)将训练数据划分为多个批次,首次设置强化比例为ρ(0<ρ<1),在每个批次的数据当中按比例添加随机高斯白噪声,扩充每个批次数据量为原来(1+ρ)倍;
2)输入模型当中训练,计算网络的输出的均方根误差,误差过大则减小强化比例,符合要求则输入测试集,出现过拟合现象则增大强化比例;
3)调整强化比例重复步骤2)。
S6、将训练数据输入到生成对抗网络当中,使网络当中的判别器提取到正常数据时空特征,再处于随机特征空间的数据输入到生成器当中生,拟合正常数据特征生成与正常数据同分布的重构数据。
S7、将异常时序型热计量数据的供温、回温和阀门数据替换随机噪声数据输入到训练完成的生成对抗网络中,输出重构流量数据,再将重构流量数据与异常流量数据进行对比检测异常。
应用实施例
步骤S1如图1所示首先需要搭建生成对抗网络模型运行环境,采用一台计算机作为服务器,在服务器上搭建热用户管理数据库,按照不同的供热地区和建筑类型创建数据表保存数据,利用热用户室内供暖装置上的供温传感器、回温传感器和流量传感器测量热水管当中液体的供回温和流量等数据,再记录当前供暖装置阀门开度,将供热数据通过通信传回服务器上传到服务器数据库当中。然后在本地准备一台Windows操作系统的工作台,将服务器上的数据下载到本地工作台,基于数据的维度的长度利用Python语言搭建生成对抗网络模型。搭建自动化脚本对数据进行分类和预处理制成训练数据集、测试数据集和验证数据集,创建数据输入通道。然后利用均方根误差公式搭建网络的输出通道,将网络产生的重构数据与验证数据通过输出通道的均方根误差公式计算误差,检测异常数据。
步骤S2如图2所示的生成器和判别器结构,在图片数据分类和生成方面GAN具有很好的分布建模能力,DCGAN网络通过充分提取数据的时空特征而进一步提升了GAN网络,但是针对多维时序数据,普通的DCGAN在不同变量之间耦合关系的建模方面存在局限性,所以本发明采用了改进的DCGAN框架,如图2所示在DCGAN网络生成器和判别器分别由反卷积层和卷积层组成,同时针对多维时序数据,本发明将生成器的输入层设置为多个通道,每个通道都对应一组多维时序数据的某个维度的变量,每个通道由三层反卷积层组成,每层的反卷积层反卷积核设置成尺寸3×1和步长为1,激活函数使用Relu函数。判别器的输入层也是由多个通道组成,不同的是每个通道由3层卷积层构成,每个卷积层使用同样尺寸为3×1和步长为1的卷积核,激活函数则使用LeakyRelu函数。
步骤S3首先采集正常的原始数据,然后每个维度的数据进行归一化处理,使原始数据隐射到[-1,1]之间。此时归一化后包含着异常数据的原始数据集采用矩阵来表示,其中/>表示在M个多维时序数据中的第m个维度是N长度是T的数据。在训练过程为了获取足够验证模型精度的异常数据,本发明中采用的方法是人工制造异常的数据来作为实验数据,具体方法是选取部分数据并采用随机移动窗口的方法,将数据部分片段设置为随机的值,表示改部分成为出现了异常的数据。实验中需要不正常的数据和正常的数据一起应用,所以为了能将异常数据集和正常数据集区分开来,这里采用一个指示矩阵来表示数据异常部分:
由于数据被归一化到了[-1,1]之间,所以为了尽可能不影响原始数据的分布,指示矩阵采用二进制的方式来表示,即为了方便后期利用重构数据修补异常的数据集,矩阵中异常的元素将会用0来表示,反之则用1来表示。通过指示矩阵与正常的数据集进行相乘,则可以将所有数据X将会被分为两部分,一部分是正常的数据集,另一部分为异常的数据集/>。然后将正常的数据集分为训练集和验证集用于训练和调整网络参数,异常的数据集作为测试集用于测试最终网络的精确度,训练集、测试集和验证集的数量比例控制在6:2:2。
步骤S3如图3所示设置数据强化方案,将训练数据集随机划分成多个相同数量的K个批次进行数据强化,具体方法为:
1) 数据强化方法是抽取部分训练集和验证集添加随机扰动,当抽取的数据太少时,会导致训练数据过少而出现过拟合现象,而抽取的数据太多时会使得添加的随机扰动变成数据的特征泄露到数据训练网络当中,干扰GAN网络当中判别器的决策,使得网络准确度下降。首先将训练数据集划分为K个批次每训练批次作为一个组别,每个组按比例P(首次训练将P设为0.5)从数据当中抽取部分数据添加随机扰动,添加了扰动的数据再次混合进入每个批次当中,每个批次的数据数量变为原来1+P倍。
2) 将所有批次按组输入到设置好的网络当中进行训练,将网络生成的数据输入到公式(2)当中来观察网络是否出现过拟合现象。
其中、/>和/>分别表示训练集、验证集和生成器生成的数据集,/>表示判别器输出的平均值,根据r v 值来调整强化的数据比例,r v 越接近0表示系统没有出现过拟合,越接近1表示网络出现了完全过拟合。
3) 在得到每个批次的r v 值后再求每个批次生成数据与测试集数据的均方根误差(Root Mean Squared Error,RMSE),通过综合观察每个批次的RMSE和r v 值来选择最优比例。当每个批次的RMSE值过大时,则减小强化比例P值为首次的一半,重复2)的方法,RMSE符合网络精度要求时,输入测试集数据观察r v 值网络是否出现过拟合现象,当出现过拟合时,增大强化比例P为第二次的一半,重复2)方法。重复多次得到最优强化比例P。
步骤S4如图2所示的训练流程,在得到强化完成后的训练数据集后,先将与训练数据处于随机特征空间的数据作为Z作为生成器的输入来得到生成器的输出G(z),将作为判别器的输入,然后使用最大均值化差异函数(Max Mean Discrepancy,MMD)来作为判别器的决策函数,计算方式如式(3)所示:
其中表示噪声通过生成器得到的数据,/>表示一个存在一个映射函数将原始空间映射到希尔伯特空间。MMD函数通过将/>和/>两个处于不同的分布空间数据映射到同一个希尔伯特空间来计算两个数据的距离,所以当MMD值越小时距离两个数据的距离越小,其分布也就越接近,反之则越不同。
从MMD值观察得到判别器提取到多维时序数据之间的时空特征,使得生成器拟合特征潜在耦合关系,再利用RMSE函数作为损失函数如式(4)所示通过反向传播训练生成器,使损失函数和MMD的值都小于阈值,让判别器学习到数据的空间特征,生成器充分学习到多维数据的潜在关系:
其中G(z)表示生成器的输出,表示F-范数,N和T分别表示多维时序数据的维度和数据的长度。
如图2所示的训练流程中将训练数据集替换为数据集,再将随机噪声空间替换为人为制造的异常数据集,在步骤S4中通过基于生成器的损失函数,训练得到的GAN网络学习到了正常的数据的潜在空间,此时网络当中判别器通过提取正常数据的时空特征,再将提取到的特征经过全连接层的权重和偏置进行重组判断出是否异常。生成器生成的数据和训练常数据处于同一分布,在此基础上通过对训练后得到的判别器进行分解,保留基于生成器的损失函数基础部分的同时添加指示矩阵,避免引入其他的超参数使得生成器和判别器的差距重新拉大,同时利用异常的数据集再进行训练进一步生成异常数据本应正常的部分。
首先将训练得到的GAN网络用于异常数据的检测,这里与步骤S3一样仍然使用反向传播的策略来寻找最接近/>的潜在编码生成方式,再使用生成器生成的样本来修补异常数据。由于这里使用的样本是异常的数据,所以式(2)的公式不再适用,这里需要进行修改网络的损失函数如式(5)所示:
其中Z m 是异常数据,也就是在步骤S1中人工制造的异常的数据集,表示异常数据/>的指示矩阵,/>表示所有指示矩阵当中的所有元素和。
利用反向传播方法去训练,得到矩阵,然后重构的数据/>将利用式子(6)异常检测完成:
最后在得到了训练完成的网络之后,我们需要进行相关的实验去验证网络的准确度,以评估网络的异常检测性能。方法为重新采集一部分正常的数据集,再使用滑动窗口的方法对正常数据集进行剪切,其中窗口的大小和移动的距离都是随机选择,剪切部分将采用0来代替。最后采用公式(3)的RMSE损失函数去验证,当损失值小于设置的阈值后,网络则训练成功:
其中是测试的正常数据集,/>是重构后的数据集,/>测试数据集的指示矩阵。
步骤S5在得到训练完成的网络之后,将验证数据集当中作为判别器的输入,判别器通过提取的正常训练数据当中的供水温、回水温、阀门开度和流量数据之间的潜在耦合特征关系,判断出当前数据是否为异常数据,输出指示矩阵,异常数据在矩阵当中会被标记为0,正常的为1。
然后将标记为0的异常数据筛选出来,将其供水温、回水温和阀门开度数据送入到生成器当中,生成器通过供回温和阀门开度以及参数之间潜在耦合关系结合训练过程中的参数生成重构的流量数据。将流量数据与原验证数据集当中的流量数据进行对比,采用移动窗口计算每个窗口中的RMES均方根误差大小,观察每个窗口中RMES值的大小,RMES值大的窗口将被特殊标记出来从而定位得到异常发生的时间段。
多维的热计量数据通常有二次网管道的热水供回温度、流量以及累计热量水量等数据,这些数据一般由供暖站配置、二次网结构、当地天气情况和建筑结构等因素决定,当某一部分热计量数据出现异常时由于影响因素过多过复杂,通过数学网络建模去计算异常部分的数据十分困难,因此本文采用了一种基于GAN网络的方法去拟合多维热计量数据的潜在空间关系,从而检测出异常部分。本发明中为了提高GAN对多维时序型数据的异常检测精度,采用了改进的DCGAN网络,同时了为了避免数据过少出现过拟合的现象,采用了针对时序数据的数据强化方法,实现针对了少样本情况下的高精度多维时序数据异常检测。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请描述较为具体和详细的实施例,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于改进生成对抗网络的时序型热计量数据异常检测方法,其特征在于:
步骤一,通过热用户采集装置收集时序型热计量数据,包括供温、回温和流量;
步骤二,基于时序型热计量数据的维度和长度,构建生成对抗网络;
步骤三,设置指示矩阵,并通过指示矩阵将时序型热计量数据数据划分为正常数据以及异常数据;
步骤四,对正常数据进行预处理并划分为第一训练数据和第二训练数据;
步骤五,根据生成对抗网络,对第一训练数据进行分组并且计算强化比例,按所得强化比例对第一训练数据进行强化;
步骤六,将强化后的第一训练数据输入到生成对抗网络当中,使生成对抗网络提取到第一训练数据的时空特征,再将第二训练数据输入到生成对抗网络当中,拟合第一训练数据的特征生成独立同分布的重构数据,完成训练;
步骤七、将异常数据替换随机特征空间的数据输入到训练完成的生成对抗网络中,生成重构数据并进行对比检测,定位异常发生区间。
2.如权利要求1所述的一种基于生成对抗网络的时序型热用户数据异常检测方法,其特征在于:步骤二所述的基于时序型热计量数据维度和长度,构建生成对抗网络,为通过时序热计量数据的宽度信息将生成对抗网络的输入设置为三维卷积输入,对应供温、回温和流量三维数据,再将生成对抗网络的输出窗口设置为三维线性输出,对应重构后的供温、回温和流量三维数据。
3.如权利要求1所述的一种基于改进生成对抗网络的时序型热计量数据异常检测方法,其特征在于:步骤三,使用指示矩阵对收集的数据进行区分,划分为正常的数据集和异常的数据集,正常的数据在矩阵当中用1表示,异常的数据在矩阵当中用0来表示。
4.如权利要求1所述的一种基于改进生成对抗网络的时序型热计量数据异常检测方法,其特征在于:步骤四,对正常的数据进行预处理:采用归一化方法,将正常数据中不同变量映射到同一度量空间,然后按6:2的比例随机将正常的数据分成第一训练数据和第二训练数据,第一训练数据集用于网络的训练,第二训练数据集用于网络精确度的验证。
5.如权利要求1所述的一种基于改进生成对抗网络的时序型热计量数据异常检测方法,其特征在于:步骤六,通过数据增强技术强化第一训练数据集:根据第一训练数据集大小设置训练批次数量,再将第一训练数据随机平均分配给每个批次,然后按比例随机抽取每个批次当中的数据添加随机高斯白噪声产生与第一训练数据独立同分布增强数据,将增强数据随机混合进入每个数据批次当中制备成强化后的第一训练数据集。
6.如权利要求5所述的方法,其特征在于:在训练批次中对数据添加随机扰动从而获取增强数据:首先根据每个训练批次当中数据量设置强化比例ρ,然后将增强数据加入训练批次当中得到强化第一训练数据集,再将强化后的第一训练数据重新输入到生成对抗网络中训练,根据生成对抗网络的精度动态调整强化比例ρ值。
7.如权利要求6所述的方法,其特征在于:根据生成对抗网络精度动态调整强化比例ρ值:调整过强化比例ρ值后的第一训练数据集重新输入生成对抗网络中进行训练,计算强化比例调整前后的均方根误差,均方根误差过大则减小强化比例ρ,均方根误差过小则增大强化比例ρ。
8.如权利要求1所述的方法,其特征在于:步骤六,利用生成对抗网络的判别器提取第一训练数据的时空特征,再利用生成器拟合第一训练数据的潜在时空特征,生成与第一训练数据独立同分布的重构数据,再将第二训练数据输入到生成对抗网络当中,利用训练完成的生成器拟合第一训练数据当中的供水温、回水温和流量的潜在耦合时空特征生成第二训练数据的重构数据,测试网络的精确度。
9.如权利要求8所述的方法,其特征在于:通过生成对抗网络中的生成器判别器提取第一训练数据的时空特征:将供温、回温和阀门开度三维时序数据通过三维滑动卷积核,提取数据中每个变量的时间特征和变量之间的空间特征;通过生成对抗网络当中的判别器拟合时空特征:通过三维反卷积将判别器提取的特征重新映射到训练数据的标记空间中,再通过线性连接层拟合训练数据线性特征重构训练数据。
10.如权利要求1所述的方法,其特征在于: 步骤七、利用网络生成异常热计量数据的重构数据,再将重构数据与异常数据进行对比检测异常:将异常热计量数据的供水温、回水温和阀门开度等变量输入到训练完成后生成对抗网络当中,拟合时空特征输出重构流量数据,将重构流量数据与异常流量数据通过滑动窗口的方式计算每个窗口均方根误差,保留误差大的窗口,定位计量异常发生时间段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311487505.0A CN117555941A (zh) | 2023-11-09 | 2023-11-09 | 基于改进生成对抗网络的时序型热计量数据异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311487505.0A CN117555941A (zh) | 2023-11-09 | 2023-11-09 | 基于改进生成对抗网络的时序型热计量数据异常检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117555941A true CN117555941A (zh) | 2024-02-13 |
Family
ID=89819675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311487505.0A Pending CN117555941A (zh) | 2023-11-09 | 2023-11-09 | 基于改进生成对抗网络的时序型热计量数据异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117555941A (zh) |
-
2023
- 2023-11-09 CN CN202311487505.0A patent/CN117555941A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110264112B (zh) | 基于双向加权灰色关联的配电网可靠性影响因素分析方法 | |
CN107169628B (zh) | 一种基于大数据互信息属性约简的配电网可靠性评估方法 | |
Månsson et al. | A machine learning approach to fault detection in district heating substations | |
CN103366123B (zh) | 基于缺陷分析的软件风险评估方法 | |
Gao et al. | Using data mining in optimisation of building energy consumption and thermal comfort management | |
CN110083910B (zh) | 一种基于nsga-ⅱ的混沌时间序列预测样本获取方法 | |
CN111814342B (zh) | 一种复杂设备可靠性混合模型及其构建方法 | |
CN109297077B (zh) | 监测中深层无干扰地岩热供热系统梯级利用系统的方法 | |
CN110263998B (zh) | 多源数值天气预报集合双层修正方法 | |
CN115878603A (zh) | 基于k近邻算法与gan网络的水质缺失数据插补算法 | |
CN109948920B (zh) | 一种基于证据理论的电力市场结算数据风险处理方法 | |
CN114004374B (zh) | 一种基于玻尔兹曼机投票的空调机组传感器故障诊断方法 | |
CN104699991B (zh) | 基于灰色系统理论的城镇供热系统年供热量预测方法 | |
Luo et al. | Novel pattern recognition-enhanced sensor fault detection and diagnosis for chiller plant | |
CN113486950A (zh) | 一种智能管网漏水检测方法及系统 | |
Liu et al. | Energy and carbon performance of urban buildings using metamodeling variable importance techniques | |
CN113379116A (zh) | 基于聚类和卷积神经网络的台区线损预测方法 | |
CN113432247B (zh) | 基于图神经网络的冷水机组能耗预测方法、系统及存储介质 | |
Kim et al. | Development of flow rate and equipment simulation model for commercial building HVAC&R system by data-driven method | |
CN117760063A (zh) | 一种基于空气焓值的地铁空调负荷预测方法 | |
CN117555941A (zh) | 基于改进生成对抗网络的时序型热计量数据异常检测方法 | |
CN109918612B (zh) | 一种基于稀疏学习的台区拓扑结构校验方法 | |
CN104318316A (zh) | 一种用户用电实时测量方法 | |
Godinho et al. | Forecasting heating and cooling energy demand in an office building using machine learning methods | |
Kasperowicz et al. | Reengineering of electricity market monitoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |