CN111865947B - 一种基于迁移学习的电力终端异常数据生成方法 - Google Patents
一种基于迁移学习的电力终端异常数据生成方法 Download PDFInfo
- Publication number
- CN111865947B CN111865947B CN202010650550.3A CN202010650550A CN111865947B CN 111865947 B CN111865947 B CN 111865947B CN 202010650550 A CN202010650550 A CN 202010650550A CN 111865947 B CN111865947 B CN 111865947B
- Authority
- CN
- China
- Prior art keywords
- message
- training
- decoder
- sample
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 25
- 238000013526 transfer learning Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 73
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims 2
- 238000013508 migration Methods 0.000 abstract description 9
- 230000005012 migration Effects 0.000 abstract description 9
- 238000011160 research Methods 0.000 abstract description 5
- 238000011161 development Methods 0.000 abstract description 4
- 238000004088 simulation Methods 0.000 abstract description 4
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 230000001737 promoting effect Effects 0.000 abstract description 3
- 230000009897 systematic effect Effects 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002347 injection Methods 0.000 description 3
- 239000007924 injection Substances 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000003345 natural gas Substances 0.000 description 2
- 230000002155 anti-virotic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 238000001119 image correlation spectroscopy Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000009225 memory damage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提出了一种基于迁移学习的电力终端异常数据生成方法,属于智能电网安全领域。本发明基于非电力物联网运行数据及电力物联网正常运行数据,构建了多解码器Seq2Seq神经网络。通过针对电力终端不同层面的数据注入生成恶意攻击,利用电力监控系统模拟实验平台的数据进行训练,生成大量适用于电力物联网终端的模拟恶意攻击数据。本发明不仅能够大大改善因数据量不足而无法使用很多高性能算法来提升系统安全性的窘境,同时解决了在生成攻击数据时,缺少平行监督数据的难题。构建的迁移算法能够在保留攻击特征的前提下,较好的实现不同网络环境下流量设备特征的迁移,对于推动后续的系统化科学研究甚至电力物联网发展有着重要的意义。
Description
技术领域
本发明属于智能电网安全领域,尤其涉及一种基于迁移学习的电力终端异常数据生成方法
背景技术
能源是人类生存发展的重要物质资源,在第二次工业革命后,电力成为人类社会使用的主要能源之一。在电力系统中,电网的主要作用是分配电能和传输电能。在21世纪网络时代,电网作为能源基础设施也必然离不开信息化,信息化在具有高度灵活性的同时,也带来了很多威胁和不确定性。可远程访问和控制的实时SCADA,可远程访问和控制的PLC在给我们带来便利的同时,也给恶意攻击者以可乘之机。现有的网络病毒攻击事件屡屡出现,攻击者熟悉被攻击系统及网络结构,采用的攻击技术先进,病毒扩散以及破坏非常隐蔽,现有防病毒软件无法进行查杀。为了保障电网的安全运行,需要研究针对电力终端的攻击数据生成技术。
目前电力领域的攻击数据集很少,现有报道中提供了三个不同ICS的数据集(Industrial Control System(ics)Cyber Attack Datasets.Accessed:Oct.31,2019),包括电力系统数据集,天然气管道数据集和蓄水数据集。第一个是面向电力系统,包括来自Snort日志和从同步器的测量。第二个重点是天然气管道,包括远程终端单元的流特征。最后一个重点放在水箱上,有三个不同的攻击:侦察、虚假数据入侵攻击和拒绝服务(DOS)攻击。但是这些数据中都缺少电力系统中网络流量方面的数据,而且主要针对虚假数据注入攻击。iTrust网络安全研究中心也为不同的ICS开发了安全水处理(SwaT)数据集,供水(WADI)数据集和电力与智能控制(EPIC)数据集,但是只有前两个数据集含有虚假注入攻击的恶意样本,电力与智能控制数据集中只有正常运行数据而缺少异常数据。
大多数面向工业控制系统的数据集关注虚假数据注入攻击,忽略其他有害的攻击,如注入合法数据包的重放攻击等。由于modbus等协议在设计上缺少身份验证和数据加密等措施,因此容易遭受这些攻击的影响,导致伪造测量与控制数据、造成设备拒绝服务或内存破坏。由于电力物联网攻击数据单一和短缺,在后续的用于提升系统安全性的算法学习中,使得高性能算法也无法发挥其优势,因此需要从根源上解决数据集问题,才能进一步提升系统的安全性,研究针对电力终端的攻击数据(异常数据)生成技术是非常迫切和必要的,同时还需保证生成的模拟攻击数据与电力终端真实的攻击数据具备完全的相似性和可替换性。
发明内容
为了解决电力领域现有的攻击数据集(异常数据集)样本少、攻击数据(异常数据)单一的问题,本发明提出了一种基于迁移学习的电力终端异常数据生成方法,本发明分析了非电力物联网如智能家居物联网的攻击方式和攻击数据,基于非电力物联网运行数据(包括正常及攻击样本数据)及电力物联网正常运行数据,利用深度学习技术,构建了“非电力物联网-电力物联网”两网映射神经网络模型。通过针对电力终端不同层面的数据注入,并且基于深度学习生成模拟恶意攻击,利用电力监控系统模拟实验平台的数据进行训练,能够生成大量的适用于电力物联网终端的模拟恶意攻击数据。本发明不仅能够大大改善因数据量不足而无法使用很多高性能算法来提升系统安全性的窘境,同时解决了在生成攻击数据时,缺少平行监督数据的难题。构建的迁移算法能够在保留攻击特征的前提下,较好的实现不同网络环境下流量设备特征的迁移,对于推动后续的系统化科学研究甚至电力物联网发展有着重要的意义。
为了实现上述目的,本发明具体采用如下技术方案:
一种基于迁移学习的电力终端异常数据生成方法,包括以下步骤:
步骤1:采集电力终端的正常报文样本、以及相同协议的非电力终端的正常报文样本和攻击报文样本;对报文样本进行预处理,得到预处理后的训练样本集;所述预处理后的训练样本集中每一条报文样本均包括TCP协议内容和工控协议内容;
步骤2:根据每一条报文样本的TCP协议内容和工控协议内容构造键值对,每一个键值对由一个输入值和输出值构成;将预处理后的训练样本集中每一条报文样本对应的键值对作为word2vec模型的训练样本进行训练,得到每一个键值的嵌入向量,构成嵌入向量表;根据嵌入向量表得到每一条报文样本的嵌入向量表示;
步骤3:构建由编码器、第一解码器和第二解码器组成的多解码器Seq2Seq神经网络,将每一条报文样本的嵌入向量表示Xi作为编码器的输入,获得编码后的特征向量Zi∈Rh,h表示特征向量Zi的维度;再将特征向量Zi分别作为两个解码器的输入;
步骤4:对步骤3构建的多解码器Seq2Seq神经网络进行训练;
步骤5:将报文样本的嵌入向量表示Xi作为训练好的多解码器Seq2Seq神经网络的输入,若报文样本来自于电力终端,则第一解码器开启,第二解码器关闭,由第一解码器输出预测报文向量;若报文样本来自于非电力终端,则第二解码器开启,第一解码器关闭,由第二解码器输出预测报文向量;最后通过步骤2所述的嵌入向量表将所述的预测报文向量转化为预测报文。
本发明具备的有益效果:
(1)本发明采用多解码器和生成式对抗网络相结合的报文攻击特征迁移方法,通常编码器会同时学习输入数据的风格特征(流量设备特征)和内容特征(攻击特征),但本发明的编码器只学习报文流量数据中与报文设备信息无关的攻击特征,在训练编码器过程中采用生成式对抗网络G同时分离编码器输出向量中与报文格式信息无关的攻击特征和报文格式特征,通过最大化分类器的分类损失的方式使分类器不能根据特征向量准确预测设备信息,通过对生成式对抗网络进行训练,编码器得到的特征向量不再包含报文的格式特征。相比于现有技术手段例如模糊测试,较好解决了模糊测试目的性不强,依赖大量随机输入的问题。
(2)本发明采用了word2vec算法将IP地址等字段转换为向量,所以相比于现有技术中的直接将IP地址等字段转为字符串然后转为向量的方法,更可以挖掘IP地址等字段的内在联系,将可疑IP字段聚类在一起,为后续攻击特征提取提供基础。
(3)本发明采用了对正常物联网数据(非电力终端)和电力终端的流量历史数据进行数据挖掘的方法来生成电力终端异常数据,并采用神经网络分类器对生成的异常报文数据的质量进行评估,证明了本发明的异常数据生成方法获得的模拟攻击报文通过RNN模型得到的分类结果与真实的异常报文的分类结果一致,说明了生成的异常数据与真实数据十分相似,完全可以作为很多高性能算法的训练集样本。相比于利用测试床进行测试,本方法不需要搭建工业试验床,成本更低,周期更短,解决了构建测试床成本高和周期长的问题。
附图说明
图1是本发明的方法流程图
图2是物联网-电力物联网数据映射神经网络模型结构图
图3是电力终端异常数据检测方法流程图
图4是本实施例的评估生成效果图
具体实施方式
下面结合附图对本发明作进一步的解释说明。
如图1所示,本发明分析了非电力物联网如智能家居物联网的攻击方式和攻击数据,基于非电力物联网运行数据(包括正常及攻击样本数据)及电力物联网正常运行数据,利用深度学习技术,构建了“非电力物联网-电力物联网”两网映射神经网络模型。通过针对电力终端不同层面的数据注入,并且基于深度学习生成恶意攻击,利用电力监控系统模拟实验平台的数据进行训练,能够生成大量的适用于电力物联网终端的模拟恶意攻击数据。本发明的一种基于迁移学习的电力终端异常数据生成方法,包括以下步骤:
步骤1:数据采集和预处理:
采集电力终端的正常报文样本、以及相同协议的非电力终端的正常报文样本和攻击报文样本;对报文样本进行预处理,得到预处理后的训练样本集;所述预处理后的训练样本集中每一条报文样本均包括TCP协议内容和工控协议内容。
步骤2:获取报文样本的嵌入向量:
根据每一条报文样本的TCP协议内容和工控协议内容构造键值对,每一个键值对由一个输入值和输出值构成;将预处理后的训练样本集中每一条报文样本对应的键值对作为word2vec模型的训练样本进行训练,得到每一个键值的嵌入向量,构成嵌入向量表;根据嵌入向量表得到每一条报文样本的嵌入向量表示。
步骤3:构建由编码器、第一解码器和第二解码器组成的多解码器Seq2Seq神经网络,将每一条报文样本的嵌入向量表示Xi作为编码器的输入,获得编码后的特征向量Zi∈Rh,h表示特征向量Zi的维度;再将特征向量Zi分别作为两个解码器的输入。
步骤4:对步骤3构建的多解码器Seq2Seq神经网络进行训练。
步骤5:将报文样本的嵌入向量表示Xi作为训练好的多解码器Seq2Seq神经网络的输入,若报文样本来自于电力终端,则第一解码器开启,第二解码器关闭,由第一解码器输出预测报文向量;若报文样本来自于非电力终端,则第二解码器开启,第一解码器关闭,由第二解码器输出预测报文向量;最后通过步骤2所述的嵌入向量表将所述的预测报文向量转化为预测报文。
在本发明的一项具体实施中,步骤1中的数据采集和预处理过程具体为:
采集电力终端和非电力终端的历史流量数据作为报文样本,包括传输层的TCP协议内容数据和应用层的工控协议内容数据,在本发明中,工控协议内容数据提取的是IEC60870-5-104协议内容;所述的报文样本包括P个正常报文样本和N个来自相同协议的攻击报文样本。
对报文样本进行预处理,首先提取每一条报文中的TCP协议内容和工控协议内容。具体的,提取出的TCP协议内容数据包括src:报文源ip地址;dst:报文目标ip地址;src_port:报文源端口号;dst_port:报文目标端口号;during:连接持续时间;seq:序列号的值;ack:首部确认标志值;len:报文长度;flag:报文标志值;check_sum:16位校验和值。
提取出的工控协议内容数据包括protocol_type:协议类型;protocol_format:协议格式;data:工控协议报文长度;control_domain_1:控制域八位位组1的值;control_domain_2:控制域八位位组2的值;control_domain_3:控制域八位位组3的值;control_domain_4:控制域八位位组4的值。
使用分箱法对数据进行去噪处理,即通过临近值的均值替代噪声值,实现对电力终端报文数据的去噪,构成原始训练样本集D。
由于攻击样本一般远远少于正常报文的数量,这不利于生成模型的训练。因此需要采取过采样处理。若数据集中负样本数据量小于正样本数据量的1/10,对数据进行过采样处理,保证数据中正负样本分布均匀。即通过随机复制样本中少数类来增加样本实例数量,具体的,在本方法中负样本为少数类,得到预处理后的训练样本集D′,|D'|=P+N*A,|D’|为过采样后的训练样本集D′中的样本数量。
在本发明的一项具体实施中,步骤2中获取报文样本的嵌入向量具体为:
步骤2:根据电力终端报文的先验知识,利用word2vec算法,构造能表征电力终端数据特点的特征向量。具体步骤如下:
构建键值对(输入输出映射对)作为word2vec算法的训练样本,对于一条报文,构造13种键值对(输入输出映射对),每个流产生13个训练样本,每个样本由一个输入和一个预期的输出值组成。具体的,键值对(输入输出映射对)见下表:
编号 | 输入值 | 输出值 |
1 | 源IP地址 | 目的IP地址 |
2 | 源IP地址 | 源端口号 |
3 | 源IP地址 | 协议类型 |
4 | 目的IP地址 | 源IP地址 |
5 | 目的IP地址 | 目的端口号 |
6 | 目的IP地址 | 协议类型 |
7 | 源端口号 | 源IP地址 |
8 | 目的端口号 | 目的IP地址 |
9 | 字节数 | 包数 |
10 | 字节数 | 连接持续时间 |
11 | 包数 | 字节数 |
12 | 包数 | 连接持续时间 |
13 | 连接持续时间 | 包数 |
将预处理后的训练样本集中每一条报文样本对应的键值对作为word2vec模型的训练样本进行训练,得到每一个键值(包括不同的IP地址,端口号,连接持续时间等)的嵌入向量,构成嵌入向量表;这里的嵌入向量维度用k表示,在本实施例中设置为20。k需要大于log(特征取值数量),例如对于IP地址,特征取值数量为255的四次方,因此k需要不小于10,但嵌入维数太大会达不到降维的目的,因此这里选择20。
假设每一条报文样本包含IP地址等N个键值,每个键值转换为k维的嵌入向量,则每一条报文样本转换成N*k的向量,表示为Xi={xi1,xi2,…,xiN},xij∈Rk;N表示每一条报文样本包含N个键值,k为xij的维度。
在本发明的一项具体实施中,如图2所示,采用的Seq2Seq网络结构由编码器、第一解码器和第二解码器组成,将每一条报文样本的嵌入向量表示Xi作为编码器的输入,编码器将输入的流量嵌入向量编码为维度为h特征向量Zi∈Rh,传给解码器,h表示特征向量Zi的维度。具体的,所述的编码器采用门控循环单元GRU,输出为维度为h的流量表示向量Zi,即Zi∈Rh。在本实施例中,h设置为100,Zi的维度不能小于k,否则无法很好地解码出新的X′i。
在对Seq2Seq网络结构进行训练的过程中,首先对编码器进行训练。
在训练编码器过程中同时分离编码器输出向量Zi中与报文格式信息无关的攻击特征和报文格式特征。攻击特征是编码器和解码器需要共享的信息,也是需要迁移的内容。在本发明的一项具体实施中,采用生成式对抗网络G进行分离和训练。生成式对抗网络G包含两部分:第一部分是一个神经网络分类器F,目标是通过监督学习,将不同设备的报文区分开,分类器的输入是不同设备的特征向量Zi,输出是根据设备的分类结果。编码器作为生成式对抗网络的第二部分,目的通过最大化分类器F的分类损失,使分类器F不能根据特征向量Zi准确预测设备信息,通过对生成式对抗网络G进行训练,编码器得到的特征向量Zi不再包含报文的格式特征。
然后对解码器进行训练。解码器的作用是对编码过的向量解码生成预测输出/目标流量数据;解码器每一层的结构和编码器相同;在训练阶段,训练使用的是多解码器结构,即一个编码器的输出对应多个解码器的输入。通过分别在源格式流量数据和目标格式流量数据上训练,得到原流量数据解码器(第一解码器)和目标流量数据解码器(第二解码器)。具体的,首先对第一解码器进行训练:将预处理后的训练样本集中电力终端的正常报文样本作为第一训练样本,将第一训练样本的嵌入向量作为编码器的输入,将编码器的输出作为第一解码器的输入进行训练,得到训练好的第一解码器;
再对第二解码器进行训练:将预处理后的训练样本集中非电力终端的正常报文样本和攻击报文样本作为第二训练样本,将第二训练样本的嵌入向量作为编码器的输入,将编码器的输出作为第二解码器的输入进行训练,得到训练好的第二解码器。
在本发明的一项具体实施中,给出了利用训练好的多解码器Seq2Seq神经网络进行预测报文生成的过程:将报文样本的嵌入向量表示Xi作为训练好的多解码器Seq2Seq神经网络的输入,若报文样本来自于电力终端,则第一解码器开启,第二解码器关闭,由第一解码器输出预测报文向量;若报文样本来自于非电力终端,则第二解码器开启,第一解码器关闭,由第二解码器输出预测报文向量;最后通过步骤2所述的嵌入向量表将所述的预测报文向量转化为预测报文。
为了评估生成的预测报文数据集的质量,采用预训练的RNN神经网络对预测报文进行验证,获得预测报文属于正样本的概率值和属于负样本的概率值,将正样本的概率值大于负样本的概率值对应的预测报文作为最终生成结果进行保存。具体的,首先将真实的目标格式电力终端攻击报文数据作为训练集,将生成的模拟目标格式攻击报文作为测试集,训练RNN进行分类。如果RNN能够在两个数据集上得到一致的分类结果,说明生成的模拟攻击报文是和真实攻击报文为相似的数据,完全可以作为很多高性能算法的训练集样本。将采集到的电力终端攻击报文和生成的模拟攻击报文按照5:1的比例分为训练集(记为D_tr)和测试集(记为D_val)。
对神经网络进行训练,设置循环次数epoch=10。具体的,model.fit(X_train,y_train,validation_data=(X_test,y_test),epoch=10)。式中,X_train和y_train分别为训练集中的特征和标签列;X_test和y_test分别为测试集中特征和标签列。完成对神经网络模型的训练。
使用RNN对生成的预测报文数据集进行预测,以验证生成的报文确实为攻击报文。具体步骤如图3所示:将需要验证的预测报文记为D_ts,按照训练集提取的特征进行特征提取,并输入训练好的RNN神经网络,则网络将输出该报文属于正样本的概率P(D_ts|label=1)和负样本的概率值P(D_ts|label=0),若预测为正样本的概率值大于预测为负样本的概率值,则输出该样本为正常数据,说明该电力终端数据为合理迁移数据,否则输出该样本为异常数据。
在本发明的一项具体实施中,图4给出了评估生成效果。根据测试数据的标签和预测结果,对迁移效果进行评估。评价指标采用AUC,即ROC曲线下的面积,最终的测试为area=0.79,说明本发明的异常数据生成方法取得了很好的效果。本发明不仅能够大大改善因数据量不足而无法使用很多高性能算法来提升系统安全性的窘境,同时解决了在生成攻击数据时,缺少平行监督数据的难题。构建的迁移算法能够在保留攻击特征的前提下,较好的实现不同网络环境下流量设备特征的迁移,对于推动后续的系统化科学研究甚至电力物联网发展有着重要的意义。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (6)
1.一种基于迁移学习的电力终端异常数据生成方法,其特征在于,包括以下步骤:
步骤1:采集电力终端的正常报文样本、以及相同协议的非电力终端的正常报文样本和攻击报文样本;对报文样本进行预处理,得到预处理后的训练样本集;所述预处理后的训练样本集中每一条报文样本均包括TCP协议内容和工控协议内容;
步骤2:根据每一条报文样本的TCP协议内容和工控协议内容构造键值对,每一个键值对由一个输入值和输出值构成,根据嵌入向量表得到每一条报文样本的嵌入向量表示;所述的步骤2具体为:
步骤2.1:根据每一条报文样本的TCP协议内容和工控协议内容构造L个键值对,每一个键值对由一个输入值和输出值构成,所述的输入值和输出值包括源IP地址、目的IP地址、源端口号、目的端口号、字节数、包数、连接持续时间;
步骤2.2:将预处理后的训练样本集中每一条报文样本对应的键值对作为word2vec模型的训练样本进行训练,得到每一个键值的嵌入向量,构成嵌入向量表;
步骤2.3:根据嵌入向量表得到每一条报文样本的嵌入向量表示Xi={xi1,xi2,…,xiN},xij∈Rk,N表示每一条报文样本包含N个键值,k为xij的维度;
步骤3:构建由编码器、第一解码器和第二解码器组成的多解码器Seq2Seq神经网络,将每一条报文样本的嵌入向量表示Xi作为编码器的输入,获得编码后的特征向量Zi∈Rh,h表示特征向量Zi的维度;再将特征向量Zi分别作为两个解码器的输入;
步骤4:对步骤3构建的多解码器Seq2Seq神经网络进行训练;所述的步骤4具体为:
步骤4.1:训练编码器:
采用生成式对抗网络对编码器进行训练,所述的生成式对抗网络由待训练的编码器和一个分类器构成;所述分类器的输入是不同设备的报文样本对应的特征向量Zi,分类器的输出为设备的分类结果,训练目标为最大化分类器的分类损失;步骤4.2:训练解码器:
首先对第一解码器进行训练:将预处理后的训练样本集中电力终端的正常报文样本作为第一训练样本,将第一训练样本的嵌入向量作为编码器的输入,将编码器的输出作为第一解码器的输入进行训练,得到训练好的第一解码器;
再对第二解码器进行训练:将预处理后的训练样本集中非电力终端的正常报文样本和攻击报文样本作为第二训练样本,将第二训练样本的嵌入向量作为编码器的输入,将编码器的输出作为第二解码器的输入进行训练,得到训练好的第二解码器;
步骤5:将报文样本的嵌入向量表示Xi作为训练好的多解码器Seq2Seq神经网络的输入,若报文样本来自于电力终端,则第一解码器开启,第二解码器关闭,由第一解码器输出预测报文向量;若报文样本来自于非电力终端,则第二解码器开启,第一解码器关闭,由第二解码器输出预测报文向量;最后通过步骤2所述的嵌入向量表将所述的预测报文向量转化为预测报文,完成电力终端异常数据的生成。
3.根据权利要求1所述的一种基于迁移学习的电力终端异常数据生成方法,其特征在于,所述的工控协议内容数据为IEC 60870-5-104协议内容。
4.根据权利要求1所述的一种基于迁移学习的电力终端异常数据生成方法,其特征在于,所述的步骤2.1构造了13个键值对,分别为{“源IP地址”,“目的IP地址”},{“源IP地址”,“源端口号”},{“源IP地址”,“协议类型”},{“目的IP地址”,“源IP地址”},{“目的IP地址”,“目的端口号”},{“目的IP地址”,“协议类型”},{“源端口号”,“源IP地址”},{“目的端口号”,“目的IP地址”},{“字节数”,“包数”},{“字节数”,“连接持续时间”},{“包数”,“字节数”},{“包数”,“连接持续时间”},{“连接持续时间”,“包数”}。
5.根据权利要求1所述的一种基于迁移学习的电力终端异常数据生成方法,其特征在于,还包括采用预训练RNN神经网络对生成的预测报文进行筛选的过程,由RNN神经网络输出预测报文属于正样本的概率值和属于负样本的概率值,将正样本的概率值大于负样本的概率值对应的预测报文作为筛选得到的最终结果进行保存。
6.根据权利要求5所述的一种基于迁移学习的电力终端异常数据生成方法,其特征在于,所述的预训练RNN神经网络是采用真实的电力终端报文样本作为训练集训练得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010650550.3A CN111865947B (zh) | 2020-07-08 | 2020-07-08 | 一种基于迁移学习的电力终端异常数据生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010650550.3A CN111865947B (zh) | 2020-07-08 | 2020-07-08 | 一种基于迁移学习的电力终端异常数据生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111865947A CN111865947A (zh) | 2020-10-30 |
CN111865947B true CN111865947B (zh) | 2021-07-20 |
Family
ID=73152478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010650550.3A Active CN111865947B (zh) | 2020-07-08 | 2020-07-08 | 一种基于迁移学习的电力终端异常数据生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111865947B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112398841A (zh) * | 2020-11-06 | 2021-02-23 | 无锡一箩筐科技有限公司 | 一种基于物联网的智慧农业云平台 |
CN118607583A (zh) * | 2024-08-08 | 2024-09-06 | 中国人民解放军国防科技大学 | 基于知识增强式多Transformer框架的物联网攻击检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106656637A (zh) * | 2017-02-24 | 2017-05-10 | 国网河南省电力公司电力科学研究院 | 一种异常检测方法及装置 |
CN109858763A (zh) * | 2018-12-29 | 2019-06-07 | 中国电力科学研究院有限公司 | 一种基于gan的电力工控数据报文的构造方法及装置 |
CN109886833A (zh) * | 2019-01-21 | 2019-06-14 | 广东电网有限责任公司信息中心 | 一种面向智能电网服务器流量异常检测的深度学习方法 |
CN109922038A (zh) * | 2018-12-29 | 2019-06-21 | 中国电力科学研究院有限公司 | 一种用于电力终端的异常数据的检测方法及装置 |
CN110263172A (zh) * | 2019-06-26 | 2019-09-20 | 国网江苏省电力有限公司南京供电分公司 | 一种电网监控告警信息事件化自主识别方法 |
CN111274395A (zh) * | 2020-01-19 | 2020-06-12 | 河海大学 | 基于卷积和长短期记忆网络的电网监控告警事件识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017094267A1 (ja) * | 2015-12-01 | 2017-06-08 | 株式会社Preferred Networks | 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法 |
US12067485B2 (en) * | 2018-09-28 | 2024-08-20 | Applied Materials, Inc | Long short-term memory anomaly detection for multi-sensor equipment monitoring |
CN109614412B (zh) * | 2018-12-11 | 2023-06-02 | 江苏瑞中数据股份有限公司 | 基于电力行业的云上数据发布服务两级共享缓存分析方法 |
CN110719275B (zh) * | 2019-09-30 | 2021-04-02 | 南方电网科学研究院有限责任公司 | 一种基于报文特征的电力终端漏洞攻击检测方法 |
-
2020
- 2020-07-08 CN CN202010650550.3A patent/CN111865947B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106656637A (zh) * | 2017-02-24 | 2017-05-10 | 国网河南省电力公司电力科学研究院 | 一种异常检测方法及装置 |
CN109858763A (zh) * | 2018-12-29 | 2019-06-07 | 中国电力科学研究院有限公司 | 一种基于gan的电力工控数据报文的构造方法及装置 |
CN109922038A (zh) * | 2018-12-29 | 2019-06-21 | 中国电力科学研究院有限公司 | 一种用于电力终端的异常数据的检测方法及装置 |
CN109886833A (zh) * | 2019-01-21 | 2019-06-14 | 广东电网有限责任公司信息中心 | 一种面向智能电网服务器流量异常检测的深度学习方法 |
CN110263172A (zh) * | 2019-06-26 | 2019-09-20 | 国网江苏省电力有限公司南京供电分公司 | 一种电网监控告警信息事件化自主识别方法 |
CN111274395A (zh) * | 2020-01-19 | 2020-06-12 | 河海大学 | 基于卷积和长短期记忆网络的电网监控告警事件识别方法 |
Non-Patent Citations (4)
Title |
---|
" seq2seq通俗理解----编码器和解码器(TensorFlow实现)";mantch;《腾讯云 云+社区 ,原文链接为:https://cloud.tencent.com/developer/article/1496612》;20190831;第1-5页 * |
" 基于运行关键指标和Seq2Seq的大电网运行异常识别";庞传军等;《电力建设》;20200630;第41卷(第07期);第17-24页 * |
"Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation ";Kyunghyun Cho等;《arXiv.org;原文链接为:https://arxiv.org/abs/1406.1078v3》;20140903;第1-15页 * |
"深度学习应用于网络空间安全的现状、趋势与展望";张玉清等;《计算机研究与发展》;20180112;第55卷(第06期);第1117-1142页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111865947A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Securing critical infrastructures: deep-learning-based threat detection in IIoT | |
KR102590451B1 (ko) | 의심스러운 네트워크 거동들을 검출하기 위한 심층 임베드된 자기 교시 학습 시스템 및 방법 | |
Zhang et al. | On IoT intrusion detection based on data augmentation for enhancing learning on unbalanced samples | |
CN111865947B (zh) | 一种基于迁移学习的电力终端异常数据生成方法 | |
CN113965393B (zh) | 一种基于复杂网络和图神经网络的僵尸网络检测方法 | |
CN112333194A (zh) | 基于gru-cnn的综合能源网络安全攻击检测方法 | |
CN116346384A (zh) | 一种基于变分自编码器的恶意加密流量检测方法 | |
CN111901340A (zh) | 一种面向能源互联网的入侵检测系统及其方法 | |
Zhang et al. | Detection of android malware based on deep forest and feature enhancement | |
Shan et al. | NeuPot: A neural network-based honeypot for detecting cyber threats in industrial control systems | |
Zhang et al. | Network Traffic Anomaly Detection Based on ML‐ESN for Power Metering System | |
Li et al. | Transfer-learning-based network traffic automatic generation framework | |
Kavousi-Fard et al. | Retracted: An Effective Anomaly Detection Model for Securing Communications in Electric Vehicles | |
Guo et al. | A SYN Flood Attack Detection Method Based on Hierarchical Multihead Self‐Attention Mechanism | |
Hou et al. | An intrusion detection method for cyber monintoring using attention based hierarchical LSTM | |
CN117914555A (zh) | 一种智能网关的训练及流量检测方法和设备 | |
CN115567239B (zh) | 一种基于生成对抗的加密流量特征隐藏系统以及方法 | |
CN115913764A (zh) | 基于生成对抗网络的恶意域名训练数据生成方法 | |
Gu et al. | Network intrusion detection with nonsymmetric deep autoencoding feature extraction | |
CN113542222B (zh) | 一种基于双域vae的零日多步威胁识别方法 | |
CN115473734A (zh) | 基于单分类和联邦学习的远程代码执行攻击检测方法 | |
Chen et al. | GAN-IVDS: An Intrusion Detection System for Intelligent Connected Vehicles Based on Generative Adversarial Networks | |
CN115277123B (zh) | 车用can总线注入攻击异常检测方法及系统 | |
Du et al. | RRCNN: Request Response-Based Convolutional Neural Network for ICS Network Traffic Anomaly Detection | |
CN114629718B (zh) | 一种基于多模型融合的隐匿恶意行为检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |