CN111931874B - 基于深度学习和数据聚类的伴随式诱饵生成方法及装置 - Google Patents
基于深度学习和数据聚类的伴随式诱饵生成方法及装置 Download PDFInfo
- Publication number
- CN111931874B CN111931874B CN202011068789.6A CN202011068789A CN111931874B CN 111931874 B CN111931874 B CN 111931874B CN 202011068789 A CN202011068789 A CN 202011068789A CN 111931874 B CN111931874 B CN 111931874B
- Authority
- CN
- China
- Prior art keywords
- data
- neural network
- interpreter
- time step
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1491—Countermeasures against malicious traffic using deception as countermeasure, e.g. honeypots, honeynets, decoys or entrapment
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Security & Cryptography (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于深度学习技术领域,具体涉及基于深度学习和数据聚类的伴随式诱饵生成方法及装置,所述方法执行以下步骤:步骤1:获取用户数据,使用预建立的数据分类模型对用户数据进行分类,为分类后的每个类别的用户数据添加标签;步骤2:建立对抗生成网络模型,同时基于对抗网络生成模型的模型结构,建立适配的循环神经网络。采用深度学习的聚类方法,以及对抗生成网络算法的文本处理手段,达到智能生成伴随式诱饵的目的,同时生成的诱饵的相似度更高,提升了诱捕攻击者的能力。
Description
技术领域
本发明属于深度学习技术领域,具体涉及基于深度学习和数据聚类的伴随式诱饵生成方法及装置。
背景技术
网络安全,通常指计算机网络的安全,实际上也可以指计算机通信网络的安全。计算机通信网络是将若干台具有独立功能的计算机通过通信设备及传输媒体互连起来,在通信软件的支持下,实现计算机间的信息传输与交换的系统。而计算机网络是指以共享资源为目的,利用通信手段把地域上相对分散的若干独立的计算机系统、终端设备和数据设备连接起来,并在协议的控制下进行数据交换的系统。计算机网络的根本目的在于资源共享,通信网络是实现网络资源共享的途径,因此,计算机网络是安全的,相应的计算机通信网络也必须是安全的,应该能为网络用户实现信息交换与资源共享。
网络中的攻击者常会采用无文件攻击,很多攻击行为无法发现,采用诱饵技术发现攻击行为。诱饵技术是在每台真实终端构建,而非蜜罐上构建。终端包括PC、Server、工控设备、物联网设备等,检测落盘到这些办公终端、业务系统终端上的攻击,采用布防天罗地网的诱饵,发现攻击者。
现有技术中,诱饵生成方式笨重,大多是以手动或者定向生成某类型诱饵,如文件诱饵,进程诱饵等,其中文件诱饵需要手动编辑内容;同时,诱饵内容太假,甚至和业务系统没有关系;另外还存在部署位置不对的问题,现有部署诱饵的方式是在自己的蜜罐系统中部署,而非用户业务系统、用户使用的终端上部署;此外,海量诱饵生成难,海量终端要使用诱饵,需要自动化生产,手动生产诱饵制约发展。
伴随式诱饵,是和用户习惯、用户终端环境和威胁对抗相关的数据,通过训练生成的诱饵。
发明内容
本发明的主要目的在于提供基于深度学习和数据聚类的伴随式诱饵生成方法及装置,采用深度学习的聚类方法,以及对抗生成网络算法的文本处理手段,达到智能生成伴随式诱饵的目的,同时生成的诱饵的相似度更高,提升了诱捕攻击者的能力。
为达到上述目的,本发明的技术方案是这样实现的:基于深度学习和数据聚类的伴随式诱饵生成方法,其特征在于,所述方法执行以下步骤:
步骤1:获取用户数据,使用预建立的数据分类模型对用户数据进行分类,为分类后的每个类别的用户数据添加标签;
步骤2:建立对抗网络生成模型,同时基于对抗网络生成模型的模型结构,建立适配的循环神经网络;所述对抗网络生成模型为数据转换模型,将常规数据转换为诱饵数据;所述循环神经网络,基于现有的常规数据和诱饵数据进行训练,同时,将对抗网络生成模型中输入的常规数据和对抗网络生成模型转换后的诱饵数据作为输入,得到输出后,通过误差函数判断诱饵生成的准确率,以误差函数的判断结果,生成参数调整参数,反向作用于对抗网络生成模型,以调整对抗网络生成模型的参数;
步骤3:对抗网络生成模型在循环神经网络的驱动下,基于添加标签后的用户数据,进行特征融合分析,生成诱饵。
进一步的,所述步骤1中获取的用户数据至少包括:用户行为数据、应用使用数据、网络环境数据、登录凭据数据、文件数据和流量数据;所述步骤1中使用预建立的数据分类模型对用户数据进行分类包括以下步骤:建立数据分类树,所述数据分类树为多叉树,包含至少两层,且所述数据分类树中各个节点对应各自的分类类型;根据所述数据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,所述训练语料预先经过类型标注并存储在对应的节点中,所述父节点对应至少一个子节点,所述分类模型用于将语料划分到对应的子节点;通过所述数据分类树中各个节点的所述分类模型对所述用户数据进行逐级分类。
进一步的,所述步骤2中对抗网络生成模型为数据转换模型,将常规数据转换为诱饵数据包括以下步骤:利用主成分分析法对所述常规数据进行特征筛选,得到中间数据;对所述中间数据进行聚类分析以及监督学习,得到多个子集,其中,每个子集包括多个实例;在各个所述子集内针对恶意攻击命令进行关联规则提取;将提取出的关联规则作为攻击特征存储至特征标注集中。
进一步的,对所述中间数据进行聚类分析以及监督学习,得到多个子集,包括以下步骤:依据所述中间数据,对所述中间数据进行中心点聚类;所述中间数据包括:时间戳、包头、包长和源IP地址;依据所述中间数据的恶意攻击命令,对所述中间数据进行短文本聚类;基于所述中心点聚类对应的权重和所述短文本聚类对应的权重,将所述中间数据划分为多个子集。
进一步的,所述循环神经网络包括:
编译神经网络,其中所述编译神经网络是循环神经网络的输入层,所述编译神经网络被配置成,在所述编译神经网络处理的每个输入数据项以及在多个时间步中的每个时间步处:接收通过从所述输入数据项读取而捕获的子特征;接收前一时间步的解译器神经网络的解译器隐藏特征量,以及处理所述子特征、所述解译器隐藏特征量、以及来自所述前一时间步的所述编译神经网络的编译隐藏特征量,以生成该时间步的编译隐藏特征量;
解译器神经网络,其中所述解译器神经网络是卷积神经网络;所述解译器神经网络被配置成,对于多个时间步中的每个时间步:接收该时间步的解译器输入,以及处理前一时间步的解译器隐藏特征量和该解译器输入,以生成该时间步的解译器隐藏特征量;
以及子系统,其中,所述子系统被配置成,对于所述时间步中的每个时间步:使用前一时间步的解译器隐藏特征量,从所述输入数据项读取所述子特征;提供所述子特征作为所述编译神经网络的输入;在该时间步处,从所述编译隐藏特征量生成所述解译器神经网络的解译器输入;提供该解译器输入作为该时间步的所述解译器神经网络的输入;从该时间步的解译器隐藏特征量生成该时间步的神经网络输出更新;以及将该时间步的所述神经网络输出更新与当前神经网络输出相结合,以生成更新的神经网络输出。
进一步的,所述误差函数为:;其中,代表对抗网络生成模型生成的诱饵的准确率;代表设定的诱饵的标准准确率;代表进入循环神经网络的样本量大小;代表对抗网络生成模型生成的诱饵,代表现有的诱饵数据,代表理想的诱饵数据;当得到的值在设定的阈值范围内,则代表对抗网络生成模型生成的诱饵满足设定的标准;若得到的值超过设定的阈值范围,则代表对抗网络生成模型生成的诱饵不满足设定的标准;此时,循环神经网络将反馈参数调整数据。
进一步的,所述特征融合分析包括以下步骤:将两个添加标签后的用户数据输入特征融合分析模型中,得到两个输出变量,将两个输出变量取均值,完成特征融合分析;所述特征融合模型使用如下公式表示: ;其中, 、、和为设定的常量,其取值根据循环神经网络反馈的参数调整数据而改变,其取值范围均为:1~12;和为添加标签后的用户数据;和为对应的两个输出变量;为变换后的中间变量;为变换后的中间变量。
一种基于深度学习和数据聚类的伴随式诱饵生成的装置,所述装置包括:数据处理装置、对抗网络生成模型装置和循环神经网络;所述数据处理装置配置用于获取用户数据,使用预建立的数据分类模型对用户数据进行分类,为分类后的每个类别的用户数据添加标签;所述对抗网络生成模型装置,为数据转换模型,配置用于将常规数据转换为诱饵数据;所述循环神经网络,配置用于基于现有的常规数据和诱饵数据进行训练,同时,将对抗网络生成模型中输入的常规数据和对抗网络生成模型转换后的诱饵数据作为输入,得到输出后,通过误差函数判断诱饵生成的准确率,以误差函数的判断结果,生成参数调整参数,反向作用于对抗网络生成模型,以调整对抗网络生成模型的参数。
进一步的,所述循环神经网络包括:
编译神经网络,其中所述编译神经网络是循环神经网络的输入层,所述编译神经网络被配置成,在所述编译神经网络处理的每个输入数据项以及在多个时间步中的每个时间步处:接收通过从所述输入数据项读取而捕获的子特征;接收前一时间步的解译器神经网络的解译器隐藏特征量,以及处理所述子特征、所述解译器隐藏特征量、以及来自所述前一时间步的所述编译神经网络的编译隐藏特征量,以生成该时间步的编译隐藏特征量;
解译器神经网络,其中所述解译器神经网络是卷积神经网络;所述解译器神经网络被配置成,对于多个时间步中的每个时间步:接收该时间步的解译器输入,以及处理前一时间步的解译器隐藏特征量和该解译器输入,以生成该时间步的解译器隐藏特征量;
以及子系统,其中,所述子系统被配置成,对于所述时间步中的每个时间步:使用前一时间步的解译器隐藏特征量,从所述输入数据项读取所述子特征;提供所述子特征作为所述编译神经网络的输入;在该时间步处,从所述编译隐藏特征量生成所述解译器神经网络的解译器输入;提供该解译器输入作为该时间步的所述解译器神经网络的输入;从该时间步的解译器隐藏特征量生成该时间步的神经网络输出更新;以及将该时间步的所述神经网络输出更新与当前神经网络输出相结合,以生成更新的神经网络输出。
进一步的,所述用户数据至少包括:用户行为数据、应用使用数据、网络环境数据、登录凭据数据、文件数据和流量数据。
本发明的基于深度学习和数据聚类的伴随式诱饵生成方法及装置,具有如下有益效果:本发明采用深度学习的聚类方法,以及对抗生成网络算法的文本处理手段,达到智能生成伴随式诱饵的目的,同时生成的诱饵的相似度更高,提升了诱捕攻击者的能力。其通过以下过程实现:1.用户数据的分类处理,本发明通过建立数据分类树的方式,对用户数据进行分类,根据数据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,通过这种方式进行数据分类后,数据的类别区分更加明显,同时,相较于传统的数据分类方式,分类树进行数据分类,效率也更高;2.诱饵数据的转换,本发明利用主成分分析法对常规数据进行特征筛选,得到中间数据;对中间数据进行聚类分析以及监督学习,得到多个子集,其中,每个子集包括多个实例;在各个子集内针对恶意攻击命令进行关联规则提取;将提取出的关联规则作为攻击特征存储至特征标注集中;因为采用主成分分析方式,可以避免因为其他成分的关系影响数据的生成,其生成的结果准确率更高;3.循环神经网络的建立,本发明的循环神经网络通过时间步的解译器隐藏特征量生成该时间步的神经网络输出更新;以及将该时间步的所述神经网络输出更新与当前神经网络输出相结合,以生成更新的神经网络输出,实现了神经网络的更新,同时利用神经网络的误差函数,反馈修正对抗生成网络模型,提升了生成诱饵的准确率,也提升了生成诱饵的效率。
附图说明
图1为本发明的实施例提供的基于深度学习和数据聚类的伴随式诱饵生成方法的系统结构示意图;
图2为本发明的实施例提供的基于深度学习和数据聚类的伴随式诱饵生成方法的对用户数据进行分类的方法的流程示意图;
图3为本发明的实施例提供的基于深度学习和数据聚类的伴随式诱饵生成方法及装置的循环神经网络的结构示意图;
图4为本发明的实施例提供的基于深度学习和数据聚类的伴随式诱饵生成方法及装置的数据进行分类的分类树结构示意图;
图5为本发明的实施例提供的基于深度学习和数据聚类的伴随式诱饵生成方法及装置的诱饵误差率随着实验次数变化的实验效果示意图与现有技术的对比实验效果示意图。
具体实施方式
以下结合具体实施方式和附图对本发明的技术方案作进一步详细描述:
实施例1
如图1、图2所示,基于深度学习和数据聚类的伴随式诱饵生成方法,其特征在于,所述方法执行以下步骤:
步骤1:获取用户数据,使用预建立的数据分类模型对用户数据进行分类,为分类后的每个类别的用户数据添加标签;
步骤2:建立对抗网络生成模型,同时基于对抗网络生成模型的模型结构,建立适配的循环神经网络;所述对抗网络生成模型为数据转换模型,将常规数据转换为诱饵数据;所述循环神经网络,基于现有的常规数据和诱饵数据进行训练,同时,将对抗网络生成模型中输入的常规数据和对抗网络生成模型转换后的诱饵数据作为输入,得到输出后,通过误差函数判断诱饵生成的准确率,以误差函数的判断结果,生成参数调整参数,反向作用于对抗网络生成模型,以调整对抗网络生成模型的参数;
步骤3:对抗网络生成模型在循环神经网络的驱动下,基于添加标签后的用户数据,进行特征融合分析,生成诱饵。
采用上述技术方案,本发明采用深度学习的聚类方法,以及对抗生成网络算法的文本处理手段,达到智能生成伴随式诱饵的目的,同时生成的诱饵的相似度更高,提升了诱捕攻击者的能力。其通过以下过程实现:1.用户数据的分类处理,本发明通过建立数据分类树的方式,对用户数据进行分类,根据数据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,通过这种方式进行数据分类后,数据的类别区分更加明显,同时,相较于传统的数据分类方式,分类树进行数据分类,效率也更高;2.诱饵数据的转换,本发明利用主成分分析法对常规数据进行特征筛选,得到中间数据;对中间数据进行聚类分析以及监督学习,得到多个子集,其中,每个子集包括多个实例;在各个子集内针对恶意攻击命令进行关联规则提取;将提取出的关联规则作为攻击特征存储至特征标注集中;因为采用主成分分析方式,可以避免因为其他成分的关系影响数据的生成,其生成的结果准确率更高;3.循环神经网络的建立,本发明的循环神经网络通过时间步的解译器隐藏特征量生成该时间步的神经网络输出更新;以及将该时间步的所述神经网络输出更新与当前神经网络输出相结合,以生成更新的神经网络输出,实现了神经网络的更新,同时利用神经网络的误差函数,反馈修正对抗生成网络模型,提升了生成诱饵的准确率,也提升了生成诱饵的效率。
实施例2
在上一实施例的基础上,所述步骤1中获取的用户数据至少包括:用户行为数据、应用使用数据、网络环境数据、登录凭据数据、文件数据和流量数据;所述步骤1中使用预建立的数据分类模型对用户数据进行分类包括以下步骤:建立数据分类树,所述数据分类树为多叉树,包含至少两层,且所述数据分类树中各个节点对应各自的分类类型;根据所述数据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,所述训练语料预先经过类型标注并存储在对应的节点中,所述父节点对应至少一个子节点,所述分类模型用于将语料划分到对应的子节点;通过所述数据分类树中各个节点的所述分类模型对所述用户数据进行逐级分类。
参考图4,具体的,分类树为一种决策树,这个决策树像一棵倒长的树,变量年龄所在的节点称为根节点(root node),而底部的四个节点称为叶节点(leaf node)或终节点(terminal node)。这个树也称为分类树(classification tree),因为其目的是要把一个观测划分为“高风险”或“低风险”每个叶节点都是因变量的取值,而除了叶节点外的其他节点都是自变量。对于这个决策树,只要输人关于某司机的这几个变量的值,就立刻得到该司机相关的风险分类。
还有一种决策树是回归树(regression tree),其根节点为连续的因变量在这个分叉上的平均取值,分类树和回归树合起来也叫做CART(Classification And RegressionTree),上面的描述性决策树是二分的(binary split),即每个非叶节点(non-leaf node)刚好有两个叉。决策树也可有多分叉的(multi-way split)。决策树的节点上的变量可能是各种形式的(连续、离散、有序、分类变量等),一个变量也可以重复出现在不同的节点,一个节点前面的节点称为其父节点(母节点或父母节点,parent node),而该节点为前面节点的子节点(女节点或子女节点,child node),并列的节点也叫兄弟节点(姊妹节点,siblingnode)。上面的例子是一棵现成的树,它不是随便画的,而是根据数据做出来的。
和经典回归不同,决策树不需要对总体进行分布的假定,而且,决策树对于预测很容易解释,这是其优点,此外,决策树很容易计算,但有必要设定不使其过分生长的停止规则或者修剪方法,决策树的一个缺点是每次分叉只和前一次分叉有关,而且并不考虑对以后的影响。因此,每个节点都依赖于前面的节点。如果开始的划分不同,结果也可能很不一样,目前有些人在研究分叉时考虑未来,但由于可能导致强度很大的计算,还没有见之于实际应用阶段。
实施例3
在上一实施例的基础上,所述步骤2中对抗网络生成模型为数据转换模型,将常规数据转换为诱饵数据包括以下步骤:利用主成分分析法对所述常规数据进行特征筛选,得到中间数据;对所述中间数据进行聚类分析以及监督学习,得到多个子集,其中,每个子集包括多个实例;在各个所述子集内针对恶意攻击命令进行关联规则提取;将提取出的关联规则作为攻击特征存储至特征标注集中。
具体的,聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
实施例4
在上一实施例的基础上,对所述中间数据进行聚类分析以及监督学习,得到多个子集,包括以下步骤:依据所述中间数据,对所述中间数据进行中心点聚类;所述中间数据包括:时间戳、包头、包长和源IP地址;依据所述中间数据的恶意攻击命令,对所述中间数据进行短文本聚类;基于所述中心点聚类对应的权重和所述短文本聚类对应的权重,将所述中间数据划分为多个子集。
实施例5
在上一实施例的基础上,所述循环神经网络包括:
编译神经网络,其中所述编译神经网络是循环神经网络的输入层,所述编译神经网络被配置成,在所述编译神经网络处理的每个输入数据项以及在多个时间步中的每个时间步处:接收通过从所述输入数据项读取而捕获的子特征;接收前一时间步的解译器神经网络的解译器隐藏特征量,以及处理所述子特征、所述解译器隐藏特征量、以及来自所述前一时间步的所述编译神经网络的编译隐藏特征量,以生成该时间步的编译隐藏特征量;
解译器神经网络,其中所述解译器神经网络是卷积神经网络;所述解译器神经网络被配置成,对于多个时间步中的每个时间步:接收该时间步的解译器输入,以及处理前一时间步的解译器隐藏特征量和该解译器输入,以生成该时间步的解译器隐藏特征量;
以及子系统,其中,所述子系统被配置成,对于所述时间步中的每个时间步:使用前一时间步的解译器隐藏特征量,从所述输入数据项读取所述子特征;提供所述子特征作为所述编译神经网络的输入;在该时间步处,从所述编译隐藏特征量生成所述解译器神经网络的解译器输入;提供该解译器输入作为该时间步的所述解译器神经网络的输入;从该时间步的解译器隐藏特征量生成该时间步的神经网络输出更新;以及将该时间步的所述神经网络输出更新与当前神经网络输出相结合,以生成更新的神经网络输出。
参考图3,图3中的,i=1,2,3…n表示循环神经网络的输出,,i=1,2,3…n表示循环神经网络的输入,输入可以是任何数据类型。循环神经网络具备多个隐藏层,还有一个投影层,投影层将循环神经网络的输入层的数据进行投影。
循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。
对循环神经网络的研究始于二十世纪80-90年代,并在二十一世纪初发展为深度学习(deep learning)算法之一,其中双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)是常见的的循环神经网络。
循环神经网络具有记忆性、参数共享并且图灵完备(Turing completeness),因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理(NaturalLanguage Processing, NLP),例如语音识别、语言建模、机器翻译等领域有应用,也被用于各类时间序列预报。引入了卷积神经网络(Convoutional Neural Network,CNN)构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。
实施例6
在上一实施例的基础上,所述误差函数为:;其中 代表对抗网络生成模型生成的诱饵的准确率;代表设定的诱饵的标准准确率; 代表进入循环神经网络的样本量大小;代表对抗网络生成模型生成的诱饵,代表现有的诱饵数据,代表理想的诱饵数据;当得到的值在设定的阈值范围内,则代表对抗网络生成模型生成的诱饵满足设定的标准;若得到的值超过设定的阈值范围,则代表对抗网络生成模型生成的诱饵不满足设定的标准;此时,循环神经网络将反馈参数调整数据。
实施例7
在上一实施例的基础上,所述特征融合分析包括以下步骤:将两个添加标签后的用户数据输入特征融合分析模型中,得到两个输出变量,将两个输出变量取均值,完成特征融合分析;所述特征融合模型使用如下公式表示: ;其中, 、、和为设定的常量,其取值根据循环神经网络反馈的参数调整数据而改变,其取值范围均为:1~12;和为添加标签后的用户数据;和为对应的两个输出变量;为变换后的中间变量;为变换后的中间变量。
参考图5,现有技术中,一般通过信息融合实现特征融合分析,信息融合是一个组合数据和信息以估计或预测实体状态的过程。本发明研究分布在网络各地的分析节点间恶意软件分析结果融合是信息融合在网络安全方面的应用,是一类特殊的信息融合。目前恶意软件攻击采用多种复杂攻击方式,比如将多个样本分布在网络各地的多攻击源分布式攻击和跳板攻击,同时恶意软件广泛分散且行为隐蔽,单个主机和单个网络无法准确判断其恶意性或者全面了解其攻击试图。因此融合分布在各地的信息来准确了解恶意软件本质特性和全局攻击视图成为网络安全研究的热点。
本发明通过以下三个过程实现了与现有技术区别的方案:1.用户数据的分类处理,本发明通过建立数据分类树的方式,对用户数据进行分类,根据数据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,通过这种方式进行数据分类后,数据的类别区分更加明显,同时,相较于传统的数据分类方式,分类树进行数据分类,效率也更高;2.诱饵数据的转换,本发明利用主成分分析法对常规数据进行特征筛选,得到中间数据;对中间数据进行聚类分析以及监督学习,得到多个子集,其中,每个子集包括多个实例;在各个子集内针对恶意攻击命令进行关联规则提取;将提取出的关联规则作为攻击特征存储至特征标注集中;因为采用主成分分析方式,可以避免因为其他成分的关系影响数据的生成,其生成的结果准确率更高;3.循环神经网络的建立,本发明的循环神经网络通过时间步的解译器隐藏特征量生成该时间步的神经网络输出更新;以及将该时间步的所述神经网络输出更新与当前神经网络输出相结合,以生成更新的神经网络输出,实现了神经网络的更新,同时利用神经网络的误差函数,反馈修正对抗生成网络模型,提升了生成诱饵的准确率,也提升了生成诱饵的效率。
实施例8
一种基于深度学习和数据聚类的伴随式诱饵生成的装置,所述装置包括:数据处理装置、对抗网络生成模型装置和循环神经网络;所述数据处理装置配置用于获取用户数据,使用预建立的数据分类模型对用户数据进行分类,为分类后的每个类别的用户数据添加标签;所述对抗网络生成模型装置,为数据转换模型,配置用于将常规数据转换为诱饵数据;所述循环神经网络,配置用于基于现有的常规数据和诱饵数据进行训练,同时,将对抗网络生成模型中输入的常规数据和对抗网络生成模型转换后的诱饵数据作为输入,得到输出后,通过误差函数判断诱饵生成的准确率,以误差函数的判断结果,生成参数调整参数,反向作用于对抗网络生成模型,以调整对抗网络生成模型的参数。
实施例9
在上一实施例的基础上,所述循环神经网络包括:
编译神经网络,其中所述编译神经网络是循环神经网络的输入层,所述编译神经网络被配置成,在所述编译神经网络处理的每个输入数据项以及在多个时间步中的每个时间步处:接收通过从所述输入数据项读取而捕获的子特征;接收前一时间步的解译器神经网络的解译器隐藏特征量,以及处理所述子特征、所述解译器隐藏特征量、以及来自所述前一时间步的所述编译神经网络的编译隐藏特征量,以生成该时间步的编译隐藏特征量;
解译器神经网络,其中所述解译器神经网络是卷积神经网络;所述解译器神经网络被配置成,对于多个时间步中的每个时间步:接收该时间步的解译器输入,以及处理前一时间步的解译器隐藏特征量和该解译器输入,以生成该时间步的解译器隐藏特征量;
以及子系统,其中,所述子系统被配置成,对于所述时间步中的每个时间步:使用前一时间步的解译器隐藏特征量,从所述输入数据项读取所述子特征;提供所述子特征作为所述编译神经网络的输入;在该时间步处,从所述编译隐藏特征量生成所述解译器神经网络的解译器输入;提供该解译器输入作为该时间步的所述解译器神经网络的输入;从该时间步的解译器隐藏特征量生成该时间步的神经网络输出更新;以及将该时间步的所述神经网络输出更新与当前神经网络输出相结合,以生成更新的神经网络输出。
实施例10
在上一实施例的基础上,所述用户数据至少包括:用户行为数据、应用使用数据、网络环境数据、登录凭据数据、文件数据和流量数据。
以上所述仅为本发明的一个实施例子,但不能以此限制本发明的范围,凡依据本发明所做的结构上的变化,只要不失本发明的要义所在,都应视为落入本发明保护范围之内受到制约。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (9)
1.基于深度学习和数据聚类的伴随式诱饵生成方法,其特征在于,所述方法执行以下步骤:
步骤1:获取用户数据,使用预建立的数据分类模型对用户数据进行分类,为分类后的每个类别的用户数据添加标签;
步骤2:建立对抗网络生成模型,同时基于对抗网络生成模型的模型结构,建立适配的循环神经网络;所述对抗网络生成模型为数据转换模型,将常规数据转换为诱饵数据;所述循环神经网络,基于现有的常规数据和诱饵数据进行训练,同时,将对抗网络生成模型中输入的常规数据和对抗网络生成模型转换后的诱饵数据作为输入,得到输出后,通过误差函数判断诱饵生成的准确率,以误差函数的判断结果,生成参数调整参数,反向作用于对抗网络生成模型,以调整对抗网络生成模型的参数;
步骤3:对抗网络生成模型在循环神经网络的驱动下,基于添加标签后的用户数据,进行特征融合分析,生成诱饵;
2.如权利要求1所述的方法,其特征在于,所述步骤1中获取的用户数据至少包括:用户行为数据、应用使用数据、网络环境数据、登录凭据数据、文件数据和流量数据;所述步骤1中使用预建立的数据分类模型对用户数据进行分类包括以下步骤:建立数据分类树,所述数据分类树为多叉树,包含至少两层,且所述数据分类树中各个节点对应各自的分类类型;根据所述数据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,所述训练语料预先经过类型标注并存储在对应的节点中,所述父节点对应至少一个子节点,所述分类模型用于将语料划分到对应的子节点;通过所述数据分类树中各个节点的所述分类模型对所述用户数据进行逐级分类。
3.如权利要求2所述的方法,其特征在于,所述步骤2中对抗网络生成模型为数据转换模型,将常规数据转换为诱饵数据包括以下步骤:利用主成分分析法对所述常规数据进行特征筛选,得到中间数据;对所述中间数据进行聚类分析以及监督学习,得到多个子集,其中,每个子集包括多个实例;在各个所述子集内针对恶意攻击命令进行关联规则提取;将提取出的关联规则作为攻击特征存储至特征标注集中。
4.如权利要求3所述的方法,其特征在于,对所述中间数据进行聚类分析以及监督学习,得到多个子集,包括以下步骤:依据所述中间数据,对所述中间数据进行中心点聚类;所述中间数据包括:时间戳、包头、包长和源IP地址;依据所述中间数据的恶意攻击命令,对所述中间数据进行短文本聚类;基于所述中心点聚类对应的权重和所述短文本聚类对应的权重,将所述中间数据划分为多个子集。
5.如权利要求3所述的方法,其特征在于,所述循环神经网络包括:
编译神经网络,其中所述编译神经网络是循环神经网络的输入层,所述编译神经网络被配置成,在所述编译神经网络处理的每个输入数据项以及在多个时间步中的每个时间步处:接收通过从所述输入数据项读取而捕获的子特征;接收前一时间步的解译器神经网络的解译器隐藏特征量,以及处理所述子特征、所述解译器隐藏特征量、以及来自所述前一时间步的所述编译神经网络的编译隐藏特征量,以生成该时间步的编译隐藏特征量;
解译器神经网络,其中所述解译器神经网络是卷积神经网络;所述解译器神经网络被配置成,对于多个时间步中的每个时间步:接收该时间步的解译器输入,以及处理前一时间步的解译器隐藏特征量和该解译器输入,以生成该时间步的解译器隐藏特征量;
以及子系统,其中,所述子系统被配置成,对于所述时间步中的每个时间步:使用前一时间步的解译器隐藏特征量,从所述输入数据项读取所述子特征;提供所述子特征作为所述编译神经网络的输入;在该时间步处,从所述编译隐藏特征量生成所述解译器神经网络的解译器输入;提供该解译器输入作为该时间步的所述解译器神经网络的输入;从该时间步的解译器隐藏特征量生成该时间步的神经网络输出更新;以及将该时间步的所述神经网络输出更新与当前神经网络输出相结合,以生成更新的神经网络输出。
7.用于实现权利要求1至6之一所述方法的基于深度学习和数据聚类的伴随式诱饵生成装置,其特征在于,所述装置包括:数据处理装置、对抗网络生成模型装置和循环神经网络;所述数据处理装置配置用于获取用户数据,使用预建立的数据分类模型对用户数据进行分类,为分类后的每个类别的用户数据添加标签;所述对抗网络生成模型装置,为数据转换模型,配置用于将常规数据转换为诱饵数据;所述循环神经网络,配置用于基于现有的常规数据和诱饵数据进行训练,同时,将对抗网络生成模型中输入的常规数据和对抗网络生成模型转换后的诱饵数据作为输入,得到输出后,通过误差函数判断诱饵生成的准确率,以误差函数的判断结果,生成参数调整参数,反向作用于对抗网络生成模型,以调整对抗网络生成模型的参数。
8.如权利要求7所述的装置,其特征在于,所述循环神经网络包括:
编译神经网络,其中所述编译神经网络是循环神经网络的输入层,所述编译神经网络被配置成,在所述编译神经网络处理的每个输入数据项以及在多个时间步中的每个时间步处:接收通过从所述输入数据项读取而捕获的子特征;接收前一时间步的解译器神经网络的解译器隐藏特征量,以及处理所述子特征、所述解译器隐藏特征量、以及来自所述前一时间步的所述编译神经网络的编译隐藏特征量,以生成该时间步的编译隐藏特征量;
解译器神经网络,其中所述解译器神经网络是卷积神经网络;所述解译器神经网络被配置成,对于多个时间步中的每个时间步:接收该时间步的解译器输入,以及处理前一时间步的解译器隐藏特征量和该解译器输入,以生成该时间步的解译器隐藏特征量;
以及子系统,其中,所述子系统被配置成,对于所述时间步中的每个时间步:使用前一时间步的解译器隐藏特征量,从所述输入数据项读取所述子特征;提供所述子特征作为所述编译神经网络的输入;在该时间步处,从所述编译隐藏特征量生成所述解译器神经网络的解译器输入;提供该解译器输入作为该时间步的所述解译器神经网络的输入;从该时间步的解译器隐藏特征量生成该时间步的神经网络输出更新;以及将该时间步的所述神经网络输出更新与当前神经网络输出相结合,以生成更新的神经网络输出。
9.如权利要求8所述的装置,其特征在于,所述用户数据至少包括:用户行为数据、应用使用数据、网络环境数据、登录凭据数据、文件数据和流量数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011068789.6A CN111931874B (zh) | 2020-10-09 | 2020-10-09 | 基于深度学习和数据聚类的伴随式诱饵生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011068789.6A CN111931874B (zh) | 2020-10-09 | 2020-10-09 | 基于深度学习和数据聚类的伴随式诱饵生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931874A CN111931874A (zh) | 2020-11-13 |
CN111931874B true CN111931874B (zh) | 2020-12-25 |
Family
ID=73333696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011068789.6A Active CN111931874B (zh) | 2020-10-09 | 2020-10-09 | 基于深度学习和数据聚类的伴随式诱饵生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931874B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112637217B (zh) * | 2020-12-24 | 2022-11-25 | 企商在线(北京)数据技术股份有限公司 | 基于诱饵生成的云计算系统的主动防御方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11501156B2 (en) * | 2018-06-28 | 2022-11-15 | International Business Machines Corporation | Detecting adversarial attacks through decoy training |
CN109067778B (zh) * | 2018-09-18 | 2020-07-24 | 东北大学 | 一种基于蜜网数据的工控扫描器指纹识别方法 |
CN110958263B (zh) * | 2019-12-13 | 2022-07-12 | 腾讯云计算(北京)有限责任公司 | 网络攻击检测方法、装置、设备及存储介质 |
CN111343174B (zh) * | 2020-02-22 | 2022-04-26 | 上海观安信息技术股份有限公司 | 一种智能学习式自应答工业互联网蜜罐诱导方法及系统 |
CN111726809B (zh) * | 2020-06-17 | 2021-11-23 | 华中科技大学 | 数控环境下的网络安全审计方法及系统 |
-
2020
- 2020-10-09 CN CN202011068789.6A patent/CN111931874B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111931874A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Choi et al. | Unsupervised learning approach for network intrusion detection system using autoencoders | |
Namdev et al. | Recent advancement in machine learning based internet traffic classification | |
Shen et al. | On robust image spam filtering via comprehensive visual modeling | |
Sharma et al. | Analysis of machine learning techniques based intrusion detection systems | |
CN108768986A (zh) | 一种加密流量分类方法及服务器、计算机可读存储介质 | |
CN111126576B (zh) | 一种深度学习的训练方法 | |
CN114124482B (zh) | 基于lof和孤立森林的访问流量异常检测方法及设备 | |
Thom et al. | Smart recon: Network traffic fingerprinting for iot device identification | |
Pai et al. | Comparative analysis of machine learning algorithms for intrusion detection | |
CN111931874B (zh) | 基于深度学习和数据聚类的伴随式诱饵生成方法及装置 | |
Kireev et al. | Automatic fuzzy cognitive map building online system | |
Bartos et al. | Robust representation for domain adaptation in network security | |
Chippa et al. | Application of machine learning techniques to classify web services | |
Goyal et al. | Spam detection using KNN and decision tree mechanism in social network | |
US10163005B2 (en) | Document structure analysis device with image processing | |
CN114358177B (zh) | 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统 | |
Othman et al. | An efficient spark-based network anomaly detection | |
Wei | Deep learning model under complex network and its application in traffic detection and analysis | |
Arumugam et al. | Machine Learning For Detecting Twitter Bot | |
CN115442309B (zh) | 一种基于图神经网络的包粒度网络流量分类方法 | |
Sharma | Deep Learning-Based Security Behaviour Analysis in IOT | |
Bangera et al. | Machine Learning Driven Feature Sensitive Progressive Sampling Model for BigData Analytics | |
CN114997278B (zh) | 基于计算机算法模型的工程数字化信息分析方法 | |
James et al. | Over-the-top Applications Traffic Analysis Model for Networks using Multilayer Perceptron (MLP) and Long Short-term Memory (LSTM) | |
Branitskiy et al. | Attack detection in mobile internet and networks using the graph-based schemes for combining the support vector machines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |