CN113055372B - 一种恶意软件的传播预测方法 - Google Patents
一种恶意软件的传播预测方法 Download PDFInfo
- Publication number
- CN113055372B CN113055372B CN202110255051.9A CN202110255051A CN113055372B CN 113055372 B CN113055372 B CN 113055372B CN 202110255051 A CN202110255051 A CN 202110255051A CN 113055372 B CN113055372 B CN 113055372B
- Authority
- CN
- China
- Prior art keywords
- user node
- user
- propagation
- malicious software
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 40
- 230000006399 behavior Effects 0.000 claims abstract description 39
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 34
- 208000015181 infectious disease Diseases 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 230000002452 interceptive effect Effects 0.000 claims abstract description 7
- 230000000644 propagated effect Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 37
- 230000003993 interaction Effects 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000007480 spreading Effects 0.000 claims description 5
- 230000003416 augmentation Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000005012 migration Effects 0.000 claims description 2
- 238000013508 migration Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 8
- 241000700605 Viruses Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000011273 social behavior Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/145—Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于互联网应用技术领域,尤其涉及一种恶意软件的传播预测方法;所述方法包括获取数据库中用户节点及其交互数据,并提取出用户节点的传播属性;采用Doc2vec算法从用户节点传播内容组成的段落中学习出用户节点的用户行为特征向量;采用基于张量分解的向量化算法Tensor2vec从恶意软件传播网络中学习出用户节点网络结构特征向量;在图卷积神经网络中对恶意软件进行传播预测,并预测出恶意软件是否传播给用户节点和该恶意软件的传播趋势;本发明考虑到数据的稀疏性带来的计算精度不准的问题,采用张量分解的方法计算用户节点间的感染强度,并利用表示学习方法挖掘恶意软件传播空间特征信息,能有效进行恶意软件的传播预测。
Description
技术领域
本发明属于互联网应用技术领域,涉及网络与信息安全技术,尤其涉及一种恶意软件的传播预测方法。
背景技术
近年来,恶意软件的数量和危害急剧增加,其对网络和用户节点造成的威胁被认为是未来几年最显著的风险之一。早期的恶意软件主要局限于计算机病毒,但是随着互联网的发展和网络攻击的多样化,恶意软件的概念已经超越了传统的狭义概念,特别是随着高级持续性威胁(Advanced Persistent Threat,简称APT)、供应链攻击(Supply ChainAttacks,简称SCA)、僵死网络和勒索软件等恶意软件出现后,恶意软件更凸显出其对目标的专有性、控制性和破坏性。
此外,自2017年WannaCry勒索软件大规模爆发三年后,勒索软件的感染率首次下降,但企业勒索软件感染率跳涨12%,与总体下降趋势相反,这显示出勒索软件对企业的威胁还在持续增加。伴随着恶意软件的数量和危害急剧增加,以至于恶意软件被认为是未来几年最显著的风险之一。网络战在本发明日常生活中所起的作用不应低估,不仅可以对重大选举造成巨大的影响,甚至还有可能瘫痪企业。
近年来,对恶意软件传播的研究受到了广泛关注,学者和技术人员们主要基于传播动力学方法和机器学习方法来开展恶意软件预测研究。基于传播动力学的模型思想来源于生物病毒传播,针对生物病毒传播和计算机病毒传播之间的许多相似之处,在经典SIR传播模型的基础上,研究了计算机病毒在不同现象下的传播行为(Liu XY,Liu JM.Novelnon-linear dynamics P2P network worm propagation and immune model.IetInformation Security.2020;14(2):175-84.)。基于机器学习的预测模型思想主要是通过传统机器学习方法或神经网络来挖掘恶意软件传播空间中的特征信息,并据此研究用户节点行为和恶意软件传播规律,将恶意软件预测问题转化为分类或回归问题进行预测(Bahtiyar S,Yaman MB,Altinigne CY.A multi-dimensional machine learningapproach to predict advanced malware.Comput Netw.2019;160:118-29.)。
基于经典SIR传播动力学研究恶意软件传播预测是通过网络结构和用户节点属性出发,进行特征提取,但是没有充分考虑用户节点间潜在的相互作用对特征提取准确性的影响。基于机器学习或神经网络的模型,往往又忽略了恶意软件传播网络中的用户关系和用户行为的多样性,导致需显式的提取出用户间的感染强度和不同恶意软件之间的影响力。
发明内容
基于现有技术存在的问题,本发明考虑到在社交网络中一个话题通常由多条相关消息同时在网络中进行传播。本发明受此启发,将社交网络中的用户节点当作可能会被感染计算机恶意软件的计算机,将用户节点是否转发某条话题当作用户节点是否被感染并传播此恶意软件,那么对恶意软件的预测即为对社交网络中话题传播进行恢复的过程。基于此,结合社交网络话题传播的过程,本发明提出了一种恶意软件传播预测方法,着重考虑了恶意软件的传播趋势以及预测后续会被感染的用户节点,不仅能够有效地预测网络中多种恶意软件传播的节点群体行为,同时,还能挖掘出节点的不同特征对传播态势的影响。
本发明通过如下技术方案解决上述技术问题:
一种恶意软件的传播预测方法,所述方法包括:
获取数据库中用户节点及其交互数据,所述用户节点为恶意软件传播网络中的所有用户节点,所述交互数据包括用户节点信息、用户节点行为特征以及用户节点传播内容;
根据所获取的用户节点实时数据提取出用户节点的传播属性;所述用户节点的传播属性包括用户节点活跃度以及恶意软件感染强度;
采用Doc2vec算法从所述用户节点传播内容组成的段落中学习出用户节点行为特征向量;
采用基于张量分解的向量化算法Tensor2vec从所述恶意软件传播网络中学习出用户节点网络结构特征向量;
将所述用户节点行为特征向量以及所述用户节点网络结构特征向量输入到图卷积神经网络中,对恶意软件进行传播预测,并预测出恶意软件是否传播给用户节点以及所述恶意软件的传播趋势。
本发明的有益效果:
1、本发明基于恶意软件传播网络中节点间交互的复杂性,使用张量进行数据形式的表示;同时,利用张量分解在数据稀疏和降维方面的优越性,分析出用户节点间关系对感染强度的影响,并通过张量分解方式提取了用户节点的复合特征。
2、本发明引入了一种学习恶意软件传播潜在结构特征的新方法Tensor2vec,通过张量分解获取网络节点间潜在的交互关系,进而通过融入节点间的感染强度来提取隐结构特征。
3、本发明建立了一种动态的、基于表示学习和GCN的恶意软件传播预测装置,不仅能够有效地预测网络中多种恶意软件传播趋势,本发明装置能更精准地挖掘出节点的不同特征对传播趋势的影响。
4、本发明可以应用于网络安全管控,有助于掌握恶意软件在网络上的传播态势,还能挖掘到网络中用户节点行为数据和关系结构对传播的影响。也可以使监管部门更准确地掌握恶意软件的传播,并加以引导和管控。
附图说明
图1是本发明实施例中一种恶意软件的传播预测方法的示意图;
图2是本发明优选实施例中的一种恶意软件的传播预测方法的流程图;
图3是本发明实施例中所采用的三维张量示意图;
图4是本发明实施例中采用三阶Turkey分解模型示意图;
图5是本发明实施例中三阶张量展开示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明是一种恶意软件的传播预测方法,本发明结合社交网络话题传播的过程,对现有的恶意软件的传播预测方法进行改进,以有效地预测网络中多种恶意软件传播的节点群体行为,并挖掘出节点的不同特征对传播态势的影响;为了能够实现所提出的恶意软件的传播预测方法,达到预测恶意软件传播用户行为的目的,在研究过程中,需解决如下技术问题:
1.用户交互行为数据的稀疏性。传播网络中存在海量的用户和数据,随着时间的推移,虽然已被恶意软件感染的用户数量以及用户间的交互行为都会快速增长,但是特定两个用户产生信息交互的概率较小,从而造成用户之间的感染强度计算出现片面性,不能真实的反映用户之间的感染强度。
2.恶意软件传播网络的复杂性。恶意软件传播网络中的用户关系和用户行为的多样性,导致需要显式的提取出用户间的感染强度和不同恶意软件之间的影响力。
3.恶意软件传播的动态时效性。在恶意软件的时效特征下,不同阶段用户的参与情况是不均匀的。在数据不均匀的情况下,需动态化、阶段化预测用户的传播恶意软件行为。
基于上述内容,图1给出了本发明实施例中的一种恶意软件的传播预测方法的示意图;如图1所示,所述恶意软件的传播预测方法需要输入用户行为特征、用户传播内容以及恶意软件传播网络;从中提取出个体因素和环境因素;构建出用户和恶意软件的传播空间,在这个传播空间中,使用Doc2vec算法提取出用户节点行为特征向量;使用Tensor2vec算法提取出用户节点网络结构特征向量;将这些向量输入到图卷积神经网络中,输出恶意软件是否会传播给用户的二分类结果,以及该恶意软件的传播趋势。
图2是本发明优选实施例中的一种恶意软件的传播预测方法的流程图,如图2所示,所述一种恶意软件的传播预测方法包括:
101、获取数据库中用户节点及其交互数据;
所述用户节点为恶意软件传播网络中的所有用户节点,所述实时数据包括用户节点信息、用户节点行为特征以及用户节点传播内容;具体的,这些实时数据可以包括用户节点本身的信息、用户传播、评论和转发信息的数量及内容。
在一般意义上,恶意软件对象在彼此连接的用户之间传播。例如,在企业内,操作被连接到企业网络的机器的用户可被恶意软件对象感染。那个恶意软件对象然后可通过网络传播,并且尝试感染其它易受攻击的机器;因此这里的恶意软件传播网络主要指的是这些恶意软件传播所形成的网络,这个网络既可以包括企业局域网等具体的通信网络,也可以包括基于用户节点所抽象出的社交网络。
其中,在本发明中,获取数据的方式可以通过企业提供的数据库中实时查询、社交网络公共API接口转入或直接下载现有数据源。
因此,在本发明中,所述交互数据可以为实时数据也可以为历史数据,所述历史数据可以提升所述传播预测方法的精度,所述实时数据可以预测出当前以及未来的恶意软件传播情况,便于对后续恶意软件传播进行控制。
在一些优选实施例中,本发明还对所采集到的数据进行数据清洗,通常获取的原始数据都是非结构化的,不能直接用于数据分析。通过简单的数据清洗可以使大部分非结构化数据结构化。例如,删除重复数据、清理无效信息等。
102、根据所获取的用户节点交互数据提取出用户节点的传播属性;
所述用户节点的传播属性包括用户节点活跃度以及恶意软件感染强度;本发明实施例中分别从用户信息和行为数据两方面来提取相关属性。
在恶意软件传播网络中,用户被恶意软件感染会受多方面因素影响,比如:用户主动传播的信息、用户转发的信息和网络中节点间的相互影响等等。基于此,本发明从个体因素和环境因素两个方面,提取感染用户的因子,构建用户-恶意软件传播空间,具体如下:
提取个体因素。
用户节点活跃度AV(ui)。用户节点活跃度高表示其将在网络传播中起到重要传播作用,可能大量主动传播或者转发恶意软件。本发明根据用户节点行为数据,可以定义用户活跃度为:
AV(ui)=log2(N[twitter(ui)]+N[comment(ui)])+N[retweet(ui)]
其中,AV(ui)表示用户节点ui的活跃度;N[twitter(ui)]表示用户节点ui在时间段t内主动传播信息的数量,N[comment(ui)]表示用户节点ui在时间段t内评论的信息数量,N[retweet(ui)]表示用户节点ui在时间段t内转发信息的数量。
S22:提取环境因素。
恶意软件感染强度Inf(mi)。在网络中,同时有多个恶意软件共同传播,不同的恶意软件的感染强度不尽相同。感染强度高的恶意软件能在短时间内感染更多的用户节点,对网络造成更大的危害。对于恶意软件mi,其感染强度为:
其中,Inf(mi)表示恶意软件mi的感染强度;AV(uj)表示在时段t内,已感染该恶意软件的用户节点uj的活跃度,Backup(uj)表示用户节点uj的潜在用户节点。
103、采用Doc2vec算法从所述用户节点传播内容组成的段落中学习出用户节点行为特征向量;
在本发明实施例中,通过对用户节点行为分析,使用Doc2vec算法,利用段落特征向量的优势,将用户节点社交行为表示学习成一个反应用户节点习惯和偏好的向量。
具体的,在恶意软件传播网络中,通过对用户节点行为分析,可获得用户习惯及偏好。因此,提取一段时间内用户节点主动发送的信息以及转发的信息,组成段落。从而可以使用Doc2vec算法,利用段落特征向量的优势,将用户节点社交行为表示学习成一个反应用户节点习惯和偏好的向量。
在使用Doc2vec算法处理前,本发明需要对段落进行文本预处理,文本预处理是文本分类中至关重要的一步,中文分词的结果以及停用词的存在都会直接影响特征提取的结果,进而影响文本分类的效果。考虑到中文语法的特殊性,本发明采用Jieba中文分词工具对原始语料进行分词处理,初步分词后需对分词结果进行词性判断,保留其中的名词和动词。同时,需要引入停用词去除分词结果中无用的词,避免干扰分类结果,最终得到了用户节点行为的候选关键词。
考虑到活跃的用户节点对传播有着更重要的影响,通过改进词频-逆向文件频率(Term Frequency–Inverse Document Frequency,简称TF-IDF)算法,在计算词频时区分活跃用户与普通用户的权重值,能更契合网络真实情况,从候选词中提取用户行为数据中的关键词,从而消除了传播网络中的噪点,保留了主要的用户节点信息。得到表示用户节点行为的关键词序列后,再使用Doc2vec算法,输出用户节点行为特征向量:
T=N×Fu
其中,N为恶意软件传播网络中的用户节点数,Fu为用户节点行为特征的表示向量。
104、采用基于张量分解的向量化算法Tensor2vec从所述恶意软件传播网络中学习出用户节点网络结构特征向量;
在本发明实施例中,根据网络的结构特征,基于张量分解设计了一种学习恶意软件传播潜在结构特征的新方法Tensor2vec,并采用skip-gram模型来更新学习节点表示。
在恶意软件传播的复杂网络中,本发明根据网络的结构特征,面对网络中已感染恶意软件的用户节点以及未感染用户节点建立模型,进行传播预测,预测网络中哪些用户节点将被感染。提出一种基于张量挖掘节点间感染强度的机制,分析节点间关系对感染强度的影响,从而设计了一种学习恶意软件传播潜在结构特征的新方法tensor2vec,并采用skip-gram模型来更新学习节点表示。
为了在恶意软件传播网络中发掘出用户节点的关联性,由于任意两个用户节点间交互的稀疏性,如果把用户节点之间的真实网络连接作为他们是否具有关联性的唯一判断标准,那么将造成用户节点间感染强度计算过于片面的问题。本发明针对用户节点间关联性的数据稀疏问题,使用邻接矩阵表示实体间的关联关系,用不同的矩阵表示不同的连接类型。
张量分解提供了一种用户节点特征的表示方式,通过张量分解可以生成用户节点在特征空间的隐特征表示。张量分解可以更好的利用多维空间中的相关性,提供处理稀疏和缺失数据的能力。基于张量分解的模型可以发现实体之间隐含的相互关联,提供面向稀疏数据的近似求解方法。张量分解能有效降低维数来获取更有效的数据表示,并且在一定条件下可以获得具有物理意义的隐含成分和表示形式。
在恶意软件传播网络中,张量的应用可以显式的集成上下文,增加新的维度表示不同的上下文特征信息,可实现多维特征的数据投影。为了分析“已感染用户-未感染用户-节点交互强度”三元组之间的相关性,构建了三维张量其中,I表示已感染用户的维度,J表示未感染用户的维度,K表示节点交互强度的维度,该张量如图3所示。
其中,是张量分解的核张量;A,B和C分别是三个维度的展开矩阵;P,Q,R分别是张量χ在第一、第二和第三模上矩阵化的秩;ap、bq和cr分别表示矩阵A,B和C的列向量。Turkey张量分解模型如图4所示。
为了简化计算,将高阶张量展开成矩阵是非常有必要的。然而,由于高阶张量的“矩阵化”(matricization)过程比较抽象,张量展开往往被视为张量计算的一个重要步骤。对于三阶张量可以按照水平切片、侧向切片和前向切片的这三个模态展开(mode)如图5所示。
每个模态展开后,都可得到一个矩阵,具体如下:
模态1展开(mode-1unfolding):
模态2展开(mode-2unfolding):
模态3展开(mode-3unfolding):
在张量的矩阵展开过程中,是对组成张量的所有阶按交错次序采样,并非简单地先提取某一阶的特征值再采取另一阶的特征值,而在整个采取过程中对不同阶的特征值进行混合交错采样,这样在采集过程中实现了张量不同阶特征值之间的传递和融合。
为了解决恶意软件传播网络中的数据稀疏性问题,本发明使用矩阵的奇异值分解进行。奇异值分解的降维处理主要体现在其低秩逼近问题(low-rank approximationproblem)上,在这里,奇异值分解的低秩逼近也被称为截断奇异值分解(truncated SVD),只选取前k≤min(m,n)最大的奇异值和其对应的特征向量,低秩逼近问题可将奇异值分解表达为:
其中,Pk,∑k和分别表示大小为m×k,k×k和n×k的矩阵,矩阵Pk和∑k分别由矩阵MMT和MTM前k个最大的特征向量组成。同时,矩阵∑k对角线上的元素是前k个最大特征值的平方根(即前k个最大的奇异值)。在恶意软件传播网络中,使用张量分解的方法,通过提取前k对传播影响最大的特征,可应用于对应用户节点的特征表示。根据奇异值分解公式,各模态展开后的近似矩阵:
据此即可得到近似张量:
计算出近似张量χ以后,可从中提取出用户节点间的隐含关联度HR(vi,vj),根据关联度的高低决定网络结构中用户节点的动态游走方式。与传统的node2vec不同的是,由于通过张量分解的方式挖掘出了用户节点间的隐含关联关系,所以本发明中所提出的Tensor2vec算法中的游走方式中存在下一跳节点和当前节点不直接相连的场景。用户节点vi和用户节点vj的隐含关联度为:
HR(vi,vj)=Ai,j
其中,Ai,j表示近似张量χ中A矩阵对应的第i行第j列的元素值。给定当前用户节点vi,访问下一个用户节点vj的条件是:
HR(vi,vj)=max(HR(vi,vj),0≤j≤n)
通过此方式,可以采样完用户节点产生的序列。
在恶意软件传播网络中,使用Tensor2vec的游走方式进行采样,会得到对于每个节点产生的序列,再将这些序列导入skip-gram模型,即可得到每个节点的嵌入向量。Tensor2vec优化的目标是给定每个用户节点的条件下,其关联节点出现的概率最大,其损失函数为:
其中,Nt(v)表示通过张量分解方法采样出的顶点v的关联顶点集合,F(v)是将用户节点(顶点)v映射的嵌入向量,Pr(ni|F(v))表示在用户节点v映射的嵌入向量F(v)下通过张量分解方法采样出的用户节点ni的概率。
最后,输出作为用户节点的网络结构特征向量表示为:
S=n×F(v)
其中,n为恶意软件传播网络中的用户节点数,F(v)为对应用户节点的网络结构特征表示向量。
105、在图卷积神经网络中,对恶意软件进行传播预测,并预测出恶意软件是否传播给用户节点以及所述恶意软件的传播趋势。
将所述用户行为特征向量以及所述用户节点网络结构特征向量输入到所述图卷积神经网络中。
在恶意软件传播网络中,其网络结构是不具备规则的非欧结构,使用普通的卷积神经网络则效果不佳,因此本发明使用适用于图数据来表达的图卷积神经网络GCN。结合通过张量分解获取到的用户节点间的交互特征和通过Tensor2vec提取到的用户节点的特征表示预测恶意软件播中的群体行为。在这项工作中,本发明将传播预测任务定义为一个二分类问题,并通过对不同类型的恶意软件传播进行预测,即给定t时刻恶意软件传播空间的特征信息,预测在t+1时刻传播某类恶意软件的用户节点。
本发明的多分类预测模型输入如下:
1.特征矩阵R=n×F(t,s),其中,n为恶意软件传播网络中的用户节点数,F(t,s)包含用户节点网络结构特征表示向量S和用户节点行为特征向量T。
2.用户节点间的邻接矩阵Adj=N×N,表示恶意软件传播网络中节点之间连接信息。
在本发明预测应用中,本发明将经过张量分解后得到的特征矩阵与用户节点间的邻接矩阵输入到GCN网络,并加入一个dropout中间层,且使用softmax函数将图卷积输出转换成不同节点不同分类的概率值。具体公式表达如下所示:
其中ReLU(x)=max(0,x),W0为图卷积神经网络中第零层的权重矩阵;表示用户节点间的邻接矩阵所对应的归一化对称矩阵;W1为图卷积神经网络中第一层的权重矩阵; 表示矩阵的对角矩阵;表示表示用户节点间的邻接矩阵所对应的增广矩阵;Adj表示用户节点间的邻接矩阵;I表示单位矩阵。
因本发明中中的传播预测实质上是一个二分类预测问题,模型输出为y=Pt+1(n,f|ui),概率值较大的类别为预测结果,具体可以定义如下:
其中,如果对应的Y=1,则判断潜在用户ui将在下一时间段转发恶意软件;如果Y=0,则潜在用户ui在下一间段内将不转发任何恶意软件。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (2)
1.一种恶意软件的传播预测方法,其特征在于,所述方法包括:
获取数据库中用户节点及其交互数据,所述用户节点为恶意软件传播网络中的所有用户节点,所述实时数据包括用户节点信息、用户节点行为特征以及用户节点传播内容;
根据所获取的用户节点交互数据提取出用户节点的传播属性;所述用户节点的传播属性包括用户节点活跃度以及恶意软件感染强度;
所述用户节点活跃度表示为:
AV(ui)=log2(N[twitter(ui)]+N[comment(ui)])+N[retweet(ui)]
其中,AV(ui)表示用户节点ui的活跃度;N[twitter(ui)]表示用户节点ui在时间段t内主动传播信息的数量,N[comment(ui)]表示用户节点ui在时间段t内评论的信息数量,N[retweet(ui)]表示用户节点ui在时间段t内转发信息的数量;
所述恶意软件感染强度表示为:
其中,Inf(mi)表示恶意软件mi的感染强度;AV(uj)表示在时段t内,已感染该恶意软件的用户节点uj的活跃度,Backup(uj)表示用户节点uj的潜在用户节点;
采用Doc2vec算法从所述用户节点传播内容组成的段落中学习出用户节点的行为特征向量,具体包括:
提取一段时间内用户节点传播内容组成段落,采用jieba中文分词方式对所述段落进行分词处理,并保留所述用户节点传播内容中的名词和动词,并去除无用词,得到用户节点行为的候选关键词;采用TF-IDF算法计算词频时区分活跃用户节点与普通用户节点的系数;基于所述系数,从所述候选关键词中选择出用户节点行为数据中的关键词,并得到表示用户节点行为的关键词序列;采用Doc2vec算法输出用户节点行为的特征向量T=n×Fu;
其中,n为恶意软件传播网络中的用户节点数,Fu为用户节点行为特征的表示向量;
采用基于张量分解的向量化算法Tensor2vec从所述恶意软件传播网络中学习出用户节点网络结构特征向量;
根据网络的结构特征,构建出所述恶意软件传播网络中已感染恶意软件的用户节点、未感染恶意软件的用户节点以及用户节点交互强度的三元组之间三维张量;通过Turcker分解的方式进行张量分解,采用不同的模态对各个维度的矩阵展开,并对组成张量的所有阶按交错次序进行采样;利用奇异值分解的方式获取各个模态展开后的近似矩阵,从而获取近似张量;根据所述近似张量提取出用户节点之间的隐含关联度HR(vi,vj),按照所述关联度的大小决定网络结构中用户节点的动态游走方式;按照对应的游走方式进行采样得到每个用户节点产生的序列,将这些用户节点产生的序列导入skip-gram模型中得到每个用户节点的嵌入向量,在满足损失函数的条件下,输出用户节点的网络结构特征向量;
其中,用户节点之间的隐含关联度表示为HR(vi,vj)=Ai,j,Ai,j表示近似张量X中A矩阵对应的第i行第j列的元素值;给定当前用户节点vi,访问下一个用户节点vj的条件是:
HR(vi,vj)=max(HR(vi,vj),0≤j≤n)
在恶意软件传播网络中,使用Tensor2vec的游走方式进行采样,会得到对于每个节点产生的序列,再将这些序列导入skip-gram模型,即得到每个节点的嵌入向量;Tensor2vec优化的目标是给定每个用户节点的条件下,其关联节点出现的概率最大,其损失函数为:
其中,Nt(v)表示通过张量分解方法采样出的顶点v的关联顶点集合,F(v)是将用户节点即顶点v映射的嵌入向量,Pr(ni|F(v))表示在用户节点v映射的嵌入向量F(v)下通过张量分解方法采样出的用户节点ni的概率;
输出作为用户节点的网络结构特征向量表示为:
S=n×F(v)
其中,F(v)为用户节点的网络结构特征表示向量;
将所述用户节点行为特征向量以及所述用户节点网络结构特征向量输入到图卷积神经网络中,并加入一个dropout中间层,且使用softmax函数将图卷积输出转换成不同节点不同分类的概率值;对恶意软件进行传播预测,并预测出恶意软件是否传播给用户节点以及所述恶意软件的传播趋势;模型输出为y=Pt+1(n,f|ui),概率值较大的类别为预测结果,具体定义如下:
其中,如果对应的Y=1,则判断潜在用户ui将在下一时间段转发恶意软件;如果Y=0,则潜在用户ui在下一间段内将不转发任何恶意软件;
2.根据权利要求1所述的一种恶意软件的传播预测方法,其特征在于,所述获取数据库中用户节点及其交互数据后包括对用户节点实时数据进行数据清洗,将非结构化的实时数据转换为结构化数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110255051.9A CN113055372B (zh) | 2021-03-09 | 2021-03-09 | 一种恶意软件的传播预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110255051.9A CN113055372B (zh) | 2021-03-09 | 2021-03-09 | 一种恶意软件的传播预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113055372A CN113055372A (zh) | 2021-06-29 |
CN113055372B true CN113055372B (zh) | 2022-07-01 |
Family
ID=76510460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110255051.9A Active CN113055372B (zh) | 2021-03-09 | 2021-03-09 | 一种恶意软件的传播预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113055372B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115617694B (zh) * | 2022-11-30 | 2023-03-10 | 中南大学 | 基于信息融合的软件缺陷预测方法、系统、设备及介质 |
CN117454143B (zh) * | 2023-09-13 | 2024-08-02 | 广州大学 | 基于话题表示与多维特征嵌入的群体行为预测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102752279A (zh) * | 2012-04-27 | 2012-10-24 | 中国科学院信息工程研究所 | 一种社交网络恶意代码传播的仿真系统及仿真方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10963566B2 (en) * | 2018-01-25 | 2021-03-30 | Microsoft Technology Licensing, Llc | Malware sequence detection |
US10771488B2 (en) * | 2018-04-10 | 2020-09-08 | Cisco Technology, Inc. | Spatio-temporal anomaly detection in computer networks using graph convolutional recurrent neural networks (GCRNNs) |
CN109614795B (zh) * | 2018-11-30 | 2023-04-28 | 武汉大学 | 一种事件感知的安卓恶意软件检测方法 |
US11423146B2 (en) * | 2019-08-27 | 2022-08-23 | Nec Corporation | Provenance-based threat detection tools and stealthy malware detection |
CN110795641B (zh) * | 2019-11-05 | 2022-09-27 | 重庆邮电大学 | 基于表示学习的网络谣言传播控制方法 |
CN111143842B (zh) * | 2019-12-12 | 2022-07-01 | 广州大学 | 一种恶意代码检测方法及系统 |
-
2021
- 2021-03-09 CN CN202110255051.9A patent/CN113055372B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102752279A (zh) * | 2012-04-27 | 2012-10-24 | 中国科学院信息工程研究所 | 一种社交网络恶意代码传播的仿真系统及仿真方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113055372A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Detecting malicious URLs via a keyword-based convolutional gated-recurrent-unit neural network | |
Zhu et al. | DTOF-ANN: an artificial neural network phishing detection model based on decision tree and optimal features | |
Ozbay et al. | A novel approach for detection of fake news on social media using metaheuristic optimization algorithms | |
CN106649659B (zh) | 一种面向社交网络的链接预测系统及方法 | |
Rasool et al. | GAWA–a feature selection method for hybrid sentiment classification | |
Chen et al. | A context-aware click model for web search | |
CN113055372B (zh) | 一种恶意软件的传播预测方法 | |
Adhao et al. | Feature selection using principal component analysis and genetic algorithm | |
Makkar et al. | PROTECTOR: An optimized deep learning-based framework for image spam detection and prevention | |
CN115423639A (zh) | 一种面向社交网络的安全社区发现方法 | |
CN112487200A (zh) | 一种改进的包含多重边信息与多任务学习的深度推荐方法 | |
Hu et al. | Cross-site scripting detection with two-channel feature fusion embedded in self-attention mechanism | |
Aqra et al. | A novel association rule mining approach using TID intermediate itemset | |
Chen et al. | Predicting user retweeting behavior in social networks with a novel ensemble learning approach | |
Li et al. | A malware propagation prediction model based on representation learning and graph convolutional networks | |
Fersini et al. | A probabilistic relational approach for web document clustering | |
Islam et al. | Recten: A recursive hierarchical low rank tensor factorization method to discover hierarchical patterns from multi-modal data | |
Abushark | An intelligent feature selection approach with systolic tree structures for efficient association rules in big data environment | |
Chen et al. | Scaling up Markov logic probabilistic inference for social graphs | |
CN115567305B (zh) | 基于深度学习的顺序网络攻击预测分析方法 | |
Hu et al. | Using Graph Representation in Host‐Based Intrusion Detection | |
Chen et al. | Topological transduction for hybrid few-shot learning | |
Das et al. | Extraction of interesting patterns through association rule mining for improvement of website usability | |
Meng et al. | A survey on machine learning-based detection and classification technology of malware | |
Pandey et al. | A process oriented perception of personalization techniques in web mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |