CN111538989B - 基于图卷积网络和主题模型的恶意代码同源性分析方法 - Google Patents

基于图卷积网络和主题模型的恶意代码同源性分析方法 Download PDF

Info

Publication number
CN111538989B
CN111538989B CN202010323546.6A CN202010323546A CN111538989B CN 111538989 B CN111538989 B CN 111538989B CN 202010323546 A CN202010323546 A CN 202010323546A CN 111538989 B CN111538989 B CN 111538989B
Authority
CN
China
Prior art keywords
graph
function
embedding
convolution network
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010323546.6A
Other languages
English (en)
Other versions
CN111538989A (zh
Inventor
张磊
刘亮
谭杨
刘嘉勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010323546.6A priority Critical patent/CN111538989B/zh
Publication of CN111538989A publication Critical patent/CN111538989A/zh
Application granted granted Critical
Publication of CN111538989B publication Critical patent/CN111538989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Virology (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出基于图卷积网络和主题模型的恶意代码同源性分析方法。本方法从恶意代码中提取出两种静态特征形成混合特征,使用注意力机制和主题模型对重点特征进行加权处理,然后使用归一化分类模型对其进行分类。主要包括以下几个步骤:(1)利用IDA提取恶意代码的函数调用图和函数指令分布特征;(2)使用改进的图卷积网络对函数调用图进行节点嵌入;(3)使用注意力机制对节点嵌入进行图嵌入操作;(4)使用半监督主题模型对函数指令分布进行降维和变换;(4)使用神经张量网络对混合特征进行结合;(5)利用归一化分类模型对恶意软件进行家族分类。

Description

基于图卷积网络和主题模型的恶意代码同源性分析方法
技术领域
本发明涉及的技术领域为深度学习与信息安全领域,具体涉及一种基于图卷积网络和主题模型的恶意代码同源性分析方法。通过该方法对攻击者或组织进行溯源,利用准确的溯源手段震慑攻击者以降低恶意代码造成的危害。
背景技术
在近年来,全球网络安全攻防博弈态势日趋严峻,各种利用恶意代码谋取政治、经济等利益的攻击事件层出不穷。攻击者对恶意代码的生产和利用方式,逐渐呈现出团队化、组织化的倾向,导致恶意代码的数量一直保持快速的增长趋势。当前不同家族的恶意代码存在技术公用问题,仅仅依靠对复用代码和关键技术的分析来判定恶意代码的同源性存在一定的不足。因此研究一种涵盖高层次和细粒度特征的同源性分析方法对降低恶意代码的危害具有重要的现实意义。
目前恶意软件同源性分析技术包括动态分析和静态分析两大类。静态分析方法分析是在不运行恶意代码的前提下提取恶意代码的段结构,字符串和代码等特征。动态分析方法依靠捕获程序的行为作为分析基础。静态分析和动态分析技术目前各有优缺点,相比动态分析技术,静态分析技术具有分析速度快,不受反沙箱技术影响的特点。静态分析与动态分析主要区别在于特征的提取手段不同,但是在相似性与同源性判定方面有极大的相通之处。因此,本发明通过恶意代码的函数调用图这一可以体现程序设计特点的高层次特征出发,结合恶意代码的函数指令分布这一细粒度特征,形成混合特征。同时,近些年来神经网络和深度学习也逐渐用于恶意代码的同源性分析。从而提出一种基于图卷积网络和主题模型的恶意代码同源性分析方法,对恶意软件进行家族分类。
发明内容
本发明提出一种基于图卷积网络和主题模型的恶意代码同源性分析方法。本方法可以通过IDA提取出函数调用图和函数指令分布的邻接矩阵作为特征,使用主题模型和注意力机制提取对分类贡献较大的特征,应用神经张量网络(NTN)对多特征进行结合,然后使用改进的图卷积网络对其进行家族同源性分析。具体方案如下:提出一种基于图卷积网络和主题模型的恶意代码同源性分析方法,所述方法包括:
A. 利用IDA提取恶意代码的函数调用图和函数指令分布特征,分别形成对应的特征矩阵。
B. 首先对恶意代码函数进行人工分析和频率统计,在利用半监督主题模型对函数的指令分布进行的变换和降维,得到恶意代码主题分布。
C. 利用注意力机制对函数调用图的节点嵌入进行图嵌入表达,从而有效提高分类的精度。
D. 由于函数调用图是无权有向图,因此利用图卷积网络进行处理时,需要对图卷积的归一化方法进行修改,使得模型在运算过程中可以保留图的方向信息,并且使用批处理机制加速了节点嵌入的计算过程。
E.. 通过神经张量网络(NTN)对混合特征进行结合,将得到的特征向量输入到全连接层和Softmax层进行恶意软件的家族分类。
附图说明
为了进一步阐述本发明的实现目标、实现方法和特性,将结合附图进行详细描述。其中:
图1是一个展示本发明提出方法的具体实现的总体流程图。
图2是一个说明本发明的系统框架图。
图3是一个说明本发明如何通过节点嵌入转为图嵌入的示意图。
图4是一个说明本发明对多特征进行交互过程的示意图。
具体实施方式
本发明是基于图卷积网路和主题模型的恶意代码同源性分析,主要针对Windows下的二进制PE恶意代码。首先提取恶意软件的函数调用图和函数指令分布特征,然后经过主题模型和注意力机制处理后的特征输入到神经张量网络(NTN)得到结合后的混合特征,最后通过图卷积网络进行家族分类。为了进一步阐述本发明的具体实施方式,将结合附图加以详细的说明。本发明提出一种基于图卷积网络和主题模型的恶意代码同源性分析方法,可以有效的对已有恶意代码进行家族划分,并判别新增恶意代码的家族类别。
提取恶意代码的函数调用图和函数指令分布:通过IDA,将样本的函数调用图和函数指令分布的频率分别存储为对应的邻接矩阵。
提取函数调用图的有效特征:首先计算函数调用图的节点嵌入,为了在计算过程中保留图的方向信息,对图卷积网络的归一化方法进行修改,同时使用批处理机制加速计算过程。此时,得到经过处理的函数调用图的节点嵌入。但是,当前的节点嵌入没有体现重要特征,因此利用注意力机制为重要程度不同的节点赋予不同的权值,最后得到函数调用图的图嵌入。
提取函数指令分布的有效特征:由于恶意代码样本的完整指令分布是227维的向量,因此我们需要对其进行降维和变换,避免维度灾难的发生。同时也需要凸显重要特征,我们使用半监督主题模型得到函数的主题分布,并利用函数-主题关联和主题-指令关联对主题分布的计算过程进行调整。
归一化分类:将上诉的函数调用图的图嵌入和函数指令分布的主题分布特征,共同作为恶意代码的特征向量。由于是混合特征,因此使用神经张量网络(NTN)对特征进行特征交互。最后,通过全连接层和Softmax层对其进行分类。然后,通过交叉熵损失函数计算损失值,对模型的参数进行优化,使得家族类别的预测结果不断趋近于真实值。

Claims (5)

1.基于图卷积网络和主题模型的恶意代码同源性分析方法,其特征在于包括以下步骤:
步骤一:提取恶意代码的函数调用图和函数指令分布特征,形成对应的邻接矩阵;
步骤二:改进图卷积的归一化算法,用于提取函数调用图邻接矩阵的节点嵌入,利用注意力机制对函数调用图的节点嵌入进行图嵌入表达;
步骤三:利用半监督主题模型对函数的指令分布进行的变换和降维;
步骤四:利用神经张量网络对函数调用图和函数指令分布进行特征混合,使用全连接层和Softmax层对其进行家族分类。
2.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码同源性分析方法,其特征在于步骤一中特征的提取,使用了Python调用IDA对样本进行遍历,提取样本的函数调用图和函数指令分布形成对应的邻接矩阵。
3.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码同源性分析方法,其特征在于步骤二中对图卷积进行改进,使图卷积网络适用于有向图;同时,引入图的批处理机制修改图卷积网络的分层传播模型,加快节点嵌入的计算过程;但是分类需要图嵌入表达,因此利用注意力机制将节点嵌入进行加权求和得到图嵌入,同时提高重要节点的权重值。
4.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码同源性分析方法,其特征在于步骤三中利用半监督主题模型对函数的指令分布进行的变换和降维,使得不同家族的恶意代码具有更高的区分度。
5.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码同源性分析方法,其特征在于步骤四中利用神经张量网络(NTN)对多特征进行结合,形成混合特征,然后利用全连接层和Softmax层对其进行分类,同时通过交叉熵损失函数计算损失值,对模型的参数进行优化,使得类别预测结果不断趋近于真实值。
CN202010323546.6A 2020-04-22 2020-04-22 基于图卷积网络和主题模型的恶意代码同源性分析方法 Active CN111538989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010323546.6A CN111538989B (zh) 2020-04-22 2020-04-22 基于图卷积网络和主题模型的恶意代码同源性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010323546.6A CN111538989B (zh) 2020-04-22 2020-04-22 基于图卷积网络和主题模型的恶意代码同源性分析方法

Publications (2)

Publication Number Publication Date
CN111538989A CN111538989A (zh) 2020-08-14
CN111538989B true CN111538989B (zh) 2022-08-26

Family

ID=71975241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010323546.6A Active CN111538989B (zh) 2020-04-22 2020-04-22 基于图卷积网络和主题模型的恶意代码同源性分析方法

Country Status (1)

Country Link
CN (1) CN111538989B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163219A (zh) * 2020-08-27 2021-01-01 北京航空航天大学 一种基于词嵌入和gcn的恶意程序识别和分类方法
CN113407938A (zh) * 2020-11-13 2021-09-17 厦门熙重电子科技有限公司 一种基于注意力机制的恶意代码分类方法
CN112380530B (zh) * 2020-11-26 2022-07-15 厦门市美亚柏科信息股份有限公司 一种同源apk检测方法、终端设备及存储介质
CN113360912A (zh) * 2021-08-09 2021-09-07 四川大学 恶意软件检测方法、装置、设备及存储介质
CN114817924B (zh) * 2022-05-19 2023-04-07 电子科技大学 基于ast和跨层分析的安卓恶意软件检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709349A (zh) * 2016-12-15 2017-05-24 中国人民解放军国防科学技术大学 一种基于多维度行为特征的恶意代码分类方法
CN110210227A (zh) * 2019-06-11 2019-09-06 百度在线网络技术(北京)有限公司 风险检测方法、装置、设备和存储介质
CN110704626A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种用于短文本的分类方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054149B (zh) * 2009-11-06 2013-02-13 中国科学院研究生院 一种恶意代码行为特征提取方法
US20170068816A1 (en) * 2015-09-04 2017-03-09 University Of Delaware Malware analysis and detection using graph-based characterization and machine learning
US10210077B2 (en) * 2016-05-18 2019-02-19 International Business Machines Corporation Using multiple sequence alignment to identify security vulnerability code paths
CN107180191A (zh) * 2017-05-03 2017-09-19 北京理工大学 一种基于半监督学习的恶意代码分析方法和系统
US10733302B2 (en) * 2017-12-15 2020-08-04 Mastercard International Incorporated Security vulnerability analytics engine
CN108959924A (zh) * 2018-06-12 2018-12-07 浙江工业大学 一种基于词向量和深度神经网络的Android恶意代码检测方法
CN109190653B (zh) * 2018-07-09 2020-06-05 四川大学 基于半监督密度聚类的恶意代码家族同源性分析方法
CN109101816B (zh) * 2018-08-10 2022-02-08 北京理工大学 一种基于系统调用控制流图的恶意代码同源性分析方法
CN109886020B (zh) * 2019-01-24 2020-02-04 燕山大学 基于深度神经网络的软件漏洞自动分类方法
CN109829306B (zh) * 2019-02-20 2023-07-21 哈尔滨工程大学 一种优化特征提取的恶意软件分类方法
CN110717047B (zh) * 2019-10-22 2022-06-28 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709349A (zh) * 2016-12-15 2017-05-24 中国人民解放军国防科学技术大学 一种基于多维度行为特征的恶意代码分类方法
CN110210227A (zh) * 2019-06-11 2019-09-06 百度在线网络技术(北京)有限公司 风险检测方法、装置、设备和存储介质
CN110704626A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种用于短文本的分类方法及装置

Also Published As

Publication number Publication date
CN111538989A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111538989B (zh) 基于图卷积网络和主题模型的恶意代码同源性分析方法
Yuan et al. Intrusion detection for smart home security based on data augmentation with edge computing
CN112464233B (zh) 一种云平台上基于rnn的恶意软件检测方法
CN114491525B (zh) 基于深度强化学习的安卓恶意软件检测特征提取方法
CN112688928A (zh) 结合自编码器和wgan的网络攻击流量数据增强方法及系统
CN113420294A (zh) 基于多尺度卷积神经网络的恶意代码检测方法
CN112738014A (zh) 一种基于卷积时序网络的工控流量异常检测方法及系统
CN110968845A (zh) 基于卷积神经网络生成的针对lsb隐写的检测方法
CN111382783A (zh) 恶意软件识别方法、装置及存储介质
CN112884121A (zh) 基于生成对抗深度卷积网络的流量识别方法
CN115238822A (zh) 一种基于混合变异策略的网络协议漏洞挖掘方法
CN112014801A (zh) 一种基于SPWVD和改进AlexNet的复合干扰识别方法
CN115510981A (zh) 一种决策树模型特征重要性计算方法、装置及存储介质
Wang et al. Few-shot out-of-distribution detection
CN112487933B (zh) 一种基于自动化深度学习的雷达波形识别方法及系统
CN114338199A (zh) 一种基于注意力机制的恶意流量检测方法和系统
CN116821905A (zh) 一种基于知识搜索的恶意软件检测方法及系统
CN116502091A (zh) 一种基于lstm和注意力机制的网络入侵检测方法
CN114091021A (zh) 一种用于电力企业安全防护的恶意代码检测方法
CN114760128A (zh) 一种基于重采样的网络异常流量检测方法
CN114169540A (zh) 一种基于改进机器学习的网页用户行为检测方法及系统
CN113852612A (zh) 一种基于随机森林的网络入侵检测方法
Huang et al. Research on Malicious URL Identification and Analysis for Network Security
CN107391433B (zh) 一种基于混合特征kde条件熵的特征选择方法
Dang et al. Network Intrusion detection approach based on convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant