CN113515742A - 基于行为语义融合萃取的物联网恶意代码检测方法 - Google Patents

基于行为语义融合萃取的物联网恶意代码检测方法 Download PDF

Info

Publication number
CN113515742A
CN113515742A CN202010282572.9A CN202010282572A CN113515742A CN 113515742 A CN113515742 A CN 113515742A CN 202010282572 A CN202010282572 A CN 202010282572A CN 113515742 A CN113515742 A CN 113515742A
Authority
CN
China
Prior art keywords
internet
things
sample
codes
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010282572.9A
Other languages
English (en)
Inventor
王娟娟
刘伟伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202010282572.9A priority Critical patent/CN113515742A/zh
Publication of CN113515742A publication Critical patent/CN113515742A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Virology (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于行为语义融合萃取的物联网恶意代码检测方法,包括以下步骤:利用静态分析,对elf格式的良性与恶性代码进行反汇编,选取最合适的代码段,并提取出该段落包含的操作码;清洗样本数据,并将其融合成一个语料库和带有词频的字典,使用语料库训练word2vec的CBOW模型,采用MEOI‑TFIDF算法以及MT‑TextRank算法提取关键词,送入到训练好的word2vec模型里,生成词向量;使用基于注意力机制的TextCNN网络进行特征训练与分类,根据结果进行调参优化。本发明能准确识别物联网软件的二分类,并提高了样本分类的准确性。

Description

基于行为语义融合萃取的物联网恶意代码检测方法
技术领域
本发明涉及信息安全技术领域,尤其是一种基于行为语义融合萃取的物联网恶意代码检测方法。
背景技术
随着信息化和通讯技术的发展,数字化经济催生的物联网系统迅猛发展,近年来物联网设备呈指数型增长,据分析公司Gartner统计指出,2020年全球物联网将超过260 亿部,5年后该数字将达到750亿部,其应用将遍布各行各业,设计生产生活的方方面面,智能家居、智慧城市、智慧医疗、智慧交通、智慧金融等将惠及大众,而恶意攻击也无时无刻的存在网络设备之间。
恶意代码分类识别也一直是互联网行业研究的重要课题,然而随着恶意代码识别技术的提高,网络攻击者所开发的恶意程序也趋向于复杂、隐秘,为了躲避安全防护工具的审查,恶意代码通常会经过变形以及混淆等手段不断形成新的变种,经典的恶意代码检测方法如特征码扫描、查找广谱特征、基于逆向工程反汇编和启发式扫描的检测技术在性能和效率上已无法应对当前恶意代码的巨大挑战。
2015年Kaggle针对恶意代码分类发起了竞赛,之后几年国内大部分的恶意代码分类都是基于该平台发布的已经汇编处理过得数据,方法也都大同小异,将二进制数据转换为灰度图,或者是n-gram直接处理操作码序列以及使用词频提取特征的方法,在检测准确度上也没有太大的突破。物联网恶意代码却层出不穷,形态各异,对ELF格式的恶意代码检测更是稀少,通过对ELF格式样本的静态分析,充分利用样本信息,提取样本中最具代表性的操作码,排除冗余操作码,同时也考虑操作码之间的关联性,结合深度学习,提升恶意代码检测的时效性,准确性至关重要。
发明内容
本发明的目的在于提供一种基于行为语义融合萃取的物联网恶意代码检测方法,弥补恶意应用检测中特征提取的不足,排除不必要的冗余代码,并融合词之间的关联性得到关键词,以及深度学习的效率问题。
实现本发明目的的技术解决方案为:一种基于行为语义融合萃取的物联网恶意代码检测方法,包括:
对恶意代码软件与elf格式的良性软件进行反汇编;
提取汇编代码中代码段包含的关键词;
将关键词样本转换为矩阵,使用卷积神经网络进行特征训练、分类。
与现有技术相比,其显著优点在于:(1)本发明全面考虑了操作码对于单个样本与样本集的重要性来进行关键词的提取;(2)本发明中根据提取出的特征矩阵设计的卷积神经网络本身计算量很少,同时训练过程可以利用GPU并行计算来实现,提升了计算效率;(3)本发明与当前主流方法相比,物联网恶意代码检测准确率更高,检测效率更快。
附图说明
图1是基于行为语义融合萃取的物联网恶意代码检测方法流程图。
图2是基于行为语义融合萃取关键词提取的流程图。
图3是MT-TextRank算法的流程图。
图4是特征向量化的流程图。
具体实施方式
如图1所示,本发明的一种基于行为语义融合萃取的物联网恶意代码检测方法,包括如下步骤:
对恶意代码软件与elf格式的良性软件的进行反汇编;
提取汇编代码中代码段包含的关键词;
将关键词样本转换为矩阵,使用卷积神经网络进行特征训练,分类,最终可准确识别物联网恶意应用。
进一步的,所述恶意代码软件与elf格式的良性软件,是从VirusTotal hreatIntelligence网站爬取的恶意样本与各种官方物联网应用程序中提取的良性样本。
进一步的,提取汇编代码中代码段包含的关键词,具体包括:
截取反汇编后的样本中的代码段;
提取代码段包含的所有操作码;
对操作码样本进行数据清洗,删除所有的标点符号以及undefined;
针对清洗后的样本,使用行为语义融合萃取的方法,提取关键词;其中使用行为语义融合萃取的方法提取关键词,具体步骤如下:
基于MEOI-TFIDF算法的关键词提取,即将TF-IDF与平均信息熵相结合计算单个样本中操作码的权重,公式为:
Figure BDA0002447270510000021
其中
Figure BDA0002447270510000031
对于特征项c,nc为单个样本中的词频,Sc为同一类样本中的词频数,
Figure BDA0002447270510000032
N为样本总数,Nc为包含特征项c的样本数,fck表示词c在文档k中出现的频次;对权重W进行倒叙排序,从而得到最重要的M个操作码,作为单个样本的关键词。
基于MT-TextRank算法的关键词提取,公式为:
Figure 100002_1
其中,W为上面计算的操作码的权重,In(Vi) 表示操作码Vi的所有入链的集合,即指向Vi的顶点集合,Out(Vj)表示操作码Vj的出度点集合,即Vj所指向的顶点集合,d是指阻尼系数,取值为0.85,wji是指操作码Vi和 Vj之间的边权重,表示两个操作码之间关系。对权重W(Vi)进行倒叙排序,从而得到最重要的N个操作码,作为单个样本的关键词。
所述的清洗后的数据样本,构建成一个自定义语料库,用来训练word2vec的CBOW模型。将上述M个关键词和N个关键词融合为一个样本的特征,通过训练好的word2vec 模型,转换成K*(M+N)维的词向量,其中K为词向量维度,M+N为特征数。
根据特征参数设计基于TextCNN的分类模型,包括卷积神经网络的输入维度,卷积核的大小,卷积核的个数,池化层的大小,池化层的个数,全连接层的大小,全连接层的个数,输出层的维度。特征参数包括每个样本特征的长度M+N,需要分类样本有几类,以及特征维度。
将词向量送入分类模型中,训练并验证该分类模型的准确率。
本发明还提供一种基于行为语义融合萃取的物联网恶意代码检测系统,包括样本收集模块、特征提取模块、特征向量化模块、分类模块;
收集样本模块是收集验证本发明所述方法是否可行的数据,主要包括良性代码与恶意代码;
特征提取模块包含对elf格式样本的进行反汇编得到汇编代码、清洗数据,删除无意义的词以及标点符号得到操作码样本、根据上述样本得到操作码语料库与按照词频排序的字典、根据MEOI-TFIDF算法以及MT-TextRank算法获得样本包含的关键词;
特征向量化模块包括应用上述样本构成的语料库,训练word2vec的CBOW模型,并将样本关键词送入该模型,得到特征矩阵;
分类模块指根据特征参数特点设计卷积神经网络结构,进行特征训练,分类。
下面结合附图和具体实施对本发明作进一步详细描述。
实施例
如图1所示,一种基于行为语义融合萃取的物联网恶意代码检测方法,包括:
爬取样本,并对ELF格式样本的进行反汇编得到汇编代码;
清洗数据,删除无意义的词以及标点符号得到操作码样本;
根据上述样本得到操作码语料库与按照词频排序的字典;
根据MEOI-TFIDF算法以及MT-TextRank算法获得样本的关键词;
应用上述样本构成的语料库,训练word2vec的CBOW模型,并将每个的样本关键词送入该模型,得到特征矩阵;
根据特征矩阵特点设计卷积神经网络结构,进行特征训练,分类。
如图2所示,是ELF文件的行为语义融合萃取的特征提取的过程。首先使用objdump相关命令对ELF文件进行反汇编,静态分析反汇编文件,提取文件中属于代码段的段落,并将该段落的所有操作码提取,构成操作码样本,对该样本进行数据清洗,删除数据中所有的字符标点,以及无意义的字符串;其次统计样本的操作码词频,以及将样本生成语料库用来训练word2vec的CBOW模型,同时,根据MEOI-TFIDF算法,公式为:
Figure BDA0002447270510000041
计算得到词权重,其中nc表示单个样本中词c出现的次数,Sc表示所有样本词c出现的总数,N表示样本总数,Nc表示包含词c的样本数量,以及通过公式:
Figure BDA0002447270510000042
计算词语权重,fck表示词c在文档k中出现的频次,将W1*W2排序得到TopM作为关键词输出;根据MI-TextRank算法,具体计算流程如图 3所示,公式为:
Figure 2
计算每个词的权重并进行排序,选取TopN作为关键词输出,其中W为上面计算的操作码的权重,In(Vi)表示操作码Vi的所有入链的集合,即指向Vi的顶点集合,Out(Vj)表示操作码Vj的出度点集合,即Vj所指向的顶点集合,d是指阻尼系数,取值为0.85,wji是指操作码Vi和Vj之间的边权重,表示两个操作码之间关系;M+N就是提取的样本的关键词。
如图4所示,是特征转化向量过程。首先,使用原始操作码融合生成的语料库,训练Word2vec的CBOW模型,训练的最终目的是输入 w(t-n),w(t-n+1),w(t+1),...,w(t+n-1),w(t+n)时,输出期望的词向量w(t),即可得到样本中出现的每个操作码的词向量;其次,将如图2中生成的关键词构成的固定数目固定顺序的词序列样本,对应文本上计算出的词向量组合成矩阵,之后打乱样本,测试集与训练集2:8的比例,训练卷积神经网络并验证结果。

Claims (7)

1.一种基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,包括:
对恶意代码软件与elf格式的良性软件进行反汇编;
提取汇编代码中代码段包含的关键词;
将关键词样本转换为矩阵,使用卷积神经网络进行特征训练、分类。
2.根据权利要求1所述的基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,所述的恶意代码软件与elf格式的良性软件,是从VirusTotal hreat Intelligence网站爬取的恶意样本与物联网应用程序中提取的良性样本。
3.根据权利要求1或2所述的基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,所述的提取汇编代码中代码段包含的关键词,具体步骤如下:
截取反汇编后的样本中的代码段;
提取代码段包含的所有操作码;
对操作码样本进行数据清洗,删除所有的标点符号以及undefined;
针对清洗后的样本,使用行为语义融合萃取的方法,提取关键词。
4.根据权利要求3所述的基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,所述的行为语义融合萃取方法包括以下步骤:
基于MEOI-TFIDF算法的关键词提取,即将TF-IDF与平均信息熵相结合计算单个样本中操作码的权重,公式为:
Figure FDA0002447270500000011
其中
Figure FDA0002447270500000012
对于特征项c,nc为单个样本中的词频,Sc为同一类样本中的词频数,
Figure FDA0002447270500000013
N为样本总数,Nc为包含特征项c的样本数,fck表示词c在文档k中出现的频次;对权重W进行倒叙排序,得到最重要的M个操作码,作为单个样本的关键词;
基于MT-TextRank算法的关键词提取,公式为:
Figure 1
其中,W为操作码的权重,In(Vi)表示操作码Vi的所有入链的集合,Out(Vj)表示操作码Vj的出度点集合,d为指阻尼系数,wji是指操作码Vi和Vj之间的边权重,表示两个操作码之间关系;对权重W(Vi)进行倒叙排序,从而得到最重要的N个操作码,作为单个样本的关键词;
将清洗后的数据样本,构建成一个自定义语料库,用来训练word2vec的CBOW模型;将上述M个关键词和N个关键词融合为一个样本的特征,通过训练好的word2vec模型,转换成K*(M+N)维的词向量,其中K为词向量维度,M+N为特征数。
5.根据权利要求4所述的基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,根据特征参数设计基于TextCNN的分类模型,模型包括卷积神经网络的输入维度,卷积核的大小,卷积核的个数,池化层的大小,池化层的个数,全连接层的大小,全连接层的个数,输出层的维度。
6.根据权利要求5所述的基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,特征参数包括每个样本特征的长度、需要分类样本类别数,以及特征维度。
7.根据权利要求5所述的基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,将词向量送入分类模型中,训练并验证该分类模型的准确率。
CN202010282572.9A 2020-04-12 2020-04-12 基于行为语义融合萃取的物联网恶意代码检测方法 Pending CN113515742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010282572.9A CN113515742A (zh) 2020-04-12 2020-04-12 基于行为语义融合萃取的物联网恶意代码检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010282572.9A CN113515742A (zh) 2020-04-12 2020-04-12 基于行为语义融合萃取的物联网恶意代码检测方法

Publications (1)

Publication Number Publication Date
CN113515742A true CN113515742A (zh) 2021-10-19

Family

ID=78060165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010282572.9A Pending CN113515742A (zh) 2020-04-12 2020-04-12 基于行为语义融合萃取的物联网恶意代码检测方法

Country Status (1)

Country Link
CN (1) CN113515742A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065199A (zh) * 2021-11-18 2022-02-18 山东省计算中心(国家超级计算济南中心) 一种跨平台恶意代码检测方法及系统
CN116975863A (zh) * 2023-07-10 2023-10-31 福州大学 基于卷积神经网络的恶意代码检测方法
CN117332419A (zh) * 2023-11-29 2024-01-02 武汉大学 一种基于预训练的恶意代码分类方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140181973A1 (en) * 2012-12-26 2014-06-26 National Taiwan University Of Science And Technology Method and system for detecting malicious application
CN109948340A (zh) * 2019-03-27 2019-06-28 集美大学 一种卷积神经网络和XGBoost相结合的PHP-Webshell检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140181973A1 (en) * 2012-12-26 2014-06-26 National Taiwan University Of Science And Technology Method and system for detecting malicious application
CN109948340A (zh) * 2019-03-27 2019-06-28 集美大学 一种卷积神经网络和XGBoost相结合的PHP-Webshell检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李航;唐超兰;杨贤;沈婉婷;: "融合多特征的TextRank关键词抽取方法", 情报杂志, no. 08, 18 August 2017 (2017-08-18) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065199A (zh) * 2021-11-18 2022-02-18 山东省计算中心(国家超级计算济南中心) 一种跨平台恶意代码检测方法及系统
CN116975863A (zh) * 2023-07-10 2023-10-31 福州大学 基于卷积神经网络的恶意代码检测方法
CN117332419A (zh) * 2023-11-29 2024-01-02 武汉大学 一种基于预训练的恶意代码分类方法及装置
CN117332419B (zh) * 2023-11-29 2024-02-20 武汉大学 一种基于预训练的恶意代码分类方法及装置

Similar Documents

Publication Publication Date Title
US9183173B2 (en) Learning element weighting for similarity measures
Haynes et al. Lightweight URL-based phishing detection using natural language processing transformers for mobile devices
CN110442857B (zh) 情感智能判断方法、装置及计算机可读存储介质
CN104899322A (zh) 搜索引擎及其实现方法
CN113515742A (zh) 基于行为语义融合萃取的物联网恶意代码检测方法
CN106991160B (zh) 一种基于用户影响力以及内容的微博传播预测方法
CN112989831B (zh) 一种应用在网络安全领域的实体抽取方法
CN111931935B (zh) 基于One-shot 学习的网络安全知识抽取方法和装置
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN112860898B (zh) 一种短文本框聚类方法、系统、设备及存储介质
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
KR102091633B1 (ko) 연관법령 제공 방법
Bakhshinejad et al. Parallel‐CNN network for malware detection
Wang et al. File fragment type identification with convolutional neural networks
Pham et al. Exploring efficiency of GAN-based generated URLs for phishing URL detection
Bokolo et al. Cyberbullying detection on social media using machine learning
CN110704611B (zh) 基于特征解交织的非法文本识别方法及装置
CN111782811A (zh) 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法
CN112445862A (zh) 物联网设备数据集构建方法、装置、电子设备和存储介质
CN115455416A (zh) 一种恶意代码检测方法、装置、电子设备及存储介质
CN106951104A (zh) 一种基于词库的词条处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination