CN113515742A - 基于行为语义融合萃取的物联网恶意代码检测方法 - Google Patents
基于行为语义融合萃取的物联网恶意代码检测方法 Download PDFInfo
- Publication number
- CN113515742A CN113515742A CN202010282572.9A CN202010282572A CN113515742A CN 113515742 A CN113515742 A CN 113515742A CN 202010282572 A CN202010282572 A CN 202010282572A CN 113515742 A CN113515742 A CN 113515742A
- Authority
- CN
- China
- Prior art keywords
- internet
- things
- sample
- codes
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 32
- 230000004927 fusion Effects 0.000 title claims abstract description 23
- 238000001514 detection method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 9
- 238000004140 cleaning Methods 0.000 claims abstract description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000013145 classification model Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000003542 behavioural effect Effects 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000003068 static effect Effects 0.000 abstract description 2
- 230000003211 malignant effect Effects 0.000 abstract 1
- 238000005457 optimization Methods 0.000 abstract 1
- 230000006399 behavior Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
- G06F21/563—Static detection by source code analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Virology (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于行为语义融合萃取的物联网恶意代码检测方法,包括以下步骤:利用静态分析,对elf格式的良性与恶性代码进行反汇编,选取最合适的代码段,并提取出该段落包含的操作码;清洗样本数据,并将其融合成一个语料库和带有词频的字典,使用语料库训练word2vec的CBOW模型,采用MEOI‑TFIDF算法以及MT‑TextRank算法提取关键词,送入到训练好的word2vec模型里,生成词向量;使用基于注意力机制的TextCNN网络进行特征训练与分类,根据结果进行调参优化。本发明能准确识别物联网软件的二分类,并提高了样本分类的准确性。
Description
技术领域
本发明涉及信息安全技术领域,尤其是一种基于行为语义融合萃取的物联网恶意代码检测方法。
背景技术
随着信息化和通讯技术的发展,数字化经济催生的物联网系统迅猛发展,近年来物联网设备呈指数型增长,据分析公司Gartner统计指出,2020年全球物联网将超过260 亿部,5年后该数字将达到750亿部,其应用将遍布各行各业,设计生产生活的方方面面,智能家居、智慧城市、智慧医疗、智慧交通、智慧金融等将惠及大众,而恶意攻击也无时无刻的存在网络设备之间。
恶意代码分类识别也一直是互联网行业研究的重要课题,然而随着恶意代码识别技术的提高,网络攻击者所开发的恶意程序也趋向于复杂、隐秘,为了躲避安全防护工具的审查,恶意代码通常会经过变形以及混淆等手段不断形成新的变种,经典的恶意代码检测方法如特征码扫描、查找广谱特征、基于逆向工程反汇编和启发式扫描的检测技术在性能和效率上已无法应对当前恶意代码的巨大挑战。
2015年Kaggle针对恶意代码分类发起了竞赛,之后几年国内大部分的恶意代码分类都是基于该平台发布的已经汇编处理过得数据,方法也都大同小异,将二进制数据转换为灰度图,或者是n-gram直接处理操作码序列以及使用词频提取特征的方法,在检测准确度上也没有太大的突破。物联网恶意代码却层出不穷,形态各异,对ELF格式的恶意代码检测更是稀少,通过对ELF格式样本的静态分析,充分利用样本信息,提取样本中最具代表性的操作码,排除冗余操作码,同时也考虑操作码之间的关联性,结合深度学习,提升恶意代码检测的时效性,准确性至关重要。
发明内容
本发明的目的在于提供一种基于行为语义融合萃取的物联网恶意代码检测方法,弥补恶意应用检测中特征提取的不足,排除不必要的冗余代码,并融合词之间的关联性得到关键词,以及深度学习的效率问题。
实现本发明目的的技术解决方案为:一种基于行为语义融合萃取的物联网恶意代码检测方法,包括:
对恶意代码软件与elf格式的良性软件进行反汇编;
提取汇编代码中代码段包含的关键词;
将关键词样本转换为矩阵,使用卷积神经网络进行特征训练、分类。
与现有技术相比,其显著优点在于:(1)本发明全面考虑了操作码对于单个样本与样本集的重要性来进行关键词的提取;(2)本发明中根据提取出的特征矩阵设计的卷积神经网络本身计算量很少,同时训练过程可以利用GPU并行计算来实现,提升了计算效率;(3)本发明与当前主流方法相比,物联网恶意代码检测准确率更高,检测效率更快。
附图说明
图1是基于行为语义融合萃取的物联网恶意代码检测方法流程图。
图2是基于行为语义融合萃取关键词提取的流程图。
图3是MT-TextRank算法的流程图。
图4是特征向量化的流程图。
具体实施方式
如图1所示,本发明的一种基于行为语义融合萃取的物联网恶意代码检测方法,包括如下步骤:
对恶意代码软件与elf格式的良性软件的进行反汇编;
提取汇编代码中代码段包含的关键词;
将关键词样本转换为矩阵,使用卷积神经网络进行特征训练,分类,最终可准确识别物联网恶意应用。
进一步的,所述恶意代码软件与elf格式的良性软件,是从VirusTotal hreatIntelligence网站爬取的恶意样本与各种官方物联网应用程序中提取的良性样本。
进一步的,提取汇编代码中代码段包含的关键词,具体包括:
截取反汇编后的样本中的代码段;
提取代码段包含的所有操作码;
对操作码样本进行数据清洗,删除所有的标点符号以及undefined;
针对清洗后的样本,使用行为语义融合萃取的方法,提取关键词;其中使用行为语义融合萃取的方法提取关键词,具体步骤如下:
基于MEOI-TFIDF算法的关键词提取,即将TF-IDF与平均信息熵相结合计算单个样本中操作码的权重,公式为:其中对于特征项c,nc为单个样本中的词频,Sc为同一类样本中的词频数,N为样本总数,Nc为包含特征项c的样本数,fck表示词c在文档k中出现的频次;对权重W进行倒叙排序,从而得到最重要的M个操作码,作为单个样本的关键词。
基于MT-TextRank算法的关键词提取,公式为:其中,W为上面计算的操作码的权重,In(Vi) 表示操作码Vi的所有入链的集合,即指向Vi的顶点集合,Out(Vj)表示操作码Vj的出度点集合,即Vj所指向的顶点集合,d是指阻尼系数,取值为0.85,wji是指操作码Vi和 Vj之间的边权重,表示两个操作码之间关系。对权重W(Vi)进行倒叙排序,从而得到最重要的N个操作码,作为单个样本的关键词。
所述的清洗后的数据样本,构建成一个自定义语料库,用来训练word2vec的CBOW模型。将上述M个关键词和N个关键词融合为一个样本的特征,通过训练好的word2vec 模型,转换成K*(M+N)维的词向量,其中K为词向量维度,M+N为特征数。
根据特征参数设计基于TextCNN的分类模型,包括卷积神经网络的输入维度,卷积核的大小,卷积核的个数,池化层的大小,池化层的个数,全连接层的大小,全连接层的个数,输出层的维度。特征参数包括每个样本特征的长度M+N,需要分类样本有几类,以及特征维度。
将词向量送入分类模型中,训练并验证该分类模型的准确率。
本发明还提供一种基于行为语义融合萃取的物联网恶意代码检测系统,包括样本收集模块、特征提取模块、特征向量化模块、分类模块;
收集样本模块是收集验证本发明所述方法是否可行的数据,主要包括良性代码与恶意代码;
特征提取模块包含对elf格式样本的进行反汇编得到汇编代码、清洗数据,删除无意义的词以及标点符号得到操作码样本、根据上述样本得到操作码语料库与按照词频排序的字典、根据MEOI-TFIDF算法以及MT-TextRank算法获得样本包含的关键词;
特征向量化模块包括应用上述样本构成的语料库,训练word2vec的CBOW模型,并将样本关键词送入该模型,得到特征矩阵;
分类模块指根据特征参数特点设计卷积神经网络结构,进行特征训练,分类。
下面结合附图和具体实施对本发明作进一步详细描述。
实施例
如图1所示,一种基于行为语义融合萃取的物联网恶意代码检测方法,包括:
爬取样本,并对ELF格式样本的进行反汇编得到汇编代码;
清洗数据,删除无意义的词以及标点符号得到操作码样本;
根据上述样本得到操作码语料库与按照词频排序的字典;
根据MEOI-TFIDF算法以及MT-TextRank算法获得样本的关键词;
应用上述样本构成的语料库,训练word2vec的CBOW模型,并将每个的样本关键词送入该模型,得到特征矩阵;
根据特征矩阵特点设计卷积神经网络结构,进行特征训练,分类。
如图2所示,是ELF文件的行为语义融合萃取的特征提取的过程。首先使用objdump相关命令对ELF文件进行反汇编,静态分析反汇编文件,提取文件中属于代码段的段落,并将该段落的所有操作码提取,构成操作码样本,对该样本进行数据清洗,删除数据中所有的字符标点,以及无意义的字符串;其次统计样本的操作码词频,以及将样本生成语料库用来训练word2vec的CBOW模型,同时,根据MEOI-TFIDF算法,公式为:计算得到词权重,其中nc表示单个样本中词c出现的次数,Sc表示所有样本词c出现的总数,N表示样本总数,Nc表示包含词c的样本数量,以及通过公式:计算词语权重,fck表示词c在文档k中出现的频次,将W1*W2排序得到TopM作为关键词输出;根据MI-TextRank算法,具体计算流程如图 3所示,公式为:计算每个词的权重并进行排序,选取TopN作为关键词输出,其中W为上面计算的操作码的权重,In(Vi)表示操作码Vi的所有入链的集合,即指向Vi的顶点集合,Out(Vj)表示操作码Vj的出度点集合,即Vj所指向的顶点集合,d是指阻尼系数,取值为0.85,wji是指操作码Vi和Vj之间的边权重,表示两个操作码之间关系;M+N就是提取的样本的关键词。
如图4所示,是特征转化向量过程。首先,使用原始操作码融合生成的语料库,训练Word2vec的CBOW模型,训练的最终目的是输入 w(t-n),w(t-n+1),w(t+1),...,w(t+n-1),w(t+n)时,输出期望的词向量w(t),即可得到样本中出现的每个操作码的词向量;其次,将如图2中生成的关键词构成的固定数目固定顺序的词序列样本,对应文本上计算出的词向量组合成矩阵,之后打乱样本,测试集与训练集2:8的比例,训练卷积神经网络并验证结果。
Claims (7)
1.一种基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,包括:
对恶意代码软件与elf格式的良性软件进行反汇编;
提取汇编代码中代码段包含的关键词;
将关键词样本转换为矩阵,使用卷积神经网络进行特征训练、分类。
2.根据权利要求1所述的基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,所述的恶意代码软件与elf格式的良性软件,是从VirusTotal hreat Intelligence网站爬取的恶意样本与物联网应用程序中提取的良性样本。
3.根据权利要求1或2所述的基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,所述的提取汇编代码中代码段包含的关键词,具体步骤如下:
截取反汇编后的样本中的代码段;
提取代码段包含的所有操作码;
对操作码样本进行数据清洗,删除所有的标点符号以及undefined;
针对清洗后的样本,使用行为语义融合萃取的方法,提取关键词。
4.根据权利要求3所述的基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,所述的行为语义融合萃取方法包括以下步骤:
基于MEOI-TFIDF算法的关键词提取,即将TF-IDF与平均信息熵相结合计算单个样本中操作码的权重,公式为:其中对于特征项c,nc为单个样本中的词频,Sc为同一类样本中的词频数,N为样本总数,Nc为包含特征项c的样本数,fck表示词c在文档k中出现的频次;对权重W进行倒叙排序,得到最重要的M个操作码,作为单个样本的关键词;
基于MT-TextRank算法的关键词提取,公式为:其中,W为操作码的权重,In(Vi)表示操作码Vi的所有入链的集合,Out(Vj)表示操作码Vj的出度点集合,d为指阻尼系数,wji是指操作码Vi和Vj之间的边权重,表示两个操作码之间关系;对权重W(Vi)进行倒叙排序,从而得到最重要的N个操作码,作为单个样本的关键词;
将清洗后的数据样本,构建成一个自定义语料库,用来训练word2vec的CBOW模型;将上述M个关键词和N个关键词融合为一个样本的特征,通过训练好的word2vec模型,转换成K*(M+N)维的词向量,其中K为词向量维度,M+N为特征数。
5.根据权利要求4所述的基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,根据特征参数设计基于TextCNN的分类模型,模型包括卷积神经网络的输入维度,卷积核的大小,卷积核的个数,池化层的大小,池化层的个数,全连接层的大小,全连接层的个数,输出层的维度。
6.根据权利要求5所述的基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,特征参数包括每个样本特征的长度、需要分类样本类别数,以及特征维度。
7.根据权利要求5所述的基于行为语义融合萃取的物联网恶意代码检测方法,其特征在于,将词向量送入分类模型中,训练并验证该分类模型的准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010282572.9A CN113515742A (zh) | 2020-04-12 | 2020-04-12 | 基于行为语义融合萃取的物联网恶意代码检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010282572.9A CN113515742A (zh) | 2020-04-12 | 2020-04-12 | 基于行为语义融合萃取的物联网恶意代码检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113515742A true CN113515742A (zh) | 2021-10-19 |
Family
ID=78060165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010282572.9A Pending CN113515742A (zh) | 2020-04-12 | 2020-04-12 | 基于行为语义融合萃取的物联网恶意代码检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515742A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114065199A (zh) * | 2021-11-18 | 2022-02-18 | 山东省计算中心(国家超级计算济南中心) | 一种跨平台恶意代码检测方法及系统 |
CN114169323A (zh) * | 2021-10-28 | 2022-03-11 | 建信金融科技有限责任公司 | 一种基于机器学习的个人金融敏感信息检测方法及系统 |
CN116975863A (zh) * | 2023-07-10 | 2023-10-31 | 福州大学 | 基于卷积神经网络的恶意代码检测方法 |
CN117332419A (zh) * | 2023-11-29 | 2024-01-02 | 武汉大学 | 一种基于预训练的恶意代码分类方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140181973A1 (en) * | 2012-12-26 | 2014-06-26 | National Taiwan University Of Science And Technology | Method and system for detecting malicious application |
CN109948340A (zh) * | 2019-03-27 | 2019-06-28 | 集美大学 | 一种卷积神经网络和XGBoost相结合的PHP-Webshell检测方法 |
-
2020
- 2020-04-12 CN CN202010282572.9A patent/CN113515742A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140181973A1 (en) * | 2012-12-26 | 2014-06-26 | National Taiwan University Of Science And Technology | Method and system for detecting malicious application |
CN109948340A (zh) * | 2019-03-27 | 2019-06-28 | 集美大学 | 一种卷积神经网络和XGBoost相结合的PHP-Webshell检测方法 |
Non-Patent Citations (1)
Title |
---|
李航;唐超兰;杨贤;沈婉婷;: "融合多特征的TextRank关键词抽取方法", 情报杂志, no. 08, 18 August 2017 (2017-08-18) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114169323A (zh) * | 2021-10-28 | 2022-03-11 | 建信金融科技有限责任公司 | 一种基于机器学习的个人金融敏感信息检测方法及系统 |
CN114065199A (zh) * | 2021-11-18 | 2022-02-18 | 山东省计算中心(国家超级计算济南中心) | 一种跨平台恶意代码检测方法及系统 |
CN116975863A (zh) * | 2023-07-10 | 2023-10-31 | 福州大学 | 基于卷积神经网络的恶意代码检测方法 |
CN117332419A (zh) * | 2023-11-29 | 2024-01-02 | 武汉大学 | 一种基于预训练的恶意代码分类方法及装置 |
CN117332419B (zh) * | 2023-11-29 | 2024-02-20 | 武汉大学 | 一种基于预训练的恶意代码分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113515742A (zh) | 基于行为语义融合萃取的物联网恶意代码检测方法 | |
Haynes et al. | Lightweight URL-based phishing detection using natural language processing transformers for mobile devices | |
US9183173B2 (en) | Learning element weighting for similarity measures | |
CN110442857B (zh) | 情感智能判断方法、装置及计算机可读存储介质 | |
CN106991160B (zh) | 一种基于用户影响力以及内容的微博传播预测方法 | |
CN112989831B (zh) | 一种应用在网络安全领域的实体抽取方法 | |
CN110532381A (zh) | 一种文本向量获取方法、装置、计算机设备及存储介质 | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN111931935B (zh) | 基于One-shot 学习的网络安全知识抽取方法和装置 | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
Bakhshinejad et al. | Parallel‐CNN network for malware detection | |
KR102091633B1 (ko) | 연관법령 제공 방법 | |
Pham et al. | Exploring efficiency of GAN-based generated URLs for phishing URL detection | |
CN117909977A (zh) | 基于语义分析的恶意代码检测方法、装置及系统 | |
CN110704611B (zh) | 基于特征解交织的非法文本识别方法及装置 | |
CN111782811A (zh) | 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法 | |
CN112445862A (zh) | 物联网设备数据集构建方法、装置、电子设备和存储介质 | |
CN106951104A (zh) | 一种基于词库的词条处理方法和装置 | |
CN115455416A (zh) | 一种恶意代码检测方法、装置、电子设备及存储介质 | |
Mohan et al. | Authorship attribution of SMS messages using an N-grams approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |