CN113392397A - 基于混合特征和emd的恶意代码半监督聚类方法 - Google Patents
基于混合特征和emd的恶意代码半监督聚类方法 Download PDFInfo
- Publication number
- CN113392397A CN113392397A CN202010164789.XA CN202010164789A CN113392397A CN 113392397 A CN113392397 A CN 113392397A CN 202010164789 A CN202010164789 A CN 202010164789A CN 113392397 A CN113392397 A CN 113392397A
- Authority
- CN
- China
- Prior art keywords
- features
- malicious
- emd
- semi
- malicious code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
- G06F21/563—Static detection by source code analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/561—Virus type analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/566—Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/03—Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
- G06F2221/033—Test or assess software
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Virology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于混合特征和EMD的恶意代码半监督聚类方法。本方法可以自动地从恶意代码中提取静动态特征形成混合特征,使用EMD计算恶意代码特征向量的相似性形成恶意代码相似性矩阵,采用半监督聚类算法S‑DBSCAN对恶意代码进行半监督聚类。主要包括以下几个步骤:(1)提取恶意代码的静动态特征;(2)构造恶意代码混合特征和降维;(3)采用EMD计算恶意代码相似性,构造恶意代码相似性矩阵;(4)将相似性矩阵和监督信息输入恶意代码半监督聚类模型进行恶意代码半监督聚类。
Description
技术领域
本发明涉及机器学习与网络安全技术领域。
背景技术
随着信息技术和计算机网络的发展,同时各种自动化工具的出现,互联网上恶意代码的数量呈现指数增长趋势。当前的恶意代码存在几个特点:1)恶意代码的数量保持急剧增长的趋势;2)绝大多数恶意代码属于已知恶意代码家族; 3)大多数同一家族的恶意代码存在某种共性。
根据以上几点可以得出结论,通过提取恶意代码家族特征对恶意代码进行家族聚类分析可以实现对绝大多数恶意代码的识别和判定。目前恶意代码的聚类分析技术包括动态分析和静态分析两大类。静态分析技术通过提取恶意代码特征码用于恶意代码识别,对已知恶意代码效果较好,简单,快捷。但是静态分析技术受限于反静态技术,如加壳,加密等的影响,从而无法提取出有效的特征码。
而动态分析技术则不受反静态技术的影响,通过提取恶意代码实际运行的行为特征来识别恶意代码,但是动态分析技术的代码覆盖率较小,只能捕获到一条执行路径的行为,因此针对多执行路径的恶意代码,无法捕获到完整的恶意行为。
因此本发明通过结合静态特征和动态特征,弥补各自的缺陷形成混合特征用于代表恶意代码的行为。考虑到当前的恶意代码特征的相似性度量方法无法准确识别同一家族和不同家族的恶意代码,本发明应用一种新的特征相似性度量方法-Earth Mover’sDistance(EMD),通过动态规划的方法来计算特征之间的最小距离,可以有效识别不同家族的恶意代码。为了执行有效聚类,减小收敛时间,在聚类过程中加入少量监督信息,形成半监督聚类算法用于聚类。
发明内容
本发明提出一种基于混合特征和EMD 的恶意代码半监督聚类方法。本方法可以自动地从恶意代码中提取静态字节码特征和动态API特征,使用信息增益提取对聚类贡献较大的特征,应用EMD计算特征之间的距离形成相似性矩阵,最后采用半监督聚类算法S-DBSCAN执行恶意代码家族聚类。具体技术方案如下:
提出一种基于混合特征和EMD 的恶意代码半监督聚类方法,所述方法包括:
A.提取恶意代码的静态字节码特征和动态API特征,根据静态特征和动态特征的平均EMD确定混合特征中静态特征和动态特征的比例从而构造恶意代码混合特征。
B.利用信息增益算法提取对恶意代码聚类贡献较大的恶意代码特征,从而有效减少特征提取时间。
C.应用解决动态规划问题的EMD来计算恶意代码特征之间的距离,构造恶意代码相似性矩阵。
D.通过加入少量监督信息改造已有的密度聚类算法DBSCAN形成S-DBSCAN算法,输入相似性矩阵执行恶意代码家族聚类。
附图说明
为了进一步阐述本发明的实现目标、实现方法和特性,将结合附图进行详细描述,其中:
图1是一个展示本发明提出的方法的具体实现的总体流程图。
图2 是一个说明本发明中特征提取过程的示意图。
图3 是一个说明本发明中EMD有效区分不同家族恶意代码的示意图。
具体实施方式
本发明是基于混合特征和EMD进行恶意代码半监督聚类,主要针对Windows下的二进制PE恶意代码。首先提取恶意代码的静态字节码特征和动态API特征,经过特征剪枝后输入相似性计算模块得到相似性矩阵,最后输入到半监督聚类算法进行恶意代码家族聚类。为了进一步阐述本发明的具体实施方式,将结合附图加以详细的说明。本发明提出一种基于混合特征和EMD的恶意代码半监督聚类方法,可有效减少收敛时间,提高聚类纯度。
提取恶意代码的静态字节码:以十六进制的形式读取二进制文件的所有字节,去除00和90填充码,计算所有字节的频率计数和权重,形成恶意代码字节频率权重直方图。
提取恶意代码的动态API特征:在Cuckoo沙箱中运行恶意代码,获取恶意代码的分析报告,提取恶意代码的API序列,然后统计每一个API调用的频率计数和权重,形成恶意代码API频率权重直方图。
提取有效特征:采用信息增益的方法提取恶意代码原始静态特征和动态特征中对聚类功效较大的特征,从而有效减少特征维度,避免维度灾难的发生。
获取相似性矩阵:采用EMD计算恶意代码特征间的距离,形成恶意代码相似性矩阵。
执行半监督聚类:改造原始的密度聚类算法,加入少量的监督信息,从而形成半监督聚类算法S-DBSCAN,输入相似性矩阵进行恶意代码家族聚类。
Claims (6)
1.基于混合特征和EMD的恶意代码半监督聚类方法,其特征在于包括以下步骤:
步骤一:提取恶意代码的静态字节特征,形成字节频率权重直方图
步骤二:提取恶意代码的动态API特征,形成API频率权重直方图
步骤三:混合静态特征和静态特征形成混合特征
步骤四:将EMD用于恶意代码特征相似性计算
步骤五:将相似性矩阵输入到半监督聚类算法S-DBSACN算法进行恶意代码聚类。
2.根据权利要求1所述的基于混合特征和EMD的恶意代码半监督聚类方法,其特征在于步骤二中提取恶意代码中的动态API特征,计算每个API所占权重,将权重应用于动态特征。
3.根据权利要求1所述的基于混合特征和EMD的恶意代码半监督聚类方法,其特征在于步骤三中根据静态特征和动态特征各自的平均EMD,计算出各自的占比,用混合特征来代表恶意代码,弥补静态和动态特征各自的不足。
4.根据权利要求1所述的基于混合特征和EMD的恶意代码半监督聚类方法,其特征在于步骤四中将动态规划距离EMD用于恶意代码的特征相似性计算,可有效区分出不同家族的恶意代码。
5.根据权利要求1所述的基于混合特征和EMD的恶意代码半监督聚类方法,其特征在于步骤五将半监督聚类应用于恶意代码家族聚类,完善密度聚类对稀疏数据集效果较差的缺陷,提升恶意代码的家族聚类效果。
6.基于混合特征和EMD的恶意代码半监督聚类方法,其特征在于步骤一中提取恶意代码的静态字节特征,去除填充字节0和90,计算每个字节所占的权重,将权重应用于静态特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010164789.XA CN113392397A (zh) | 2020-03-11 | 2020-03-11 | 基于混合特征和emd的恶意代码半监督聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010164789.XA CN113392397A (zh) | 2020-03-11 | 2020-03-11 | 基于混合特征和emd的恶意代码半监督聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113392397A true CN113392397A (zh) | 2021-09-14 |
Family
ID=77615217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010164789.XA Pending CN113392397A (zh) | 2020-03-11 | 2020-03-11 | 基于混合特征和emd的恶意代码半监督聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392397A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114647846A (zh) * | 2022-02-22 | 2022-06-21 | 四川大学 | 基于知识图谱的恶意代码情报智能推荐技术 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050108562A1 (en) * | 2003-06-18 | 2005-05-19 | Khazan Roger I. | Technique for detecting executable malicious code using a combination of static and dynamic analyses |
US20150007312A1 (en) * | 2013-06-28 | 2015-01-01 | Vinay Pidathala | System and method for detecting malicious links in electronic messages |
CN107180191A (zh) * | 2017-05-03 | 2017-09-19 | 北京理工大学 | 一种基于半监督学习的恶意代码分析方法和系统 |
CN107590388A (zh) * | 2017-09-12 | 2018-01-16 | 南方电网科学研究院有限责任公司 | 恶意代码检测方法和装置 |
CN108694319A (zh) * | 2017-04-06 | 2018-10-23 | 武汉安天信息技术有限责任公司 | 一种恶意代码家族判定方法及装置 |
CN109190653A (zh) * | 2018-07-09 | 2019-01-11 | 四川大学 | 基于半监督密度聚类的恶意代码家族同源性分析技术 |
US20190034632A1 (en) * | 2017-07-25 | 2019-01-31 | Trend Micro Incorporated | Method and system for static behavior-predictive malware detection |
CN109670310A (zh) * | 2019-01-28 | 2019-04-23 | 杭州师范大学 | 一种基于半监督K-Means聚类算法的Android恶意软件检测方法 |
CN109670311A (zh) * | 2019-03-01 | 2019-04-23 | 中科信息安全共性技术国家工程研究中心有限公司 | 基于高级语义的恶意代码分析与检测方法 |
CN111797397A (zh) * | 2020-06-28 | 2020-10-20 | 韩山师范学院 | 恶意代码可视化及变种检测方法、设备及存储介质 |
-
2020
- 2020-03-11 CN CN202010164789.XA patent/CN113392397A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050108562A1 (en) * | 2003-06-18 | 2005-05-19 | Khazan Roger I. | Technique for detecting executable malicious code using a combination of static and dynamic analyses |
US20150007312A1 (en) * | 2013-06-28 | 2015-01-01 | Vinay Pidathala | System and method for detecting malicious links in electronic messages |
CN108694319A (zh) * | 2017-04-06 | 2018-10-23 | 武汉安天信息技术有限责任公司 | 一种恶意代码家族判定方法及装置 |
CN107180191A (zh) * | 2017-05-03 | 2017-09-19 | 北京理工大学 | 一种基于半监督学习的恶意代码分析方法和系统 |
US20190034632A1 (en) * | 2017-07-25 | 2019-01-31 | Trend Micro Incorporated | Method and system for static behavior-predictive malware detection |
CN107590388A (zh) * | 2017-09-12 | 2018-01-16 | 南方电网科学研究院有限责任公司 | 恶意代码检测方法和装置 |
CN109190653A (zh) * | 2018-07-09 | 2019-01-11 | 四川大学 | 基于半监督密度聚类的恶意代码家族同源性分析技术 |
CN109670310A (zh) * | 2019-01-28 | 2019-04-23 | 杭州师范大学 | 一种基于半监督K-Means聚类算法的Android恶意软件检测方法 |
CN109670311A (zh) * | 2019-03-01 | 2019-04-23 | 中科信息安全共性技术国家工程研究中心有限公司 | 基于高级语义的恶意代码分析与检测方法 |
CN111797397A (zh) * | 2020-06-28 | 2020-10-20 | 韩山师范学院 | 恶意代码可视化及变种检测方法、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
YONG FANG 等: "Semi-Supervised Malware Clustering Based on the Weight of Bytecode and API", 《IEEE ACCESS》 * |
崔弘等: "恶意代码分类的一种高维特征融合分析方法", 《计算机应用研究》 * |
杜炜 等: "基于半监督学习的安卓恶意软件检测及其恶意行为分析", 《信息安全研究》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114647846A (zh) * | 2022-02-22 | 2022-06-21 | 四川大学 | 基于知识图谱的恶意代码情报智能推荐技术 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874927B (zh) | 基于超图和随机森林的入侵检测方法 | |
CN109218223B (zh) | 一种基于主动学习的鲁棒性网络流量分类方法及系统 | |
CN111798312A (zh) | 一种基于孤立森林算法的金融交易系统异常识别方法 | |
CN113378899B (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
CN112367273B (zh) | 基于知识蒸馏的深度神经网络模型的流量分类方法及装置 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN105550253B (zh) | 一种类型关系的获取方法及装置 | |
CN108683658B (zh) | 基于多rbm网络构建基准模型的工控网络流量异常识别方法 | |
CN116780781B (zh) | 智能电网接入的功率管理方法 | |
CN111224984B (zh) | 一种基于数据挖掘算法的Snort改进方法 | |
CN110022313B (zh) | 基于机器学习的多态蠕虫特征提取及多态蠕虫辨识方法 | |
CN113392397A (zh) | 基于混合特征和emd的恶意代码半监督聚类方法 | |
CN113591485B (zh) | 一种基于数据科学的智能化数据质量稽核系统及方法 | |
CN117170979B (zh) | 一种大规模设备的能耗数据处理方法、系统、设备及介质 | |
CN111309770B (zh) | 一种基于无监督机器学习的自动生成规则系统及方法 | |
CN116739408A (zh) | 基于数据标签的电网调度安全监控方法、系统及电子设备 | |
CN116089142A (zh) | 一种新型的服务故障根因分析方法 | |
CN116303379A (zh) | 一种数据处理方法、系统及计算机储存介质 | |
CN114722960A (zh) | 一种业务过程事件日志不完整轨迹检测方法与系统 | |
CN110071845A (zh) | 一种对未知应用进行分类的方法及装置 | |
CN114943083A (zh) | 一种智能终端漏洞代码样本挖掘方法、装置及电子设备 | |
CN113537942A (zh) | 一种提高样本标记数量的方法及系统 | |
CN113919415A (zh) | 一种基于无监督算法的异常群组检测方法 | |
CN114528909A (zh) | 一种基于流量日志特征提取的无监督异常检测方法 | |
CN112445939A (zh) | 一种社交网络群体发现系统、方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |