CN115828245A - 一种基于深度学习的恶意文件识别方法 - Google Patents

一种基于深度学习的恶意文件识别方法 Download PDF

Info

Publication number
CN115828245A
CN115828245A CN202211674683.XA CN202211674683A CN115828245A CN 115828245 A CN115828245 A CN 115828245A CN 202211674683 A CN202211674683 A CN 202211674683A CN 115828245 A CN115828245 A CN 115828245A
Authority
CN
China
Prior art keywords
malicious
files
file
data
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211674683.XA
Other languages
English (en)
Inventor
田新远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huaqing Xin'an Technology Co ltd
Original Assignee
Beijing Huaqing Xin'an Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huaqing Xin'an Technology Co ltd filed Critical Beijing Huaqing Xin'an Technology Co ltd
Priority to CN202211674683.XA priority Critical patent/CN115828245A/zh
Publication of CN115828245A publication Critical patent/CN115828245A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度学习的恶意文件识别方法,其包括以下步骤:步骤一:获取恶意文件训练数据,然后针对这些数据进行清洗,清洗的工作主要是去重处理,最后提取恶意文件的特征代码,形成词集模型,步骤二:获取可疑文件测试数据,可疑文件的获取主要通过蜜罐诱捕的方式,步骤三:将步骤一和步骤二中的特征数据推送到恶意文件检测模型中,进行检测,并对恶意文件进行分类处理,步骤四:对可疑文件进行标记,将哪些达到测试威胁指数的文件标记为恶意文件,将哪些未达到威胁指数的文件进行统一的脱壳处理后,进行二次检测。在本发明实施过程中,本发明能够有效提高恶意代码检测效率和准确率,并对恶意文件进行一定的分类。

Description

一种基于深度学习的恶意文件识别方法
技术领域
本发明涉及一种网络安全的大数据分析技术。更具体地说,本发明涉及一种用于检测恶意代码的分析方法。
背景技术
随着计算机技术的飞速发展,人工智能的应用也是深入到社会生活的每一个角落,在我们享受科技带来便利的同时,也时刻面临这各种各样的黑客攻击。如何有效的,快速的识别出黑客攻击时的恶意文件,成为急需解决的问题。针对恶意文件的传统识别手段往往采用规则匹配的方式,但是这种检测方式存在检测效率低,检测误报率高,无法识别新型的攻击手段。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供一种基于深度学习的恶意文件识别方法,有效的解决了背景技术中的问题。
为实现上述目的,本发明提供如下技术方案:一种基于深度学习的恶意文件识别方法,其包括以下步骤:
步骤一:获取恶意文件训练数据,然后针对这些数据进行清洗,清洗的工作主要是去重处理,最后提取恶意文件的特征代码,形成词集模型,
步骤二:获取可疑文件测试数据,可疑文件的获取主要通过蜜罐诱捕的方式,,
步骤三:将步骤一和步骤二中的特征数据推送到恶意文件检测模型中,进行检测,并对恶意文件进行分类处理,
步骤四:对可疑文件进行标记,将哪些达到测试威胁指数的文件标记为恶意文件,将哪些未达到威胁指数的文件进行统一的脱壳处理后,进行二次检测,降低恶意文件漏报的概率。
优选的是,所述步骤一中,采用了词集模型,该模型能够减少特征数据重复出现的现象,大幅度提升检测效率。
优选的是,所述步骤二中,可疑文件测试数据采用蜜罐诱捕的方式进行采集,这种采集具有真实攻击环境的客观性,
优选的是,所述步骤三中,恶意文件检测模型采用的是深度学习的方式,具体包括:
将恶意文件数据和可疑文件数据进行交并比(IoU)的计算,具体公式(Ⅰ)如下:
Figure BDA0004017707980000021
其中,VT表示已经确定的恶意文件特征码,VS表示可疑文件的特征码。
同时我们还需要定义一个交并比阈值β,如果IoU≥β,则认为该可疑文件为恶意文件。同时我们还需要计算恶意文件检测模型的精确率,具体计算公式(Ⅱ)如下:
Figure BDA0004017707980000022
其中Tp表示恶意文件被预测正确的数量,Fp表示非恶意文件被预测成恶意文件的数量。计算精确率的目的是为了是的恶意文件检测模型具有自我学习修正的能力,以便能够预测识别变异病毒文件的能力。
优选的是,所述步骤四中,对可疑文件测试标记后,将那些标记为非恶意文件的样本进行了脱壳处理后,进行二次检测,目的是为了识别哪些具有加密混淆变异的病毒文件,二次检测能够有效降低恶意文件的漏报率。
与现有技术相比,本发明的有益效果是:
1)、本发明能够有效提高恶意代码检测效率和准确率,并对恶意文件进行一定的分类。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明所述的用于恶意文件检测方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由图1给出,本发明公开了一种基于深度学习的恶意文件识别方法,包括以下步骤:
S101,获取恶意文件训练数据,该部分的数据获取主要从VirusTotal,微步在线这些恶意文件检测网站上获取下载数据。
S102,数据清洗,使用工具提取恶意文件的字符串,但是由于提取字符串是会出现大量的乱码字符,所以我们需要剔除这些乱码字符串,同时还要进行字符串的去重处理工作,以便减少模型检测的运算时间,提升检测效率。
S103,提取恶意代码的特征值,且特征提取时需要按照不同类型的恶意文件进行分类,分类后的数据按照json格式进行存储,这样便于后续的模型检测处理,具体如下示例:
Figure BDA0004017707980000031
Figure BDA0004017707980000041
S104,词集模型构建,该模型能够减少特征数据重复出现的现象,大幅度提升检测效率。
S200,可疑文件测试数据,该数据的获取来自公网上的蜜罐诱捕数据,蜜罐系统能够贴近真实环境系统,所以捕获的数据也更贴近真实的攻击环境。
S300,将恶意文件数据与可疑文件数据推送到深度学习恶意文件检测模型中,该模型能够做到更高效的检测。
具体包括:
将恶意文件数据和可疑文件数据进行交并比(IoU)的计算,具体公式(Ⅰ)如下:
Figure BDA0004017707980000042
其中,VT表示已经确定的恶意文件特征码,VS表示可疑文件的特征码。
同时我们还需要定义一个交并比阈值β,如果IoU≥β,则认为该可疑文件为恶意文件。同时我们还需要计算恶意文件检测模型的精确率,具体计算公式(Ⅱ)如下:
Figure BDA0004017707980000051
其中Tp表示恶意文件被预测正确的数量,Fp表示非恶意文件被预测成恶意文件的数量。计算精确率的目的是为了是的恶意文件检测模型具有自我学习修正的能力,以便能够预测识别变异病毒文件的能力。
S401,标记,将那些交并比大于交并比阈值(IoU≥β)的文件标记为恶意文件,反指,将哪些交并比小于交并比阈值(IoU<β)的文件标记为非恶意文件.
S402,二次检测,针对非恶意文件进行统一的脱壳处理(仅针对那些含有壳的非恶意文件),然后送入到深度学习恶意文件检测模型进行二次检测。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种基于深度学习的恶意文件识别方法,其特征在于:其包括以下步骤:
步骤一:获取恶意文件训练数据,然后针对这些数据进行清洗,清洗的工作主要是去重处理,最后提取恶意文件的特征代码,形成词集模型,
步骤二:获取可疑文件测试数据,可疑文件的获取主要通过蜜罐诱捕的方式,
步骤三:将步骤一和步骤二中的特征数据推送到恶意文件检测模型中,进行检测,并对恶意文件进行分类处理,
步骤四:对可疑文件进行标记,将哪些达到测试威胁指数的文件标记为恶意文件,将哪些未达到威胁指数的文件进行统一的脱壳处理后,进行二次检测,降低恶意文件漏报的概率。
2.根据权利要求1所述的一种基于深度学习的恶意文件识别方法,其特征在于:所述步骤一中,采用了词集模型,该模型能够减少特征数据重复出现的现象,大幅度提升检测效率。
3.根据权利要求1所述的一种基于深度学习的恶意文件识别方法,其特征在于:所述步骤二中,可疑文件测试数据采用蜜罐诱捕的方式进行采集,这种采集具有真实攻击环境的客观性。
4.根据权利要求1所述的一种基于深度学习的恶意文件识别方法,其特征在于:所述步骤三中,恶意文件检测模型采用的是深度学习的方式,具体包括:
将恶意文件数据和可疑文件数据进行交并比IoU的计算,具体公式(Ⅰ)如下:
Figure FDA0004017707970000011
其中,VT表示已经确定的恶意文件特征码,VS表示可疑文件的特征码,
同时还需要定义一个交并比阈值β,如果IoU≥β,则认为该可疑文件为恶意文件,同时还需要计算恶意文件检测模型的精确率,具体计算公式(Ⅱ)如下:
Figure FDA0004017707970000021
其中Tp表示恶意文件被预测正确的数量,Fp表示非恶意文件被预测成恶意文件的数量,计算精确率的目的是为了是的恶意文件检测模型具有自我学习修正的能力,以便能够预测识别变异病毒文件的能力。
5.根据权利要求1所述的一种基于深度学习的恶意文件识别方法,其特征在于:所述步骤四中,对可疑文件测试标记后,将那些标记为非恶意文件的样本进行了脱壳处理后,进行二次检测,目的是为了识别哪些具有加密混淆变异的病毒文件,二次检测能够有效降低恶意文件的漏报率。
CN202211674683.XA 2022-12-26 2022-12-26 一种基于深度学习的恶意文件识别方法 Pending CN115828245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211674683.XA CN115828245A (zh) 2022-12-26 2022-12-26 一种基于深度学习的恶意文件识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211674683.XA CN115828245A (zh) 2022-12-26 2022-12-26 一种基于深度学习的恶意文件识别方法

Publications (1)

Publication Number Publication Date
CN115828245A true CN115828245A (zh) 2023-03-21

Family

ID=85518298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211674683.XA Pending CN115828245A (zh) 2022-12-26 2022-12-26 一种基于深度学习的恶意文件识别方法

Country Status (1)

Country Link
CN (1) CN115828245A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116599767A (zh) * 2023-07-12 2023-08-15 深圳市光网世纪科技有限公司 基于机器学习的网络威胁监测系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116599767A (zh) * 2023-07-12 2023-08-15 深圳市光网世纪科技有限公司 基于机器学习的网络威胁监测系统
CN116599767B (zh) * 2023-07-12 2023-11-03 深圳市光网世纪科技有限公司 基于机器学习的网络威胁监测系统

Similar Documents

Publication Publication Date Title
CN111428231B (zh) 基于用户行为的安全处理方法、装置及设备
TW201931187A (zh) 統一資源定位符(url)攻擊檢測方法、裝置及電子設備
CN110365636B (zh) 工控蜜罐攻击数据来源的判别方法及装置
CN105072214B (zh) 基于域名特征的c&amp;c域名识别方法
JP2019110513A (ja) 異常検知方法、学習方法、異常検知装置、および、学習装置
CN111523588B (zh) 基于改进的lstm对apt攻击恶意软件流量进行分类的方法
CN112565301B (zh) 基于小样本学习的服务器运行网络流量异常数据检测方法
CN113645182B (zh) 一种基于二次特征筛选的拒绝服务攻击随机森林检测方法
CN109257369B (zh) 一种基于机器学习的扫描ip分类方法及装置
CN112153062B (zh) 基于多维度的可疑终端设备检测方法及系统
CN115828245A (zh) 一种基于深度学习的恶意文件识别方法
CN113127864B (zh) 特征码提取方法、装置、计算机设备和可读存储介质
CN112769803A (zh) 网络威胁的检测方法、装置和电子设备
CN110602020A (zh) 一种基于dga域名和周期性网络连接会话行为的僵尸网络检测技术
CN110472410B (zh) 识别数据的方法、设备和数据处理方法
Bozogullarindan et al. Detection of Turkish Fraudulent Domain Names to Proactively Prevent Phishing Attacks Using A Character-Level Convolutional Neural Network
CN109600361B (zh) 基于哈希算法的验证码防攻击方法、装置、电子设备及非暂态计算机可读存储介质
CN116644952A (zh) 风险评估方法、装置、设备及介质
CN115664931A (zh) 一种告警数据的关联方法、装置、存储介质及设备
CN112822220B (zh) 一种面向多样本组合攻击的溯源方法和装置
CN115277178A (zh) 基于企业网网络流量的异常监测方法、装置及存储介质
Al-Ofeishat Enhancing Android Security: Network-Driven Machine Learning Approach For Malware Detection
CN111680286A (zh) 物联网设备指纹库的精细化方法
CN105224655B (zh) 网站转化设置的检测方法、处理方法和装置
CN110580408B (zh) 一种数据处理方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination