CN115080969B - 一种基于三通道马尔可夫图的恶意文档检测方法 - Google Patents

一种基于三通道马尔可夫图的恶意文档检测方法 Download PDF

Info

Publication number
CN115080969B
CN115080969B CN202210668188.1A CN202210668188A CN115080969B CN 115080969 B CN115080969 B CN 115080969B CN 202210668188 A CN202210668188 A CN 202210668188A CN 115080969 B CN115080969 B CN 115080969B
Authority
CN
China
Prior art keywords
channel
byte
markov
document
malicious
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210668188.1A
Other languages
English (en)
Other versions
CN115080969A (zh
Inventor
徐洋
黄昆
张思聪
李小剑
杨春雨
谢晓尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Education University
Original Assignee
Guizhou Education University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Education University filed Critical Guizhou Education University
Priority to CN202210668188.1A priority Critical patent/CN115080969B/zh
Publication of CN115080969A publication Critical patent/CN115080969A/zh
Application granted granted Critical
Publication of CN115080969B publication Critical patent/CN115080969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Virology (AREA)
  • Computer And Data Communications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于三通道马尔可夫图的恶意文档检测方法,包括以下步骤:(1)统计文档的字节值出现次数;(2)计算字节值的转移概率;(3)计算三种字节值之间的转移矩阵;(4)将三个转移矩阵转化为三个单通道马尔可夫图;(5)将三个单通道马尔可夫图合成一个三通道马尔可夫彩色图;(6)使用结合迁移学习的EfficientNet‑B0模型对三通道马尔可夫彩色图进行训练和测试,最后进行预测分类。本发明通过马尔可夫模型将恶意文档转化为三通道的彩色图,能可视化出恶意文档和良性文档的视觉差异性,以便于深度学习模型分类,且三通道彩色图包含更多的特征信息,具有良好的检测准确率和效率,适用于大规模的恶意文档检测。

Description

一种基于三通道马尔可夫图的恶意文档检测方法
技术领域
本发明属于网络空间安全中的系统安全领域,具体涉及一种基于三通道图像的恶意文档检测方法。
背景技术
近年来,针对政府机构和商业组织的高级可持续威胁(advanced persistenttreat,APT)时有发生,严重危害了国家的关键信息基础设施和泄露政府企业的敏感信息。相对于可执行文件,人们对恶意文档的防范意识要低很多,因此恶意文档常被作为实施APT攻击的主要载体。
2016年,PaloAlto研究中心的安全研究所发现了针对苹果系统的钓鱼邮件攻击,其攻击方法是在邮件附件中添加带有木马的恶意PDF文档。2017年,Hades组织利用鱼叉邮件投递内嵌恶意宏的Word文档,导致了韩国平昌冬奥会的网站宕机。2018年OceanLotus组织,利用水坑攻击和鱼叉邮件方式,投递内嵌恶意宏的Word文档,对我国和东南亚其他国家进行了全年频繁的针对攻击。赛门铁克的《2016年互联网安全威胁报告》的研究表明,PDF文档和Word文档已经成为2016年特定目标攻击中钓鱼邮件附件最多的文档格式,分别占比为60.1%和38.7%。赛门铁克的《2019年互联网安全威胁报告》的研究表明,2018年中,恶意电子邮件附件中有48%使用Office文件作为附件。
恶意文档的检测已经成为热门领域,许多新的研究思路和研究方法不断被提出。传统静态检测方法大多需要逆向工程,严重影响了恶意代码识别的效率,而动态检测方法则资源消耗大、检测成本高,不利于大规模的恶意代码检测。基于机器学习和深度学习的恶意文档检测能够及时检测新型恶意文档并且快速更新检测模型,但机器学习方法存在人工提取特征繁琐、特征鲁棒性差导致检测准确率低的问题。而在恶意软件可视化的研究领域,恶意软件的原始大小存在差异,直接将二进制文件转化为灰度图的方法会导致图像大小不一致,而对图像的缩放或裁断会导致部分信息丢失,从而影响方法的检测效率和准确率。且针对恶意文档检测,可视化方法尚未有很好的应用,迫切需要新的有效检测方法。
发明内容
本发明的目的在于提供一种基于三通道马尔可夫图的恶意文档检测方法,通过马尔可夫模型,将文档转换为三通道的彩色图,使用轻量级卷积神经网络EfficientNet-B0,结合迁移学习领域中的微调技术,将ImageNet上的分类权重应用到EfficientNet-B0,实现了对恶意文档的检测。
本发明的技术方案是:
一种基于三通道马尔可夫图的恶意文档检测方法,通过马尔可夫模型,将恶意文档转化为三种单通道马尔可夫图,再将三种单通道图合成三通道马尔可夫彩色图,使用结合迁移学习的EfficientNet-B0模型对马夫彩色图进行训练和测试,包括如下步骤:
步骤1、统计文档的字节值出现次数;
步骤2、计算字节值的转移概率;
步骤3、计算三种字节值之间的转移矩阵;
步骤4、将三个转移矩阵转化为三个单通道马尔可夫图;
步骤5、将三个单通道马尔可夫图合成一个三通道马尔可夫彩色图;
步骤6、使用结合迁移学习的EfficientNet-B0模型对三通道马尔可夫彩色图进行训练和测试。
具体地:步骤1、读取文档的字节流,将其视作一个随机过程,每个字节值作为一种特定的状态,即字节Bi∈{0,1,.,N},其中,N表示恶意软件字节值;遍历文档的所有字节的取值,统计每种取值出现的次数;
步骤2、若用Pi,j表示字节Bi后续第一个字节为Bj的转移概率,计算各个状态之间相互转移概率,具体计算公式如下:
Figure BDA0003693766820000031
其中,frequency(i,j)表示字节Bi后续第一个字节为Bj的次数;同时,改进上述公式,若frequency(i,j)表示字节Bi后续第二个字节为Bj的次数,可计算出字节Bi后续第二个字节为Bj的转移概率,设为Mi,j,同理,可计算出字节Bi后续第三个字节为Bj的转移概率,设为Ni,j
步骤3、通过各个状态间的转移概率,计算出M1、M2、M3三个状态转移矩阵,即:
Figure BDA0003693766820000041
Figure BDA0003693766820000042
步骤4、每一个矩阵中的值对应一张图像的像素点值,将三个转移矩阵转化为三个单通道马尔可夫图;单通道马尔可夫图生成算法的伪代码如下:
Figure BDA0003693766820000043
步骤5、将三个单通道马尔可夫图分别填充R、G、B三个通道,合成一个三通道马尔可夫彩色图;
步骤6、对EfficientNet-B0模型进行适当的改进,将其全连接层的输出改为2,以适用恶意文档的二分类检测;在模型的训练前,加载ImageNet权重,并删除全连接层权重,再进行训练及测试;
本发明具有以下特点:
1、本发明检测恶意文档,无需动态分析,也不用逆向分析,仅依赖文档的二进制字节序列,计算效率高,适用于大规模恶意文档检测。
2、相较于传统的灰度图方法,本发明生成的图像均是统一尺寸的图片,不受原始文件大小的影响,降低了对非统一尺寸的图片的裁剪或缩放带来的信息损失。
3、相较于单通道马尔可夫图,本发明生成三通道马尔可夫图理论上包含其所有特征信息,具备更多的深层特征信息,能提高检测方法的鲁棒性和准确率。
4、本发明使用轻量级卷积神经网络EfficientNet-B0模型,并结合迁移学习,加快检测模型的收敛速度,缩短模型的训练时间。
附图说明
图1是本发明检测流程图;
图2是EfficientNet-B0结构图;
图3是MBConv的结构图;
图4是文档转三通道马尔可夫图流程图;
图5是本发明在PDF数据集上准确率变化曲线;
图6是本发明在DOCX数据集上准确率变化曲线。
具体实施方式
下面通过附图和实施例对本发明作进一步描述。
参见图1-4,一种基于三通道马尔可夫图的恶意文档检测方法,通过马尔可夫模型,将恶意文档转化为三通道的彩色图,使用来源于contagio的公共PDF数据集、自收集的DOCX数据集进行实验验证,将加载了ImageNet权重的EfficientNetB0模型应用于马尔可夫三通道图的训练和测试,包括以下步骤:
步骤1、统计文档的字节值出现次数;
步骤2、计算字节值的转移概率;
步骤3、计算三种字节值之间的转移矩阵;
步骤4、将三个转移矩阵转化为三个单通道马尔可夫图;
步骤5、将三个单通道马尔可夫图合成一个三通道马尔可夫彩色图;
步骤6、使用结合迁移学习的EfficientNet-B0模型对三通道马尔可夫彩色图进行训练和测试。
上述的一种基于三通道马尔可夫图的恶意文档检测方法,具体包括:
步骤1、读取文档的字节流,将其视作一个随机过程,每个字节值作为一种特定的状态,即字节Bi∈{0,1,.,N},其中,N表示恶意软件字节值;遍历文档的所有字节的取值,统计每种取值出现的次数;
步骤2、若用Pi,j表示字节Bi后续第一个字节为Bj的转移概率,计算各个状态之间相互转移概率,具体计算公式如下:
Figure BDA0003693766820000061
其中,frequency(i,j)表示字节Bi后续第一个字节为Bj的次数;同时,改进上述公式,若frequency(i,j)表示字节Bi后续第二个字节为Bj的次数,可计算出字节Bi后续第二个字节为Bj的转移概率,设为Mi,j,同理,可计算出字节Bi后续第三个字节为Bj的转移概率,设为Ni,j
步骤3、通过各个状态间的转移概率,计算出M1、M2、M3三个状态转移矩阵,即:
Figure BDA0003693766820000071
Figure BDA0003693766820000072
步骤4、每一个矩阵中的值对应一张图像的像素点值,将三个转移矩阵转化为三个单通道马尔可夫图;单通道马尔可夫图生成算法的伪代码如下:
Figure BDA0003693766820000073
Figure BDA0003693766820000081
步骤5、将三个单通道马尔可夫图分别填充R、G、B三个通道,合成一个三通道马尔可夫彩色图;
步骤6、对EfficientNet-B0模型进行适当的改进,将其全连接层的输出改为2,以适用恶意文档的二分类检测。在模型的训练前,加载ImageNet权重,并删除全连接层权重,再进行训练及测试。
本发明针对恶意文档检测领域的特点,将EfficientNet-B0模型的全连接层的输出改为2,以适用恶意文档的二分类检测。为了比较模型对相同尺寸图像分类的效果,将输入图片的分辨率固定为224×224×3,主要包含三个模块,第一个模块是一个卷积核大小为3x3步长为2的卷积层(包含BN层和激活函数Swish),核心模块是重复堆叠的MBConv(MobileInverted Bottleneck Conv),MBConv后面的数字1或6代表每个模块对输入特征矩阵的通道扩张倍数,3x3或5x5代表Depthwise Conv的卷积核大小,经过一系列的卷积操作,输出1280维的特征,最后经过Softmax分类器输出图像所属的类别。
表1为灰度图、单通道马尔可夫图、三通道马尔可夫彩色图的实验结果,在PDF数据集和DOCX数据集上综合性能最好的组合均是彩色图+EfficientNetB0+迁移学习。其中,在PDF数据集上,该组合的准确率为99.80%,比单通道图和灰度图的准确率分别高1.49%、3.27%,在DOCX数据集上,该组合的准确率为98.14%,比单通道图和灰度图的准确率分别高1.74%、5.57%,并且F1-score和AUC分别有不同程度的提升。图5和图6分别为彩色图+EfficientNetB0在PDF数据集和DOCX数据集上准确率与Epoch次数的关系。在PDF数据集上,采用随机初始化权重,EfficientNet-B0在第50个Epoch时逐渐收敛,准确率稳定在99.1%左右,而使用迁移学习,EfficientNet-B0在第30个Epoch时就开始收敛,准确率稳定在99.8%左右。在DOCX数据集上,采用随机初始化权重,EfficientNet-B0在第90个Epoch时逐渐收敛,准确率稳定在96.8%左右。而使用迁移学习,EfficientNet-B0在第60个Epoch时就开始收敛,准确率稳定在98.1%左右。由于DOCX数据集样本较少,对模型收敛速度和检测准确率有一定影响,但从实验结果可知,使用迁移学习可以加快模型的收敛速度和提升检测准确率。
表1
Figure BDA0003693766820000091
本发明提出了一种新的基于三通道马尔可夫图的恶意文档检测方法,改进了单通道马尔可夫图,在检测效果上,优于灰度图和单通道马尔可夫图,并使用了结合迁移学习的轻量级卷积神经网络Efficientnet-B0进行训练和测试。实验证明,在两个数据集上,模型的收敛速度快于随机初始化权重的预训练,且模型对恶意PDF文档和恶意DOCX文档的检测准确率分别达到了99.80%和98.14%。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,任何未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (1)

1.一种基于三通道马尔可夫图的恶意文档检测方法,其特征在于:将恶意文档转化为三种单通道马尔可夫图,再将三种单通道图合成三通道马尔可夫彩色图,使用结合迁移学习的EfficientNet-B0模型对马夫彩色图进行训练和测试;包括以下步骤:
步骤1、统计文档的字节值出现次数;
步骤2、计算字节值的转移概率;
步骤3、计算三种字节值之间的转移矩阵;
步骤4、将三个转移矩阵转化为三个单通道马尔可夫图;
步骤5、将三个单通道马尔可夫图合成一个三通道马尔可夫彩色图;
步骤6、使用结合迁移学习的EfficientNet-B0模型对三通道马尔可夫彩色图进行训练和测试;
更具体的步骤为:
步骤1、读取文档的字节流,将其视作一个随机过程,每个字节值作为一种特定的状态,即字节Bi∈{0,1,.,N},其中,N表示恶意文档字节值;遍历文档的所有字节的取值,统计每种取值出现的次数;
步骤2、若用Pi,j表示字节Bi后续第一个字节为Bj的转移概率,计算各个状态之间相互转移概率,具体计算公式如下:
Figure FDA0003962610220000011
其中,frequency(i,j)表示字节Bi后续第一个字节为Bj的出现次数;同时,改进上述公式,若frequency(i,j)表示字节Bi后续第二个字节为B j的出现次数,可计算出字节Bi后续第二个字节为Bj的转移概率,设为Mi,j,同理,可计算出字节Bi后续第三字节为B j的转移概率,设为Ni,j
步骤3、通过各个状态间的转移概率,计算出M1、M 2、M 3三个状态转移矩阵,即:
Figure FDA0003962610220000021
Figure FDA0003962610220000022
步骤4、每一个矩阵中的值对应一张图像的像素点值,将三个转移矩阵转化为三个单通道马尔可夫图;
步骤5、将三个单通道马尔可夫图分别填充R、G、B三个通道,合成一个三通道马尔可夫彩色图;
步骤6、对EfficientNet-B0模型进行适当的改进,将其全连接层的输出改为2,以适用恶意文档的二分类检测;在模型的训练前,加载ImageNet权重,并删除全连接层权重,再进行训练及测试;
所述步骤6最后进行预测分类。
CN202210668188.1A 2022-06-14 2022-06-14 一种基于三通道马尔可夫图的恶意文档检测方法 Active CN115080969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210668188.1A CN115080969B (zh) 2022-06-14 2022-06-14 一种基于三通道马尔可夫图的恶意文档检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210668188.1A CN115080969B (zh) 2022-06-14 2022-06-14 一种基于三通道马尔可夫图的恶意文档检测方法

Publications (2)

Publication Number Publication Date
CN115080969A CN115080969A (zh) 2022-09-20
CN115080969B true CN115080969B (zh) 2023-03-10

Family

ID=83251584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210668188.1A Active CN115080969B (zh) 2022-06-14 2022-06-14 一种基于三通道马尔可夫图的恶意文档检测方法

Country Status (1)

Country Link
CN (1) CN115080969B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846284A (zh) * 2018-06-29 2018-11-20 浙江工业大学 一种基于字节码图像和深度学习的Android恶意应用检测方法
CN111259397A (zh) * 2020-02-12 2020-06-09 四川大学 一种基于马尔科夫图和深度学习的恶意软件分类方法
CN113282926A (zh) * 2021-05-25 2021-08-20 贵州师范大学 一种基于三通道图像的恶意软件分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228778A1 (en) * 2004-04-05 2005-10-13 International Business Machines Corporation System and method for retrieving documents based on mixture models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846284A (zh) * 2018-06-29 2018-11-20 浙江工业大学 一种基于字节码图像和深度学习的Android恶意应用检测方法
CN111259397A (zh) * 2020-02-12 2020-06-09 四川大学 一种基于马尔科夫图和深度学习的恶意软件分类方法
CN113282926A (zh) * 2021-05-25 2021-08-20 贵州师范大学 一种基于三通道图像的恶意软件分类方法

Also Published As

Publication number Publication date
CN115080969A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
Zhang et al. ShipDeNet-20: An only 20 convolution layers and< 1-MB lightweight SAR ship detector
WO2021114832A1 (zh) 样本图像数据增强方法、装置、电子设备及存储介质
KR102007809B1 (ko) 이미지를 이용한 신경망 기반 익스플로잇킷 탐지 시스템
Hou et al. MobileCrack: Object classification in asphalt pavements using an adaptive lightweight deep learning
CN104978521B (zh) 一种实现恶意代码标注的方法及系统
CN111259397B (zh) 一种基于马尔科夫图和深度学习的恶意软件分类方法
CN113806746A (zh) 基于改进cnn网络的恶意代码检测方法
US8830714B2 (en) High speed large scale dictionary matching
Luo et al. Coverless image steganography based on image segmentation
CN115080969B (zh) 一种基于三通道马尔可夫图的恶意文档检测方法
CN116258917B (zh) 一种基于tf-idf转移熵的恶意软件分类方法及装置
WO2024051770A1 (zh) 一种智能设备真随机密钥生成方法、装置、终端及介质
CN110768864B (zh) 一种网络流量批量生成图像的方法及装置
CN115294392B (zh) 基于生成网络模型的可见光遥感图像云去除方法及系统
Qin et al. Robustness enhancement against adversarial steganography via steganalyzer outputs
CN115953394B (zh) 基于目标分割的海洋中尺度涡检测方法及系统
CN116977336A (zh) 摄像头缺陷检测方法、装置、计算机设备及存储介质
CN114861178B (zh) 一种基于改进b2m算法的恶意代码检测引擎设计方法
CN116644422A (zh) 一种基于恶意块标注和图像处理的恶意代码检测方法
CN116361791A (zh) 基于api分组重构与图像表示的恶意软件检测方法
CN111339950A (zh) 一种遥感图像目标检测方法
CN114972886A (zh) 一种图像隐写分析方法
JP2022133474A (ja) テキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム
Majumder et al. A generalized model of text steganography by summary generation using frequency analysis
CN115048442A (zh) 用于主机入侵检测的系统调用序列数据增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant