CN113704757A - 一种基于特征集聚的恶意pdf文档智能检测方法及系统 - Google Patents
一种基于特征集聚的恶意pdf文档智能检测方法及系统 Download PDFInfo
- Publication number
- CN113704757A CN113704757A CN202110844065.4A CN202110844065A CN113704757A CN 113704757 A CN113704757 A CN 113704757A CN 202110844065 A CN202110844065 A CN 202110844065A CN 113704757 A CN113704757 A CN 113704757A
- Authority
- CN
- China
- Prior art keywords
- aggregation
- document
- clusters
- malicious
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 71
- 238000004220 aggregation Methods 0.000 title claims abstract description 71
- 238000001514 detection method Methods 0.000 title claims description 38
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 26
- 230000009471 action Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 239000003086 colorant Substances 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 238000013136 deep learning model Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Virology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于特征集聚的恶意PDF文档智能检测方法及系统,包括:获取待检测的PDF文档;解析PDF文档,从PDF文档中提取文档的内容特征和结构特征,将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特征;将聚合特征输入到获取预先训练好的卷积神经网络模型,若输出为1,则判定为恶意文档;若输出0,则判定为良性文档。优点:降低了特征的维度,减轻了深度学习模型的训练压力,提高了系统的高效性;根据输入文档的聚合特征,利用卷积神经网络模型对文档进行检测分类或是自动训练模型的参数,提高了系统的准确性和易用性。
Description
技术领域
本发明涉及一种基于特征集聚的恶意PDF文档智能检测方法及系统,属于信息安全技技术领域。
背景技术
传统的恶意PDF文档检测方法主要基于签名识别和启发式规则匹配,优点是误报率低,但局限于对病毒库中已有的恶意样本进行检测,面对未知恶意文档反应迟缓,攻击者可以通过伪造新的恶意文档来绕过检测。
近年来,基于机器学习的恶意PDF文档检测技术被广泛使用。相比于传统签名匹配检测,它能够及时发现新型恶意文档且模型更新方便迅速。根据特征提取方式来分可以分为动态检测和静态检测。动态检测需要在虚拟环境中执行文档来获取动态特征,虽然能够深层次挖掘攻击者的意图,但是需要耗费大量的资源且效率比较低。而静态检测以其特征提取高效、成本低、泛化能力强的特点,被研究人员深入研究。同时为了更好的挖掘特征中的隐藏信息,深度学习的方法也被逐渐应用于该领域。
现有的恶意PDF文档检测方法技术的缺点包括:特征的泛化能力差,训练样本较少时,分类模型容易产生欠拟合,影响检测系统的性能;未经处理的原始特征易被攻击者进行反向模仿攻击,从而影响检测系统的检测率;特征空间维度较大,导致深度学习模型的训练效率比较低,依赖系统的配置。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种基于特征集聚的恶意PDF文档检测方法,提高识别结果的准确性、高效性和易用性。
为解决上述技术问题,本发明提供一种基于特征集聚的恶意PDF文档智能检测方法,包括:
获取待检测的PDF文档;
解析PDF文档,从PDF文档中提取文档的内容特征和结构特征,将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特征;
将聚合特征输入到获取预先训练好的卷积神经网络模型,若输出为1,则判定为恶意文档;若输出0,则判定为良性文档。
进一步的,所述内容特征包括:
页数、是否被加密、是否含有JavaScript代码的标签、是否含有可自动执行动作的标签、是否使用了JBIG2压缩、执行动作的数量、是否包含嵌入文件、是否包含表单文件、文本颜色数目、编码种类。
进一步的,所述结构特征包括:
含JavaScript标签的结构路径占比、结构树高、结构路径总数。
进一步的,所述将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特征,包括:
以提取得到的内容特征和结构特征作为聚类对象,使用层次聚类中的Ward方法评估两类特征间的潜在相似度,将每一个特征看作一类簇,以两个簇合并后其离差平方和的增量作为两个簇间合并成本C,合并成本C最小的两个簇生成新的簇,迭代直到得到所需数目的特征簇,得到文档的聚合特征;
离差平方和ESS的计算公式如下:
式中,xi表示第i个样本的特征值,n表示特征的总数;
合并成本C的计算公式如下:
C=ESSx∪y-ESSx-ESSy
式中,ESSx∪y表示两个簇x和y合并后的离差平方和、ESSx、ESSy分别表示簇x和簇y的离差平方和。
进一步的,所述卷积神经网络模型的训练过程包括:
获取已确定的若干恶意PDF文档和若干良性PDF文档,将每个恶意PDF文档和每个良性PDF文档分别进行内容特征和结构特征提取,将内容特征和结构特征合并后,以特征簇最小方差为目标利用Ward最小方差聚类方法进行特征集聚,得到聚合特征训练集,给定良性文档训练标签为0,恶意文档训练标签为1;
对1D-CNN模型的网络各层的神经元权值进行初始化,输入聚合特征训练集中的一个训练数据,经过网络各层向前传播得到输出值,与已给定的标签进行比较,计算预测误差,将误差传回1D-CNN模型中,求得各层的误差,对权值进行更新,再重新输入一个训练数据向前传播,多次迭代后得到训练好的神经网络模型。
一种基于特征集聚的恶意PDF文档检测系统,包括:
获取模块,用于获取待检测的PDF文档;
解析模块,用于解析PDF文档,从PDF文档中提取文档的内容特征和结构特征,将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特征;
学习检测模块,用于将聚合特征输入到获取预先训练好的卷积神经网络模型,若输出为1,则判定为恶意文档;若输出0,则判定为良性文档。
进一步的,所述内容特征包括:
页数、是否被加密、是否含有JavaScript代码的标签、是否含有可自动执行动作的标签、是否使用了JBIG2压缩、执行动作的数量、是否包含嵌入文件、是否包含表单文件、文本颜色数目、编码种类。
进一步的,所述结构特征包括:
含JavaScript标签的结构路径占比、结构树高、结构路径总数。
进一步的,所述解析模块包括:
特征提取模块,用于从PDF文档中提取文档的内容特征和结构特征;
特征集聚模块,用于以提取得到的内容特征和结构特征作为聚类对象,使用层次聚类中的Ward方法评估两类特征间的潜在相似度,将每一个特征看作一类簇,以两个簇合并后其离差平方和的增量作为两个簇间合并成本C,合并成本C最小的两个簇生成新的簇,迭代直到得到所需数目的特征簇,得到文档的聚合特征;
离差平方和ESS的计算公式如下:
式中,xi表示第i个样本的特征值,n表示特征的总数;
合并成本C的计算公式如下:
C=ESSx∪y-ESSx-ESSy
式中,ESSx∪y表示两个簇x和y合并后的离差平方和、ESSx、ESSy分别表示簇x和簇y的离差平方和。
进一步的,所述学习检测模块包括训练模块,用于
获取已确定的若干恶意PDF文档和若干良性PDF文档,将每个恶意PDF文档和每个良性PDF文档分别进行内容特征和结构特征提取,将内容特征和结构特征合并后,以特征簇最小方差为目标利用Ward最小方差聚类方法进行特征集聚,得到聚合特征训练集,给定良性文档训练标签为0,恶意文档训练标签为1;
对1D-CNN模型的网络各层的神经元权值进行初始化,输入聚合特征训练集中的一个训练数据,经过网络各层向前传播得到输出值,与已给定的标签进行比较,计算预测误差,将误差传回1D-CNN模型中,求得各层的误差,对权值进行更新,再重新输入一个训练数据向前传播,多次迭代后得到训练好的神经网络模型。
本发明所达到的有益效果:
相对于现有技术,本发明降低了特征的维度,减轻了深度学习模型的训练压力,提高了系统的高效性;根据输入文档的聚合特征,利用卷积神经网络模型对文档进行检测分类或是自动训练模型的参数,提高了系统的准确性和易用性。
附图说明
图1为本发明工作流程图;
图2为本发明系统结构图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种基于特征集聚的恶意PDF文档检测方法,包括:
输入一个文档,对其进行解析,提取它的内容特征和结构特征;将两大类特征合并后,以特征簇最小方差为目标,使用Ward最小方差聚类方法实现特征集聚,得到相应簇数的聚合特征;将聚合特征送入1D-CNN模型训练或是检测分类。
所述内容特征是指基于对PDF文档的内容解析,提取的14个具有安全相关性的的统计类特征,包括页数、是否被加密、是否含有标签Js、是否含有标签JavaScript、是否含有标签AA、是否含有标签OpenAction、是否含有标签AcroFrom、是否使用了JBIG2压缩、执行动作的数量、是否包含嵌入文件、是否包含表单文件、文本颜色数目、编码种类。
所述结构特征是指基于对PDF文档的结构解析,主要与文档的结构路径有关的特征,包括含JavaScript标签的结构路径占比、结构树高、结构路径总数。
所述聚合特征的生成过程为:
使用层次聚类中的Ward方法,将每一个特征看作一类簇,以两个簇x和y合并后其离差平方和(ESS,)的增量作为两个簇间合并成本C(C=ESSx∪y-ESSx-ESSy),选择合并成本C最小的两个簇生成新的簇,迭代直到得到所需数目的聚合特征。
所述模型训练的过程为:
根据输入的聚合特征,利用1D-CNN模型自动地更新1D-CNN模型参数。
所述模型分类检测的过程为:
将聚合特征以向量的形式输入1D-CNN模型在经过卷积层、池化层、dropout层、全连接层后得到输出,若输出为1,则判定为恶意文档;若输出0,则判定为良性文档。
如图2所示,本实施例涉及种基于特征集聚的恶意PDF文档检测系统,包括:
获取模块,用于获取待检测的PDF文档;
解析模块,用于解析PDF文档,从PDF文档中提取文档的内容特征和结构特征,将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特征;
学习检测模块,用于将聚合特征输入到获取预先训练好的卷积神经网络模型,若输出为1,则判定为恶意文档;若输出0,则判定为良性文档。
所述内容特征包括14个具有安全相关性的的统计类特征,包括:页数、是否被加密、是否含有标签Js、是否含有标签JavaScript、是否含有标签AA、是否含有标签OpenAction、是否含有标签AcroFrom、是否使用了JBIG2压缩、执行动作的数量、是否包含嵌入文件、是否包含表单文件、文本颜色数目、编码种类。
所述结构特征包括:
含JavaScript标签的结构路径占比、结构树高、结构路径总数。
所述解析模块包括:
特征提取模块,用于从PDF文档中提取文档的内容特征和结构特征;
特征集聚模块,用于以提取得到的内容特征和结构特征作为聚类对象,使用层次聚类中的Ward方法评估两类特征间的潜在相似度,将每一个特征看作一类簇,以两个簇合并后其离差平方和的增量作为两个簇间合并成本C,合并成本C最小的两个簇生成新的簇,迭代直到得到所需数目的特征簇,得到文档的聚合特征;
离差平方和ESS的计算公式如下:
式中,xi表示第i个样本的特征值,n表示特征的总数;
合并成本C的计算公式如下:
C=ESSx∪y-ESSx-ESSy
式中,ESSx∪y表示两个簇x和y合并后的离差平方和、ESSx、ESSy分别表示簇x和簇y的离差平方和。
所述学习检测模块包括训练模块,用于
获取已确定的若干恶意PDF文档和若干良性PDF文档,将每个恶意PDF文档和每个良性PDF文档分别进行内容特征和结构特征提取,将内容特征和结构特征合并后,以特征簇最小方差为目标利用Ward最小方差聚类方法进行特征集聚,得到聚合特征训练集,给定良性文档训练标签为0,恶意文档训练标签为1;
对1D-CNN模型的网络各层的神经元权值进行初始化,输入聚合特征训练集中的一个训练数据,经过网络各层向前传播得到输出值,与已给定的标签进行比较,计算预测误差,将误差传回1D-CNN模型中,求得各层的误差,对权值进行更新,再重新输入一个训练数据向前传播,多次迭代后得到训练好的神经网络模型。
如图1所示,本实施例包括以下详细操作步骤:
步骤1)特征提取,文档解析单元对PDF文档进行解析,然后利用结构特征提取单元和内容特征提取单元提取得到文档的结构特征和内容特征
步骤2)特征聚合,合并单元将提取得到的结构和内容特征合并在一起,然后交给迭代聚合单元,依据Ward方法,选择合并成本C最小的两个簇生成新的簇,迭代直到得到所需数目的聚合特征。
步骤3)学习检测,当模式选择单元根据需求输入’train’时,模型学习单元根据迭代聚合单元生成的聚合特征,利用1D-CNN深度学习模型进行训练,并对模型的参数进行更新;当模式选择单元根据需求输入’valid’时,文档检测单元将聚合特征输入1D-CNN模型后得到输出,若输出为1,则判定为恶意文档;若输出0,则判定为良性文档。
使用例一:
用户输入文档test.pdf
进行文档内容特征提取得到content_ft.npy的内容特征文件,进行文档结构提取得到structure_ft.npy的结构特征文件。
进行特征聚合将两个特征文件合并得到聚合特征feature.py
选择训练模式时,输入’train’,导入聚合特征,模型进行学习并更新参数
使用例二:
用户输入文档test.pdf
进行文档内容特征提取得到content_ft.npy的内容特征文件,进行文档结构提取得到structure_ft.npy的结构特征文件。
进行特征聚合将两个特征文件合并得到聚合特征feature.py
选择测试模式时,输入’valid’,导入聚合特征,模型进行检测,输出结果为1,检测为恶意文档。
使用例三:
用户输入文档test.pdf
进行文档内容特征提取得到content_ft.npy的内容特征文件,进行文档结构提取得到structure_ft.npy的结构特征文件。
进行特征聚合将两个特征文件合并得到聚合特征feature.py
选择测试模式时,输入’valid’,导入聚合特征,模型进行检测,输出结果为0,检测为良性文档。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于特征集聚的恶意PDF文档智能检测方法,其特征在于,包括:
获取待检测的PDF文档;
解析PDF文档,从PDF文档中提取文档的内容特征和结构特征,将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特征;
将聚合特征输入到获取预先训练好的卷积神经网络模型,若输出为1,则判定为恶意文档;若输出0,则判定为良性文档。
2.根据权利要求1所述的基于特征集聚的恶意PDF文档智能检测方法,其特征在于,所述内容特征包括:
页数、是否被加密、是否含有JavaScript代码的标签、是否含有可自动执行动作的标签、是否使用了JBIG2压缩、执行动作的数量、是否包含嵌入文件、是否包含表单文件、文本颜色数目、编码种类。
3.根据权利要求1所述的基于特征集聚的恶意PDF文档智能检测方法,其特征在于,所述结构特征包括:
含JavaScript标签的结构路径占比、结构树高、结构路径总数。
4.根据权利要求1所述的基于特征集聚的恶意PDF文档智能检测方法,其特征在于,所述将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特征,包括:
以提取得到的内容特征和结构特征作为聚类对象,使用层次聚类中的Ward方法评估两类特征间的潜在相似度,将每一个特征看作一类簇,以两个簇合并后其离差平方和的增量作为两个簇间合并成本C,合并成本C最小的两个簇生成新的簇,迭代直到得到所需数目的特征簇,得到文档的聚合特征;
离差平方和ESS的计算公式如下:
式中,xi表示第i个样本的特征值,n表示特征的总数;
合并成本C的计算公式如下:
式中,ESSx∪y表示两个簇x和y合并后的离差平方和、ESSx、ESSy分别表示簇x和簇y的离差平方和。
5.根据权利要求1所述的基于特征集聚的恶意PDF文档智能检测方法,其特征在于,所述卷积神经网络模型的训练过程包括:
获取已确定的若干恶意PDF文档和若干良性PDF文档,将每个恶意PDF文档和每个良性PDF文档分别进行内容特征和结构特征提取,将内容特征和结构特征合并后,以特征簇最小方差为目标利用Ward最小方差聚类方法进行特征集聚,得到聚合特征训练集,给定良性文档训练标签为0,恶意文档训练标签为1;
对1D-CNN模型的网络各层的神经元权值进行初始化,输入聚合特征训练集中的一个训练数据,经过网络各层向前传播得到输出值,与已给定的标签进行比较,计算预测误差,将误差传回1D-CNN模型中,求得各层的误差,对权值进行更新,再重新输入一个训练数据向前传播,多次迭代后得到训练好的神经网络模型。
6.一种基于特征集聚的恶意PDF文档检测系统,其特征在于,包括:
获取模块,用于获取待检测的PDF文档;
解析模块,用于解析PDF文档,从PDF文档中提取文档的内容特征和结构特征,将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特征;
学习检测模块,用于将聚合特征输入到获取预先训练好的卷积神经网络模型,若输出为1,则判定为恶意文档;若输出0,则判定为良性文档。
7.根据权利要求6所述的基于特征集聚的恶意PDF文档智能检测系统,其特征在于,所述内容特征包括:
页数、是否被加密、是否含有JavaScript代码的标签、是否含有可自动执行动作的标签、是否使用了JBIG2压缩、执行动作的数量、是否包含嵌入文件、是否包含表单文件、文本颜色数目、编码种类。
8.根据权利要求6所述的基于特征集聚的恶意PDF文档智能检测系统,其特征在于,所述结构特征包括:
含JavaScript标签的结构路径占比、结构树高、结构路径总数。
9.根据权利要求6所述的基于特征集聚的恶意PDF文档智能检测系统,其特征在于,所述解析模块包括:
特征提取模块,用于从PDF文档中提取文档的内容特征和结构特征;
特征集聚模块,用于以提取得到的内容特征和结构特征作为聚类对象,使用层次聚类中的Ward方法评估两类特征间的潜在相似度,将每一个特征看作一类簇,以两个簇合并后其离差平方和的增量作为两个簇间合并成本C,合并成本C最小的两个簇生成新的簇,迭代直到得到所需数目的特征簇,得到文档的聚合特征;
离差平方和ESS的计算公式如下:
式中,xi表示第i个样本的特征值,n表示特征的总数;
合并成本C的计算公式如下:
C=ESSx∪y-ESSx-ESSy
式中,ESSx∪y表示两个簇x和y合并后的离差平方和、ESSx、ESSy分别表示簇x和簇y的离差平方和。
10.根据权利要求6所述的基于特征集聚的恶意PDF文档智能检测系统,其特征在于,所述学习检测模块包括训练模块,用于
获取已确定的若干恶意PDF文档和若干良性PDF文档,将每个恶意PDF文档和每个良性PDF文档分别进行内容特征和结构特征提取,将内容特征和结构特征合并后,以特征簇最小方差为目标利用Ward最小方差聚类方法进行特征集聚,得到聚合特征训练集,给定良性文档训练标签为0,恶意文档训练标签为1;
对1D-CNN模型的网络各层的神经元权值进行初始化,输入聚合特征训练集中的一个训练数据,经过网络各层向前传播得到输出值,与已给定的标签进行比较,计算预测误差,将误差传回1D-CNN模型中,求得各层的误差,对权值进行更新,再重新输入一个训练数据向前传播,多次迭代后得到训练好的神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110844065.4A CN113704757A (zh) | 2021-07-26 | 2021-07-26 | 一种基于特征集聚的恶意pdf文档智能检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110844065.4A CN113704757A (zh) | 2021-07-26 | 2021-07-26 | 一种基于特征集聚的恶意pdf文档智能检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113704757A true CN113704757A (zh) | 2021-11-26 |
Family
ID=78650681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110844065.4A Pending CN113704757A (zh) | 2021-07-26 | 2021-07-26 | 一种基于特征集聚的恶意pdf文档智能检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704757A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778278A (zh) * | 2017-02-15 | 2017-05-31 | 中国科学院信息工程研究所 | 一种恶意文档检测方法及装置 |
CN112241530A (zh) * | 2019-07-19 | 2021-01-19 | 中国人民解放军战略支援部队信息工程大学 | 恶意pdf文档的检测方法及电子设备 |
-
2021
- 2021-07-26 CN CN202110844065.4A patent/CN113704757A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778278A (zh) * | 2017-02-15 | 2017-05-31 | 中国科学院信息工程研究所 | 一种恶意文档检测方法及装置 |
CN112241530A (zh) * | 2019-07-19 | 2021-01-19 | 中国人民解放军战略支援部队信息工程大学 | 恶意pdf文档的检测方法及电子设备 |
Non-Patent Citations (5)
Title |
---|
DAVIDE MAIORCA: "A Structural and Content-based Approach for a Precise and Robust Detection of Malicious PDF Files", 2015 INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS SECURITY AND PRIVACY (ICISSP), 2 May 2015 (2015-05-02), pages 27 - 36 * |
JASON ZHANG: "MLPdf: An Effective Machine Learning Based Approach for PDF Malware Detection", ARXIV, 21 August 2018 (2018-08-21), pages 1 - 6 * |
JOE H. WARD: "hierarchical grouping to optimize an objective function", JOURNAL OF THE AMERICAN STATISTICAL ASSOICIATION, 31 March 1963 (1963-03-31), pages 236 - 244, XP009036875 * |
SONGJINGHE: "凝聚法层次聚类之ward linkage method", pages 1 - 3, Retrieved from the Internet <URL:http://blog.sciencenet.cn/u/Songjinghe> * |
陈亮: "基于结构路径的恶意PDF文档检测", 计算机科学, 28 February 2015 (2015-02-28), pages 90 - 94 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aslan et al. | A new malware classification framework based on deep learning algorithms | |
US11689561B2 (en) | Detecting unknown malicious content in computer systems | |
CN109753801B (zh) | 基于系统调用的智能终端恶意软件动态检测方法 | |
CN111652290B (zh) | 一种对抗样本的检测方法及装置 | |
CN107944273B (zh) | 一种基于tf-idf算法和svdd算法的恶意pdf文档检测方法 | |
Zhu et al. | Android malware detection based on multi-head squeeze-and-excitation residual network | |
Issakhani et al. | PDF Malware Detection based on Stacking Learning. | |
CN103412557A (zh) | 一种适于非线性过程在线监控的工业故障检测与诊断方法 | |
Liu et al. | A statistical pattern based feature extraction method on system call traces for anomaly detection | |
CN113420294A (zh) | 基于多尺度卷积神经网络的恶意代码检测方法 | |
Rahul et al. | Analysis of machine learning models for malware detection | |
Sun et al. | Efficient method for feature selection in text classification | |
Kakisim et al. | Sequential opcode embedding-based malware detection method | |
CN114553591A (zh) | 随机森林模型的训练方法、异常流量检测方法及装置 | |
CN115577357A (zh) | 一种基于堆叠集成技术的Android恶意软件检测方法 | |
Gao et al. | Malware detection using attributed cfg generated by pre-trained language model with graph isomorphism network | |
CN112329012A (zh) | 针对包含JavaScript的恶意PDF文档的检测方法及电子设备 | |
CN111191238A (zh) | 一种webshell检测方法、终端设备及存储介质 | |
CN113704757A (zh) | 一种基于特征集聚的恶意pdf文档智能检测方法及系统 | |
Cybersecurity | Machine learning for malware detection | |
Meng et al. | A survey on machine learning-based detection and classification technology of malware | |
CN112163217B (zh) | 恶意软件变种识别方法、装置、设备及计算机存储介质 | |
CN114969761A (zh) | 一种基于lda主题特征的日志异常检测方法 | |
CN114169540A (zh) | 一种基于改进机器学习的网页用户行为检测方法及系统 | |
Zhang et al. | Detection of android malicious family based on manifest information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |