CN111914257A - 文档检测的方法、装置、设备、及计算机存储介质 - Google Patents

文档检测的方法、装置、设备、及计算机存储介质 Download PDF

Info

Publication number
CN111914257A
CN111914257A CN202010771525.0A CN202010771525A CN111914257A CN 111914257 A CN111914257 A CN 111914257A CN 202010771525 A CN202010771525 A CN 202010771525A CN 111914257 A CN111914257 A CN 111914257A
Authority
CN
China
Prior art keywords
characteristic
document
detected
feature
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010771525.0A
Other languages
English (en)
Inventor
崔甲
施蕾
胡卫华
班晓芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Information Technology Security Evaluation Center
Original Assignee
China Information Technology Security Evaluation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Information Technology Security Evaluation Center filed Critical China Information Technology Security Evaluation Center
Priority to CN202010771525.0A priority Critical patent/CN111914257A/zh
Publication of CN111914257A publication Critical patent/CN111914257A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种文档检测的方法、装置、设备、及计算机存储介质,该方法包括:获取待检测文档中的每一个文件的路径特征和内容特征;将所有的路径特征和所有的内容特征进行筛选,分别将筛选得到的每一个路径特征和每一个内容特征,作为待检测文档的待检测特征;分别针对每一个待检测特征,将待检测特征输入至文档检测模型中,得到待检测特征的判断结果;其中,判断结果用于说明待检测特征对应的文件是否为恶意文件;文档检测模型由多个训练样本文档各自对应的特征集合对随机森林分类器进行训练得到。从而达到无论恶意文件是否已知,都可以准确识别在大规模的文档中的恶意文件的目的。

Description

文档检测的方法、装置、设备、及计算机存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种文档检测的方法、装置、设 备、及计算机存储介质。
背景技术
恶意文档在网络攻击中被广泛使用。在常见的攻击模式中,攻击者将恶 意文档通过邮件或者网站挂载等社会工程学的手段进行传播。当用户打开恶 意文档以后通常会触发恶意文档的恶意行为,一般会导致用户个人隐私以及 私密信息的泄露,提供木马、病毒、蠕虫的攻击与传播载体,或者引发关键 工控系统的操作故障等。
在现有技术中,对恶意文档的检测方法主要分为静态检测和动态检测两 种方法。传统的静态检测主要以基于签名特征的静态匹配并结合机器学习的 检测方法,能够有效检测已知的样本攻击,但是针对未知样本或者已有样本 的变种的检测,无法发挥效果。而且随着样本的增加,特征数据库将变得越 来越大,检测带来的开销也变得越来越大。在动态检测中,通常通过在沙盒 中动态运行样本,并分析收集目标进程的相关行为信息来进行检测。目前该 种方法也面临着两个重要问题,一是整个动态检测在时间和资源上开销较大, 从而导致无法进行大规模检测。另外一个则是样本对环境的依赖较为严重, 只有当样本在特定环境中运行后才会触发相应的恶意行为。而实际情况中要 在沙箱中配置各种环境往往是不可能的,因此会导致大量的漏报。
因此,亟需一种无论恶意文件是否已知,都可以准确识别在大规模的文 档中的恶意文件的方法。
发明内容
有鉴于此,本申请提供一种文档检测的方法、装置、设备、及计算机存 储介质,用于无论恶意文件是否已知,都可以准确识别在大规模的文档中的 恶意文件。
本申请第一方面提供了一种文档检测的方法,包括:
获取待检测文档中的每一个文件的路径特征和内容特征;
将所有的所述路径特征和所有的所述内容特征进行筛选,分别将筛选得 到的每一个所述路径特征和每一个所述内容特征,作为所述待检测文档的待 检测特征;
分别针对每一个所述待检测特征,将所述待检测特征输入至文档检测模 型中,得到所述待检测特征的判断结果;其中,所述判断结果用于说明所述 待检测特征对应的文件是否为恶意文件;所述文档检测模型由多个训练样本 文档各自对应的特征集合对随机森林分类器进行训练得到;每一个所述训练 样本文档中包括多个恶意样本文件和多个良性样本文件;所述特征集合由所 述训练样本文档中的内容特征和路径特征筛选得到。
可选的,所述获取待检测文档中的每一个文件的路径特征和内容特征, 包括:
对所述待检测文档进行解压缩,得到所述待检测文档对应的文件夹;
提取得到所述文件夹中每一个文件对应的路径信息,以及所述文件夹中 每一个子文件夹中的每一个文件对应的路径信息;
提取得到所述文件夹中每一个文件中从开始标签到结束标签之间的所有 内容信息,以及所述文件夹中每一个子文件夹中的每一个文件中从开始标签 到结束标签之间的所有内容信息;
分别对每一个文件的路径信息和内容信息进行特征处理,得到每一个文 件的路径特征和内容特征。
可选的,所述将所有的所述路径特征和所有的所述内容特征进行筛选, 分别将筛选得到的每一个所述路径特征和每一个所述内容特征,作为所述待 检测文档的待检测特征,包括:
将所述每一个路径特征分别输入至特征权重计算公式,计算得到每一个 所述路径特征的权重值;
将所述每一个内容特征分别输入至特征权重计算公式,计算得到每一个 所述内容特征的权重值;
对所有路径特征的权重值以及所有内容特征的权重值,从大到小进行排 序,得到特征序列;
在所述特征序列中选取预设个数的路径特征和内容特征,作为待检测特 征;
其中,所述特征权重计算公式为:
Figure BDA0002616813190000031
Ri代表特征i的权重;μi,p表示特征i在恶意文件中的平均值;μi,n是特征i 在良性文件中的平均值;σi,p是特征i在恶意文件中的标准差;σi,n是特征i在 良性文件中的标准差;所述特征i为所述路径特征或所述内容特征。
可选的,所述文档检测模型的构建方法,包括:
针对每一个训练样本文档,将所述训练样本文档的特征集合中的每一个 特征输入至随机森林分类器中,得到特征对应的文件的判断结果;其中,所 述判断结果用于说明所述特征对应的文件是否为恶意文件;
对每一个所述训练样本文档的所述随机森林分类器输出的判断结果与实 际判断结果进行对比,对所述随机森林分类器中的参数进行不断调整,直至 调整后的所述随机森林分类器输出的判断结果与实际判断结果相同,将所述 调整后的随机森林分类器确定为文档检测模型。
本申请第二方面提供了一种文档检测的装置,包括:
获取单元,用于获取待检测文档中的每一个文件的路径特征和内容特征;
筛选单元,用于将所有的所述路径特征和所有的所述内容特征进行筛选, 分别将筛选得到的每一个所述路径特征和每一个所述内容特征,作为所述待 检测文档的待检测特征;
分析单元,用于分别针对每一个所述待检测特征,将所述待检测特征输 入至文档检测模型中,得到所述待检测特征的判断结果;其中,所述判断结 果用于说明所述待检测特征对应的文件是否为恶意文件;所述文档检测模型 由多个训练样本文档各自对应的特征集合对随机森林分类器进行训练得到; 每一个所述训练样本文档中包括多个恶意样本文件和多个良性样本文件;所 述特征集合由所述训练样本文档中的内容特征和路径特征筛选得到。
可选的,所述获取单元,包括:
解压缩单元,用于对所述待检测文档进行解压缩,得到所述待检测文档 对应的文件夹;
第一提取单元,用于提取得到所述文件夹中每一个文件对应的路径信息, 以及所述文件夹中每一个子文件夹中的每一个文件对应的路径信息;
第二提取单元,用于提取得到所述文件夹中每一个文件中从开始标签到 结束标签之间的所有内容信息,以及所述文件夹中每一个子文件夹中的每一 个文件中从开始标签到结束标签之间的所有内容信息;
特征处理单元,用于分别对每一个文件的路径信息和内容信息进行特征 处理,得到每一个文件的路径特征和内容特征。
可选的,所述筛选单元,包括:
计算单元,用于将所述每一个路径特征分别输入至特征权重计算公式, 计算得到每一个所述路径特征的权重值;
所述计算单元,还用于将所述每一个内容特征分别输入至特征权重计算 公式,计算得到每一个所述内容特征的权重值;
排序单元,用于对所有路径特征的权重值以及所有内容特征的权重值, 从大到小进行排序,得到特征序列;
选取单元,用于在所述特征序列中选取预设个数的路径特征和内容特征, 作为待检测特征;
其中,所述特征权重计算公式为:
Figure BDA0002616813190000041
Ri代表特征i的权重;μi,p表示特征i在恶意文件中的平均值;μi,n是特征i 在良性文件中的平均值;σi,p是特征i在恶意文件中的标准差;σi,n是特征i在 良性文件中的标准差;所述特征i为所述路径特征或所述内容特征。
可选的,所述文档检测模型的构建单元,包括:
判断单元,用于针对每一个训练样本文档,将所述训练样本文档的特征 集合中的每一个特征输入至随机森林分类器中,得到特征对应的文件的判断 结果;其中,所述判断结果用于说明所述特征对应的文件是否为恶意文件;
确定单元,用于对每一个所述训练样本文档的所述随机森林分类器输出 的判断结果与实际判断结果进行对比,对所述随机森林分类器中的参数进行 不断调整,直至调整后的所述随机森林分类器输出的判断结果与实际判断结 果相同,将所述调整后的随机森林分类器确定为文档检测模型。
本申请第三方面提供了一种设备,所述设备为服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一 个或多个处理器实现如第一方面任意一项所述的方法。
本申请第四方面提供了一种计算机存储介质,其上存储有计算机程序, 其中,所述计算机程序被处理器执行时实现如第一方面任意一项所述的方 法。
由以上方案可知,本申请提供的一种文档检测的方法、装置、设备、及 计算机存储介质中,该方法包括:首先,获取待检测文档中的每一个文件的 路径特征和内容特征;然后,将所有的路径特征和所有的内容特征进行筛选, 分别将筛选得到的每一个路径特征和每一个内容特征,作为待检测文档的待 检测特征;最后,分别针对每一个待检测特征,将待检测特征输入至文档检 测模型中,得到待检测特征的判断结果;其中,判断结果用于说明待检测特 征对应的文件是否为恶意文件;文档检测模型由多个训练样本文档各自对应 的特征集合对随机森林分类器进行训练得到;每一个训练样本文档中包括多 个恶意样本文件和多个良性样本文件;特征集合由所述训练样本文档中的内 容特征和路径特征筛选得到。从而达到无论恶意文件是否已知,都可以准确 识别在大规模的文档中的恶意文件的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种文档检测的方法的具体流程图;
图2为本申请另一实施例提供的一种文档检测的方法的具体流程图;
图3为本申请另一实施例提供的一种文档检测的方法的具体流程图;
图4为本申请另一实施例提供的一种文档检测模型的构建方法的具体流 程图;
图5为本申请另一实施例提供的一种文档检测的装置的示意图;
图6为本申请另一实施例提供的一种获取单元的示意图;
图7为本申请另一实施例提供的一种筛选单元的示意图;
图8为本申请另一实施例提供的一种文档检测模型的构建单元的示意图;
图9为本申请另一实施例提供的一种执行文档检测方法的设备的示意图;
图10为本申请另一实施例提供的一种性能比较结果的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而 不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、 模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的 顺序或者相互依存关系,而术语“包括”、“包含”或者其任何其他变体意在涵盖 非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不 仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这 种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由 语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种文档检测的方法,如图1所示,具体包括以下步 骤:
S101、获取待检测文档中的每一个文件的路径特征和内容特征。
具体的,对待检测文档进行预处理,获取得到待检测文档下所有子文件 的路径特征和内容特征。
可选的,在本申请的另一实施例中,步骤S101的一种实施方式,如图2 所示,包括:
S201、对待检测文档进行解压缩,得到待检测文档对应的文件夹。
具体的,对待检测文档进行解压缩,得到包含待检测文档中全部信息的 文件夹。在该文件夹下可能会包含多个子文件夹,而每一个子文件夹中也会 包括多个文件。
S202、提取得到文件夹中每一个文件对应的路径信息,以及文件夹中每 一个子文件夹中的每一个文件对应的路径信息。
其中,路径信息用于指示文件在存储介质中的存储位置。
S203、提取得到文件夹中每一个文件中从开始标签到结束标签之间的所 有内容信息,以及文件夹中每一个子文件夹中的每一个文件中从开始标签到 结束标签之间的所有内容信息。
S204、分别对每一个文件的路径信息和内容信息进行特征处理,得到每 一个文件的路径特征和内容特征。
S102、将所有的路径特征和所有的内容特征进行筛选,分别将筛选得到 的每一个路径特征和每一个内容特征,作为待检测文档的待检测特征。
具体的,按照预设的筛选规则对所有的路径特征和所有的内容特征进行 筛选,分别将筛选得到的每一个路径特征和每一个内容特征,作为待检测文 档的待检测特征,从而减少不必要的特征,提高对待检测文档进行检测准确 度,以及减少处理时间。
可选的,在本申请的另一实施例中,步骤S102的一种实施方式,如图3 所示,包括:
S301、将每一个路径特征分别输入至特征权重计算公式,计算得到每一 个路径特征的权重值。
其中,特征权重计算公式为:
Figure BDA0002616813190000071
Ri代表特征i的权重;μi,p表示特征i在恶意文件中的平均值;μi,n是特征i 在良性文件中的平均值;σi,p是特征i在恶意文件中的标准差;σi,n是特征i在 良性文件中的标准差;特征i为路径特征或内容特征。
S302、将每一个内容特征分别输入至特征权重计算公式,计算得到每一 个内容特征的权重值。
需要说明的是,计算得到的内容特征的权重值的的计算公式与计算得到 的路径特征的权重值的的计算公式一致。
S303、对所有路径特征的权重值以及所有内容特征的权重值,从大到小 进行排序,得到特征序列。
具体的,按照从大到小的顺序,对得到的所有路径特征的权重值以及所 有内容特征的权重值,一起进行排序,得到的特征序列。
S304、在特征序列中选取预设个数的路径特征和内容特征,作为待检测 特征。
需要说明的是,在不同应用场景中,该数值会对检测速度何检测准确率 产生影响,因此,在实际应用可以根据情况中对该数值进行调整和修改,此 处不做限定。
还需要说明的是,在特征序列中选取预设个数的路径特征和内容特征的 过程中,由于特征序列是按照从大到小的顺序,对得到的所有路径特征的权 重值以及所有内容特征的权重值,一起进行排序得到的,所以有可能待检测 特征中只有路径特征或只有内容特征。
S103、分别针对每一个待检测特征,将待检测特征输入至文档检测模型 中,得到待检测特征的判断结果。
其中,判断结果用于说明待检测特征对应的文件是否为恶意文件;文档 检测模型由多个训练样本文档各自对应的特征集合对随机森林分类器进行训 练得到;每一个训练样本文档中包括多个恶意样本文件和多个良性样本文件; 特征集合由训练样本文档中的内容特征和路径特征筛选得到。
可选的,在本申请的另一实施例中,文档检测模型的构建方法,如图4 所示,包括:
S401、针对每一个训练样本文档,将训练样本文档的特征集合中的每一 个特征输入至随机森林分类器中,得到特征对应的文件的判断结果。
其中,判断结果用于说明特征对应的文件是否为恶意文件;训练样本文 档可以但不限于,按照7:3的比例分成训练集和测试集,对随机森林分类器 进行训,可以根据实际的情景,对比例进行设置,此处不做限定。
需要说明的是,随机森林分类器的初始参数值可以但不限于,将 N_estimator和Max_depth分别设置成100和30后进行随机森林分类器的训练。 其中,N_estimator的具体意义为随机森林中决策树的个数,Max_depth的具 体意义是决策树的深度。
S402、对每一个训练样本文档的随机森林分类器输出的判断结果与实际 判断结果进行对比,对随机森林分类器中的参数进行不断调整,直至调整后 的随机森林分类器输出的判断结果与实际判断结果相同,将调整后的随机森 林分类器确定为文档检测模型。
具体的,为了进一步验证模型的有效性,将模型训练好的模型和5类杀 毒软件进行的比较测试。图10是性能比较结果,实验结果显示我们申请的方 法在F值上优于目前主流的杀毒软件,其F值达到97.4%;其中,F值为 F-Mearsure,ourmethod为本申请,Avast、BitDefender、Kaspersky、McAfee 和Emsisoft为现有技术常用的杀毒软件。
由以上方案可知,本申请提供的一种文档检测的方法,首先,获取待检 测文档中的每一个文件的路径特征和内容特征;然后,将所有的路径特征和 所有的内容特征进行筛选,分别将筛选得到的每一个路径特征和每一个内容 特征,作为待检测文档的待检测特征;最后,分别针对每一个待检测特征, 将待检测特征输入至文档检测模型中,得到待检测特征的判断结果;其中, 判断结果用于说明待检测特征对应的文件是否为恶意文件;文档检测模型由 多个训练样本文档各自对应的特征集合对随机森林分类器进行训练得到;每一个训练样本文档中包括多个恶意样本文件和多个良性样本文件;特征集合 由所述训练样本文档中的内容特征和路径特征筛选得到。从而达到无论恶意 文件是否已知,都可以准确识别在大规模的文档中的恶意文件的目的。
本申请的另一实施例提供了一种文档检测的装置,如图5所示,包括:
获取单元501,用于获取待检测文档中的每一个文件的路径特征和内容特 征。
可选的,在申请的另一实施例中,获取单元501的一种实施方式,如图6 所示,包括:
解压缩单元601,用于对待检测文档进行解压缩,得到待检测文档对应的 文件夹。
第一提取单元602,用于提取得到文件夹中每一个文件对应的路径信息, 以及文件夹中每一个子文件夹中的每一个文件对应的路径信息。
第二提取单元603,用于提取得到文件夹中每一个文件中从开始标签到结 束标签之间的所有内容信息,以及文件夹中每一个子文件夹中的每一个文件 中从开始标签到结束标签之间的所有内容信息。
特征处理单元604,用于分别对每一个文件的路径信息和内容信息进行特 征处理,得到每一个文件的路径特征和内容特征。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施 例内容,如图2所示,此处不再赘述。
筛选单元502,用于将所有的路径特征和所有的内容特征进行筛选,分别 将筛选得到的每一个路径特征和每一个内容特征,作为待检测文档的待检测 特征。
可选的,在本申请的另一实施例中,筛选单元502的一种实施方式,如 图7所示,包括:
计算单元701,用于将每一个路径特征分别输入至特征权重计算公式,计 算得到每一个路径特征的权重值。
计算单元701,还用于将每一个内容特征分别输入至特征权重计算公式, 计算得到每一个内容特征的权重值。
排序单元702,用于对所有路径特征的权重值以及所有内容特征的权重 值,从大到小进行排序,得到特征序列。
选取单元703,用于在特征序列中选取预设个数的路径特征和内容特征, 作为待检测特征。
其中,特征权重计算公式为:
Figure BDA0002616813190000111
Ri代表特征i的权重;μi,p表示特征i在恶意文件中的平均值;μi,n是特征i 在良性文件中的平均值;σi,p是特征i在恶意文件中的标准差;σi,n是特征i在 良性文件中的标准差;特征i为路径特征或内容特征。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施 例内容,如图3所示,此处不再赘述。
分析单元503,用于分别针对每一个待检测特征,将待检测特征输入至文 档检测模型中,得到待检测特征的判断结果。
其中,判断结果用于说明待检测特征对应的文件是否为恶意文件;文档 检测模型由多个训练样本文档各自对应的特征集合对随机森林分类器进行训 练得到;每一个训练样本文档中包括多个恶意样本文件和多个良性样本文件; 特征集合由训练样本文档中的内容特征和路径特征筛选得到。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施 例内容,如图1所示,此处不再赘述。
可选的,在本申请的另一实施例中,文档检测模型的构建单元的一种实 施方式,如图8所示,包括:
判断单元801,用于针对每一个训练样本文档,将训练样本文档的特征集 合中的每一个特征输入至随机森林分类器中,得到特征对应的文件的判断结 果。
其中,判断结果用于说明特征对应的文件是否为恶意文件。
确定单元802,用于对每一个训练样本文档的随机森林分类器输出的判断 结果与实际判断结果进行对比,对随机森林分类器中的参数进行不断调整, 直至调整后的随机森林分类器输出的判断结果与实际判断结果相同,将调整 后的随机森林分类器确定为文档检测模型。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施 例内容,如图4所示,此处不再赘述。
由以上方案可知,本申请提供的一种文档检测的装置,首先,获取单元 501获取待检测文档中的每一个文件的路径特征和内容特征;然后,筛选单元 502将所有的路径特征和所有的内容特征进行筛选,分别将筛选得到的每一个 路径特征和每一个内容特征,作为待检测文档的待检测特征;最后,分析单 元503分别针对每一个待检测特征,将待检测特征输入至文档检测模型中,得 到待检测特征的判断结果;其中,判断结果用于说明待检测特征对应的文件 是否为恶意文件;文档检测模型由多个训练样本文档各自对应的特征集合对 随机森林分类器进行训练得到;每一个训练样本文档中包括多个恶意样本文 件和多个良性样本文件;特征集合由所述训练样本文档中的内容特征和路径 特征筛选得到。从而达到无论恶意文件是否已知,都可以准确识别在大规模 的文档中的恶意文件的目的。
本申请另一实施例提供了一种设备,所述设备为服务器,如图9所示,包 括:
一个或多个处理器901。
存储装置902,其上存储有一个或多个程序。
当所述一个或多个程序被所述一个或多个处理器901执行时,使得所述 一个或多个处理器901实现如上述实施例中任意一项所述的方法。
本申请另一实施例提供了一种计算机存储介质,其上存储有计算机程 序,其中,计算机程序被处理器执行时实现如上述实施例中任意一项所述 的方法。
在本申请公开的上述实施例中,应该理解到,所揭露的装置和方法,也 可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的, 例如,附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法 和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图 或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、 程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指 令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可 以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基 本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。 也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方 框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现, 或者可以用专用硬件与计算机指令的组合来实现。
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独 立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形 成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的 产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的 理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技 术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一 个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机, 直播设备,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步 骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等 各种可以存储程序代码的介质。
专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领 域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不 脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将 不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新 颖特点相一致的最宽的范围。

Claims (10)

1.一种文档检测的方法,其特征在于,包括:
获取待检测文档中的每一个文件的路径特征和内容特征;
将所有的所述路径特征和所有的所述内容特征进行筛选,分别将筛选得到的每一个所述路径特征和每一个所述内容特征,作为所述待检测文档的待检测特征;
分别针对每一个所述待检测特征,将所述待检测特征输入至文档检测模型中,得到所述待检测特征的判断结果;其中,所述判断结果用于说明所述待检测特征对应的文件是否为恶意文件;所述文档检测模型由多个训练样本文档各自对应的特征集合对随机森林分类器进行训练得到;每一个所述训练样本文档中包括多个恶意样本文件和多个良性样本文件;所述特征集合由所述训练样本文档中的内容特征和路径特征筛选得到。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测文档中的每一个文件的路径特征和内容特征,包括:
对所述待检测文档进行解压缩,得到所述待检测文档对应的文件夹;
提取得到所述文件夹中每一个文件对应的路径信息,以及所述文件夹中每一个子文件夹中的每一个文件对应的路径信息;
提取得到所述文件夹中每一个文件中从开始标签到结束标签之间的所有内容信息,以及所述文件夹中每一个子文件夹中的每一个文件中从开始标签到结束标签之间的所有内容信息;
分别对每一个文件的路径信息和内容信息进行特征处理,得到每一个文件的路径特征和内容特征。
3.根据权利要求1所述的方法,其特征在于,所述将所有的所述路径特征和所有的所述内容特征进行筛选,分别将筛选得到的每一个所述路径特征和每一个所述内容特征,作为所述待检测文档的待检测特征,包括:
将所述每一个路径特征分别输入至特征权重计算公式,计算得到每一个所述路径特征的权重值;
将所述每一个内容特征分别输入至特征权重计算公式,计算得到每一个所述内容特征的权重值;
对所有路径特征的权重值以及所有内容特征的权重值,从大到小进行排序,得到特征序列;
在所述特征序列中选取预设个数的路径特征和内容特征,作为待检测特征;
其中,所述特征权重计算公式为:
Figure FDA0002616813180000021
Ri代表特征i的权重;μi,p表示特征i在恶意文件中的平均值;μi,n是特征i在良性文件中的平均值;σi,p是特征i在恶意文件中的标准差;σi,n是特征i在良性文件中的标准差;所述特征i为所述路径特征或所述内容特征。
4.根据权利要求1所述的方法,其特征在于,所述文档检测模型的构建方法,包括:
针对每一个训练样本文档,将所述训练样本文档的特征集合中的每一个特征输入至随机森林分类器中,得到特征对应的文件的判断结果;其中,所述判断结果用于说明所述特征对应的文件是否为恶意文件;
对每一个所述训练样本文档的所述随机森林分类器输出的判断结果与实际判断结果进行对比,对所述随机森林分类器中的参数进行不断调整,直至调整后的所述随机森林分类器输出的判断结果与实际判断结果相同,将所述调整后的随机森林分类器确定为文档检测模型。
5.一种文档检测的装置,其特征在于,包括:
获取单元,用于获取待检测文档中的每一个文件的路径特征和内容特征;
筛选单元,用于将所有的所述路径特征和所有的所述内容特征进行筛选,分别将筛选得到的每一个所述路径特征和每一个所述内容特征,作为所述待检测文档的待检测特征;
分析单元,用于分别针对每一个所述待检测特征,将所述待检测特征输入至文档检测模型中,得到所述待检测特征的判断结果;其中,所述判断结果用于说明所述待检测特征对应的文件是否为恶意文件;所述文档检测模型由多个训练样本文档各自对应的特征集合对随机森林分类器进行训练得到;每一个所述训练样本文档中包括多个恶意样本文件和多个良性样本文件;所述特征集合由所述训练样本文档中的内容特征和路径特征筛选得到。
6.根据权利要求5所述的装置,其特征在于,所述获取单元,包括:
解压缩单元,用于对所述待检测文档进行解压缩,得到所述待检测文档对应的文件夹;
第一提取单元,用于提取得到所述文件夹中每一个文件对应的路径信息,以及所述文件夹中每一个子文件夹中的每一个文件对应的路径信息;
第二提取单元,用于提取得到所述文件夹中每一个文件中从开始标签到结束标签之间的所有内容信息,以及所述文件夹中每一个子文件夹中的每一个文件中从开始标签到结束标签之间的所有内容信息;
特征处理单元,用于分别对每一个文件的路径信息和内容信息进行特征处理,得到每一个文件的路径特征和内容特征。
7.根据权利要求5所述的装置,其特征在于,所述筛选单元,包括:
计算单元,用于将所述每一个路径特征分别输入至特征权重计算公式,计算得到每一个所述路径特征的权重值;
所述计算单元,还用于将所述每一个内容特征分别输入至特征权重计算公式,计算得到每一个所述内容特征的权重值;
排序单元,用于对所有路径特征的权重值以及所有内容特征的权重值,从大到小进行排序,得到特征序列;
选取单元,用于在所述特征序列中选取预设个数的路径特征和内容特征,作为待检测特征;
其中,所述特征权重计算公式为:
Figure FDA0002616813180000031
Ri代表特征i的权重;μi,p表示特征i在恶意文件中的平均值;μi,n是特征i在良性文件中的平均值;σi,p是特征i在恶意文件中的标准差;σi,n是特征i在良性文件中的标准差;所述特征i为所述路径特征或所述内容特征。
8.根据权利要求5所述的装置,其特征在于,所述文档检测模型的构建单元,包括:
判断单元,用于针对每一个训练样本文档,将所述训练样本文档的特征集合中的每一个特征输入至随机森林分类器中,得到特征对应的文件的判断结果;其中,所述判断结果用于说明所述特征对应的文件是否为恶意文件;
确定单元,用于对每一个所述训练样本文档的所述随机森林分类器输出的判断结果与实际判断结果进行对比,对所述随机森林分类器中的参数进行不断调整,直至调整后的所述随机森林分类器输出的判断结果与实际判断结果相同,将所述调整后的随机森林分类器确定为文档检测模型。
9.一种设备,其特征在于,所述设备为服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至4中任一所述的方法。
10.一种计算机存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至4中任一所述的方法。
CN202010771525.0A 2020-08-04 2020-08-04 文档检测的方法、装置、设备、及计算机存储介质 Pending CN111914257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010771525.0A CN111914257A (zh) 2020-08-04 2020-08-04 文档检测的方法、装置、设备、及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010771525.0A CN111914257A (zh) 2020-08-04 2020-08-04 文档检测的方法、装置、设备、及计算机存储介质

Publications (1)

Publication Number Publication Date
CN111914257A true CN111914257A (zh) 2020-11-10

Family

ID=73286992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010771525.0A Pending CN111914257A (zh) 2020-08-04 2020-08-04 文档检测的方法、装置、设备、及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111914257A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883376A (zh) * 2021-02-22 2021-06-01 深信服科技股份有限公司 一种文件处理方法、装置、设备及计算机可读存储介质
CN114048477A (zh) * 2021-11-22 2022-02-15 北京天融信网络安全技术有限公司 恶意文件的检测方法、装置、设备及介质
CN114925365A (zh) * 2022-05-27 2022-08-19 安天科技集团股份有限公司 一种文件处理方法、装置、电子设备及存储介质
CN116366377A (zh) * 2023-06-02 2023-06-30 深信服科技股份有限公司 恶意文件检测方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140181973A1 (en) * 2012-12-26 2014-06-26 National Taiwan University Of Science And Technology Method and system for detecting malicious application
CN104680065A (zh) * 2015-01-26 2015-06-03 安一恒通(北京)科技有限公司 病毒检测方法、装置及设备
CN105975860A (zh) * 2016-04-26 2016-09-28 北京金山安全软件有限公司 一种信任文件管理方法、装置及设备
CN109117642A (zh) * 2018-08-16 2019-01-01 北京梆梆安全科技有限公司 一种应用程序的文件读取漏洞检测方法及装置
CN109858248A (zh) * 2018-12-26 2019-06-07 中国科学院信息工程研究所 恶意Word文档检测方法和装置
CN111460446A (zh) * 2020-03-06 2020-07-28 奇安信科技集团股份有限公司 基于模型的恶意文件检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140181973A1 (en) * 2012-12-26 2014-06-26 National Taiwan University Of Science And Technology Method and system for detecting malicious application
CN104680065A (zh) * 2015-01-26 2015-06-03 安一恒通(北京)科技有限公司 病毒检测方法、装置及设备
CN105975860A (zh) * 2016-04-26 2016-09-28 北京金山安全软件有限公司 一种信任文件管理方法、装置及设备
CN109117642A (zh) * 2018-08-16 2019-01-01 北京梆梆安全科技有限公司 一种应用程序的文件读取漏洞检测方法及装置
CN109858248A (zh) * 2018-12-26 2019-06-07 中国科学院信息工程研究所 恶意Word文档检测方法和装置
CN111460446A (zh) * 2020-03-06 2020-07-28 奇安信科技集团股份有限公司 基于模型的恶意文件检测方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张小康: "基于加权信息增益的恶意代码检测方法", 计算机工程, vol. 36, no. 6, pages 149 - 151 *
朱立军 等: "C4.5算法在未知恶意代码识别中的应用", 沈阳化工大学学报, vol. 27, no. 01, pages 78 - 82 *
林丽华: "WinRAR解压缩只要相对路径", 电脑迷, no. 08, pages 1 *
林杨东: "恶意PDF文档检测技术研究进展", 计算机应用研究, vol. 35, no. 8, pages 2251 - 2255 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883376A (zh) * 2021-02-22 2021-06-01 深信服科技股份有限公司 一种文件处理方法、装置、设备及计算机可读存储介质
CN114048477A (zh) * 2021-11-22 2022-02-15 北京天融信网络安全技术有限公司 恶意文件的检测方法、装置、设备及介质
CN114925365A (zh) * 2022-05-27 2022-08-19 安天科技集团股份有限公司 一种文件处理方法、装置、电子设备及存储介质
CN116366377A (zh) * 2023-06-02 2023-06-30 深信服科技股份有限公司 恶意文件检测方法、装置、设备及存储介质
CN116366377B (zh) * 2023-06-02 2023-11-07 深信服科技股份有限公司 恶意文件检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111914257A (zh) 文档检测的方法、装置、设备、及计算机存储介质
Patil et al. Malicious URLs detection using decision tree classifiers and majority voting technique
JP2020505707A (ja) 侵入検出のための継続的な学習
CN111639337B (zh) 一种面向海量Windows软件的未知恶意代码检测方法及系统
JP6499380B2 (ja) ログ分析装置、ログ分析方法およびログ分析プログラム
CN110414236B (zh) 一种恶意进程的检测方法及装置
US11270001B2 (en) Classification apparatus, classification method, and classification program
CN103177215A (zh) 基于软件控制流特征的计算机恶意软件检测新方法
KR101858620B1 (ko) 기계 학습을 이용한 자바스크립트 분석 장치 및 방법
CN105072214A (zh) 基于域名特征的c&c域名识别方法
CN111245784A (zh) 多维度检测恶意域名的方法
CN112580047A (zh) 工业恶意代码标记方法、设备、存储介质及装置
CN114024761B (zh) 网络威胁数据的检测方法、装置、存储介质及电子设备
Li et al. MDBA: Detecting malware based on bytes n-gram with association mining
CN108229168B (zh) 一种嵌套类文件的启发式检测方法、系统及存储介质
CN106850632B (zh) 一种异常组合数据的检测方法及装置
CN112016088A (zh) 生成文件检测模型的方法、装置、检测文件的方法及装置
US11321453B2 (en) Method and system for detecting and classifying malware based on families
Kumar et al. Detection of malware using deep learning techniques
US8555382B2 (en) Method and system for automatic invariant byte sequence discovery for generic detection
JP7031438B2 (ja) 情報処理装置、制御方法、及びプログラム
CN113361597B (zh) 一种url检测模型的训练方法、装置、电子设备和存储介质
CN110868382A (zh) 一种基于决策树的网络威胁评估方法、装置及存储介质
KR20240016085A (ko) Ai 기반 악성코드 탐지, 분석 및 검증 방법
CN110197066B (zh) 一种云计算环境下的虚拟机监控方法及监控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination