CN104966019B

CN104966019B - 一种启发式文档威胁检测方法及系统

Info

Publication number: CN104966019B
Application number: CN201410267588.7A
Authority: CN
Inventors: 童志明; 沈长伟; 张栗伟; 何公道
Original assignee: Harbin Antiy Technology Co Ltd
Current assignee: Shenzhen Antan Network Security Technology Co ltd
Priority date: 2014-06-16
Filing date: 2014-06-16
Publication date: 2017-12-22
Anticipated expiration: 2034-06-16
Also published as: CN104966019A

Abstract

本发明公开了一种启发式文档威胁检测方法及系统，对于文档类文件，包括：office系列或者PDF，通过对待检测文档进行结构解析，获取静态信息，利用所述静态信息判断待检测文档是否夹带敏感数据，若夹带敏感数据，则对敏感数据进行格式解析，进一步判定敏感数据的格式是否是安全文档可夹带数据格式，若是，则待检测文档为低风险文档，否则判定是高风险文档。本发明给出的方法和系统，可以对文档类的未知威胁进行检测，并克服了传统检测方法复杂，效率低下等问题。

Description

一种启发式文档威胁检测方法及系统

技术领域

本发明涉及计算机网络安全技术领域，尤其涉及一种启发式文档威胁检测方法及系统。

背景技术

入侵者常常利用夹带了恶意代码的文档入侵用户的计算机，并引导用户进行打开操作，这样内嵌的恶意代码执行。通常文档类威胁主要有溢出类威胁、夹带类威胁等。这类威胁主要采用基于特征码的检测，先捕获样本，然后提取特征码，最后进行检测，或者将所述文档投入虚拟机，模拟打开等操作，观察其行为。

现有技术存在以下问题：特征码检测的主要的问题在于只能针对已知或者已捕获的样本有效，对于未知的或者未捕获的样本无能为力；其次，海量的文档在虚拟机中执行时，每个都要有一个运行与等待的时间，这样操作速度很慢；不同类的文档，在执行时都依赖于此文档的运行环境，所以虚拟机中的运行环境的搭建是一个耗时的过程，且运行环境未必能包括所有的文档执行环境，这样就导致于一些文档因为没有运行环境，而不能执行。

发明内容

针对上述技术问题，本发明提供了一种启发式文档威胁检测方法及系统，该方法通过对待检测文档进行结构解析，获取待检测文档的静态信息，基于静态信息判断是否夹带敏感数据，进而完成文档是否有威胁的判定。

本发明采用如下方法来实现：一种启发式文档威胁检测方法，包括：

对待检测文档进行结构解析，提取静态信息，包括：文档大小，文档字数，内嵌多媒体文件个数，内嵌多媒体文件大小；

基于所述静态信息，判断待检测文档是否夹带敏感数据，若是，则对所述敏感数据进行格式解析，否则待检测文档安全；

判断所述敏感数据的格式是否是安全文档可夹带数据格式，若是，则待检测文档是低风险文档，否则待检测文档是高风险文档，告警并进一步检测。

进一步地，所述基于所述静态信息，判断待检测文档是否夹带敏感数据的方法为：基于文档字数，内嵌多媒体文件个数和内嵌多媒体文件大小计算待检测文档理论大小，判断待检测文档理论大小和文档大小之间的差值或者比值是否在预设阈值范围内，若是，则待检测文档没有夹带敏感数据，否则待检测文档夹带敏感数据。

一种启发式文档威胁检测系统，包括：

结构解析模块，对待检测文档进行结构解析，提取静态信息，包括：文档大小，文档字数，内嵌多媒体文件个数，内嵌多媒体文件大小；

数据判定模块，基于所述静态信息，判断待检测文档是否夹带敏感数据，若是，则对所述敏感数据进行格式解析，否则待检测文档安全；

格式判定模块，判断所述敏感数据的格式是否是安全文档可夹带数据格式，若是，则待检测文档是低风险文档，否则待检测文档是高风险文档，告警并进一步检测。

综上所述，本发明提供了一种启发式文档威胁检测方法及系统，首先，对于待检测文档进行结构解析，获取相关的静态信息，利用获取的静态信息估计待检测文档理论大小，基于待检测文档理论大小与文档大小之间的差距判定是否夹带敏感数据，若是，则对敏感数据进行格式解析，否则待检测文档安全。基于格式解析的结果判定待检测文档是否是高风险文档。本发明所述的方法及系统，解决了传统方法不能有效检测未知的文档类威胁的缺陷，并且克服了虚拟机执行的搭建困难，耗费时间等问题。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种启发式文档威胁检测方法实施例流程图；

图2为本发明提供的一种启发式文档威胁检测系统实施例结构图。

具体实施方式

本发明给出了一种启发式文档威胁检测方法及系统，为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术方案作进一步详细的说明：

本发明首先提供了一种启发式文档威胁检测方法实施例，如图1所示，包括：

S101对待检测文档进行结构解析，提取静态信息；

所述静态信息包括：文档大小，文档字数，内嵌多媒体文件个数，内嵌多媒体文件大小等；所述待检测文档类型包括office系列、PDF等；

S102基于所述静态信息，判断待检测文档是否夹带敏感数据，若是，则执行S103，否则待检测文档安全；

所述敏感数据为待检测文档经过结构解析后没有发现的夹带数据；

S103对所述敏感数据进行格式解析；

S104判断所述敏感数据的格式是否是安全文档可夹带数据格式，若是，则待检测文档是低风险文档，否则待检测文档是高风险文档，告警并进一步检测。

所述安全文档可夹带数据格式，即在已知的文档中会出现的格式，相对于其他格式的数据其安全等级较高。

优选地，所述基于所述静态信息，判断待检测文档是否夹带敏感数据的方法为：基于文档字数，内嵌多媒体文件个数和内嵌多媒体文件大小计算待检测文档理论大小，判断待检测文档理论大小和文档大小之间的差值或者比值是否在预设阈值范围内，若是，则待检测文档没有夹带敏感数据，否则待检测文档夹带敏感数据。

上述方法可以由如下的数学模型来完成，但不限于该数学模型：

或ε＝Σ_iC_iN_i-S；

若ε在预设阈值范围内，则待检测文档没有夹带敏感数据，若ε不在预设阈值范围内，则待检测文档夹带敏感数据。其中，N_i为文档字数或者内嵌多媒体文件个数，C_i为对应的文字所占大小或者内嵌多媒体文件大小；S为文档大小。所有可以表述上述思想的数学模型，均在本发明保护的范围内；所述预设阈值是通过大规模的测试得出的。

本发明还提供了一种启发式文档威胁检测系统实施例，如图2所示，包括：

结构解析模块201，对待检测文档进行结构解析，提取静态信息；

数据判定模块202，基于所述静态信息，判断待检测文档是否夹带敏感数据，若是，则对所述敏感数据进行格式解析，否则待检测文档安全；

格式判定模块203，判断所述敏感数据的格式是否是安全文档可夹带数据格式，若是，则待检测文档是低风险文档，否则待检测文档是高风险文档，告警并进一步检测。

或ε＝Σ_iC_iN_i-S；

如上所述，本发明给出了一种启发式文档威胁检测方法及系统，对于传统方法来说，为了检测文档是否有威胁，需要利用已知样本提取特征码，利用特征码扫描进行检测，或者将文档投入虚拟机，模拟操作方法运行，监控其行为并进行判定。为了克服传统方法对于未知威胁无法有效检测，并且检测效率低的问题，本发明提供了一种启发式的文档威胁检测方法和系统实施例，通过获取待检测文档的静态信息，判断待检测文档是否夹带了敏感数据，如果夹带敏感数据，通过格式解析获取所述敏感数据的格式，判断所述格式是否是安全文档可夹带数据格式，若是，则待检测文档是低风险文档，否则待检测文档是高风险文档。本发明所提供的方法或系统，可以有效地检测和发现未知的有威胁的文档，弥补了传统方法检测文档类威胁的劣势。

以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种启发式文档威胁检测方法，其特征在于，包括：

基于所述静态信息，判断待检测文档是否夹带敏感数据，若是，则对所述敏感数据进行格式解析，否则待检测文档安全；所述判断待检测文档是否夹带敏感数据的方法为：基于文档字数，内嵌多媒体文件个数和内嵌多媒体文件大小计算待检测文档理论大小，判断待检测文档理论大小和文档大小之间的差值或者比值是否在预设阈值范围内，若是，则待检测文档没有夹带敏感数据，否则待检测文档夹带敏感数据；

2.一种启发式文档威胁检测系统，其特征在于，包括：

数据判定模块，基于所述静态信息，判断待检测文档是否夹带敏感数据，若是，则对所述敏感数据进行格式解析，否则待检测文档安全；所述判断待检测文档是否夹带敏感数据的方法为：基于文档字数，内嵌多媒体文件个数和内嵌多媒体文件大小计算待检测文档理论大小，判断待检测文档理论大小和文档大小之间的差值或者比值是否在预设阈值范围内，若是，则待检测文档没有夹带敏感数据，否则待检测文档夹带敏感数据；