CN108959922A

CN108959922A - 一种基于贝叶斯网的恶意文档检测方法及装置

Info

Publication number: CN108959922A
Application number: CN201810546778.0A
Authority: CN
Inventors: 文伟平; 李经纬
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-12-07
Anticipated expiration: 2038-05-31
Also published as: CN108959922B

Abstract

本发明公布了一种基于贝叶斯网的恶意文档检测方法及系统，通过将文档抽象为特征矩阵表示；采用贝叶斯网络结构表示各种特征与是否为恶意文档间的因果概率关系；利用贝叶斯网络结构对文档的特征矩阵进行后验概率计算；从而有效判断该文档是否为恶意文档。包括：确定模型基础特征指标、构建贝叶斯网络结构、根据贝叶斯网络结构计算文档为恶意文档和正常文档的后验概率。采用本发明技术方案，通过基于贝叶斯网采用静态特征和动态特征结合分析的方式检测各种格式文档，并有效提高检测准确率。

Description

一种基于贝叶斯网的恶意文档检测方法及装置

技术领域

本发明涉及计算机安全技术领域，尤其涉及一种基于贝叶斯网的恶意文档检测方法及装置。

背景技术

随着网络信息化程度的进一步提高，近年来高级持续性攻击APT(AdvancedPersistent Threat)事件增多，给国家和企业安全和发展造成了严重威胁，同时也造成不可估量的经济损失。而APT攻击中往往使用恶意文档进行单点突破，恶意文档特指在网络攻击中特别是在APT攻击中利用的文档类漏洞利用工具植入恶意程序。恶意文档根据文档格式的不同，解析程序漏洞的不同变种有很多，绝大多数都会利用shellcode作为载体来进行攻击。

目前对于已知恶意文档的检测方法主要基于特征码匹配，其基本思想是提取恶意文档中能唯一标识该恶意文档的二进制字符串作为特征码，并将此特征码添加到恶意文档特征库中，在恶意文档检测时，先提取待检测文档的特征字符串构成的特征码，然后通过对待检测文档在特征库中进行特征码匹配，来判断该文档是否为恶意文档。这种方法能快速、准确检测已知恶意文档，但是对未知恶意文档无法识别。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于贝叶斯网的恶意文档检测方法及装置，可检测各种格式文档，并基于贝叶斯网采用静态特征和动态特征结合分析的方式有效提高检测准确率。

本发明提供的技术方案是：一种基于贝叶斯网的恶意文档检测方法和装置。其中，基于贝叶斯网的恶意文档检测方法通过将文档抽象为特征矩阵表示，最大程度保留文档能用于进行恶意检测的相关信息，剔除无用冗余信息，并通过贝叶斯网络结构表示各种特征与是否为恶意文档间的因果概率关系，进一步利用贝叶斯网络结构，对文档的特征矩阵进行后验概率计算，从而有效判断该文档是否为恶意文档；主要包括：确定模型基础特征指标阶段、构建贝叶斯网络结构阶段、根据贝叶斯网络结构计算文档为恶意文档和为正常文档的后验概率阶段；其中：

确定模型基础特征指标阶段执行如下步骤：

步骤1，确定恶意文档的静态特征，即分析恶意文档的可执行代码中经常出现的特殊字符串、特殊函数、特殊关键字等潜在恶意特征；

步骤2，确定恶意文档的动态特征，动态特征为文档执行过程中的行为特点，包括但不限于触发的相关网络行为、触发的相关文件行为、触发的相关内存行为、触发的相关线程行为、触发的相关进程行为、触发的相关注册表行为、触发的相关系统行为等；

构建贝叶斯网络结构阶段具体执行如下步骤：

步骤3，根据步骤1和步骤2中得到的恶意文档静态和动态特征构造贝叶斯网络结构，所述贝叶斯网络结构的节点由文档的动态特征和静态特征组成；

步骤4，收集正常文档和恶意文档数据对贝叶斯网络进行参数学习，获得各个特征节点的条件概率，将贝叶网络结构与各特征节点的条件概率组合成为恶意文档检测贝叶斯网络模型；

根据贝叶斯网络结构计算文档为恶意文档和为正常文档的后验概率阶段具体执行如下步骤：

步骤5，获取文档中可执行代码的方式为对文档代码进行逐字节查找，以获取文档中的可执行代码；

步骤6，根据步骤1提取的文档静态特征，及步骤5中获取的可执行代码，分析文档中可执行代码的方式统计静态特征相关信息，将文档表示成静态特征矩阵；

步骤7，通过将文档在虚拟沙箱中的运行，监控并采集文档在运行过程中产生的动态行为；

步骤8，根据步骤2提取的文档动态特征，及步骤7中获取的动态行为数据，统计各个动态特征相关信息，将文档表示成动态特征矩阵，生成动态特征矩阵；

步骤9，将动态特征矩阵和静态特征矩阵合并为文档特征矩阵，输入文档检测贝叶斯网络模型中计算该文档为恶意文档的后验概率，和该文档为正常文档的后验概率；

步骤10，通过比较该文档为恶意文档和正常文档的后验概率大小，和比较该文档为恶意文档的后验概率与后验概率阈值的大小来将文档识别为正常文档或恶意文档。识别方法为：一，若该文档为恶意文档的后验概率大于该文档为正常文档的后验概率，则判定该文档为恶意文档；二，设置后验概率阈值，当文档为恶意文档的后验概率大小超过阈值则其判定为恶意文档，阈值大小根据实际情况进行动态调整。

利用上述基于贝叶斯网的恶意文档检测方法，本发明实现了相应的基于贝叶斯网的恶意文档检测装置，包括：文档静态代码特征提取子系统、文档动态行为特征提取子系统、贝叶斯恶意文档判别子系统；其中，

文档静态代码特征提取子系统包括文档可执行代码检测模块和静态代码特征提取模块；文档可执行代码检测模块用于通过逐字节检查提取文档中可执行代码；静态代码特征提取模块用于提取文档中可执行代码所包含的特征字符串、函数、关键字等静态特征相关信息，并将其表示为静态特征矩阵；

文档动态行为特征提取子系统包括基于沙箱的行为捕获模块和动态特征提取模块；基于沙箱的行为捕获模块，用于监控和采集待检测文档在运行过程中产生的行为，为了实现对可疑样本的全面检测，主要采集触发网络行为、文件行为、内存行为、线程行为、进程行为、注册表行为、系统行为等。动态特征提取模块用于统计待检测文档在沙箱运行过程中产生的动态行为特征，并将其表示为动态行为特征矩阵；

贝叶斯恶意文档判别子系统包括贝叶斯检测引擎和分类处理模块；其中，贝叶斯检测引擎用于将静态特征矩阵和动态特征矩阵组合为文档特征矩阵输入贝叶斯检测引擎，通过各特征节点计算待检测文档为恶意文档和为正常文档的后验概率；分类处理模块用于在得到检测文档为恶意文档和为正常文档的后验概率后，根据设置恶意文档判定规则将文档进行检测区分；判断方法为：方法一，若该文档为恶意文档的后验概率大于该文档为正常文档的后验概率，则判定该文档为恶意文档；方法二，设置后验概率阈值，当文档为恶意文档的后验概率大小超过阈值则其判定为恶意文档，阈值大小根据实际情况随时进行动态调整。

本发明的有益效果是：

本发明提供一种基于贝叶斯网的恶意文档检测方法及装置，通过将文档抽象为特征矩阵表示，可最大程度保留文档能用于进行恶意检测的相关信息，剔除无用冗余信息，并通过贝叶斯网络结构表示各种特征与是否为恶意文档间的因果概率关系，进一步利用贝叶斯网络结构，对文档的特征矩阵进行后验概率计算，从而有效判断该文档是否为恶意文档。本发明可检测各种格式文档，并基于贝叶斯网采用静态特征和动态特征结合分析的方式有效提高检测准确率，对于提升检测准确度有着显著效果。

附图说明

图1为本发明检测方法的流程框图。

图2为本发明检测装置实施例提供的系统结构框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于贝叶斯网的恶意文档检测方法及装置，通过将文档抽象为特征矩阵表示，可最大程度保留文档能用于进行恶意检测的相关信息，剔除无用冗余信息，并通过贝叶斯网络结构表示各种特征与是否为恶意文档间的因果概率关系，进一步利用贝叶斯网络结构，对文档的特征矩阵进行后验概率计算，从而有效判断该文档是否为恶意文档。

图1为本发明检测方法的流程框图。本发明具体实施包括三个阶段，可采用如下具体实施方式：

阶段一、确定模型基础特征指标；

阶段二、构建贝叶斯网络结构；

阶段三、根据贝叶斯网络结构计算文档为恶意文档的后验概率。

其中阶段一包括如下步骤：

步骤1，通过专业相关经验确定恶意文档的静态特征及特征间的依赖关系，即恶意文档的可执行代码中经常出现的特殊字符串、特殊函数、特殊关键字等潜在恶意特征；

进一步的，静态特征包括但不限于：

含参字符串数量，所述含参字符串数量为恶意文档中会包含的含有参数的字符串个数；

可疑字符串数量，所述可疑字符串数量为恶意文档中会包含的异常字符串个数；

十六进制字符串数量，所述十六进制字符串数量为恶意文档中会包含的十六进制字符串个数；

eval数量，所述eval数量为恶意文档中会包含的eval函数的个数；

escape数量，所述escape数量为文档中会包含的escape()函数的个数；

CreateObject数量，所述CreateObject数量为恶意文档中会包含的CreateObject()函数个数；

for数量，所述for数量为恶意文档中会包含的for关键字个数；

if数量等，所述if数量为恶意文档中会包含的if关键字个数；

步骤2，通过专业相关经验确定恶意文档的动态特征及特征间的依赖关系，动态特征为文档执行过程中的行为特点，包括但不限于触发的相关网络行为、触发的相关文件行为、触发的相关内存行为、触发的相关线程行为、触发的相关进程行为、触发的相关注册表行为、触发的相关系统行为等。

进一步的，动态特征包括但不限于：

触发的相关网络行为，指恶意文档在打开执行过程中会产生的网络连接、监听、数据发送、数据接收等操作；

触发的相关文件行为，指恶意文档在打开执行过程中会产生的文件创建、修改、删除、重命名等操作；

触发的相关内存行为，指恶意文档在打开执行过程中会产生的远程内存分配、释放、修改行为；

触发的相关线程行为，指恶意文档在打开执行过程中会产生的远程线程行为；

触发的相关进程行为，指恶意文档在打开执行过程中会产生的创建、销毁进程行为；

触发的相关注册表行为，指恶意文档在打开执行过程中会产生的注册表创建、删除、修改等操作；

触发的相关系统行为，指恶意文档在打开执行过程中会产生的系统事件行为，包括修改系统用户名、系统密码、更改系统权限设置等；

其中阶段二包括如下步骤：

步骤3，根据步骤1和步骤2中得到的恶意文档静态和动态特征及特征间依赖关系构造贝叶斯网络结构，所述贝叶斯网络结构由文档的动态特征和静态特征组成为一个有向无环图G＝<X,E>，其中X＝{x₁,x₂,x₃,…,x_n}表示有向无环图G中所有特征变量节点的集合，特征节点集合X中的每一个元素x_i为一种静态或动态恶意特征所对应的特征变量节点。E＝{e_ij|i∈[1,n],j∈[1,n],i≠j}表示图中有向边的集合，集合E中每一个有向边e_ij代表特征变量节点x_i和x_j间的条件依赖；

步骤4，收集正常文档和恶意文档数据对贝叶斯网络进行参数学习，学习的参数为各特征节点x_i在恶意文档前提下对于该特征的条件概率P(x_i|Parents(x_i),y)，和在正常文档前提下的条件概率P(x_i|Parents(x_i),n)。

特征节点x_i在恶意文档前提下对于该特征的条件概率为P(x_i|Parents(x_i),y)。其中Parents(x_i)为特征变量节点x_i的所有前驱节点，即与特征x_i有条件依赖关系其他特征；y表示该文档为恶意文档；P(x_i|Parents(x_i),y)代表当一个文档符合Parents(x_i)所代表的所有前驱特征且为恶意文档的前提下，该文档符合特征x_i的概率。求取恶意文档前提下各节点的条件概率计算公式为式1:

其中为训练样本集中同时符合Parents(x_i)所代表的所有前驱特征且为恶意文档的样本数量；N_i为特征x_i的取值数量；为训练样本集中同时符合特征x_i、Parents(x_i)所代表的所有前驱特征且为恶意文档的样本数量。

特征节点x_i在正常文档前提下对于该特征的条件概率为P(x_i|Parents(x_i),n)。其中n表示该文档为正常文档；P(x_i|Parents(x_i),n)代表当一个文档符合Parents(x_i)所代表的所有前驱特征且为正常文档的前提下，该文档符合特征x_i的概率。求取正常文档前提下各节点的条件概率计算公式为式2:

其中为训练样本集中同时符合Parents(x_i)所代表的所有前驱特征且为正常文档的样本数量；为训练样本集中同时符合特征x_i、Parents(x_i)所代表的所有前驱特征且为正常文档的样本数量；

其中第三阶段包括如下步骤：

步骤5，提取文档中可执行代码,方式为对文档代码进行逐字节查找以获取文档中的可执行代码；

步骤6，根据步骤1提取文档静态特征，及步骤5中获取的可执行代码，通过分析文档中可执行代码的方式，统计可执行代码中包含的静态特征的数目等相关信息，将文档表示成静态特征矩阵，表示为[静态特征1,静态特征2，…,静态特征n]＝[静态特征1数目,静态特征2数目，…,静态特征n数目]。

比如，一段可执行代码中包含2个“eval”字符串、1个CreateObject()函数、4个“for”关键字、0个“if”关键字等特征，则可转化为静态特征矩阵[eval,CreateObject,for,if，…]＝[2,1,4,0,…]；

步骤7，将文档在轻量级虚拟沙箱中的运行，通过虚拟动态模拟执行被检测的文档，监控并采集文档在运行过程中产生的动态行为；

Sandbox沙箱是一种虚拟系统程序，创造了一个独立作业环境，允许在该虚拟环境中运行程序，且运行所产生的变化可以随后删除。在其内部运行的程序并不能对硬盘产生永久性的影响，因此实施方案中将被检测文档在沙箱环境动态运行，使其对注册表、系统、文件等关键部分的修改并不会影响真实的系统，并记录被检测文件运行时的各种动态行为数据。

步骤8，根据步骤2提取文档动态特征，及步骤7中获取的动态行为数据，统计各个动态特征相关信息，将文档表示成动态特征矩阵，生成形如静态特征矩阵的动态特征矩阵；

步骤9，将动态特征矩阵和静态特征矩阵合并为文档特征矩阵，输入文档检测贝叶斯网络模型中计算该文档为恶意文档的后验概率，和该文档为正常文档的后验概率。

其中，求取文档为恶意文档的后验概率计算公式为式3：

其中P(y|x₁,x₂,…,x_n)为在文档符合特征x₁,x₂,x₃,…,x_n的前提下为恶意文档的概率；P(y)为一篇文档为恶意文档的概率；为待检测文档符合的所有特征的条件概率积，也即该文档符合的所有特征的联合条件概率；

其中，求取文档为正常文档的后验概率计算公式为式4：

其中P(n|x₁,x₂,…,x_n)为在文档符合特征x₁,x₂,x₃,…,x_n的前提下为正常文档的概率；P(n)为一篇文档为正常文档的概率；为待检测文档符合的所有特征的条件概率积，也即该文档符合的所有特征的联合条件概率；

步骤10，通过比较该文档为恶意文档或正常文档的后验概率大小，和比较该文档为恶意文档的后验概率与后验概率阈值的大小来将文档区分为正常文档和恶意文档。判断规则为：规则一，若该文档为恶意文档的后验概率大于该文档为正常文档的后验概率，则判定该文档为恶意文档；规则二，设置后验概率阈值，当文档为恶意文档的后验概率大小超过阈值则其判定为恶意文档，阈值大小根据实际情况随时进行动态调整。

通过上述三个阶段的操作，实现基于贝叶斯网的恶意文档检测。

利用上述基于贝叶斯网的恶意文档检测方法，本发明实现了相应的基于贝叶斯网的恶意文档检测装置，图2为本发明检测装置实施例提供的系统结构框图；恶意文档检测装置包括如下子系统：

子系统一、文档静态代码特征提取子系统；

子系统二、文档动态行为特征提取子系统；

子系统三、贝叶斯恶意文档判别子系统；

其中子系统一包括如下模块：

模块一、文档可执行代码检测模块，通过逐字节检查，提取文档中可执行代码；

模块二、静态代码特征提取模块，提取文档中可执行代码所包含的特征字符串、函数、关键字，并将其表示为静态特征矩阵；

其中子系统二包括如下模块：

模块三、基于沙箱的行为捕获模块，用于监控和采集待检测文档在运行过程中产生的行为，为了实现对可疑样本的全面检测，主要采集触发网络行为、文件行为、内存行为、线程行为、进程行为、注册表行为、系统行为等。

模块四、动态特征提取模块，统计待检测文档在沙箱运行过程中产生的动态行为特征，并将其表示为动态行为特征矩阵；

其中子系统三包括如下模块：

模块五、贝叶斯检测引擎，将静态特征矩阵和动态特征矩阵组合为文档特征矩阵输入贝叶斯检测引擎，通过各特征节点计算待检测文档为恶意文档和为正常文档的后验概率；

模块六、分类处理模块，得到该文档为恶意文档或正常文档的后验概率后根据“若该文档为恶意文档的后验概率大于该文档为正常文档的后验概率，则判定该文档为恶意文档；设置后验概率阈值(如65％)，当文档为恶意文档的后验概率大小超过阈值则其判定为恶意文档,阈值大小根据实际情况进行动态调整”的方法将文档进行区分。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于贝叶斯网的恶意文档检测方法，通过将文档抽象为特征矩阵表示；采用贝叶斯网络结构表示各种特征与是否为恶意文档间的因果概率关系；利用贝叶斯网络结构对文档的特征矩阵进行后验概率计算；从而有效判断该文档是否为恶意文档；包括：确定模型基础特征指标阶段、构建贝叶斯网络结构阶段、根据贝叶斯网络结构计算文档为恶意文档和正常文档的后验概率阶段；其中：

(一)确定模型基础特征指标阶段执行如下步骤1-2：

步骤1，确定恶意文档的静态特征，即通过分析得到恶意文档的可执行代码中经常出现的潜在恶意特征；

步骤2，确定恶意文档的动态特征；动态特征为文档执行过程中的行为特点，包括但不限于触发的相关网络行为、触发的相关文件行为、触发的相关内存行为、触发的相关线程行为、触发的相关进程行为、触发的相关注册表行为、触发的相关系统行为；

(二)构建贝叶斯网络结构阶段具体执行如下步骤3-4：

步骤3，根据步骤1得到的恶意文档静态特征和步骤2得到的恶意文档动态特征，构造贝叶斯网络结构；所述贝叶斯网络结构为有向无环图，节点为恶意文档的动态特征和静态特征，图中的有向边代表各个特征变量节点间的条件依赖；

步骤4，收集正常文档和恶意文档数据对贝叶斯网络进行参数学习，获得各个特征变量节点在恶意文档前提下和在正常文档前提下对于其所有前驱节点的条件概率，将贝叶网络结构与各特征节点的条件概率表组合成为恶意文档检测贝叶斯网络模型；

其中，通过式1求取恶意文档前提下各节点的条件概率：

其中，P(x_i|Parents(x_i),y)代表特征节点x_i在恶意文档前提下对于该特征的条件概率；Parents(x_i)为特征变量节点x_i的所有前驱节点；y表示该文档为恶意文档；为训练样本集中同时符合Parents(x_i)所代表的所有前驱特征且为恶意文档的样本数量；N_i为特征x_i的取值数量；为训练样本集中同时符合特征x_i、Parents(x_i)所代表的所有前驱特征且为恶意文档的样本数量；

通过式2求取正常文档前提各个节点的条件概率：

其中，P(x_i|Parents(x_i),n)代表特征节点x_i在正常文档前提下对于该特征的条件概率；n表示该文档为正常文档；为训练样本集中同时符合Parents(x_i)所代表的所有前驱特征且为正常文档的样本数量；为训练样本集中同时符合特征x_i、Parents(x_i)所代表的所有前驱特征且为正常文档的样本数量；

(三)根据贝叶斯网络结构计算文档为恶意文档的后验概率阶段，具体执行如下步骤5-10：

步骤5，获取文档中可执行代码；

步骤6，根据步骤1提取的文档静态特征、步骤5中获取的可执行代码，通过分析文档中可执行代码，统计静态特征相关信息，将文档表示成静态特征矩阵；具体统计可执行代码中包含的静态特征的数目，生成的静态特征矩阵表示为：[静态特征1,静态特征2，…,静态特征n]＝[静态特征1数目,静态特征2数目，…,静态特征n数目]；

步骤7，将文档在虚拟沙箱中的运行，通过监控并采集该文档在虚拟沙箱运行过程中产生的动态行为；

步骤8，根据步骤2提取的文档动态特征、步骤7中获取的动态行为数据，统计各个动态特征相关信息，将文档表示成动态特征矩阵，生成动态特征矩阵；动态特征矩阵表示形式与步骤6生成的静态特征矩阵表示形式相同；

步骤9，将动态特征矩阵和静态特征矩阵合并为文档特征矩阵，输入文档检测贝叶斯网络模型中计算该文档为恶意文档的后验概率和为正常文档的后验概率；

其中，通过式3求取文档为恶意文档的后验概率：

其中，P(y|x₁,x₂,…,x_n)为在文档符合特征x₁,x₂,x₃,…,x_n的前提下为恶意文档的概率；P(y)为一篇文档为恶意文档的概率；为待检测文档符合的所有特征的条件概率积，也即该文档符合的所有特征的联合条件概率；

其中，通过式4求取文档为正常文档的后验概率：

步骤10，通过比较该文档为恶意文档或正常文档的后验概率大小，和/或比较该文档为恶意文档的后验概率与后验概率阈值的大小来将文档识别为正常文档和恶意文档；

通过上述步骤实现基于贝叶斯网的恶意文档检测。

2.如权利要求1所述的基于贝叶斯网的恶意文档检测方法，其特征是，恶意文档的静态特征包括特殊字符串、特殊函数、特殊关键字。

3.如权利要求1所述的基于贝叶斯网的恶意文档检测方法，其特征是，恶意文档的静态特征包括但不限于：

A1.含参字符串数量，即恶意文档中包含的含有参数的字符串个数；

A2.可疑字符串数量，即恶意文档中包含的异常字符串个数；

A3.十六进制字符串数量，即恶意文档中包含的十六进制字符串个数；

A4.eval数量，即恶意文档中包含的eval函数的个数；

A5.escape数量，即文档中包含的escape()函数的个数；

A6.CreateObject数量，即恶意文档中包含的CreateObject()函数个数；

A7.for数量，即恶意文档中包含的for关键字个数；

A8.if数量，即恶意文档中包含的if关键字个数。

4.如权利要求1所述的基于贝叶斯网的恶意文档检测方法，其特征是，恶意文档的动态特征中，触发的相关网络行为指恶意文档在打开执行过程中产生的网络连接、监听、数据发送、数据接收操作；触发的相关文件行为指恶意文档在打开执行过程中产生的文件创建、修改、删除、重命名操作；触发的相关内存行为指恶意文档在打开执行过程中产生的远程内存分配、释放、修改行为；触发的相关线程行为指恶意文档在打开执行过程中产生的远程线程行为；触发的相关进程行为指恶意文档在打开执行过程中产生的创建、销毁进程行为；触发的相关注册表行为指恶意文档在打开执行过程中产生的注册表创建、删除、修改操作；触发的相关系统行为指恶意文档在打开执行过程中产生的系统事件行为，包括修改系统用户名、系统密码、更改系统权限设置等。

5.如权利要求1所述的基于贝叶斯网的恶意文档检测方法，其特征是，步骤5具体通过对文档代码进行逐字节查找，获取文档中的可执行代码。

6.如权利要求1所述的基于贝叶斯网的恶意文档检测方法，其特征是，步骤10中，识别方法包括：

第一种：若该文档为恶意文档的后验概率大于该文档为正常文档的后验概率，则判定该文档为恶意文档；

第二种：设置后验概率阈值，当文档为恶意文档的后验概率大小超过阈值则其判定为恶意文档，阈值大小根据实际情况随时进行动态调整。

7.一种基于贝叶斯网的恶意文档检测装置，包括：文档静态代码特征提取子系统、文档动态行为特征提取子系统、贝叶斯恶意文档判别子系统；其中，

文档静态代码特征提取子系统包括文档可执行代码检测模块和静态代码特征提取模块；文档可执行代码检测模块用于通过逐字节检查提取文档中可执行代码；静态代码特征提取模块用于提取文档中可执行代码所包含的特征字符串、函数、关键字，并将其表示为静态特征矩阵；

文档动态行为特征提取子系统包括基于沙箱的行为捕获模块和动态特征提取模块；基于沙箱的行为捕获模块用于监控和采集待检测文档在运行过程中产生的动态行为；动态特征提取模块用于统计待检测文档在沙箱运行过程中产生的动态行为特征，并表示为动态行为特征矩阵；

贝叶斯恶意文档判别子系统包括贝叶斯检测引擎和分类处理模块；其中，贝叶斯检测引擎用于将静态特征矩阵和动态特征矩阵组合为文档特征矩阵，输入贝叶斯检测引擎，通过各特征节点计算待检测文档为恶意文档的后验概率；分类处理模块用于在得到检测文档为恶意文档的后验概率后，根据设置的后验概率阈值将文档进行检测区分。

8.如权利要求7所述的基于贝叶斯网的恶意文档检测装置，其特征是，所述基于沙箱的行为捕获模块捕获待检测文档在沙箱运行过程中产生的行为包括：触发网络行为、文件行为、内存行为、线程行为、进程行为、注册表行为、系统行为。