CN116305291B

CN116305291B - 一种office文档安全存储方法及装置、设备及介质

Info

Publication number: CN116305291B
Application number: CN202310546719.4A
Authority: CN
Inventors: 高泽霖; 刘佳男; 肖新光
Original assignee: Beijing Antiy Network Technology Co Ltd
Current assignee: Beijing Antiy Network Technology Co Ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-07-21
Anticipated expiration: 2043-05-16
Also published as: CN116305291A

Abstract

本发明提供了一种office文档安全存储方法及装置、设备及介质，该方法包括：获取待检测office文档的文件类型；存储请求包括待检测office文档的存储地址；若待检测office文档中包含文件类型为第一预设类型的子文件，则根据待检测office文档的存储地址，确定存储地址对应的存储空间是否包含文件类型为第一预设类型的目标类型文件；若包含，则将待检测office文档存储至预设存储空间中。本发明通过判断待检测office文档的文件类型是否为第一预设类型的子文件，以及确定存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件，对待检测office文档进行存储，来保护用户数据的安全。

Description

一种office文档安全存储方法及装置、设备及介质

技术领域

本发明涉及安全检测领域，特别是涉及一种office文档安全存储方法及装置、设备及介质。

背景技术

目前，由于检测VSTO执行需要满足运行环境，故攻击者通常需要想办法将利用VSTO的文档和依赖项共同传播到用户的机器中，即在同一个文件夹下。而正常使用此类文档的用户通常会将环境提前安装在默认或指定文件夹下，针对当前保密程度较高的场景，往往会限制用户机器一次性传输文件数量。攻击者可通过钓鱼邮件、水坑网站等多种方式，将office文档、VSTO文件、dll文件、依赖项分频次传输到指定系统。等所有文件全部传输完成时，用户下次打开恶意文档时就会执行恶意代码。由于office文档多次被使用，用户会降低警惕心理，从而让攻击者成功执行恶意行为，导致用户数据被恶意侵入。

发明内容

有鉴于此，本发明提供一种office文档安全存储方法及装置、设备及介质，至少部分解决现有技术中存在的技术问题，本发明采用的技术方案为：

根据本申请的一个方面，提供一种office文档安全存储方法，包括：

响应于接收到待检测office文档的存储请求，获取待检测office文档的文件类型；存储请求包括待检测office文档的存储地址；

若待检测office文档中包含文件类型为第一预设类型的子文件，则根据待检测office文档的存储地址，确定存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件；

若存储地址对应的存储空间中包含文件类型为第一预设类型的目标类型文件，则将待检测office文档存储至预设存储空间中；预设存储空间中不包含文件类型为第一预设类型的目标类型文件。

在本申请的一种示例性实施例中，根据待检测office文档的存储地址，确定存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件，包括：

获取存储地址对应的存储空间中包含的至少部分存储文件；

确定若干存储文件中是否包含文件类型为第一预设类型的存储文件，若包含，则将文件类型为第一预设类型的存储文件确定为目标类型文件。

在本申请的一种示例性实施例中，在若存储地址对应的存储空间中包含文件类型为第一预设类型的目标类型文件，则将待检测office文档存储至预设存储空间中之后，所述office文档安全存储方法，还包括：

根据预设文件名，从待检测office文档包含的若干非隐藏子文件中确定出目标文件；若目标文件中同时包括第一预设字段和第二预设字段，则根据待检测office文档中包含的若干子文件，确定待检测office文档是否具有对应的风险文件；若待检测office文档具有对应的风险文件，则输出报警提示。

在本申请的一种示例性实施例中，根据待检测office文档中包含的若干子文件，确定待检测office文档是否具有对应的风险文件，包括：

确定若干子文件中是否包含文件类型为第一预设类型的隐藏子文件，若包含，则获取文件类型为第一预设类型的隐藏子文件的特征信息；

根据特征信息，确定对应的文件类型为第一预设类型的隐藏子文件的风险特征值；

若风险特征值大于预设风险阈值，则将此风险特征值对应的文件类型为第一预设类型的隐藏子文件确定为风险文件。

在本申请的一种示例性实施例中，根据特征信息，确定对应的文件类型为第一预设类型的隐藏子文件的风险特征值，包括：

根据特征信息，确定对应的文件类型为第一预设类型的隐藏子文件的特征向量；

获取若干历史非恶意特征向量和若干历史恶意特征向量；历史非恶意特征向量为历史非风险文件对应的特征向量；历史非风险文件为文件类型为第一预设类型，且风险特征值小于等于预设风险阈值的历史子文件；历史恶意特征向量为历史风险文件对应的特征向量；历史风险文件为文件类型为第一预设类型，且风险特征值大于预设风险阈值的历史子文件；

对至少部分历史非恶意特征向量进行聚类，得到若干个历史非恶意特征向量组；

对每个历史非恶意特征向量组中的至少部分历史非恶意特征向量进行融合处理，得到每个历史非恶意特征向量组对应的历史非恶意融合特征向量；

将特征向量与每一历史非恶意融合特征向量进行特征对比，得到若干个第一匹配度；

将特征向量与每一历史恶意特征向量进行特征对比，得到若干个第二匹配度；

根据每一历史非恶意融合特征向量的权重、每一历史恶意特征向量的权重、每一第一匹配度和每一第二匹配度，确定特征向量对应的文件类型为第一预设类型的隐藏子文件的风险特征值。

在本申请的一种示例性实施例中，若待检测office文档中包含文件类型为第一预设类型的子文件，则根据待检测office文档的存储地址，确定存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件，包括：

若待检测office文档中不包含文件类型为第一预设类型的子文件，则将待检测office文档存储至存储地址对应的存储空间中。

在本申请的一种示例性实施例中，若存储地址对应的存储空间中包含文件类型为第一预设类型的目标类型文件，则将待检测office文档存储至预设存储空间中，包括：

若存储地址对应的存储空间中不包含文件类型为第一预设类型的目标类型文件，则将待检测office文档存储至存储地址对应的存储空间中。

根据本申请的一个方面，提供一种office文档安全存储装置，包括：

请求响应模块，用于响应于接收到待检测office文档的存储请求，获取待检测office文档的文件类型；存储请求包括待检测office文档的存储地址；

类型确定模块，用于当待检测office文档中包含文件类型为第一预设类型的子文件时，根据待检测office文档的存储地址，确定存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件；

文档存储模块，用于当存储地址对应的存储空间中包含文件类型为第一预设类型的目标类型文件时，将待检测office文档存储至预设存储空间中；预设存储空间中不包含文件类型为第一预设类型的目标类型文件。

根据本申请的一个方面，提供一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述的office文档安全存储方法。

根据本申请的一个方面，提供一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果：

本发明通过判断待检测office文档的文件类型是否为第一预设类型的子文件，若为第一预设类型的子文件，则确定存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件，若包含，则将待检测office文档存储至预设存储空间中，保证VSTO无法达成执行条件，来保护用户数据的安全。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的office文档安全存储方法的流程图；

图2为本发明实施例提供的office文档安全存储装置的框图；

图3-图8为本发明实施例提供的office文档安全存储方法的步骤示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Microsoft office文件中的VBA（VisualBasic for Applications，宏语言）长期以来一直被攻击者利用，以达到进入目标系统并部署恶意软件的目的。如果允许其自动运行，一旦使用者打开office文件，攻击者便能利用VBA来执行恶意代码。即使默认不启用VBA，攻击者也会通过社工手段，如启用VBA才能查看完整内容等方式，诱导用户启用VBA来执行恶意代码。出于以上原因，越来越多的安全防护软件都会阻止可疑的VBA代码执行，并且微软也会默认阻止来自Internet的文件中的宏。

由于VSTO（Visual Studio Tools for office）使开发office应用程序更为简单，且用VSTO来开发office应用程序可以使用Visual studio开发环境中的众多功能和CLR提供的内存管理、垃圾回收等功能。因此，攻击者开始使用VBA的替代攻击媒介VSTO，它可以导出嵌入在office文档中的加载项。VSTO office文件使攻击者能够通过钓鱼邮件等方式诱导用户安装加载项来控制用户机器远程执行恶意代码。如图5所示，攻击者在文档中诱导受害者需要安装自定义项才能看到完整内容，大多数不了解office文档的用户会被诱导安装，安装后将会执行攻击者预设的恶意代码，执行恶意行为。当VSTO office文件连接到使用.NET编写的Visual Studiooffice File应用程序时，它能够执行任意恶意代码。VSTOoffice文件还可以在用户打开文件后直接从Internet下载VSTO文件（.NET应用程序）。并且由于大多数安全厂商未关注VSTO在恶意攻击事件中的使用，故目前的安全软件基本上都无法检测出利用此技术执行的恶意代码。

所以，为了能够阻止攻击者利用VSTO在用户机器上执行恶意代码，故提出本发明的office文档安全存储方法，通过检测office文档是否存在恶意利用VSTO的情况，来判断office文档是否为恶意的，并将office文档进行安全存储，以阻止其在用户机器内执行恶意代码，避免用户数据资产受到损害。

如图1所示为根据本发明的一个实施例的office文档安全存储方法的流程图。

目前，由于检测VSTO执行需要满足运行环境，故攻击者通常需要想办法将利用VSTO的文档和依赖项共同传播到用户的机器中，即在同一个文件夹下。而正常使用此类文档的用户通常会将环境提前安装在默认或指定文件夹下，针对当前保密程度较高的场景，往往会限制用户机器一次性传输文件数量。攻击者可通过钓鱼邮件、水坑网站等多种方式，将office文档、VSTO文件、dll文件、依赖项分频次传输到指定系统。等所有文件全部传输完成时，用户下次打开恶意文档时就会执行恶意代码。由于office文档多次被使用，用户会降低警惕心理，从而让攻击者成功执行恶意行为。所以，提出一种可以对office文档安全存储的方法。

如图1所示，根据本发明的一个实施例的office文档安全存储方法，包括：

步骤S100、响应于接收到待检测office文档的存储请求，获取待检测office文档的文件类型；存储请求包括待检测office文档的存储地址；

待检测office文档为接收到的未检测的文档，其包含有若干个非隐藏子文件，当获取到待检测office文档时，通过获取其包含的所有非隐藏子文件，来检测其是否具有利用VSTO执行的代码。

通过待检测office文档的文件类型来检测其是否包含VSTO文件。

步骤S200、若待检测office文档中包含文件类型为第一预设类型的子文件，则根据待检测office文档的存储地址，确定存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件；任一目标类型文件为非隐藏文件或隐藏文件；第一预设类型为.VSTO类型；

为了应对目前的攻击者通过分批次将VSTO文件的不同子文件传输到指定系统，而引发的恶意代码执行的情况，就需要检测待检测office文档的文件类型，若其包含文件类型为第一预设类型的子文件，则表示其包括VSTO文件，再通过判断待检测office文档的存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件，来确定待检测office文档的存储地址，若待检测office文档中不包含文件类型为第一预设类型的子文件，则表示其不包含VSTO文件，直接将待检测office文档存储至存储地址对应的存储空间中。

进一步，步骤S200中，若待检测office文档中包含文件类型为第一预设类型的子文件，则根据待检测office文档的存储地址，确定存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件，包括：

步骤S201、若待检测office文档中不包含文件类型为第一预设类型的子文件，则将待检测office文档存储至存储地址对应的存储空间中。

进一步，步骤S200中，根据待检测office文档的存储地址，确定存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件，包括：

步骤S210、获取存储地址对应的存储空间中包含的至少部分存储文件；

步骤S220、确定若干存储文件中是否包含文件类型为第一预设类型的存储文件，若包含，则将文件类型为第一预设类型的存储文件确定为目标类型文件。

通过检测待检测office文档的存储地址对应的存储空间中的所有存储文件的文件类型，来判断待检测office文档是否存储在存储地址对应的存储空间中，若待检测office文档的存储地址对应的存储空间中存储有文件类型为第一预设类型的存储文件，则表示待检测office文档的存储地址对应的存储空间中存在了VSTO类型的文件。

步骤S300、若存储地址对应的存储空间中包含文件类型为第一预设类型的目标类型文件，则将待检测office文档存储至预设存储空间中；预设存储空间中不包含文件类型为第一预设类型的目标类型文件；

若存储地址对应的存储空间中包含文件类型为第一预设类型的目标类型文件，则为了避免攻击者的VSTO分批次执行恶意代码的情况发生，则将待检测office文档存储至预设存储空间中，预设存储空间可以为空白文件夹，也可为包含其他文件的文件夹。

进一步，步骤S300中，若存储地址对应的存储空间中包含文件类型为第一预设类型的目标类型文件，则将待检测office文档存储至预设存储空间中，包括：

步骤S310、若存储地址对应的存储空间中不包含文件类型为第一预设类型的目标类型文件，则将待检测office文档存储至存储地址对应的存储空间中。

若存储地址对应的存储空间中不包含文件类型为第一预设类型的目标类型文件，则表示存储地址对应的存储空间中不存在VSTO类型的文件，也就不会发生同一文件夹下，多批次VSTO文件导入后发生的触发恶意代码执行的情况，所以，将待检测office文档存储至存储地址对应的存储空间中。

将待检测office文档进行存储后，需要对其进行检测，来判断其是否为恶意文件，恶意文件即存在恶意侵入风险的风险文件，具体的待检测office文档的检测方法如下：

步骤S004、获取待检测office文档包含的若干非隐藏子文件；

进一步，步骤S004中，获取待检测office文档包含的若干非隐藏子文件，包括：

步骤S0041、将待检测office文档的后缀名替换为第一预设字符串，得到压缩office文档；其中，任意文件的后缀名若为第一预设字符串，则表示任意文件的文件类型为压缩文件；

步骤S0042、将压缩office文档解压到预设存储空间中，获取预设存储空间中由压缩office文档解压后得到的若干非隐藏子文件。

待检测office文档在获取时只为一个可编辑文档，如图3所示，若要获取其包含的子文件，就需要对其进行压缩及解压，压缩则是直接将待检测office文档的后缀名更改为第一预设字符串，如zip字符串，将后缀名更改为第一预设字符串的待检测office文档会转换为压缩文件，得到压缩office文档，再将其解压到预设存储空间中，预设存储空间可以为空白文件夹，也可为其他不包含VSTO文件的文件夹或其他内存，解压后得到若干非隐藏子文件。

步骤S400、根据预设文件名，从待检测office文档包含的若干非隐藏子文件中确定出目标文件；目标文件的文件名为预设文件名；

目标文件为名称为预设文件名的非隐藏子文件，如图6所示，custom.xml对应的文件即目标文件，custom.xml则为预设文件名，确定目标文件后，再对其内的属性信息进行检测，来判断其是否含有VSTO文件。

步骤S500、若目标文件中同时包括第一预设字段和第二预设字段，则根据待检测office文档中包含的若干子文件，确定待检测office文档是否具有对应的风险文件；任一子文件为非隐藏子文件或隐藏子文件；

确定出目标文件后，对其进行字段检测，检测其是否同时包括第一预设字段和第二预设字段，第一预设字段为VSTO文件的名称属性信息，第二预设字段为VSTO文件的位置属性信息，如图7所示，图7中被打标框的即为第一预设字段和第二预设字段，分别为“_AssemblyName”和“_AssemblyLocation”，通过检测目标文件中是否同时包含第一预设字段和第二预设字段，来判断待检测office文档是否采用了VSTO技术。若同时包含了第一预设字段和第二预设字段，则表示其采用了VSTO技术，通过第二预设字段和待检测office文档的子文件来确定出风险文件，风险文件，即表示其执行时会造成安全威胁的文件，且其执行的威胁系数高于安全阈值。

进一步，步骤S500中，根据待检测office文档中包含的若干子文件，确定待检测office文档是否具有对应的风险文件，包括：

步骤S510、确定若干子文件中是否包含文件类型为第一预设类型的隐藏子文件，若包含，则获取文件类型为第一预设类型的隐藏子文件的特征信息；

通过检测待检测office文档中包含的子文件中是否包含文件类型为第一预设类型的隐藏子文件，来确定其是否为风险文件，如图4所示，第一预设类型则为VSTO类型的文件，其包括打开VSTO文件所需的加载项、依赖项、dll文件、pdb文件等。由于待检测office文档在传输到用户机器时，只在用户机器上显示一个文件，若恶意文档采用本地VSTO的方式，则.net编译的.dll加载项及其依赖项通常会与为执行它而创建的office文档存储在一起。而攻击者为了避免让用户发现异常，通常会将VSTO加载项及其依赖项进行隐藏。所以可以通过检测office文档同目录下是否包含隐藏的VSTO加载项及其依赖项，来判断本地VSTO的文档是否为恶意文件。所以，为了应对其恶意侵入的方法，就要查看待检测office文档中隐藏的子文件中是否包含有第一预设类型的隐藏子文件，若其包含，则表示为本地VSTO恶意侵入方式，将第一预设类型的隐藏子文件确定为风险文件。

步骤S520、根据特征信息，确定对应的文件类型为第一预设类型的隐藏子文件的风险特征值；

通过获取第一预设类型的隐藏子文件的特征信息，来确定对应的风险特征值，再根据风险特征值与预设风险值进行对比，来确定其是否为风险文件。

进一步，步骤S520中，根据特征信息，确定对应的文件类型为第一预设类型的隐藏子文件的风险特征值，包括：

步骤S521、根据特征信息，确定对应的文件类型为第一预设类型的隐藏子文件的特征向量；

步骤S522、获取若干历史非恶意特征向量和若干历史恶意特征向量；历史非恶意特征向量为历史非风险文件对应的特征向量，历史非风险文件为文件类型为第一预设类型，且风险特征值小于等于预设风险阈值的历史子文件；历史恶意特征向量为历史风险文件对应的特征向量，历史风险文件为文件类型为第一预设类型，且风险特征值大于预设风险阈值的历史子文件；

步骤S523、对至少部分历史非恶意特征向量进行聚类，得到若干个历史非恶意特征向量组；

步骤S524、对每个历史非恶意特征向量组中的至少部分历史非恶意特征向量进行融合处理，得到每个历史非恶意特征向量组对应的历史非恶意融合特征向量；

步骤S525、将特征向量与每一历史非恶意融合特征向量进行特征对比，得到若干个第一匹配度；

步骤S526、将特征向量与每一历史恶意特征向量进行特征对比，得到若干个第二匹配度；

步骤S527、根据每一历史非恶意融合特征向量的权重、每一历史恶意特征向量的权重、每一第一匹配度和每一第二匹配度，确定特征向量对应的文件类型为第一预设类型的隐藏子文件的风险特征值。

步骤S521-步骤S527为第一预设类型的隐藏子文件的风险特征值的确定方法，获取第一预设类型的隐藏子文件的特征信息，文件大小Q₁、是否为隐藏子文件的标识Q₂、隐藏子文件的数量Q₃、dll包的数量Q₄、已知依赖项的类型Q₅、未知依赖项的类型Q₆，将其组成对应的特征向量Q=(Q₁,Q₂,Q₃,Q₄,Q₅,Q₆)，由于每种恶意文件的恶意原因不同，攻击者可能会在隐藏子文件上进行恶意代码植入，也可能会在隐藏子文件的依赖项上进行恶意代码植入，所以，为了使得到的特征向量更为准确的表示隐藏子文件的全方面特征，就要获取其的各个方面的特征信息，如被植入恶意代码的文件大小会比正常文件的大小要大，被植入恶意代码的文件的依赖项的类型与正常文件的依赖项类型不同等。在获取到第一预设类型的隐藏子文件的特征向量后，再获取每一历史非恶意特征向量和历史恶意特征向量，历史非恶意特征向量和历史恶意特征向量可以通过历史数据的记录获得，也可统计在历史预设时间段内接收到的或检测到的文档的历史非恶意特征向量和历史恶意特征向量，并对所有历史非恶意特征向量进行聚类，得到若干个历史非恶意特征向量组，对每个历史非恶意特征向量组进行融合处理，如平均值处理，得到每个历史非恶意特征向量组对应的历史非恶意融合特征向量，由于恶意文件每次被检测出使用的恶意手段不唯一，所以，只对历史非恶意特征向量进行聚类融合，再将特征向量分别与每一历史非恶意融合特征向量、每一历史恶意特征向量进行特征对比，分别得到若干个第一匹配度和若干个第二匹配度，匹配度即两个比较的特征向量之间的相似距离，再根据每一历史非恶意融合特征向量的权重、每一历史恶意特征向量的权重，对对应的第一匹配度和第二匹配度进行加权处理，得到特征向量对应的文件类型为第一预设类型的隐藏子文件的风险特征值。

其中，每一历史非恶意融合特征向量的权重通过以下方法确定：

获取每一历史非恶意融合特征向量对应的历史非风险文件的检测时间、检测正确率，通过检测时间与检测正确率的乘积，确定为对应的历史非风险文件的检测效率，再根据检测效率的数值递减，对每一历史非恶意融合特征向量进行排序，根据排序后的序号对每一历史非恶意融合特征向量进行归一化处理，得到每一历史非恶意融合特征向量对应的权重。

其中，每一历史恶意特征向量的权重通过以下方法确定：

获取每一历史恶意特征向量对应的历史风险文件的检测时间、检测正确率，通过检测时间与检测正确率的乘积，确定为对应的历史风险文件的检测效率，再根据检测效率的数值递减，对每一历史恶意特征向量进行排序，根据排序后的序号对每一历史恶意特征向量进行归一化处理，得到每一历史恶意特征向量对应的权重。

得到每一历史非恶意融合特征向量的权重和每一历史恶意特征向量的权重后，再将其与对应的第一匹配度或第二匹配度进行相乘，将所有的乘积进行求和，得到比较的特征向量对应的文件类型为第一预设类型的隐藏子文件的风险特征值。

此外，风险文件还可以通过以下方法确定：

将每一特征向量与预设的正样本向量和预设的负样本向量进行特征对比，得到对应的匹配度；正样本向量和负样本向量则为标准的非风险文件和风险文件对应的特征向量，可以通过历史统计得到；

若特征向量与预设的正样本向量之间的匹配度大于特征向量与预设的负样本向量之间的匹配度，则将非恶意确定为特征向量的特征对比结果；否则，将恶意确定为特征向量的特征对比结果；

遍历所有特征向量对应的特征对比结果，若特征对比结果为非恶意的数量大于特征对比结果为恶意的数量，则确定待检测office文档为非风险文件；否则，确定待检测office文档为风险文件。

还可以通过AI回归模型对特征向量进行分析，得到风险文件，AI回归模型由每一历史恶意特征向量、每一历史非恶意特征向量而确定，将特征向量放入AI回归模型中，即可得到特征向量对应的风险特征值，再通过风险特征值与预设风险阈值的比较，来确定特征向量对应的待检测office文档是否为风险文件。

步骤S530、若风险特征值大于预设风险阈值，则将此风险特征值对应的文件类型为第一预设类型的隐藏子文件确定为风险文件。

得到特征向量对应的文件类型为第一预设类型的隐藏子文件的风险特征值后，将其与预设风险阈值进行对比，若其大于预设风险阈值，则表示其威胁风险较大，故将此风险特征值对应的文件类型为第一预设类型的隐藏子文件确定为风险文件，若其小于或等于预设风险阈值，则表示其威胁风险较小，对其不做处理。

步骤S600、若待检测office文档具有对应的风险文件，则输出报警提示。

此外，步骤S510还包括：

步骤S5101、若子文件中不包含文件类型为第一预设类型的隐藏子文件，则根据第二预设字段，确定待检测office文档是否具有对应的风险链接；

若恶意文档采用远程VSTO的方式，即加载项可以与创建的office文档分开存储而执行。但是攻击者需要把网络链接赋予“_AssemblyLocation”属性，即第二预设字段中。所以可以通过检测目标文件的第二预设字段的字段内容中是否包含有第二预设字符串的网络链接来判断恶意文档是否采用远程VSTO的方式。

若子文件中不包含文件类型为第一预设类型的隐藏子文件，则表示不存在本地VSTO文件，就要检测其是否存在远程VSTO网络链接，如图8所示，标注框内即远程VSTO网络链接，其表示为可疑链接。

进一步，步骤S5101中，根据第二预设字段，确定待检测office文档是否具有对应的风险链接，包括：

步骤S51011、确定第二预设字段的字段内容中是否包含具有第二预设字符串的网络链接，若包含，则将具有第二预设字符串的网络链接确定为风险链接；其中，若网络链接中包含第二预设字符串，则表示网络链接对应的存储空间中具有文件类型为第一预设类型的文件；

如图8所示，第二预设字符串即为“.vsto”字符串，若第二预设字段的字段内容中不包含具有第二预设字符串的网络链接，则表示待检测office文档为非风险文件，不做处理；若第二预设字段的字段内容中包含具有第二预设字符串的网络链接，则表示待检测office文档中具有可疑链接，将具有第二预设字符串的网络链接确定为风险链接。

步骤S5102、若待检测office文档具有对应的风险链接，则输出风险链接和报警提示。

提取风险链接，并提示用户发现此可疑链接，用户可根据待检测office文档的文档受信程度、链接受信程度等多个方面来判断待检测office文档是否为恶意文档。

其中，步骤S5102还包括：

步骤S51021、若目标文件中包含具有第二预设字符串的文件下载链接，则确定在预设安全链接列表中，是否包含文件下载链接；

预设安全链接列表中包含的网络链接为安全链接，安全链接为被恶意代码执行的概率低于预设阈值的网络链接，即网络链接的白名单，表示在预设安全链接列表中的网络链接的安全执行系数较高，认为通过预设安全链接列表中的网络链接下载的文件中不包含恶意代码。通过判断文件下载链接是否存在于预设安全链接列表中，来确定文件下载链接是否为安全链接。

其中，预设安全链接列表，通过以下方法确定：

步骤S001、根据每一预设网络下载链接对应的网站上的至少部分第一预设类型文件的置信度，确定预设网络下载链接是否为安全链接；

步骤S002、将在预设时间段内，确定为安全链接的预设网络下载链接添加至预设安全链接列表中。

预设网络下载链接为公开网站对应的链接，或预设的网站对应的链接，第一预设类型文件为.VSTO文件，由于为了检测出文件下载链接是否为远程VSTO文件对应的网络链接，所以，就要统计VSTO文件的置信度，组合成预设安全链接列表，置信度为对应的第一预设文件为安全文件的概率系数，可以通过其对应的预设网络下载链接的访问次数和安全执行次数来确定，如获取第一预设类型文件对应的预设网络下载链接的访问次数A1、第一预设类型文件的下载次数A2、第一预设类型文件的安全执行次数A3，确定此第一预设类型文件的置信度为A3/A2/A1，通过此确定方法，确定出每一预设网络下载链接对应的网站上的每一第一预设类型文件的置信度，再对属于同一个预设网络下载链接对应的网站的所有第一预设类型文件的置信度进行求和，得到每一个预设网络下载链接对应的网站的总置信度，若总置信度大于预设置信度阈值，则表示此预设网络下载链接对应的网站上的安全文件符合安全执行的标准，则将其确定为安全链接，再通过此方法，确定所有预设网络下载链接是否为安全链接，确定出所有的安全链接后，将在预设时间段内（如在一周内）的所有安全链接添加至预设安全链接列表中，将其确定为预设安全链接列表。

步骤51022、若预设安全链接列表中，不包含具有第二预设字符串的文件下载链接，则输出报警信息和具有第二预设字符串的文件下载链接。

若待检测office文档对应的文件下载链接不在预设安全链接列表中，则表示此文件下载链接不为安全链接，则输出报警信息和此文件下载链接，来提示用户此文件下载链接具有危险性，其为威胁链接。

进一步，步骤S51022中，输出报警信息和文件下载链接，包括：

步骤S510221、根据待检测office文档对应的文档置信度和文件下载链接对应的链接置信度，确定待检测office文档是否为恶意文档；

步骤S510222、若待检测office文档不为恶意文档，则将文件下载链接添加至预设安全链接列表中；

步骤S510223、若待检测office文档为恶意文档，则输出报警信息和文件下载链接。

步骤S510221-步骤S510223为判断待检测office文档是否为恶意文档的进一步确定方法，当待检测office文档对应的文件下载链接不在预设安全链接列表中时，获取待检测office文档对应的文档置信度B1和文件下载链接对应的链接置信度B2，文档置信度B1可以通过待检测office文档的历史相似文档的数量B11和历史相似文档为安全文档的数量B12确定，B1=B12/B11，历史相似文档为与待检测office文档的类型、大小相似的文档，链接置信度B2的确定方法与文档置信度B1相同，B2=B22/B21，B22为与文件下载链接相似的历史相似链接为安全链接的数量，B21为与文件下载链接相似的历史相似链接的数量。得到B1和B2后，对其进行求和，若加和小于预设置信度阈值，则表示待检测office文档中存在恶意代码或当打开文件时其存在安全威胁，所有将待检测office文档确定为恶意文档，此时再输出报警信息和文件下载链接，提示用户，反之，若加和大于等于预设置信度阈值，则表示待检测office文档中不存在恶意代码，认为其为安全文档，则可以打开待检测office文档，而由于待检测office文档中包含的文件下载链接不在预设安全链接列表中，但待检测office文档却为安全文档，此时认为预设安全链接列表中的安全链接的信息有缺失，可以将待检测office文档中包含的文件下载链接添加至预设安全链接列表中，便于对之后的office文档进行安全链接检测。

此外，预设安全链接列表通过链接更新策略对预设安全链接列表中的安全链接进行更改，使预设安全链接列表中的安全链接进行状态更新，确保预设安全链接列表中的网络链接保持为安全链接，其中，链接更新策略，包括：

步骤S003、根据每隔设定时间获取的预设安全链接列表中的每一安全链接对应的网站上的至少部分第一预设类型文件的置信度，确定安全链接是否被确定为风险链接；

每隔设定时间，获取预设安全链接列表中的每一安全链接对应的网站上的所有第一预设类型文件的置信度，若置信度仍大于等于预设置信度阈值，则表示其仍为安全链接，不做处理；若置信度小于预设置信度阈值，则表示此安全链接对应的网站上的第一预设类型文件进行了修改，如新增了新第一预设类型文件，或对原第一预设类型文件进行了修改，使此安全链接对应的网站成为了威胁网站，则此时，此安全链接就被确定为风险链接。

步骤S004、若安全链接被确定为风险链接，则将其从预设安全链接列表中删除；

若安全链接对应的网站上的所有第一预设类型文件的置信度小于预设置信度阈值，则将此安全链接确定为风险链接，并将其从预设安全链接列表中删除，并转入预设待定链接列表中，预设待定链接列表中存储有判断待定的风险链接；

步骤S005、根据每隔设定时间获取的风险链接对应的网站上的至少部分第一预设类型文件的置信度，确定风险链接的更改时间；

每隔设定时间，获取预设待定链接列表中的风险链接对应的网站上的所有第一预设类型文件的置信度，此设定时间可以与预设安全链接列表的设定时间相同，也可不同，当预设待定链接列表中的风险链接的置信度大于等于预设置信度阈值时，则将风险链接置信度大于等于预设置信度阈值的时间确定为更改时间，通过更改时间，可以确定是否将对应的风险链接添加至预设安全链接列表中；

步骤S006、根据风险链接的更改时间，确定风险链接是否被确定为安全链接；

步骤S007、若风险链接被确定为安全链接，则将其添加至预设安全链接列表中。

若更改时间小于等于预设更改时间阈值，则表示其对应的风险链接对应的网站的自愈能力较强，可以在较短时间内发现其上的恶意文档或恶意信息，并将其清除，则将对应的风险链接再确定为安全链接，并将其再添加至预设安全链接列表中；若预设待定链接列表中的风险链接在预设待定链接列表中的存在时间大于预设更改时间阈值，则表示此风险链接的自愈能力较差，日常维护能力较弱，则将其从预设待定链接列表中删除，来保证预设待定链接列表中的风险链接的数量维持在较少数量，来降低用户机器对预设待定链接列表中的风险链接的信息占用的算力。

本发明从待检测office文档包含的若干非隐藏子文件中，确定出目标文件，通过检测目标文件中是否同时包括第一预设字段和第二预设字段，来确定待检测office文档是否具有对应的风险文件，若待检测office文档具有对应的风险文件，则输出报警提示，实现了office文档的本地VSTO检测和远程VSTO检测，提高了安全性能，通过检测利用VSTO技术恶意文件执行的依赖项，阻止此类恶意文档在用户机器内执行窃取用户数据资产、加密用户系统内文件等多种恶意操作，避免用户数据资产受到损害，填补了安全软件针对此类技术检测的不足，提高此类恶意代码检出率，且不需要基于特征检测恶意代码，具有一定通用性，占用系统资源较少，对于系统性能影响更小。

本发明通过判断待检测office文档的文件类型是否为第一预设类型的子文件，若为第一预设类型的子文件，则确定存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件，若包含，则将待检测office文档存储至预设存储空间中，即当下载VSTO利用组件时，如下载文件夹包含后缀为.vsto的文件，则更换其他文件夹保存。即如正常下载到一个名为“下载”的指定文件夹，则把文件夹分为下载一、下载二两个文件夹，将同一来源（相同URL、相同邮箱）的office文档中的各文件分开存储，保证VSTO无法达成执行条件，来保护用户数据的安全。

如图2所示，一种office文档安全存储装置100，包括：

请求响应模块110，用于响应于接收到待检测office文档的存储请求，获取待检测office文档的文件类型；存储请求包括待检测office文档的存储地址；

类型确定模块120，用于当待检测office文档中包含文件类型为第一预设类型的子文件时，根据待检测office文档的存储地址，确定存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件；

文档存储模块130，用于当存储地址对应的存储空间中包含文件类型为第一预设类型的目标类型文件时，将待检测office文档存储至预设存储空间中；预设存储空间中不包含文件类型为第一预设类型的目标类型文件。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、移动终端、或者网络设备等）执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

根据本发明的这种实施方式的电子设备。电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：上述至少一个处理器、上述至少一个储存器、连接不同系统组件（包括储存器和处理器）的总线。

其中，所述储存器存储有程序代码，所述程序代码可以被所述处理器执行，使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

储存器可以包括易失性储存器形式的可读介质，例如随机存取储存器（RAM）和/或高速缓存储存器，还可以进一步包括只读储存器（ROM）。

储存器还可以包括具有一组（至少一个）程序模块的程序/实用工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线可以为表示几类总线结构中的一种或多种，包括储存器总线或者储存器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备也可以与一个或多个外部设备（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口进行。并且，电子设备还可以通过网络适配器与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器通过总线与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、终端装置、或者网络设备等）执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种office文档安全存储方法，其特征在于，包括：

响应于接收到待检测office文档的存储请求，获取所述待检测office文档的文件类型；所述存储请求包括所述待检测office文档的存储地址；

若所述待检测office文档中包含文件类型为第一预设类型的子文件，则根据所述待检测office文档的存储地址，确定所述存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件；若所述存储地址对应的存储空间中包含文件类型为第一预设类型的目标类型文件，则将所述待检测office文档存储至预设存储空间中；若所述存储地址对应的存储空间中不包含文件类型为第一预设类型的目标类型文件，则将所述待检测office文档存储至所述存储地址对应的存储空间中；若所述待检测office文档中不包含文件类型为第一预设类型的子文件，则将所述待检测office文档存储至所述存储地址对应的存储空间中；其中，所述第一预设类型为.VSTO类型，所述预设存储空间中不包含文件类型为第一预设类型的目标类型文件。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待检测office文档的存储地址，确定所述存储地址对应的存储空间中是否包含文件类型为第一预设类型的目标类型文件，包括：

获取所述存储地址对应的存储空间中包含的至少部分存储文件；

确定若干所述存储文件中是否包含文件类型为第一预设类型的存储文件，若包含，则将文件类型为第一预设类型的存储文件确定为目标类型文件。

3.根据权利要求1所述的方法，其特征在于，在若所述存储地址对应的存储空间中包含文件类型为第一预设类型的目标类型文件，则将所述待检测office文档存储至预设存储空间中之后，所述方法还包括：

根据预设文件名，从所述待检测office文档包含的若干非隐藏子文件中确定出目标文件；

若所述目标文件中同时包括第一预设字段和第二预设字段，则根据所述待检测office文档中包含的若干子文件，确定所述待检测office文档是否具有对应的风险文件；若所述待检测office文档具有对应的风险文件，则输出报警提示。

4.根据权利要求3所述的方法，其特征在于，根据所述待检测office文档中包含的若干子文件，确定所述待检测office文档是否具有对应的风险文件，包括：

确定所述待检测office文档中包含的若干子文件中是否包含文件类型为第一预设类型的隐藏子文件，若包含，则获取文件类型为第一预设类型的隐藏子文件的特征信息；

根据所述特征信息，确定对应的文件类型为第一预设类型的隐藏子文件的风险特征值；

若所述风险特征值大于预设风险阈值，则将此风险特征值对应的文件类型为第一预设类型的隐藏子文件确定为风险文件。

5.根据权利要求4所述的方法，其特征在于，所述根据所述特征信息，确定对应的文件类型为第一预设类型的隐藏子文件的风险特征值，包括：

根据所述特征信息，确定对应的文件类型为第一预设类型的隐藏子文件的特征向量；

获取若干历史非恶意特征向量和若干历史恶意特征向量；所述历史非恶意特征向量为历史非风险文件对应的特征向量；所述历史非风险文件为文件类型为第一预设类型，且风险特征值小于等于预设风险阈值的历史子文件；所述历史恶意特征向量为历史风险文件对应的特征向量；所述历史风险文件为文件类型为第一预设类型，且风险特征值大于预设风险阈值的历史子文件；

对至少部分所述历史非恶意特征向量进行聚类，得到若干个历史非恶意特征向量组；

对每个所述历史非恶意特征向量组中的至少部分历史非恶意特征向量进行融合处理，得到每个所述历史非恶意特征向量组对应的历史非恶意融合特征向量；

将所述特征向量与每一所述历史非恶意融合特征向量进行特征对比，得到若干个第一匹配度；

将所述特征向量与每一所述历史恶意特征向量进行特征对比，得到若干个第二匹配度；

根据每一所述历史非恶意融合特征向量的权重、每一所述历史恶意特征向量的权重、每一所述第一匹配度和每一所述第二匹配度，确定所述特征向量对应的文件类型为第一预设类型的隐藏子文件的风险特征值。

6.一种office文档安全存储装置，其特征在于，包括：

文档存储模块，用于当存储地址对应的存储空间中包含文件类型为第一预设类型的目标类型文件时，将待检测office文档存储至预设存储空间中；或当存储地址对应的存储空间中不包含文件类型为第一预设类型的目标类型文件时，将待检测office文档存储至存储地址对应的存储空间中；或当待检测office文档中不包含文件类型为第一预设类型的子文件时，将待检测office文档存储至存储地址对应的存储空间中；其中，第一预设类型为.VSTO类型，预设存储空间中不包含文件类型为第一预设类型的目标类型文件。

7.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-5中任意一项所述的方法。

8.一种电子设备，其特征在于，包括处理器和权利要求7中所述的非瞬时性计算机可读存储介质。