CN114021137A

CN114021137A - 恶意诱导文件检测方法、装置、设备和存储介质

Info

Publication number: CN114021137A
Application number: CN202111424941.4A
Authority: CN
Inventors: 万鸣; 王占一; 应凌云; 王佳华
Original assignee: Qax Technology Group Inc; Secworld Information Technology Beijing Co Ltd
Current assignee: Qax Technology Group Inc; Secworld Information Technology Beijing Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-02-08

Abstract

本申请提供一种恶意诱导文件检测方法、装置、设备和存储介质，该方法包括：获取待处理文件的图像信息；对所述图像信息进行图像处理，得到所述图像信息的图像处理结果，并对所述图像信息进行文字识别，得到所述图像信息中的文字特征；根据所述图像处理结果和所述文字特征，确定所述待处理文件是否为恶意诱导文件。本申请利用宏诱骗文件的根本特点，对文件首页预览图同时进行图像处理结果分类和文字内容识别，并将两类识别结果进行结合，以判别该文件是否存在宏诱骗行为，提高检测准确率。

Description

恶意诱导文件检测方法、装置、设备和存储介质

技术领域

本申请涉及信息安全技术领域，具体而言，涉及一种恶意诱导文件检测方法、装置、设备和存储介质。

背景技术

自进入互联网时代以来，各种网络犯罪频发，恶意文件攻击作为网络犯罪的常用手段之一也受到了越来越多的关注。作为在全球范围内都被广泛使用的文件形式，Office文件首当其冲，成为了不法分子包装恶意操作的重要工具。再有研究显示，98％的恶意office文件主要通过宏来执行恶意操作。宏操作就是通过宏命令来执行的一系列自动化操作。Office(指微软公司的Office系列办公软件所使用的文件格式)文件中可以存储一些宏命令 (可以理解为一些自动化程序)，这些宏命令可以调用系统资源去执行一系列操作。宏操作的原意是为了提升文件编辑的效率，但由于它拥有的系统权限，使其成为了不法分子实施恶意攻击的重要途径，往往被利用来执行一些恶意操作。

为了抵御恶意宏操作，Office2007及之后版本均关闭了默认启用宏的设置，即只有用户主动点击启用宏，宏命令才可以执行，这使得绝大多数的宏诱骗文件通过各种诱导手段，去引导用户开启宏。比如一份文件在Office 办公软件中打开后，软件检测到该文件含有宏，因此文件页面上端会出现安全警告：“宏已被禁用”。攻击者为了让用户相信该文件是无害的，往往利用一些官方的图标辅以譬如“为了保护文件信息”、“使文件正常显示”之类的谎言诱使用户去点击“启用内容”的按钮，而用户一旦受骗点击，宏代码就会开始自动运行，去执行一些恶意操作。

已有的恶意宏文件检测方法主要是基于静态代码分析，最经典的方式是提取文件的宏代码进行敏感词匹配，也有的研究结合了自然语言处理的知识，对宏代码进行分析提取，寻找恶意和非恶意宏代码语义特征上的区别。这类方法由于是针对代码进行分析，因此攻击者很容易通过修改变量名、代码混淆等方式绕开，且往往只针对确定的数据集或文件类型进行设计，在通用性上比较差。

发明内容

本申请实施例的目的在于提供一种恶意诱导文件检测方法、装置、设备和存储介质，利用宏诱骗文件的根本特点，对文件首页预览图同时进行图像处理结果分类和文字内容识别，并将两类识别结果进行结合，以判别该文件是否存在宏诱骗行为，提高检测准确率。

本申请实施例第一方面提供了一种恶意诱导文件检测方法，包括：获取待处理文件的图像信息；对所述图像信息进行图像处理，得到所述图像信息的图像处理结果，并对所述图像信息进行文字识别，得到所述图像信息中的文字特征；根据所述图像处理结果和所述文字特征，确定所述待处理文件是否为恶意诱导文件。

于一实施例中，所述对所述图像信息进行图像处理，得到所述图像信息的图像处理结果，包括：将所述图像信息输入预设识别模型，输出所述图像信息的所述图像处理结果，所述预设识别模型至少用于从所述图像信息中提取图像特征。

于一实施例中，还包括：获取样本文件数据集，从所述样本文件数据集中选出训练集和测试集，所述训练集和所述测试集中的每个样本文件均标注有是否为恶意诱导文件的标签；采用所述训练集训练神经网络模型，并采用所述测试集测试训练后的模型，得到所述预设识别模型。

于一实施例中，所述采用所述训练集训练神经网络模型，并采用所述测试集测试训练后的模型，得到所述预设识别模型，包括：采用所述训练集训练神经网络模型，得到初级分类模型；采用所述测试集对所述初级分类模型进行测试，收集所述初级分类模型在所述测试集上的错例样本集，所述错例样本集中样本的识别结果与所述测试集中相应样本的标签不同；从剩余样本文件数据集中选取与所述错例样本相似度达到第一阈值的相似样本，所述剩余样本文件数据集为所述样本文件数据集除去所述训练集后的数据集；将所述相似样本加入所述训练集，并采用更新后的训练集训练所述神经网络模型，迭代更新所述训练集，直到建立测试结果达到预设准确率的所述预设识别模型。

于一实施例中，所述对所述图像信息进行文字识别，得到所述图像信息中的文字特征，包括：对所述图像信息进行文字识别，得到所述图像信息中的文本内容，作为所述图像信息中的所述文字特征；和/或对所述图像信息进行文字识别，得到所述图像信息中的文本内容；提取所述文本内容的词向量，并基于所述词向量，提取所述文本内容的语义特征，得到所述图像信息中的文字特征。

于一实施例中，所述图像处理结果中包括所述待处理文件属于恶意诱导文件的第一概率；所述文字特征包括所述图像信息中的文本内容；所述根据所述图像处理结果和所述文字特征，确定所述待处理文件是否为恶意诱导文件，包括：基于所述文字特征判断所述文本内容中是否存在恶意诱导文件的标识词；若所述文本内容中存在所述标识词，确定所述待处理文件为恶意诱导文件；若所述文本内容中不存在所述标识词，判断所述第一概率是否大于或等于预设概率阈值；若所述第一概率大于或等于所述预设概率阈值，确定所述待处理文件为恶意诱导文件，否则，确定所述待处理文件不是恶意诱导文件。

于一实施例中，所述图像处理结果中包括所述待处理文件的图像特征；所述根据所述图像处理结果和所述文字特征，确定所述待处理文件是否为恶意诱导文件，包括：将所述图像特征和所述文字特征进行融合处理，生成所述待处理文件的融合特征；根据所述融合特征，确定所述待处理文件属于恶意诱导文件的第二概率；若所述第二概率大于或等于预设概率阈值，确定所述待处理文件为恶意诱导文件，否则，确定所述待处理文件不是恶意诱导文件。

本申请实施例第二方面提供了一种恶意诱导文件检测装置，包括：第一获取模块，用于获取待处理文件的图像信息；识别模块，用于对所述图像信息进行图像处理，得到所述图像信息的图像处理结果，并对所述图像信息进行文字识别，得到所述图像信息中的文字特征；确定模块，用于根据所述图像处理结果和所述文字特征，确定所述待处理文件是否为恶意诱导文件。

于一实施例中，所述识别模块用于：将所述图像信息输入预设识别模型，输出所述图像信息的所述图像处理结果，所述预设识别模型至少用于从所述图像信息中提取图像特征。

于一实施例中，还包括：第二获取模块，用于获取样本文件数据集，从所述样本文件数据集中选出训练集和测试集，所述训练集和所述测试集中的每个样本文件均标注有是否为恶意诱导文件的标签；建立模块，用于采用所述训练集训练神经网络模型，并采用所述测试集测试训练后的模型，得到所述预设识别模型。

于一实施例中，所述建立模块用于：采用所述训练集训练神经网络模型，得到初级分类模型；采用所述测试集对所述初级分类模型进行测试，收集所述初级分类模型在所述测试集上的错例样本集，所述错例样本集中样本的识别结果与所述测试集中相应样本的标签不同；从剩余样本文件数据集中选取与所述错例样本相似度达到第一阈值的相似样本，所述剩余样本文件数据集为所述样本文件数据集除去所述训练集后的数据集；将所述相似样本加入所述训练集，并采用更新后的训练集训练所述神经网络模型，迭代更新所述训练集，直到建立测试结果达到预设准确率的所述预设识别模型。

于一实施例中，所述识别模块还用于：对所述图像信息进行文字识别，得到所述图像信息中的文本内容，作为所述图像信息中的所述文字特征；和/或对所述图像信息进行文字识别，得到所述图像信息中的文本内容；提取所述文本内容的词向量，并基于所述词向量，提取所述文本内容的语义特征，得到所述图像信息中的文字特征。

于一实施例中，所述图像处理结果中包括所述待处理文件属于恶意诱导文件的第一概率；所述文字特征包括所述图像信息中的文本内容；所述确定模块用于：基于所述文字特征判断所述文本内容中是否存在恶意诱导文件的标识词；若所述文本内容中存在所述标识词，确定所述待处理文件为恶意诱导文件；若所述文本内容中不存在所述标识词，判断所述第一概率是否大于或等于预设概率阈值；若所述第一概率大于或等于所述预设概率阈值，确定所述待处理文件为恶意诱导文件，否则，确定所述待处理文件不是恶意诱导文件。

于一实施例中，所述图像处理结果中包括所述待处理文件的图像特征；所述确定模块用于：将所述图像处理结果和所述文字特征进行融合处理，生成所述待处理文件的融合特征；根据所述融合特征，确定所述待处理文件属于恶意诱导文件的第二概率；若所述第二概率大于或等于预设概率阈值，确定所述待处理文件为恶意诱导文件，否则，确定所述待处理文件不是恶意诱导文件。

本申请实施例第三方面提供了一种电子设备，包括：存储器，用以存储计算机程序；处理器，用以执行所述计算机程序，以实现本申请实施例第一方面及其任一实施例的方法。

本申请实施例第四方面提供了一种非暂态电子设备可读存储介质，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行本申请实施例第一方面及其任一实施例的方法。

本申请提供的恶意诱导文件检测方法、装置、设备和存储介质，利用宏诱骗文件的根本特点，对待处理文件的图像信息同时进行图像处理结果分类和文字特征识别，并将两种识别结果进行结合，以判别该文件是否存在宏诱骗行为，与现有技术相比，不仅降低攻击者通过更改代码绕开检测的概率，提高检测方式的通用性，而且综合图像处理结果和文字特征的判别方式，提高了宏诱导攻击的检测准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例的电子设备的结构示意图；

图2A为本申请一实施例的宏诱骗文件示例示意图；

图2B为本申请一实施例的带有宏攻击但是无文字意义的图示例示意图；

图3为本申请一实施例的恶意诱导文件检测方法的流程示意图；

图4A为本申请一实施例的恶意诱导文件检测方法的流程示意图；

图4B为本申请一实施例的图像分类模型单次训练流程示意图；

图4C为本申请一实施例的相似样本搜索流程示意图；

图4D为本申请一实施例的MobileNetV3模型结构细节示意图；

图4E为本申请一实施例的特征向量提取流程示意图；

图5为本申请一实施例的恶意诱导文件检测方法的流程示意图；

图6为本申请一实施例的恶意诱导文件检测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，本实施例提供一种电子设备1，包括：至少一个处理器 11和存储器12，图1中以一个处理器为例。处理器11和存储器12通过总线10连接。存储器12存储有可被处理器11执行的指令，指令被处理器11 执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程，以提高恶意诱导文件的检测准确率和检测方式的通用性。

于一实施例中，电子设备1可以是手机、平板电脑、笔记本电脑、台式计算机或者多个计算机组成的大型运算系统。

为了更加清楚的描述本实施例技术内容，将涉及的应用场景举例如下：

Office文件：指微软公司的Office系列办公软件所使用的文件格式，主要有Compound File Binary Format(CFB)和Office Open XML Format (OOXML)两种文件结构。CFB是Office 97～2003使用的标准文件格式，包括doc/xls/ppt等文件，可以被分解成多个独立的数据流文件。OOXML 是Office2007及之后使用的主流结构，包括docx、xlsx、pptx等，可以看作是一个解压的ZIP包，用户可以在不打开文件的情况下解压获取里面的图片、宏代码等内容。

为了抵御恶意宏操作，Office2007及之后版本均关闭了默认启用宏的设置，即只有用户主动点击启用宏，宏命令才可以执行。这使得绝大多数的宏诱骗文件不得不通过图片或文字去引导用户开启宏。如图2A所示，为一恶意文件在Office办公软件中打开后的示意图，软件检测到文件含有宏，因此文件页面上端会出现安全警告：“宏已被禁用”。攻击者为了让用户相信该文件是无害的，往往利用一些官方的图标辅以譬如“为了保护文件信息”、“使文件正常显示”之类的谎言诱使用户去点击“启用内容”的按钮，而用户一旦受骗点击，宏代码就会开始自动运行，去执行一些恶意操作。

针对上述问题，已知范围内的研究基本都是从代码层面去分析和判别，基于图像去进行恶意文件检测的很少，如一篇基于图像去进行恶意文件检测的论文《Analysis andCorrelation of Visual Evidence in Campaigns of Malicious Office Documents》。该论文描述的技术内容仍然存在如下缺陷：

上述论文中是通过对Office文件进行解压，获取到文件里包含的图片，再对图片进行文字识别。当样本中使用纯文字方法进行诱导时，文件中无法解压出图片，论文中提到的方法便会失效。并且有的攻击手段就是放一张带有宏攻击但是无文字意义的图给Office系列办公软件，无意义的图比如模糊的图片，或者只有乱码的图片，或者只有箭头等符号的图片，如图 2B所示，该文件中只有无意义的乱码内容。此种情况下，软件因为检测到宏的存在而自动弹出的“启用内容”，用户可能就会以为是“我没有启用内容导致文件显示乱码/隐藏”了，从而中招，去点击启动宏命令，因此仅仅依赖于对图片进行文字识别，非常容易漏检。

请参看图3，其为本申请一实施例的恶意诱导文件检测方法，该方法可由图1所示的电子设备1来执行，并可以应用于如图2A所示的恶意诱导文件检测的场景中，以提高恶意诱导文件的检测准确率和检测方式的通用性。该方法可以用于服务器，也可以用于客户端，本实施例以用于服务器为例，该方法包括如下步骤：

步骤301：获取待处理文件的图像信息。

在本步骤中，待处理文件可以是上述场景中提到的Office文件，待处理文件的图像信息可以是Office文件的首页预览图，可以通过预览图获取工具，比如可以采用Oracle工具获得Office文件的首页预览图像。，实际场景中并不是所有的Office文件通过解压都可以得到图片，比如上述引用论文方法中只能针对OOXML格式的Office文件进行检测，因为只有OOXML 格式的文件才可以解压出图片。而本实施例不限于待处理文件能够解压出图片，首页预览图也可以适用，因此对各类型Office文件都适用，扩大了适用范围。

步骤302：对图像信息进行图像处理，得到图像信息的图像处理结果，并对图像信息进行文字识别，得到图像信息中的文字特征。

在本步骤中，可以将图像信息输入预设识别模型，输出图像信息的图像处理结果。预设识别模型是基于深度学习的图像分类模型，预设识别模型至少用于从图像信息中提取图像特征，待处理文件的图像信息输入该预设识别模型后，可以得到该图像信息的图像处理结果，此处图像处理结果可以包括图像信息的浅层特征和深层特征。与此同时，可以通过OCR识别模型对待处理文件的图像信息进行文字识别，可以得到文字特征，该文字特征至少可以包括图像信息中的文字位置和文字内容。

步骤303：根据图像处理结果和文字特征，确定待处理文件是否为恶意诱导文件。

在本步骤中，单纯依赖于待处理文件的图像处理结果或者文字特征，可能存在漏检的问题，因此综合考虑图像处理结果和文字特征表征的信息维度，可以更加全面的展现待处理文件的真实属性，根据图像处理结果和文字特征，确定待处理文件是否为恶意诱导文件，对于难以从图像处理结果层面判别的恶意诱导文件，可以利用文字特征来保证总体的检出能力，同样的对于难以从文字特征层面判别的恶意诱导文件，也可以利用图像处理结果来保证总体的检出能力。

上述恶意诱导文件检测方法，利用宏诱骗文件的根本特点，对待处理文件的图像信息同时进行图像处理结果分类和文字特征识别，并将两种识别结果进行结合，以判别该文件是否存在宏诱骗行为，与现有技术相比，不仅降低攻击者通过更改代码绕开检测的概率，提高检测方式的通用性，而且综合图像处理结果和文字特征的判别方式，提高了宏诱导攻击的检测准确率。

请参看图4A，其为本申请一实施例的恶意诱导文件检测方法，该方法可由图1所示的电子设备1来执行，并可以应用于如图2A所示的恶意诱导文件检测的场景中，以提高恶意诱导文件的检测准确率和检测方式的通用性。该方法包括如下步骤：

步骤401：获取待处理文件的图像信息。详细参见上述实施例中对步骤 301的描述。

步骤402：将图像信息输入预设识别模型，输出图像信息的图像处理结果。详细参见上述实施例中对步骤302的描述。

于一实施例中，在步骤402之前，还可以包括建立上述预设识别模型的步骤，如下：

S1：获取样本文件数据集，从样本文件数据集中选出训练集和测试集，训练集和测试集中的每个样本文件均标注有是否为恶意诱导文件的标签。

本实施例中初始数据集可以包括防护软件捕获的恶意文件和网上搜集到的文件数据。在数据集处理流程中，首先可以从初始数据集中筛选出带有宏的样本，接着对筛选出的样本采用md5去重。假设图像信息是文件的首页预览图，则再通过预览图获取工具获取每个样本文件的首页预览图集合。最后对首页预览图集合采用md5去重，就得到最终的样本文件数据集，记为U。从数据集U中随机抽取N张图片作为训练集A，并进行标注，训练集中的每个样本文件均标注有是否为恶意诱导文件的标签，再从除去训练集A的剩余样本文件数据集U-A中抽取K张图片作为测试集T1，测试集T1中每个样本文件均标注有是否为恶意诱导文件的标签。

S2：采用训练集训练神经网络模型，并采用测试集测试训练后的模型，得到预设识别模型。

在本步骤中，基于深度学习在图像分类领域和文字识别领域都取得了非常多的成果，如神经网络结构有VGG系列、ResNet系列、MobileNet系列等。考虑到速度和性能，本实施例中可以使用经典轻量级网络 MobileNetV3进行图像特征的提取和分类，该模型计算量小，推理速度快，方便在各种平台进行部署。采用训练集训练神经网络模型MobileNetV3，并采用测试集测试训练后的模型，得到预设识别模型。

于一实施例中，步骤S2具体可以包括：采用训练集训练神经网络模型，得到初级分类模型。采用测试集对初级分类模型进行测试，收集初级分类模型在测试集上的错例样本集，所述错例样本集中样本的识别结果与所述测试集中相应样本的标签不同。从剩余样本文件数据集中选取与错例样本相似度达到第一阈值的相似样本，所述剩余样本文件数据集为所述样本文件数据集除去所述训练集后的数据集。将相似样本加入训练集，并采用更新后的训练集训练神经网络模型，迭代更新训练集，直到建立测试结果达到预设准确率的预设识别模型。

在实际模型训练过程中，可以基于相似样本搜索的方式，对数据集进行扩充。如图4B所示，首先可以采用训练集A，训练MobileNetV3网络结构，得到初级分类模型M1，再从除去训练集A的剩余样本文件数据集U-A 中抽取K张图片作为测试集T1。对于模型M1在测试集T1上的错例样本集[ws₁,ws₂…ws_n](其中，n为正整数)，通过相似样本搜索的方法，在剩余样本文件数据集U-A中依次搜索ws_i(i为大于1小于或等于n的整数)的相似样本，并将相似样本补充到训练集A中，上述过程重复n次，直至模型Mn在训练集Tn上的模型测试结果达到预设准确率。

于一实施例中，对于相似样本的搜索过程，如图4C所示，对于样本文件数据集U(假设a张图像)中的每一张样本图像，可以使用模型M计算其特征向量，并将所有图像的特征向量整合保存为特征集合D(大小为a× 576)。在对错例样本ws_i进行分析时，首先提取错例样本ws_i的特征向量(大小为1×576)，然后将错例样本ws_i的特征向量与特征集合D中的所有特征向量计算相似度。即对于数据集U中的每一个样本图像us_i，均可以获得一个us_i与ws_i的相似度分数s。最终取所有相似度分数s大于或等于第一阈值的us_i作为ws_i的相似样本，其中第一阈值是相似度阈值，可以基于实际需要设定，比如第一阈值可以是0.6。

于一实施例中，如果相似度分数s大于或等于0.6的样本图像us_i比较多，可以将其基于相似度从高到低排序，从中选取排名次序比较靠前的样本图像us_i作为ws_i的相似样本，比如选取相似度大于0.6，并且排序在前 20名的样本图像us_i作为ws_i的相似样本。上述采用相似样本扩充数据集的方式，在数据标注成本较高的情况下，可以先对少量样本(如训练集A)进行标注，并基于少量样本训练初级模型，再根据测试错例样本的图像特征对大量的无标签数据进行相似样本搜索，挑选出更有意义的样本补充至训练集中，以此可以迅速提升模型效果。

于一实施例中，如图4D所示，MobileNetV3-small网络模型的结构可以包括特征提取模块和特征分类模块，其中特征提取模块用于从图像信息中提取图像特征，特征分类模块用于基于图像特征确定待处理文件属于恶意诱导文件的概率。其中每个模块均包括具体的卷积层结构，本实施例中可以使用MobileNetV3-small网络模型的特征提取模块中最后一个池化层的输出作为每张图像的特征向量，具体维度可以为1x576。

如图4E所示，为特征向量提取流程示意图，在建立好预设识别模型后，首先将待处理文件的图像信息输入到MobileNetV3-small网络模型的特征提取模块，从特征提取模块的输出结果中得到输入图片的特征向量，另一方面特征提取模块的输出结果继续输入到特征分类模块，输出该输入图像的分类结果。即图像处理结果中可以包括待处理文件属于恶意诱导文件的第一概率，比如可以输出该待处理文件属于宏诱骗文件(记为黑样本)的第一概率black_p以及属于非宏诱骗文件(记为白样本)的概率white_p，此处black_p与white_p的和为1，当然也可以根据需要仅输出待处理文件属于宏诱骗文件的概率，或者，仅输出待处理文件属于非宏诱骗文件的概率。

步骤403：对图像信息进行文字识别，得到图像信息中的文本内容，作为图像信息中的文字特征。

在本步骤中，文字特征包括图像信息中的文本内容，可以通过常用的 OCR识别模型对待处理文件的首页预览图进行文字位置检测和内容识别，得到字符串形式的文本内容。

需要说明的是，步骤402的图像处理过程和步骤403中的文字特征识别可以同时进行，也可以先后顺序进行，本实施例对二者实施顺序不做限定。

步骤404：基于文字特征判断文本内容中是否存在恶意诱导文件的标识词。若是，进入步骤406，否则进入步骤405。

在本步骤中，常见的恶意诱导文件都会携带有特殊的标识词，比如“启用宏”、“Enable Content”以及其他类似含义的标识词，可以预先统计恶意诱导文件的标识词，得到关键词库，然后对步骤403的文字识别结果进行关键词匹配，如果命中关键词库中的标识词，进入步骤406，否则进入步骤 405。

步骤405：判断第一概率是否大于或等于预设概率阈值。若是进入步骤 406，否则进入步骤407。

在本步骤中，若文本内容中不存在关键词库中的标识词，为了避免可能漏掉一些采用非文字的恶意诱导文件，比如模糊的图片文件，检测不到文字内容，但是其图像特点存在很大的诱导性。因此进一步对步骤402中预设识别模型的分类结果进行判断，即判断待处理文件属于宏诱骗文件的第一概率black_p是否大于或等于预设概率阈值，若是，进入步骤406，否则进入步骤407。其中，预设概率阈值可以基于实际情况来定，比如可以是 0.98。

步骤406：确定待处理文件为恶意诱导文件。

在本步骤中，若待处理文件的文本内容中存在标识词，或者虽然文本内容中不存在关键词库中的标识词，但是该待处理文件的图像特征分类结果中待处理文件属于宏诱骗文件的第一概率black_p大于或等于预设概率阈值，则可以直接确定待处理文件为恶意诱导文件。

步骤407：确定待处理文件不是恶意诱导文件。

在本步骤中，若待处理文件的文本内容中不存在关键词库中的标识词，并且其图像特征分类结果中待处理文件属于宏诱骗文件的第一概率black_p 小于预设概率阈值，则可以确定该待处理文件不是恶意诱导文件。

上述恶意诱导文件检测方法，对含宏代码的文件的首页预览图同时进行图像特征分类和文字内容识别，结合两类结果，判别该文件是否存在宏诱骗行为。该方法中所指的待处理文件类型包含但不限于Office文件，事实上，所有符合恶意诱骗文件特点的文件都可以适用此方法。其优点如下：

(1)区别于传统方法中主要基于易被修改的代码进行分析，上述实施例针对宏诱骗文件的基础特性，直接对文件的内容进行分析。对攻击者来说，想要在不降低攻击成功率的前提下绕开本检测方法是很难的。也正是因为宏诱骗文件必须通过诱导性内容引诱用户打开宏，所以本实施例的方法在一定程度上可以做到“以不变应万变”，模型所需的更新周期远长于传统方法。实践证明，在为期1个多月的线上部署监控阶段，恶意样本检出率始终保持在较高水平，总体误检率较低。

(2)本实施例中均采用轻量级深度学习模型，体量小，速度快，容易部署，对硬件的要求并不高。

(3)本实施例中的方法与Office文件格式无关，只需提取出文件预览图即可，对任意格式Office文件都可以应用，通用型很强。

请参看图5，其为本申请一实施例的恶意诱导文件检测方法，该方法可由图1所示的电子设备1来执行，并可以应用于如图2A所示的恶意诱导文件检测的场景中，以提高恶意诱导文件的检测准确率和检测方式的通用性。该方法包括如下步骤：

步骤501：获取待处理文件的图像信息。详细参见上述实施例中对步骤 301的描述。

步骤502：将图像信息输入预设识别模型，输出图像信息的图像处理结果，图像处理结果中包括所述待处理文件的图像特征。详细参见上述实施例中对步骤302以及对步骤402中模型建立步骤的描述。

步骤503：对图像信息进行文字识别，得到图像信息中的文本内容。详细参见上述实施例中对步骤403的描述

步骤504：提取文本内容的词向量，并基于词向量，提取文本内容的语义特征，得到图像信息中的文字特征。

在本步骤中，文字特征包括图像信息中的文本内容和语义特征。可以利用自然语言处理的相关技术，提取文字内容中的词向量，然后基于词向量得到语义特征，语义特征即文字在高维特征空间的映射，与图像特征之于图像类似。相较于直接的关键词匹配，这种基于语义的分析方法会使判别结果更准确，鲁棒性更好。

步骤505：将图像特征和文字特征进行融合处理，生成待处理文件的融合特征。

在本步骤中，图像处理结果中包括所述待处理文件的图像特征，将文字特征中的语义特征与步骤502中得到的图像特征相融合，生成待处理文件的融合特征。即此时预设识别模型中包括特征融合模块，特征融合可以采用早融合(Early fusion)：先融合多层的特征，然后在融合后的特征上训练分类器。两个可以采用的经典的特征融合方法举例如下：

(1)concat：系列特征融合，直接将两个特征进行连接。两个输入特征x和y的维数若为p和q，输出特征z的维数为p+q。

(2)add：并行策略，将这两个特征向量组合成复向量，对于输入特征x和y，z＝x+iy，其中i是虚数单位。

步骤506：根据融合特征，确定待处理文件属于恶意诱导文件的第二概率。

在本步骤中，可以在预设识别模型的特征提取模块和特征融合模块后加入一层神经网络分类器，分类器的结构比如可以是全连接层+softmax函数，将融合特征输入该分类器，即可得到该待处理文件属于恶意诱导文件的第二概率，其中，分类器根据接收的融合特征，计算待处理文件属于恶意诱导文件的第二概率，进而基于第二概率将待处理文件分类为恶意诱导文件或非恶意诱导文件。

本实施例中，预设识别模型至少包括：特征提取模块、特征融合模块和分类器，模型训练方式可以采用类似如图4A至图4E中所示的方式，此处不再赘述。

步骤507：若第二概率大于或等于预设概率阈值，确定待处理文件为恶意诱导文件，否则，确定待处理文件不是恶意诱导文件。

在本步骤中，预设概率阈值可以是0.7，即只有在第二概率大于或等于 0.7时，才认为待处理文件为恶意诱导文件，否则，确定待处理文件不是恶意诱导文件。也即，在该实施例中，通过分类器能够最终输出待处理文件属于恶意诱导文件或属于非恶意诱导文件的分类结果。

上述恶意诱导文件检测方法，对含宏代码的文件的首页预览图同时进行图像特征分类和文字内容识别，结合两类结果，判别该文件是否存在宏诱骗行为。其中，上述图像特征分类、文字内容识别都可以通过相应的模型实现，从而基于模型的识别、分类结果，能够准确判定文件是否属于宏诱骗文件，从而有效提升识别的准确率。该方法中所指的待处理文件类型包含但不限于Office文件，事实上，所有符合恶意诱骗文件特点的文件都可以适用此方法。其优点参见上述图4A对应实施例的描述。此处不再赘述！

请参看图6，其为本申请一实施例的恶意诱导文件检测装置600，该装置可应用于图1所示的电子设备1，并可以应用于如图2A所示的恶意诱导文件检测的场景中，以提高恶意诱导文件的检测准确率和检测方式的通用性。该装置包括：第一获取模块601、识别模块602和确定模块603，各个模块的原理关系如下：

第一获取模块601，用于获取待处理文件的图像信息。

识别模块602，用于对图像信息进行图像处理，得到图像信息的图像处理结果，并对图像信息进行文字识别，得到图像信息中的文字特征。

确定模块603，用于根据图像处理结果和文字特征，确定待处理文件是否为恶意诱导文件。

于一实施例中，识别模块602用于：将图像信息输入预设识别模型，输出图像信息的图像处理结果，所述预设识别模型至少用于从所述图像信息中提取图像特征。

于一实施例中，还包括：第二获取模块604，用于获取样本文件数据集，从样本文件数据集中选出训练集和测试集，训练集和测试集中的每个样本文件均标注有是否为恶意诱导文件的标签。建立模块605，用于采用训练集训练神经网络模型，并采用测试集测试训练后的模型，得到预设识别模型。

于一实施例中，建立模块605用于：采用训练集训练神经网络模型，得到初级分类模型。采用测试集对初级分类模型进行测试，收集初级分类模型在测试集上的错例样本集，所述错例样本集中样本的识别结果与所述测试集中相应样本的标签不同。从剩余样本文件数据集中选取与错例样本相似度达到第一阈值的相似样本，所述剩余样本文件数据集为所述样本文件数据集除去所述训练集后的数据集。将相似样本加入训练集，并采用更新后的训练集训练神经网络模型，迭代更新训练集，直到建立测试结果达到预设准确率的预设识别模型。

于一实施例中，识别模块602还用于：对图像信息进行文字识别，得到图像信息中的文本内容，作为所述图像信息中的所述文字特征。和/或，对所述图像信息进行文字识别，得到所述图像信息中的文本内容；提取文本内容的词向量，并基于词向量，提取文本内容的语义特征，得到所述图像信息中的文字特征。

于一实施例中，图像处理结果中包括待处理文件属于恶意诱导文件的第一概率。文字特征包括图像信息中的文本内容。确定模块603用于：基于文字特征判断文本内容中是否存在恶意诱导文件的标识词。若文本内容中存在标识词，确定待处理文件为恶意诱导文件。若文本内容中不存在标识词，判断第一概率是否大于或等于预设概率阈值。若第一概率大于或等于预设概率阈值，确定待处理文件为恶意诱导文件，否则，确定待处理文件不是恶意诱导文件。

于一实施例中，所述图像处理结果中包括所述待处理文件的图像特征；确定模块603用于：将图像处理结果和文字特征进行融合处理，生成待处理文件的融合特征。根据融合特征，确定待处理文件属于恶意诱导文件的第二概率。若第二概率大于或等于预设概率阈值，确定待处理文件为恶意诱导文件，否则，确定待处理文件不是恶意诱导文件。

上述恶意诱导文件检测装置600的详细描述，请参见上述实施例中相关方法步骤的描述。

本发明实施例还提供了一种非暂态电子设备可读存储介质，包括：程序，当其在电子设备上运行时，使得电子设备可执行上述实施例中方法的全部或部分流程。其中，存储介质可为磁盘、光盘、只读存储记忆体 (Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory， RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等。存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种恶意诱导文件检测方法，其特征在于，包括：

获取待处理文件的图像信息；

对所述图像信息进行图像处理，得到所述图像信息的图像处理结果，并对所述图像信息进行文字识别，得到所述图像信息中的文字特征；

根据所述图像处理结果和所述文字特征，确定所述待处理文件是否为恶意诱导文件。

2.根据权利要求1所述的方法，其特征在于，所述对所述图像信息进行图像处理，得到所述图像信息的图像处理结果，包括：

将所述图像信息输入预设识别模型，输出所述图像信息的所述图像处理结果，所述预设识别模型至少用于从所述图像信息中提取图像特征。

3.根据权利要求2所述的方法，其特征在于，还包括：

获取样本文件数据集，从所述样本文件数据集中选出训练集和测试集，所述训练集和所述测试集中的每个样本文件均标注有是否为恶意诱导文件的标签；

采用所述训练集训练神经网络模型，并采用所述测试集测试训练后的模型，得到所述预设识别模型。

4.根据权利要求3所述的方法，其特征在于，所述采用所述训练集训练神经网络模型，并采用所述测试集测试训练后的模型，得到所述预设识别模型，包括：

采用所述训练集训练神经网络模型，得到初级分类模型；

采用所述测试集对所述初级分类模型进行测试，收集所述初级分类模型在所述测试集上的错例样本集，所述错例样本集中样本的识别结果与所述测试集中相应样本的标签不同；

从剩余样本文件数据集中选取与所述错例样本相似度达到第一阈值的相似样本，所述剩余样本文件数据集为所述样本文件数据集除去所述训练集后的数据集；

将所述相似样本加入所述训练集，并采用更新后的训练集训练所述神经网络模型，迭代更新所述训练集，直到建立测试结果达到预设准确率的所述预设识别模型。

5.根据权利要求1所述的方法，其特征在于，所述对所述图像信息进行文字识别，得到所述图像信息中的文字特征，包括：

对所述图像信息进行文字识别，得到所述图像信息中的文本内容，作为所述图像信息中的所述文字特征；

和/或，对所述图像信息进行文字识别，得到所述图像信息中的文本内容；

提取所述文本内容的词向量，并基于所述词向量，提取所述文本内容的语义特征，得到所述图像信息中的文字特征。

6.根据权利要求1所述的方法，其特征在于，所述图像处理结果中包括所述待处理文件属于恶意诱导文件的第一概率；所述文字特征包括所述图像信息中的文本内容；所述根据所述图像处理结果和所述文字特征，确定所述待处理文件是否为恶意诱导文件，包括：

基于所述文字特征判断所述文本内容中是否存在恶意诱导文件的标识词；

若所述文本内容中存在所述标识词，确定所述待处理文件为恶意诱导文件；

若所述文本内容中不存在所述标识词，判断所述第一概率是否大于或等于预设概率阈值；

若所述第一概率大于或等于所述预设概率阈值，确定所述待处理文件为恶意诱导文件，否则，确定所述待处理文件不是恶意诱导文件。

7.根据权利要求1所述的方法，其特征在于，所述图像处理结果中包括所述待处理文件的图像特征；所述根据所述图像处理结果和所述文字特征，确定所述待处理文件是否为恶意诱导文件，包括：

将所述图像特征和所述文字特征进行融合处理，生成所述待处理文件的融合特征；

根据所述融合特征，确定所述待处理文件属于恶意诱导文件的第二概率；

若所述第二概率大于或等于预设概率阈值，确定所述待处理文件为恶意诱导文件，否则，确定所述待处理文件不是恶意诱导文件。

8.一种恶意诱导文件检测装置，其特征在于，包括：

第一获取模块，用于获取待处理文件的图像信息；

识别模块，用于对所述图像信息进行图像处理，得到所述图像信息的图像处理结果，并对所述图像信息进行文字识别，得到所述图像信息中的文字特征；

确定模块，用于根据所述图像处理结果和所述文字特征，确定所述待处理文件是否为恶意诱导文件。

9.一种电子设备，其特征在于，包括：

存储器，用以存储计算机程序；

处理器，用以执行所述计算机程序，以实现如权利要求1至7中任一项所述的方法。

10.一种非暂态电子设备可读存储介质，其特征在于，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行权利要求1至7中任一项所述的方法。