CN115310082A

CN115310082A - 信息处理方法、装置、电子设备及存储介质

Info

Publication number: CN115310082A
Application number: CN202110499089.0A
Authority: CN
Inventors: 闫华; 位凯志; 古亮
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2022-11-08

Abstract

本申请公开了一种信息处理方法、装置、电子设备及存储介质。其中，方法包括：获取待鉴定文件；并生成所述待鉴定文件对应的第一单词序列；通过定长滑动窗的方式，从所述第一单词序列中截取多个第一长度的单词序列片段；将每个单词序列片段与预设的病毒规则库中的每个病毒规则进行匹配，得到第一匹配结果；其中，每个病毒规则能够体现一个所述第一长度的第二单词序列；所述第二单词序列包含非应用程序接口(API)名称的单词的单词类型以及API名称；所述第二单词序列是基于恶意样本文件中的恶意文件片段得到的；基于得到的第一匹配结果，确定所述待鉴定文件是否携带病毒。

Description

信息处理方法、装置、电子设备及存储介质

技术领域

本申请涉及网络安全领域，尤其涉及一种信息处理方法、装置、电子设备及存储介质。

背景技术

互联网的普及不仅增速了计算机病毒传播，也为它们提供了利润来源，因而计算机病毒的数量在近年激增，且出现了很多变种，成为网络安全的重要威胁。

然而，相关技术中，鉴定文件是否携带病毒的准确率尚需提高。

发明内容

为解决相关技术问题，本申请实施例提供一种信息处理方法、装置、电子设备及存储介质。

本申请实施例的技术方案是这样实现的：

本申请实施例提供了一种信息处理方法，包括：

获取待鉴定文件；并生成所述待鉴定文件对应的第一单词序列；

通过定长滑动窗的方式，从所述第一单词序列中截取多个第一长度的单词序列片段；

将每个单词序列片段与预设的病毒规则库中的每个病毒规则进行匹配，得到第一匹配结果；其中，每个病毒规则能够体现一个所述第一长度的第二单词序列；所述第二单词序列包含非应用程序接口(API，Application Programming Interface)名称的单词的单词类型以及API名称；所述第二单词序列是基于恶意样本文件中的恶意文件片段得到的；

基于得到的第一匹配结果，确定所述待鉴定文件是否携带病毒。

上述方案中，所述方法还包括：

确定每个单词序列片段对应的第一特征值；

所述将每个单词序列片段与预设的病毒规则库中的每个病毒规则进行匹配，包括：

将每个单词序列片段对应的第一特征值与所述病毒规则库中的每个病毒规则进行匹配；其中，所述病毒规则是对所述第二单词序列求特征值生成。

上述方案中，所述生成所述待鉴定文件对应的第一单词序列，包括：

对所述待鉴定文件进行词法分析，得到所述待鉴定文件对应的第一单词流；所述第一单词流包含第一类单词和第二类单词；所述第一类单词为API名称；所述第二类单词为非API名称的单词；

将所述第一单词流包含的第二类单词替换为相应第二类单词的单词类型，得到所述第一单词序列。

上述方案中，所述基于得到的第一匹配结果，确定所述待鉴定文件是否携带病毒，包括：

在所述第一匹配结果表征存在与所述病毒规则库中的病毒规则的匹配度大于第一阈值的单词序列片段的情况下，确定所述待鉴定文件携带病毒；

在所述第一匹配结果表征不存在与所述病毒规则库中的病毒规则的匹配度大于第一阈值的单词序列片段的情况下，确定所述待鉴定文件未携带病毒。

上述方案中，所述方法还包括：

获取至少一个恶意样本文件；所述恶意样本文件为疑似携带病毒的脚本程序；

对所述至少一个恶意样本文件进行行为分析，得到每个恶意样本文件对应的行为日志；所述行为日志至少包含针对操作系统底层的API的调用序列；

针对得到的每个行为日志，在确定相应行为日志包含恶意的API调用序列的情况下，基于所述恶意的API调用序列，从相应恶意样本文件中截取恶意文件片段；生成所述恶意文件片段对应的第二单词序列；基于所述第二单词序列，生成一条病毒规则；并将生成的病毒规则存储至所述病毒规则库。

上述方案中，所述方法还包括：

针对相应行为日志包含的每个API调用序列，将相应API调用序列与预设的恶意行为序列库中的每个恶意行为序列进行匹配，得到第二匹配结果；

在所述第二匹配结果表征存在与所述恶意行为序列库中的恶意行为序列的匹配度大于第二阈值的API调用序列的情况下，确定相应行为日志包含恶意的API调用序列；

在所述第二匹配结果表征不存在与所述恶意行为序列库中的恶意行为序列的匹配度大于第二阈值的API调用序列的情况下，确定相应行为日志不包含恶意的API调用序列。

上述方案中，所述基于所述恶意的API调用序列，从相应恶意样本文件中截取恶意文件片段，包括：

确定所述恶意的API调用序列在相应恶意样本文件中的起始位置和/或结束位置；

基于所述起始位置和/或结束位置，从相应恶意样本文件中截取所述第一长度的恶意文件片段。

上述方案中，所述生成所述恶意文件片段对应的第二单词序列，包括：

对所述恶意文件片段进行词法分析，得到所述恶意文件片段对应的第二单词流；所述第二单词流包含第一类单词和第二类单词；所述第一类单词为API名称；所述第二类单词为非API名称的单词；

将所述第二单词流包含的第二类单词替换为相应第二类单词的单词类型，得到所述第二单词序列。

本申请实施例还提供了一种信息处理装置，包括：

获取单元，用于获取待鉴定文件；并生成所述待鉴定文件对应的第一单词序列；

第一处理单元，用于通过定长滑动窗的方式，从所述第一单词序列中截取多个第一长度的单词序列片段；

第二处理单元，用于将每个单词序列片段与预设的病毒规则库中的每个病毒规则进行匹配，得到第一匹配结果；其中，每个病毒规则能够体现一个所述第一长度的第二单词序列；所述第二单词序列包含非API名称的单词的单词类型以及API名称；所述第二单词序列是基于恶意样本文件中的恶意文件片段得到的；

第三处理单元，用于基于得到的第一匹配结果，确定所述待鉴定文件是否携带病毒。

本申请实施例还提供了一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行上述任一方法的步骤。

本申请实施例还提供了一种存储介质，所述介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

本申请实施例提供的信息处理方法、装置、电子设备及存储介质，获取待鉴定文件；并生成所述待鉴定文件对应的第一单词序列；通过定长滑动窗的方式，从所述第一单词序列中截取多个第一长度的单词序列片段；将每个单词序列片段与预设的病毒规则库中的每个病毒规则进行匹配，得到第一匹配结果；其中，每个病毒规则能够体现一个所述第一长度的第二单词序列；所述第二单词序列包含非API名称的单词的单词类型以及API名称；所述第二单词序列是基于恶意样本文件中的恶意文件片段得到的；基于得到的第一匹配结果，确定所述待鉴定文件是否携带病毒。本申请实施例的方案，确定获取的待鉴定文件对应的多个单词序列片段，通过将每个单词序列片段与病毒规则库中的每个病毒规则进行匹配，确定待鉴定文件是否携带病毒，每个病毒规则能够体现一个包含非API名称的单词的单词类型以及API名称的第二单词序列；由于病毒在通过变形、混淆等处理来躲避查杀的情况下，病毒中的单词本身可能会发生变化，但单词类型却不易改变；因此，基于包含非API名称的单词的单词类型以及API名称的第二单词序列，能够生成高质量且泛化描述能力强的病毒规则；利用这样的病毒规则库，能够快速、准确地鉴定文件是否携带病毒，进而提升用户体验。

附图说明

图1为本申请实施例信息处理方法的流程示意图；

图2为本申请应用实施例生产病毒规则的流程示意图；

图3为本申请应用实施例对被测文件进行鉴定的流程示意图；

图4为本申请实施例信息处理装置的结构示意图；

图5为本申请实施例电子设备的结构示意图。

具体实施方式

下面结合附图及实施例对本申请再作进一步详细的描述。

在网络安全的攻防对抗中，变形和混淆是病毒躲避查杀的主要手段，为传统的静态反病毒系统提出了重大挑战。一方面，简单的病毒规则难以通杀病毒的变形，而为了覆盖这些变形，相关技术中，只能用更多泛化描述能力不强的低质量的病毒规则鉴定文件是否携带病毒，导致病毒规则库的急剧膨胀，造成用户难以接受的时间和空间性能的问题。另一方面，病毒规则作为一种威胁情报，其依靠人工的生产流程过于缓慢和昂贵。

其中，相关技术中，主要通过以下三种方案生产病毒规则：

第一种方案，是基于人工的方案。具体地，由有经验的病毒分析师人工对恶意文件进行分析，并提出其独有的有区分能力的内容片段作为病毒规则。该方案的缺点包括：人工效率低；人工成本高；病毒规则的质量依赖于病毒分析师的工作水平和工作态度。

第二种方案，是哈希的方案。具体地，采购的文件样本和经过沙箱行为分析的文件样本都有黑白标签(黑标签为恶意文件，白标签为正常文件)；针对恶意文件，可以计算其全文哈希作为病毒规则。该方案的缺点是：规则不具备任何泛化能力，只能描述唯一文件。

第三种方案，是自动化规则提取的方案。具体地，通过算法自动地找到恶意文件独有的片段，将其提取为描述病毒的规则。该方案的缺点是：规则的质量严重依赖于算法的质量，低质量的算法容易产生低质量规则，导致严重的误报漏报。

基于此，在本申请的各种实施例中，确定获取的待鉴定文件对应的多个单词序列片段，通过将每个单词序列片段与病毒规则库中的每个病毒规则进行匹配，确定待鉴定文件是否携带病毒，每个病毒规则能够体现一个包含非API名称的单词的单词类型以及API名称的第二单词序列；由于病毒在通过变形、混淆等处理来躲避查杀的情况下，病毒中的单词本身可能会发生变化，但单词类型却不易改变；因此，基于包含非API名称的单词的单词类型以及API名称的第二单词序列，能够生成高质量且泛化描述能力强的病毒规则；利用这样的病毒规则库，能够快速、准确地鉴定文件是否携带病毒，进而提升用户体验。

本申请实施例提供了一种信息处理方法，如图1所示，该方法包括：

步骤101：获取待鉴定文件；并生成所述待鉴定文件对应的第一单词序列；

步骤102：通过定长滑动窗的方式，从所述第一单词序列中截取多个第一长度的单词序列片段；

步骤103：将每个单词序列片段与预设的病毒规则库中的每个病毒规则进行匹配，得到第一匹配结果；

其中，所述病毒规则是描述携带病毒的文件独有的、区别于正常文件(即不携带病毒的文件)的内容的规则；每个病毒规则能够体现一个所述第一长度的第二单词序列；所述第二单词序列包含非API名称的单词的单词类型以及API名称；所述第二单词序列是基于恶意样本文件中的恶意文件片段得到的；

步骤104：基于得到的第一匹配结果，确定所述待鉴定文件是否携带病毒。

实际应用时，本申请实施例提供的信息处理方法，可以应用于电子设备；所述电子设备可以是服务器或用户终端；所述用户终端可以包括个人电脑(PC，PersonalComputer)、手机、可穿戴智能设备等；所述PC可以包括台式电脑、笔记本电脑、平板电脑、车载电脑等。

实际应用时，每个病毒规则能够体现一个第二单词序列，可以理解为：每个病毒规则既可以包含一个第二单词序列，也可以包含基于一个第二单词序列生成的、能够表达相应第二单词序列的特征值。

基于此，在一实施例中，所述方法还可以包括：

确定每个单词序列片段对应的第一特征值；

相应地，所述将每个单词序列片段与预设的病毒规则库中的每个病毒规则进行匹配，可以包括：

实际应用时，所述特征值的类型可以根据需求设置，能够表达相应的第二单词序列即可，比如哈希值。

实际应用时，在鉴定文件是否携带病毒之前，即在执行步骤101至步骤104之前，可以生成所述病毒规则库。

基于此，在一实施例中，所述方法还可以包括：

实际应用时，获取恶意样本文件的方式可以根据需求设置，比如，可以将来源可疑(即来源未知)的文件确定为恶意样本文件，例如陌生邮件地址发出的邮件附件、不可信网站下载的文件等。再比如，可以从开源威胁情报平台获取恶意样本文件。

实际应用时，行为分析(英文可以表示为Behavior Analysis)是指对程序运行时的动态行为的分析，主要包括针对恶意文件的恶意行为及与恶意行为关联的间接恶意行为的分析，比如对操作系统底层的API的调用、对驱动程序的调用等。对所述至少一个恶意样本文件进行行为分析的方式可以根据需求设置，比如，可以通过用于进行行为分析的软件对所述至少一个恶意样本文件进行行为分析。再比如，可以利用机器学习方法(比如神经网络学习)训练行为分析模型，将所述至少一个恶意样本文件输入所述行为分析模型，即可得到行为分析模型输出的每个恶意样本文件对应的行为日志。

其中，实际应用时，所述对所述至少一个恶意样本文件进行行为分析，还可以包括：

基于沙箱(Sandbox)，对所述至少一个恶意样本文件进行行为分析。

这里，沙箱是一种安全机制及其支持的环境，能够为运行中的程序提供隔离，并分析可疑文件或恶意文件的行为和影响。实际应用时，可以根据需求对沙箱进行部署。

实际应用时，得到所述至少一个恶意样本文件中每个恶意样本文件对应的行为日志后，可以判断每个行为日志是否包含恶意的API调用序列。

基于此，在一实施例中，所述方法还可以包括：

针对相应行为日志(即所述至少一个恶意样本文件中每个恶意样本文件对应的行为日志)包含的每个API调用序列，将相应API调用序列与预设的恶意行为序列库中的每个恶意行为序列进行匹配，得到第二匹配结果；

实际应用时，恶意行为序列库中的恶意行为序列和所述第二阈值可以根据需求设置。

实际应用时，可以根据需求设置将相应API调用序列与所述恶意行为序列库中的每个恶意行为序列进行匹配的方式，比如，可以利用机器学习方法(比如神经网络学习)训练恶意行为序列匹配模型，将相应行为日志包含的每个API调用序列与所述恶意行为序列库中的每个恶意行为序列输入恶意行为序列匹配模型，即可得到恶意行为序列匹配模型输出的第二匹配结果。

在一实施例中，所述基于所述恶意的API调用序列，从相应恶意样本文件中截取恶意文件片段，可以包括：

实际应用时，所述第一长度可以理解为单词数量，并可以根据需求设置。

实际应用时，为了使生成的病毒规则具备较强的泛化描述能力，即能够描述多种经过变形、混淆等躲避查杀处理的病毒，以提高鉴定文件是否携带病毒的准确率，在生成所述恶意文件片段对应的第二单词序列时，可以将非API名称的单词替换为相应单词的类型。

基于此，在一实施例中，所述生成所述恶意文件片段对应的第二单词序列，可以包括：

实际应用时，对所述恶意文件片段进行词法分析的方式可以根据需求设置，比如，可以利用机器学习方法(比如神经网络学习)训练词法分析模型，将所述恶意文件片段输入词法分析模型，即可得到所述第二单词流。

实际应用时，所述第二类单词的单词类型可以包含变量名、整型数字、等号、分号等脚本程序的组成部分。这样，由于病毒在通过变形、混淆等处理来躲避查杀的情况下，病毒中的单词本身可能会发生变化，但单词类型却不易改变，因此，利用所述第二单词序列，能够生成高质量的病毒规则。

实际应用时，所述基于所述第二单词序列，生成一条病毒规则，可以包括：

利用预设的哈希算法，确定所述第二单词序列对应的第二特征值；

将所述第二特征值确定为一条病毒规则。

实际应用时，哈希算法可以根据需求设置，比如模糊哈希算法ssdeep。

实际应用时，为了能够在不误报正常文件(即不携带病毒的文件)的前提下鉴定文件是否携带病毒，提高鉴定文件是否携带病毒的准确率，在将所述第二特征值确定为一条病毒规则时，可以对所述第二特征值进行准确性验证。

基于此，实际应用时，所述方法还可以包括：

基于至少一个白文件，对所述第二特征值进行准确性验证；所述白文件为不携带病毒的脚本程序；

在所述准确性验证通过的情况下，将所述第二特征值确定为病毒规则。

实际应用时，可以根据需求预先设置白文件库(可以简称为白库)，并从所述白文件库中获取至少一个白文件来对所述第二特征值进行准确性验证。

具体地，针对每个白文件，可以生成相应白文件对应的单词序列，通过定长滑动窗的方式，从白文件对应的单词序列中截取多个第一长度的单词序列片段，确定每个单词序列片段对应的特征值，将得到的特征值与所述第二特征值进行匹配；若匹配成功，则说明所述第二特征值未通过所述准确性验证(因为所述白文件为不携带病毒的脚本程序，所以所述白文件对应的单词序列片段的特征值不应当与所述第二特征值匹配成功，若匹配成功，说明病毒鉴定过程出现误报，所述第二特征值不能作为一条准确的病毒规则)；若匹配失败，则说明所述第二特征值通过所述准确性验证。

实际应用时，基于获取的恶意样本文件生成病毒规则库后，可以执行步骤101至步骤104，即可以确定待鉴定文件是否携带病毒。当然，后续也可以继续获取新的恶意样本文件生成新的病毒规则，并将生成的新的病毒规则更新到所述病毒规则库。

其中，在步骤101中，实际应用时，所述待鉴定文件可以存储在所述电子设备上，也可以存储在其他装置(比如云端服务器)上，因此，所述获取待鉴定文件，可以包括：从本地获取待鉴定文件；或者，从其他装置获取待鉴定文件。具体地获取待鉴定文件的方式可以根据需求设置。

对于步骤102，在一实施例中，所述生成所述待鉴定文件对应的第一单词序列，可以包括：

实际应用时，对所述待鉴定文件进行词法分析的方式可以根据需求设置，比如，可以利用机器学习方法(比如神经网络学习)训练词法分析模型，将所述待鉴定文件输入词法分析模型，即可得到所述第一单词流。

实际应用时，所述确定每个单词序列片段对应的第一特征值，可以包括：

利用预设的哈希算法，确定每个单词序列片段对应的第一特征值。

实际应用时，哈希算法可以根据需求设置，比如模糊哈希算法ssdeep。确定每个单词序列片段对应的第一特征值的算法可以与确定所述第二单词序列对应的第二特征值的算法相同。

在步骤103中，实际应用时，将每个单词序列片段与所述病毒规则库中的每个病毒规则进行匹配的方式可以根据需求设置，比如，可以利用预设的哈希算法将每个第一特征值与所述病毒规则库中的每个病毒规则进行匹配。再比如，可以利用机器学习方法(比如神经网络学习)训练规则匹配模型，将每个单词序列片段对应的第一特征值与所述病毒规则库中的每个病毒规则输入规则匹配模型，即可得到规则匹配模型输出的第一匹配结果。

对于步骤104，在一实施例中，所述基于得到的第一匹配结果，确定所述待鉴定文件是否携带病毒，可以包括：

在所述第一匹配结果表征存在与所述病毒规则库中的病毒规则的匹配度大于第一阈值的单词序列片段(即存在与所述病毒规则库中的病毒规则的匹配度大于第一阈值的第一特征值)的情况下，确定所述待鉴定文件携带病毒；

实际应用时，所述第一阈值可以根据需求设置。

本申请实施例提供的信息处理方法，获取待鉴定文件；并生成所述待鉴定文件对应的第一单词序列；通过定长滑动窗的方式，从所述第一单词序列中截取多个第一长度的单词序列片段；将每个单词序列片段与预设的病毒规则库中的每个病毒规则进行匹配，得到第一匹配结果；其中，每个病毒规则能够体现一个所述第一长度的第二单词序列；所述第二单词序列包含非API名称的单词的单词类型以及API名称；所述第二单词序列是基于恶意样本文件中的恶意文件片段得到的；基于得到的第一匹配结果，确定所述待鉴定文件是否携带病毒。本申请实施例的方案，确定获取的待鉴定文件对应的多个单词序列片段，通过将每个单词序列片段与病毒规则库中的每个病毒规则进行匹配，确定待鉴定文件是否携带病毒，每个病毒规则能够体现一个包含非API名称的单词的单词类型以及API名称的第二单词序列；由于病毒在通过变形、混淆等处理来躲避查杀的情况下，病毒中的单词本身可能会发生变化，但单词类型却不易改变；因此，基于包含非API名称的单词的单词类型以及API名称的第二单词序列，能够生成高质量且泛化描述能力强的病毒规则；利用这样的病毒规则库，能够快速、准确地鉴定文件是否携带病毒，进而提升用户体验。

另外，本申请实施例提供的信息处理方法，通过特征值表示病毒规则，能够精简病毒规则库需要占用的内存，通过特征值之间的匹配确定待鉴定文件是否携带病毒，能够进一步提高鉴定文件是否携带病毒的速度，进而提升用户体验。

第三，本申请实施例提供的信息处理方法，基于对恶意样本文件的行为分析得到包含非API名称的单词的单词类型以及API名称的第二单词序列，将基于第二单词序列生成的特征值确定为病毒规则；如此，无需人工干预即可自动地、以不误报正常文件为前提条件鉴定未知文件的威胁，并产出用于对威胁进行描述的、高质量的病毒规则，高质量是指病毒规则不仅能描述当前被分析的恶意样本文件，而且能够覆盖其变形(即恶意样本文件在通过变形、混淆等躲避查杀的处理后产生的文件)；换句话说，采用本申请实施例的方案，能够自动化地生产高质量的病毒规则，从而能够快速、准确地鉴定文件是否携带病毒，进而提升用户体验。

下面结合应用实施例对本申请再作进一步详细的描述。

在本应用实施例中，恶意样本文件称为可疑文件；待鉴定文件称为被测文件；所述特征值为模糊哈希值。本应用实施例包括生产病毒规则的过程以及对被测文件进行鉴定的过程。

首先，结合图2详细描述生产病毒规则的过程。如图2所示，生产病毒规则的过程可以包括：

步骤201：获取可疑文件，运行沙箱，对可以文件进行行为分析，得到包含行为序列的行为日志；之后执行步骤202。

具体地，可以收集可疑来源的未知文件作为可疑文件，比如陌生邮件地址发出的邮件附件、不可信网站下载的文件等。获取到可疑文件后，使用沙箱运行可疑文件，即可得到包含行为序列的行为日志；所述行为序列是指针对操作系统底层的API的调用序列。

步骤202：基于包含行为序列的行为日志，鉴定可疑文件是否携带病毒；若是，执行步骤203；若否，执行步骤208。

具体地，可以利用预先设置的恶意行为序列库，鉴定可疑文件是否包含恶意行为序列库中预定义的恶意行为序列(即恶意的API调用序列)，若包含，说明可疑文件携带病毒；若不包含，说明可疑文件不携带病毒，即可以确定针对该可疑文件无病毒规则产出。

步骤203：确定可疑文件中恶意的API调用序列，并根据恶意的API调用序列，在可疑文件中确定指定长度(即上述第一长度)的恶意文本片段；之后执行步骤204。

具体地，确定可疑文件携带病毒后，可以先确定可疑文件携带的恶意的API调用序列，再定位可疑文件调用这些恶意的API的位置范围，也就是说，从可疑文件中确定指定长度的恶意文本片段。

这里，指定长度可以根据需求设置，指定长度为一个一般情况下能够充分描述API调用序列的长度。

步骤204：对恶意文本片段进行词法分析，得到指定长度(即上述第一长度)的单词序列(即第二单词序列)；之后执行步骤205。

具体地，对恶意文本片段进行词法分析，能够得到恶意文本片段对应的单词流(即上述第二单词流)，将单词流中的每个非API名称的单词替换为该单词的类型(若该单词为API名称，则保持不变)，组成单词序列(可以理解为单词类型的序列)，并输出该序列。

这里，需要说明的是，本步骤输出的是单词类型而非单词，原因在于单词本身可能由于混淆技术处理而有大幅变化，而单词类型却不易变化(另外API名称也不易变化，故API名称不做替换)，这样可以产生能够描述混淆变形病毒的高质量病毒规则。

步骤205：计算得到的单词序列的模糊哈希值(即上述第二特征值)，将模糊哈希值确定为候选病毒规则；之后执行步骤206。

具体地，可以使用已知的或新开发的模糊哈希算法对单词类型序列计算模糊哈希值。比如ssdeep算法等。

步骤206：利用候选病毒规则扫描白库，判断是否出现误报；若是，执行步骤208；若否，执行步骤207。

示例性地，利用候选病毒规则扫描白库中的一个白文件时，可以对白文件进行词法分析，得到白文件对应的单词序列，针对得到的单词序列，从头至尾依次取定长滑窗，得到多个指定长度(即上述第一长度)的单词序列，计算每个单词序列的模糊哈希值，判断每个单词序列的模糊哈希值是否与候选病毒规则匹配，由于白文件是不携带病毒的脚本程序，若匹配，则说明出现误报，即候选病毒规则不准确，无需保存，针对该可疑文件无病毒规则产出；若不匹配，则说明没有误报，可以将候选病毒规则确定为正式病毒规则。

步骤207：将候选病毒规则确定为正式病毒规则。

步骤208：确定针对该可疑文件无病毒规则产出。

其次，结合图3详细描述对被测文件进行鉴定的过程。如图3所示，对被测文件进行鉴定的过程可以包括：

步骤301：获取被测文件，对被测文件进行词法分析，得到被测文件全文对应的单词序列(即上述第一单词序列)；之后执行步骤302。

具体地，可以对被测文件全文做词法分析，生成全文的单词流(即上述第一单词流)，将单词流中的每个非API名称的单词替换为该单词的类型(若单词为API名称，则保持不变)，组成单词类型的序列，并输出该序列。

这里，需要说明的是，本步骤输出的是单词类型而非单词，原因在于单词本身可能由于混淆技术处理而有大幅变化，而单词类型却不易变化(另外API名称也不易变化，故API名称不做替换)，这样可以准确地鉴定被测文件是否携带病毒。

步骤302：针对得到的单词序列，从头至尾依次取定长滑窗，得到多个指定长度(即第一长度)的单词序列(即上述单词序列片段)；之后执行步骤303。

这里，需要说明的是，本步骤的指定长度与上述步骤204的指定长度相同。

步骤303：计算每个单词序列的模糊哈希值(即上述第一特征值)；之后执行步骤304。

具体地，可以采用与上述步骤205相同的模糊哈希算法，计算每个单词序列的模糊哈希值。

步骤304：判断每个单词序列的模糊哈希值与正式病毒规则是否匹配；若是，执行步骤305；若否，执行步骤306。

具体地，可以采用与上述步骤205相同的模糊哈希算法，将每个单词序列的模糊哈希值与正式病毒规则进行匹配。

步骤305：确定被测文件携带病毒。

步骤306：确定被测文件正常(即不携带病毒)。

本应用实施例提供的方案，具有以下优点：

无需人工干预即可自动地、以不误报正常文件为前提条件鉴定未知文件的威胁，并产出用于对威胁进行描述的、高质量的病毒规则，高质量是指病毒规则不仅能描述当前被分析的恶意样本文件，而且能够覆盖其变形(即恶意样本文件在通过变形、混淆等躲避查杀的处理后产生的文件)；换句话说，能够自动化地生产高质量的病毒规则，从而能够快速、准确地鉴定文件是否携带病毒，进而提升用户体验。

为了实现本申请实施例的方法，本申请实施例还提供了一种信息处理装置，如图4所示，该装置包括：

获取单元401，用于获取待鉴定文件；并生成所述待鉴定文件对应的第一单词序列；

第一处理单元402，用于通过定长滑动窗的方式，从所述第一单词序列中截取多个第一长度的单词序列片段；

第二处理单元403，用于将每个单词序列片段与预设的病毒规则库中的每个病毒规则进行匹配，得到第一匹配结果；其中，每个病毒规则能够体现一个所述第一长度的第二单词序列；所述第二单词序列包含非API名称的单词的单词类型以及API名称；所述第二单词序列是基于恶意样本文件中的恶意文件片段得到的；

第三处理单元404，用于基于得到的第一匹配结果，确定所述待鉴定文件是否携带病毒。

其中，在一实施例中，所述第一处理单元402，还用于确定每个单词序列片段对应的第一特征值；相应地，所述第二处理单元403，具体用于将每个单词序列片段对应的第一特征值与所述病毒规则库中的每个病毒规则进行匹配；其中，所述病毒规则是对所述第二单词序列求特征值生成。

在一实施例中，所述获取单元401，具体用于：

在一实施例中，所述第三处理单元404，具体用于：

在一实施例中，所述获取单元401，还用于获取至少一个恶意样本文件；所述恶意样本文件为疑似携带病毒的脚本程序；

该装置还包括第四处理单元，用于：

其中，在一实施例中，所述第四处理单元，还用于：

在一实施例中，所述第四处理单元，具体用于：

在一实施例中，所述第四处理单元，还具体用于：

实际应用时，所述获取单元401、所述第一处理单元402、所述第二处理单元403、所述第三处理单元404和所述第四处理单元可由该装置中的处理器实现。

需要说明的是：上述实施例提供的信息处理装置在进行信息处理时，仅以上述各程序模块的划分进行举例说明，实际应用时，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的信息处理装置与信息处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述程序模块的硬件实现，且为了实现本申请实施例的方法，本申请实施例还提供了一种电子设备，如图5所示，该电子设备500包括：

通信接口501，能够与其他电子设备进行信息交互；

处理器502，与所述通信接口501连接，以实现与其他电子设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的方法；

存储器503，用于存储能够在所述处理器502上运行的计算机程序。

具体地，所述处理器502，用于：

将每个单词序列片段与预设的病毒规则库中的每个病毒规则进行匹配，得到第一匹配结果；其中，每个病毒规则能够体现一个所述第一长度的第二单词序列；所述第二单词序列包含非API名称的单词的单词类型以及API名称；所述第二单词序列是基于恶意样本文件中的恶意文件片段得到的；

其中，在一实施例中，所述处理器502，还用于：

确定每个单词序列片段对应的第一特征值；

在一实施例中，所述处理器502，还用于：

需要说明的是：所述处理器502具体执行上述操作的过程详见方法实施例，这里不再赘述。

当然，实际应用时，电子设备500中的各个组件通过总线系统504耦合在一起。可理解，总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统504。

本申请实施例中的存储器503用于存储各种类型的数据以支持电子设备500的操作。这些数据的示例包括：用于在电子设备500上操作的任何计算机程序。

上述本申请实施例揭示的方法可以应用于处理器502中，或者由处理器502实现。处理器502可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器502中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器502可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器502可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器503，处理器502读取存储器503中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现，用于执行前述方法。

可以理解，本申请实施例的存储器503可以是易失性存储器或者非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其他适合类型的存储器。

在示例性实施例中，本申请实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器503，上述计算机程序可由电子设备500的处理器502执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种信息处理方法，其特征在于，包括：

将每个单词序列片段与预设的病毒规则库中的每个病毒规则进行匹配，得到第一匹配结果；其中，每个病毒规则能够体现一个所述第一长度的第二单词序列；所述第二单词序列包含非应用程序接口API名称的单词的单词类型以及API名称；所述第二单词序列是基于恶意样本文件中的恶意文件片段得到的；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定每个单词序列片段对应的第一特征值；

3.根据权利要求1所述的方法，其特征在于，所述生成所述待鉴定文件对应的第一单词序列，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于得到的第一匹配结果，确定所述待鉴定文件是否携带病毒，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，所述基于所述恶意的API调用序列，从相应恶意样本文件中截取恶意文件片段，包括：

8.根据权利要求5所述的方法，其特征在于，所述生成所述恶意文件片段对应的第二单词序列，包括：

9.一种信息处理装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至8任一项所述方法的步骤。

11.一种存储介质，所述介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。