CN113127865A

CN113127865A - 一种恶意文件的修复方法、装置、电子设备及存储介质

Info

Publication number: CN113127865A
Application number: CN201911422504.1A
Authority: CN
Inventors: 位凯志; 官恩洋
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-16
Anticipated expiration: 2039-12-31
Also published as: WO2021135940A1; EP4086795A4; CN113127865B; EP4086795A1

Abstract

本申请公开了一种恶意文件的修复方法，所述修复方法包括提取恶意文件的文件特征；其中，所述文件特征包括文件属性和家族公共特征串，所述文件属性包括文件大小、节数量和节权限中任一项或任几项的组合，所述家族公共特征串包括文件偏移地址、入口点偏移地址和节偏移地址中任一项或任几项的组合；根据所述文件特征确定所述恶意文件对应的目标感染型病毒家族；对所述恶意文件执行所述目标感染型病毒家族对应的文件修复操作。本方法能够准确识别恶意文件对应的病毒家族，提高恶意文件修复效率。本申请还公开了一种恶意文件的修复装置、一种电子设备及一种存储介质，具有以上有益效果。

Description

一种恶意文件的修复方法、装置、电子设备及存储介质

技术领域

本申请涉及信息安全技术领域，特别涉及一种恶意文件的修复方法、装置、一种电子设备及一种存储介质。

背景技术

随着人工智能技术的发展，利用AI(Artificial Intelligence)算法的泛化性去识别恶意文件已经成为检测恶意文件的方式之一。相关技术中直接将AI引擎检测出的恶意文件送到感染型修复模块感染型修复模块会遍历每个家族的识别代码，在识别到具体家族后，再走执行具体的家族的修复流程。上述相关技术采用硬编码的方式历遍所有病毒家族的识别代码进行文件解析和判别，进而确定恶意文件所归属的病毒家族，这种遍历所有家族的识别流程非常耗时，导致恶意文件修复效率较低。

因此，如何准确识别恶意文件对应的病毒家族，提高恶意文件修复效率是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种恶意文件的修复方法、装置、一种电子设备及一种存储介质，能够准确识别恶意文件对应的病毒家族，提高恶意文件修复效率。

为解决上述技术问题，本申请提供一种恶意文件的修复方法，该恶意文件的修复方法包括：

提取恶意文件的文件特征；其中，所述文件特征包括文件属性和家族公共特征串，所述文件属性包括文件大小、节数量和节权限中任一项或任几项的组合，所述家族公共特征串包括文件偏移地址、入口点偏移地址和节偏移地址中任一项或任几项的组合；

根据所述文件特征确定所述恶意文件对应的目标感染型病毒家族；

对所述恶意文件执行所述目标感染型病毒家族对应的文件修复操作。

可选的，根据所述文件特征确定所述恶意文件对应的目标感染型病毒家族包括：

基于多模字符串匹配算法将所述文件特征与目标特征库进行匹配；其中，所述目标特征库中包括所述感染型病毒家族对应的预设文件属性和预设家族公共特征串；

根据匹配结果确定所述恶意文件对应的目标感染型病毒家族。

可选的，根据匹配结果确定所述恶意文件对应的目标感染型病毒家族包括：

根据所述匹配结果将与所述恶意文件具有相同文件属性和家族公共特征串的感染型病毒家族设置为所述目标感染型病毒家族。

根据所述匹配结果判断所述文件特征是否符合第一感染型病毒家族对应的标准特征规则或第二感染型病毒家族对应的泛化特征规则；其中，所述第一感染型病毒家族为具有静态规则的感染型病毒家族，所述第二感染型病毒家族不具有静态规则的感染型病毒家族；

若所述文件特征符合所述第一感染型病毒家族对应的标准特征规则，则将与所述文件特征对应的第一感染型病毒家族设置为所述目标感染型病毒家族；

若所述文件特征符合所述第二感染型病毒家族对应的泛化特征规则，则通过硬编码的方式对所述恶意文件执行文件解析操作，并根据文件解析结果遍历所有所述第二感染型病毒家族的识别代码，根据遍历结果确定所述目标感染型病毒家族。

可选的，所述通过硬编码的方式对所述恶意文件执行文件解析操作包括：

通过硬编码的方式对所述恶意文件执行解密操作和/或虚拟执行操作。

将所述文件特征输入分类模型得到分类结果，根据所述分类结果确定所述恶意文件对应的目标感染型病毒家族。

可选的，对所述恶意文件执行所述目标感染型病毒家族对应的文件修复操作包括：

查询与所述目标感染型病毒家族对应的修复方案；其中，所述修复方案通过对所述目标感染型病毒家族的病毒感染方式逆向分析得到；

根据所述修复方案对所述恶意文件执行所述目标感染型病毒家族对应的文件修复操作。

本申请还提供了一种恶意文件的修复装置，该恶意文件的修复装置包括：

特征提取模块，用于提取恶意文件的文件特征；其中，所述文件特征包括文件属性和家族公共特征串，所述文件属性包括文件大小、节数量和节权限中任一项或任几项的组合，所述家族公共特征串包括文件偏移地址、入口点偏移地址和节偏移地址中任一项或任几项的组合；

家族确定模块，用于根据所述文件特征确定所述恶意文件对应的目标感染型病毒家族；

文件修复模块，用于对所述恶意文件执行所述目标感染型病毒家族对应的文件修复操作。

本申请还提供了一种存储介质，其上存储有计算机程序，所述计算机程序执行时实现上述恶意文件的修复方法执行的步骤。

本申请还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现上述恶意文件的修复方法执行的步骤。

本申请提供了一种恶意文件的修复方法，包括提取恶意文件的文件特征；其中，所述文件特征包括文件属性和家族公共特征串，所述文件属性包括文件大小、节数量和节权限中任一项或任几项的组合，所述家族公共特征串包括文件偏移地址、入口点偏移地址和节偏移地址中任一项或任几项的组合；根据所述文件特征确定所述恶意文件对应的目标感染型病毒家族；对所述恶意文件执行所述目标感染型病毒家族对应的文件修复操作。

本申请首先提取恶意文件的文件特征，根据恶意文件的文件特征确定恶意文件对应的目标感染型病毒家族，并结合恶意文件所对应的目标感染型病毒家族的种类执行相应的文件修复操作。在本申请的恶意文件修复方案中，利用文件属性确定目标感染型病毒家族，而不是对全部的病毒家族识别代码进行比对，因此本申请能够准确识别恶意文件对应的病毒家族，提高恶意文件修复效率。本申请同时还提供了一种恶意文件的修复装置、一种电子设备和一种存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种恶意文件的修复方法的流程图；

图2为本申请实施例所提供的一种目标感染型病毒家族的检测方法；

图3为本申请实施例所提供的一种恶意文件的修复装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面请参见图1，图1为本申请实施例所提供的一种恶意文件的修复方法的流程图。

具体步骤可以包括：

S101：提取恶意文件的文件特征；

其中，在本步骤之前可以存在对未知文件进行病毒检测操作，进而判定未知文件为恶意文件，还是白文件，恶意文件即病毒文件。文件特征可以包括文件属性和家族公共特征串，其中文件属性可以包括文件大小、节数量、节权限等信息，家族公共特征串可以包括文件偏移地址、入口点偏移地址、节偏移地址等位置信息。

S102：根据文件特征确定恶意文件对应的目标感染型病毒家族；

其中，感染型恶意文件可以通过文件修复操作进行修复，因此本步骤可以通过判断恶意文件的文件特征是否符合感染型病毒家族对应的特征规则来判定恶意文件是否为感染型恶意文件。感染型恶意文件即被感染型病毒所感染的文件，感染型病毒将自身加入在其它的程序或动态库文件中，实现随被感染程序同步运行的功能，进而对感染电脑进行破坏和自身传播。本实施例还可以将所述文件特征输入分类模型得到分类结果，根据所述分类结果确定所述恶意文件对应的目标感染型病毒家族。

本实施例可以预先设置所有病毒家族对应的特征规则，将恶意文件的文件特征与各个病毒家族对应的特征规则进行比对，因此在判定文件特征符合感染型病毒家族对应的特征规则后，还可以根据文件特征与特征规则的对应关系确定恶意文件所对应的目标感染型病毒家族。

S103：对恶意文件执行目标感染型病毒家族对应的文件修复操作。

其中，由于不同的感染型病毒家族存在其对应的文件修复操作，因此需要根据恶意文件对应的感染型病毒家族的种类确定相应的文件修复方案。具体的具有相同感染方式的病毒属于同一病毒家族，因此通过对该病毒家族感染方式进行逆向分析可以得到相应的修复方案，进而对恶意文件执行所述目标感染型病毒家族对应的文件修复操作。

本实施例首先提取恶意文件的文件特征，根据恶意文件的文件特征确定恶意文件对应的目标感染型病毒家族，并结合恶意文件所对应的目标感染型病毒家族的种类执行相应的文件修复操作。在本实施例的恶意文件修复方案中，利用文件属性确定目标感染型病毒家族，而不是对全部的病毒家族识别代码进行比对，因此本申请能够准确识别恶意文件对应的病毒家族，提高恶意文件修复效率。

请参见图2，图2为本申请实施例所提供的一种目标感染型病毒家族的检测方法，本实施例是对图1对应实施例中S102和S103的将进一步介绍，可以将本实施例与图1对应的实施例相结合得到更为优选的实施方式，本实施例可以包括以下步骤：

S201：基于多模字符串匹配算法将所述文件特征与目标特征库进行匹配；

其中，所述目标特征库中包括所述感染型病毒家族对应的预设文件属性和预设家族公共特征串。本实施例可以将恶意文件的文件属性与预设文件属性进行基于关键词的匹配操作得到第一匹配结果，还可以将恶意文件的家族公共特征串与预设家族公共特征串进行基于关键词的匹配操作得到第二匹配结果。

S202：根据匹配结果判断所述文件特征是否符合所述感染型病毒家族对应的特征规则；若是，则进入S203；若否，则结束流程。

其中，本步骤可以根据上文提到的第一匹配结果和第二匹配结果判断所述文件特征是否符合所述感染型病毒家族对应的特征规则。例如，根据第一匹配结果确定恶意文件的文件属性与感染型病毒家族A和感染型病毒家族A的预设文件属性完全一致，根据第二匹配结果确定恶意文件的家族公共特征串与感染型病毒家族A和感染型病毒家族C的预设家族公共特征串完全一致，则判定恶意文件的文件特征符合感染型病毒家族A对应的特征规则。

S203：根据所述匹配结果将与所述恶意文件具有相同文件属性和家族公共特征串的感染型病毒家族设置为所述目标感染型病毒家族。

上述实施例基于多模字符串匹配算法利用关键词匹配的方式确定恶意文件对应的目标感染型病毒家族，相对于对全部的病毒家族识别代码进行逐个比对的方式具有更快的检测效率。本实施例首先提取恶意文件的文件特征，将恶意文件的文件特征与各个感染型病毒家族对应的特征规则进行比对，若恶意文件的文件特征与任一条感染型病毒家族对应的特征规则相同，则可以判定该恶意文件为感染型病毒对应的恶意文件，并结合恶意文件所对应的病毒家族种类执行相应的文件修复操作。本实施例的恶意文件修复方案中，利用文件属性和家族公共特征串作为与病毒家族特征规则进行匹配的信息，而不是对全部的病毒家族识别代码进行比对，因此本实施例能够准确识别恶意文件对应的病毒家族，提高病毒家族的检测。

作为对于图1对应实施例的进一步介绍，S102中的相关操作可以包括以下步骤：判断所述文件特征是否符合第一感染型病毒家族对应的标准特征规则或第二感染型病毒家族对应的泛化特征规则；若文件特征符合标准特征规则或泛化特征规则，则判定文件特征符合感染型病毒家族对应的特征规则。具体的，第一感染型病毒家族为具有静态规则的感染型病毒家族，第二感染型病毒家族不具有静态规则的感染型病毒家族。静态规则指直接能够识别出恶意文件对应的目标感染型病毒家族的特征规则，因此若文件特征符合标准特征规则能够确定该恶意文件的对应的目标感染型病毒家族，若文件特征符合泛化特征规则能够确定该恶意文件为感染型病毒感染的文件，无法直接确定其对应的目标感染型病毒家族。

进一步的，在利用标准特征规则和泛化特征规则对恶意文件的文件特征进行判断时，S103中确定所述恶意文件对应的目标感染型病毒家族可以包括：

若所述文件特征符合所述第二感染型病毒家族对应的泛化特征规则，则通过硬编码的方式对所述恶意文件执行文件解析操作，并根据文件解析结果遍历所有所述第二感染型病毒家族的识别代码，根据遍历结果确定所述目标感染型病毒家族。其中，上述通过硬编码的方式对所述恶意文件执行文件解析操作可以包括：通过硬编码的方式对所述恶意文件执行解密操作和/或虚拟执行操作。

作为对于图1对应实施例的进一步介绍，S103中执行文件修复操作的过程可以包括以下步骤查询与所述目标感染型病毒家族对应的修复方案；其中，所述修复方案通过对所述目标感染型病毒家族的病毒感染方式逆向分析得到；根据所述修复方案对所述恶意文件执行所述目标感染型病毒家族对应的文件修复操作。

下面通过在实际应用中的实施例说明上述实施例描述的流程，请参见图2，图2为本申请实施例所提供的一种基于AI检测引擎的病毒查杀和染毒文件修复系统的工作原理示意图。

恶意文件AI(Artificial Intelligence，人工智能)检测引擎可以提取已知恶意样本的多维特征，包括文件头部字段、导入导出表、字符串、关键结构的熵，将其转化为特征向量，再做降维处理，通过机器学习或深度学习等AI算法，训练成模型。对输入的未知文件进行预测，判定是否是恶意文件。基于AI的检测引擎，因其泛化能力以及对未知样本鉴定能力强，将其作为首要检测引擎，用于鉴定未知文件是否为恶意文件。

规则引擎家族分类模块可以接收恶意文件AI检测引擎检测出的恶意文件，通过规则识别出具体感染型家族、疑似感染型家族、非感染型家族。

具体感染型病毒家族能够被提出有效识别该家族的规则，比如Viking、Ramnit、Neshta等病毒家族。提取的规则主要包括文件属性(文件大小、section数量、section权限)，文件偏移、入口点偏移、section偏移等位置的家族公共特征串，再用规则匹配的方式进行病毒家族识别。通过该方式对这些家族提取规则，能够明确识别出具体的感染型家族。

疑似感染型病毒家族无法被提取出有效表示该家族的静态规则，比如Sality、Virut、Mabezat等。可以对恶意文件进行解密后得到唯一标识该家族的公共特征串，其解密代码会有一些较短的公共特征串，但该特征串容易误判到其它家族；另一种情况是有公共特征串，但该特征串位置需要通过文件内容中的一些值进行运算得到，直接全文匹配该特征串也容易导致误报。所以该疑似感染型病毒家族的提出的规则定义为泛规则，其优先级低于上一类规则，命中这类规则被认为是疑似感染型。

若恶意文件未命中具体感染型病毒家族或疑似感染型病毒家族对应的规则，判定为非感染型病毒家族对应的恶意文件。

上述病毒家族识别规则能够区分出该病毒家族与其它恶意文件的不同即可，针对无法用规则描述采用泛规则，减小了提取特征的难度。规则引擎家族分类模块可以通过多模字符串匹配算法确定恶意文件对应的病毒家族，相对与现有技术中遍历每一种家族识别代码的识别方法，具有较高的识别效率。

染毒文件修复模块可以对恶意文件感染方式进行逆向分析，得到该病毒家族的识别和修复方法。可以用规则描述的感染型病毒家族可以将其检测规则添加到规则引擎家族分类模块的规则引擎中，染毒文件修复模块可以根据感染方式的逆向分析结果确定对应修复代码。不能用静态规则描述感染型病毒家族，可以通过硬编码的方式确定该感染型病毒家族的检测代码和修复代码。检测代码除了像规则引擎判断文件属性和公共特征串，有时需要读取部分位置的值，比如入口点固定偏移位置的值，去计算解密key来进行解密，再查找解密后的公共特征串；有时需要进行虚拟执行，查找运行过程中内存里的公共特征串。修复代码一般删除植入的代码片段，将原始代码解密，修改PE头(大小，section数，入口点等)，进而恢复原始文件。

染毒文件修复模块对具体感染型病毒家族直接执行对应的修复流程；染毒文件修复模块针对疑似感染型病毒家族，通过遍历每个家族识别代码识别出具体感染型病毒家族后，再执行具体修复代码；染毒文件修复模块针对非感染型，直接跳过修复模块。本实施例相对于把所有异常文件都送到修复模块的检测代码中识别家族再修复的实施方案，提升了文件修复效率。

本实施例通过AI引擎对恶意文件进行异常稳健判定，结合规则引擎对感染型家族进行识别，识别的结果包括具体感染型病毒家族、疑似感染型病毒家族、非感染型病毒家族，最后根据家族识别结果进行区分修复。解决了AI引擎检测出的染毒文件的修复问题，并通过规则引擎的方式识别感染型家族，修复模块对家族识别结果进行区分处理，提升了感染型文件修复效率。

请参见图3，图3为本申请实施例所提供的一种恶意文件的修复装置的结构示意图；

该装置可以包括：

特征提取模块100，用于提取恶意文件的文件特征；其中，所述文件特征包括文件属性和家族公共特征串，所述文件属性包括文件大小、节数量和节权限中任一项或任几项的组合，所述家族公共特征串包括文件偏移地址、入口点偏移地址和节偏移地址中任一项或任几项的组合；

家族确定模块200，用于根据所述文件特征确定所述恶意文件对应的目标感染型病毒家族；

文件修复模块300，用于对所述恶意文件执行所述目标感染型病毒家族对应的文件修复操作。

进一步的，家族确定模块200包括：

规则匹配单元，用于基于多模字符串匹配算法将所述文件特征与目标特征库进行匹配；其中，所述目标特征库中包括所述感染型病毒家族对应的预设文件属性和预设家族公共特征串；

第一感染型病毒家族确定单元，用于根据匹配结果确定所述恶意文件对应的目标感染型病毒家族。

进一步的，感染型病毒家族确定单元具体用于根据所述匹配结果将与所述恶意文件具有相同文件属性和家族公共特征串的感染型病毒家族设置为所述目标感染型病毒家族。

进一步的，感染型病毒家族确定单元，用于根据所述匹配结果判断所述文件特征是否符合第一感染型病毒家族对应的标准特征规则或第二感染型病毒家族对应的泛化特征规则；其中，所述第一感染型病毒家族为具有静态规则的感染型病毒家族，所述第二感染型病毒家族不具有静态规则的感染型病毒家族；若所述文件特征符合所述第一感染型病毒家族对应的标准特征规则，则将与所述文件特征对应的第一感染型病毒家族设置为所述目标感染型病毒家族；若所述文件特征符合所述第二感染型病毒家族对应的泛化特征规则，则通过硬编码的方式对所述恶意文件执行文件解析操作，并根据文件解析结果遍历所有所述第二感染型病毒家族的识别代码，根据遍历结果确定所述目标感染型病毒家族。

进一步的，感染型病毒家族确定单元包括：

硬编码子单元，用于通过硬编码的方式对所述恶意文件执行解密操作和/或虚拟执行操作。

进一步的，家族确定模块200具体用于将所述文件特征输入分类模型得到分类结果，根据所述分类结果确定所述恶意文件对应的目标感染型病毒家族。

进一步的，文件修复模块300包括：

方案查询单元，用于查询与所述目标感染型病毒家族对应的修复方案；其中，所述修复方案通过对所述目标感染型病毒家族的病毒感染方式逆向分析得到；

修复操作执行单元，用于根据所述修复方案对所述恶意文件执行所述目标感染型病毒家族对应的文件修复操作。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本申请还提供了一种存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种恶意文件的修复方法，其特征在于，包括：

2.根据权利要求1所述修复方法，其特征在于，根据所述文件特征确定所述恶意文件对应的目标感染型病毒家族包括：

3.根据权利要求2所述修复方法，其特征在于，根据匹配结果确定所述恶意文件对应的目标感染型病毒家族包括：

4.根据权利要求2所述修复方法，其特征在于，根据匹配结果确定所述恶意文件对应的目标感染型病毒家族包括：

5.根据权利要求4所述修复方法，其特征在于，所述通过硬编码的方式对所述恶意文件执行文件解析操作包括：

6.根据权利要求1所述修复方法，其特征在于，根据所述文件特征确定所述恶意文件对应的目标感染型病毒家族包括：

7.根据权利要求1至6任一项所述修复方法，其特征在于，对所述恶意文件执行所述目标感染型病毒家族对应的文件修复操作包括：

8.一种恶意文件的修复装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1至7任一项所述恶意文件的修复方法的步骤。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至7任一项所述恶意文件的修复方法的步骤。