CN114065200A

CN114065200A - 一种数据文件检测方法、装置、电子设备及存储介质

Info

Publication number: CN114065200A
Application number: CN202111370272.7A
Authority: CN
Inventors: 刘新成; 李石磊; 童志明
Original assignee: Antiy Technology Group Co Ltd
Current assignee: Antiy Technology Group Co Ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-02-18

Abstract

本发明的实施例公开一种数据文件检测方法、装置、电子设备及存储介质，涉及计算机网络安全技术领域，能够解决传统反病毒厂商的检测逻辑或者受层数限制跳过数据文件检测，或者对数据文件进行无限拆解陷入死循环，影响整体检测时间及检测效率，且造成空间浪费的问题。所述数据文件检测方法包括获取待检测数据文件，对待检测数据文件进行逐层拆解得到多层的衍生数据，判断所述多层的衍生数据中是否存在数据链路循环，若存在数据链路循环时判定该数据文件为恶意文件，本发明适用于数据文件存在衍生数据的检测场景，可以进一步提高检测效率。

Description

一种数据文件检测方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机网络安全技术领域，尤其涉及一种数据文件检测方法、装置、电子设备及存储介质。

背景技术

由于受网络带宽影响，在进行数据传输时需进行加密、计算、打包等形成数据文件，数据文件例如包括生成社交软件传输的压缩包或者通过软件应用平台提供的软件应用安装包等。用户接收到这些数据文件后需经过算法解密、计算、聚合而产生的新数据，这些新数据为衍生数据。传统的反病毒厂商对衍生数据进行检测时，通常先对原始数据文件进行层层拆解，对衍生出的新数据进行恶意检测，如未发现恶意，继续拆解，直到无法衍生新的数据或者发现恶意文件为止才完成检测。但当遇到恶意隐藏和恶意构造出同一条衍生数据链出现循环时，例如恶意构造出一条数据链中的父子关系出现重复，子数据还会衍生同一条链路已经存在的数据，传统反病毒厂商的检测逻辑或者受层数限制跳过数据文件检测，或者对数据文件进行无限拆解陷入死循环，影响整体检测时间及检测效率，且造成空间浪费。

发明内容

有鉴于此，本发明实施例提供一种数据文件检测方法、装置、电子设备及存储介质，以解决传统反病毒厂商的检测逻辑或者受层数限制跳过该数据文件检测，或者对数据文件进行无限拆解陷入死循环，影响整体检测时间及检测效率，且造成空间浪费的问题。

第一方面，本发明实施例提供一种数据文件检测方法，应用于电子设备，包括：

获取待检测数据文件；

对所述待检测数据文件进行逐层拆解得到多层的衍生数据；

判断所述多层的衍生数据中是否存在数据链路循环；

若是，判定所述待检测数据文件为恶意文件。

根据本发明实施例的一种具体实现方式，所述获取待检测数据文件后，还包括：

对所述待检测数据文件进行预处理，查看所述待检测数据文件是否能够产生衍生数据，所述预处理包括格式识别和壳识别。

根据本发明实施例的一种具体实现方式，所述对所述待检测数据文件进行逐层拆解得到多层的衍生数据，包括：

对所述待检测数据文件进行解包、拆分和脱壳中至少一种操作，得到多层的衍生数据。

根据本发明实施例的一种具体实现方式，所述判断所述多层的衍生数据中是否存在数据链路循环包括：

计算拆解后每个衍生数据的哈希值；

标记每层衍生数据对应的数据链；

判断同一条数据链中是否多层衍生数据对应的哈希值都相同；

若是，判定多层的衍生数据中存在相同的衍生数据。

根据本发明实施例的一种具体实现方式，所述标记衍生数据对应数据链，包括：

从所述待检测数据文件开始标记，标记每层衍生数据及每层衍生数据所有父层数据。

第二方面，本发明实施例提供一种数据文件检测装置，包括：

获取模块，用于获取待检测数据文件；

拆解模块，用于对所述待检测数据文件进行逐层拆解得到多层的衍生数据；

判断模块，用于判断所述多层的衍生数据中是否存在数据链路循环；

判定模块，用于所述多层的衍生数据中＝存在相同的衍生数据时，判定所述待检测数据文件为恶意文件。

根据本发明实施例的一种具体实现方式，还包括：

预处理模块，用于对所述待检测数据文件进行预处理，查看所述待检测数据文件是否能够产生衍生数据，所述预处理包括格式识别和壳识别。

根据本发明实施例的一种具体实现方式，还包括：

计算模块，用于计算拆解后每个衍生数据的哈希值；

标记模块，用于标记每层衍生数据对应的数据链；

所述判断模块还用于判断同一条数据链中是否多层衍生数据对应的哈希值都相同。

第三方面，本发明实施例提供一种电子设备，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述任一实现方式所述的数据文件检测方法。

第四方面，本发明的实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述任一实现方式所述的数据文件检测方法。

本发明实施例提供的一种数据文件检测方法、装置、电子设备及存储介质，通过获取待检测数据文件，对待检测数据文件进行逐层拆解得到多层的衍生数据，判断多层的衍生数据中是否存在数据链路循环，若存在数据链路循环时判定该数据文件为恶意文件，能够有效解决由于产生衍生数据逻辑导致的死循环检测超时以及由于不断产生衍生数据而造成空间浪费的问题，提高检测效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明的实施例一数据文件检测方法的流程图；

图2为本发明的实施例二数据文件检测方法的流程图；

图3为本发明的实施例一数据文件检测装置的功能结构图；

图4为本发明的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本实施例提供一种数据文件检测方法，以解决传统反病毒厂商的检测逻辑或者受层数限制跳过该数据文件检测，或者对数据文件进行无限拆解陷入死循环，影响整体检测时间及检测效率，且造成空间浪费的问题。

图1为本发明实施例一的数据文件检测方法的流程示意图，如图1所示，本实施例的数据文件检测方法应用于电子设备。

本实施例的数据文件检测方法可以包括：

步骤101、获取待检测数据文件；

步骤102、对待检测数据文件进行逐层拆解得到多层的衍生数据；

步骤103、判断多层的衍生数据中是否存在数据链路循环；

本实施例中，多层的衍生数据中存在数据链路循环可以为链路中所有衍生数据节点出现循环，也可以为链路中部分衍生数据节点出现循环。

步骤104、若是，判定该数据文件为恶意文件。

传统的反病毒厂商对衍生数据进行检测时，通常先对原始数据文件进行层层拆解，对衍生出的新数据进行恶意检测，如未发现恶意，继续拆解，直到无法衍生新的数据或者发现恶意文件为止才完成检测。但当遇到恶意隐藏和恶意构造出同一条衍生数据链出现循环时，例如恶意构造出一条数据链中的父子关系出现重复，子数据还会衍生同一条链路已经存在的数据，传统反病毒厂商的检测逻辑或者受层数限制跳过该数据文件检测，或者对数据文件进行无限拆解陷入死循环，影响整体检测时间及检测效率，且造成空间浪费。

本实施例中，通过获取待检测数据文件，对待检测数据文件进行逐层拆解得到多层的衍生数据，判断多层的衍生数据中是否存在数据链路循环，若存在数据链路循环时判定该数据文件为恶意文件，能够有效解决由于产生衍生数据逻辑导致的死循环检测超时以及由于不断产生衍生数据而造成空间浪费的问题，提高检测效率。

图2为本发明实施例二的数据文件检测方法的流程图，如图2所示，本实施例的数据文件检测方法可以包括：

步骤201、获取待检测数据文件；

本实施例中，对待检测数据文件的来源不做限定，本领域技术人员可根据实际需要选取。

步骤202、对待检测数据文件进行预处理，查看待检测数据文件是否能够产生衍生数据，预处理包括但不限于格式识别和壳识别等；

通过预处理可以尽早查看到待检测数据文件是否可以产生衍生数据，提升检测效率。

步骤203、对待检测数据文件进行解包、拆分和脱壳中至少一种操作，得到多层的衍生数据；

步骤204、计算拆解后每个衍生数据的哈希值；

步骤205、标记每层衍生数据对应的数据链；

本实施例中，标记衍生数据对应数据链，包括：

从待检测数据文件开始标记，标记每层衍生数据及每层衍生数据所有父层数据。

例如，待检测数据文件为A，一层拆解后得到文件B、文件C，标记文件B的数据链为A-B，文件C的数据链为A-C；二层拆解文件B得到文件D，标记文件D的数据链为A-B-D，以此类推。

步骤206、判断同一条数据链中是否多层衍生数据对应的哈希值都相同；

步骤207、若是，判定同一条数据链中存在数据链路循环；

步骤208、在同一数据链中存在数据链路循环时，判定该待检测数据文件为恶意文件。

例如，待检测数据文件为A，计算A的哈希值为X，一层拆解后得到文件B，标记文件B的数据链为A-B，计算B的哈希值为Y；二层拆解文件B得到文件D，标记文件D的数据链为A-B-D，计算D的哈希值为Z；三层拆解文件D得到文件E，标记文件E的数据链为A-B-D-E，计算E的哈希值为X，与文件A的哈希值相同，因此，判定文件A为恶意文件。

一些实施例中，在检测结果为恶意文件时，发出引擎告警，以提示用户。

本实施例中，在获取衍生数据的同时，计算衍生数据的哈希值，并标记衍生数据的来源数据链，如果同一条数据链上出现重复样本，即数据哈希值相同，即视为恶意构造，停止后续检测，视该样本文件为恶意文件，针对带有衍生数据的样本文件，在现有检测方法上加入分析同一条数据链的衍生数据重复性的检测方法，不但能够提高此类文件的检测正确率和检测效率，还能有效避免因恶意构造导致的超时问题，而且同时节省产生大量重复衍生数据所占用的系统空间。

通过图1、图2中所示方法实施例的技术方案，本申请不仅可以适用于带有衍生数据的样本文件检测场景；还可以提高数据文件检测效率，减少占用空间。

图3为本发明数据文件检测装置实施例一的结构示意图，如图3所示，本实施例的装置可以包括：

获取模块31，用于获取待检测数据文件；

拆解模块32，用于对待检测数据文件进行逐层拆解得到多层的衍生数据；

判断模块33，用于判断多层的衍生数据中是否存在数据链路循环；

判定模块34，用于多层的衍生数据中存在相同的衍生数据时，判定该数据文件为恶意文件。

一些实施例中，还包括：

预处理模块35，用于对待检测数据文件进行预处理，查看待检测数据文件是否能够产生衍生数据，预处理包括但不限于格式识别和壳识别。

计算模块36，用于计算拆解后每个衍生数据的哈希值；

标记模块37，用于标记每层衍生数据对应的数据链；

判断模块34还用于判断同一条数据链中是否多层衍生数据对应的哈希值都相同。

本实施例的装置，可以用于执行图1、图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本发明电子设备一个实施例的结构示意图，可以实现本发明图1、图2所示实施例的流程，如图4所示，上述电子设备可以包括：壳体41、处理器42、存储器43、电路板44和电源电路45，其中，电路板44安置在壳体41围成的空间内部，处理器42和存储器43设置在电路板44上；电源电路45，用于为上述电子设备的各个电路或器件供电；存储器43用于存储可执行程序代码；处理器42通过读取存储器43中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述任一实施例所述的数据文件检测方法。

处理器42对上述步骤的具体执行过程以及处理器42通过运行可执行程序代码来进一步执行的步骤，可以参见本发明图1、图2所示实施例的描述，在此不再赘述。

该电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子设备。

第四方面，本发明的实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述任一实施例所述的数据文件检测方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

为了描述的方便，描述以上装置是以功能分为各种单元/模块分别描述。当然，在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据文件检测方法，其特征在于，应用于电子设备；所述方法包括：

获取待检测数据文件；

对所述待检测数据文件进行逐层拆解得到多层的衍生数据；

判断所述多层的衍生数据中是否存在数据链路循环；

若是，判定所述待检测数据文件为恶意文件。

2.根据权利要求1所述的数据文件检测方法，其特征在于，所述获取待检测数据文件后，还包括：

3.根据权利要求1所述的数据文件检测方法，其特征在于，所述对所述待检测数据文件进行逐层拆解得到多层的衍生数据，包括：

4.根据权利要求1所述的数据文件检测方法，其特征在于，所述判断所述多层的衍生数据中是否存在数据链路循环，包括：

计算拆解后每个衍生数据的哈希值；

标记每层衍生数据对应的数据链；

若是，判定多层的衍生数据中存在相同的衍生数据。

5.根据权利要求4所述的数据文件检测方法，其特征在于，所述标记衍生数据对应数据链，包括：

从所述待检测数据文件开始标记，标记每层衍生数据及每层衍生数据的所有父层数据。

6.一种数据文件检测装置，其特征在于，包括：

获取模块，用于获取待检测数据文件；

7.根据权利要求6所述的数据文件检测装置，其特征在于，还包括：

8.根据权利要求6所述的数据文件检测装置，其特征在于，还包括：

计算模块，用于计算拆解后每个衍生数据的哈希值；

标记模块，用于标记每层衍生数据对应的数据链；

9.一种电子设备，其特征在于，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述权利要求1～5任一项所述的数据文件检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述权利要求1～5任一项所述的数据文件检测方法。