CN113704761A

CN113704761A - 恶意文件的检测方法、装置、计算机设备及存储介质

Info

Publication number: CN113704761A
Application number: CN202111016033.1A
Authority: CN
Inventors: 余贤喆; 梁淑云; 殷钱安; 王启凡; 陶景龙; 徐�明; 刘胜; 马影; 周晓勇; 魏国富; 夏玉明
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-26

Abstract

本发明公开了一种恶意文件的检测方法、装置、计算机设备及存储介质，涉及信息技术领域，主要在于能够减轻恶意文件检测的计算压力。其中方法包括：获取待检测文件对应的调用接口序列；确定所述调用接口序列对应的特征序列，并根据所述特征序列，确定所述待检测文件对应的最小哈希签名；根据所述待检测文件对应的最小哈希签名，将所述待检测文件分配到不同哈希区间下相应的哈希桶中，其中，任意一个哈希区间下存在多个哈希桶；确定在所述不同哈希区间下与所述待检测文件分配到同一个哈希桶中的第一目标样本文件；根据所述第一目标样本文件对应的类别信息，判定所述待检测文件是否为恶意文件。本发明适用于恶意文件的检测。

Description

恶意文件的检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及信息技术领域，尤其是涉及一种恶意文件的检测方法、装置、计算机设备及存储介质。

背景技术

随着网络技术的发展以及个人计算机的普及，各种木马、蠕虫、病毒等危害用户正常使用、谋取非法利益的恶意文件及其变种日益增多，新出现的未知恶意文件不计其数。这些恶意文件有些可以窃取用户在设备上使用过的个人信息、密码、文档等，有些可以劫持用户设备形成僵尸网络，有些通过各种广告、订阅信息骚扰或诱导用户操作造成个人财产损失等等。因此，有效的识别恶意文件对于保证系统安全十分重要。

目前，通常采用机器学习或者深度学习的方式对恶意文件进行检测。然而，机器学习或者深度学习的方式需要预先构建检测模型，为了保证模型的检测精度，需要构造大量的样本特征进行训练，由此会导致模型的训练时间较长，计算压力比较大，进而会导致恶意文件的整个检测周期较长，影响恶意文件的检测效率。

发明内容

本发明提供了一种恶意文件的检测方法、装置、计算机设备及存储介质，主要在于能够减轻恶意文件检测的计算压力，提高恶意文件的检测效率，避免样本特征构建、模型训练等复杂流程。

根据本发明的第一个方面，提供一种恶意文件的检测方法，包括：

获取待检测文件对应的调用接口序列；

确定所述调用接口序列对应的特征序列，并根据所述特征序列，确定所述待检测文件对应的最小哈希签名；

根据所述待检测文件对应的最小哈希签名，将所述待检测文件分配到不同哈希区间下相应的哈希桶中，其中，任意一个哈希区间下存在多个哈希桶；

确定在所述不同哈希区间下与所述待检测文件分配到同一个哈希桶中的第一目标样本文件；

根据所述第一目标样本文件对应的类别信息，判定所述待检测文件是否为恶意文件。

根据本发明的第二个方面，提供一种恶意文件的检测装置，包括：

获取单元，用于获取待检测文件对应的调用接口序列；

第一确定单元，用于确定所述调用接口序列对应的特征序列，并根据所述特征序列，确定所述待检测文件对应的最小哈希签名；

分配单元，用于根据所述待检测文件对应的最小哈希签名，将所述待检测文件分配到不同哈希区间下相应的哈希桶中，其中，任意一个哈希区间下存在多个哈希桶；

第二确定单元，用于确定在所述不同哈希区间下与所述待检测文件分配到同一个哈希桶中的第一目标样本文件；

判定单元，用于根据所述第一目标样本文件对应的类别信息，判定所述待检测文件是否为恶意文件。

根据本发明的第三个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取待检测文件对应的调用接口序列；

根据本发明的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

获取待检测文件对应的调用接口序列；

本发明提供的一种恶意文件的检测方法、装置、计算机设备及存储介质，与目前采用机器学习或者深度学习对恶意文件进行检测的方式相比，本发明能够获取待检测文件对应的调用接口序列，并确定所述调用接口序列对应的特征序列，之后根据所述特征序列，确定所述待检测文件对应的最小哈希签名；接着根据所述待检测文件对应的最小哈希签名，将所述待检测文件分配到不同哈希区间下相应的哈希桶中，其中，任意一个哈希区间下存在多个哈希桶，与此同时，确定在所述不同哈希区间下与所述待检测文件分配到同一个哈希桶中的第一目标样本文件，最终根据所述第一目标样本文件对应的类别信息，判定所述待检测文件是否为恶意文件，由此通过将待检测文件分配到不同哈希区间下相应的哈希桶中，并确定在不同哈希区间下与待检测文件分配到同一个哈希桶中的第一目标样本文件，能够依据第一目标样本对应的类别信息，判定待检测文件是否为恶意文件，从而能够避免采用模型训练的方式预测待检测文件对应的类别信息，减轻了恶意文件检测的计算压力，简化了恶意文件的检测流程，缩短了恶意文件检测的整个周期，提高了恶意文件的检测效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例提供的一种恶意文件的检测方法流程图；

图2示出了本发明实施例提供的另一种恶意文件的检测方法流程图；

图3示出了本发明实施例提供的一种恶意文件的检测装置的结构示意图；

图4示出了本发明实施例提供的另一种恶意文件的检测装置的结构示意图；

图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

为了解决上述问题，本发明实施例提供了一种恶意文件的检测方法，如图1所示，所述方法包括：

101、获取待检测文件对应的调用接口序列。

其中，待检测文件为可能在用户电脑中植入木马、蠕虫等病毒的文件，调用接口序列为待检测文件运行时调用的系统API序列。为了克服现有技术中计算压力大，检测流程较为复杂的缺陷，本发明实施例通过将待检测文件分配到不同哈希区间下相应的哈希桶中，并确定在不同哈希区间下与待检测文件分配到同一个哈希桶中的第一目标样本文件，能够依据第一目标样本对应的类别信息，判定待检测文件是否为恶意文件，从而能够减轻恶意文件检测的计算压力，避免样本特征构造、模型训练等复杂流程。本发明实施例主要应用于对恶意文件进行检测的场景。本发明实施例的执行主体为能够对恶意文件进行检测的装置或者设备，具体可以设置在服务器一侧。

对于本发明实施例，为了判定待检测文件是否为恶意文件，需要获取待检测文件对应的调用接口序列，具体地，可以创建一个虚拟沙箱，将待检测文件放入沙箱中运行，获取待检测文件运行时所调用的系统API序列，即调用接口序列，该调用接口序列中不仅包括待检测文件调用的各个API接口，还包括各个API之间的调用顺序，例如，获取的检测文件对应的调用接口序列为(A，B，C，A，D)，其中，A，B，C和D为API接口，调用顺序依次为A，B，C，A，D。

102、确定所述调用接口序列对应的特征序列，并根据所述特征序列，确定所述待检测文件对应的最小哈希签名。

对于本发明实施例，在获取待检测文件对应的调用接口序列之后，需要对该调用接口序列进行预处理，以便经过预处理后的调用接口序列能够适用于本发明实施例中的算法，具体地，由于系统的API函数通常存在后缀，而这些后缀对于API函数的主要功能并没有影响，例如，针对windows API函数，后缀A和W，表示编码类型，后缀Ex表示有拓展功能，在本发明实施例中为了防止调用接口序列过于分散，将这些后缀剔除，并将具有功能相同的API接口视为同一个接口。进一步地，为了避免调用接口序列在后续计算过程中丢失时序特性，在此对调用接口序列进行Bi-gram处理，即针对调用接口序列中的任意一个API接口，将API接口及其之后的N个API接口进行合并，形成一个新的元素，例如，调用接口序列为(A,A,A,B,C,B,C,A,A,C,C,A)，当N＝2时，进行Bi-gram处理后得到的调用接口序列为(AA,AA,AB,BC,CB,BC,CA,AA,AC,CC,CA)，之后再进行去重处理，得到{AA,AB,BC,CB,CA,AC,CC}，将该序列作为经过预处理后的调用接口序列。

进一步地，确定经过预处理后的调用接口序列对应的特征序列，以便根据该特征序列，确定待检测文件对应的最小哈希签名，具体地，将预处理后的调用接口序列与序列全集进行对比，如果调用接口序列中存在序列全集中的元素，将特征值设定为1；如果调用接口序列中不存在序列全集中的元素，将特征值设定为0，其中，序列全集是根据文件实际运行时所有可能的接口调用情况确定的，如下表所示，预处理后的调用接口序列{AB,AA,BC}，序列全集为{AA,CA,AB,BC,CB,AC}，S为调用接口序列对应的特征序列。

表1

序列全集	S
		AA	1
CA	0
		AB	1
BC	1
		CB	0
AC	0

在进行恶意文件检测的过程中，需要计算待检测文件与已知类别信息的样本文件的相似度，进而找到与待检测文件相近的样本文件，根据与待检测文件相近的样本文件对应的类别信息，来判定待检测文件是否为恶意文件，然而，由于预设样本库中存在大量样本文件，如果直接计算两个文件之间的相似度，计算量过大，且耗时较长，因此在本发明实施例中采用局部敏感哈希算法预先将大量样本文件分配到不同哈希区间下相应的哈希桶中，具体分配样本文件的过程，如步骤201所述，在判定待检测文件是否为恶意文件时，根据待检测文件对应的特征序列，利用局部敏感哈希算法计算待检测文件对应的最小哈希签名，并基于该最小哈希签名将待检测文件分配到不同哈希区间下相应的哈希桶中，基于局部敏感哈希算法的特性，分配到同一个哈希桶中的文件有很大概率是相似的，因此可以抽取不同哈希区间下与待检测文件分配到同一个哈希桶中的第一目标样本文件，根据该第一目标样本文件对应的类别信息，判定待检测文件是否为恶意文件，由此能够达到降低计算量的目的。

具体地，在根据特征序列，利用局部敏感哈希算法计算待检测文件对应的最小哈希签名时，需要获取特征序列在不同哈希函数下的哈希值，进而根据不同哈希函数下的哈希值，确定待检测文件对应的最小哈希签名，该哈希函数需要满足如下条件：

若d(x,y)≤R，则h(x)＝h(y)的概率不小于P₁；

若d(x,y)≥cR，则h(x)＝h(y)的概率不小于P₂；

其中，d(x,y)是高维空间的特征序列x与特征序列y之间的距离，h为哈希函数，h(x)和h(y)是对特征序列x和y的哈希变换，c为常数，同时需要满足c>1且P_1>P₂，其中，根据相近样本文件被查到的准确率，预先设定概率值P₁和P₂，要求的相近样本文件被查到的准确率越高，概率值P₁越大，P₂越小，相反，要求的相近样本文件被查找到的准确率越低，概率值P₁越小，P₂越大，但是要同时保证P_1>P₂，此外，哈希函数的数量可以是多个，哈希函数的数量越多，相似样本文件被查找的准确度越高，但是计算量会越大，因此可以在准确度和计算量之间找一个平衡点，进而确定哈希函数的数量。

进一步地，在确定哈希函数之后，确定特征序列中各个分量特征中的目标分量特征，计算目标分量特征在不同哈希函数下的哈希值，当存在多个目标分量特征时，确定在不同哈希函数下的最小哈希值，根据不同哈希函数下的最小哈希值，确定待检测文件对应的最小哈希签名，针对最小哈希签名的详细计算过程，见步骤202和203。

103、根据所述待检测文件对应的最小哈希签名，将所述待检测文件分配到不同哈希区间下相应的哈希桶中。

其中，任意一个哈希区间下存在多个哈希桶，哈希区间和哈希桶的数量可以根据实际的业务需求进行设定。对于本发明实施例，为了判定待检文件是否为恶意文件，预先将已知类别信息的大量样本文件分配到不同哈希区间下相应的哈希桶中，这样在判定待检测文件是否为恶意文件时，可以利用待检测文件对应的最小哈希签名，将待检测文件分配到不同哈希区间下相应的哈希桶中，将不同哈希区间下与待检测文件处于同一个哈希桶中的样本文件确定为与待检测文件相近的文件，进而利用与待检测文件相近的样本文件对应的类别信息，判定待检测文件是否为恶意文件。

具体地，在分配待检测文件时，最小哈希签名中的各个分量签名对应不同的哈希区间，如表2所示，最小哈希签名为(1,3,0,0,2,1)，该最小哈希签名中包含6个分量签名，前3位分量签名组成第一个区间签名，第一个区间签名对应哈希区间1，后3位分量签名组成第二个区间签名，第二个区间签名对应哈希区间2。进一步地，根据待检测文件对应的第一个区间签名，将待检测文件分配到哈希区间1下相应的哈希桶中，同时根据待检测文件对应的最小哈希签名中的后3位分量签名，将待检测文件分配到哈希区间2下相应的哈希桶中，如表3所示。

表2

表3

由表3可知，哈希区间1和哈希区间2均包括6个哈希桶，每个哈希桶对应不同的索引，哈希桶的数量和哈希桶的索引是根据不同哈希区间下各个分量签名的所有排列组合情况确定的，由于前3位分量签名组成的第一个区间签名130与索引号130相匹配，因此将待检测文件分配到哈希区间1下索引号为130的哈希桶中，同理由于后3位分量签名组成的第二个区间签名021与索引号021相匹配，因此将待检测文件分配到哈希区间2下索引号为021的哈希桶中。本发明实施例按照上述方式能够将待检测文件分配到不同哈希区间下相应的哈希桶中，进而能够找到在不同哈希区间下与待检测文件分配到不同一个哈希桶中的第一目标样本文件，以便根据第一目标样本文件对应的类别信息，判定待检测文件是否为恶意文件。

104、确定在所述不同哈希区间下与所述待检测文件分配到同一个哈希桶中的第一目标样本文件。

对于本发明实施例，在将待检测文件分配到不同哈希区间下相应的哈希桶中之后，为了找到与待检测文件相近的样本文件，需要获取在不同哈希区间下与待检测文件分配到同一个哈希桶中的第一目标样本文件，如表3所示，在哈希区间1下与待检测文件分配到同一个哈希桶中的是样本文件2和样本文件3，在哈希区间2下与待检测文件分配到同一个哈希桶中的是样本文件3和样本文件5，由此能够确定样本文件2、样本文件3和样本文件5是与待检测文件相近的文件，即第一目标样本文件，进而能够利用第一样本文件对应的类别信息，判定待检测文件是否为恶意文件。

105、根据所述第一目标样本文件对应的类别信息，判定所述待检测文件是否为恶意文件。

其中，第一目标样本文件对应的类别信息包括恶意文件和正常文件，该正常文件包括各种类型的软件文件和系统文件。对于本发明实施例，由于第一目标样本文件是与待检测文件相近的样本文件，因此可以根据第一目标样本文件对应的类别信息，推测待检测文件对应的类别信息，即判定待检测文件是否为恶意文件，具体地，可以根据第一目标样本文件对应的最小哈希签名和待检测文件对应的最小哈希签名，分别计算第一目标样本文件与待检测文件之间的相似度，将相似度最高的第一目标样本文件对应的类别信息，确定为待检测文件对应的类别信息，例如，第一目标样本文件包括样本文件A和样本文件B，样本文件A为恶意文件，样本文件B为正常的软件文件，分别计算样本文件A和样本文件B与待检测文件之间的相似度，如果样本文件A与待检测文件之间的相似度高于样本文件B与待检测文件之间的相似度，则可以根据样本文件A对应的类别信息，推测待检测文件对应的类别信息，由于样本文件A是恶意文件，因此可以推测待检测文件也是恶意文件。

具体地，在计算第一目标样本文件与待检测文件之间的相似度的过程中，可以根据第一目标样本文件对应的最小哈希签名和待检测文件对应的最小哈希签名，计算第一目标样本文件与待检测文件之间的汉明距离，该汉明距离越大，第一目标样本文件与待检测文件之间的相似度越小，该汉明距离越小，第一目标样本文件与待检测文件之间的相似度越大。由此通过计算第一目标样本文件与待检测文件之间的相似度，能够确定与待检测最相近的样本文件，进而根据该最相近的样本文件对应的类别信息，判定待检测文件是否为恶意文件。

在具体应用场景中，还可以根据所有第一目标样本文件对应的类别信息，统计不同类别下的第一目标样本文件的分布情况，进而依据第一目标样本文件的分布情况，判定待检测文件是否为恶意文件，基于此，步骤105具体包括：根据所述第一目标文件对应的类别信息，确定在不同类别下的样本数量；根据所述不同类别下的样本数量，确定最大样本数量对应的类别信息；若所述最大样本数量对应的类别信息为恶意文件，则确定所述待检测文件为恶意文件。

例如，第一目标样本文件共有100件，其中有80件是恶意样本文件，有20件是正常文件，由于在100件第一目标样本文件中绝大多数都是恶意文件，因此可以推测待检测文件是恶意文件。在本发明实施例中，除了可以推测待检测文件是否为恶意文件，还可以推测待检测文件的具体类型，例如，第一目标样本文件共有100件，其中有20件是恶意样本文件，有50件是A类型的软件文件，有30件是B类型的软件文件，由于A类型的软件文件对应的样本量最大，因此可以推测待检测文件不是恶意文件，具体是属于A类型的软件文件。

本发明实施例提供的一种恶意文件的检测方法，与目前采用机器学习或者深度学习对恶意文件进行检测的方式相比，本发明能够获取待检测文件对应的调用接口序列，并确定所述调用接口序列对应的特征序列，之后根据所述特征序列，确定所述待检测文件对应的最小哈希签名；接着根据所述待检测文件对应的最小哈希签名，将所述待检测文件分配到不同哈希区间下相应的哈希桶中，其中，任意一个哈希区间下存在多个哈希桶，与此同时，确定在所述不同哈希区间下与所述待检测文件分配到同一个哈希桶中的第一目标样本文件，最终根据所述第一目标样本文件对应的类别信息，判定所述待检测文件是否为恶意文件，由此通过将待检测文件分配到不同哈希区间下相应的哈希桶中，并确定在不同哈希区间下与待检测文件分配到同一个哈希桶中的第一目标样本文件，能够依据第一目标样本对应的类别信息，判定待检测文件是否为恶意文件，从而能够避免采用模型训练的方式预测待检测文件对应的类别信息，减轻了恶意文件检测的计算压力，简化了恶意文件的检测流程，缩短了恶意文件检测的整个周期，提高了恶意文件的检测效率。

进一步的，为了更好的说明上述恶意文件的检测过程，作为对上述实施例的细化和扩展，本发明实施例提供了另一种恶意文件的检测方法，如图2所示，所述方法包括：

201、获取待检测文件对应的调用接口序列。

对于本发明实施例，在判定待检测文件是否为恶意文件之前，需要将样本文件库中的大量样本文件分配到不同哈希区间下相应的哈希桶中，针对分配样本文件的具体过程，作为一种可选实施方式，所述方法包括：获取已知类别信息的样本文件对应的样本调用接口序列；确定所述样本调用接口序列对应的样本特征序列，并根据所述样本特征序列，确定所述样本文件对应的最小哈希签名；根据所述样本文件对应的最小哈希签名，将所述样本文件分配到不同哈希区间下相应的哈希桶中。其中，该样本文件包括恶意的样本文件和正常的样本文件，该正常的样本文件中包括各种类型的软件文件、系统文件等。

具体地，将样本文件放入创建的虚拟沙箱中，获取样本文件运行时调用的系统API序列，即样本调用接口序列，以便根据该样本调用接口序列，将样本文件分配到不同哈希区间下相应的哈希桶中。例如，样本文件A对应的样本调用接口序列为(A,A,A,B,C,B,C)，经过预处理的样本调用接口序列为(AA,AB,BC,CB)，将经过预处理后的样本调用接口序列与样本序列全集进行对比，确定样本文件A对应的样本序列特征为(1,0,1,1,0,0,1,0)，进一步地，根据样本序列特征，利用局部敏感哈希算法计算样本特征序列在不同哈希函数下的最小样本哈希值，将该最小样本哈希值确定为样本文件A对应的最小哈希签名，之后根据该最小哈希签名，确定样本文件A在不同哈希区间下的区间签名，基于该区间签名，将样本文件A分配到不同哈希区间下相应的哈希桶中，针对最小哈希签名的详细计算过程，见步骤202和203。由此按照上述方式能够将样本文件库中的所有样本文件分配到不同哈希区间下相应的哈希桶中，进而作为确定待检测文件对应的类别信息的依据。

进一步地，当需要判定待检测文件是否为恶意文件时，获取待检测文件对应的调用接口序列，以便根据该调用接口序列，计算待检测文件对应的最小哈希签名，针对获取调用接口序列的具体过程与步骤101完全相同，在此不再赘述。

202、确定所述调用接口序列对应的特征序列，并根据所述特征序列中的各个分量特征，确定所述各个分量特征中特征值为1的目标分量特征。

对于本发明实施例，按照步骤102所述的方式能够确定调用接口序列对应的特征序列S，之后遍历该特征序列中各个分量特征对应的特征值，将特征值为1的分量特征确定为目标分量特征，如表4所示，第0行、第2行和第3行的分量特征对应的特征值为1，因此将第0行、第2行和第3行对应的分量特征确定为目标分量特征，之后计算目标分量特征在不同哈希函数下的哈希值。

表4

203、根据所述目标分量特征对应的位置信息，计算所述目标分量特征在不同哈希函数下的哈希值，并根据所述目标分量特征在所述不同哈希函数下的哈希值，确定所述待检测文件对应的最小哈希签名。

其中，位置信息具体可以为目标分量特征对应的行号。对于本发明实施例，可以将目标分量特征对应的行号输入预先选定的多个哈希函数中，计算目标分量特征在不同哈希函数下的哈希值，如表4所示，分别计算目标分量特征在哈希函数h1和h2下的哈希值，该哈希函数需要满足步骤102所述的要求，目标分量特征经过哈希函数h1和h2的映射后，目标分量特征在哈希函数h1下的哈希值分别为1，3和2，目标分量特征在哈希函数h2下的哈希值分别为4，2和0。进一步，根据目标分量特征在不同哈希函数下的哈希值，确定待检测文件对应的最小哈希签名，所述方法具体包括：根据所述目标分量特征在所述不同哈希函数下的哈希值，确定所述特征序列在所述不同哈希函数下的最小哈希值；将所述特征序列在所述不同哈希函数下的最小哈希值确定为所述待检测文件对应的最小哈希签名。

如表4所示，目标分量特征在哈希函数h1下的哈希值分别为1，3和2，目标分量特征在哈希函数h2下的哈希值分别为4，2和0，由此能够确定特征序列S在哈希函数h1下的最小哈希值为1，特征序列S在哈希函数h2下的最小哈希值为0，进而能够确定待检测文件对应的最小哈希签名为(1,0)。按照上述方式能够确定待检测文件对应的最小哈希签名，以便根据该最小哈希签名将待检测文件分配到不同哈希区间下相应的哈希桶中。

204、根据所述待检测文件对应的最小哈希签名，将所述待检测文件分配到不同哈希区间下相应的哈希桶中。

其中，任意一个哈希区间下存在多个哈希桶。对于本发明实施例，为了将待检测文件分配到不同哈希区间下相应的哈希桶中，步骤204具体包括：确定所述待检测文件对应的最小哈希签名在所述不同哈希区间下的区间签名；确定在所述不同哈希区间下与所述区间签名相匹配的目标哈希桶，并将所述待检测文件分配到不同哈希区间下的目标哈希桶中。

例如，待检测文件对应的最小哈希签名为(1,0,0,1,0,1,0,0)，一共有两个哈希区间，分别是哈希区间1和哈希区间2，哈希区间1和哈希区间2下均存在多个哈希桶，前4个分量签名组成第一个区间签名(1,0,0,1)，其对应哈希区间1，后4个分量签名组成第二区间签名(0,1,0,0)，其对应哈希区间2，根据第一个签名区间(1,0,0,1)，找到哈希区间1下索引号为1001的哈希桶，并将待检测文件分配到索引号为1001的哈希桶中，同理找到哈希区间2下索引号为0100的哈希桶，并将待检测文件分配到索引号为0100的哈希桶中。由此按照上述方式能够将待检测文件分配到不同哈希区间下的哈希桶中。

205、确定在所述不同哈希区间下与所述待检测文件分配到同一个哈希桶中的第一目标样本文件。

对于本发明实施例，由于与待检测文件分配到同一个哈希桶中的第一目标样本文件有很大概率是与待检测文件相似的，但是无法保证第一目标样本文件与待检测文件具有很高的相似度，为了提高恶意文件的检测精度，需要从第一目标样本中筛选出与待检测文件相似度较高的第二目标样本文件，进而利用第二目标样本文件对应的类别信息，判定待检测文件是否为恶意文件。在本发明实施例中给出了两种筛选第二目标样本文件的实施方式，针对第一种实施方式，所述方法包括：根据所述待检测文件对应的最小哈希签名和所述第一目标样本文件对应的最小哈希签名，计算所述待检测文件与所述第一目标样本文件之间的汉明距离；基于所述汉明距离，对所述第一目标样本文件进行排序，根据排序结果筛选排序名次处于预设范围内的第一目标样本文件，并将所述排序名次处于预设范围内的第一目标样本文件确定为第二目标样本文件。其中，预设范围可以根据实际的业务需求进行设定。

例如，待检测文件对应的最小哈希签名为(1,0,0,1,0,1,0,0)，第一目标样本文件A对应的最小哈希签名为(0,1,0,1,0,0,0,0)，第一目标样本文件B对应的最小哈希签名为(0,1,1,0,0,1,0,0)，由于待检测文件对应的最小哈希签名与第一目标样本文件A对应的最小哈希签名中有三个分量签名不同，因此待检测文件与第一目标样本文件A之间的汉明距离为3，同理由于待检测文件对应的最小哈希签名与第一目标样本文件B对应的最小哈希签名中有四个分量签名不同，因此待检测文件与第一目标样本文件B之间的汉明距离为4。

由此按照上述方式能够计算出待检测文件与第一目标样本文件之间的汉明距离，汉明距离越大，待检测文件与第一目标样本文件之间的相似度越低，相反汉明距离越小，待检测文件与第一目标样本文件之间的相似度越高，在计算出汉明距离之后，根据该汉明距离，由小到大对第一目标样本文件进行排序，之后筛选排序名次处于预设范围内的第一目标样本文件，并将排序名次处于预设范围内的第一目标样本文件确定为第二目标样本文件，例如，将排序名次处于前10名的第一目标样本文件确定为第二目标样本文件。除此之外，在计算出待检测文件与第一目标样本文件之间的汉明距离之后，还可以从第一目标样本文件中筛选出汉明距离小于预设距离的第一目标样本文件，并将汉明距离小于预设距离的第一目标样本文件确定为第二目标样本文件。

在具体应用场景中，除了通过计算汉明距离从第一目标样本中筛选出与待检测文件相似度较高的第二目标样本文件，还可以利用随机投影森林算法，确定与待检测文件处于同一叶子节点内的第三目标样本文件，之后取第三目标样本文件与第一目标样本文件的交集，确定第二目标样本文件，基于此，所述方法包括：利用预设随机投影森林算法确定所述待检测文件所属的叶子节点；确定所述叶子节点内的第三目标样本文件，取所述第三目标样本文件与所述第一目标样本文件之间的交集，确定第二目标样本文件。

具体地，需要预先将样本文件库中的大量样本文件划分到相应的叶子节点下，针对该过程，首先将大量样本文件对应的特征序列看作成多维空间中的样本向量，随意选取一个从原点出发的样本向量，并确定该样本向量对应的垂直向量，利用该垂直向量将多维空间划分两个部分(两个叶子节点)，将样本向量(样本文件)划分到这两个叶子节点中，在具体划分的过程中，先将各个样本向量与该垂直向量相乘，将相乘结果大于0的样本向量划分给其中一个叶子节点，将相乘结果小于0的样本向量划分给另一个叶子节点，由于当前每个叶子节点下的样本向量较多，因此继续划分，再次随机选取一个从原点出发的样本向量，并确定该样本向量对应的垂直向量，利用该垂直向量再次进行划分，此时多维空间已经被划分成4个部分(四个叶子节点)，通过将样本向量与该垂直向量进行点积，能够将所有的样本向量划分到这4个叶子节点下面，以此类推，直至每个叶子节点下的样本数量达到预设数量，停止划分，由此能够利用随机投影森林算法将大量样本文件划分到相应的叶子节点下面，在判定待检测文件是否为恶意文件时，将该待检测文件对应的特征序列与每次用于划分的垂直向量相乘，根据相乘结果找到待检测文件所属的目标叶子节点，进一步地，提取出目标叶子节点下的所有样本文件，将其作为第三目标样本文件，之后取第三目标样本文件与第一目标样本文件之间的交集，将两者的交集确定为与待检测文件相似度较高的第二目标样本文件。

206、根据所述第一目标样本文件对应的类别信息，判定所述待检测文件是否为恶意文件。

对于本发明实施例，当筛选出和待检测样本文件相似度较高的第二目标样本文件之后，可以根据第二目标样本文件对应的类别信息，推测待检测文件是否为恶意文件。具体地，可以根据第二目标样本文件对应的最小哈希签名和待检测文件对应的最小哈希签名，分别计算第二目标样本文件与待检测文件之间的汉明距离，将最小汉明距离的第二目标样本文件对应的类别信息，确定为待检测文件对应的类别信息，例如，最小汉明距离的第二目标样本文件A是恶意文件，由于待检测文件与第二目标样本文件A最相近，因此确定待检测文件也是恶意文件。

在具体应用场景中，还可以根据所有第二目标样本文件对应的类别信息，确定在不同类别下的样本数量，并根据不同类别下的样本数量，确定最大样本数量对应的类别信息，如果最大样本数量对应的类别信息为恶意文件，则确定待检测文件是恶意文件。例如，第二目标样本文件共有50件，其中有40件是恶意样本文件，有10件是正常的软件文件，由于在50件第二目标样本文件中绝大多数都是恶意文件，因此可以推测待检测文件是恶意文件。

本发明实施例提供的另一种恶意文件的检测方法，与目前采用机器学习或者深度学习对恶意文件进行检测的方式相比，本发明能够获取待检测文件对应的调用接口序列，并确定所述调用接口序列对应的特征序列，之后根据所述特征序列，确定所述待检测文件对应的最小哈希签名；接着根据所述待检测文件对应的最小哈希签名，将所述待检测文件分配到不同哈希区间下相应的哈希桶中，其中，任意一个哈希区间下存在多个哈希桶，与此同时，确定在所述不同哈希区间下与所述待检测文件分配到同一个哈希桶中的第一目标样本文件，最终根据所述第一目标样本文件对应的类别信息，判定所述待检测文件是否为恶意文件，由此通过将待检测文件分配到不同哈希区间下相应的哈希桶中，并确定在不同哈希区间下与待检测文件分配到同一个哈希桶中的第一目标样本文件，能够依据第一目标样本对应的类别信息，判定待检测文件是否为恶意文件，从而能够避免采用模型训练的方式预测待检测文件对应的类别信息，减轻了恶意文件检测的计算压力，简化了恶意文件的检测流程，缩短了恶意文件检测的整个周期，提高了恶意文件的检测效率。

进一步地，作为图1的具体实现，本发明实施例提供了一种恶意文件的检测装置，如图3所示，所述装置包括：获取单元31、第一确定单元32、分配单元33、第二确定单元34和判定单元35。

所述获取单元31，可以用于获取待检测文件对应的调用接口序列。

所述第一确定单元32，可以用于确定所述调用接口序列对应的特征序列，并根据所述特征序列，确定所述待检测文件对应的最小哈希签名。

所述分配单元33，可以用于根据所述待检测文件对应的最小哈希签名，将所述待检测文件分配到不同哈希区间下相应的哈希桶中，其中，任意一个哈希区间下存在多个哈希桶。

所述第二确定单元34，可以用于确定在所述不同哈希区间下与所述待检测文件分配到同一个哈希桶中的第一目标样本文件。

所述判定单元35，可以用于根据所述第一目标样本文件对应的类别信息，判定所述待检测文件是否为恶意文件。

在具体应用场景中，为了确定所述待检测文件对应的最小哈希签名，所述第一确定单元32(如图4所示)，包括：第一确定模块321和计算模块322。

所述第一确定模块321，可以用于根据所述特征序列中的各个分量特征，确定所述各个分量特征中特征值为1的目标分量特征。

所述计算模块322，可以用于根据所述目标分量特征对应的位置信息，计算所述目标分量特征在不同哈希函数下的哈希值。

所述第一确定模块321，还可以用于根据所述目标分量特征在所述不同哈希函数下的哈希值，确定所述待检测文件对应的最小哈希签名。

在具体应用场景中，为了将所述待检测文件分配到不同哈希区间下相应的哈希桶中，分配单元33(如图4所示)，包括：第二确定模块331和分配模块332。

所述第二确定模块331，可以用于确定所述待检测文件对应的最小哈希签名在所述不同哈希区间下的区间签名。

所述分配模块332，可以用于确定在所述不同哈希区间下与所述区间签名相匹配的目标哈希桶，并将所述待检测文件分配到不同哈希区间下的目标哈希桶中。

在具体应用场景中，为了确定预定与待检测文件相似度较高的第二目标样本文件，如图4所示，所述装置还包括：计算单元36。

所述计算单元36，可以用于根据所述待检测文件对应的最小哈希签名和所述第一目标样本文件对应的最小哈希签名，计算所述待检测文件与所述第一目标样本文件之间的汉明距离。

所述第二确定单元34，还可以用于基于所述汉明距离，对所述第一目标样本文件进行排序，根据排序结果筛选排序名次处于预设范围内的第一目标样本文件，并将所述排序名次处于预设范围内的第一目标样本文件确定为第二目标样本文件；

所述判定单元35，具体可以用于根据所述第二目标样本对应的类别信息，判定所述待检测文件是否为恶意文件。

在具体应用场景中，为了确定预定与待检测文件相似度较高的第二目标样本文件，所述第二确定单元34，还可以用于利用预设随机投影森林算法确定所述待检测文件所属的叶子节点。

所述第二确定单元34，还可以用于确定所述叶子节点内的第三目标样本文件，取所述第三目标样本文件与所述第一目标样本文件之间的交集，确定第二目标样本文件。

在具体应用场景中，为了判定待检测文件是否为恶意文件，所述判定单元35(如图4所示)，包括：第三确定模块351和第四确定模块352。

所述第三确定模块351，可以用于根据所述第一目标文件对应的类别信息，确定在不同类别下的样本数量。

所述第三确定模块351，还可以用于根据所述不同类别下的样本数量，确定最大样本数量对应的类别信息。

所述第四确定模块352，可以用于若所述最大样本数量对应的类别信息为恶意文件，则确定所述待检测文件为恶意文件。

在具体应用场景中，为了将样本文件分配到不同哈希区间下相应的哈希桶中，所述获取单元31，还可以用于获取已知类别信息的样本文件对应的样本调用接口序列。

所述第一确定单元32，还可以用于确定所述样本调用接口序列对应的样本特征序列，并根据所述样本特征序列，确定所述样本文件对应的最小哈希签名。

所述分配单元33，还可以用于根据所述样本文件对应的最小哈希签名，将所述样本文件分配到不同哈希区间下相应的哈希桶中。

需要说明的是，本发明实施例提供的一种恶意文件的检测装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：获取待检测文件对应的调用接口序列；确定所述调用接口序列对应的特征序列，并根据所述特征序列，确定所述待检测文件对应的最小哈希签名；根据所述待检测文件对应的最小哈希签名，将所述待检测文件分配到不同哈希区间下相应的哈希桶中，其中，任意一个哈希区间下存在多个哈希桶；确定在所述不同哈希区间下与所述待检测文件分配到同一个哈希桶中的第一目标样本文件；根据所述第一目标样本文件对应的类别信息，判定所述待检测文件是否为恶意文件。

基于上述如图1所示方法和如图3所示装置的实施例，本发明实施例还提供了一种计算机设备的实体结构图，如图5所示，该计算机设备包括：处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序，其中存储器42和处理器41均设置在总线43上。所述处理器41执行所述程序时实现以下步骤：获取待检测文件对应的调用接口序列；确定所述调用接口序列对应的特征序列，并根据所述特征序列，确定所述待检测文件对应的最小哈希签名；根据所述待检测文件对应的最小哈希签名，将所述待检测文件分配到不同哈希区间下相应的哈希桶中，其中，任意一个哈希区间下存在多个哈希桶；确定在所述不同哈希区间下与所述待检测文件分配到同一个哈希桶中的第一目标样本文件；根据所述第一目标样本文件对应的类别信息，判定所述待检测文件是否为恶意文件。

通过本发明的技术方案，本方明能够将待检测文件分配到不同哈希区间下相应的哈希桶中，并确定在不同哈希区间下与待检测文件分配到同一个哈希桶中的第一目标样本文件，依据第一目标样本对应的类别信息，判定待检测文件是否为恶意文件，从而能够避免采用模型训练的方式预测待检测文件对应的类别信息，减轻了恶意文件检测的计算压力，简化了恶意文件的检测流程，缩短了恶意文件检测的整个周期，提高了恶意文件的检测效率。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种恶意文件的检测方法，其特征在于，包括：

获取待检测文件对应的调用接口序列；

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征序列，确定所述待检测文件对应的最小哈希签名，包括：

根据所述特征序列中的各个分量特征，确定所述各个分量特征中特征值为1的目标分量特征；

根据所述目标分量特征对应的位置信息，计算所述目标分量特征在不同哈希函数下的哈希值；

根据所述目标分量特征在所述不同哈希函数下的哈希值，确定所述待检测文件对应的最小哈希签名。

3.根据权利要求1所述的方法，其特征在于，所述根据所述待检测文件对应的最小哈希签名，将所述待检测文件分配到不同哈希区间下相应的哈希桶中，包括：

确定所述待检测文件对应的最小哈希签名在所述不同哈希区间下的区间签名；

确定在所述不同哈希区间下与所述区间签名相匹配的目标哈希桶，并将所述待检测文件分配到不同哈希区间下的目标哈希桶中。

4.根据权利要求1所述的方法，其特征在于，在所述确定在所述不同哈希区间下与所述待检测文件分配到同一个哈希桶中的第一目标样本文件之后，所述方法还包括：

根据所述待检测文件对应的最小哈希签名和所述第一目标样本文件对应的最小哈希签名，计算所述待检测文件与所述第一目标样本文件之间的汉明距离；

基于所述汉明距离，对所述第一目标样本文件进行排序，并将所述排序名次处于预设范围内的第一目标样本文件确定为第二目标样本文件；

所述根据所述第一目标样本文件对应的类别信息，判定所述待检测文件是否为恶意文件，包括：

根据所述第二目标样本对应的类别信息，判定所述待检测文件是否为恶意文件。

5.根据权利要求1所述的方法，其特征在于，在所述确定在所述不同哈希区间下与所述待检测文件分配到同一个哈希桶中的第一目标样本文件之后，所述方法还包括：

利用预设随机投影森林算法确定所述待检测文件所属的叶子节点；

确定所述叶子节点内的第三目标样本文件，取所述第三目标样本文件与所述第一目标样本文件之间的交集，确定第二目标样本文件；

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一目标样本文件对应的类别信息，判定所述待检测文件是否为恶意文件，包括：

根据所述第一目标文件对应的类别信息，确定在不同类别下的样本数量；

根据所述不同类别下的样本数量，确定最大样本数量对应的类别信息；

若所述最大样本数量对应的类别信息为恶意文件，则确定所述待检测文件为恶意文件。

7.根据权利要求1所述的方法，其特征在于，在所述获取待检测文件对应的调用接口序列之前，所述方法还包括：

获取已知类别信息的样本文件对应的样本调用接口序列；

确定所述样本调用接口序列对应的样本特征序列，并根据所述样本特征序列，确定所述样本文件对应的最小哈希签名；

根据所述样本文件对应的最小哈希签名，将所述样本文件分配到不同哈希区间下相应的哈希桶中。

8.一种恶意文件的检测装置，其特征在于，包括：

获取单元，用于获取待检测文件对应的调用接口序列；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。