CN116956296B

CN116956296B - 一种文件的动态检测方法、电子设备及存储介质

Info

Publication number: CN116956296B
Application number: CN202311216835.6A
Authority: CN
Inventors: 奚乾悦; 辛颖; 肖新光
Original assignee: Beijing Antiy Network Technology Co Ltd
Current assignee: Beijing Antiy Network Technology Co Ltd
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-12-01
Anticipated expiration: 2043-09-20
Also published as: CN116956296A

Abstract

本发明提供了一种文件的动态检测方法、电子设备及存储介质，涉及文件的动态检测领域，所述方法包括：获取若干样本文件，以得到样本文件集B；获取B中每一样本文件对应的行为特征向量，以得到B对应的第一行为特征向量集FB；获取待检测文件D对应的监控周期T0；依次获取D在h个相邻的监控时间点分别对应的行为特征向量，以得到第二行为特征向量集FD；根据FD与FB，得到目标相似度集β³；若β³ _i＞β³ _i+1；则将D确定为非恶意文件，并终止对D的监控；若β³ _i＜β³ _i+1，则将当前的监控周期T0的长度调整为(1+1/h×∑^h _e=1β³ _e)×CT0，并继续对D进行监控；从而提高恶意文件检测结果的准确性。

Description

一种文件的动态检测方法、电子设备及存储介质

技术领域

本发明涉及文件的动态检测领域，特别是涉及一种文件的动态检测方法、电子设备及存储介质。

背景技术

目前，随着网络技术的快速发展，各种类型的文件在网络中肆意传播，在传播的众多文件中存在有恶意文件，即病毒文件；通常确定未知文件是否为恶意文件的方式是，通过特征对比，或者监控未知文件在预设时间段内的行为，来判断未知文件是否为恶意文件；但是，恶意文件通常会伪装自身的特征，以及在预设时间段内不执行较多的恶意行为，导致恶意文件检测结果不准确。

发明内容

基于此，本发明提供一种文件的动态检测方法，以解决恶意文件检测结果不准确的技术问题。

根据本申请的第一方面，提供了一种文件的动态检测方法，所述方法包括以下步骤：

获取若干样本文件，以得到样本文件集B=(B₁，B₂，…，B_x，…，B_y)，x=1，2，…，y；其中，B_x为第x个样本文件，y为样本文件的数量；每一样本文件均为已知的恶意文件；

获取B中每一样本文件对应的行为特征向量，以得到B对应的第一行为特征向量集FB=(FB₁，FB₂，…，FB_x，…，FB_y)；其中，FB_x为B_x对应的行为特征向量；行为特征向量根据对应的样本文件的所执行的若干恶意行为得到；

获取待检测文件D对应的监控周期T0；其中，T0内预设有若干监控时间点，任意两个相邻的监控时间点的时间间隔相等；

每当到达任意监控时间点，则依次获取D在当前监控时间点以及之前的h-1个相邻的监控时间点分别对应的行为特征向量，以得到第二行为特征向量集FD=(FD₁，FD₂，…，FD_e，…，FD_h)，e=1，2，…，h；其中，FD_e为D在h个相邻的监控时间点中第e个监控时间点对应的行为特征向量，FD_h为D在当前的监控时间点对应的行为特征向量；FD_e根据D在T0的开始时间至FD_e对应的监控时间点之间所执行的所有恶意行为得到；

根据FD与FB，得到目标相似度集β³=(β³ ₁，β³ ₂，…，β³ _e，…，β³ _h)；其中，β³ _e为FD_e与FB中每一行为特征向量的相似度中的最大相似度；

若β³中所有的最大相似度满足β³ _i＞β³ _i+1，i=1，2，…，h-1；则将D确定为非恶意文件，并终止对D的监控；

若β³中所有的最大相似度满足β³ _i＜β³ _i+1，则将当前的监控周期T0的长度调整为(1+1/h×∑^h _e=1β³ _e)×CT0，并继续对D进行监控；CT0为T0当前的长度。

可选的，获取B中每一样本文件对应的行为特征向量，以得到B对应的第一行为特征向量集FB，包括：

通过预设的文件检测方法，获取将B_x确定为恶意文件的过程中B_x所执行的所有恶意行为，以得到B_x对应的恶意行为集F’B=(F’B₁，F’B₂，…，F’B_e1，…，F’B_h1)，e1=1，2，…，h1；其中，F’B_e1为将B_x确定为恶意文件的过程中B_x所执行的第e1个恶意行为，h1为将B_x确定为恶意文件的过程中B_x所执行的恶意行为的数量；

根据F’B确定B中每一样本文件的行为特征向量，以得到FB；其中，B_x对应的行为特征向量FB_x=(FB_x，1，FB_x，2，…，FB_x，e1，…，FB_x，h1)；FB_x，e1为F’B_e1对应的特征值。

可选的，所述监控周期T0的起始时间点为FD₀；

获取D在h个相邻的监控时间点分别对应的行为特征向量，以得到第二行为特征向量集FD，包括：

获取D在FD_e-1对应的监控时间点与FD_e对应的监控时间点之间所执行的所有预设恶意行为，以得到FD_e对应的监控时间点对应的中间恶意行为集TFD_e=(TFD_e，1，TFD_e，2，…，TFD_e，a1，…，TFD_e，b1)，e=2，3，…，h；a1=1，2，…，b1；其中，TFD_e，a1为D在FD_e-1对应的监控时间点与FD_e对应的监控时间点之间所执行的第a1个预设恶意行为，b1为D在FD_e-1对应的监控时间点与FD_e对应的监控时间点之间所执行的预设恶意行为的数量；

当e=1时，将TFD_e中每一恶意行为对应的特征值添加至FD₁中每一预设恶意行为对应的位置，得到FD₁对应的行为特征向量；

当e大于1时，根据TFD_e中每一恶意行为对应的特征值更新所述FD_e-1中每一预设恶意行为对应的向量值，得到所述FD_e对应的行为特征向量；

根据D在h个相邻的监控时间点分别对应的行为特征向量，形成第二行为特征向量集FD。

可选的，获取待检测文件D对应的监控周期T0，包括：

根据B中每一样本文件的若干文件特征，确定每一样本文件对应的文件特征类型向量，以得到B对应的文件特征类型向量集WB=(WB₁，WB₂，…，WB_x，…，WB_y)；其中，WB_x为B_x对应的文件特征类型向量；

根据预设的聚类算法以及WB，将B中所有的样本文件聚类为若干样本文件组，以得到样本文件组列表QB=(QB₁，QB₂，…，QB_a，…，QB_b)，a=1，2，…，b；其中，QB_a为QB中的第a个样本文件组，b为QB中样本文件组的数量；QB_a=(QB_a，1，QB_a，2，…，QB_a，c，…，QB_a，g(a))，c=1，2，…，g(a)；QB_a，c为将B中所有的样本文件聚类得到的第a个样本文件组中的第c个样本文件，g(a)为将B中所有的样本文件聚类得到的第a个样本文件组中样本文件的数量；

获取待检测文件D对应的文件特征类型向量AD’；其中，AD’根据D中若干文件特征对应的若干文件特征类型对应的文件特征值得到；

根据QB中每一样本文件组中每一样本文件对应的文件特征类型向量，确定QB中每一样本文件组对应的中心向量，以得到QB对应的中心向量集YB=(YB₁，YB₂，…，YB_a，…，YB_b)；其中，YB_a为QB_a对应的中心向量；

根据AD’与YB中每一中心向量的相似度以及QB，确定监控周期T0。

可选的，所述根据AD’与YB中每一中心向量的相似度以及QB，确定监控周期T0，包括：

获取AD’与YB中每一中心向量的相似度，以得到初始相似度集β¹=(β¹ ₁，β¹ ₂，…，β¹ _a，…，β¹ _b)；其中，β¹ _a为AD’与YB_a的相似度；

获取β¹中的最大相似度β¹ _max=MAX(β¹)；其中，MAX()为预设的求最大值函数；

获取β¹ _max对应的样本文件组QB_max=(QB_max，1，QB_max，2，…，QB_max，m1，…，QB_max，n1)，m1=1，2，…，n1；其中，QB_max，m1为β¹ _max对应的样本文件组中的第m1个样本文件，n1为β¹ _max对应的样本文件组中样本文件的数量；

通过预设的文件检测方法，获取QB_max对应的第二检测时长集LT=(LT₁，LT₂，…，LT_m1，…，LT_n1)，m1=1，2，…，n1；其中，LT_m1为将QB_max，m1确定为恶意文件所用的检测时长；

根据LT，获取LT对应的检测时长波动率γ=1/n1×∑ⁿ¹ _m1=1((1/n1×∑ⁿ¹ _m1=1LT_m1)-LT_m1)²；

若γ＜γ₀，则确定待检测文件D对应的监控周期T0=δ×1/n1×∑ⁿ¹ _m1=1LT_m1；其中，γ₀为预设的检测时长波动率阈值，δ为预设的监控周期系数，δ＞1。

可选的，根据AD’与YB中每一中心向量的相似度以及QB，确定监控周期T0，还包括：

若γ≥γ₀，则通过预设的聚类算法，将LT中所有的检测时长聚类为若干个检测时长组，以得到LT对应的第二检测时长组集GT=(GT₁，GT₂，…，GT_x1，…，GT_y1)，x1=1，2，…，y1；其中，GT_x1为将LT中所有的检测时长聚类为若干个检测时长组中的第x1个检测时长组，y1为将LT中所有的检测时长聚类得到的检测时长组的数量；GT_x1=(GT_x1，1，GT_x1，2，…，GT_x1，j1，…，GT_x1，k1(x1))，j1=1，2，…，k1；GT_x1，j1为GT_x1中的第j1个检测时长，k1(x1)为GT_x1中检测时长的数量；

获取AD’与QB_max中每一样本文件对应的文件特征类型向量的相似度，以得到指定相似度集β⁴=(β⁴ ₁，β⁴ ₂，…，β⁴ _m1，…，β⁴ _n1)；其中，β⁴ _m1为AD’与QB_max，m1对应的文件特征类型向量的相似度；

获取β⁴中的最大相似度β⁴ _max=MAX(β⁴)；其中，MAX()为预设的求最大值函数；

根据GT和β⁴ _max，确定β⁴ _max对应的样本文件在GT中对应的检测时长组GT_max=(GT_max，1，GT_max，2，…，GT_max，j2，…，GT_max，k2)，j2=1，2，…，k2；其中，GT_max，j2为β⁴ _max对应的样本文件在GT中对应的检测时长组GT_max中的第j2个检测时长，k2为所述GT_max中检测时长的数量；

根据GT_max确定待检测文件D对应的监控周期T0=δ×1/k2×∑^k2 _j2=1GT_max，j2。

可选的，所述预设的聚类算法包括kmeans聚类算法。

可选的，所述获取AD’与QB_max中每一样本文件对应的文件特征类型向量的相似度，包括：

获取AD’与QB_max中每一样本文件对应的文件特征类型向量的欧氏距离；

将AD’与QB_max中每一样本文件对应的文件特征类型向量的欧氏距离确定为AD’与QB_max中每一样本文件对应的文件特征类型向量的相似度。

根据本申请的另一方面，还提供了一种非瞬时性计算机可读存储介质，存储介质中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现上述文件的动态检测方法。

根据本申请的另一方面，还提供了一种电子设备，包括处理器和上述非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果：

本发明的文件的动态检测方法，获取若干已知样本文件所对应的行为特征向量，得到第一行为特征向量集；依次获取D在监控周期T0内的h个相邻的监控时间点分别对应的行为特征向量，获取h个相邻的监控时间点分别对应的行为特征向量中，每一行为特征向量与第一行为特征向量集中每一行为特征向量的最大相似度，能够得到h个最大相似度；若h个最大相似度逐渐减小，表示待检测文件与已知的样本文件的差异越来越大，则可确定D为非恶意文件，并终止对D的检测，以节约算力资源，提高执行效率；而如果相似度逐渐增大，则表示待检测文件为恶意文件的可能性越来越大，在监控周期T0内有可能无法确定待检测文件是否为恶意文件，那么，此时将监控周期T0调大，以确保有足够的时间确定待检测文件是否为恶意文件，提高恶意文件检测结果的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文件的动态检测方法的流程图；

图2为本发明实施例提供的一种确定监控周期T0的步骤的流程图；

图3为本发明实施例提供的另一种确定监控周期T0的步骤的流程图；

图4为本发明实施例提供的文件的动态检测方法的应用场景图；

图5为本发明实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

下面将参照图1所述的恶意文件检测方法的流程图，对一种文件的动态检测方法进行介绍。

该文件的动态检测方法包括以下步骤：

步骤100，获取若干样本文件，以得到样本文件集B=(B₁，B₂，…，B_x，…，B_y)，x=1，2，…，y；其中，B_x为第x个样本文件，y为样本文件的数量；每一样本文件均为已知的恶意文件。

本实施例中，能够从已知的恶意文件库，例如，已知的病毒库；获取若干样本文件。

步骤200，获取B中每一样本文件对应的行为特征向量，以得到B对应的第一行为特征向量集FB=(FB₁，FB₂，…，FB_x，…，FB_y)；其中，FB_x为B_x对应的行为特征向量；行为特征向量通过对应的样本文件的所执行的若干恶意行为得到。

本实施例中，B中的样本文件均为已知的恶意文件，每一样本文件在运行的过程中所执行的恶意行为均为已知，或者将每一样本文件放入预设的沙箱中使其运行，能够获取到B中每一样本文件在运行时所执行的恶意行为，以及每一恶意行为的特征值，进而得到B对应的第一行为特征向量集FB。

步骤300，获取待检测文件D对应的监控周期T0；其中，T0内预设有若干监控时间点，任意两个相邻的监控时间点的时间间隔相等。

本实施例中，D对应的监控周期T0为对D进行监控的时长，在监控周期T0内预设有若干监控时间点，例如，监控周期为3小时，开始对D进行监控的时间点作为D对应的监控周期T0的起始时间点，之后在监控周期内每间隔30分钟设置一个监控时间点。

步骤400，每当到达任意监控时间点，则依次获取D在当前监控时间点以及之前的h-1个相邻的监控时间点分别对应的行为特征向量，以得到第二行为特征向量集FD=(FD₁，FD₂，…，FD_e，…，FD_h)，e=1，2，…，h；其中，FD_e为D在h个相邻的监控时间点中第e个监控时间点对应的行为特征向量，FD_h为D在当前的监控时间点对应的行为特征向量；FD_e根据D在T0的开始时间至FD_e对应的监控时间点之间所执行的所有恶意行为得到。

本实施例中，D在监控周期T0内的第一个监控时间点对应的行为特征向量，根据D在T0的开始时间至第一个监控时间点之间执行的每一恶意行为得到；第二个监控时间点对应的行为特征向量则根据第一个监控时间点对应的行为特征向量，以及D在第一个监控时间点与第二个监控时间点之间执行的每一恶意行为得到，也即第二个监控时间点对应的行为特征向量可以根据T0的开始时间至第二个监控时间点之间执行的每一恶意行为得到；由此，能够使得D对应的行为特征向量随着D执行的恶意行为而更新；需要说明的是，本领域技术人员能够根据需要采用现有的行为特征向量确定方法，确定每一监控时间点对应的行为特征向量，此处不加赘述。

步骤500，根据FD与FB，得到目标相似度集β³=(β³ ₁，β³ ₂，…，β³ _e，…，β³ _h)；其中，β³ _e为FD_e与FB中每一行为特征向量的相似度中的最大相似度。

本实施例中，对于FD中的每一行为特征向量均能够确定出与FB中每一行为特征向量的最大相似度，从而得到FD对应的目标相似度集β³。

步骤600，若β³中所有的最大相似度满足β³ _i＞β³ _i+1，i=1，2，…，h-1；则将D确定为非恶意文件，并终止对D的监控。

本实施例中，若β³中所有的最大相似度满足β³ _i＞β³ _i+1，表示β³中的最大相似度逐渐减小，可知待检测文件与已知的样本文件的差异越来越大，则可确定D为非恶意文件，并终止对D的监控，以节约算力资源，提高执行效率。

步骤700，若β³中所有的最大相似度满足β³ _i＜β³ _i+1，则将当前的监控周期T0的长度调整为(1+1/h×∑^h _e=1β³ _e)×CT0，并继续对D进行监控；CT0为T0当前的长度。

本实施例中，若β³中所有的最大相似度满足β³ _i＜β³ _i+1，表示β³中的最大相似度逐渐增大，可知待检测文件为恶意文件的可能性越来越大，在监控周期T0内有可能无法确定待检测文件是否为恶意文件，那么，此时将监控周期T0的长度调大，以确保有足够的时间确定待检测文件是否为恶意文件，提高恶意文件检测结果的准确性。

本实施例的文件的动态检测方法，获取若干已知样本文件所对应的行为特征向量，得到第一行为特征向量集；依次获取D在监控周期T0内的h个相邻的监控时间点分别对应的行为特征向量，获取h个相邻的监控时间点分别对应的行为特征向量中，每一行为特征向量与第一行为特征向量集中每一行为特征向量的最大相似度，能够得到h个最大相似度；若h个最大相似度逐渐减小，表示待检测文件与已知的样本文件的差异越来越大，则可确定D为非恶意文件，并终止对D的检测，以节约算力资源，提高执行效率；而如果相似度逐渐增大，则表示待检测文件为恶意文件的可能性越来越大，在监控周期T0内有可能无法确定待检测文件是否为恶意文件，那么，此时将监控周期T0调大，以确保有足够的时间确定待检测文件是否为恶意文件，提高恶意文件检测结果的准确性。

进一步的，获取B中每一样本文件对应的行为特征向量，以得到B对应的第一行为特征向量集FB，包括：

步骤210，通过预设的文件检测方法，获取将B_x确定为恶意文件的过程中B_x所执行的所有恶意行为，以得到B_x对应的恶意行为集F’B=(F’B₁，F’B₂，…，F’B_e1，…，F’B_h1)，e1=1，2，…，h1；其中，F’B_e1为将B_x确定为恶意文件的过程中B_x所执行的第e1个恶意行为，h1为将B_x确定为恶意文件的过程中B_x所执行的恶意行为的数量。

本实施例中，预设的文件检测方法可以为沙箱检测方法，将B_x放入预设的沙箱内，使其正常运行，获取将其确定为恶意文件的过程中所执行的每一恶意行为，以得到B_x对应的恶意行为集F’B。

步骤220，根据F’B确定B_x对应的行为特征向量FB_x=(FB_x，1，FB_x，2，…，FB_x，e1，…，FB_x，h1)，进而得到FB；其中，FB_x，e1为F’B_e1对应的特征值。

需要说明的是，本领域技术人员能够根据需要采用现有的行为特征向量构造方法，来构造B_x对应的行为特征向量，此处不加赘述。

进一步的，所述监控周期T0的起始时间点为FD₀；

步骤410，获取D在FD_e-1对应的监控时间点与FD_e对应的监控时间点之间所执行的所有预设恶意行为，以得到FD_e对应的监控时间点对应的中间恶意行为集TFD_e=(TFD_e，1，TFD_e，2，…，TFD_e，a1，…，TFD_e，b1)，e=2，3，…，h；a1=1，2，…，b1；其中，TFD_e，a1为D在FD_e-1对应的监控时间点与FD_e对应的监控时间点之间所执行的第a1个预设恶意行为，b1为D在FD_e-1对应的监控时间点与FD_e对应的监控时间点之间所执行的预设恶意行为的数量。

步骤420，当e=1时，将TFD_e中每一恶意行为对应的特征值添加至FD₁中每一预设恶意行为对应的位置，得到FD₁对应的行为特征向量；

本实施例中，FD₁通过D在T0的起始时间点FD₀至第一个监控时间点FD₁之间所执行的所有恶意行为得到。

步骤430，当e大于1时，根据TFD_e中每一恶意行为对应的特征值更新所述FD_e-1中每一预设恶意行为对应的向量值，得到所述FD_e对应的行为特征向量；

本实施例中，当e大于1时，FD_e通过D在FD_e-1对应的监控时间点与FD_e对应的监控时间点之间所执行的所有预设恶意行为，对FD_e-1进行更新得到。比如，FD₂可以根据TFD₂中每一恶意行为对应的特征值更新所述FD₁中每一预设恶意行为对应的向量值得到。通过对FD_e-1进行更新得到FD_e，可以减少生成FD_e的工作量，提高形成第二行为特征向量集FD的速度。步骤440，根据D在h个相邻的监控时间点分别对应的行为特征向量，形成第二行为特征向量集FD。

本实施例中，能够根据所有的样本文件，得到每一样本文件所执行的恶意行为，从而得到若干已知的恶意行为，根据若干已知的恶意行为，构建初始行为特征向量，将初始行为特征向量内每一已知恶意行为对应的特征值置为空；在每一监控时间点获取到D执行的恶意行为后，将获取到的每一恶意行为对应的特征值添加至初始行为特征向量，即可得到当前监控时间点对应的行为特征向量；e=h时，D在当前的监控时间点对应的行为特征向量是基于前一监控时间点对应的行为特征向量，以及D在FD_h-1对应的监控时间点与FD_h对应的监控时间点之间所执行的恶意行为得到；由此，在确定D在当前监控时间点对应的行为特征向量时，无需重复获取D执行的行为，只需要获取D在FD_h-1对应的监控时间点与FD_h对应的监控时间点之间所执行的恶意行为，从而提高确定D在当前监控时间点对应的行为特征向量的效率，进而提高恶意文件的检测效率。

在一示例性的实施例中，所述获取待检测文件D对应的监控周期T0，包括：

步骤310，获取若干样本文件，以得到样本文件集B=(B₁，B₂，…，B_x，…，B_y)，x=1，2，…，y；其中，B_x为第x个样本文件，y为样本文件的数量；每一样本文件均为已知的恶意文件。

步骤320，根据B中每一样本文件的若干文件特征，确定每一样本文件对应的文件特征类型向量，以得到B对应的文件特征类型向量集WB=(WB₁，WB₂，…，WB_x，…，WB_y)；其中，WB_x为B_x对应的文件特征类型向量。

本实施例中，对于获取到的样本文件，能够获取每一样本文件对应的文件特征类型，例如，是否具有有效签名或无签名，文件版本，发布厂商等文件特征类型；需要说明的是，本领域技术人员能够根据需要采用现有的文件特征类型向量构造方法，来构造每一样本文件对应的文件特征类型向量，此处不加赘述。

步骤330，根据预设的聚类算法以及WB，将B中所有的样本文件聚类为若干样本文件组，以得到样本文件组列表QB=(QB₁，QB₂，…，QB_a，…，QB_b)，a=1，2，…，b；其中，QB_a为QB中的第a个样本文件组，b为QB中样本文件组的数量；QB_a=(QB_a，1，QB_a，2，…，QB_a，c，…，QB_a，g(a))，c=1，2，…，g(a)；QB_a，c为将B中所有的样本文件聚类得到的第a个样本文件组中的第c个样本文件，g(a)为将B中所有的样本文件聚类得到的第a个样本文件组中样本文件的数量。

本实施例中，预设的聚类算法可以为kmeans聚类算法，根据每一样本文件对应的文件特征类型向量将B中的所有样本文件聚类为若干组；可以理解的是，由于本实施例中，每个样本文件组内的样本文件的数量是不同的，故而，本实施例中，g(a)不是指代一个具体的函数或函数结果值，而是指代一个随着a的具体值的不同而可能的值，例如，当a=1时，g(a)=30；a=2时，g(a)=60；a=3时，g(a)=30。

步骤340，获取待检测文件D对应的文件特征类型向量AD’；其中，AD’根据D的若干文件特征类型对应的文件特征值得到。

本实施例中，能够获取到D对应的若干文件特征类型，以及每一文件特征类型对应的文件特征值，进而得到AD’；需要说明的是，本领域技术人员能够根据需要采用现有的文件特征类型向量确定方法，确定D对应的文件特征类型向量，此处不加赘述。

步骤350，根据QB中每一样本文件组中每一样本文件对应的文件特征类型向量，确定QB中每一样本文件组对应的中心向量，以得到QB对应的中心向量集YB=(YB₁，YB₂，…，YB_a，…，YB_b)；其中，YB_a为QB_a对应的中心向量。

本实施例中，能够获取到QB中每一样本文件组中每一样本文件对应的文件特征类型向量，然后求每一样本文件组中所有样本文件对应的文件特征类型向量的平均向量，以得到每一样本文件组对应的中心向量。

步骤360，根据AD’与YB中每一中心向量的相似度以及QB，确定监控周期T0。

参见图2，根据AD’与YB中每一中心向量的相似度以及QB，确定监控周期T0，包括以下步骤：

步骤361，获取AD’与YB中每一中心向量的相似度，以得到初始相似度集β¹=(β¹ ₁，β¹ ₂，…，β¹ _a，…，β¹ _b)；其中，β¹ _a为AD’与YB_a的相似度。

本实施例中，可以获取AD’与YB中的每一中心向量之间的欧式距离，将AD’与YB中的每一中心向量之间的欧式距离确定为AD’与YB中每一中心向量的相似度；以得到初始相似度集β¹。

步骤362，获取β¹中的最大相似度β¹ _max=MAX(β¹)；其中，MAX()为预设的求最大值函数。

步骤363，获取β¹ _max对应的样本文件组QB_max=(QB_max，1，QB_max，2，…，QB_max，m1，…，QB_max，n1)，m1=1，2，…，n1；其中，QB_max，m1为β¹ _max对应的样本文件组中的第m1个样本文件，n1为β¹ _max对应的样本文件组中样本文件的数量。

本实施例中，从QB中确定出的β¹ _max对应的样本文件组QB_max的中心向量与AD’的相似度最大，表示D与QB_max中的样本文件的整体相似度较高；因此，可以利用QB_max中的样本文件确定D对应的监控周期T0。

步骤364，通过预设的文件检测方法，获取QB_max对应的第二检测时长集LT=(LT₁，LT₂，…，LT_m1，…，LT_n1)，m1=1，2，…，n1；其中，LT_m1为将QB_max，m1确定为恶意文件所用的检测时长。

本实施例中，预设的文件检测方法可以为沙箱检测方法，将QB_max中每一样本文件放入预设的沙箱内，使其正常运行，根据预设的恶意文件判断条件来确定QB_max中每一样本文件为恶意文件，并获取将QB_max，m1确定为恶意文件所用的时长，以得到LT。

需要说明的是，本实施例中仅对QB_max中每一样本文件进行沙箱检测，并未对B中所有的样本文件进行沙箱检测，由此，能够大幅降低计算量，从而提高监控周期T0的确定效率。

步骤365，根据LT，获取LT对应的检测时长波动率γ=1/n1×∑ⁿ¹ _m1=1[(1/n1×∑ⁿ¹ _m1=1LT_m1)-LT_m1]²。

本实施例中，LT对应的检测时长波动率即LT中所有的检测时长对应的方差；若γ较大，则表示LT中的检测时长整体相差较大，否则，表示LT中的检测时长整体相差较小。

步骤366，若γ＜γ₀，则确定文件的监控周期T0=δ×1/n1×∑ⁿ¹ _m1=1LT_m1；其中，γ₀为预设的检测时长波动率阈值，δ为预设的监控周期系数，δ＞1。

本实施例中，若γ＜γ₀，表示LT中的检测时长整体相差较小，可将LT中所有检测时长的均值与δ的乘积确定为D对应的监控周期T0；设置δ，能够确保D对应的监控周期T0的时长足以满足对D检测的需要，避免D对应的监控周期T0时长较短，无法满足对D检测的需要，使得对D的检测结果更加准确。

进一步的，参见图3，在步骤366之后，所述方法还包括以下步骤：

步骤371，若γ≥γ₀，则通过预设的聚类算法，将LT中所有的检测时长聚类为若干个检测时长组，以得到LT对应的第二检测时长组集GT=(GT₁，GT₂，…，GT_x1，…，GT_y1)，x1=1，2，…，y1；其中，GT_x1为将LT中所有的检测时长聚类为若干个检测时长组中的第x1个检测时长组，y1为将LT中所有的检测时长聚类得到的检测时长组的数量；GT_x1=(GT_x1，1，GT_x1，2，…，GT_x1，j1，…，GT_x1，k1(x1))，j1=1，2，…，k1(x1)；GT_x1，j1为GT_x1中的第j1个检测时长，k1(x1)为GT_x1中检测时长的数量。

本实施例中，若γ≥γ₀，表示LT中的检测时长整体相差较大，此时利用LT中所有检测时长的均值确定监控周期T0，显然是不合理的；因此，通过预设的聚类算法，将LT中所有的检测时长聚类为若干个检测时长组；可以理解的是，GT中的每一检测时长组中各检测时长整体相差较小。

步骤372，获取AD’与QB_max中每一样本文件对应的文件特征类型向量的相似度，以得到指定相似度集β⁴=(β⁴ ₁，β⁴ ₂，…，β⁴ _m1，…，β⁴ _n1)；其中，β⁴ _m1为AD’与QB_max，m1对应的文件特征类型向量的相似度。

本实施例中，可以获取AD’与QB_max中每一样本文件对应的文件特征类型向量之间的欧式距离，将AD’与QB_max中每一样本文件对应的文件特征类型向量之间的欧式距离确定为AD’与QB_max中每一样本文件对应的文件特征类型向量的相似度；以得到目标相似度集β³。

步骤373，获取β⁴中的最大相似度β⁴ _max=MAX(β³)；其中，MAX()为预设的求最大值函数。

步骤374，根据GT和β⁴ _max，确定β⁴ _max对应的样本文件的检测时长在GT中对应的检测时长组GT_max=(GT_max，1，GT_max，2，…，GT_max，j2，…，GT_max，k2)，j2=1，2，…，k2；其中，GT_max，j2为β³ _max对应的样本文件的检测时长在GT中对应的检测时长组中的第j2个检测时长，k2为β⁴ _max对应的样本文件的检测时长在GT中对应的检测时长组中检测时长的数量。

步骤375，根据GT_max确定文件的监控周期T0=δ×1/k2×∑^k2 _j2=1GT_max，j2。

本实施例中，当γ≥γ₀，对LT中所有的检测时长进行聚类，使得GT中每一检测时长组中的各检测时长整体相差较小；因此，能够根据β³ _max对应的样本文件的检测时长在GT中对应的检测时长组GT_max确定监控周期T0，使得确定的监控周期T0更加准确。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。参见图4，程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

参见图5，本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

根据本申请的这种实施方式的电子设备。电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：上述至少一个处理器、上述至少一个储存器、连接不同系统组件(包括储存器和处理器)的总线。

其中，所述储存器存储有程序代码，所述程序代码可以被所述处理器执行，使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

储存器可以包括易失性储存器形式的可读介质，例如随机存取储存器(RAM)和/或高速缓存储存器，还可以进一步包括只读储存器(ROM)。

储存器还可以包括具有一组(至少一个)程序模块的程序/实用工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线可以为表示几类总线结构中的一种或多种，包括储存器总线或者储存器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器通过总线与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种文件的动态检测方法，其特征在于，所述方法包括以下步骤：

若β³中所有的最大相似度满足β³ _i＜β³ _i+1，则将当前的监控周期T0的长度调整为(1+1/h×∑^h _e=1β³ _e)×CT0，并继续对D进行监控；CT0为T0当前的长度；

获取待检测文件D对应的监控周期T0，包括：

2.根据权利要求1所述的文件的动态检测方法，其特征在于，获取B中每一样本文件对应的行为特征向量，以得到B对应的第一行为特征向量集FB，包括：

3.根据权利要求1所述的文件的动态检测方法，其特征在于，所述监控周期T0的起始时间点为FD₀；

获取D在FD_e-1对应的监控时间点与FD_e对应的监控时间点之间所执行的所有预设恶意行为，以得到FD_e对应的监控时间点对应的中间恶意行为集TFD_e=(TFD_e，1，TFD_e，2，…，TFD_e，a1，…，TFD_e，b1)；a1=1，2，…，b1；其中，TFD_e，a1为D在FD_e-1对应的监控时间点与FD_e对应的监控时间点之间所执行的第a1个预设恶意行为，b1为D在FD_e-1对应的监控时间点与FD_e对应的监控时间点之间所执行的预设恶意行为的数量；

4.根据权利要求1所述的文件的动态检测方法，其特征在于，根据AD’与YB中每一中心向量的相似度以及QB，确定监控周期T0，包括：

根据LT，获取LT对应的检测时长波动率γ=1/n1×∑ⁿ¹ _m1=1[(1/n1×∑ⁿ¹ _m1=1LT_m1)-LT_m1]²；

5.根据权利要求4所述的文件的动态检测方法，其特征在于，根据AD’与YB中每一中心向量的相似度以及QB，确定监控周期T0，还包括：

若γ≥γ₀，则通过预设的聚类算法，将LT中所有的检测时长聚类为若干个检测时长组，以得到LT对应的第二检测时长组集GT=(GT₁，GT₂，…，GT_x1，…，GT_y1)，x1=1，2，…，y1；其中，GT_x1为将LT中所有的检测时长聚类为若干个检测时长组中的第x1个检测时长组，y1为将LT中所有的检测时长聚类得到的检测时长组的数量；GT_x1=(GT_x1，1，GT_x1，2，…，GT_x1，j1，…，GT_x1，k1(x1))，j1=1，2，…，k1(x1)；GT_x1，j1为GT_x1中的第j1个检测时长，k1(x1)为GT_x1中检测时长的数量；

6.根据权利要求5所述的文件的动态检测方法，其特征在于，所述预设的聚类算法包括kmeans聚类算法。

7.根据权利要求5所述的文件的动态检测方法，其特征在于，所述获取AD’与QB_max中每一样本文件对应的文件特征类型向量的相似度，包括：

8.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7中任意一项所述的文件的动态检测方法。

9.一种电子设备，其特征在于，包括处理器和权利要求8所述的非瞬时性计算机可读存储介质。