CN109800775B

CN109800775B - 文件聚类方法、装置、设备及可读介质

Info

Publication number: CN109800775B
Application number: CN201711147463.0A
Authority: CN
Inventors: 雷经纬; 罗元海
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2022-10-28
Anticipated expiration: 2037-11-17
Also published as: CN109800775A

Abstract

本申请公开了一种文件聚类方法、装置、设备及可读介质，属于计算机数据处理技术领域。所述方法包括：从N个文件中获取第i个文件的k_i个相似文件；将k_i个相似文件中出现次数最多的标签定义为参考标签；当第i个文件的当前标签与参考标签不同时，将第i个文件的当前标签改为参考标签；重复执行上述步骤，直到每个文件的当前标签和参考标签均相同，得到每个文件的最终标签；将具有相同最终标签的文件归为同一类簇。本申请通过改变每个当前标签和参考标签不相同的文件的当前标签，多次迭代后获得每个文件的最终标签，将具有相同最终标签的文件归为同一类簇，从而能够将表面上关联程度较低但实质上是同一类型的文件归为一类，提高了文件聚类的准确性。

Description

文件聚类方法、装置、设备及可读介质

技术领域

本申请涉及计算机数据处理技术领域，尤其涉及一种文件聚类方法、装置、设备及可读介质。

背景技术

文件聚类是基于相似性算法，将多个文件分类至不同类簇的技术。比如，对于安卓(Android)操作系统的100个程序文件，通过文件聚类技术区分出正常文件和病毒文件。

相关技术提供的一种文件聚类方法为：收集多个文件；获得多个文件的特征值；根据每个文件的特征值获得任意两个文件之间的关联程度；将关联程度高于阈值的文件归为同一类簇中。

某些文件具有传播和演化的特性，比如病毒文件。因此一个初始病毒文件通过多次传播和演化后生成的后续病毒文件，其特征值和初始病毒文件差别较大，通过上述文件聚类方法，无法将表面上关联程度较低但实质上是同一类型的文件归为一类。

发明内容

本申请实施例提供了一种文件聚类方法、装置、设备及可读介质可以解决相关技术的问题。所述技术方案如下：

一方面，提供了一种文件聚类方法，包括：

从N个文件中获取第i个文件的k_i个相似文件，每个文件具有各自的标签；

将所述k_i个相似文件中出现次数最多的标签定义为参考标签；

当所述第i个文件的当前标签与所述参考标签不同时，则将所述第i个文件的所述当前标签改为所述参考标签；

重复执行上述步骤，直到所述每个文件的所述当前标签和所述参考标签均相同，得到所述每个文件的最终标签；

将所述N个文件中具有相同最终标签的文件归为同一类簇。

另一方面，提供了一种病毒文件检测方法，所述方法包括：

提供病毒查杀界面，所述病毒查杀界面中包括病毒查杀控件；

接收用户通过所述病毒查杀控件触发的操作信号；

根据所述操作信号获取至少一个文件的病毒查杀结果，所述病毒查杀结果是按照所述文件和病毒种子文件之间的相似性进行标签聚类后，根据所述文件是否与所述病毒种子文件具有相同最终标签所得到的；

显示所述至少一个文件的病毒查杀结果。另一方面，提供了一种文件聚类装置，所述装置包括：

第一获取单元，用于从N个文件中获取第i个文件的k_i个相似文件，每个文件具有各自的标签；

定义单元，用于将所述k_i个相似文件中出现次数最多的标签定义为参考标签；

标签修改单元，当所述第i个文件的当前标签与所述参考标签不同时，用于将所述第i个文件的所述当前标签改为所述参考标签；重复执行上述步骤，直到所述每个文件的所述当前标签和所述参考标签均相同，得到所述每个文件的最终标签；

聚类单元，用于将所述N个文件中具有相同最终标签的文件归为同一类簇。

在一种可能的实施方式中，所述装置还包括第二获取单元和确定单元：

所述第二获取单元，用于获取所述N个文件中每个文件之间的关联程度，建立文件关联关系；

所述第一获取单元，还用于从所述文件关联关系中获取所述第i个文件与其他N-1个文件之间的关联程度；

所述确定单元，用于将所述其他N-1个文件中与所述第i个文件的关联程度高于预设阈值的文件，确定为所述第i个文件的k_i个相似文件。

在一种可能的实施方式中，

所述第二获取单元，还用于获取所述N个文件中每个文件的特征值；

所述装置还包括计算单元；

所述计算单元，用于根据所述每个文件的特征值计算得到所述每个文件的特征哈希值；在所述N个文件中任意获取第x个文件和第y个文件，其中，所述第x个文件的特征哈希值大于所述第y个文件的特征哈希值；将所述第y个文件的特征哈希值除以所述第x个文件的特征哈希值，得到所述第x个文件和所述第y个文件之间的关联程度。

在一种可能的实施方式中，所述装置还包括选择单元：

所述选择单元，用于若所述k_i个相似文件中具有至少两个出现次数最多的标签，则在所述至少两个出现次数最多的标签中随机选择一个标签作为所述参考标签。

在一种可能的实施方式中，

所述标签修改单元，还用于对于所述k_i个相似文件中当前标签不是所述参考标签的文件，将所述文件的当前标签均改为所述参考标签。

在一种可能的实施方式中，所述N个文件中包含种子文件，所述种子文件是已知文件类别的文件；

所述聚类单元，还用于根据所述种子文件的文件类别，将与所述种子文件归为同一类簇的其它文件的文件类别确定为所述种子文件的文件类别。

在一种可能的实施方式中，所述装置还包括标签赋予单元；

所述第二获取单元，还用于获取所述N个文件；

所述标签赋予单元，用于为所述N个文件赋予初始标签，其中，所述N个文件中任意两个文件之间的初始标签不相同。

另一方面，提供了一种文件聚类设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述任一方面任意一种可能的实施方式所述的文件聚类方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述任一方面任意一种可能的实施方式所述的文件聚类方法。

本申请通过将第i个文件的k_i个相似文件中出现次数最多的标签定义为参考标签，若第i个文件的当前标签不是参考标签，则将第i个文件的当前标签改为参考标签，多次迭代后，获得N个文件中每个文件的最终标签，将最终标签相同的文件归为同一类簇，解决了相关技术中无法将表面上关联程度较低但实质上是同一类型的文件归为一类的技术问题，通过多次迭代获得最终标签，从而获得了实质上是同一类型的文件具有的相同的最终标签，从而能够将表面上关联程度较低但实质上是同一类型的文件归为同一类簇，提高了文件聚类的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的文件聚类方法所涉及的实施环境的示意图；

图2是本申请一个示例性实施例提供的文件聚类方法的方法流程图；

图3是本申请另一个示例性实施例提供的文件聚类方法的方法流程图；

图4是本申请另一个示例性实施例提供的文件聚类方法的方法流程图；

图5是本申请一个示例性实施例提供的第一数据库和第二数据库的框图；

图6是本申请另一个示例性实施例提供的文件聚类方法的方法流程图；

图7是本申请一个示例性实施例提供的输出文件类别的文件聚类方法的流程图；

图8是本申请一个示例性实施例提供的病毒检测方法的方法流程图；

图9是本申请一个示例性实施例提供的病毒检测方法所涉及的实施环境的示意图；

图10是本申请一个示例性实施例提供的病毒库构建方法的方法流程图；

图11是本申请另一个示例性实施例提供的病毒检测方法的方法流程图；

图12是本申请一个示例性实施例提供的病毒检测方法所涉及的实施环境的示意图；

图13是本申请一个示例性实施例提供的文件聚类装置的装置框图；

图14是本申请一个示例性实施例提供的文件聚类设备的各个模块的结构框图；

图15是本申请一个示例性实施例提供的文件聚类设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个示例性实施例提供的文件聚类方法所涉及的实施环境的示意图，如图1所示，该实施环境可以包括：数据源110、分布式处理系统120以及数据消费设备130。

数据源110，用于产生和存储流式数据或静态数据集。数据源110可以是存储有N个文件的至少一个数据库。其中，N个文件可以是流式数据和/或静态数据。

分布式处理系统120，用于将来自外部的数据源110的流式数据和/或静态数据进行数据处理，得到结果数据；然后将结果数据输出给数据消费设备130进行持久化存储或利用，其包括管理节点122和至少一个计算节点124。

可选地，分布式处理系统120用于将至少一个数据源110的N个文件处理为至少一个类簇，并将该至少一个类簇输出至数据消费设备130。

可选地，管理节点122用于对各个计算节点124进行资源管理、主备管理、应用管理和任务管理中的至少一种。资源管理是指对各个计算节点124中的计算资源进行管理；主备管理是指对各个计算节点124在发生故障时，实现主备切换管理；应用管理是指对运行在分布式处理系统上的至少一个分布式处理应用进行管理；任务管理是指对于一个分布式处理应用对应的若干个任务进行管理。在不同的计算系统中，管理节点122可能具有不同的名称，比如，主控节点(Master node)。

管理节点122通过有线网络、无线网络或专用硬件接口与计算节点124相连。

计算节点124负责处理对流式数据和/或静态数据的计算任务。当存在多个计算节点124时，多个计算节点124之间通过有线网络、无线网络或专用硬件接口相连。

可以理解的是，在虚拟化场景下，分布式处理系统120的管理节点122和计算节点124也可以由运行在通用硬件上的虚拟机来实现。本申请实施例不限定管理节点122是物理实体还是逻辑实体，也不限定计算节点124是物理实体还是逻辑实体。

数据消费设备130，用于对分布式处理系统120输出的结果数据进行持久化存储或实时利用的设备。数据消费设备130可以采用数据库作为存储形式。

可选的，数据消费设备130获取分布式处理系统输出的至少一个类簇，或，输出至少一个类簇中每个文件的文件类别。

请参考图2，其示出了本申请一个示例性实施例提供的文件聚类方法的方法流程图。本实施例以该文件聚类方法应用于文件聚类设备中为例，该设备可以是如图1所示的分布式处理系统120，该方法包括：

在步骤201中，文件聚类设备从N个文件中获取第i个文件的k_i个相似文件，每个文件具有各自的标签。

文件聚类设备从N个文件中获取第i个文件的k_i个相似文件，其中，第i个文件和其k_i个近似文件已经具有各自的标签。

可选的，文件聚类设备在获得N个文件后，为N个文件标上标签，其中，任意两个文件之间的标签不相同，该标签可以更改，更改之后每个文件的当前标签由更改之前的标签改为更改之后的标签。可选地，初始标定的标签可以不具有实际含义，仅用于区分不同的文件。

例如，第i个文件A_i是N个文件{A₁、A₂、A₃……A_N}中的任意一个，其当前标签为T_i，其具有k_i个相似文件，记为：

A_i：{A₁、A₂、……、A_m}

其中，{A₁、A₂、……、A_m}对应的标签分别为{T₁、T₂、……、T_m}。

在步骤202中，文件聚类设备将k_i个相似文件中出现次数最多的标签定义为参考标签。

文件聚类设备获得k_i个相似文件及其分别对应的标签后，将该k_i个相似文件中标签次数出现最多的标签，定义为第i个文件A_i的参考标签。

例如，在第i个文件A_i的k_i个相似文件{A₁、A₂、……、A_m}中，若标签T_s出现的次数最多，则将标签T_s定义为参考标签。

在步骤203中，当第i个文件的当前标签与参考标签不同时，文件聚类设备则将第i个文件的当前标签改为参考标签。

文件聚类设备判断第i个文件的当前标签和参考标签是否相同，若不相同，则将第i个文件的当前标签改为参考标签。

例如，若第i个文件A_i的当前标签T_i和参考标签T_s不相同，则将A_i的标签改为T_s。

可选的，若第i个文件A_i的当前标签和参考标签相同，则在本轮次中，第i个文件A_i的标签不变。

在步骤204中，文件聚类设备重复执行上述步骤，直到每个文件的当前标签和参考标签均相同，得到每个文件的最终标签。

文件聚类设备重复执行上述步骤，直到每个文件的当前标签和参考标签均相同，此时每个文件对应的标签为每个文件的最终标签。轮次结束，获得每个文件的最终标签。

在步骤205中，文件聚类设备将N个文件中具有相同最终标签的文件归为同一类簇。

文件聚类设备根据N个文件中每个文件的最终标签，将最终标签相同的文件归为同一类簇。

综上所述，本申请实施例中，通过将第i个文件的k_i个相似文件中出现次数最多的标签定义为参考标签，若第i个文件的当前标签不是参考标签，则将第i个文件的当前标签改为参考标签，多次迭代后，获得N个文件中每个文件的最终标签，将最终标签相同的文件归为同一类簇，解决了相关技术中无法将表面上关联程度较低但实质上是同一类型的文件归为一类的技术问题，通过多次迭代获得最终标签，从而获得了实质上是同一类型的文件具有的相同的最终标签，从而能够将表面上关联程度较低但实质上是同一类型的文件归为同一类簇，提高了文件聚类的准确性。

本申请实施例中，遍历N个文件，获得每个文件的参考标签的步骤为一个轮次，其中，获得任意一个文件的参考标签的步骤为该文件的当前轮次。若第i个文件的当前标签与其参考标签不相同，可以通过两种方式将其当前标签改为参考标签：一、在第i个文件的当前轮次将第i个文件的当前标签改为参考标签，因此，在第i个文件的轮次之后，若第i个文件是其他文件的近似文件，则在该轮次，第i个文件的当前标签为更改之后的参考标签；二、在遍历N个文件中每个文件之后，获得每个文件的参考标签，若第i个文件的当前标签与其参考标签不相同，将第i个文件的当前标签改为参考标签。

以N＝5，N个文件分别为A₁、A₂、A₃、A₄、A₅为例，对本申请实施例做示意性说明：

文件聚类设备获取5个文件A₁、A₂、A₃、A₄、A₅，给5个文件分别赋予各自对应的初始标签，为T₁、T₂、T₃、T₄、T₅。

文件聚类设备根据5个文件之间的关联程度，获得每个文件的相似文件，例如：

A₁：{A₂}

A₂：{A₁、A₃}

A₃：{A₂、A₄}

A₄：{A₃、A₅}

A₅：{A₄}

文件聚类设备获得每个文件的参考标签，将当前标签和参考标签不同的文件的当前标签改为参考标签：

对于A₁，其当前标签为T₁，其相似文件为A₂，A₂的当前标签为T₂，由于T₁和T₂都出现了一次，因此都是出现次数最多的标签，可以随机选择一个作为参考标签，若随机选择后T₂为参考标签，因此本轮次中将A₁的当前标签改为T₂；

对于A₂，其当前标签为T₂，其相似文件为A₁、A₃，其当前标签分别为T₂、T₃，由于标签T₂出现了4次，标签T₃出现了1次，因此T₂是出现次数最多的标签，由于A₂的当前标签为T₂，因此本轮次中A₂保持当前标签不变；

对于A₃，其当前标签是T₃，其相似文件为A₂、A₄，其当前标签分别为T₂、T₄，由于标签T₂出现了5次，标签T₃和T₄出现了1次，因此T₂是出现次数最多的标签，由于A₃的当前标签为T₃，因此本轮次中将A₃的当前标签改为T₂；

对于A₄，其当前标签为T₄，其相似文件为A₃、A₅，其当前标签分别为T₂、T₅，由于标签T₂出现了6次，标签T₄和T₅出现了1次，因此T₂是出现次数最多的标签，由于A₄的当前标签为T₄，因此本轮次中将A₄的当前标签改为T₂；

对于A₅，其当前标签为T₅，其相似文件是A₄，其当前标签为T₂，由于标签T₂出现了7次，标签T₅出现了1次，因此T₂是出现次数最多的标签，由于A₅的当前标签为T₅，因此本轮次中将A₅的当前标签改为T₂。

通过第一轮，得到文件A₁至A₅的当前标签都为T₂，通过第二轮的计算，得到文件A₁至A₅的当前标签与参考标签相同，都是T₂，因此在第二轮中每个文案的当前标签T₂即为每个文件的最终标签，由于每个文件的最终标签都是T₂，因此文件A₁至A₅都归入同一类簇。

在一个可选的实施例中，图2所示出的步骤201可实现成为如下步骤301至步骤303，如图3所示：

在步骤301中，文件聚类设备获取N个文件中每个文件之间的关联程度，建立文件关联关系。

文件聚类设备获取N个文件中任意两个文件之间的关联程度，建立文件关联关系。

文件聚类设备可通过多种方式获得N个文件中任意两个文件之间的关联程度。例如，文件聚类设备在获得N个文件之后，对N个文件先进行特征值提取，获得N个文件中每个文件的特征值，通过计算任意两个文件之间特征值之间的相似度，获得任意两个文件之间的关联程度。

可选的，文件聚类设备将N个文件中每个文件之间的关联程度建立文件关联关系数据库。

例如，N个文件中，第1个文件和第2个文件之间的关联程度记为a₁₂，第2个文件和第3个文件之间的关联程度记为a₂₃，则，N个文件中任意两个文件，第i个文件A_i和第j个文件A_j的关联程度记为a_ij。将N个文件中任意两个文件之间的关联程度构成文件关联矩阵，记为：

其中，a_ij＝a_ji，a₁₁＝a₂₂＝a₃₃＝……＝a_NN＝1。

在步骤302中，文件聚类设备从文件关联关系中获取第i个文件与其他N-1个文件之间的关联程度。

文件聚类设备通过文件关联关系获得第i个文件与其他N-1个文件之间的关联程度。

在步骤303中，文件聚类设备将其他N-1个文件中与第i个文件的关联程度高于预设阈值的文件，确定为第i个文件的k_i个相似文件。

文件聚类设备将其他N-1个文件中与第i个文件的关联程度高于预设阈值的文件，确定为第i个文件的k_i个相似文件。

综上所述，本申请实施例中，通过获得N个文件中任意两个文件之间的关联关系构建文件关联关系对应关系，通过将与第i个文件的关联程度高于预设阈值的文件确定为第i个文件的相似文件，提高了文件聚类设备获取N个文件中每个文件的相似文件的准确度。

在一个可选的实施例中，图3所示出的步骤301可实现成为如下步骤301a至步骤301d，如图4所示：

在步骤301a中，文件聚类设备获取N个文件中每个文件的特征值。

文件聚类设备在获得N个文件之后，对N个文件中的每个文件先进行特征值提取，获得N个文件中每个文件的特征值。

在步骤301b中，文件聚类设备根据每个文件的特征值计算得到每个文件的特征哈希值。

文件聚类设备在获得N个文件中每个文件的特征值后，可以将特征值二值编码后获得二进制的特征值，进而通过哈希算法将每个文件二进制的特征值转化为特征哈希值，获得每个文件的特征哈希值。

在步骤301c中，文件聚类设备在N个文件中任意获取第x个文件和第y个文件，其中，第x个文件的特征哈希值大于第y个文件的特征哈希值。

文件聚类设备在N个文件中任意获取第x个文件和第y个文件，其中，第x个文件的特征哈希值大于第y个文件的特征哈希值。

在步骤301d中，文件聚类设备将第y个文件的特征哈希值除以第x个文件的特征哈希值，得到第x个文件和第y个文件之间的关联程度。

文件聚类设备将第y个文件的特征哈希值除以第x个文件的特征哈希值，得到第x个文件和第y个文件之间的关联程度。

本申请实施例中，任意两个文件之间的关联程度是其各自对应的特征哈希值的比值，为了便于数值统一，关联程度是一个小于1的值，因此，将任意两个文件之间的特征哈希值相除时，分母的值要大于分子的值。

例如，第x个文件A_x的特征哈希值为9826，第y个文件A_y的特征哈希值为8642，由于8642＜9826，因此第x个文件A_x和第y个文件A_y之间的关联程度a_xy＝a_yx＝8642/9826＝0.8789，文件聚类设备将获得的a_xy和a_yx填入图3实施例中的矩阵中。

综上所述，本申请实施例中，通过获取每个文件的特征哈希值计算任意两个文件之间的关联程度，降低了文件聚类设备的计算量，提高了获取文件关联关系的效率。

在一个示例性的例子中，如图5所示，本申请实施例中，文件聚类设备存储有N个文件的集合构成的第一数据库和文件关联关系构成的第二数据库，文件聚类设备从第一数据库中获取文件，从第二数据库中获取每个文件之间的关联关系。

请参考图6，其示出了本申请一个示例性实施例提供的文件聚类方法的方法流程图。本实施例以该文件聚类方法应用于文件聚类设备中为例，该设备可以是如图1所示的分布式处理系统120，该方法包括：

在步骤601中，文件聚类设备获取N个文件，N个文件中包含已知文件类别的种子文件。

文件聚类设备将获取的种子文件和待测文件构成N个文件的集合。其中，种子文件是已知文件类别的文件。

例如，文件聚类设备获取到N个文件的集合{A₁、A₂、A₃、……、A_N}，该文件集合中包括已知文件类别的文件。

可选的，文件聚类设备将存储有N个文件的集合构成第一数据库。

在步骤602中，文件聚类设备为N个文件赋予初始标签，其中，任意两个文件之间的初始标签不相同。

文件聚类设备为N个文件赋予初始标签，其中，任意两个文件之间的初始标签不相同。

例如，文件聚类设备分别为A₁、A₂、A₃、……、A_N赋予标签初始T₁、T₂、T₃、……、T_N，其中，任意两个文件A_i和A_j之间的初始标签T_i和T_j不相同。

在步骤603中，文件聚类设备获取N个文件中每个文件之间的关联程度，建立文件关联关系。

可选的，文件聚类设备在获得N个文件之后，对N个文件中的每个文件先进行特征值提取，获得N个文件中每个文件的特征值；文件聚类设备在获得N个文件中每个文件的特征值后，将特征值二值编码后获得二进制的特征值，进而通过哈希算法将每个文件二进制的特征值转化为特征哈希值，获得每个文件的特征哈希值；将N个文件中任意两个文件之间的特征哈希值的比值作为该任意两个文件之间的关联程度，其中，为了便于数值统一，关联程度是一个小于1的值，因此，将任意两个文件之间的特征哈希值相除获得比值时，分母的值要大于分子的值。

其中，a_ij＝a_ji，a₁₁＝a₂₂＝a₃₃＝……＝a_NN＝1。

在步骤604中，文件聚类设备从文件关联关系中获取第i个文件与其他N-1个文件之间的关联程度。

在步骤605中，文件聚类设备将其他N-1个文件中与第i个文件的关联程度高于预设阈值的文件，确定为第i个文件的k_i个相似文件。

在步骤606中，文件聚类设备将k_i个相似文件中出现次数最多的标签定义为参考标签。

文件聚类设备获得k_i个相似文件及其分别对应的标签后，将该k_i个相似文件中标签次数出现最多的标签定义为参考标签。

例如，在第i个文件A_i的k_i个相似文件{A₁、A₂、……、A_m}中，在第i个文件之前的轮次中，若其中一次相似文件A_s的标签T_s出现的次数最多，则将T_s定义为参考标签。

若k_i个相似文件中具有至少两个出现次数最多的标签，则在该至少两个出现次数最多的标签中随机选择一个标签作为所述参考标签。

例如，在第i个文件A_i的k_i个相似文件{A₁、A₂、……、A_m}中，若其中两个相似文件A_s和A_p对应的标签T_s和T_p出现的次数相同，且都是最多次，则文件聚类设备在T_s和T_p中随机选择一个作为第i个文件A_i的参考标签。

在步骤607中，文件聚类设备检测第i个文件的当前标签是否与参考标签相同。

文件聚类设备判断第i个文件的当前标签和参考标签是否相同。

在步骤608a中，文件聚类设备将第i个文件的当前标签改为参考标签。

若第i个文件的当前标签和参考标签不相同，则将第i个文件的当前标签改为参考标签。

例如，第i个文件的当前标签为T_i，参考标签为T_s，则将第i个文件的当前标签改为T_s，在之后的轮次中，若第i个文件成为其他文件的相似文件，则第i个文件在该轮次中的当前标签为T_s。

由于在迭代过程中，任意一个文件的当前标签如果和参考标签不相同，仅仅改变该文件的当前标签，迭代的次数较多，运算效率较低。

可选的，对于第i个文件的k_i个相似文件中当前标签不是参考标签的文件，将该文件的当前标签均改为参考标签。

例如，在第i个文件A_i的k_i个相似文件{A₁、A₂、……、A_m}中，参考标签为T_s，则将{A₁、A₂、……、A_m}中当前标签不是T_s的，全部改为T_s，在之后的轮次中，再次出现{A₁、A₂、……、A_m}中任意一个文件，在该轮次中的当前标签都是T_s。

通过将第i个文件的k_i个相似文件中当前标签不是参考标签的文件，将该文件的当前标签均改为参考标签，减少了迭代次数，提高了运算效率。

在步骤608b中，文件聚类设备将第i个文件的当前标签保持不变。

若第i个文件的当前标签和参考标签相同，则在本轮次中第i个文件的当前标签保持不变。

在步骤609中，文件聚类设备检测每个文件的当前标签和参考标签是否均相同。

文件聚类设备检测N个文件中每个文件的当前标签是否和参考标签相同，若存在当前标签和参考标签不相同的文件，则重复步骤606至步骤609；若每个文件的当前标签和参考标签均相同，则进入步骤610。

在步骤610中，文件聚类设备获得N个文件中每个文件的最终标签。

若每个文件的当前标签和参考标签均相同，则每个文件的当前标签即为最终标签，文件聚类设备获得每个文件的最终标签后，迭代结束。

在步骤611中，文件聚类设备将N个文件中具有相同最终标签的文件归为同一类簇。

在步骤612中，文件聚类设备将与种子文件归为同一类簇的文件的文件类别确定为种子文件的文件类别。

文件聚类设备根据每个类簇中种子文件的文件类别，将和种子文件归为同一类簇的文件的文件类别确定为种子文件的文件类别。

在一个示例性的例子中，如图7所示，本申请实施例中，文件聚类设备将待测文件集合和种子文件集合聚合为具有N个文件集合的第一数据库；将N个文件中任意两个文件之间的文件关联关系构成的第二数据库，文件聚类设备从第一数据库中获取文件，从第二数据库中获取每个文件之间的关联关系。文件聚类设备将N个文件赋予初始标签后，通过第二数据库获取N个文件中每个文件的相似文件，通过获取每个文件的相似文件获得每个文件的参考标签，在每一个轮次后检测是否任意一个文件都不需要改变标签，若否，则继续上一个轮次，直到任意一个文件都不需要改变标签，将具有相同最终标签的文件归为同一类簇，根据种子文件的文件类别判断和种子文件同一类簇的文件的文件类别。

综上所述，本申请实施例中，通过将第i个文件的k_i个相似文件中标签出现次数最多的标签定义为参考标签，若第i个文件的当前标签不是参考标签，则将第i个文件的当前标签改为参考标签，多次迭代后，获得N个文件中每个文件的最终标签，将最终标签相同的文件归为同一类簇，解决了相关技术中无法将表面上关联程度较低但实质上是同一类型的文件归为一类的技术问题，通过多次迭代获得最终标签，从而获得了实质上是同一类型的文件具有的相同的最终标签，从而能够将表面上关联程度较低但实质上是同一类型的文件归为同一类簇，提高了文件聚类的准确性。

进一步的，本申请实施例中，通过获得N个文件中任意两个文件之间的关联关系构建文件关联关系对应关系，通过将与第i个文件的关联程度高于预设阈值的文件确定为第i个文件的相似文件，提高了文件聚类设备获取N个文件中每个文件的相似文件的准确度。

进一步的，本申请实施例中，通过获取每个文件的特征哈希值计算任意两个文件之间的关联程度，降低了文件聚类设备的计算量，提高了获取文件关联关系的效率。

进一步的，本申请实施例中，通过将第i个文件的k_i个相似文件中当前标签不是参考标签的文件，将该文件的当前标签均改为参考标签，减少了迭代次数，提高了运算效率。

请参考图8，其示出了本申请一个示例性实施例提供的病毒检测方法的方法流程图。本实施例以该病毒检测方法应用于如图9所示的终端910中为例，该方法包括：

在步骤801中，终端提供病毒查杀界面，该病毒查杀界面中包括病毒查杀控件。

如图9所示，用户点击终端打开安全管理程序后进入病毒查杀界面，该病毒查杀界面包括病毒查杀控件，在该病毒查杀界面可以选择需要查杀的文件，用户可以通过点击选取需要查杀的文件，例如图中所示的文件A。

在步骤802中，终端接收用户通过病毒查杀控件触发的操作信号。

如图9所示，用户点击病毒查杀控件，产生触发的操作信号，终端接收该操作信号。

在步骤803中，终端根据操作信号获取至少一个文件的病毒查杀结果。

终端接收该操作信号后，根据该操作信号向服务器发送至少一个文件的标识信息，然后接收服务器根据病毒库反馈的至少一个文件的病毒查杀结果，该病毒查杀结果是按照文件和病毒种子文件之间的相似性进行标签聚类后，根据文件是否与病毒种子文件具有相同最终标签所得到的。

在步骤804中，终端显示至少一个文件的病毒查杀结果。

终端在接收到服务器反馈的至少一个文件的病毒查杀结果后，显示该至少一个文件的病毒查杀结果。

例如，如图9所示，终端在接收到文件A不是病毒文件的病毒查杀结果时，在安全管理程序中显示“文件A不是病毒，请放心使用！”。

请参考图10，其示出了本申请一个示例性实施例提供的病毒库构建方法的方法流程图。本实施例以该病毒检测方法应用于如图9所示的服务器920中为例，该方法包括：

在步骤1001中，服务器获取N个文件，该N个文件包括a个病毒种子文件和N-a个文件类别未知的待测文件。

服务器将获取的a个文件类别为病毒的种子文件和N-a个文件类别为未知的待测文件构成N个文件的集合。

在步骤1002中，服务器从N个文件中获取第i个文件的k_i个相似文件，每个文件具有各自的标签。

服务器从N个文件中获取第i个文件的k_i个相似文件，其中，第i个文件和其k_i个近似文件已经具有各自的标签。

可选的，服务器在获得N个文件后，为N个文件标上标签，其中，任意两个文件之间的标签不相同，该标签可以更改，更改之后每个文件的当前标签由更改之前的标签改为更改之后的标签。可选地，初始标定的标签可以不具有实际含义，仅用于区分不同的文件。

可选的，服务器存储有N个文件的集合构成的第一数据库和文件关联关系构成的第二数据库，服务器从第一数据库中获取文件，从第二数据库中获取每个文件之间的关联关系。文件关联关系数据库的构建可参考图3和图4的实施例，在此不做赘述。

在步骤1003中，服务器将k_i个相似文件中出现次数最多的标签定义为参考标签。

服务器获得k_i个相似文件及其分别对应的标签后，将该k_i个相似文件中标签次数出现最多的标签，定义为第i个文件的参考标签。

在步骤1004中，当第i个文件的当前标签与参考标签不同时，服务器将第i个文件的当前标签改为参考标签。

服务器判断第i个文件的当前标签和参考标签是否相同，若不相同，则将第i个文件的当前标签改为参考标签。

在步骤1005中，服务器重复执行上述步骤，直到每个文件的当前标签和参考标签均相同，得到每个文件的最终标签。

服务器重复执行上述步骤，直到每个文件的当前标签和参考标签均相同，此时每个文件对应的标签为每个文件的最终标签。轮次结束，获得每个文件的最终标签。

在步骤1006中，服务器将与病毒种子文件具有相同最终标签的待测文件的文件类别确定为病毒文件；根据病毒文件构建病毒库。

在获得每个文件的最终标签后，服务器将与病毒种子文件具有相同最终标签的待测文件的文件类别确定为病毒文件。

服务器根据病毒文件构建病毒库。

当终端侧需要检测需要查杀的文件是否为病毒时，向服务器发送该文件的标识信息，服务器接收到标识信息后，根据标识信息在病毒库中查询是否存在该标识信息对应的文件，若病毒库中存在该文件，则确定该文件的文件类别为病毒文件，若不存在该文件，则确定该文件的文件类别为安全文件。

请参考图11，其示出了本申请另一个示例性实施例提供的病毒检测方法的方法流程图。本实施例以该病毒检测方法应用于如图12所示的终端910中为例，该方法包括：

在步骤1101中，终端在应用市场程序中下载应用程序的安装包。

用户点击打开应用市场程序，点击下载应用程序的安装包，终端根据用户点击下载触发的操作信号下载应用程序的安装包。

如图12所示，用户点击应用市场程序中应用程序A的下载控件，终端910根据用户点击下载控件触发的操作信号下载应用程序A的安装包。

在步骤1102中，当应用程序的安装包下载完毕时，终端获取安装包的病毒查杀结果。

当应用程序的安装包下载完毕时，向服务器发送安装包的标识信息，然后接收服务器根据病毒库反馈的安装包的病毒查杀结果，该病毒查杀结果是按照文件和病毒种子文件之间的相似性进行标签聚类后，根据文件是否与病毒种子文件具有相同最终标签所得到的。

其中，病毒库的构建方法可参考图10所示的实施例，在此不做赘述。

在步骤1103中，终端在应用市场程序中显示安装包的病毒查杀结果。

终端在接收到服务器反馈的安装包的病毒查杀结果后，在安全管理程序中显示该安装包的病毒查杀结果。

例如，如图12所示，终端在接收到安装包A不是病毒文件的病毒查杀结果时，应用市场程序中显示“安装包A已下载完成，经检测不是病毒，请放心使用！”。

请参考图13，其示出了本申请一个示例性实施例提供的文件聚类装置的装置框图。本实施例以该文件聚类方法应用于文件聚类设备中为例，该设备可以是如图1所示的分布式处理系统120，该装置包括第一获取单元1301、定义单元1303、标签修改单元1305以及聚类单元1306：

第一获取单元1301，用于从N个文件中获取第i个文件的k_i个相似文件，每个文件具有各自的标签。

定义单元1303，用于将k_i个相似文件中出现次数最多的标签定义为参考标签。

标签修改单元1305，当第i个文件的当前标签与参考标签不同时，用于将第i个文件的当前标签改为参考标签。

第一获取单元1301、定义单元1303、标签修改单元1305重复执行上述步骤，直到每个文件的当前标签和参考标签均相同，得到每个文件的最终标签。

聚类单元1306，用于将N个文件中具有相同最终标签的文件归为同一类簇。

在一个可选的实施例中，文件聚类设备还包括第二获取单元1307和确定单元1309：

第二获取单元1307，用于获取N个文件中每个文件之间的关联程度，建立文件关联关系。

第一获取单元1301，还用于从文件关联关系中获取第i个文件与其他N-1个文件之间的关联程度。

确定单元1309，用于将其他N-1个文件中与第i个文件的关联程度高于预设阈值的文件，确定为第i个文件的k_i个相似文件。

在一个可选的实施例中，文件聚类装置还包括计算单元1308：

第二获取单元1307，还用于获取N个文件中每个文件的特征值。

计算单元1308，用于根据每个文件的特征值计算得到每个文件的特征哈希值；在N个文件中任意获取第x个文件和第y个文件，其中，第x个文件的特征哈希值大于第y个文件的特征哈希值；将第y个文件的特征哈希值除以第x个文件的特征哈希值，得到第x个文件和第y个文件之间的关联程度。

在一个可选的实施例中，文件聚类装置还包括选择单元1304：

选择单元1304，用于若k_i个相似文件中具有至少两个出现次数最多的标签，则在至少两个出现次数最多的标签中随机选择一个标签作为参考标签。

在一个可选的实施例中，标签修改单元805还用于对于k_i个相似文件中当前标签不是参考标签的文件，将该文件的当前标签均改为参考标签。

在一个可选的实施例中，N个文件中包含种子文件，种子文件是已知文件类别的文件；

聚类单元1306，还用于根据种子文件的文件类别，将与种子文件归为同一类簇的其它文件的文件类别确定为种子文件的文件类别。

在一个可选的实施例中，文件聚类装置还包括标签赋予单元1302：

第二获取单元1307，还用于获取N个文件。

标签赋予单元1302，用于为N个文件赋予初始标签，其中，N个文件中任意两个文件之间的初始标签不相同。

在一个示例性的例子中，如图14所示，本申请实施例中，文件聚类设备包括文件关联关系子模块1401、标签传播子模块1402以及检测流程控制子模块1403，这三个子模块相互协作，相互调用数据，待测文件集合和种子文件集合通过这三个子模块的处理输出待测文件的文件类别。其中，文件关联关系子模块1401包括第二获取单元1307、计算单元1308以及确定单元1309；标签传播子模块1402包括第一获取单元1301、标签赋予单元1302、定义单元1303、选择单元1304以及标签修改单元1305；检测流程控制子模块1403包括聚类单元1306。

综上所述，本申请实施例中，通过定义单元将第i个文件的k_i个相似文件中出现次数最多的标签定义为参考标签，若第i个文件的当前标签不是参考标签，标签修改单元则将第i个文件的当前标签改为参考标签，多次迭代后，获得N个文件中每个文件的最终标签，聚类单元将最终标签相同的文件归为同一类簇，解决了相关技术中无法将表面上关联程度较低但实质上是同一类型的文件归为一类的技术问题，通过多次迭代获得最终标签，从而获得了实质上是同一类型的文件具有的相同的最终标签，从而能够将表面上关联程度较低但实质上是同一类型的文件归为同一类簇，提高了文件聚类的准确性。

进一步的，本申请实施例中，通过第二获取单元获得N个文件中任意两个文件之间的关联关系构建文件关联关系对应关系，通过确定单元将与第i个文件的关联程度高于预设阈值的文件确定为第i个文件的相似文件，提高了文件聚类设备获取N个文件中每个文件的相似文件的准确度。

进一步的，本申请实施例中，通过第二获取单元和计算单元获取每个文件的特征哈希值计算任意两个文件之间的关联程度，降低了文件聚类设备的计算量，提高了获取文件关联关系的效率。

进一步的，本申请实施例中，通过标签修改单元将第i个文件的k_i个相似文件中当前标签不是参考标签的文件，将该文件的当前标签均改为参考标签，减少了迭代次数，提高了运算效率。

请参见图15，其示出了本申请一个实施例提供的文件聚类设备的结构框图。该文件聚类设备包括：处理器1501、存储器1502以及通信接口1503。

通信接口1503通过总线或其它方式与处理器1501相连，用于接收至少一个数据源传输的至少一个文件。

处理器1501可以是中央处理器(英文：central processing unit，CPU)，网络处理器(英文：network processor，NP)或者CPU和NP的组合。处理器1001还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integratedcircuit，ASIC)，可编程逻辑器件(英文：programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，FPGA)，通用阵列逻辑(英文：generic array logic，GAL)或其任意组合。

存储器1502通过总线或其它方式与处理器1501相连，存储器1502中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、至少一段程序、代码集或指令集由处理器1001加载并执行以实现如图2、图3、图4或图6的文件聚类方法。存储器1502可以为易失性存储器(英文：volatile memory)，非易失性存储器(英文：non-volatile memory)或者它们的组合。易失性存储器可以为随机存取存储器(英文：random-access memory，RAM)，例如静态随机存取存储器(英文：static random access memory，SRAM)，动态随机存取存储器(英文：dynamic random access memory，DRAM)。非易失性存储器可以为只读存储器(英文：read only memory image，ROM)，例如可编程只读存储器(英文：programmableread only memory，PROM)，可擦除可编程只读存储器(英文：erasable programmable readonly memory，EPROM)，电可擦除可编程只读存储器(英文：electrically erasableprogrammable read-only memory，EEPROM)。非易失性存储器也可以为快闪存储器(英文：flash memory)，磁存储器，例如磁带(英文：magnetic tape)，软盘(英文：floppy disk)，硬盘。非易失性存储器也可以为光盘。

本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如图2、图3、图4或图6所示的文件聚类方法，可选地，该计算机可读存储介质包括高速存取存储器、非易失性存储器。

本申请实施例还提供了一种计算机程序产品，该程序产品中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如图2、图3、图4或图6所示的文件聚类方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文件聚类方法，其特征在于，所述方法包括：

将所述N个文件中具有相同最终标签的文件归为同一类簇。

2.根据权利要求1所述的方法，其特征在于，所述获取所述第i个文件的k_i个相似文件，包括：

获取所述N个文件中每个文件之间的关联程度，建立文件关联关系；

从所述文件关联关系中获取所述第i个文件与其他N-1个文件之间的关联程度；

将所述其他N-1个文件中与所述第i个文件的关联程度高于预设阈值的文件，确定为所述第i个文件的k_i个相似文件。

3.根据权利要求2所述的方法，其特征在于，所述获取所述N个文件中每个文件之间的关联程度，建立文件关联关系，包括：

获取所述N个文件中每个文件的特征值；

根据所述每个文件的特征值计算得到所述每个文件的特征哈希值；

在所述N个文件中任意获取第x个文件和第y个文件，其中，所述第x个文件的特征哈希值大于所述第y个文件的特征哈希值；

将所述第y个文件的特征哈希值除以所述第x个文件的特征哈希值，得到所述第x个文件和所述第y个文件之间的关联程度。

4.根据权利要求1至3任一所述的方法，其特征在于，所述将所述k_i个相似文件中出现次数最多的标签定义为参考标签，包括：

若所述k_i个相似文件中具有至少两个出现次数最多的标签，则在所述至少两个出现次数最多的标签中随机选择一个标签作为所述参考标签。

5.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

对于所述k_i个相似文件中当前标签不是所述参考标签的文件，将所述文件的当前标签均改为所述参考标签。

6.根据权利要求1至3任一所述的方法，其特征在于，所述N个文件中包含种子文件，所述种子文件是已知文件类别的文件；所述方法还包括：

根据所述种子文件的文件类别，将与所述种子文件归为同一类簇的其它文件的文件类别确定为所述种子文件的文件类别。

7.根据权利要求1至3任一项所述的方法，其特征在于，所述从N个文件中获取第i个文件的k_i个相似文件之前，还包括：

获取所述N个文件，为所述N个文件赋予初始标签，其中，所述N个文件中任意两个文件之间的初始标签不相同。

8.一种病毒文件检测方法，其特征在于，所述方法包括：

接收用户通过所述病毒查杀控件触发的操作信号；

显示所述至少一个文件的病毒查杀结果，

其中所述根据所述操作信号获取至少一个文件的病毒查杀结果，包括：

向服务器发送所述至少一个文件的标识信息；

接收所述服务器根据病毒库反馈的所述至少一个文件的病毒查杀结果，所述病毒库是所述服务器通过以下方法构建的：

获取N个文件，所述N个文件包括a个病毒种子文件和N-a个文件类别未知的待测文件；

从所述N个文件中获取第i个文件的k_i个相似文件，每个文件具有各自的标签；

将与所述病毒种子文件具有相同最终标签的待测文件的文件类别确定为病毒文件；根据所述病毒文件构建所述病毒库。

9.一种文件聚类装置，其特征在于，所述装置包括：

标签修改单元，当所述第i个文件的当前标签与所述参考标签不同时，用于将所述第i个文件的所述当前标签改为所述参考标签；重复执行上述步骤，直到所述每个文件的所述当前标签和所述参考标签均相同时，得到所述每个文件的最终标签；

10.根据权利要求9所述的装置，特征在于，所述装置还包括第二获取单元和确定单元：

11.根据权利要求10所述的装置，特征在于，

所述装置还包括计算单元；

12.根据权利要求9至11所述的装置，其特征在于，所述装置还包括选择单元：

13.一种文件聚类设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的文件聚类方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至7任一所述的文件聚类方法。