CN109800775B - 文件聚类方法、装置、设备及可读介质 - Google Patents

文件聚类方法、装置、设备及可读介质 Download PDF

Info

Publication number
CN109800775B
CN109800775B CN201711147463.0A CN201711147463A CN109800775B CN 109800775 B CN109800775 B CN 109800775B CN 201711147463 A CN201711147463 A CN 201711147463A CN 109800775 B CN109800775 B CN 109800775B
Authority
CN
China
Prior art keywords
file
files
label
ith
virus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711147463.0A
Other languages
English (en)
Other versions
CN109800775A (zh
Inventor
雷经纬
罗元海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201711147463.0A priority Critical patent/CN109800775B/zh
Publication of CN109800775A publication Critical patent/CN109800775A/zh
Application granted granted Critical
Publication of CN109800775B publication Critical patent/CN109800775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文件聚类方法、装置、设备及可读介质,属于计算机数据处理技术领域。所述方法包括:从N个文件中获取第i个文件的ki个相似文件;将ki个相似文件中出现次数最多的标签定义为参考标签;当第i个文件的当前标签与参考标签不同时,将第i个文件的当前标签改为参考标签;重复执行上述步骤,直到每个文件的当前标签和参考标签均相同,得到每个文件的最终标签;将具有相同最终标签的文件归为同一类簇。本申请通过改变每个当前标签和参考标签不相同的文件的当前标签,多次迭代后获得每个文件的最终标签,将具有相同最终标签的文件归为同一类簇,从而能够将表面上关联程度较低但实质上是同一类型的文件归为一类,提高了文件聚类的准确性。

Description

文件聚类方法、装置、设备及可读介质
技术领域
本申请涉及计算机数据处理技术领域,尤其涉及一种文件聚类方法、装置、设备及可读介质。
背景技术
文件聚类是基于相似性算法,将多个文件分类至不同类簇的技术。比如,对于安卓(Android)操作系统的100个程序文件,通过文件聚类技术区分出正常文件和病毒文件。
相关技术提供的一种文件聚类方法为:收集多个文件;获得多个文件的特征值;根据每个文件的特征值获得任意两个文件之间的关联程度;将关联程度高于阈值的文件归为同一类簇中。
某些文件具有传播和演化的特性,比如病毒文件。因此一个初始病毒文件通过多次传播和演化后生成的后续病毒文件,其特征值和初始病毒文件差别较大,通过上述文件聚类方法,无法将表面上关联程度较低但实质上是同一类型的文件归为一类。
发明内容
本申请实施例提供了一种文件聚类方法、装置、设备及可读介质可以解决相关技术的问题。所述技术方案如下:
一方面,提供了一种文件聚类方法,包括:
从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签;
将所述ki个相似文件中出现次数最多的标签定义为参考标签;
当所述第i个文件的当前标签与所述参考标签不同时,则将所述第i个文件的所述当前标签改为所述参考标签;
重复执行上述步骤,直到所述每个文件的所述当前标签和所述参考标签均相同,得到所述每个文件的最终标签;
将所述N个文件中具有相同最终标签的文件归为同一类簇。
另一方面,提供了一种病毒文件检测方法,所述方法包括:
提供病毒查杀界面,所述病毒查杀界面中包括病毒查杀控件;
接收用户通过所述病毒查杀控件触发的操作信号;
根据所述操作信号获取至少一个文件的病毒查杀结果,所述病毒查杀结果是按照所述文件和病毒种子文件之间的相似性进行标签聚类后,根据所述文件是否与所述病毒种子文件具有相同最终标签所得到的;
显示所述至少一个文件的病毒查杀结果。另一方面,提供了一种文件聚类装置,所述装置包括:
第一获取单元,用于从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签;
定义单元,用于将所述ki个相似文件中出现次数最多的标签定义为参考标签;
标签修改单元,当所述第i个文件的当前标签与所述参考标签不同时,用于将所述第i个文件的所述当前标签改为所述参考标签;重复执行上述步骤,直到所述每个文件的所述当前标签和所述参考标签均相同,得到所述每个文件的最终标签;
聚类单元,用于将所述N个文件中具有相同最终标签的文件归为同一类簇。
在一种可能的实施方式中,所述装置还包括第二获取单元和确定单元:
所述第二获取单元,用于获取所述N个文件中每个文件之间的关联程度,建立文件关联关系;
所述第一获取单元,还用于从所述文件关联关系中获取所述第i个文件与其他N-1个文件之间的关联程度;
所述确定单元,用于将所述其他N-1个文件中与所述第i个文件的关联程度高于预设阈值的文件,确定为所述第i个文件的ki个相似文件。
在一种可能的实施方式中,
所述第二获取单元,还用于获取所述N个文件中每个文件的特征值;
所述装置还包括计算单元;
所述计算单元,用于根据所述每个文件的特征值计算得到所述每个文件的特征哈希值;在所述N个文件中任意获取第x个文件和第y个文件,其中,所述第x个文件的特征哈希值大于所述第y个文件的特征哈希值;将所述第y个文件的特征哈希值除以所述第x个文件的特征哈希值,得到所述第x个文件和所述第y个文件之间的关联程度。
在一种可能的实施方式中,所述装置还包括选择单元:
所述选择单元,用于若所述ki个相似文件中具有至少两个出现次数最多的标签,则在所述至少两个出现次数最多的标签中随机选择一个标签作为所述参考标签。
在一种可能的实施方式中,
所述标签修改单元,还用于对于所述ki个相似文件中当前标签不是所述参考标签的文件,将所述文件的当前标签均改为所述参考标签。
在一种可能的实施方式中,所述N个文件中包含种子文件,所述种子文件是已知文件类别的文件;
所述聚类单元,还用于根据所述种子文件的文件类别,将与所述种子文件归为同一类簇的其它文件的文件类别确定为所述种子文件的文件类别。
在一种可能的实施方式中,所述装置还包括标签赋予单元;
所述第二获取单元,还用于获取所述N个文件;
所述标签赋予单元,用于为所述N个文件赋予初始标签,其中,所述N个文件中任意两个文件之间的初始标签不相同。
另一方面,提供了一种文件聚类设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述任一方面任意一种可能的实施方式所述的文件聚类方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如上述任一方面任意一种可能的实施方式所述的文件聚类方法。
本申请通过将第i个文件的ki个相似文件中出现次数最多的标签定义为参考标签,若第i个文件的当前标签不是参考标签,则将第i个文件的当前标签改为参考标签,多次迭代后,获得N个文件中每个文件的最终标签,将最终标签相同的文件归为同一类簇,解决了相关技术中无法将表面上关联程度较低但实质上是同一类型的文件归为一类的技术问题,通过多次迭代获得最终标签,从而获得了实质上是同一类型的文件具有的相同的最终标签,从而能够将表面上关联程度较低但实质上是同一类型的文件归为同一类簇,提高了文件聚类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的文件聚类方法所涉及的实施环境的示意图;
图2是本申请一个示例性实施例提供的文件聚类方法的方法流程图;
图3是本申请另一个示例性实施例提供的文件聚类方法的方法流程图;
图4是本申请另一个示例性实施例提供的文件聚类方法的方法流程图;
图5是本申请一个示例性实施例提供的第一数据库和第二数据库的框图;
图6是本申请另一个示例性实施例提供的文件聚类方法的方法流程图;
图7是本申请一个示例性实施例提供的输出文件类别的文件聚类方法的流程图;
图8是本申请一个示例性实施例提供的病毒检测方法的方法流程图;
图9是本申请一个示例性实施例提供的病毒检测方法所涉及的实施环境的示意图;
图10是本申请一个示例性实施例提供的病毒库构建方法的方法流程图;
图11是本申请另一个示例性实施例提供的病毒检测方法的方法流程图;
图12是本申请一个示例性实施例提供的病毒检测方法所涉及的实施环境的示意图;
图13是本申请一个示例性实施例提供的文件聚类装置的装置框图;
图14是本申请一个示例性实施例提供的文件聚类设备的各个模块的结构框图;
图15是本申请一个示例性实施例提供的文件聚类设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个示例性实施例提供的文件聚类方法所涉及的实施环境的示意图,如图1所示,该实施环境可以包括:数据源110、分布式处理系统120以及数据消费设备130。
数据源110,用于产生和存储流式数据或静态数据集。数据源110可以是存储有N个文件的至少一个数据库。其中,N个文件可以是流式数据和/或静态数据。
分布式处理系统120,用于将来自外部的数据源110的流式数据和/或静态数据进行数据处理,得到结果数据;然后将结果数据输出给数据消费设备130进行持久化存储或利用,其包括管理节点122和至少一个计算节点124。
可选地,分布式处理系统120用于将至少一个数据源110的N个文件处理为至少一个类簇,并将该至少一个类簇输出至数据消费设备130。
可选地,管理节点122用于对各个计算节点124进行资源管理、主备管理、应用管理和任务管理中的至少一种。资源管理是指对各个计算节点124中的计算资源进行管理;主备管理是指对各个计算节点124在发生故障时,实现主备切换管理;应用管理是指对运行在分布式处理系统上的至少一个分布式处理应用进行管理;任务管理是指对于一个分布式处理应用对应的若干个任务进行管理。在不同的计算系统中,管理节点122可能具有不同的名称,比如,主控节点(Master node)。
管理节点122通过有线网络、无线网络或专用硬件接口与计算节点124相连。
计算节点124负责处理对流式数据和/或静态数据的计算任务。当存在多个计算节点124时,多个计算节点124之间通过有线网络、无线网络或专用硬件接口相连。
可以理解的是,在虚拟化场景下,分布式处理系统120的管理节点122和计算节点124也可以由运行在通用硬件上的虚拟机来实现。本申请实施例不限定管理节点122是物理实体还是逻辑实体,也不限定计算节点124是物理实体还是逻辑实体。
数据消费设备130,用于对分布式处理系统120输出的结果数据进行持久化存储或实时利用的设备。数据消费设备130可以采用数据库作为存储形式。
可选的,数据消费设备130获取分布式处理系统输出的至少一个类簇,或,输出至少一个类簇中每个文件的文件类别。
请参考图2,其示出了本申请一个示例性实施例提供的文件聚类方法的方法流程图。本实施例以该文件聚类方法应用于文件聚类设备中为例,该设备可以是如图1所示的分布式处理系统120,该方法包括:
在步骤201中,文件聚类设备从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签。
文件聚类设备从N个文件中获取第i个文件的ki个相似文件,其中,第i个文件和其ki个近似文件已经具有各自的标签。
可选的,文件聚类设备在获得N个文件后,为N个文件标上标签,其中,任意两个文件之间的标签不相同,该标签可以更改,更改之后每个文件的当前标签由更改之前的标签改为更改之后的标签。可选地,初始标定的标签可以不具有实际含义,仅用于区分不同的文件。
例如,第i个文件Ai是N个文件{A1、A2、A3……AN}中的任意一个,其当前标签为Ti,其具有ki个相似文件,记为:
Ai:{A1、A2、……、Am}
其中,{A1、A2、……、Am}对应的标签分别为{T1、T2、……、Tm}。
在步骤202中,文件聚类设备将ki个相似文件中出现次数最多的标签定义为参考标签。
文件聚类设备获得ki个相似文件及其分别对应的标签后,将该ki个相似文件中标签次数出现最多的标签,定义为第i个文件Ai的参考标签。
例如,在第i个文件Ai的ki个相似文件{A1、A2、……、Am}中,若标签Ts出现的次数最多,则将标签Ts定义为参考标签。
在步骤203中,当第i个文件的当前标签与参考标签不同时,文件聚类设备则将第i个文件的当前标签改为参考标签。
文件聚类设备判断第i个文件的当前标签和参考标签是否相同,若不相同,则将第i个文件的当前标签改为参考标签。
例如,若第i个文件Ai的当前标签Ti和参考标签Ts不相同,则将Ai的标签改为Ts
可选的,若第i个文件Ai的当前标签和参考标签相同,则在本轮次中,第i个文件Ai的标签不变。
在步骤204中,文件聚类设备重复执行上述步骤,直到每个文件的当前标签和参考标签均相同,得到每个文件的最终标签。
文件聚类设备重复执行上述步骤,直到每个文件的当前标签和参考标签均相同,此时每个文件对应的标签为每个文件的最终标签。轮次结束,获得每个文件的最终标签。
在步骤205中,文件聚类设备将N个文件中具有相同最终标签的文件归为同一类簇。
文件聚类设备根据N个文件中每个文件的最终标签,将最终标签相同的文件归为同一类簇。
综上所述,本申请实施例中,通过将第i个文件的ki个相似文件中出现次数最多的标签定义为参考标签,若第i个文件的当前标签不是参考标签,则将第i个文件的当前标签改为参考标签,多次迭代后,获得N个文件中每个文件的最终标签,将最终标签相同的文件归为同一类簇,解决了相关技术中无法将表面上关联程度较低但实质上是同一类型的文件归为一类的技术问题,通过多次迭代获得最终标签,从而获得了实质上是同一类型的文件具有的相同的最终标签,从而能够将表面上关联程度较低但实质上是同一类型的文件归为同一类簇,提高了文件聚类的准确性。
本申请实施例中,遍历N个文件,获得每个文件的参考标签的步骤为一个轮次,其中,获得任意一个文件的参考标签的步骤为该文件的当前轮次。若第i个文件的当前标签与其参考标签不相同,可以通过两种方式将其当前标签改为参考标签:一、在第i个文件的当前轮次将第i个文件的当前标签改为参考标签,因此,在第i个文件的轮次之后,若第i个文件是其他文件的近似文件,则在该轮次,第i个文件的当前标签为更改之后的参考标签;二、在遍历N个文件中每个文件之后,获得每个文件的参考标签,若第i个文件的当前标签与其参考标签不相同,将第i个文件的当前标签改为参考标签。
以N=5,N个文件分别为A1、A2、A3、A4、A5为例,对本申请实施例做示意性说明:
文件聚类设备获取5个文件A1、A2、A3、A4、A5,给5个文件分别赋予各自对应的初始标签,为T1、T2、T3、T4、T5
文件聚类设备根据5个文件之间的关联程度,获得每个文件的相似文件,例如:
A1:{A2}
A2:{A1、A3}
A3:{A2、A4}
A4:{A3、A5}
A5:{A4}
文件聚类设备获得每个文件的参考标签,将当前标签和参考标签不同的文件的当前标签改为参考标签:
对于A1,其当前标签为T1,其相似文件为A2,A2的当前标签为T2,由于T1和T2都出现了一次,因此都是出现次数最多的标签,可以随机选择一个作为参考标签,若随机选择后T2为参考标签,因此本轮次中将A1的当前标签改为T2
对于A2,其当前标签为T2,其相似文件为A1、A3,其当前标签分别为T2、T3,由于标签T2出现了4次,标签T3出现了1次,因此T2是出现次数最多的标签,由于A2的当前标签为T2,因此本轮次中A2保持当前标签不变;
对于A3,其当前标签是T3,其相似文件为A2、A4,其当前标签分别为T2、T4,由于标签T2出现了5次,标签T3和T4出现了1次,因此T2是出现次数最多的标签,由于A3的当前标签为T3,因此本轮次中将A3的当前标签改为T2
对于A4,其当前标签为T4,其相似文件为A3、A5,其当前标签分别为T2、T5,由于标签T2出现了6次,标签T4和T5出现了1次,因此T2是出现次数最多的标签,由于A4的当前标签为T4,因此本轮次中将A4的当前标签改为T2
对于A5,其当前标签为T5,其相似文件是A4,其当前标签为T2,由于标签T2出现了7次,标签T5出现了1次,因此T2是出现次数最多的标签,由于A5的当前标签为T5,因此本轮次中将A5的当前标签改为T2
通过第一轮,得到文件A1至A5的当前标签都为T2,通过第二轮的计算,得到文件A1至A5的当前标签与参考标签相同,都是T2,因此在第二轮中每个文案的当前标签T2即为每个文件的最终标签,由于每个文件的最终标签都是T2,因此文件A1至A5都归入同一类簇。
在一个可选的实施例中,图2所示出的步骤201可实现成为如下步骤301至步骤303,如图3所示:
在步骤301中,文件聚类设备获取N个文件中每个文件之间的关联程度,建立文件关联关系。
文件聚类设备获取N个文件中任意两个文件之间的关联程度,建立文件关联关系。
文件聚类设备可通过多种方式获得N个文件中任意两个文件之间的关联程度。例如,文件聚类设备在获得N个文件之后,对N个文件先进行特征值提取,获得N个文件中每个文件的特征值,通过计算任意两个文件之间特征值之间的相似度,获得任意两个文件之间的关联程度。
可选的,文件聚类设备将N个文件中每个文件之间的关联程度建立文件关联关系数据库。
例如,N个文件中,第1个文件和第2个文件之间的关联程度记为a12,第2个文件和第3个文件之间的关联程度记为a23,则,N个文件中任意两个文件,第i个文件Ai和第j个文件Aj的关联程度记为aij。将N个文件中任意两个文件之间的关联程度构成文件关联矩阵,记为:
Figure BDA0001472786910000091
其中,aij=aji,a11=a22=a33=……=aNN=1。
在步骤302中,文件聚类设备从文件关联关系中获取第i个文件与其他N-1个文件之间的关联程度。
文件聚类设备通过文件关联关系获得第i个文件与其他N-1个文件之间的关联程度。
在步骤303中,文件聚类设备将其他N-1个文件中与第i个文件的关联程度高于预设阈值的文件,确定为第i个文件的ki个相似文件。
文件聚类设备将其他N-1个文件中与第i个文件的关联程度高于预设阈值的文件,确定为第i个文件的ki个相似文件。
综上所述,本申请实施例中,通过获得N个文件中任意两个文件之间的关联关系构建文件关联关系对应关系,通过将与第i个文件的关联程度高于预设阈值的文件确定为第i个文件的相似文件,提高了文件聚类设备获取N个文件中每个文件的相似文件的准确度。
在一个可选的实施例中,图3所示出的步骤301可实现成为如下步骤301a至步骤301d,如图4所示:
在步骤301a中,文件聚类设备获取N个文件中每个文件的特征值。
文件聚类设备在获得N个文件之后,对N个文件中的每个文件先进行特征值提取,获得N个文件中每个文件的特征值。
在步骤301b中,文件聚类设备根据每个文件的特征值计算得到每个文件的特征哈希值。
文件聚类设备在获得N个文件中每个文件的特征值后,可以将特征值二值编码后获得二进制的特征值,进而通过哈希算法将每个文件二进制的特征值转化为特征哈希值,获得每个文件的特征哈希值。
在步骤301c中,文件聚类设备在N个文件中任意获取第x个文件和第y个文件,其中,第x个文件的特征哈希值大于第y个文件的特征哈希值。
文件聚类设备在N个文件中任意获取第x个文件和第y个文件,其中,第x个文件的特征哈希值大于第y个文件的特征哈希值。
在步骤301d中,文件聚类设备将第y个文件的特征哈希值除以第x个文件的特征哈希值,得到第x个文件和第y个文件之间的关联程度。
文件聚类设备将第y个文件的特征哈希值除以第x个文件的特征哈希值,得到第x个文件和第y个文件之间的关联程度。
本申请实施例中,任意两个文件之间的关联程度是其各自对应的特征哈希值的比值,为了便于数值统一,关联程度是一个小于1的值,因此,将任意两个文件之间的特征哈希值相除时,分母的值要大于分子的值。
例如,第x个文件Ax的特征哈希值为9826,第y个文件Ay的特征哈希值为8642,由于8642<9826,因此第x个文件Ax和第y个文件Ay之间的关联程度axy=ayx=8642/9826=0.8789,文件聚类设备将获得的axy和ayx填入图3实施例中的矩阵中。
综上所述,本申请实施例中,通过获取每个文件的特征哈希值计算任意两个文件之间的关联程度,降低了文件聚类设备的计算量,提高了获取文件关联关系的效率。
在一个示例性的例子中,如图5所示,本申请实施例中,文件聚类设备存储有N个文件的集合构成的第一数据库和文件关联关系构成的第二数据库,文件聚类设备从第一数据库中获取文件,从第二数据库中获取每个文件之间的关联关系。
请参考图6,其示出了本申请一个示例性实施例提供的文件聚类方法的方法流程图。本实施例以该文件聚类方法应用于文件聚类设备中为例,该设备可以是如图1所示的分布式处理系统120,该方法包括:
在步骤601中,文件聚类设备获取N个文件,N个文件中包含已知文件类别的种子文件。
文件聚类设备将获取的种子文件和待测文件构成N个文件的集合。其中,种子文件是已知文件类别的文件。
例如,文件聚类设备获取到N个文件的集合{A1、A2、A3、……、AN},该文件集合中包括已知文件类别的文件。
可选的,文件聚类设备将存储有N个文件的集合构成第一数据库。
在步骤602中,文件聚类设备为N个文件赋予初始标签,其中,任意两个文件之间的初始标签不相同。
文件聚类设备为N个文件赋予初始标签,其中,任意两个文件之间的初始标签不相同。
例如,文件聚类设备分别为A1、A2、A3、……、AN赋予标签初始T1、T2、T3、……、TN,其中,任意两个文件Ai和Aj之间的初始标签Ti和Tj不相同。
在步骤603中,文件聚类设备获取N个文件中每个文件之间的关联程度,建立文件关联关系。
文件聚类设备获取N个文件中任意两个文件之间的关联程度,建立文件关联关系。
文件聚类设备可通过多种方式获得N个文件中任意两个文件之间的关联程度。例如,文件聚类设备在获得N个文件之后,对N个文件先进行特征值提取,获得N个文件中每个文件的特征值,通过计算任意两个文件之间特征值之间的相似度,获得任意两个文件之间的关联程度。
可选的,文件聚类设备在获得N个文件之后,对N个文件中的每个文件先进行特征值提取,获得N个文件中每个文件的特征值;文件聚类设备在获得N个文件中每个文件的特征值后,将特征值二值编码后获得二进制的特征值,进而通过哈希算法将每个文件二进制的特征值转化为特征哈希值,获得每个文件的特征哈希值;将N个文件中任意两个文件之间的特征哈希值的比值作为该任意两个文件之间的关联程度,其中,为了便于数值统一,关联程度是一个小于1的值,因此,将任意两个文件之间的特征哈希值相除获得比值时,分母的值要大于分子的值。
可选的,文件聚类设备将N个文件中每个文件之间的关联程度建立文件关联关系数据库。
例如,N个文件中,第1个文件和第2个文件之间的关联程度记为a12,第2个文件和第3个文件之间的关联程度记为a23,则,N个文件中任意两个文件,第i个文件Ai和第j个文件Aj的关联程度记为aij。将N个文件中任意两个文件之间的关联程度构成文件关联矩阵,记为:
Figure BDA0001472786910000121
其中,aij=aji,a11=a22=a33=……=aNN=1。
在步骤604中,文件聚类设备从文件关联关系中获取第i个文件与其他N-1个文件之间的关联程度。
文件聚类设备通过文件关联关系获得第i个文件与其他N-1个文件之间的关联程度。
在步骤605中,文件聚类设备将其他N-1个文件中与第i个文件的关联程度高于预设阈值的文件,确定为第i个文件的ki个相似文件。
文件聚类设备将其他N-1个文件中与第i个文件的关联程度高于预设阈值的文件,确定为第i个文件的ki个相似文件。
在步骤606中,文件聚类设备将ki个相似文件中出现次数最多的标签定义为参考标签。
文件聚类设备获得ki个相似文件及其分别对应的标签后,将该ki个相似文件中标签次数出现最多的标签定义为参考标签。
例如,在第i个文件Ai的ki个相似文件{A1、A2、……、Am}中,在第i个文件之前的轮次中,若其中一次相似文件As的标签Ts出现的次数最多,则将Ts定义为参考标签。
若ki个相似文件中具有至少两个出现次数最多的标签,则在该至少两个出现次数最多的标签中随机选择一个标签作为所述参考标签。
例如,在第i个文件Ai的ki个相似文件{A1、A2、……、Am}中,若其中两个相似文件As和Ap对应的标签Ts和Tp出现的次数相同,且都是最多次,则文件聚类设备在Ts和Tp中随机选择一个作为第i个文件Ai的参考标签。
在步骤607中,文件聚类设备检测第i个文件的当前标签是否与参考标签相同。
文件聚类设备判断第i个文件的当前标签和参考标签是否相同。
在步骤608a中,文件聚类设备将第i个文件的当前标签改为参考标签。
若第i个文件的当前标签和参考标签不相同,则将第i个文件的当前标签改为参考标签。
例如,第i个文件的当前标签为Ti,参考标签为Ts,则将第i个文件的当前标签改为Ts,在之后的轮次中,若第i个文件成为其他文件的相似文件,则第i个文件在该轮次中的当前标签为Ts
由于在迭代过程中,任意一个文件的当前标签如果和参考标签不相同,仅仅改变该文件的当前标签,迭代的次数较多,运算效率较低。
可选的,对于第i个文件的ki个相似文件中当前标签不是参考标签的文件,将该文件的当前标签均改为参考标签。
例如,在第i个文件Ai的ki个相似文件{A1、A2、……、Am}中,参考标签为Ts,则将{A1、A2、……、Am}中当前标签不是Ts的,全部改为Ts,在之后的轮次中,再次出现{A1、A2、……、Am}中任意一个文件,在该轮次中的当前标签都是Ts
通过将第i个文件的ki个相似文件中当前标签不是参考标签的文件,将该文件的当前标签均改为参考标签,减少了迭代次数,提高了运算效率。
在步骤608b中,文件聚类设备将第i个文件的当前标签保持不变。
若第i个文件的当前标签和参考标签相同,则在本轮次中第i个文件的当前标签保持不变。
在步骤609中,文件聚类设备检测每个文件的当前标签和参考标签是否均相同。
文件聚类设备检测N个文件中每个文件的当前标签是否和参考标签相同,若存在当前标签和参考标签不相同的文件,则重复步骤606至步骤609;若每个文件的当前标签和参考标签均相同,则进入步骤610。
在步骤610中,文件聚类设备获得N个文件中每个文件的最终标签。
若每个文件的当前标签和参考标签均相同,则每个文件的当前标签即为最终标签,文件聚类设备获得每个文件的最终标签后,迭代结束。
在步骤611中,文件聚类设备将N个文件中具有相同最终标签的文件归为同一类簇。
文件聚类设备根据N个文件中每个文件的最终标签,将最终标签相同的文件归为同一类簇。
在步骤612中,文件聚类设备将与种子文件归为同一类簇的文件的文件类别确定为种子文件的文件类别。
文件聚类设备根据每个类簇中种子文件的文件类别,将和种子文件归为同一类簇的文件的文件类别确定为种子文件的文件类别。
在一个示例性的例子中,如图7所示,本申请实施例中,文件聚类设备将待测文件集合和种子文件集合聚合为具有N个文件集合的第一数据库;将N个文件中任意两个文件之间的文件关联关系构成的第二数据库,文件聚类设备从第一数据库中获取文件,从第二数据库中获取每个文件之间的关联关系。文件聚类设备将N个文件赋予初始标签后,通过第二数据库获取N个文件中每个文件的相似文件,通过获取每个文件的相似文件获得每个文件的参考标签,在每一个轮次后检测是否任意一个文件都不需要改变标签,若否,则继续上一个轮次,直到任意一个文件都不需要改变标签,将具有相同最终标签的文件归为同一类簇,根据种子文件的文件类别判断和种子文件同一类簇的文件的文件类别。
综上所述,本申请实施例中,通过将第i个文件的ki个相似文件中标签出现次数最多的标签定义为参考标签,若第i个文件的当前标签不是参考标签,则将第i个文件的当前标签改为参考标签,多次迭代后,获得N个文件中每个文件的最终标签,将最终标签相同的文件归为同一类簇,解决了相关技术中无法将表面上关联程度较低但实质上是同一类型的文件归为一类的技术问题,通过多次迭代获得最终标签,从而获得了实质上是同一类型的文件具有的相同的最终标签,从而能够将表面上关联程度较低但实质上是同一类型的文件归为同一类簇,提高了文件聚类的准确性。
进一步的,本申请实施例中,通过获得N个文件中任意两个文件之间的关联关系构建文件关联关系对应关系,通过将与第i个文件的关联程度高于预设阈值的文件确定为第i个文件的相似文件,提高了文件聚类设备获取N个文件中每个文件的相似文件的准确度。
进一步的,本申请实施例中,通过获取每个文件的特征哈希值计算任意两个文件之间的关联程度,降低了文件聚类设备的计算量,提高了获取文件关联关系的效率。
进一步的,本申请实施例中,通过将第i个文件的ki个相似文件中当前标签不是参考标签的文件,将该文件的当前标签均改为参考标签,减少了迭代次数,提高了运算效率。
请参考图8,其示出了本申请一个示例性实施例提供的病毒检测方法的方法流程图。本实施例以该病毒检测方法应用于如图9所示的终端910中为例,该方法包括:
在步骤801中,终端提供病毒查杀界面,该病毒查杀界面中包括病毒查杀控件。
如图9所示,用户点击终端打开安全管理程序后进入病毒查杀界面,该病毒查杀界面包括病毒查杀控件,在该病毒查杀界面可以选择需要查杀的文件,用户可以通过点击选取需要查杀的文件,例如图中所示的文件A。
在步骤802中,终端接收用户通过病毒查杀控件触发的操作信号。
如图9所示,用户点击病毒查杀控件,产生触发的操作信号,终端接收该操作信号。
在步骤803中,终端根据操作信号获取至少一个文件的病毒查杀结果。
终端接收该操作信号后,根据该操作信号向服务器发送至少一个文件的标识信息,然后接收服务器根据病毒库反馈的至少一个文件的病毒查杀结果,该病毒查杀结果是按照文件和病毒种子文件之间的相似性进行标签聚类后,根据文件是否与病毒种子文件具有相同最终标签所得到的。
在步骤804中,终端显示至少一个文件的病毒查杀结果。
终端在接收到服务器反馈的至少一个文件的病毒查杀结果后,显示该至少一个文件的病毒查杀结果。
例如,如图9所示,终端在接收到文件A不是病毒文件的病毒查杀结果时,在安全管理程序中显示“文件A不是病毒,请放心使用!”。
请参考图10,其示出了本申请一个示例性实施例提供的病毒库构建方法的方法流程图。本实施例以该病毒检测方法应用于如图9所示的服务器920中为例,该方法包括:
在步骤1001中,服务器获取N个文件,该N个文件包括a个病毒种子文件和N-a个文件类别未知的待测文件。
服务器将获取的a个文件类别为病毒的种子文件和N-a个文件类别为未知的待测文件构成N个文件的集合。
在步骤1002中,服务器从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签。
服务器从N个文件中获取第i个文件的ki个相似文件,其中,第i个文件和其ki个近似文件已经具有各自的标签。
可选的,服务器在获得N个文件后,为N个文件标上标签,其中,任意两个文件之间的标签不相同,该标签可以更改,更改之后每个文件的当前标签由更改之前的标签改为更改之后的标签。可选地,初始标定的标签可以不具有实际含义,仅用于区分不同的文件。
可选的,服务器存储有N个文件的集合构成的第一数据库和文件关联关系构成的第二数据库,服务器从第一数据库中获取文件,从第二数据库中获取每个文件之间的关联关系。文件关联关系数据库的构建可参考图3和图4的实施例,在此不做赘述。
在步骤1003中,服务器将ki个相似文件中出现次数最多的标签定义为参考标签。
服务器获得ki个相似文件及其分别对应的标签后,将该ki个相似文件中标签次数出现最多的标签,定义为第i个文件的参考标签。
在步骤1004中,当第i个文件的当前标签与参考标签不同时,服务器将第i个文件的当前标签改为参考标签。
服务器判断第i个文件的当前标签和参考标签是否相同,若不相同,则将第i个文件的当前标签改为参考标签。
可选的,对于第i个文件的ki个相似文件中当前标签不是参考标签的文件,将该文件的当前标签均改为参考标签。
在步骤1005中,服务器重复执行上述步骤,直到每个文件的当前标签和参考标签均相同,得到每个文件的最终标签。
服务器重复执行上述步骤,直到每个文件的当前标签和参考标签均相同,此时每个文件对应的标签为每个文件的最终标签。轮次结束,获得每个文件的最终标签。
在步骤1006中,服务器将与病毒种子文件具有相同最终标签的待测文件的文件类别确定为病毒文件;根据病毒文件构建病毒库。
在获得每个文件的最终标签后,服务器将与病毒种子文件具有相同最终标签的待测文件的文件类别确定为病毒文件。
服务器根据病毒文件构建病毒库。
当终端侧需要检测需要查杀的文件是否为病毒时,向服务器发送该文件的标识信息,服务器接收到标识信息后,根据标识信息在病毒库中查询是否存在该标识信息对应的文件,若病毒库中存在该文件,则确定该文件的文件类别为病毒文件,若不存在该文件,则确定该文件的文件类别为安全文件。
请参考图11,其示出了本申请另一个示例性实施例提供的病毒检测方法的方法流程图。本实施例以该病毒检测方法应用于如图12所示的终端910中为例,该方法包括:
在步骤1101中,终端在应用市场程序中下载应用程序的安装包。
用户点击打开应用市场程序,点击下载应用程序的安装包,终端根据用户点击下载触发的操作信号下载应用程序的安装包。
如图12所示,用户点击应用市场程序中应用程序A的下载控件,终端910根据用户点击下载控件触发的操作信号下载应用程序A的安装包。
在步骤1102中,当应用程序的安装包下载完毕时,终端获取安装包的病毒查杀结果。
当应用程序的安装包下载完毕时,向服务器发送安装包的标识信息,然后接收服务器根据病毒库反馈的安装包的病毒查杀结果,该病毒查杀结果是按照文件和病毒种子文件之间的相似性进行标签聚类后,根据文件是否与病毒种子文件具有相同最终标签所得到的。
其中,病毒库的构建方法可参考图10所示的实施例,在此不做赘述。
在步骤1103中,终端在应用市场程序中显示安装包的病毒查杀结果。
终端在接收到服务器反馈的安装包的病毒查杀结果后,在安全管理程序中显示该安装包的病毒查杀结果。
例如,如图12所示,终端在接收到安装包A不是病毒文件的病毒查杀结果时,应用市场程序中显示“安装包A已下载完成,经检测不是病毒,请放心使用!”。
请参考图13,其示出了本申请一个示例性实施例提供的文件聚类装置的装置框图。本实施例以该文件聚类方法应用于文件聚类设备中为例,该设备可以是如图1所示的分布式处理系统120,该装置包括第一获取单元1301、定义单元1303、标签修改单元1305以及聚类单元1306:
第一获取单元1301,用于从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签。
定义单元1303,用于将ki个相似文件中出现次数最多的标签定义为参考标签。
标签修改单元1305,当第i个文件的当前标签与参考标签不同时,用于将第i个文件的当前标签改为参考标签。
第一获取单元1301、定义单元1303、标签修改单元1305重复执行上述步骤,直到每个文件的当前标签和参考标签均相同,得到每个文件的最终标签。
聚类单元1306,用于将N个文件中具有相同最终标签的文件归为同一类簇。
在一个可选的实施例中,文件聚类设备还包括第二获取单元1307和确定单元1309:
第二获取单元1307,用于获取N个文件中每个文件之间的关联程度,建立文件关联关系。
第一获取单元1301,还用于从文件关联关系中获取第i个文件与其他N-1个文件之间的关联程度。
确定单元1309,用于将其他N-1个文件中与第i个文件的关联程度高于预设阈值的文件,确定为第i个文件的ki个相似文件。
在一个可选的实施例中,文件聚类装置还包括计算单元1308:
第二获取单元1307,还用于获取N个文件中每个文件的特征值。
计算单元1308,用于根据每个文件的特征值计算得到每个文件的特征哈希值;在N个文件中任意获取第x个文件和第y个文件,其中,第x个文件的特征哈希值大于第y个文件的特征哈希值;将第y个文件的特征哈希值除以第x个文件的特征哈希值,得到第x个文件和第y个文件之间的关联程度。
在一个可选的实施例中,文件聚类装置还包括选择单元1304:
选择单元1304,用于若ki个相似文件中具有至少两个出现次数最多的标签,则在至少两个出现次数最多的标签中随机选择一个标签作为参考标签。
在一个可选的实施例中,标签修改单元805还用于对于ki个相似文件中当前标签不是参考标签的文件,将该文件的当前标签均改为参考标签。
在一个可选的实施例中,N个文件中包含种子文件,种子文件是已知文件类别的文件;
聚类单元1306,还用于根据种子文件的文件类别,将与种子文件归为同一类簇的其它文件的文件类别确定为种子文件的文件类别。
在一个可选的实施例中,文件聚类装置还包括标签赋予单元1302:
第二获取单元1307,还用于获取N个文件。
标签赋予单元1302,用于为N个文件赋予初始标签,其中,N个文件中任意两个文件之间的初始标签不相同。
在一个示例性的例子中,如图14所示,本申请实施例中,文件聚类设备包括文件关联关系子模块1401、标签传播子模块1402以及检测流程控制子模块1403,这三个子模块相互协作,相互调用数据,待测文件集合和种子文件集合通过这三个子模块的处理输出待测文件的文件类别。其中,文件关联关系子模块1401包括第二获取单元1307、计算单元1308以及确定单元1309;标签传播子模块1402包括第一获取单元1301、标签赋予单元1302、定义单元1303、选择单元1304以及标签修改单元1305;检测流程控制子模块1403包括聚类单元1306。
综上所述,本申请实施例中,通过定义单元将第i个文件的ki个相似文件中出现次数最多的标签定义为参考标签,若第i个文件的当前标签不是参考标签,标签修改单元则将第i个文件的当前标签改为参考标签,多次迭代后,获得N个文件中每个文件的最终标签,聚类单元将最终标签相同的文件归为同一类簇,解决了相关技术中无法将表面上关联程度较低但实质上是同一类型的文件归为一类的技术问题,通过多次迭代获得最终标签,从而获得了实质上是同一类型的文件具有的相同的最终标签,从而能够将表面上关联程度较低但实质上是同一类型的文件归为同一类簇,提高了文件聚类的准确性。
进一步的,本申请实施例中,通过第二获取单元获得N个文件中任意两个文件之间的关联关系构建文件关联关系对应关系,通过确定单元将与第i个文件的关联程度高于预设阈值的文件确定为第i个文件的相似文件,提高了文件聚类设备获取N个文件中每个文件的相似文件的准确度。
进一步的,本申请实施例中,通过第二获取单元和计算单元获取每个文件的特征哈希值计算任意两个文件之间的关联程度,降低了文件聚类设备的计算量,提高了获取文件关联关系的效率。
进一步的,本申请实施例中,通过标签修改单元将第i个文件的ki个相似文件中当前标签不是参考标签的文件,将该文件的当前标签均改为参考标签,减少了迭代次数,提高了运算效率。
请参见图15,其示出了本申请一个实施例提供的文件聚类设备的结构框图。该文件聚类设备包括:处理器1501、存储器1502以及通信接口1503。
通信接口1503通过总线或其它方式与处理器1501相连,用于接收至少一个数据源传输的至少一个文件。
处理器1501可以是中央处理器(英文:central processing unit,CPU),网络处理器(英文:network processor,NP)或者CPU和NP的组合。处理器1001还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integratedcircuit,ASIC),可编程逻辑器件(英文:programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,FPGA),通用阵列逻辑(英文:generic array logic,GAL)或其任意组合。
存储器1502通过总线或其它方式与处理器1501相连,存储器1502中存储有至少一条指令、至少一段程序、代码集或指令集,上述至少一条指令、至少一段程序、代码集或指令集由处理器1001加载并执行以实现如图2、图3、图4或图6的文件聚类方法。存储器1502可以为易失性存储器(英文:volatile memory),非易失性存储器(英文:non-volatile memory)或者它们的组合。易失性存储器可以为随机存取存储器(英文:random-access memory,RAM),例如静态随机存取存储器(英文:static random access memory,SRAM),动态随机存取存储器(英文:dynamic random access memory,DRAM)。非易失性存储器可以为只读存储器(英文:read only memory image,ROM),例如可编程只读存储器(英文:programmableread only memory,PROM),可擦除可编程只读存储器(英文:erasable programmable readonly memory,EPROM),电可擦除可编程只读存储器(英文:electrically erasableprogrammable read-only memory,EEPROM)。非易失性存储器也可以为快闪存储器(英文:flash memory),磁存储器,例如磁带(英文:magnetic tape),软盘(英文:floppy disk),硬盘。非易失性存储器也可以为光盘。
本申请实施例还提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如图2、图3、图4或图6所示的文件聚类方法,可选地,该计算机可读存储介质包括高速存取存储器、非易失性存储器。
本申请实施例还提供了一种计算机程序产品,该程序产品中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如图2、图3、图4或图6所示的文件聚类方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种文件聚类方法,其特征在于,所述方法包括:
从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签;
将所述ki个相似文件中出现次数最多的标签定义为参考标签;
当所述第i个文件的当前标签与所述参考标签不同时,则将所述第i个文件的所述当前标签改为所述参考标签;
重复执行上述步骤,直到所述每个文件的所述当前标签和所述参考标签均相同,得到所述每个文件的最终标签;
将所述N个文件中具有相同最终标签的文件归为同一类簇。
2.根据权利要求1所述的方法,其特征在于,所述获取所述第i个文件的ki个相似文件,包括:
获取所述N个文件中每个文件之间的关联程度,建立文件关联关系;
从所述文件关联关系中获取所述第i个文件与其他N-1个文件之间的关联程度;
将所述其他N-1个文件中与所述第i个文件的关联程度高于预设阈值的文件,确定为所述第i个文件的ki个相似文件。
3.根据权利要求2所述的方法,其特征在于,所述获取所述N个文件中每个文件之间的关联程度,建立文件关联关系,包括:
获取所述N个文件中每个文件的特征值;
根据所述每个文件的特征值计算得到所述每个文件的特征哈希值;
在所述N个文件中任意获取第x个文件和第y个文件,其中,所述第x个文件的特征哈希值大于所述第y个文件的特征哈希值;
将所述第y个文件的特征哈希值除以所述第x个文件的特征哈希值,得到所述第x个文件和所述第y个文件之间的关联程度。
4.根据权利要求1至3任一所述的方法,其特征在于,所述将所述ki个相似文件中出现次数最多的标签定义为参考标签,包括:
若所述ki个相似文件中具有至少两个出现次数最多的标签,则在所述至少两个出现次数最多的标签中随机选择一个标签作为所述参考标签。
5.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
对于所述ki个相似文件中当前标签不是所述参考标签的文件,将所述文件的当前标签均改为所述参考标签。
6.根据权利要求1至3任一所述的方法,其特征在于,所述N个文件中包含种子文件,所述种子文件是已知文件类别的文件;所述方法还包括:
根据所述种子文件的文件类别,将与所述种子文件归为同一类簇的其它文件的文件类别确定为所述种子文件的文件类别。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述从N个文件中获取第i个文件的ki个相似文件之前,还包括:
获取所述N个文件,为所述N个文件赋予初始标签,其中,所述N个文件中任意两个文件之间的初始标签不相同。
8.一种病毒文件检测方法,其特征在于,所述方法包括:
提供病毒查杀界面,所述病毒查杀界面中包括病毒查杀控件;
接收用户通过所述病毒查杀控件触发的操作信号;
根据所述操作信号获取至少一个文件的病毒查杀结果,所述病毒查杀结果是按照所述文件和病毒种子文件之间的相似性进行标签聚类后,根据所述文件是否与所述病毒种子文件具有相同最终标签所得到的;
显示所述至少一个文件的病毒查杀结果,
其中所述根据所述操作信号获取至少一个文件的病毒查杀结果,包括:
向服务器发送所述至少一个文件的标识信息;
接收所述服务器根据病毒库反馈的所述至少一个文件的病毒查杀结果,所述病毒库是所述服务器通过以下方法构建的:
获取N个文件,所述N个文件包括a个病毒种子文件和N-a个文件类别未知的待测文件;
从所述N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签;
将所述ki个相似文件中出现次数最多的标签定义为参考标签;
当所述第i个文件的当前标签与所述参考标签不同时,则将所述第i个文件的所述当前标签改为所述参考标签;
重复执行上述步骤,直到所述每个文件的所述当前标签和所述参考标签均相同,得到所述每个文件的最终标签;
将与所述病毒种子文件具有相同最终标签的待测文件的文件类别确定为病毒文件;根据所述病毒文件构建所述病毒库。
9.一种文件聚类装置,其特征在于,所述装置包括:
第一获取单元,用于从N个文件中获取第i个文件的ki个相似文件,每个文件具有各自的标签;
定义单元,用于将所述ki个相似文件中出现次数最多的标签定义为参考标签;
标签修改单元,当所述第i个文件的当前标签与所述参考标签不同时,用于将所述第i个文件的所述当前标签改为所述参考标签;重复执行上述步骤,直到所述每个文件的所述当前标签和所述参考标签均相同时,得到所述每个文件的最终标签;
聚类单元,用于将所述N个文件中具有相同最终标签的文件归为同一类簇。
10.根据权利要求9所述的装置,特征在于,所述装置还包括第二获取单元和确定单元:
所述第二获取单元,用于获取所述N个文件中每个文件之间的关联程度,建立文件关联关系;
所述第一获取单元,还用于从所述文件关联关系中获取所述第i个文件与其他N-1个文件之间的关联程度;
所述确定单元,用于将所述其他N-1个文件中与所述第i个文件的关联程度高于预设阈值的文件,确定为所述第i个文件的ki个相似文件。
11.根据权利要求10所述的装置,特征在于,
所述第二获取单元,还用于获取所述N个文件中每个文件的特征值;
所述装置还包括计算单元;
所述计算单元,用于根据所述每个文件的特征值计算得到所述每个文件的特征哈希值;在所述N个文件中任意获取第x个文件和第y个文件,其中,所述第x个文件的特征哈希值大于所述第y个文件的特征哈希值;将所述第y个文件的特征哈希值除以所述第x个文件的特征哈希值,得到所述第x个文件和所述第y个文件之间的关联程度。
12.根据权利要求9至11所述的装置,其特征在于,所述装置还包括选择单元:
所述选择单元,用于若所述ki个相似文件中具有至少两个出现次数最多的标签,则在所述至少两个出现次数最多的标签中随机选择一个标签作为所述参考标签。
13.一种文件聚类设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的文件聚类方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至7任一所述的文件聚类方法。
CN201711147463.0A 2017-11-17 2017-11-17 文件聚类方法、装置、设备及可读介质 Active CN109800775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711147463.0A CN109800775B (zh) 2017-11-17 2017-11-17 文件聚类方法、装置、设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711147463.0A CN109800775B (zh) 2017-11-17 2017-11-17 文件聚类方法、装置、设备及可读介质

Publications (2)

Publication Number Publication Date
CN109800775A CN109800775A (zh) 2019-05-24
CN109800775B true CN109800775B (zh) 2022-10-28

Family

ID=66556042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711147463.0A Active CN109800775B (zh) 2017-11-17 2017-11-17 文件聚类方法、装置、设备及可读介质

Country Status (1)

Country Link
CN (1) CN109800775B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110501006B (zh) * 2019-08-29 2022-05-03 电子科技大学 一种异类传感器联合航迹关联与跟踪方法
CN111858486A (zh) * 2020-07-03 2020-10-30 北京天空卫士网络安全技术有限公司 一种文件分类方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236669A (zh) * 2010-04-30 2011-11-09 腾讯科技(深圳)有限公司 推荐列表的生成方法和装置、媒体服务器、客户端及方法
CN102622396A (zh) * 2011-11-30 2012-08-01 浙江大学 一种基于标签的web服务聚类方法
CN103281325A (zh) * 2013-06-04 2013-09-04 北京奇虎科技有限公司 基于云安全的文件处理方法及装置
CN105824955A (zh) * 2016-03-30 2016-08-03 北京小米移动软件有限公司 短信聚类方法及装置
CN106411891A (zh) * 2016-09-29 2017-02-15 北京小米移动软件有限公司 文件处理方法、装置、服务端和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198576B2 (en) * 2015-12-10 2019-02-05 AVAST Software s.r.o. Identification of mislabeled samples via phantom nodes in label propagation
CN107180190A (zh) * 2016-03-11 2017-09-19 深圳先进技术研究院 一种基于混合特征的Android恶意软件检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236669A (zh) * 2010-04-30 2011-11-09 腾讯科技(深圳)有限公司 推荐列表的生成方法和装置、媒体服务器、客户端及方法
CN102622396A (zh) * 2011-11-30 2012-08-01 浙江大学 一种基于标签的web服务聚类方法
CN103281325A (zh) * 2013-06-04 2013-09-04 北京奇虎科技有限公司 基于云安全的文件处理方法及装置
CN105824955A (zh) * 2016-03-30 2016-08-03 北京小米移动软件有限公司 短信聚类方法及装置
CN106411891A (zh) * 2016-09-29 2017-02-15 北京小米移动软件有限公司 文件处理方法、装置、服务端和设备

Also Published As

Publication number Publication date
CN109800775A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
US20240185133A1 (en) Root cause discovery engine
US11861478B2 (en) Machine learning model training method and apparatus, server, and storage medium
CN108595157B (zh) 区块链数据的处理方法、装置、设备和存储介质
CN107045503B (zh) 一种特征集确定的方法及装置
US20190149565A1 (en) Anomaly detection using cognitive computing
US11295242B2 (en) Automated data and label creation for supervised machine learning regression testing
US11514347B2 (en) Identifying and remediating system anomalies through machine learning algorithms
US20190258648A1 (en) Generating asset level classifications using machine learning
US20210344695A1 (en) Anomaly detection using an ensemble of models
US10878335B1 (en) Scalable text analysis using probabilistic data structures
CN111080304A (zh) 一种可信关系识别方法、装置及设备
US8683027B2 (en) Utilization of uncertainty dependency relationships between items in a data stream
US20210035025A1 (en) Systems and methods for optimizing machine learning models by summarizing list characteristics based on multi-dimensional feature vectors
US20240004993A1 (en) Malware detection in containerized environments
CN109800775B (zh) 文件聚类方法、装置、设备及可读介质
CN109492844B (zh) 业务策略的生成方法和装置
CN112839055B (zh) 面向tls加密流量的网络应用识别方法、装置及电子设备
CN110019193B (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN111667018A (zh) 一种对象聚类的方法、装置、计算机可读介质及电子设备
CN111611326A (zh) 一种客户关系管理数据库建立方法及系统
CN116361153A (zh) 固件代码的测试方法、装置、电子设备、存储介质
KR102137109B1 (ko) 로그 메시지의 패턴을 분류하는 방법 및 장치
EP3671467A1 (en) Gui application testing using bots
US20200097883A1 (en) Dynamically evolving textual taxonomies
CN112215527A (zh) 一种物流管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant