CN104008334A - 一种文件的聚类方法和设备 - Google Patents

一种文件的聚类方法和设备 Download PDF

Info

Publication number
CN104008334A
CN104008334A CN201310055669.6A CN201310055669A CN104008334A CN 104008334 A CN104008334 A CN 104008334A CN 201310055669 A CN201310055669 A CN 201310055669A CN 104008334 A CN104008334 A CN 104008334A
Authority
CN
China
Prior art keywords
message block
feature
information fingerprint
normalized
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310055669.6A
Other languages
English (en)
Other versions
CN104008334B (zh
Inventor
杨宜
于涛
陶波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310055669.6A priority Critical patent/CN104008334B/zh
Priority to PCT/CN2013/087948 priority patent/WO2014127655A1/zh
Publication of CN104008334A publication Critical patent/CN104008334A/zh
Priority to US14/828,218 priority patent/US20150356164A1/en
Application granted granted Critical
Publication of CN104008334B publication Critical patent/CN104008334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1727Details of free space management performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明实施例公开了文件的聚类方法和设备,应用于信息处理技术领域。本发明实施例中,在对待处理文件进行聚类时,可以通过对待处理文件中包含的多个信息块的特征的信息指纹的比较,来将信息指纹相同的待处理文件作为一个聚类,实现了文件的聚类。这样采用信息指纹的方式对待处理文件中信息块的特征进行标识,然后根据标识来进行聚类,相比现有技术中相似性比较,采用本发明实施例中计算特征的标识并聚类的运算量和复杂度会很大程度的降低。

Description

一种文件的聚类方法和设备
技术领域
本发明涉及信息处理技术领域,特别涉及文件的聚类方法和设备。
背景技术
随着互联网的发展,信息爆炸式地增长,其中,计算机病毒、蠕虫、木马程序等计算机恶意程序的信息每日都危害用户设备的安全,而大部分恶意程序的文件都是可移植可执行(Portable Executable,PE)格式的文件,这些PE文件虽然数量大,但是很多都具有家族特性。这样可以对PE文件先进行聚类(Cluster),即根据事先定义的度量将一些相似的对象组成群体,然后从聚类结果中发现新家族的PE文件,有利于病毒的分析和查杀。
目前,文件的聚类方法主要有两种,一种是传统的聚类方法,比如k均值聚类、层次聚类等,这种方法需要提取文件的特征,并通过对两个文件的特征进行相似性比较实现文件聚类;另一种是基于内容分割的分片哈希算法(Context Triggered Piecewise Hashing,CTPH),这种方法需要将文件进行分片,然后通过对两个文件的分片进行相似性的比较实现文件聚类。但是上述现有的文件聚类方法中相似性比较的计算量比较大,且比较复杂。
发明内容
本发明实施例提供文件的聚类方法和设备,简化文件聚类的复杂度。
本发明实施例提供一种文件的聚类方法,包括:
分别对待处理文件中的多个信息块的进行特征提取;
计算提取的所述多个信息块中各个信息块的特征的信息指纹;
根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹;
将信息指纹相同的待处理文件作为一个聚类输出。
本发明实施例提供一种文件的聚类设备,包括:
特征提取单元,用于分别对待处理文件中的多个信息块的进行特征提取;
第一指纹计算单元,用于计算提取的所述多个信息块中各个信息块的特征的信息指纹;
第二指纹计算单元,用于根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹;
聚类输出单元,用于将信息指纹相同的待处理文件作为一个聚类输出。
本发明实施例中,在对待处理文件进行聚类时,可以通过对待处理文件中包含的多个信息块的特征的信息指纹的比较,来将信息指纹相同的待处理文件作为一个聚类,实现了文件的聚类。这样采用信息指纹的方式对待处理文件中信息块的特征进行标识,然后根据标识来进行聚类,相比现有技术中相似性比较,采用本发明实施例中计算特征的标识并聚类的运算量和复杂度会很大程度的降低。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文件的聚类方法流程图;
图2是本发明实施例中PE文件包含的.text节中数据的示意图;
图3是本发明实施例提供的另一种文件的聚类方法流程图;
图4是本发明实施例中一种PE文件的聚类方法流程图;
图5是本发明实施例提供的一种文件的聚类设备的示意图;
图6是本发明实施例提供的一种文件的聚类设备的示意图;
图7是本发明实施例提供的一种文件的聚类设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文件的聚类方法,比如对PE等文件的聚类主要是计算机所执行的方法,流程图如图1所示,包括:
步骤101,分别对待处理文件中的多个信息块的进行特征提取。
可以理解,每个文件都可以划分为不同的信息块,对于PE文件来说,该PE文件可以用于不同的操作系统和体系结构中,且可以封装操作系统加载可执行程序代码时所必需的信息,包括动态链接库、导入和导出表、资源管理数据和线程局部存储数据等,而大部分恶意程序都是PE文件。PE文件可以分为不同的信息块,称为节(sections),比如.text节,.data节,.rsrc节,.reloc节等,每节中包含具有共同属性的数据,具体可以是数据0(00)到数据255(FF)之间的数据。
计算机可以对待处理文件中的全部或部分信息块进行特征提取,且在进行特征提取时,具体可以提取信息块的数据分布信息,该数据分布区信息可以指示各个数据在该信息块中分布的情况,具体可以包括部分或全部数据的频率和/或个数,比如数据1C出现的频率和个数等。例如图2所示的部分.text节的数据中,数据77出现的频率较大。
步骤102,计算步骤101中提取的多个信息块中各个信息块的特征的信息指纹,其中一个信息块的信息指纹是将该信息块加工得到的一个随机数,能作为区别其他信息块的标识,常用的信息指纹计算方法有局部敏感哈希计算等,本发明实施例中,得到的信息指纹可以标识一个信息块的特征。
步骤103,根据各个信息块的特征的信息指纹获取待处理文件的信息指纹,具体地,可以将各个信息块的特征的信息指纹拼接得到一个待处理文件的信息指纹;或可以通过其它方式得到待处理文件的信息指纹,该信息指纹中包含了该待处理文件包含步骤102中获得的各个信息块的特征的信息指纹。
步骤104,将步骤103中获得的信息指纹相同的待处理文件作为一个聚类输出。
可见,本发明实施例中,在对待处理文件进行聚类时,可以通过对待处理文件中包含的多个信息块的特征的信息指纹的比较,来将信息指纹相同的待处理文件作为一个聚类,实现了文件的聚类。这样采用信息指纹的方式对待处理文件中信息块的特征进行标识,然后根据标识来进行聚类,相比现有技术中相似性比较,采用本发明实施例中计算特征的标识并聚类的运算量和复杂度会很大程度的降低。
参考图3所示,在一个具体的实施例中,计算机在执行上述步骤102时,具体可以通过如下的步骤来实现:
步骤201,分别将步骤101中提取的多个信息块中各个信息块的特征进行归一化处理,这样可以将各个信息块的特征都统一成比较方便运算的数据。
步骤202,计算归一化处理后的各个信息块的特征的信息指纹,具体地计算机可以直接按照信息指纹的计算函数来计算,或可以通过如下步骤A和B来实现:
A:分别调整归一化处理后的所述各个信息块的特征的范围,具体可以通过核空间映射或加权等方法进行调整,从而根据实际情况缩放各个信息块的特征之间的差异,比如两个信息块的特征之间的差别为100,则通过本步骤的范围调整,使得这两个信息块的特征之间的差别缩小为20,更进一步地缩小了计算复杂度。
在通过核空间映射方法进行调整时,具体可以根据核空间的映射函数,将归一化处理后的各个信息块的特征分别映射到映射函数对应的核空间,且不同待处理文件中相同属性的信息块采用的映射函数相同,比如不同待处理的PE文件中.text节采用的映射函数相同,而一个待处理文件中不同信息块采用的映射函数可以相同,也可以不同。
通过加权方法进行调整时,计算机可以分别对归一化处理后的各个信息块的特征进行加权运算,且不同信息块对应的加权值可以不同,也可以相同。
B:计算调整范围后的各个信息块的特征的信息指纹,具体地,可以按照一定的信息指纹运算函数,来计算各个信息块的特征对应的信息指纹。
以下以一个具体的实施例来说明本发明实施例中文件的聚类方法,本实施例中,主要是计算机对十六进制的PE文件进行的聚类,流程图如图4所示,具体包括:
步骤301,判断PE文件是否加壳(Packer),即是否是通过一系列的数学运算使得编码改变后的PE文件,如果是,执行步骤302,如果不是,则执行步骤303。
步骤302,对加壳后的PE文件进行脱壳(Unpacker),即除掉PE文件的加壳保护,与步骤301互为逆运算,之后执行步骤303。
步骤303,分别提取PE文件中指定的m个节的数据分布信息,比如在每个节中0(00)到255(FF)之间的数据的分布频率,得到m个256维的特征向量记为Hi=[h0,h1,...,h255],i=1,...,m,其中hi可以表示各个数据的分布频率。其中,如果有些PE文件中没有该指定的m个节中的某些节,这这些节对应的特征向量为0,即Hi=[0,0,...,0]。
步骤304,对步骤303中得到的m个特征向量进行归一化处理,得到归一化后的m个特征向量,记为其中归一化处理所使用的函数为 h ‾ i = h i Σ 0 ≤ i ≤ 255 h i , 0 ≤ i ≤ 255 .
步骤305,调整归一化处理后的m个特征向量的范围,具体地,可以有但不限于如下两种方式:
(1)如果采用核空间映射方法,将特征向量之间的距离度量方式转化为核空间的距离度量方式。具体地:
计算机可以先选择一种合适的核空间,比如多项式核,径向基核函数(Radial Basis Function,RBF)核,x2核,或正交(Intersection)核等。然后采用选择的核空间的映射函数,分别得到m个特征向量在核空间中对应核空间向量i=1,...,m。其中,核空间的映射函数可以为:
在核空间的映射函数中,j为1到2n之间的整数,计算机可以指定一个阶数n,其中阶数越高,则映射函数的项数也越多,精度越高;L=2π/Λ,该Λ是选定周期;kj是对应核空间的核函数签名(kernel signature)的傅里叶反变换k(ω)的窗函数截断,kj=tjL(w*k)(jL),这里*代表卷积,w是所选窗函数的频域表示;上述映射函数中的γ由所选核空间的核函数本身决定,该γ可以满足k(cx,cy)=cγK(x,y),其中c为常数。
这样通过该映射函数得到的m个特征向量在核空间中对应核空间向量为:
H ~ i = [ Φ 0 ( h ‾ 0 ) , Φ 1 ( h ‾ 0 ) , . . . , Φ 2 n ( h ‾ 0 ) , . . . , Φ 0 ( h ‾ 255 ) , Φ 1 ( h ‾ 255 ) , . . . , Φ 2 n ( h ‾ 255 ) ] ,其中i=1,...,m。
上述核函数为满足Mercer定理的函数。假设有n维空间R上的向量x,y,假设通过映射函数Φ(x)将x,y映射到m维的核空间F上,得到F上的对应向量Φ(x),Φ(y),则核函数K(x,y)满足K(x,y)=<Φ(x),Φ(y)>(符号<,>表示内积)。如果将核函数K(x,y)表示为如下形式:则η(w)就称为该核函数的核函数签名。
例如,当计算机选择Intersection核,则该核空间的核函数为 选定阶段阶数n,比如n=1等;计算近似周期Λ=alog(n+b)+c(a,b,c可以在保证周期Λ大于0的情况下任意选择,比如a=2.0,b=0.99,c=3.52);计算Intersection核的核函数为选择矩形窗对k(叫进行截断,矩形窗的w的具体形式为: w = 2 sin &omega;&Lambda; / 2 &omega;&Lambda; , &omega; &NotEqual; 0 1 , &omega; = 0 . 这样可以根据计算的这些参数得到选择的Intersection核的映射函数,并进行核空间的映射。
(2)如果采用加权运算方法,将特征向量之间的距离度量方式通过加权值进行缩小。具体地将归一化后的m个特征向量与加权值α相乘,即其中熵值越大,α越大。
例如,Hs是的熵值,即而加权值α可以为:
步骤306,分别计算调整范围后的m个特征向量的信息指纹sigi,i=1,...,m,计算机可以选择一个计算信息指纹的函数来计算,以其中一个信息指纹计算函数为例来说明,具体地,针对步骤305中采用核空间映射方法得到的调整范围后的m个特征向量
(1)计算机选取m个阈值σ1,σ2,...,σm和信息指纹生成位数f1,f2,…,fm
(2)从期望为0,标准差为σi的256(2n+1)维的高斯分布函数中抽样fi个点Pi=(p0,p1,…,p256(2n+1)-1);
(3)从[0,2π]上的均匀分布函数中抽样fi个点Bi
(4)从[-1,1]上的均匀分布函数中抽样fi个点Ti
(5)调整范围后的m个特征向量的信息、指纹为:
si g i = [ sgn ( cos ( P 1 &CenterDot; H ~ 1 + B 1 ) + T 1 , . . . , sgn ( cos ( P f i H ~ f i + B f i ) + T f i ] ,i=1,...,m,其中符号·代表内积,sgn是符号函数, sgn ( x ) = 0 , x < 0 1 , x &GreaterEqual; 0 .
需要说明的是,如果针对采用加权方法得到调整范围后的m个特征向量在计算信息指纹时,与上述计算信息指纹的方法类似,在此不进行赘述。
步骤307,根据步骤306中计算的调整范围后的m个特征向量的信息指纹,得到待处理的PE文件的信息指纹,具体地,可以将每个调整范围后的特征向量的信息指纹进行拼接,即SIG=[sig1,sig2,…,sigm]。
步骤308,将信息指纹相同的PE文件作为一个聚类输出。
本发明实施例还提供一种文件的聚类设备,结构示意图如图5所示,包括:
特征提取单元10,用于分别对待处理文件中的多个信息块的进行特征提取,具体地,特征提取单元10可以分别提取所述多个信息块的数据分布信息,所述数据分布信息包括信息块中部分或全部数据的频率或个数等。
第一指纹计算单元11,用于计算特征提取单元10提取的所述多个信息块中各个信息块的特征的信息指纹;
第二指纹计算单元12,用于根据所述第一指纹计算单元11计算的各个信息块的特征的信息指纹获取所述待处理文件的信息指纹;
聚类输出单元13,用于将第二指纹计算单元12计算的信息指纹相同的待处理文件作为一个聚类输出。
可见,本发明实施例的设备中,在对待处理文件进行聚类时,可以通过聚类输出单元13对待处理文件中包含的多个信息块的特征的信息指纹的比较,来将信息指纹相同的待处理文件作为一个聚类,实现了文件的聚类。这样采用信息指纹的方式对待处理文件中信息块的特征进行标识,然后根据标识来进行聚类,相比现有技术中相似性比较,采用本发明实施例中计算特征的标识并聚类的运算量和复杂度会很大程度的降低。
参考图6和7所示,在一个具体的实施例中,文件的聚类设备除了包括图5所示的结构外,其中的第一指纹计算单元11具体可以通过归一化单元110和第一计算单元来实现,具体地:
归一化单元110,用于分别将特征提取单元10提取的所述多个信息块中各个信息块的特征进行归一化处理。
第一计算单元111,用于计算归一化单元110进行归一化处理后的所述各个信息块的特征的信息指纹,第一计算单元111可以直接根据计算信息指纹的函数来计算,然后第二指纹计算单元会根据第一计算单元111计算的各个信息块的特征对应的信息指纹来确定待处理文件的信息指纹,或通过范围调整单元112和第二计算单元113来实现。
范围调整单元112,用于分别调整归一化单元110进行归一化处理后的所述各个信息块的特征的范围。该范围调整单元112具体可以根据核空间的映射函数,将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间,不同待处理文件中相同属性的信息块采用的映射函数相同;和/或,该范围调整单元112具体可以分别对归一化处理后的所述各个信息块的特征进行加权运算。
第二计算单元113,用于计算范围调整单元112调整范围后的所述各个信息块的特征的信息指纹,然后第二指纹计算单元12会根据第二计算单元113计算的各个信息块的特征对应的信息指纹来确定待处理文件的信息指纹。
上述文件的聚类设备中各个单元之间可以按照上述方法进行文件的聚类。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘等。
以上对本发明实施例所提供的文件的聚类方法及设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种文件的聚类方法,其特征在于,包括:
分别对待处理文件中的多个信息块的进行特征提取;
计算提取的所述多个信息块中各个信息块的特征的信息指纹;
根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹;
将信息指纹相同的待处理文件作为一个聚类输出。
2.如权利要求1所述的方法,其特征在于,所述分别对待处理文件中的多个信息块的进行特征提取,具体包括:
分别提取所述多个信息块的数据分布信息,所述数据分布信息包括信息块中部分或全部数据的频率或个数。
3.如权利要求1或2所述的方法,其特征在于,所述分别计算提取的所述多个信息块中各个信息块的特征的信息指纹具体还包括:
分别将提取的所述多个信息块中各个信息块的特征进行归一化处理;
计算归一化处理后的所述各个信息块的特征的信息指纹。
4.如权利要求3所述的方法,其特征在于,所述计算归一化处理后的所述各个信息块的特征的信息指纹,具体包括:
分别调整归一化处理后的所述各个信息块的特征的范围;
计算调整范围后的所述各个信息块的特征的信息指纹。
5.如权利要求4所述的方法,其特征在于,所述分别调整归一化处理后的所述各个信息块的特征的范围,具体包括:
根据核空间的映射函数,将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间,不同待处理文件中相同属性的信息块采用的映射函数相同;或,
分别对归一化处理后的所述各个信息块的特征进行加权运算。
6.一种文件的聚类设备,其特征在于,包括:
特征提取单元,用于分别对待处理文件中的多个信息块的进行特征提取;
第一指纹计算单元,用于计算提取的所述多个信息块中各个信息块的特征的信息指纹;
第二指纹计算单元,用于根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹;
聚类输出单元,用于将信息指纹相同的待处理文件作为一个聚类输出。
7.如权利要求6所述的设备,其特征在于,
所述特征提取单元,具体用于分别提取所述多个信息块的数据分布信息,所述数据分布信息包括信息块中部分或全部数据的频率或个数。
8.如权利要求6或7所述的设备,其特征在于,所述第一指纹计算单元具体包括:
归一化单元,用于分别将提取的所述多个信息块中各个信息块的特征进行归一化处理;
第一计算单元,用于计算归一化处理后的所述各个信息块的特征的信息指纹。
9.如权利要求8所述的设备,其特征在于,所述第一计算单元包括:
范围调整单元,用于分别调整归一化处理后的所述各个信息块的特征的范围;
第二计算单元,用于计算调整范围后的所述各个信息块的特征的信息指纹。
10.如权利要求9所述的设备,其特征在于,
所述范围调整单元,具体用于根据核空间的映射函数,将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间,不同待处理文件中相同属性的信息块采用的映射函数相同;和/或,
所述范围调整单元,具体用于分别对归一化处理后的所述各个信息块的特征进行加权运算。
CN201310055669.6A 2013-02-21 2013-02-21 一种文件的聚类方法和设备 Active CN104008334B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310055669.6A CN104008334B (zh) 2013-02-21 2013-02-21 一种文件的聚类方法和设备
PCT/CN2013/087948 WO2014127655A1 (zh) 2013-02-21 2013-11-27 一种文件的聚类方法和设备
US14/828,218 US20150356164A1 (en) 2013-02-21 2015-08-17 Method and device for clustering file

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310055669.6A CN104008334B (zh) 2013-02-21 2013-02-21 一种文件的聚类方法和设备

Publications (2)

Publication Number Publication Date
CN104008334A true CN104008334A (zh) 2014-08-27
CN104008334B CN104008334B (zh) 2017-12-01

Family

ID=51368984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310055669.6A Active CN104008334B (zh) 2013-02-21 2013-02-21 一种文件的聚类方法和设备

Country Status (3)

Country Link
US (1) US20150356164A1 (zh)
CN (1) CN104008334B (zh)
WO (1) WO2014127655A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317892A (zh) * 2014-10-23 2015-01-28 深圳市腾讯计算机系统有限公司 可移植可执行文件的时序特征处理方法及装置
CN111666404A (zh) * 2019-03-05 2020-09-15 腾讯科技(深圳)有限公司 一种文件聚类方法、装置及设备
CN116484247A (zh) * 2023-06-21 2023-07-25 北京点聚信息技术有限公司 一种签署数据智能处理系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688671A (zh) * 2021-07-14 2021-11-23 公安部物证鉴定中心 一种指纹相似度的计算方法、装置、存储介质及终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604363A (zh) * 2009-07-10 2009-12-16 珠海金山软件股份有限公司 基于文件指令频度的计算机恶意程序分类系统及分类方法
CN101630325A (zh) * 2009-08-18 2010-01-20 北京大学 一种基于脚本特征的网页聚类方法
CN102034043A (zh) * 2010-12-13 2011-04-27 四川大学 基于文件静态结构属性的恶意软件检测新方法
CN102054149A (zh) * 2009-11-06 2011-05-11 中国科学院研究生院 一种恶意代码行为特征提取方法
CN102802090A (zh) * 2011-05-27 2012-11-28 未序网络科技(上海)有限公司 一种视频版权保护方法及系统
CN102930206A (zh) * 2011-08-09 2013-02-13 腾讯科技(深圳)有限公司 病毒文件的聚类划分处理方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005067608A2 (en) * 2004-01-07 2005-07-28 Identification International, Inc. Low power fingerprint capture system, apparatus, and method
US20070036400A1 (en) * 2005-03-28 2007-02-15 Sanyo Electric Co., Ltd. User authentication using biometric information
US8214497B2 (en) * 2007-01-24 2012-07-03 Mcafee, Inc. Multi-dimensional reputation scoring
US7827237B2 (en) * 2007-03-12 2010-11-02 Citrix Systems, Inc. Systems and methods for identifying long matches of data in a compression history
US8108437B2 (en) * 2008-06-12 2012-01-31 Oracle International Corporation Sortable hash table
WO2010008802A1 (en) * 2008-06-23 2010-01-21 Nikon Corporation Device and method for detecting whether an image is blurred
US9081778B2 (en) * 2012-09-25 2015-07-14 Audible Magic Corporation Using digital fingerprints to associate data with a work
US9460204B2 (en) * 2012-10-19 2016-10-04 Sony Corporation Apparatus and method for scene change detection-based trigger for audio fingerprinting analysis

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604363A (zh) * 2009-07-10 2009-12-16 珠海金山软件股份有限公司 基于文件指令频度的计算机恶意程序分类系统及分类方法
CN101630325A (zh) * 2009-08-18 2010-01-20 北京大学 一种基于脚本特征的网页聚类方法
CN102054149A (zh) * 2009-11-06 2011-05-11 中国科学院研究生院 一种恶意代码行为特征提取方法
CN102034043A (zh) * 2010-12-13 2011-04-27 四川大学 基于文件静态结构属性的恶意软件检测新方法
CN102802090A (zh) * 2011-05-27 2012-11-28 未序网络科技(上海)有限公司 一种视频版权保护方法及系统
CN102930206A (zh) * 2011-08-09 2013-02-13 腾讯科技(深圳)有限公司 病毒文件的聚类划分处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CWQBUPTCWQBUPT: "《http://blog.csdn.net/cwqbuptcwqbupt/article/details/7591818》", 22 May 2012 *
ZULONG198867: "《百度百科 http://baike.baidu.com/history/Simhash/35366363》", 31 October 2012 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317892A (zh) * 2014-10-23 2015-01-28 深圳市腾讯计算机系统有限公司 可移植可执行文件的时序特征处理方法及装置
CN104317892B (zh) * 2014-10-23 2018-06-19 深圳市腾讯计算机系统有限公司 可移植可执行文件的时序特征处理方法及装置
CN111666404A (zh) * 2019-03-05 2020-09-15 腾讯科技(深圳)有限公司 一种文件聚类方法、装置及设备
CN116484247A (zh) * 2023-06-21 2023-07-25 北京点聚信息技术有限公司 一种签署数据智能处理系统
CN116484247B (zh) * 2023-06-21 2023-09-05 北京点聚信息技术有限公司 一种签署数据智能处理系统

Also Published As

Publication number Publication date
US20150356164A1 (en) 2015-12-10
CN104008334B (zh) 2017-12-01
WO2014127655A1 (zh) 2014-08-28

Similar Documents

Publication Publication Date Title
Fitzgerald et al. Using NLP techniques for file fragment classification
Hassen et al. Scalable function call graph-based malware classification
Baldwin et al. Leveraging support vector machine for opcode density based detection of crypto-ransomware
Baek et al. Two-stage hybrid malware detection using deep learning
CN102799647B (zh) 网页去重方法和设备
TW202029079A (zh) 異常群體識別方法及裝置
Breitinger et al. A fuzzy hashing approach based on random sequences and hamming distance
CN104751055A (zh) 一种基于纹理的分布式恶意代码检测方法、装置及系统
Jung et al. Malware classification using byte sequence information
CN104008334A (zh) 一种文件的聚类方法和设备
Nguyen et al. Generative adversarial networks and image-based malware classification
Liu et al. Using g features to improve the efficiency of function call graph based android malware detection
El Fiky et al. Detection of android malware using machine learning
US11334669B2 (en) Method for fast and intelligent comparison and security detection of mobile malware big data
KR20180133726A (ko) 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법
CN112559978B (zh) 基于动态胎记的多线程程序抄袭检测方法及相关设备
Joshi et al. Stacking-based ensemble model for malware detection in android devices
CN104008333B (zh) 一种安装包的检测方法和设备
Ah-Pine et al. Similarity based hierarchical clustering with an application to text collections
CN108108371B (zh) 一种文本分类方法及装置
Jiang et al. A novel image-based malware classification model using deep learning
CN112632548B (zh) 一种恶意安卓程序检测方法、装置,电子设备及存储介质
CN108052344A (zh) 一种内核差异检测方法及装置
CN108388676A (zh) 一种基于模拟退火算法的模具数据匹配方法、装置及系统
Zeng et al. A high-performance approach for predicting donor splice sites based on short window size and imbalanced large samples

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant