CN109190653A - 基于半监督密度聚类的恶意代码家族同源性分析技术 - Google Patents

基于半监督密度聚类的恶意代码家族同源性分析技术 Download PDF

Info

Publication number
CN109190653A
CN109190653A CN201810744345.6A CN201810744345A CN109190653A CN 109190653 A CN109190653 A CN 109190653A CN 201810744345 A CN201810744345 A CN 201810744345A CN 109190653 A CN109190653 A CN 109190653A
Authority
CN
China
Prior art keywords
family
sample
cluster
clustering cluster
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810744345.6A
Other languages
English (en)
Other versions
CN109190653B (zh
Inventor
方勇
刘亮
黄诚
荣俸萍
张与弛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201810744345.6A priority Critical patent/CN109190653B/zh
Publication of CN109190653A publication Critical patent/CN109190653A/zh
Application granted granted Critical
Publication of CN109190653B publication Critical patent/CN109190653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明依据绝大多数新增恶意代码属于已知的恶意代码家族这一特性,利用病毒库中已有样本的信息辅助恶意代码进行家族同源性分析以实现更准确的家族聚类,并在准确的家族聚类的基础上对同家族的恶意代码构建家族图以可视化的方式了解同一家族内恶意代码的变种之间的演化关系并预测变种的发展方向,为恶意代码的深度分析提供技术支撑。结合恶意代码本身的演化特点,提出了一种支持家族图构建的恶意代码同源性分析模型,通过实验证明该模型的有效性。提出了一种半监督密度聚类算法,通过实验证明该算法可以实现准确的家族聚类,并为未知家族的发现提供线索,提出了一种基于不对称相似度度量的家族演化图构建算法,对每个恶意家族构建演化图,可视化呈现同一家族内恶意样本间的演化关系。

Description

基于半监督密度聚类的恶意代码家族同源性分析技术
技术领域
本发明运用半监督聚类技术来对恶意代码进行家族聚类,并使用不对称相似度计算方法构建家族演化图来可视化同一家族内变种间演化关系。通过研究当前聚类算法及遇到的问题,结合病毒库中的已知样本的信息,提出一种半监督密度聚类算法S-DBSCAN,属于数据挖掘技术。
背景技术
静态自动化分析技术难于对抗、混淆、加密和加壳等静态自动化分析技术,而动态自动化分析技术效率较低,现有框架多使用虚拟机作为分析环境,难以对抗动态分析环境检测及技术,无法得到样本可靠、准确的动态行为信息。
传统的序列挖掘算法GSP只能挖掘出频繁序列模式而不能达到挖掘某一类型样本的典型序列模式和进行恶意代码家族同源性分析的目的,不能直接应用于恶意代码家族同源性分析问题中。
传统的用于恶意代码家族聚类的聚类算法有密度聚类算法和层次聚类算法,该算法的缺点是在恶意家族较为相似的情况下,不能实现准确的家族划分,家族聚类的误差就很大,不适用于恶意家族总数巨大、分类细化的真实场景。
现有的家族演化树构建方法大多来自生物信息学上的系统发生树构建算法,对于基于代码复用的恶意代码同源性分析问题,系统发生树只能发现相似的恶意代码,并不能准确的揭示恶意代码之间的进化方向和演化关系。
发明内容
本发明为了解决现有同源性分析方法不能准确实现恶意代码的家族划分和可视化同家族恶意代码变种间的演化关系等弱点,通过改进DBSCAN算法,结合半监督聚类技术利用病毒库中已知样本家族信息来实现对恶意代码的准确家族聚类,并在此基础上提出一种不对称相似度计算方法以构建家族演化图,进而提供一种可视化家族内恶意代码变种间演化关系的方法。
按照本发明提供的方法,所述恶意代码家族同源性分析方法包括:典型API调用序列模式的提取,恶意代码家族聚类,家族演化树构建。具体的包括以下几个步骤。
a)数据提取,动态API调用序列提取模块负责样本动态API调用序列数据的采集、编号和存储。
b)序列模式挖掘,典型API序列模式挖掘模块负责从已知样本的API调用序列数据和其家族标签信息中挖掘出能代表某一恶意家族关键恶意行为的典型API调用序列模式,并保存。
c)文件表征,文件表征模块使用挖掘出的典型序列模式作为特征表征样本,得到布尔向量形式的样本数据集。
d)家族聚类,半监督聚类模块社区演变利用已知恶意样本的家族类别信息辅助样本集进行半监督聚类。
f)家族演化图构建,家族演化图构建模块对同家族内不同变种间的演化关系进行判定,构建家族演化图。
所属基于半监督密度聚类的恶意代码家族同源性分析技术研究中,表示恶意代码的常用特征主要包括。
a)代码特征:主要包括节的个数、节名、节属性、导入库个数和名称、导入函数个数和名称等PE头部信息和是否加壳、加壳算法及其版本信息等壳相关信息以及数据流图、控制流图、函数调用图等结构特征。
b)函数特征:主要包括函数个数、长度、参数及返回值类型、函数中指令类型分布情况等普通函数信息和API调用序列、集合等API函数信息。
c)数据特征:主要包括注册表的数值型键值、日期、密钥值等数值信息和文件名、IP地址、域名、注册表键和字符型键值等特殊字符串信息,介数可以衡量网络中的节点或者连边在整个网络中的重要程度。
d)行为特征:主要包含文件、注册表、进程、网络、服务、窗口和其他行为信息。
所属基于半监督密度聚类的恶意代码家族同源性分析技术研究中,用于家族聚类过程的相似度度量主要分为以下几种。
a)余弦相似度。
b)闵可夫斯基距离度量。
c)编辑距离。
d)杰卡德相似度。
本发明的优点是:1.本文直接使用真机进行恶意代码动态分析,能够绕过很多恶意代码的自我保护技术,更有利于触发恶意代码的恶意行为并提取样本真实、完整的API调用序列,有助于得到更准确的同源性分析结果;2.结合绝大多数新增恶意代码属于已知的恶意代码家族这一特点,提出一种利用已知恶意代码家族和样本的信息辅助恶意代码家族同源性分析的方法。该方法挖掘已知恶意代码家族的典型API调用序列模式作为特征来表示恶意文件,并应用半监督聚类算法进行恶意代码家族聚类,能实现更准确的家族划分;3.提出一种自动化构建家族演化图的方法,能够解释同一恶意代码家族内不同恶意代码之间的演化关系,为恶意代码的追踪溯源提供技术支撑。
附图说明
图1是本发明的总体设计流程图。
图2是本发明动态API调用序列提取模块的网络拓扑图。
图3是Huipigon家族不同r值选出的API调用集合对样本表示的影响图。
图4是S-DBSCAN的聚类过程图示。
图5是对Email-Worm.Win32.Netsky家族的聚类簇构建的家族演化图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下参照附图,对本发明进一步详细说明。
图1为本发明提出的恶意代码家族同源性分析模型的总体设计方案,主要分为以下几个模块:动态API调用序列提取模块、典型API序列模式挖掘模块、文件表征模块、半监督家族聚类模块和家族演化图构建模块。
特征挖掘阶段,图1中虚线标示过程,其工作流程为使用动态API调用序列提取模块提取已知恶意代码家族的已知恶意样本的API调用序列,然后利用已知恶意样本的家族标签从其API调用序列数据中挖掘出能代表某一家族关键行为的典型API调用序列模式并保存。
恶意代码自动化家族同源性分析阶段,图1中实线标示过程,其工作流程为首先使用动态API调用序列提取模块提取所有样本的API调用序列,其次使用特征挖掘阶段挖掘得到的典型API调用序列模式作为特征来表示所有样本文件,得到布尔向量表示的样本集,然后利用已知恶意样本的家族类别信息辅助样本集进行半监督聚类,最后对同一家族内的恶意代码构建其家族演化图。下面详细说明每个模块。
动态API调用序列提取模块,对使用虚拟机进行动态分析的传统Cuckoo分析框架进行修改,以实现批量动态API调用序列提取,修改后的模块网络拓扑图如图2所示,直接使用实体物理机作为分析环境,使用clonezilla实现分析系统高速还原,按照正常工作机来配置实体物理机,并使用Inetsim模拟网络环境。动态API调用序列模块通过以上方法改进了已有动态自动化分析技术在隐蔽性和高效性上部分不足,有效获取文件在动态运行过程中调用的真实而完整的API调用序列数据。
典型API序列模式挖掘模块分为两个步骤,选择组成典型序列模式的关键API调用集合和使用关键API调用集合进行典型API调用序列模式的挖掘。
1)关键API调用选择,先计算每个API与某个已知恶意家族的相关度值,然后设定某个家族的最小相关度值r,并以r为阈值选出某个已知恶意家族的关键API调用集合,合并所有已知已知恶意家族的关键API调用集合为选出的关键API集合。
相关度的定义和计算:
其中freq(ai,ft)代表API调用ai在恶意家族ft中出现的加权频率,其计算方法如下:
其中NS(ai,ft)和NS(ft)分别表示包含API调用ai并且属于恶意家族ft的已知样本数量和恶意家族ft中的已知样本总数,NA(ai,ft)和NA(ft) 分别为API调用ai在属于恶意家族ft的已知样本文件API调用序列中出现的次数和恶意家族ft的已知样本文件API调用序列中API调用的总次数。
最佳的r值选出的API调用集合在能表示所有属于某个恶意家族的恶意代码样本的同时表示尽可能少的其他恶意家族中的恶意代码样本。以Huipigon家族为例,如图3所示,当r取值为0.3时,选出的API调用集合能表示恶意家族Hupigon中的全部已知样例,同时只能表示其他4个恶意家族中88.3%的已知样例.所以,设定恶意家族Hupigon的最佳最小相关度值r为0.3。
算出每个API与每个恶意家族ft的相关性,然后根据条件 ReleVance(ai,ft)>r来选择与某个恶意家族相关度高的API调用。
2)典型API调用序列模式挖掘,在广义序贯模式GSP的基础上引入面向对象关联挖掘技术OOA旨在对能代表某一特定恶意代码家族关键行为的典型API调用序列模式进行挖掘。
使用面向对象关联挖掘技术OOA定义序列模式I关于某个恶意家族的支持度和置信度为:
其中DB1为存储已知恶意代码家族的已知恶意样本文件API调用序列的已知恶意样本数据库,count({I,ft},DB1)为DB1中包含序列模式I并且属于恶意家族 ft的样本数量,count({ft},DB1)为DB1中属于恶意家族ft的样本数量, count({I},DB1)为DB1中包含序列模式I的已知样本数量。
从已知恶意样本数据库DB1中挖掘出已知恶意代码家族的典型API调用序列模式。
文件表征模块使用挖掘出的典型API调用序列模式作为特征来表示样本,得到向量形式的数据集。
半监督密度聚类模块通过三个步骤来扩展DBSCAN得到半监督的密度聚类算法S-DBSCAN:首先使用KD-Tree(K维空间分割树)将数据空间划分为更密集的子空间,并在子空间内构建初始的局部聚类簇;然后根据家族标签合并属于同一家族的样例所在本地聚类簇为已知家族聚类簇;最后以自下而上的方式合并局部聚类簇到其密度可达的最近簇得到最终的聚类结果。总的聚类过程如图4所示。
定义一个簇最近的密度可达簇为:对于簇A和B,Xi为簇A的核心对象或者簇A 中唯一的样例点,如果存在核心对象Xj∈B,使得Xi在Xj的eps邻域 Neps(xj)内且Sim(Xi,Xj)取值最大,则簇A最近的簇存在,并且为簇 B。
家族演化图构建模块,使用文件创建时间和文件修改时间信息来确定基于变形技术的直接演化关系的进化方向,提出不对称相似度计算方法来确定基于定制修改的直接演化关系的进化方向,然后在家族演化图中添加相应进化边。
定义样例A到B的不对称相似度Asym-J的计算方法为:
由于当|A|≠|B|时,Asym-J(A→B)≠Asym-J(B→A),所以称Asym-J为不对称相似度度量方法。Asym-J(A→B)的取值范围为[0,1],取值越大说明代码样例B对代码样例A的代码复用率越高,当Asym-J(A→B)或 Asym-J(B→A)的取值高于某个设定的最小相似度值时,说明A与B间存在直接演化关系。
本发明提出的基于半监督聚类技术的恶意代码同源性分析方法的重点在于利用病毒库中已知样本的信息实现更准确的恶意代码家族聚类。在准确的家族聚类的基础上,对同家族内的恶意代码构建家族演化图,可视化变种之间的演化关系。

Claims (5)

1.一种基于半监督聚类的恶意代码同源性分析技术,其特征在于,所述方法包括如下步骤:
A、基于API调用序列数据的典型序列模式的挖掘,输入:最小支持度ms%,最小置信度mc%,关键API集合K=Uf∈FKf,已知恶意家族集合F和已知恶意样本数据库DB1,输出:典型API调用序列模式集合TP;
B、基于半监督密度聚类算法的恶意代码家族聚类,输入:数据集D={x1,x2,...,xn},已知恶意家族的已知样例相似度值eps,eps领域至少包含的样本个数MinPts,输出:数据集D上的聚类结果;
C、基于不对称相似度计算的家族演化图构建算法,输入:S-DBSCAN算法得到的聚类簇存在基于定制修改的直接演化关系的最小相似度值MinSim,输出:每个聚类簇的家族演化图。
2.根据权利要求1所述的一种基于半监督聚类的恶意代码同源性分析技术,其特征在于,所述的步骤A进一步包括如下步骤:
A1、Ck用来存储长度为k(k≥1)的候选API调用序列模式,Lk用来存储第k(k≥1)轮迭代过程中选出的长度为k的用于生成Ck+1的API调用序列模式,TPE用来存储挖掘出的指定恶意家族的典型API调用序列模式;
A2、扫描已知样本数据库DB1,对Ck(k≥1)中的每个候选序列模式关于指定恶意家族的支持度s%和置信度c%进行计算;
A3、通过与用户定义的最小支持度ms%、最小置信度mc%和长度为k-1(k≥2)的子序列模式的最大置信度c’%进行比较,选出支持度大于ms%,置信度大于c’%的序列模式添加到Lk中用于生成候选模式集Ck+1,选出支持度大于ms%,置信度大于c’%和mc%的典型序列模式添加到TPE中;
A4、使用广义序贯模式挖掘算法GSP中的候选序列模式生成算法利用集合Lk生成候选序列模式集Ck+1
3.根据权利要求1所述的一种基于半监督聚类的恶意代码同源性分析技术,其特征在于,所述的步骤B进一步包括如下步骤:
B1、首先指定子空间最少包含的数据点个数,KD-Tree通过分割垂直于坐标轴的平面来将数据空间不断划分为子空间,直到每个子空间包含最小数量的数据点个数;KD-Tree的划分结果为一颗不平衡二叉树,其中小叶节点代表局部密集的子区域,而大叶节点代表低密度的子区域;然后对每个叶节点中的数据样例点进行处理,首先默认标记所有数据样例点都为核心对象,系统将阈值Minpts也设置为KD-Tree划分过程中子空间最少包含的数据点个数,因为这两个值的目标都是为了定义并选择密集子区域;如果某数据样例点的eps邻域包含的样例点个数少于MinPts,则标记该点为噪声点,如果该点的eps邻域至少包含MinPts个同属于该点所属叶节点中的样例点且这些点连同该点不来自一个以上的已知家族,则把这些点和该点合并成一个本地聚类簇,使用LCLUSTER来标记本地聚类簇,如果这些点连同该点来自不同已知家族,则这些点和该点各自形成一个本地聚类簇,如果该点的eps邻域包含的同属该点所属叶节点的样例点个数少于MinPts,则该点单独形成一个本地聚类簇;这一步得到的结果是一组本地聚类簇和一些异常点,某些聚类簇中只包含单个数据点,划分结果如图4.d所示;
B2、遍历每个已知恶意家族中的已知样例,如果该样例还未合并到已知的家族聚类簇中,则把其所在的本地聚类簇合并到该已知恶意家族的家族聚类簇中;这些合并操作可以跨越KD-Tree叶节点的边界,也就是说,KD-Tree的不同叶节点所代表的不同子空间内的本地聚类簇可进行合并;算法使用家族聚类簇FCLUSTER来标识这一聚类过程中形成的已知恶意家族的聚类簇,这一步得到的聚类结果包含聚类不完全的标识为FCLUSTER的已知家族聚类簇和标识为LCLUSTER的本地聚类簇,划分结果如图4.e所示;
B3、对剩余的本地聚类簇进行迭代处理,每次迭代过程中对每个本地聚类簇查找其最近的聚类簇,并把本地聚类簇合并到最近的聚类簇中,新的聚类簇使用合并前的最近密度可达聚类簇的标识,直到剩余本地聚类簇个数不再变化时停止迭代过程;这一步得到聚类结果包含标识为FCLUSTER的已知恶意家族聚类簇和标识为LCLUSTER的新的未知恶意家族聚类簇,划分结果如图4.f所示。
4.根据权利要求1所述的一种基于半监督聚类的恶意代码同源性分析技术,其特征在于,所述的步骤C进一步包括如下步骤:
C1、对某个家族聚类簇中的由同一个原始执行体经过多态和变形技术得到的变种恶意代码加到同一个集合中,具体判定时使用两个恶意代码样例的杰卡德相似度来决定其是否具有基于变形技术的基础同源关系;
C2、对每个集合中的样例按照其文件创建时间从早到晚进行排序,对于创建时间相同的样例再按照其文件修改时间从早到晚进行排序,排序后在14行调用函数对每个集合按顺序把样例点依次添加到家族演化图中并对每对相邻排列的样例点添加一条短的有向边来表示样例间基于变形技术的直接演化关系;
C3、对于某家族聚类簇中每两个样例集合对Sj、Sk,使用集合排序后的第一个样例x和y代表集合Sj和Sk,计算相似度Asym-J(x→y)和Asym-J(y→x)的值,如果其中一值大于设定的最小相似度值MinSim,则说明样例x与样例y间存在直接演化关系;此时,通过Asym-J(x→y)和Asym-J(y→x)的大小来确定演化方向,当Asym-J(x→y)>Asym-J(y→x)时,得到其演化方向为x到y,否则为y到x,然后在演化图中添加一条长的有向边来表示样例间基于定制修改的直接演化关系;由于相似性度量是不对称的,最终得到该聚类簇的演化图为一个有向无环图。
5.根据权利要求4所述的基于不对称相似度计算的家族演化图构建算法,其特征在于,所构建的家族演化图如图5所示:
家族演化图中的圆圈代表了样本,有向边标示了样本的演化方向并且其代表的演化关系具体可分为两种:短的有向边表示样本在传播过程中为躲避特征码匹配检测技术使用多态或变形技术生成变种所产生的直接演化关系,长的有向边表示样本在定制修改、版本迭代和程序嵌入过程中生成变种所产生的直接演化关系;图5以有向无环图的方式直观的展示了聚类到恶意家族Netsky中的46个样本之间的演化关系。
CN201810744345.6A 2018-07-09 2018-07-09 基于半监督密度聚类的恶意代码家族同源性分析方法 Active CN109190653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810744345.6A CN109190653B (zh) 2018-07-09 2018-07-09 基于半监督密度聚类的恶意代码家族同源性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810744345.6A CN109190653B (zh) 2018-07-09 2018-07-09 基于半监督密度聚类的恶意代码家族同源性分析方法

Publications (2)

Publication Number Publication Date
CN109190653A true CN109190653A (zh) 2019-01-11
CN109190653B CN109190653B (zh) 2020-06-05

Family

ID=64936201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810744345.6A Active CN109190653B (zh) 2018-07-09 2018-07-09 基于半监督密度聚类的恶意代码家族同源性分析方法

Country Status (1)

Country Link
CN (1) CN109190653B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263230A (zh) * 2019-04-25 2019-09-20 北京科技大学 一种基于密度聚类的数据清洗方法及装置
CN110266680A (zh) * 2019-06-17 2019-09-20 辽宁大学 一种基于双重相似性度量的工业通信异常检测方法
CN110457922A (zh) * 2019-08-02 2019-11-15 湖南大学 一种云环境下的数据完整性验证方法
CN111368304A (zh) * 2020-03-31 2020-07-03 绿盟科技集团股份有限公司 一种恶意样本类别检测方法和装置及设备
CN111538989A (zh) * 2020-04-22 2020-08-14 四川大学 基于图卷积网络和主题模型的恶意代码同源性分析方法
CN112035836A (zh) * 2019-06-04 2020-12-04 四川大学 一种恶意代码家族api序列挖掘方法
CN112187716A (zh) * 2020-08-26 2021-01-05 中国科学院信息工程研究所 一种网络攻击中恶意代码的知识图谱展示方法
CN112182568A (zh) * 2019-07-02 2021-01-05 四川大学 基于图卷积网络和主题模型的恶意代码分类
CN113392397A (zh) * 2020-03-11 2021-09-14 四川大学 基于混合特征和emd的恶意代码半监督聚类方法
CN113836534A (zh) * 2021-09-28 2021-12-24 深信服科技股份有限公司 一种病毒家族识别方法、系统、设备及计算机存储介质
CN113935034A (zh) * 2021-09-14 2022-01-14 北京邮电大学 基于图神经网络的恶意代码家族分类方法、装置和存储介质
CN114253866A (zh) * 2022-03-01 2022-03-29 紫光恒越技术有限公司 恶意代码检测的方法、装置、计算机设备及可读存储介质
CN116976339A (zh) * 2023-09-20 2023-10-31 山东高速信息集团有限公司 一种针对高速公路的特情分析方法、设备及介质
CN117272303A (zh) * 2023-09-27 2023-12-22 四川大学 一种基于遗传对抗的恶意代码样本变体生成方法及系统
CN118332552A (zh) * 2024-06-12 2024-07-12 北京辰信领创信息技术有限公司 恶意代码聚类方法、计算机装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331436A (zh) * 2014-10-23 2015-02-04 西安交通大学 基于家族基因码的恶意代码快速归类方法
CN104933364A (zh) * 2015-07-08 2015-09-23 中国科学院信息工程研究所 一种基于调用行为的恶意代码自动化同源判定方法及系统
CN104978521A (zh) * 2014-04-10 2015-10-14 北京启明星辰信息安全技术有限公司 一种实现恶意代码标注的方法及系统
CN107169358A (zh) * 2017-05-24 2017-09-15 中国人民解放军信息工程大学 基于代码指纹的代码同源性检测方法及其装置
CN107180191A (zh) * 2017-05-03 2017-09-19 北京理工大学 一种基于半监督学习的恶意代码分析方法和系统
US9998484B1 (en) * 2016-03-28 2018-06-12 EMC IP Holding Company LLC Classifying potentially malicious and benign software modules through similarity analysis

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978521A (zh) * 2014-04-10 2015-10-14 北京启明星辰信息安全技术有限公司 一种实现恶意代码标注的方法及系统
CN104331436A (zh) * 2014-10-23 2015-02-04 西安交通大学 基于家族基因码的恶意代码快速归类方法
CN104933364A (zh) * 2015-07-08 2015-09-23 中国科学院信息工程研究所 一种基于调用行为的恶意代码自动化同源判定方法及系统
US9998484B1 (en) * 2016-03-28 2018-06-12 EMC IP Holding Company LLC Classifying potentially malicious and benign software modules through similarity analysis
CN107180191A (zh) * 2017-05-03 2017-09-19 北京理工大学 一种基于半监督学习的恶意代码分析方法和系统
CN107169358A (zh) * 2017-05-24 2017-09-15 中国人民解放军信息工程大学 基于代码指纹的代码同源性检测方法及其装置

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263230A (zh) * 2019-04-25 2019-09-20 北京科技大学 一种基于密度聚类的数据清洗方法及装置
CN110263230B (zh) * 2019-04-25 2021-04-06 北京科技大学 一种基于密度聚类的数据清洗方法及装置
CN112035836A (zh) * 2019-06-04 2020-12-04 四川大学 一种恶意代码家族api序列挖掘方法
CN110266680B (zh) * 2019-06-17 2021-08-24 辽宁大学 一种基于双重相似性度量的工业通信异常检测方法
CN110266680A (zh) * 2019-06-17 2019-09-20 辽宁大学 一种基于双重相似性度量的工业通信异常检测方法
CN112182568A (zh) * 2019-07-02 2021-01-05 四川大学 基于图卷积网络和主题模型的恶意代码分类
CN110457922A (zh) * 2019-08-02 2019-11-15 湖南大学 一种云环境下的数据完整性验证方法
CN113392397A (zh) * 2020-03-11 2021-09-14 四川大学 基于混合特征和emd的恶意代码半监督聚类方法
CN111368304B (zh) * 2020-03-31 2022-07-05 绿盟科技集团股份有限公司 一种恶意样本类别检测方法和装置及设备
CN111368304A (zh) * 2020-03-31 2020-07-03 绿盟科技集团股份有限公司 一种恶意样本类别检测方法和装置及设备
CN111538989A (zh) * 2020-04-22 2020-08-14 四川大学 基于图卷积网络和主题模型的恶意代码同源性分析方法
CN112187716A (zh) * 2020-08-26 2021-01-05 中国科学院信息工程研究所 一种网络攻击中恶意代码的知识图谱展示方法
CN112187716B (zh) * 2020-08-26 2021-07-20 中国科学院信息工程研究所 一种网络攻击中恶意代码的知识图谱展示方法
CN113935034A (zh) * 2021-09-14 2022-01-14 北京邮电大学 基于图神经网络的恶意代码家族分类方法、装置和存储介质
CN113935034B (zh) * 2021-09-14 2024-10-01 北京邮电大学 基于图神经网络的恶意代码家族分类方法、装置和存储介质
CN113836534A (zh) * 2021-09-28 2021-12-24 深信服科技股份有限公司 一种病毒家族识别方法、系统、设备及计算机存储介质
CN113836534B (zh) * 2021-09-28 2024-04-12 深信服科技股份有限公司 一种病毒家族识别方法、系统、设备及计算机存储介质
CN114253866A (zh) * 2022-03-01 2022-03-29 紫光恒越技术有限公司 恶意代码检测的方法、装置、计算机设备及可读存储介质
CN116976339A (zh) * 2023-09-20 2023-10-31 山东高速信息集团有限公司 一种针对高速公路的特情分析方法、设备及介质
CN116976339B (zh) * 2023-09-20 2023-12-22 山东高速信息集团有限公司 一种针对高速公路的特情分析方法、设备及介质
CN117272303A (zh) * 2023-09-27 2023-12-22 四川大学 一种基于遗传对抗的恶意代码样本变体生成方法及系统
CN118332552A (zh) * 2024-06-12 2024-07-12 北京辰信领创信息技术有限公司 恶意代码聚类方法、计算机装置
CN118332552B (zh) * 2024-06-12 2024-08-23 北京辰信领创信息技术有限公司 恶意代码聚类方法、计算机装置

Also Published As

Publication number Publication date
CN109190653B (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN109190653A (zh) 基于半监督密度聚类的恶意代码家族同源性分析技术
Rozemberczki et al. Fast sequence-based embedding with diffusion graphs
Zhang et al. Extracting analyzing and visualizing triangle k-core motifs within networks
Yang et al. Community mining from signed social networks
CN105138601B (zh) 一种支持模糊约束关系的图模式匹配方法
CN107256237A (zh) 基于动态网格优化的lof聚类数据异常点检测方法和检测系统
Hung et al. Mining trajectory profiles for discovering user communities
Zhao et al. Protein pocket detection via convex hull surface evolution and associated Reeb graph
Liu et al. Spotting significant changing subgraphs in evolving graphs
Kumar et al. Community-enhanced Link Prediction in Dynamic Networks
CN114662096A (zh) 一种基于图核聚类的威胁狩猎方法
Wang et al. A new method for measuring topological structure similarity between complex trajectories
Kardeş et al. Structural graph indexing for mining complex networks
CN109783696A (zh) 一种面向弱结构相关性的多模式图索引构建方法及系统
Naresh et al. Implementation of dynamic and fast mining algorithms on incremental datasets to discover qualitative rules
Bui et al. The Computational Complexity of Hierarchical Clustering Algorithms for Community Detection: A Review.
CN111107493B (zh) 一种移动用户位置预测方法与系统
Lee et al. Polygonization of point clusters through cluster boundary extraction for geographical data mining
Midoun et al. A jungle community detection algorithm based on new weighted similarity
Habib et al. Weight-based k-truss community search via edge attachment
CN105813235B (zh) 移动终端客户社团的划分方法和系统
Chan et al. ciForager: Incrementally discovering regions of correlated change in evolving graphs
CN116578676B (zh) 一种地名时空演化查询方法及系统
Wang et al. A multiscale road matching method based on hierarchical road meshes
Saberi et al. A sample-based approach to data quality assessment in spatial databases with application to mobile trajectory nearest-neighbor search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant