CN106709349A - 一种基于多维度行为特征的恶意代码分类方法 - Google Patents

一种基于多维度行为特征的恶意代码分类方法 Download PDF

Info

Publication number
CN106709349A
CN106709349A CN201611164764.XA CN201611164764A CN106709349A CN 106709349 A CN106709349 A CN 106709349A CN 201611164764 A CN201611164764 A CN 201611164764A CN 106709349 A CN106709349 A CN 106709349A
Authority
CN
China
Prior art keywords
feature
malicious code
behavior
information table
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611164764.XA
Other languages
English (en)
Other versions
CN106709349B (zh
Inventor
喻波
方莹
唐勇
陈曙晖
杨强
周旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201611164764.XA priority Critical patent/CN106709349B/zh
Publication of CN106709349A publication Critical patent/CN106709349A/zh
Application granted granted Critical
Publication of CN106709349B publication Critical patent/CN106709349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种基于多维度行为特征的恶意代码分类方法,其步骤为:S1:获得恶意代码的行为数据;S2:按照函数调用的顺序,计算相邻两个系统函数调用的时间差,构建系统函数调用的时间差信息表;S3:系统函数调用频度信息提取;从行为数据中提取系统函数调用的名称,统计每个系统函数调用的频度,建立系统函数调用的频度信息表;S4:行为分类频度信息提取;S5:将时间差信息表、系统函数调用的频度信息表、行为类别的频度信息表分别进行加权计算和归一化处理,处理时间差信息表特征,处理后合并成一新的特征空间;S6:对所有家族样本的行为特征,采用机器学习的典型分类方法,进行交叉验证。本发明具有原理简单、易实现、效果好等优点。

Description

一种基于多维度行为特征的恶意代码分类方法
技术领域
本发明主要涉及到网络安全技术领域,特指一种基于多维度行为特征的恶意代码分类方法。
背景技术
随着计算机和网络技术迅速发展,恶意代码的数量呈现爆发式地增长,恶意代码的形态也愈发模块化和多样化,而恶意代码威胁的对象,已经从影响个人的电脑,发展到破坏国家的重要基础设施和社会的重要资产。恶意代码的防范,已经成为应对网络空间安全威胁的重点。
恶意代码分析是检测和防范恶意代码的重要基础。基于特征码和签名的恶意代码分析技术,在传统基于终端(主机)的恶意代码检测机制中发挥了重要的重要。然而,基于特征码和签名的恶意代码分析技术,既需要面对恶意代码数量增长带来的挑战,也需要面对需要大量人工参与分析的问题。因此,为了满足恶意代码自动分析的需求,以及应对恶意代码数量增长的挑战,恶意代码的分析检测正朝着基于云端的智能分析检测方向发展,机器学习和大数据分析技术的发展,促使恶意代码的分析检测朝着自动化分析检测和深度分析检测方面发展。
基于云端的智能分析检测技术包括基于静态的分析检测和基于动态行为的分析检测。静态分析通过程序的指令和结构来确定恶意代码的功能,其在不执行恶意代码的情况下,提取能够表达恶意代码样本的特征向量。然而,静态分析技术难以应对恶意代码采用的变种手段,如变形、多态、加壳等技术手段,从而使得静态分析技术在面对海量真实恶意代码样本时,往往变得失效。
动态分析技术通过收集恶意代码运行时的动态行为信息,如系统调用、网络访问、文件和内存修改等,基于动态行为信息进行恶意代码的分析检测。动态分析技术通过捕获恶意代码的真实行为信息进行行为分析判断来识别、检测恶意代码。基于机器学习方法对恶意代码的动态行为信息进行分类学习,是当前的研究热点。
恶意代码的动态分析提供了多维度的行为特征信息,提取多维度的行为特征,构建恶意代码的行为特征向量,设计行为深度分析的自动分析处理框架,是基于机器学习进行恶意代码动态行为分析研究的主要思路。然而,基于单一特征进行分类往往具有片面性,容易造成分类准确率的下降,而且恶意代码的特征向量存在特征维度多、单个特征维度高的特点,复杂的特征向量必然造成分类效率的下降。
因此,如何设计基于多维度行为特征的恶意代码分类技术,提高恶意代码行为分析的准确率是目前的主要研究热点。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种原理简单、易实现、效果好的基于多维度行为特征的恶意代码分类方法。
为解决上述技术问题,本发明采用以下技术方案:
一种基于多维度行为特征的恶意代码分类方法,其步骤为:
S1:获得恶意代码的行为数据;
S2:系统函数调用时间差信息提取;按照行为数据中函数调用的顺序,计算相邻两个系统函数调用的时间差,构建系统函数调用的时间差信息表;
S3:系统函数调用频度信息提取;从行为数据中提取系统函数调用的名称,统计每个系统函数调用的频度,建立系统函数调用的频度信息表;
S4:行为分类频度信息提取;
S5:将时间差信息表、系统函数调用的频度信息表、行为类别的频度信息表分别进行加权计算和归一化处理,并进一步处理时间差信息表特征,处理后合并成一个新的特征空间;
S6:对所有家族样本的行为特征,采用机器学习的典型分类方法,进行交叉验证。
作为本发明的进一步改进:所述步骤S1中的行为数据包括:函数调用名称、函数调用时间、输入参数、输出参数、函数执行结果、以及函数执行需要的上下文信息。
作为本发明的进一步改进:在上述步骤S5之后,输出为单个恶意代码的特征向量,同时这些向量自动归类,再以此作为构成样本家族的特征向量,用于训练以后的分类器。
作为本发明的进一步改进:所述训练的过程为:首先将样本集合随机分为测试集和训练集,并分别进行多维特征提取与处理;然后对训练集中特征进行标记,得到特征库并训练分类器;之后利用训练好的分类器对测试集进行分类,得到最后的分类结果。
作为本发明的进一步改进:所述步骤S4的具体流程为:
S4.1:定义恶意代码的行为类别;
S4.2:根据行为分类模型,对系统函数调用频度按照分类进行频率计算,建立恶意代码的行为类别频度信息表。
作为本发明的进一步改进:所述行为类别包括:文件行为类、注册表行为类、网络行为类、进程行为类、服务行为类、时间行为类、驱动行为类、GUI行为类、系统行为类;所述行为类别构成了恶意代码的行为分类模型。
作为本发明的进一步改进:所述步骤S5的具体流程为:
S5.1:采用基于TF-IDF方法对恶意代码的行为特征进行加权计算,计算方法如下:
设定t=(x1,x2,…xm)是恶意代码样本d中的维度为m的特征,N是训练集中所有样本的总数,n表示训练集中所有出现特征t的样本数,e表示恶意代码家族数目;TF-IDF方法计算特征t权重的具体实施过程如下:
S5.1.1:计算特征t对于每个特征家族ci的后验概率P(ci|t);P(ci|t)是家族ci中出现特征t的次数与整个待训练集中出现特征t的次数之比,t在每一个家族中的后验概率构成了在整个类别之间的分布;
S5.1.2:定义特征t的区分能力;为了表示特征t的家族区分能力,基于特征t对于每个家族的后验概率P(ci|t)定义特征t的区分能力为:
每个特征t基于TD-IDF加权后的权值为:
S5.1.3:利用权重w(t,d)对特征t进行加权;则加权公式如下所示:
tw=t×w(t,d)
即:
S5.2:对每个维度的特征值进行归一化处理;设定的最大值,则归一化公式如下所示:
即:
S5.3:进一步处理时间差信息表特征,得到具有分类能力的特征;
S5.3.1:计算时间差信息表中维度为m的特征的特征值之和fm
S5.3.2:计算时间差信息表中恶意代码家族ci对应m维度特征的特征值之和
S5.3.3:计算各个家族维度m的特征所占比例
S5.3.4:选出维度m相同时的最大值,设为ratiom
S5.3.5:设定阈值th1,当ratiom>th1时,保留维度为m的特征;
S5.3.6:设定阈值th2,当fm>th2时,保留维度为m的特征。
与现有技术相比,本发明的优点在于:本发明的基于多维度行为特征的恶意代码分类方,原理简单、易实现,其通过研究恶意代码的动态行为特征,将不同的角度的多维度行为特征进行分析处理,并利用机器学习进行准确分类,克服了在实际中存在的特征维度多,需要进行特征融合从而造成分类结果较差的情况,解决了传统恶意代码自动分析技术的不足,具备很好的应用前景,可以应用于恶意代码分析检测体系的后端分析检测系统中。
附图说明
图1是本发明方法的流程示意图。
图2是本发明在具体应用实例中恶意代码行为特征向量的提取流程示意图。
图3是本发明在具体应用实例中基于行为特征的分类流程示意图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
如图1所示,本发明的基于多维度行为特征的恶意代码分类方法,其步骤为:
S1:行为数据提取,即获得恶意代码的行为数据。
S2:系统函数调用时间差信息提取。按照行为数据中函数调用的顺序,计算相邻两个系统函数调用的时间差,构建系统函数调用的时间差信息表。
S3:系统函数调用频度信息提取。从行为数据中提取系统函数调用的名称,统计每个系统函数调用的频度,建立系统函数调用的频度信息表。
S4:行为分类频度信息提取。
S5:将时间差信息表、系统函数调用的频度信息表、行为类别的频度信息表分别进行加权计算和归一化处理,并进一步处理时间差信息表特征,处理后合并成一个新的特征空间。
S6:对所有家族样本的行为特征,采用机器学习的典型分类方法,进行交叉验证。
在具体应用实例中,步骤S1中可以通过沙箱等方式,获得恶意代码的行为数据。行为数据的基本内容包括:函数调用名称、函数调用时间、输入参数、输出参数、函数执行结果、以及函数执行需要的上下文信息。
作为较佳的应用实例,本实例中步骤S4的具体流程为:
S4.1:定义恶意代码的行为类别,行为类别包括:文件行为类、注册表行为类、网络行为类、进程行为类、服务行为类、时间行为类、驱动行为类、GUI行为类、系统行为类、其他行为类等。行为类别构成了恶意代码的行为分类模型。
S4.2:根据行为分类模型,对系统函数调用频度按照分类进行频率计算,建立恶意代码的行为类别频度信息表。
作为较佳的应用实例,本实例中步骤S5的具体流程为:
S5.1:采用基于TF-IDF方法对恶意代码的行为特征进行加权计算,计算方法如下:
设定t=(x1,x2,…xm)是恶意代码样本d中的维度为m的特征,N是训练集中所有样本的总数,n表示训练集中所有出现特征t的样本数,e表示恶意代码家族数目。TF-IDF方法计算特征t权重的具体实施过程如下:
S5.1.1:计算特征t对于每个特征家族ci的后验概率P(ci|t)。P(ci|t)是家族ci中出现特征t的次数与整个待训练集中出现特征t的次数之比,t在每一个家族中的后验概率构成了在整个类别之间的分布。
S5.1.2:定义特征t的区分能力。为了表示特征t的家族区分能力,基于特征t对于每个家族的后验概率P(ci|t)定义特征t的区分能力为:
每个特征t基于TD-IDF加权后的权值为:
S5.1.3:利用权重w(t,d)对特征t进行加权。则加权公式如下所示:
tw=t×w(t,d)
即:
S5.2:对每个维度的特征值进行归一化处理。设定的最大值,则归一化公式如下所示:
即:
S5.3:进一步处理时间差信息表特征,得到具有较好分类能力的特征。
S5.3.1:计算时间差信息表中维度为m的特征的特征值之和fm
S5.3.2:计算时间差信息表中恶意代码家族ci对应m维度特征的特征值之和
S5.3.3:计算各个家族维度m的特征所占比例
S5.3.4:选出维度m相同时的最大值,设为ratiom
S5.3.5:设定阈值th1,当ratiom>th1时,保留维度为m的特征。
S5.3.6:设定阈值th2,当fm>th2时,保留维度为m的特征。
以下将结合一个具体应用实例,来对本发明的实际应用进行说明。本实例中的数据集来自4个家族共计599个恶意代码样本。
参见图2所示,为恶意代码多维特征向量的提取流程图。在提取恶意代码样本库文件的行为数据后,从时间、频度和行为分析方面对恶意代码样本的行为特征。对提取出的特征分别分析处理:(1)计算相邻两个系统函数调用的时间差,建立时间差信息表;(2)统计每个系统函数调用的频度,建立系统函数调用的频度信息表;(3)建立恶意代码的行为分类模型,而后对划分后的行为分类进行频率计算,建立行为类别的频度信息表。将时间差信息表、系统函数调用的频度信息表、行为类别的频度信息表分别进行加权计算和归一化处理,处理后合并成一个新的特征空间。该提取过程输出为单个恶意代码的特征向量,同时这些向量自动归类,再以此作为构成样本家族的特征向量,用于训练以后的分类器。
参见图3所示,为基于行为特征的恶意代码分类流程。首先将样本集合随机分为测试集和训练集,并分别进行多维特征提取与处理,然后对训练集中特征进行标记,得到特征库并训练分类器,之后利用训练好的分类器对测试集进行分类,得到最后的分类结果。本发明数据集带有标签,采用有监督学习的方法训练分类器,用KNN分类算法对恶意代码样本特征进行分类。
具体实施过程如下:
第一步:行为数据提取。
本实例中采用Pin插桩的方式获得每个恶意代码动态执行的行为记录,行为记录的基本内容包括:函数调用名称、函数调用时间、输入参数、输出参数、函数执行结果、以及函数执行需要的上下文信息。单个行为数据的表示如下:
第二步:系统函数调用时间差信息提取。
按照行为数据中函数调用的顺序,计算相邻两个系统函数调用的时间差,构建系统函数调用的时间差信息表。
选用0800毫秒作为单位来计算相邻函数调用动作发生时间差。根据时间差的数值,构造一个时间差频次字典。表1是单个样本时间差信息表所形成的部分展示,利用词典的索引号将不同的时间差形成向量,其中对应次数表示该时间差在样本中的出现次数。
表1 时间差信息表
时间差 频次
212 4
213 1
210 1280
668 1
667 2
664 1
130 659
-816 1
134 2
-382 1
-751 240
第三步:函数调用频度信息提取。
从行为数据中提取系统函数调用的名称,统计每个系统函数调用的频度,建立系统函数调用的频度信息表,得到单个样本的特征。
单个样本函数调用频度信息表部分展示如表2所示:
表2 函数调用频度信息表
第四步:行为分类频度信息提取。
步骤4.1:定义恶意代码的行为类别模型M={m1,m2,…,mS},形成恶意代码的行为类型集,其中S表示行为类型的数量;模型M包括的类别如下:文件行为类、注册表行为类、网络行为类、进程行为类、服务行为类、时间行为类、驱动行为类、GUI行为类、系统行为类、其他行为类等。
步骤4.2:根据行为分类模型M,对系统函数调用频度按照分类进行频率计算,建立恶意代码的行为类别频度信息表。
在分类模型M={m1,m2,…,mS}中,对于每种类型mi,其中1≤i≤S,均有相应的行为模式。如涉及到文件行为的函数有CreateFile、DeleteFileA/W、DeleteFileW、ReadFile、CloseFile等,可抽象出“删除自身”、“复制自身”、“释放文件”、“篡改文件”、“修改文件属性”、“搜索文件”等行为模式。
针对每种行为类型mi,采用统计学方法,统计每个恶意代码样本中mi的行为模式以及相关函数的出现频率,形成恶意代码的行为类别频度信息表。
第五步:将时间差信息表、系统函数调用的频度信息表、行为类别的频度信息表分别进行加权计算和归一化处理,并进一步处理时间差信息表特征,处理后合并成一个新的特征空间。
步骤5.1:采用基于TF-IDF方法对恶意代码的行为特征进行加权计算,计算方法如下:
设定t=(x1,x2,…xm)是恶意代码样本d中的维度为m的特征,N是训练集中所有样本的总数,n表示训练集中所有出现特征t的样本数。为了使加权计算的实施过程更加具有可操作性,现举例如表4所示。假设有三类恶意代码家族A、B、C,其中a、b、c分别为不同家族的恶意代码样本,恶意代码样本特征t1=(2,4),t2=(1,3),则N=3。则a特征包含(t1,t2),b特征包含(t2),c特征包含(t2),则
表4 恶意代码样本及其特征
采用TF-IDF方法计算特征t权重的具体实施过程如下:
步骤5.1.1:计算特征t对于每个特征家族ci的后验概率P(ci|t)。P(ci|t)是家族ci中出现特征t的次数与整个待训练集中出现特征t的次数之比,t在每一个家族中的后验概率构成了在整个类别之间的分布。
则P(A|t1)=1,
步骤5.1.2:定义特征t的区分能力。为了表示特征t的家族区分能力,基于特征t对于每个家族的后验概率P(ci|t)定义特征t的区分能力为:
则对于特征t1
对于特征t2
明显t1比t2拥有更好的类别区分能力。
每个特征t基于TD-IDF加权后的权值为:
其中tf(t1,b)=0,tf(t1,c)=0,tf(t2,b)=1,tf(t2,c)=1。
则可以计算得到:
同理可得w(t1,b)=0,w(t1,c)=0,w(t2,a)≈0.016,w(t2,b)=1,w(t2,c)=1。
步骤5.1.3:利用权重w(t,d)对特征t进行加权。
根据公式tw=t×w(t,d)有:
对于恶意代码样本a,
对于恶意代码样本b,
对于恶意代码样本c,
步骤5.2:对每个维度的特征值进行归一化处理。
根据公式进行归一化处理,有:
对于恶意代码样本a,
对于恶意代码样本b,
对于恶意代码样本c,
步骤5.3:进一步处理时间差信息表特征,得到具有较好分类能力的特征。
假设恶意代码样本a1,a2属于家族A,b1属于家族B,且其时间差信息表特征如下表所示:
表5 恶意代码时间差信息表特征
恶意代码样本 维度1 维度2 维度3
a1 0 1 0.5
a2 0.2 1 0.5
b1 0 0.01 1
步骤5.3.1:计算时间差信息表中维度为m的特征的特征值之和fm
则有f1=0.2,f2=2.01,f3=2
步骤5.3.2:计算时间差信息表中恶意代码家族ci对应m维度特征的特征值之和
则有fA1=0.2,fA2=2,fA3=1,fB1=0,fB2=0.01,fB3=1
步骤5.3.3:计算各个家族维度m的特征所占比例
则有ratioA1=1,ratioA2=0.99,ratioA3=0.5,ratioB1=0,ratioB2=0.01,ratioB3=0.5
步骤5.3.4:选出维度m相同时的最大值,设为ratiom
此时,ratio1=1,ratio2=0.99,ratio3=0.5
步骤5.3.5:设定阈值th1,当ratiom>th1时,保留维度为m的特征。
设定阈值th1=0.7,则此时只保留维度1、2的特征。
步骤5.3.6:设定阈值th2,当fm>th2时,保留维度为m的特征。
设定阈值th2=0.3,则此时只保留维度2的特征。
第六步:对所有家族样本的行为特征,采用机器学习的典型分类方法,进行交叉验证。
本实例利中,基于Python提供的公知的keras模块进行分类的交叉验证,得到分类结果。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (7)

1.一种基于多维度行为特征的恶意代码分类方法,其特征在于,步骤为:
S1:获得恶意代码的行为数据;
S2:系统函数调用时间差信息提取;按照行为数据中函数调用的顺序,计算相邻两个系统函数调用的时间差,构建系统函数调用的时间差信息表;
S3:系统函数调用频度信息提取;从行为数据中提取系统函数调用的名称,统计每个系统函数调用的频度,建立系统函数调用的频度信息表;
S4:行为分类频度信息提取;
S5:将时间差信息表、系统函数调用的频度信息表、行为类别的频度信息表分别进行加权计算和归一化处理,并进一步处理时间差信息表特征,处理后合并成一个新的特征空间;
S6:对所有家族样本的行为特征,采用机器学习的分类方法,进行交叉验证。
2.根据权利要求1所述的基于多维度行为特征的恶意代码分类方法,其特征在于,所述步骤S1中的行为数据包括:函数调用名称、函数调用时间、输入参数、输出参数、函数执行结果、以及函数执行需要的上下文信息。
3.根据权利要求1所述的基于多维度行为特征的恶意代码分类方法,其特征在于,在上述步骤S5之后,输出为单个恶意代码的特征向量,同时这些向量自动归类,再以此作为构成样本家族的特征向量,用于训练以后的分类器。
4.根据权利要求3所述的基于多维度行为特征的恶意代码分类方法,其特征在于,所述训练的过程为:首先将样本集合随机分为测试集和训练集,并分别进行多维特征提取与处理;然后对训练集中特征进行标记,得到特征库并训练分类器;之后利用训练好的分类器对测试集进行分类,得到最后的分类结果。
5.根据权利要求1或2或3或4所述的基于多维度行为特征的恶意代码分类方法,其特征在于,所述步骤S4的具体流程为:
S4.1:定义恶意代码的行为类别;
S4.2:根据行为分类模型,对系统函数调用频度按照分类进行频率计算,建立恶意代码的行为类别频度信息表。
6.根据权利要求5所述的基于多维度行为特征的恶意代码分类方法,其特征在于,所述行为类别包括:文件行为类、注册表行为类、网络行为类、进程行为类、服务行为类、时间行为类、驱动行为类、GUI行为类、系统行为类;所述行为类别构成了恶意代码的行为分类模型。
7.根据权利要求1或2或3或4所述的基于多维度行为特征的恶意代码分类方法,其特征在于,所述步骤S5的具体流程为:
S5.1:采用基于TF-IDF方法对恶意代码的行为特征进行加权计算,计算方法如下:
设定t=(x1,x2,…xm)是恶意代码样本d中的维度为m的特征,N是训练集中所有样本的总数,n表示训练集中所有出现特征t的样本数,e表示恶意代码家族数目;TF-IDF方法计算特征t权重的具体实施过程如下:
S5.1.1:计算特征t对于每个特征家族ci的后验概率P(ci|t);P(ci|t)是家族ci中出现特征t的次数与整个待训练集中出现特征t的次数之比,t在每一个家族中的后验概率构成了在整个类别之间的分布;
S5.1.2:定义特征t的区分能力;为了表示特征t的家族区分能力,基于特征t对于每个家族的后验概率P(ci|t)定义特征t的区分能力为:
E [ P ( c | t ) ] = Σ i = 1 | c | Σ j = 1 | c | [ P ( c i | t ) - P ( c j | t ) ] 2 2
每个特征t基于TD-IDF加权后的权值为:
w ( t , d ) = t f ( t , d ) × E [ P ( c | t ) ] Σ t ∈ d [ t f ( t , d ) × E [ P ( c | t ) ] ] 2
S5.1.3:利用权重w(t,d)对特征t进行加权;则加权公式如下所示:
tw=t×w(t,d)
即:
( x 1 w , x 2 w , ... x m w ) = ( x 1 , x 2 , ... x m ) × w ( t , d )
S5.2:对每个维度的特征值进行归一化处理;设定的最大值,则归一化公式如下所示:
t o = t w / x m a x w
即:
( x 1 o , x 2 o , ... x m o ) = ( x 1 w / x m a x w , x 2 w / x m a x w , ... x m w / x m a x w )
S5.3:进一步处理时间差信息表特征,得到具有分类能力的特征;
S5.3.1:计算时间差信息表中维度为m的特征的特征值之和fm
S5.3.2:计算时间差信息表中恶意代码家族ci对应m维度特征的特征值之和
S5.3.3:计算各个家族维度m的特征所占比例
S5.3.4:选出维度m相同时的最大值,设为ratiom
S5.3.5:设定阈值th1,当ratiom>th1时,保留维度为m的特征;
S5.3.6:设定阈值th2,当fm>th2时,保留维度为m的特征。
CN201611164764.XA 2016-12-15 2016-12-15 一种基于多维度行为特征的恶意代码分类方法 Active CN106709349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611164764.XA CN106709349B (zh) 2016-12-15 2016-12-15 一种基于多维度行为特征的恶意代码分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611164764.XA CN106709349B (zh) 2016-12-15 2016-12-15 一种基于多维度行为特征的恶意代码分类方法

Publications (2)

Publication Number Publication Date
CN106709349A true CN106709349A (zh) 2017-05-24
CN106709349B CN106709349B (zh) 2019-10-29

Family

ID=58938950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611164764.XA Active CN106709349B (zh) 2016-12-15 2016-12-15 一种基于多维度行为特征的恶意代码分类方法

Country Status (1)

Country Link
CN (1) CN106709349B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106803040A (zh) * 2017-01-18 2017-06-06 腾讯科技(深圳)有限公司 病毒特征码处理方法及装置
CN108287996A (zh) * 2018-01-08 2018-07-17 北京工业大学 一种恶意代码混淆特征清洗方法
CN109670306A (zh) * 2018-11-27 2019-04-23 国网山东省电力公司济宁供电公司 基于人工智能的电力恶意代码检测方法、服务器及系统
CN110022313A (zh) * 2019-03-25 2019-07-16 河北师范大学 基于机器学习的多态蠕虫特征提取及多态蠕虫辨识方法
CN111538989A (zh) * 2020-04-22 2020-08-14 四川大学 基于图卷积网络和主题模型的恶意代码同源性分析方法
CN112182568A (zh) * 2019-07-02 2021-01-05 四川大学 基于图卷积网络和主题模型的恶意代码分类
CN113468527A (zh) * 2021-06-22 2021-10-01 上海电力大学 一种基于特征表达增强的恶意代码家族分类方法
CN113747443A (zh) * 2021-02-26 2021-12-03 上海观安信息技术股份有限公司 基于机器学习算法的安全检测方法及装置
US11455540B2 (en) 2019-11-15 2022-09-27 International Business Machines Corporation Autonomic horizontal exploration in neural networks transfer learning
CN113747443B (zh) * 2021-02-26 2024-06-07 上海观安信息技术股份有限公司 基于机器学习算法的安全检测方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034050A (zh) * 2011-01-25 2011-04-27 四川大学 基于虚拟机和敏感Native API调用感知的恶意软件动态检测方法
CN102360408A (zh) * 2011-09-28 2012-02-22 国家计算机网络与信息安全管理中心 恶意代码的检测方法及其系统
CN102930210A (zh) * 2012-10-14 2013-02-13 江苏金陵科技集团公司 恶意程序行为自动化分析、检测与分类系统及方法
CN103577755A (zh) * 2013-11-01 2014-02-12 浙江工业大学 一种基于支持向量机的恶意脚本静态检测方法
CN104331436A (zh) * 2014-10-23 2015-02-04 西安交通大学 基于家族基因码的恶意代码快速归类方法
CN104751052A (zh) * 2013-12-30 2015-07-01 南京理工大学常熟研究院有限公司 基于svm算法的移动智能终端软件的动态行为分析方法
US20150242628A1 (en) * 2014-02-23 2015-08-27 Cyphort Inc. System and Method for Detection of Malicious Hypertext Transfer Protocol Chains
CN105740712A (zh) * 2016-03-09 2016-07-06 哈尔滨工程大学 基于贝叶斯网络的Android恶意行为检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034050A (zh) * 2011-01-25 2011-04-27 四川大学 基于虚拟机和敏感Native API调用感知的恶意软件动态检测方法
CN102360408A (zh) * 2011-09-28 2012-02-22 国家计算机网络与信息安全管理中心 恶意代码的检测方法及其系统
CN102930210A (zh) * 2012-10-14 2013-02-13 江苏金陵科技集团公司 恶意程序行为自动化分析、检测与分类系统及方法
CN103577755A (zh) * 2013-11-01 2014-02-12 浙江工业大学 一种基于支持向量机的恶意脚本静态检测方法
CN104751052A (zh) * 2013-12-30 2015-07-01 南京理工大学常熟研究院有限公司 基于svm算法的移动智能终端软件的动态行为分析方法
US20150242628A1 (en) * 2014-02-23 2015-08-27 Cyphort Inc. System and Method for Detection of Malicious Hypertext Transfer Protocol Chains
CN104331436A (zh) * 2014-10-23 2015-02-04 西安交通大学 基于家族基因码的恶意代码快速归类方法
CN105740712A (zh) * 2016-03-09 2016-07-06 哈尔滨工程大学 基于贝叶斯网络的Android恶意行为检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU LIU,ET AL: "Malware classification using gray-scale images and ensemble learning", 《2016 3RD INTERNATIONAL CONFERENCE ON SYSTEMS AND INFORMATICS (ICSAI)》 *
高玉新 等: "恶意代码反分析与分析综述", 《小型微型计算机系统》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106803040B (zh) * 2017-01-18 2021-08-10 腾讯科技(深圳)有限公司 病毒特征码处理方法及装置
CN106803040A (zh) * 2017-01-18 2017-06-06 腾讯科技(深圳)有限公司 病毒特征码处理方法及装置
CN108287996A (zh) * 2018-01-08 2018-07-17 北京工业大学 一种恶意代码混淆特征清洗方法
CN109670306A (zh) * 2018-11-27 2019-04-23 国网山东省电力公司济宁供电公司 基于人工智能的电力恶意代码检测方法、服务器及系统
CN110022313A (zh) * 2019-03-25 2019-07-16 河北师范大学 基于机器学习的多态蠕虫特征提取及多态蠕虫辨识方法
CN110022313B (zh) * 2019-03-25 2021-09-17 河北师范大学 基于机器学习的多态蠕虫特征提取及多态蠕虫辨识方法
CN112182568A (zh) * 2019-07-02 2021-01-05 四川大学 基于图卷积网络和主题模型的恶意代码分类
US11455540B2 (en) 2019-11-15 2022-09-27 International Business Machines Corporation Autonomic horizontal exploration in neural networks transfer learning
CN111538989A (zh) * 2020-04-22 2020-08-14 四川大学 基于图卷积网络和主题模型的恶意代码同源性分析方法
CN111538989B (zh) * 2020-04-22 2022-08-26 四川大学 基于图卷积网络和主题模型的恶意代码同源性分析方法
CN113747443A (zh) * 2021-02-26 2021-12-03 上海观安信息技术股份有限公司 基于机器学习算法的安全检测方法及装置
CN113747443B (zh) * 2021-02-26 2024-06-07 上海观安信息技术股份有限公司 基于机器学习算法的安全检测方法及装置
CN113468527A (zh) * 2021-06-22 2021-10-01 上海电力大学 一种基于特征表达增强的恶意代码家族分类方法

Also Published As

Publication number Publication date
CN106709349B (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN106709349A (zh) 一种基于多维度行为特征的恶意代码分类方法
CN111882446B (zh) 一种基于图卷积网络的异常账户检测方法
Alam et al. Deep learning benchmarks and datasets for social media image classification for disaster response
CN106570513A (zh) 大数据网络系统的故障诊断方法和装置
CN108022146A (zh) 征信数据的特征项处理方法、装置、计算机设备
CN110503099B (zh) 基于深度学习的信息识别方法及相关设备
CN114707571B (zh) 基于增强隔离森林的信用数据异常检测方法
CN106681305A (zh) 一种Fast RVM污水处理在线故障诊断方法
Singh et al. Melford: Using neural networks to find spreadsheet errors
CN111047173A (zh) 基于改进d-s证据理论的社团可信度评估方法
CN107977386A (zh) 一种识别审计事件中的敏感用户的方法及装置
CN113239087A (zh) 一种反窃电稽查监控方法及系统
Vermetten et al. Is there anisotropy in structural bias?
CN106874306A (zh) 人口信息人像比对系统关键性能指标评测方法
CN110956543A (zh) 异常交易检测的方法
CN106485188A (zh) 一种工业用交换机用户异常行为检测方法
CN105989093A (zh) 敏感词的自动发现方法及其装置和应用
Iakovidou et al. Knowledge-based fusion for image tampering localization
Watkins et al. Using genetic algorithms and decision tree induction to classify software failures
CN115204475A (zh) 一种戒毒场所安全事件风险评估方法
CN112464237B (zh) 一种静态代码安全诊断方法及装置
CN108427882A (zh) 基于行为特征抽取的安卓软件动态分析检测法
Shoman et al. Limitations for Data-driven Safeguards at Enrichment Facilities.
Ingrisone et al. Hierarchical Agglomerative Clustering to Detect Test Collusion on Computer‐Based Tests
CN111160454B (zh) 一种速变信号检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant