CN112052453A - 基于Relief算法的webshell检测方法及装置 - Google Patents

基于Relief算法的webshell检测方法及装置 Download PDF

Info

Publication number
CN112052453A
CN112052453A CN202010920925.3A CN202010920925A CN112052453A CN 112052453 A CN112052453 A CN 112052453A CN 202010920925 A CN202010920925 A CN 202010920925A CN 112052453 A CN112052453 A CN 112052453A
Authority
CN
China
Prior art keywords
sample
feature
features
behavior
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010920925.3A
Other languages
English (en)
Inventor
张兰
徐曼
马小勤
赵凌彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202010920925.3A priority Critical patent/CN112052453A/zh
Publication of CN112052453A publication Critical patent/CN112052453A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Virology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及恶意脚本检测领域,本发明旨在解决现有的webshell检测方法存在的误报和漏报率高的问题,提出一种基于Relief算法的webshell检测方法及装置,技术方案概括为:收集样本,所述样本包括webshell样本和正常样本;提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;根据文本特征集和行为特征集训练webshell检测模型;采用所述webshell检测模型判断待检测文件是否为webshell文件。本发明降低了误报率和漏报率,提高了webshell检测的准确率。

Description

基于Relief算法的webshell检测方法及装置
技术领域
本发明涉及恶意脚本检测领域,具体来说涉及一种基于Relief算法的webshell检测方法及装置。
背景技术
Webshell是以asp,jsp,PHP等脚本文件存在的一种命令执行环境,也可称为是一种网页后门,攻击者入侵网站服务器后,一般会将webshell后门文件和网站服务器web目录下正常脚本文件放在一起,然后再使用浏览器来访问webshell后门文件,得到webshell命令执行环境,达到控制网站服务器的目的。
如今,随着互联网技术的飞速发展,Web应用系统所提供的服务也越来丰富,越来越多的Web应用系统被广泛地应用在各行各业,Web应用系统的安全问题也变得日益突出,攻击者在对Web系统攻击成功后,往往会利用SQL注入、文件上传漏洞等上传WebShell,来达到对服务器的长久控制,因此,如何有效的检测webshell,及时发现并对目标网站服务器做必要的漏洞修补,尽量的将损失降到最低,也是非常重要的。
目前,检测webshell的方式主要有如下两种:
静态检测:传统的静态检测是基于特征库的匹配,这类基于特征字符的匹配一般通过正则表达式来实现,而正则表达式覆盖面不全,会造成一定的漏报和误报,而且攻击者使用混淆手段很容易躲避这类检测。
动态检测:当webshell文件上传到服务器后,攻击者执行去执行webshell文件时所表现出来的特征我们称为动态特征,但只能检测正在上传或者访问webshell的行为,对网站中已有且未使用的webshell无法检测,存在一定的漏报和误报。
综上所述,现有的webshell检测方法存在覆盖面不全,误报和漏报率高,无法检测出未知webshell的问题。
发明内容
本发明旨在解决现有的webshell检测方法存在的误报和漏报率高的问题,提出一种基于Relief算法的webshell检测方法及装置。
本发明解决上述技术问题所采用的技术方案是:基于Relief算法的webshell检测方法,包括以下步骤:
步骤1、收集样本,所述样本包括webshell样本和正常样本;
步骤2、提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;
步骤3、基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;
步骤4、根据所述文本特征集和行为特征集训练webshell检测模型;
步骤5、采用所述webshell检测模型判断待检测文件是否为webshell文件。
进一步的,所述步骤3具体包括:
步骤31、从文本特征样本集或行为特征样本集中随机选择一个样本R,然后从和样本R同类的样本中寻找最近邻样本H,从和样本R不同类的样本中寻找最近邻样本M;
步骤32、当样本R和同类最近邻样本H在某个特征上的距离小于样本R和不同类最近邻样本M的距离时,则增加该特征的权重;否则,降低该特征的权重;
步骤33、根据预设次数重复执行步骤31-步骤32,得到每个特征的权重,将权重低于第一预设值的特征移除,得到文本特征集和行为特征集。
进一步的,所述根据文本特征集和行为特征集训练webshell检测模型具体包括:
步骤41、将所述文本特征集和行为特征集组成特征集合,作为训练样本集,计算训练样本集中每个特征的信息熵,计算公式如下:
Figure BDA0002666708390000021
其中,pi为每个特征取得的概率,H(X)为每个特征的信息熵;
步骤42、选择信息熵最大的特征作为决策树的左右子树划分依据,信息熵最大的特征作为树的左子树,其他特征作为树的右子树;
步骤43、在右结点中选择信息熵最大特征作为树的左子树,其他作为树的右子树,若根的深度小于第二预设值,则进入步骤42,否则,进入步骤44;
步骤44、将左节点标记为叶子结点,将其中的特征标记为训练样本集中样本最多的特征,得到的决策树模型并将其作为webshell检测模型。
进一步的,所述文本特征包括:信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比;所述行为特征包括:代码执行、文件操作、数据库操作和压缩与混淆编码的次数。
进一步的,所述采用所述webshell检测模型判断待检测文件是否为webshell文件具体包括:
提取待检测文件中的文本特征和行为特征,将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。
本发明还提出一种于Relief算法的webshell检测装置,包括:收集单元、提取单元、优化单元、训练单元和检测单元;
所述收集单元用于收集样本,所述样本包括webshell样本和正常样本;
所述提取单元同于提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;
所述优化单元用于基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;
所述训练单元用于根据所述文本特征集和行为特征集训练webshell检测模型;
所述检测单元用于采用所述webshell检测模型判断待检测文件是否为webshell文件。
进一步的,所述优化单元还用于执行以下步骤:
步骤31、从文本特征样本集或行为特征样本集中随机选择一个样本R,然后从和样本R同类的样本中寻找最近邻样本H,从和样本R不同类的样本中寻找最近邻样本M;
步骤32、当样本R和同类最近邻样本H在某个特征上的距离小于样本R和不同类最近邻样本M的距离时,则增加该特征的权重;否则,降低该特征的权重;
步骤33、根据预设次数重复执行步骤31-步骤32,得到每个特征的权重,将权重低于第一预设值的特征移除,得到文本特征集和行为特征集。
进一步的,所述训练单元还用于执行以下步骤:
步骤41、将所述文本特征集和行为特征集组成特征集合,作为训练样本集,计算训练样本集中每个特征的信息熵,计算公式如下:
Figure BDA0002666708390000031
其中,pi为每个特征取得的概率,H(X)为每个特征的信息熵;
步骤42、选择信息熵最大的特征作为决策树的左右子树划分依据,信息熵最大的特征作为树的左子树,其他特征作为树的右子树;
步骤43、在右结点中选择信息熵最大特征作为树的左子树,其他作为树的右子树,若根的深度小于第二预设值,则进入步骤42,否则,进入步骤44;
步骤44、将左节点标记为叶子结点,将其中的特征标记为训练样本集中样本最多的特征,得到的决策树模型并将其作为webshell检测模型。
进一步的,所述文本特征包括:信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比;所述行为特征包括:代码执行、文件操作、数据库操作和压缩与混淆编码的次数。
进一步的,所述检测单元还用于提取待检测文件中的文本特征和行为特征,将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。
本发明的有益效果是:本发明所述的基于Relief算法的webshell检测方法及装置,通过relief算法对提取的文本特征样本集和行为特征样本集进行优化,筛选出分类能力较强的特征来进行webshell检测模型的训练,最后根据待测文本的特征来进行webshell检测。本发明能对未知的webshell进行检测,降低了误报率和漏报率,提高了webshell检测的准确率。
附图说明
图1为本发明实施例所述的基于Relief算法的webshell检测方法的流程示意图;
图2为本发明实施例所述的基于Relief算法的webshell检测装置的结构示意图。
具体实施方式
下面将结合附图对本发明的实施方式进行详细描述。
本发明旨在解决现有的webshell检测方法存在的误报和漏报率高的问题,提出一种基于Relief算法的webshell检测方法及装置,其主要的技术构思如下:收集样本,所述样本包括webshell样本和正常样本;提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;根据所述文本特征集和行为特征集训练webshell检测模型;采用所述webshell检测模型判断待检测文件是否为webshell文件。
首先,收集已知的样本,包括webshell样本和正常样本,分别对收集的webshell样本和正常样本进行特征提取,特征主要包括文本特征和行为特征,其中,文本特征用于表示样本的文件信息,行为特征用于表示样本的相应操作,其可以通过相应操作对应函数出现的次数来体现,进行文本特征和行为特征提取后,得到文本特征样本集和行为特征样本集;然后基于Relief算法分别对文本特征样本集和行为特征样本集进行优化,采集的样本中特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性。导致webshell的检测分析特征、特征训练模型所需的时间就越长,模型也会越复杂。利用Relief算法对特征提取,剔除不相关、冗余、没有差异刻画能力的特征,得到优化后的文本特征集和行为特征集;完成对样本的特征优化后,将新的特征集作为特征训练模块的训练样本集,将标注结果作为预期输出,训练分类器,在分类器上,采用决策树算法对样本特征数据进行学习。最后得到webshell检测模型,将待检测样本文本特征和行为特征输入到信息检测模块,判断是否为webshell文件,进而完成对待检测文件的webshell检测。
实施例
本发明实施例所述的基于Relief算法的webshell检测方法,如图1所示,包括以下步骤:
步骤S1、收集样本,所述样本包括webshell样本和正常样本;
正常情况下,webshell样本比较少,可通过对github上webshell信息进行收集,和通过Python脚本获取大量的webshell样本。
步骤S2、提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;
其中,文本特征用于表示文本信息,可以包括:信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比;提取样本中的文本特征,组成文本特征样本集;
行为特征主要用于表示代码执行、文件操作、数据库操作和压缩与混淆编码等特征,这些特征全面地描述了Webshell的行为,这些行为主要与相关函数出现的次数有关,所以行为特征主要需要提取的是相关函数出现的次数,分别统计每个函数在文本中出现的次数,得到一个矩阵,将其作为行为特征样本集。
步骤S3、基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;
可以理解,采集的样本中特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性。导致webshell的检测分析特征、特征训练模型所需的时间就越长,模型也会越复杂。利用Relief算法对特征提取,剔除不相关、冗余、没有差异刻画能力的特征,得到优化后的文本特征集和行为特征集。
在一些实施例中,优化的具体方法可以包括:
步骤31、从文本特征样本集或行为特征样本集中随机选择一个样本R,然后从和样本R同类的样本中寻找最近邻样本H,从和样本R不同类的样本中寻找最近邻样本M;
步骤32、当样本R和同类最近邻样本H在某个特征上的距离小于样本R和不同类最近邻样本M的距离时,则增加该特征的权重;否则,降低该特征的权重;
具体的,如样本R和样本H在某个特征上的距离小于样本R和样本M上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;反之,如果样本R和样本H在某个特征的距离大于样本R和样本M上的距离,说明该特征对区分同类和不同类的最近邻起负面作用,则降低该特征的权重。重复该过程,最后使得样本R和最近邻样本H在某一特征上的距离与样本R和最近邻样本M在该特征上的距离相同,进而得到各个特征的权重。
步骤33、根据预设次数重复执行步骤31-步骤32,得到每个特征的权重,将权重低于第一预设值的特征移除,得到文本特征集和行为特征集。
具体而言,特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。将最新得到的特征权重值与权重阈值进行比较,小于权重阈值的特征从特征集中移除,大于权重阈值的特征组成新的特征集。文本特征样本集S1和行为特征样本集S2经过优化后得到新的文本特征集T1和行为特征集T2。
下面具体说明基于Relief算法进行特征优化的实现:
输入:文本特征样本集S1,抽样次数m(即预设次数),特征权重阈值R;输出:文本特征集T1为输出的特征集;
把文本特征样本集S1分成S1+={正例}和S1-={负例},权重W=(0,0,…,0),当抽样次数小于m时,执行如下操作:
(1)随机选择一个样例X∈S1;
(2)随机选择一个距离X最近邻的一个正例Z+∈S1+;
(3)随机选择一个距离X最近邻的一个负例Z-∈S1-;
(4)如果X是一个正例,那么H=Z+,M=Z-;否则H=Z-,M=Z+;
(5)计算特征的权重Wi的值:
Wi=Wi-diff(Xi,H)2+diff(Xi,M)2
(6)将最后得到的权重Wi由大小进行排序,移除权重低于特征权重阈值R的特征,组合剩余的文本特征,得到文本特征集T1;
同理,针对行为特征样本集S2,可得到行为特征集T。
步骤S4、根据所述文本特征集和行为特征集训练webshell检测模型;
可以理解,完成对文本特征样本集S1和行为特征样本集S2的特征优化后,将新的特征矩阵作为输入,将标注结果作为预期输出,训练分类器。在分类器上,采用决策树算法对样本特征数据进行学习,得到webshell检测模型,具体可以包括:
步骤S41、将所述文本特征集和行为特征集组成特征集合,作为训练样本集,计算训练样本集中每个特征的信息熵,计算公式如下:
Figure BDA0002666708390000061
其中,pi为每个特征取得的概率,H(X)为每个特征的信息熵;
步骤S42、选择信息熵最大的特征作为决策树的左右子树划分依据,信息熵最大的特征作为树的左子树,其他特征作为树的右子树;
步骤S43、在右结点中选择信息熵最大特征作为树的左子树,其他作为树的右子树,若根的深度小于第二预设值,则进入步骤S42,否则,进入步骤S44;
步骤S44、将左节点标记为叶子结点,将其中的特征标记为训练样本集中样本最多的特征,得到的决策树模型并将其作为webshell检测模型。
步骤S5、采用所述webshell检测模型判断待检测文件是否为webshell文件。
具体而言,在得到述webshell检测模型后,提取待检测文件中的文本特征和行为特征,将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。若检测到webshell,则进行标记。
基于上述技术方案,本实施例还提出一种基于Relief算法的webshell检测装置,如图2所示,包括:收集单元、提取单元、优化单元、训练单元和检测单元;
所述收集单元用于收集样本,所述样本包括webshell样本和正常样本;
所述提取单元同于提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;
所述优化单元用于基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;
所述训练单元用于根据所述文本特征集和行为特征集训练webshell检测模型;
所述检测单元用于采用所述webshell检测模型判断待检测文件是否为webshell文件。
可以理解,由于本发明实施例所述的基于Relief算法的webshell检测装置是用于实现实施例所述基于Relief算法的webshell检测方法的装置,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的较为简单,相关之处参见方法的部分说明即可。

Claims (10)

1.基于Relief算法的webshell检测方法,其特征在于,包括以下步骤:
步骤1、收集样本,所述样本包括webshell样本和正常样本;
步骤2、提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;
步骤3、基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;
步骤4、根据所述文本特征集和行为特征集训练webshell检测模型;
步骤5、采用所述webshell检测模型判断待检测文件是否为webshell文件。
2.如权利要求1所述的基于Relief算法的webshell检测方法,其特征在于,所述步骤3具体包括:
步骤31、从文本特征样本集或行为特征样本集中随机选择一个样本R,然后从和样本R同类的样本中寻找最近邻样本H,从和样本R不同类的样本中寻找最近邻样本M;
步骤32、当样本R和同类最近邻样本H在某个特征上的距离小于样本R和不同类最近邻样本M的距离时,则增加该特征的权重;否则,降低该特征的权重;
步骤33、根据预设次数重复执行步骤31-步骤32,得到每个特征的权重,将权重低于第一预设值的特征移除,得到文本特征集和行为特征集。
3.如权利要求1所述的基于Relief算法的的webshell检测方法,其特征在于,所述根据文本特征集和行为特征集训练webshell检测模型具体包括:
步骤41、将所述文本特征集和行为特征集组成特征集合,作为训练样本集,计算训练样本集中每个特征的信息熵,计算公式如下:
Figure FDA0002666708380000011
其中,pi为每个特征取得的概率,H(X)为每个特征的信息熵;
步骤42、选择信息熵最大的特征作为决策树的左右子树划分依据,信息熵最大的特征作为树的左子树,其他特征作为树的右子树;
步骤43、在右结点中选择信息熵最大特征作为树的左子树,其他作为树的右子树,若根的深度小于第二预设值,则进入步骤42,否则,进入步骤44;
步骤44、将左节点标记为叶子结点,将其中的特征标记为训练样本集中样本最多的特征,得到的决策树模型并将其作为webshell检测模型。
4.如权利要求1所述的基于Relief算法的webshell检测方法,其特征在于,所述文本特征包括:信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比;所述行为特征包括:代码执行、文件操作、数据库操作和压缩与混淆编码的次数。
5.如权利要求1所述的基于Relief算法的webshell检测方法,其特征在于,所述采用所述webshell检测模型判断待检测文件是否为webshell文件具体包括:
提取待检测文件中的文本特征和行为特征,将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。
6.基于Relief算法的webshell检测装置,其特征在于,包括:收集单元、提取单元、优化单元、训练单元和检测单元;
所述收集单元用于收集样本,所述样本包括webshell样本和正常样本;
所述提取单元同于提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;
所述优化单元用于基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;
所述训练单元用于根据所述文本特征集和行为特征集训练webshell检测模型;
所述检测单元用于采用所述webshell检测模型判断待检测文件是否为webshell文件。
7.如权利要求6所述的基于Relief算法的webshell检测装置,其特征在于,所述优化单元还用于执行以下步骤:
步骤31、从文本特征样本集或行为特征样本集中随机选择一个样本R,然后从和样本R同类的样本中寻找最近邻样本H,从和样本R不同类的样本中寻找最近邻样本M;
步骤32、当样本R和同类最近邻样本H在某个特征上的距离小于样本R和不同类最近邻样本M的距离时,则增加该特征的权重;否则,降低该特征的权重;
步骤33、根据预设次数重复执行步骤31-步骤32,得到每个特征的权重,将权重低于第一预设值的特征移除,得到文本特征集和行为特征集。
8.如权利要求6所述的基于Relief算法的webshell检测装置,其特征在于,所述训练单元还用于执行以下步骤:
步骤41、将所述文本特征集和行为特征集组成特征集合,作为训练样本集,计算训练样本集中每个特征的信息熵,计算公式如下:
Figure FDA0002666708380000021
其中,pi为每个特征取得的概率,H(X)为每个特征的信息熵;
步骤42、选择信息熵最大的特征作为决策树的左右子树划分依据,信息熵最大的特征作为树的左子树,其他特征作为树的右子树;
步骤43、在右结点中选择信息熵最大特征作为树的左子树,其他作为树的右子树,若根的深度小于第二预设值,则进入步骤42,否则,进入步骤44;
步骤44、将左节点标记为叶子结点,将其中的特征标记为训练样本集中样本最多的特征,得到的决策树模型并将其作为webshell检测模型。
9.如权利要求6所述的基于Relief算法的webshell检测装置,其特征在于,所述文本特征包括:信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比;所述行为特征包括:代码执行、文件操作、数据库操作和压缩与混淆编码的次数。
10.如权利要求6所述的基于Relief算法的webshell检测装置,其特征在于,所述检测单元还用于提取待检测文件中的文本特征和行为特征,将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。
CN202010920925.3A 2020-09-04 2020-09-04 基于Relief算法的webshell检测方法及装置 Pending CN112052453A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010920925.3A CN112052453A (zh) 2020-09-04 2020-09-04 基于Relief算法的webshell检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010920925.3A CN112052453A (zh) 2020-09-04 2020-09-04 基于Relief算法的webshell检测方法及装置

Publications (1)

Publication Number Publication Date
CN112052453A true CN112052453A (zh) 2020-12-08

Family

ID=73608112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010920925.3A Pending CN112052453A (zh) 2020-09-04 2020-09-04 基于Relief算法的webshell检测方法及装置

Country Status (1)

Country Link
CN (1) CN112052453A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507336A (zh) * 2020-12-15 2021-03-16 四川长虹电器股份有限公司 基于代码特征和流量行为的服务端恶意程序检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975496A (zh) * 2016-04-26 2016-09-28 清华大学 一种基于上下文感知的音乐推荐方法及装置
CN106203095A (zh) * 2016-07-07 2016-12-07 众安在线财产保险股份有限公司 一种webshell的检测方法和检测系统
CN106899440A (zh) * 2017-03-15 2017-06-27 苏州大学 一种面向云计算的网络入侵检测方法及系统
CN108989075A (zh) * 2017-06-05 2018-12-11 中国移动通信集团广东有限公司 一种网络故障定位方法及系统
CN109598124A (zh) * 2018-12-11 2019-04-09 厦门服云信息科技有限公司 一种webshell检测方法以及装置
CN110807194A (zh) * 2019-10-17 2020-02-18 新华三信息安全技术有限公司 一种webshell检测方法及装置
CN111488590A (zh) * 2020-05-29 2020-08-04 深圳易嘉恩科技有限公司 一种基于用户行为可信分析的sql注入检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975496A (zh) * 2016-04-26 2016-09-28 清华大学 一种基于上下文感知的音乐推荐方法及装置
CN106203095A (zh) * 2016-07-07 2016-12-07 众安在线财产保险股份有限公司 一种webshell的检测方法和检测系统
CN106899440A (zh) * 2017-03-15 2017-06-27 苏州大学 一种面向云计算的网络入侵检测方法及系统
CN108989075A (zh) * 2017-06-05 2018-12-11 中国移动通信集团广东有限公司 一种网络故障定位方法及系统
CN109598124A (zh) * 2018-12-11 2019-04-09 厦门服云信息科技有限公司 一种webshell检测方法以及装置
CN110807194A (zh) * 2019-10-17 2020-02-18 新华三信息安全技术有限公司 一种webshell检测方法及装置
CN111488590A (zh) * 2020-05-29 2020-08-04 深圳易嘉恩科技有限公司 一种基于用户行为可信分析的sql注入检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
崔艳鹏: "基于XGBoost算法的Webshell检测方法研究", 《计算机科学》 *
秦英: "基于随机森林的WebShell检测方法", 《计算机系统应用》 *
骆子铭: "基于机器学习的 TLS 恶意加密流量检测方案", 《网络与信息安全学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507336A (zh) * 2020-12-15 2021-03-16 四川长虹电器股份有限公司 基于代码特征和流量行为的服务端恶意程序检测方法

Similar Documents

Publication Publication Date Title
CN112069485B (zh) 基于用户行为的安全处理方法、装置及设备
CN109005145B (zh) 一种基于自动特征抽取的恶意url检测系统及其方法
CN109547423B (zh) 一种基于机器学习的web恶意请求深度检测系统及方法
CN111600919B (zh) 智能网络应用防护系统模型的构建方法和装置
CN110808968A (zh) 网络攻击检测方法、装置、电子设备和可读存储介质
CN113961922B (zh) 一种基于深度学习的恶意软件行为检测与分类系统
CN111798312A (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN110909348B (zh) 一种内部威胁检测方法及装置
CN110175851B (zh) 一种作弊行为检测方法及装置
CN107315956A (zh) 一种用于快速准确检测零日恶意软件的图论方法
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN110191096A (zh) 一种基于语义分析的词向量网页入侵检测方法
CN112052451A (zh) 一种webshell检测方法和装置
CN112738014A (zh) 一种基于卷积时序网络的工控流量异常检测方法及系统
CN109067708B (zh) 一种网页后门的检测方法、装置、设备及存储介质
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN114328106A (zh) 日志数据处理方法、装置、设备及存储介质
CN112052453A (zh) 基于Relief算法的webshell检测方法及装置
CN116467720A (zh) 一种基于图神经网络的智能合约漏洞检测方法及电子设备
CN112016088A (zh) 生成文件检测模型的方法、装置、检测文件的方法及装置
CN112163217B (zh) 恶意软件变种识别方法、装置、设备及计算机存储介质
CN115842645A (zh) 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质
CN115344563A (zh) 数据去重方法及装置、存储介质、电子设备
CN110413909B (zh) 基于机器学习的大规模嵌入式设备在线固件智能识别方法
CN108647497A (zh) 一种基于特征提取的api密钥自动识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201208

RJ01 Rejection of invention patent application after publication