CN112052453A - 基于Relief算法的webshell检测方法及装置 - Google Patents
基于Relief算法的webshell检测方法及装置 Download PDFInfo
- Publication number
- CN112052453A CN112052453A CN202010920925.3A CN202010920925A CN112052453A CN 112052453 A CN112052453 A CN 112052453A CN 202010920925 A CN202010920925 A CN 202010920925A CN 112052453 A CN112052453 A CN 112052453A
- Authority
- CN
- China
- Prior art keywords
- sample
- feature
- features
- behavior
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Virology (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及恶意脚本检测领域,本发明旨在解决现有的webshell检测方法存在的误报和漏报率高的问题,提出一种基于Relief算法的webshell检测方法及装置,技术方案概括为:收集样本,所述样本包括webshell样本和正常样本;提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;根据文本特征集和行为特征集训练webshell检测模型;采用所述webshell检测模型判断待检测文件是否为webshell文件。本发明降低了误报率和漏报率,提高了webshell检测的准确率。
Description
技术领域
本发明涉及恶意脚本检测领域,具体来说涉及一种基于Relief算法的webshell检测方法及装置。
背景技术
Webshell是以asp,jsp,PHP等脚本文件存在的一种命令执行环境,也可称为是一种网页后门,攻击者入侵网站服务器后,一般会将webshell后门文件和网站服务器web目录下正常脚本文件放在一起,然后再使用浏览器来访问webshell后门文件,得到webshell命令执行环境,达到控制网站服务器的目的。
如今,随着互联网技术的飞速发展,Web应用系统所提供的服务也越来丰富,越来越多的Web应用系统被广泛地应用在各行各业,Web应用系统的安全问题也变得日益突出,攻击者在对Web系统攻击成功后,往往会利用SQL注入、文件上传漏洞等上传WebShell,来达到对服务器的长久控制,因此,如何有效的检测webshell,及时发现并对目标网站服务器做必要的漏洞修补,尽量的将损失降到最低,也是非常重要的。
目前,检测webshell的方式主要有如下两种:
静态检测:传统的静态检测是基于特征库的匹配,这类基于特征字符的匹配一般通过正则表达式来实现,而正则表达式覆盖面不全,会造成一定的漏报和误报,而且攻击者使用混淆手段很容易躲避这类检测。
动态检测:当webshell文件上传到服务器后,攻击者执行去执行webshell文件时所表现出来的特征我们称为动态特征,但只能检测正在上传或者访问webshell的行为,对网站中已有且未使用的webshell无法检测,存在一定的漏报和误报。
综上所述,现有的webshell检测方法存在覆盖面不全,误报和漏报率高,无法检测出未知webshell的问题。
发明内容
本发明旨在解决现有的webshell检测方法存在的误报和漏报率高的问题,提出一种基于Relief算法的webshell检测方法及装置。
本发明解决上述技术问题所采用的技术方案是:基于Relief算法的webshell检测方法,包括以下步骤:
步骤1、收集样本,所述样本包括webshell样本和正常样本;
步骤2、提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;
步骤3、基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;
步骤4、根据所述文本特征集和行为特征集训练webshell检测模型;
步骤5、采用所述webshell检测模型判断待检测文件是否为webshell文件。
进一步的,所述步骤3具体包括:
步骤31、从文本特征样本集或行为特征样本集中随机选择一个样本R,然后从和样本R同类的样本中寻找最近邻样本H,从和样本R不同类的样本中寻找最近邻样本M;
步骤32、当样本R和同类最近邻样本H在某个特征上的距离小于样本R和不同类最近邻样本M的距离时,则增加该特征的权重;否则,降低该特征的权重;
步骤33、根据预设次数重复执行步骤31-步骤32,得到每个特征的权重,将权重低于第一预设值的特征移除,得到文本特征集和行为特征集。
进一步的,所述根据文本特征集和行为特征集训练webshell检测模型具体包括:
步骤41、将所述文本特征集和行为特征集组成特征集合,作为训练样本集,计算训练样本集中每个特征的信息熵,计算公式如下:
其中,pi为每个特征取得的概率,H(X)为每个特征的信息熵;
步骤42、选择信息熵最大的特征作为决策树的左右子树划分依据,信息熵最大的特征作为树的左子树,其他特征作为树的右子树;
步骤43、在右结点中选择信息熵最大特征作为树的左子树,其他作为树的右子树,若根的深度小于第二预设值,则进入步骤42,否则,进入步骤44;
步骤44、将左节点标记为叶子结点,将其中的特征标记为训练样本集中样本最多的特征,得到的决策树模型并将其作为webshell检测模型。
进一步的,所述文本特征包括:信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比;所述行为特征包括:代码执行、文件操作、数据库操作和压缩与混淆编码的次数。
进一步的,所述采用所述webshell检测模型判断待检测文件是否为webshell文件具体包括:
提取待检测文件中的文本特征和行为特征,将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。
本发明还提出一种于Relief算法的webshell检测装置,包括:收集单元、提取单元、优化单元、训练单元和检测单元;
所述收集单元用于收集样本,所述样本包括webshell样本和正常样本;
所述提取单元同于提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;
所述优化单元用于基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;
所述训练单元用于根据所述文本特征集和行为特征集训练webshell检测模型;
所述检测单元用于采用所述webshell检测模型判断待检测文件是否为webshell文件。
进一步的,所述优化单元还用于执行以下步骤:
步骤31、从文本特征样本集或行为特征样本集中随机选择一个样本R,然后从和样本R同类的样本中寻找最近邻样本H,从和样本R不同类的样本中寻找最近邻样本M;
步骤32、当样本R和同类最近邻样本H在某个特征上的距离小于样本R和不同类最近邻样本M的距离时,则增加该特征的权重;否则,降低该特征的权重;
步骤33、根据预设次数重复执行步骤31-步骤32,得到每个特征的权重,将权重低于第一预设值的特征移除,得到文本特征集和行为特征集。
进一步的,所述训练单元还用于执行以下步骤:
步骤41、将所述文本特征集和行为特征集组成特征集合,作为训练样本集,计算训练样本集中每个特征的信息熵,计算公式如下:
其中,pi为每个特征取得的概率,H(X)为每个特征的信息熵;
步骤42、选择信息熵最大的特征作为决策树的左右子树划分依据,信息熵最大的特征作为树的左子树,其他特征作为树的右子树;
步骤43、在右结点中选择信息熵最大特征作为树的左子树,其他作为树的右子树,若根的深度小于第二预设值,则进入步骤42,否则,进入步骤44;
步骤44、将左节点标记为叶子结点,将其中的特征标记为训练样本集中样本最多的特征,得到的决策树模型并将其作为webshell检测模型。
进一步的,所述文本特征包括:信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比;所述行为特征包括:代码执行、文件操作、数据库操作和压缩与混淆编码的次数。
进一步的,所述检测单元还用于提取待检测文件中的文本特征和行为特征,将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。
本发明的有益效果是:本发明所述的基于Relief算法的webshell检测方法及装置,通过relief算法对提取的文本特征样本集和行为特征样本集进行优化,筛选出分类能力较强的特征来进行webshell检测模型的训练,最后根据待测文本的特征来进行webshell检测。本发明能对未知的webshell进行检测,降低了误报率和漏报率,提高了webshell检测的准确率。
附图说明
图1为本发明实施例所述的基于Relief算法的webshell检测方法的流程示意图;
图2为本发明实施例所述的基于Relief算法的webshell检测装置的结构示意图。
具体实施方式
下面将结合附图对本发明的实施方式进行详细描述。
本发明旨在解决现有的webshell检测方法存在的误报和漏报率高的问题,提出一种基于Relief算法的webshell检测方法及装置,其主要的技术构思如下:收集样本,所述样本包括webshell样本和正常样本;提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;根据所述文本特征集和行为特征集训练webshell检测模型;采用所述webshell检测模型判断待检测文件是否为webshell文件。
首先,收集已知的样本,包括webshell样本和正常样本,分别对收集的webshell样本和正常样本进行特征提取,特征主要包括文本特征和行为特征,其中,文本特征用于表示样本的文件信息,行为特征用于表示样本的相应操作,其可以通过相应操作对应函数出现的次数来体现,进行文本特征和行为特征提取后,得到文本特征样本集和行为特征样本集;然后基于Relief算法分别对文本特征样本集和行为特征样本集进行优化,采集的样本中特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性。导致webshell的检测分析特征、特征训练模型所需的时间就越长,模型也会越复杂。利用Relief算法对特征提取,剔除不相关、冗余、没有差异刻画能力的特征,得到优化后的文本特征集和行为特征集;完成对样本的特征优化后,将新的特征集作为特征训练模块的训练样本集,将标注结果作为预期输出,训练分类器,在分类器上,采用决策树算法对样本特征数据进行学习。最后得到webshell检测模型,将待检测样本文本特征和行为特征输入到信息检测模块,判断是否为webshell文件,进而完成对待检测文件的webshell检测。
实施例
本发明实施例所述的基于Relief算法的webshell检测方法,如图1所示,包括以下步骤:
步骤S1、收集样本,所述样本包括webshell样本和正常样本;
正常情况下,webshell样本比较少,可通过对github上webshell信息进行收集,和通过Python脚本获取大量的webshell样本。
步骤S2、提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;
其中,文本特征用于表示文本信息,可以包括:信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比;提取样本中的文本特征,组成文本特征样本集;
行为特征主要用于表示代码执行、文件操作、数据库操作和压缩与混淆编码等特征,这些特征全面地描述了Webshell的行为,这些行为主要与相关函数出现的次数有关,所以行为特征主要需要提取的是相关函数出现的次数,分别统计每个函数在文本中出现的次数,得到一个矩阵,将其作为行为特征样本集。
步骤S3、基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;
可以理解,采集的样本中特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性。导致webshell的检测分析特征、特征训练模型所需的时间就越长,模型也会越复杂。利用Relief算法对特征提取,剔除不相关、冗余、没有差异刻画能力的特征,得到优化后的文本特征集和行为特征集。
在一些实施例中,优化的具体方法可以包括:
步骤31、从文本特征样本集或行为特征样本集中随机选择一个样本R,然后从和样本R同类的样本中寻找最近邻样本H,从和样本R不同类的样本中寻找最近邻样本M;
步骤32、当样本R和同类最近邻样本H在某个特征上的距离小于样本R和不同类最近邻样本M的距离时,则增加该特征的权重;否则,降低该特征的权重;
具体的,如样本R和样本H在某个特征上的距离小于样本R和样本M上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;反之,如果样本R和样本H在某个特征的距离大于样本R和样本M上的距离,说明该特征对区分同类和不同类的最近邻起负面作用,则降低该特征的权重。重复该过程,最后使得样本R和最近邻样本H在某一特征上的距离与样本R和最近邻样本M在该特征上的距离相同,进而得到各个特征的权重。
步骤33、根据预设次数重复执行步骤31-步骤32,得到每个特征的权重,将权重低于第一预设值的特征移除,得到文本特征集和行为特征集。
具体而言,特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。将最新得到的特征权重值与权重阈值进行比较,小于权重阈值的特征从特征集中移除,大于权重阈值的特征组成新的特征集。文本特征样本集S1和行为特征样本集S2经过优化后得到新的文本特征集T1和行为特征集T2。
下面具体说明基于Relief算法进行特征优化的实现:
输入:文本特征样本集S1,抽样次数m(即预设次数),特征权重阈值R;输出:文本特征集T1为输出的特征集;
把文本特征样本集S1分成S1+={正例}和S1-={负例},权重W=(0,0,…,0),当抽样次数小于m时,执行如下操作:
(1)随机选择一个样例X∈S1;
(2)随机选择一个距离X最近邻的一个正例Z+∈S1+;
(3)随机选择一个距离X最近邻的一个负例Z-∈S1-;
(4)如果X是一个正例,那么H=Z+,M=Z-;否则H=Z-,M=Z+;
(5)计算特征的权重Wi的值:
Wi=Wi-diff(Xi,H)2+diff(Xi,M)2;
(6)将最后得到的权重Wi由大小进行排序,移除权重低于特征权重阈值R的特征,组合剩余的文本特征,得到文本特征集T1;
同理,针对行为特征样本集S2,可得到行为特征集T。
步骤S4、根据所述文本特征集和行为特征集训练webshell检测模型;
可以理解,完成对文本特征样本集S1和行为特征样本集S2的特征优化后,将新的特征矩阵作为输入,将标注结果作为预期输出,训练分类器。在分类器上,采用决策树算法对样本特征数据进行学习,得到webshell检测模型,具体可以包括:
步骤S41、将所述文本特征集和行为特征集组成特征集合,作为训练样本集,计算训练样本集中每个特征的信息熵,计算公式如下:
其中,pi为每个特征取得的概率,H(X)为每个特征的信息熵;
步骤S42、选择信息熵最大的特征作为决策树的左右子树划分依据,信息熵最大的特征作为树的左子树,其他特征作为树的右子树;
步骤S43、在右结点中选择信息熵最大特征作为树的左子树,其他作为树的右子树,若根的深度小于第二预设值,则进入步骤S42,否则,进入步骤S44;
步骤S44、将左节点标记为叶子结点,将其中的特征标记为训练样本集中样本最多的特征,得到的决策树模型并将其作为webshell检测模型。
步骤S5、采用所述webshell检测模型判断待检测文件是否为webshell文件。
具体而言,在得到述webshell检测模型后,提取待检测文件中的文本特征和行为特征,将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。若检测到webshell,则进行标记。
基于上述技术方案,本实施例还提出一种基于Relief算法的webshell检测装置,如图2所示,包括:收集单元、提取单元、优化单元、训练单元和检测单元;
所述收集单元用于收集样本,所述样本包括webshell样本和正常样本;
所述提取单元同于提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;
所述优化单元用于基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;
所述训练单元用于根据所述文本特征集和行为特征集训练webshell检测模型;
所述检测单元用于采用所述webshell检测模型判断待检测文件是否为webshell文件。
可以理解,由于本发明实施例所述的基于Relief算法的webshell检测装置是用于实现实施例所述基于Relief算法的webshell检测方法的装置,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的较为简单,相关之处参见方法的部分说明即可。
Claims (10)
1.基于Relief算法的webshell检测方法,其特征在于,包括以下步骤:
步骤1、收集样本,所述样本包括webshell样本和正常样本;
步骤2、提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;
步骤3、基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;
步骤4、根据所述文本特征集和行为特征集训练webshell检测模型;
步骤5、采用所述webshell检测模型判断待检测文件是否为webshell文件。
2.如权利要求1所述的基于Relief算法的webshell检测方法,其特征在于,所述步骤3具体包括:
步骤31、从文本特征样本集或行为特征样本集中随机选择一个样本R,然后从和样本R同类的样本中寻找最近邻样本H,从和样本R不同类的样本中寻找最近邻样本M;
步骤32、当样本R和同类最近邻样本H在某个特征上的距离小于样本R和不同类最近邻样本M的距离时,则增加该特征的权重;否则,降低该特征的权重;
步骤33、根据预设次数重复执行步骤31-步骤32,得到每个特征的权重,将权重低于第一预设值的特征移除,得到文本特征集和行为特征集。
3.如权利要求1所述的基于Relief算法的的webshell检测方法,其特征在于,所述根据文本特征集和行为特征集训练webshell检测模型具体包括:
步骤41、将所述文本特征集和行为特征集组成特征集合,作为训练样本集,计算训练样本集中每个特征的信息熵,计算公式如下:
其中,pi为每个特征取得的概率,H(X)为每个特征的信息熵;
步骤42、选择信息熵最大的特征作为决策树的左右子树划分依据,信息熵最大的特征作为树的左子树,其他特征作为树的右子树;
步骤43、在右结点中选择信息熵最大特征作为树的左子树,其他作为树的右子树,若根的深度小于第二预设值,则进入步骤42,否则,进入步骤44;
步骤44、将左节点标记为叶子结点,将其中的特征标记为训练样本集中样本最多的特征,得到的决策树模型并将其作为webshell检测模型。
4.如权利要求1所述的基于Relief算法的webshell检测方法,其特征在于,所述文本特征包括:信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比;所述行为特征包括:代码执行、文件操作、数据库操作和压缩与混淆编码的次数。
5.如权利要求1所述的基于Relief算法的webshell检测方法,其特征在于,所述采用所述webshell检测模型判断待检测文件是否为webshell文件具体包括:
提取待检测文件中的文本特征和行为特征,将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。
6.基于Relief算法的webshell检测装置,其特征在于,包括:收集单元、提取单元、优化单元、训练单元和检测单元;
所述收集单元用于收集样本,所述样本包括webshell样本和正常样本;
所述提取单元同于提取样本中的文本特征得到文本特征样本集,提取样本中的行为特征得到行为特征样本集;
所述优化单元用于基于Relief算法对所述文本特征样本集和行为特征样本集进行优化,得到文本特征集和行为特征集;
所述训练单元用于根据所述文本特征集和行为特征集训练webshell检测模型;
所述检测单元用于采用所述webshell检测模型判断待检测文件是否为webshell文件。
7.如权利要求6所述的基于Relief算法的webshell检测装置,其特征在于,所述优化单元还用于执行以下步骤:
步骤31、从文本特征样本集或行为特征样本集中随机选择一个样本R,然后从和样本R同类的样本中寻找最近邻样本H,从和样本R不同类的样本中寻找最近邻样本M;
步骤32、当样本R和同类最近邻样本H在某个特征上的距离小于样本R和不同类最近邻样本M的距离时,则增加该特征的权重;否则,降低该特征的权重;
步骤33、根据预设次数重复执行步骤31-步骤32,得到每个特征的权重,将权重低于第一预设值的特征移除,得到文本特征集和行为特征集。
8.如权利要求6所述的基于Relief算法的webshell检测装置,其特征在于,所述训练单元还用于执行以下步骤:
步骤41、将所述文本特征集和行为特征集组成特征集合,作为训练样本集,计算训练样本集中每个特征的信息熵,计算公式如下:
其中,pi为每个特征取得的概率,H(X)为每个特征的信息熵;
步骤42、选择信息熵最大的特征作为决策树的左右子树划分依据,信息熵最大的特征作为树的左子树,其他特征作为树的右子树;
步骤43、在右结点中选择信息熵最大特征作为树的左子树,其他作为树的右子树,若根的深度小于第二预设值,则进入步骤42,否则,进入步骤44;
步骤44、将左节点标记为叶子结点,将其中的特征标记为训练样本集中样本最多的特征,得到的决策树模型并将其作为webshell检测模型。
9.如权利要求6所述的基于Relief算法的webshell检测装置,其特征在于,所述文本特征包括:信息熵、最长字符串长度、文件重合指数、文件压缩比和非字母数字字符占比;所述行为特征包括:代码执行、文件操作、数据库操作和压缩与混淆编码的次数。
10.如权利要求6所述的基于Relief算法的webshell检测装置,其特征在于,所述检测单元还用于提取待检测文件中的文本特征和行为特征,将提取的文本特征和行为特征输入至webshell检测模型中进行webshell检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010920925.3A CN112052453A (zh) | 2020-09-04 | 2020-09-04 | 基于Relief算法的webshell检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010920925.3A CN112052453A (zh) | 2020-09-04 | 2020-09-04 | 基于Relief算法的webshell检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112052453A true CN112052453A (zh) | 2020-12-08 |
Family
ID=73608112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010920925.3A Pending CN112052453A (zh) | 2020-09-04 | 2020-09-04 | 基于Relief算法的webshell检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052453A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507336A (zh) * | 2020-12-15 | 2021-03-16 | 四川长虹电器股份有限公司 | 基于代码特征和流量行为的服务端恶意程序检测方法 |
CN115499187A (zh) * | 2022-09-13 | 2022-12-20 | 国网智能电网研究院有限公司 | Api安全监测模型训练方法、监测方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975496A (zh) * | 2016-04-26 | 2016-09-28 | 清华大学 | 一种基于上下文感知的音乐推荐方法及装置 |
CN106203095A (zh) * | 2016-07-07 | 2016-12-07 | 众安在线财产保险股份有限公司 | 一种webshell的检测方法和检测系统 |
CN106899440A (zh) * | 2017-03-15 | 2017-06-27 | 苏州大学 | 一种面向云计算的网络入侵检测方法及系统 |
CN108989075A (zh) * | 2017-06-05 | 2018-12-11 | 中国移动通信集团广东有限公司 | 一种网络故障定位方法及系统 |
CN109598124A (zh) * | 2018-12-11 | 2019-04-09 | 厦门服云信息科技有限公司 | 一种webshell检测方法以及装置 |
CN110807194A (zh) * | 2019-10-17 | 2020-02-18 | 新华三信息安全技术有限公司 | 一种webshell检测方法及装置 |
CN111488590A (zh) * | 2020-05-29 | 2020-08-04 | 深圳易嘉恩科技有限公司 | 一种基于用户行为可信分析的sql注入检测方法 |
-
2020
- 2020-09-04 CN CN202010920925.3A patent/CN112052453A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975496A (zh) * | 2016-04-26 | 2016-09-28 | 清华大学 | 一种基于上下文感知的音乐推荐方法及装置 |
CN106203095A (zh) * | 2016-07-07 | 2016-12-07 | 众安在线财产保险股份有限公司 | 一种webshell的检测方法和检测系统 |
CN106899440A (zh) * | 2017-03-15 | 2017-06-27 | 苏州大学 | 一种面向云计算的网络入侵检测方法及系统 |
CN108989075A (zh) * | 2017-06-05 | 2018-12-11 | 中国移动通信集团广东有限公司 | 一种网络故障定位方法及系统 |
CN109598124A (zh) * | 2018-12-11 | 2019-04-09 | 厦门服云信息科技有限公司 | 一种webshell检测方法以及装置 |
CN110807194A (zh) * | 2019-10-17 | 2020-02-18 | 新华三信息安全技术有限公司 | 一种webshell检测方法及装置 |
CN111488590A (zh) * | 2020-05-29 | 2020-08-04 | 深圳易嘉恩科技有限公司 | 一种基于用户行为可信分析的sql注入检测方法 |
Non-Patent Citations (3)
Title |
---|
崔艳鹏: "基于XGBoost算法的Webshell检测方法研究", 《计算机科学》 * |
秦英: "基于随机森林的WebShell检测方法", 《计算机系统应用》 * |
骆子铭: "基于机器学习的 TLS 恶意加密流量检测方案", 《网络与信息安全学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507336A (zh) * | 2020-12-15 | 2021-03-16 | 四川长虹电器股份有限公司 | 基于代码特征和流量行为的服务端恶意程序检测方法 |
CN115499187A (zh) * | 2022-09-13 | 2022-12-20 | 国网智能电网研究院有限公司 | Api安全监测模型训练方法、监测方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110808968B (zh) | 网络攻击检测方法、装置、电子设备和可读存储介质 | |
CN109005145B (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
CN109547423B (zh) | 一种基于机器学习的web恶意请求深度检测系统及方法 | |
CN111600919B (zh) | 智能网络应用防护系统模型的构建方法和装置 | |
CN111428231A (zh) | 基于用户行为的安全处理方法、装置及设备 | |
CN111798312A (zh) | 一种基于孤立森林算法的金融交易系统异常识别方法 | |
CN110909348B (zh) | 一种内部威胁检测方法及装置 | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN112052451A (zh) | 一种webshell检测方法和装置 | |
CN112738014A (zh) | 一种基于卷积时序网络的工控流量异常检测方法及系统 | |
CN109067708B (zh) | 一种网页后门的检测方法、装置、设备及存储介质 | |
CN112052453A (zh) | 基于Relief算法的webshell检测方法及装置 | |
CN114328106A (zh) | 日志数据处理方法、装置、设备及存储介质 | |
CN117034269A (zh) | 一种基于参数增强语义链的动态恶意软件检测方法 | |
CN112016088A (zh) | 生成文件检测模型的方法、装置、检测文件的方法及装置 | |
CN116467720A (zh) | 一种基于图神经网络的智能合约漏洞检测方法及电子设备 | |
CN111581640A (zh) | 一种恶意软件检测方法、装置及设备、存储介质 | |
CN112163217B (zh) | 恶意软件变种识别方法、装置、设备及计算机存储介质 | |
CN115842645A (zh) | 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质 | |
CN110413909B (zh) | 基于机器学习的大规模嵌入式设备在线固件智能识别方法 | |
CN115964478A (zh) | 网络攻击检测方法、模型训练方法及装置、设备及介质 | |
CN114169540A (zh) | 一种基于改进机器学习的网页用户行为检测方法及系统 | |
CN114528908A (zh) | 网络请求数据分类模型训练方法、分类方法及存储介质 | |
CN113691525A (zh) | 一种流量数据处理方法、装置、设备及存储介质 | |
CN114676428A (zh) | 基于动态特征的应用程序恶意行为检测方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201208 |
|
RJ01 | Rejection of invention patent application after publication |