CN110135162A - Webshell后门识别方法、装置、设备及存储介质 - Google Patents
Webshell后门识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110135162A CN110135162A CN201910446470.3A CN201910446470A CN110135162A CN 110135162 A CN110135162 A CN 110135162A CN 201910446470 A CN201910446470 A CN 201910446470A CN 110135162 A CN110135162 A CN 110135162A
- Authority
- CN
- China
- Prior art keywords
- chain
- lonely
- webshell
- feature
- back door
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000004458 analytical method Methods 0.000 claims abstract description 121
- 230000002159 abnormal effect Effects 0.000 claims abstract description 46
- 230000008859 change Effects 0.000 claims abstract description 23
- 239000000284 extract Substances 0.000 claims description 13
- 238000013479 data entry Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 230000004069 differentiation Effects 0.000 abstract description 10
- 230000003542 behavioural effect Effects 0.000 abstract description 6
- 206010000234 Abortion spontaneous Diseases 0.000 abstract description 3
- 208000015994 miscarriage Diseases 0.000 abstract description 3
- 208000000995 spontaneous abortion Diseases 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 22
- 238000001514 detection method Methods 0.000 description 19
- 230000006399 behavior Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000002513 implantation Methods 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/566—Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种WEBSHELL后门识别方法,涉及网络安全领域,包括:获取待检测网站的请求数据;对请求数据进行孤链特征识别分析,得到异常孤链;对异常孤链进行可执行特征分析,并将可执行的异常孤链判定为WEBSHELL后门。该方法从非法后门操作的行为分析入手,通过对请求数据进行人群访问特征、参数变化特征以及跳转特征等至少一种特征信息的识别分析可以实现对非法WEBSHELL后门特征链接以及正常访问链接的有效区分,可执行的异常孤链基本可判定为WEBSHELL后门,可以降低误判概率,提升识别精准度。本发明的另一核心是提供一种WEBSHELL后门识别装置、计算机设备及可读存储介质,具有上述有益效果。
Description
技术领域
本发明涉及网络安全领域,特别涉及一种WEBSHELL后门识别方法、装置、计算机设备及可读存储介质。
背景技术
为保障网站服务器的安全性,需要对非法访问行为进行监控。其中,WEBSHELL指以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境,也可以称为一种网页后门。非法访问用户在入侵了一个网站后,通常会将asp或php后门文件与网站服务器WEB目录下正常的网页文件混在一起,然后就可以使用浏览器来访问asp或者php后门,得到一个命令执行环境,以达到控制网站服务器的目的。
WEBSHELL后门检测是一种有效的非法访问检测手段。业界安全防护设备或软件上常用的WEBSHELL后门检测通过提取执行特征片段代码或指令做成规则库,在攻击者连接WEBSHELL后门时对请求的URL进行规则匹配,进而区分WEBSHELL后门,实现对正常访问以及非法访问的区分。
但是目前在网站服务器的建设中没有统一的编码方式,不同场景下参数命名及请求时自动组成的参数值规则不同,正常的命令及请求中的参数值很可能会含有与规则库相似的字段内容,很容易导致正常访问被误判为非法访问,影响用户的正常使用;另外,除了常见的通过动态网页主页进行访问的页面,还存在一些非常规访问策略的页面,比如一般网站为了方便管理,会设置管理员权限下可访问的运维页面,这些运维页面不是WEBSHELL,而是在网页上直接调用执行已经组织好的命令,只包含有WEBSHELL后门规则的规则库匹配比对则无法识别在这种运维页面下的非法访问,导致非法访问的轻易渗透。
由于服务器编码规则以及页面访问策略不统一等问题,通过与提取执行特征片段代码或指令做成规则库进行规则匹配的后门检测方法容易引发误判,消耗人力投入分析验证的同时检测效率低。
因此,如何提升WEBSHELL后门检测效果,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种WEBSHELL后门识别方法,该方法对于WEBSHELL后门识别准确率高,提升了后门检测效果;本发明的另一目的是提供一种WEBSHELL后门识别装置、计算机设备及可读存储介质。
为解决上述技术问题,本发明提供一种WEBSHELL后门识别方法,包括:
获取待检测网站的请求数据;
对所述请求数据进行孤链特征识别分析,得到异常孤链;其中,所述孤链特征包括:人群访问特征、参数变化特征以及跳转特征中至少一种;
对所述异常孤链进行可执行特征分析,并将可执行的异常孤链判定为WEBSHELL后门。
可选地,若所述孤链特征包括:人群访问特征;则相应地,对所述待检测数据进行孤链特征识别分析,包括:
从所述待检测数据中提取出访问目标URL的用户数量;
判断所述用户数量是否达到预设访问数量;
若未达到,判定所述目标URL为用户异常孤链。
可选地,判断所述用户数量是否达到预设访问数量,包括:
确定所述目标URL的服务类型;
获取所述目标URL的服务类型对应的访问数量,并将得到的访问数量作为目标数量;
判断所述用户数量是否达到所述目标数量;
若达到,判定所述用户数量达到预设访问数量;
若未达到,判定所述用户数量未达到预设访问数量。
可选地,若所述孤链特征包括:参数变化特征;则相应地,对所述待检测数据进行孤链特征识别分析,包括:
筛选出所述待检测数据中目标URL的多次访问请求信息;
提取出各所述访问请求信息中访问请求附带参数;
判断各所述参数是否均相同;
若否,判定所述目标URL为参数异常孤链。
可选地,若所述孤链特征包括:跳转特征;则相应地,对所述待检测数据进行孤链特征识别分析,包括:
筛选出所述待检测数据中基于目标URL的页面跳转次数;
判断所述页面跳转次数是否达到预设次数;
若未达到,判定所述目标URL为跳转异常孤链。
可选地,所述孤链特征中还包括:时间序列特征;则相应地,对所述待检测数据进行孤链特征识别分析,包括:
提取出所述待检测数据中目标URL的访问时间;
判断所述访问时间是否属于预设正常访问时间范围;
若不属于,判定所述目标URL为时间异常孤链。
可选地,对所述请求数据进行孤链特征识别分析,包括:
调用预训练的iforest孤立森林识别模型对所述请求数据进行孤链特征识别分析。
可选地,将可执行的异常孤链判定为WEBSHELL后门之后,还包括:
对所述WEBSHELL后门进行访问拦截,并输出拦截提示信息。
可选地,对所述异常孤链进行可执行特征分析之后,还包括:对非可执行的异常孤链进行安全分析。
可选地,对所述请求数据进行孤链特征识别分析之前,还包括:
提取所述请求数据中的预设数据条目,得到待检测数据;其中,所述预设数据条目的类型根据所述孤链特征识别分析的类型确定;
相应地,对所述请求数据进行孤链特征识别分析具体为:对所述待检测数据进行孤链特征识别分析。
可选地,提取所述请求数据中的预设数据条目,包括:
筛选出所述请求数据中的元数据;
提取出所述元数据中的预设元数据条目,并将提取得到的预设元数据条目作为待检测数据。
本发明公开一种WEBSHELL后门识别装置,包括:
请求数据获取单元,用于获取待检测网站的请求数据;
孤链特征分析单元,用于对所述请求数据进行孤链特征识别分析,得到异常孤链;其中,所述孤链特征包括:人群访问特征、参数变化特征以及跳转特征中至少一种;
可执行特征分析单元,用于对所述异常孤链进行可执行特征分析,并将可执行的异常孤链判定为WEBSHELL后门。
本发明公开一种计算机设备,包括:
存储器,用于存储程序;
处理器,用于执行所述程序时实现所述WEBSHELL后门识别方法的步骤。
本发明公开一种可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现所述WEBSHELL后门识别方法的步骤。
非法WEBSHELL后门操作与正常网站访问行为对于服务器的访问目的不同导致其对于服务器的访问行为存在差异性,本发明所提供的WEBSHELL后门识别方法,从非法WEBSHELL后门操作的行为分析入手,对请求数据进行包括人群访问特征、参数变化特征以及跳转特征等至少一种孤链特征识别分析;其中,WEBSHELL后门为非法植入的新URL,访问的人几乎只有进行非法植入的用户,进行人群访问特征进行分析可快速剔除大部分容易被访问到的链接;每次进行非法WEBSHELL后门请求时,存在一个参数的值频繁变化,而正常访问时基本不会出现这种情况,参数变化特征进行分析可以根据该参数特征进行正常访问以及异常访问的区分;另外,与正常访问相比,非法WEBSHELL后门操作一般不做任何页面跳转,仅在孤链,即WEBSHELL后门上操作,根据该特征进行孤链跳转特征的分析也可以实现正常与异常的区分。
因此,对请求数据进行人群访问特征、参数变化特征以及跳转特征等至少一种特征信息的识别分析可以实现对非法WEBSHELL后门特征链接以及正常访问链接的有效区分,可执行的异常孤链基本可判定为WEBSHELL后门,相较于传统的基于可变特征的固定规则分析,本发明提供的WEBSHELL后门识别可以降低误判概率,提升识别精准度。
本发明还提供了一种WEBSHELL后门识别装置、计算机设备及可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种WEBSHELL后门识别方法的流程图;
图2为本发明实施例提供的一种WEBSHELL后门识别装置的结构框图;
图3为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
本发明的核心是提供一种WEBSHELL后门识别方法,该方法对于WEBSHELL后门识别准确率高,提升了后门检测效果;本发明的另一核心是提供一种WEBSHELL后门识别装置、计算机设备及可读存储介质。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通过研究发现WEBSHELL具有以下特性:
1、一般每次WEBSHELL后门请求,后门的URL路径和请求方式几乎不变,但有一个参数(KEY)上的值频繁变化,且包含命令执行语句。
2、WEBSHELL后门为非法访问用户植入的新URL,并非网站特有,访问的人几乎只有非法用户一人(本发明中将这种URL称为孤链)。
3、与正常访问相比,非法访问用户一般不做任何页面跳转,仅在孤链(WEBSHELL后门)上操作。
由于WEBSHELL具有上述区别行为特征,遵循上述特征,本发明提出一种WEBSHELL后门识别方法可以降低已知误判,请参考图1,图1为本实施例提供的一种WEBSHELL后门识别方法的流程图;该方法主要包括:
步骤s110、获取待检测网站的请求数据。
待检测网站的请求数据指当向待检测网站发起URL请求时,待检测网站接收到的请求数据。
获取请求数据可以与待检测网站直接进行业务对接,实时采集请求数据并持续执行;也可以与第三方数据采集程序对接,实现请求数据的获取,在此对请求数据的获取方法不做限定。
获取的请求数据可以直接输入至步骤s120进行数据分析,然而一般直接获取的请求数据中存在一定的无用数据,这些无用数据可能会对后续的数据分析过程的精确度以及效率产生一定影响,为降低无用数据对后续流程的不良影响,可以在对请求数据进行孤链特征识别分析之前,提取请求数据中的预设数据条目,得到待检测数据;相应地,对请求数据进行孤链特征识别分析具体为:对待检测数据进行孤链特征识别分析。
其中,预设数据条目的类型根据孤链特征识别分析的类型确定。比如当进行跳转特征的分析时,需要对请求数据中的跳转页面信息等数据进行分析;当进行参数变化特征的分析时需要对请求数据中的访问参数、参数值等数据进行分析。
在上述数据筛选中可以将任意类型包含特征信息的数据作为待检测数据,而为进一步精简待分析的数据的同时保证足够的信息量,提取请求数据中的预设数据条目可以包括筛选出请求数据中的元数据;提取出元数据中的预设元数据条目,并将提取得到的数据作为待检测数据。为提升识别的精准度,预设元数据条目具体可以包括:访问时间、URL(不带参数)、访问参数、参数值、源IP、跳转页面。此外,也可以选取其它的元数据条目,本实施例中对预设元数据条目不做限定。
当然,也可以不进行数据的进一步筛选,或者选取其它类型的特征信息数据作为分析对象,在此不做限定。
步骤s120、对请求数据进行孤链特征识别分析,得到异常孤链。
“孤链”指网站中的孤立链接,一般在正常访问过程中几乎不会被人访问到,甚至跟其他链接没有任何关联,通常由广告链接、外链等组成。本发明中通过该词来描述非法访问用户植入的WEBSHELL后门的特性,即仅非法访问用户所知和使用,其他人在正常访问过程中几乎不会访问到。
非法WEBSHELL后门操作与正常网站访问行为对于服务器的访问目的不同导致其对于服务器的访问行为存在差异性,本发明所提供的WEBSHELL后门识别方法,从非法WEBSHELL后门操作的行为分析入手,对请求数据进行孤链特征识别分析,可以实现对非法WEBSHELL后门特征链接以及正常访问链接的有效区分。
本实施例中对于孤链特征分析中的项目不做限定,可以选取人群访问特征、参数变化特征以及跳转特征中一种或多种进行孤链特征识别分析。
其中,WEBSHELL后门为非法植入的新URL,访问的人几乎只有进行非法植入的用户,进行人群访问特征进行分析可快速剔除大部分容易被访问到的链接。
每次进行非法WEBSHELL后门请求时,存在一个参数的值频繁变化,而正常访问时基本不会出现这种情况,参数变化特征进行分析可以根据该参数特征进行正常访问以及异常访问的区分。
此外,与正常访问相比,非法WEBSHELL后门操作一般不做任何页面跳转,仅在孤链(WEBSHELL后门)上操作,根据该特征进行孤链跳转特征的分析也可以实现正常与异常的区分。
基于上述三种孤链特征进行特征识别分析均可以实现对WEBSHELL后门链接以及正常链接的区分,当上述特性均聚焦到一个小范围后,即可发现异常孤立点,确定出孤链。为提升孤链定位的准确度,可以尽量全面提取请求数据特征(比如同时提取人群访问特征、参数变化特征以及跳转特征)进行全方位识别,在此不做限定。
除上述三种孤链特征外,也可以选取其它孤链特征进行分析,比如访问时间特征(非法访问用户普遍在夜间等进行WEBSHELL访问,通过时间序列聚焦,可以发现异常时间访问点,区分正常访问以及WEBSHELL后门访问)等,可选地,为提升检测效果,可以进一步根据请求数据对请求链接进行孤链访问时间特征识别分析,以实现对原始数据中时间特征的有效利用。本实施例中仅以上述四种孤链特征形式为例进行介绍,其它孤链特征均可参照本实施例的介绍,在此不再赘述。
在一定程度上分析的特征项目类型越多识别的准确率越高,但分析过程所需占用的时间也越长,可以根据实际检测需要进行检测项目的设定。一般来说,为了提升WEBSHELL后门的检测效果,可以选取多种特征分析方法以实现对不同类型特征的全方面分析。
需要说明的是,在确定待检测的特征类型后,对目标特征进行检测的实现过程可以参照相关技术中的介绍,本实施例中对特征识别分析中所采用的具体算法不做限定。
其中,特征识别分析可以选用iforest孤立森林算法,调用预训练的iforest孤立森林识别模型对请求数据进行孤链特征识别分析。IForest孤立森林算法(IsolationForest)是无监督学习下的一种基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度。iForest适用于连续数据(Continuous numerical data)的异常检测,将异常定义为“容易被孤立的离群点(more likely to be separated)”,也可以理解为分布稀疏且离密度高的群体较远的点,在网站流量异常分析、信用卡盗刷行为识别等多个场景下,都有其独特的作用,经常被用来通过其异常检测能力,来识别离群点,从而从海量数据中挖掘异常数据,识别异常行为。调用预训练的iforest孤立森林识别模型进行各特性点的进行归纳,发现异常孤立点,再进行切分和聚焦,识别孤链可以提升从海量访问数据中挖掘到异常孤链数据的效率与准确度。
此外,也可以通过UEBA技术或行为分析方式,识别非法访问URL的行为与正常访问URL行为的区别。能认定其访问行为更靠近孤链访问的方式的算法均适用于发明,在此不再赘述。
步骤s130、对异常孤链进行可执行特征分析,并将可执行的异常孤链判定为WEBSHELL后门。
WEBSHELL后门为非法用户执行非法操作的有效命令执行环境,因此WEBSHELL后门包含“可被执行”的特征,通过步骤s120可以发现大量访问中的异常孤链,这些异常孤链即非法用户执行非法操作的URL,若异常孤链包含“可被执行”的特征即可判定其为WEBSHELL后门。
具体地,对异常孤链进行可执行特征分析的过程可以参照相关技术中判断URL链接是否有效可执行的判断过程,例如可以使用PHP解决(使用file_get_contents函数,如果url无法访问,会出现终止程序问题或者使用curl返回,然后判断是否正确执行),也可以使用get_headers函数,根据HTTP返回值查看是否有200等。另外,也可以借助传统的检测规则库,对聚焦样本的参数值进行匹配,即可发现是否为可执行的命令代码,从而发现WEBSHELL后门,也可以通过其它方式实现,具体可以参照相关技术,在此不再赘述。对异常孤链进行可执行特征分析,判断异常孤链是否可执行,生成判断结果;根据判断结果筛选出可执行的异常孤链,并将可执行的异常孤链判定为WEBSHELL后门,对WEBSHELL后门进行后门处理。
若被判定为孤链的同时可被执行,可判定为WEBSHELL后门,后可根据需要对判定为WEBSHELL后门的链接进行相应处理,本实施例中对于判定为孤链的链接的处理方式不做限定,可以根据需要进行设定。可选地,可以对WEBSHELL后门进行访问拦截,并输出拦截提示信息,对实时检测的异常访问情况进行及时拦截并进行告警可以减少非法访问情况对服务器攻击带来的损失。
另外,本实施例中对非可执行的异常孤链的处理方式不做限定,判定为异常孤链的数据在行为上区别于一般正常访问,可能为其他类型的异常访问,也可能为正常访问,为提升系统整体的安全性,可选地,可以对非可执行的异常孤链进行安全分析,分析是否存在未知漏洞(比如0day后门),亦能辅助安全分析人员或运维人员定位是否为未知WEBSHELL,帮助安全分析源从海量的网站链接中聚焦到小范围链接,节省分析时间。同时,而被判定为孤链的同时为发现“可被执行”的特征也可以作为安全分析源介入分析是否存在未知漏洞的辅助信息,在此不做限定。
需要说明的是,本实施例提供的WEBSHELL后门识别方法可以适用于态势感知产品或其他安全防御(如AF)、安全检测类(如IDS)产品中,降低WEBSHELL后门检测误判。
基于上述介绍,本实施例提供的WEBSHELL后门识别方法,从非法WEBSHELL后门操作的行为分析入手,对请求数据进行包括人群访问特征、参数变化特征以及跳转特征等至少一种孤链特征识别分析,可以实现对非法WEBSHELL后门特征链接以及正常访问链接的有效区分,可执行的异常孤链基本可判定为WEBSHELL后门,相较于传统的基于可变特征的固定规则分析,本实施例提供的WEBSHELL后门识别可以降低误判概率,提升识别精准度。
上述实施例中对孤链特征识别分析的过程不做限定,本实施例中对几种孤链特征下的是被分析过程进行介绍,其它情况均可参照本实施例的介绍,在此不再赘述。
识别分析的孤链特征可以为一种或多种,当根据单种孤链特征对请求数据进行识别分析时,直接将该特征下的异常链接作为异常孤链,比如当仅对请求数据进行人群访问特征识别分析时,将得到的用户异常孤链作为异常孤链。
当根据两种及以上孤链特征对请求数据进行识别分析时,需要兼顾多特征识别结果进行异常孤链的确定。具体的兼顾多特征识别结果进行异常孤链的确定的过程可以为首先确定多特征识别的执行顺序,比如先进行人群访问特征识别,再进行参数变化特征识别时,则可以将人群访问特征识别得到的用户异常孤链作为参数变化特征识别的输入量,即只对用户异常孤链对应的请求数据进行参数变化特征识别;也可以不指定多特征识别的执行顺序,取多特征识别结果的交集组我诶异常孤链,比如分别对请求数据进行人群访问特征识别以及参数变化特征识别,得到用户异常孤链以及参数异常孤链,筛选出用户异常孤链以及参数异常孤链中的公共URL,将公共URL作为异常孤链。在此以上述两种多孤链特征识别确定异常孤链的过程进行介绍,其它情况在此不再赘述,均可参照本实施例的介绍。
基于上述异常孤链确定方式,在此对各孤链特征下的具体识别分析过程进行介绍,基于其他孤链特征的识别分析过程均可参照下述介绍,在此不再赘述。(其中,将待检测数据中的待检测URL均称为目标URL,比如需要判断URL1是否为异常孤链,则此时URL1为目标URL,在URL1判别完成需要进行URL2的异常孤链判别时,将URL2作为目标URL。)
当孤链特征包括:人群访问特征时,可选地,对待检测数据进行孤链特征识别分析的过程具体可以为:
1、从待检测数据中提取出访问目标URL的用户数量;
2、判断用户数量是否达到预设访问数量;
3、若未达到,判定目标URL为用户异常孤链。
WEBSHELL后门为非法访问用户植入的新URL,并非网站特有,访问的人几乎只有非法用户一人,若预设时间段内目标URL的访问数量未达到与预设的正常访问数量范围时,可以认为该目标URL为用户异常孤链。除了上述对各目标URL的用户访问数量进行比对判断外,还可以进行用户数量等,在此不做限定。
当基于上述步骤进行用户访问特征识别分析时,由于一些类型下的URL可能平时用户访问较少,比如政府URL等,而一些类型下URL用户访问较多,比如购物URL等,不同类型的URL若采取相同的标准进行判断可能会引发误判等情况,因此优选地,可以为不同服务类型的URL设置不同的访问数量标准,比如设置预设时间内购物URL的标准访问数量不低于10次,公共服务URL的标准访问数量不低于5次等,相应地,判断用户数量是否达到预设访问数量的过程具体可以包括以下步骤:
2.1、确定目标URL的服务类型;
2.2、获取目标URL的服务类型对应的访问数量,并将得到的访问数量作为目标数量;
2.3、判断用户数量是否达到目标数量;
2.4、若达到,判定用户数量达到预设访问数量;
2.5、若未达到,判定用户数量未达到预设访问数量。
依照上述步骤进行用户数量的判定可以大大提升识别准确度,降低误判率。
当孤链特征包括:参数变化特征时,对待检测数据进行孤链特征识别分析的过程具体可以为:
1、筛选出待检测数据中目标URL的多次访问请求信息;
2、提取出各访问请求信息中访问请求附带参数;
3、判断各参数是否均相同;
4、若否,判定目标URL为参数异常孤链。
基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名,如“协议://授权/路径查询”。完整的、带有授权部分的普通统一资源标志符语法看上去如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀参数=值#标志,提取访问请求附带参数即提取目标URL中的参数值。正常情况下同一URL访问地址中的参数值不变,而WEBSHELL后门中对于同一URL访问地址每次访问中所附带的参数值频繁变化,获取针对目标URL的多次访问请求信息,若多次访问请求附带参数发生变化(具体可以判断变化次数是否大于预设值),则可以区分从正常URL中区分出异常孤链。
当孤链特征包括:跳转特征时,对待检测数据进行孤链特征识别分析的过程具体可以为:
1、筛选出待检测数据中基于目标URL的页面跳转次数;
2、判断页面跳转次数是否达到预设次数;
3、若未达到,判定目标URL为跳转异常孤链。
具体的获取页面跳转次数的方式可以参照相关技术,比如可以获取同步请求字段中的页面跳转信息等,与正常访问相比,非法访问用户一般不做任何页面跳转,仅在孤链(WEBSHELL后门)上操作,当基于目标URL的页面跳转次数进行正常URL与异常孤链的区分,当然,针对不同类型的URL也可以针对对应的标准访问次数范围,在此对预设次数的具体数值设定不做限定。此外,对待检测数据进行孤链特征识别分析的过程还可以基于请求数据中的各用户下的页面跳转次数进行识别,比如获取某用户URL访问情况(比如包括URL1),在访问URL1时的跳转数量少于预设个数时,判定为异常孤链等,基于跳转特征进行识别分析的过程可以根据需要进行设定,在此不再赘述。
当孤链特征包括:时间序列特征时,对待检测数据进行孤链特征识别分析的过程具体可以为:
1、提取出待检测数据中目标URL的访问时间;
2、判断访问时间是否属于预设正常访问时间范围;
3、若不属于,判定目标URL为时间异常孤链。
由于非法人员对WEBSHELL后门的非法访问行为一般发生在夜间等普通用户很少访问的时间段,因此通过对访问时间序列特征的识别分析可以实现对正常URL以及异常孤链的区分。比如设定的正常访问时间范围是5:00—23:00,则出现在其它时间段的用户访问的URL可以判定为时间异常孤链。
此外,进行时间序列特征识别分析的过程还可以为统计多用户URL访问时间范围,得到多用户常用访问时间,对不属于该访问时间的URL作为时间异常孤链等,本实施例对具体的进行时间序列特征识别分析的过程不做限定,可以根据需要设定。
本实施例中仅以上述实现方式为例进行介绍,其它识别方式均可参照本实施例的介绍,在此不再赘述。
请参考图2,图2为本实施例提供的一种WEBSHELL后门识别装置的结构框图;该装置主要包括:请求数据获取单元210、孤链特征分析单元220以及可执行特征分析单元230。本实施例提供的WEBSHELL后门识别装置可与上述WEBSHELL后门识别方法相互对照。
其中,请求数据获取单元210主要用于获取待检测网站的请求数据;
孤链特征分析单元220主要用于对请求数据进行孤链特征识别分析,得到异常孤链;其中,孤链特征包括:人群访问特征、参数变化特征以及跳转特征中至少一种;
可执行特征分析单元230主要用于对异常孤链进行可执行特征分析,并将可执行的异常孤链判定为WEBSHELL后门。
本实施例提供的WEBSHELL后门识别装置对于WEBSHELL后门识别准确率高,提升了后门检测效果。
可选地,孤链特征分析单元具体可以为:iforest孤链特征分析单元;
iforest孤链特征分析单元用于调用预训练的iforest孤立森林识别模型对请求数据进行孤链特征识别分析。
可选地,本实施例提供的WEBSHELL后门识别装置可以进一步包括:拦截单元,拦截单元与可执行特征分析单元连接,用于对WEBSHELL后门进行访问拦截,并输出拦截提示信息。
可选地,本实施例提供的WEBSHELL后门识别装置可以进一步包括:安全分析单元,安全分析单元与可执行特征分析单元连接,用于对非可执行的异常孤链进行安全分析。
可选地,孤链特征分析单元中还包括:访问时间特征分析子单元,用于对请求数据进行访问时间特征识别分析。
可选地,本实施例提供的WEBSHELL后门识别装置可以进一步包括:数据提取单元;
数据提取单元的输入端与请求数据获取单元的输出端连接,输出端与孤链特征分析单元的输入端连接,用于提取请求数据中的预设数据条目,得到待检测数据;其中,预设数据条目的类型根据孤链特征识别分析的类型确定;
相应地,孤链特征分析单元用于:对待检测数据进行孤链特征识别分析。
可选地,数据提取单元具体为元数据提取单元;
元数据提取单元包括:筛选子单元以及提取子单元;
筛选子单元用于筛选出请求数据中的元数据;
提取子单元用于提取出元数据中的预设元数据条目,并将提取得到的数据作为待检测数据。
可选地,孤链特征分析单元具体可以包括:人群访问特征分析子单元、参数变化特征分析子单元以及跳转特征分析子单元。
本实施例提供一种计算机设备,包括:存储器以及处理器。
其中,存储器用于存储程序;
处理器用于执行程序时实现如上述WEBSHELL后门识别方法的步骤,具体可参照上述实施例中对WEBSHELL后门识别方法的介绍,在此不再赘述。
请参考图3,为本实施例提供的一种计算机设备的结构示意图,该计算机设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在计算机设备301上执行存储介质330中的一系列指令操作。
计算机设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上面图1所描述的WEBSHELL后门识别方法中的步骤可以由本实施例中计算机设备的结构实现。
本实施例公开一种可读存储介质,其上存储有程序,程序被处理器执行时实现如WEBSHELL后门识别方法的步骤,具体可参照上述实施例中对WEBSHELL后门识别方法的介绍。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的WEBSHELL后门识别方法、装置、计算机设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (14)
1.一种WEBSHELL后门识别方法,其特征在于,包括:
获取待检测网站的请求数据;
对所述请求数据进行孤链特征识别分析,得到异常孤链;其中,所述孤链特征包括:人群访问特征、参数变化特征以及跳转特征中至少一种;
对所述异常孤链进行可执行特征分析,并将可执行的异常孤链判定为WEBSHELL后门。
2.如权利要求1所述的WEBSHELL后门识别方法,其特征在于,若所述孤链特征包括:人群访问特征;则相应地,对所述待检测数据进行孤链特征识别分析,包括:
从所述待检测数据中提取出访问目标URL的用户数量;
判断所述用户数量是否达到预设访问数量;
若未达到,判定所述目标URL为用户异常孤链。
3.如权利要求2所述的WEBSHELL后门识别方法,其特征在于,判断所述用户数量是否达到预设访问数量,包括:
确定所述目标URL的服务类型;
获取所述目标URL的服务类型对应的访问数量,并将得到的访问数量作为目标数量;
判断所述用户数量是否达到所述目标数量;
若达到,判定所述用户数量达到预设访问数量;
若未达到,判定所述用户数量未达到预设访问数量。
4.如权利要求1所述的WEBSHELL后门识别方法,其特征在于,若所述孤链特征包括:参数变化特征;则相应地,对所述待检测数据进行孤链特征识别分析,包括:
筛选出所述待检测数据中目标URL的多次访问请求信息;
提取出各所述访问请求信息中访问请求附带参数;
判断各所述参数是否均相同;
若否,判定所述目标URL为参数异常孤链。
5.如权利要求1所述的WEBSHELL后门识别方法,其特征在于,若所述孤链特征包括:跳转特征;则相应地,对所述待检测数据进行孤链特征识别分析,包括:
筛选出所述待检测数据中基于目标URL的页面跳转次数;
判断所述页面跳转次数是否达到预设次数;
若未达到,判定所述目标URL为跳转异常孤链。
6.如权利要求1所述的WEBSHELL后门识别方法,其特征在于,所述孤链特征中还包括:时间序列特征;则相应地,对所述待检测数据进行孤链特征识别分析,包括:
提取出所述待检测数据中目标URL的访问时间;
判断所述访问时间是否属于预设正常访问时间范围;
若不属于,判定所述目标URL为时间异常孤链。
7.如权利要求1至6任一项所述的WEBSHELL后门识别方法,其特征在于,对所述请求数据进行孤链特征识别分析,包括:
调用预训练的iforest孤立森林识别模型对所述请求数据进行孤链特征识别分析。
8.如权利要求1所述的WEBSHELL后门识别方法,其特征在于,将可执行的异常孤链判定为WEBSHELL后门之后,还包括:
对所述WEBSHELL后门进行访问拦截,并输出拦截提示信息。
9.如权利要求1所述的WEBSHELL后门识别方法,其特征在于,对所述异常孤链进行可执行特征分析之后,还包括:对非可执行的异常孤链进行安全分析。
10.如权利要求1所述的WEBSHELL后门识别方法,其特征在于,对所述请求数据进行孤链特征识别分析之前,还包括:
提取所述请求数据中的预设数据条目,得到待检测数据;其中,所述预设数据条目的类型根据所述孤链特征识别分析的类型确定;
相应地,对所述请求数据进行孤链特征识别分析具体为:对所述待检测数据进行孤链特征识别分析。
11.如权利要求10所述的WEBSHELL后门识别方法,其特征在于,提取所述请求数据中的预设数据条目,包括:
筛选出所述请求数据中的元数据;
提取出所述元数据中的预设元数据条目,并将提取得到的预设元数据条目作为待检测数据。
12.一种WEBSHELL后门识别装置,其特征在于,包括:
请求数据获取单元,用于获取待检测网站的请求数据;
孤链特征分析单元,用于对所述请求数据进行孤链特征识别分析,得到异常孤链;其中,所述孤链特征包括:人群访问特征、参数变化特征以及跳转特征中至少一种;
可执行特征分析单元,用于对所述异常孤链进行可执行特征分析,并将可执行的异常孤链判定为WEBSHELL后门。
13.一种计算机设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述程序时实现如权利要求1至11任一项所述WEBSHELL后门识别方法的步骤。
14.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至11任一项所述WEBSHELL后门识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910446470.3A CN110135162A (zh) | 2019-05-27 | 2019-05-27 | Webshell后门识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910446470.3A CN110135162A (zh) | 2019-05-27 | 2019-05-27 | Webshell后门识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110135162A true CN110135162A (zh) | 2019-08-16 |
Family
ID=67582003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910446470.3A Pending CN110135162A (zh) | 2019-05-27 | 2019-05-27 | Webshell后门识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135162A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909350A (zh) * | 2019-11-16 | 2020-03-24 | 杭州安恒信息技术股份有限公司 | 一种远程精准识别WebShell后门的方法 |
CN112600797A (zh) * | 2020-11-30 | 2021-04-02 | 泰康保险集团股份有限公司 | 异常访问行为的检测方法、装置、电子设备及存储介质 |
CN113051552A (zh) * | 2019-12-27 | 2021-06-29 | 北京国双科技有限公司 | 一种异常行为检测方法和装置 |
CN113806742A (zh) * | 2020-06-15 | 2021-12-17 | 中国电信股份有限公司 | WebShell检测装置、WebShell检测方法及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103561012A (zh) * | 2013-10-28 | 2014-02-05 | 中国科学院信息工程研究所 | 一种基于关联树的web后门检测方法及系统 |
CN105760379A (zh) * | 2014-12-16 | 2016-07-13 | 中国移动通信集团公司 | 一种基于域内页面关联关系检测 webshell 页面的方法及装置 |
CN107241296A (zh) * | 2016-03-28 | 2017-10-10 | 阿里巴巴集团控股有限公司 | 一种Webshell的检测方法及装置 |
CN107294982A (zh) * | 2017-06-29 | 2017-10-24 | 深信服科技股份有限公司 | 网页后门检测方法、装置及计算机可读存储介质 |
CN108156131A (zh) * | 2017-10-27 | 2018-06-12 | 上海观安信息技术股份有限公司 | Webshell检测方法、电子设备和计算机存储介质 |
-
2019
- 2019-05-27 CN CN201910446470.3A patent/CN110135162A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103561012A (zh) * | 2013-10-28 | 2014-02-05 | 中国科学院信息工程研究所 | 一种基于关联树的web后门检测方法及系统 |
CN105760379A (zh) * | 2014-12-16 | 2016-07-13 | 中国移动通信集团公司 | 一种基于域内页面关联关系检测 webshell 页面的方法及装置 |
CN107241296A (zh) * | 2016-03-28 | 2017-10-10 | 阿里巴巴集团控股有限公司 | 一种Webshell的检测方法及装置 |
CN107294982A (zh) * | 2017-06-29 | 2017-10-24 | 深信服科技股份有限公司 | 网页后门检测方法、装置及计算机可读存储介质 |
CN108156131A (zh) * | 2017-10-27 | 2018-06-12 | 上海观安信息技术股份有限公司 | Webshell检测方法、电子设备和计算机存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909350A (zh) * | 2019-11-16 | 2020-03-24 | 杭州安恒信息技术股份有限公司 | 一种远程精准识别WebShell后门的方法 |
CN110909350B (zh) * | 2019-11-16 | 2022-02-11 | 杭州安恒信息技术股份有限公司 | 一种远程精准识别WebShell后门的方法 |
CN113051552A (zh) * | 2019-12-27 | 2021-06-29 | 北京国双科技有限公司 | 一种异常行为检测方法和装置 |
CN113806742A (zh) * | 2020-06-15 | 2021-12-17 | 中国电信股份有限公司 | WebShell检测装置、WebShell检测方法及计算机可读存储介质 |
CN112600797A (zh) * | 2020-11-30 | 2021-04-02 | 泰康保险集团股份有限公司 | 异常访问行为的检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110233849B (zh) | 网络安全态势分析的方法及系统 | |
CN110135162A (zh) | Webshell后门识别方法、装置、设备及存储介质 | |
CN108156131B (zh) | Webshell检测方法、电子设备和计算机存储介质 | |
CN110602029B (zh) | 一种用于识别网络攻击的方法和系统 | |
CN104426906A (zh) | 识别计算机网络内的恶意设备 | |
CN109271780A (zh) | 机器学习恶意软件检测模型的方法、系统和计算机可读介质 | |
US9876817B2 (en) | Cloud checking and killing method, device and system for combating anti-antivirus test | |
CN113496033B (zh) | 访问行为识别方法和装置及存储介质 | |
CN110351248B (zh) | 一种基于智能分析和智能限流的安全防护方法及装置 | |
CN109586282A (zh) | 一种电网未知威胁检测系统及方法 | |
CN111726364B (zh) | 一种主机入侵防范方法、系统及相关装置 | |
CN110535806A (zh) | 监测异常网站的方法、装置、设备和计算机存储介质 | |
CN107294953A (zh) | 攻击操作检测方法及装置 | |
CN113132311A (zh) | 异常访问检测方法、装置和设备 | |
CN113055407A (zh) | 一种资产的风险信息确定方法、装置、设备及存储介质 | |
CN107135199B (zh) | 网页后门的检测方法和装置 | |
JP2019159431A (ja) | 評価プログラム、評価方法および評価装置 | |
KR20210054799A (ko) | Url 클러스터링을 위한 url의 요약을 생성하는 방법 및 장치 | |
CN112751804A (zh) | 一种仿冒域名的识别方法、装置和设备 | |
CN111314326B (zh) | Http漏洞扫描主机的确认方法、装置、设备及介质 | |
CN103093147A (zh) | 一种识别信息的方法和电子装置 | |
CN103593614B (zh) | 一种未知病毒检索方法 | |
CN115242436B (zh) | 一种基于命令行特征的恶意流量检测方法及系统 | |
CN110378120A (zh) | 应用程序接口攻击检测方法、装置以及可读存储介质 | |
CN104363256B (zh) | 一种手机病毒的识别和控制方法、设备与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190816 |
|
RJ01 | Rejection of invention patent application after publication |