CN111666566A - 一种挂马检测方法及系统 - Google Patents
一种挂马检测方法及系统 Download PDFInfo
- Publication number
- CN111666566A CN111666566A CN201910170806.8A CN201910170806A CN111666566A CN 111666566 A CN111666566 A CN 111666566A CN 201910170806 A CN201910170806 A CN 201910170806A CN 111666566 A CN111666566 A CN 111666566A
- Authority
- CN
- China
- Prior art keywords
- identified
- state sequence
- program state
- horse
- uniform resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开一种挂马检测方法及系统。本发明提供的挂马检测方法包括:获取待识别统一资源定位符,待识别统一资源定位符为待识别网页的统一资源定位符;解析待识别统一资源定位符对应的待识别程序状态序列,待识别程序状态序列包括待识别统一资源定位符的多条属性;根据待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度确定待识别网页是否为挂马网页。可见,采用本发明提供的挂马检测方法及系统,能够自动检测出挂马网页,大大降低挂马告警事件的误报量,有效减少网络安全运维人员人工筛查的工作量,提高运维人员的工作效率。
Description
技术领域
本发明涉及网络安全技术领域,特别是涉及一种挂马检测方法及系统。
背景技术
网站安全监管系统每天都会检测到上万条的疑似挂马告警事件,需要网络安全运维人员对疑似挂马链接的源代码进行检查核对,过滤掉那些误报、错报的疑似挂马事件,仅处置真正的挂马告警事件。但是,从上万条的疑似挂马告警事件中过滤出真正的挂马告警事件,这无疑是一项非常庞大而又繁琐的工作,极大地影响了网络安全运维人员的工作效率。
发明内容
本发明的目的是提供一种挂马检测方法及系统,能够自动检测出挂马网页,大大降低挂马告警事件的误报量,有效减少网络安全运维人员人工筛查的工作量,提高运维人员的工作效率。
为实现上述目的,本发明提供了如下方案:
一种挂马检测方法,所述检测方法包括:
获取待识别统一资源定位符,所述待识别统一资源定位符为待识别网页的统一资源定位符;
解析所述待识别统一资源定位符对应的待识别程序状态序列,所述待识别程序状态序列包括所述待识别统一资源定位符的多条属性;
根据所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度确定所述待识别网页是否为挂马网页。
可选的,所述解析所述待识别统一资源定位符对应的待识别程序状态序列之前,还包括:
采用正则表达式对所述待识别统一资源定位符进行过滤处理,获得过滤处理后的待识别统一资源定位符。
可选的,所述根据所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度确定所述待识别网页是否为挂马网页,具体包括:
获取相似度阈值;
采用相似性计算方法计算所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度值;
判断是否存在大于或者等于所述相似度阈值的相似度值;
若是,确定所述待识别网页为挂马网页。
可选的,所述确定所述待识别网页为挂马网页之后,还包括:
从大于或者等于所述相似度阈值的各个相似度值中筛选出最大相似度值;
将所述待识别网页对应的挂马类型确定为所述最大相似度值对应的挂马程序状态序列的挂马类型。
可选的,所述采用相似性计算方法计算所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度值,具体包括:
采用余弦相似性计算方法计算所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度值。
可选的,所述待识别程序状态序列包括所述待识别统一资源定位符的协议、IP地址、路径、端口、域名种类、域名长度、域名性质和网页位置中至少两者。
可选的,建立所述挂马事件特征库的方法包括:
获取多种挂马告警事件的统一资源定位符;
解析每一所述挂马告警事件的统一资源定位符对应的挂马程序状态序列,所述挂马程序状态序列包括所述挂马告警事件的统一资源定位符的多条属性;
根据各所述挂马程序状态序列建立所述挂马事件特征库。
一种挂马检测系统,所述检测系统包括:
获取模块,用于获取待识别统一资源定位符,所述待识别统一资源定位符为待识别网页的统一资源定位符;
解析模块,用于解析所述待识别统一资源定位符对应的待识别程序状态序列,所述待识别程序状态序列包括所述待识别统一资源定位符的多条属性;
挂马检测模块,用于根据所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度确定所述待识别网页是否为挂马网页。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的挂马检测方法包括:获取待识别统一资源定位符,待识别统一资源定位符为待识别网页的统一资源定位符;解析待识别统一资源定位符对应的待识别程序状态序列,待识别程序状态序列包括待识别统一资源定位符的多条属性;根据待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度确定待识别网页是否为挂马网页。可见,采用本发明提供的挂马检测方法及系统,能够自动检测出挂马网页,大大降低挂马告警事件的误报量,有效减少网络安全运维人员人工筛查的工作量,提高运维人员的工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种挂马检测方法的流程图;
图2为本发明实施例提供的一种挂马检测系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种挂马检测方法及系统,能够自动检测出挂马网页,大大降低挂马告警事件的误报量,有效减少网络安全运维人员人工筛查的工作量,提高运维人员的工作效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例提供的一种挂马检测方法的流程图。如图1所示,一种挂马检测方法,所述检测方法包括:
步骤1:获取待识别统一资源定位符,所述待识别统一资源定位符为待识别网页的统一资源定位符。
步骤2:解析所述待识别统一资源定位符对应的待识别程序状态序列,所述待识别程序状态序列包括所述待识别统一资源定位符的多条属性。所述待识别程序状态序列包括所述待识别统一资源定位符的协议、IP地址、路径、端口、域名种类、域名长度、域名性质和网页位置中至少两者。
通过对大量疑似挂马的URL分析可以发现,所有的域名都是由一级域名、二级域名等构成,一般域名最多不超过五级,疑似挂马网页链接的构成一般是如下形式:
【五级域名】.【…】.【二级域名】.【一级域名】
对大量疑似挂马网页的URL分解归类,可以得到各类疑似挂马网页链接的各种形式的URL。基于域名长短特性,将疑似挂马网页的URL归类为一级域名、二级域名、三级域名、二级网页、三级网页等类别。
每一条疑似挂马网页的URL都包括n条属性,这n条属性就组成了该统一资源定位符的程序状态序列,不同疑似挂马网页链接的URL的类型不同,其属性的种类不同,属性的个数不同,如只有一级域名的URL和有二级或者三级域名的URL的类型不同,属性个数也不相同,二级页面的URL、三级页面的URL类型也不同。URL的n条属性包含:协议、ip地址、路径、端口、域名种类、域名长度、域名性质和网页位置等。实际应用中,可根据实际需要定义域名多长范围是这个属性,超过这个范围是另一属性,以此类推,疑似挂马URL类型确定后,疑似挂马URL的程序状态序列也就确定了。
步骤3:根据所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度确定所述待识别网页是否为挂马网页。
由于某些网站具有固定的后缀,在疑似挂马事件中会经常出现大量的此类后缀的统一资源定位符(Uniform Resource Locator,URL),有的可能是其它兄弟单位的URL,有的可能是它们的二级、三级、四级有的甚至是五级页面的URL,为了有效避免将此类网址作为疑似挂马网页,本实施例在执行步骤2:解析所述待识别统一资源定位符对应的待识别程序状态序列之前,还包括:
采用正则表达式对所述待识别统一资源定位符进行过滤处理,获得过滤处理后的待识别统一资源定位符。本实施例采用正则表达式把具有固定后缀的网址过滤掉,比如政务网站类型的网址后缀均是.gov结尾,教育类网址均是.edu结尾,这样就能减少一部分误报的疑似挂马链接,这种处理方法在专做政府网站或者教育网站时,过滤效果非常明显。
本实施例中,建立所述挂马事件特征库的方法包括:
获取多种挂马告警事件的统一资源定位符;
解析每一所述挂马告警事件的统一资源定位符对应的挂马程序状态序列,所述挂马程序状态序列包括所述挂马告警事件的统一资源定位符的多条属性;
根据各所述挂马程序状态序列建立所述挂马事件特征库。
每一类挂马告警事件都有自己的特征代码,如告警事件“Mcafee”的告警监测的特征代码是:
确定的告警事件的URL也具有包括n个属性的程序状态序列,将不同的告警事件的程序状态序列集合在一起,就形成一个挂马事件特征库。
本实施例中,步骤3:根据所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度确定所述待识别网页是否为挂马网页,具体包括:
获取相似度阈值。
采用相似性计算方法计算所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度值;本实施例中,采用的相似性计算方法为余弦相似性计算方法。
判断是否存在大于或者等于所述相似度阈值的相似度值。
若是,确定所述待识别网页为挂马网页。
在实际应用中可以发现,疑似挂马的程序状态序列并不一定和已知挂马网页URL的程序状态序列完全一样,因此,本发明引入中间量“余弦夹角”来识别其相似程度,若相似度值大于或者等于相似度阈值,则可认为二者的相似度非常高,就可以把这一条URL确定为挂马网页的URL。
本发明根据两个程序状态序列的相似度判断出疑似挂马URL的程序状态序列与挂马告警事件的程序状态序列的相似度,从而判断该URL是否归类到该类挂马告警事件中。
首先,对两个向量之间的夹角余弦量cosθ进行如下定义:
两个向量间的余弦值很容易地通过使余弦相似性公式推导:
那么,
假设,存在一系列挂马告警事件的程序状态序列样本库:
已知一系列非该类告警事件的URL对应的程序状态序列样本库:
选取合适的相似度阀值a0作为告警事件的判断标准,给定显著性参数α=0.005,通过求解公式(9)所示的优化问题可以得到a0:
其中,G表示随机选取的一个该类告警事件的程序状态序列。
求解公式(9)能够确定a0的最佳取值,优化标准的设置应该是在优先保证识别告警事件的准确度达到一定要求、漏判的情况足够小的前提下,优化参数a0的设置,使得非告警事件被误判为告警事件的几率尽可能小。
通过实验进行学习校正,可以得到a0的最优取值。
以上,已经确定了a0的取值,当时,即可判定向量与相似,即疑似URL的程序状态序列与告警挂马事件的程序状态序列相似,即对应的疑似告警事件与对应的告警事件属于同一类型,反之,则确定对应的告警事件与对应的告警事件不属于同一类型。
本发明涉及的疑似挂马URL默认为某一特定类型的URL。为了拓宽本发明的适用范围,对不同挂马类型的URL,为了能进一步确定挂马网页的类型,本实施例中,确定所述待识别网页为挂马网页之后,还包括:
从大于或者等于所述相似度阈值的各个相似度值中筛选出最大相似度值。
将所述待识别网页对应的挂马类型确定为所述最大相似度值对应的挂马程序状态序列的挂马类型。
本发明先运用正则表达式从疑似挂马网站告警事件中过滤掉一部分具有固定后缀的网站链接,之后采用余弦相似性的相似比较方法将疑似挂马告警事件与挂马特征库进行比较,根据余弦相似度值与相似度阈值的大小关系来判断待识别网站是否为挂马网页,从而达到过滤疑似挂马链接的目的,大大降低挂马误报的情况。
图2为本发明实施例提供的一种挂马检测系统的结构框图。如图2所示,一种挂马检测系统,所述检测系统包括:
获取模块21,用于获取待识别统一资源定位符,所述待识别统一资源定位符为待识别网页的统一资源定位符;
解析模块22,用于解析所述待识别统一资源定位符对应的待识别程序状态序列,所述待识别程序状态序列包括所述待识别统一资源定位符的多条属性;
挂马检测模块23,用于根据所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度确定所述待识别网页是否为挂马网页。
本发明提供的挂马检测方法及系统结合了正则表达式,能够过滤掉某些固定后缀的网址信息,有效减少误报概率,应用在某些特定行业的网络安全监控中时,本发明的优越性尤为突出。同时,本发明将余弦相似度运用到海量的疑似挂马聚类中,为疑似挂马聚类提供了一种新的方法,通过实验优化学习得到最优的相似度阈值a0,有效提高疑似挂马告警事件的归类精准度,进一步减少误报概率,提高挂马检测精度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种挂马检测方法,其特征在于,所述检测方法包括:
获取待识别统一资源定位符,所述待识别统一资源定位符为待识别网页的统一资源定位符;
解析所述待识别统一资源定位符对应的待识别程序状态序列,所述待识别程序状态序列包括所述待识别统一资源定位符的多条属性;
根据所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度确定所述待识别网页是否为挂马网页。
2.根据权利要求1所述的挂马检测方法,其特征在于,所述解析所述待识别统一资源定位符对应的待识别程序状态序列之前,还包括:
采用正则表达式对所述待识别统一资源定位符进行过滤处理,获得过滤处理后的待识别统一资源定位符。
3.根据权利要求1所述的挂马检测方法,其特征在于,所述根据所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度确定所述待识别网页是否为挂马网页,具体包括:
获取相似度阈值;
采用相似性计算方法计算所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度值;
判断是否存在大于或者等于所述相似度阈值的相似度值;
若是,确定所述待识别网页为挂马网页。
4.根据权利要求3所述的挂马检测方法,其特征在于,所述确定所述待识别网页为挂马网页之后,还包括:
从大于或者等于所述相似度阈值的各个相似度值中筛选出最大相似度值;
将所述待识别网页对应的挂马类型确定为所述最大相似度值对应的挂马程序状态序列的挂马类型。
5.根据权利要求3所述的挂马检测方法,其特征在于,所述采用相似性计算方法计算所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度值,具体包括:
采用余弦相似性计算方法计算所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度值。
6.根据权利要求1所述的挂马检测方法,其特征在于,所述待识别程序状态序列包括所述待识别统一资源定位符的协议、IP地址、路径、端口、域名种类、域名长度、域名性质和网页位置中至少两者。
7.根据权利要求1所述的挂马检测方法,其特征在于,建立所述挂马事件特征库的方法包括:
获取多种挂马告警事件的统一资源定位符;
解析每一所述挂马告警事件的统一资源定位符对应的挂马程序状态序列,所述挂马程序状态序列包括所述挂马告警事件的统一资源定位符的多条属性;
根据各所述挂马程序状态序列建立所述挂马事件特征库。
8.一种挂马检测系统,其特征在于,所述检测系统包括:
获取模块,用于获取待识别统一资源定位符,所述待识别统一资源定位符为待识别网页的统一资源定位符;
解析模块,用于解析所述待识别统一资源定位符对应的待识别程序状态序列,所述待识别程序状态序列包括所述待识别统一资源定位符的多条属性;
挂马检测模块,用于根据所述待识别程序状态序列与挂马事件特征库中各挂马程序状态序列的相似度确定所述待识别网页是否为挂马网页。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910170806.8A CN111666566B (zh) | 2019-03-07 | 2019-03-07 | 一种挂马检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910170806.8A CN111666566B (zh) | 2019-03-07 | 2019-03-07 | 一种挂马检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666566A true CN111666566A (zh) | 2020-09-15 |
CN111666566B CN111666566B (zh) | 2021-06-15 |
Family
ID=72381994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910170806.8A Active CN111666566B (zh) | 2019-03-07 | 2019-03-07 | 一种挂马检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666566B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452463A (zh) * | 2007-12-05 | 2009-06-10 | 浙江大学 | 定向抓取页面资源的方法和装置 |
CN102222187A (zh) * | 2011-06-02 | 2011-10-19 | 国家计算机病毒应急处理中心 | 基于域名构造特征的挂马网页检测方法 |
CN103077348A (zh) * | 2012-12-28 | 2013-05-01 | 华为技术有限公司 | 一种Web站点漏洞扫描方法和装置 |
CN105025017A (zh) * | 2015-07-03 | 2015-11-04 | 汉柏科技有限公司 | 基于防火墙的防挂马的方法及防火墙 |
CN105426759A (zh) * | 2015-10-30 | 2016-03-23 | 百度在线网络技术(北京)有限公司 | Url的合法性识别方法及装置 |
CN105721445A (zh) * | 2016-01-25 | 2016-06-29 | 汉柏科技有限公司 | 一种挂马防范的方法和系统 |
CN106528805A (zh) * | 2016-11-15 | 2017-03-22 | 广东华仝九方科技有限公司 | 基于用户的移动互联网恶意程序url智能分析挖掘方法 |
-
2019
- 2019-03-07 CN CN201910170806.8A patent/CN111666566B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452463A (zh) * | 2007-12-05 | 2009-06-10 | 浙江大学 | 定向抓取页面资源的方法和装置 |
CN102222187A (zh) * | 2011-06-02 | 2011-10-19 | 国家计算机病毒应急处理中心 | 基于域名构造特征的挂马网页检测方法 |
CN103077348A (zh) * | 2012-12-28 | 2013-05-01 | 华为技术有限公司 | 一种Web站点漏洞扫描方法和装置 |
CN105025017A (zh) * | 2015-07-03 | 2015-11-04 | 汉柏科技有限公司 | 基于防火墙的防挂马的方法及防火墙 |
CN105426759A (zh) * | 2015-10-30 | 2016-03-23 | 百度在线网络技术(北京)有限公司 | Url的合法性识别方法及装置 |
CN105721445A (zh) * | 2016-01-25 | 2016-06-29 | 汉柏科技有限公司 | 一种挂马防范的方法和系统 |
CN106528805A (zh) * | 2016-11-15 | 2017-03-22 | 广东华仝九方科技有限公司 | 基于用户的移动互联网恶意程序url智能分析挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111666566B (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108200054B (zh) | 一种基于dns解析的恶意域名检测方法及装置 | |
CN107426199B (zh) | 一种网络异常行为检测与分析的方法及系统 | |
CN107204960B (zh) | 网页识别方法及装置、服务器 | |
Al-Mamory et al. | Intrusion detection alarms reduction using root cause analysis and clustering | |
CN102045360B (zh) | 恶意网址库的处理方法及装置 | |
CN110572413A (zh) | 一种基于Elman神经网络的低速率拒绝服务攻击检测方法 | |
CN105656886A (zh) | 一种基于机器学习的网站攻击行为的检测方法及装置 | |
KR100894331B1 (ko) | 웹 로그 상호연관분석을 이용한 웹 애플리케이션 공격의침입 탐지 시스템 및 방법 | |
CN108718298B (zh) | 一种恶意外连流量检测方法及装置 | |
CN103748853A (zh) | 用于对数据通信网络中的协议消息进行分类的方法和系统 | |
CN103281177A (zh) | 对Internet信息系统恶意攻击的检测方法及系统 | |
CN109660518B (zh) | 网络的通信数据检测方法、装置以及机器可读存储介质 | |
CN108881271B (zh) | 一种代理主机的反向追踪溯源方法及装置 | |
CN108846117A (zh) | 商业快讯的去重筛选方法及装置 | |
CN110602030A (zh) | 网络入侵阻断方法、服务器及计算机可读介质 | |
CN105184156A (zh) | 一种安全威胁管理方法和系统 | |
CN111131236A (zh) | 一种web指纹检测装置、方法、设备及介质 | |
CN113343228A (zh) | 事件可信度分析方法、装置、电子设备及可读存储介质 | |
CN111666566B (zh) | 一种挂马检测方法及系统 | |
CN112084095B (zh) | 基于区块链的能源网联监控方法、系统及存储介质 | |
Marquardt et al. | Déjà vu? Client-side fingerprinting and version detection of web application software | |
CN111581475A (zh) | 一种识别标识解析流量的系统及方法 | |
CN114884686B (zh) | 一种php威胁识别方法及装置 | |
CN108229585A (zh) | 一种日志的归类方法及系统 | |
CN106411879B (zh) | 一种软件识别特征的获取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |