CN107729386B - 一种基于聚合度分析的暗链检测技术 - Google Patents

一种基于聚合度分析的暗链检测技术 Download PDF

Info

Publication number
CN107729386B
CN107729386B CN201710846340.XA CN201710846340A CN107729386B CN 107729386 B CN107729386 B CN 107729386B CN 201710846340 A CN201710846340 A CN 201710846340A CN 107729386 B CN107729386 B CN 107729386B
Authority
CN
China
Prior art keywords
link
chain
value
polymerization
dark chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710846340.XA
Other languages
English (en)
Other versions
CN107729386A (zh
Inventor
陈建勇
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dbappsecurity Technology Co Ltd
Original Assignee
Hangzhou Dbappsecurity Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dbappsecurity Technology Co Ltd filed Critical Hangzhou Dbappsecurity Technology Co Ltd
Priority to CN201710846340.XA priority Critical patent/CN107729386B/zh
Publication of CN107729386A publication Critical patent/CN107729386A/zh
Application granted granted Critical
Publication of CN107729386B publication Critical patent/CN107729386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及网络安全领域,旨在提供一种基于聚合度分析的暗链检测技术。该种基于聚合度分析的暗链检测方法,通过下述步骤实现检测网页中植入的暗链:向待检测的Web网站服务器发送HTTP请求,抓取待检测页面的响应HTML源代码;对获得的响应HTML源代码建立链接坐标平面图;计算聚合度,获取疑似暗链的外链集;敏感关键字匹配。本发明采用基于代码聚合度的技术手段,识别网页中植入的暗链,并通过采用关键字校验技术,在识别准确度方面有了明显的提升。

Description

一种基于聚合度分析的暗链检测技术
技术领域
本发明是关于网络安全领域,特别涉及一种基于聚合度分析的暗链检测技术。
背景技术
暗链是一种特殊的网页超链接,通过比较隐蔽的技术手法植入于网站代码中,通常无法直接通过浏览器查看到,主要用途为利用搜索引擎以及网站相互引用来获得较高的搜索排名以及较大的网站访问流量。
由于该技术主要用于推广一些非法或不健康的内容,嵌入网页的技术手段也通常为非受权的入侵式植入为主,因此通常暗链也是网站被黑的一种显性标志。
目前,对于暗链的检测技术主要依赖于特征库黑名单检测技术、浏览器渲染链接元素样式属性判断等技术,但是这些技术都需要依赖于特征进行计算,容易产生误报。
发明内容
本发明的主要目的在于克服现有技术中的不足,提供一种能准确识别网页已经被植入的暗链的方法。为解决上述技术问题,本发明的解决方案是:
提供一种基于聚合度分析的暗链检测方法,用于检测网页中植入的暗链,所述基于聚合度分析的暗链检测方法具体包括下述步骤:
步骤一:向待检测的Web网站服务器发送HTTP请求,抓取待检测页面的响应HTML源代码;
步骤二:对获得的响应HTML源代码建立链接坐标平面图(链接坐标系是指:以(0,0)为坐标原点,水平线方向为X轴,垂直方向为Y轴);
外部链接(即一个网页中所有的链接,且链向的目的链接不是本网站的链接;以http://www.dbappsecurity.com.cn页面的源代码为例,凡是不指向www.dbappsecurity.com.cn的链接相对于网站http://www.dbappsecurity.com.cn都是外链)在链接坐标系中的坐标取值方式如下:
1)外部链接在链接坐标系中的Y值:该外部链接在响应HTML源代码中的行数;
2)外部链接在链接坐标系中的X值,每一行分别计算获得:首先将本行源代码中的每一个链接(<a href=*>*</a>)作为一个整体,然后以空格分隔每一个链接,将这一行源代码分割成一个数组,作为整体的链接不参与分割,各链接在分割产生的数组中的顺序即为该链接的X坐标值(比如源代码“test<br><a href=x>k</a>fff”,分割之后链接“<ahref=x>k</a>”所在数组的顺序为2,所以该链接的X取值为2);
通过上述定位,获得所有外部链接在链接坐标系中的坐标值,然后将各外部链接在链接坐标系中绘制出来,获得链接坐标平面图;
步骤三:计算聚合度,获取疑似暗链的外链集:
在链接坐标平面图中,计算所有外部链接的X值,是否存在连续N个点的X值相近;相近是指这N个点的连线近似于水平直线,即连线与Y轴的夹角值在88°到90°之间,则认为这连续的N个点对应的外部链接聚合符合条件;所述N是指大于0的自然数(N为经验值,取值为3~10);
同理,在链接坐标平面图中,计算外部链接的Y值是否满足聚合条件:是否存在连续N个点的Y值相近;相近是指这N个点的连线近似于垂直直线,即连线与X轴的夹角值在88°到90°之间,则认为这连续的N个点对应的外部链接聚合符合条件;所述N是指大于0的自然数(N为经验值,取值为3~10);
只要外部链接的X值或者Y值满足聚合条件,则认为这一批外部链接符合聚合,判定为疑似暗链的外链集;
步骤四:敏感关键字匹配:
使用暗链敏感关键字集合(暗链敏感关键字集合是历史整理的暗链敏感关键字,主要指涉及色情、博彩、广告之类的关键词,这一类关键字在暗链中利用最多),对疑似暗链的外链集中的锚文本进行匹配(暗链敏感关键字对锚文本的匹配算法是,逐一使用各链接的锚文本,在关键字集合中查找,如果命中则判定为匹配),如果匹配次数超过二次,则判定该外链集是暗链;
所述锚文本是指一个链接中的文本内容(如源代码链接“<a href=xx>qqq</a>”中,“qqq”则是锚文本)。
本发明的工作原理:采用基于网页代码聚合度分析技术,对待检测的网页进行提取,检测网页中的块结构中的外部超级链接,通过超级链接的聚合度分析快速定位可能存在暗链的块,然后针对定位的块进行关键字校验,从而实现大批量网站暗链检测。
与现有技术相比,本发明的有益效果是:
本发明主要从黑客入侵篡改植入暗链的主观目的性上出发,从数学脚本考虑其植入链接的结构特性,来进行检测,能够极大的提高检测结果的准确性。
本发明采用基于代码聚合度的技术手段,识别网页中植入的暗链,并通过采用关键字校验技术,在识别准确度方面有了明显的提升。
在大批量检测对象的情况下,本发明可以非常快速地展开大范围的暗链检测工作,实现了高性能检测,在检测性能方面有着明显的优势。
附图说明
图1为本发明的检测流程图。
图2为实施例中的链接坐标平面图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
暗链,同时满足以下两个条件为暗链:
1)大量外部链接聚合成水平、垂直的直线;
2)聚合成直线的外链描文本,包含诸如“赌场”、“百家乐”等敏感关键字。
下面的实施例可以使本专业的专业技术人员更全面地理解本发明,但不以任何方式限制本发明。
如图1所示的一种基于聚合度分析的暗链检测技术,能检测出网页中植入的暗链,具体检测步骤如下:
步骤一:向待检测的Web网站服务器发送HTTP请求,抓取待检测页面的响应HTML源代码。
本实施例中待检测页面的响应HTML源代码如下(左边一列为在响应HTML源代码中的行数):
766</table><div id="tesi">
767<a href="http://cjdszx.com">太阳城娱乐城</a>
768<a href="http://xapabx.com">赌场</a>
769<a href="http://maxecu.com">威尼斯人</a>
770<a href="http://byzhongye.com">澳门金沙</a>
771<a href="http://mir32008.com">赌博</a>
772<a href="http://bjdhhkyj.com">博彩</a>
773<a href="http://designxun.com">新葡京</a>
774<a href="http://bjyhjjm.com">澳门赌场</a>
775<a href="http://jhgangbanwang.com">轮盘</a>
776<a href="http://lzhousui.com">博彩网</a>
777<a href="http://jaybwx.com">足球投注</a>
778<a href="http://www.lyjgqz.com">全讯网</a>
779<a href="http://qingdaogoldenplaza.com">线上百家乐</a>
780<a href="http://sxlfzs.com">百家乐论坛</a>
781<a href="http://www.taomeileshop.com">百家乐软件</a>
782<a href="http://qzlcjx.com">www.hg0088.com</a>
783<a href="http://mastsy.com">皇冠hg0088</a>
784<a href="http://www.zzhyqzj.com">hg0088.com开户</a>
785<a href="http://www.hndzgs.com">博彩评级</a></p></div></table>
步骤二:对获得的响应HTML源代码建立链接坐标平面图,链接坐标系是指:以(0,0)为坐标原点,水平线方向为X轴,垂直方向为Y轴。
外部链接是指:一个网页中所有的链接,链向的目的链接不是本网站的链接。以http://www.dbappsecurity.com.cn页面的源代码为例,凡是不指向www.dbappsecurity.com.cn的链接相对于网站http://www.dbappsecurity.com.cn都是外链。
外部链接在链接坐标系中的坐标取值方式如下:
1)外部链接在链接坐标系中的Y值:该外部链接在响应HTML源代码中的行数;
2)外部链接在链接坐标系中的X值,每一行分别计算获得:首先将本行源代码中的每一个链接(<a href=*>*</a>)作为一个整体,然后以空格为分隔符,将这一行分割成一个数组,作为整体的链接不参与分割,各链接在分割产生的数组中的顺序即为该链接的X坐标值。如源代码:“test<br><a href=x>k</a>fff”分割之后链接“<a href=x>k</a>”所在数组的顺序为2,所以该链接的X取值为2。
通过上述定位,获得所有外部链接在链接坐标系中的坐标值,然后将各外部链接在链接坐标系中绘制出来,获得链接坐标平面图。
步骤三:计算聚合度,获取疑似暗链的外链集:
在链接坐标平面图中,计算所有外部链接的X值,是否存在连续N个点的X值相近;相近是指这N个点的连线近似于水平直线,即连线与Y轴的夹角值在88°到90°之间,则认为这连续的N个点对应的外部链接聚合符合条件。所述N是指大于0的自然数,N为经验值,取值为3~10。
同理可以计算外部链接的Y坐标值是否满足聚合条件。只要有一个坐标轴的取值符合聚合,则认为这一批外链符合聚合,判定为疑似暗链的外链集。
步骤四:敏感关键字匹配:
使用的“暗链敏感关键字”对疑似暗链的外链集中的锚文本进行匹配,如果匹配次数大于二次,则判定该外链集是暗链。
暗链敏感关键字,主要指涉及色情、博彩、广告之关键词,这一类关键字在暗链中利用最多。
锚文本是指一个链接中的文本内容,如源代码链接“<a href=xx>qqq</a>”中,“qqq”则是锚文本。
暗链敏感关键字对锚文本的匹配算法是,逐一使用各链接的锚文本,在关键字集合中查找,如果命中则判定为匹配。
最后,需要注意的是,以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (1)

1.一种基于聚合度分析的暗链检测方法,用于检测网页中植入的暗链,所述暗链是指在源代码中聚合成水平或垂直的直线,且锚文本中包含有敏感关键字的外链;其特征在于,所述基于聚合度分析的暗链检测方法具体包括下述步骤:
步骤一:向待检测的Web网站服务器发送HTTP请求,抓取待检测页面的响应HTML源代码;
步骤二:对获得的响应HTML源代码建立链接坐标平面图;
外部链接在链接坐标系中的坐标取值方式如下:
1)外部链接在链接坐标系中的Y值:该外部链接在响应HTML源代码中的行数;
2)外部链接在链接坐标系中的X值,每一行分别计算获得:首先将本行源代码中的每一个链接作为一个整体,然后以空格分隔每一个链接,将这一行源代码分割成一个数组,作为整体的链接不参与分割,各链接在分割产生的数组中的顺序即为该链接的X坐标值;
通过上述定位,获得所有外部链接在链接坐标系中的坐标值,然后将各外部链接在链接坐标系中绘制出来,获得链接坐标平面图;
步骤三:计算聚合度,获取疑似暗链的外链集:
在链接坐标平面图中,计算所有外部链接的X值,是否存在连续N个点的X值相近;相近是指这N个点的连线近似于水平直线,即连线与Y轴的夹角值在88°到90°之间,则认为这连续的N个点对应的外部链接聚合符合条件;所述N是指大于0的自然数;
同理,在链接坐标平面图中,计算外部链接的Y值是否满足聚合条件:是否存在连续N个点的Y值相近;相近是指这N个点的连线近似于垂直直线,即连线与X轴的夹角值在88°到90°之间,则认为这连续的N个点对应的外部链接聚合符合条件;所述N是指大于0的自然数;
只要外部链接的X值或者Y值满足聚合条件,则认为这一批外部链接符合聚合,判定为疑似暗链的外链集;
步骤四:敏感关键字匹配:
使用暗链敏感关键字集合,对疑似暗链的外链集中的锚文本进行匹配,如果匹配次数超过二次,则判定该外链集是暗链;
所述锚文本是指一个链接中的文本内容。
CN201710846340.XA 2017-09-19 2017-09-19 一种基于聚合度分析的暗链检测技术 Active CN107729386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710846340.XA CN107729386B (zh) 2017-09-19 2017-09-19 一种基于聚合度分析的暗链检测技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710846340.XA CN107729386B (zh) 2017-09-19 2017-09-19 一种基于聚合度分析的暗链检测技术

Publications (2)

Publication Number Publication Date
CN107729386A CN107729386A (zh) 2018-02-23
CN107729386B true CN107729386B (zh) 2019-09-13

Family

ID=61207612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710846340.XA Active CN107729386B (zh) 2017-09-19 2017-09-19 一种基于聚合度分析的暗链检测技术

Country Status (1)

Country Link
CN (1) CN107729386B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522494B (zh) * 2018-11-08 2020-09-15 杭州安恒信息技术股份有限公司 一种暗链检测方法、装置、设备及计算机可读存储介质
CN111143722A (zh) * 2019-12-23 2020-05-12 杭州安恒信息技术股份有限公司 一种网页暗链检测方法、装置、设备及介质
CN111680252B (zh) * 2020-06-05 2023-07-25 腾讯科技(深圳)有限公司 外链识别方法、装置、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170446A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN104503962A (zh) * 2014-06-18 2015-04-08 北京邮电大学 一种网页暗链检测方法
CN104767757A (zh) * 2015-04-17 2015-07-08 国家电网公司 基于web业务的多维度安全监测方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170446A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN104503962A (zh) * 2014-06-18 2015-04-08 北京邮电大学 一种网页暗链检测方法
CN104767757A (zh) * 2015-04-17 2015-07-08 国家电网公司 基于web业务的多维度安全监测方法和系统

Also Published As

Publication number Publication date
CN107729386A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN104077396B (zh) 一种钓鱼网站检测方法及装置
CN107729386B (zh) 一种基于聚合度分析的暗链检测技术
CN102222187B (zh) 基于域名构造特征的挂马网页检测方法
CN102663000B (zh) 恶意网址数据库的建立方法、恶意网址的识别方法和装置
CN103544436B (zh) 一种钓鱼网站鉴别系统和方法
CN106685936B (zh) 网页篡改的检测方法及装置
Cui et al. Malicious URL detection with feature extraction based on machine learning
KR101060639B1 (ko) 자바스크립트 난독화 강도 분석을 통한 악성 의심 웹사이트 탐지 시스템 및 그 탐지방법
CN105930727A (zh) 基于Web的爬虫识别算法
CN108337255B (zh) 一种基于web自动化测试和宽度学习的钓鱼网站检测方法
CN106055980A (zh) 一种基于规则的JavaScript安全性检测方法
CN105447388B (zh) 一种基于权重的安卓恶意代码检测系统及方法
CN110781876B (zh) 一种基于视觉特征的仿冒域名轻量级检测方法及系统
CN113098887A (zh) 一种基于网站联合特征的钓鱼网站检测方法
CN111756724A (zh) 钓鱼网站的检测方法、装置、设备、计算机可读存储介质
CN105138921A (zh) 基于页面特征匹配的钓鱼网站目标域名识别方法
CN108985061A (zh) 一种基于模型融合的webshell检测方法
CN104834640A (zh) 网页的识别方法及装置
CN109922065A (zh) 恶意网站快速识别方法
CN110474889A (zh) 一种基于网站图标的钓鱼网站识别方法及装置
CN106603490A (zh) 一种钓鱼网站的检测方法和系统
CN107784107A (zh) 基于逃逸行为分析的暗链检测方法及装置
CN106330861A (zh) 一种网址检测方法及装置
CN103177084A (zh) 一种考虑数据可信度的数据挖掘方法
CN105306462A (zh) 网页链接检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310051 No. 188 Lianhui Street, Xixing Street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Annan information technology Limited by Share Ltd

Address before: Zhejiang Zhongcai Building No. 68 Binjiang District road Hangzhou City, Zhejiang Province, the 310051 and 15 layer

Applicant before: Dbappsecurity Co.,ltd.

GR01 Patent grant
GR01 Patent grant