CN105740308A - 基于超文本标记语言结构的网站暗链检测方法及系统 - Google Patents

基于超文本标记语言结构的网站暗链检测方法及系统 Download PDF

Info

Publication number
CN105740308A
CN105740308A CN201510950894.5A CN201510950894A CN105740308A CN 105740308 A CN105740308 A CN 105740308A CN 201510950894 A CN201510950894 A CN 201510950894A CN 105740308 A CN105740308 A CN 105740308A
Authority
CN
China
Prior art keywords
code
dark chain
website
dark
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510950894.5A
Other languages
English (en)
Inventor
汤洪飞
李柏松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Antiy Technology Co Ltd
Original Assignee
Harbin Antiy Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Antiy Technology Co Ltd filed Critical Harbin Antiy Technology Co Ltd
Priority to CN201510950894.5A priority Critical patent/CN105740308A/zh
Publication of CN105740308A publication Critical patent/CN105740308A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了基于超文本标记语言结构的网站暗链检测方法,包括:获取待检测网站源码;基于超文本标记语言结构解析待检测网站源码;判断超文本标记语言结构外是否存在有效代码,若存在,则判定存在暗链,否则判定不存在暗链。本发明还公开了一种基于超文本标记语言结构的网站暗链检测系统。本发明不仅解决了传统暗链检测方法存在的滞后性问题,而且通过提取有效代码中的暗链关键词和暗链链接补充至暗链检测库,可用于后续匹配检测。

Description

基于超文本标记语言结构的网站暗链检测方法及系统
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于超文本标记语言结构的网站暗链检测方法及系统。
背景技术
目前,用于检测网站是否被植入暗链的方法有:方法一、基于暗链检测库进行匹配,而其中暗链检测库的获取需要对已知的暗链进行提取,得到暗链关键词与暗链链接,进而用于后续匹配。方法二、通过对网页进行截图,将整张图片分成若干个区域,然后将网页与预先存储的网页进行逐一比对,一旦发生变化则获取相应区域的代码判断链接是否改变。
方法一中基于暗链检测库进行匹配的方法,由于过于依赖现有特征:暗链关键词与暗链链接,从而导致必须要不停的补充规则库,而补充的前提就是要先确认哪些网站含有暗链,这就造成了对网站暗链检测的滞后性。方法二需要事先对要检测的网站进行一次特征图片的获取和生成,由于互联网中网站数量的不断增加,我们是无法第一时间捕获到安全网站的,这就导致不能第一时间生成对照特征,使得及时检测变得更加困难。
发明内容
本发明针对上述技术问题,提出基于超文本标记语言结构来解析待检测网站源码,若超文本标记语言结构外仍然存在有效代码,则判定存在暗链。进一步地,可以判断有效代码中是否存在暗链关键词和暗链链接,从而提高检测的精准性,避免误报。
本发明采用如下方法来实现:基于超文本标记语言结构的网站暗链检测方法,包括:
获取待检测网站源码;
基于超文本标记语言结构解析待检测网站源码;
判断超文本标记语言结构外是否存在有效代码,若存在,则判定存在暗链,否则判定不存在暗链。
进一步地,所述判断超文本标记语言结构外是否存在有效代码为:
基于超文本标记语言的基本结构标签,搜索所述待检测网站源码定位结束标签,判断所述结束标签后是否存在有效代码。
上述方法中,所述判定存在暗链前,还包括:判断所述有效代码中是否包含暗链关键词和暗链链接,若是,则判定存在暗链,否则等待进一步检测。
更进一步地,所述判定存在暗链后,还包括:提取有效代码中的暗链关键词和暗链链接补充至暗链检测库,用于后续匹配检测。
其中,所述有效代码包括:隐藏代码、注释代码、JS代码、超文本标记语言代码或者纯文本代码。
本发明采用如下系统来实现:基于超文本标记语言结构的网站暗链检测系统,包括:
源码获取模块,用于获取待检测网站源码;
解析模块,用于基于超文本标记语言结构解析待检测网站源码;
判定模块,用于判断超文本标记语言结构外是否存在有效代码,若存在,则判定存在暗链,否则判定不存在暗链。
进一步地,所述判断超文本标记语言结构外是否存在有效代码为:
基于超文本标记语言的基本结构标签,搜索所述待检测网站源码定位结束标签,判断所述结束标签后是否存在有效代码。
上述系统中,所述判定存在暗链前,还包括:判断所述有效代码中是否包含暗链关键词和暗链链接,若是,则判定存在暗链,否则等待进一步检测。
更进一步地,所述判定存在暗链后,还包括:提取有效代码中的暗链关键词和暗链链接补充至暗链检测库,用于后续匹配检测。
其中,所述有效代码包括:隐藏代码、注释代码、JS代码、超文本标记语言代码或者纯文本代码。
综上,本发明给出一种基于超文本标记语言结构的网站暗链检测方法及系统,首先获取待检测网站源码,其次基于超文本标记语言结构解析待检测网站源码,判断超文本标记语言结构外是否仍然存在有效代码,所述有效代码可以为JavaScript脚本语言或者其他功能性代码,若存在,则初步判定存在暗链。
有益效果为:本发明所述的方法及系统,有别于传统暗链检测方法,避免基于暗链检测库进行检测,从而克服了传统方法存在较大滞后性的问题,利用本发明所述技术方案进行暗链检测,能够及时发现网站内的隐藏暗链。并且,可以提取检测到的暗链中的暗链关键词和暗链链接补充至暗链检测库,以便用于后续的匹配检测。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于超文本标记语言结构的网站暗链检测方法实施例流程图;
图2为本发明提供的一种基于超文本标记语言结构的网站暗链检测系统实施例结构图。
具体实施方式
本发明给出了一种基于超文本标记语言结构的网站暗链检测方法及系统实施例,为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明:
本发明首先提供了一种基于超文本标记语言结构的网站暗链检测方法实施例,如图1所示,包括:
S101获取待检测网站源码;所述源码为HTML代码;
S102基于超文本标记语言结构解析待检测网站源码;
其中,基于超文本标记语言结构,从而识别出<head>头部和<body>主体两大部分,从而确认是HTML语言;
S103判断超文本标记语言结构外是否存在有效代码,若存在,则判定存在暗链,否则判定不存在暗链。
优选地,所述判断超文本标记语言结构外是否存在有效代码为:
基于超文本标记语言的基本结构标签,搜索所述待检测网站源码定位结束标签,判断所述结束标签后是否存在有效代码。其中,所述结束标签为</html>,由该结束标签可知,HTML正文部分已经封闭了,若发现</html>结束标签后面仍然存在有效代码,则判定存在暗链。
上述方法中,所述判定存在暗链前,还包括:判断所述有效代码中是否包含暗链关键词和暗链链接,若是,则判定存在暗链,否则等待进一步检测。
其中,所述判断所述有效代码中是否包含暗链链接的方法为,利用已知暗链URL进行匹配操作。该技术手段为进一步地验证操作,能够提升暗链检测的准确性,避免误报。
更优选地,所述判定存在暗链后,还包括:提取有效代码中的暗链关键词和暗链链接补充至暗链检测库,用于后续匹配检测。
其中,所述有效代码包括:隐藏代码、注释代码、JS代码、超文本标记语言代码或者纯文本代码。所述有效代码若为JavaScript脚本语言或者其他功能性代码,则其存在暗链的可能性更大。
本发明还提供了一种基于超文本标记语言结构的网站暗链检测系统实施例,如图2所示,包括:
源码获取模块201,用于获取待检测网站源码;
解析模块202,用于基于超文本标记语言结构解析待检测网站源码;
判定模块203,用于判断超文本标记语言结构外是否存在有效代码,若存在,则判定存在暗链,否则判定不存在暗链。
优选地,所述判断超文本标记语言结构外是否存在有效代码为:
基于超文本标记语言的基本结构标签,搜索所述待检测网站源码定位结束标签,判断所述结束标签后是否存在有效代码。
上述系统中,所述判定存在暗链前,还包括:判断所述有效代码中是否包含暗链关键词和暗链链接,若是,则判定存在暗链,否则等待进一步检测。
其中,所述判断所述有效代码中是否包含暗链链接的方法为,利用已知暗链URL进行匹配操作。该技术手段为进一步地验证操作,能够提升暗链检测的准确性,避免误报。
更优选地,所述判定存在暗链后,还包括:提取有效代码中的暗链关键词和暗链链接补充至暗链检测库,用于后续匹配检测。
其中,所述有效代码包括:隐藏代码、注释代码、JS代码、超文本标记语言代码或者纯文本代码。所述有效代码若为JavaScript脚本语言或者其他功能性代码,则其存在暗链的可能性更大。
上述实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。上述方法实施例和系统实施例中相关之处互相参见即可。
如上所述,本发明公开的实施例用于检测网站暗链,通过获取待检测网站的HTML代码,并进一步基于超文本标记语言结构特征解析待检测网站源码,从而可以判断超文本标记语言结构外是否存在有效代码,若存在,则判定存在暗链。更为优选地,为了避免误报,可以进一步判断有效代码是否是功能性代码,或者存在暗链关键词和暗链链接,从而提高暗链检测的准确性。
综上,本发明上述实施例与传统检测暗链的方法不同,不依赖于已知的暗链检测库,而是通过判断超文本标记语言结构外是否存在有效代码,从而判定是否存在暗链。本发明上述实施例不仅能够有效检测网站的暗链,而且提取暗链中的暗链关键词和暗链链接更新现有的暗链检测库,从而更加有效全面地检测网站暗链。
以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.基于超文本标记语言结构的网站暗链检测方法,其特征在于,包括:
获取待检测网站源码;
基于超文本标记语言结构解析待检测网站源码;
判断超文本标记语言结构外是否存在有效代码,若存在,则判定存在暗链,否则判定不存在暗链。
2.如权利要求1所述的方法,其特征在于,所述判断超文本标记语言结构外是否存在有效代码为:
基于超文本标记语言的基本结构标签,搜索所述待检测网站源码定位结束标签,判断所述结束标签后是否存在有效代码。
3.如权利要求1或2所述的方法,其特征在于,所述判定存在暗链前,还包括:判断所述有效代码中是否包含暗链关键词和暗链链接,若是,则判定存在暗链,否则等待进一步检测。
4.如权利要求3所述的方法,其特征在于,所述判定存在暗链后,还包括:提取有效代码中的暗链关键词和暗链链接补充至暗链检测库,用于后续匹配检测。
5.如权利要求4所述的方法,其特征在于,所述有效代码包括:隐藏代码、注释代码、JS代码、超文本标记语言代码或者纯文本代码。
6.基于超文本标记语言结构的网站暗链检测系统,其特征在于,包括:
源码获取模块,用于获取待检测网站源码;
解析模块,用于基于超文本标记语言结构解析待检测网站源码;
判定模块,用于判断超文本标记语言结构外是否存在有效代码,若存在,则判定存在暗链,否则判定不存在暗链。
7.如权利要求6所述的系统,其特征在于,所述判断超文本标记语言结构外是否存在有效代码为:
基于超文本标记语言的基本结构标签,搜索所述待检测网站源码定位结束标签,判断所述结束标签后是否存在有效代码。
8.如权利要求6或7所述的系统,其特征在于,所述判定存在暗链前,还包括:判断所述有效代码中是否包含暗链关键词和暗链链接,若是,则判定存在暗链,否则等待进一步检测。
9.如权利要求8所述的系统,其特征在于,所述判定存在暗链后,还包括:提取有效代码中的暗链关键词和暗链链接补充至暗链检测库,用于后续匹配检测。
10.如权利要求9所述的系统,其特征在于,所述有效代码包括:隐藏代码、注释代码、JS代码、超文本标记语言代码或者纯文本代码。
CN201510950894.5A 2015-12-19 2015-12-19 基于超文本标记语言结构的网站暗链检测方法及系统 Pending CN105740308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510950894.5A CN105740308A (zh) 2015-12-19 2015-12-19 基于超文本标记语言结构的网站暗链检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510950894.5A CN105740308A (zh) 2015-12-19 2015-12-19 基于超文本标记语言结构的网站暗链检测方法及系统

Publications (1)

Publication Number Publication Date
CN105740308A true CN105740308A (zh) 2016-07-06

Family

ID=56296267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510950894.5A Pending CN105740308A (zh) 2015-12-19 2015-12-19 基于超文本标记语言结构的网站暗链检测方法及系统

Country Status (1)

Country Link
CN (1) CN105740308A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784107A (zh) * 2017-10-31 2018-03-09 杭州安恒信息技术有限公司 基于逃逸行为分析的暗链检测方法及装置
CN109522494A (zh) * 2018-11-08 2019-03-26 杭州安恒信息技术股份有限公司 一种暗链检测方法、装置、设备及计算机可读存储介质
CN109739534A (zh) * 2018-12-28 2019-05-10 武汉思普崚技术有限公司 一种应用特征库中应用更新的判断方法及装置
CN110309667A (zh) * 2019-04-16 2019-10-08 网宿科技股份有限公司 一种网站暗链检测方法和装置
CN111143722A (zh) * 2019-12-23 2020-05-12 杭州安恒信息技术股份有限公司 一种网页暗链检测方法、装置、设备及介质
CN117972237A (zh) * 2024-04-01 2024-05-03 北京长亭科技有限公司 一种暗链威胁的页面劫持检测方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192217A (zh) * 2006-11-28 2008-06-04 阿里巴巴公司 消除超文本标记语言中有害代码的方法
CN102682097A (zh) * 2012-04-27 2012-09-19 北京神州绿盟信息安全科技股份有限公司 检测网页中暗链的方法和设备
CN103455493A (zh) * 2012-05-29 2013-12-18 百度在线网络技术(北京)有限公司 用于获取支持结果并进行相应处理的方法、装置和设备
CN103593615A (zh) * 2013-11-29 2014-02-19 北京奇虎科技有限公司 一种网页篡改的检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192217A (zh) * 2006-11-28 2008-06-04 阿里巴巴公司 消除超文本标记语言中有害代码的方法
CN102682097A (zh) * 2012-04-27 2012-09-19 北京神州绿盟信息安全科技股份有限公司 检测网页中暗链的方法和设备
CN103455493A (zh) * 2012-05-29 2013-12-18 百度在线网络技术(北京)有限公司 用于获取支持结果并进行相应处理的方法、装置和设备
CN103593615A (zh) * 2013-11-29 2014-02-19 北京奇虎科技有限公司 一种网页篡改的检测方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784107A (zh) * 2017-10-31 2018-03-09 杭州安恒信息技术有限公司 基于逃逸行为分析的暗链检测方法及装置
CN107784107B (zh) * 2017-10-31 2020-06-30 杭州安恒信息技术股份有限公司 基于逃逸行为分析的暗链检测方法及装置
CN109522494A (zh) * 2018-11-08 2019-03-26 杭州安恒信息技术股份有限公司 一种暗链检测方法、装置、设备及计算机可读存储介质
CN109522494B (zh) * 2018-11-08 2020-09-15 杭州安恒信息技术股份有限公司 一种暗链检测方法、装置、设备及计算机可读存储介质
CN109739534A (zh) * 2018-12-28 2019-05-10 武汉思普崚技术有限公司 一种应用特征库中应用更新的判断方法及装置
CN109739534B (zh) * 2018-12-28 2022-02-08 武汉思普崚技术有限公司 一种应用特征库中应用更新的判断方法及装置
CN110309667A (zh) * 2019-04-16 2019-10-08 网宿科技股份有限公司 一种网站暗链检测方法和装置
CN110309667B (zh) * 2019-04-16 2022-08-30 网宿科技股份有限公司 一种网站暗链检测方法和装置
CN111143722A (zh) * 2019-12-23 2020-05-12 杭州安恒信息技术股份有限公司 一种网页暗链检测方法、装置、设备及介质
CN117972237A (zh) * 2024-04-01 2024-05-03 北京长亭科技有限公司 一种暗链威胁的页面劫持检测方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN105740308A (zh) 基于超文本标记语言结构的网站暗链检测方法及系统
CN103810425B (zh) 恶意网址的检测方法及装置
US10620945B2 (en) API specification generation
US20160063541A1 (en) Method for detecting brand counterfeit websites based on webpage icon matching
CN102819723B (zh) 一种恶意二维码检测方法和系统
CN102663000A (zh) 恶意网址数据库的建立方法、恶意网址的识别方法和装置
CN106909846B (zh) 一种基于虚拟解析的漏洞检测方法及其装置
CN104881603A (zh) 网页重定向漏洞检测方法及装置
CN105760379A (zh) 一种基于域内页面关联关系检测 webshell 页面的方法及装置
CN107153716B (zh) 网页内容提取方法和装置
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN102622553A (zh) 检测网页安全的方法及装置
CN106845227A (zh) 一种基于ragel状态机的恶意脚本检测方法及系统
CN105357179A (zh) 网络攻击的处理方法及装置
CN104598218A (zh) 用于合并和重用门户信息的方法和系统
CN105488400A (zh) 一种恶意网页综合检测方法及系统
CN105376217A (zh) 一种恶意跳转及恶意嵌套类不良网站的自动判定方法
CN104123125A (zh) 网页资源的获取方法及装置
CN106357682A (zh) 一种钓鱼网站检测方法
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN106446123A (zh) 一种网页中验证码元素识别方法
CN111143722A (zh) 一种网页暗链检测方法、装置、设备及介质
CN103825772A (zh) 识别用户点击行为的方法及网关设备
WO2010134722A3 (en) Method and system for optimizing cpns enabler
CN105306462A (zh) 网页链接检测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 150028 Building 7, Innovation Plaza, Science and Technology Innovation City, Harbin Hi-tech Industrial Development Zone, Harbin, Heilongjiang Province (838 Shikun Road)

Applicant after: Harbin antiy Technology Group Limited by Share Ltd

Address before: 506 room 162, Hongqi Avenue, Nangang District, Harbin Development Zone, Heilongjiang, 150090

Applicant before: Harbin Antiy Technology Co., Ltd.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160706