CN110532784A - 一种暗链检测方法、装置、设备及计算机可读存储介质 - Google Patents

一种暗链检测方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110532784A
CN110532784A CN201910832862.3A CN201910832862A CN110532784A CN 110532784 A CN110532784 A CN 110532784A CN 201910832862 A CN201910832862 A CN 201910832862A CN 110532784 A CN110532784 A CN 110532784A
Authority
CN
China
Prior art keywords
link
dark chain
hiding
initial
targeted website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910832862.3A
Other languages
English (en)
Inventor
李成
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Hangzhou Dbappsecurity Technology Co Ltd
Original Assignee
Hangzhou Dbappsecurity Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dbappsecurity Technology Co Ltd filed Critical Hangzhou Dbappsecurity Technology Co Ltd
Priority to CN201910832862.3A priority Critical patent/CN110532784A/zh
Publication of CN110532784A publication Critical patent/CN110532784A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种暗链检测方法,包括根据获取的检测指令采集目标网站中的网页内容;根据预设隐藏特征对所述网页内容进行筛选,获得各初始隐藏链接;利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比,获得各所述初始隐藏链接相对于所述目标网站的相似度;筛选所述相似度低于预设阈值的初始隐藏链接,获得所述目标网站中的非正常暗链;该暗链检测方法可以有效提高非法暗链检测的准确性。本申请还公开了一种暗链检测装置、设备及计算机可读存储介质,均具有上述有益效果。

Description

一种暗链检测方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及互联网信息安全技术领域,特别涉及一种暗链检测方法,还涉及一种暗链检测装置、设备以及计算机可读存储介质。
背景技术
暗链是指隐藏的超链接,在网站中非常隐蔽,短时间内不易被搜索引擎察觉,在网站优化方面具有较大的优势,例如,可以通过其他网站的不足或漏洞较为便利的获取到大量的外链资源,有效降低投资外链成本,以及减少创建外链的工作量,还可以提高网站的PR值(PageRank,用于表现网页等级的标准,级别为0~10,主要用来测评一个网页的重要性)等。
然而,网站暗链的存在也会给网站带来一定的风险,由于暗链是隐形看不见的,所以网站容易被不法分子攻破,添加大量的具有危险性的暗链,从而降低网站原有的PR值以及网站相应的公信力,因此,需要对网站中的非法暗链进行检测,以降低网站运行风险。现有技术中的非法暗链检测都是基于描述暗链的基本特征,加之人工介入实现,存在较多的漏报或误报问题,导致暗链检测结果的准确性很低,且人工的介入也导致了成本的增加。
因此,如何有效提高非法暗链检测的准确性是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种暗链检测方法,该暗链检测方法可以有效提高非法暗链检测的准确性;本申请的另一目的是提供一种暗链检测装置、设备以及计算机可读存储介质,也具有上述有益效果。
为解决上述技术问题,本申请提供了一种暗链检测方法,所述暗链检测方法包括:
根据获取的检测指令采集目标网站中的网页内容;
根据预设隐藏特征对所述网页内容进行筛选,获得各初始隐藏链接;
利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比,获得各所述初始隐藏链接相对于所述目标网站的相似度;
筛选所述相似度低于预设阈值的初始隐藏链接,获得所述目标网站中的非正常暗链。
优选的,所述根据获取的检测指令采集目标网站中的网页内容之前,还包括:
获取所述目标网站的注册信息;
根据所述注册信息判断所述目标网站是否超出有效期;
若否,则执行所述根据获取的检测指令采集目标网站中的网页内容的步骤。
优选的,所述根据获取的检测指令采集目标网站中的网页内容,包括:
根据获取的所述检测指令确定所述目标网站;
利用浏览器渲染技术对所述目标网站进行网页采集,获得所述网页内容。
优选的,所述利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比之前,还包括:
对各所述初始隐藏链接进行遍历,滤除无效隐藏链接。
优选的,所述对各所述初始隐藏链接进行遍历,滤除无效隐藏链接之后,还包括:
对各所述初始隐藏链接进行遍历,滤除属于主域和本域的初始隐藏链接。
优选的,所述筛选所述相似度低于预设阈值的初始隐藏链接,获得所述目标网站中的非正常暗链之后,还包括:
将各所述非正常暗链与预设白名单内的各合法链接进行比对,并将与所述合法链接相同的非正常暗链滤除。
优选的,所述将与所述合法链接相同的非正常暗链滤除之后,还包括:
对各所述非正常暗链进行分词处理,并将分词后的非正常暗链的文本内容与预设敏感词库中的各敏感词汇进行对比,筛选获得含有所述敏感词汇的非正常暗链。
为解决上述技术问题,本申请还提供了一种暗链检测装置,所述暗链检测装置包括:
信息采集模块,用于根据获取的检测指令采集目标网站中的网页内容;
第一筛选模块,用于根据预设隐藏特征对所述网页内容进行筛选,获得各初始隐藏链接;
相似度计算模块,用于利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比,获得各所述初始隐藏链接相对于所述目标网站的相似度;
第二筛选模块,用于筛选所述相似度低于预设阈值的初始隐藏链接,获得所述目标网站中的非正常暗链。
为解决上述技术问题,本申请还提供了一种暗链检测设备,所述暗链检测设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任意一种暗链检测方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种暗链检测方法的步骤。
本申请所提供的一种暗链检测方法,包括根据获取的检测指令采集目标网站中的网页内容;根据预设隐藏特征对所述网页内容进行筛选,获得各初始隐藏链接;利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比,获得各所述初始隐藏链接相对于所述目标网站的相似度;筛选所述相似度低于预设阈值的初始隐藏链接,获得所述目标网站中的非正常暗链。
可见,本申请所提供的暗链检测方法,通过语义相似度算法和多种筛选规则实现了非法暗链的检测,即在基于描述暗链的隐藏特征获得隐藏链接后,进而利用语义相似度算法筛选获得与对应网站语义相似度较低的隐藏链接,该部分隐藏链接即为非正常暗链,相较于现有技术,该种实现方式不再只依赖于隐藏特征,更是结合了语义相似度算法,有效地提高了非法暗链检测结果的准确性;同时,该种实现方式无需人工介入,不仅节省了人工成本,更极大的提高了非法暗链的检测效率。
本申请所提供的一种暗链检测装置、设备以及计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请所提供的一种暗链检测方法的流程示意图;
图2为本申请所提供的一种基于语义相似度算法实现隐藏链接相似度计算方法的流程示意图;
图3为本申请所提供的一种暗链检测装置的结构示意图;
图4为本申请所提供的一种暗链检测设备的结构示意图。
具体实施方式
本申请的核心是提供一种暗链检测方法,该暗链检测方法可以有效提高非法暗链检测的准确性;本申请的另一核心是提供一种暗链检测装置、设备以及计算机可读存储介质,也具有上述有益效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参考图1,图1为本申请所提供的一种暗链检测方法的流程示意图,该暗链检测方法可以包括:
S101:根据获取的检测指令采集目标网站中的网页内容;
本步骤旨在实现目标网站中网页内容的采集,该目标网站即为需要检测非法暗链的网站。具体的,用户可基于用户终端发起检测指令,进一步,处理器即可根据该检测指令确定目标网站,进而从目标网站中采集其中的网页内容。其中,对于网页内容的采集方法,可采用已有技术中的任意一种,其具体实现方法并不影响本技术方案的实施。可以理解的是,网页内容获取的越全面,非法暗链越不容易被漏检。
优选的,上述根据获取的检测指令采集目标网站中的网页内容,可以包括:根据获取的检测指令确定目标网站;利用浏览器渲染技术对目标网站进行网页采集,获得网页内容。
本申请实施例提供了一种较为具体的网页内容的采集方法,即利用浏览器渲染技术实现。具体的,由于高级攻击者会利用Javascript的脚本功能写隐藏功能,即利用Javascript的脚本代码把CSS(Cascading Style Sheets,层叠样式表)样式不直接写入到标签的属性当中,而是通过字符串的拼接功能,让链接模块在浏览器加载以后再隐藏,从而使得网站管理员难以发现,为解决该问题,可借助浏览器的渲染功能获取经过JS(Javascript)渲染后的网页内容,以保证网页内容的完整性,进而提高非法暗链检测结果的全面性。
作为一种优选实施例,上述根据获取的检测指令采集目标网站中的网页内容之前,还可以包括:获取目标网站的注册信息;根据注册信息判断目标网站是否超出有效期;若否,则执行根据获取的检测指令采集目标网站中的网页内容的步骤。
本实施例旨在判断目标网站是否超出有效期。具体的,当判断某个网站中是否存在非正常暗链时,首先可以对该网站的域名有效期进行判断,因为有些网站在过了有效期后并没有续租域名费用,易于被不法分子利用,即利用之前网站的信用植入不法网站网址暗链,因此,对于超出有效期的网站,将不再有检测非正常暗链的必要。其中,对于有效期判断的具体实现过程,可以获取目标网站的注册信息,进而根据注册信息判断其是否超出有效期,若未超出有效期,则可以执行后续根据获取的检测指令采集目标网站中的网页内容的步骤。另外,可以借用whois命令对Linux的扫描域名进行解析,进而分析该域名是否已经超出有效期。
S102:根据预设隐藏特征对网页内容进行筛选,获得各初始隐藏链接;
本步骤旨在实现隐藏链接的筛选,可以理解的是,上述在目标网站中采集获得的网页内容既包括普通的网页链接,也包括隐藏链接,而非法暗链属于隐藏链接之列,因此,可在所有的网页内容中筛选出真正的隐藏链接,即上述各初始隐藏链接。其中,对于筛选隐藏链接的实现方式,可根据预设隐藏特征实现,即预先设定隐藏链接的隐藏特征,获得对应的正则表达式,进而将各个网页内容与各个正则表达式进行匹配,匹配成功的网页内容即为初始隐藏链接。
进一步,对于上述预设隐藏特征,本申请实施例给出较为具体的内容,可包括:
(1)超链接<a>、段落<p>、DIV<div>的css属性display:none或visibility:hidden设置为属性隐藏不可见;
(2)超链接<a>、段落<p>、DIV<div>的位置属性margin-left设置参数为负数,使得对应内容在可视窗外显示,进而导致内容不可见;
(3)在位置属性下,将不相关的链接添加到下拉框的菜单栏中,若不人为点击下拉菜单,则不会被发现;
(4)利用属性组合,如:position:absolute;top或position:absolute;left或position:absolute;right或position:absolute;z-index或position:fixed;或position:fixed;top或position:fixed;left或position:fixed;right,通过设置top,left,right,z-index的参数值为负数,使得DIV框在可视窗外显示,从而达到链接不可见;
(5)利用DIV框的缩进属性text-indent,设置该属性的参数值为负数,即在可视窗区域外显示;
(6)利用DIV<div>的属性font-size或line-height,设置其属性值为0使得内容不可见;
(7)利用滚动块<marquee>的属性scrollamount,设置其属性值为三位数值以上的数字,使内容快速滚动,该scrollamount取值越大,滚动速度越快,使得人眼无法在浏览器中识别;
(8)利用内联框架占满整个页面以遮盖不相关链接,在内联框架内放置正常内容的页面,框架外写大量不相关链接,且将内联框架iframe定义为占满整个屏幕,使得浏览者无法看到不相关链接;其中,可利用内联框架<iframe>中的width=100%和height=100%这两个属性使得内联框架占满整个页面;
(9)在HTML网页中的<meta>的标签页中,元素可提供相关页面的元信息,因为针对搜索引擎和更新频度的描述和关键词,有些攻击者会在该标签中写入大量不相关的链接。
S103:利用语义相似度算法对各初始隐藏链接的文本内容和目标网站的文本内容进行相似度对比,获得各初始隐藏链接相对于目标网站的相似度;
S104:筛选相似度低于预设阈值的初始隐藏链接,获得目标网站中的非正常暗链。
以上两步骤旨在利用语义相似度算法实现隐藏链接的筛选,获得目标网站中的非正常暗链。具体的,可以首先获取目标网站的文本内容,并同时获取各个初始隐藏链接的文本内容,进而利用基于向量空间的语义相似度算法对二者进行语义相似计算,以获得各个初始隐藏链接相对于目标网站的相似度。进一步,可将获得的相似度与预设阈值进行比较,若低于预设阈值,则说明对应的初始隐藏链接与目标网站相似度较低,二者关联性较低,该初始隐藏链接属于非法暗链;而若相似度超出预设阈值,则说明对应的初始隐藏链接与目标网站具有一定的相似度,即二者具有一定的关联性,因此,该初始隐藏链接必不属于非法暗链,将其滤除即可。
其中,向量空间模型的基本思想在于将文档简化为以关键词的权重为分量的N维向量表示,利用向量空间模型(VSM)来表示文本在该领域内普遍受到认可,是因为其在知识表示方法上的巨大优势,在该模型中,文本内容被形式化为多维空间中的一个点,通过向量的形式给出,把对文本内容的处理简化为向量空间中向量的运算,使问题的复杂性大为降低。
进一步,关于上述基于语义相似度算法实现隐藏链接的相似度计算的实现流程,请参考图2,图2为本申请所提供的一种基于语义相似度算法实现隐藏链接相似度计算方法的流程示意图,具体可包括:在将文本语句输入算法模型进行分词、停用词处理后,对其进行基于IDF(Inverse document frequency,指逆向文本频率)权重或其他权重的词频计算,进而滤除小权重词,进一步,建立词条向量空间,并构建相似度矩阵,进而根据相似度矩阵以及词条向量计算获得LCS(Longest Common Subsequence,最长公共子序列),从而得到两个文本的相似度。其中,IDF权重是用于衡量关键词权重的指数,其计算方式为:
IDF=log(D/DW);
其中,D为文章总数,DW为关键词出现过的文章数。
另外,以上预设阈值的具体取值,可由技术人员根据实际需求进行自定义设置,其具体取值并不影响本技术方案的实施。可以理解的是,该预设阈值取值越低,检测结果的准确性越高。
本申请所提供的暗链检测方法,通过语义相似度算法和多种筛选规则实现了非法暗链的检测,即在基于描述暗链的隐藏特征获得隐藏链接后,进而利用语义相似度算法筛选获得与对应网站语义相似度较低的隐藏链接,该部分隐藏链接即为非正常暗链,相较于现有技术,该种实现方式不再只依赖于隐藏特征,更是结合了语义相似度算法,有效地提高了非法暗链检测结果的准确性;同时,该种实现方式无需人工介入,不仅节省了人工成本,更极大的提高了非法暗链的检测效率。
在上述实施例的基础上:
作为一种优选实施例,上述利用语义相似度算法对各初始隐藏链接的文本内容和目标网站的文本内容进行相似度对比之前,还可以包括:对各初始隐藏链接进行遍历,滤除无效隐藏链接。
在对初始隐藏链接进行相似度计算之前,还可以对其进行进一步的筛选,本实施例旨在将无效隐藏链接滤除掉,其中,无效链接是指点击该链接后没有任何反应,或点击之后跳转的内容只是一堆文字,而不是一个实际的网站,对于这些无效链接,即便具有暗链特征,但不具备攻击风险,网站管理员无需关心,例如,href="#"或href="-1"或href="javascript:"或href="javascript:void(0)"或href="更多"链接中文汉字等。
作为一种优选实施例,上述对各初始隐藏链接进行遍历,滤除无效隐藏链接之后,还可以包括:对各初始隐藏链接进行遍历,滤除属于主域和本域的初始隐藏链接。
本实施例旨在将属于主域和本域的初始隐藏链接滤除掉,具体而言,在很多网站中,很容易相互链接到本域的网站网址或主域名链接子域名的网站网址,例如,主域名为www.baidu.com,其对应的子域名有tieba.baidu.com,webku.baidu.com,news.baidu.com,map.baidu.com等,baidu.com相对于wwwbaidu.com来说则是本域,如果主域名相对于子域名是一个安全的域名,同样的,子域名相对于主域名也是安全的域名,因此,将该类安全的隐藏链接滤除即可。
作为一种优选实施例,上述筛选相似度低于预设阈值的初始隐藏链接,获得目标网站中的非正常暗链之后,还可以包括:将各非正常暗链与预设白名单内的各合法链接进行比对,并将与合法链接相同的非正常暗链滤除。
本实施例旨在将一些具有权威性的链接滤除掉,如大型门户网站或公信力比较强的政府、教育网站中的隐藏链接等,以进一步提高检测结果的准确性。具体的,可预先建立白名单,并将一些权威性网站的链接添加至该白名单中,进一步,即可将各个经过筛选获得的非正常暗链与白名单中的各个合法链接进行比对,如若二者相同,则滤除掉即可。其中,上述预设白名单由用户根据实际需求进行建立即可,其中链接的具体内容也可由用户自定义添加,本申请对此不做限定。
作为一种优选实施例,上述将与合法链接相同的非正常暗链滤除之后,还可以包括:对各非正常暗链进行分词处理,并将分词后的非正常暗链的文本内容与预设敏感词库中的各敏感词汇进行对比,筛选获得含有敏感词汇的非正常暗链。
本实施例旨在对非正常暗链进行进一步的过滤,即通过敏感词汇对比筛选出含有敏感词汇的隐藏链接,具体的,可以对经过筛选获得的各个非正常暗链进行分词处理,并将分词后的文本内容与预设敏感词库中的各个敏感词汇进行对比,如果非正常暗链中不包含敏感词汇,则将其滤除掉即可。同样的,上述预设敏感词库以及库中的敏感词由用户自定义设置即可,本申请对此不做限定。
可见,通过对获取的隐藏链接进行多次过滤,有效提高了非法暗链的检测效率及其检测结果的准确性。
在上述各个实施例的基础上,本申请提供了一种更为具体的暗链检测方法,其具体实现流程可包括:
(1)对检测网站(目标网站)进行有效期判断,以确定目标网站是否超出有效期;
(2)对于未超出有效期的目标网站,借助浏览器的渲染功能获取其中经过JS渲染后的所有网页内容;
(3)根据预设链接隐藏特征,在上述网页内容中筛选出所有的隐藏链接;
(4)过滤无效链接或不是正常网址规则的链接;
(5)过滤本域和主域名的链接;
(6)利用语义相似度算法对检测网站的文本内容和隐藏链接的文本内容进行对比,确定隐藏链接是否和该检测网站相关,并将相关的链接滤除;
(7)利用预设过滤规则,如白名单比对等滤除公信力较强、权威性较高的网站链接;
(8)通过分词技术滤除含有敏感词汇的隐藏链接;
(9)获得真正的非正常暗链。
可见,本申请实施例所提供的暗链检测方法,通过语义相似度算法和多种筛选规则实现了非法暗链的检测,即在基于描述暗链的隐藏特征获得隐藏链接后,进而利用语义相似度算法筛选获得与对应网站语义相似度较低的隐藏链接,该部分隐藏链接即为非正常暗链,相较于现有技术,该种实现方式不再只依赖于隐藏特征,更是结合了语义相似度算法,有效地提高了非法暗链检测结果的准确性;同时,该种实现方式无需人工介入,不仅节省了人工成本,更极大的提高了非法暗链的检测效率。
为解决上述问题,请参考图3,图3为本申请所提供的一种暗链检测装置的结构示意图,该暗链检测装置可包括:
信息采集模块10,用于根据获取的检测指令采集目标网站中的网页内容;
第一筛选模块20,用于根据预设隐藏特征对网页内容进行筛选,获得各初始隐藏链接;
相似度计算模块30,用于利用语义相似度算法对各初始隐藏链接的文本内容和目标网站的文本内容进行相似度对比,获得各初始隐藏链接相对于目标网站的相似度;
第二筛选模块40,用于筛选相似度低于预设阈值的初始隐藏链接,获得目标网站中的非正常暗链。
可见,本申请实施例所提供的暗链检测装置,通过语义相似度算法和多种筛选规则实现了非法暗链的检测,即在基于描述暗链的隐藏特征获得隐藏链接后,进而利用语义相似度算法筛选获得与对应网站语义相似度较低的隐藏链接,该部分隐藏链接即为非正常暗链,相较于现有技术,该种实现方式不再只依赖于隐藏特征,更是结合了语义相似度算法,有效地提高了非法暗链检测结果的准确性;同时,该种实现方式无需人工介入,不仅节省了人工成本,更极大的提高了非法暗链的检测效率。
作为一种优选实施例,该暗链检测装置还可包括:
有效期判定模块,用于获取目标网站的注册信息;根据注册信息判断目标网站是否超出有效期;若否,则执行根据获取的检测指令采集目标网站中的网页内容的步骤。
作为一种优选实施例,上述信息采集模块10可包括:
目标网站确定单元,用于根据获取的检测指令确定目标网站;
网页内容采集单元,用于利用浏览器渲染技术对目标网站进行网页采集,获得网页内容。
作为一种优选实施例,该暗链检测装置还可包括:
第一链接滤除模块,用于在利用语义相似度算法对各初始隐藏链接的文本内容和目标网站的文本内容进行相似度对比之前,对各初始隐藏链接进行遍历,滤除无效隐藏链接。
作为一种优选实施例,该暗链检测装置还可包括:
第二链接滤除模块,用于在对各初始隐藏链接进行遍历,滤除无效隐藏链接之后,对各初始隐藏链接进行遍历,滤除属于主域和本域的初始隐藏链接。
作为一种优选实施例,该暗链检测装置还可包括:
第三链接滤除模块,用于在筛选相似度低于预设阈值的初始隐藏链接,获得目标网站中的非正常暗链之后,将各非正常暗链与预设白名单内的各合法链接进行比对,并将与合法链接相同的非正常暗链滤除。
作为一种优选实施例,该暗链检测装置还可包括:
第四链接滤除模块,用于在将与合法链接相同的非正常暗链滤除之后,对各非正常暗链进行分词处理,并将分词后的非正常暗链的文本内容与预设敏感词库中的各敏感词汇进行对比,筛选获得含有敏感词汇的非正常暗链。
对于本申请提供的装置的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述问题,请参考图4,图4为本申请所提供的一种暗链检测设备的结构示意图,该暗链检测设备可包括:
存储器1,用于存储计算机程序;
处理器2,用于执行计算机程序时实现如上所述任意一种暗链检测方法的步骤。
对于本申请提供的设备的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述问题,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如上所述任意一种暗链检测方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。
以上对本申请所提供的暗链检测方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围要素。

Claims (10)

1.一种暗链检测方法,其特征在于,包括:
根据获取的检测指令采集目标网站中的网页内容;
根据预设隐藏特征对所述网页内容进行筛选,获得各初始隐藏链接;
利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比,获得各所述初始隐藏链接相对于所述目标网站的相似度;
筛选所述相似度低于预设阈值的初始隐藏链接,获得所述目标网站中的非正常暗链。
2.如权利要求1所述的暗链检测方法,其特征在于,所述根据获取的检测指令采集目标网站中的网页内容之前,还包括:
获取所述目标网站的注册信息;
根据所述注册信息判断所述目标网站是否超出有效期;
若否,则执行所述根据获取的检测指令采集目标网站中的网页内容的步骤。
3.如权利要求1所述的暗链检测方法,其特征在于,所述根据获取的检测指令采集目标网站中的网页内容,包括:
根据获取的所述检测指令确定所述目标网站;
利用浏览器渲染技术对所述目标网站进行网页采集,获得所述网页内容。
4.如权利要求1所述的暗链检测方法,其特征在于,所述利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比之前,还包括:
对各所述初始隐藏链接进行遍历,滤除无效隐藏链接。
5.如权利要求4所述的暗链检测方法,其特征在于,所述对各所述初始隐藏链接进行遍历,滤除无效隐藏链接之后,还包括:
对各所述初始隐藏链接进行遍历,滤除属于主域和本域的初始隐藏链接。
6.如权利要求1至5任意一项所述的暗链检测方法,其特征在于,所述筛选所述相似度低于预设阈值的初始隐藏链接,获得所述目标网站中的非正常暗链之后,还包括:
将各所述非正常暗链与预设白名单内的各合法链接进行比对,并将与所述合法链接相同的非正常暗链滤除。
7.如权利要求6所述的暗链检测方法,其特征在于,所述将与所述合法链接相同的非正常暗链滤除之后,还包括:
对各所述非正常暗链进行分词处理,并将分词后的非正常暗链的文本内容与预设敏感词库中的各敏感词汇进行对比,筛选获得含有所述敏感词汇的非正常暗链。
8.一种暗链检测装置,其特征在于,包括:
信息采集模块,用于根据获取的检测指令采集目标网站中的网页内容;
第一筛选模块,用于根据预设隐藏特征对所述网页内容进行筛选,获得各初始隐藏链接;
相似度计算模块,用于利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比,获得各所述初始隐藏链接相对于所述目标网站的相似度;
第二筛选模块,用于筛选所述相似度低于预设阈值的初始隐藏链接,获得所述目标网站中的非正常暗链。
9.一种暗链检测设备,其特征在于,还包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任意一项所述的暗链检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的暗链检测方法的步骤。
CN201910832862.3A 2019-09-04 2019-09-04 一种暗链检测方法、装置、设备及计算机可读存储介质 Pending CN110532784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910832862.3A CN110532784A (zh) 2019-09-04 2019-09-04 一种暗链检测方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910832862.3A CN110532784A (zh) 2019-09-04 2019-09-04 一种暗链检测方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110532784A true CN110532784A (zh) 2019-12-03

Family

ID=68666793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910832862.3A Pending CN110532784A (zh) 2019-09-04 2019-09-04 一种暗链检测方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110532784A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111698256A (zh) * 2020-06-17 2020-09-22 绿盟科技集团股份有限公司 检测非法链接的方法及装置
CN111782991A (zh) * 2020-07-15 2020-10-16 浙江军盾信息科技有限公司 一种网站异常暗链的检测方法、装置、设备及存储介质
US11475090B2 (en) * 2020-07-15 2022-10-18 Group-Ib Global Private Limited Method and system for identifying clusters of affiliated web resources

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080172738A1 (en) * 2007-01-11 2008-07-17 Cary Lee Bates Method for Detecting and Remediating Misleading Hyperlinks
CN102622435A (zh) * 2012-02-29 2012-08-01 百度在线网络技术(北京)有限公司 一种检测黑链的方法和装置
CN106685936A (zh) * 2016-12-14 2017-05-17 深圳市深信服电子科技有限公司 网页篡改的检测方法及装置
CN107092826A (zh) * 2017-03-24 2017-08-25 北京国舜科技股份有限公司 网页内容安全实时监测方法
CN107370718A (zh) * 2016-05-12 2017-11-21 深圳市深信服电子科技有限公司 网页中黑链的检测方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080172738A1 (en) * 2007-01-11 2008-07-17 Cary Lee Bates Method for Detecting and Remediating Misleading Hyperlinks
CN102622435A (zh) * 2012-02-29 2012-08-01 百度在线网络技术(北京)有限公司 一种检测黑链的方法和装置
CN107370718A (zh) * 2016-05-12 2017-11-21 深圳市深信服电子科技有限公司 网页中黑链的检测方法和装置
CN106685936A (zh) * 2016-12-14 2017-05-17 深圳市深信服电子科技有限公司 网页篡改的检测方法及装置
CN107092826A (zh) * 2017-03-24 2017-08-25 北京国舜科技股份有限公司 网页内容安全实时监测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程光: "《僵尸网络检测技术》", 31 October 2014 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111698256A (zh) * 2020-06-17 2020-09-22 绿盟科技集团股份有限公司 检测非法链接的方法及装置
CN111698256B (zh) * 2020-06-17 2022-05-10 绿盟科技集团股份有限公司 检测非法链接的方法及装置
CN111782991A (zh) * 2020-07-15 2020-10-16 浙江军盾信息科技有限公司 一种网站异常暗链的检测方法、装置、设备及存储介质
US11475090B2 (en) * 2020-07-15 2022-10-18 Group-Ib Global Private Limited Method and system for identifying clusters of affiliated web resources

Similar Documents

Publication Publication Date Title
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN102436563B (zh) 一种检测页面篡改的方法及装置
CN108566399B (zh) 钓鱼网站识别方法及系统
US20150295942A1 (en) Method and server for performing cloud detection for malicious information
CN102591965B (zh) 一种黑链检测的方法及装置
CN110532784A (zh) 一种暗链检测方法、装置、设备及计算机可读存储介质
CN101490685A (zh) 提高浏览网页的用户机的安全等级的方法
CN102523130B (zh) 不良网页检测方法及装置
CN102446255B (zh) 一种检测页面篡改的方法及装置
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
EP3851981A1 (en) Page processing method and apparatus, electronic device and computer readable medium
CN104168293A (zh) 结合本地内容规则库识别可疑钓鱼网页的方法及系统
CN107180194B (zh) 基于视觉分析系统进行漏洞检测的方法及装置
CN104036190A (zh) 一种检测页面篡改的方法及装置
US20150205769A1 (en) System and method for recognizing non-body text in webpage
CN107784107A (zh) 基于逃逸行为分析的暗链检测方法及装置
CN114357335A (zh) 信息获取方法、介质、装置和计算设备
WO2015074455A1 (zh) 一种计算关联网页URL模式pattern的方法和装置
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
CN111125704B (zh) 一种网页挂马识别方法及系统
CN105306462A (zh) 网页链接检测方法及装置
CN103631906A (zh) 一种识别网页url中页码标识的方法和装置
CN104077353B (zh) 一种黑链检测的方法及装置
CN103577449B (zh) 钓鱼网站特性自学习挖掘方法及系统
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191203

RJ01 Rejection of invention patent application after publication