CN109376291B - 一种基于网络爬虫的网站指纹信息扫描的方法及装置 - Google Patents

一种基于网络爬虫的网站指纹信息扫描的方法及装置 Download PDF

Info

Publication number
CN109376291B
CN109376291B CN201811325785.4A CN201811325785A CN109376291B CN 109376291 B CN109376291 B CN 109376291B CN 201811325785 A CN201811325785 A CN 201811325785A CN 109376291 B CN109376291 B CN 109376291B
Authority
CN
China
Prior art keywords
characteristic
website
preset
characteristic value
recorded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811325785.4A
Other languages
English (en)
Other versions
CN109376291A (zh
Inventor
赵海博
范渊
莫金友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dbappsecurity Technology Co Ltd
Original Assignee
Hangzhou Dbappsecurity Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dbappsecurity Technology Co Ltd filed Critical Hangzhou Dbappsecurity Technology Co Ltd
Priority to CN201811325785.4A priority Critical patent/CN109376291B/zh
Publication of CN109376291A publication Critical patent/CN109376291A/zh
Application granted granted Critical
Publication of CN109376291B publication Critical patent/CN109376291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于网络爬虫的网站指纹信息扫描方法、装置、设备及计算机可读存储介质,该方法包括:获取构建网站所需的多个元素类,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,且记录的不同元素对应同一预设特征元素的特征值不同,预设特征元素包括响应头特征、引入js特征、script特征、html特征及所属元素类;利用网络爬虫爬取目标网站的内容,得到目标网站与任一或任多预设特征元素对应的特征值,将得到的特征值与记录的特征值进行比对,得到包含有与目标网站的特征值匹配的记录的特征值的网站指纹信息。从而实现指纹获取的较高准确性及实现效率。

Description

一种基于网络爬虫的网站指纹信息扫描的方法及装置
技术领域
本发明涉及网络安全技术领域,更具体地说,涉及一种基于网络爬虫的网站指纹信息扫描的方法、装置、设备及计算机可读存储介质。
背景技术
为网站生成对应的识别度较高的网站指纹,对于网络安全具有重大意义。现有技术中用于实现网站指纹生成的技术方案为依据预先设置的组件模板库中存储的网站服务器模板,构建对应的组件虚拟网站;按照预先设置的策略访问所述组件虚拟网站中用于组件版本升级的链接地址,如果所述链接地址对应的组件服务器中有新的组件版本,升级所述组件虚拟网站中的组件;访问升级后的所述组件虚拟网站,从返回的访问请求响应中提取特征信息;查询并获取预先存储的所述组件虚拟网站的当前组件版本指纹,得到所述当前组件版本指纹对应的历史特征信息,依据提取的特征信息以及所述历史特征信息生成所述组件虚拟网站的组件版本升级指纹。
现有技术需要根据组件模板库构造新的虚拟网站,然后提取特征信息,对目标网站是一个模仿而非真实复制,现阶段通常目标网站内容是经常发生变化的,如果构造的虚拟网站不能完全反应原目标网站的特征,则会造成网站指纹的不准确甚至误报,且本身该过程是一个较耗时的多步操作,使用效率不高。
综上所述,现有技术中用于实现网站指纹获取的方案存在准确性较低且使用效率较低的问题。
发明内容
本发明的目的是提供一种基于网络爬虫的网站指纹信息扫描的方法、装置、设备及计算机可读存储介质,能够解决现有技术中用于实现网站指纹获取的方案存在的准确性较低且使用效率较低的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于网络爬虫的网站指纹信息扫描方法,包括:
获取构建网站所需的多个元素类,所述元素类包括操作系统、编程语言、网页服务器、网页应用框架、脚本语言框架及内容管理系统;
记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,且记录的不同元素对应同一预设特征元素的特征值不同,所述预设特征元素包括响应头特征、引入js特征、script特征、html特征及所属元素类;
利用网络爬虫爬取目标网站的内容,得到所述目标网站与任一或任多预设特征元素对应的特征值,将得到的特征值与记录的特征值进行比对,得到包含有与所述目标网站的特征值匹配的记录的特征值的网站指纹信息。
优选的,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,包括:
如果各个元素类下各个元素具有的任一特征值引用预设基础特征,则记录该任一特征值时同时记录引用的预设基础特征的名称。
优选的,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值之后,还包括:
将记录的特征值构造成格式相同的json字符。
优选的,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,包括:
在预先设定的特征模板库中记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值。
优选的,得到网站指纹信息之后,还包括:
确定与所述目标网络的特征值匹配的记录的特征值为目标特征值,并将所述目标特征值对应的特征图片及网站地址输出;其中,记录各个元素类下各个元素具有的特征值时还记录有各个元素对应的特征图片及网站地址。
优选的,利用网络爬虫爬取目标网站的内容,得到所述目标网站与各个预设特征元素对应的特征值,包括:
利用网络爬虫爬取目标网站的内容,如果爬取得到的页面为静态页面,则直接由所述静态页面中获取与各个预设特征元素对应的特征值;如果爬取得到的页面为动态页面,则运行对应的javascript代码得到对应的静态页面,并由获取的静态页面中获取与各个预设特征元素对应的特征值。
优选的,利用网络爬虫爬取目标网站的内容,包括:
依次利用网络爬虫爬取所述目标网站包含的预设层网页的内容。
一种基于网络爬虫的网站指纹信息扫描装置,包括:
获取模块,用于:获取构建网站所需的多个元素类,所述元素类包括操作系统、编程语言、网页服务器、网页应用框架、脚本语言框架及内容管理系统;
记录模块,用于:记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,且记录的不同元素对应同一预设特征元素的特征值不同,所述预设特征元素包括响应头特征、引入js特征、script特征、html特征及所属元素类;
匹配模块,用于:利用网络爬虫爬取目标网站的内容,得到所述目标网站与任一或任多预设特征元素对应的特征值,将得到的特征值与记录的特征值进行比对,得到包含有与所述目标网站的特征值匹配的记录的特征值的网站指纹信息。
一种基于网络爬虫的网站指纹信息扫描设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述基于网络爬虫的网站指纹信息扫描方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述基于网络爬虫的网站指纹信息扫描方法的步骤。
本申请公开的技术方案中,记录构建网站所需的各个元素类下各元素对应任一或任多预设特征元素的特征值,由于记录的不同元素对应同一预设特征元素的特征值不同,即记录的特征值均为对应元素能够区别于其他元素的、独有的特征值,因此记录的特征值具有指纹功能,进而确定与目标网站的特征值匹配成功的记录的特征值包含于目标网站的网站指纹信息中,能够使得目标网站的网站指纹信息具有指纹功能,无需像现有技术中一样通过构造虚拟网站实现网站指纹获取,也就避免了通过构造虚拟网站实现网站指纹获取时存在的准确性较低且使用效率较低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描方法的流程图;
图2为本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描方法的具体实现框图;
图3为本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描方法的流程图,可以包括:
S11:获取构建网站所需的多个元素类,元素类包括操作系统、编程语言、网页服务器、网页应用框架、脚本语言框架及内容管理系统。
需要说明的是,本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描方法的执行主语可以为对应的网站指纹信息扫描装置。其中,元素类即为构建网站常用的几个元素分类,包括操作系统、编程语言、网页服务器、网页应用框架、脚本语言框架及内容管理系统等,而每个元素类下又具有各自的元素,简单来说,元素即为各个元素类下的子分类,各个元素类包含的元素与现有技术中相同,如操作系统(Operation Systems)包含的元素可以包括windows各系列、linux各系列、unix各系列及ios各系列等;编程语言(Programming Languages)包含的元素常用的包括java、c、c++、python、安卓及ios等;网页服务器(Web Servers)包含的元素可以包括网页响应头server等;网页应用框架(WebFrameworks)包含的元素可以包括js、网页响应头Server、网页响应头X-Powered-By等;脚本语言框架(JavaScript Framework)包含的元素可以包括script、js等;内容管理系统(CMS)包含的元素可以包括网页响应头X-Powered-By、cookies等。
S12:记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,且记录的不同元素对应同一预设特征元素的特征值不同,预设特征元素包括响应头特征、引入js特征、script特征、html特征及所属元素类。
其中,所属元素类也即为记录的特征所属的特征类对应元素类,每个元素类对应的全部特征为与每个元素类对应的特征类,如操作系统这一元素类对应的全部特征为一个特征类,编程语言这一元素类对应的全部特征为一个特征类,网页服务器这一元素类对应的全部特征为一个特征类,以此类推。通过步骤S11及步骤S12实现对通用特征的提取,以在后续利用提取的通用特征实现目标网站的特征确定。具体来说,由于每个元素可能并不同时具有与每个预设特征元素分别对应的特征值,因此本实施例中仅需记录元素对应任一或者任多预设特征元素具有的、且区别于其他元素的特征值即可,由此记录的每个特征值均为所属元素独有的特征值,从而使得记录的特征值具有指纹功能。其中,特征值可以使用正则表达式记录,这与现有技术中对应方案实现原理一致,在此不再赘述。
另外,上述各个预设特征元素的特征值与现有技术中对应概念含义相同,举例说明,响应头特征中"Server"特征值为"Unix","X-Powered-By"特征值为"Catberry","Cookie"特征值为"CFTOKEN=";引入js特征中"catberry.version":特征值为"(.*)\\; version:\\1","ef.version":特征值为"(.*)\\;version:\\1";script特征中"script"特征值为"ext-base\\.js","script"特征值为"apis\\.google\\.com/js/[a-z]*\\.js";html特征中"html"特征值为"<title>Kibana</title>","html"特征值为"<!--[^>]+Thiswebsite is powered by Koala Web Framework CMS";等;在此不再过多说明。
S13:利用网络爬虫爬取目标网站的内容,得到目标网站与任一或任多预设特征元素对应的特征值,将得到的特征值与记录的特征值进行比对,得到包含有与目标网站的特征值匹配的记录的特征值的网站指纹信息。
步骤S13完成的实则为目标网站的解析匹配过程,其中,目标网站可以为任一需要获取其指纹信息的网站。利用网络爬虫爬取目标网站的内容能够得到目标网站与各个预设特征元素对应的特征值,也即能够得到目标网站对应响应头特征、引入js特征、script特征、html特征及所属元素类的特征值,进而将目标网站的各个特征值与记录的各个特征值进行比对,通过比对能够确定出记录的特征值中与目标网站的特征值一致(即匹配)的特征值,进而这些一致的特征值包含于的集合即为目标网站的网站指纹信息。另外需要说明的是,还可以记录目标网站的特征值、与目标网站的特征值一致的记录的特征值等,以供查询使用。
本申请公开的技术方案中,记录构建网站所需的各个元素类下各元素对应任一或任多预设特征元素的特征值,由于记录的不同元素对应同一预设特征元素的特征值不同,即记录的特征值均为对应元素能够区别于其他元素的、独有的特征值,因此记录的特征值具有指纹功能,进而确定与目标网站的特征值匹配成功的记录的特征值包含于目标网站的网站指纹信息中,能够使得目标网站的网站指纹信息具有指纹功能,无需像现有技术中一样通过构造虚拟网站实现网站指纹获取,也就避免了通过构造虚拟网站实现网站指纹获取时存在的准确性较低且使用效率较低的问题。
本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描方法,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,可以包括:
如果各个元素类下各个元素具有的任一特征值引用预设基础特征,则记录该任一特征值时同时记录引用的预设基础特征的名称。
需要说明的是,预设基础特征可以根据实际需要进行设定,如java、C语言等,预设基础特征在被其他特征值引用时,为了减少记录的字符,可以仅将引用的预设基础特征的名称记录下来,而无需记录引用的预设基础特征的具体明细(特征值),从而方便记录,简化操作。在具体实现中,可以利用implies字段实现引用的预设基础特征的名称记录,对应的,如果一个特征中包含implies这个字段,则说明该特征有引用预设基础特征,那么在进行匹配时则需要将引用的预设基础特征的特征值与引用该预设基础特征的特征值一起与目标网站的特征值进行匹配。
本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描方法,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值之后,还可以包括:
将记录的特征值构造成格式相同的json字符。
本申请中将记录的特征值构造成格式相同的json字符,是为了在记录及后续实现匹配时能够便于获取和解析。对应的,在获取到目标网站的特征值后,也可以将获取的目标网站的特征值构造成与记录的特征值相同格式的json字符,方便实现两者之间的对比匹配。
本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描方法,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,可以包括:
在预先设定的特征模板库中记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值。
需要说明的是,为了方便对于记录的特征值的快速获取,可以预先设置有特征模板库,并将步骤S12中获取的特征值记录至特征模板库中,由此在需要获取时可以由特征模板库中直接获取,加速了特征值的定位及获取,提高了方案的实现效率。
另外,在将上述特征值记录至特征库中时,可以将本申请实施例中的几个元素类进一步细化为使用的操作系统、web服务器、编程语言、数据库、脚本语言框架、内容管理系统、移动端框架、网页邮箱、多媒体服务器、富文本编辑器及搜索引擎等50多个分类,而建设网站所需要的信息已经几乎都涵盖在内,如视听类网站必定包含有操作系统、web服务器、编程语言、数据库、多媒体服务器及脚本语言框架;而博客系统则需要包含操作系统、web服务器、数据库、编程语言、富文本编辑器、内容管理系统、网页邮箱等。针对各种类型的网站,都有与其相对应的几种分类组成,当检测一个网站的时候,各个分类下提取的具有指纹功能的特征值实现比对匹配,使得最终匹配到的网站指纹信息具有有效性。并且对目标网站特征值的提取包含页面本身特征(引入js特征、script特征、html特征及所属元素类)的同时,还包含页面请求过程中的非html信息(响应头特征)。综上,由于本申请在特征值的分类足够完善准确,且对目标网站本身内容的提取足够完整,因此能够准确识别而且减少指纹重复率。
本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描方法,得到网站指纹信息之后,还可以包括:
确定与目标网络的特征值匹配的记录的特征值为目标特征值,并将目标特征值对应的特征图片及网站地址输出;其中,记录各个元素类下各个元素具有的特征值时还记录有各个元素对应的特征图片及网站地址。
需要说明的是,需要记录的特征值对应预设特征元素还可以包括特征图片及网站地址,但是提取的目标网站的特征值中并不包括这两项特征元素对应特征值,由此,在匹配完成后,能够由记录的特征值确定出该特征值所属元素对应的特征图片及网站地址输出,方便用户查看。其中,特征图片可以指对应元素官方的图标,如windows官方图标,而官方网址可以指对应元素官方的网址,使得客户直观的获取到相应的信息。
本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描方法,利用网络爬虫爬取目标网站的内容,得到目标网站与各个预设特征元素对应的特征值,可以包括:
利用网络爬虫爬取目标网站的内容,如果爬取得到的页面为静态页面,则直接由静态页面中获取与各个预设特征元素对应的特征值;如果爬取得到的页面为动态页面,则运行对应的javascript代码得到对应的静态页面,并由获取的静态页面中获取与各个预设特征元素对应的特征值。
需要说明的是,利用网络爬虫爬取目标网站的内容,能够获取到完整的browser内容,获取到的browser内容如果为静态的html页面,则可以直接解析该页面获取到响应的特征值;获取到的browser内容如果为动态的html页面,则需要对动态的html页面运行javascript代码获取其对应的静态的html页面,进而实现解析。这是由于静态的html网页源码跟浏览器解析后的内容一样,但是动态的html网页的源码跟浏览器解析后的内容不一样,因此需要运行代码模拟浏览器的解析逻辑运行才会跟浏览器解析后的内容一样,从而通过这种对于静态页面及动态页面的处理,保证获取到的特征为网站的完整的特征值。
本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描方法,利用网络爬虫爬取目标网站的内容,可以包括:
依次利用网络爬虫爬取目标网站包含的预设层网页的内容。
需要说明的是,网页可以包含子网页,在访问一个目标网站的网页后可以存储对应的静态网页,并将该目标网站的网页中包含的子网址(过滤掉外网)全部保存,并依次对保存的每个子网址对应的页面进行访问得到对应的静态页面,而对于全部网页的静态页面的处理是相同的,最后将得到的全部静态页面的特征值汇总成与目标网站对应的特征值的集合。预设层可以根据实际需要进行确定,一层即为一个网页。具体来说,本实施例的实现框图可以如图2所示,其中,目标url即为当前需要实现特征值获取的网页的url,添加url即为添加下一次作为目标url的url,退出条件即为判断解析的层数是否达到预设层数,html匹配验证、header匹配验证、引入js匹配验证、script匹配验证及mate匹配验证即为将目标网站的各项特征值与记录的特征值进行匹配,汇总特征值即为汇总与目标网站的特征值匹配成功的记录的全部特征值。
从而进一步保证了获取到的目标网站的特征的完整性。
另外需要说明的是,本申请中可以将步骤S13及相关步骤封住为一个独立的node模块,实现对网站指纹扫描的大批量应用。
本发明实施例提供了一种基于网络爬虫的网站指纹信息扫描装置,如图3所示,可以包括:
获取模块11,用于:获取构建网站所需的多个元素类,元素类包括操作系统、编程语言、网页服务器、网页应用框架、脚本语言框架及内容管理系统;
记录模块12,用于:记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,且记录的不同元素对应同一预设特征元素的特征值不同,预设特征元素包括响应头特征、引入js特征、script特征、html特征及所属元素类;
匹配模块13,用于:利用网络爬虫爬取目标网站的内容,得到目标网站与任一或任多预设特征元素对应的特征值,将得到的特征值与记录的特征值进行比对,得到包含有与目标网站的特征值匹配的记录的特征值的网站指纹信息。
本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描装置,记录模块可以包括:
第一记录单元,用于:如果各个元素类下各个元素具有的任一特征值引用预设基础特征,则记录该任一特征值时同时记录引用的预设基础特征的名称。
本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描装置,还可以包括:
构造模块,用于:记录各个元素类下各个元素具有的与预设特征元素对应的特征之后,将记录的特征值构造成格式相同的json字符。
本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描装置,记录模块可以包括:
第二记录单元,用于:在预先设定的特征模板库中记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值。
本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描装置,还可以包括:
输出模块,用于:得到网站指纹信息之后,确定与目标网络的特征值匹配的记录的特征值为目标特征值,并将目标特征值对应的特征图片及网站地址输出;其中,记录各个元素类下各个元素具有的特征值时还记录有各个元素对应的特征图片及网站地址。
本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描装置,匹配模块可以包括:
获取单元,用于:利用网络爬虫爬取目标网站的内容,如果爬取得到的页面为静态页面,则直接由静态页面中获取与各个预设特征元素对应的特征值;如果爬取得到的页面为动态页面,则运行对应的javascript代码得到对应的静态页面,并由获取的静态页面中获取与各个预设特征元素对应的特征值。
本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描装置,获取单元可以包括:
爬取单元,用于:依次利用网络爬虫爬取目标网站包含的预设层网页的内容。
本发明实施例还提供了一种基于网络爬虫的网站指纹信息扫描设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项基于网络爬虫的网站指纹信息扫描方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项基于网络爬虫的网站指纹信息扫描方法的步骤。
需要说明的是,本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描装置、设备及计算机可读存储介质中相关部分的说明请参见本发明实施例提供的一种基于网络爬虫的网站指纹信息扫描方法中对应部分的详细说明,在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种基于网络爬虫的网站指纹信息扫描方法,其特征在于,包括:
获取构建网站所需的多个元素类,所述元素类包括操作系统、编程语言、网页服务器、网页应用框架、脚本语言框架及内容管理系统;
记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,且记录的不同元素对应同一预设特征元素的特征值不同,所述预设特征元素包括响应头特征、引入js特征、script特征、html特征及所属元素类;
利用网络爬虫爬取目标网站的内容,得到所述目标网站与任一或任多预设特征元素对应的特征值,将得到的特征值与记录的特征值进行比对,得到包含有与所述目标网站的特征值匹配的记录的特征值的网站指纹信息;
记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,包括:
如果各个元素类下各个元素具有的任一特征值引用预设基础特征,则记录该任一特征值时同时记录引用的预设基础特征的名称。
2.根据权利要求1所述的方法,其特征在于,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值之后,还包括:
将记录的特征值构造成格式相同的json字符。
3.根据权利要求2所述的方法,其特征在于,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,包括:
在预先设定的特征模板库中记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值。
4.根据权利要求1所述的方法,其特征在于,得到网站指纹信息之后,还包括:
确定与所述目标网站的特征值匹配的记录的特征值为目标特征值,并将所述目标特征值对应的特征图片及网站地址输出;其中,记录各个元素类下各个元素具有的特征值时还记录有各个元素对应的特征图片及网站地址。
5.根据权利要求1所述的方法,其特征在于,利用网络爬虫爬取目标网站的内容,得到所述目标网站与各个预设特征元素对应的特征值,包括:
利用网络爬虫爬取目标网站的内容,如果爬取得到的页面为静态页面,则直接由所述静态页面中获取与各个预设特征元素对应的特征值;如果爬取得到的页面为动态页面,则运行对应的javascript代码得到对应的静态页面,并由获取的静态页面中获取与各个预设特征元素对应的特征值。
6.根据权利要求5所述的方法,其特征在于,利用网络爬虫爬取目标网站的内容,包括:
依次利用网络爬虫爬取所述目标网站包含的预设层网页的内容。
7.一种基于网络爬虫的网站指纹信息扫描装置,其特征在于,包括:
获取模块,用于:获取构建网站所需的多个元素类,所述元素类包括操作系统、编程语言、网页服务器、网页应用框架、脚本语言框架及内容管理系统;
记录模块,用于:记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,且记录的不同元素对应同一预设特征元素的特征值不同,所述预设特征元素包括响应头特征、引入js特征、script特征、html特征及所属元素类;
匹配模块,用于:利用网络爬虫爬取目标网站的内容,得到所述目标网站与任一或任多预设特征元素对应的特征值,将得到的特征值与记录的特征值进行比对,得到包含有与所述目标网站的特征值匹配的记录的特征值的网站指纹信息;
所述记录模块包括:
第一记录单元,用于:如果各个元素类下各个元素具有的任一特征值引用预设基础特征,则记录该任一特征值时同时记录引用的预设基础特征的名称。
8.一种基于网络爬虫的网站指纹信息扫描设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述基于网络爬虫的网站指纹信息扫描方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于网络爬虫的网站指纹信息扫描方法的步骤。
CN201811325785.4A 2018-11-08 2018-11-08 一种基于网络爬虫的网站指纹信息扫描的方法及装置 Active CN109376291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811325785.4A CN109376291B (zh) 2018-11-08 2018-11-08 一种基于网络爬虫的网站指纹信息扫描的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811325785.4A CN109376291B (zh) 2018-11-08 2018-11-08 一种基于网络爬虫的网站指纹信息扫描的方法及装置

Publications (2)

Publication Number Publication Date
CN109376291A CN109376291A (zh) 2019-02-22
CN109376291B true CN109376291B (zh) 2020-11-24

Family

ID=65384150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811325785.4A Active CN109376291B (zh) 2018-11-08 2018-11-08 一种基于网络爬虫的网站指纹信息扫描的方法及装置

Country Status (1)

Country Link
CN (1) CN109376291B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948025B (zh) * 2019-03-20 2023-10-20 上海古鳌电子科技股份有限公司 一种数据引用记录方法
CN110245314A (zh) * 2019-05-31 2019-09-17 江苏百达智慧网络科技有限公司 一种网页指纹生成方法
CN110958225B (zh) * 2019-11-08 2022-02-15 杭州安恒信息技术股份有限公司 基于流量识别网站指纹的方法
CN111008405A (zh) * 2019-12-06 2020-04-14 杭州安恒信息技术股份有限公司 一种基于文件Hash的网站指纹识别方法
CN111708967B (zh) * 2020-06-11 2023-05-16 浙江浙大网新国际软件技术服务有限公司 一种基于网站地图的指纹识别方法
CN112131508A (zh) * 2020-09-25 2020-12-25 深信服科技股份有限公司 网站应用框架指纹识别的方法、设备、装置及介质
CN112347328A (zh) * 2020-10-27 2021-02-09 杭州安恒信息技术股份有限公司 一种网络平台识别方法、装置、设备及可读存储介质
CN112434250B (zh) * 2020-12-15 2022-07-12 安徽三实信息技术服务有限公司 一种基于在线网站的cms识别特征规则提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
WO2014011866A1 (en) * 2012-07-11 2014-01-16 Google Inc. Predicting visibility of content items
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器
CN105337776A (zh) * 2015-11-19 2016-02-17 北京金山安全软件有限公司 一种生成网站指纹的方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
WO2014011866A1 (en) * 2012-07-11 2014-01-16 Google Inc. Predicting visibility of content items
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器
CN105337776A (zh) * 2015-11-19 2016-02-17 北京金山安全软件有限公司 一种生成网站指纹的方法、装置及电子设备

Also Published As

Publication number Publication date
CN109376291A (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
US9203720B2 (en) Monitoring the health of web page analytics code
CN110069683B (zh) 一种基于浏览器爬取数据的方法及装置
CN110266661B (zh) 一种授权方法、装置及设备
CN107085549B (zh) 故障信息生成的方法和装置
CN111125598A (zh) 数据智能查询方法、装置、设备及存储介质
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
US20200336498A1 (en) Method and apparatus for detecting hidden link in website
CN106598991A (zh) 一种使用会话方式实现与网站交互表单自动提取的网络爬虫系统
US20130268514A1 (en) Brand analysis using interactions with search result items
EP3745292A1 (en) Hidden link detection method and apparatus for website
CN110851681A (zh) 爬虫处理方法、装置、服务器及计算机可读存储介质
CN106874502A (zh) 一种视频搜索的方法、装置及终端
US9665574B1 (en) Automatically scraping and adding contact information
CN105468511A (zh) 网页脚本错误定位方法及装置
CN109862074B (zh) 一种数据采集方法、装置、可读介质及电子设备
CN106446123A (zh) 一种网页中验证码元素识别方法
CN111597422A (zh) 埋点映射方法、装置、计算机设备和存储介质
CN111324894A (zh) 一种基于web应用安全的XSS漏洞检测方法及系统
CN112882890A (zh) 一种日志采集方法及装置
CN109246069B (zh) 网页登录方法、装置和可读存储介质
CN115437930B (zh) 网页应用指纹信息的识别方法及相关设备
CN111209325A (zh) 业务系统接口识别方法、装置及存储介质
CN114968725A (zh) 任务依赖关系校正方法、装置、计算机设备及存储介质
CN112579947A (zh) 网页元素图的截取方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant