CN112131508A - 网站应用框架指纹识别的方法、设备、装置及介质 - Google Patents

网站应用框架指纹识别的方法、设备、装置及介质 Download PDF

Info

Publication number
CN112131508A
CN112131508A CN202011028568.6A CN202011028568A CN112131508A CN 112131508 A CN112131508 A CN 112131508A CN 202011028568 A CN202011028568 A CN 202011028568A CN 112131508 A CN112131508 A CN 112131508A
Authority
CN
China
Prior art keywords
website
fingerprint
application framework
information
addresses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011028568.6A
Other languages
English (en)
Inventor
罗江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202011028568.6A priority Critical patent/CN112131508A/zh
Publication of CN112131508A publication Critical patent/CN112131508A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网站应用框架指纹识别的方法,该方法包括:获取网站地址的网站信息;提取所述网站信息中的指纹特征;根据所述指纹特征对所述网站地址进行分类以得到包含网站地址的目标网站地址集合,所述目标网站地址集合中的网站地址的指纹特征相同;将所述目标网站地址集合对应的网站应用框架信息与所述目标网站地址集合对应的指纹特征相互关联,所述网站应用框架生成所述目标网站地址集合中的网站。达到了可以识别未知的网站应用框架的指纹的技术效果。

Description

网站应用框架指纹识别的方法、设备、装置及介质
技术领域
本发明涉及信息安全的技术领域,尤其涉及一种网站应用框架指纹识别的方法、设备、装置及计算机存储介质。
背景技术
网站指纹识别包括对网站编程语言,服务器软件,网站应用框架,网站防护软件,数据库等信息的识别,目前网站应用指纹识别的方法是通过正则匹配指纹规则的方式收集和整理海量的已知网站应用框架系统的指纹规则并基于已知的网站应用框架系统编写对应的指纹规则进行匹配,但是,这种方法只能识别已知的网站应用框架系统指纹,无法识别出来未知的网站应用框架系统的指纹。
发明内容
本申请实施例通过提供一种网站应用框架指纹识别的方法、设备、装置及计算机存储介质,旨在解决现有技术中通过正则匹配指纹规则无法识别出来未知的网站应用框架系统的指纹的问题。
为实现上述目的,本发明提供一种网站应用框架指纹识别的方法,所述网站应用框架指纹识别的方法包括以下步骤:
获取网站地址的网站信息;
获取所述网站信息中的指纹特征;
根据所述指纹特征对所述网站地址进行分类以得到包含网站地址的集合,所述目标网站地址集合中的网站地址的指纹特征相同;
将所述目标网站地址集合对应的网站应用框架信息与所述目标网站地址集合对应的指纹特征相互关联,所述网站应用框架生成所述目标网站地址集合中的网站。
可选地,所述网站信息包括网站属性信息、网站文件信息、网站响应头信息以及网站标签信息中的至少一个。
可选地,所述指纹特征包括:
所述网站属性信息中的基本信息;
所述网站文件信息中的标识信息;
所述响应头信息中的应用框架信息;
所述网站标签信息中的应用信息。
可选地,所述根据所述指纹特征对所述网站地址进行分类以得到包含网站地址的目标网站地址集合的步骤包括:
比对各个所述网站地址的指纹特征;
在所述网站地址具备相同的指纹特征的情况下,将所述指纹特征相同的所述网站地址添加至同一所述目标网站地址集合中。
可选地,所述在所述网站地址具备相同的指纹特征的情况下,将所述指纹特征相同的所述网站地址添加至同一所述目标网站地址集合中步骤包括:
在所述网站地址具备相同的指纹特征的情况下,更新相同的所述指纹特征的出现次数;
在所述次数大于预设次数的情况下,将出现次数大于预设次数的所述指纹特征添加至指纹特征库中;
将所述指纹特征相同的所述网站地址添加至同一所述目标网站地址集合中。
可选地,所述在所述次数大于预设次数的情况下,将出现次数大于预设次数的所述指纹特征添加至指纹特征库中的步骤包括:
在所述次数大于预设次数的情况下,将出现次数大于预设次数的所述指纹特征以及出现次数大于预设次数的所述指纹特征对应的网站地址发送至后台服务器进行筛查;
在筛查通过的情况下,将出现次数大于预设次数的所述指纹特征添加至指纹特征库中。
可选地,所述根据所述指纹特征对所述网站地址进行分类以得到包含网站地址的集合的步骤之后,还包括:
将所述目标网站地址集合对应的指纹特征添加至预设的指纹特征库中。
为实现上述目的,本发明还提供一种网站应用框架指纹识别的设备,所述网站应用框架指纹识别的设备包括:
获取模块,用于获取网站地址的网站信息;
提取模块,用于提取所述网站信息中的指纹特征;
分类模块,用于根据所述指纹特征对所述网站地址进行分类以得到包含网站地址的目标网站地址集合,所述目标网站地址集合中的网站地址的指纹特征相同;
关联模块,用于将所述目标网站地址集合对应的网站应用框架信息与所述目标网站地址集合对应的指纹特征相互关联,所述网站应用框架生成所述目标网站地址集合中的网站。
为实现上述目的,本发明还提供一种网站应用框架指纹识别的装置,所述网站应用框架指纹识别的装置包括存储器、处理器及存储在存储器上并可在处理器上运行的网站应用框架指纹识别的程序,所述处理器执行所述网站应用框架指纹识别的程序的情况下实现上述网站应用框架指纹识别的方法
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有网站应用框架指纹识别的程序,其特征在于,该网站应用框架指纹识别的程序被处理器执行的情况下实现上述网站应用框架指纹识别的方法。
本发明实施例提供的网站应用框架指纹识别的方法、设备、装置及计算机存储介质,网站应用框架指纹识别的装置通过数据采集装置获取海量未识别的网站地址的网站信息,并获取网站信息中的指纹特征通过大数据聚合分析将具有相同指纹特征的网站地址进行分类得到目标网站地址集合,并将目标网站地址集合对应的网站应用框架信息与所述目标网站地址集合对应的指纹特征关联保存,这样使得将来需要使用网站应用框架时便可得知网站应用框架对应的指纹特征,从而可以达到对未知的网站应用框架的识别的效果。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图;
图2为本发明网站应用框架指纹识别的方法第一实施例的流程示意图;
图3为本发明网站应用框架指纹识别的方法第一实施例的步骤S30的细化方案示意图;
图4为本发明网站应用框架指纹识别的方法第二实施例的流程示意图;
图5为本发明网站应用框架指纹识别的设备的功能模块示意图。
具体实施方式
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
作为一种实现方式,网站应用框架指纹识别的装置的硬件运行环境图可以如图1所示。
本发明实施例方案涉及的是网站应用框架指纹识别的装置,网站应用框架指纹识别的装置包括:处理器101,例如CPU,存储器102,通信总线103,用户接口104,网络接口105。其中,通信总线103用于实现这些组件之间的连接通信。用户接口104可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口104还可以包括标准的有线接口、无线接口。网络接口105可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器102可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。如图1所示,作为一种计算机存储介质的存储器103中可以包括网站应用框架指纹识别的装置的控制程序;而处理器101可以用于调用存储器102中存储的网站应用框架指纹识别的装置的控制程序,并执行以下操作:
获取网站地址的网站信息;
提取所述网站信息中的指纹特征;
根据所述指纹特征对所述网站地址进行分类以得到包含网站地址的目标网站地址集合,所述目标网站地址集合中的网站地址的指纹特征相同;
将所述目标网站地址集合对应的网站应用框架信息与所述目标网站地址集合对应的指纹特征相互关联,所述网站应用框架生成所述目标网站地址集合中的网站。
进一步地,处理器101可以用于调用存储器102中存储的网站应用框架指纹识别的装置的控制程序,并执行以下操作:
两两比对各个所述网站地址的指纹特征;
在所述网站地址具备相同的指纹特征的情况下,将所述指纹特征相同的所述网站地址添加至同一所述目标网站地址集合中。
进一步地,处理器101可以用于调用存储器102中存储的网站应用框架指纹识别的装置的控制程序,并执行以下操作:
在所述网站地址具备相同的指纹特征的情况下,更新相同的所述指纹特征的出现次数;
在所述次数大于预设次数的情况下,将出现次数大于预设次数的所述指纹特征添加至指纹特征库中;
将所述指纹特征相同的所述网站地址添加至同一所述目标网站地址集合中。
进一步地,处理器101可以用于调用存储器102中存储的网站应用框架指纹识别的装置的控制程序,并执行以下操作:
在所述次数大于预设次数的情况下,将出现次数大于预设次数的所述指纹特征以及出现次数大于预设次数的所述指纹特征对应的网站地址发送至后台服务器进行筛查;
在筛查通过的情况下,将出现次数大于预设次数的所述指纹特征添加至指纹特征库中。
进一步地,处理器101可以用于调用存储器102中存储的网站应用框架指纹识别的装置的控制程序,并执行以下操作:
将所述目标网站地址集合对应的指纹特征添加至预设的指纹特征库中。
进一步地,处理器101可以用于调用存储器102中存储的网站应用框架指纹识别的装置的控制程序,并执行以下操作:
获取所述目标网站地址集合中页面为错误文件页面的目标网站地址;
将目标网站地址的md5信息摘要算法值、特殊的首部字段以及特殊的标签字段添加至预设的指纹特征库中。
本实施例根据上述方案,网站应用框架指纹识别的装置通过数据采集装置获取海量未识别的网站地址的网站信息,并获取网站信息中的指纹特征通过大数据聚合分析将具有相同指纹特征的网站地址进行分类得到目标网站地址集合,并将目标网站地址集合对应的网站应用框架信息与所述目标网站地址集合对应的指纹特征关联保存,这样使得将来需要使用网站应用框架的情况下便可得知网站应用框架对应的指纹特征,从而可以达到对未知的网站应用框架的识别的效果。
基于上述网站应用框架指纹识别的装置的硬件构架,提出本发明网站应用框架指纹识别的方法的实施例。
参照图2,图2为本发明网站应用框架指纹识别的方法,的第一实施例,所述网站应用框架指纹识别的方法包括以下步骤:
步骤S10、获取网站地址的网站信息;
网站应用框架的指纹识别用于识别网站应用框架所运行的网站软件名称、后端服务器、编程语言等特征从而实现对目标网站应用框架的准确标识。
通过可控交换设备使用数据采集工具对浏览网站的海量未识别的流量数据进行收集,从流量数据中获取网站地址的网站信息并进行入库保存。网站信息包括网站的基本信息、网站文件信息、网站响应头信息以及网站标签信息,由于提取出来的网站信息的数据格式不固定且数据量会很大,因此将这些数据存储在文档型而非关系型的数据库mongodb中,并将这四种网站信息分别存在四个数据库中。
步骤S20、获取所述网站信息中的指纹特征;
通过网站分析工具获取网站信息中的指纹特征,所述网站信息中的指纹特征包括:所述网站属性信息中的基本信息,包括状态码,网站标题,网站版权信息,网站url等,这些可以作为网站基本的特征来判断。所述网站文件信息中的标识信息包括网站链接,文件名,主机名,文件md5值信息等。所述响应头信息中的应用框架信息,在响应头里面通常会保留有网站的一些特殊的指纹,比如Server字段,X-Power-By字段,以及其他一些自定义的字段,我们只需要完整的保存响应头信息即可。所述网站标签信息(超文本标记语言网站中的标签信息)中的应用信息,网站标签信息是网站html超文本标记语言中标签中的信息,标签里面通常会存储网站应用的一些特殊指纹,比如title文件名,lang(语言文件),keywords(关键词),description(说明书),copyright(版权),powerby(技术支持)等信息。
可选地,所述指纹特征包括包括以下至少一种:
网站页面为错误页面的网站地址的所述网站文件信息中的md5信息摘要算法值;
所述网站响应头信息中的Set-Cookie字段,Server服务器(用于告知网站使用的服务器以及版本信息)字段,X-Powered-By语言或应用框架支持(用于告知网站编写使用的语言或框架)字段;所述网站文件信息中的网络连接、文件名、主机名以及md5信息摘要算法值;所述网站属性信息中的状态码、网站标题、网站版权信息以及网站地址;所述网站标签信息中的标题、语言文件、关键词、创作者、说明书、生成器、版权以及技术支持。在获取网站地址的情况下可选择访问一些肯定不存在的页面,比如/error-page-test-afasdfasdfsd之类的随机输入的网站地址,若所述目标网站地址中存在错误的网站地址,则获取目标网站地址集合中错误文件页面的md5信息摘要算法值。一些网站应用框架会在响应头里面添加特殊的字段比如Drupal的特殊Headers字段:X-Drupal-Cache,因此获取所有的特殊首部字段的key可以作为一个网站识别的指纹特征。一些网站应用框架会在set-cookie中的key和path部分添加特殊的键值,因此可以获取set-cookies中所有特殊key字段作为一个网站识别的指纹特征。
选择只提取网站地址中的具有错误文件页面的所述md5信息摘要算法值,特殊的首部字段以及特殊的标签字段和/或响应头信息中的首部字段和/或set-cookies标签中所有key关键字段的关键词。这样减少了需要提取的指纹特征的任务量,提高了指纹特征获取的效率。
步骤S30、根据所述指纹特征对所述网站地址进行分类以得到包含网站地址的集合,所述目标网站地址集合中的网站地址的指纹特征相同;
Pandas是一个强大的分析结构化数据的工具集,它的使用基础是Numpy(提供高性能的矩阵运算),pandas一般用于数据挖掘和数据分析,同的情况下也提供数据清洗的功能。Pandas提供Data Frame(类似表格型一样的数据结构,可以像操作关系型数据库一样操作数据集)。可以将网站地址数据从mongodb数据库导入到pandas数据中进行数据聚合分析。如果检测到两个网站地址中出现相同的指纹特征,则将所述网站地址分类为网站地址集合。可选地,在网站地址同一字段具有相同关键字信息的情况下,将具有相同关键字信息的网站地址分类为别分类为一个网站地址集合。例如,对于网站属性信息,在检测到具有相同网站标题的一类网站地址的情况下,将所述具有相同网站标题特征的网站地址分类为一个网站地址集合;对于响应头信息,在检测到具有相同Server服务器字段或X-Power-By语言或应用框架支持字段的一类网站地址的情况下,将所述具有相同Server服务器字段特征的网站地址分类为一个网站地址集合,将具有相同X-Power-By语言或应用框架支持字段特征的网站地址分类为一个网站地址集合;对于网站标签信息,在检测到具有相同标题或关键词或说明书的一类网站地址的情况下,将所述具有相同标题的网站地址分类为一个网站地址集合,将具有相同关键词的网站地址分类为一个网站地址集合,将具有相同说明书的网站地址分类为一个网站地址集合;对于网站文件信息,由于一些网站的特定图片文件、js文件、CSS等静态文件,如favicon.ico、css、logo.ico、js等文件的md5信息摘要算法值一般不会修改,因此通过爬虫软件对这些文件进行抓取并比对md5信息摘要算法值,如果检测到具有相同md5信息摘要算法值的一类网站地址则说明所述网站地址是同一种网站应用框架,将所述具有相同md5值的网站地址分类为包含网站地址的集合。
进一步地,参照图3,图3为步骤S30的细化方案:
步骤S31、两两比对各个所述网站地址的指纹特征;
步骤S32、在所述网站地址具备相同的指纹特征的情况下,将所述指纹特征相同的所述网站地址添加至同一所述目标网站地址集合中。
两个网站地址中存在相同的指纹特征,则很可能是相同的一类网站应用框架,出现的特征信息越多,可能性越大,因此将出现相同的指纹特征的网站地址添加到同一个目标网站地址集合中,所述目标网站地址集合中的网站地址对应的网站应用框架为同一类,且具有相同的网站指纹特征,因此目标网站地址集合与对应的网站应用框架以及指纹特征关联保存后便可达到识别网站应用框架的效果。
进一步地,所述步骤S30之后还包括:
将所述目标网站地址集合对应的指纹特征添加至预设的指纹特征库中。
步骤S40、将所述目标网站地址集合对应的网站应用框架信息与所述目标网站地址集合对应的指纹特征相互关联,所述网站应用框架生成所述目标网站地址集合中的网站。
所述具有相同的网站指纹特征的网站地址所组成的目标网站集合对应的网站应用框架一般是相同的,将目标网站地址集合、网站地址集合对应的网站应用框架以及所述网站地址集合对应的指纹特征一一对应地关联保存起来。这样原本未知的网站应用框架便拥有了对应关联的指纹特征,将来便可根据指纹特征确定网站应用框架的信息了。
在本实施例提供的技术方案中,网站应用框架指纹识别的装置通过数据采集装置获取海量未识别的网站地址的网站信息,并获取网站信息中的指纹特征通过大数据聚合分析将具有相同指纹特征的网站地址进行分类得到目标网站地址集合,并将目标网站地址集合对应的网站应用框架信息与所述目标网站地址集合对应的指纹特征关联保存,这样使得将来需要使用网站应用框架的情况下便可得知网站应用框架对应的指纹特征,从而可以达到对未知的网站应用框架的识别的效果。
参照图4,图4为本发明网站应用框架指纹识别的控制方法的第二实施例,基于第一实施例,所述步骤S32包括:
步骤S321、在所述网站地址具备相同的指纹特征的情况下,更新相同的所述指纹特征的出现次数;
步骤S322、在所述次数大于预设次数的情况下,将出现次数大于预设次数的所述指纹特征添加至指纹特征库中;
步骤S323、将所述指纹特征相同的所述网站地址添加至同一所述目标网站地址集合中。
进一步地,所述步骤S322包括:在所述次数大于预设次数的情况下,将出现次数大于预设次数的所述指纹特征以及出现次数大于预设次数的所述指纹特征对应的网站地址发送至后台服务器进行筛查;
在筛查通过的情况下,将出现次数大于预设次数的所述指纹特征添加至指纹特征库中。
可以理解的是,在将删除掉筛查为误判的网站地址之后将筛查通过的所述指纹特征添加至指纹特征库。
对每一种指纹特征信息出现的频率进行排序,如果某个指纹特征信息在网站地址的网站信息中出现频率很高,则有可能该指纹特征信息对应的网站应用框架是同一种未识别出来的网站应用框架,也有可能是系统误报而需要人工筛查。因此,可将出现次数大于预设次数的指纹特征对应的网站地址分类为待定网站地址集合并发送至后台服务器以便人工再次筛查,若筛查通过则所述出现次数超过预设次数的指纹特征对应的网站地址属于同一类网站应用框架,将出现次数超过预设次数的指纹特征添加至指纹特征库中以更新扩充指纹特征库。
在本发明实施例提供的技术方案中,若在多个网站地址中一指纹特征出现次数超过预设次数的情况下,将所述出现次数大于预设次数的所述指纹特征对应的网站地址发送至后台服务器进行人工筛查以避免出现误判,若筛查通过,则判定所述网站地址对应的网站应用框架为同一种,并将所述指纹特征添加至指纹特征库。这样系统与人工进行的双重筛查提高了网站应用框架识别的准确性。
参照图5,图5为本发明网站应用框架指纹识别的设备的功能模块示意图。
如图5所示,所示网站应用框架指纹识别的设备包括:
获取模块201,用于获取网站地址的网站信息;
提取模块202,用于提取所述网站信息中的指纹特征;
分类模块203,用于根据所述指纹特征对所述网站地址进行分类以得到包含网站地址的目标网站地址集合,所述目标网站地址集合中的网站地址的指纹特征相同;
关联模块204,用于将所述目标网站地址集合对应的网站应用框架信息与所述目标网站地址集合对应的指纹特征相互关联,所述网站应用框架生成所述目标网站地址集合中的网站。
其中上述网站应用框架识别的设备中各个模块的功能实现与上述网站应用框架识别的方法实施例中各个步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有网站应用框架指纹识别的程序,其特征在于,该网站应用框架指纹识别的程序被处理器执行的情况下实现上述网站应用框架指纹识别的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种网站应用框架指纹识别的方法,其特征在于,所述网站应用框架指纹识别的方法包括:
获取网站地址的网站信息;
提取所述网站信息中的指纹特征;
根据所述指纹特征对所述网站地址进行分类以得到包含网站地址的目标网站地址集合,所述目标网站地址集合中的网站地址的指纹特征相同;
将所述目标网站地址集合对应的网站应用框架信息与所述目标网站地址集合对应的指纹特征相互关联,所述网站应用框架生成所述目标网站地址集合中的网站。
2.如权利要求1所述的网站应用框架指纹识别的方法,其特征在于,所述网站信息包括网站属性信息、网站文件信息、网站响应头信息以及网站标签信息中的至少一个。
3.如权利要求2所述的网站应用框架指纹识别的方法方法,其特征在于,所述指纹特征包括:
所述网站属性信息中的基本信息;
所述网站文件信息中的标识信息;
所述响应头信息中的应用框架信息;
所述网站标签信息中的应用信息。
4.如权利要求1所述的网站应用框架指纹识别的方法,其特征在于,所述根据所述指纹特征对所述网站地址进行分类以得到包含网站地址的目标网站地址集合的步骤包括:
比对各个所述网站地址的指纹特征;
在所述网站地址具备相同的指纹特征的情况下,将指纹特征相同的所述网站地址添加至同一所述目标网站地址集合中。
5.如权利要求4所述的网站应用框架指纹识别的方法,其特征在于,所述在所述网站地址具备相同的指纹特征的情况下,将所述指纹特征相同的所述网站地址添加至同一所述目标网站地址集合中的步骤包括:
在所述网站地址具备相同的指纹特征的情况下,更新相同的所述指纹特征的出现次数;
在所述次数大于预设次数的情况下,将出现次数大于预设次数的所述指纹特征添加至指纹特征库中;
将所述指纹特征相同的所述网站地址添加至同一所述目标网站地址集合中。
6.如权利要求5所述的网站应用框架指纹识别的方法,其特征在于,所述在所述次数大于预设次数的情况下,将出现次数大于预设次数的所述指纹特征添加至指纹特征库中的步骤包括:
在所述次数大于预设次数的情况下,将出现次数大于预设次数的所述指纹特征以及所述指纹特征对应的网站地址发送至后台服务器进行筛查;
在筛查通过的情况下,将出现次数大于预设次数的所述指纹特征添加至指纹特征库中。
7.如权利要求1所述的网站应用框架指纹识别的方法,其特征在于,所述根据所述指纹特征对所述网站地址进行分类以得到包含网站地址的集合的步骤之后,还包括:
将所述目标网站地址集合对应的指纹特征添加至预设的指纹特征库中。
8.一种网站应用框架指纹识别的设备,其特征在于,所述网站应用框架指纹识别的设备包括:
获取模块,用于获取网站地址的网站信息;
提取模块,用于提取所述网站信息中的指纹特征;
分类模块,用于根据所述指纹特征对所述网站地址进行分类以得到包含网站地址的目标网站地址集合,所述目标网站地址集合中的网站地址的指纹特征相同;
关联模块,用于将所述目标网站地址集合对应的网站应用框架信息与所述目标网站地址集合对应的指纹特征相互关联,所述网站应用框架生成所述目标网站地址集合中的网站。
9.一种网站应用框架指纹识别的装置,其特征在于,所述网站应用框架指纹识别的装置包括存储器、处理器及存储在存储器上并可在处理器上运行的网站应用框架指纹识别的程序,所述处理器执行所述网站应用框架指纹识别的程序的情况下实现权利要求1-7任一所述网站应用框架指纹识别的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有网站应用框架指纹识别的程序,其特征在于,该网站应用框架指纹识别的程序被处理器执行的情况下实现权利要求1-7任一所述网站应用框架指纹识别的方法。
CN202011028568.6A 2020-09-25 2020-09-25 网站应用框架指纹识别的方法、设备、装置及介质 Pending CN112131508A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011028568.6A CN112131508A (zh) 2020-09-25 2020-09-25 网站应用框架指纹识别的方法、设备、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011028568.6A CN112131508A (zh) 2020-09-25 2020-09-25 网站应用框架指纹识别的方法、设备、装置及介质

Publications (1)

Publication Number Publication Date
CN112131508A true CN112131508A (zh) 2020-12-25

Family

ID=73840941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011028568.6A Pending CN112131508A (zh) 2020-09-25 2020-09-25 网站应用框架指纹识别的方法、设备、装置及介质

Country Status (1)

Country Link
CN (1) CN112131508A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110314269A1 (en) * 2009-12-10 2011-12-22 Angelos Stavrou Website Detection
CN103442016A (zh) * 2013-09-05 2013-12-11 星云融创(北京)信息技术有限公司 基于网站指纹推送白名单的方法及系统
CN109376291A (zh) * 2018-11-08 2019-02-22 杭州安恒信息技术股份有限公司 一种基于网络爬虫的网站指纹信息扫描的方法及装置
CN110825941A (zh) * 2019-10-17 2020-02-21 北京天融信网络安全技术有限公司 一种内容管理系统识别方法、装置和存储介质
CN111008405A (zh) * 2019-12-06 2020-04-14 杭州安恒信息技术股份有限公司 一种基于文件Hash的网站指纹识别方法
CN111475464A (zh) * 2020-03-19 2020-07-31 重庆邮电大学 一种自动发现挖掘Web组件指纹的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110314269A1 (en) * 2009-12-10 2011-12-22 Angelos Stavrou Website Detection
CN103442016A (zh) * 2013-09-05 2013-12-11 星云融创(北京)信息技术有限公司 基于网站指纹推送白名单的方法及系统
CN109376291A (zh) * 2018-11-08 2019-02-22 杭州安恒信息技术股份有限公司 一种基于网络爬虫的网站指纹信息扫描的方法及装置
CN110825941A (zh) * 2019-10-17 2020-02-21 北京天融信网络安全技术有限公司 一种内容管理系统识别方法、装置和存储介质
CN111008405A (zh) * 2019-12-06 2020-04-14 杭州安恒信息技术股份有限公司 一种基于文件Hash的网站指纹识别方法
CN111475464A (zh) * 2020-03-19 2020-07-31 重庆邮电大学 一种自动发现挖掘Web组件指纹的方法

Similar Documents

Publication Publication Date Title
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
CN112507125A (zh) 三元组信息提取方法、装置、设备及计算机可读存储介质
US11550856B2 (en) Artificial intelligence for product data extraction
US20090125529A1 (en) Extracting information based on document structure and characteristics of attributes
CA2919878C (en) Refining search query results
CN110352427B (zh) 用于收集与网络化环境中的欺诈性内容相关联的数据的系统和方法
US10572566B2 (en) Image quality independent searching of screenshots of web content
CA2816781C (en) Identifying client states
CN106681901B (zh) 一种测试样本生成的方法和装置
CN112115338A (zh) 页面查询请求处理方法、装置、设备及存储介质
CN109146625B (zh) 一种基于内容的多版本App更新评价方法及系统
CN111522901A (zh) 文本中地址信息的处理方法及装置
KR20190058141A (ko) 문서로부터 추출되는 데이터를 생성하는 방법 및 그 장치
CN114528457A (zh) Web指纹检测方法及相关设备
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
US11797617B2 (en) Method and apparatus for collecting information regarding dark web
CN113486187A (zh) 佛学知识图谱构建方法、装置、设备及存储介质
CN106446123A (zh) 一种网页中验证码元素识别方法
CN111597422A (zh) 埋点映射方法、装置、计算机设备和存储介质
CN111460803A (zh) 基于工业物联网设备Web管理页面的设备识别方法
US9767086B2 (en) System and method for enablement of data masking for web documents
US11567851B2 (en) Mathematical models of graphical user interfaces
CN111158973B (zh) 一种web应用动态演化监测方法
CN116975340A (zh) 信息检索方法、装置、设备、程序产品及存储介质
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination