CN114661975A - 一种web首页指纹特征的提取方法、装置及介质 - Google Patents
一种web首页指纹特征的提取方法、装置及介质 Download PDFInfo
- Publication number
- CN114661975A CN114661975A CN202210319394.1A CN202210319394A CN114661975A CN 114661975 A CN114661975 A CN 114661975A CN 202210319394 A CN202210319394 A CN 202210319394A CN 114661975 A CN114661975 A CN 114661975A
- Authority
- CN
- China
- Prior art keywords
- preset range
- feature
- rule
- credibility
- limit value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种WEB首页指纹特征的提取方法、装置及介质,涉及前端技术领域,其通过获取WEB应用地址的请求响应体和响应头信息,根据请求响应体和响应头信息获取测试WEB应用中相同的行,并获取行的可信度,根据可信度对行进行特征组合并形成特征规则,并输出特征规则。可以看出,此方法通过至少两个WEB应用地址,并获取相同的行,可以快速提取该WEB应用首页的指纹规则,避免了关键词在被用户修改或删除时识别不出特征规则的问题,也避免了关键词不存在于首页当中的情况,避免了识别不出的情况发生,使特征提取更为简单,快捷。
Description
技术领域
本申请涉及前端技术领域,特别是涉及一种WEB首页指纹特征的提取方法、装置及介质。
背景技术
在进行网络渗透测试时,信息收集是最重要的步骤,网站指纹识别工具可以通过对返回包内容和指纹特征库进行匹配,匹配成功则可以判断该网站的指纹。网站指纹识别工具的核心是指纹特征规则库,但是指纹特征的收集和提取却是一件十分繁琐的事情。目前指纹特征的提取方法是通过提前设定WEB应用的关键词,如产品中英文名、厂商中英文名、网址等,并对首页、静态文件等进行检索,若存在,则确定为指纹特征。
由于在其他用户部署到自己的环境时会将关键词进行修改或者删除,这就导致使用该规则时存在识别不出的问题,另一方面这些关键词在大部分情况下不会出现首页内容中,这时候指纹识别特征的提取会更加繁琐。鉴于上述技术问题,寻求一种指纹特征的提取方法,是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种WEB首页指纹特征的提取方法、装置及介质。
为解决上述技术问题,本申请提供一种WEB首页指纹特征的提取方法,包括:
获取WEB应用地址的请求响应体和响应头信息,其中,所述WEB应用地址至少为两个;
根据所述请求响应体和所述响应头信息获取测试WEB应用中相同的行;
获取所述行的可信度;
根据所述可信度对所述行进行特征组合并形成特征规则;
输出所述特征规则。
优选地,所述输出所述特征规则包括:
检索所述特征规则以获取所述特征规则对应的标题与检索结果的集合;
根据检索结果确定每一组的所述标题的相似度;
根据所述相似度确定所述特征规则的优先级;
按照所述优先级输出所述特征规则。
优选地,所述获取所述行的可信度包括:
获取特征库,所述特征库根据预设特征预先设置;
判断所述行中是否存在用于表征所述行的可信度的权重因子;
若是,将所述权重因子在所述特征库中对应的可信度作为所述行的可信度。
优选地,所述根据所述可信度对所述行进行特征组合并形成特征规则包括:
若所述可信度处于第一预设范围,则将所述可信度对应的行作为一个所述特征规则;
若所述可信度处于第二预设范围,则根据与逻辑对所述可信度对应的行两两组合为一个所述特征规则;
若所述可信度处于第三预设范围,则将全部处于第三预设范围的可信度对应的行组合成一个所述特征规则;
其中,所述第一预设范围的下限值与所述第二预设范围的上限值相等,所述第二预设范围的下限值与所述第三预设范围的上限值相等。
优选地,所述根据所述相似度确定所述特征规则的优先级包括:
判断是否存在处于第四预设范围的相似度;
若是,获取处于所述第四预设范围的相似度对应标题的数量和在所述第四预设范围之外的相似度对应标题的数量,并确定二者的比值;
若所述比值处于第五预设范围,则认定所述标题对应的特征规则为可信特征规则;
若所述比值处于第六预设范围或第七预设范围,则认定所述标题对应的特征规则为一般可信特征规则;
其中,所述第四预设范围的上限值与所述第一预设范围的上限值相等,所述第四预设范围的下限值大于所述第一预设范围的下限值;所述第五预设范围的下限值与所述第一预设范围的下限值相等,所述第五预设范围的上限值大于所述第四预设范围的上限值;所述第六预设范围的上限值与所述第五预设范围的下限值相等,所述第六预设范围的下限值大于所述第二预设范围的上限值;所述第七预设范围的下限值与所述第五预设范围的上限值相等。
优选地,若不存在处于所述第四预设范围的相似度,则还包括:
获取处于第七预设范围的相似度对应标题的数量和在所述第七预设范围之外的相似度对应标题的数量,并确定二者的比值,且二者的比值处于所述第五预设范围,则认定所述标题对应的特征规则为可信特征规则;二者的比值处于所述第五预设范围之外,认定所述标题对应的特征规则为不可信特征规则。
优选地,在所述获取所述行的可信度之后,还包括:
删除低于预设阈值的可信度的行。
为解决上述技术问题,本申请还提供一种WEB首页指纹特征的提取装置,包括:
第一获取模块,用于获取WEB应用地址的请求响应体和响应头信息,其中,所述WEB应用地址至少为两个;
第二获取模块,用于根据所述请求响应体和所述响应头信息获取测试WEB应用中相同的行;
第三获取模块,用于获取所述行的可信度;
组合模块,用于根据所述可信度对所述行进行特征组合并形成特征规则;
输出模块,用于输出所述特征规则。
为解决上述技术问题,本申请还提供一种WEB首页指纹特征的提取装置,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述的WEB首页指纹特征的提取方法的步骤。
为解决上述技术问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的WEB首页指纹特征的提取方法的步骤。
本申请所提供的一种WEB首页指纹特征的提取方法,其通过获取WEB应用地址的请求响应体和响应头信息,根据请求响应体和响应头信息获取测试WEB应用中相同的行,并获取行的可信度,根据可信度对行进行特征组合并形成特征规则,并输出特征规则。可以看出,此方法通过至少两个WEB应用地址,并获取相同的行,可以快速提取该WEB应用首页的指纹规则,避免了关键词在被用户修改或删除时识别不出特征规则的问题,也避免了关键词不存在于首页当中的情况,避免了识别不出的情况发生,使特征提取更为简单,快捷。
在此基础上,本申请还提供了一种WEB首页指纹特征的提取装置和介质,具有与WEB首页指纹特征的提取方法相同的有益效果。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种WEB首页指纹特征的提取方法的流程图;
图2为本申请实施例提供的另一种WEB首页指纹特征的提取方法的流程图;
图3为本申请实施例提供的一种WEB首页指纹特征的提取装置的结构图;
图4为本申请另一实施例提供的WEB首页指纹特征的提取装置的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的核心是提供一种WEB首页指纹特征的提取方法、装置及介质。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
图1为本申请实施例提供的一种WEB首页指纹特征的提取方法的流程图,如图1所示,WEB首页指纹特征的提取方法包括如下步骤。
S10:获取WEB应用地址的请求响应体和响应头信息。
S11:根据请求响应体和响应头信息获取测试WEB应用中相同的行。
S12:获取行的可信度。
S13:根据可信度对行进行特征组合并形成特征规则。
S14:输出特征规则。
可以理解的是,在进行网络渗透测试时,信息收集是最重要的步骤,网站指纹识别工具可以通过对返回包内容和指纹特征库进行匹配,匹配成功则可以判断该网站的指纹。网站指纹识别工具的核心是指纹特征规则库,但是指纹特征的收集和提取却是一件十分繁琐的事情。目前指纹特征的提取方法是通过提前设定WEB应用的关键词,如产品中英文名、厂商中英文名、网址等,并对首页、静态文件等进行检索,若存在,则确定为指纹特征。而其他用户部署到自己的环境时会将关键词修改或者进行删除,这就导致使用该规则时存在识别不出的问题,另一方面这些关键词在大部分情况下不会出现首页内容中,这时候指纹识别特征的提取会更加繁琐。因此提出一种首页指纹特征的提取方法。
如步骤S10所说,获取WEB应用地址的请求响应体和响应头信息,其中,WEB应用地址至少为两个。本实施例对WEB应用地址的数量不作限定,只需满足大于或等于两个即可。通过选取至少两个测试WEB应用的地址,可以不用预先设置关键词,通过相同的行来获取特征规则,减少了特征提取的繁琐,从而避免了关键词不存在首页中,也避免了关键词被修改或删除,特征提取后无法识别的情况发生。此外,若首页响应码是302跳转,则获取的内容为跳转后的内容。若响应码为200并且首页内容较少,同时存在JS跳转连接则首页内容也为该连接跳转后的内容。若首页响应码为其它情况,则获取的为首页内容。
另外,在步骤S11中提到,根据请求响应体和响应头信息获取测试WEB应用中相同的行,由于WEB应用地址的数量大于两个,因此在测试WEB应用中可能存在相同的行,具体地为,数据A和数据B中均包含数据a,则数据a即为获取的相同的行。
在步骤S12中提到,获取行的可信度,本实施例对如何获取行的可信度不作限定,可以通过预先设置数据库,若当前获取的行中包含的信息与数据库中包含的信息有一个或多个相同,则可以根据相同的信息确定行的可信度。本实施例对此不作限定。在步骤S13中提到,根据可信度对行进行特征组合并形成特征规则,对此,本实施例也不作限定,可以根据可信度处于的范围,例如可信度为90%的可以直接将可信度对应的行作为一个特征规则,可信度处于90%以下的,可以将每两个行组合为一个特征规则。对此本实施例不作限定,只需要满足根据可信度对行进行特征组合并形成特征规则即可。在步骤S13中提到,输出特征规则,本实施例对如何输出特征规则不作限定,可以在进一步的对特征规则进行验证,将验证后的特征规则输出,也可以将特征规则和特征规则的数量一起输出。
本实施例所提供的一种WEB首页指纹特征的提取方法,其通过获取WEB应用地址的请求响应体和响应头信息,根据请求响应体和响应头信息获取测试WEB应用中相同的行,并获取行的可信度,根据可信度对行进行特征组合并形成特征规则,并输出特征规则。可以看出,此方法通过至少两个WEB应用地址,并获取相同的行,可以快速提取该WEB应用首页的指纹规则,避免了关键词在被用户修改或删除时识别不出特征规则的问题,也避免了关键词不存在于首页当中的情况,避免了识别不出的情况发生,使特征提取更为简单,快捷。
在上述实施例的基础上,对如何输出特征规则进行描述,输出特征规则的具体步骤如下。
检索特征规则以获取特征规则对应的标题与检索结果的集合;
根据检索结果确定每一组的标题的相似度;
根据相似度确定特征规则的优先级;
按照优先级输出特征规则。
在此基础上,对特征规则进行检索,以获取特征规则对应的标题与检索结果的集合,本实施例提供一种优选的检索方式,通过网络空间搜索API进行检索。特征规则对应的标题可以理解为,例如特征规则为“手机”,则对应的标题可以为各个手机品牌。而根据检索结果确定每一组的标题的相似度,例如两个特征规则为手机和平板,则对应的标题可能存在相似,都为手机品牌,则根据标题相似的数量可以确定标题的相似度,当多个特征规则时,可以确定相似度的高低,相似度越高则优先级越高,最后可以根据优先级输出特征规则。
本实施例所提供的输出特征规则的方法,通过检索特征规则以获取特征规则对应的标题与检索结果的集合,根据检索结果确定每一组的标题的相似度,根据相似度确定特征规则的优先级,按照优先级输出特征规则。可以看出,此方法可以对特征规则的优先级进行设置,在输出特征规则时,可以使用户清晰的知道特征规则的重要性。
在上述实施例的基础上,对如何获取行的可信度进行描述,获取行的可信度的具体步骤如下。
获取特征库,特征库根据预设特征预先设置;
判断行中是否存在用于表征行的可信度的权重因子;
若是,将权重因子在特征库中对应的可信度作为行的可信度。
本实施例对特征库的数量不作限定,可以为一个,也可以为多个,其中若为多个特征库时,可以将特征库具体分为重要标签库、重要关键词特征库、不重要标签库和排出标签特征库。可以理解的是,重要标签库中的可信度均在60%以上,重要关键词库中的可信度均在80%以上,不重要标签库中的可信度均在50%以下,而排出标签特征库代表的意思为当行中包含排出标签库中的一个或多个时,则该行不可信,直接可以排除。
具体地为,重要标签库中“<title>”代表可信度为80%,“<meta name”代表可信度为60%,“<content”代表可信度为70%等。可以理解的是,当行中出代表可信度的标签时,可以根据标签对应的可信度设置行的可信度,当行中出现两个或对个标签时,选取可信度最低的那个作为该行的可信度。此外,重要关键词特征库中“cms”代表可信度为90%,“系统”代表可信度为95%,“power by”代表可信度为99%等。在不重要标签库中,“<ul>”代表的可信度为30%,“<head>”代表的可信度为40%,“<html>”代表的可信度为20%等。在排出标签特征库主要为以下标签,“<a href="/">”“<!--footer end-->”“<!--home-->”等。也就是说,通过行中的标签与特征库中的标签进行对比,从而设置行的可信度。
本实施例所提供的获取行的可信度的方法,通过获取特征库,特征库根据预设特征预先设置,判断行中是否存在用于表征行的可信度的权重因子,若是,将权重因子在特征库中对应的可信度作为行的可信度。可以看出,此方法通过将特征库的标签与行中的标签进行对比,当有相同的标签时,根据标签的可信度设置行的可信度,此方法减少了设置可信度的难度。
在上述实施例的基础上,对如何根据可信度对行进行特征组合形成特征规则进行描述,具体步骤如下。
若可信度处于第一预设范围,则将可信度对应的行作为一个特征规则;
若可信度处于第二预设范围,则根据与逻辑对可信度对应的行两两组合为一个特征规则;
若可信度处于第三预设范围,则将全部处于第三预设范围的可信度对应的行组合成一个特征规则;
其中,第一预设范围的下限值与第二预设范围的上限值相等,第二预设范围的下限值与第三预设范围的上限值相等。
本实施例对第一预设范围、第二预设范围和第三预设范围不作限定,作为一种优选的实施方式,对第一预设范围选择为90%以上,第二预设范围为60%到90%之间,第三预设范围为60%以下。可以理解的是,行的数量有很多,因此可信度也有很多,将可信度处于第一预设范围对应的行作为一个特征规则,也就是说,若有3个可信度处于第一预设范围时,则这三个可信度所对应的行作为三个特征规则。此外,将可信度处于第二预设范围对应的行,根据与逻辑进行两两组合为一个特征规则,具体的为,若可信度处于第二预设范围的行有4个,且分别为a、b、c和d,则每两个组成一个特征规则,也就是ab、ac、ad、bc、bd和cd。
若有可信度处于第三预设范围,则将全部处于第三预设范围的可信度对应的行组合成一个特征规则,也就是说,无论多少个行的可信度处于第三预设范围,最终只会形成一个特征规则。
本实施例所提供的根据可信度对行进行特征组合形成特征规则的方法,通过若可信度处于第一预设范围,则将可信度对应的行作为一个特征规则,若可信度处于第二预设范围,则根据与逻辑对可信度对应的行两两组合为一个特征规则,若可信度处于第三预设范围,则将全部处于第三预设范围的可信度对应的行组合成一个特征规则。可以看出,此方法根据可信度的大小对特征规则进行组合,使确定特征规则的方法更为简单。
在上述实施例的基础上,对如何根据相似度确定特征规则的优先级进行描述,根据相似度确定特征规则的优先级的具体步骤如下。
判断是否存在处于第四预设范围的相似度;
若是,获取处于第四预设范围的相似度对应标题的数量和在第四预设范围之外的相似度对应标题的数量,并确定二者的比值;
若比值处于第五预设范围,则认定标题对应的特征规则为可信特征规则;
若比值处于第六预设范围或第七预设范围,则认定标题对应的特征规则为一般可信特征规则;
其中,第四预设范围的上限值与第一预设范围的上限值相等,第四预设范围的下限值大于第一预设范围的下限值;第五预设范围的下限值与第一预设范围的下限值相等,第五预设范围的上限值大于第四预设范围的上限值;第六预设范围的上限值与第五预设范围的下限值相等,第六预设范围的下限值大于第二预设范围的上限值;第七预设范围的下限值与第五预设范围的上限值相等。
本实施例对第四预设范围、第五预设范围、第六预设范围和第七预设范围的具体范围不作限定,但作为一种优先的实施例,对第四预设范围设定为95%以上,第五预设范围为0.9-1.1,第六预设范围为0.8-0.9,第七预设范围为1.1-1.2。本实施例对如何获取标题的相似度不作限定,判断是否存在处于第四预设范围的相似度,若是,获取处于第四预设范围的相似度对应标题的数量和在第四预设范围之外的相似度对应标题的数量,并确定二者的比值,当二者的比值处于0.9-1.1时,认定标题对应的特征规则为可信特征规则,当比值处于0.8-0.9或1.1-1.2时,则认定标题对应的特征规则为一般可信规则,当处于其余范围,则认定标题对应的特征规则为不可信规则。
本实施例所提供的根据相似度确定特征规则的优先级的方法,通过判断是否存在处于第四预设范围的相似度;
若是,获取处于第四预设范围的相似度对应标题的数量和在第四预设范围之外的相似度对应标题的数量,并确定二者的比值;若比值处于第五预设范围,则认定标题对应的特征规则为可信特征规则;若比值处于第六预设范围或第七预设范围,则认定标题对应的特征规则为一般可信特征规则。可见,此方法通过相似度以及数量确定出当前标题对应的特征规则是否可信,并对特征规则设置优先级。相当于对提取出的特征规则进行验证是否可靠,不可靠则认定不可信,此方法,提高了特征规则提取的准确性。
在具体实施例中,当行的可信度过低时,则可以认定当前行不可信,考虑到这种情况,本实施例提出了另一种WEB首页指纹特征的提取方法,图2为本申请实施例提供的另一种WEB首页指纹特征的提取方法的流程图,如图2所示,在步骤S12的基础上,还包括:
S15:删除低于预设阈值的可信度的行。
可以理解的是,当行的可信度低于预设阈值时,可以认定行为不可信,则可以直接将该行删除。本实施例对预设阈值的大小不作限定,可以为50%,也可以为30%,可以根据具体实施情况对预设阈值进行选择。
本实施例所提供的,将低于预设阈值的可信度的行删除,避免了后续对该行的特征的提取,使提取的结果更为准确。
在上述实施例的基础上,若不存在处于第四预设范围的相似度时,获取处于第七预设范围的相似度对应标题的数量和在第七预设范围之外的相似度对应标题的数量,并确定二者的比值,且二者的比值处于第五预设范围,则认定标题对应的特征规则为可信特征规则;二者的比值处于第五预设范围之外,认定标题对应的特征规则为不可信特征规则。
在上述实施例中,对于WEB首页指纹特征的提取方法进行了详细描述,本申请还提供WEB首页指纹特征的提取装置对应的实施例。需要说明的是,本申请从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。
图3为本申请实施例提供的一种WEB首页指纹特征的提取装置,如图3所示,WEB首页指纹特征的提取装置包括:
第一获取模块15,用于获取WEB应用地址的请求响应体和响应头信息,其中,WEB应用地址至少为两个;
第二获取模块16,用于根据请求响应体和响应头信息获取测试WEB应用中相同的行;
第三获取模块17,用于获取行的可信度;
组合模块18,用于根据可信度对行进行特征组合并形成特征规则;
输出模块19,用于输出特征规则。
本实施例提供的一种WEB首页指纹特征的提取装置,包括第一获取模块、第二获取模块、第三获取模块、组合模块和输出模块,用于执行WEB首页指纹特征的提取方法的步骤,其通过获取WEB应用地址的请求响应体和响应头信息,根据请求响应体和响应头信息获取测试WEB应用中相同的行,并获取行的可信度,根据可信度对行进行特征组合并形成特征规则,并输出特征规则。可以看出,此方法通过至少两个WEB应用地址,并获取相同的行,可以快速提取该WEB应用首页的指纹规则,避免了关键词在被用户修改或删除时识别不出特征规则的问题,也避免了关键词不存在于首页当中的情况,避免了识别不出的情况发生,使特征提取更为简单,快捷。
图4为本申请另一实施例提供的WEB首页指纹特征的提取装置的结构图,如图4所示,WEB首页指纹特征的提取装置包括:存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例中所提到的WEB首页指纹特征的提取方法的步骤。
本实施例提供的WEB首页指纹特征的提取装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以集成有图形处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的WEB首页指纹特征的提取方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于WEB首页指纹特征的提取方法的数据等。
在一些实施例中,WEB首页指纹特征的提取装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图4中示出的结构并不构成对WEB首页指纹特征的提取装置的限定,可以包括比图示更多或更少的组件。
本实施例提供的WEB首页指纹特征的提取装置,包括存储器和处理器,存储器用于存储WEB首页指纹特征的提取方法的程序,处理器用于执行WEB首页指纹特征的提取方法的程序,其通过获取WEB应用地址的请求响应体和响应头信息,根据请求响应体和响应头信息获取测试WEB应用中相同的行,并获取行的可信度,根据可信度对行进行特征组合并形成特征规则,并输出特征规则。可以看出,此方法通过至少两个WEB应用地址,并获取相同的行,可以快速提取该WEB应用首页的指纹规则,避免了关键词在被用户修改或删除时识别不出特征规则的问题,也避免了关键词不存在于首页当中的情况,避免了识别不出的情况发生,使特征提取更为简单,快捷。
最后,本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例提供的一种计算机可读存储介质,通过将程序存储与计算机可读存储介质中,并在执行该程序时通过获取WEB应用地址的请求响应体和响应头信息,根据请求响应体和响应头信息获取测试WEB应用中相同的行,并获取行的可信度,根据可信度对行进行特征组合并形成特征规则,并输出特征规则。可以看出,此方法通过至少两个WEB应用地址,并获取相同的行,可以快速提取该WEB应用首页的指纹规则,避免了关键词在被用户修改或删除时识别不出特征规则的问题,也避免了关键词不存在于首页当中的情况,避免了识别不出的情况发生,使特征提取更为简单,快捷。
以上对本申请所提供的WEB首页指纹特征的提取方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种WEB首页指纹特征的提取方法,其特征在于,包括:
获取WEB应用地址的请求响应体和响应头信息,其中,所述WEB应用地址至少为两个;
根据所述请求响应体和所述响应头信息获取测试WEB应用中相同的行;
获取所述行的可信度;
根据所述可信度对所述行进行特征组合并形成特征规则;
输出所述特征规则。
2.根据权利要求1所述的WEB首页指纹特征的提取方法,其特征在于,所述输出所述特征规则包括:
检索所述特征规则以获取所述特征规则对应的标题与检索结果的集合;
根据检索结果确定每一组的所述标题的相似度;
根据所述相似度确定所述特征规则的优先级;
按照所述优先级输出所述特征规则。
3.根据权利要求1所述的WEB首页指纹特征的提取方法,其特征在于,所述获取所述行的可信度包括:
获取特征库,所述特征库根据预设特征预先设置;
判断所述行中是否存在用于表征所述行的可信度的权重因子;
若是,将所述权重因子在所述特征库中对应的可信度作为所述行的可信度。
4.根据权利要求1所述的WEB首页指纹特征的提取方法,其特征在于,所述根据所述可信度对所述行进行特征组合并形成特征规则包括:
若所述可信度处于第一预设范围,则将所述可信度对应的行作为一个所述特征规则;
若所述可信度处于第二预设范围,则根据与逻辑对所述可信度对应的行两两组合为一个所述特征规则;
若所述可信度处于第三预设范围,则将全部处于第三预设范围的可信度对应的行组合成一个所述特征规则;
其中,所述第一预设范围的下限值与所述第二预设范围的上限值相等,所述第二预设范围的下限值与所述第三预设范围的上限值相等。
5.根据权利要求4所述的WEB首页指纹特征的提取方法,其特征在于,所述根据所述相似度确定所述特征规则的优先级包括:
判断是否存在处于第四预设范围的相似度;
若是,获取处于所述第四预设范围的相似度对应标题的数量和在所述第四预设范围之外的相似度对应标题的数量,并确定二者的比值;
若所述比值处于第五预设范围,则认定所述标题对应的特征规则为可信特征规则;
若所述比值处于第六预设范围或第七预设范围,则认定所述标题对应的特征规则为一般可信特征规则;
其中,所述第四预设范围的上限值与所述第一预设范围的上限值相等,所述第四预设范围的下限值大于所述第一预设范围的下限值;所述第五预设范围的下限值与所述第一预设范围的下限值相等,所述第五预设范围的上限值大于所述第四预设范围的上限值;所述第六预设范围的上限值与所述第五预设范围的下限值相等,所述第六预设范围的下限值大于所述第二预设范围的上限值;所述第七预设范围的下限值与所述第五预设范围的上限值相等。
6.根据权利要求5所述的WEB首页指纹特征的提取方法,其特征在于,若不存在处于所述第四预设范围的相似度,则还包括:
获取处于第七预设范围的相似度对应标题的数量和在所述第七预设范围之外的相似度对应标题的数量,并确定二者的比值,且二者的比值处于所述第五预设范围,则认定所述标题对应的特征规则为可信特征规则;二者的比值处于所述第五预设范围之外,认定所述标题对应的特征规则为不可信特征规则。
7.根据权利要求1所述的WEB首页指纹特征的提取方法,其特征在于,在所述获取所述行的可信度之后,还包括:
删除低于预设阈值的可信度的行。
8.一种WEB首页指纹特征的提取装置,其特征在于,包括:
第一获取模块,用于获取WEB应用地址的请求响应体和响应头信息,其中,所述WEB应用地址至少为两个;
第二获取模块,用于根据所述请求响应体和所述响应头信息获取测试WEB应用中相同的行;
第三获取模块,用于获取所述行的可信度;
组合模块,用于根据所述可信度对所述行进行特征组合并形成特征规则;
输出模块,用于输出所述特征规则。
9.一种WEB首页指纹特征的提取装置,其特征在于,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的WEB首页指纹特征的提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的WEB首页指纹特征的提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210319394.1A CN114661975A (zh) | 2022-03-29 | 2022-03-29 | 一种web首页指纹特征的提取方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210319394.1A CN114661975A (zh) | 2022-03-29 | 2022-03-29 | 一种web首页指纹特征的提取方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114661975A true CN114661975A (zh) | 2022-06-24 |
Family
ID=82032629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210319394.1A Pending CN114661975A (zh) | 2022-03-29 | 2022-03-29 | 一种web首页指纹特征的提取方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114661975A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304901A (zh) * | 2023-02-01 | 2023-06-23 | 北京市燃气集团有限责任公司 | 一种网页服务器指纹识别方法、装置、设备和存储介质 |
-
2022
- 2022-03-29 CN CN202210319394.1A patent/CN114661975A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304901A (zh) * | 2023-02-01 | 2023-06-23 | 北京市燃气集团有限责任公司 | 一种网页服务器指纹识别方法、装置、设备和存储介质 |
CN116304901B (zh) * | 2023-02-01 | 2024-01-30 | 北京市燃气集团有限责任公司 | 一种网页服务器指纹识别方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8209318B2 (en) | Product searching system and method using search logic according to each category | |
US8631097B1 (en) | Methods and systems for finding a mobile and non-mobile page pair | |
CN103136228A (zh) | 一种图片搜索方法以及图片搜索装置 | |
US11023540B2 (en) | Web page clustering method and device | |
CN107911448B (zh) | 一种内容推送方法及装置 | |
CN111061954B (zh) | 搜索结果排序方法、装置及存储介质 | |
CN111563382A (zh) | 文本信息的获取方法、装置、存储介质及计算机设备 | |
RU2562397C2 (ru) | Способ и устройство для добавления адреса гиперссылки в закладку | |
JP6533876B2 (ja) | 商品情報表示システム、商品情報表示方法、及びプログラム | |
RU2568276C2 (ru) | Способ извлечения полезного контента из установочных файлов мобильных приложений для дальнейшей машинной обработки данных, в частности поиска | |
CN108494728B (zh) | 防止流量劫持的黑名单库创建方法、装置、设备及介质 | |
CN114328983A (zh) | 文档碎化方法、数据检索方法、装置及电子设备 | |
CN114661975A (zh) | 一种web首页指纹特征的提取方法、装置及介质 | |
CN112579937A (zh) | 一种字符的高亮显示方法及装置 | |
JP7172187B2 (ja) | 情報表示方法、情報表示プログラムおよび情報表示装置 | |
CN115310436A (zh) | 一种文档提纲的抽取方法、装置、电子设备及存储介质 | |
CN110929647B (zh) | 一种文本检测方法、装置、设备及存储介质 | |
CN114969457A (zh) | 产品检索方法、装置、电子设备及可读介质 | |
CN110889279B (zh) | 一种在文档中显示展示信息的方法及装置 | |
CN110515618B (zh) | 页面信息录入优化方法、设备、存储介质及装置 | |
CN113392355A (zh) | 页面配置方法、装置、设备及存储介质 | |
US10789245B2 (en) | Semiconductor parts search method using last alphabet deletion algorithm | |
CN111241313A (zh) | 支持图像录入的检索方法和装置 | |
CN108132971B (zh) | 数据库碎片文件的分析方法和装置 | |
CN105447194A (zh) | 一种文件搜索方法及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |