CN115309968A - 一种基于资源搜索引擎生成网页指纹规则的方法、装置 - Google Patents

一种基于资源搜索引擎生成网页指纹规则的方法、装置 Download PDF

Info

Publication number
CN115309968A
CN115309968A CN202210952687.3A CN202210952687A CN115309968A CN 115309968 A CN115309968 A CN 115309968A CN 202210952687 A CN202210952687 A CN 202210952687A CN 115309968 A CN115309968 A CN 115309968A
Authority
CN
China
Prior art keywords
fingerprint
asset attribute
information sequence
information
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210952687.3A
Other languages
English (en)
Inventor
何霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202210952687.3A priority Critical patent/CN115309968A/zh
Publication of CN115309968A publication Critical patent/CN115309968A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures

Abstract

本申请实施例提供一种基于资源搜索引擎生成网页指纹规则的方法、装置、电子设备及存储介质,其中,该方法包括:获取资产属性信息和所述资源搜索引擎的响应数据;对所述响应数据进行解析,得到关键字信息序列;根据所述关键字信息序列对所述资产属性信息进行补充,得到资产属性集合;将所述关键字信息序列与所述资产属性集合进行关联,得到指纹规则集合;将所述指纹规则集合存入指纹数据库中。实施本申请实施例,可以扩大指纹数据库的范围,不需要手动的方式添加指纹数据库,提高指纹数据库的识别范围,节省人力资源和时间成本。

Description

一种基于资源搜索引擎生成网页指纹规则的方法、装置
技术领域
本申请涉及数据分析技术领域,具体而言,涉及一种基于资源搜索引擎生成网页指纹规则的方法、装置、电子设备及计算机可读存储介质。
背景技术
现有的指纹识别工具,主要通过手动增加指纹来实现,通常需要扩大指纹识别的覆盖面。如:whatweb通过编写更多的插件来识别更多网页应用程序;FOFA则是通过增加规则的方式进行识别。
可见,现有技术都是通过手动添加的方式丰富指纹数据库,这需要耗费大量的时间和人力。并且,现有的很多的指纹识别工具,都有自己独立的指纹数据库,而有些指纹数据库并不对外开放,这给识别工具带来了很大的挑战,每个指纹数据库都需要录入更多的指纹规则来扩大识别的范围。
发明内容
本申请实施例的目的在于提供一种基于资源搜索引擎生成网页指纹规则的方法、装置、电子设备及计算机可读存储介质,可以扩大指纹数据库的范围,不需要手动的方式添加指纹数据库,提高指纹数据库的识别范围,节省人力资源和时间成本。
第一方面,本申请实施例提供了一种基于资源搜索引擎生成网页指纹规则的方法,所述方法包括:
获取资产属性信息和所述资源搜索引擎的响应数据;
对所述响应数据进行解析,得到关键字信息序列;
根据所述关键字信息序列对所述资产属性信息进行补充,得到资产属性集合;
将所述关键字信息序列与所述资产属性集合进行关联,得到指纹规则集合;
将所述指纹规则集合存入指纹数据库中。
在上述实现过程中,通过对响应数据进行解析获得关键字信息序列,根据关键字信息序列查询网页并提取资产属性集合,并将关键字信息序列与资产属性集合进行关联,得到指纹规则,可以扩大指纹数据库的范围,不需要手动的方式添加指纹数据库,提高指纹数据库的识别范围,节省人力资源和时间成本。
进一步地,所述对所述响应数据进行解析,得到关键字信息序列的步骤,包括:
对所述响应数据进行清洗,得到多个关键字;
计算所述多个关键字的TF-IDF值;
根据所述TF-IDF值获得所述关键字信息序列。
在上述实现过程中,通过对响应数据进行清洗,删除响应数据中错误数据,节省后续获得关键字信息序列的时间,提高效率。
进一步地,所述根据所述关键字信息序列对所述资产属性信息进行补充,得到资产属性集合的步骤,包括:
判断所述响应数据中是否包含产品信息;
若是,根据所述产品信息和所述关键字信息序列对所述资产属性信息进行补充,得到所述资产属性集合;
若否,根据所述关键字信息序列对所述资产属性信息进行补充,得到所述资产属性集合。
在上述实现过程中,根据产品信息和关键字信息序列对资产属性信息进行补充,使得资产属性信息中包含更多信息,同时使得资产属性信息更加准确,便于后续获得指纹规则。
进一步地,所述将所述关键字信息序列与所述资产属性集合进行关联,得到指纹规则集合的步骤,包括:
判断所述响应数据中是否包含产品信息;
若是,根据所述产品信息、所述关键字信息序列和所述资产属性集合获得所述指纹规则集合;
若否,根据所述关键字信息序列和所述资产属性集合获得所述指纹规则集合。
在上述实现过程中,若产品信息可以被识别,根据产品信息、关键字信息序列和资产属性集合得到指纹规则集合,使得指纹规则集合中包含更多的信息,使得到的指纹规则更加准确。
进一步地,所述根据所述产品信息、所述关键字信息序列和所述资产属性集合获得所述指纹规则集合的步骤,包括:
根据所述产品信息和所述关键字信息序列进行组合查询,得到查询网页;
将所述产品信息与所述查询网页进行比对,根据从所述查询网页中提取的厂商信息、产品类型信息对所述资产属性集合进行补全,得到所述指纹规则集合。
在上述实现过程中,根据产品信息和关键字信息序列进行组合查询,使得查询过程更加精准,并且提高得到查询网页的效率,减少查询过程中产生的误差。
进一步地,所述将所述查询网页与所述资产属性集合进行比对,得到所述指纹规则集合的步骤,包括:
若在所述查询网页中提取出所述资产属性集合中的第一资产属性时,生成第一指纹规则;
若未在所述查询网页中提取出所述资产属性集合中的第一资产属性,生成第二指纹规则;
根据所述第一指纹规则和所述第二指纹规则获得所述指纹规则集合。
在上述实现过程中,根据资产属性集合中的资产属性生成第一指纹规则和第二指纹规则,使得指纹规则集合中包含更多的指纹规则,扩大指纹规则集合的范围。
第二方面,本申请实施例还提供了一种基于资源搜索引擎生成网页指纹规则的装置,所述装置包括:
获取模块,用于获取资产属性信息和所述资源搜索引擎的响应数据;
解析模块,用于对所述响应数据进行解析,得到关键字信息序列;
资产属性集合获得模块,用于根据所述关键字信息序列对所述资产属性信息进行补充,得到资产属性集合;
关联模块,用于将所述关键字信息序列与所述资产属性集合进行关联,得到指纹规则集合;
存入模块,用于将所述指纹规则集合存入指纹数据库中。
在上述实现过程中,通过对响应数据进行解析获得关键字信息序列,根据关键字信息序列查询网页并提取资产属性集合,并将关键字信息序列与资产属性集合进行关联,得到指纹规则,可以扩大指纹数据库的范围,不需要手动的方式添加指纹数据库,提高指纹数据库的识别范围,节省人力资源和时间成本。
进一步地,所述解析模块还用于:
对所述响应数据进行清洗,得到多个关键字;
计算所述多个关键字的TF-IDF值;
根据所述TF-IDF值获得所述关键字信息序列。
在上述实现过程中,通过对响应数据进行清洗,删除响应数据中错误数据,节省后续获得关键字信息序列的时间,提高效率。
第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
第四方面,本申请实施例提供的一种计算机可读存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
第五方面,本申请实施例提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的基于资源搜索引擎生成网页指纹规则的方法的流程示意图;
图2为本申请实施例提供的基于资源搜索引擎生成网页指纹规则的装置的结构组成示意图;
图3为本申请实施例提供的电子设备的结构组成示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
实施例一
图1是本申请实施例提供的基于资源搜索引擎生成网页指纹规则的方法的流程示意图,如图1所示,该方法包括:
S1,获取资产属性信息和资源搜索引擎的响应数据;
S2,对响应数据进行解析,得到关键字信息序列;
S3,根据关键字信息序列对资产属性信息进行补充,得到资产属性集合;
S4,将关键字信息序列与资产属性集合进行关联,得到指纹规则集合;
S5,将指纹规则集合存入指纹数据库中。
在上述实现过程中,通过对响应数据进行解析获得关键字信息序列,根据关键字信息序列查询网页并提取资产属性集合,并将关键字信息序列与资产属性集合进行关联,得到指纹规则,可以扩大指纹数据库的范围,不需要手动的方式添加指纹数据库,提高指纹数据库的识别范围,节省人力资源和时间成本。
计算机网络已经深入到社会生活的各个层面,也带来了诸多的安全问题,比如黑客频繁攻击,信息失窃等。对网络中的节点进行监测,及时发现其脆弱性,评估风险状态,并有针对性的修复,是保证网络安全的基本途径。在进行风险评估时,如果能先识别出其重要属性,如操作系统、设备类型、运行的服务及版本等,就可以更有针对性的进行脆弱性评估,更准确的评估其安全状态。指纹识别的目标就是为了快速和准确的发现组件的相关信息,从而根据这些信息发现网页所存在的漏洞。根据被识别对象的不同,指纹一般被分为主机系统指纹识别、端口服务指纹识别、web应用指纹识别等,基本原理都是基于响应中的不同特征进行判断。
常用的指纹识别方式包括:
1)正常页面或错误网页中包含的关键字匹配;
2)请求头信息的关键字匹;
3)部分统一资源定位符(Uniform Resource Locator,URL)中包含的关键字匹配;
4)特定文件的MD5值匹配。
常见的几款网页应用指纹识别工具有whatweb、wapplyzer、fofa、shodan等。
whatweb是一个开源的网站指纹识别软件,可识别的网站信息包括内容管理系统(Content Management System,CMS)类型、博客平台、中间件、Web框架模块、网站服务器、JavaScript库和其他更多网页程序。
Wappalyzer的功能是识别单个URL的指纹,其原理就是给指定URI发送HTTP请求,获取响应头与响应体并按指纹规则进行匹配。
FOFA是一款网络空间资产搜索引擎,可周期性不间断对全球互联网暴露资产进行深度扫描与探测,通过多种方式进行资产检索,全面发现互联网暴露资产,对资产进行画像管理。能够帮助用户迅速进行网络资产匹配,例如进行漏洞影响范围分析、应用分布统计、应用流行度排名统计等。
Shodan是一个用于帮助发现主要的互联网系统漏洞(包括路由器,交换机,工控系统等)的搜索引擎。搜索结果中提供如下信息:地理位置、主机名、操作系统、服务名、应用名、应用的版本信息等。
一般的应用程序在html、js、css等文件中包含一些特征码,比如wordpress如果没有特意隐藏的话,在robots.txt中会包含wp-admin之类,首页index.php中会包含generator=wordpress 3.xx,后面为版本号,页面中会包含wp-content路径等,这都是存在网页中的关键字信息序列。又比如Apache,会在Header中的Server字段出现“Apache”关键字,或者是在<title>中出现。
本申请实施例提供一种生成网页指纹规则的方法,根据资产搜索引擎识别网页应用程序和目标返回的响应数据,提取响应数据中的关键字信息序列,根据关键字信息序列补全厂商信息和产品类型信息,形成资产属性集合,并生成指纹规则。
在S1中,从资源搜索引擎上下载数据,或者从其他系统中获取的扫描数据,此数据为响应数据。
进一步地,S2包括:
对响应数据进行清洗,得到多个关键字;
计算多个关键字的信息检索与数据挖掘的常用加权(Term Frequency–InverseDocument Frequency,TF-IDF)值;
根据TF-IDF值获得关键字信息序列。
在上述实现过程中,通过对响应数据进行清洗,删除响应数据中错误数据,节省后续获得关键字信息序列的时间,提高效率。
对响应数据进行清洗包括删除错误的响应数据,删除错误代码和重定向代码;对于文件传输协议(File Transfer Protocol,FTP)响应数据,删除包含常见关键字的响应数据包,比如(“filezilla”,“service-u”);对于Telnet响应数据,删除带有特定代码(IAC0xFF)的字符序列,该代码用于协商不同操作系统之间的通信;对于超文本传输协议(HyperText Transfer Protocol,HTTP)响应数据,删除响应数据中的超链接、字段名、时间、脚本块和符号(如<p>和<\p>)等;删除响应数据中的字典词(厂商和产品的名称模型通常是非字典单词)。
使用神经语言程序学(Neuro-Linguistic Programming,NLP)工具包计算TF-IDF值,如果TF-IDF分数较高,认为该关键字为与说明网页更相关。
获取多个关键字中TF-IDF值较高的几个(如前5个)关键字,组成该响应数据的关键字信息序列。
进一步地,S3包括:
判断响应数据中是否包含产品信息;
若是,根据产品信息和关键字信息序列对资产属性信息进行补充,得到资产属性集合;
若否,根据关键字信息序列对资产属性信息进行补充,得到资产属性集合。
在上述实现过程中,根据产品信息和关键字信息序列对资产属性信息进行补充,使得资产属性信息中包含更多信息,同时使得资产属性信息更加准确,便于后续获得指纹规则。
资产搜索引擎识别的产品信息与关键字信息序列组成查询序列,根据查询序列,通过资产搜索引擎应用程序编程接口(Application Programming Interface,API)查询产品相关介绍网页,结合厂商信息库和产品类型信息库有效提取产品厂商信息、产品类型信息等资产属性信息,对资产属性信息进行补充,形成资产属性集合。
根据查询序列搜索相关网页,提取厂商信息和产品类型信息时,为了提高提取的精确度,需整理常用的厂商信息库和产品类型信息库。厂商信息库包括厂商常用名(中英文)、中文全称、英文全称等信息。常用的厂商如:绿盟、天融信、启明星辰、铱迅、网神等。产品类型信息库包括产品类型常用名(中英文)、中文全称、英文全称等信息,与厂商信息库类似。
进一步地,S4包括:
判断响应数据中是否包含产品信息;
若是,根据产品信息、关键字信息序列和资产属性集合获得指纹规则集合;
若否,根据关键字信息序列和资产属性集合获得指纹规则集合。
在上述实现过程中,若响应数据中存在产品信息,根据产品信息、关键字信息序列和资产属性集合得到指纹规则集合,使得指纹规则集合中包含更多的信息,使得到的指纹规则更加准确。
进一步地,根据产品信息、关键字信息序列和资产属性集合获得指纹规则集合的步骤,包括:
根据产品信息和关键字信息序列进行组合查询,得到查询网页;
将产品信息与查询网页进行比对,根据从查询网页中提取的厂商信息、产品类型信息对资产属性集合进行补全,得到指纹规则集合。
在上述实现过程中,根据产品信息和关键字信息序列进行组合查询,使得查询过程更加精准,并且提高得到查询网页的效率,减少查询过程中产生的误差。
进一步地,将查询网页与资产属性集合进行比对,得到指纹规则集合的步骤,包括:
若在查询网页中提取出资产属性集合中的第一资产属性时,生成第一指纹规则;
若未在查询网页中提取出资产属性集合中的第一资产属性,生成第二指纹规则;
根据第一指纹规则和第二指纹规则获得指纹规则集合。
在上述实现过程中,根据资产属性集合中的资产属性生成第一指纹规则和第二指纹规则,使得指纹规则集合中包含更多的指纹规则,扩大指纹规则集合的范围。
若响应数据包含产品信息,使用资产搜索引擎识别的产品信息与关键字信息序列进行组合查询,可快速有效的查询出产品相关的厂商信息和产品类型信息。如果查询出来的网页能提取出第一资产属性,例如具体的厂商信息和产品类型信息,那么可生成第一指纹规则:keywords->(product,type,vendor);如果不能提取出第一资产属性,例如具体的厂商信息和产品类型信息,那么可生成第二指纹规则:keywords->(product,,);可选地,如果只能查询出厂商信息或者产品类型信息,那么可生成规则:keywords->(product,type,)或者keywords->(product,,vendor)。
若响应数据中不包含产品信息,那么将直接根据响应数据提取的关键字信息序列(keywords)进行搜索查询。如果查询出来的网页能提取出产品名,那么可根据是否能够提取出厂商信息和产品类型信息,生成相应的指纹规则;如果搜索出来的网页不能提取出产品名,那么将不能生成指纹规则。由于单从查询页面提取的关键字就认定为产品名称一般不准确,需根据页面中的厂商信息和产品类型信息进行确认。所以此种情况一般不会出现keywords->(product,,)规则。
从资产搜索引擎中下载响应数据,根据响应数据提取关键字信息序列,再根据关键字信息序列和产品信息搜索查询补全产品厂商信息和产品类型信息,进而获得资产属性集合,形成产品信息和关键字信息序列与资产属性集合之间指纹规则。快速自动生成指纹规则,扩充现有指纹规则库。
实施例二
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种基于资源搜索引擎生成网页指纹规则的装置,如图2所示,该装置包括:
获取模块1,用于获取资产属性信息和资源搜索引擎的响应数据;
解析模块2,用于对响应数据进行解析,得到关键字信息序列;
资产属性集合获得模块3,用于根据关键字信息序列对资产属性信息进行补充,得到资产属性集合;
关联模块4,用于将关键字信息序列与资产属性集合进行关联,得到指纹规则集合;
存入模块5,用于将指纹规则集合存入指纹数据库中。
在上述实现过程中,通过对响应数据进行解析获得关键字信息序列,主动将关键字信息序列与资产属性集合进行关联,得到指纹规则,可以扩大指纹数据库的范围,不需要手动的方式添加指纹数据库,提高指纹数据库的识别范围,节省人力资源和时间成本。
进一步地,解析模块2还用于:
对响应数据进行清洗,得到多个关键字;
计算多个关键字的TF-IDF值;
根据TF-IDF值获得关键字信息序列。
在上述实现过程中,通过对响应数据进行清洗,删除响应数据中错误数据,节省后续获得关键字信息序列的时间,提高效率。
进一步地,资产属性集合获得模块3还用于:
判断响应数据中是否包含产品信息;
若是,根据产品信息和关键字信息序列对资产属性信息进行补充,得到资产属性集合;
若否,根据关键字信息序列对资产属性信息进行补充,得到资产属性集合。
在上述实现过程中,根据产品信息和关键字信息序列对资产属性信息进行补充,使得资产属性信息中包含更多信息,同时使得资产属性信息更加准确,便于后续获得指纹规则。
进一步地,关联模块4还用于:
判断响应数据中是否包含产品信息;
若是,根据产品信息、关键字信息序列和资产属性集合获得指纹规则集合;
若否,根据关键字信息序列和资产属性集合获得指纹规则集合。
在上述实现过程中,若产品信息可以被识别,根据产品信息、关键字信息序列和资产属性集合得到指纹规则集合,使得指纹规则集合中包含更多的信息,使得到的指纹规则更加准确。
进一步地,关联模块4还用于:
根据产品信息和关键字信息序列进行组合查询,得到查询网页;
将产品信息与查询网页进行比对,根据从查询网页中提取的厂商信息、产品类型信息对资产属性集合进行补全,得到指纹规则集合。
在上述实现过程中,根据产品信息和关键字信息序列进行组合查询,使得查询过程更加精准,并且提高得到查询网页的效率,减少查询过程中产生的误差。
进一步地,关联模块4还用于:
若在查询网页中提取出资产属性集合中的第一资产属性时,生成第一指纹规则;
若未在查询网页中提取出资产属性集合中的第一资产属性,生成第二指纹规则;
根据第一指纹规则和第二指纹规则获得指纹规则集合。
在上述实现过程中,根据资产属性集合中的资产属性生成第一指纹规则和第二指纹规则,使得指纹规则集合中包含更多的指纹规则,扩大指纹规则集合的范围。
上述的基于资源搜索引擎生成网页指纹规则的装置可实施上述实施例一的方法。上述实施例一中的可选项也适用于本实施例,这里不再详述。
本申请实施例的其余内容可参照上述实施例一的内容,在本实施例中,不再进行赘述。
实施例三
本申请实施例提供一种电子设备,包括存储器及处理器,该存储器用于存储计算机程序,该处理器运行计算机程序以使电子设备执行实施例一的基于资源搜索引擎生成网页指纹规则的方法。
可选地,上述电子设备可以是服务器。
请参见图3,图3为本申请实施例提供的电子设备的结构组成示意图。该电子设备可以包括处理器31、通信接口32、存储器33和至少一个通信总线34。其中,通信总线34用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口32用于与其他节点设备进行信令或数据的通信。处理器31可以是一种集成电路芯片,具有信号的处理能力。
上述的处理器31可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。
存储器33可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器33中存储有计算机可读取指令,当计算机可读取指令由所述处理器31执行时,设备可以执行上述图1方法实施例涉及的各个步骤。
可选地,电子设备还可以包括存储控制器、输入输出单元。存储器33、存储控制器、处理器31、外设接口、输入输出单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线34实现电性连接。处理器31用于执行存储器33中存储的可执行模块,例如设备包括的软件功能模块或计算机程序。
输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。输入输出单元可以是,但不限于,鼠标和键盘等。
可以理解,图3所示的结构仅为示意,电子设备还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。
另外,本申请实施例还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一的基于资源搜索引擎生成网页指纹规则的方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种基于资源搜索引擎生成网页指纹规则的方法,其特征在于,所述方法包括:
获取资产属性信息和所述资源搜索引擎的响应数据;
对所述响应数据进行解析,得到关键字信息序列;
根据所述关键字信息序列对所述资产属性信息进行补充,得到资产属性集合;
将所述关键字信息序列与所述资产属性集合进行关联,得到指纹规则集合;
将所述指纹规则集合存入指纹数据库中。
2.根据权利要求1所述的基于资源搜索引擎生成网页指纹规则的方法,其特征在于,所述对所述响应数据进行解析,得到关键字信息序列的步骤,包括:
对所述响应数据进行清洗,得到多个关键字;
计算所述多个关键字的TF-IDF值;
根据所述TF-IDF值获得所述关键字信息序列。
3.根据权利要求1所述的基于资源搜索引擎生成网页指纹规则的方法,其特征在于,所述根据所述关键字信息序列对所述资产属性信息进行补充,得到资产属性集合的步骤,包括:
判断所述响应数据中是否包含产品信息;
若是,根据所述产品信息和所述关键字信息序列对所述资产属性信息进行补充,得到所述资产属性集合;
若否,根据所述关键字信息序列对所述资产属性信息进行补充,得到所述资产属性集合。
4.根据权利要求3所述的基于资源搜索引擎生成网页指纹规则的方法,其特征在于,所述将所述关键字信息序列与所述资产属性集合进行关联,得到指纹规则集合的步骤,包括:
判断所述响应数据中是否包含产品信息;
若是,根据所述产品信息、所述关键字信息序列和所述资产属性集合获得所述指纹规则集合;
若否,根据所述关键字信息序列和所述资产属性集合获得所述指纹规则集合。
5.根据权利要求4所述的基于资源搜索引擎生成网页指纹规则的方法,其特征在于,所述根据所述产品信息、所述关键字信息序列和所述资产属性集合获得所述指纹规则集合的步骤,包括:
根据所述产品信息和所述关键字信息序列进行组合查询,得到查询网页;
将所述产品信息与所述查询网页进行比对,根据从所述查询网页中提取的厂商信息、产品类型信息对所述资产属性集合进行补全,得到所述指纹规则集合。
6.根据权利要求5所述的基于资源搜索引擎生成网页指纹规则的方法,其特征在于,所述将所述查询网页与所述资产属性集合进行比对,得到所述指纹规则集合的步骤,包括:
若在所述查询网页中提取出所述资产属性集合中的第一资产属性时,生成第一指纹规则;
若未在所述查询网页中提取出所述资产属性集合中的第一资产属性,生成第二指纹规则;
根据所述第一指纹规则和所述第二指纹规则获得所述指纹规则集合。
7.一种基于资源搜索引擎生成网页指纹规则的装置,其特征在于,所述装置包括:
获取模块,用于获取资产属性信息和所述资源搜索引擎的响应数据;
解析模块,用于对所述响应数据进行解析,得到关键字信息序列;
资产属性集合获得模块,用于根据所述关键字信息序列对所述资产属性信息进行补充,得到资产属性集合;
关联模块,用于将所述关键字信息序列与所述资产属性集合进行关联,得到指纹规则集合;
存入模块,用于将所述指纹规则集合存入指纹数据库中。
8.根据权利要求7所述的基于资源搜索引擎生成网页指纹规则的装置,其特征在于,所述解析模块还用于:
对所述响应数据进行清洗,得到多个关键字;
计算所述多个关键字的TF-IDF值;
根据所述TF-IDF值获得所述关键字信息序列。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至6中任一项所述的基于资源搜索引擎生成网页指纹规则的方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于资源搜索引擎生成网页指纹规则的方法。
CN202210952687.3A 2022-08-09 2022-08-09 一种基于资源搜索引擎生成网页指纹规则的方法、装置 Pending CN115309968A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210952687.3A CN115309968A (zh) 2022-08-09 2022-08-09 一种基于资源搜索引擎生成网页指纹规则的方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210952687.3A CN115309968A (zh) 2022-08-09 2022-08-09 一种基于资源搜索引擎生成网页指纹规则的方法、装置

Publications (1)

Publication Number Publication Date
CN115309968A true CN115309968A (zh) 2022-11-08

Family

ID=83860480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210952687.3A Pending CN115309968A (zh) 2022-08-09 2022-08-09 一种基于资源搜索引擎生成网页指纹规则的方法、装置

Country Status (1)

Country Link
CN (1) CN115309968A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905288A (zh) * 2021-03-08 2021-06-04 北京华顺信安信息技术有限公司 一种资产属性分层展示的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905288A (zh) * 2021-03-08 2021-06-04 北京华顺信安信息技术有限公司 一种资产属性分层展示的方法

Similar Documents

Publication Publication Date Title
US9614862B2 (en) System and method for webpage analysis
US9760632B2 (en) URL rescue by execution of search using information extracted from invalid URL
US8458227B1 (en) URL rescue by identifying information related to an item referenced in an invalid URL
KR100619178B1 (ko) 인터넷 검색 엔진에 있어서의 무효 클릭 검출 방법 및 장치
CN101971591B (zh) 分析网址的系统及方法
US20150207811A1 (en) Vulnerability vector information analysis
US8307073B1 (en) URL rescue by correction of encoding errors
US20180131708A1 (en) Identifying Fraudulent and Malicious Websites, Domain and Sub-domain Names
CN107888606B (zh) 一种域名信誉度评估方法及系统
Yang et al. Towards extracting web API specifications from documentation
EP2880579A1 (en) Conjoint vulnerability identifiers
Vundavalli et al. Malicious URL detection using supervised machine learning techniques
CN105138912A (zh) 钓鱼网站检测规则的自动生成方法及装置
CN105187439A (zh) 钓鱼网站检测方法及装置
CN115309968A (zh) 一种基于资源搜索引擎生成网页指纹规则的方法、装置
CN106611029B (zh) 提高网站站内搜索效率的方法和装置
Almishari et al. Ads-portal domains: Identification and measurements
CN115801455A (zh) 一种基于网站指纹的仿冒网站检测方法及装置
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
CN108573155B (zh) 检测漏洞影响范围的方法、装置、电子设备及存储介质
CN106611022B (zh) 提高网站站内搜索效率的方法和装置
KR100619179B1 (ko) 인터넷 검색 엔진에 있어서의 무효 클릭 검출 방법 및 장치
CN113923193B (zh) 一种网络域名关联方法、装置、存储介质及电子设备
Swathi et al. Detection of Phishing Websites Using Machine Learning
CN110855612B (zh) web后门路径探测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination