CN111949916B - 一种网页分析方法、装置、设备及存储介质 - Google Patents

一种网页分析方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111949916B
CN111949916B CN202010843304.XA CN202010843304A CN111949916B CN 111949916 B CN111949916 B CN 111949916B CN 202010843304 A CN202010843304 A CN 202010843304A CN 111949916 B CN111949916 B CN 111949916B
Authority
CN
China
Prior art keywords
webpage
analyzed
target
standard
key value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010843304.XA
Other languages
English (en)
Other versions
CN111949916A (zh
Inventor
陈赛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202010843304.XA priority Critical patent/CN111949916B/zh
Publication of CN111949916A publication Critical patent/CN111949916A/zh
Application granted granted Critical
Publication of CN111949916B publication Critical patent/CN111949916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网页分析方法、装置、设备及存储介质。该方法的步骤包括:获取待分析网页的待分析源代码;根据待分析源代码统计得到待分析网页特征;在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征;将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象。本方法通过得到与待分析网页特征之间相似性达到相似度标准的目标标准网页特征,进而将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象,实现了基于网页对WEB资产的类型分类。此外,本申请还提供一种网页分析装置、设备及存储介质,有益效果同上所述。

Description

一种网页分析方法、装置、设备及存储介质
技术领域
本申请涉及资产收集领域,特别是涉及一种网页分析方法、装置、设备及存储介质。
背景技术
WEB(World Wide Web)即全球广域网,也称为万维网,它是一种基于超文本和HTTP的、全球性的、动态交互的、跨平台的分布式图形信息系统。是建立在互联网上的一种网络服务,为浏览者在互联网上查找和浏览信息提供了图形化的、易于访问的直观界面,其中的文档及超级链接将互联网上的信息节点组织成一个互为关联的网状结构。
WEB资产是以网页形式呈现在互联网上的业务系统,而网页是构成业务系统网站的基本元素,不同的行业分别具有相应类型的网页。为了能够确保用户能够有针对性的访问特定行业类型对应的WEB资产,当前往往需要对WEB资产的类型进行分类以及收集。
由此可见,提供一种网页分析方法,以实现对WEB资产的类型分类,是本领域技术人员需要解决的问题。
发明内容
本申请的目的是提供一种网页分析方法、装置、设备及存储介质,以实现对WEB资产的类型分类。
为解决上述技术问题,本申请提供一种网页分析方法,包括:
获取待分析网页的待分析源代码;
根据待分析源代码统计得到待分析网页特征;
在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征;
将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象。
优选地,根据待分析源代码统计得到待分析网页特征,包括:
获取待分析源代码中的网页标签;
对网页标签执行哈希运算得到的哈希值;
生成包含有哈希值的待分析网页特征。
优选地,根据待分析源代码统计得到待分析网页特征,包括:
生成待分析源代码对应的DOM结构;
获取网页标签在DOM结构中的标签层级;
根据标签层级生成层级权重值;其中,层级权重值与标签层级呈正相关;
获取待分析源代码中的网页标签;
对网页标签执行哈希运算得到的哈希值;
建立以哈希值为键且以层级权重值为值的键值关系向量,并将键值关系向量设置为待分析网页特征。
优选地,当键值关系向量中存在多个键相同的目标键值关系向量时,在将键值关系向量设置为待分析网页特征之前,方法还包括:
将键值关系向量中的目标键值关系向量合并为新键值关系向量;
将键值关系向量设置为待分析网页特征,包括:
将包含有新键值关系向量的键值关系向量设置为待分析网页特征。
优选地,将键值关系向量中的目标键值关系向量合并为新键值关系向量,包括:
计算各目标键值关系向量中层级权重值的平均权重值;
建立以目标键值关系的哈希值为键且以平均权重值为值的新键值关系向量,并以新键值关系向量替换目标键值关系。
优选地,在将键值关系向量设置为待分析网页特征之前,方法还包括:
基于预设整数对键值关系向量中的哈希值执行取余数运算;
将键值关系向量设置为待分析网页特征,包括:
将执行取余运算后的键值关系向量设置为待分析网页特征。
优选地,在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征,包括:
计算各标准网页特征与待分析网页特征的特征匹配比例;
判断各特征匹配比例中是否存在达到预设比例阈值的目标特征匹配比例;
若存在目标特征匹配比例,则将目标特征匹配比例对应的标准网页特征设置为与待分析网页特征的相似度达到相似度标准的目标标准网页特征;
若不存在目标特征匹配比例,则停止分析待分析网页特征。
此外,本申请还提供一种网页分析装置,包括:
源代码获取模块,用于获取待分析网页的待分析源代码;
特征统计模块,用于根据待分析源代码统计得到待分析网页特征;
特征分析模块,用于在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征;
类型设定模块,用于将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象。
此外,本申请还提供一种网页分析设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的网页分析方法的步骤。
此外,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的网页分析方法的步骤。
本申请所提供的网页分析方法,首先获取待分析网页的待分析源代码,进而根据待分析源代码统计对应的待分析网页特征,并在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征,进而将目标标准网页特征所属的目标WEB资产对象设置为相应待分析网页的WEB资产对象,以此对待分析网页进行WEB资产的类型分类。本方法通过进行待分析网页的待分析网页特征与已知WEB资产对象的标准网页特征进行一致性比对,得到与待分析网页特征之间相似性达到相似度标准的目标标准网页特征,进而将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象,实现了基于网页对WEB资产的类型分类。此外,本申请还提供一种网页分析装置、设备及存储介质,有益效果同上所述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种网页分析方法的流程图;
图2为本申请实施例公开的一种具体的网页分析方法的流程图;
图3为本申请实施例公开的一种具体的网页分析方法的流程图;
图4为本申请实施例公开的一种具体的网页分析方法的流程图;
图5为本申请实施例公开的一种网页分析装置的结构示意图;
图6为本申请实施例公开的一种网页分析设备的硬件组成结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
WEB资产是以网页形式呈现在互联网上的业务系统,而网页是构成业务系统网站的基本元素,不同的行业分别具有相应类型的网页。为了能够确保用户能够有针对性的访问特定行业类型对应的WEB资产,当前往往需要对WEB资产的类型进行分类以及收集。
为此,本申请的核心是提供一种网页分析方法,以实现对WEB资产的类型分类。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
请参见图1所示,本申请实施例公开了一种网页分析方法,包括:
步骤S10:获取待分析网页的待分析源代码。
需要说明的是,本步骤中的待分析网页指的是在后续步骤中需要进行WEB资产对象归类的网页。待分析网页的获取方式可以具体是通过在当前已有的搜索引擎中输入网页名称关键字,进而由搜索引擎根据网页名称关键字搜索得到。本步骤在获取到待分析网页的基础上,进一步读取待分析网页的待分析源代码,此处所指的待分析源代码是代分析网页中的计算机语言构成,设计人员通过对计算机语言进行组织编排制作出网页,然后由浏览器对网页中的源代码进行编译后才能够通过前端页面展示出相应的网页效果,因此待分析网页中的待分析源代码,能够体现出待分析网页具有的相应特性。
步骤S11:根据待分析源代码统计得到待分析网页特征。
需要说明的是,由于待分析网页中的待分析源代码,能够体现出待分析网页具有的相应特性,因此本步骤在获取到待分析网页的待分析源代码之后,进一步根据待分析源代码统计得到待分析网页特征。
本步骤根据待分析源代码统计得到待分析网页特征,可以具体是根据待分析源代码中的标签、标签属性以及标签所在的结构层级中的一项或多项特征维度统计得到。
步骤S12:在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征。
在根据待分析源代码统计得到待分析网页特征之后,本步骤进一步在标准网页特征中查找与待分析网页特征的相似度达到特定的相似度标准的目标标准网页特征。其中,本步骤中的标准网页特征,指的是具有特征WEB资产对象归类的网页所具有的网页特征,标准网页特征的生成方式包括但不限于,对已知WEB资产对象的网页进行特征统计,得到与该WEB资产对象对应的标准网页特征。
本步骤的重点在于通过进行标准网页特征与待分析网页特征之间的相似度比较,得到与待分析网页特征之间的相似度达到特定相似度标准的目标标准网页特征,此处所指的目标标准网页特征是标准网页特征中一个或多个特定的网页特征。
步骤S13:将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象。
在标准网页特征中查找得到目标标准网页特征之后,本步骤进一步将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象,以此完成对待分析网页的WEB资产对象的分类。本步骤中所指的WEB资产对象可以具体是拥有待分析网页的企业或机构。
更进一步的,在待分析网页的WEB资产对象设置为目标WEB资产对象之后,还可以进一步将待分析网页存储至目标WEB资产对象对应的数据库,以此能够进一步确保用户能够有针对性的在WEB资产对象对应的数据库中,获取到具有相应WEB资产对象的网页。
本申请所提供的网页分析方法,首先获取待分析网页的待分析源代码,进而根据待分析源代码统计对应的待分析网页特征,并在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征,进而将目标标准网页特征所属的目标WEB资产对象设置为相应待分析网页的WEB资产对象,以此对待分析网页进行WEB资产的类型分类。本方法通过进行待分析网页的待分析网页特征与已知WEB资产对象的标准网页特征进行一致性比对,得到与待分析网页特征之间相似性达到相似度标准的目标标准网页特征,进而将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象,实现了基于网页对WEB资产的类型分类。
请参见图2所示,本申请实施例公开了一种网页分析方法,包括:
步骤S20:获取待分析网页的待分析源代码。
步骤S21:获取待分析源代码中的网页标签。
需要说明的是,本步骤在获取到待分析网页的待分析源代码之后,进一步获取待分析源代码中的网页标签。其中,网页标签根据网页的编写语言不同,类型也有相应不同,网页标签包括但不限于是HTML(超文本标记语言)标签,HTML标签是HTML语言中最基本的单位,HTML标签是HTML最重要的组成部分。
步骤S22:对网页标签执行哈希运算得到的哈希值。
在获取到待分析源代码中的网页标签之后,本步骤进一步对网页标签执行哈希运算得到的哈希值。此处所指的哈希运算,对网页标签执行哈希运算,本质上是执行散列运算,也就是将网页标签通过散列算法变换成固定长度的字符串输出,即哈希值。由于具有微小差异网页标签之间的哈希值具有较大的差异,因此通过哈希值能够相对准确的区分网页标签之间的差异程度。
步骤S23:生成包含有哈希值的待分析网页特征。
在对网页标签执行哈希运算得到的哈希值,本步骤进一步生成包含有哈希值的待分析网页特征,目的是在后续步骤中根据待分析网页特征中的哈希值作为查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征的依据,能够进一步提高网页分析的准确性。
步骤S24:在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征。
步骤S25:将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象。
由于考虑到相同WEB资产对象的网页,往往使用相同或类似的框架进行开发,因此相同WEB资产对象的网页在网页标签上往往具有较高的相似性,因此本实施例对待分析源代码中的网页标签执行哈希运算得到的哈希值,进而根据包含有哈希值的待分析网页特征分析得到待分析网页的WEB资产对象,进一步确保了对待分析网页的WEB资产对象进行分析的准确性。
请参见图3所示,本申请实施例公开了一种网页分析方法,包括:
步骤S30:获取待分析网页的待分析源代码。
步骤S31:获取待分析源代码中的网页标签。
步骤S32:对网页标签执行哈希运算得到的哈希值。
步骤S33:生成待分析源代码对应的DOM结构。
需要说明的是,在获取到待分析源代码中的网页标签后,本步骤进一步生成待分析源代码对应DOM(Document Object Model,文档对象模型)结构,其中,DOM结构即文档对象模型,是一种处理HTML和XML文件的标准API。DOM提供了对整个文档的访问模型,将文档作为一个树形结构,树的每个结点表示了一个HTML标签或标签内的文本项。DOM树结构精确地描述了HTML网页中标签间的相互关联性。
本步骤生成待分析源代码对应的DOM结构,目的是在后续步骤中进一步基于DOM结构获悉网页标签在待分析网页中所在的标签层级,即标签嵌套层级。
步骤S34:获取网页标签在DOM结构中的标签层级。
在生成待分析源代码对应的DOM结构之后,本步骤进一步获取网页标签在DOM结构中的标签层级。
步骤S35:根据标签层级生成层级权重值。
其中,层级权重值与标签层级呈正相关。
在获取到网页标签在DOM结构中的标签层级之后,本步骤进一步根据标签层级生成层级权重值,层级权重值表征的是网页标签的重要性。由于考虑到网页标签的标签层级深度越高,该网页标签对所在网页的样式影响范围越小,因此本实施例中层级权重值与标签层级呈正相关。
另外,需要说明的是,对网页标签执行哈希运算得到的哈希值的步骤,与根据标签层级生成层级权重值的步骤之间的执行顺序不固定,也可同时执行,在此不做具体限定。
步骤S36:建立以哈希值为键且以层级权重值为值的键值关系向量,并将键值关系向量设置为待分析网页特征。
在获取到网页标签的哈希值以及层级权重值之后,本步骤进一步建立以哈希值为键且以层级权重值为值的键值关系向量,进而将键值关系向量设置为待分析网页特征,目的是进一步提高待分析网页特征的特征维度。
步骤S37:在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征。
步骤S38:将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象。
本实施例通过获取网页标签的哈希值以及网页标签在DOM结构中的标签层级,进一步建立以哈希值为键且以层级权重值为值的键值关系向量,并将键值关系向量设置为待分析网页特征,以此提高了待分析网页特征的特征维度,从而进一步提高了对待分析网页的WEB资产对象进行分析的准确性。
在上述实施例的基础上,作为一种优选的实施方式,当键值关系向量中存在多个键相同的目标键值关系向量时,在将键值关系向量设置为待分析网页特征之前,方法还包括:
将键值关系向量中的目标键值关系向量合并为新键值关系向量;
将键值关系向量设置为待分析网页特征,包括:
将包含有新键值关系向量的键值关系向量设置为待分析网页特征。
需要说明的是,本实施方式是在当键值关系向量中存在多个键相同的目标键值关系向量时,也就是当待分析网页的待分析源代码中存在多个相同的网页标签时,将键值关系向量中的目标键值关系向量合并为新键值关系向量,也就是将目标键值关系向量进行了整合运算,将多个目标键值关系运算为一个新键值关系向量,目的是减少表征相同网页标签的键值关系向量,以此达到简化待分析网页特征的整体数量的目的,进一步提高网页分析的整体效率。
在上述实施方式的基础上,更进一步的,将键值关系向量中的目标键值关系向量合并为新键值关系向量,包括:
计算各目标键值关系向量中层级权重值的平均权重值;
建立以目标键值关系的哈希值为键且以平均权重值为值的新键值关系向量,并以新键值关系向量替换目标键值关系。
需要说明的是,本实施方式在将键值关系向量中的目标键值关系向量合并为新键值关系向量时,具体是对各键相同的目标键值关系向量中的层级权重值进行平均值计算,得到平均权重值,进而以目标键值关系的哈希值为键且以平均权重值为值的新键值关系向量,并以新键值关系向量替换目标键值关系。本实施方式进一步确保了将键值关系向量中的目标键值关系向量合并为新键值关系向量时的准确性,进一步提高了网页分析的整体准确性。
此外,在上述实施例的基础上,作为一种优选的实施方式,在将键值关系向量设置为待分析网页特征之前,方法还包括:
基于预设整数对键值关系向量中的哈希值执行取余数运算;
将键值关系向量设置为待分析网页特征,包括:
将执行取余运算后的键值关系向量设置为待分析网页特征。
由于考虑到对网页标签执行哈希运算得到的哈希值往往字符串长度较大,因为为了进一步降低待分析网页特征的数据量,本实施方式在将键值关系向量设置为待分析网页特征之前,先基于预设整数对键值关系向量中的哈希值执行取余数运算,以此达到对哈希值进行降维的目的,降低了键值关系向量的整体数据量,进一步提高了网页分析的整体效率。
请参见图4所示,本申请实施例公开了一种网页分析方法,包括:
步骤S40:获取待分析网页的待分析源代码。
步骤S41:根据待分析源代码统计得到待分析网页特征。
步骤S42:计算各标准网页特征与待分析网页特征的特征匹配比例。
需要说明的是,本实施例在根据待分析源代码统计得到待分析网页特征之后,进一步计算各标准网页特征与待分析网页特征的特征匹配比例,也就是标准网页特征与待分析网页特征之间相一致特征占全部特征的比例值,目的是在后续步骤中将特征匹配比例达到预设比例阈值的目标特征匹配比例所对应的标准网页特征设置为目标标准网页特征。
步骤S43:判断各特征匹配比例中是否存在达到预设比例阈值的目标特征匹配比例,若是,则执行步骤S44以及步骤S45,否则,执行步骤S46。
需要说明的是,本步骤中目标特征匹配比例可以根据实际网页分析场景中,对于待分析网页的WEB资产对象的划分精度而定,在此不做具体限定。
步骤S44:将目标特征匹配比例对应的标准网页特征设置为与待分析网页特征的相似度达到相似度标准的目标标准网页特征。
步骤S45:将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象。
步骤S46:停止分析待分析网页特征。
本实施例通过计算各标准网页特征与待分析网页特征的特征匹配比例,进而根据预设比例阈值在特征匹配比例中获取与待分析网页特征的特征匹配比例达到该预设比例阈值的目标特征匹配比例,进而将目标特征匹配比例对应的标准网页特征设置为与待分析网页特征的相似度达到相似度标准的目标标准网页特征,以此达到在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征的目的,进而进一步提高了网页分析的整体准确性。
为了加深对于本申请上述实施例的理解,下面提供一种具体应用场景下的场景实施例对本申请进行辅助说明。
针对待分析源代码提取键值关系向量的逻辑如下:
利用各个常规搜索引擎以目标名称为关键词进行搜索,获取全部搜索结果及其待分析源代码,针对拥有属性(身份标识样式、名称及类型)的HTML标签(以下简称标签),如“<div class=‘aaa’>”或“<p style=‘padding-left:5px’>”,计算其哈希值。针对每个标签出现的次数及所在层级进行加权,所在层数越深的元素对于整个页面样式影响越小,可以按照等比递减的方式赋予权值。例如,暂定标签处在html层级的权重值为1,递减系数为0.5,则处在下一层级即head和body层级的权重值为0.5,上图中标签”<div id=”id0”>”的哈希值为3903287948567741378,在body层级的下一层级出现一次,权值为0.25;在body下的“<div class=“content”>”中又出现一次,此时其权重为0.125。最终“<div id=“id0”>”的权值为0.375,得到该标签的向量键值对为3903287948567741378:0.375。以此方式针对所有标签进行处理,形成一组以哈希值为键、权值为值的键值关系向量。再针对这些哈希值取余数,将其降维,键值相同的项合并离散化取整数,并依据键值大小排序,得到最终的键值关系向量,如:
{0:2,1:3,4:3,5:9,6:1,7:11,8:14,9:1,10:9,11:4...},即为该WEB资产的页面键值关系向量字符串。若针对100取余数则得到的最终键值关系向量中包含100个键值对,针对1000取余数则包含1000个键值对,包含越多的键值对则比较的粒度更细,结果相对更准确。
计算键值关系向量并与标准网页特征进行对比。设定一个相似度的阈值,如70%,则将待分析网页特征与已知的WEB资产的标准网页特征对比时,当1000个键值关系向量的键值对中命中700个就可以认为该网站页面有70%的相似性,很有可能是目标名称尚未被收录的资产,对该网站进行截图,将截图、网址、网页源代码、键值关系向量收录进数据库中。
请参见图5所示,本申请实施例公开了一种网页分析装置,包括:
源代码获取模块10,用于获取待分析网页的待分析源代码;
特征统计模块11,用于根据待分析源代码统计得到待分析网页特征;
特征分析模块12,用于在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征;
类型设定模块13,用于将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象。
在一种具体实施方式中,特征统计模块11,包括:
标签获取模块,用于获取待分析源代码中的网页标签;
哈希运算模块,用于对网页标签执行哈希运算得到的哈希值;
特征生成模块,用于生成包含有哈希值的待分析网页特征。
在一种具体实施方式中,装置还包括:
结构生成模块,用于生成待分析源代码对应的DOM结构;
层级获取模块,用于获取网页标签在DOM结构中的标签层级;
权重生成模块,用于根据标签层级生成层级权重值;其中,层级权重值与标签层级呈正相关;
特征生成模块,包括:
向量特征建立模块,用于建立以哈希值为键且以层级权重值为值的键值关系向量,并将键值关系向量设置为待分析网页特征。
在一种具体实施方式中,当键值关系向量中存在多个键相同的目标键值关系向量时,装置还包括:
向量合并模块,用于将键值关系向量中的目标键值关系向量合并为新键值关系向量;
向量特征建立模块,包括:
新键值设置模块,用于将包含有新键值关系向量的键值关系向量设置为待分析网页特征。
在一种具体实施方式中,向量合并模块,包括:
权重平均模块,用于计算各目标键值关系向量中层级权重值的平均权重值;
新键值关系建立模块,用于建立以目标键值关系的哈希值为键且以平均权重值为值的新键值关系向量,并以新键值关系向量替换目标键值关系。
在一种具体实施方式中,装置还包括:
余数运算模块,用于基于预设整数对键值关系向量中的哈希值执行取余数运算;
向量特征建立模块,包括:
向量特征建立子模块,用于将执行取余运算后的键值关系向量设置为待分析网页特征。
在一种具体实施方式中,特征分析模块12,包括:
比例计算模块,用于计算各标准网页特征与待分析网页特征的特征匹配比例;
判断模块,用于判断各特征匹配比例中是否存在达到预设比例阈值的目标特征匹配比例,若是,则调用特征设置模块,否则,调用停止模块;
特征设置模块,用于将目标特征匹配比例对应的标准网页特征设置为与待分析网页特征的相似度达到相似度标准的目标标准网页特征;
停止模块,用于停止分析待分析网页特征。
本申请所提供的网页分析装置,首先获取待分析网页的待分析源代码,进而根据待分析源代码统计对应的待分析网页特征,并在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征,进而将目标标准网页特征所属的目标WEB资产对象设置为相应待分析网页的WEB资产对象,以此对待分析网页进行WEB资产的类型分类。本装置通过进行待分析网页的待分析网页特征与已知WEB资产对象的标准网页特征进行一致性比对,得到与待分析网页特征之间相似性达到相似度标准的目标标准网页特征,进而将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象,实现了基于网页对WEB资产的类型分类。
基于上述程序模块的硬件实现,且为了实现本申请实施例的网页分析方法,本申请实施例还提供了一种网页分析设备,图6为本申请实施例网页分析设备的硬件组成结构示意图,如图6所示,网页分析设备包括:
通信接口1,能够与其它设备比如网络设备等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的网页分析方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,网页分析设备中的各个组件通过总线系统4耦合在一起。可理解,总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统4。
本申请实施例中的存储器3用于存储各种类型的数据以支持网页分析设备的操作。这些数据的示例包括:用于在网页分析设备上操作的任何计算机程序。
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器2旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的网页分析方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述网页分析方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各网页分析方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的网页分析方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述网页分析方法的步骤。
处理器2执行所述程序时实现本申请实施例的各个网页分析方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述网页分析方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、终端和网页分析方法,可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述网页分析方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述网页分析方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台网页分析设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例的网页分析方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的网页分析设备,首先获取待分析网页的待分析源代码,进而根据待分析源代码统计对应的待分析网页特征,并在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征,进而将目标标准网页特征所属的目标WEB资产对象设置为相应待分析网页的WEB资产对象,以此对待分析网页进行WEB资产的类型分类。本设备通过进行待分析网页的待分析网页特征与已知WEB资产对象的标准网页特征进行一致性比对,得到与待分析网页特征之间相似性达到相似度标准的目标标准网页特征,进而将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象,实现了基于网页对WEB资产的类型分类。
此外,本申请实施例还公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的网页分析方法的步骤。
本申请所提供的计算机可读存储介质,首先获取待分析网页的待分析源代码,进而根据待分析源代码统计对应的待分析网页特征,并在标准网页特征中查找与待分析网页特征的相似度达到相似度标准的目标标准网页特征,进而将目标标准网页特征所属的目标WEB资产对象设置为相应待分析网页的WEB资产对象,以此对待分析网页进行WEB资产的类型分类。本计算机可读存储介质通过进行待分析网页的待分析网页特征与已知WEB资产对象的标准网页特征进行一致性比对,得到与待分析网页特征之间相似性达到相似度标准的目标标准网页特征,进而将目标标准网页特征所属的目标WEB资产对象设置为待分析网页的WEB资产对象,实现了基于网页对WEB资产的类型分类。
以上对本申请所提供的一种网页分析方法、装置、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (8)

1.一种网页分析方法,其特征在于,包括:
获取待分析网页的待分析源代码;
根据所述待分析源代码统计得到待分析网页特征;
在标准网页特征中查找与所述待分析网页特征的相似度达到相似度标准的目标标准网页特征;
将所述目标标准网页特征所属的目标WEB资产对象设置为所述待分析网页的WEB资产对象;
其中,当所述待分析网页的所述待分析源代码中存在多个相同的网页标签时,将键值关系向量中键相同的目标键值关系向量合并为新键值关系向量,并将包含有所述新键值关系向量的所述键值关系向量设置为所述待分析网页特征;
或,基于预设整数对键值关系向量中的哈希值执行取余数运算,并将执行所述取余数运算后的所述键值关系向量设置为所述待分析网页特征;
其中,所述键值关系向量为以与所述网页标签对应的哈希值为键,并以与所述网页标签所在层级对应的层级权重值为值的键值对。
2.根据权利要求1所述的网页分析方法,其特征在于,所述根据所述待分析源代码统计得到待分析网页特征,包括:
获取所述待分析源代码中的所述网页标签;
对所述网页标签执行哈希运算得到所述哈希值;
生成包含有所述哈希值的所述待分析网页特征。
3.根据权利要求1所述的网页分析方法,其特征在于,所述根据所述待分析源代码统计得到待分析网页特征,包括:
获取所述待分析源代码中的所述网页标签;
生成所述待分析源代码对应的DOM结构;
获取所述网页标签在所述DOM结构中的标签层级;
根据所述标签层级生成所述层级权重值;其中,所述层级权重值与所述标签层级呈正相关;
对所述网页标签执行哈希运算得到所述哈希值;
建立以所述哈希值为键且以所述层级权重值为值的所述键值关系向量,并将所述键值关系向量设置为所述待分析网页特征。
4.根据权利要求1所述的网页分析方法,其特征在于,所述将键值关系向量中键相同的目标键值关系向量合并为新键值关系向量,包括:
计算键相同的各目标键值关系向量中所述层级权重值的平均权重值;
建立以所述目标键值关系向量的哈希值为键且以所述平均权重值为值的所述新键值关系向量,并以所述新键值关系向量替换所述目标键值关系向量。
5.根据权利要求1至4任意一项所述的网页分析方法,其特征在于,所述在标准网页特征中查找与所述待分析网页特征的相似度达到相似度标准的目标标准网页特征,包括:
计算各所述标准网页特征与所述待分析网页特征的特征匹配比例;
判断各所述特征匹配比例中是否存在达到预设比例阈值的目标特征匹配比例;
若存在所述目标特征匹配比例,则将所述目标特征匹配比例对应的所述标准网页特征设置为与所述待分析网页特征的相似度达到所述相似度标准的所述目标标准网页特征;
若不存在所述目标特征匹配比例,则停止分析所述待分析网页特征。
6.一种网页分析装置,其特征在于,包括:
源代码获取模块,用于获取待分析网页的待分析源代码;
特征统计模块,用于根据所述待分析源代码统计得到待分析网页特征;
特征分析模块,用于在标准网页特征中查找与所述待分析网页特征的相似度达到相似度标准的目标标准网页特征;
类型设定模块,用于将所述目标标准网页特征所属的目标WEB资产对象设置为所述待分析网页的WEB资产对象;
其中,当所述待分析网页的所述待分析源代码中存在多个相同的网页标签时,将键值关系向量中键相同的目标键值关系向量合并为新键值关系向量,并将包含有所述新键值关系向量的所述键值关系向量设置为所述待分析网页特征;
或,基于预设整数对键值关系向量中的哈希值执行取余数运算,并将执行所述取余数运算后的所述键值关系向量设置为所述待分析网页特征;
其中,所述键值关系向量为以与所述网页标签对应的哈希值为键,并以与所述网页标签所在层级对应的层级权重值为值的键值对。
7.一种网页分析设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的网页分析方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的网页分析方法的步骤。
CN202010843304.XA 2020-08-20 2020-08-20 一种网页分析方法、装置、设备及存储介质 Active CN111949916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010843304.XA CN111949916B (zh) 2020-08-20 2020-08-20 一种网页分析方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010843304.XA CN111949916B (zh) 2020-08-20 2020-08-20 一种网页分析方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111949916A CN111949916A (zh) 2020-11-17
CN111949916B true CN111949916B (zh) 2024-04-09

Family

ID=73358492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010843304.XA Active CN111949916B (zh) 2020-08-20 2020-08-20 一种网页分析方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111949916B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687736B (zh) * 2022-12-30 2023-04-14 北京长亭未来科技有限公司 一种web应用的搜索方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108196874A (zh) * 2017-12-29 2018-06-22 东软集团股份有限公司 一种网页分析方法、装置及存储介质、程序产品
KR20180075881A (ko) * 2016-12-27 2018-07-05 한국인터넷진흥원 클라이언트 측 웹 취약점 분석 방법 및 장치
CN109062876A (zh) * 2018-07-20 2018-12-21 北京开普云信息科技有限公司 一种基于dom网页剪枝的相似网页查找方法及系统
CN109657208A (zh) * 2017-10-10 2019-04-19 株式会社理光 网页相似度计算方法、装置、设备、计算机可读存储介质
KR102009029B1 (ko) * 2019-06-21 2019-08-09 주식회사 코드라인 특징정보 비교분석을 통한 콘텐츠 필터링 시스템
CN110427628A (zh) * 2019-08-02 2019-11-08 杭州安恒信息技术股份有限公司 基于神经网络算法的web资产分类检测方法及装置
CN110851606A (zh) * 2019-11-18 2020-02-28 杭州安恒信息技术股份有限公司 基于网页结构相似性的网站聚类方法和系统
CN111143642A (zh) * 2019-12-30 2020-05-12 北京天融信网络安全技术有限公司 网页分类方法、装置、电子设备及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9614862B2 (en) * 2013-07-24 2017-04-04 Nice Ltd. System and method for webpage analysis
US20190266257A1 (en) * 2018-02-28 2019-08-29 Laserlike, Inc. Vector similarity search in an embedded space

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180075881A (ko) * 2016-12-27 2018-07-05 한국인터넷진흥원 클라이언트 측 웹 취약점 분석 방법 및 장치
CN109657208A (zh) * 2017-10-10 2019-04-19 株式会社理光 网页相似度计算方法、装置、设备、计算机可读存储介质
CN108196874A (zh) * 2017-12-29 2018-06-22 东软集团股份有限公司 一种网页分析方法、装置及存储介质、程序产品
CN109062876A (zh) * 2018-07-20 2018-12-21 北京开普云信息科技有限公司 一种基于dom网页剪枝的相似网页查找方法及系统
KR102009029B1 (ko) * 2019-06-21 2019-08-09 주식회사 코드라인 특징정보 비교분석을 통한 콘텐츠 필터링 시스템
CN110427628A (zh) * 2019-08-02 2019-11-08 杭州安恒信息技术股份有限公司 基于神经网络算法的web资产分类检测方法及装置
CN110851606A (zh) * 2019-11-18 2020-02-28 杭州安恒信息技术股份有限公司 基于网页结构相似性的网站聚类方法和系统
CN111143642A (zh) * 2019-12-30 2020-05-12 北京天融信网络安全技术有限公司 网页分类方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111949916A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
US20150067476A1 (en) Title and body extraction from web page
CN105975459B (zh) 一种词项的权重标注方法和装置
US20090319449A1 (en) Providing context for web articles
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
US20200004792A1 (en) Automated website data collection method
CN105378731A (zh) 从被回答问题关联语料库/语料值
CN108090104B (zh) 用于获取网页信息的方法和装置
Alassi et al. Effectiveness of template detection on noise reduction and websites summarization
CN109146625B (zh) 一种基于内容的多版本App更新评价方法及系统
CN111339457B (zh) 用于从网页抽取信息的方法和设备及存储介质
CN106202349B (zh) 网页分类字典生成方法及装置
CN111949916B (zh) 一种网页分析方法、装置、设备及存储介质
CN102257490A (zh) 文档信息选择方法和计算机程序产品
Kreuzer et al. A quantitative comparison of semantic web page segmentation approaches
CN107766419A (zh) 一种基于阈值去噪的TextRank文档摘要方法及装置
Gali et al. Extracting representative image from web page
CN115801455A (zh) 一种基于网站指纹的仿冒网站检测方法及装置
CN115391711A (zh) 网页正文信息提取方法、装置、设备及介质
CN107102994B (zh) 查询维度信息的确定方法及装置
CN112434126A (zh) 一种信息处理方法、装置、设备和存储介质
Thanadechteemapat et al. Automatic web content extraction for generating tag clouds from thai web sites
CN107908780A (zh) 新闻网站的网页判别处理方法、终端设备及存储介质
CN108628977B (zh) 一种网页内容处理方法、装置及计算机可读存储介质
CN115687736B (zh) 一种web应用的搜索方法、装置及电子设备
CN110633446B (zh) 网页栏目识别模型训练方法、使用方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant