CN115297042A - 检测不同网络下网页一致性的方法及相关设备 - Google Patents
检测不同网络下网页一致性的方法及相关设备 Download PDFInfo
- Publication number
- CN115297042A CN115297042A CN202210915993.XA CN202210915993A CN115297042A CN 115297042 A CN115297042 A CN 115297042A CN 202210915993 A CN202210915993 A CN 202210915993A CN 115297042 A CN115297042 A CN 115297042A
- Authority
- CN
- China
- Prior art keywords
- consistency
- elements
- information
- determining
- different networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000014509 gene expression Effects 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005096 rolling process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/50—Testing arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种检测不同网络下网页一致性的方法及相关设备,涉及网页检测领域,主要为解决缺少一种更好的检测不同网络下网页一致性的方法的问题。该方法包括:获取IPv4网络下构成目标网页的所有第一元素的信息;基于所述所有第一元素的信息确定IPv6网络下所述目标网页中可访问的所有第二元素的信息;基于所述所有第一元素的信息和所述所有第二元素的信息确定所述目标网页在不同网络下的一致性。本发明用于检测不同网络下网页一致性的过程。
Description
技术领域
本发明涉及网页检测领域,尤其涉及一种检测不同网络下网页一致性的方法及相关设备。
背景技术
IPv6(Internet Protocol Version 6,互联网协议第6版)是用于替代IPv4的下一代IP协议,也就是下一代互联网的协议。IPv6的使用,不仅能解决网络地址资源数量的问题,而且也解决了多种接入设备连入互联网的障碍。其128位地址格式将以其在IP地址数量、安全性、移动性、服务质量等方面的巨大优势,改变现代信息生活。
因此同一个网页对于IPv4网络和IPv6网络的兼容性就成了目前较为重点的问题,在现有技术中,考察一个网页对IPv4网络和IPv6网络兼容性,通常是先通过IPv4网络访问该页面并截图,然后再通过IPv6网络访问该页面并截图,通过对比二者截图一致性从而确定一个网页对IPv4网络和IPv6网络兼容性,但是由于目前大部分网页可能存在滚动消息,在IPv4网络和IPv6网络下访问页面时,截取的滚动消息的内容极有可能会不一致,故以此为标准考察一个网页对IPv4网络和IPv6网络兼容性不够准确完善。
发明内容
鉴于上述问题,本发明提供一种检测不同网络下网页一致性的方法及相关设备,主要目的在于解决缺少一种更好的检测不同网络下网页一致性的方法的问题。
为解决上述至少一种技术问题,第一方面,本发明提供了一种检测不同网络下网页一致性的方法,该方法包括:
获取IPv4网络下构成目标网页的所有第一元素的信息;
基于上述所有第一元素的信息确定IPv6网络下上述目标网页中可访问的所有第二元素的信息;
基于上述所有第一元素的信息和上述所有第二元素的信息确定上述目标网页在不同网络下的一致性。
可选的,上述方法还包括,
上述元素的信息包括:元素类型、元素内容、元素地址和元素标识码中的至少一种,其中,上述元素类型包括:JS类型、CSS类型、图片类型、视频类型和文本类型中的至少一种。
可选的,上述方法还包括:
通过正则表达式确定上述JS类型的元素和/或通过正则表达式确定上述CSS类型的元素。
可选的,上述方法还包括:
基于上述元素类型为上述所有第一元素建立第一元素集合,其中上述第一元素集合,包括:第一JS集合、第一CSS集合、第一图片集合、第一视频集合和第一文本集合中的至少一种,
基于上述元素类型为上述所有第二元素建立第二元素集合,其中上述第二元素集合,包括:第二JS集合、第二CSS集合、第二图片集合、第二视频集合和第二文本集合中的至少一种。
可选的,上述基于上述所有第一元素的信息和上述所有第二元素的信息确定上述目标网页在不同网络下的一致性,包括:
基于上述第二JS集合和上述第一JS集合确定JS一致性,
基于上述第二CSS集合和上述第一CSS集合确定CSS一致性,
基于上述第二图片集合和上述第一图片集合确定图片一致性,
基于上述第二视频集合和上述第一视频集合确定视频一致性,
基于上述第二文本集合和上述第一文本集合确定文本一致性。
可选的,上述方法还包括:
基于边距信息、上述JS一致性和上述CSS一致性确定布局一致性;
基于上述图片一致性、上述视频一致性和上述文本一致性确定内容一致性;
基于上述布局一致性和上述内容一致性确定上述网页一致性。
可选的,上述元素的信息是基于网络爬虫技术访问上述目标网页的源代码确定的。
第二方面,本发明实施例还提供了一种检测不同网络下网页一致性的装置,包括:
获取单元,用于获取IPv4网络下构成目标网页的所有第一元素的信息;
第一确定单元,用于基于上述所有第一元素的信息确定IPv6网络下上述目标网页中可访问的所有第二元素的信息;
第二确定单元,用于基于上述所有第一元素的信息和上述所有第二元素的信息确定上述目标网页在不同网络下的一致性。
为了实现上述目的,根据本发明的第三方面,提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,在上述程序被处理器执行时实现上述的检测不同网络下网页一致性的方法的步骤。
为了实现上述目的,根据本发明的第四方面,提供了一种电子设备,包括至少一个处理器、以及与上述处理器连接的至少一个存储器;其中,上述处理器用于调用上述存储器中的程序指令,执行上述的检测不同网络下网页一致性的方法的步骤。
借由上述技术方案,本发明提供的检测不同网络下网页一致性的方法及相关设备,对于缺少一种更好的检测不同网络下网页一致性的方法的问题,本发明通过获取IPv4网络下构成目标网页的所有第一元素的信息;基于上述所有第一元素的信息确定IPv6网络下上述目标网页中可访问的所有第二元素的信息;基于上述所有第一元素的信息和上述所有第二元素的信息确定上述目标网页在不同网络下的一致性。在上述方案中,由于IPv4网络技术的成熟性,IPv4网络下的网页的是基本成型的,因此本方案获取IPv4网络下构成目标网页的所有元素和所有元素的信息,在确定了基于IPv4网络下构成目标网页的所有元素后,基于IPv4网络下构成目标网页的所有元素的信息去检测IPv6网络下上述目标网页中可访问的所有元素,以确定IPv4网络下可显示并访问的所有网页元素是否在IPv6网络下也同样可以被显示并访问,通过IPv6网络下的所有可显示并访问的元素和IPv4网络下的所有可显示并访问的元素之间的比值确定出目标网页在不同网络下的一致性,从而相比于截图更加精准有效的确定了一个网页对IPv4网络和IPv6网络兼容性。
相应地,本发明实施例提供的检测不同网络下网页一致性的装置、设备和计算机可读存储介质,也同样具有上述技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种检测不同网络下网页一致性的方法的流程示意图;
图2示出了本发明实施例提供的一种检测不同网络下网页一致性的装置的组成示意框图;
图3示出了本发明实施例提供的一种检测不同网络下网页一致性的电子设备的组成示意框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了解决缺少一种更好的检测不同网络下网页一致性的方法的问题,本发明实施例提供了一种检测不同网络下网页一致性的方法,如图1所示,该方法包括:
S101、获取IPv4网络下构成目标网页的所有第一元素的信息;
示例性的,由于IPv4网络技术的成熟性,IPv4网络下的网页的是基本成型的,因此本方法首先获取IPv4网络下构成目标网页的所有元素和所有元素的信息,以IPv4网络下构成目标网页的所有第一元素的信息作为考察一致性的基准。
S102、基于上述所有第一元素的信息确定IPv6网络下上述目标网页中可访问的所有第二元素的信息;
示例性的,以IPv4网络下构成目标网页的所有第一元素的信息为基准去检测IPv6网络下目标网页中的元素,从而确定出有哪些在IPv4网络下可显示并访问的所有网页元素在IPv6网络下也同样可以被显示并访问,有哪些不可以被显示并访问。从而以IPv4网络下构成目标网页的所有第一元素的信息作为考察一致性的基准考察IPv6网络下的目标网页。
S103、基于上述所有第一元素的信息和上述所有第二元素的信息确定上述目标网页在不同网络下的一致性。
示例性的,上述目标网页在不同网络下的一致性是指用户通过IPv6互联网Http/Https访问网站首页成功后,呈现在用户浏览器或者客户端上的页面,与用户通过IPv4互联网Http/Https访问网站首页成功后,呈现在用户浏览器或者客户端上的页面之间的相同性,一致性程度=(目标网页在IPv4与IPv6网络下的相同元素数量/目标网页在IPv4网络下的总元素数量)*100%。其中,上述目标网页在IPv4与IPv6网络下的相同元素数量,即为在上述S102中的在IPv4网络下可显示并访问的所有网页元素,其在IPv6网络下也同样可以被显示并访问的元素数量。在上述一致性大于等于预设一致性标准的情况下,证明上述目标网页的一致性合格,例如:上述目标网页在IPv4网络下的总元素数量为100,上述目标网页在IPv4与IPv6网络下的相同元素数量为82,则确定上述一致性程度为82%。标准规定,用户在IPv4与IPv6网络下所获得的网页页面差异应小于20%,即IPv4与IPv6网络下所获得的网页页面一致性应大于等于80%(即上述预设一致性标准),则确定上述目标网页的一致性较优。
借由上述技术方案,本发明提供的检测不同网络下网页一致性的方法,对于缺少一种更好的检测不同网络下网页一致性的方法的问题,本发明通过获取IPv4网络下构成目标网页的所有第一元素的信息;基于上述所有第一元素的信息确定IPv6网络下上述目标网页中可访问的所有第二元素的信息;基于上述所有第一元素的信息和上述所有第二元素的信息确定上述目标网页在不同网络下的一致性。在上述方案中,由于IPv4网络技术的成熟性,IPv4网络下的网页的是基本成型的,因此本方案获取IPv4网络下构成目标网页的所有元素和所有元素的信息,在确定了基于IPv4网络下构成目标网页的所有元素后,基于IPv4网络下构成目标网页的所有元素的信息去检测IPv6网络下上述目标网页中可访问的所有元素,以确定IPv4网络下可显示并访问的所有网页元素是否在IPv6网络下也同样可以被显示并访问,通过IPv6网络下的所有可显示并访问的元素和IPv4网络下的所有可显示并访问的元素之间的比值确定出目标网页在不同网络下的一致性,从而相比于截图更加精准有效的确定了一个网页对IPv4网络和IPv6网络兼容性。
在一种实施例中,上述方法还包括,
上述元素的信息包括:元素类型、元素内容、元素地址和元素标识码中的至少一种,其中,上述元素类型包括:JS类型、CSS类型、图片类型、视频类型和文本类型中的至少一种。
示例性的,获取的目标网页在IPv4网络下的元素信息至少包括元素类型、元素内容、元素地址和元素标识码中的至少一种,以便于基于上述元素信息在IPv6网络下对目标网页查找符合上述元素信息的元素,上述所确定的单个元素的信息越多,越利于定位查找元素。
示例性的,上述JS是指在网页设计代码中的JavaScript,是一种具有函数优先的轻量级解释型或即时编译型的高级编程语言,常用来为网页添加各式各样的动态功能,为用户提供更流畅美观的浏览效果,上述JS类型的元素是指网页中动态效果等元素。
示例性的,上述CSS(Cascading Style Sheets,层叠样式表)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言,不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化,CSS能够对网页中元素位置的排版进行像素级准确控制,支持几乎所有的字体字号样式,拥有对网页对象和模型样式编辑的能力,上述CSS类型的元素是指网页中的文字的字体字号、排版等元素。
示例性的,上述图片类型的元素即为网页中的JPEG、BMP、PNG、PSD等格式的图片。上述视频类型的元素即为网页中的WMF、ASF、ASX、MOV、MP4、M4V等格式的视频。上述文本类型的文本即文字文本。
在一种实施例中,上述方法还包括:
通过正则表达式确定上述JS类型的元素和/或通过正则表达式确定上述CSS类型的元素。
示例性的,正则表达式,又称规则表达式,是一种文本模式,包括普通字符(例如,a到z之间的字母)和特殊字符(称为"元字符"),正则表达式一般使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。故可以通过正则表达式确定上述JS类型的元素,也可以通过正则表达式确定上述CSS类型的元素,从而精准的将上述JS类型的元素和CSS类型的元素从目标网页中筛选出来。
在一种实施例中,上述方法还包括:
基于上述元素类型为上述所有第一元素建立第一元素集合,其中上述第一元素集合,包括:第一JS集合、第一CSS集合、第一图片集合、第一视频集合和第一文本集合中的至少一种,
基于上述元素类型为上述所有第二元素建立第二元素集合,其中上述第二元素集合,包括:第二JS集合、第二CSS集合、第二图片集合、第二视频集合和第二文本集合中的至少一种。
示例性的,将在IPv4网络下的目标网页所获取的所有第一元素分类并基于分类建立集合,将在IPv6网络下的目标网页所获取的所有第二元素分类并基于分类建立集合,从而便于对不同网络下的目标网页的所有元素进行统计。
在一种实施例中,上述基于上述所有第一元素的信息和上述所有第二元素的信息确定上述目标网页在不同网络下的一致性,包括:
基于上述第二JS集合和上述第一JS集合确定JS一致性,
基于上述第二CSS集合和上述第一CSS集合确定CSS一致性,
基于上述第二图片集合和上述第一图片集合确定图片一致性,
基于上述第二视频集合和上述第一视频集合确定视频一致性,
基于上述第二文本集合和上述第一文本集合确定文本一致性。
示例性的,分别对不同网络下的目标网页的不同类型的元素进行比对,确定不同网络下每个类型的元素的一致性,具体的,可以通过上述第二JS集合中的元素数量和上述第一JS集合中的元素数量的比值确定JS一致性,通过上述第二CSS集合的元素数量和上述第一CSS集合的元素数量的比值确定CSS一致性,通过上述第二视频集合的元素数量和上述第一视频集合的元素数量的比值确定视频一致性,通过上述第二文本集合的元素数量和上述第一文本集合的元素数量的比值确定文本一致性。通过分类化比对,可以更准确的计算出不同网络下目标网页的所有类型的元素的一致性,且方便后续溯源哪种类型元素一致性较差。
在一种实施例中,上述方法还包括:
基于边距信息、上述JS一致性和上述CSS一致性确定布局一致性;
基于上述图片一致性、上述视频一致性和上述文本一致性确定内容一致性;
基于上述布局一致性和上述内容一致性确定上述网页一致性。
示例性的,结合网页的边距信息和网页的JS、CSS可以确定一个网页的布局,故结合边距信息、JS一致性和CSS一致性可以确定目标网页的布局一致性。网站的实质内容一般由图片、视频和文字组成,故结合图片一致性、视频一致性和文本一致性可以确定目标网页内容的一致性,结合布局一致性和内容一致性确定即可确定目标网页的一致性。
在一种实施例中,上述元素的信息是基于网络爬虫技术访问上述目标网页的源代码确定的。
示例性的,爬虫工具可以模仿用户操作对网站进行访问,本方法的实现需要先编写爬虫工具。通过网络爬虫技术访问上述目标网页的源代码,可以降低访问效率从而避免被网站误认为DDos攻击。
示例性的,本方法通过IPv4互联网网络爬虫,模拟用户行为,访问网页的样式表、js脚本文件、页面Html文件等元素,通过IPv6互联网网络爬虫,模拟用户行为,访问网站首页的样式表、js脚本文件、页面Html文件等元素,并将所获取的元素信息分裂归入上述集合。通过集合中的元素数量比值计算得出网页布局的一致性。
示例性的,本方法通过IPv4互联网网络爬虫,模拟用户行为,访问网页的文字、图片、视频资源等元素,通过IPv6互联网网络爬虫,模拟用户行为,访问网站首页的文字、图片、视频资源等元素,并将所获取的元素信息分裂归入上述集合。通过集合中的元素数量比值计算得出网页内容的一致性。
示例性的,具体的浏览器解析Html,渲染目标网页的过程为:浏览器渲染引擎从上往下执行代码(包括HTML,CSS和JS等),解析html生成DOM树,同时解析CSS代码生成cssrule tree,同时将DOM tree和css rule tree合并生成render tree,同时还会去请求其它资源,渲染引擎会同时执行很多事情,尽可能快的将内容渲染出来,若后面的代码会改变之前的样式,会引起回流和重绘。render tree生成之后,会进行计算图层布局,所有元素的相对位置和大小信息都在这一步计算,然后将页面图层转化为像素,绘制图层。最后整合所有图层,得到目标网页。
示例性的,在网络爬虫访问上述目标网页时,执行以下操作步骤:
1、编写爬虫工具,用于访问页面,对网站信息进行抓取。
2、获取页面的HTML信息,使用正则表达式进行关键字匹配分析,匹配<html><body><table><div><span><tr><td>等页面布局元素,分别读取元素的宽、高、内边距、外边距等信息,记录HTML布局信息。
3、分析首页的<script>标签,分析script中是否有src源文件,若有,则访问src指向的文件地址,获取返回结果,即JS文本。若没有,则直接获取<script>到</script>之间的内容,即JS文本。通过正则表达式分析JS文本,分析结果一般为3种:①、JS文本中匹配到了其他的JS文件,则对新匹配到的其他的JS文件重新执行上述分析src源文件的步骤。②、JS文本中匹配到了CSS文件,则将其记录到CSS集合中。③、JS文本中包含的就是JS文本,则将其记录到JS集合中。
4、分析首页的<link>标签,判断link标签内的rel属性,是否为stylesheet,若是,则匹配确定href属性内容是否以css为结尾,若是,则确定其为CSS文件,则抓取其中的css样式表,若抓取成功,则将其记录到CSS集合。
5、分析首页的<img>标签,获取src指向的图片地址,访问该地址,查看返回结果,如果成功,记录到图片集合。
6、分析首页的<video>标签,获取src指向的视频地址,访问该地址,查看返回结果,如果成功,记录到视频集合。
7、获取不在标签内的文本内容(即除<script><style>之外的内容),将内容记录到文字集合。
示例性的,上述操作分别在IPv4网络和IPv6网络下执行一次,从而记录出与IPv4网络和IPv6网络相对应的集合。
示例性的,在爬虫对上述网页元素进行抓取时,会获取元素类型、元素内容、元素地址和元素标识码(或者是元素所在源代码的行数)以及可访问性。使用IPv6网络进行抓取时,根据IPv4集合内容中的元素类型、元素内容、元素地址和元素标识码等信息进行抓取,通过直接比对IPv6网络和IPv4网络的集合中的元素数量,相比于公式:一致性程度=(目标网页在IPv4与IPv6网络下的相同元素数量/目标网页在IPv4网络下的总元素数量)
*100%中,还需要匹配IPv6与IPv4相同元素的计算过程,提高了计算效率。示例性的,访问网站时获取相应文件会有返回值,一般返回值为200时为访问成功,可以获取文件。
示例性的,本方法使用页面元素逐一分析能够更加有效的提高准确性,能够有效避免动态页面会出现截图不一致而导致的网站一致性分析偏差的问题,方案设计结构简单高效,能够长期稳定运行,且复用以及扩展性高。
进一步的,作为对上述图1所示方法的实现,本发明实施例还提供了一种检测不同网络下网页一致性的装置,用于对上述图1所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图2所示,该装置包括:获取单元21、第一确定单元22和第二确定单元23,其中
获取单元21,用于获取IPv4网络下构成目标网页的所有第一元素的信息;
第一确定单元22,用于基于上述所有第一元素的信息确定IPv6网络下上述目标网页中可访问的所有第二元素的信息;
第二确定单元23,用于基于上述所有第一元素的信息和上述所有第二元素的信息确定上述目标网页在不同网络下的一致性。
示例性的,上述单元还用于,
上述元素的信息包括:元素类型、元素内容、元素地址和元素标识码中的至少一种,其中,上述元素类型包括:JS类型、CSS类型、图片类型、视频类型和文本类型中的至少一种。
示例性的,上述单元还用于:
通过正则表达式确定上述JS类型的元素和/或通过正则表达式确定上述CSS类型的元素。
示例性的,上述单元还用于:
基于上述元素类型为上述所有第一元素建立第一元素集合,其中上述第一元素集合,包括:第一JS集合、第一CSS集合、第一图片集合、第一视频集合和第一文本集合中的至少一种,
基于上述元素类型为上述所有第二元素建立第二元素集合,其中上述第二元素集合,包括:第二JS集合、第二CSS集合、第二图片集合、第二视频集合和第二文本集合中的至少一种。
示例性的,上述基于上述所有第一元素的信息和上述所有第二元素的信息确定上述目标网页在不同网络下的一致性,包括:
基于上述第二JS集合和上述第一JS集合确定JS一致性,
基于上述第二CSS集合和上述第一CSS集合确定CSS一致性,
基于上述第二图片集合和上述第一图片集合确定图片一致性,
基于上述第二视频集合和上述第一视频集合确定视频一致性,
基于上述第二文本集合和上述第一文本集合确定文本一致性。
示例性的,上述单元还用于:
基于边距信息、上述JS一致性和上述CSS一致性确定布局一致性;
基于上述图片一致性、上述视频一致性和上述文本一致性确定内容一致性;
基于上述布局一致性和上述内容一致性确定上述网页一致性。
示例性的,上述元素的信息是基于网络爬虫技术访问上述目标网页的源代码确定的。
借由上述技术方案,本发明提供的检测不同网络下网页一致性的装置,对于缺少一种更好的检测不同网络下网页一致性的方法的问题,本发明通过获取IPv4网络下构成目标网页的所有第一元素的信息;基于上述所有第一元素的信息确定IPv6网络下上述目标网页中可访问的所有第二元素的信息;基于上述所有第一元素的信息和上述所有第二元素的信息确定上述目标网页在不同网络下的一致性。在上述方案中,由于IPv4网络技术的成熟性,IPv4网络下的网页的是基本成型的,因此本方案获取IPv4网络下构成目标网页的所有元素和所有元素的信息,在确定了基于IPv4网络下构成目标网页的所有元素后,基于IPv4网络下构成目标网页的所有元素的信息去检测IPv6网络下上述目标网页中可访问的所有元素,以确定IPv4网络下可显示并访问的所有网页元素是否在IPv6网络下也同样可以被显示并访问,通过IPv6网络下的所有可显示并访问的元素和IPv4网络下的所有可显示并访问的元素之间的比值确定出目标网页在不同网络下的一致性,从而相比于截图更加精准有效的确定了一个网页对IPv4网络和IPv6网络兼容性。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现一种检测不同网络下网页一致性的方法,能够解决缺少一种更好的检测不同网络下网页一致性的方法的问题。
本发明实施例提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,该程序被处理器执行时实现上述检测不同网络下网页一致性的方法。
本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述检测不同网络下网页一致性的方法。
本发明实施例提供了一种电子设备,上述电子设备包括至少一个处理器、以及与上述处理器连接的至少一个存储器;其中,上述处理器用于调用上述存储器中的程序指令,执行如上述的检测不同网络下网页一致性的方法
本发明实施例提供了一种电子设备30,如图3所示,电子设备包括至少一个处理器301、以及与处理器连接的至少一个存储器302、总线303;其中,处理器301、存储器302通过总线303完成相互间的通信;处理器301用于调用存储器中的程序指令,以执行上述的检测不同网络下网页一致性的方法。
本文中的智能电子设备可以是PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在流程管理电子设备上执行时,适于执行初始化有如下方法步骤的程序:
获取IPv4网络下构成目标网页的所有第一元素的信息;
基于上述所有第一元素的信息确定IPv6网络下上述目标网页中可访问的所有第二元素的信息;
基于上述所有第一元素的信息和上述所有第二元素的信息确定上述目标网页在不同网络下的一致性。
进一步的,上述方法还包括,
上述元素的信息包括:元素类型、元素内容、元素地址和元素标识码中的至少一种,其中,上述元素类型包括:JS类型、CSS类型、图片类型、视频类型和文本类型中的至少一种。
进一步的,上述方法还包括:
通过正则表达式确定上述JS类型的元素和/或通过正则表达式确定上述CSS类型的元素。
进一步的,上述方法还包括:
基于上述元素类型为上述所有第一元素建立第一元素集合,其中上述第一元素集合,包括:第一JS集合、第一CSS集合、第一图片集合、第一视频集合和第一文本集合中的至少一种,
基于上述元素类型为上述所有第二元素建立第二元素集合,其中上述第二元素集合,包括:第二JS集合、第二CSS集合、第二图片集合、第二视频集合和第二文本集合中的至少一种。
进一步的,上述基于上述所有第一元素的信息和上述所有第二元素的信息确定上述目标网页在不同网络下的一致性,包括:
基于上述第二JS集合和上述第一JS集合确定JS一致性,
基于上述第二CSS集合和上述第一CSS集合确定CSS一致性,
基于上述第二图片集合和上述第一图片集合确定图片一致性,
基于上述第二视频集合和上述第一视频集合确定视频一致性,
基于上述第二文本集合和上述第一文本集合确定文本一致性。
进一步的,上述方法还包括:
基于边距信息、上述JS一致性和上述CSS一致性确定布局一致性;
基于上述图片一致性、上述视频一致性和上述文本一致性确定内容一致性;
基于上述布局一致性和上述内容一致性确定上述网页一致性。
进一步的,上述元素的信息是基于网络爬虫技术访问上述目标网页的源代码确定的。
本申请是参照根据本申请实施例的方法、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程流程管理电子设备的处理器以产生一个机器,使得通过计算机或其他可编程流程管理电子设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,电子设备包括一个或多个处理器(CPU)、存储器和总线。电子设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储电子设备或任何其他非传输介质,可用于存储可以被计算电子设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者电子设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者电子设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者电子设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种检测不同网络下网页一致性的方法,用于服务器,其特征在于,包括:
获取IPv4网络下构成目标网页的所有第一元素的信息;
基于所述所有第一元素的信息确定IPv6网络下所述目标网页中可访问的所有第二元素的信息;
基于所述所有第一元素的信息和所述所有第二元素的信息确定所述目标网页在不同网络下的一致性。
2.根据权利要求1所述的方法,其特征在于,
所述元素的信息包括:元素类型、元素内容、元素地址和元素标识码中的至少一种,其中,所述元素类型包括:JS类型、CSS类型、图片类型、视频类型和文本类型中的至少一种。
3.根据权利要求2所述的方法,其特征在于,还包括:
通过正则表达式确定所述JS类型的元素和/或通过正则表达式确定所述CSS类型的元素。
4.根据权利要求2所述的方法,其特征在于,还包括:
基于所述元素类型为所述所有第一元素建立第一元素集合,其中所述第一元素集合,包括:第一JS集合、第一CSS集合、第一图片集合、第一视频集合和第一文本集合中的至少一种,
基于所述元素类型为所述所有第二元素建立第二元素集合,其中所述第二元素集合,包括:第二JS集合、第二CSS集合、第二图片集合、第二视频集合和第二文本集合中的至少一种。
5.根据权利要求3所述的方法,其特征在于,所述基于所述所有第一元素的信息和所述所有第二元素的信息确定所述目标网页在不同网络下的一致性,包括:
基于所述第二JS集合和所述第一JS集合确定JS一致性,
基于所述第二CSS集合和所述第一CSS集合确定CSS一致性,
基于所述第二图片集合和所述第一图片集合确定图片一致性,
基于所述第二视频集合和所述第一视频集合确定视频一致性,
基于所述第二文本集合和所述第一文本集合确定文本一致性。
6.根据权利要求4所述的方法,其特征在于,还包括:
基于边距信息、所述JS一致性和所述CSS一致性确定布局一致性;
基于所述图片一致性、所述视频一致性和所述文本一致性确定内容一致性;
基于所述布局一致性和所述内容一致性确定所述网页一致性。
7.根据权利要求1所述的方法,其特征在于,所述元素的信息是基于网络爬虫技术访问所述目标网页的源代码确定的。
8.一种检测不同网络下网页一致性的装置,其特征在于,
获取单元,用于获取IPv4网络下构成目标网页的所有第一元素的信息;
第一确定单元,用于基于所述所有第一元素的信息确定IPv6网络下所述目标网页中可访问的所有第二元素的信息;
第二确定单元,用于基于所述所有第一元素的信息和所述所有第二元素的信息确定所述目标网页在不同网络下的一致性。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序被处理器执行时实现如权利要求1至权利要求7中任一项所述的检测不同网络下网页一致性的方法的步骤。
10.一种电子设备,其特征在于,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器;其中,所述处理器用于调用所述存储器中的程序指令,执行如权利要求1至权利要求7中任一项所述的检测不同网络下网页一致性的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210915993.XA CN115297042A (zh) | 2022-08-01 | 2022-08-01 | 检测不同网络下网页一致性的方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210915993.XA CN115297042A (zh) | 2022-08-01 | 2022-08-01 | 检测不同网络下网页一致性的方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115297042A true CN115297042A (zh) | 2022-11-04 |
Family
ID=83826681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210915993.XA Pending CN115297042A (zh) | 2022-08-01 | 2022-08-01 | 检测不同网络下网页一致性的方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115297042A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116527548A (zh) * | 2023-06-26 | 2023-08-01 | 中国电信股份有限公司江西分公司 | 一种基于IPv6动态测试方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009021921A (ja) * | 2007-07-13 | 2009-01-29 | Intec Netcore Inc | IPv4/IPv6デュアルスタック対応端末のための情報提示システム |
US20130254423A1 (en) * | 2012-03-22 | 2013-09-26 | Time Warner Cable Inc. | Use of dns information as trigger for dynamic ipv4 address allocation |
US20140067784A1 (en) * | 2010-12-22 | 2014-03-06 | Peking University Founder Group Co., Ltd. | Webpage information detection method and system |
US9479519B1 (en) * | 2014-12-18 | 2016-10-25 | Amazon Technologies, Inc. | Web content fingerprint analysis to detect web page issues |
CN107544903A (zh) * | 2017-08-04 | 2018-01-05 | 东软集团股份有限公司 | 页面规范检测方法、装置及计算机设备 |
CN107861974A (zh) * | 2017-09-19 | 2018-03-30 | 北京金堤科技有限公司 | 一种自适应网络爬虫系统及其数据获取方法 |
CN109194776A (zh) * | 2018-09-07 | 2019-01-11 | 赛尔网络有限公司 | 一种检测方法、系统、电子设备和介质 |
CN109684005A (zh) * | 2018-12-11 | 2019-04-26 | 浙江口碑网络技术有限公司 | 图形界面中组件相似度确定方法及装置 |
CN111130845A (zh) * | 2019-11-25 | 2020-05-08 | 北京邮电大学 | 基于视觉信息的网站页面IPv6支持度测试方法及装置 |
CN112130944A (zh) * | 2020-09-16 | 2020-12-25 | 北京三快在线科技有限公司 | 页面异常的检测方法、装置、设备及存储介质 |
CN114448849A (zh) * | 2021-12-17 | 2022-05-06 | 北京邮电大学 | 网站IPv6网络支持模式检测方法及电子设备 |
-
2022
- 2022-08-01 CN CN202210915993.XA patent/CN115297042A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009021921A (ja) * | 2007-07-13 | 2009-01-29 | Intec Netcore Inc | IPv4/IPv6デュアルスタック対応端末のための情報提示システム |
US20140067784A1 (en) * | 2010-12-22 | 2014-03-06 | Peking University Founder Group Co., Ltd. | Webpage information detection method and system |
US20130254423A1 (en) * | 2012-03-22 | 2013-09-26 | Time Warner Cable Inc. | Use of dns information as trigger for dynamic ipv4 address allocation |
US9479519B1 (en) * | 2014-12-18 | 2016-10-25 | Amazon Technologies, Inc. | Web content fingerprint analysis to detect web page issues |
CN107544903A (zh) * | 2017-08-04 | 2018-01-05 | 东软集团股份有限公司 | 页面规范检测方法、装置及计算机设备 |
CN107861974A (zh) * | 2017-09-19 | 2018-03-30 | 北京金堤科技有限公司 | 一种自适应网络爬虫系统及其数据获取方法 |
CN109194776A (zh) * | 2018-09-07 | 2019-01-11 | 赛尔网络有限公司 | 一种检测方法、系统、电子设备和介质 |
CN109684005A (zh) * | 2018-12-11 | 2019-04-26 | 浙江口碑网络技术有限公司 | 图形界面中组件相似度确定方法及装置 |
CN111130845A (zh) * | 2019-11-25 | 2020-05-08 | 北京邮电大学 | 基于视觉信息的网站页面IPv6支持度测试方法及装置 |
CN112130944A (zh) * | 2020-09-16 | 2020-12-25 | 北京三快在线科技有限公司 | 页面异常的检测方法、装置、设备及存储介质 |
CN114448849A (zh) * | 2021-12-17 | 2022-05-06 | 北京邮电大学 | 网站IPv6网络支持模式检测方法及电子设备 |
Non-Patent Citations (1)
Title |
---|
王欢欢;吴毅坚;赵文耘;: "Web应用界面跨浏览器兼容性的自动检测方法", 计算机科学, no. 2, pages 444 - 449 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116527548A (zh) * | 2023-06-26 | 2023-08-01 | 中国电信股份有限公司江西分公司 | 一种基于IPv6动态测试方法及系统 |
CN116527548B (zh) * | 2023-06-26 | 2023-09-05 | 中国电信股份有限公司江西分公司 | 一种基于IPv6动态测试方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110069683B (zh) | 一种基于浏览器爬取数据的方法及装置 | |
CN106649316B (zh) | 一种视频推送方法及装置 | |
US10592737B2 (en) | Mathematical formula learner support system | |
CN106897251B (zh) | 富文本展示方法及装置 | |
CN107294918B (zh) | 一种钓鱼网页检测方法及装置 | |
CN108256888B (zh) | 落地页的获取方法、网站服务器以及网络广告监测系统 | |
CN110020339B (zh) | 基于无埋点的网页数据采集方法及装置 | |
CN109977312B (zh) | 一种基于内容标签的知识库推荐系统 | |
CN112417338B (zh) | 一种页面适配方法、系统及设备 | |
US20220114269A1 (en) | Page processing method, electronic apparatus and non-transitory computer-readable storage medium | |
JP2018515845A (ja) | ウェブページでのクリック位置を記録及び復元する方法並びに装置 | |
CN107015986B (zh) | 一种爬虫爬取网页的方法及装置 | |
CN110619075B (zh) | 一种网页识别方法与设备 | |
CN106547806B (zh) | 页面加载方法及装置 | |
CN110020068B (zh) | 一种页面爬取规则的配置方法及装置 | |
CN115297042A (zh) | 检测不同网络下网页一致性的方法及相关设备 | |
CN108363711B (zh) | 一种网页中的暗链的检测方法和装置 | |
CN115437930B (zh) | 网页应用指纹信息的识别方法及相关设备 | |
CN110708270B (zh) | 异常链接检测方法以及装置 | |
CN110929188A (zh) | 服务端页面渲染方法及装置 | |
CN113806667B (zh) | 一种支持网页分类的方法和系统 | |
CN102694802B (zh) | 网络访问信息记录方法和装置 | |
CN111125590B (zh) | 一种绘制热力图的方法及装置 | |
CN110851746B (zh) | 爬虫种子生成方法及装置 | |
CN106997353B (zh) | 网页改版的监控方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |