CN103365967A - 一种基于爬虫的自动化差异检测方法及装置 - Google Patents
一种基于爬虫的自动化差异检测方法及装置 Download PDFInfo
- Publication number
- CN103365967A CN103365967A CN2013102507016A CN201310250701A CN103365967A CN 103365967 A CN103365967 A CN 103365967A CN 2013102507016 A CN2013102507016 A CN 2013102507016A CN 201310250701 A CN201310250701 A CN 201310250701A CN 103365967 A CN103365967 A CN 103365967A
- Authority
- CN
- China
- Prior art keywords
- page
- url
- image
- web
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
公开了一种基于爬虫的自动化差异检测方法及装置。所述方法包括:获取第一Web系统的第一初始统一资源定位符(URL)以及第二Web系统的第二初始URL;基于爬虫分别对第一初始URL和第二初始URL进行遍历,以不断抓取第一Web系统下的第一页面和第二Web系统下的第二页面,其中,在遍历过程中,执行以下处理:对抓取的第一页面和相应的第二页面进行渲染,分别产生第一网页图像和第二网页图像,对第一网页图像和第二网页图像进行相似性比较,当第一网页图像和第二网页图像不同时,产生差异页面信息,并且将所述差异页面信息存储在差异页面信息数据库中。
Description
技术领域
本发明涉及一种自动化差异检测方法及装置,更具体地说,涉及一种基于爬虫的自动化差异检测方法及装置。
背景技术
互联网上的Web系统经常会升级,有些升级仅影响了少数的页面,由于页面实现底层可能有耦合关系,为了保证整个Web系统的质量,测试人员往往需要回归所有的页面,人力消耗很大。
差异(Diff)检测,是通过找出新旧系统的不同来进行回归检测的方法。现有的Web检测技术一般是通过浏览器驱动器操作页面,通过对HTML页面进行分析,定义一些断言的方式进行web自动化检测。例如,selenium、watir框架可提供这种web自动化检测方法。
上述方案需要人工开发测试用例,但页面变化时,经常导致用例不可用,需要更新维护,人力成本较大;上述方案一般对页面的代码进行分析,如果不符合预期即认为是bug,而Web服务最终展现给用户的是可视化的页面,上述方案无法对页面的可视化效果进行验证;上述方案只能对指定的点进行验证。因此,为了减少人力成本,需要一种自动找出变化和不变的页面,同时保证回归检测的效率和质量的差异检测方法。
发明内容
本发明提供了一种自动化差异检测方法及装置。该方法可以对新旧两套Web系统进行自动化测试,快速产生差异测试报告,帮助用户直观准确地定位有差异的部分。
根据本发明示例性实施例的一方面,提供了一种基于爬虫的自动化差异检测方法,所述方法包括:获取第一Web系统的第一初始统一资源定位符(URL)以及第二Web系统的第二初始URL;基于爬虫分别对第一初始URL和第二初始URL进行遍历,以不断抓取第一web系统下的第一页面和第二web系统下的第二页面,其中,在遍历过程中,执行以下处理:对抓取的第一页面和相应的第二页面进行渲染,分别产生第一网页图像和第二网页图像,对第一网页图像和第二网页图像进行相似性比较,当第一网页图像和第二网页图像不同时,产生差异页面信息,并且将所述差异页面信息存储在差异页面信息数据库中。
所述差异页面信息可包括指示所述第一网页图像与所述第二网页图像不同的图像。
所述差异页面信息还可包括与所述第一网页图像对应的第一网页的URL和与所述第二网页图像对应的第二网页的URL,和/或与所述第一网页图像对应的第一网页和与所述第二网页图像对应的第二网页。
进行相似性比较的步骤可包括:将第一网页图像与相应的第二网页图像分别转换为第一灰度图像和第二灰度图像;逐个比较第一灰度图像和第二灰度图像中的每个像素;如果第一灰度图像和第二灰度图像的不同像素数量超过预定阈值,则确定第一网页图像与相应的第二网页图像不同。
可使用第一灰度图像中的与第二灰度图像不同的像素来产生所述差异页面信息。
在所述遍历过程中,可跳过第一Web系统下的非本地URL和第二Web系统下的非本地URL。
如果第一Web系统下的本地URL的后缀与第二Web系统下的相应的本地URL的后缀相同,则可确定所述第一Web系统下的本地URL与所述第二Web系统下的相应的本地URL相同。
在所述遍历过程中,如果从第一页面中提取的URL与从第二页面中提取的相应的URL不相同,则可跳过所述从第一页面中提取的URL和所述从第二页面中提取的相应的URL,并可产生差异页面信息,将差异页面信息存储在差异页面信息数据库中。
所述差异页面信息可包括所述第一页面的URL和所述第二页面的URL,和/或所述第一页面和所述第二页面。
所述方法还可包括:从差异页面信息数据库读取差异页面信息,根据所述差异页面信息产生相应的报告。
根据本发明示例性实施例的一方面,提供了一种基于爬虫的自动化差异检测装置,所述装置包括:URL获取单元,获取第一Web系统的第一初始统一资源定位符(URL)以及第二Web系统的第二初始URL;遍历比较单元,基于爬虫分别对第一初始URL和第二初始URL进行遍历,以不断抓取第一页面和第二页面,其中,在遍历过程中,执行以下处理:对抓取的第一页面和相应的第二页面进行渲染,分别产生第一网页图像和第二网页图像,对第一网页图像和第二网页图像进行相似性比较,当第一网页图像和第二网页图像不同时,产生差异页面信息,并且将所述差异页面信息存储在差异页面信息数据库中。
所述装置还可包括报告产生单元,从差异页面信息数据库读取差异页面信息,根据所述差异页面信息产生相应的报告。
附图说明
通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的基于爬虫的自动化差异检测方法的流程图;
图2示出根据本发明另一示例性实施例的基于爬虫的自动化差异检测方法的流程图;
图3示出根据本发明示例性实施例的基于爬虫的自动化差异检测装置的框图。
具体实施方式
提供以下参照附图的描述以帮助对由权利要求及其等同物限定的本发明的示例性实施例的全面理解。描述包括用于帮助理解的各种特定细节,但是这些细节应仅被视为示例性的。因此,本领域的普通技术人员将认识到,在不脱离本发明的范围和精神的情况下,可以对这里描述的实施例进行各种改变和修改。此外,为了清楚和简明,可省略对公知功能和结构的描述。
图1示出根据本发明示例性实施例的基于爬虫的自动化差异检测方法的流程图。
参照图1,在步骤S101,初始化新旧Web系统的统一资源定位符(URL)对并写入“待提取新旧URL对队列”。例如,记被测Web系统URL前缀为http://test-envi/,基准Web系统URL前缀为http://online-envi,待测项目URL与基准Web系统的后缀为test_project。因此,初始化完成的新URL是被测Web系统的URL,为http://test-envi/test_project,旧URL是基准Web系统的URL,为http://online-envi/test-project。
在步骤S102,从“待提取新旧URL对队列”中提取URL对。例如,如果队列中存在未提取的URL对,则提取所述URL对并在队列中删除所述URL对,然后执行步骤S103;如果队列为空,则执行步骤S111。
在步骤S103,抓取新旧URL对应的页面。例如,通过抓取页面的源代码来抓取页面,同时抓取页面依赖的代码,诸如CSS、JavaScript脚本等。
在步骤S104,渲染页面。例如,使用浏览器渲染组件,分别对新旧页面进行渲染,得到用户可视化的页面。然后调用步骤S105及其后的步骤提取其它URL;调用步骤S108及其后的步骤针对本次抓取、渲染的页面产生图像并对产生的新旧图像进行相似性比较。
在步骤S105,提取页面中的新URL。例如,分别对渲染后的新旧页面进行分析,从中提取新的URL。具体页面分析、提取URL的方法可以使用与搜索引擎相同的方法。
在步骤S106,判断从新旧页面提取的URL是否相同。例如,将新页面中提取出的URL集合划分为本地URL和非本地URL,如果提取出的URL的前缀是“http://test-envi/”,或者提取出的URL是所述新Web系统下的子路径,则所述URL是新Web系统下的本地URL,除本地URL以外的其它URL是新Web系统下的非本地URL。类似的,将旧页面中提取出的URL集合也划分为本地URL和非本地URL,如果提取出的URL的前缀是“http://online-envi/”,或者提取出的URL是所述旧Web系统下的子路径,则所述URL是旧Web系统下的本地URL,除本地URL以外的其它URL是旧Web系统下的非本地URL。这里,如果从新页面中提取的本地URL的后缀与从旧页面中提取的相应的本地URL的后缀相同,则认为从新页面中提取的本地URL与从旧页面中提取的相应的本地URL相同。然而,对于从新页面中提取的非本地URL与从旧页面中提取的相应的非本地URL,仅在其URL全部相同时,才认为所述两个非本地URL相同。对从新页面中提取的URL与从旧页面中提取的相应的URL进行比较,如果所述两个URL相同,则处理进行到步骤S107;如果所述两个URL不相同,则将当前新旧页面的URL和/或当前新旧页面作为差异页面信息存入差异页面信息数据库。
在步骤S107,将相同的URL对写入队列。例如,将在步骤S106确定的相同的URL对中的本地URL对写入“待提取新旧URL对队列”。在将URL对写入“待提取新旧URL对队列”前,可以对所述URL进行判断,移除已经抓取过和/或不希望抓取的URL。
S108,使用渲染后的新旧页面产生新旧两个图像。
S109,进行图像相似性对比,如果新旧图像相同,则返回步骤S102;如果新旧图像不同,则确定所述新旧页面存在差异,存储与新页面的差异部分相应的图像,并将所述图像作为差异页面信息存入差异页面信息数据库。可以使用图像相似性比较算法来比较图像的相似性。例如,将新旧图像分别转换为新旧灰度图像,逐个比较新旧灰度图像中的每个像素,如果不同的像素数量超过给定阈值,则确定新旧图像不同,使用新灰度图像中的与旧灰度图像不同的像素生成与新页面的差异部分相应的图像,存储所述与新页面的差异部分相应的图像。然而,本发明的示例性实施例不限于此,可通过任何用于比较图像相似性的方法来实现本发明的实施例。
在步骤S110,将通过步骤S106获得的新旧Web系统中存在差异的页面和/或其URL、和/或通过步骤S109获得的存在差异的新旧页面的图像和/或与所述差异的部分相应的图像,作为差异页面信息存入差异页面信息数据库。
在步骤S111,从差异页面信息数据库中读取差异页面信息,生成差异化测试报告,返回新旧系统中不同的页面和/或其URL、指示不同的部分的图像。
图2示出根据本发明另一示例性实施例的基于爬虫的自动化差异检测方法的流程图。
参照图2,在步骤S201,获取第一Web系统的第一初始统一资源定位符(URL)以及第二Web系统的第二初始URL;
在步骤S202,基于爬虫分别对第一初始URL和第二初始URL进行遍历,以不断抓取第一web系统下的第一页面和第二web系统下的第二页面。在所述遍历过程中,执行以下处理:对抓取的第一页面和相应的第二页面进行渲染,分别产生第一网页图像和第二网页图像,对第一网页图像和第二网页图像进行相似性比较,当第一网页图像和第二网页图像不同时,产生差异页面信息,并且将所述差异页面信息存储在差异页面信息数据库中。所述差异页面信息可以包括指示所述第一网页图像与所述第二网页图像不同的图像。所述差异页面信息还可以包括与所述第一网页图像对应的第一网页和与所述第二网页图像对应的第二网页,和/或它们的URL。
作为示例,将第一网页图像与相应的第二网页图像分别转换为第一灰度图像和第二灰度图像;逐个比较第一灰度图像和第二灰度图像中的每个像素;如果第一灰度图像和第二灰度图像的不同像素数量超过预定阈值,则确定第一网页图像与相应的第二网页图像不同。通过使用第一灰度图像中的与第二灰度图像不同的像素来产生所述差异页面信息。然而,本发明的示例性实施例不限于此,可通过任何用于比较图像相似性的方法来实现本发明的实施例。
在所述遍历过程中,可以跳过第一Web系统下的非本地URL和第二Web系统下的非本地URL(即,不对所述两个URL进行抓取和遍历)。这里,如果第一Web系统下的本地URL的后缀与第二Web系统下的相应的本地URL的后缀相同,则可确定所述第一Web系统下的本地URL与所述第二Web系统下的相应的本地URL相同。此外,如果从第一页面中提取的URL与从第二页面中提取的相应的URL不相同,则还可跳过所述从第一页面中提取的URL和所述从第二页面中提取的相应的URL(即,不对所述两个URL进行抓取和遍历),并产生差异页面信息,将差异页面信息存储在差异页面信息数据库中。所述差异页面信息可包括所述第一页面和所述第二页面,和/或它们的URL。
所述方法还可包括步骤S203,从差异页面信息数据库读取差异页面信息,根据所述差异页面信息产生相应的报告。所述相应的报告可包括第一Web系统和第二Web系统中的不同页面和/或其URL、指示不同页面的不同部分的图像等。
图3示出根据本发明示例性实施例的基于爬虫的自动化差异检测装置300的框图。
参照图3,自动化差异检测装置300包括URL获取单元310和遍历比较单元320。
URL获取单元310可获取第一Web系统的第一初始统一资源定位符(URL)以及第二Web系统的第二初始URL;
遍历比较单元可基于爬虫分别对第一初始URL和第二初始URL进行遍历,以不断抓取第一web系统下的第一页面和第二web系统下的第二页面。在所述遍历过程中,遍历比较单元执行以下处理:对抓取的第一页面和相应的第二页面进行渲染,分别产生第一网页图像和第二网页图像,对第一网页图像和第二网页图像进行相似性比较,当第一网页图像和第二网页图像不同时,产生差异页面信息,并且将所述差异页面信息存储在差异页面信息数据库中。
自动化差异检测装置300还包括报告产生单元330。报告产生单元330可从差异页面信息数据库读取差异页面信息,根据所述差异页面信息产生相应的报告。所述相应的报告可包括第一Web系统和第二Web系统中的不同页面和/或其URL、指示不同页面的不同部分的图像等。
根据本发明的示例性实施例,可以对新旧两套Web系统进行自动化测试,快速产生差异测试报告,帮助用户直观准确地定位有差异的部分。因此,根据本发明的示例性实施例可对整个页面的效果进行验证,有效保证产品质量,降低系统维护代价,节省测试成本,加快产品开发、测试、发布的周期。
虽然已经参照本发明的特定示例性实施例示出并描述了本发明,但是本领域的技术人员应理解,在不脱离由权利要求及其等同物限定的本发明的精神和范围的情况下,可以在形式和细节上对本发明进行各种改变。
Claims (20)
1.一种基于爬虫的自动化差异检测方法,所述方法包括:
获取第一Web系统的第一初始统一资源定位符(URL)以及第二Web系统的第二初始URL;
基于爬虫分别对第一初始URL和第二初始URL进行遍历,以不断抓取第一web系统下的第一页面和第二web系统下的第二页面,
其中,在遍历过程中,执行以下处理:对抓取的第一页面和相应的第二页面进行渲染,分别产生第一网页图像和第二网页图像,对第一网页图像和第二网页图像进行相似性比较,当第一网页图像和第二网页图像不同时,产生差异页面信息,并且将所述差异页面信息存储在差异页面信息数据库中。
2.如权利要求1所述的方法,其中,所述差异页面信息包括指示所述第一网页图像与所述第二网页图像不同的图像。
3.如权利要求2所述的方法,其中,所述差异页面信息还包括与所述第一网页图像对应的第一网页的URL和与所述第二网页图像对应的第二网页的URL,和/或与所述第一网页图像对应的第一网页和与所述第二网页图像对应的第二网页。
4.如权利要求1所述的方法,其中,进行相似性比较的步骤包括:
将第一网页图像与相应的第二网页图像分别转换为第一灰度图像和第二灰度图像;
逐个比较第一灰度图像和第二灰度图像中的每个像素;
如果第一灰度图像和第二灰度图像的不同像素数量超过预定阈值,则确定第一网页图像与相应的第二网页图像不同。
5.如权利要求4所述的方法,其中,使用第一灰度图像中的与第二灰度图像不同的像素来产生所述差异页面信息。
6.如权利要求1所述的方法,其中,在所述遍历过程中,跳过第一Web系统下的非本地URL和第二Web系统下的非本地URL。
7.如权利要求1所述的方法,其中,如果第一Web系统下的本地URL的后缀与第二Web系统下的相应的本地URL的后缀相同,则确定所述第一Web系统下的本地URL与所述第二Web系统下的相应的本地URL相同。
8.如权利要求7所述的方法,其中,在所述遍历过程中,如果从第一页面中提取的URL与从第二页面中提取的相应的URL不相同,则跳过所述从第一页面中提取的URL和所述从第二页面中提取的相应的URL,并产生差异页面信息,将差异页面信息存储在差异页面信息数据库中。
9.如权利要求8所述的方法,其中,所述差异页面信息包括所述第一页面的URL和所述第二页面的URL,和/或所述第一页面和所述第二页面。
10.如权利要求1或8所述的方法,还包括,从差异页面信息数据库读取差异页面信息,根据所述差异页面信息产生相应的报告。
11.一种基于爬虫的自动化差异检测装置,所述装置包括:
URL获取单元,获取第一Web系统的第一初始统一资源定位符(URL)以及第二Web系统的第二初始URL;
遍历比较单元,基于爬虫分别对第一初始URL和第二初始URL进行遍历,以不断抓取第一web系统下的第一页面和第二web系统下的第二页面,
其中,在遍历过程中,执行以下处理:对抓取的第一页面和相应的第二页面进行渲染,分别产生第一网页图像和第二网页图像,对第一网页图像和第二网页图像进行相似性比较,当第一网页图像和第二网页图像不同时,产生差异页面信息,并且将所述差异页面信息存储在差异页面信息数据库中。
12.如权利要求11所述的装置,其中,所述差异页面信息包括指示所述第一网页图像与所述第二网页图像不同的图像。
13.如权利要求12所述的装置,其中,所述差异页面信息还包括与所述第一网页图像对应的第一网页的URL和与所述第二网页图像对应的第二网页的URL,和/或与所述第一网页图像对应的第一网页和与所述第二网页图像对应的第二网页。
14.如权利要求11所述的装置,其中,遍历比较单元还被配置为:
将第一网页图像与相应的第二网页图像分别转换为第一灰度图像和第二灰度图像;
逐个比较第一灰度图像和第二灰度图像中的每个像素;
如果第一灰度图像和第二灰度图像的不同像素数量超过预定阈值,则确定第一网页图像与相应的第二网页图像不同。
15.如权利要求14所述的装置,其中,遍历比较单元还被配置为使用第一灰度图像中的与第二灰度图像不同的像素来产生所述差异页面信息。
16.如权利要求1所述的装置,其中,遍历比较单元还被配置为在所述遍历过程中跳过第一Web系统下的非本地URL和第二Web系统下的非本地URL。
17.如权利要求11所述的装置,其中,遍历比较单元还被配置为:如果第一Web系统下的本地URL的后缀与第二Web系统下的相应的本地URL的后缀相同,则确定所述第一Web系统下的本地URL与所述第二Web系统下的相应的本地URL相同。
18.如权利要求17所述的装置,其中,遍历比较单元还被配置为:在所述遍历过程中,如果从第一页面中提取的URL与从第二页面中提取的相应的URL不相同,则跳过所述从第一页面中提取的URL和所述从第二页面中提取的相应的URL,并产生差异页面信息,将差异页面信息存储在差异页面信息数据库中。
19.如权利要求18所述的装置,其中,所述差异页面信息包括所述第一页面的URL和所述第二页面的URL,和/或所述第一页面和所述第二页面。
20.如权利要求11或18所述的装置,还包括报告产生单元,从差异页面信息数据库读取差异页面信息,根据所述差异页面信息产生相应的报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310250701.6A CN103365967B (zh) | 2013-06-21 | 2013-06-21 | 一种基于爬虫的自动化差异检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310250701.6A CN103365967B (zh) | 2013-06-21 | 2013-06-21 | 一种基于爬虫的自动化差异检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103365967A true CN103365967A (zh) | 2013-10-23 |
CN103365967B CN103365967B (zh) | 2017-02-08 |
Family
ID=49367308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310250701.6A Active CN103365967B (zh) | 2013-06-21 | 2013-06-21 | 一种基于爬虫的自动化差异检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103365967B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793523A (zh) * | 2014-02-20 | 2014-05-14 | 刘峰 | 一种基于内容相似度计算的自动搜索引擎构建方法 |
CN103870546A (zh) * | 2014-02-26 | 2014-06-18 | 百度在线网络技术(北京)有限公司 | 转码后线上线下环境页面对比的分析方法和设备 |
CN104142987A (zh) * | 2014-07-24 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种页面的内容管理方法、装置及终端设备 |
CN106294368A (zh) * | 2015-05-15 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 网络爬虫识别方法和装置 |
CN107615251A (zh) * | 2015-06-03 | 2018-01-19 | 新日铁住金系统集成株式会社 | 信息处理装置、信息处理方法及程序 |
WO2018103488A1 (zh) * | 2016-12-08 | 2018-06-14 | 腾讯科技(深圳)有限公司 | 网页抓取方法及服务器 |
CN108173877A (zh) * | 2018-02-02 | 2018-06-15 | 克洛斯比尔有限公司 | 用于防止钓鱼网站的方法和设备 |
CN108536467A (zh) * | 2018-04-08 | 2018-09-14 | 中国联合网络通信集团有限公司 | 代码的定位处理方法、装置、终端设备及存储介质 |
CN111966600A (zh) * | 2020-08-31 | 2020-11-20 | 平安健康保险股份有限公司 | 网页测试方法、装置、计算机设备及计算机可读存储介质 |
CN113761442A (zh) * | 2021-08-10 | 2021-12-07 | 远光软件股份有限公司 | 一种页面内容审核方法、装置、设备以及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090307220A1 (en) * | 2008-06-05 | 2009-12-10 | Bennett James D | Image search engine employing image correlation |
CN101980205A (zh) * | 2010-11-04 | 2011-02-23 | 上海银杏界信息科技有限公司 | 通用页面的生成方法 |
CN102467666A (zh) * | 2010-11-15 | 2012-05-23 | 富士施乐株式会社 | 图像处理设备、图像处理系统以及图像处理方法 |
CN102779245A (zh) * | 2011-05-12 | 2012-11-14 | 李朝荣 | 基于图像处理技术的网页异常检测方法 |
CN102932197A (zh) * | 2011-08-11 | 2013-02-13 | 阿里巴巴集团控股有限公司 | 一种测试方法及测试系统 |
-
2013
- 2013-06-21 CN CN201310250701.6A patent/CN103365967B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090307220A1 (en) * | 2008-06-05 | 2009-12-10 | Bennett James D | Image search engine employing image correlation |
CN101980205A (zh) * | 2010-11-04 | 2011-02-23 | 上海银杏界信息科技有限公司 | 通用页面的生成方法 |
CN102467666A (zh) * | 2010-11-15 | 2012-05-23 | 富士施乐株式会社 | 图像处理设备、图像处理系统以及图像处理方法 |
CN102779245A (zh) * | 2011-05-12 | 2012-11-14 | 李朝荣 | 基于图像处理技术的网页异常检测方法 |
CN102932197A (zh) * | 2011-08-11 | 2013-02-13 | 阿里巴巴集团控股有限公司 | 一种测试方法及测试系统 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793523B (zh) * | 2014-02-20 | 2017-02-08 | 刘峰 | 一种基于内容相似度计算的自动搜索引擎构建方法 |
CN103793523A (zh) * | 2014-02-20 | 2014-05-14 | 刘峰 | 一种基于内容相似度计算的自动搜索引擎构建方法 |
CN103870546A (zh) * | 2014-02-26 | 2014-06-18 | 百度在线网络技术(北京)有限公司 | 转码后线上线下环境页面对比的分析方法和设备 |
CN103870546B (zh) * | 2014-02-26 | 2017-03-01 | 百度在线网络技术(北京)有限公司 | 转码后线上线下环境页面对比的分析方法和设备 |
CN104142987A (zh) * | 2014-07-24 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种页面的内容管理方法、装置及终端设备 |
CN106294368A (zh) * | 2015-05-15 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 网络爬虫识别方法和装置 |
CN106294368B (zh) * | 2015-05-15 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 网络爬虫识别方法和装置 |
CN107615251B (zh) * | 2015-06-03 | 2020-11-10 | 日铁系统集成株式会社 | 信息处理装置、信息处理方法及存储介质 |
CN107615251A (zh) * | 2015-06-03 | 2018-01-19 | 新日铁住金系统集成株式会社 | 信息处理装置、信息处理方法及程序 |
WO2018103488A1 (zh) * | 2016-12-08 | 2018-06-14 | 腾讯科技(深圳)有限公司 | 网页抓取方法及服务器 |
US10922364B2 (en) | 2016-12-08 | 2021-02-16 | Tencent Technology (Shenzhen) Company Limited | Web crawling method and server |
CN108173877A (zh) * | 2018-02-02 | 2018-06-15 | 克洛斯比尔有限公司 | 用于防止钓鱼网站的方法和设备 |
CN108536467A (zh) * | 2018-04-08 | 2018-09-14 | 中国联合网络通信集团有限公司 | 代码的定位处理方法、装置、终端设备及存储介质 |
CN108536467B (zh) * | 2018-04-08 | 2021-11-02 | 中国联合网络通信集团有限公司 | 代码的定位处理方法、装置、终端设备及存储介质 |
CN111966600A (zh) * | 2020-08-31 | 2020-11-20 | 平安健康保险股份有限公司 | 网页测试方法、装置、计算机设备及计算机可读存储介质 |
CN111966600B (zh) * | 2020-08-31 | 2023-08-04 | 平安健康保险股份有限公司 | 网页测试方法、装置、计算机设备及计算机可读存储介质 |
CN113761442A (zh) * | 2021-08-10 | 2021-12-07 | 远光软件股份有限公司 | 一种页面内容审核方法、装置、设备以及存储介质 |
CN113761442B (zh) * | 2021-08-10 | 2024-01-19 | 远光软件股份有限公司 | 一种页面内容审核方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103365967B (zh) | 2017-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103365967A (zh) | 一种基于爬虫的自动化差异检测方法及装置 | |
CN109101425B (zh) | 一种动态化的页面ab测试的指标埋点方法和装置 | |
CN110674408B (zh) | 业务平台、训练样本的实时生成方法及装置 | |
CN103823754A (zh) | 一种实现自动测试的方法及装置 | |
CN104994425A (zh) | 一种视频标识方法和装置 | |
CN103455414B (zh) | 获取控件的逻辑位置的方法及装置 | |
CN103902674A (zh) | 特定主题的评论数据的采集方法和装置 | |
CN106326108A (zh) | 一种新应用的测试方法及装置 | |
CN110019823B (zh) | 更新知识图谱的方法及装置 | |
CN105868096A (zh) | 用于在浏览器中显示web页面测试结果的方法、装置及设备 | |
CN105808417A (zh) | 自动化测试方法及代理服务器 | |
CN102609412A (zh) | 基于rss的多线程图文信息同步爬取的控制方法及系统 | |
CN103838754A (zh) | 信息搜索装置及方法 | |
CN111401228A (zh) | 视频目标标注方法、装置及电子设备 | |
CN105354138A (zh) | 一种确定手机页面上特定控件属性的方法 | |
CN108399321B (zh) | 基于动态指令依赖图胎记的软件局部抄袭检测方法 | |
CN111368824A (zh) | 一种仪表识别方法、移动设备及存储介质 | |
CN103761257A (zh) | 基于移动浏览器的网页处理方法及系统 | |
CN103475532A (zh) | 硬件检测方法和系统 | |
CN103235757B (zh) | 基于自动化造数对输入域测试对象进行测试的装置和方法 | |
CN109491884A (zh) | 代码性能检测方法、装置、计算机设备和介质 | |
CN102395042A (zh) | 对数字电视系统进行调试的方法及系统 | |
CN105069663A (zh) | 一种基于用户偏好的信息推送方法和装置 | |
CN104808995A (zh) | 一种用于跨应用收藏应用内容的方法和装置 | |
CN102929948B (zh) | 列表页识别系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |