CN108280110A - 网站差异对比方法、装置及客户端 - Google Patents
网站差异对比方法、装置及客户端 Download PDFInfo
- Publication number
- CN108280110A CN108280110A CN201710340472.5A CN201710340472A CN108280110A CN 108280110 A CN108280110 A CN 108280110A CN 201710340472 A CN201710340472 A CN 201710340472A CN 108280110 A CN108280110 A CN 108280110A
- Authority
- CN
- China
- Prior art keywords
- website
- label
- webpage
- contrast difference
- targeted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提出一种网站差异对比方法、装置及客户端,涉及互联网技术领域。本发明实施例提供的网站差异对比装置通过爬取第一目标网站和第二目标网站的网页页面内容以获取所述网页页面内的标签,通过比对所述第一目标网站和所述第二目标网站对应的网页页面内的标签以获取比对结果,并依据所述比对结果调整所述第一目标网站和第二目标网站对应的网页页面内的标签。该网站差异对比方法及装置可以快速比较出第一目标网站与第二目标网站的差异,并以直观的方式呈现差异结果,用户体验较好。
Description
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种网站差异对比方法、装置及客户端。
背景技术
随着互联网技术的发展,涌现出很多网站给人们提供网络服务。为了不断完善网站内容,提高用户体验,通常需要对网站进行分析,了解该网站与其他网站的差异,不断对网站升级更新,推出新的版本。
然而,有很多网站在功能和展现形式上极为相似,同一网站推出的新版本只是较细微的改动,因此,用户难以快速直观地找出一个网站与其他网站的差异或者同一个网站在更新前及更新后的差异。
发明内容
本发明的目的在于提供一种网站差异对比方法及装置,以快速找出网站之间的差异,并将差异呈现出来。
本发明的目的还在于提供一种客户端,以快速找出网站之间的差异,并将差异呈现出来。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提出一种网站差异对比方法。所述网站差异对比方法包括爬取第一目标网站和第二目标网站的网页页面内容以获取所述网页页面内的标签,比对所述第一目标网站和所述第二目标网站对应的网页页面内的标签以获取比对结果,依据所述比对结果调整所述第一目标网站和第二目标网站对应的网页页面内的标签。
第二方面,本发明实施例还提出一种网站差异对比装置,所述网站差异对比装置包括爬取模块、比对模块以及调整模块。其中,所述爬取模块用于爬取第一目标网站和第二目标网站的网页页面内容,以获取所述网页页面内的标签,所述比对模块用于比对所述第一目标网站和所述第二目标网站对应的网页页面内的标签,以获取比对结果,所述调整模块用于依据所述比对结果调整所述第一目标网站和第二目标网站对应的网页页面内的标签。
第三方面,本发明实施例还提出一种客户端,所述客户端包括:存储器;处理器;及
网站差异对比装置,所述网站差异对比装置存储在所述存储器中并包括一个或多个由所述处理器执行的软件功能模块,所述网站差异对比装置包括爬取模块、比对模块以及调整模块。其中,所述爬取模块用于爬取第一目标网站和第二目标网站的网页页面内容以获取所述网页页面内的标签,所述比对模块用于比对所述第一目标网站和所述第二目标网站对应的网页页面内的标签以获取比对结果,所述调整模块用于依据所述比对结果调整所述第一目标网站和第二目标网站对应的网页页面内的标签。
相对现有技术,本发明具有以下有益效果:本发明实施例提供的网站差异对比方法及装置,通过爬取第一目标网站和第二目标网站的网页页面内容,以获取所述网页页面内的标签,通过比对所述第一目标网站和所述第二目标网站对应的网页页面内的标签以获取比对结果,并依据所述比对结果调整所述第一目标网站和第二目标网站对应的网页页面内的标签。该网站差异对比方法及装置可以快速比较出第一目标网站与第二目标网站的差异,并以直观的方式呈现差异结果,用户体验较好。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的客户端的结构框图。
图2示出了本发明第一实施例所提供的网站差异对比装置的功能模块图。
图3示出了第一目标网站与第二目标网站差异对比后的结果显示图。
图4示出了本发明第二实施例所提供的网站差异对比装置的功能模块图。
图5示出了第一目标网站与第二目标网站差异对比后的另一种结果显示图。
图6示出了本发明第三实施例所提供的网站差异对比方法的流程示意图。
图7示出了本发明第四实施例所提供的网站差异对比方法的流程示意图。
图标:100-客户端;110-存储器;120-存储控制器;130-处理器;140-外设接口;150-显示单元;160-输入输出单元;400-网站差异对比装置;410-规则设置模块;420-爬取模块;430-比对模块;440-关键词匹配模块;450-调整模块;460-响应模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1示出了一种可应用于本发明实施例提供的客户端100的结构框图。在本发明实施例中,所述客户端100可以是,但不限于,平板电脑、个人电脑(personal computer,PC)等终端设备。如图1所示,该客户端100可以包括存储器110、存储控制器120、处理器130、外设接口140、显示单元150及输入输出单元160。
所述存储器110、存储控制器120、处理器130、外设接口140、显示单元150及输入输出单元160各元件之间直接或间接地电性连接,以实现数据的传输或者交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。在本实施例中,网站差异对比装置400包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中或固化在所述客户端100的操作系统(operating system,OS)中的软件功能模块。该处理器130用于执行所述存储器110中存储的可执行模块,例如该网站差异对比装置400所包括的软件功能模块及计算机程序等。
其中,所述存储器110可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器110可用于存储软件程序以及模块,如本发明实施例中的网站差异对比方法,处理器130用于在接收到执行指令后,执行该程序。该处理器130以及其他可能的组件对存储器110的访问可在存储控制器120的控制下进行。
所述处理器130可能是一种集成电路芯片,具有信号处理能力。该处理器130可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP))、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
所述外设接口140将各种输入/输出装置(例如显示单元150及输入输出单元160)耦合至该处理器130以及该存储器110。在一些实施例中,外设接口140、处理器130以及存储控制器120可以在单个芯片中实现。在其他一些实例中,它们可以分别由独立的芯片实现。
所述显示单元150用于提供一个交互界面(例如用户操作界面)或者用于显示图像数据。在本实施例中,所述显示单元150可以是液晶显示器或触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处产生的触控操作,并将该感应到的触控操作交由处理器130进行计算和处理。
所述输入输出单元160用于提供用户输入数据实现用户与所述客户端100的交互。在本实施例中,所述输入输出单元160可以是,但不限于,鼠标、键盘等。
可以理解,图1所示的结构仅为示意,所述客户端100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
第一实施例
请参照图2,为本发明第一实施例所提供的网站差异对比装置400的结构框图。所述网站差异对比装置400包括规则设置模块410、爬取模块420、比对模块430、关键词匹配模块440及调整模块450。
所述规则设置模块410用于设置爬取规则以便所述爬取模块420爬取出符合所述爬取规则的网页页面内容。
在本实施例中,所述规则设置模块410通过设置爬取规则以确定将要爬取的网页页面内容的特征。例如,对网站“www.uc123.com”设置一个爬取规则“selector:".cool-list dt a"”,其中,".cool-list dt a"表示在该网站上爬取的内容是一个<a>标签,该<a>标签满足其上层节点是一个<dt>标签,再上层是包含了"cool-list"的节点,不符合这个爬取规则的内容则不在爬取的范围内。在本实施例中,所述爬取规则可以为一个或者多个。需要说明的是,在本实施例中,也可以不设置爬取规则,当未设置任何爬取规则时,则默认爬取该网站的网页页面内的所有内容。
所述爬取模块420用于爬取第一目标网站和第二目标网站的网页页面内容,以获取所述网页页面内的标签。
在本实施例中,所述爬取模块420可根据所述规则设置模块410设置的爬取规则爬取出符合所述爬取规则的第一目标网站和第二目标网站的网页页面内容,以分别获取第一目标网站的网页页面内的标签和第二目标网站的网页页面内的标签。
具体地,所述爬取模块420对设置的爬取规则进行解析处理,然后分别在第一目标网站和第二目标网站上爬取出所有符合该爬取规则的网页页面内容,以获取第一目标网站和第二目标网站的网页页面内的标签的内容、URL地址及出现次数。例如,爬取出的其中一个<a>标签,其内容为“购物”,URL地址为“gouwu.uc123.com/”,出现次数为2。需要说明的是,在本实施例中,所述第一目标网站和所述第二目标网站可以是不同的网站,也可以是同一网站的不同版本,对此不作限定。同时,对进行差异比较的第一目标网站和第二目标网站的数量也不做限定。
所述比对模块430用于比对所述第一目标网站和所述第二目标网站对应的网页页面内的标签,以获取比对结果。
在本实施例中,所述比对模块430可依据所述标签的内容、URL地址及出现次数对所述第一目标网站和第二目标网站对应的网页页面内的所述标签进行比对,以获取所述比对结果。
具体地,可采用以下比对方式,对于所述第一目标网站的网页页面内的一个标签,若在爬取出的第二目标网站的网页页面内容中没有与该标签的URL地址相同的标签,则所述比对模块430可得到比对结果“第一目标网站的网页页面内的该标签为新增标签”;同理,对于所述第二目标网站的网页页面内的一个标签,若在爬取出的第一目标网站的网页页面内容中没有与该标签的URL地址相同的标签,则所述比对模块430可得到比对结果“第二目标网站的网页页面内的该标签为新增标签”。例如,第一目标网站的网页页面内的一个标签的内容为“影视”、URL地址为“www.uc123.com/yingshi.html”且出现次数为“2”,在第二目标网站对应的网页页面内容中没有与该URL地址相同的标签,该标签为新增标签。例如,第一目标网站的网页页面内的一个标签的内容为“游戏”、URL地址为“www.uc123.com/game.html”且出现次数为“2”,第二目标网站的网页页面内的一个标签的内容为“游戏”、URL地址为“game.hao123.com/”且出现次数为“2”,这两个标签虽然内容和出现次数相同,但是它们的URL地址不同,因此分别为第一目标网站及第二目标网站的网页页面内的新增标签。
对于第一目标网站的网页页面内的一个标签,若在爬取出的第二目标网站的网页页面内容中具有与该标签的URL地址相同的标签,但是该两个标签的出现次数不同或者标签内容不同,则表明该两个标签有差异,所述比对模块430可得出比对结果“两个标签的出现次数不同”或“两个标签的内容不同”。例如,两个标签的URL地址相同且标签内容均为“17173”,其中第一目标网站的网页页面内容中的该标签的出现次数“1”,第二目标网站的网页页面内容中的该标签的出现次数为“2”,则表明该两个标签有差异,得到比对结果为“两个标签的出现次数不同”。例如,两个标签的URL地址相同且出现次数均为“2”,其中第一目标网站的网页页面内容中的该标签的内容为“淘宝网”,第二目标网站的网页页面内容中的该标签的内容为“淘宝”,则表明该两个标签有差异,得到比对结果为“两个标签的内容不同”。
对于第一目标网站的网页页面内的一个标签,若在爬取出的第二目标网站的网页页面内容中具有与该标签的URL地址相同的标签,并且该两个标签的出现次数以及标签内容均相同,则所述比对模块430可得出比对结果“两个标签为相同标签”。例如,第一目标网站的网页页面内有一个标签,其内容为“凤凰军事”、URL地址为“news.ifeng.com/mil/”且出现次数为“4次”,在第二目标网站的网页页面内具有标签内容为“凤凰军事”、URL地址为“news.ifeng.com/mil/”且出现次数为“4次”的相同标签。
需要说明的是,上述采用的比对方式仅为一种实施方式,应当理解,上述对新增标签、差异标签及相同标签的定义还可以有其它方式,比如可将新增标签定义为“内容、URL地址均不同”的标签。
所述关键词匹配模块440用于依据所述比对结果为所述标签匹配关键词。
在本实施例中,所述关键词匹配模块440依据比对结果分别给所述第一目标网站对应的网页页面内的标签及第二目标网站对应的网页页面内的标签匹配关键词以对标签进行相应的标记,其中所述关键词可以表征所述比对结果。例如,当比对结果为“第一目标网站的网页页面内的该标签为新增标签”或“第二目标网站的网页页面内的该标签为新增标签”时,所述关键词匹配模块440给所述第一目标网站或者第二目标网站的网页页面内对应的新增标签匹配一个关键词“new”;当比对结果为“两个标签的出现次数不同”时,所述关键词匹配模块440分别给该两个标签匹配一个关键词“diff-count”;当比对结果为“两个标签的内容不同”时,所述关键词匹配模块440分别给这两个标签匹配一个关键词“diff-label”;以及当比对结果为“两个标签为相同标签”时,所述关键词匹配模块440分别给两个标签匹配一个关键词“equal”。
调整模块450用于依据所述比对结果调整所述第一目标网站和第二目标网站对应的网页页面内的标签。
在本实施例中,所述调整模块450用于依据所述关键词调整所述第一目标网站和所述第二目标网站对应的网页页面内的标签。具体地,所述调整模块450可依据所述关键词改变所述第一目标网站和所述第二目标网站对应的网页页面内的标签的显示方式。例如,使标签以不同的颜色显示在所述第一目标网站和第二目标网站上以将差异结果更为直观地呈现出来。在本实施例中,可将标记了关键词“new”的标签采用绿色显示在所述第一目标网站和第二目标网站上,可将标记了关键词“diff-count”的标签采用黄色显示在所述第一目标网站和第二目标网站上,可将标记了关键词“diff-label”的标签采用橙色显示在所述第一目标网站和第二目标网站上,可将标记了关键词“equal”的标签采用白色显示在所述第一目标网站和第二目标网站上。如图3所示,为本实施例中第一目标网站与第二目标网站差异对比后的结果显示图,用户分别打开第一目标网站的网页页面和第二目标网站的网页页面后,网页页面内的标签以与关键词对应的颜色显示在网页页面内,使用户可以很容易地了解第一目标网站与第二目标网站的差异之处以及相同之处。
需要说明的是,上述标签的显示颜色仅是一种示例,可以根据用户的实际需要进行设定。上述调整所述第一目标网站和第二目标网站对应的网页页面内的标签,并不仅限于改变所述第一目标网站和所述第二目标网站对应的网页页面内的标签的显示颜色这一种实施方式,比如可以根据匹配的关键词的类型使网页页面内的标签具有不同的标识,例如使显示在网页页面内的标签中,匹配了关键词“new”的标签上带有标识“*”,匹配了关键词“diff-count”的标签上带有标识“☆”,匹配了关键词“diff-label”的标签上带有标识匹配了关键词“equal”的标签上带有标识“◇”。
第二实施例
请参照图4,为本发明第二实施例所提供的网站差异对比装置400的结构框图。与第一实施例不同的是,所述网站差异对比装置400还包括响应模块460,所述响应模块460用于响应用户对任一所述标签的选择操作,在所述第一目标网站或所述第二目标网站对应的网页页面内显示与任一所述标签对应的所述关键词和所述出现次数。
如图5所示,为第一目标网站与第二目标网站差异对比后的另一种结果显示图。具体地,当第一目标网站与第二目标网站的差异比较完成后,用户可打开第一目标网站或者第二目标网站,选择任一标签,将鼠标移到第一目标网站中的网页页面的任一标签上(比如标签内容为“17173”的标签),则所述响应模块460响应该用户的选择操作,并在该标签所在的网页页面内显示“diff-count;出现1次”。用户将鼠标移到第二目标网站中的网页页面的任一标签上(比如标签内容为“17173”的标签),则所述响应模块460响应该用户的选择操作,并在该标签所在的网页页面内显示“diff-count;出现2次”。
第三实施例
请参照图6,为本发明第三实施例所提供的网站差异对比方法的流程示意图。需要说明的是,本发明实施例所述的网站差异对比方法并不以图6以及以下所述的具体顺序为限制,其基本原理及产生的技术效果与第一实施例相同,为简要描述,本实施例中未提及部分,可参考第一实施例中的相应内容。应当理解,在其它实施例中,本发明所述的网站差异对比方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。下面将对图6所示的具体流程进行详细阐述。
步骤S101,设置爬取规则以便爬取出符合所述爬取规则的网页页面内容。
可以理解,该步骤S101可以由上述的规则设置模块410执行。
步骤S102,爬取第一目标网站和第二目标网站的网页页面内容,以获取所述网页页面内的标签。
可以理解,该步骤S102可以由上述的爬取模块420执行。
步骤S103,比对所述第一目标网站和所述第二目标网站对应的网页页面内的标签,以获取比对结果。
可以理解,该步骤S103可以由上述的比对模块430执行。
步骤S104,依据所述比对结果为所述标签匹配关键词。
可以理解,该步骤S104可以由上述的关键词匹配模块440执行。
步骤S105,依据所述比对结果调整所述第一目标网站和第二目标网站对应的网页页面内的标签。
可以理解,该步骤S105可以由上述的调整模块450执行。
第四实施例
请参照图7,为本发明第四实施例所提供的网站差异对比方法的流程示意图。与第三实施例不同的是,本发明第四实施例提供的网站差异对比方法还包括:
步骤S106,响应用户对任一所述标签的选择操作,在所述第一目标网站或所述第二目标网站对应的网页页面内显示与任一所述标签对应的所述关键词和所述出现次数。
可以理解,该步骤S106可以由上述的响应模块460执行。
综上所述,本发明实施例所提供的网站差异对比方法及装置可应用于客户端,该网站差异对比装置依据设置的爬取规则爬取第一目标网站和第二目标网站的网页页面内容,以获取符合所述爬取规则的所述网页页面内的标签,以及所述标签的内容、URL地址及出现次数。依据所述标签的内容、URL地址及出现次数对所述第一目标网站和第二目标网站对应的网页页面内的所述标签进行比对,以获取所述比对结果,并依据比对结果分别给所述第一目标网站对应的网页页面内的标签及第二目标网站对应的网页页面内的标签匹配关键词以对标签进行相应的标记,最后依据所述关键词调整所述第一目标网站和所述第二目标网站对应的网页页面内的标签,使标签以不同的颜色直观地呈现在网页页面内,并可响应用户对任一所述标签的选择操作,在所述第一目标网站或所述第二目标网站对应的网页页面内显示与任一所述标签对应的所述关键词和所述出现次数。该网站差异对比方法及装置可以快速比较出第一目标网站与第二目标网站的差异,并以直观的方式呈现差异结果,用户体验较好。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
Claims (13)
1.一种网站差异对比方法,其特征在于,所述网站差异对比方法包括:
爬取第一目标网站和第二目标网站的网页页面内容,以获取所述网页页面内的标签;
比对所述第一目标网站和所述第二目标网站对应的网页页面内的标签,以获取比对结果;
依据所述比对结果调整所述第一目标网站和第二目标网站对应的网页页面内的标签。
2.如权利要求1所述的网站差异对比方法,其特征在于,所述网站差异对比方法还包括:
依据所述比对结果为所述标签匹配关键词;
所述依据所述比对结果调整所述第一目标网站和第二目标网站对应的网页页面内的标签的步骤包括:
依据所述关键词调整所述第一目标网站和所述第二目标网站对应的网页页面内的标签。
3.如权利要求2所述的网站差异对比方法,其特征在于,所述依据所述关键词调整所述第一目标网站和所述第二目标网站对应的网页页面内的标签的步骤包括:
依据所述关键词改变所述第一目标网站和所述第二目标网站对应的网页页面内的标签的显示方式。
4.如权利要求2所述的网站差异对比方法,其特征在于,所述获取所述网页页面内的标签的步骤包括:
获取所述标签的内容、URL地址及出现次数;
所述比对所述第一目标网站和第二目标网站对应的网页页面内的标签,以获取比对结果的步骤包括:
依据所述标签的内容、URL地址及出现次数对所述第一目标网站和第二目标网站对应的网页页面内的所述标签进行比对,以获取所述比对结果。
5.如权利要求4所述的网站差异对比方法,其特征在于,所述网站差异对比方法还包括:
响应用户对任一所述标签的选择操作,在所述第一目标网站或所述第二目标网站对应的网页页面内显示与任一所述标签对应的所述关键词和所述出现次数。
6.如权利要求1所述的网站差异对比方法,其特征在于,所述爬取第一目标网站和第二目标网站的网页页面内容,以获取所述网页页面内的标签的步骤之前包括:
设置爬取规则以便爬取出符合所述爬取规则的所述网页页面内容。
7.一种网站差异对比装置,其特征在于,所述网站差异对比装置包括:
爬取模块,用于爬取第一目标网站和第二目标网站的网页页面内容,以获取所述网页页面内的标签;
比对模块,用于比对所述第一目标网站和所述第二目标网站对应的网页页面内的标签,以获取比对结果;
调整模块,用于依据所述比对结果调整所述第一目标网站和第二目标网站对应的网页页面内的标签。
8.如权利要求7所述的网站差异对比装置,其特征在于,所述网站差异对比装置还包括:
关键词匹配模块,用于依据所述比对结果为所述标签匹配关键词;
所述调整模块用于依据所述关键词调整所述第一目标网站和所述第二目标网站对应的网页页面内的标签。
9.如权利要求8所述的网站差异对比装置,其特征在于,所述调整模块用于依据所述关键词改变所述第一目标网站和所述第二目标网站对应的网页页面内的标签的显示方式。
10.如权利要求8所述的网站差异对比装置,其特征在于,所述爬取模块用于获取所述标签的内容、URL地址及出现次数,所述比对模块用于依据所述标签的内容、URL地址及出现次数对所述第一目标网站和第二目标网站对应的网页页面内的所述标签进行比对,以获取所述比对结果。
11.如权利要求10所述的网站差异对比装置,其特征在于,所述网站差异对比装置还包括:
响应模块,用于响应用户对任一所述标签的选择操作,在所述第一目标网站或所述第二目标网站对应的网页页面内显示与任一所述标签对应的所述关键词和所述出现次数。
12.如权利要求7所述的网站差异对比装置,其特征在于,所述网站差异对比装置还包括:
规则设置模块,用于设置爬取规则以便所述爬取模块爬取出符合所述爬取规则的所述网页页面内容。
13.一种客户端,其特征在于,所述客户端包括:
存储器;
处理器;及
网站差异对比装置,所述网站差异对比装置存储在所述存储器中并包括一个或多个由所述处理器执行的软件功能模块,所述网站差异对比装置包括:
爬取模块,用于爬取第一目标网站和第二目标网站的网页页面内容,以获取所述网页页面内的标签;
比对模块,用于比对所述第一目标网站和所述第二目标网站对应的网页页面内的标签,以获取比对结果;
调整模块,用于依据所述比对结果调整所述第一目标网站和第二目标网站对应的网页页面内的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710340472.5A CN108280110A (zh) | 2017-05-15 | 2017-05-15 | 网站差异对比方法、装置及客户端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710340472.5A CN108280110A (zh) | 2017-05-15 | 2017-05-15 | 网站差异对比方法、装置及客户端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108280110A true CN108280110A (zh) | 2018-07-13 |
Family
ID=62801205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710340472.5A Pending CN108280110A (zh) | 2017-05-15 | 2017-05-15 | 网站差异对比方法、装置及客户端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108280110A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110955813A (zh) * | 2018-09-27 | 2020-04-03 | 北京国双科技有限公司 | 一种数据爬取方法及装置 |
CN110968758A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 网页数据的爬取方法及装置 |
CN113987318A (zh) * | 2021-11-01 | 2022-01-28 | 盐城金堤科技有限公司 | 页面监控方法、装置、设备及计算机存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1952947A (zh) * | 2005-10-17 | 2007-04-25 | 左其其 | 一种网站反克隆的系统和方法 |
CN102193924A (zh) * | 2010-03-09 | 2011-09-21 | 黄彦诚 | 网页区域追踪的方法 |
CN103207874A (zh) * | 2012-01-17 | 2013-07-17 | 腾讯科技(深圳)有限公司 | 一种网页更新内容的提示方法及系统 |
CN103310009A (zh) * | 2013-06-28 | 2013-09-18 | 北京小米科技有限责任公司 | 一种更新网页数据的方法、装置和终端设备 |
CN106294535A (zh) * | 2016-07-19 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 网站的识别方法和装置 |
-
2017
- 2017-05-15 CN CN201710340472.5A patent/CN108280110A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1952947A (zh) * | 2005-10-17 | 2007-04-25 | 左其其 | 一种网站反克隆的系统和方法 |
CN102193924A (zh) * | 2010-03-09 | 2011-09-21 | 黄彦诚 | 网页区域追踪的方法 |
CN103207874A (zh) * | 2012-01-17 | 2013-07-17 | 腾讯科技(深圳)有限公司 | 一种网页更新内容的提示方法及系统 |
CN103310009A (zh) * | 2013-06-28 | 2013-09-18 | 北京小米科技有限责任公司 | 一种更新网页数据的方法、装置和终端设备 |
CN106294535A (zh) * | 2016-07-19 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 网站的识别方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110955813A (zh) * | 2018-09-27 | 2020-04-03 | 北京国双科技有限公司 | 一种数据爬取方法及装置 |
CN110968758A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 网页数据的爬取方法及装置 |
CN113987318A (zh) * | 2021-11-01 | 2022-01-28 | 盐城金堤科技有限公司 | 页面监控方法、装置、设备及计算机存储介质 |
CN113987318B (zh) * | 2021-11-01 | 2024-03-12 | 盐城天眼察微科技有限公司 | 页面监控方法、装置、设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI575390B (zh) | 手持式電子裝置及其網址輸入校正方法 | |
US9384503B2 (en) | Terminal apparatus, advertisement display control apparatus, and advertisement display method | |
US20150169710A1 (en) | Method and apparatus for providing search results | |
CN105338291B (zh) | 虚拟拼接屏的处理方法及装置 | |
CN108280110A (zh) | 网站差异对比方法、装置及客户端 | |
US20130067400A1 (en) | Pinch To Adjust | |
CN107480148A (zh) | 控制网页跳转的方法及装置及用户终端 | |
TW201403361A (zh) | 使用者介面內容個人化系統 | |
CN106503224B (zh) | 一种根据关键词推荐应用的方法及装置 | |
CN107038253A (zh) | 评论内容显示方法及装置 | |
CN102664925B (zh) | 一种展现搜索结果的方法及装置 | |
US20110066983A1 (en) | Electronic device and method for providing shortcut interface | |
CN107818492B (zh) | 产品推荐装置、方法及计算机可读存储介质 | |
CN107818008A (zh) | 页面加载方法及装置 | |
CN113190741B (zh) | 搜索方法、装置、电子设备及存储介质 | |
CN104063657A (zh) | 启用隐私浏览的方法、装置、浏览器及电子设备 | |
CN112783594A (zh) | 一种消息显示方法、装置及电子设备 | |
EP2926272A1 (en) | Method for web information discovery and user interface | |
CN111159729A (zh) | 权限控制方法、装置及存储介质 | |
CN104063277B (zh) | 一种信息处理方法及电子设备 | |
US10101836B2 (en) | Array substrate with dual gate structure touch panel and display apparatus containing the same | |
US20140289608A1 (en) | Terminal device, display method, and server device | |
CN111046112A (zh) | 品类知识图谱展示方法、装置和电子设备 | |
JP2023014128A (ja) | プログラム、表示制御方法、サーバ装置、及び、システム | |
CN107122098A (zh) | 网址显示方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200526 Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Alibaba (China) Co.,Ltd. Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping B radio square 14 storey tower Applicant before: Guangzhou Dongjing Computer Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180713 |
|
RJ01 | Rejection of invention patent application after publication |