CN113987318B - 页面监控方法、装置、设备及计算机存储介质 - Google Patents
页面监控方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN113987318B CN113987318B CN202111284580.8A CN202111284580A CN113987318B CN 113987318 B CN113987318 B CN 113987318B CN 202111284580 A CN202111284580 A CN 202111284580A CN 113987318 B CN113987318 B CN 113987318B
- Authority
- CN
- China
- Prior art keywords
- page
- content
- data
- current time
- content data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000009193 crawling Effects 0.000 claims abstract description 59
- 238000004891 communication Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000012806 monitoring device Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241001178520 Stomatepia mongo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例提供了一种页面监控方法、装置、设备及计算机存储介质,涉及互联网技术领域。其中,所述方法包括:爬取页面在当前时间的页面数据;将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对,以获得所述页面在两个不同时间的页面数据的比对结果;若根据所述比对结果确定所述页面在所述两个不同时间的页面数据不相同,则生成页面监控变化提示。本方案能够自动有效地监控网络产品的页面的变化。
Description
技术领域
本申请实施例涉及互联网技术领域,尤其涉及一种页面监控方法、装置、电子设备及计算机存储介质。
背景技术
随着网络的发展,各种网络产品发挥了越来越重要的作用。用户可以访问网络产品的UI(User Interface,用户界面),进行直播上课、购物、缴费等日常生活学习。随着市场竞争越来越激烈,任何优秀的网络产品往往都不会被一家企业所独占,例如,共享单车APP(Application,应用程序)、手机打车APP、网上商城APP等。作为同一领域的竞争对手,能够掌握竞争对手的网络产品的最新情况,调节己方的网络产品的策略,就显得尤为重要。具体地,通过人工监控竞争对手的网络产品的页面的变化,来了解竞争对手的网络产品的最新情况。然而,采用人工监控的方式消耗时间和精力。
由此可见,如何自动有效地监控网络产品的页面的变化成为当前亟待解决的技术问题。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供一种页面监控方法、装置、电子设备及计算机存储介质,用以解决现有技术中存在的如何自动有效地监控网络产品的页面的变化的技术问题。
根据本发明实施例的第一方面,提供了一种页面监控方法,所述方法包括:爬取页面在当前时间的页面数据;其中,所述页面数据包括:内容结构及所述内容结构下的内容数据;将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对,以获得所述页面在两个不同时间的页面数据的比对结果;若根据所述比对结果确定所述页面在所述两个不同时间的页面数据不相同,则生成页面监控变化提示。
根据本发明实施例的第二方面,提供了一种页面监控装置,所述装置包括:第一爬取模块,用于爬取页面在当前时间的页面数据;其中,所述页面数据包括:内容结构及所述内容结构下的内容数据;比对模块,用于将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对,以获得所述页面在两个不同时间的页面数据的比对结果;生成模块,用于若根据所述比对结果确定所述页面在所述两个不同时间的页面数据不相同,则生成页面监控变化提示。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的页面监控方法对应的操作。
根据本发明实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的页面监控方法。
本发明实施例提供的页面监控方案,爬取页面在当前时间的页面数据;其中,所述页面数据包括:内容结构及所述内容结构下的内容数据;将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对,以获得所述页面在两个不同时间的页面数据的比对结果;若根据所述比对结果确定所述页面在所述两个不同时间的页面数据不相同,则生成页面监控变化提示,能够自动有效地监控网络产品的页面的变化,进而了解竞争对手的网络产品的最新情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1A为本申请实施例一中页面监控方法的步骤流程图;
图1B为根据本申请实施例一提供的页面监控方法的示意图;
图2为本申请实施例二中页面监控装置的结构示意图;
图3为本申请实施例三中电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
参照图1A,示出了本申请实施例一中页面监控方法的步骤流程图。
具体地,本实施例提供的页面监控方法包括以下步骤:
在步骤S101中,爬取页面在当前时间的页面数据。
在本实施例中,所述页面数据包括内容结构及所述内容结构下的内容数据。在爬取页面在当前时间的页面数据时,通过网络爬虫程序,根据预先配置的页面链接地址,爬取位于所述页面链接地址的页面在当前时间的内容结构下的内容数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在本实施例中,所述网络爬虫程序可理解为按照一定的规则,自动地抓取万维网信息的程序,可以采用node.js、Python、Java等各种编程语言来实现所述网络爬虫程序。所述页面链接地址可为所述页面的URL(Uniform Resource Locator,统一资源定位器)链接地址。所述页面可为移动终端的应用程序的页面,还可以为网站的WEB页的页面。所述内容结构可理解为所述页面的内容组成结构,例如,移动终端的应用程序的页面的内容组成部分。相应地,所述内容数据可为所述内容组成部分中的内容数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在爬取页面在当前时间的页面数据时,通过网络爬虫程序,根据预先配置的页面链接地址,爬取位于所述页面链接地址的所述页面在所述当前时间的HTML代码中的标签内容,并确定所述页面在所述当前时间的HTML代码中的标签内容为所述页面在所述当前时间的内容结构;通过所述网络爬虫程序,根据所述页面链接地址,爬取所述页面在所述当前时间的CSS代码和JS代码,并确定所述页面在所述当前时间的CSS代码和JS代码为所述页面在所述当前时间的内容结构对应的内容数据。籍此,通过爬取所述页面在所述当前时间的HTML代码中的标签内容,能够准确地爬取所述页面在所述当前时间的内容结构。此外,通过爬取所述页面在所述当前时间的CSS代码和JS代码,能够准确地爬取所述页面在所述当前时间的内容结构对应的内容数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,页面一般由三部分组成,分别是HTML(超文本标记语言)、CSS(层叠样式表)和JS(JavaScript,一种脚本语言)。其中,HTML代码是整个页面的结构,相当于整个网站的框架。带“<”、“>”符号的都是属于HTML的标签,并且标签都是成对出现的。CSS表示样式,在CSS中定义了外观。JS表示功能,交互的内容和各种特效都在JS中,JS描述了页面中的各种功能。如果用人体来比喻页面,HTML是人的骨架,并且定义了人的嘴巴、眼睛、耳朵等要长在哪里。CSS是人的外观细节,如嘴巴长什么样子,眼睛是双眼皮还是单眼皮,是大眼睛还是小眼睛,皮肤是黑色的还是白色的等。JS表示人的技能,例如跳舞、唱歌或者演奏乐器等。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,所述方法还包括:将所述页面在所述当前时间的HTML代码中的标签内容作为键,所述页面在所述当前时间的CSS代码和JS代码作为值,以键值对的数据结构进行存储。籍此,通过以键值对的数据结构来对所述页面在所述当前时间的HTML代码中的标签内容、所述页面在所述当前时间的CSS代码和JS代码进行存储,能够便于后续内容结构对应的内容数据的比对。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在步骤S102中,将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对,以获得所述页面在两个不同时间的页面数据的比对结果。
在本实施例中,所述当前时间可为当前时间点,所述历史时间可为历史时间点。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,所述将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对之前,所述方法还包括:通过网络爬虫程序,根据页面链接地址,爬取所述页面在所述历史时间的内容结构及其对应的内容数据;将所述页面在所述历史时间的内容结构作为键,所述页面在所述历史时间的内容结构对应的内容数据作为值,以键值对的数据结构存储于数据库中。籍此,通过所述网络爬虫程序,能够有效地爬取所述页面在所述历史时间的内容结构及其对应的内容数据,此外,通过以键值对的数据结构来对所述页面在所述历史时间的内容结构和所述页面在所述历史时间的内容结构对应的内容数据进行存储,能够便于后续内容结构对应的内容数据的比对。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在通过网络爬虫程序,根据页面链接地址,爬取所述页面在所述历史时间的内容结构及其对应的内容数据时,通过所述网络爬虫程序,根据所述页面链接地址,爬取所述页面在所述历史时间的HTML代码中的标签内容,并确定所述页面在所述历史时间的HTML代码中的标签内容为所述页面在所述历史时间的内容结构;通过所述网络爬虫程序,根据所述页面链接地址,爬取所述页面在所述历史时间的CSS代码和JS代码,并确定所述页面在所述历史时间的CSS代码和JS代码为所述页面在所述历史时间的内容结构对应的内容数据。籍此,通过爬取所述页面在所述历史时间的HTML代码中的标签内容,能够准确地爬取所述页面在所述历史时间的内容结构。此外,通过爬取所述页面在所述历史时间的CSS代码和JS代码,能够准确地爬取所述页面在所述历史时间的内容结构对应的内容数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在将所述页面在所述历史时间的内容结构作为键,所述页面在所述历史时间的内容结构对应的内容数据作为值,以键值对的数据结构存储于数据库中时,将所述页面在所述历史时间的HTML代码中的标签内容作为键,所述页面在所述历史时间的CSS代码和JS代码作为值,以键值对的数据结构进行存储。籍此,通过以键值对的数据结构来对所述页面在所述历史时间的HTML代码中的标签内容、所述页面在所述历史时间的CSS代码和JS代码进行存储,能够便于后续内容结构对应的内容数据的比对。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对时,根据所述页面的标识信息,对所述数据库中的键值对进行迭代遍历,以获得目标键值对,所述目标键值对具有所述页面在所述历史时间的内容结构及其对应的内容数据;将具有所述页面在所述当前时间的内容结构及其对应的内容数据的键值对中的值与所述目标键值对中的值进行比对,以获得所述比对结果。其中,所述页面的标识信息可为所述页面的编码。籍此,通过将具有所述页面在所述当前时间的内容结构及其对应的内容数据的键值对中的值与所述目标键值对中的值进行比对,能够有效地提高所述页面在两个不同时间的页面数据的比对效率。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在步骤S103中,若根据所述比对结果确定所述页面在所述两个不同时间的页面数据不相同,则生成页面监控变化提示。
在本实施例中,若根据所述比对结果确定所述页面在所述两个不同时间的页面数据相同,则不执行任何处理。若根据所述比对结果确定所述页面在所述两个不同时间的页面数据不相同,则生成页面监控变化提示,并将所述页面在所述当前时间的内容结构及其对应的内容数据以键值对数据结构更新至数据库中。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,所述方法还包括:接收爬取频率的调节指令;根据所述调节指令携带的爬取频率,爬取所述页面的内容结构及其对应的内容数据。籍此,可以根据需求,调节爬取频率,从而能够及时地监控页面的变化。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,接收针对所述网络爬虫程序的爬取频率的调节指令;根据所述调节指令,使得所述网络爬虫程序按照所述调节指令携带的爬取频率,爬取所述页面在内容结构下的内容数据。籍此,可以根据需求,调节所述网络爬虫程序的爬取频率,使得所述网络爬虫程序能够及时地监控页面的变化。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在根据所述调节指令,使得所述网络爬虫程序按照所述调节指令携带的爬取频率,爬取所述页面在内容结构下的内容数据时,通过爬取频率调节接口,根据所述调节指令,使得所述网络爬虫程序按照所述调节指令携带的爬取频率,爬取所述页面在内容结构下的内容数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,所述生成页面监控变化提示之后,所述方法还包括:通过调用即时通讯接口,将所述页面监控变化提示发送至页面监控者所持有的终端设备中,并将所述页面在所述两个不同时间的内容结构及其对应的内容数据发送至所述终端设备中。籍此,通过调用即时通讯接口,将所述页面监控变化提示发送至页面监控者所持有的终端设备中,能够使得页面监控者知晓所述页面发生变化。此外,通过调用即时通讯接口,将所述页面在所述两个不同时间的内容结构及其对应的内容数据发送至所述终端设备中,能够使得页面监控者知晓所述页面发生变化的内容结构或者内容数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,通过调用即时通讯接口,以邮件的形式将所述页面监控变化提示发送至页面监控者所持有的终端设备中,并将所述页面在所述两个不同时间的内容结构及其对应的内容数据发送至所述终端设备中。可替换地,通过调用即时通讯接口,以钉钉或者飞书的形式将所述页面监控变化提示发送至页面监控者所持有的终端设备中。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,如图1B所示,本实施例提供的页面监控过程如下:留存单个/多个页面在内容结构下的初始化内容数据。具体地,首次留存内容数据,可以采用爬虫技术将内容数据保留下来。同时,可将这些内容分类,组成key-value形式,如【页面1_1:内容1,页面1_2:内容2,页面2_1:内容3】。对于留存的内容数据,可以采用mysql、redis、mongo等各种数据库进行保存,以方便后面进行对比。然后,采用网络爬虫程序定时获取当前页面在内容结构下的内容数据。为了提高效率,节省人工成本,采用程序自动化获取当前页面在内容结构下的内容数据。其中,网络爬虫程序可采用node.js、Python、Java等各种编程语言,实现内容数据的爬取。接着,将爬取到的数据与保留在数据库中的数据进行对比。具体地,将最新抓取的数据以key-value数据结构存储,并迭代遍历数据库中的key_value数据,然后从两个key_value中取出key对应的value(留存)与value(最新)进行对比。这种可以采用各种编程语言的map数据类型或者dict数据类型,加快检索效果。如果出现差异,比如内容改变,保留改变前后的内容,通过自动化邮件的方式发送给页面监控者;否则则视为内容保持不变。本实施例采用程序化的方式取代传统人工发现的方式,能够更加及时有效地监控页面,并且通过邮件主动提醒用户页面变动的内容。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
通过本发明实施例提供的页面监控方法,爬取页面在当前时间的页面数据;其中,所述页面数据包括:内容结构及所述内容结构下的内容数据;将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对,以获得所述页面在两个不同时间的页面数据的比对结果;若根据所述比对结果确定所述页面在所述两个不同时间的页面数据不相同,则生成页面监控变化提示,能够自动有效地监控网络产品的页面的变化,进而了解竞争对手的网络产品的最新情况。
本实施例提供的页面监控方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备等。
参照图2,示出了本申请实施例二中页面监控装置的结构示意图。
本实施例提供的页面监控装置包括:第一爬取模块,用于爬取页面在当前时间的页面数据;其中,所述页面数据包括:内容结构及所述内容结构下的内容数据;比对模块,用于将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对,以获得所述页面在两个不同时间的页面数据的比对结果;生成模块,用于若根据所述比对结果确定所述页面在所述两个不同时间的页面数据不相同,则生成页面监控变化提示。
可选地,所述比对模块202之前,所述装置还包括:第二爬取模块,用于通过网络爬虫程序,根据页面链接地址,爬取所述页面在所述历史时间的内容结构及其对应的内容数据;第一存储模块,用于将所述页面在所述历史时间的内容结构作为键,所述页面在所述历史时间的内容结构对应的内容数据作为值,以键值对的数据结构存储于数据库中。
可选地,所述第一爬取模块201,具体用于:通过网络爬虫程序,根据预先配置的页面链接地址,爬取位于所述页面链接地址的所述页面在所述当前时间的HTML代码中的标签内容,并确定所述页面在所述当前时间的HTML代码中的标签内容为所述页面在所述当前时间的内容结构;通过所述网络爬虫程序,根据所述页面链接地址,爬取所述页面在所述当前时间的CSS代码和JS代码,并确定所述页面在所述当前时间的CSS代码和JS代码为所述页面在所述当前时间的内容结构对应的内容数据。
可选地,所述装置还包括:第二存储模块,用于将所述页面在所述当前时间的HTML代码中的标签内容作为键,所述页面在所述当前时间的CSS代码和JS代码作为值,以键值对的数据结构进行存储。
可选地,所述比对模块202,具体用于:根据所述页面的标识信息,对所述数据库中的键值对进行迭代遍历,以获得目标键值对,所述目标键值对具有所述页面在所述历史时间的内容结构及其对应的内容数据;将具有所述页面在所述当前时间的内容结构及其对应的内容数据的键值对中的值与所述目标键值对中的值进行比对,以获得所述比对结果。
可选地,所述装置还包括:接收模块,用于接收爬取频率的调节指令;第三爬取模块,用于根据所述调节指令携带的爬取频率,爬取所述页面的内容结构及其对应的内容数据。
可选地,所述生成模块203之后,所述装置还包括:发送模块,用于通过调用即时通讯接口,将所述页面监控变化提示发送至页面监控者所持有的终端设备中,并将所述页面在所述两个不同时间的内容结构及其对应的内容数据发送至所述终端设备中。
本实施例提供的页面监控装置用于实现前述多个方法实施例中相应的页面监控方法,并具有相应的方法实施例的有益效果,在此不再赘述。
参照图3,示出了根据本发明实施例三的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:
处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
通信接口304,用于与其它电子设备或服务器进行通信。
处理器302,用于执行程序310,具体可以执行上述页面监控方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:爬取页面在当前时间的页面数据;其中,所述页面数据包括:内容结构及所述内容结构下的内容数据;将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对,以获得所述页面在两个不同时间的页面数据的比对结果;若根据所述比对结果确定所述页面在所述两个不同时间的页面数据不相同,则生成页面监控变化提示。
在一种可选的实施方式中,程序310还用于使得处理器302在将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对之前,通过网络爬虫程序,根据页面链接地址,爬取所述页面在所述历史时间的内容结构及其对应的内容数据;将所述页面在所述历史时间的内容结构作为键,所述页面在所述历史时间的内容结构对应的内容数据作为值,以键值对的数据结构存储于数据库中。
在一种可选的实施方式中,程序310还用于使得处理器302在爬取页面在当前时间的页面数据时,通过网络爬虫程序,根据预先配置的页面链接地址,爬取位于所述页面链接地址的所述页面在所述当前时间的HTML代码中的标签内容,并确定所述页面在所述当前时间的HTML代码中的标签内容为所述页面在所述当前时间的内容结构;通过所述网络爬虫程序,根据所述页面链接地址,爬取所述页面在所述当前时间的CSS代码和JS代码,并确定所述页面在所述当前时间的CSS代码和JS代码为所述页面在所述当前时间的内容结构对应的内容数据。
在一种可选的实施方式中,程序310还用于使得处理器302将所述页面在所述当前时间的HTML代码中的标签内容作为键,所述页面在所述当前时间的CSS代码和JS代码作为值,以键值对的数据结构进行存储。
在一种可选的实施方式中,程序310还用于使得处理器302在将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对时,根据所述页面的标识信息,对所述数据库中的键值对进行迭代遍历,以获得目标键值对,所述目标键值对具有所述页面在所述历史时间的内容结构及其对应的内容数据;将具有所述页面在所述当前时间的内容结构及其对应的内容数据的键值对中的值与所述目标键值对中的值进行比对,以获得所述比对结果。
在一种可选的实施方式中,程序310还用于使得处理器302接收爬取频率的调节指令;根据所述调节指令携带的爬取频率,爬取所述页面的内容结构及其对应的内容数据。
在一种可选的实施方式中,程序310还用于使得处理器302在生成页面监控变化提示之后,通过调用即时通讯接口,将所述页面监控变化提示发送至页面监控者所持有的终端设备中,并将所述页面在所述两个不同时间的内容结构及其对应的内容数据发送至所述终端设备中。
程序310中各步骤的具体实现可以参见上述页面监控方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,爬取页面在当前时间的页面数据;其中,所述页面数据包括:内容结构及所述内容结构下的内容数据;将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对,以获得所述页面在两个不同时间的页面数据的比对结果;若根据所述比对结果确定所述页面在所述两个不同时间的页面数据不相同,则生成页面监控变化提示,能够自动有效地监控网络产品的页面的变化,进而了解竞争对手的网络产品的最新情况。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的页面监控方法。此外,当通用计算机访问用于实现在此示出的页面监控方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的页面监控方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
Claims (7)
1.一种页面监控方法,其特征在于,所述方法包括:
爬取页面在当前时间的页面数据;其中,所述页面数据包括:内容结构及所述内容结构下的内容数据;
将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对,以获得所述页面在两个不同时间的页面数据的比对结果;
若根据所述比对结果确定所述页面在所述两个不同时间的页面数据不相同,则生成页面监控变化提示;
其中,所述爬取页面在当前时间的页面数据,包括:
通过网络爬虫程序,根据预先配置的页面链接地址,爬取位于所述页面链接地址的所述页面在所述当前时间的HTML代码中的标签内容,并确定所述页面在所述当前时间的HTML代码中的标签内容为所述页面在所述当前时间的内容结构;
通过所述网络爬虫程序,根据所述页面链接地址,爬取所述页面在所述当前时间的CSS代码和JS代码,并确定所述页面在所述当前时间的CSS代码和JS代码为所述页面在所述当前时间的内容结构对应的内容数据;
其中,所述将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对之前,所述方法还包括:
通过网络爬虫程序,根据页面链接地址,爬取所述页面在所述历史时间的内容结构及其对应的内容数据;
将所述页面在所述历史时间的内容结构作为键,所述页面在所述历史时间的内容结构对应的内容数据作为值,以键值对的数据结构存储于数据库中;
其中,所述将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对,包括:
根据所述页面的标识信息,对所述数据库中的键值对进行迭代遍历,以获得目标键值对,所述目标键值对具有所述页面在所述历史时间的内容结构及其对应的内容数据;
将具有所述页面在所述当前时间的内容结构及其对应的内容数据的键值对中的值与所述目标键值对中的值进行比对,以获得所述比对结果。
2.根据权利要求1所述的页面监控方法,其特征在于,所述方法还包括:
将所述页面在所述当前时间的HTML代码中的标签内容作为键,所述页面在所述当前时间的CSS代码和JS代码作为值,以键值对的数据结构进行存储。
3.根据权利要求1所述的页面监控方法,其特征在于,所述方法还包括:
接收爬取频率的调节指令;
根据所述调节指令携带的爬取频率,爬取所述页面的内容结构及其对应的内容数据。
4.根据权利要求1-3中任一所述的页面监控方法,其特征在于,所述生成页面监控变化提示之后,所述方法还包括:
通过调用即时通讯接口,将所述页面监控变化提示发送至页面监控者所持有的终端设备中,并将所述页面在所述两个不同时间的内容结构及其对应的内容数据发送至所述终端设备中。
5.一种页面监控装置,其特征在于,所述装置包括:
第一爬取模块,用于爬取页面在当前时间的页面数据;其中,所述页面数据包括:内容结构及所述内容结构下的内容数据;
比对模块,用于将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对,以获得所述页面在两个不同时间的页面数据的比对结果;
生成模块,用于若根据所述比对结果确定所述页面在所述两个不同时间的页面数据不相同,则生成页面监控变化提示;
其中,所述爬取页面在当前时间的页面数据,包括:
通过网络爬虫程序,根据预先配置的页面链接地址,爬取位于所述页面链接地址的所述页面在所述当前时间的HTML代码中的标签内容,并确定所述页面在所述当前时间的HTML代码中的标签内容为所述页面在所述当前时间的内容结构;
通过所述网络爬虫程序,根据所述页面链接地址,爬取所述页面在所述当前时间的CSS代码和JS代码,并确定所述页面在所述当前时间的CSS代码和JS代码为所述页面在所述当前时间的内容结构对应的内容数据;
其中,所述将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对之前,包括:
通过网络爬虫程序,根据页面链接地址,爬取所述页面在所述历史时间的内容结构及其对应的内容数据;
将所述页面在所述历史时间的内容结构作为键,所述页面在所述历史时间的内容结构对应的内容数据作为值,以键值对的数据结构存储于数据库中;
其中,所述将所述当前时间的内容结构及其对应的内容数据与历史时间的内容结构及其对应的内容数据进行比对,包括:
根据所述页面的标识信息,对所述数据库中的键值对进行迭代遍历,以获得目标键值对,所述目标键值对具有所述页面在所述历史时间的内容结构及其对应的内容数据;
将具有所述页面在所述当前时间的内容结构及其对应的内容数据的键值对中的值与所述目标键值对中的值进行比对,以获得所述比对结果。
6.一种电子设备,其特征在于,所述设备包括:
处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-4中任意一项权利要求所述的页面监控方法对应的操作。
7.一种计算机存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-4中任意一项权利要求所述的页面监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111284580.8A CN113987318B (zh) | 2021-11-01 | 2021-11-01 | 页面监控方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111284580.8A CN113987318B (zh) | 2021-11-01 | 2021-11-01 | 页面监控方法、装置、设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113987318A CN113987318A (zh) | 2022-01-28 |
CN113987318B true CN113987318B (zh) | 2024-03-12 |
Family
ID=79745504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111284580.8A Active CN113987318B (zh) | 2021-11-01 | 2021-11-01 | 页面监控方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113987318B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7383320B1 (en) * | 1999-11-05 | 2008-06-03 | Idom Technologies, Incorporated | Method and apparatus for automatically updating website content |
CN104182426A (zh) * | 2013-05-28 | 2014-12-03 | 腾讯科技(深圳)有限公司 | 一种网页更新内容的显示方法和装置 |
WO2016078479A1 (zh) * | 2014-11-17 | 2016-05-26 | 广州市动景计算机科技有限公司 | 网页变化监控方法及装置 |
CN108280110A (zh) * | 2017-05-15 | 2018-07-13 | 广州市动景计算机科技有限公司 | 网站差异对比方法、装置及客户端 |
CN109857420A (zh) * | 2018-12-13 | 2019-06-07 | 平安普惠企业管理有限公司 | 页面更新方法、装置、计算机设备及存储介质 |
CN110069683A (zh) * | 2017-09-18 | 2019-07-30 | 北京国双科技有限公司 | 一种基于浏览器爬取数据的方法及装置 |
WO2019153479A1 (zh) * | 2018-02-06 | 2019-08-15 | 武汉斗鱼网络科技有限公司 | 一种监听浏览器页面的方法、装置及计算机设备 |
CN110245278A (zh) * | 2018-09-05 | 2019-09-17 | 爱信诺征信有限公司 | 网页数据的采集方法、装置、电子设备及存储介质 |
CN110704771A (zh) * | 2018-06-22 | 2020-01-17 | 北京京东尚科信息技术有限公司 | 页面异常监控方法、系统、装置、电子设备及可读介质 |
CN111859231A (zh) * | 2019-04-30 | 2020-10-30 | 中移(苏州)软件技术有限公司 | 一种网页监控方法、设备、装置和计算机存储介质 |
CN113051503A (zh) * | 2021-03-12 | 2021-06-29 | 平安银行股份有限公司 | 浏览器页面渲染方法、装置、电子设备及存储介质 |
CN113254749A (zh) * | 2021-06-10 | 2021-08-13 | 山东浪潮通软信息科技有限公司 | 一种基于http协议的数据爬取方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112099790B (zh) * | 2020-09-10 | 2024-03-29 | 北京百度网讯科技有限公司 | 确定页面主题的方法、装置、设备以及存储介质 |
-
2021
- 2021-11-01 CN CN202111284580.8A patent/CN113987318B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7383320B1 (en) * | 1999-11-05 | 2008-06-03 | Idom Technologies, Incorporated | Method and apparatus for automatically updating website content |
CN104182426A (zh) * | 2013-05-28 | 2014-12-03 | 腾讯科技(深圳)有限公司 | 一种网页更新内容的显示方法和装置 |
WO2016078479A1 (zh) * | 2014-11-17 | 2016-05-26 | 广州市动景计算机科技有限公司 | 网页变化监控方法及装置 |
CN105630843A (zh) * | 2014-11-17 | 2016-06-01 | 广州市动景计算机科技有限公司 | 网页变化监控方法及装置 |
CN108280110A (zh) * | 2017-05-15 | 2018-07-13 | 广州市动景计算机科技有限公司 | 网站差异对比方法、装置及客户端 |
CN110069683A (zh) * | 2017-09-18 | 2019-07-30 | 北京国双科技有限公司 | 一种基于浏览器爬取数据的方法及装置 |
WO2019153479A1 (zh) * | 2018-02-06 | 2019-08-15 | 武汉斗鱼网络科技有限公司 | 一种监听浏览器页面的方法、装置及计算机设备 |
CN110704771A (zh) * | 2018-06-22 | 2020-01-17 | 北京京东尚科信息技术有限公司 | 页面异常监控方法、系统、装置、电子设备及可读介质 |
CN110245278A (zh) * | 2018-09-05 | 2019-09-17 | 爱信诺征信有限公司 | 网页数据的采集方法、装置、电子设备及存储介质 |
CN109857420A (zh) * | 2018-12-13 | 2019-06-07 | 平安普惠企业管理有限公司 | 页面更新方法、装置、计算机设备及存储介质 |
CN111859231A (zh) * | 2019-04-30 | 2020-10-30 | 中移(苏州)软件技术有限公司 | 一种网页监控方法、设备、装置和计算机存储介质 |
CN113051503A (zh) * | 2021-03-12 | 2021-06-29 | 平安银行股份有限公司 | 浏览器页面渲染方法、装置、电子设备及存储介质 |
CN113254749A (zh) * | 2021-06-10 | 2021-08-13 | 山东浪潮通软信息科技有限公司 | 一种基于http协议的数据爬取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113987318A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111352682B (zh) | 页面渲染方法、装置、服务器及可读存储介质 | |
US11222087B2 (en) | Dynamically debiasing an online job application system | |
CN113392173A (zh) | 基于区块链的信息推送更新方法、系统及云服务信息平台 | |
CN109872242A (zh) | 信息推送方法和装置 | |
CN107958078A (zh) | 信息生成方法和装置 | |
CN108763532A (zh) | 用于推送信息、展现信息的方法和设备 | |
CN111651989B (zh) | 命名实体识别方法和装置、存储介质及电子装置 | |
CN114330474A (zh) | 一种数据处理方法、装置、计算机设备以及存储介质 | |
CN113626624B (zh) | 一种资源识别方法和相关装置 | |
CN112418924B (zh) | 基于大数据和云计算的广告推送方法及人工智能平台 | |
CN108256078B (zh) | 信息获取方法和装置 | |
CN111814044B (zh) | 一种推荐方法、装置、终端设备及存储介质 | |
CN113987318B (zh) | 页面监控方法、装置、设备及计算机存储介质 | |
CN116776030A (zh) | 灰度发布方法、装置、计算机设备、存储介质 | |
JP2024507029A (ja) | ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム | |
CN114021565A (zh) | 命名实体识别模型的训练方法及装置 | |
WO2017197889A1 (zh) | 一种关键字链接方法、装置及系统 | |
CN112307324B (zh) | 信息处理方法、装置、设备和介质 | |
CN114564581A (zh) | 基于深度学习的文本分类展示方法、装置、设备和介质 | |
WO2014040489A1 (en) | Method and apparatus for uploading a file | |
CN109960531B (zh) | 一种页面显示方法和装置 | |
CN118051782B (zh) | 一种模型训练的方法、业务处理的方法以及相关装置 | |
CN116610868B (zh) | 样本标注方法、端边云协同训练方法及装置 | |
CN116071527B (zh) | 一种对象处理方法、装置、存储介质及电子设备 | |
CN116246014B (zh) | 一种形象生成方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230731 Address after: Room 404-405, 504, Building B-17-1, Big data Industrial Park, Kecheng Street, Yannan High tech Zone, Yancheng, Jiangsu Province, 224000 Applicant after: Yancheng Tianyanchawei Technology Co.,Ltd. Address before: 224000 room 501-503, building b-17-1, Xuehai road big data Industrial Park, Kecheng street, Yannan high tech Zone, Yancheng City, Jiangsu Province (CNK) Applicant before: Yancheng Jindi Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |