CN107832428A - 基于网站页面的网页状态监控方法及系统 - Google Patents

基于网站页面的网页状态监控方法及系统 Download PDF

Info

Publication number
CN107832428A
CN107832428A CN201711123884.XA CN201711123884A CN107832428A CN 107832428 A CN107832428 A CN 107832428A CN 201711123884 A CN201711123884 A CN 201711123884A CN 107832428 A CN107832428 A CN 107832428A
Authority
CN
China
Prior art keywords
website page
monitoring
page
sectional drawing
monitored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711123884.XA
Other languages
English (en)
Other versions
CN107832428B (zh
Inventor
苏汉宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhixing Rui Jing Technology Co Ltd
Original Assignee
Beijing Zhixing Rui Jing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhixing Rui Jing Technology Co Ltd filed Critical Beijing Zhixing Rui Jing Technology Co Ltd
Priority to CN201711123884.XA priority Critical patent/CN107832428B/zh
Publication of CN107832428A publication Critical patent/CN107832428A/zh
Application granted granted Critical
Publication of CN107832428B publication Critical patent/CN107832428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Information Transfer Between Computers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于网站页面的网页状态监控方法及系统,方法包括:建立需要监测的网站页面的页面配置表;每当达到监测周期时,自动触发对对应的网站页面按对应的监测模式进行网页状态监控,分别为链接监测模式和截屏相似度监测模式;统计状态码异常的链接和/或相似度异常的二值化网站页面截图,得到对被监测网站页面的监测结果。优点为:通过抓取网站页面中的链接元素,并进一步的请求链接,通过返回的http状态码判断链接是否失效;通过对网站页面截图,并与最近一次正常情况下的页面截图进行比对,可快速确定网站页面是否出现样式错乱、内容空白等异常情况,因此,具有网站页面的网页状态监控效率高的优点。

Description

基于网站页面的网页状态监控方法及系统
技术领域
本发明属于网页状态监控技术领域,具体涉及一种基于网站页面的网页状态监控方法及系统。
背景技术
互联网的发展与普及深刻地改变了人们的生活和思维方式,网络已经成为当今人们获取知识、发布信息、交流沟通的主要工具。为了确保网站能够在用户访问的时候是正常的,信息是准确的,从而给用户一种标准化的体验,需要进行页面监控,从而更好的提供页面服务以及提升品牌在用户心目中的地位。
常规的页面监控方法,具有实现过程复杂、资源消耗大以及页面监控效率低等不足,从而限制了其应用发展。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于网站页面的网页状态监控方法及系统,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种基于网站页面的网页状态监控方法,包括以下步骤:
步骤1,建立需要监测的网站页面的页面配置表,所述页面配置表存储需要监测的网站页面的url、监测模式以及监测周期的对应关系;其中,所述监测模式包括链接监测模式和/或截屏相似度监测模式;
步骤2,每当达到监测周期时,自动触发对对应的网站页面按对应的监测模式进行网页状态监控;如果启动链接监测模式,执行步骤3;如果启动截屏相似度监测模式,执行步骤4;
步骤3,链接监测模式包括以下步骤:
步骤3.1,调用http客户端;http客户端根据需要监测的网站页面的url访问被监测的网站页面;
步骤3.2,http客户端抓取被监测的网站页面中的html元素;所述html元素包括文本元素、图像元素、动画元素和链接元素;
步骤3.3,http客户端对所述html元素进行分析,匹配查找出被监测的网站页面中的链接元素;
步骤3.4,对于查找出的每个链接元素,http客户端均对该链接发起http请求,获取到状态码;所述状态码包括正常状态码和异常状态码;
步骤3.5,http客户端将链接与异常状态码的对应关系存储到异常状态码日志表中;然后执行步骤5;
步骤4,截屏相似度监测模式包括以下步骤:
步骤4.1,根据需要监测的网站页面的url访问被监测的网站页面,并截取被监测的网站页面的整页面屏,得到网站页面截图;
步骤4.2,对所述网站页面截图进行二值化处理,得到二值化的网站页面截图;
步骤4.3,获取被监测的网站页面的最近一次正常情况下的二值化网站页面截图;
步骤4.4,比对步骤4.2得到的二值化的网站页面截图与步骤4.3得到的最近一次正常情况下的二值化网站页面截图的相似度,如果相似度高于设定阈值,则表明本次被监测的网站页面为正常状态,并将本次得到的二值化的网站页面截图保存到数据库中,作为下一次网站页面状态比对的基准;如果相似度低于设定阈值,表明本次被监测的网站页面为异常状态;然后执行步骤5;
步骤5,统计状态码异常的链接和/或相似度异常的二值化网站页面截图,得到对被监测网站页面的监测结果。
优选的,步骤3.3中,使用nodejs中的cheerio功能模块,匹配查找出被监测的网站页面中的链接元素。
优选的,步骤3.3中,链接元素为a链接元素。
优选的,步骤3.4中,http客户端使用nodejs中的http模块发起http请求,并获取到状态码。
优选的,步骤4.1中,使用casperjs截取被监测的网站页面的整页面屏。
优选的,步骤4.1具体为:
步骤4.1.1,截图组件对外提供web服务,接受外来的合法的接口请求;
步骤4.1.2,当截图组件接收到对被监测的网站页面的截图请求时,其中,所述截图请求中携带有被监测的网站页面的url;所述截图组件获取请求中的url,截取对应页面的模拟渲染的界面,由此生成被监测的网站页面的截图;
步骤4.1.3,所述截图组件将生成的截图上传到分布式存储服务器上,并得到所述截图在所述分布式存储服务器上的存储地址;所述截图组件将所述截图在所述分布式存储服务器上的存储地址以json数据返回给请求者。
优选的,还包括:
步骤6,将步骤5得到的监测结果以邮件或短信的形式,自动发送给关联的管理组成员。
本发明还提供一种基于网站页面的网页状态监控系统,包括:
页面配置表,所述页面配置表用于存储需要监测的网站页面的配置信息;所述配置信息包括需要监测的网站页面的url、监测模式以及监测周期的对应关系;其中,所述监测模式包括链接监测模式和/或截屏相似度监测模式;
链接监测模块,用于达到监测周期时,对对应的网站页面按对应的监测模式进行网页状态监控;
所述链接监测模块包括访问子模块、html元素抓取子模块、链接元素匹配子模块、http请求发起子模块、状态码获取子模块和日志存储子模块;
所述访问子模块,用于根据需要监测的网站页面的url访问被监测的网站页面;
所述html元素抓取子模块,用于抓取被监测的网站页面中的html元素;所述html元素包括文本元素、图像元素、动画元素和链接元素;
链接元素匹配子模块,用于对所述html元素进行分析,匹配查找出被监测的网站页面中的链接元素;
所述http请求发起子模块,用于对于查找出的每个链接元素,均对该链接发起http请求;
状态码获取子模块,用于获取所述http请求发起子模块发起的http请求的状态码;
日志存储子模块,用于将链接与异常状态码的对应关系存储到异常状态码日志表中;
截屏相似度监测模块,用于达到监测周期时,对对应的网站页面按对应的监测模式进行网页状态监控;
所述截屏相似度监测模块包括:截图子模块、二值化处理子模块、获取子模块和比对子模块;
截图子模块,用于根据需要监测的网站页面的url访问被监测的网站页面,并截取被监测的网站页面的整页面屏,得到网站页面截图;
二值化处理子模块,用于对所述网站页面截图进行二值化处理,得到二值化的网站页面截图;
获取子模块,用于获取被监测的网站页面的最近一次正常情况下的二值化网站页面截图;
比对子模块,用于比对所述二值化处理子模块得到的二值化的网站页面截图与所述获取子模块获取到的最近一次正常情况下的二值化网站页面截图的相似度,如果相似度高于设定阈值,则表明本次被监测的网站页面为正常状态,并将本次得到的二值化的网站页面截图保存到数据库中,作为下一次网站页面状态比对的基准;如果相似度低于设定阈值,表明本次被监测的网站页面为异常状态;
统计分析模块,用于统计状态码异常的链接和/或相似度异常的二值化网站页面截图,得到对被监测网站页面的监测结果。
本发明提供的基于网站页面的网页状态监控方法及系统具有以下优点:
通过抓取网站页面中的链接元素,并进一步的请求链接,通过返回的http状态码判断链接是否失效;通过对网站页面截图,并与最近一次正常情况下的页面截图进行比对,可快速确定网站页面是否出现样式错乱、内容空白等异常情况,因此,具有网站页面的网页状态监控效率高的优点。
附图说明
图1为本发明提供的基于网站页面的网页状态监控方法的流程示意图;
图2为本发明提供的基于网站页面的网页状态监控系统的实现架构图;
图3为本发明提供的截图模块的实现架构图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
因为网站信息的更新、内容的迭代、视图的变化、运营的调整以及程序的bug等因素,可能导致网站页面出现异常情况,例如,样式错乱、内容空白和链接失效等问题。本发明提供的基于网站页面的网页状态监控方法和系统,可以高效的对页面异常情况进行监控,及时发现样式错乱、内容空白和链接失效等异常情况,从而提高网站的服务体验。
参考图1,本发明提供一种基于网站页面的网页状态监控方法,包括以下步骤:
步骤1,建立需要监测的网站页面的页面配置表,所述页面配置表存储需要监测的网站页面的url、监测模式以及监测周期的对应关系;其中,所述监测模式包括链接监测模式和/或截屏相似度监测模式;
例如,在数据库中建立的页面配置表为mnt_page_list,字段包含:url,需要监控的页面地址;gid,告警组id;monitor_a,是否监控内链,0:否,1:是;monitor_img,是否监控图片,0:否,1:是;monitor_module,是否启用截屏相似度监测模块,0:否,1:是;monitor_timeout,是否监控页面的加载速度,0:否,1:是;addtime,添加时间;lasttime,最后修改时间;forbid,状态,0:启用,1:禁用。
步骤2,每当达到监测周期时,自动触发对对应的网站页面按对应的监测模式进行网页状态监控;如果启动链接监测模式,执行步骤3;如果启动截屏相似度监测模式,执行步骤4;
步骤3,链接监测模式,主要通过抓取网站页面中的a链接元素,并进一步的请求链接,通过返回的http状态码判断链接是否失效,具体包括以下步骤:
步骤3.1,调用http客户端;http客户端根据需要监测的网站页面的url访问被监测的网站页面;
步骤3.2,http客户端抓取被监测的网站页面中的html元素;所述html元素包括文本元素、图像元素、动画元素和链接元素;
步骤3.3,http客户端对所述html元素进行分析,匹配查找出被监测的网站页面中的链接元素;
具体实现上,使用nodejs中的cheerio功能模块,匹配查找出被监测的网站页面中的链接元素。链接元素优选为a链接元素。其中,cheerio是nodejs的抓取页面模块,为服务器特别定制的,快速、灵活、实施的jQuery核心实现。适合各种Web爬虫程序。
步骤3.4,对于查找出的每个链接元素,http客户端均对该链接发起http请求,获取到状态码;所述状态码包括正常状态码和异常状态码;
具体实现上,http客户端使用nodejs中的http模块发起http请求,并获取到状态码。
步骤3.5,http客户端将链接与异常状态码的对应关系存储到异常状态码日志表中;然后执行步骤5;
异常状态码日志表为mnt_alarm_log_2017,包含id、pageid、title3个字段,id为主键,pageid为外键;其中,id为状态码对应的链接id;pageid为链接所在网站网页的id;title为标题。
步骤4,截屏相似度监测模式包括以下步骤:
步骤4.1,根据需要监测的网站页面的url访问被监测的网站页面,并截取被监测的网站页面的整页面屏,得到网站页面截图;
具体实现上,使用casperjs截取被监测的网站页面的整页面屏。其中,CasperJs是一个基于PhantomJs的工具,其比起PhantomJs可以更加方便的进行navigation。
步骤4.1具体参考图3,包括::
步骤4.1.1,截图组件对外提供web服务,接受外来的合法的接口请求;
步骤4.1.2,当截图组件接收到对被监测的网站页面的截图请求时,其中,所述截图请求中携带有被监测的网站页面的url;所述截图组件获取请求中的url,截取对应页面的模拟渲染的界面,由此生成被监测的网站页面的截图;
步骤4.1.3,所述截图组件将生成的截图上传到分布式存储服务器上,并得到所述截图在所述分布式存储服务器上的存储地址;所述截图组件将所述截图在所述分布式存储服务器上的存储地址以json数据返回给请求者。
步骤4.2,对所述网站页面截图进行二值化处理,得到二值化的网站页面截图;
步骤4.3,获取被监测的网站页面的最近一次正常情况下的二值化网站页面截图;
步骤4.4,比对步骤4.2得到的二值化的网站页面截图与步骤4.3得到的最近一次正常情况下的二值化网站页面截图的相似度,相似度通过比对灰度值得到,如果相似度高于设定阈值,则表明本次被监测的网站页面为正常状态,并将本次得到的二值化的网站页面截图保存到数据库中,作为下一次网站页面状态比对的基准;如果相似度低于设定阈值,表明本次被监测的网站页面为异常状态;然后执行步骤5;
在具体实现上,当定时任务开始执行时,会发送请求到截图服务,使用http协议进行通信。截图有一个常驻服务器的进程,如果有请求到来,会根据参数进行截图操作,生成截图存储在服务器上,并提供静态文件访问。然后,将截图件对应的路径以json的格式,响应给请求者,请求者可以通过获取到的截图url访问截图。
步骤5,统计状态码异常的链接和/或相似度异常的二值化网站页面截图,得到对被监测网站页面的监测结果。
还包括:
步骤6,将步骤5得到的监测结果,即:异常的链接和/或相似度异常的二值化网站页面截图,以邮件或短信的形式,自动发送给关联的管理组成员。例如,从mnt_alarm_log_2017表中获取一定时间段内的异常数据,将其所属页面,异常详情等信息写入邮件中,发送关联的管理组的成员。管理员通过在后台查看相关异常详情信息,找到对应的页面,进行异常修复。
参考图2,本发明还提供一种基于网站页面的网页状态监控系统,包括:
页面配置表,所述页面配置表用于存储需要监测的网站页面的配置信息;所述配置信息包括需要监测的网站页面的url、监测模式以及监测周期的对应关系;其中,所述监测模式包括链接监测模式和/或截屏相似度监测模式;
链接监测模块,用于达到监测周期时,对对应的网站页面按对应的监测模式进行网页状态监控;
所述链接监测模块包括访问子模块、html元素抓取子模块、链接元素匹配子模块、http请求发起子模块、状态码获取子模块和日志存储子模块;
所述访问子模块,用于根据需要监测的网站页面的url访问被监测的网站页面;
所述html元素抓取子模块,用于抓取被监测的网站页面中的html元素;所述html元素包括文本元素、图像元素、动画元素和链接元素;
链接元素匹配子模块,用于对所述html元素进行分析,匹配查找出被监测的网站页面中的链接元素;
所述http请求发起子模块,用于对于查找出的每个链接元素,均对该链接发起http请求;
状态码获取子模块,用于获取所述http请求发起子模块发起的http请求的状态码;
日志存储子模块,用于将链接与异常状态码的对应关系存储到异常状态码日志表中;
截屏相似度监测模块,用于达到监测周期时,对对应的网站页面按对应的监测模式进行网页状态监控;
所述截屏相似度监测模块包括:截图子模块、二值化处理子模块、获取子模块和比对子模块;
截图子模块,用于根据需要监测的网站页面的url访问被监测的网站页面,并截取被监测的网站页面的整页面屏,得到网站页面截图;
二值化处理子模块,用于对所述网站页面截图进行二值化处理,得到二值化的网站页面截图;
获取子模块,用于获取被监测的网站页面的最近一次正常情况下的二值化网站页面截图;
比对子模块,用于比对所述二值化处理子模块得到的二值化的网站页面截图与所述获取子模块获取到的最近一次正常情况下的二值化网站页面截图的相似度,如果相似度高于设定阈值,则表明本次被监测的网站页面为正常状态,并将本次得到的二值化的网站页面截图保存到数据库中,作为下一次网站页面状态比对的基准;如果相似度低于设定阈值,表明本次被监测的网站页面为异常状态;
统计分析模块,用于统计状态码异常的链接和/或相似度异常的二值化网站页面截图,得到对被监测网站页面的监测结果。
本发明提供的基于网站页面的网页状态监控方法及系统具有以下优点:
通过抓取网站页面中的链接元素,并进一步的请求链接,通过返回的http状态码判断链接是否失效;通过对网站页面截图,并与最近一次正常情况下的页面截图进行比对,可快速确定网站页面是否出现样式错乱、内容空白等异常情况,因此,具有网站页面的网页状态监控效率高的优点。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (8)

1.一种基于网站页面的网页状态监控方法,其特征在于,包括以下步骤:
步骤1,建立需要监测的网站页面的页面配置表,所述页面配置表存储需要监测的网站页面的url、监测模式以及监测周期的对应关系;其中,所述监测模式包括链接监测模式和/或截屏相似度监测模式;
步骤2,每当达到监测周期时,自动触发对对应的网站页面按对应的监测模式进行网页状态监控;如果启动链接监测模式,执行步骤3;如果启动截屏相似度监测模式,执行步骤4;
步骤3,链接监测模式包括以下步骤:
步骤3.1,调用http客户端;http客户端根据需要监测的网站页面的url访问被监测的网站页面;
步骤3.2,http客户端抓取被监测的网站页面中的html元素;所述html元素包括文本元素、图像元素、动画元素和链接元素;
步骤3.3,http客户端对所述html元素进行分析,匹配查找出被监测的网站页面中的链接元素;
步骤3.4,对于查找出的每个链接元素,http客户端均对该链接发起http请求,获取到状态码;所述状态码包括正常状态码和异常状态码;
步骤3.5,http客户端将链接与异常状态码的对应关系存储到异常状态码日志表中;然后执行步骤5;
步骤4,截屏相似度监测模式包括以下步骤:
步骤4.1,根据需要监测的网站页面的url访问被监测的网站页面,并截取被监测的网站页面的整页面屏,得到网站页面截图;
步骤4.2,对所述网站页面截图进行二值化处理,得到二值化的网站页面截图;
步骤4.3,获取被监测的网站页面的最近一次正常情况下的二值化网站页面截图;
步骤4.4,比对步骤4.2得到的二值化的网站页面截图与步骤4.3得到的最近一次正常情况下的二值化网站页面截图的相似度,如果相似度高于设定阈值,则表明本次被监测的网站页面为正常状态,并将本次得到的二值化的网站页面截图保存到数据库中,作为下一次网站页面状态比对的基准;如果相似度低于设定阈值,表明本次被监测的网站页面为异常状态;然后执行步骤5;
步骤5,统计状态码异常的链接和/或相似度异常的二值化网站页面截图,得到对被监测网站页面的监测结果。
2.根据权利要求1所述的基于网站页面的网页状态监控方法,其特征在于,步骤3.3中,使用nodejs中的cheerio功能模块,匹配查找出被监测的网站页面中的链接元素。
3.根据权利要求1所述的基于网站页面的网页状态监控方法,其特征在于,步骤3.3中,链接元素为a链接元素。
4.根据权利要求1所述的基于网站页面的网页状态监控方法,其特征在于,步骤3.4中,http客户端使用nodejs中的http模块发起http请求,并获取到状态码。
5.根据权利要求1所述的基于网站页面的网页状态监控方法,其特征在于,步骤4.1中,使用casperjs截取被监测的网站页面的整页面屏。
6.根据权利要求1所述的基于网站页面的网页状态监控方法,其特征在于,步骤4.1具体为:
步骤4.1.1,截图组件对外提供web服务,接受外来的合法的接口请求;
步骤4.1.2,当截图组件接收到对被监测的网站页面的截图请求时,其中,所述截图请求中携带有被监测的网站页面的url;所述截图组件获取请求中的url,截取对应页面的模拟渲染的界面,由此生成被监测的网站页面的截图;
步骤4.1.3,所述截图组件将生成的截图上传到分布式存储服务器上,并得到所述截图在所述分布式存储服务器上的存储地址;所述截图组件将所述截图在所述分布式存储服务器上的存储地址以json数据返回给请求者。
7.根据权利要求1所述的基于网站页面的网页状态监控方法,其特征在于,还包括:
步骤6,将步骤5得到的监测结果以邮件或短信的形式,自动发送给关联的管理组成员。
8.一种基于网站页面的网页状态监控系统,其特征在于,包括:
页面配置表,所述页面配置表用于存储需要监测的网站页面的配置信息;所述配置信息包括需要监测的网站页面的url、监测模式以及监测周期的对应关系;其中,所述监测模式包括链接监测模式和/或截屏相似度监测模式;
链接监测模块,用于达到监测周期时,对对应的网站页面按对应的监测模式进行网页状态监控;
所述链接监测模块包括访问子模块、html元素抓取子模块、链接元素匹配子模块、http请求发起子模块、状态码获取子模块和日志存储子模块;
所述访问子模块,用于根据需要监测的网站页面的url访问被监测的网站页面;
所述html元素抓取子模块,用于抓取被监测的网站页面中的html元素;所述html元素包括文本元素、图像元素、动画元素和链接元素;
链接元素匹配子模块,用于对所述html元素进行分析,匹配查找出被监测的网站页面中的链接元素;
所述http请求发起子模块,用于对于查找出的每个链接元素,均对该链接发起http请求;
状态码获取子模块,用于获取所述http请求发起子模块发起的http请求的状态码;
日志存储子模块,用于将链接与异常状态码的对应关系存储到异常状态码日志表中;
截屏相似度监测模块,用于达到监测周期时,对对应的网站页面按对应的监测模式进行网页状态监控;
所述截屏相似度监测模块包括:截图子模块、二值化处理子模块、获取子模块和比对子模块;
截图子模块,用于根据需要监测的网站页面的url访问被监测的网站页面,并截取被监测的网站页面的整页面屏,得到网站页面截图;
二值化处理子模块,用于对所述网站页面截图进行二值化处理,得到二值化的网站页面截图;
获取子模块,用于获取被监测的网站页面的最近一次正常情况下的二值化网站页面截图;
比对子模块,用于比对所述二值化处理子模块得到的二值化的网站页面截图与所述获取子模块获取到的最近一次正常情况下的二值化网站页面截图的相似度,如果相似度高于设定阈值,则表明本次被监测的网站页面为正常状态,并将本次得到的二值化的网站页面截图保存到数据库中,作为下一次网站页面状态比对的基准;如果相似度低于设定阈值,表明本次被监测的网站页面为异常状态;
统计分析模块,用于统计状态码异常的链接和/或相似度异常的二值化网站页面截图,得到对被监测网站页面的监测结果。
CN201711123884.XA 2017-11-14 2017-11-14 基于网站页面的网页状态监控方法及系统 Active CN107832428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711123884.XA CN107832428B (zh) 2017-11-14 2017-11-14 基于网站页面的网页状态监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711123884.XA CN107832428B (zh) 2017-11-14 2017-11-14 基于网站页面的网页状态监控方法及系统

Publications (2)

Publication Number Publication Date
CN107832428A true CN107832428A (zh) 2018-03-23
CN107832428B CN107832428B (zh) 2018-09-18

Family

ID=61655488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711123884.XA Active CN107832428B (zh) 2017-11-14 2017-11-14 基于网站页面的网页状态监控方法及系统

Country Status (1)

Country Link
CN (1) CN107832428B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595304A (zh) * 2018-04-19 2018-09-28 腾讯科技(深圳)有限公司 网页监控方法及装置
CN109614175A (zh) * 2018-10-17 2019-04-12 平安普惠企业管理有限公司 用户界面异常处理方法、装置、计算机设备及存储介质
CN109885446A (zh) * 2018-12-25 2019-06-14 北京互金新融科技有限公司 确定网站页面显示状态的方法及装置
CN109978626A (zh) * 2019-03-29 2019-07-05 上海幻电信息科技有限公司 网页广告变更监测方法、装置及存储介质
CN110032493A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 页面的监控方法、装置、终端及可读存储介质
CN110046072A (zh) * 2019-03-13 2019-07-23 平安城市建设科技(深圳)有限公司 页面的监控方法、装置、终端及可读存储介质
CN110351162A (zh) * 2019-05-30 2019-10-18 平安银行股份有限公司 页面可用性监控方法、装置、计算机设备及存储介质
CN110413499A (zh) * 2019-07-30 2019-11-05 秒针信息技术有限公司 服务信息监测方法、装置、设备及存储介质
CN110708270A (zh) * 2018-07-10 2020-01-17 阿里巴巴集团控股有限公司 异常链接检测方法以及装置
CN110704772A (zh) * 2018-06-22 2020-01-17 北京京东尚科信息技术有限公司 页面异常监控方法、系统、装置、电子设备及计算机可读介质
CN110879780A (zh) * 2019-10-25 2020-03-13 北京奇艺世纪科技有限公司 页面异常检测方法、装置、电子设备及可读存储介质
CN110932928A (zh) * 2019-11-08 2020-03-27 杭州安恒信息技术股份有限公司 基于http响应的网站资产失活检测和更新方法
CN110968475A (zh) * 2019-11-13 2020-04-07 泰康保险集团股份有限公司 监控网页的方法、装置、电子设备及可读存储介质
CN110968817A (zh) * 2018-09-28 2020-04-07 北京国双科技有限公司 一种页面内容检测方法、装置及系统
CN111026619A (zh) * 2019-11-04 2020-04-17 贝壳技术有限公司 一种页面监控方法、装置和存储介质
CN111460255A (zh) * 2020-03-26 2020-07-28 第一曲库(北京)科技有限公司 一种音乐作品信息数据采集及存储方法
CN111898013A (zh) * 2020-07-27 2020-11-06 绿盟科技集团股份有限公司 一种网站监测的方法及装置
CN112347400A (zh) * 2019-08-09 2021-02-09 腾讯科技(深圳)有限公司 多语种页面数据的缺失检测方法、装置、设备及存储介质
CN112417347A (zh) * 2019-08-23 2021-02-26 腾讯科技(深圳)有限公司 Web页面可用性的监控方法及装置、介质和电子设备
CN112988532A (zh) * 2021-01-27 2021-06-18 腾讯科技(深圳)有限公司 埋点事件的上报方法、装置、服务器及存储介质
CN117827878A (zh) * 2023-12-29 2024-04-05 佛山众陶联供应链服务有限公司 一种针对物流轨迹佐证材料自动生成的方法及系统
CN109614175B (zh) * 2018-10-17 2024-05-24 深圳市大梦龙途文化传播有限公司 用户界面异常处理方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102739663A (zh) * 2012-06-18 2012-10-17 奇智软件(北京)有限公司 网页检测方法与扫描引擎
JP2014102612A (ja) * 2012-11-19 2014-06-05 Mitsubishi Electric Corp 改竄検知装置及び改竄検知方法
CN106371946A (zh) * 2016-09-13 2017-02-01 乐视控股(北京)有限公司 浏览器异常恢复处理方法及装置
CN107181730A (zh) * 2017-03-13 2017-09-19 烟台中科网络技术研究所 一种仿冒网站监测识别方法及系统
CN107273408A (zh) * 2017-04-28 2017-10-20 努比亚技术有限公司 页面处理方法、移动终端及计算机可读存储介质
CN107332805A (zh) * 2016-04-29 2017-11-07 阿里巴巴集团控股有限公司 检测漏洞的方法、装置和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102739663A (zh) * 2012-06-18 2012-10-17 奇智软件(北京)有限公司 网页检测方法与扫描引擎
JP2014102612A (ja) * 2012-11-19 2014-06-05 Mitsubishi Electric Corp 改竄検知装置及び改竄検知方法
CN107332805A (zh) * 2016-04-29 2017-11-07 阿里巴巴集团控股有限公司 检测漏洞的方法、装置和系统
CN106371946A (zh) * 2016-09-13 2017-02-01 乐视控股(北京)有限公司 浏览器异常恢复处理方法及装置
CN107181730A (zh) * 2017-03-13 2017-09-19 烟台中科网络技术研究所 一种仿冒网站监测识别方法及系统
CN107273408A (zh) * 2017-04-28 2017-10-20 努比亚技术有限公司 页面处理方法、移动终端及计算机可读存储介质

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595304B (zh) * 2018-04-19 2022-12-27 腾讯科技(深圳)有限公司 网页监控方法及装置
CN108595304A (zh) * 2018-04-19 2018-09-28 腾讯科技(深圳)有限公司 网页监控方法及装置
CN110704772A (zh) * 2018-06-22 2020-01-17 北京京东尚科信息技术有限公司 页面异常监控方法、系统、装置、电子设备及计算机可读介质
CN110708270B (zh) * 2018-07-10 2022-06-03 阿里巴巴集团控股有限公司 异常链接检测方法以及装置
CN110708270A (zh) * 2018-07-10 2020-01-17 阿里巴巴集团控股有限公司 异常链接检测方法以及装置
CN110968817A (zh) * 2018-09-28 2020-04-07 北京国双科技有限公司 一种页面内容检测方法、装置及系统
CN109614175A (zh) * 2018-10-17 2019-04-12 平安普惠企业管理有限公司 用户界面异常处理方法、装置、计算机设备及存储介质
CN109614175B (zh) * 2018-10-17 2024-05-24 深圳市大梦龙途文化传播有限公司 用户界面异常处理方法、装置、计算机设备及存储介质
CN109885446A (zh) * 2018-12-25 2019-06-14 北京互金新融科技有限公司 确定网站页面显示状态的方法及装置
CN110032493A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 页面的监控方法、装置、终端及可读存储介质
CN110046072A (zh) * 2019-03-13 2019-07-23 平安城市建设科技(深圳)有限公司 页面的监控方法、装置、终端及可读存储介质
CN109978626A (zh) * 2019-03-29 2019-07-05 上海幻电信息科技有限公司 网页广告变更监测方法、装置及存储介质
CN110351162A (zh) * 2019-05-30 2019-10-18 平安银行股份有限公司 页面可用性监控方法、装置、计算机设备及存储介质
CN110413499A (zh) * 2019-07-30 2019-11-05 秒针信息技术有限公司 服务信息监测方法、装置、设备及存储介质
CN110413499B (zh) * 2019-07-30 2023-12-19 秒针信息技术有限公司 服务信息监测方法、装置、设备及存储介质
CN112347400A (zh) * 2019-08-09 2021-02-09 腾讯科技(深圳)有限公司 多语种页面数据的缺失检测方法、装置、设备及存储介质
CN112417347A (zh) * 2019-08-23 2021-02-26 腾讯科技(深圳)有限公司 Web页面可用性的监控方法及装置、介质和电子设备
CN112417347B (zh) * 2019-08-23 2024-02-09 腾讯科技(深圳)有限公司 Web页面可用性的监控方法及装置、介质和电子设备
CN110879780A (zh) * 2019-10-25 2020-03-13 北京奇艺世纪科技有限公司 页面异常检测方法、装置、电子设备及可读存储介质
CN111026619A (zh) * 2019-11-04 2020-04-17 贝壳技术有限公司 一种页面监控方法、装置和存储介质
CN110932928B (zh) * 2019-11-08 2022-03-18 杭州安恒信息技术股份有限公司 基于http响应的网站资产失活检测和更新方法
CN110932928A (zh) * 2019-11-08 2020-03-27 杭州安恒信息技术股份有限公司 基于http响应的网站资产失活检测和更新方法
CN110968475A (zh) * 2019-11-13 2020-04-07 泰康保险集团股份有限公司 监控网页的方法、装置、电子设备及可读存储介质
CN111460255A (zh) * 2020-03-26 2020-07-28 第一曲库(北京)科技有限公司 一种音乐作品信息数据采集及存储方法
CN111898013A (zh) * 2020-07-27 2020-11-06 绿盟科技集团股份有限公司 一种网站监测的方法及装置
CN111898013B (zh) * 2020-07-27 2024-03-19 绿盟科技集团股份有限公司 一种网站监测的方法及装置
CN112988532A (zh) * 2021-01-27 2021-06-18 腾讯科技(深圳)有限公司 埋点事件的上报方法、装置、服务器及存储介质
CN117827878A (zh) * 2023-12-29 2024-04-05 佛山众陶联供应链服务有限公司 一种针对物流轨迹佐证材料自动生成的方法及系统

Also Published As

Publication number Publication date
CN107832428B (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN107832428B (zh) 基于网站页面的网页状态监控方法及系统
US20170031744A1 (en) Time series metric data modeling and prediction
CN106101145B (zh) 一种网站漏洞检测方法及装置
CN105159964A (zh) 一种日志监控方法及系统
CN111163054B (zh) 检测网页恶意行为的方法和装置
CN107239397A (zh) 一种web自动化测试方法及电子设备
CN107480277A (zh) 用于网站日志采集的方法及装置
CN112115031A (zh) 集群状态监控方法及装置
CN109408763B (zh) 一种对不同模板的简历进行管理的方法及系统
CN114528457A (zh) Web指纹检测方法及相关设备
CN111158926B (zh) 业务请求分析方法、装置及设备
CN108959037A (zh) 一种数据中心自动巡检方法及装置
CN110727947A (zh) 一种安全漏洞处理方法、装置、设备及可读存储介质
US10891638B2 (en) Survey data processing
CN108038671A (zh) 一种智能打卡的方法和装置
CN112463883A (zh) 基于大数据同步平台的可靠性监控方法、装置、设备
CN103078768A (zh) 基于bho技术的web业务系统仿真监控方法和系统
CN104881354A (zh) 云盘监控方法及装置
CN112015623B (zh) 报表数据处理的方法、装置、设备及可读存储介质
CN111352739B (zh) 一种计算机大数据的批处理方法
CN109669867B (zh) 测试装置、自动化测试方法和计算机可读存储介质
CN111259050A (zh) 用户操作轨迹记录方法、装置、计算机设备及存储介质
CN201087865Y (zh) 一种个性化智能垂直搜索系统
US11829434B2 (en) Method, apparatus and computer program for collecting URL in web page
CN117319178A (zh) 一种信息化及网络化设备的维护方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Web page status monitoring method and system based on Web page

Effective date of registration: 20210923

Granted publication date: 20180918

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: BEIJING ZHIXING RUIJING TECHNOLOGY Co.,Ltd.

Registration number: Y2021990000867

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230118

Granted publication date: 20180918

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: BEIJING ZHIXING RUIJING TECHNOLOGY Co.,Ltd.

Registration number: Y2021990000867

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and System for Monitoring Web Page Status Based on Website Pages

Effective date of registration: 20230406

Granted publication date: 20180918

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: BEIJING ZHIXING RUIJING TECHNOLOGY Co.,Ltd.

Registration number: Y2023990000202

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20180918

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: BEIJING ZHIXING RUIJING TECHNOLOGY Co.,Ltd.

Registration number: Y2023990000202