CN110717131B - 页面改版的监控方法及相关系统 - Google Patents

页面改版的监控方法及相关系统 Download PDF

Info

Publication number
CN110717131B
CN110717131B CN201810679788.1A CN201810679788A CN110717131B CN 110717131 B CN110717131 B CN 110717131B CN 201810679788 A CN201810679788 A CN 201810679788A CN 110717131 B CN110717131 B CN 110717131B
Authority
CN
China
Prior art keywords
analysis
page
abnormal
template
analysis template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810679788.1A
Other languages
English (en)
Other versions
CN110717131A (zh
Inventor
袁园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201810679788.1A priority Critical patent/CN110717131B/zh
Publication of CN110717131A publication Critical patent/CN110717131A/zh
Application granted granted Critical
Publication of CN110717131B publication Critical patent/CN110717131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种页面改版的监控方法及相关系统,其中,页面改版的监控方法,包括:获取至少一个页面对应的页面解析结果,所述页面解析结果通过解析模板对所述页面解析后得到;其中,所述页面解析结果包括未解析出的异常字段信息以及所述异常字段信息对应的解析模板标识;根据所述解析模板标识对所述异常字段信息进行聚类统计,得到每个解析模板对应的异常解析数;判断每个解析模板对应的异常解析数是否超过对应的预设异常阈值;如果是,则判断所述解析模板对应的页面发生改版。

Description

页面改版的监控方法及相关系统
技术领域
本发明涉及计算机软件技术领域,尤其涉及一种页面改版的监控方法及相关系统。
背景技术
目前,各个网站根据栏目的不同,会设置有多种不同的页面。因此,针对每一种页面,需要依据页面的特点配置对应的解析模板,用以对页面进行解析。
在利用解析模板解析页面的实际应用过程中,若页面改版,采用原有的解析模板进行解析会出现解析失败的问题。因此,在页面的解析过程中还需要识别每一个页面是否进行了改版。
目前页面的改版的识别主要是通过人工统计数据的方式。由人工统计页面解析后的数据,判断数据是否有缺失,处理效率低且准确性差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的页面改版的监控方法及相关系统。
一种页面改版的监控方法,包括:
获取至少一个页面对应的页面解析结果,所述页面解析结果通过解析模板对所述页面解析后得到;其中,所述页面解析结果包括未解析出的异常字段信息以及所述异常字段信息对应的解析模板标识;
根据所述解析模板标识对所述异常字段信息进行聚类统计,得到每个解析模板对应的异常解析数;
判断每个解析模板对应的异常解析数是否超过对应的预设异常阈值;
如果是,则判断所述解析模板对应的页面发生改版。
可选地,在判断所述解析模板对应的页面发生改版后,所述方法还包括以下至少一项:
停止采用发生改版的页面对应的解析模板进行页面解析;
将发生改版的页面对应的解析模板的状态设置为不可用状态;
在检测到发生改版的页面对应的解析模板发生更新后,将更新后的解析模板的状态设置为可用状态。
可选地,所述判断每个解析模板对应的异常解析数是否超过对应的预设异常阈值之后,所述方法还包括:
根据每个解析模板对应的异常解析数的判断结果,生成异常解析日志,其中,所述异常解析日志中包括以下信息中的至少一项:超过对应的预设异常阈值的解析模板的解析模板标识、页面URL和解析模板创建者信息,所述信息以列表的形式记录在所述异常解析日志中;
将所述异常解析日志保存至数据库;和/或
向预设地址发送所述异常解析日志。
可选地,所述方法还包括以下至少一项:
所述页面解析结果的存储形式为日志;
所述异常字段信息包括空值或预设错误标识;
当所述解析模板为多个时,每个所述解析模板对应的预设异常阈值相同,或者,多个所述解析模板对应的预设异常阈值中至少存在两个以上不同。
可选地,在获取至少一个页面对应的页面解析结果之前,所述方法还包括:获取每个待解析页面对应的解析模板;
采用所述解析模板对所述待解析页面进行解析,得到所述页面解析结果。
一种页面解析装置,包括:
获取单元,用于获取至少一个页面对应的页面解析结果,所述页面解析结果通过解析模板对所述页面解析后得到;其中,所述页面解析结果包括未解析出的异常字段信息以及所述异常字段信息对应的解析模板标识;
聚类单元,用于根据所述解析模板标识对所述异常字段信息进行聚类统计,得到每个解析模板对应的异常解析数;
第一判断单元,用于判断每个解析模板对应的异常解析数是否超过对应的预设异常阈值;
第二判断单元,用于第一判断单元判断出每个解析模板对应的异常解析数超过对应的预设异常阈值,则判断所述解析模板对应的页面发生改版。
可选地,还包括以下单元中的至少一个:
停止单元,用于停止采用发生改版的页面对应的解析模板进行页面解析;
第一设置单元,用于将发生改版的页面对应的解析模板的状态设置为不可用状态;
第二设置单元,用于在检测到发生改版的页面对应的解析模板发生更新后,将更新后的解析模板的状态设置为可用状态。
可选地,还包括:
生成单元,用于根据每个解析模板对应的异常解析数的判断结果,生成异常解析日志,其中,所述异常解析日志中包括以下信息中的至少一项:超过对应的预设异常阈值的解析模板的解析模板标识、页面URL和解析模板创建者信息,所述信息以列表的形式记录在所述异常解析日志中;
保存单元,用于将所述异常解析日志保存至数据库;和/或
发送单元,用于向预设地址发送所述异常解析日志。
一种计算机存储介质,所述计算机存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上述任一项所述的页面改版的监控方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如上述任一项所述的页面改版的监控方法。
借由上述技术方案,本发明提供的系统中,解决了页面解析方法中存在的人工识别页面改版方式存在的效率低且准确性差的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例公开的页面改版的监控方法的流程图;
图2示出了本发明另一实施例公开的页面改版的监控方法的流程图;
图3示出了本发明实施例公开的页面改版的监控装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例公开了一种页面改版的监控方法,参见图1,包括步骤:
S101、获取至少一个页面对应的页面解析结果。
其中,所述页面解析结果通过解析模板对所述页面解析后得到。所述页面解析结果包括未解析出的异常字段信息以及所述异常字段信息对应的解析模板标识,解析模板标识与解析模板一一对应,根据解析模板标识容易知道所采用的解析模板是哪个,解析模板标识具体可以采用字母、数字、特殊符号等任意字符进行表示,还可以采用解析模板的中文或外文名称表示。
针对一个网站的每一个栏目的网页,可以配置一个与该页面对应的解析模板,每个解析模板包括解析页面的规则,当然也可以为相同类型的多个网页配置同一个解析模板,具体根据需要进行选择。
每一个页面进行解析而得到的解析结果可以包括该页面经解析得到的各个字段。其中,字段包括页面中的文字和页面中的图片的链接地址信息等内容。解析组件利用解析模板对页面进行解析,若能正常解析页面,则会解析得到解析模板中的规则要求的字段。若解析组件解析页面而得到的解析结果中包括未解析出的异常字段,说明该页面解析失败,该页面可能是改版的页面。
可选地,解析组件利用解析模板解析页面,得到的页面解析结果可以以日志的形式进行存储。具体的,将该每一个页面的页面解析结果以列表的形式记录在日志中,形成日志记录。其中,页面的页面解析结果一般包括:解析模板标识,解析模板的名称,页面URL(Uniform Resource Locator,统一资源定位符),解析模板创建者信息以及未解析出的字段集合。
可选地,页面的页面解析结果包括的未解析出的异常字段信息,包括:空值或者预设错误标识。
其中,当页面发生改版时,页面中字段的存储路径会发生调整,则页面中的字段不能被解析组件解析出来,该字段的值会被赋值为空。因此,页面解析结果包括的未解析出的异常字段信息包括空值。
针对页面中不能被解析组件解析出来的字段,除了将字段的值赋值为空之外,还可以赋值为错误标识,其中,该错误标识区别于页面中的各个字段值,不能是页面中的文字和页面中的图片的链接地址信息,可以是一种特殊的符号。
可选地,本申请的另一实施例中,步骤S101执行之前,所述页面改版的监控方法,还包括:
获取每个待解析页面对应的解析模板;
采用所述解析模板对所述待解析页面进行解析,得到所述页面解析结果。
其中,每一个待解析的页面,解析组件获取对应的解析模板,且利用该解析模板对页面进行解析,得到页面包括的各个字段,依据页面包括的各个字段得到页面的页面解析结果。识别所述解析页面而得到页面解析结果中的各个字段,若字段中包括异常字段信息,则获取该页面解析结果,以便对异常字段信息进行聚类统计。
S102、根据所述解析模板标识对所述异常字段信息进行聚类统计,得到每个解析模板对应的异常解析数。
获取得到至少一个页面的页面解析结果,每一个页面的页面解析结果利用其对应的解析模板解析得到,且页面解析结果中包括异常字段信息对应的解析模板标识。因此,在对至少一个页面的页面解析结果中的异常字段信息进行聚类统计时,获取每一个页面解析结果中包括的解析模板标识,以解析模板标识为聚类因子,将对应同一个解析模板标识的异常字段信息作为同一类,计算每个解析模板的异常字段信息的数据,得到每个解析模板对应的异常解析数。
S103、判断每个解析模板对应的异常解析数是否超过对应的预设异常阈值。
其中,解析模板对应的异常解析数量用于反映利用该解析模板对页面进行解析,解析结果为失败的页面的数量。并且,在针对网站的每个栏目而配置的解析模板,在创建解析模板的时候,根据需要为该模板设置异常阈值。该异常阈值是用于衡量执行页面解析的解析模板与对应页面的适配情况,进一步能够反映出页面是否有改版。可选地,该异常阈值若未单独设置,则一般会设置为一个默认值,例如10。
若一个解析模板对应的异常解析数超过异常阈值,则说明利用该解析模板对页面进行解析,出现了较多解析失败的情况,反映了该解析模板和页面的适配性较差,说明利用该种解析模板的页面很有可能进行了改版。
可选地,当所述解析模板为多个时,每个所述解析模板对应的预设异常阈值相同,或者,多个所述解析模板对应的预设异常阈值中至少存在两个以上不同。
具体而言,当存在多个解析模板时,可以将所有解析模板的预设异常阈值都设置为相同数值,也可以根据需要为每个解析模板分别设置不同的预设异常阈值,还可以根据需要将其中一个或几个解析模板设置为同一个预设异常阈值,而将剩余的解析模板的预设异常阈值设置为另外一个或多个不同的数据,具体可以根据需要选择采用何种方式。
如果判断出某个解析模板对应的异常解析数是否超过对应的预设异常阈值,则执行步骤S104、判断出所述解析模板对应的页面发生改版。
可选地,本申请的另一实施例中,在判断所述解析模板对应的页面发生改版后,所述方法还包括以下至少一项:
停止采用发生改版的页面对应的解析模板进行页面解析。
将发生改版的页面对应的解析模板的状态设置为不可用状态。
在检测到发生改版的页面对应的解析模板发生更新后,将更新后的解析模板的状态设置为可用状态。
其中,页面发生改版,页面对应的解析模板则不适合再进行页面解析,因此,需要停止该页面解析操作,或者将其状态设置为不可用状态。
在判断出解析模板对应的页面发生改变,还可以监控该解析模板是否更新,若确定其版本更新,则说明更新后的解析模板可以进行页面的解析,则恢复其状态为可用状态。
在实际使用中,判断页面发生改版后,可以停止使用对应的解析模板进行页面解析,以免产生较多异常字段,导致后续无法对页面解析结果进行分析、处理。并且,在发现页面发生改版后,为了防止后续重复采用该解析模板进行页面解析,可以将对应的页面解析模板的状态设置为不可用状态,从而无法采用该解析模板进行页面解析。考虑到相关人员发现页面改版后,很可能会重新为改版后的页面配置解析模板,当检测到解析模板发生更新后,可以将更新后的解析模板的状态修改为可用状态,以便采用更新后的解析模板对改版后的页面进行页面解析。
本申请的另一实施例还公开了一种页面改版的监控方法,如图2所示,包括:步骤S201~步骤S204,其中,步骤S201~步骤S204的具体执行过程可参考对应图1的实施例中步骤S101~步骤S104的内容,此处不再赘述。
本实施例中,除了包括步骤S201~步骤S204之外,还包括:
S205、根据每个解析模板对应的异常解析数的判断结果,生成异常解析日志。
其中,所述异常解析日志中包括以下信息中的至少一项:超过对应的预设异常阈值的解析模板的解析模板标识、页面URL和解析模板创建者信息,可选地,还可以包括解析模板对应的异常解析数。
步骤S203中,判断一个解析模板对应的异常解析数超过对应的预设异常阈值,除了执行步骤S204,还可以执行本步骤,即生成异常解析日志。具体的,该日志至少包括该解析模板的解析模板标识、页面URL和解析模板创建者信息中的一种信息。
还需要说明的是,异常解析日志以列表的形式存储信息,列表如下。
Figure BDA0001710110780000071
Figure BDA0001710110780000081
S206、将所述异常解析日志保存至数据库。
还需要说明的是,本步骤在本申请实施例公开的页面改版的监控方法的执行过程时,可以是可选的执行。
S207、向预设地址发送所述异常解析日志。
同样,本步骤也可以是可选的执行,其中,预设地址可以事先配置好,例如为相关解析模板的创建者(或创建人)的邮箱、移动电话或微信等地址,以便将异常解析日志发送解析模板的创建者,从而使得相关人员能够方便地获知页面解析情况以及解析异常情况,并根据需要对解析模板进行更新。
获取每一个解析模板的创建人的地址,将所述列表向每一个解析模板的创建人发送。可选地,在所述列表发送成功之后,可生成处理成功的结果。再判断出所述处理成功的结果生成之后,将所述列表中的每一个解析模板的身份标识对应的解析模板设置为不可用。
本申请另一实施例还公开了一种页面改版的监控装置,参见图3,包括:
获取单元301,用于获取至少一个页面对应的页面解析结果,所述页面解析结果通过解析模板对所述页面解析后得到;其中,所述页面解析结果包括未解析出的异常字段信息以及所述异常字段信息对应的解析模板标识。
可选地,所述页面解析结果的存储形式为日志。
可选地,所述异常字段信息包括空值或预设错误标识。
聚类单元302,用于根据所述解析模板标识对所述异常字段信息进行聚类统计,得到每个解析模板对应的异常解析数。
第一判断单元303,用于判断每个解析模板对应的异常解析数是否超过对应的预设异常阈值。
可选地,当所述解析模板为多个时,每个所述解析模板对应的预设异常阈值相同,或者,多个所述解析模板对应的预设异常阈值中至少存在两个以上不同。
第二判断单元304,用于第一判断单元303判断出每个解析模板对应的异常解析数超过对应的预设异常阈值,则判断所述解析模板对应的页面发生改版。
可选地,本申请的另一实施例中,所述页面改版的监控装置还包括以下单元中的至少一个:
停止单元,用于停止采用发生改版的页面对应的解析模板进行页面解析。
第一设置单元,用于将发生改版的页面对应的解析模板的状态设置为不可用状态。
第二设置单元,用于在检测到发生改版的页面对应的解析模板发生更新后,将更新后的解析模板的状态设置为可用状态。
可选地,本申请的另一实施例中,所述页面改版的监控装置还包括:
生成单元,用于根据每个解析模板对应的异常解析数的判断结果,生成异常解析日志,其中,所述异常解析日志中包括以下信息中的至少一项:超过对应的预设异常阈值的解析模板的解析模板标识、页面URL和解析模板创建者信息,所述信息以列表的形式记录在所述异常解析日志中。
保存单元,用于将所述异常解析日志保存至数据库;和/或
发送单元,用于向预设地址发送所述异常解析日志。
可选地,本申请的另一实施例中,所述页面改版的监控装置还包括:
读取单元,用于在获取至少一个页面对应的页面解析结果之前,获取每个待解析页面对应的解析模板。
解析单元,用于采用所述解析模板对所述待解析页面进行解析,得到所述页面解析结果。
本申请上述实施例中,各个单元的具体工作过程,可参见对应的方法实施例内容,此处不再赘述。
所述页面解析装置包括处理器和存储器,上述获取单元、聚类单元、第一判断单元和第二判断单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现页面的解析工作,解决页面解析方法中存在的人工识别页面改版方式存在的效率低且准确性差的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述页面改版的监控方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述页面改版的监控方法。
本发明实施例提供了一种设备,本文中的设备可以是服务器、PC、PAD、手机等。设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取至少一个页面对应的页面解析结果,所述页面解析结果通过解析模板对所述页面解析后得到;其中,所述页面解析结果包括未解析出的异常字段信息以及所述异常字段信息对应的解析模板标识;
根据所述解析模板标识对所述异常字段信息进行聚类统计,得到每个解析模板对应的异常解析数;
判断每个解析模板对应的异常解析数是否超过对应的预设异常阈值;
如果是,则判断所述解析模板对应的页面发生改版。
可选地,在判断所述解析模板对应的页面发生改版后,所述方法还包括以下至少一项:
停止采用发生改版的页面对应的解析模板进行页面解析;
将发生改版的页面对应的解析模板的状态设置为不可用状态;
在检测到发生改版的页面对应的解析模板发生更新后,将更新后的解析模板的状态设置为可用状态。
可选地,所述判断每个解析模板对应的异常解析数是否超过对应的预设异常阈值之后,所述方法还包括:
根据每个解析模板对应的异常解析数的判断结果,生成异常解析日志,其中,所述异常解析日志中包括以下信息中的至少一项:超过对应的预设异常阈值的解析模板的解析模板标识、页面URL和解析模板创建者信息,所述信息以列表的形式记录在所述异常解析日志中;
将所述异常解析日志保存至数据库;和/或
向预设地址发送所述异常解析日志。
可选地,所述方法还包括以下至少一项:
所述页面解析结果的存储形式为日志;
所述异常字段信息包括空值或预设错误标识;
当所述解析模板为多个时,每个所述解析模板对应的预设异常阈值相同,或者,多个所述解析模板对应的预设异常阈值中至少存在两个以上不同。
可选地,在获取至少一个页面对应的页面解析结果之前,所述方法还包括:获取每个待解析页面对应的解析模板;
采用所述解析模板对所述待解析页面进行解析,得到所述页面解析结果。
本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取至少一个页面对应的页面解析结果,所述页面解析结果通过解析模板对所述页面解析后得到;其中,所述页面解析结果包括未解析出的异常字段信息以及所述异常字段信息对应的解析模板标识;
根据所述解析模板标识对所述异常字段信息进行聚类统计,得到每个解析模板对应的异常解析数;
判断每个解析模板对应的异常解析数是否超过对应的预设异常阈值;
如果是,则判断所述解析模板对应的页面发生改版。
可选地,在判断所述解析模板对应的页面发生改版后,所述方法还包括以下至少一项:
停止采用发生改版的页面对应的解析模板进行页面解析;
将发生改版的页面对应的解析模板的状态设置为不可用状态;
在检测到发生改版的页面对应的解析模板发生更新后,将更新后的解析模板的状态设置为可用状态。
可选地,所述判断每个解析模板对应的异常解析数是否超过对应的预设异常阈值之后,所述方法还包括:
根据每个解析模板对应的异常解析数的判断结果,生成异常解析日志,其中,所述异常解析日志中包括以下信息中的至少一项:超过对应的预设异常阈值的解析模板的解析模板标识、页面URL和解析模板创建者信息,所述信息以列表的形式记录在所述异常解析日志中;
将所述异常解析日志保存至数据库;和/或
向预设地址发送所述异常解析日志。
可选地,所述方法还包括以下至少一项:
所述页面解析结果的存储形式为日志;
所述异常字段信息包括空值或预设错误标识;
当所述解析模板为多个时,每个所述解析模板对应的预设异常阈值相同,或者,多个所述解析模板对应的预设异常阈值中至少存在两个以上不同。
可选地,在获取至少一个页面对应的页面解析结果之前,所述方法还包括:获取每个待解析页面对应的解析模板;
采用所述解析模板对所述待解析页面进行解析,得到所述页面解析结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种页面改版的监控方法,其特征在于,包括:
获取至少一个页面对应的页面解析结果,所述页面解析结果通过解析模板对所述页面解析后得到;其中,所述页面解析结果包括未解析出的异常字段信息以及所述异常字段信息对应的解析模板标识;所述解析模板为针对一个网站的每一个栏目的网页对应配置的,所述解析模板包括解析页面的规则;
根据所述解析模板标识对所述异常字段信息进行聚类统计,以解析模板标识为聚类因子,将对应同一个解析模板标识的异常字段信息作为同一类,计算每个解析模板的异常字段信息的数据,得到每个解析模板对应的异常解析数;
判断每个解析模板对应的异常解析数是否超过对应的预设异常阈值;
如果是,则判断所述解析模板对应的页面发生改版。
2.根据权利要求1所述的方法,其特征在于,在判断所述解析模板对应的页面发生改版后,所述方法还包括以下至少一项:
停止采用发生改版的页面对应的解析模板进行页面解析;
将发生改版的页面对应的解析模板的状态设置为不可用状态;
在检测到发生改版的页面对应的解析模板发生更新后,将更新后的解析模板的状态设置为可用状态。
3.根据权利要求1所述的方法,其特征在于,所述判断每个解析模板对应的异常解析数是否超过对应的预设异常阈值之后,所述方法还包括:
根据每个解析模板对应的异常解析数的判断结果,生成异常解析日志,其中,所述异常解析日志中包括以下信息中的至少一项:超过对应的预设异常阈值的解析模板的解析模板标识、页面URL和解析模板创建者信息,所述信息以列表的形式记录在所述异常解析日志中;
将所述异常解析日志保存至数据库;和/或
向预设地址发送所述异常解析日志。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,所述方法还包括以下至少一项:
所述页面解析结果的存储形式为日志;
所述异常字段信息包括空值或预设错误标识;
当所述解析模板为多个时,每个所述解析模板对应的预设异常阈值相同,或者,多个所述解析模板对应的预设异常阈值中至少存在两个以上不同。
5.根据权利要求1所述的方法,其特征在于,在获取至少一个页面对应的页面解析结果之前,所述方法还包括:
获取每个待解析页面对应的解析模板;
采用所述解析模板对所述待解析页面进行解析,得到所述页面解析结果。
6.一种页面改版的监控装置,其特征在于,包括:
获取单元,用于获取至少一个页面对应的页面解析结果,所述页面解析结果通过解析模板对所述页面解析后得到;其中,所述页面解析结果包括未解析出的异常字段信息以及所述异常字段信息对应的解析模板标识;所述解析模板为针对一个网站的每一个栏目的网页对应配置的,所述解析模板包括解析页面的规则;
聚类单元,用于根据所述解析模板标识对所述异常字段信息进行聚类统计,以解析模板标识为聚类因子,将对应同一个解析模板标识的异常字段信息作为同一类,计算每个解析模板的异常字段信息的数据,得到每个解析模板对应的异常解析数;
第一判断单元,用于判断每个解析模板对应的异常解析数是否超过对应的预设异常阈值;
第二判断单元,用于第一判断单元判断出每个解析模板对应的异常解析数超过对应的预设异常阈值,则判断所述解析模板对应的页面发生改版。
7.根据权利要求6所述的装置,其特征在于,还包括以下单元中的至少一个:
停止单元,用于停止采用发生改版的页面对应的解析模板进行页面解析;
第一设置单元,用于将发生改版的页面对应的解析模板的状态设置为不可用状态;
第二设置单元,用于在检测到发生改版的页面对应的解析模板发生更新后,将更新后的解析模板的状态设置为可用状态。
8.根据权利要求7所述的装置,其特征在于,还包括:
生成单元,用于根据每个解析模板对应的异常解析数的判断结果,生成异常解析日志,其中,所述异常解析日志中包括以下信息中的至少一项:超过对应的预设异常阈值的解析模板的解析模板标识、页面URL和解析模板创建者信息,所述信息以列表的形式记录在所述异常解析日志中;
保存单元,用于将所述异常解析日志保存至数据库;和/或
发送单元,用于向预设地址发送所述异常解析日志。
9.一种计算机存储介质,其特征在于,所述计算机存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一项所述的页面改版的监控方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-5中任一项所述的页面改版的监控方法。
CN201810679788.1A 2018-06-27 2018-06-27 页面改版的监控方法及相关系统 Active CN110717131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810679788.1A CN110717131B (zh) 2018-06-27 2018-06-27 页面改版的监控方法及相关系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810679788.1A CN110717131B (zh) 2018-06-27 2018-06-27 页面改版的监控方法及相关系统

Publications (2)

Publication Number Publication Date
CN110717131A CN110717131A (zh) 2020-01-21
CN110717131B true CN110717131B (zh) 2022-07-05

Family

ID=69208167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810679788.1A Active CN110717131B (zh) 2018-06-27 2018-06-27 页面改版的监控方法及相关系统

Country Status (1)

Country Link
CN (1) CN110717131B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111880838B (zh) * 2020-08-03 2024-04-12 北京神舟航天软件技术有限公司 一种基于模板匹配技术的数据解析方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932197B (zh) * 2011-08-11 2017-05-10 阿里巴巴集团控股有限公司 一种测试方法及测试系统
CA2858218C (en) * 2013-01-11 2015-01-27 La Presse, Ltee System and method for generating a digital edition
CN103248625B (zh) * 2013-04-27 2016-09-14 北京京东尚科信息技术有限公司 一种网络爬虫运行异常监控方法和系统
CN103942309B (zh) * 2014-04-18 2017-06-30 网易乐得科技有限公司 一种网络数据获取设备、方法及获取过程的实现方法
CN104933168B (zh) * 2015-06-30 2018-08-14 南京烽火星空通信发展有限公司 一种网页内容自动采集方法
CN106997353B (zh) * 2016-01-22 2021-08-10 北京国双科技有限公司 网页改版的监控方法及装置
CN108090080A (zh) * 2016-11-22 2018-05-29 北京京东尚科信息技术有限公司 用于替换解析模板的方法与系统及爬取方法
CN107943869A (zh) * 2017-11-10 2018-04-20 深圳市华阅文化传媒有限公司 阅读第三方网页的方法和装置

Also Published As

Publication number Publication date
CN110717131A (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
CN109710508B (zh) 测试方法、测试装置、测试设备及计算机可读存储介质
CN110020339B (zh) 基于无埋点的网页数据采集方法及装置
CN109902073B (zh) 日志处理方法、装置、计算机设备和计算机可读存储介质
CN109683773B (zh) 语料标注方法和装置
CN109558548B (zh) 一种消除css样式冗余的方法及相关产品
CN110825377A (zh) 一种依赖冲突分析方法及装置
CN111026080A (zh) 控制器的硬件在环测试方法及装置
CN111813498A (zh) 终端容器的监测方法、监测装置、存储介质及处理器
CN110717131B (zh) 页面改版的监控方法及相关系统
CN110928941B (zh) 一种数据分片抽取方法及装置
CN110851400B (zh) 文本数据的处理方法及装置
CN111200654A (zh) 客户端请求错误处理方法及装置
CN111400245B (zh) 美术资源迁移方法及装置
CN115827290A (zh) 处理策略的确定方法、装置、存储介质以及电子设备
CN107908516B (zh) 一种数据显示方法及装置
CN114500249A (zh) 一种根因定位方法和装置
CN113378525A (zh) Pdf文档段落呈现方法、装置、存储介质及设备
CN106997353B (zh) 网页改版的监控方法及装置
CN113609825A (zh) 一种客户属性标签智能标识方法和装置
CN110908876B (zh) 一种硬件性能数据的获取方法及装置
CN112698890A (zh) 函数耗时采集方法、装置、设备及存储介质
CN110968754B (zh) 一种爬虫翻页策略的检测方法及装置
US9471569B1 (en) Integrating information sources to create context-specific documents
CN111078574A (zh) 生成影响分析报告的方法及装置
CN106649058B (zh) 一种日志处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant