CN103077107A

CN103077107A - 一种数据维护方法及系统

Info

Publication number: CN103077107A
Application number: CN201210593896XA
Authority: CN
Inventors: 庄为亮
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2013-05-01
Anticipated expiration: 2032-12-31
Also published as: CN103077107B

Abstract

本发明适用于基于网络爬虫的数据维护领域，提供了一种数据维护方法及系统。所述方法包括：A、提取指定地址的页面内容；B、以预设的监控器为依据监控所述页面内容，所述预设的监控器定义了有效的页面内容格式；C、在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时，生成对应的警告日志；D、将生成的警告日志发送给开发人员。本发明实施例能够使开发人员及时获取布局发生变化的页面内容。

Description

一种数据维护方法及系统

技术领域

本发明属于基于网络爬虫的数据维护领域，尤其涉及一种数据维护方法及系统。

背景技术

在当前信息空前爆炸的时代，人们不再担心信息的匮乏，而是为筛选有用的信息付出大量的代价。

现有的数据聚合方法有：采用网络爬虫技术实现的聚合方法。下面具体以网络爬虫技术的其中一种----Web-Harvest为例进行说明，Web-Harvest是一个Java开源Web数据抽取工具，它能够收集指定的Web页面并从这些页面中提取有用的数据。其提取数据的过程主要是通过基于可扩展标记语言（ExtensibleMarkup Language，xml）配置文件的方式来进行定义的，每个xml配置文件描述了提取数据的一系列任务，而这些任务又是以一种链式的方式执行，所以一个任务返回结果可以当作另外一个任务的输入内容，这可以从下面的代码看出：

其中，上述的xpath为xml路径语言（xml Path Language）。当Web-Harverst执行上述代码提取视频页面播放地址时，其步骤为：

1、http处理器发送http请求，并从指定的页面地址（Universal ResourceLocator，url）上面下载页面内容；

2、http-to-xml处理器将已下载的页面上的一些超文本标记语言（HypertextMarkup Language，HTML）清除，以产生可扩展超文本置标语言（ExtensibleHyper Text Markup Language，XHTML）；

3、xpath处理器根据其表达式expression的序列从xml寻找符合的内容。

但如果网络爬虫技术聚合的数据没有得到及时维护，则很可能聚合到错误的数据，原因如下：由于采用网络爬虫技术实现的数据聚合方法中，每个聚合过程都被定义在一个或多个基于xml的配置文件中，因此当页面的布局排版或者样式发生变化时，根据原来表达式提取的数据将为空或者是不符合预期。而由于通过网络爬虫技术实现的数据聚合方法生成的配置文件又较多，开发人员难以实时关注网站各个页面布局排版的变化，从而难以及时获知需调整的配置文件。

发明内容

本发明实施例提供了一种数据维护方法及系统，旨在解决现有开发人员难以实时关注网站各个页面布局排版的变化，从而难以及时获知需调整的配置文件的问题。

本发明实施例是这样实现的，一种数据维护方法，所述方法包括下述步骤：

A、提取指定地址的页面内容；

B、以预设的监控器为依据监控所述页面内容，所述预设的监控器定义了有效的页面内容格式；

C、在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时，生成对应的警告日志；

D、将生成的警告日志发送给开发人员。

本发明实施例的另一目的在于提供一种数据维护系统，所述数据聚合系统包括：

页面内容提取单元，用于提取指定地址的页面内容；

页面内容监控单元，用于以预设的监控器为依据监控所述页面内容，所述预设的监控器定义了有效的页面内容格式；

日志生成单元，用于在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时，生成对应的警告日志；

页面内容预警单元，用于将生成的警告日志发送给开发人员。

本发明实施例中，由于开发人员根据接收的预警日志能够获知哪些页面内容发生改变，因此开发人员可及时获知哪些配置文件需要进行调整。

附图说明

图1是本发明第一实施例提供的一种数据维护方法的流程图；

图2是本发明第一实施例提供的一种数据维护系统的结构图；

图3是本发明第二实施例提供的另一种数据维护系统的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例中，使用预设的监控器监控提取的页面内容，在页面内容的格式不符合所述预设的监控器定义的有效页面内容格式时，生成对应的预警日志，并将生成的预警日志发送给开发人员。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本发明第一实施例提供的一种数据维护方法的流程图，详述如下：

步骤S11、提取指定地址的页面内容。

该步骤中，可使用网络爬虫技术提取指定地址的页面内容，如使用Web-Harvest技术提取。在使用网络爬虫技术提取页面内容之前，需要预先在可扩展标记语言路径语言（Extensible Markup Language Path Language，xpath）定义器中扩展定义以下3个属性：（1）、命令（required）属性，该required用于选择是否监控所述xpath抓取的页面内容，当required为真（true）时，定义xpath抓取的内容不能为空，为空时定义系统生成一条为空的日志；当required为假（false）时，不监控xpath抓取的页面内容。（2）、监控器（validator）属性，该validator用于监控xpath抓取的页面内容。（3）、页面地址（UniversalResource Locator，url）属性，该url用于记录提取的页面地址，添加该url属性有利于提高维护人员排查问题的速度。

其中，使用网络爬虫技术提取页面内容的步骤具体为：A1、网络爬虫的http处理器与指定地址建立通信连接，并从所述指定地址下载相应的页面内容，所述页面内容使用超文本标记语言HTML表示。A2、网络爬虫的http-to-xml处理器以所述HTML表示的页面内容为依据，生成以可扩展超文本置标语言XHTML表示的页面内容。该步骤中，将已下载的使用HTML表示的页面上的一些HTML标签清除，以得到使用XHTML表示的页面内容。A3、网络爬虫的xpath处理器将所述XHTML表示的页面内容转换为使用xml表示的页面内容，并从使用xml表示的页面内容中提取需监控的页面内容。

步骤S12、以预设的监控器为依据监控所述页面内容，所述预设的监控器定义了有效的页面内容格式。

其中，预定义（预设）的validator定义了有效的页面内容格式，该validator可为多个，多个validator组成了一个监控器集合（validators）。

步骤S13、在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时，生成对应的警告日志。

该步骤中，在判断出提取的页面内容的格式与预设的监控器定义的有效的页面内容格式不相同时，生成对应的警告日志。

步骤S14、将生成的警告日志发送给开发人员。

该步骤中，将生成的警告日志发送给开发人员（或网络管理员等），以便开发人员接收到警告日志后，能够及时获知页面布局排版变化的配置文件。

本发明实施例中，使用预设的监控器监控提取的页面内容，在页面内容的格式不符合所述预设的监控器定义的有效页面内容格式时，生成对应的预警日志，并将生成的预警日志发送给开发人员。由于开发人员根据接收的预警日志能够获知哪些页面内容发生改变，因此开发人员可及时获知哪些配置文件需要进行调整，同时，由于无需开发人员时刻关注网站各个页面布局排版的变化，因此也节约了大量的时间。

为了清楚获知执行步骤S11：提取指定地址的页面内容时是否发生异常，本发明实施例提供的数据维护方法在步骤S11之后，包括下述步骤：

判断提取指定地址的页面内容时是否发生提取异常，在发生提取异常时生成一条错误日志。

该步骤中，若在提取页面信息时发生异常，比如死机，重启等异常时，系统生成一条错误日志。进一步地，将生成的错误日志存入数据库中，方便开发人员的查看。

优选地，本发明实施例提供的数据维护方法在提取页面内容之后，根据预先设定的required属性值选择是否监控提取的页面内容：在步骤S11之后，包括下述步骤：

判断是否监控提取的页面内容，在监控提取的页面内容时，判断监控的页面内容是否为空，若监控的页面内容为空，生成一条提取为空的日志并发送给开发人员。

优选地，在监控的页面内容不为空时，执行步骤S12；所述步骤S12具体包括：

将提取的页面内容的格式与预设的监控器定义的有效的页面内容格式比较，以判断所述提取的页面内容的格式与预设的监控器定义的有效的页面内容格式是否相符合，若不相符，执行步骤S13。其中，所述预设的监控器定义的有效的页面内容格式包括以下至少一种：有效的时间格式、有效的地址格式、有效的数字格式、有效的字符串格式。

本实施例中，通过扩展定义的required属性，判断是否监控提取的页面内容，若需要监控，则判断提取的页面内容是否为空，若为空，生成一条提取为空的日志，若不为空，使用预设的监控器校验提取的页面内容。进一步地，存储生成的提取为空的日志，将该提取为空的日志发送给开发人员。在本实施例中，有效的时间格式、有效的地址格式、有效的数字格式、有效的字符串格式可根据需求设置为常用的格式，例如，将有效的时间格式设置为“yyyy-MM-dd”等。

本实施例中生成的警告日志、错误日志、提取为空的日志里面包括以下至少一种信息：（1）配置文件路径；（2）提取表达式；（3）页面url；（4）错误信息；（5）提取的页面内容；（6）状态；（7）操作时间。由于生成的日志包括上述信息的至少一种，因此开发人员可根据生成日志包含的信息，如根据日志的配置文件和/或错误信息和/或状态和/或操作时间等信息来查询已生成的日志。

本发明实施例中，将生成的警告日志发送给开发人员的方式有多种，下面列出了其中一种：通过邮件自动发送，在通过邮件自动发送生成的警告日志时，步骤S14具体包括：

通过预先配置的邮件服务器、邮件服务器用户名、邮件服务器用户密码、邮件服务器邮件默认标题将生成的警告日志发送给开发人员。

本实施例中，（1）预先在基础配置中配置好xpathLog邮件服务器，如配置该xpathLog邮件服务器与管理员所在邮件服务器的连接方式等、配置好xpathLog邮件服务器的用户密码、xpathLog邮件默认标题和xpathLog邮件服务器用户名；（2）预先配置quartz的触发器，指定该触发器触发的条件，以及该触发器加载哪些任务job；（3）在Spring中使用quartz实现定时任务，定时执行发送邮件的任务。优选地，系统也可以将日志通过短信的方式发送给开发人员，此处不作限定。

本发明实施例提供的数据维护方法中，当开发人员接收到警告日志之后，可通过警告日志记录的配置文件路径查找对应的配置文件，也可根据警告日志记录的表达式定位配置文件需修改的地方。即在步骤S14之后，包括步骤：

接收开发人员发出的指令，根据接收的指令执行对应的操作，所述开发人员发出的指令包括配置文件查找指令和配置文件修改指令。

本实施例中，开发人员可通过配置文件目录或配置文件名称查找相应的配置文件；可根据警告日志、错误日志等日志里面的错误信息排查问题，再根据日志里面提供的配置文件路径查找该配置文件，修改出错的配置文件内容，并将全部修改好的配置文件重新发布，由于能够及时调整网站上布局发生变化的页面所对应的配置文件，因此降低了其他用户在爬取该配置文件对应的网页内容时，由于使用未及时修改的配置文件爬取而获得空数据或不符合预期的数据的概率。

图2示出了本发明第一实施例提供的一种数据维护系统的结构图，该数据维护系统与图1示出的数据维护方法对应，为了便于说明，仅示出了与本实施例相关的部分：

该数据维护系统包括：页面内容提取单元21、页面内容监控单元22、日志生成单元23、页面内容预警单元24。其中：

页面内容提取单元21，用于提取指定地址的页面内容。

页面内容监控单元22，用于以预设的监控器为依据监控所述页面内容，所述预设的监控器定义了有效的页面内容格式。

本实施例，在监控提取的页面内容之前，预先在xpath定义器定义了3个属性：命令（required）属性；监控器（validator）属性；页面地址（Universal ResourceLocator，url）属性。上述3个属性与实施例一的相同，此处不再赘述。其中，预设的监控器（validator）定义了有效的页面内容格式，该validator可为多个，多个validator组成了一个监控器集合（validators）。

日志生成单元23，用于在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时，生成对应的警告日志。

本实施例中，将提取的页面内容的格式与预设的validator定义的有效的页面内容格式比较，在两者不相符时，生成对应的警告日志。

页面内容预警单元24，用于将生成的警告日志发送给开发人员。

优选地，本实施例的页面内容监控单元22还用于判断提取指定地址的页面内容时是否发生提取异常，在发生提取异常时，所述日志生成单元23生成一条错误日志，进一步地，页面内容预警单元24将生成的错误日志发送给开发人员。

本发明实施例中，页面内容监控单元22监控页面内容提取单元21提取的页面内容，若被监控的页面内容的格式与页面内容监控单元22预先定义的格式不相符时，日志生成单元23生成对应的警告日志，并由页面内容预警单元24发送给开发人员。由于本发明实施例提供的数据维护系统能够自动、及时将发生变化的页面信息（即与预先定义的格式不相符的页面信息）告知开发人员，因此开发人员能够及时获知哪些配置文件需要进行调整。

实施例二：

图3示出了本发明第二实施例提供的另一种数据维护系统的结构图，本实施例的数据维护系统除了包括实施例二的页面内容提取单元21、页面内容监控单元22、日志生成单元23、页面内容预警单元24之外，还包括：

判断器25，用于判断是否监控提取的页面内容。

在监控提取的页面内容时，所述页面内容监控单元22判断监控的页面内容是否为空，若监控的页面内容为空，所述日志生成单元生成一条提取为空的日志。

优选地，在监控的页面内容不为空时，所述页面内容监控单元22以预设的监控器为依据监控所述页面内容的具体步骤包括：

将提取的页面内容的格式与预设的监控器定义的有效的页面内容格式比较，以判断所述提取的页面内容的格式与预设的监控器定义的有效的页面内容格式是否相符合。

本实施例中，通过判断required属性的值判断是否需要监控提取的页面内容。在本实施例中，可将生成的错误日志存入数据库中，由页面内容预警单元24发送给开发人员。

其中，上述预设的监控器包括以下至少一种：日期监控器、地址监控器、数字监控器、字符串监控器；

所述日期监控器预先存储了有效的时间格式；

所述地址监控器预先存储了有效的地址格式；

所述数字监控器预先存储了有效的数字格式；

所述字符串监控器预先存储了有效的字符串格式。

本实施例中，日期监控器（datevalidator）、地址监控器（urlvalidator）、数字监控器（numbervalidator）、字符串监控器（stringvalidator）的表达式格式包括：监控器名(参数1＝值1,参数2=值2,...)或true或false和运算符。常见的运算符如：或运算“|”；与运算“&”；调整运算优先级运算符“[]”等。其中：（1）datevalidator用于校验页面内容是否为日期格式；涉及的参数为：format=时间格式。当然，这里的参数format不是必填项，默认格式为yyyy-MM-dd。（2）urlvalidator：用于校验页面内容是否为通用地址格式。（3）numbervalidator：用于校验页面内容是否为通用数字格式；涉及的参数为：regex=正则表达式。当然，这里的参数regex不是必填项，默认正则表达式为零和非零开通的数字。（4）stringvalidator：用于校验页面内容是否符合定义的字符串长度。涉及的参数包括以下的至少一个：minLength=最小长度；maxLength=最大长度；regex=正则表达式。

为了更清楚地描述配置多个校验器的过程，下面以配置日期校验器datevalidator和字符串校验器stringvalidator进行说明：

validators="[datevalidator(format=yyyy年MM月dd日)|datevalidator(format=yyyy-MM-dd HH:mm:ss)]&stringValidator(maxLength=20)"

上述代码表明，datevalidator使用“yyyy年MM月dd日”或“format=yyyy-MM-dd”的格式校验页面内容；stringvalidator定义了字符串的最大长度为20，并使用定义的字符串长度校验页面内容。

本实施例，页面内容预警单元24可通过邮件将生成的警告日志发送给开发人员，具体步骤包括：

本实施例中，通过预先配置的邮件参数，将生成的警告日志通过邮件发送给开发人员，当然，也可以预先配置短信参数，从而将生成的警告日志通过短信发送给开发人员。

本发明实施例中，数据维护系统除了包括页面内容提取单元21、页面内容监控单元22、日志生成单元23、页面内容预警单元24、判断器25之外，还可以包括：

配置文件管理单元26，用于接收开发人员发出的指令，根据接收的指令执行对应的操作，所述开发人员发出的指令包括配置文件查找指令和配置文件修改指令。

本实施例中，开发人员通过配置文件管理单元26可实现在线维护和发布网络爬虫配置文件的功能。

在本发明实施例中，使用预设的监控器监控提取的页面内容，在页面内容的格式不符合所述预设的监控器定义的有效页面内容格式时，生成对应的预警日志，并将生成的预警日志发送给开发人员。由于开发人员根据接收的预警日志能够获知哪些页面内容发生改变，因此开发人员可及时获知哪些配置文件需要进行调整，同时，由于无需开发人员时刻关注网站各个页面布局排版的变化，因此也节约了大量的时间。

本领域普通技术人员可以理解，实现上述实施例的一种数据维护方法的过程可以通过程序指令相关的硬件来完成，所述的程序可以存储于可读存储介质中，该程序在执行时执行上述方法中的对应步骤。所述存储介质可以入：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据维护方法，其特征在于，所述方法包括下述步骤：

A、提取指定地址的页面内容；

D、将生成的警告日志发送给开发人员。

2.如权利要求1所述的数据聚合方法，其特征在于，在步骤A之后，包括下述步骤：

3.如权利要求1所述的数据聚合方法，其特征在于，在步骤A之后，包括下述步骤：

4.如权利要求3所述的数据聚合方法，其特征在于，在监控的页面内容不为空时，执行步骤B；

所述步骤B具体包括：

将提取的页面内容的格式与预设的监控器定义的有效的页面内容格式比较，以判断所述提取的页面内容的格式与预设的监控器定义的有效的页面内容格式是否相符合；

所述预设的监控器定义的有效的页面内容格式包括以下至少一种：有效的时间格式、有效的地址格式、有效的数字格式、有效的字符串格式。

5.如权利要求1所述的数据聚合方法，其特征在于，所述步骤D具体包括：

6.如权利要求1所述的数据聚合方法，其特征在于，在步骤D之后，包括步骤：

7.一种数据维护系统，其特征在于，所述数据维护系统包括：

页面内容提取单元，用于提取指定地址的页面内容；

8.如权利要求7所述的数据维护系统，其特征在于，

所述页面内容监控单元还用于判断提取指定地址的页面内容时是否发生提取异常，在发生提取异常时，所述日志生成单元生成一条错误日志。

9.如权利要求7所述的数据维护系统，其特征在于，所述数据维护系统包括：

判断器，用于判断是否监控提取的页面内容；

在监控提取的页面内容时，所述页面内容监控单元判断监控的页面内容是否为空，若监控的页面内容为空，所述日志生成单元生成一条提取为空的日志。

10.如权利要求9所述的数据维护系统，其特征在于，在监控的页面内容不为空时，所述页面内容监控单元以预设的监控器为依据监控所述页面内容的具体步骤包括：

11.如权利要求7所述的数据维护系统，其特征在于，所述页面内容预警单元将生成的警告日志发送给开发人员的步骤具体包括：

12.如权利要求7所述的数据维护系统，其特征在于，所述数据维护系统包括：

配置文件管理单元，用于接收开发人员发出的指令，根据接收的指令执行对应的操作，所述开发人员发出的指令包括配置文件查找指令和配置文件修改指令。