CN104424188B

CN104424188B - 对获取的网页数据进行更新的系统及方法

Info

Publication number: CN104424188B
Application number: CN201310362978.8A
Authority: CN
Inventors: 叶亚明
Original assignee: Shanghai Ctrip Business Co Ltd
Current assignee: Shanghai Ctrip Business Co Ltd
Priority date: 2013-08-19
Filing date: 2013-08-19
Publication date: 2018-07-20
Anticipated expiration: 2033-08-19
Also published as: CN104424188A

Abstract

本发明公开了一种对获取的网页数据进行更新的系统及方法，方法包括：S₁、利用网络爬虫从网页中抓取目标数据；S₂、将目标数据打包成目标压缩文件，并对目标压缩文件添加MD5标签；S₃、判断数据库服务器中是否存储网页数据及压缩文件，若是，则执行步骤S₄，若否，则执行步骤S₇；S₄、判断网页数据的压缩文件与目标压缩文件的MD5值是否相同，若是，则执行步骤S₅，若否，则执行步骤S₆；S₅、删除目标数据及目标压缩文件；S₆、将网页数据及压缩文件分别更新为目标数据及目标压缩文件；S₇、将目标数据及目标压缩文件存储至数据库服务器中。本发明能够判断出网页数据的更新，实现了对获取到的网页数据的及时更新。

Description

对获取的网页数据进行更新的系统及方法

技术领域

本发明涉及一种对获取的网页数据进行更新的系统及方法，特别是涉及一种能够及时检测出获取的网页数据的更新并进行相应更新处理的系统以及一种利用所述系统实现的对获取的网页数据进行更新的方法。

背景技术

在现阶段的网络技术飞速发展的情况下，大数据时代已经来临，如何快速有效地拉取网站的数据信息成为亟待解决的问题。现在很多的网站出于信息保护的目的，在对网页数据进行更新时，一般不会在更新数据中提供时间戳这种标识时间的信息数据。因此，现有技术中在抓取到网页数据后，基本无法判断网页数据的更新时间，一旦无法判断更新时间，就无法判断抓取到的网页数据中哪些是更新过的数据，哪些是没有更新过的数据，从而导致无法第一时间获取到网页中最新更新的数据。

以在线旅游搜索平台为例，由于无法判断目标网站（例如各种酒店及订票网站）的数据更新，导致很难在第一时间获取到最新更新的机票、酒店及火车票等资源信息，而数据更新的实时性不高的话，会使得用户在进行相关信息查询时精准度变低，严重影响到用户的使用体验。

发明内容

本发明要解决的技术问题是为了克服现有技术中在线旅游搜索平台等无法及时判断网站的数据更新，导致很难在第一时间获取到最新更新的机票、酒店及火车票等资源信息，使得用户在进行相关信息查询时精准度变低，严重影响到用户的使用体验的缺陷，提供一种能够及时检测出获取的网页数据的更新并进行相应更新处理的系统以及一种利用所述系统实现的对获取的网页数据进行更新的方法。

本发明是通过下述技术方案来解决上述技术问题的：

本发明提供了一种对获取的网页数据进行更新的方法，其特点在于，所述方法包括以下步骤：

S₁、利用网络爬虫从一网页中抓取带有所述网页ID（身份识别号码）的目标数据；

S₂、将所述目标数据打包成一目标压缩文件，并对所述目标压缩文件添加MD5（消息摘要算法第五版，计算机领域使用的一种散列函数）标签；

S₃、判断一数据库服务器中是否存储带有所述网页ID的网页数据及所述网页数据的压缩文件，若是，则执行步骤S₄，若否，则执行步骤S₇；

S₄、判断所述网页数据的压缩文件的MD5值与所述目标压缩文件的MD5值是否相同，若是，则执行步骤S₅，若否，则执行步骤S₆；

S₅、删除所述目标数据及所述目标压缩文件，然后结束流程；

S₆、将所述网页数据及所述网页数据的压缩文件分别更新为所述目标数据及所述目标压缩文件，然后结束流程；

S₇、将所述目标数据及所述目标压缩文件存储至所述数据库服务器中。

在步骤S₁中通过设定所述网页的网址，所述网络爬虫的递归算法以及网页数据的定位信息后，所述网络爬虫就可以快速抓取所需要的网页数据，即所述目标数据，而所有的目标数据都是在具有独有的唯一的ID的网页中的数据。

此处的网页ID并不是指网页的URL（统一资源定位符）地址中的数字，而是表明了所需数据的唯一身份标识，该网页ID与网页中的数据是对应的，并且它能够表征与之相对应的一个独一无二的网页，而不同的网页也会具有不同的网页ID。

在考虑到将抓取到的所述目标数据存储至所述数据库服务器的时候，首先会在步骤S₃中判断所述数据库服务器中是否已经存储有同样来自所述网页的网页数据，即判断所述数据库服务器中是否存储带有所述网页ID的网页数据以及与所述网页数据对应的压缩文件。

若是，则说明所述数据库服务器中已经存储有所述网页的网页数据，此时尚不能确定抓取到的所述目标数据是否为所述网页最新更新的数据，需要进行后续判断；

若否，则说明所述数据库服务器中尚未存储所述网页的网页数据，此时对所述数据库服务器来说，所述目标数据为最新的网页数据，因此执行步骤S₇对所述数据库服务器中存储的网页数据进行更新。

而在判断出所述数据库服务器中已经存储有所述网页的网页数据及所述网页数据的压缩文件时，会执行步骤S₄来继续判断所述网页数据的压缩文件的MD5值与所述目标压缩文件的MD5值是否相同；

若相同，则说明所述网页数据没有被更新过，即所述数据库服务器中存储的网页数据是最新的，此时执行步骤S₅；若不相同，则说明步骤S₁中抓取到的所述目标数据是最新的，此时执行步骤S₆对所述数据库中存储的网页数据进行更新。

这样，通过本发明的方法就能够保证所述数据库服务器中存储的网页数据一直是最新，实现了对获取到的网页数据的及时更新，同时减少了所述数据库服务器中的数据冗余。

并且，本发明能够极大地提高所述数据库服务器中存储的网页数据的实时性，特别是对于在线旅游搜索平台等，能够在第一时间获取到最新更新的机票、酒店及火车票等资源信息，使得用户在进行相关信息查询时精准度大大提高，方便了用户的使用，提升了用户的使用体验，也极大地提高了在线旅游搜索平台等对网页数据处理的灵活性和实时性。

较佳地，步骤S₁中的所述网络爬虫为聚焦爬虫，所述聚焦爬虫在抓取时通过设置过滤算法过滤所述网页中与所述目标数据无关的链接。

区别于普通的网络爬虫，步骤S₂中采用的聚焦爬虫能够过滤掉无关链接，只保留有用链接并存入等待队列中，从而提高了抓取网页数据的速度和效率，进而也提高了整个方法流程的速度和效率。

较佳地，步骤S₁中还将所述目标数据按照数据类型划分为多个字段，并将所述多个字段分类为静态信息数据和动态信息数据；

步骤S₂中的所述目标压缩文件包括分别带有MD5标签的所述静态信息数据的压缩文件及所述动态信息数据的压缩文件。

对于步骤S₁中抓取到的所述目标数据，表征的信息不同使得数据的类型也会有差别，因此在步骤S₁中还可以按照网页数据表征信息的不同将所述目标数据划分为多个字段。

所有字段的数据大体都可以分为静态信息数据和动态信息数据，其中静态信息数据是指事物的基本特征信息数据，这些数据随着时间的变化非常缓慢或者基本不会变化，例如火车的车次、起始站、终点站等。而动态信息数据则是指随着时间的变化而比较容易发生变化的数据，例如火车票的数量、硬座、卧铺的余量等。

较佳地，每隔一时间段执行一次所述方法的流程。

本发明的目的在于还提供了一种对获取的网页数据进行更新的系统，其特点在于，所述系统包括一数据抓取模块、一文件压缩模块、一第一判断模块、一第二判断模块以及一数据更新模块；

所述数据抓取模块用于利用网络爬虫从一网页中抓取带有所述网页ID的目标数据；

所述文件压缩模块用于将所述目标数据打包成一目标压缩文件，并对所述目标压缩文件添加MD5标签；

所述第一判断模块用于判断一数据库服务器中是否存储带有所述网页ID的网页数据及所述网页数据的压缩文件，若是，则启用所述第二判断模块，若否，则调用所述数据更新模块将所述目标数据及所述目标压缩文件存储至所述数据库服务器中；

所述第二判断模块用于判断所述网页数据的压缩文件的MD5值与所述目标压缩文件的MD5值是否相同；

若是，则调用所述数据更新模块删除所述目标数据及所述目标压缩文件；

若否，则调用所述数据更新模块分别将所述网页数据及所述网页数据的压缩文件更新为所述目标数据及所述目标压缩文件。

较佳地，所述网络爬虫为聚焦爬虫，所述聚焦爬虫还用于在抓取时通过设置过滤算法过滤所述网页中与所述目标数据无关的链接。

较佳地，所述数据抓取模块还用于将所述目标数据按照数据类型划分为多个字段，并将所述多个字段分类为静态信息数据和动态信息数据；

所述目标压缩文件包括分别带有MD5标签的所述静态信息数据的压缩文件及所述动态信息数据的压缩文件。

本发明的积极进步效果在于：本发明能够判断出网页数据的更新，实现了对获取到的网页数据的及时更新，并且能够极大地提高存储的网页数据的实时性，特别是对于在线旅游搜索平台等，能够在第一时间获取到最新更新的机票、酒店及火车票等资源信息，使得用户在进行相关信息查询时精准度大大提高，方便了用户的使用，提升了用户的使用体验，也极大地提高了在线旅游搜索平台等对网页数据处理的灵活性和实时性。

附图说明

图1为本发明的一较佳实施例的对获取的网页数据进行更新的系统的结构示意图。

图2为本发明的一较佳实施例的对获取的网页数据进行更新的方法的流程图。

具体实施方式

下面结合附图给出本发明较佳实施例，以详细说明本发明的技术方案。

如图1所示，本发明的对获取的网页数据进行更新的系统包括一数据抓取模块1、一文件压缩模块2、一第一判断模块3、一第二判断模块4以及一数据更新模块5。

在本实施例中利用所述系统对铁道部火车票网上订票官网（网址为www.12306.cn）中的网页数据进行抓取，并能够对获取到的网页数据进行更新。

具体地，首先通过设定所述网页的网址，网络爬虫的递归算法以及网页数据的定位信息后，所述数据抓取模块1利用所述网络爬虫就能够快速抓取所需要的网页数据，即所述目标数据，而所有的目标数据都带有所述网页的一个独有的唯一的ID。

所述目标数据具体包括车次、起始站、终点站、发车时间、到达时间、硬座余量、硬卧余量等等，在此就不再一一列举。对于抓取到的所述目标数据，由于表征的信息的不同使得数据的类型也会有差别，例如，表征车次的数据与表征起始站的数据的类型是不同的。

因此，所述数据抓取模块1还将所述目标数据按照数据类型划分为多个字段，即上述的表征车次、起始站、终点站、发车时间、到达时间、硬座余量、硬卧余量等的字段，并将所述多个字段分类为静态信息数据和动态信息数据这两种数据。

所有字段的数据大体都可以分为静态信息数据和动态信息数据，其中静态信息数据是指事物的基本特征信息数据，这些数据随着时间的变化非常缓慢或者基本不会变化，例如火车的车次、起始站、终点站等。而动态信息数据则是指随着时间的变化而比较容易发生变化的数据，例如火车票的数量、硬座的余量、硬卧的余量等。

表1-表3分别示出了所述目标数据、所述静态信息数据和所述动态信息数据的具体数据分类。

车次
	起始站
终点站
	发车时间
到达时间
	历时时间
商务座价格
	一等座价恪
二等座价格
	硬座价格
硬卧价格
	软卧价格
商务座余量
	一等座余量
二等座余量
	硬座余量
硬卧余量
	软卧余量

表1：目标数据的数据分类

车次
	起始站
终点站
	发车时间
到达时间
	历时时间
商务座价格
	一等座价格
二等座价格
	硬座价格
硬卧价格
	软卧价格

表2：静态信息数据的数据分类

商务座余量
	一等座余量
二等座余量
	硬座余量
硬卧余量
	软卧余量

表3：动态信息数据的数据分类

所述文件压缩模块2则能够将所述目标数据打包成目标压缩文件，在本实施例中，可以将静态信息数据和动态信息数据分别打包成静态信息数据的压缩文件和动态信息数据的压缩文件，并分别对所述静态信息数据的压缩文件和动态信息数据的压缩文件添加MD5标签。

其中，可以将MD5看作是散列函数，是将一个任意长度的字符串转化成具有固定长度的较短的字符串，任意的两个不同的字符串的散列值是不同的，即对于不同数据的压缩文件添加的MD5标签的MD5值是不同的。

通常利用MD5校验和对接收的传输数据进行散列算法运算能够校验数据的完整性。例如，拿接收端的数据的散列值与发送端的数据的散列值进行比较就可以判断数据的完整性，以及数据是否被篡改等信息，如果散列值相同，则说明接收端和发送端的数据是相同的，如果散列值不同，则说明数据是不同的。

具体在本实施例中，通过MD5标签能够判断最新抓取的所述目标数据与数据库存储器中存储的数据相比是否进行过更新。

所述第一判断模块3首先判断数据库服务器中是否存储带有所述网页ID的网页数据及所述网页数据的压缩文件，即判断所述数据库服务器中是否已经存储有同样来自所述网页的网页数据。

若是，则说明所述数据库服务器中已经存储有所述网页的网页数据，此时尚不能确定抓取到的所述目标数据是否为所述网页最新更新的数据，需要进行后续判断。

若否，则说明所述数据库服务器中尚未存储所述网页的网页数据，此时对所述数据库服务器来说，所述目标数据为最新的网页数据，因此调用所述数据更新模块5将所述目标数据及所述目标压缩文件（即静态信息数据的压缩文件和动态信息数据的压缩文件）存储至所述数据库服务器中，以对所述数据库服务器中存储的网页数据进行更新。

而在所述第一判断模块3判断出所述数据库服务器中已经存储有所述网页的网页数据及所述网页数据的压缩文件时，会启用所述第二判断模块4来继续判断所述数据库服务器中存储的所述网页数据的压缩文件的MD5值与所述目标压缩文件的MD5值是否相同。具体地，分别对静态信息数据的压缩文件的MD5值和动态信息数据的压缩文件的MD5值进行判断。

若相同，则说明所述网页数据没有被更新过，即所述数据库服务器中存储的网页数据是最新的，此时调用所述数据更新模块5删除所述目标数据及所述目标压缩文件；若不相同，则说明所述数据抓取模块1抓取到的所述目标数据是最新的，此时调用所述数据更新模块5分别将所述网页数据及所述网页数据的压缩文件更新为所述目标数据及所述目标压缩文件，即删除所述数据库服务器中原始存储的所述网页数据及所述网页数据的压缩文件，并将所述目标数据及所述目标压缩文件作为新的网页数据及网页数据的压缩文件存储至所述数据库服务器中，以对所述数据库中存储的网页数据进行更新。

在本发明的具体实施过程中，所述网络爬虫可以采用聚焦爬虫，根据聚焦爬虫的性质，在抓取时通过设置过滤算法过滤掉所述网页中与所述目标数据无关的链接。区别于普通的网络爬虫，采用聚焦爬虫能够过滤掉与要抓取的数据无关的链接，只保留有用链接并存入等待队列中，从而提高了抓取网页数据的速度和效率，进而也提高了整个方法流程的速度和效率。

当然，在实际实践时，抓取到的所述目标数据中可能会存在一些静态和动态区分度不太明显的字段。这时，可以将这些字段归类为动态信息数据，这样的结果是不会增加静态信息数据的更新率（这里的更新率是指更新数据与所有数据的比值），但是会增加动态信息数据的更新率。另一种做法是将这些字段归类为静态信息数据，带来的结果是增加了静态信息的更新率，但不会增加动态信息的更新率。

如图2所示，本发明利用本实施例的对获取的网页数据进行更新的系统实现的方法具体包括以下步骤：

步骤101、利用网络爬虫从网页中抓取带有所述网页ID的目标数据，将所述目标数据按照数据类型划分为多个字段，并将所述多个字段分类为静态信息数据和动态信息数据。

步骤102、将所述目标数据打包成一目标压缩文件，并对所述目标压缩文件添加MD5标签，所述目标压缩文件包括分别带有MD5标签的所述静态信息数据的压缩文件及所述动态信息数据的压缩文件。

步骤103、判断数据库服务器中是否存储带有所述网页ID的网页数据及所述网页数据的压缩文件，若是，则执行步骤104，若否，则执行步骤107。

步骤104、判断所述网页数据的压缩文件的MD5值与所述目标压缩文件（包括所述静态信息数据的压缩文件和所述动态信息数据的压缩文件）的MD5值是否相同，若是，则执行步骤105，若否，则执行步骤106。

步骤105、删除所述目标数据及所述目标压缩文件，然后结束流程。

步骤106、将所述网页数据及所述网页数据的压缩文件分别更新为所述目标数据及所述目标压缩文件，然后结束流程。

步骤107、将所述目标数据及所述目标压缩文件存储至所述数据库服务器中，然后结束流程。

而在本方法的具体实施过程中，也可以每隔一时间段执行一次本方法的流程，从而能够周期性地对抓取到的网页数据的更新情况进行检测，并且及时地对存储的网页数据进行更新。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种对获取的网页数据进行更新的方法，其特征在于，所述方法包括以下步骤：

S₁、利用网络爬虫从一网页中抓取带有所述网页ID的目标数据；

S₂、将所述目标数据打包成一目标压缩文件，并对所述目标压缩文件添加MD5标签；

S₇、将所述目标数据及所述目标压缩文件存储至所述数据库服务器中；

步骤S₁中还将所述目标数据按照数据类型划分为多个字段，并将所述多个字段分类为静态信息数据和动态信息数据；

2.如权利要求1所述的方法，其特征在于，步骤S₁中的所述网络爬虫为聚焦爬虫，所述聚焦爬虫在抓取时通过设置过滤算法过滤所述网页中与所述目标数据无关的链接。

3.如权利要求1或2所述的方法，其特征在于，每隔一时间段执行一次所述方法的流程。

4.一种对获取的网页数据进行更新的系统，其特征在于，所述系统包括一数据抓取模块、一文件压缩模块、一第一判断模块、一第二判断模块以及一数据更新模块；

若否，则调用所述数据更新模块分别将所述网页数据及所述网页数据的压缩文件更新为所述目标数据及所述目标压缩文件；

所述数据抓取模块还用于将所述目标数据按照数据类型划分为多个字段，并将所述多个字段分类为静态信息数据和动态信息数据；

5.如权利要求4所述的系统，其特征在于，所述网络爬虫为聚焦爬虫，所述聚焦爬虫还用于在抓取时通过设置过滤算法过滤所述网页中与所述目标数据无关的链接。