CN104424188B - 对获取的网页数据进行更新的系统及方法 - Google Patents

对获取的网页数据进行更新的系统及方法 Download PDF

Info

Publication number
CN104424188B
CN104424188B CN201310362978.8A CN201310362978A CN104424188B CN 104424188 B CN104424188 B CN 104424188B CN 201310362978 A CN201310362978 A CN 201310362978A CN 104424188 B CN104424188 B CN 104424188B
Authority
CN
China
Prior art keywords
data
file
web
targeted compression
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310362978.8A
Other languages
English (en)
Other versions
CN104424188A (zh
Inventor
叶亚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ctrip Business Co Ltd
Original Assignee
Shanghai Ctrip Business Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ctrip Business Co Ltd filed Critical Shanghai Ctrip Business Co Ltd
Priority to CN201310362978.8A priority Critical patent/CN104424188B/zh
Publication of CN104424188A publication Critical patent/CN104424188A/zh
Application granted granted Critical
Publication of CN104424188B publication Critical patent/CN104424188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对获取的网页数据进行更新的系统及方法,方法包括:S1、利用网络爬虫从网页中抓取目标数据;S2、将目标数据打包成目标压缩文件,并对目标压缩文件添加MD5标签;S3、判断数据库服务器中是否存储网页数据及压缩文件,若是,则执行步骤S4,若否,则执行步骤S7;S4、判断网页数据的压缩文件与目标压缩文件的MD5值是否相同,若是,则执行步骤S5,若否,则执行步骤S6;S5、删除目标数据及目标压缩文件;S6、将网页数据及压缩文件分别更新为目标数据及目标压缩文件;S7、将目标数据及目标压缩文件存储至数据库服务器中。本发明能够判断出网页数据的更新,实现了对获取到的网页数据的及时更新。

Description

对获取的网页数据进行更新的系统及方法
技术领域
本发明涉及一种对获取的网页数据进行更新的系统及方法,特别是涉及一种能够及时检测出获取的网页数据的更新并进行相应更新处理的系统以及一种利用所述系统实现的对获取的网页数据进行更新的方法。
背景技术
在现阶段的网络技术飞速发展的情况下,大数据时代已经来临,如何快速有效地拉取网站的数据信息成为亟待解决的问题。现在很多的网站出于信息保护的目的,在对网页数据进行更新时,一般不会在更新数据中提供时间戳这种标识时间的信息数据。因此,现有技术中在抓取到网页数据后,基本无法判断网页数据的更新时间,一旦无法判断更新时间,就无法判断抓取到的网页数据中哪些是更新过的数据,哪些是没有更新过的数据,从而导致无法第一时间获取到网页中最新更新的数据。
以在线旅游搜索平台为例,由于无法判断目标网站(例如各种酒店及订票网站)的数据更新,导致很难在第一时间获取到最新更新的机票、酒店及火车票等资源信息,而数据更新的实时性不高的话,会使得用户在进行相关信息查询时精准度变低,严重影响到用户的使用体验。
发明内容
本发明要解决的技术问题是为了克服现有技术中在线旅游搜索平台等无法及时判断网站的数据更新,导致很难在第一时间获取到最新更新的机票、酒店及火车票等资源信息,使得用户在进行相关信息查询时精准度变低,严重影响到用户的使用体验的缺陷,提供一种能够及时检测出获取的网页数据的更新并进行相应更新处理的系统以及一种利用所述系统实现的对获取的网页数据进行更新的方法。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供了一种对获取的网页数据进行更新的方法,其特点在于,所述方法包括以下步骤:
S1、利用网络爬虫从一网页中抓取带有所述网页ID(身份识别号码)的目标数据;
S2、将所述目标数据打包成一目标压缩文件,并对所述目标压缩文件添加MD5(消息摘要算法第五版,计算机领域使用的一种散列函数)标签;
S3、判断一数据库服务器中是否存储带有所述网页ID的网页数据及所述网页数据的压缩文件,若是,则执行步骤S4,若否,则执行步骤S7
S4、判断所述网页数据的压缩文件的MD5值与所述目标压缩文件的MD5值是否相同,若是,则执行步骤S5,若否,则执行步骤S6
S5、删除所述目标数据及所述目标压缩文件,然后结束流程;
S6、将所述网页数据及所述网页数据的压缩文件分别更新为所述目标数据及所述目标压缩文件,然后结束流程;
S7、将所述目标数据及所述目标压缩文件存储至所述数据库服务器中。
在步骤S1中通过设定所述网页的网址,所述网络爬虫的递归算法以及网页数据的定位信息后,所述网络爬虫就可以快速抓取所需要的网页数据,即所述目标数据,而所有的目标数据都是在具有独有的唯一的ID的网页中的数据。
此处的网页ID并不是指网页的URL(统一资源定位符)地址中的数字,而是表明了所需数据的唯一身份标识,该网页ID与网页中的数据是对应的,并且它能够表征与之相对应的一个独一无二的网页,而不同的网页也会具有不同的网页ID。
在考虑到将抓取到的所述目标数据存储至所述数据库服务器的时候,首先会在步骤S3中判断所述数据库服务器中是否已经存储有同样来自所述网页的网页数据,即判断所述数据库服务器中是否存储带有所述网页ID的网页数据以及与所述网页数据对应的压缩文件。
若是,则说明所述数据库服务器中已经存储有所述网页的网页数据,此时尚不能确定抓取到的所述目标数据是否为所述网页最新更新的数据,需要进行后续判断;
若否,则说明所述数据库服务器中尚未存储所述网页的网页数据,此时对所述数据库服务器来说,所述目标数据为最新的网页数据,因此执行步骤S7对所述数据库服务器中存储的网页数据进行更新。
而在判断出所述数据库服务器中已经存储有所述网页的网页数据及所述网页数据的压缩文件时,会执行步骤S4来继续判断所述网页数据的压缩文件的MD5值与所述目标压缩文件的MD5值是否相同;
若相同,则说明所述网页数据没有被更新过,即所述数据库服务器中存储的网页数据是最新的,此时执行步骤S5;若不相同,则说明步骤S1中抓取到的所述目标数据是最新的,此时执行步骤S6对所述数据库中存储的网页数据进行更新。
这样,通过本发明的方法就能够保证所述数据库服务器中存储的网页数据一直是最新,实现了对获取到的网页数据的及时更新,同时减少了所述数据库服务器中的数据冗余。
并且,本发明能够极大地提高所述数据库服务器中存储的网页数据的实时性,特别是对于在线旅游搜索平台等,能够在第一时间获取到最新更新的机票、酒店及火车票等资源信息,使得用户在进行相关信息查询时精准度大大提高,方便了用户的使用,提升了用户的使用体验,也极大地提高了在线旅游搜索平台等对网页数据处理的灵活性和实时性。
较佳地,步骤S1中的所述网络爬虫为聚焦爬虫,所述聚焦爬虫在抓取时通过设置过滤算法过滤所述网页中与所述目标数据无关的链接。
区别于普通的网络爬虫,步骤S2中采用的聚焦爬虫能够过滤掉无关链接,只保留有用链接并存入等待队列中,从而提高了抓取网页数据的速度和效率,进而也提高了整个方法流程的速度和效率。
较佳地,步骤S1中还将所述目标数据按照数据类型划分为多个字段,并将所述多个字段分类为静态信息数据和动态信息数据;
步骤S2中的所述目标压缩文件包括分别带有MD5标签的所述静态信息数据的压缩文件及所述动态信息数据的压缩文件。
对于步骤S1中抓取到的所述目标数据,表征的信息不同使得数据的类型也会有差别,因此在步骤S1中还可以按照网页数据表征信息的不同将所述目标数据划分为多个字段。
所有字段的数据大体都可以分为静态信息数据和动态信息数据,其中静态信息数据是指事物的基本特征信息数据,这些数据随着时间的变化非常缓慢或者基本不会变化,例如火车的车次、起始站、终点站等。而动态信息数据则是指随着时间的变化而比较容易发生变化的数据,例如火车票的数量、硬座、卧铺的余量等。
较佳地,每隔一时间段执行一次所述方法的流程。
本发明的目的在于还提供了一种对获取的网页数据进行更新的系统,其特点在于,所述系统包括一数据抓取模块、一文件压缩模块、一第一判断模块、一第二判断模块以及一数据更新模块;
所述数据抓取模块用于利用网络爬虫从一网页中抓取带有所述网页ID的目标数据;
所述文件压缩模块用于将所述目标数据打包成一目标压缩文件,并对所述目标压缩文件添加MD5标签;
所述第一判断模块用于判断一数据库服务器中是否存储带有所述网页ID的网页数据及所述网页数据的压缩文件,若是,则启用所述第二判断模块,若否,则调用所述数据更新模块将所述目标数据及所述目标压缩文件存储至所述数据库服务器中;
所述第二判断模块用于判断所述网页数据的压缩文件的MD5值与所述目标压缩文件的MD5值是否相同;
若是,则调用所述数据更新模块删除所述目标数据及所述目标压缩文件;
若否,则调用所述数据更新模块分别将所述网页数据及所述网页数据的压缩文件更新为所述目标数据及所述目标压缩文件。
较佳地,所述网络爬虫为聚焦爬虫,所述聚焦爬虫还用于在抓取时通过设置过滤算法过滤所述网页中与所述目标数据无关的链接。
较佳地,所述数据抓取模块还用于将所述目标数据按照数据类型划分为多个字段,并将所述多个字段分类为静态信息数据和动态信息数据;
所述目标压缩文件包括分别带有MD5标签的所述静态信息数据的压缩文件及所述动态信息数据的压缩文件。
本发明的积极进步效果在于:本发明能够判断出网页数据的更新,实现了对获取到的网页数据的及时更新,并且能够极大地提高存储的网页数据的实时性,特别是对于在线旅游搜索平台等,能够在第一时间获取到最新更新的机票、酒店及火车票等资源信息,使得用户在进行相关信息查询时精准度大大提高,方便了用户的使用,提升了用户的使用体验,也极大地提高了在线旅游搜索平台等对网页数据处理的灵活性和实时性。
附图说明
图1为本发明的一较佳实施例的对获取的网页数据进行更新的系统的结构示意图。
图2为本发明的一较佳实施例的对获取的网页数据进行更新的方法的流程图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
如图1所示,本发明的对获取的网页数据进行更新的系统包括一数据抓取模块1、一文件压缩模块2、一第一判断模块3、一第二判断模块4以及一数据更新模块5。
在本实施例中利用所述系统对铁道部火车票网上订票官网(网址为www.12306.cn)中的网页数据进行抓取,并能够对获取到的网页数据进行更新。
具体地,首先通过设定所述网页的网址,网络爬虫的递归算法以及网页数据的定位信息后,所述数据抓取模块1利用所述网络爬虫就能够快速抓取所需要的网页数据,即所述目标数据,而所有的目标数据都带有所述网页的一个独有的唯一的ID。
所述目标数据具体包括车次、起始站、终点站、发车时间、到达时间、硬座余量、硬卧余量等等,在此就不再一一列举。对于抓取到的所述目标数据,由于表征的信息的不同使得数据的类型也会有差别,例如,表征车次的数据与表征起始站的数据的类型是不同的。
因此,所述数据抓取模块1还将所述目标数据按照数据类型划分为多个字段,即上述的表征车次、起始站、终点站、发车时间、到达时间、硬座余量、硬卧余量等的字段,并将所述多个字段分类为静态信息数据和动态信息数据这两种数据。
所有字段的数据大体都可以分为静态信息数据和动态信息数据,其中静态信息数据是指事物的基本特征信息数据,这些数据随着时间的变化非常缓慢或者基本不会变化,例如火车的车次、起始站、终点站等。而动态信息数据则是指随着时间的变化而比较容易发生变化的数据,例如火车票的数量、硬座的余量、硬卧的余量等。
表1-表3分别示出了所述目标数据、所述静态信息数据和所述动态信息数据的具体数据分类。
车次
起始站
终点站
发车时间
到达时间
历时时间
商务座价格
一等座价恪
二等座价格
硬座价格
硬卧价格
软卧价格
商务座余量
一等座余量
二等座余量
硬座余量
硬卧余量
软卧余量
表1:目标数据的数据分类
车次
起始站
终点站
发车时间
到达时间
历时时间
商务座价格
一等座价格
二等座价格
硬座价格
硬卧价格
软卧价格
表2:静态信息数据的数据分类
商务座余量
一等座余量
二等座余量
硬座余量
硬卧余量
软卧余量
表3:动态信息数据的数据分类
所述文件压缩模块2则能够将所述目标数据打包成目标压缩文件,在本实施例中,可以将静态信息数据和动态信息数据分别打包成静态信息数据的压缩文件和动态信息数据的压缩文件,并分别对所述静态信息数据的压缩文件和动态信息数据的压缩文件添加MD5标签。
其中,可以将MD5看作是散列函数,是将一个任意长度的字符串转化成具有固定长度的较短的字符串,任意的两个不同的字符串的散列值是不同的,即对于不同数据的压缩文件添加的MD5标签的MD5值是不同的。
通常利用MD5校验和对接收的传输数据进行散列算法运算能够校验数据的完整性。例如,拿接收端的数据的散列值与发送端的数据的散列值进行比较就可以判断数据的完整性,以及数据是否被篡改等信息,如果散列值相同,则说明接收端和发送端的数据是相同的,如果散列值不同,则说明数据是不同的。
具体在本实施例中,通过MD5标签能够判断最新抓取的所述目标数据与数据库存储器中存储的数据相比是否进行过更新。
所述第一判断模块3首先判断数据库服务器中是否存储带有所述网页ID的网页数据及所述网页数据的压缩文件,即判断所述数据库服务器中是否已经存储有同样来自所述网页的网页数据。
若是,则说明所述数据库服务器中已经存储有所述网页的网页数据,此时尚不能确定抓取到的所述目标数据是否为所述网页最新更新的数据,需要进行后续判断。
若否,则说明所述数据库服务器中尚未存储所述网页的网页数据,此时对所述数据库服务器来说,所述目标数据为最新的网页数据,因此调用所述数据更新模块5将所述目标数据及所述目标压缩文件(即静态信息数据的压缩文件和动态信息数据的压缩文件)存储至所述数据库服务器中,以对所述数据库服务器中存储的网页数据进行更新。
而在所述第一判断模块3判断出所述数据库服务器中已经存储有所述网页的网页数据及所述网页数据的压缩文件时,会启用所述第二判断模块4来继续判断所述数据库服务器中存储的所述网页数据的压缩文件的MD5值与所述目标压缩文件的MD5值是否相同。具体地,分别对静态信息数据的压缩文件的MD5值和动态信息数据的压缩文件的MD5值进行判断。
若相同,则说明所述网页数据没有被更新过,即所述数据库服务器中存储的网页数据是最新的,此时调用所述数据更新模块5删除所述目标数据及所述目标压缩文件;若不相同,则说明所述数据抓取模块1抓取到的所述目标数据是最新的,此时调用所述数据更新模块5分别将所述网页数据及所述网页数据的压缩文件更新为所述目标数据及所述目标压缩文件,即删除所述数据库服务器中原始存储的所述网页数据及所述网页数据的压缩文件,并将所述目标数据及所述目标压缩文件作为新的网页数据及网页数据的压缩文件存储至所述数据库服务器中,以对所述数据库中存储的网页数据进行更新。
这样,通过本发明的方法就能够保证所述数据库服务器中存储的网页数据一直是最新,实现了对获取到的网页数据的及时更新,同时减少了所述数据库服务器中的数据冗余。
并且,本发明能够极大地提高所述数据库服务器中存储的网页数据的实时性,特别是对于在线旅游搜索平台等,能够在第一时间获取到最新更新的机票、酒店及火车票等资源信息,使得用户在进行相关信息查询时精准度大大提高,方便了用户的使用,提升了用户的使用体验,也极大地提高了在线旅游搜索平台等对网页数据处理的灵活性和实时性。
在本发明的具体实施过程中,所述网络爬虫可以采用聚焦爬虫,根据聚焦爬虫的性质,在抓取时通过设置过滤算法过滤掉所述网页中与所述目标数据无关的链接。区别于普通的网络爬虫,采用聚焦爬虫能够过滤掉与要抓取的数据无关的链接,只保留有用链接并存入等待队列中,从而提高了抓取网页数据的速度和效率,进而也提高了整个方法流程的速度和效率。
当然,在实际实践时,抓取到的所述目标数据中可能会存在一些静态和动态区分度不太明显的字段。这时,可以将这些字段归类为动态信息数据,这样的结果是不会增加静态信息数据的更新率(这里的更新率是指更新数据与所有数据的比值),但是会增加动态信息数据的更新率。另一种做法是将这些字段归类为静态信息数据,带来的结果是增加了静态信息的更新率,但不会增加动态信息的更新率。
如图2所示,本发明利用本实施例的对获取的网页数据进行更新的系统实现的方法具体包括以下步骤:
步骤101、利用网络爬虫从网页中抓取带有所述网页ID的目标数据,将所述目标数据按照数据类型划分为多个字段,并将所述多个字段分类为静态信息数据和动态信息数据。
步骤102、将所述目标数据打包成一目标压缩文件,并对所述目标压缩文件添加MD5标签,所述目标压缩文件包括分别带有MD5标签的所述静态信息数据的压缩文件及所述动态信息数据的压缩文件。
步骤103、判断数据库服务器中是否存储带有所述网页ID的网页数据及所述网页数据的压缩文件,若是,则执行步骤104,若否,则执行步骤107。
步骤104、判断所述网页数据的压缩文件的MD5值与所述目标压缩文件(包括所述静态信息数据的压缩文件和所述动态信息数据的压缩文件)的MD5值是否相同,若是,则执行步骤105,若否,则执行步骤106。
步骤105、删除所述目标数据及所述目标压缩文件,然后结束流程。
步骤106、将所述网页数据及所述网页数据的压缩文件分别更新为所述目标数据及所述目标压缩文件,然后结束流程。
步骤107、将所述目标数据及所述目标压缩文件存储至所述数据库服务器中,然后结束流程。
而在本方法的具体实施过程中,也可以每隔一时间段执行一次本方法的流程,从而能够周期性地对抓取到的网页数据的更新情况进行检测,并且及时地对存储的网页数据进行更新。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (5)

1.一种对获取的网页数据进行更新的方法,其特征在于,所述方法包括以下步骤:
S1、利用网络爬虫从一网页中抓取带有所述网页ID的目标数据;
S2、将所述目标数据打包成一目标压缩文件,并对所述目标压缩文件添加MD5标签;
S3、判断一数据库服务器中是否存储带有所述网页ID的网页数据及所述网页数据的压缩文件,若是,则执行步骤S4,若否,则执行步骤S7
S4、判断所述网页数据的压缩文件的MD5值与所述目标压缩文件的MD5值是否相同,若是,则执行步骤S5,若否,则执行步骤S6
S5、删除所述目标数据及所述目标压缩文件,然后结束流程;
S6、将所述网页数据及所述网页数据的压缩文件分别更新为所述目标数据及所述目标压缩文件,然后结束流程;
S7、将所述目标数据及所述目标压缩文件存储至所述数据库服务器中;
步骤S1中还将所述目标数据按照数据类型划分为多个字段,并将所述多个字段分类为静态信息数据和动态信息数据;
步骤S2中的所述目标压缩文件包括分别带有MD5标签的所述静态信息数据的压缩文件及所述动态信息数据的压缩文件。
2.如权利要求1所述的方法,其特征在于,步骤S1中的所述网络爬虫为聚焦爬虫,所述聚焦爬虫在抓取时通过设置过滤算法过滤所述网页中与所述目标数据无关的链接。
3.如权利要求1或2所述的方法,其特征在于,每隔一时间段执行一次所述方法的流程。
4.一种对获取的网页数据进行更新的系统,其特征在于,所述系统包括一数据抓取模块、一文件压缩模块、一第一判断模块、一第二判断模块以及一数据更新模块;
所述数据抓取模块用于利用网络爬虫从一网页中抓取带有所述网页ID的目标数据;
所述文件压缩模块用于将所述目标数据打包成一目标压缩文件,并对所述目标压缩文件添加MD5标签;
所述第一判断模块用于判断一数据库服务器中是否存储带有所述网页ID的网页数据及所述网页数据的压缩文件,若是,则启用所述第二判断模块,若否,则调用所述数据更新模块将所述目标数据及所述目标压缩文件存储至所述数据库服务器中;
所述第二判断模块用于判断所述网页数据的压缩文件的MD5值与所述目标压缩文件的MD5值是否相同;
若是,则调用所述数据更新模块删除所述目标数据及所述目标压缩文件;
若否,则调用所述数据更新模块分别将所述网页数据及所述网页数据的压缩文件更新为所述目标数据及所述目标压缩文件;
所述数据抓取模块还用于将所述目标数据按照数据类型划分为多个字段,并将所述多个字段分类为静态信息数据和动态信息数据;
所述目标压缩文件包括分别带有MD5标签的所述静态信息数据的压缩文件及所述动态信息数据的压缩文件。
5.如权利要求4所述的系统,其特征在于,所述网络爬虫为聚焦爬虫,所述聚焦爬虫还用于在抓取时通过设置过滤算法过滤所述网页中与所述目标数据无关的链接。
CN201310362978.8A 2013-08-19 2013-08-19 对获取的网页数据进行更新的系统及方法 Active CN104424188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310362978.8A CN104424188B (zh) 2013-08-19 2013-08-19 对获取的网页数据进行更新的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310362978.8A CN104424188B (zh) 2013-08-19 2013-08-19 对获取的网页数据进行更新的系统及方法

Publications (2)

Publication Number Publication Date
CN104424188A CN104424188A (zh) 2015-03-18
CN104424188B true CN104424188B (zh) 2018-07-20

Family

ID=52973191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310362978.8A Active CN104424188B (zh) 2013-08-19 2013-08-19 对获取的网页数据进行更新的系统及方法

Country Status (1)

Country Link
CN (1) CN104424188B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776635A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 知识库数据的更新方法及装置
CN106294840A (zh) * 2016-08-18 2017-01-04 携程计算机技术(上海)有限公司 基于活动的信息推送系统
CN107247562B (zh) * 2017-06-30 2020-03-06 郑州云海信息技术有限公司 一种压缩优化方法及其装置
CN109543155A (zh) * 2018-10-18 2019-03-29 恒峰信息技术有限公司 一种数据自动更新方法及系统
CN112054927B (zh) * 2020-08-31 2023-03-24 北京天融信网络安全技术有限公司 基于指纹校验防篡改的网站更新方法、装置以及电子设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1648857A (zh) * 2004-01-28 2005-08-03 三星电子株式会社 供软件之用的自动版本管理系统和方法
CN1777317A (zh) * 2005-12-16 2006-05-24 北京金山软件有限公司 一种实现无线终端程序更新的方法
CN1874270A (zh) * 2006-06-23 2006-12-06 北京佳讯飞鸿电气有限责任公司 一种实现远程网管的数据同步方法
CN101051912A (zh) * 2006-04-05 2007-10-10 迈世亚(北京)科技有限公司 一种数据自动更新方法
CN101110788A (zh) * 2006-07-20 2008-01-23 阿里巴巴公司 升级客户端软件的方法及系统
CN101158964A (zh) * 2007-11-09 2008-04-09 深圳市迅雷网络技术有限公司 一种自动修改目标下载文件信息的系统、装置及方法
CN101359293A (zh) * 2008-09-04 2009-02-04 腾讯科技(深圳)有限公司 制作部分更新包的方法和装置
CN102314353A (zh) * 2010-07-08 2012-01-11 盛乐信息技术(上海)有限公司 Android软件更新时更改数据库的方法
CN102480494A (zh) * 2010-11-23 2012-05-30 金蝶软件(中国)有限公司 一种文件更新的方法、装置及系统
CN102523268A (zh) * 2011-12-08 2012-06-27 北京新媒传信科技有限公司 一种客户端升级方法和系统
CN102546246A (zh) * 2011-12-28 2012-07-04 创新科存储技术(深圳)有限公司 一种软件自动升级的方法及系统
CN103019795A (zh) * 2012-12-27 2013-04-03 福建榕基软件股份有限公司 一种软件基础数据升级方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721740B1 (en) * 1998-05-29 2004-04-13 Sun Microsystems, Inc. Method and apparatus of performing active update notification

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1648857A (zh) * 2004-01-28 2005-08-03 三星电子株式会社 供软件之用的自动版本管理系统和方法
CN1777317A (zh) * 2005-12-16 2006-05-24 北京金山软件有限公司 一种实现无线终端程序更新的方法
CN101051912A (zh) * 2006-04-05 2007-10-10 迈世亚(北京)科技有限公司 一种数据自动更新方法
CN1874270A (zh) * 2006-06-23 2006-12-06 北京佳讯飞鸿电气有限责任公司 一种实现远程网管的数据同步方法
CN101110788A (zh) * 2006-07-20 2008-01-23 阿里巴巴公司 升级客户端软件的方法及系统
CN101158964A (zh) * 2007-11-09 2008-04-09 深圳市迅雷网络技术有限公司 一种自动修改目标下载文件信息的系统、装置及方法
CN101359293A (zh) * 2008-09-04 2009-02-04 腾讯科技(深圳)有限公司 制作部分更新包的方法和装置
CN102314353A (zh) * 2010-07-08 2012-01-11 盛乐信息技术(上海)有限公司 Android软件更新时更改数据库的方法
CN102480494A (zh) * 2010-11-23 2012-05-30 金蝶软件(中国)有限公司 一种文件更新的方法、装置及系统
CN102523268A (zh) * 2011-12-08 2012-06-27 北京新媒传信科技有限公司 一种客户端升级方法和系统
CN102546246A (zh) * 2011-12-28 2012-07-04 创新科存储技术(深圳)有限公司 一种软件自动升级的方法及系统
CN103019795A (zh) * 2012-12-27 2013-04-03 福建榕基软件股份有限公司 一种软件基础数据升级方法及系统

Also Published As

Publication number Publication date
CN104424188A (zh) 2015-03-18

Similar Documents

Publication Publication Date Title
CN104424188B (zh) 对获取的网页数据进行更新的系统及方法
CN109242553A (zh) 一种用户行为数据推荐方法、服务器及计算机可读介质
CN102521712B (zh) 一种流程实例数据处理方法和装置
CN104092770B (zh) 基于云计算的企业内部通讯录管理方法和系统
CN103761279B (zh) 一种基于关键词检索的网络爬虫调度方法及系统
CN102646129A (zh) 一种主题相关的分布式网络爬虫系统
CN101727486A (zh) 一种Web论坛信息抽取系统
CN104636477B (zh) 一种信息推送前推送列表的去重方法
CN108804516A (zh) 相似用户查找装置、方法及计算机可读存储介质
CN106657228A (zh) 一种利用云端进行并发采集的爬虫实现方法
CN101505311A (zh) 一种基于社会化网络的信息传播方法及系统
CN106330788B (zh) 报文分片传输方法和装置
CN106817391A (zh) 文件断点续传方法和装置
CN109299157A (zh) 一种分布式大单表的数据导出方法及装置
CN107770229A (zh) 云端文件分享方法、系统和云服务器
CN110399546A (zh) 基于网络爬虫的链接去重方法、装置、设备及存储介质
CN107341690A (zh) 信息推送方法及装置
CN108897859A (zh) 一种元数据检索方法、装置、设备及计算机可读存储介质
CN107066509A (zh) 信息提供方法、处理服务器及合并服务器
CN108769211A (zh) 客户端设备、网页的路由方法和计算机可读存储介质
CN103699614B (zh) 一种确定下载资源时的默认保存路径的方法和装置
CN105335408B (zh) 一种搜索词白名单的扩展方法及相关系统
CN106250476A (zh) 一种更新和同步白名单的方法、装置和系统
CN108334549A (zh) 一种设备数据存储方法、提取方法、存储平台及提取平台
CN105468346A (zh) 一种定时事件管理方法、存储方法、执行方法及相应装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160205

Address after: 200335 Shanghai city Changning District Admiralty Road No. 968 Building No. 16 10 floor

Applicant after: SHANGHAI XIECHENG BUSINESS CO., LTD.

Address before: 200335 Shanghai City, Changning District Fuquan Road No. 99, Ctrip network technology building

Applicant before: Ctrip computer technology (Shanghai) Co., Ltd.

GR01 Patent grant
GR01 Patent grant