CN100501746C - 网页抓取方法和网页抓取服务器 - Google Patents

网页抓取方法和网页抓取服务器 Download PDF

Info

Publication number
CN100501746C
CN100501746C CNB2007101985301A CN200710198530A CN100501746C CN 100501746 C CN100501746 C CN 100501746C CN B2007101985301 A CNB2007101985301 A CN B2007101985301A CN 200710198530 A CN200710198530 A CN 200710198530A CN 100501746 C CN100501746 C CN 100501746C
Authority
CN
China
Prior art keywords
webpage
buffer area
web page
extracting
grasp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2007101985301A
Other languages
English (en)
Other versions
CN101178736A (zh
Inventor
王为
纪宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNB2007101985301A priority Critical patent/CN100501746C/zh
Publication of CN101178736A publication Critical patent/CN101178736A/zh
Application granted granted Critical
Publication of CN100501746C publication Critical patent/CN100501746C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种网页抓取方法及网页抓取服务器,方法包括:包括:A、接收网页请求;B、判断所请求网页是否抓取过,如果是,则执行步骤C;否则,抓取该网页,结束本流程;C、判断所请求网页的抓取间隔是否大于预设的时间阈值,如果是,则执行步骤D;否则,不抓取该网页,结束本流程;D、查询所述网页是否有更新,如果有更新,则抓取该网页;否则,不抓取该网页。所述服务器包括:网页请求接收模块、判断模块、查询模块、抓取模块。本发明可以减轻网页抓取服务器的负担,减少对网络带宽资源的占用,提高网页抓取的效率。

Description

网页抓取方法和网页抓取服务器
技术领域
本发明涉及信息处理技术领域,尤其涉及一种无线搜索网页转换系统中的网页抓取方法和网页抓取服务器。
背景技术
随着网络技术的发展,无线互联网技术也在迅速地发展,人们可以通过移动通信终端(例如移动电话、无线掌上电脑等)可以随时随地地与他人联系,同时随着通信资费的降低以及3G技术的推广,无线互联网将有极大的发展,并改变我们的生活方式。
目前互联网上存在最多的资源是网页,但是这些网页是专为个人计算机(PC)设计的超文本标记语言(HTML,HyperText Markup Language)格式,由于移动通信终端屏幕大小、处理能力和网络带宽的限制,这些网页无法直接在移动通信终端上进行浏览,针对这种情况,目前设计了一种无线标记语言(WML,Wireless Markup Language)格式的标记语言,用于撰写在移动通信终端上能够显示的网页。
无线互联网的用户也存在搜索信息的需求,因此,需要提供一个类似于PC上的搜索引擎来帮助用户搜索信息,由于目前HTML网页数量远远大于WML网页数量,用户搜索的结果大部分是存在于HTML网页中,因此目前出现了一种无线搜索网页转换系统,能够自动将HTML网页转换成WML网页,供无线互联网用户直接在移动通信终端上进行浏览。
无线搜索网页转换系统包括网页抓取服务器、转换服务器、和存储服务器。其基本处理过程是网页抓取服务器先获取移动通信终端用户的请求,分离出原始的HTML网页地址,之后将自动抓取该HTML网页,交给转换服务器进行解析,转换成WML网页,并将所述WML网页存储到存储服务器中,供移动通信终端访问查找。
对于网页抓取服务器如何抓取HTML网页,现有的技术方案如下:
利用标准模板库(STL,Standard Template Library)中的Map数据结构作为缓存,该缓存用于存储URL对象,一个URL对象的关键字为网页URL的信息摘要算法(MD5,Messsage-Digest algorithm 5)值,取值为网页的抓取时间。同时,统一设定网页的抓取时间间隔的时间阈值,例如通常设置为10分钟。
移动通信终端通过无线搜索引擎搜索到相应的网页,当用户点击搜索结果后,移动通信终端将对应的网页请求发送到无线搜索网页转换系统,无线搜索网页转换系统收到网页请求后,分离出所请求网页的URL地址,并计算出该URL地址的MD5值,以该MD5值为关键字,当前时间为值,在网页抓取服务器的缓存中进行查找,如果存在相同关键字的URL对象,则查询这个URL对象的抓取时间,并与当前时间进行比较,如果两者差大于或等于所述设定的时间阈值,则改写缓存中的这个URL对象,即将该URL对象的值更新为当前时间,并重新抓取该URL对象的网页,并由转换服务器转换成WML网页存入存储服务器;如果两者差小于所述设定的时间阈值,则表示无需重新抓取该网页,网页抓取服务器会直接丢弃所述网页请求,由所述存储服务器向发起请求的移动通信终端返回目前存储的该URL对象对应的WML网页。
上述现有技术存在以下的缺点:
现有技术对所有类型的网页只设定一个网页抓取间隔的时间阈值,不能灵活适应不同类型网页的更新情况,假设如果设置时间阈值为10分钟,那么对于某些更新频繁的网页,例如论坛、评论之类的网页,10分钟的抓取时间间隔过长;反之,对于那些更新频率非常低的网页类型,例如新闻网页,很可能发布之后就不会更新了,但是目前系统无法适应这种情况,还是要每隔10分钟去重新抓取一次网页。当网页的抓取间隔超过设定的时间阈值后,即该网页从缓存中过期后,并不能代表该网页内容已经做了更新,需要重新抓取,然而事实上,互联网上大部分网页的更新周期都比较长。
因此,现有技术的无线搜索网页转换系统无法适应网页更新周期长的这种情况,造成重复抓取了很多并没有进行内容更新的网页,加重了网页抓取服务器的负担,占用了过多的网络带宽资源,并且抓取网页的效率较低。
发明内容
有鉴于此,本发明所要解决的技术问题在于提供一种网页抓取方法,以减轻网页抓取服务器的负担,减少对网络带宽资源的占用,提高网页抓取的效率。
本发明所要解决的另一技术问题在于提供一种网页抓取服务器,以减轻自身系统的负担,减少对网络带宽资源的占用,提高网页抓取的效率。
为了实现上述发明目的,本发明的主要技术方案为:
一种网页抓取方法,包括:
A、接收网页请求;
B、判断所请求网页是否抓取过,如果是,则执行步骤C;否则,抓取该网页,结束本流程;
C、判断所请求网页的抓取间隔是否大于预设的时间阈值,如果是,则执行步骤D;否则,不抓取该网页,结束本流程;
D、查询所述网页是否有更新,如果有更新,则抓取该网页;否则,不抓取该网页。
优选的,该方法预先设置缓存区和该缓存区对应的时间阈值;
并且,在第一次抓取网页时,针对该网页创建一个URL对象存入缓存区,该URL对象包括该网页的标识和请求时间,并在后续步骤D中进一步以当前时间更新原有的时间;
在步骤B中,根据所请求的网页标识是否在缓存区中存在来判断该网页是否抓取过;步骤C中,所述的抓取间隔为当前时间与缓存区中所述URL对象所包括时间的差值,所述时间阈值为该缓存区对应的时间阈值。
优选的,按照网页抓取频率的差异设置不同级别的缓存区,其中不同级缓存区对应不同的抓取间隔的时间阈值;并根据网页的抓取频率将URL对象在不同级的缓存区中迁移。
优选的,所述每一级的缓存区对应设置一个抓取频率等级值,在所述每个URL对象中进一步设置抓取次数,该抓取次数的初始值为0;
在步骤D中,进一步包括:如果网页有更新,则将该URL对象中的抓取次数加1,如果网页没有更新,则该URL对象中的抓取次数减1;并比较该URL对象的抓取次数和该URL对象所属缓存区的抓取频率等级值,如果抓取次数大于所述抓取频率等级值,则将该URL对象移动到时间阈值更短的上一级缓存区,如果抓取次数小于所述抓取频率等级值,则将该URL对象移动到时间阈值更长的下一级缓存区。
优选的,步骤D所述查询所述网页是否有更新具体为:根据超文本传输协议的返回码查询判断所述网页是否有更新。
优选的,所述网页为超文本标记语言网页。
一种网页抓取服务器,包括:
网页请求接收模块,用于接收网页请求;
判断模块,用于判断所请求网页是否抓取过和抓取间隔,在未抓取过时,触发抓取模块,在抓取间隔大于预设的时间阈值时触发查询模块;
查询模块,用于查询所述网页是否有更新,在有更新时触发抓取模块;
抓取模块,用于抓取网页。
优选的,进一步包括缓存区,用于存储URL对象,且该缓存区具有对应的时间阈值;所述判断模块根据所述缓存区中的URL对象判断网页是否抓取过以及抓取间隔,且所述预设的时间阈值为该缓存区对应的时间阈值。
优选的,所述缓存区有至少两级,每级缓存区对应不同的网页抓取频率和抓取间隔的时间阈值;
且所述网页抓取服务器进一步包括对象迁移模块,用于根据网页的抓取频率将URL对象在不同级的缓存区中迁移。
优选的,所述网页为超文本标记语言网页。
由于本发明使得网页抓取服务器在一定时间阈值内不需要重新抓取用户的请求网页,而是直接返回存储服务器的存储结果,并且在网页的抓取间隔大于预设的时间阈值后,进一步判断网页是否有更新,如果有更新则抓取网页,否则不抓取网页。因此可以避免重复抓取很多并没有进行内容更新的网页,减轻网页抓取服务器的负担,减少对网络带宽资源的占用,提高抓取网页的效率。
另外,本发明还进一步利用分级缓存的机制来提高网页抓取效率,按照网页抓取频率的差异设置不同级别的缓存区,分别对应于不同更新频率的网页,并根据网页的抓取频率将网页的对象在不同级的缓存区中迁移。使该URL对象的更新频率趋近于真实的网页内容更新频率,提高缓存区的准确性。
附图说明
图1为本发明所述网页抓取方法的一种实施例的流程图;
图2为本发明所述网页抓取服务器的一种结构及与外界关系的示意图。
具体实施方式
下面通过具体实施例和附图对本发明做进一步详细说明。
本发明所述的网页抓取方法适用于无线搜索网页转换系统中的网页抓取服务器,该网页抓取服务器利用一种缓存机制来保证在一定时间范围内不重复抓取同一张IITML网页,同时,当预定的时间阈值到达后,根据HTTP头部信息来检测该HTML网页内容是否已经更新来判断是否需要重新抓取HTML网页。在需要抓取HTML网页时,该网页抓取服务器从该HTML网页所在的服务器抓取该HTML网页,并将抓取的HTML网页发送给无线搜索网页转换系统中的转换服务器,由转换服务器转换成WML网页,并存入到无线搜索网页转换系统中的存储服务器中,供移动通信终端用户访问获取。
图1为本发明所述网页抓取方法的一种实施例的流程图。该实施例中,在初始时,在网页抓取服务器中初始化三个缓存区,用于存储URL对象,所述一个URL对象对应一个HTML网页,该URL对象以网页URL地址的MD5值为关键字,并包括HTML网页的请求时间、以及HTML网页的实际抓取次数update,update是一个整形数值。每个缓存区内部实现数据结构为STL的Map。所述三个缓存区根据网页抓取间隔分为三个级别,设置三个缓存区对应的网页抓取间隔的时间阈值,例如本实施例中第一缓存区设置为5分钟,第二缓存区设置为10分钟,第三缓存区设置为20分钟,同时对每个缓存区还分别设置一个对应的updateLevel值,表示该级别缓存区内URL对象对应HTML网页的抓取频率,也相当于HTML网页的更新频繁度等级。将每个缓存区的大小、时间阈值参数以及updateLevel值保存于配置文件中,网页抓取服务器在启动时候读取该配置文件,同时可通过网页抓取服务器管理线程在网页抓取服务器运行过程中进行动态地更新。
参见图1,在该实施例中,网页抓取服务器具体执行以下步骤:
步骤101、接收用户的网页请求即URL请求,分离出所请求网页的URL地址,并计算出该URL地址的MD5值。
所述网页请求的来源是移动通信终端,移动通信终端通过无线搜索引擎搜索到相应的网页,当用户点击搜索结果后,移动通信终端将对应的网页请求发送到无线搜索网页转换系统,无线搜索网页转换系统的网页抓取服务器和存储服务器可以接收该网页请求,网页抓取服务器可以根据该网页请求进行的后续的抓取操作,所述存储服务器可以根据网页请求查询对应的WML网页。
步骤102、以所述URL的MD5值为关键字,依次在所述网页抓取服务器的三个缓存区中查找URL对象,如果都查找不到,则执行步骤103;否则,执行步骤104。
步骤103、生成一个URL对象,包括该URL的请求时间、以及update,update的初始值为0,并以所述URL的MD5值为关键字。将所述URL对象插入到一个指定的缓存区中,例如一般为第一个缓存区中,同时需要启动网络连接重新抓取所述HTML网页的实际内容,即从所述HTML网页所在的服务器抓取该URL对应的HTML网页,将抓取到的HTML网页发给转换服务器后,网页抓取服务器结束本次URL请求的执行流程。之后,由转换服务器将HTML网页转换为WML网页,将WML网页存入存储服务器中以供移动通信终端用户访问获取WML网页。
当网页抓取服务器第一次请求某一个URL时,如果成功抓取网页,该网页所在服务器的返回状态会是200,内容是网页数据,同时有一个Last-Modified的属性标识此网页在网站上最后被修改的时间,格式类似:
Last-Modified:Wed,17 Oct 2007 12:45:30GMT。
步骤104、如果在某个缓存区中查找到相应的URL对象,则取出该URL对象的值,以当前时间值减去该URL对象中的时间值,如果差值在该缓存区对应的时间阈值内,则执行步骤105;否则执行步骤106。
步骤105、不需要重新抓取HTML网页,网页抓取服务器直接忽略此次URL请求,结束本次URL请求流程。
步骤106、以所述缓存区中URL对象的请求时间为起始值,利用HTTP协议中304返回码来判断所述URL的HTML网页内容是否有实际的更新,如果所述HTML网页有更新,则执行步骤108,否则,执行步骤107。
所述步骤106判断HTML网页内容是否有实际更的具体过程包括:
步骤61、网页抓取服务器以所述缓存区中URL对象的请求时间为查询是否更新的起始时间(If-Modified-Since),向HTML网页所在服务器发送查询HTML网页是否更新的请求,其中包括所述网页请求中的URL地址;当然所述起始时间也可以是上一次返回状态200中包括的网页最后被修改的时间。例如:
If-Modified-Since:Wed,17 Oct 2007 12:45:30GMT。
步骤62、该URL地址所在服务器查询所述URL地址对应的HTML网页是否有更新,并在返回给网页抓取服务器的HTTP 304返回码中携带是否更新的结果;
步骤63、网页抓取服务器根据HTTP 304返回码查询判断所述HTML网页内容是否有实际的更新,如果304返回码为空,则表示对应的HTML网页没有被修改过,否则表示被修改过。
接着,本发明按照一定的缓存策略决定某一个网页是否继续停留在当前级缓存区中或者调整其缓存级别。具体如下步骤107至步骤109。
步骤107、直接更新所述缓存区中所述的URL对象的请求时间为当前时间,并将该URL对象中的update值减1,同时不需要重新抓取该HTML网页的实际内容,执行步骤109。
步骤108、先更新所述缓存区中所述URL对象的请求时间为当前时间,并将该URL对象中的update值加1,同时需要启动网络连接重新抓取该网页的实际内容。
步骤109、根据URL对象的update值与该URL对象所属缓存的updateLevel值来调整该URL对象的缓存级别。具体为:
当某级缓存区中,例如此处在第二级缓存区中,某个URL对象的update值>该级缓存区的updateLevel值时,将其移到时间阈值更短(即更新更频繁)的上一级缓存区中,例如此处为移动到第一级缓存区,移动后,该URL对象的update值清零。但是,对于所述URL对象属于第一级缓存区的情况则不做移动处理。
当某级缓存区中,例如此处还是第二级缓存区中,某个URL对象的update值<负的该级缓存区updateLevel值的时,将其移到时间阈值更长(即更新较不频繁)的下一级缓存区中,例如此处为移动到第三级缓存区中,移动后,该URL对象的update值清零。但是,对于所述URL对象属于最后一级缓存区的情况不做移动处理。
通过步骤109,可以利用update值将URL对象动态地在不同级的缓存区中迁移,使该URL对象的更新频率趋近于真实的网页内容更新频率,提高缓存区的准确性。
图2为本发明所述网页抓取服务器的一种结构及与外界关系的示意图。参见图2,所述网页抓取服务器200包括:
网页请求接收模块201,用于接收网页请求。
判断模块202,用于判断所请求网页是否抓取过以及抓取间隔,如果未抓取过则触发抓取模块204,如果抓取过,且抓取间隔大于预设的时间间隔时触发查询模块203,如果抓取过,且抓取间隔小于或等于预设的时间间隔则忽略本次网页请求。
查询模块203,用于查询所述网页是否有更新,在有更新时触发抓取模块204,在没有更新时放弃本次网页请求。所述具体的查询方法参见步骤106,即以所述缓存区中URL对象的请求时间为起始值,利用HTTP协议中304返回码来判断所述URL的HTML网页内容是否有实际的更新。
抓取模块204,用于从所述HTML网页所在的服务器500抓取该URL对应的HTML网页,将抓取到的HTML网页发给转换服务器300。之后,转换服务器300将HTML网页转换为WML网页,并将WML网页存入存储服务器400中以供移动通信终端用户访问获取WML网页。
所述网页抓取服务器中设置有缓存区205,用于存储抓取网页的对象,URL对象以网页URL地址的MD5值为关键字,并包括HTML网页的请求时间、以及HTML网页的实际抓取次数update。并设置缓存区对应的抓取间隔的时间阈值,所述判断模块202根据所请求网页的URL地址的MD5码为关键字查询所述缓存区中是否存在该MD5码对应的URL对象,如果存在则说明对应的HTML网页被抓取过,否则没有被抓取,需要抓取该HTML网页。并且,判断模块202以当前时间值减去该URL对象中的时间值作为抓取间隔与该缓存区对应的时间阈值进行比较,如果抓取间隔大于该时间阈值则需触发查询模块203,否则直接触发抓取模块204进行网页抓取。
如上述方法所述,所述缓存区可以有至少两级,例如图中为三级缓存区,每级缓存区对应不同的网页抓取频率和抓取间隔的时间阈值;且所述网页抓取服务器进一步包括对象迁移模块206,用于根据网页的抓取频率将网页的对象在不同级的缓存区中迁移,具体的迁移方式参见上述步骤107至步骤109。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1、一种网页抓取方法,其特征在于,包括:
A、接收网页请求;
B、判断所请求网页是否抓取过,如果是,则执行步骤C;否则,抓取该网页,结束本流程;
C、判断所请求网页的抓取间隔是否大于预设的时间阈值,如果是,则执行步骤D;否则,不抓取该网页,结束本流程;
D、查询所述网页是否有更新,如果有更新,则抓取该网页;否则,不抓取该网页。
2、根据权利要求1所述的网页抓取方法,其特征在于,该方法预先设置缓存区和该缓存区对应的时间阈值;
并且,在第一次抓取网页时,针对该网页创建一个URL对象存入缓存区,该URL对象包括该网页的标识和请求时间,并在后续步骤D中进一步以当前时间更新原有的时间;
在步骤B中,根据所请求的网页标识是否在缓存区中存在来判断该网页是否抓取过;步骤C中,所述的抓取间隔为当前时间与缓存区中所述URL对象所包括时间的差值,所述时间阈值为该缓存区对应的时间阈值。
3、根据权利要求2所述的网页抓取方法,其特征在于,按照网页抓取频率的差异设置不同级别的缓存区,其中不同级缓存区对应不同的抓取间隔的时间阈值;并根据网页的抓取频率将URL对象在不同级的缓存区中迁移。
4、根据权利要求3所述的网页抓取方法,其特征在于,
所述每一级的缓存区对应设置一个抓取频率等级值,在所述每个URL对象中进一步设置抓取次数,该抓取次数的初始值为0;
在步骤D中,进一步包括:如果网页有更新,则将该URL对象中的抓取次数加1,如果网页没有更新,则该URL对象中的抓取次数减1;并比较该URL对象的抓取次数和该URL对象所属缓存区的抓取频率等级值,如果抓取次数大于所述抓取频率等级值,则将该URL对象移动到时间阈值更短的上一级缓存区,如果抓取次数小于所述抓取频率等级值,则将该URL对象移动到时间阈值更长的下一级缓存区。
5、根据权利要求1所述的网页抓取方法,其特征在于,步骤D所述查询所述网页是否有更新具体为:根据超文本传输协议的返回码查询判断所述网页是否有更新。
6、根据权利要求1至5任一项所述的网页抓取方法,其特征在于,所述网页为超文本标记语言网页。
7、一种网页抓取服务器,其特征在于,包括:
网页请求接收模块,用于接收网页请求;
判断模块,用于判断所请求网页是否抓取过和抓取间隔,在未抓取过时,触发抓取模块,在抓取间隔大于预设的时间阈值时触发查询模块;
查询模块,用于查询所述网页是否有更新,在有更新时触发抓取模块;
抓取模块,用于抓取网页。
8、根据权利要求7所述的网页抓取服务器,其特征在于,进一步包括缓存区,用于存储URL对象,且该缓存区具有对应的时间阈值;所述判断模块根据所述缓存区中的URL对象判断网页是否抓取过以及抓取间隔,且所述预设的时间阈值为该缓存区对应的时间阈值。
9、根据权利要求8所述的网页抓取服务器,其特征在于,所述缓存区有至少两级,每级缓存区对应不同的网页抓取频率和抓取间隔的时间阈值;
且所述网页抓取服务器进一步包括对象迁移模块,用于根据网页的抓取频率将URL对象在不同级的缓存区中迁移。
10、根据权利要求7至9任一项所述的网页抓取服务器,其特征在于,所述网页为超文本标记语言网页。
CNB2007101985301A 2007-12-11 2007-12-11 网页抓取方法和网页抓取服务器 Active CN100501746C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007101985301A CN100501746C (zh) 2007-12-11 2007-12-11 网页抓取方法和网页抓取服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007101985301A CN100501746C (zh) 2007-12-11 2007-12-11 网页抓取方法和网页抓取服务器

Publications (2)

Publication Number Publication Date
CN101178736A CN101178736A (zh) 2008-05-14
CN100501746C true CN100501746C (zh) 2009-06-17

Family

ID=39404989

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007101985301A Active CN100501746C (zh) 2007-12-11 2007-12-11 网页抓取方法和网页抓取服务器

Country Status (1)

Country Link
CN (1) CN100501746C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102118361B (zh) * 2009-12-31 2014-07-23 北京金山软件有限公司 一种基于网络协议的数据传输控制方法和装置

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101303700B (zh) * 2008-06-13 2010-04-21 成都市华为赛门铁克科技有限公司 网页收集的方法及其系统
CN101459571B (zh) * 2008-12-16 2011-04-06 北京大学 一种网站镜像的方法、系统及装置
CN101826074A (zh) * 2009-03-04 2010-09-08 上海众恒信息产业股份有限公司 用于被隔离系统的数据交换方法及数据交换装置
CN101902438B (zh) * 2009-05-25 2013-05-15 北京启明星辰信息技术股份有限公司 一种自动识别网页爬虫的方法和装置
CN101782913A (zh) * 2009-06-23 2010-07-21 北京搜狗科技发展有限公司 一种更新提醒的方法及浏览器
CN102129441B (zh) * 2010-01-14 2013-02-27 深圳市深信服电子科技有限公司 一种识别处理网页信息的方法和网页信息识别处理装置
CN102196506B (zh) * 2010-03-15 2013-12-04 华为技术有限公司 网络资源访问控制方法、系统及装置
CN102253941A (zh) * 2010-05-21 2011-11-23 卓望数码技术(深圳)有限公司 一种缓存更新方法和缓存更新装置
CN102347930B (zh) * 2010-07-26 2015-09-09 中国电信股份有限公司 网页内容获取方法和系统
CN101917479A (zh) * 2010-08-20 2010-12-15 北京新岸线网络技术有限公司 一种用于移动网络中改善分组数据业务的方法及装置
CN101986659B (zh) * 2010-10-27 2014-04-16 青岛普加智能信息有限公司 数据实时传输的方法及系统
CN101984634B (zh) * 2010-11-22 2013-06-26 北京酷我科技有限公司 一种适应资源同步机制的服务器端自动转向方法及系统
CN102594787B (zh) * 2011-01-14 2016-01-20 腾讯科技(深圳)有限公司 数据抓取方法、系统和路由服务器
CN102184253A (zh) * 2011-05-30 2011-09-14 北京搜狗科技发展有限公司 对网络资源进行抓取及更新消息推送的方法及系统
CN102364461A (zh) * 2011-06-30 2012-02-29 广州市动景计算机科技有限公司 网页内容数据获取方法及服务器
CN102609481A (zh) * 2012-01-20 2012-07-25 苏州简拔林网络科技有限公司 一种评论信息的实时更新汇总方法
CN102638570A (zh) * 2012-03-15 2012-08-15 中兴通讯股份有限公司 一种嵌入式网络代理系统、终端设备及代理方法
CN102831252B (zh) * 2012-09-21 2015-11-25 北京奇虎科技有限公司 一种用于更新索引数据库的方法及装置、搜索方法和系统
CN102915363B (zh) * 2012-10-18 2015-12-09 北京奇虎科技有限公司 网址收藏方法和系统
CN102982161A (zh) * 2012-12-05 2013-03-20 北京奇虎科技有限公司 网页信息的获取方法和装置
CN103020313B (zh) * 2013-01-08 2015-10-07 北京航空航天大学 一种基于探测网页更新周期的抓取方法
CN103218452B (zh) * 2013-04-27 2016-08-10 人民搜索网络股份公司 一种识别Hub页中有效链接的方法和装置
CN103399933B (zh) * 2013-08-08 2017-01-18 人民搜索网络股份公司 一种抓取网络平面媒体的网页内容的方法及系统
CN103905441B (zh) * 2014-03-28 2017-08-25 广州华多网络科技有限公司 数据获取方法及装置
CN104252530B (zh) * 2014-09-10 2017-09-15 北京京东尚科信息技术有限公司 一种单机爬虫抓取方法及系统
CN104462493B (zh) * 2014-12-18 2018-08-03 北京奇虎科技有限公司 抓取问答类网页的方法和装置
CN104462492B (zh) * 2014-12-18 2018-01-16 北京奇虎科技有限公司 抓取问答类网页的方法和装置
CN104967698B (zh) * 2015-02-13 2018-11-23 腾讯科技(深圳)有限公司 一种爬取网络数据的方法和装置
CN106547773A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 调整事件打开速度的方法及装置
CN106557484A (zh) * 2015-09-25 2017-04-05 北京国双科技有限公司 网页热力图背景图的更新方法及装置
CN106897126A (zh) * 2015-12-21 2017-06-27 北京奇虎科技有限公司 一种图片抓取方法和服务器
CN106897127A (zh) * 2015-12-21 2017-06-27 北京奇虎科技有限公司 一种对图片进行抓取处理的方法和服务器
CN107102997A (zh) * 2016-02-22 2017-08-29 北京国双科技有限公司 数据爬取方法及装置
CN106055638A (zh) * 2016-05-30 2016-10-26 国家基础地理信息中心 一种网络地理信息更新方法及系统
CN106371830A (zh) * 2016-08-25 2017-02-01 北京量科邦信息技术有限公司 一种实现原生app和web页面关闭及后退控制的交互方法
CN110020065B (zh) * 2017-07-19 2023-04-25 阿里巴巴集团控股有限公司 一种网站识别方法及装置
CN108600342B (zh) * 2018-03-30 2020-01-10 连尚(新昌)网络科技有限公司 一种消息显示方法、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102118361B (zh) * 2009-12-31 2014-07-23 北京金山软件有限公司 一种基于网络协议的数据传输控制方法和装置

Also Published As

Publication number Publication date
CN101178736A (zh) 2008-05-14

Similar Documents

Publication Publication Date Title
CN100501746C (zh) 网页抓取方法和网页抓取服务器
US6954754B2 (en) Apparatus and methods for managing caches on a mobile device
CN100464308C (zh) 一种用户词库同步更新的方法和系统
CN101231636B (zh) 一种便捷的信息搜索方法、系统及一种输入法系统
CN101334792B (zh) 一种个性化服务推荐系统和方法
CN104182408B (zh) 一种网页离线访问方法及装置
CN110519401A (zh) 提高网络访问成功率的方法、装置、设备及存储介质
CN102164186B (zh) 一种实现云搜索服务的方法及系统
US10489476B2 (en) Methods and devices for preloading webpages
CN105095226A (zh) 网页资源加载方法及装置
CN101702173A (zh) 一种提高移动门户网站动态页面访问速度的方法和装置
CN102480397A (zh) 访问互联网页面的方法及设备
CN104298790A (zh) 浏览器加速方法和具有加速器的浏览器装置
EP1512264B1 (en) Communication system, mobile device and method for storing pages on a mobile device
CN101668042A (zh) 嵌入式通信系统本地页面更新的方法及装置
CN103123630A (zh) 一种获取网页内容的方法、系统以及移动终端和服务器
CN102819554A (zh) 一种收藏夹数据的处理方法、装置和服务器
CN103701929A (zh) 实现业务数据缓存的方法及装置
CN102591887B (zh) 网络数据预读方法及系统
CN105468707A (zh) 一种基于缓存的数据处理方法及装置
CN103473326A (zh) 一种提供搜索建议的方法和装置
CN103916474A (zh) 缓存时间的确定方法、装置及系统
CN100489861C (zh) 数据查找方法、系统及设备
CN102129437A (zh) 域名匹配方法、浏览器
CN101299854B (zh) 一种移动终端及其数据维护方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant