CN104820680A - 一种通用型分布式爬虫调度系统 - Google Patents
一种通用型分布式爬虫调度系统 Download PDFInfo
- Publication number
- CN104820680A CN104820680A CN201510183709.4A CN201510183709A CN104820680A CN 104820680 A CN104820680 A CN 104820680A CN 201510183709 A CN201510183709 A CN 201510183709A CN 104820680 A CN104820680 A CN 104820680A
- Authority
- CN
- China
- Prior art keywords
- task
- reptile
- data
- area
- tasks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 claims abstract description 34
- 230000009193 crawling Effects 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 7
- 241000270322 Lepidosauria Species 0.000 claims description 83
- 230000004044 response Effects 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 10
- 230000001960 triggered effect Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000011514 reflex Effects 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000003139 buffering effect Effects 0.000 abstract 2
- 238000005516 engineering process Methods 0.000 description 6
- 230000003068 static effect Effects 0.000 description 4
- 230000007812 deficiency Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241000938605 Crocodylia Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Abstract
一种通用型分布式爬虫调度系统,包括控制器和爬虫器,控制器包含显示模块和调度模块,其中显示模块用于查看各种任务进展信息、日志以及触发对爬虫器的控制,调度模块包含通信区、维持区、数据保持区、数据缓存区;爬虫器包含爬取模块和调度模块,其中爬取模块实现具体的爬虫功能;调度模块包含通信区、维持区、数据保持区、数据缓存区;调度模块中的通信区之间采用Socket长连接异步通信方式完成互联;针对大数据时代获取数据效率低,存在丢失等问题,提出普适型、通用型的分布式爬虫系统框架,在保证爬取过程高速、有效、准确的同时兼容多样化的爬取策略。
Description
技术领域:
本发明主要涉互联网数据的高效采集系统,尤其涉及一种通用型分布式爬虫系统的实现。主要针对目前大数据时代数据获取效率低,分布式框架兼容性不足等问题,提出普适型、通用型的分布式爬虫调度方案,在保证高速、有效、准确的基础上兼容多样化的爬取策略,在统一的平台上实现多样化的爬取任务。
背景技术:
信息时代的高速发展促进了互联网技术的迅速发展以及信息的爆炸式增长,作用日益突出的传统搜索引擎技术作为信息检索工具使人们可以快速而准确的定位到自己需要的信息。然而,受限于各种现实的环境以及技术的欠缺,功能再强大的搜索引擎也存在着信息丢失、信息更新率低等问题。
鉴于爬取整个互联网信息存在信息丢失、信息更新不及时等问题,各个行业以自身需要为导向设计了各式各样的主题式爬取策略,这些爬取策略不再强调完整搜集整个互联网上的所有数据,而是关注本行业需要关注的信息,比如以新闻为目标的新闻爬虫、以微博为特征的微博爬虫、以股票为特征的股票爬虫等。这些爬虫为面向特定的行业服务,仅需要爬取需要关注的内容,忽略了大量的垃圾信息,减少了爬取时间。
目前关于爬虫的研究主要体现在爬取策略以及爬虫效率分析方面,面对越来越多的网络资源信息以及多元化的爬取需求,提高爬虫程序的爬取速度以及兼容多样化的爬取策略是当前信息检索领域的一个检点问题,但现有的单机爬虫技术以及传统的分布式爬虫技术并不能很好地满足爬取的需求。
发明内容:
本发明需要解决的技术问题是,提供一种通用型分布式爬虫系统,主要针对信息爆炸增长的背景下爬虫效率不高,以及多样化爬虫存在的兼容性问题的现状提出一种通用型的分布式爬虫框架,以整合多样化的爬虫并提高爬虫效率。
本发明解决上述问题所采取的技术方案,一种通用型分布式爬虫调度系统,包括由控制器和爬虫器,控制器包含显示模块和调度模块,其中显示模块用于查看各种任务进展信息、日志以及触发对爬虫器的控制,调度模块包含通信区、维持区、数据保持区、数据缓存区;爬虫器包含爬取模块和调度模块,其中爬取模块实现具体的爬虫功能;
调度模块包含通信区、维持区、数据保持区、数据缓存区;
调度模块中的通信区之间采用Socket长连接异步通信方式完成互联,既保证数据可靠传输,又可以系统运行过程中按需要以热启动的方式添加新的爬虫器,具有极大的扩展性。
调度模块中的维持区,通过定时采样过去一段时间内爬虫器的状态信息以决定未来一段时间内将要发放给该节点的任务数量及类别,采集的信息主要包括该时间段爬虫器处理的任务数及成功处理任务率等。
调度模块中通过采用双层过滤法即持久过滤器和临时过滤器保证信息可靠且没有重复爬取;其中,在将数据加入数据保持区时,需要保证持久过滤器和临时过滤器其中均不含有该数据,数据加入数据保持区后,需要在临时过滤器中标注该任务已存在,待爬虫器完成爬取任务后,持久过滤器才将该任务标注为已存在。
调度模块中的数据缓存区通过将已发送的相关信息进行缓存,在相应报文得到响应后再将相关信息移出缓存区,这保证信息有效传输的同时保证所有的任务都会被执行,未得到响应的任务,其相应数据会在一段时间后返回数据保持区,其中一次通信的完成包含双方将各发出一次报文。
调度模块中的通信区Socket长连接异步通信方式,通过自定义一组完备的通信命令报文及数据传输报文保证控制器和爬虫器之间有效地沟通,报文包含报文长度域、报文流水号域、报文处理方式域、URL属性标志域、URL属性域等。
上述的通信报文协议,采用反射机制在传输属性中提取相应属性构建相应的URL对象;灵活的构建方式使我们获取更多类别的URL对象,不同的对象可以实现不同的爬取策略,因此可以兼容各式各样的爬虫,极大地提升了本系统的兼容性。
本发明的有益效果:针对信息爆炸增长的背景下爬虫效率不高以及多样化爬虫存在的兼容性问题的现状提出一种普适型、通用型的分布式爬虫框架,针对大数据时代获取数据效率低,存在丢失,分布式框架存在兼容性不足等问题,提出普适型、通用型的分布式爬虫系统框架,在保证爬取过程高速、有效、准确的同时兼容多样化的爬取策略。真实的分布式爬虫调度系统原型测试结果表明,本发明在具有传统分布式爬虫系统性能的同时重点满足了系统的稳定性、准确性以及爬取策略多样性的需要,具有实现简单、代价低等一系列的优点。与现有技术相比,其显著优点为:
⑴实现简单:本发明涉及的实现过程十分简单,结构清晰明了,适合不同需求,不同环境下低代价快速部署实现分布式爬虫系统。
⑵通用性好:本发明虽然以统一的分布式平台为基础实现,但是可以兼容几乎所有的爬虫功能,无论是面向主题的爬虫还是面向互联网的全网爬虫均可以得到支持。
⑶稳定性好:预处理式任务处理方式以及缓存区的引入,可以保证任务稳定、准确的被执行,既不会重复执行任务,也不会由于系统问题导致任务丢失。
⑷扩展性好:针对传统分布式爬虫调度系统不能实时添加爬虫节点的缺憾,本系统可以在系统运行过程中按照需要以热启动方式添加新的爬虫器。
⑸准确度高:针对某些任务在某些爬取器上无法得到正确执行的现状,通过将执行出错的任务多次反复执行,避免由于爬虫器的问题导致任务执行失败,提高了任务执行的正确率。
附图说明:
图1为本发明原型系统的总体架构图;
图2为本发明控制器实现结构图;
图3为本发明爬虫器实现结构图。
具体实施方式:
本发明针对目前大数据时代数据获取效率低,分布式框架兼容性不足等问题,提出普适型、通用型的分布式爬虫调度系统,在保证高速、有效、准确的基础上兼容多样化的爬取策略,并据此实现了一个原型系统,用以验证发明的合理性。
为了改变目前分布式框架结构复杂、通用性弱的现状,本发明以简单、易实现为基础实现了一种通用型的分布式爬虫系统。同时,基于统一的通讯协议对URL信息进行封装,并采用反射机制提取信息,可以传输多样化的URL信息及其他数据信息,以达到多样化爬虫的目的,强化了系统的通用性。
上述反射机制即通过解析传输的附加信息在爬虫端生成对应的URL对象,并将提取的URL属性信息赋值给该URL对象,类似于面向对象语言中通过类名称来动态生成对象并依据属性名称给属性赋值。
以下结合附图详细介绍整个系统的实施过程:
参见图1,本发明的总体架构为:
⑴控制器模块:
①控制器模块主要包括调度模块(对控制器负责,维持控制器正常运行)、显示模块(对用户负责,接收用户指令并向用户展示系统运行的情况与任务执行的进度等)。
②调度模块主要包含以下几个部分:维持区(主要包含各种触发器维持系统运行)、数据保持区(系统运行过程中需要暂存的数据)、数据缓存区(暂存未确认的数据)、通信区(完成控制器与爬虫器之间的通信)。
⑵爬虫器模块:
①虫器模块主要包括调度模块(对爬虫器负责,维持爬虫器正常运行)、爬取模块(主要功能为依据URL信息完成信息采集任务,其中爬取模块实现具体的爬虫功能同现有技术)。
②调度模块主要包含以下几个部分:维持区(主要包含各种触发器维持系统运行)、数据保持区(系统运行过程中需要暂存的数据)、数据缓存区(暂存未确认的数据)、通信区(完成控制器与爬虫器之间的通信)。
⑶通信协议:
①通信方式主要采用基于Socket长连接的异步通信方式,代价低,无需系统等待直到确认,一个通信报文主要包含以下几个部分:长度域、报文流水号域、报文处理方式域、URL属性标志域、URL属性域。
②将URL视为对象,定义域模型用于传输URL属性,方便灵活,还可以采用反射机制提取出多样化的URL对象,达到兼容多样化爬虫的通用性分布式爬虫系统的要求。参见图2,本发明控制器模块的详细结构为:
⑴调度模块:
控制器调度模块主要包含:数据保持区、数据缓存区、维持区、通信区等几个部分。
①数据保持区:包含静态数据和动态数据两大部分,静态数据主要包含控制器配置文件、个性化爬虫配置文件(记录系统支持的爬虫类型及相应的信息等)、系统运行日志文件。动态数据区包含爬取出错任务集合、爬虫器状态集合、未下发任务集合、持久层过滤器以及临时过滤器。
②数据缓存区:包含已下发未确认的任务镜像(曾经执行出错的任务)以及已下发未确认任务镜像(首次执行的任务)。前者用于系统中执行任务出错时,控制器将出错任务再次下发执行时进行缓存,等待任务执行结果后移除,若出错,仍移回爬取出错任务集合,直到出错次数达到阈值才不会被再次执行,后者用于正常任务执行,控制器将任务下发执行时进行缓存,等待任务执行结果后移除。
③维持区:包括控制命令触发器、出错任务执行触发器、状态查询定时器等部分。其中控制命令触发器由用户触发,以控制整个系统为目的;出错任务执行触发器由爬取出错任务集合触发,当该集合含有元素时触发,没有元素时停止触发;状态查询定时器定期查询爬虫器状态为任务下发量等提供依据。
④通信区:按通信流向分成主动发起的通信以及被动响应的通信。其中
主动发起的通信主要包含:
a.控制命令报文:由控制命令触发器触发,用户参与;
b.出错任务再次执行报文:由出错任务执行触发器参考出错任务集合是否含有元素进行触发,等待任务执行结果后缓存移除,若出错,仍移回爬取出错任务集合,直到出错次数达到阈值才不会被再次执行;
c.状态查询报文:由定时器触发,定时发送;
被动响应的通信主要包含:
a.任务请求的响应:含有任务时下发任务,没有任务时只确认不下发;
b.新任务返回的响应:经过双层过滤后加入任务集合;
c.出错任务返回的响应:直接加入任务队列;
d.任务确认的响应:将任务镜像移出缓存标志任务完成;
⑵显示模块:
①显示模块主要包含两种功能:触发控制命令触发器控制爬虫器的运行(比如停止爬虫器运行,重启爬虫器运行等)以及查看在系统运行过程中的系统信息、任务执行进度等。参见图3,本发明爬虫器模块的详细结构为:
⑴调度模块:
爬虫器调度模块主要包含:数据保持区、数据缓存区、维持区、通信区等几个部分。
①数据保持区:包含静态数据和动态数据两大部分,静态数据主要包含爬虫器配置文件、个性化爬虫配置文件(记录系统支持的爬虫类型及相应的信息等)、系统运行日志文件。动态数据区包含未处理任务集合、获取到的新任务集合、执行出错任务集合、执行正确任务集合。
②数据缓冲区:包含已发送未确认任务镜像(执行正确的任务),主要用于缓存爬虫器返回正确执行任务确认的镜像,待确认后移出、已发送未确认任务镜像(执行出错的任务),主要用于暂存爬虫器返回错误执行任务确认的镜像,待确认后移出、已发送未确认任务镜像(爬取过程中获取的新任务),主要用于缓存爬虫器返回爬取到任务的镜像,待确认后移出。
③维持区:包括任务请求触发器、新任务返回触发器、出错任务返回触发器、任务确认触发器等部分。其中任务请求触发器未处理任务集合触发,当该集合含有元素数量小于某个阈值时触发,大于某个阈值时停止触发;任务返回触发器(新任务)由获取到的新任务集合触发,当该集合含有元素时触发,没有元素时停止触发;任务返回触发器(出错任务)由执行出错任务集合触发,当该集合含有元素时触发,没有元素时停止触发;任务确认触发器由执行正确任务集合触发,当该集合含有元素时触发,没有元素时停止触发。
④通信区:按通信流向分成主要发起的通信以及被动相应的通信。其中
主动发起的通信主要包含:
a.任务请求报文:任务请求触发器参考未处理任务集合是否低于某个阈值进行触发;
b.新任务返回报文:任务返回触发器(新任务)参考获取到的新任务集合是否含有元素进行触发,正确返回,移出相应镜像;
c.出错任务返回报文:任务返回触发器(出错任务)参考执行出错任务集合是否还有元素进行触发,正确返回,移出相应镜像;
d.任务确认报文:任务确认触发器参考执行正确任务集合是否含有元素进行触发,正确返回,移出相应镜像;
被动响应的通信主要包含:
a.控制命令的响应:执行相应命令,返回执行结果;
b.出错任务再次执行的响应:立即执行,返回执行结果;
c.状态查询报文响应:返回爬虫器状态信息。
⑵爬取模块:
①爬取模块主要涉及爬虫的具体技术,依据获取的URL对象信息完成具体的页面获取任务。
Claims (4)
1.一种通用型分布式爬虫调度系统,其特征是包括由控制器和爬虫器,控制器包含显示模块和调度模块,其中显示模块用于查看各种任务进展信息、日志以及触发对爬虫器的控制,调度模块包含通信区、维持区、数据保持区、数据缓存区;爬虫器包含爬取模块和调度模块,其中爬取模块实现具体的爬虫功能;
调度模块包含通信区、维持区、数据保持区、数据缓存区;
调度模块中的通信区之间采用Socket长连接异步通信方式完成互联,既保证数据可靠传输,或以系统运行过程中按需要以热启动的方式添加新的爬虫器,具有扩展性;
调度模块中的维持区,通过定时采样过去一段时间内爬虫器的状态信息以决定未来一段时间内将要发放给该节点的任务数量及类别,采集的信息主要包括该时间段爬虫器处理的任务数及成功处理任务率等;
调度模块中通过采用双层过滤法即持久过滤器和临时过滤器保证信息可靠且没有重复爬取;其中,在将数据加入数据保持区时,需要保证持久过滤器和临时过滤器其中均不含有该数据,数据加入数据保持区后,需要在临时过滤器中标注该任务已存在,待爬虫器完成爬取任务后,持久过滤器才将该任务标注为已存在;
调度模块中的数据缓存区通过将已发送的相关信息进行缓存,在相应报文得到响应后再将相关信息移出缓存区,这保证信息有效传输的同时保证所有的任务都会被执行,未得到响应的任务,其相应数据会在一段时间后返回数据保持区,其中一次通信的完成包含双方将各发出一次报文;
调度模块中的通信区Socket长连接异步通信方式,通过自定义一组完备的通信命令报文及数据传输报文保证控制器和爬虫器之间有效地沟通,报文包含报文长度域、报文流水号域、报文处理方式域、URL属性标志域、URL属性域等;
上述的通信报文协议,采用反射机制在传输属性中提取相应属性构建相应的URL对象。
2.根据权利要求1所述的通用型分布式爬虫调度系统,其特征是调度模块中数据缓存区包含已下发未确认的任务镜像(曾经执行出错的任务)以及已下发未确认任务镜像(首次执行的任务);前者用于系统中执行任务出错时,控制器将出错任务再次下发执行时进行缓存,等待任务执行结果后移除,若出错,仍移回爬取出错任务集合,直到出错次数达到阈值才不会被再次执行,后者用于正常任务执行,控制器将任务下发执行时进行缓存,等待任务执行结果后移除。
3.根据权利要求1所述的通用型分布式爬虫调度系统,其特征是调度模块中维持区:包括控制命令触发器、出错任务执行触发器、状态查询定时器等部分。其中控制命令触发器由用户触发,以控制整个系统为目的;出错任务执行触发器由爬取出错任务集合触发,当该集合含有元素时触发,没有元素时停止触发;状态查询定时器定期查询爬虫器状态为任务下发量等提供依据。
4.根据权利要求1所述的通用型分布式爬虫调度系统,其特征是调度模块中通信区:按通信流向分成主动发起的通信以及被动响应的通信;其中
主动发起的通信主要包含:
a.控制命令报文:由控制命令触发器触发,用户参与;
b.出错任务再次执行报文:由出错任务执行触发器参考出错任务集合是否含有元素进行触发,等待任务执行结果后缓存移除,若出错,仍移回爬取出错任务集合,直到出错次数达到阈值才不会被再次执行;
c.状态查询报文:由定时器触发,定时发送;
被动响应的通信主要包含:
a.任务请求的响应:含有任务时下发任务,没有任务时只确认不下发;
b.新任务返回的响应:经过双层过滤后加入任务集合;
c.出错任务返回的响应:直接加入任务队列;
d.任务确认的响应:将任务镜像移出缓存标志任务完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510183709.4A CN104820680B (zh) | 2015-04-17 | 2015-04-17 | 一种通用型分布式爬虫调度系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510183709.4A CN104820680B (zh) | 2015-04-17 | 2015-04-17 | 一种通用型分布式爬虫调度系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104820680A true CN104820680A (zh) | 2015-08-05 |
CN104820680B CN104820680B (zh) | 2018-04-06 |
Family
ID=53730977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510183709.4A Active CN104820680B (zh) | 2015-04-17 | 2015-04-17 | 一种通用型分布式爬虫调度系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104820680B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503017A (zh) * | 2015-09-08 | 2017-03-15 | 摩贝(上海)生物科技有限公司 | 一种分布式爬虫系统任务抓取系统和方法 |
CN106657228A (zh) * | 2016-09-27 | 2017-05-10 | 山东浪潮云服务信息科技有限公司 | 一种利用云端进行并发采集的爬虫实现方法 |
CN108132948A (zh) * | 2016-11-30 | 2018-06-08 | 北京国双科技有限公司 | 处理爬取网页的方法和装置 |
CN109446441A (zh) * | 2018-09-26 | 2019-03-08 | 北京邮电大学 | 一种通用的网络社区可信分布式采集存储系统 |
CN110020066A (zh) * | 2017-07-31 | 2019-07-16 | 北京国双科技有限公司 | 一种往爬虫平台注任务的方法及装置 |
CN116821200A (zh) * | 2023-07-04 | 2023-09-29 | 大师兄(上海)云数据服务有限公司 | 一种人工智能云数据可视化分析系统及其分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140019114A1 (en) * | 2010-07-13 | 2014-01-16 | Motionpoint Corporation | Dynamic Language Translation of Web Site Content |
CN103778165A (zh) * | 2012-10-26 | 2014-05-07 | 广州市邦富软件有限公司 | 一种蜘蛛调度中心采集动态调整算法 |
CN103886033A (zh) * | 2014-03-05 | 2014-06-25 | 无锡香象生物科技有限公司 | 用于安全产业链的智能垂直搜索装置和方法 |
-
2015
- 2015-04-17 CN CN201510183709.4A patent/CN104820680B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140019114A1 (en) * | 2010-07-13 | 2014-01-16 | Motionpoint Corporation | Dynamic Language Translation of Web Site Content |
CN103778165A (zh) * | 2012-10-26 | 2014-05-07 | 广州市邦富软件有限公司 | 一种蜘蛛调度中心采集动态调整算法 |
CN103886033A (zh) * | 2014-03-05 | 2014-06-25 | 无锡香象生物科技有限公司 | 用于安全产业链的智能垂直搜索装置和方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503017A (zh) * | 2015-09-08 | 2017-03-15 | 摩贝(上海)生物科技有限公司 | 一种分布式爬虫系统任务抓取系统和方法 |
CN106657228A (zh) * | 2016-09-27 | 2017-05-10 | 山东浪潮云服务信息科技有限公司 | 一种利用云端进行并发采集的爬虫实现方法 |
CN108132948A (zh) * | 2016-11-30 | 2018-06-08 | 北京国双科技有限公司 | 处理爬取网页的方法和装置 |
CN108132948B (zh) * | 2016-11-30 | 2021-02-26 | 北京国双科技有限公司 | 处理爬取网页的方法和装置 |
CN110020066A (zh) * | 2017-07-31 | 2019-07-16 | 北京国双科技有限公司 | 一种往爬虫平台注任务的方法及装置 |
CN110020066B (zh) * | 2017-07-31 | 2021-09-07 | 北京国双科技有限公司 | 一种往爬虫平台注任务的方法及装置 |
CN109446441A (zh) * | 2018-09-26 | 2019-03-08 | 北京邮电大学 | 一种通用的网络社区可信分布式采集存储系统 |
CN109446441B (zh) * | 2018-09-26 | 2020-11-03 | 北京邮电大学 | 一种通用的网络社区可信分布式采集存储系统 |
CN116821200A (zh) * | 2023-07-04 | 2023-09-29 | 大师兄(上海)云数据服务有限公司 | 一种人工智能云数据可视化分析系统及其分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104820680B (zh) | 2018-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104820680A (zh) | 一种通用型分布式爬虫调度系统 | |
CN106878163B (zh) | 一种多数据协议转换的物联网智能网关 | |
CN104866383B (zh) | 一种接口调用方法、装置及终端 | |
US20190065445A1 (en) | Predictive resource identification and phased delivery of structured documents | |
US8230046B2 (en) | Setting cookies in conjunction with phased delivery of structured documents | |
CN109033115A (zh) | 一种动态网页爬虫系统 | |
CN108769109A (zh) | 一种物联网异构设备数据的统一处理方法及系统 | |
CN104378399B (zh) | 一种数据推送方法、平台服务器、客户端以及系统 | |
CN101821698A (zh) | 用于连接真实世界web应用与3d虚拟世界的方法和装置 | |
RU2004131856A (ru) | Способы и устройство для синхронизации того, как данные сохраняются в различных хранилищах данных | |
CN104202360A (zh) | 访问网页的方法、装置及路由器 | |
CN107809383A (zh) | 一种基于mvc的路径映射方法及装置 | |
CN103092936B (zh) | 一种物联网动态页面实时信息采集方法 | |
US20120331038A1 (en) | Systems and methods for processing web service piped network requests | |
CN110795697B (zh) | 逻辑表达式的获取方法、装置、存储介质以及电子装置 | |
JP2018537777A (ja) | モノのインターネット情報システム | |
CN105631056A (zh) | 用于广告流量过滤的方法、装置及服务器 | |
CN102790806B (zh) | 一种基于http协议下载课件的方法及装置 | |
CN105471980B (zh) | 一种基于嵌入式OpenWrt无线路由器技术的云服务器数据访问方法 | |
CN109460389A (zh) | 一种基于openresty的日志记录方法 | |
CN103634338A (zh) | 在线修改网页主域标题的方法、数据处理装置和系统 | |
Son et al. | Cloud of things based on linked data | |
CN104965909B (zh) | 一种动态web内容的请求处理方法 | |
Huang | GeoPubSubHub: A geospatial publish/subscribe architecture for the world-wide sensor web | |
CN102970245A (zh) | 数据传输方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |