CN112994968A - 一种网络信息采集方法、服务器、终端和系统 - Google Patents
一种网络信息采集方法、服务器、终端和系统 Download PDFInfo
- Publication number
- CN112994968A CN112994968A CN201911305040.6A CN201911305040A CN112994968A CN 112994968 A CN112994968 A CN 112994968A CN 201911305040 A CN201911305040 A CN 201911305040A CN 112994968 A CN112994968 A CN 112994968A
- Authority
- CN
- China
- Prior art keywords
- acquisition
- access
- page
- task
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000003993 interaction Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 16
- 238000012544 monitoring process Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 239000002184 metal Substances 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 206010048669 Terminal state Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 208000019116 sleep disease Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种网络信息采集方法、服务器、终端和系统,涉及计算机技术领域。该方法的一具体实施方式包括:确定采集任务;发送采集任务给目标终端,以使目标终端通过客户端为采集任务生成访问请求;接收目标终端发送的访问请求,并将访问请求发送给web服务端,以触发web服务端发送与访问请求相匹配的访问页面;接收访问页面,并采集访问页面中的信息。该实施方式能够完整的采集发布于客户端内置浏览器上的信息。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种网络信息采集方法、服务器、终端和系统。
背景技术
随着网络的快速发展,通过客户端内置浏览器发布各种文章、新闻报道以及企业信息等,已成为网络信息公开的主要途径之一。因此,在网络信息采集中,采集通过客户端内置浏览器访问的信息已不可被忽视。
现有网络信息采集的方式是,直接或者模拟浏览器向web服务端发起HTTP请求,以访问web服务端返回的该HTTP请求对应的页面。由于客户端内置浏览器向web服务端发送的访问页面请求会携带有特征信息,而web服务端会根据该特征信息返回完整信息。而通过现有网络信息采集的方式只能采集一部分发布于客户端内置浏览器上的信息。比如,发布于客户端内置浏览器上的包含有访问量和评论等的新闻,通过现有网络信息采集的方式往往只能采集到新闻,而并不能采集到访问量和评论等。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
现有网络信息采集的方式并不能完整的采集发布于客户端内置浏览器上的信息。
发明内容
有鉴于此,本发明实施例提供一种网络信息采集方法、服务器、终端和系统,能够完整的采集发布于客户端内置浏览器上的信息。
为实现上述目的,根据本发明实施例的一个方面,提供了一种网络信息采集方法,应用于服务器,包括:
确定采集任务;
发送所述采集任务给目标终端,以使所述目标终端为所述采集任务生成访问请求;
接收所述目标终端发送的所述访问请求,并将所述访问请求发送给web服务端,以触发所述web服务端发送与所述访问请求相匹配的访问页面;
接收所述访问页面,并采集所述访问页面中的信息。
优选地,
上述网络信息采集方法,进一步包括:
设置采集管理项,并将多个配置信息录入所述采集管理项,其中,每一个所述配置信息包括采集时间;
在所述采集管理项中,根据所述采集时间,查找是否存在满足当前时间的配置信息,
如果是,则根据所述满足当前时间的配置信息,执行所述确定采集任务的步骤;
否则,将兜底页面的访问地址发送给目标终端,所述兜底页面指示定时调用预设的接口,以使所述目标终端点击所述兜底页面的访问地址后,执行定时调用预设的接口的操作。
优选地,
每一个所述配置信息进一步包括:访问地址、采集频率以及采集周期;
所述根据所述满足当前时间的配置信息,执行所述确定采集任务的步骤,包括:
将所述满足当前时间的配置信息中的访问地址包装为一个超链接标签,将所述超链接标签、所述满足当前时间的配置信息中的采集频率和采集周期组合为一个采集任务。
优选地,
所述将所述超链接标签以及所述满足当前时间的配置信息中的采集频率组合为一个采集任务,包括:
判断在当前时间是否接收到所述web服务端发送的访问页面,
如果是,则将所述超链接标签、所述满足当前时间的配置信息中的采集频率和采集周期合并到所述访问页面,并确定合并后的访问页面为所述采集任务;
否则,生成一个空白的任务访问页面,将所述超链接标签、所述满足当前时间的配置信息中的采集频率和采集周期合并到所述任务访问页面,并确定合并后的任务访问页面为所述采集任务。
优选地,
在所述将兜底页面的访问地址发送给目标终端之后,进一步包括:
通过所述预设的接口,将所述配置信息中的访问地址发送给所述目标终端,并根据所述配置信息中的采集频率和采集周期,控制所述目标终端,以使所述目标终端为所述满足下一时间的配置信息中的访问地址生成访问请求。
优选地,
网络信息采集方法,进一步包括:
监控所述配置信息中的访问地址所对应的采集状态;
将所述采集状态写入所述采集管理项。
优选地,
在所述发送所述采集任务给目标终端之前,进一步包括:
监控所连接的多个终端的负载;
根据监控到的所述多个终端的负载,为所述采集任务选择至少一个目标终端。
根据本发明实施例的第二方面,提供了一种网络信息采集方法,应用于终端,包括:
接收采集任务;
根据所述采集任务,触发所述采集任务所对应的客户端,以使所述客户端生成访问请求,其中,所述客户端安装于所述终端;
发送所述访问请求给服务器,以使所述服务器获取并采集与所述访问请求相匹配的访问页面。
优选地,网络信息采集方法,进一步包括:
接收所述服务器发送的兜底页面的访问地址,所述兜底页面指示定时调用预设的接口;
点击所述兜底页面的访问地址,定时调用预设的接口;
通过所述预设的接口,接收访问地址;
接收所述服务器的控制,点击所述访问地址,以使所述客户端为所述访问地址生成访问请求。
根据本发明实施例的第三方面,提供了一种服务器,包括:调度单元、交互处理单元以及信息采集单元,其中,
所述调度单元,用于确定采集任务;
所述交互处理单元,用于发送所述采集任务给终端,以使所述终端为所述采集任务生成访问请求;接收所述终端发送的所述访问请求,并将所述访问请求发送给web服务端,以触发所述web服务端发送与所述访问请求相匹配的访问页面;接收所述访问页面;
所述信息采集单元,用于采集所述访问页面中的信息。
根据本发明实施例的第四方面,提供了一种终端,其特征在于,包括:交互单元、触发单元以及多个客户端,其中,
所述交互单元,用于接收采集任务;
所述触发单元,用于根据所述采集任务,点击所述采集任务所对应的客户端;
每一个所述客户端,用于在接收到所述触发单元的点击时,生成访问请求;
所述交互单元,进一步用于发送所述访问请求给服务器,以使所述服务器获取并采集与所述访问请求相匹配的访问页面。
根据本发明实施例的第四方面,提供了一种网络信息采集系统,包括:上述服务器、多个终端以及web服务端,其中,
所述服务器,用于发送采集任务给所述终端;
每一个所述终端,用于在接收到所述采集任务后,生成访问请求,并将该访问请求发送给所述服务器;
所述服务器,进一步用于将所述访问请求发送给所述web服务端,并接收所述web服务端发送的访问页面,采集所述访问页面上的信息;
所述web服务端,用于确定与所述访问请求相匹配的访问页面,并发送所述访问页面。
上述发明中的一个实施例具有如下优点或有益效果:通过确定采集任务,发送采集任务给目标终端,以使目标终端通过客户端为采集任务生成访问请求,并通过该访问请求,接收web服务端发送与访问请求相匹配的访问页面,由于该访问请求是由客户端产生的,则web服务端在接收到该访问请求后,提供与该访问请求相匹配的访问页面,该访问页面会包含能够发布于客户端内置浏览器上的所有信息,因此,本发明实施例提供的方案能够完整的采集发布于客户端内置浏览器上的信息。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的客户端与web服务端交互获取访问页面的主要流程的示意图;
图2是根据本发明实施例的网络信息采集方法的主要流程的示意图;
图3是根据本发明另一实施例的网络信息采集方法的主要流程的示意图;
图4是根据本发明实施例的网络信息采集方法的主要流程的示意图;
图5是根据本发明实施例的服务器的主要单元的示意图;
图6是根据本发明实施例的终端的主要单元的示意图;
图7是根据本发明实施例的网络信息采集系统的结构示意图;
图8是根据本发明实施例的网络信息采集系统中服务器、终端以及web服务端交互的主要流程的示意图;
图9是本发明实施例可以应用于其中的示例性系统架构图;
图10适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
客户端一般通过其内置浏览器展示信息如新闻、公开发表的文章、评论等,而客户端获取这些信息的过程具体为,如图1所示,客户端101在接收到用户对目标(该目标可以为链接、可以为新闻标题等)的点击后,客户端101会生成校验信息即客户端所具有的特征信息(该校验信息一般是具有时效性,客户端通过当前的环境如是否登录、是否存在缓存数据等生成额外的校验信息),客户端101发送具有校验信息的访问请求给web服务端102,web服务端102根据该校验信息确定该访问请求为客户端101发送的,则将与该访问请求相匹配的访问页面(比如具有访问量、完整评论的文章等)发送给客户端101,在该访问页面到达客户端101后,而为了方便展示,客户端的内置浏览器会对访问页面进行图片化处理。在现有的网络信息采集技术中,很难模拟客户端生成校验信息,而直接采集内置浏览器上的图片化处理后的信息,则需要将图片转换为文本或者需要能够识别图片上信息的方法,而在图片转换文本或者直接识别图片上信息的过程无法保证信息的准确性。因此,从web服务端获取用于在客户端内置浏览器上展示的访问页面,则即可以保证信息完整性也可以保证信息准确性。
图2是根据本发明实施例的一种网络信息采集方法,应用于服务器。如图2所示,该网络信息采集方法可具体包括如下步骤:
S201:确定采集任务;
S202:发送采集任务给目标终端,以使目标终端通过客户端为采集任务生成访问请求;
S203:接收目标终端发送的访问请求,并将访问请求发送给web服务端,以触发web服务端发送与访问请求相匹配的访问页面;
S204:接收访问页面,并采集访问页面中的信息。
通过发送采集任务给目标终端,以使目标终端通过客户端为采集任务生成访问请求,并接收该访问请求,并将该访问请求发送给web服务器,对于web服务端来说,访问请求即为客户端发送的,因此,web服务端将与访问请求相匹配的访问页面按照其接收访问请求的路径返回,该访问页面会包含能够发布于客户端内置浏览器上的信息,即实现了从web服务端获取能够发布于客户端内置浏览器上的信息。因此,本发明实施例提供的方案能够完整的采集发布于客户端内置浏览器上的信息。
上述目标终端是指,根据终端的负载情况,从连接的多个终端中,选择出的一个负载量较小的终端。
在本发明一个实施例中,如图3所示,上述网络信息采集方法可进一步包括如下步骤:
S301:设置采集管理项,并将多个配置信息录入采集管理项,其中,每一个配置信息包括采集时间;
该采集管理项可以以为采集管理表格,其可包含有访问地址(URL地址)、采集频率(比如每5min采集一次)以及采集周期(比如连续采集三天)、采集时间(开始采集的时间)。
S302:在采集管理项中,根据采集时间,查找是否存在满足当前时间的配置信息,如果是,则执行步骤S303;否则,执行步骤S304;
该满足当前时间可以为与当前时间相同的采集时间,也可以为与当前时间的差值在一个阈值内的采集时间,比如,该阈值为10min,则与当前时间相差10min以内的采集时间所对应的配置信息均为满足当前时间的配置信息。
S303:根据满足当前时间的配置信息,执行确定采集任务的步骤;
S304:将兜底页面的访问地址发送给目标终端,兜底页面指示定时调用预设的接口,以使目标终端点击兜底页面的访问地址后,执行定时调用预设的接口的操作。
该预设的接口可作为配置信息中的访问地址的传输通道,以保证能够及时将访问地址发送给目标终端。
在本发明实施例中,在开始启动目标终端时,可执行步骤S301至步骤S304;在目标终端休眠一段时间后重新启用,可执行步骤S301至步骤S304;还可以在使用目标终端过程中,执行步骤S301至步骤S304。
在本发明一个实施例中,每一个配置信息进一步包括:访问地址、采集频率以及采集周期;相应地,上述根据满足当前时间的配置信息,执行确定采集任务的步骤可具体包括:将满足当前时间的配置信息中的访问地址包装为一个超链接标签,将超链接标签、满足当前时间的配置信息中的采集频率和采集周期组合为一个采集任务。使得目标终端能够按照采集任务中的采集频率和采集周期点击超链接标签,以使目标终端中的对应客户端生成访问请求。
其中,将超链接标签、满足当前时间的配置信息中的采集频率和采集周期组合为一个采集任务的方式可以有两种。
方式一:将超链接标签、采集频率和采集周期合并到web服务端发送的访问页面内。
方式二:生成一个空白的任务访问页面,将超链接标签、采集频率和采集周期合并到该任务访问页面。
一般来说,在当前时间接收到web服务端发送的访问页面,则采用上述方式一;而在当前时间未接收到web服务端发送的访问页面,则可采用上述方式二。另外,当访问地址比较多时,还可通过上述调用接口直接将上述访问地址发送给目标终端,并按照采集频率和采集周期点击访问地址,生成并发送访问请求。
因此,在本发明一个实施例中,将超链接标签以及满足当前时间的配置信息中的采集频率组合为一个采集任务的具体实施方式可包括:判断在当前时间是否接收到web服务端发送的访问页面,如果是,则将超链接标签、满足当前时间的配置信息中的采集频率和采集周期合并到访问页面,并确定合并后的访问页面为采集任务;否则,生成一个空白的任务访问页面,将超链接标签、满足当前时间的配置信息中的采集频率和采集周期合并到任务访问页面,并确定合并后的任务访问页面为采集任务。
针对上述方式一,得到的访问网页,一方面对网页中的信息进行采集、并可根据不同访问网页进行不同的解析,提取有用的数据,然后将提取出的数据传递到下一环节如数据分析环节等对数据进行处理;另一方面,将合并了超级链接标签的访问网页发送给目标终端,以使目标终端点击超级链接标签,继续生成访问请求。
在本发明一个实施例中,在将兜底页面的访问地址发送给目标终端之后可进一步包括:通过预设的接口,将配置信息中的访问地址发送给目标终端,并根据配置信息中的采集频率和采集周期,控制目标终端,以使目标终端为满足下一时间的配置信息中的访问地址生成访问请求。
综上可知,在本发明实施例中,发送访问地址给目标终端的方式可以有两种,一种为将访问地址包装成超级链接标签,并将该超级链接标签合并到访问页面或空白的任务访问页面中,并将该访问页面或任务访问页面发送给目标终端;另一种为将访问地址直接通过调用接口发送给目标终端。
在本发明一个实施例中,网络信息采集方法可进一步包括:监控配置信息中的访问地址所对应的采集状态;将采集状态写入采集管理项。该采集状态包括:未开始、采集中、暂停、完成、取消。实现了对采集状态的监控,以防止漏采等情况的发生,进一步提高了采集的准确性和采集的完整性。
另外,还可根据采集状态的监控结果,针对大量访问地址延迟下发或堆积告警。同时,还可监控终端,对终端的运行异常状态告警。
在本发明一个实施例中,在发送所述采集任务给目标终端之前可进一步包括:监控所连接的多个终端的负载;根据监控到的多个终端的负载,为采集任务选择至少一个目标终端。避免目标终端负载失衡,而造成的访问地址在终端堆积/积压,以保证采集的效率。
图4为本发明实施例提供的一种网络信息采集方法,应用于终端。如图4所示,该网络信息采集方法可包括如下步骤:
S401:接收采集任务;
S402:根据采集任务,触发采集任务所对应的客户端,以使客户端生成访问请求,其中,客户端安装于终端;
S403:发送访问请求给服务器,以使服务器获取并采集与访问请求相匹配的访问页面。
在终端上可以安装有多个客户端,那么终端可针对不同的采集任务中的访问地址(URL地址)选择不同的客户端。
在本发明一个实施例中,上述网络信息采集方法可进一步包括:接收服务器发送的兜底页面的访问地址,兜底页面指示定时调用预设的接口;触发兜底页面的访问地址,定时调用预设的接口;通过预设的接口,接收访问地址;接收服务器的控制,触发访问地址,以使客户端为访问地址生成访问请求。
如图5所示,本发明实施例提供一种服务器500,该服务器500包括:调度单元501、交互处理单元502以及信息采集单元503,其中,
调度单元501,用于确定采集任务;
交互处理单元502,用于将调度单元501确定出的采集任务发送给目标终端,以使目标终端为采集任务生成访问请求;接收目标终端发送的访问请求,并将访问请求发送给web服务端,以触发web服务端发送与访问请求相匹配的访问页面;接收访问页面;
信息采集单元503,用于采集交互处理单元502接收到的访问页面中的信息。
在本发明另一实施例中,调度单元501设置有采集管理项,并将多个配置信息录入所述采集管理项,其中,每一个所述配置信息包括采集时间;
交互处理单元502,进一步用于在采集管理项中,根据采集时间,查找是否存在满足当前时间的配置信息,如果是,则根据满足当前时间的配置信息,执行确定采集任务的步骤;否则,将兜底页面的访问地址发送给目标终端,兜底页面指示定时调用预设的接口,以使目标终端触发兜底页面的访问地址后,执行定时调用预设的接口的操作。
在本发明一个实施例中,调度单元501设置的采集管理项中包含的每一个配置信息进一步包括:访问地址、采集频率以及采集周期;
交互处理单元502,进一步用于将满足当前时间的配置信息中的访问地址包装为一个超链接标签,将超链接标签、满足当前时间的配置信息中的采集频率和采集周期组合为一个采集任务。
在本发明一个实施例中,交互处理单元502,进一步用于判断在当前时间是否接收到web服务端发送的访问页面,如果是,则将超链接标签、满足当前时间的配置信息中的采集频率和采集周期合并到访问页面,并确定合并后的访问页面为采集任务;否则,生成一个空白的任务访问页面,将超链接标签、满足当前时间的配置信息中的采集频率和采集周期合并到任务访问页面,并确定合并后的任务访问页面为采集任务。
在本发明一个实施例中,交互处理单元502,进一步用于通过预设的接口,将满足下一时间的配置信息中的访问地址发送给目标终端,并根据满足下一时间的配置信息中的采集频率和采集周期,控制目标终端,以使目标终端为满足下一时间的配置信息中的访问地址生成访问请求。
在本发明一个实施例中,调度单元501,进一步用于监控配置信息中的访问地址所对应的采集状态;将采集状态写入采集管理项。
在本发明一个实施例中,调度单元501,进一步用于监控所连接的多个终端的负载;根据监控到的多个终端的负载,为采集任务选择至少一个目标终端。
如图6所示,本发明实施例提供一种终端600,该终端600包括:交互单元601、触发单元602以及多个客户端603中,
交互单元601,用于接收采集任务;
触发单元602,用于根据交互单元601接收到的采集任务,点击采集任务所对应的客户端;
每一个客户端603,用于在接收到触发单元602的点击时,生成访问请求;
交互单元601,进一步用于发送访问请求给服务器,以使服务器获取并采集与访问请求相匹配的访问页面。
在本发明一个实施例中,交互单元601,进一步用于接收服务器发送的兜底页面的访问地址,兜底页面指示定时调用预设的接口;
触发单元602,进一步用于点击所述兜底页面的访问地址,定时调用预设的接口;通过预设的接口,接收访问地址;接收服务器的控制,点击访问地址,以使客户端为访问地址生成访问请求。
如图7所示,本发明实施例提供一种网络信息采集系统700,该网络信息采集系统700包括:上述任一服务器500、多个上述任一终端600以及web服务端701,其中,
服务器500,用于发送采集任务给终端600;
每一个终端600,用于在接收到采集任务后,生成访问请求,并将该访问请求发送给服务器500;
服务器500,进一步用于将访问请求发送给web服务端701,并接收web服务端701发送的访问页面,采集访问页面上的信息;
web服务端701,用于确定与访问请求相匹配的访问页面,并发送访问页面。
为了能够清楚地说明网络信息采集方法,下面以图8所示的服务器、终端以及web服务端之间的交互过程为例,进行详细的说明。
S801:服务器管理访问地址;
该访问地址为客户端的内置浏览器可打开的URL访问地址,该URL访问地址可通过人为方式录入服务器,也可通过服务器的接口直接获取用户发送的一批URL访问地址;
S802:服务器查找满足当前时间的配置信息,如果查找到满足当前时间的配置信息,执行S803;未查找到满足当前时间的配置信息,执行808;
S803:服务器将满足当前时间的配置信息中的访问地址包装为一个超链接标签;如果在当前时间未接收到访问页面,则执行步骤S804;如果在当前时间接收到web服务端发送的访问页面,则执行步骤S805;
S804:生成一个空白的任务访问页面,将超链接标签合并到所述任务访问页面,并确定合并后的任务访问页面为采集任务,并执行S806;
S805:将超链接标签合并到访问页面,并确定合并后的访问页面为采集任务;
S806:服务器将采集任务发送给终端;
S807:终端点击采集任务中的超链接标签,生成访问请求,并执行S813;
该步骤中生成访问请求具体为终端中的客户端生成的。
S808:服务器未查找到满足当前时间的配置信息,将兜底页面的访问地址发送给终端,兜底页面指示定时调用预设的接口;
S809:终端点击兜底页面的访问地址,执行定时调用预设的接口的操作;
S810:服务器将访问地址通过调用接口发送给目标终端600,并控制终端;
S811:终端为访问地址生成访问请求;
可以理解地,上述步骤S803至S807为服务器向终端发送访问地址并得到访问请求的一种方式,步骤S808至步骤S812为服务器向终端发送访问地址并得到访问请求的另一种方式。在步骤S803至S807执行过程中,步骤S808至步骤S811可同步执行,因此,步骤S803至S807与步骤S808至步骤S811之间执行过程没有严格的先后顺序。
S812:终端发送访问请求给服务器;
S813:服务器将访问请求发送给web服务端;
S814:web服务端确定出与访问请求相匹配的访问页面;
S815:web服务端将访问页面发送给服务器;
S816:服务器采集访问页面中的信息。
从步骤S812至S816为服务器从web服务端获取到访问页面,并采集访问页面中的信息的过程。
其中,上述步骤得到的超链接标签如:<a href=”调度中心返回的URL地址”>点击跳转</a>;将超链接标签追加到页面内容中,即在web服务端渲染完成返回的内容后将会在页面中多增加了一个可点击的超链接标签。如果当前无任何需执行的采集任务,则URL地址为一个兜底页面的URL地址,在兜底页面中会有一段JS代码定时调用接口,再次获取到有需要采集的URL地址后再动态生成可点击的超链接供目标终端进行点击。
另外,在上述步骤S801至S816执行过程中,服务器还可进一步对终端进行监控,也可对自身管理的URL访问地址进行监控和管理,其具体过程可如下:
服务器监控配置信息中的访问地址所对应的采集状态,将采集状态写入采集管理项。
服务器监控所连接的多个终端的负载;根据监控到的多个终端的负载,为采集任务选择至少一个目标终端;则上述步骤801至816所提及的目标终端实际为根据终端负载选择出的一个目标终端。
可以理解地,上述步骤S801至S816是一个循环的过程,以实现持续性的采集。
另外,上述服务器可实现URL访问地址管理、URL访问地址下发管理、终端管理以及监控告警。其中,
URL访问地址管理具体为管理URL相关信息以及状态管理。URL相关信息主要包括:URL访问地址、相关描述、采集频率、采集周期;状态主要包含:未开始、采集中、暂停、完成、取消。
URL访问地址下发管理:根据URL的采集频率、采集周期、点击客户端的负载均衡信息以及URL访问地址的状态,适时适量将URL访问地址下发给终端。如针对某URL,需要采集三天内(周期)每5分钟(频率)的数据,在此URL没有被人工暂停或删除时(状态),服务器将根据这些条件,然后判断终端的负载情况,根据负载情况将URL访问请求进行下发,如有5台空闲的终端,可将访问请求均匀分布到这5台终端。
终端管理:存储终端以及终端安装的客户端的相关信息,并与之保持心跳,另外提供对客户端进行暂停、取消自动化点击管理。
监控告警:对URL访问地址的延迟下发或堆积的告警,对终端状态告警。
图9示出了可以应用本发明实施例的网络信息采集方法或网络信息采集服务器和终端的示例性系统架构900。
如图9所示,系统架构900可以包括终端设备901、902、903,网络904和服务器905。网络904用以在终端设备901、902、903和服务器905之间提供通信链路的介质。网络904可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备901、902、903通过网络904与服务器905交互,以接收或发送消息等。终端设备901、902、903上可以安装有各种通讯客户端应用,例如购物类应用客户端、社交类应用客户端、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器905可以是提供各种服务的服务器,例如对终端设备901、902、903所点击的URL访问地址的管理提供支持的后台管理服务器(仅为示例)。后台管理服务器可以将URL访问地址合并到访问页面,以及对接收到的访问页面中的数据进行分析等处理,并将合并了URL访问地址的访问页面反馈给终端设备。
需要说明的是,本发明实施例所提供的网络信息采集方法一般由服务器905执行。
应该理解,图9中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图10,其示出了适于用来实现本发明实施例的终端设备或服务器的计算机系统1000的结构示意图。图10示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有系统1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:将满足当前时间的配置信息中的访问地址包装为一个超链接标签,将超链接标签、满足当前时间的配置信息中的采集频率和采集周期组合为一个采集任务。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:判断在当前时间是否接收到访问页面,如果是,则将超链接标签、满足当前时间的配置信息中的采集频率和采集周期合并到访问页面,并确定合并后的访问页面为所述采集任务;否则,生成一个空白的任务访问页面,将超链接标签、满足当前时间的配置信息中的采集频率和采集周期合并到任务访问页面,并确定合并后的任务访问页面为采集任务。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:通过预设的接口,将满足下一时间的配置信息中的访问地址发送给所述目标终端,并根据满足下一时间的配置信息中的采集频率和采集周期,控制目标终端,以使目标终端为满足下一时间的配置信息中的访问地址生成访问请求。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:接收采集任务;根据采集任务,触发采集任务所对应的客户端,以使客户端生成访问请求,其中,客户端安装于目标终端;发送访问请求给服务器,以使服务器获取并采集与访问请求相匹配的访问页面。
根据本发明实施例的技术方案,通过确定采集任务,发送采集任务给目标终端,以使目标终端通过客户端为采集任务生成访问请求,并通过该访问请求,接收web服务端发送与访问请求相匹配的访问页面,由于该访问请求是由客户端产生的,则web服务端在接收到该访问请求后,提供与该访问请求相匹配的访问页面,该访问页面会包含能够发布于客户端内置浏览器上的所有信息,因此,本发明实施例提供的方案能够完整的采集发布于客户端内置浏览器上的信息。
根据本发明实施例的技术方案,通过设置采集管理项,并将多个配置信息录入采集管理项,其中,每一个配置信息包括采集时间;在采集管理项中,根据采集时间,查找是否存在满足当前时间的配置信息,如果是,则根据满足当前时间的配置信息,执行确定采集任务的步骤,实现了对访问地址的管理。
根据本发明实施例的技术方案,可通过访问页面如访问页面或任务访问页面将访问地址发送给目标终端,也可以通过调用接口直接将访问地址发送给目标终端,实现了灵活向目标终端发送访问地址。
根据本发明实施例的技术方案,通过监控配置信息中的访问地址所对应的采集状态;将采集状态写入采集管理项,实现了对采集状态的管理。
根据本发明实施例的技术方案,监控所连接的多个目标终端的负载,根据监控到的多个目标终端的负载,为采集任务选择至少一个目标目标终端;将采集任务分发给至少一个目标目标终端,避免目标终端过载,从而保证网络信息采集的效率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (14)
1.一种网络信息采集方法,其特征在于,应用于服务器,包括:
确定采集任务;
发送所述采集任务给目标终端,以使所述目标终端通过客户端为所述采集任务生成访问请求;
接收所述目标终端发送的所述访问请求,并将所述访问请求发送给web服务端,以触发所述web服务端发送与所述访问请求相匹配的访问页面;
接收所述访问页面,并采集所述访问页面中的信息。
2.根据权利要求1所述的网络信息采集方法,其特征在于,
进一步包括:
设置采集管理项,并将多个配置信息录入所述采集管理项,其中,每一个所述配置信息包括采集时间;
在所述采集管理项中,根据所述采集时间,查找是否存在满足当前时间的配置信息,
如果是,则根据所述满足当前时间的配置信息,执行所述确定采集任务的步骤;
否则,将兜底页面的访问地址发送给目标终端,所述兜底页面指示定时调用预设的接口,以使所述目标终端点击所述兜底页面的访问地址后,执行定时调用预设的接口的操作。
3.根据权利要求2所述的网络信息采集方法,其特征在于,
每一个所述配置信息进一步包括:访问地址、采集频率以及采集周期;
所述根据所述满足当前时间的配置信息,执行所述确定采集任务的步骤,包括:
将所述满足当前时间的配置信息中的访问地址包装为一个超链接标签,将所述超链接标签、所述满足当前时间的配置信息中的采集频率和采集周期组合为一个采集任务。
4.根据权利要求3所述的网络信息采集方法,其特征在于,所述将所述超链接标签以及所述满足当前时间的配置信息中的采集频率组合为一个采集任务,包括:
判断在当前时间是否接收到所述web服务端发送的访问页面,
如果是,则将所述超链接标签、所述满足当前时间的配置信息中的采集频率和采集周期合并到所述访问页面,并确定合并后的访问页面为所述采集任务;
否则,生成一个空白的任务访问页面,将所述超链接标签、所述满足当前时间的配置信息中的采集频率和采集周期合并到所述任务访问页面,并确定合并后的任务访问页面为所述采集任务。
5.根据权利要求2所述的网络信息采集方法,其特征在于,在所述将兜底页面的访问地址发送给目标终端之后,进一步包括:
通过所述预设的接口,将所述配置信息中的访问地址发送给所述目标终端,并根据所述配置信息中的采集频率和采集周期,控制所述目标终端,以使所述目标终端为所述配置信息中的访问地址生成访问请求。
6.根据权利要求3至5任一所述的网络信息采集方法,其特征在于,进一步包括:
监控所述配置信息中的访问地址所对应的采集状态;
将所述采集状态写入所述采集管理项。
7.根据权利要求1所述的网络信息采集方法,其特征在于,
在所述发送所述采集任务给目标终端之前,进一步包括:
监控所连接的多个终端的负载;
根据监控到的所述多个目标终端的负载,为所述采集任务选择至少一个目标终端。
8.一种网络信息采集方法,其特征在于,应用于终端,包括:
接收采集任务;
根据所述采集任务,点击所述采集任务所对应的客户端,以使所述客户端生成访问请求,其中,所述客户端安装于所述终端;
发送所述访问请求给服务器,以使所述服务器获取并采集与所述访问请求相匹配的访问页面。
9.根据权利要求8所述的网络信息采集方法,其特征在于,进一步包括:
接收所述服务器发送的兜底页面的访问地址,所述兜底页面指示定时调用预设的接口;
触发所述兜底页面的访问地址,定时调用预设的接口;
通过所述预设的接口,接收访问地址;
接收所述服务器的控制,点击所述访问地址,以使所述客户端为所述访问地址生成访问请求。
10.一种服务器,其特征在于,包括:调度单元、交互处理单元以及信息采集单元,其中,
所述调度单元,用于确定采集任务;
所述交互处理单元,用于发送所述采集任务给目标终端,以使所述目标终端为所述采集任务生成访问请求;接收所述目标终端发送的所述访问请求,并将所述访问请求发送给web服务端,以触发所述web服务端发送与所述访问请求相匹配的访问页面;接收所述访问页面;
所述信息采集单元,用于采集所述访问页面中的信息。
11.一种终端,其特征在于,包括:交互单元、触发单元以及多个客户端,其中,
所述交互单元,用于接收采集任务;
所述触发单元,用于根据所述采集任务,点击所述采集任务所对应的客户端;
每一个所述客户端,用于在接收到所述触发单元的点击时,生成访问请求;
所述交互单元,进一步用于发送所述访问请求给服务器,以使所述服务器获取并采集与所述访问请求相匹配的访问页面。
12.一种网络信息采集系统,其特征在于,包括:权利要求10所述的服务器、权利要求11所述的终端以及web服务端,其中,
所述服务器,用于发送采集任务给所述终端;
每一个所述终端,用于在接收到所述采集任务后,生成访问请求,并将该访问请求发送给所述服务器;
所述服务器,进一步用于将所述访问请求发送给所述web服务端,并接收所述web服务端发送的访问页面,采集所述访问页面上的信息;
所述web服务端,用于确定与所述访问请求相匹配的访问页面,并发送所述访问页面。
13.一种网络信息采集电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911305040.6A CN112994968B (zh) | 2019-12-17 | 2019-12-17 | 一种网络信息采集方法、服务器、终端和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911305040.6A CN112994968B (zh) | 2019-12-17 | 2019-12-17 | 一种网络信息采集方法、服务器、终端和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112994968A true CN112994968A (zh) | 2021-06-18 |
CN112994968B CN112994968B (zh) | 2023-05-02 |
Family
ID=76343702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911305040.6A Active CN112994968B (zh) | 2019-12-17 | 2019-12-17 | 一种网络信息采集方法、服务器、终端和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112994968B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101355565A (zh) * | 2008-09-12 | 2009-01-28 | 腾讯科技(深圳)有限公司 | 为不同类型浏览器提供页面服务的方法及服务器 |
CN102065572A (zh) * | 2009-11-17 | 2011-05-18 | 中国移动通信集团广东有限公司 | 移动浏览器、网关、浏览系统及互联网页面访问方法 |
CN103186670A (zh) * | 2013-03-27 | 2013-07-03 | 中金数据系统有限公司 | 一种完整采集网页信息的方法和系统 |
WO2013167041A2 (zh) * | 2013-01-09 | 2013-11-14 | 中兴通讯股份有限公司 | 一种实现无线终端浏览网页功能的方法、系统和主机 |
CN105141632A (zh) * | 2015-09-21 | 2015-12-09 | 北京百度网讯科技有限公司 | 用于查看页面的方法和装置 |
CN106599239A (zh) * | 2011-06-30 | 2017-04-26 | 广州市动景计算机科技有限公司 | 网页内容数据获取方法及服务器 |
CN107729475A (zh) * | 2017-10-16 | 2018-02-23 | 深圳视界信息技术有限公司 | 网页元素采集方法、装置、终端与计算机可读存储介质 |
CN108874810A (zh) * | 2017-05-10 | 2018-11-23 | 北京京东尚科信息技术有限公司 | 信息采集的方法和装置 |
CN110417873A (zh) * | 2019-07-08 | 2019-11-05 | 上海鸿翼软件技术股份有限公司 | 一种实现记录网页交互操作的网络信息提取系统 |
-
2019
- 2019-12-17 CN CN201911305040.6A patent/CN112994968B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101355565A (zh) * | 2008-09-12 | 2009-01-28 | 腾讯科技(深圳)有限公司 | 为不同类型浏览器提供页面服务的方法及服务器 |
CN102065572A (zh) * | 2009-11-17 | 2011-05-18 | 中国移动通信集团广东有限公司 | 移动浏览器、网关、浏览系统及互联网页面访问方法 |
CN106599239A (zh) * | 2011-06-30 | 2017-04-26 | 广州市动景计算机科技有限公司 | 网页内容数据获取方法及服务器 |
WO2013167041A2 (zh) * | 2013-01-09 | 2013-11-14 | 中兴通讯股份有限公司 | 一种实现无线终端浏览网页功能的方法、系统和主机 |
CN103186670A (zh) * | 2013-03-27 | 2013-07-03 | 中金数据系统有限公司 | 一种完整采集网页信息的方法和系统 |
CN105141632A (zh) * | 2015-09-21 | 2015-12-09 | 北京百度网讯科技有限公司 | 用于查看页面的方法和装置 |
CN108874810A (zh) * | 2017-05-10 | 2018-11-23 | 北京京东尚科信息技术有限公司 | 信息采集的方法和装置 |
CN107729475A (zh) * | 2017-10-16 | 2018-02-23 | 深圳视界信息技术有限公司 | 网页元素采集方法、装置、终端与计算机可读存储介质 |
CN110417873A (zh) * | 2019-07-08 | 2019-11-05 | 上海鸿翼软件技术股份有限公司 | 一种实现记录网页交互操作的网络信息提取系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112994968B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10523580B2 (en) | Automatic cloud provisioning based on related internet news and social network trends | |
CN111190888A (zh) | 一种管理图数据库集群的方法和装置 | |
CN111158799A (zh) | 一种页面渲染方法、装置、电子设备及存储介质 | |
CN112118352B (zh) | 通知触发消息的处理方法、装置、电子设备以及计算机可读介质 | |
CN110619100B (zh) | 用于获取数据的方法和装置 | |
CN109213824B (zh) | 数据抓取系统、方法和装置 | |
CN108933823B (zh) | 用户触达方法和装置 | |
CN111782988A (zh) | 确定应用程序来源的方法、装置、计算机系统和存储介质 | |
CN113900834A (zh) | 基于物联网技术的数据处理方法、装置、设备及存储介质 | |
CN111190673A (zh) | 基于操作监测的页面展示方法、装置和电子设备 | |
CN113127057A (zh) | 多任务并行执行的方法和装置 | |
US20160321173A1 (en) | Automatic garbage collection thrashing monitoring | |
CN110807058B (zh) | 一种导出数据的方法和系统 | |
CN109446451B (zh) | 网页展示的方法、装置、介质和计算设备 | |
CN113378346A (zh) | 模型仿真的方法和装置 | |
CN112994968B (zh) | 一种网络信息采集方法、服务器、终端和系统 | |
CN112688982B (zh) | 一种用户请求处理方法和装置 | |
CN111767486B (zh) | 用于展示页面的方法、装置、电子设备和计算机可读介质 | |
CN112799863B (zh) | 用于输出信息的方法和装置 | |
CN110221746B (zh) | 信息交互方法、装置、介质和计算设备 | |
CN112925623A (zh) | 任务处理方法、装置、电子设备和介质 | |
CN113572704A (zh) | 一种信息处理方法、生产端、消费端和服务器 | |
CN113760315A (zh) | 测试系统的方法和装置 | |
CN112822225A (zh) | 一种跟踪内容的投放效果的方法和装置 | |
CN113452738A (zh) | 页面加载方法和客户端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |