CN102375837A - 数据采集系统和方法 - Google Patents

数据采集系统和方法 Download PDF

Info

Publication number
CN102375837A
CN102375837A CN2010102573832A CN201010257383A CN102375837A CN 102375837 A CN102375837 A CN 102375837A CN 2010102573832 A CN2010102573832 A CN 2010102573832A CN 201010257383 A CN201010257383 A CN 201010257383A CN 102375837 A CN102375837 A CN 102375837A
Authority
CN
China
Prior art keywords
acquisition
server
servers
collected
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102573832A
Other languages
English (en)
Other versions
CN102375837B (zh
Inventor
胡珉
罗治国
孙少陵
黄晓庆
张新访
廖卫国
李成华
任猛
余晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201010257383.2A priority Critical patent/CN102375837B/zh
Publication of CN102375837A publication Critical patent/CN102375837A/zh
Application granted granted Critical
Publication of CN102375837B publication Critical patent/CN102375837B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了数据采集系统和方法。数据采集系统可包括多个调度服务器和多个采集服务器。调度服务器可包括生成单元,生成采集任务;发送单元,将采集任务发送给多个采集服务器中当前处于待接收状态的采集服务器。采集服务器可包括拆分单元,将接收到的采集任务拆分为多个子任务;子任务发送单元,将多个子任务发送给多个调度服务器中当前处于待接收状态的调度服务器。调度服务器接收到的子任务可由调度服务器的发送单元发送给多个采集服务器中当前处于待接收状态的采集服务器。采集服务器可进一步包括执行单元,根据所接收的子任务,执行数据采集。通过本发明,可提高数据采集的效率,并能够利用分布式并行处理能力,实现针对海量数据的数据采集。

Description

数据采集系统和方法
技术领域
本申请涉及数据采集系统和方法。
背景技术
随着计算机硬件和互联网的飞速发展,个人和企业产生的数据一直持续增长。例如FTP文档服务器、数据库服务器等的数据存储服务器所存储的数据量越来越庞大。数据采集是指从数据存储服务器获取数据,例如,从FTP文档服务器中获取文档或者从数据库服务器中获取数据,并将所获取的数据存放至预定位置以便建立索引提供给用户进行搜索。
针对FTP文档服务器,可将FTP文档服务器中存储的每个文档的FTP完整地址看成一个网页地址,通过网页解析索引的系统进行数据采集。而对于数据库服务器,可预先将需要采集的表格详细信息和查询语句写入一配置文件中,而后根据制定好的配置文件进行定点采集。
通过网页的数据采集需要通过分析已采集的网页来收集下一步待采集的网址。但是,FTP文档服务器中的所有文档的地址是可以事先通过FTP列表命令获取得到的,而通过网页的数据采集,没有利用到这一特点。因此当需要采集海量文档时,采集的效率非常低;即便可利用分布式的网页采集系统,但也不能充分发挥分布式采集的能力。而在针对每个表格编写不同配置文件的数据库服务器的数据采集方案中,需要事先对所有待采集的数据库表格分别写好配置文件,人工工作量较大,自动化程度不高,从而导致采集效率较低;此外使用配置文件的方法,只能做到单机的数据采集,难以利用分布式并行采集。
发明内容
本申请的目的是提供一种至少能够部分改善上述现有技术中的缺陷的数据采集系统和方法。
根据本申请的第一方面,提供了一种数据采集系统,包括:多个调度服务器和多个采集服务器,其中,调度服务器包括:生成单元,生成采集任务;以及发送单元,将所述采集任务发送给所述多个采集服务器中当前处于待接收状态的一个采集服务器,采集服务器包括:拆分单元,将接收到的采集任务拆分为多个子任务;以及子任务发送单元,将所述多个子任务发送给所述多个调度服务器中当前处于待接收状态的一个或多个调度服务器,其中,所述调度服务器的发送单元进一步将所述调度服务器接收到的子任务发送给所述多个采集服务器中当前处于待接收状态的采集服务器,采集服务器进一步包括:执行单元,根据所接收的子任务,执行数据采集。
根据本申请的另一方面,提供了一种数据采集方法,包括:多个调度服务器的其中之一生成采集任务,将所述采集任务发送给多个采集服务器;所述多个采集服务器中当前处于待接收状态的一个采集服务器接收所述采集任务,将所述采集任务拆分为多个子任务,并将所述多个子任务发送给所述多个调度服务器;所述多个调度服务器中当前处于待接收状态的一个或多个调度服务器接收所述多个子任务,并将所述多个子任务发送给所述多个采集服务器;以及多个采集服务器中当前处于待接收状态的一个或多个采集服务器接收所述多个子任务,并根据所接收的每个子任务,执行数据采集。
通过本申请的数据采集系统和方法,可提高数据采集的效率,并能够利用分布式并行处理能力,实现针对海量数据的数据采集。
附图说明
图1是根据本申请一个实施方案的数据采集系统的框图;
图2是示出根据本申请实施方案的数据采集系统中采集服务器的拆分单元结构的框图;
图3是根据本申请一个实施方案的数据采集方法的流程图;以及
图4是根据本申请另一实施方案的数据采集方法的流程图。
具体实施方式
下面参照附图,对本申请的实施方案进行详细说明。
如图1所示,根据本申请一个实施方案的数据采集系统11可包括多个调度服务器110和多个采集服务器120,以对数据存储服务器130中存储的数据执行数据采集任务。虽然在图1的系统中显示了两个调度服务器110和四个采集服务器120,但是可以理解,调度服务器和采集服务器的数量可不限于两个和四个,也可以是其他数目。
每个调度服务器110可包括生成单元112和发送单元114(图1中为了简要,仅示出了其中一个调度服务器110包括生成单元112和发送单元114),生成单元112可根据用户提供的待采集数据存储服务器130的信息,生成采集任务。以待采集的数据存储服务器130是FTP文档服务器或数据库服务器为例,采集任务可以包括例如FTP文档服务器或数据库服务器的地址、用户名、密码等的信息。在生成了采集任务后,可通过发送单元114将所生成的采集任务发送给多个采集服务器120中当前处于待接收状态的一个采集服务器。在本申请中,某个采集服务器或调度服务器处于待接收状态指的是,该采集服务器或调度服务器处于空闲(Idle)状态,或者该采集服务器或调度服务器虽然处于非空闲状态,但是其系统资源还未被完全利用,即其处理能力还未饱和,能够进一步接收数据和进行数据处理。
多个采集服务器120中的每一个可包括拆分单元122和子任务发送单元124(图1中为了简要,仅示出了其中一个采集服务器120包括拆分单元122和子任务发送单元124),拆分单元122用于将接收自调度服务器110的采集任务进行拆分,以形成多个子任务。
在拆分形成多个子任务之后,采集服务器120并不直接执行各个子任务所对应的采集任务,而是通过子任务发送单元124将所形成的多个子任务发送给多个调度服务器110中当前处于待接收状态的一个或多个调度服务器,由调度服务器110针对多个子任务进行调度操作。具体而言,接收到子任务的调度服务器110可将所接收的子任务通过发送单元114发送,以使得多个采集服务器中当前处于待接收状态的一个或多个采集服务器能够接收子任务。
各个采集服务器120可进一步包括用以根据所接收的子任务执行具体的数据采集任务的执行单元126(类似地,图1中为了简要,仅示出了其中一个采集服务器120包括执行单元126)。执行单元126可将采集获得的数据存放至HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)中,以供后续使用,例如,建立索引提供给用户进行搜索。
在参照图1描述的数据采集系统中,一方面,多个采集服务器中处于待接收状态的采集服务器能够执行拆分采集任务的操作或者根据子任务执行数据采集操作;另一方面,可由处于待接收状态的调度服务器接收子任务并进行调度操作。因此,根据本申请该实施方案的数据采集系统可充分利用分布式并行处理的多个调度服务器和多个采集服务器各自的处理能力,提高数据采集的效率,实现针对海量数据的数据采集。
可以理解,在调度服务器110的发送单元114发送采集任务或子任务过程中,为了使多个采集服务器中处于待接收状态的采集服务器能够接收该采集任务或子任务,调度服务器110的发送单元114可依次向各个采集服务器发送采集任务或子任务,根据某个特定采集服务器返回的确认消息,确定是否继续将采集任务或子任务发送给其他采集服务器。例如,若某个采集服务器处于无法接收采集任务或子任务的满负荷状态,则返回无法接收的消息,这时,调度服务器110的发送单元114继续向下一个采集服务器发送采集任务或子任务。若某个采集服务器处于能够接收采集任务或子任务的待接收状态,则该采集服务器在接收采集任务或子任务之后,返回确认接收的消息,并进行相应处理。这时,调度服务器110的发送单元114不再继续向采集服务器发送采集任务或子任务。
以上描述的采集任务或子任务发送过程仅是一个示例,本领域技术人员也可采用其他方式进行发送。例如,可由调度服务器110的发送单元114同时向所有采集服务器发送采集任务或子任务,各采集服务器在接收采集任务或子任务之后均返回确认消息,调度服务器110再根据所收到的确认消息选择一个采集服务器执行后续处理。
可以理解,在采集服务器的子任务发送单元发送子任务的过程中,为了使多个调度服务器中处于待接收状态的调度服务器能够接收该子任务,也可采用上述方式。
根据本申请的一个具体实施方案,可通过消息队列在多个调度服务器和多个采集服务器之间进行数据传递。首先,简单介绍计算机领域中的“消息”和“消息队列”的概念。
“消息”是在两台计算机间传送的数据单位。消息可以非常简单,例如只包含文本字符串;也可以较为复杂,可包含嵌入对象。
“消息队列”是在消息的传输过程中保存消息的容器。消息队列管理器在将消息从它的源中继到它的目标时充当中间人。队列的主要目的是提供路由并保证消息的传递;如果发送消息时接收者不可用,消息队列会保留消息,直到可以成功地传递它。利用消息队列,可以将任务数据分发到其他机器上,达到多机分布式的执行功能。
多个调度服务器110和多个采集服务器120之间可通过消息队列进行数据的传递。多个调度服务器110可通过第一消息队列向多个采集服务器120发送消息,而多个采集服务器120可通过第二消息队列向多个调度服务器110发送消息。当多个调度服务器110通过第一消息队列发送消息时,若某个采集服务器处于可以接收消息的待接收状态时,则可发出查询消息,以接收第一消息队列中排位第一的消息(即,最先进入该消息队列的消息)。在成功接收了第一消息队列中的消息之后,采集服务器120可向调度服务器发出确认消息,这时,第一消息队列中已被成功接收的消息可从该消息队列中移除,而之前排位第二的消息可成为该消息队列中排位第一的消息。类似地,多个采集服务器120通过第二消息队列发送消息时,也可由多个调度服务器中当前处于待接收状态的一个或多个调度服务器接收第二消息队列中的各个消息。可以理解,第一消息队列和第二消息队列可由调度服务器来维护。
在通过消息队列传递数据的具体实施方案中,调度服务器110的生成单元可对用户提供的待采集数据存储服务器130的信息进行封装,从而生成采集任务消息。采集任务消息可由发送单元114通过第一消息队列发送给多个采集服务器,从而处于待接收状态的采集服务器可接收该采集任务消息。
采集服务器120的拆分单元122在将采集任务消息拆分而形成多个子任务消息之后,经由子任务发送单元124通过第二消息队列将子任务消息发送给多个调度服务器110,而接收到子任务消息的调度服务器可将所接收的子任务消息经由该调度服务器的发送单元114,通过第二消息队列发送给多个采集服务器120,以使得多个采集服务器120中当前处于待接收状态的一个或多个采集服务器能够接收子任务消息。
接下来参照图2,详细描述采集服务器120的拆分单元122的结构和功能。
如上所述,采集任务是调度服务器110的生成单元112根据用户提供的待采集数据存储服务器130的信息而生成的,而待采集数据存储服务器的信息通常是对该数据存储服务器进行访问所必需的信息,例如,数据存储服务器地址、用户名、密码等。采集服务器120的拆分单元122可将接收到的采集任务拆分为多个子任务。
如图2所示,拆分单元122可包括:解析模块122a,获取模块122b和处理模块122c。其中,解析模块122a可对采集任务进行解析,获取其中的待采集数据存储服务器的信息。同样以待采集的数据存储服务器130是FTP文档服务器或数据库服务器为例,解析模块122a可获取例如FTP文档服务器或数据库服务器的地址、用户名、密码等的访问FTP文档服务器或数据库服务器所必需的信息。
接下来,获取模块122b可根据解析模块122a得到的数据存储服务器的信息,对该数据存储服务器进行访问,并获取待采集数据的相关信息。下面分别以FTP文档服务器和数据库服务器为例来说明待采集数据相关信息的获取过程。
对于FTP文档服务器,获取模块122b可通过调用FTP的LIST列表命令,获得当前目录下所有文件和子目录的相关信息,包括修改时间,大小,名字等等。通过递归循环调用LIST命令,获取模块122b可获得该FTP文档服务器所有的文件列表及其信息。对于数据库服务器,获取模块122b可通过JDBC的调用,获得数据库的元数据信息,例如表格名等。针对不同类型的数据库,获取模块122b可分别调用不同的SQL查询语句,通过查询系统表获得当前连接用户的用户表格信息、各个表格的字段等信息。
在获得待采集数据相关信息后,处理模块122c可根据拆分规则,将采集任务拆分为多个子任务。可以理解,由采集任务拆分获得的多个子任务中的每一个可以与适于由一个采集服务器执行的数据采集操作相对应。例如,可以将拆分规则设置为,使得将采集任务拆分形成的每个子任务对应于对预定大小的数据进行采集,换言之,每一个子任务所对应的待采集数据量为预定大小。下面仍以FTP文档服务器和数据库服务器为例进行说明。
对于FTP文档服务器,拆分规则可设置为使得子任务所对应的待采集文件为预定大小,例如50MB。当然,该大小也可根据具体情况进行调整。具体而言,处理模块122c可根据文件列表从第一个文件开始循环,对各个文件的大小进行累加计算,当累加结果超过拆分规则所限制的大小时,即生成一份采集子任务,然后继续对剩余文件进行累加计算,到达拆分规则限制时就再生成子任务,该过程不断重复直到处理完列表中的所有文件为止。
对于数据库服务器,拆分规则可以是使得子任务所对应的待采集数据量为预定大小,类似地,该大小可根据具体情况进行调整,作为一个具体示例,可设置为100MB。处理模块122c可首先获得数据表各字段类型和最大存储容量,然后选出需要采集的字段类型(比如CHAR,VARCHAR等文本字段类型),从而获得一行记录中需要采集字段能存放的字节数A。之后,处理模块122c可将预定大小(例如100MB)除以该字节数A,从而得到每次采集的记录条数。由于之前处理模块122c已经可获得一个数据表格的总记录条数,此时便根据每个子采集任务的记录条数对数据表进行拆分,分为若干个子采集任务,直到拆分完所有记录条数为止。
以上描述具体示例是将拆分规则设置为使得子任务所对应的待采集数据量为预定大小,但是可以理解,拆分规则可不限于此。例如,在分布式数据存储环境下,具有一个逻辑地址的数据存储服务器可对应于多个物理地址的实际存储服务器。这种情况下,处理模块122c也可以按照物理地址来对采集任务进行拆分,以使得每个采集服务器仅对同一物理地址的存储服务器执行数据采集操作。
下面参照图3,详细描述根据本申请一个实施方案的数据采集方法。
如图3所示,在步骤S302,多个调度服务器的其中之一生成采集任务,并将所生成的采集任务发送给多个采集服务器。类似地,所生成的采集任务可以包括例如FTP文档服务器或数据库服务器的地址、用户名、密码等的信息。在步骤S304,多个采集服务器中当前处于待接收状态的一个采集服务器可接收采集任务,将接收到的采集任务拆分为多个子任务,并将拆分形成的多个子任务发送回多个调度服务器进行调度。之后,在步骤S306,多个调度服务器中当前处于待接收状态的一个或多个调度服务器可接收多个子任务,然后将所接收的子任务发送给所述多个采集服务器。然后,在步骤S308,多个采集服务器中当前处于待接收状态的一个或多个采集服务器可接收子任务,并根据所接收的每个子任务,执行具体的数据采集操作。
可采用之前对图1的数据采集系统中详细描述的方式,在调度服务器发送采集任务或子任务时,实现多个采集服务器中处于待接收状态的采集服务器能够接收该采集任务或子任务,以及在采集服务器的发送子任务时,实现多个调度服务器中处于待接收状态的调度服务器能够接收该子任务,此处不再赘述。
根据一个具体实施方案,多个调度服务器与多个采集服务器之间可通过消息队列的方式进行数据传递。调度服务器可通过第一消息队列向多个采集服务器发送采集任务和子任务,而采集服务器可通过第二消息队列向多个调度服务器发送子任务。通过消息队列发送采集任务和子任务的过程已在上文详细描述,此处不再赘述。
图4描述了根据本申请一个具体实施方案的数据采集方法,其中,图4所示的步骤S402与图3所示的步骤S302类似,由多个调度服务器的其中之一生成采集任务,并将所生成的采集任务发送给多个采集服务器。之后,在步骤S404,多个采集服务器中当前处于待接收状态的一个采集服务器可接收采集任务,解析该采集任务以得到待采集数据存储服务器的信息。然后,采集服务器可在步骤S406,根据所得到的待采集数据存储服务器的信息,访问待采集数据存储服务器,以获取待采集数据相关信息,随后在步骤S408,根据获取的待采集数据相关信息,将采集任务拆分为多个子任务,并将多个子任务发送给多个调度服务器。在数据存储服务器是FTP文档服务器或数据库服务器时待采集数据相关信息的获取过程已在上文详细描述,这里为了简要不再描述。
如图4所示的步骤S410和S412与图3所示的步骤S306和S308类似,即,所述多个调度服务器中当前处于待接收状态的一个或多个调度服务器接收多个子任务,并将子任务发送给多个采集服务器,由多个采集服务器中当前处于待接收状态的一个或多个采集服务器接收子任务,并根据所接收的每个子任务,执行数据采集。
可以理解,在图3所示的步骤S304和图4所示的步骤S408中,由采集任务拆分形成的多个子任务中的每一个对应于对具有预定大小的数据量的待采集数据进行采集。具体而言,若待采集数据存储服务器是FTP文档服务器,则待采集数据相关信息可包括该FTP文档服务器中的文件列表和各文件的大小;若待采集数据存储服务器是数据库服务器,则待采集数据相关信息可包括该数据库服务器中数据表各字段类型和最大存储容量。同样,针对FTP文档服务器和数据库服务器的详细拆分过程已在上文详细描述,此处不再赘述。
以上参照附图对本申请的示例性的实施方案进行了描述。本领域技术人员应该理解,上述实施方案仅仅是为了说明的目的而所举的示例,而不是用来进行限制。凡在本申请的教导和权利要求保护范围下所作的任何修改、等同替换等,均应包含在本申请要求保护的范围内。

Claims (12)

1.一种数据采集系统,包括:多个调度服务器和多个采集服务器,其中,
调度服务器包括:生成单元,生成采集任务;以及发送单元,将所述采集任务发送给所述多个采集服务器中当前处于待接收状态的一个采集服务器,
采集服务器包括:拆分单元,将接收到的采集任务拆分为多个子任务;以及子任务发送单元,将所述多个子任务发送给所述多个调度服务器中当前处于待接收状态的一个或多个调度服务器,
其中,所述调度服务器的发送单元进一步将所述调度服务器接收到的子任务发送给所述多个采集服务器中当前处于待接收状态的采集服务器,
采集服务器进一步包括:执行单元,根据所接收的子任务,执行数据采集。
2.如权利要求1所述的系统,其中,所述调度服务器的发送单元通过第一消息队列向所述多个采集服务器发送采集任务和子任务,所述采集服务器的子任务发送单元通过第二消息队列向所述多个调度服务器发送子任务。
3.如权利要求1所述的系统,其中,所述拆分单元包括:
解析模块,解析接收到的采集任务以得到待采集数据存储服务器的信息;
获取模块,根据所述待采集数据存储服务器的信息,访问所述待采集数据存储服务器,以获取待采集数据相关信息;以及
处理模块,根据所述待采集数据相关信息,将所述接收到的采集任务拆分为多个子任务。
4.如权利要求3所述的系统,其中,所述接收到的采集任务被所述处理模块拆分而形成的多个子任务中的每一个所对应的待采集数据量为预定大小。
5.如权利要求4所述的系统,其中,所述待采集数据存储服务器是FTP文档服务器,所述待采集数据相关信息包括所述FTP文档服务器的文件列表和各文件的大小。
6.如权利要求4所述的系统,其中,所述待采集数据存储服务器是数据库服务器,所述待采集数据相关信息包括所述数据库服务器中数据表各字段类型和最大存储容量。
7.一种数据采集方法,包括:
多个调度服务器的其中之一生成采集任务,将所述采集任务发送给多个采集服务器;
所述多个采集服务器中当前处于待接收状态的一个采集服务器接收所述采集任务,将所述采集任务拆分为多个子任务,并将所述多个子任务发送给所述多个调度服务器;
所述多个调度服务器中当前处于待接收状态的一个或多个调度服务器接收所述多个子任务,并将所述多个子任务发送给所述多个采集服务器;以及
多个采集服务器中当前处于待接收状态的一个或多个采集服务器接收所述多个子任务,并根据所接收的每个子任务,执行数据采集。
8.如权利要求7所述的方法,其中,所述调度服务器通过第一消息队列向所述多个采集服务器发送采集任务和子任务,所述采集服务器通过第二消息队列向所述多个调度服务器发送子任务。
9.如权利要求6所述的方法,采集服务器将采集任务拆分为多个子任务的步骤包括:
解析所述采集任务以得到待采集数据存储服务器的信息;
根据所述待采集数据存储服务器的信息,访问所述待采集数据存储服务器,以获取待采集数据相关信息;以及
根据所述待采集数据相关信息,将所述采集任务拆分为多个子任务。
10.如权利要求9所述的方法,其中,由所述采集任务拆分形成的多个子任务中的每一个所对应的待采集数据量为预定大小。
11.如权利要求10所述的方法,其中,所述待采集数据存储服务器是FTP文档服务器,所述待采集数据相关信息包括所述FTP文档服务器中的文件列表和各文件的大小。
12.如权利要求10所述的方法,其中,所述待采集数据存储服务器是数据库服务器,所述待采集数据相关信息包括所述数据库服务器中数据表各字段类型和最大存储容量。
CN201010257383.2A 2010-08-19 2010-08-19 数据采集系统和方法 Expired - Fee Related CN102375837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010257383.2A CN102375837B (zh) 2010-08-19 2010-08-19 数据采集系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010257383.2A CN102375837B (zh) 2010-08-19 2010-08-19 数据采集系统和方法

Publications (2)

Publication Number Publication Date
CN102375837A true CN102375837A (zh) 2012-03-14
CN102375837B CN102375837B (zh) 2014-12-31

Family

ID=45794460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010257383.2A Expired - Fee Related CN102375837B (zh) 2010-08-19 2010-08-19 数据采集系统和方法

Country Status (1)

Country Link
CN (1) CN102375837B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103384206A (zh) * 2012-05-02 2013-11-06 中国科学院计算机网络信息中心 一种面向海量数据的并行处理方法及系统
CN103384205A (zh) * 2012-05-02 2013-11-06 中国科学院计算机网络信息中心 一种海量告警数据并行采集系统、装置及方法
CN103514205A (zh) * 2012-06-27 2014-01-15 中国电信股份有限公司 海量数据处理方法和系统
CN105608220A (zh) * 2016-01-08 2016-05-25 浪潮软件集团有限公司 一种基于分布式消息系统的采集方法及装置
CN105631006A (zh) * 2015-12-28 2016-06-01 杭州东方通信软件技术有限公司 一种数据调度采集装置与方法
CN105787010A (zh) * 2016-02-23 2016-07-20 北京凯行同创科技有限公司 基于个人数据的采集处理及推送方法及系统
CN105827702A (zh) * 2016-03-16 2016-08-03 上海轻维软件有限公司 一种基于分布式消息队列的数据ftp采集方法
CN105930246A (zh) * 2016-04-08 2016-09-07 天翼阅读文化传播有限公司 一种可智能分发任务的高可用数据库监控方法
CN106936618A (zh) * 2015-12-31 2017-07-07 北京神州泰岳软件股份有限公司 一种数据采集方法和系统
CN107222564A (zh) * 2017-07-04 2017-09-29 贵州数据宝网络科技有限公司 数据采集方法及装置
CN107451223A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 一种高并发并行计算的大数据采集系统及方法
CN107682382A (zh) * 2016-08-01 2018-02-09 汇仕电子商务(上海)有限公司 一种互联网大数据采集系统及其使用方法
CN108874323A (zh) * 2018-07-04 2018-11-23 江苏农牧科技职业学院 一种宠物监测数据处理方法和系统
CN109586947A (zh) * 2018-10-11 2019-04-05 上海交通大学 分布式设备信息采集系统和方法
CN110910177A (zh) * 2019-11-28 2020-03-24 中国银行股份有限公司 一种数据采集系统
CN111487920A (zh) * 2020-05-26 2020-08-04 上海威派格智慧水务股份有限公司 一种数据采集处理系统
CN112698929A (zh) * 2020-12-14 2021-04-23 联想(北京)有限公司 一种信息采集方法及装置
CN115225719A (zh) * 2022-08-31 2022-10-21 中建电子商务有限责任公司 一种分布式定向网络数据采集解析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101018150A (zh) * 2006-02-09 2007-08-15 中兴通讯股份有限公司 一种电信设备性能数据采集的方法及系统
CN101359295A (zh) * 2007-08-01 2009-02-04 阿里巴巴集团控股有限公司 一种批量任务调度分配方法及系统
CN101364891A (zh) * 2007-08-10 2009-02-11 中兴通讯股份有限公司 分布式电信网管中单点采集性能数据的系统及实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101018150A (zh) * 2006-02-09 2007-08-15 中兴通讯股份有限公司 一种电信设备性能数据采集的方法及系统
CN101359295A (zh) * 2007-08-01 2009-02-04 阿里巴巴集团控股有限公司 一种批量任务调度分配方法及系统
CN101364891A (zh) * 2007-08-10 2009-02-11 中兴通讯股份有限公司 分布式电信网管中单点采集性能数据的系统及实现方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103384206A (zh) * 2012-05-02 2013-11-06 中国科学院计算机网络信息中心 一种面向海量数据的并行处理方法及系统
CN103384205B (zh) * 2012-05-02 2016-05-25 中国科学院计算机网络信息中心 一种海量告警数据并行采集系统、装置及方法
CN103384206B (zh) * 2012-05-02 2016-05-25 中国科学院计算机网络信息中心 一种面向海量数据的并行处理方法及系统
CN103384205A (zh) * 2012-05-02 2013-11-06 中国科学院计算机网络信息中心 一种海量告警数据并行采集系统、装置及方法
CN103514205A (zh) * 2012-06-27 2014-01-15 中国电信股份有限公司 海量数据处理方法和系统
CN105631006A (zh) * 2015-12-28 2016-06-01 杭州东方通信软件技术有限公司 一种数据调度采集装置与方法
CN105631006B (zh) * 2015-12-28 2019-03-29 杭州东方通信软件技术有限公司 一种数据调度采集装置与方法
CN106936618A (zh) * 2015-12-31 2017-07-07 北京神州泰岳软件股份有限公司 一种数据采集方法和系统
CN106936618B (zh) * 2015-12-31 2020-09-11 北京神州泰岳软件股份有限公司 一种数据采集方法和系统
CN105608220A (zh) * 2016-01-08 2016-05-25 浪潮软件集团有限公司 一种基于分布式消息系统的采集方法及装置
CN105787010A (zh) * 2016-02-23 2016-07-20 北京凯行同创科技有限公司 基于个人数据的采集处理及推送方法及系统
CN105787010B (zh) * 2016-02-23 2019-08-16 北京凯行同创科技有限公司 基于个人数据的采集处理及推送方法及系统
CN105827702A (zh) * 2016-03-16 2016-08-03 上海轻维软件有限公司 一种基于分布式消息队列的数据ftp采集方法
CN105930246A (zh) * 2016-04-08 2016-09-07 天翼阅读文化传播有限公司 一种可智能分发任务的高可用数据库监控方法
CN107682382A (zh) * 2016-08-01 2018-02-09 汇仕电子商务(上海)有限公司 一种互联网大数据采集系统及其使用方法
CN107222564A (zh) * 2017-07-04 2017-09-29 贵州数据宝网络科技有限公司 数据采集方法及装置
CN107451223A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 一种高并发并行计算的大数据采集系统及方法
CN108874323B (zh) * 2018-07-04 2019-09-27 江苏农牧科技职业学院 一种宠物监测数据处理方法和系统
CN108874323A (zh) * 2018-07-04 2018-11-23 江苏农牧科技职业学院 一种宠物监测数据处理方法和系统
CN109586947A (zh) * 2018-10-11 2019-04-05 上海交通大学 分布式设备信息采集系统和方法
CN110910177A (zh) * 2019-11-28 2020-03-24 中国银行股份有限公司 一种数据采集系统
CN111487920A (zh) * 2020-05-26 2020-08-04 上海威派格智慧水务股份有限公司 一种数据采集处理系统
CN112698929A (zh) * 2020-12-14 2021-04-23 联想(北京)有限公司 一种信息采集方法及装置
CN112698929B (zh) * 2020-12-14 2024-08-23 联想(北京)有限公司 一种信息采集方法及装置
CN115225719A (zh) * 2022-08-31 2022-10-21 中建电子商务有限责任公司 一种分布式定向网络数据采集解析方法

Also Published As

Publication number Publication date
CN102375837B (zh) 2014-12-31

Similar Documents

Publication Publication Date Title
CN102375837B (zh) 数据采集系统和方法
CN103888547B (zh) 一种账单处理方法和服务器
CN103106249B (zh) 一种基于Cassandra的数据并行处理系统
CN104598631B (zh) 分布式数据处理平台
CN103248645B (zh) Bt离线数据下载系统及方法
CN102236581B (zh) 用于数据中心的映射化简方法和系统
CN104092770B (zh) 基于云计算的企业内部通讯录管理方法和系统
CN103095758B (zh) 一种分布式文件系统及该系统中处理文件数据的方法
US7647335B1 (en) Computing system and methods for distributed generation and storage of complex relational data
CN104462370A (zh) 分布式任务调度系统及方法
CN102208991A (zh) 一种日志处理方法、设备和系统
CN102202102A (zh) 基于云计算架构的网络服务聚合系统及其聚合方法
CN103812882A (zh) 一种文件传输的方法及系统
CN111258978A (zh) 一种数据存储的方法
CN106471501A (zh) 数据查询的方法、数据对象的存储方法和数据系统
CN103109293B (zh) 一种用户行为处理系统及方法
CN108881485A (zh) 保障大数据包下的高并发系统响应时间的方法
CN101330431B (zh) 一种即时信息存储方法和系统
CN102333130A (zh) 一种访问缓存服务器的方法、系统及缓存智能调度器
CN101562664A (zh) 一种话单处理方法和系统
CN103810272A (zh) 一种数据处理方法和系统
CN105205143A (zh) 一种文件存储及处理方法、设备和系统
CN104333573A (zh) 一种大并发量请求的处理方法及处理系统
CN102779138A (zh) 实时数据的硬盘存取方法
CN102882960A (zh) 一种资源文件的发送方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141231