CN104346135B - 数据流并行处理的方法、设备及系统 - Google Patents

数据流并行处理的方法、设备及系统 Download PDF

Info

Publication number
CN104346135B
CN104346135B CN201310344091.6A CN201310344091A CN104346135B CN 104346135 B CN104346135 B CN 104346135B CN 201310344091 A CN201310344091 A CN 201310344091A CN 104346135 B CN104346135 B CN 104346135B
Authority
CN
China
Prior art keywords
data flow
data
processing
equipment
data stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310344091.6A
Other languages
English (en)
Other versions
CN104346135A (zh
Inventor
王翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310344091.6A priority Critical patent/CN104346135B/zh
Publication of CN104346135A publication Critical patent/CN104346135A/zh
Application granted granted Critical
Publication of CN104346135B publication Critical patent/CN104346135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据流并行处理的方法、设备及系统,属于计算机并行计算领域。所述方法包括:接收上一级设备发送的至少一个数据流,并获取每个数据流的处理配置文件,所述处理配置文件中包括数据流的处理方式信息及处理配置信息;根据每个数据流的处理配置文件对每个数据流进行并行处理,得到每个数据流的处理结果。所述设备包括:接收模块,获取模块和处理模块。本发明通过数据流传输设备获取数据流,并通过传输规则将获取到的数据流传输到对应的数据流处理设备。数据流处理设备再根据数据流的处理配置文件对数据流进行并行处理。由于数据流的处理过程并未涉及到对文件的操作,且多个数据流可以并行处理,从而能够提高数据流的处理效率。

Description

数据流并行处理的方法、设备及系统
技术领域
本发明涉及计算机领域,特别涉及一种数据流并行处理的方法、设备及系统。
背景技术
随着社会的进步和企业的发展,越来越多的工作要对海量数据流进行处理。如气象部门预测天气需对气象数据流进行处理,企业需要处理用户数据流来进行业务方向的归纳总结。这些数据流增速越来越快,以至于需要寻找更加高效的手段进行处理。在对海量数据流进行处理的过程中,并行计算是一种提高计算机处理速度与计算能力的有效手段。由于采用不同的数据流并行处理方法对数据流处理效率有深刻影响。因此,合理设计数据流并行处理方法,对适应不断增加的数据流处理需求十分重要。
现有技术中,基于HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),采用MR(Map Reduce,映射化简)并行计算模型对海量数据流进行并行处理。具体实施时,在获取到一至多个数据流之后,需要先将数据流存入到HDFS中用于存放处理数据的文件上,再将该存放处理数据的文件传输到HDFS对应的处理设备。处理设备首先将该存放处理数据的文件分成若干文件块,启动多个Map函数并行对若干文件块进行处理,从而通过多个Map函数根据每一文件块的KV(Key—Value,键值)将每一文件块写入到对应的分区文件中,实现相同KV的文件块写入到一个分区文件中。之后再启动多个Reduce函数对分区文件中的KV进行并行汇聚操作,产生结果数据。最后,销毁启动的多个Map函数与多个Reduce函数,并将结果数据写入到HDFS上用于存放结果数据的文件中。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于现有技术提供的数据流并行处理操作需要先将获取到的数据流写入到HDFS中存放处理数据的文件上,再将该存放处理数据的文件传输到HDFS对应的处理设备,由此可见,现有技术都是基于文件的,而文件操作一般涉及到磁盘的读写,由于磁盘为服务器上的慢速设备,因此读写磁盘需要耗费很长时间,导致处理数据流的效率较低。另外,处理设备在处理大量数据流的情况下,启动Map函数与Reduce函数对文件块进行处理时也会耗费很长时间,同时,将启动的Map函数和Reduce函数进行销毁还会耗费很长时间,因此,进一步降低了处理数据流的效率。
发明内容
为了解决现有技术的问题,本发明提供了一种数据流并行处理的方法、设备及系统。所述技术方案如下:
一方面,提供了一种数据流并行处理的方法,所述方法包括:
获取至少一个数据流,并获取每个数据流的传输规则,所述传输规则中包括数据流对应的处理设备的网际协议IP地址和端口号;
根据每个数据流的传输规则确定每个数据流对应的处理设备的信息;
根据每个数据流对应的处理设备的信息将每个数据流发送至对应的处理设备,由每个数据流对应的处理设备对每个数据流进行处理。
另一方面,提供了一种数据流并行处理的方法,所述方法包括:
接收上一级设备发送的至少一个数据流,并获取每个数据流的处理配置文件,所述处理配置文件中包括数据流的处理方式信息及处理配置信息;
根据每个数据流的处理配置文件对每个数据流进行并行处理,得到每个数据流的处理结果。
另一方面,提供了一种数据流传输设备,所述设备包括:
第一获取模块,用于获取至少一个数据流;
第二获取模块,用于获取每个数据流的传输规则,所述传输规则中包括数据流对应的处理设备的网际协议IP地址和端口号;
确定模块,用于根据每个数据流的传输规则确定每个数据流对应的处理设备的信息;
发送模块,用于根据每个数据流对应的处理设备的信息将每个数据流发送至对应的处理设备,由每个数据流对应的处理设备对每个数据流进行处理。
又一方面,提供了一种数据流处理设备,所述设备包括:
接收模块,用于接收上一级设备发送的至少一个数据流;
获取模块,用于获取每个数据流的处理配置文件,所述处理配置文件中包括数据流的处理方式信息及处理配置信息;
处理模块,用于根据每个数据流的处理配置文件对每个数据流进行并行处理,得到每个数据流的处理结果;
确定模块,用于确定每个数据流对应的处理器;
输出模块,用于输出每个数据流的处理结果;
存储模块,用于将每个数据流的处理结果存储到对应的处理器的共享内存中。
再一方面,提供了一种数据流并行处理的系统,所述系统包括:业务集群、数据流处理集群、数据流向控制集群和数据处理逻辑控制集群;
所述业务集群中包括至少一个数据流传输设备,所述数据流处理集群中包括至少一个数据流处理设备,所述数据流向控制集群中包括至少一个用于存储数据流的传输规则的数据流向控制设备,所述数据处理逻辑控制集群中包括至少一个用于存储数据流对应的处理配置文件的数据处理逻辑控制设备;
其中,所述数据流传输设备从所述数据流向控制设备获取数据流的传输规则,并按照获取的传输规则将数据流发送至所述数据流处理设备,所述数据流处理设备从所述数据处理逻辑控制设备获取数据流对应的处理配置文件,并按照获取到的处理配置文件对所述数据流进行处理;
所述数据流传输设备如上面所述的数据流传输设备,所述数据流处理设备如上面所述的数据流处理设备。
本发明提供的技术方案的有益效果是:
通过数据流传输设备获取数据流,并通过传输规则将获取到的数据流传输到对应的数据流处理设备,之后再由数据流处理设备根据数据流的处理配置文件对数据流进行并行处理,得到数据流的处理结果,由于数据流的处理过程并未涉及到对文件的操作,且多个数据流可以并行处理,从而能够提高数据流的处理效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种数据流并行处理的方法流程图;
图2是本发明实施例一提供的另一种数据流并行处理的方法流程图;
图3是本发明实施例二提供的一种数据流并行处理的方法流程图;
图4是本发明实施例二提供的一种数据流并行处理的交互示意图;
图5是本发明实施例二提供的一种数据流处理设备处理数据流的交互示意图;
图6是本发明实施例三提供的一种数据流传输设备的结构示意图;
图7是本发明实施例四提供的一种数据流处理设备的结构示意图;
图8是本发明实施例五提供的一种数据流并行处理设备的系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种数据流并行处理的方法,以数据流传输设备的角度实现该方法为例,参见图1,本实施例提供的方法流程包括:
步骤101:获取至少一个数据流,并获取每个数据流的传输规则,所述传输规则中包括数据流对应的处理设备的IP(Internet Protocol,网络之间互连的协议)地址和端口号;
步骤102:根据每个数据流的传输规则确定每个数据流对应的处理设备的信息;
步骤103:根据每个数据流对应的处理设备的信息将每个数据流发送至对应的处理设备,由每个数据流对应的处理设备对每个数据流进行处理;
以数据流处理设备的角度实现该方法为例,参见图2,本实施例提供的方法流程包括:
步骤201:接收上一级设备发送的至少一个数据流,并获取每个数据流的处理配置文件,所述处理配置文件中包括数据流的处理方式信息及处理配置信息;
步骤202:根据每个数据流的处理配置文件对每个数据流进行并行处理,得到每个数据流的处理结果。
本实施例提供的方法,通过数据流传输设备获取数据流,并通过传输规则将获取到的数据流传输到对应的数据流处理设备,之后再由数据流处理设备根据数据流的处理配置文件对数据流进行并行处理,得到数据流的处理结果,由于数据流的处理过程并未涉及到对文件的操作,且多个数据流可以并行处理,从而能够提高数据流的处理效率。
实施例二
本发明实施例提供了一种数据流并行处理的方法,为了便于理解,现结合上述实施例一的内容,以图3所示的数据流并行处理的交互示意图为例,对本发明实施例提供的数据流并行处理的方式进行详细地解释说明。图3中,至少一个数据流传输设备组成一个业务集群,至少一个数据流处理设备组成一个数据流处理集群,至少一个数据流向控制设备组成一个数据流向控制集群,至少一个数据处理逻辑控制设备组成一个数据处理逻辑控制集群。其中,数据流向控制设备存储数据流的传输规则,数据处理逻辑控制设备存储数据流对应的处理配置文件,数据流处理集群的数量为至少一个。基于图3所示的交互示意图,参见图4,本发明实施例提供的方法流程包括:
步骤401:数据流传输设备获取至少一个数据流,并获取每个数据流的传输规则,传输规则中包括数据流对应的处理设备的IP地址和端口号;
其中,数据流可以为各种业务对应的数据流,数据流的内容可以为数据流对应的业务的内容。例如,数据流为天气业务对应的数据流,其内容为天气数据;或者,数据流为通话业务对应的数据流,其内容为通话数据;或者,数据流为电子产品销售业务对应的数据流,其内容为电子产品销售数据,当然,数据流还可以为其他任意一种业务对应的数据流,本实施例不对数据流对应的业务及数据流的内容进行限定,同样不对数据流传输设备获取至少一个数据流的方式进行限定。如图3所示,当任何一种业务产生数据流后,可以传输至业务集群,业务集群中的数据流传输设备由此可以获取到至少一个数据流。为了区分不同的数据流,可为不同的数据流分配对应的标识,使每个数据流的标识与其他数据流的标识不同。
数据流传输设备获取到至少一个数据流后,为了使获取到的数据流能够得到及时的处理,数据流传输设备需要将该数据流发送至对应的数据流处理设备进行处理。然而,由于每个数据流对应的业务不同,不同数据流处理设备处理数据流的方式也可能不同,因此,数据流传输设备为了明确将获取到的数据流传输给哪个数据流处理设备,该数据流传输设备在传输数据流之前,需要获取每个数据流的传输规则,从而后续能够根据每个数据流的传输规则将该数据流传输至对应的数据流处理设备进行处理。关于数据流传输设备获取每个数据流的传输规则的方式,本实施例不作具体限定,由于数据流向控制集群中的数据流向控制设备上存储了数据流的传输规则,因此,数据流传输设备可以从数据流向控制设备中获取数据流的传输规则,具体获取方式包括但不限于如下方式:
对于任一数据流,确定任一数据流的标识,并向存储有传输规则的数据流向控制设备发送传输规则查询请求,传输规则查询请求中携带任一数据流的标识;
接收数据流向控制设备根据任一数据流的标识返回的传输规则,并将接收到的传输规则作为获取到的任一数据流的传输规则。
其中,数据流向控制设备中存储的传输规则可由用户根据业务需求或是实际情况进行配置,之后根据用户的配置生成对应的传输规则配置文件,通过将该传输规则配置文件传输至数据流向控制设备,从而实现由数据流向控制设备存储每个数据流的传输规则。当然,除上述配置每个数据流的传输规则的方式外,还可以采用其他配置每个数据流的传输规则的方式,本实施例不对每个数据流的传输规则的配置方式进行限定。此外,无论采用哪种方式配置每个数据流的传输规则,本实施例不对数据流的传输规则的存储方式进行限定。例如,每个数据流向控制设备均可以存储全部数据流的传输规则,则数据流传输设备可以在数据流向控制集群中随机选择一个数据流向控制设备,并向其选择的数据流向控制设备发送传输规则查询请求。又例如,每个数据流向控制设备还可以存储部分数据流的传输规则,也就是说,不同的数据流向控制设备存储不同的数据流的传输规则,则数据流传输设备可以向数据流向控制集群中的所有数据流向控制设备均发送传输规则查询请求,如果哪个数据流向控制设备上具有对应的传输规则,则向数据流传输设备返回传输规则即可。
进一步地,由于每个数据流均有各自的传输规则,且不同的数据流对应不同的标识,则通过传输规则与标识之间的对应关系,可以明确不同的数据流的传输规则。具体实施时,数据流向控制设备在存储数据流的传输规则的同时,还可以预先存储每个数据流的标识与传输规则的对应关系。数据流传输设备在获取每个数据流的传输规则时,为了使数据流向控制设备能够明确数据流传输设备请求的是哪个数据流的传输规则,数据流传输设备在向数据流向控制设备发送传输规则查询请求时,可以先确定每个数据流的标识,并将该标识携带在传输规则查询请求中发送给数据流向控制设备。则数据流向控制设备根据数据流的标识与传输规则之间的对应关系查找得到与传输规则查询请求中携带的标识对应的传输规则。其中,由于数据流的传输规则能够使数据流传输设备明确将数据流传输至哪个数据流处理设备,因此,该传输规则中包括但不限于数据流处理设备的IP地址和端口号。如果一个数据流可以由多个数据流处理设备进行处理,则该数据流的传输规则中可以包括多个数据流处理设备的IP地址和端口号。当然,传输规则中除了包括数据流处理设备的IP地址和端口号外,还可以包括其他信息,本实施例不对传输规则的具体内容进行限定。
为了便于理解,以业务集群中的一个数据流传输设备获取到的数据流为数据流DF1,DF2,DF3,数据流DF1的标识为DF1,数据流DF2的标识为DF2,数据流DF3的标识为DF3为例,该数据流传输设备为了能够将这三个数据流传输至对应的数据流处理设备,需要向数据流向控制设备查询这三个数据流各自对应的传输规则。具体实施时,数据流传输设备可以针对任一数据流向数据流向控制设备发送一个传输规则查询请求,该传输规则查询请求中携带任一数据流的标识。也就是说,针对三个数据流,数据流传输设备需要向数据流向控制设备发送三个传输规则查询请求才能够获取到这三个数据流的传输规则。以获取数据流DF1的传输规则,且数据流向控制集群中的每个数据流向控制设备各自存储了部分数据流的传输规则为例,数据流传输设备向数据流向控制集群中的每个数据流向控制设备发送携带标识DF1的传输规则查询请求。每个数据流向控制设备接收到数据流传输设备发送的传输规则查询请求后,根据数据流的标识与传输规则的对应关系在各自存储的传输规则中查找与标识DF1对应的传输规则。其中,数据流的标识与传输规则的对应关系可如下面表1所示为例:
表1
数据流的标识 传输规则
DF1 TR1
DF2 TR2
DF3 TR3
...... ......
如表1所示,标识为DF1的数据流的传输规则为TR1,标识为DF2的数据流的传输规则为TR2,标识为DF3的数据流的传输规则为TR3。哪个数据流向控制设备根据表1所示的关系查询到DF1对应的传输规则TR1,则向数据流传输设备返回传输规则TR1,从而使数据流传输设备获取到数据流DF1的传输规则。
需要说明的是,以上仅以数据流传输设备针对任一数据流向数据流向控制设备发送一个传输规则查询请求,以获取任一数据流的传输规则为例进行的解释说明。因此,对于三个数据流,数据流传输设备需要向数据流向控制设备发送三次传输规则查询请求。为了减少数据流传输设备发送传输规则查询请求的次数,从而节省资源,本实施例提供的方法还支持采用一条传输规则查询请求查询多个数据流的传输规则的情况。该种情况下,数据流传输设备可将多个数据流的标识携带在一个传输规则查询请求中,接收到该传输规则查询请求的数据流向控制设备可以分别查找与传输规则请求中携带的每个标识对应的传输规则,并将查找到的传输规则采用分别传输或一并传输的方式发送至数据流传输设备。为了使数据流传输设备能够明确数据流向控制设备返回的传输规则是哪个数据流的传输规则,数据流向控制设备返回传输规则时,还将携带对应的标识,使数据流传输设备根据传输规则对应的标识确定该传输规则是哪个数据流的传输规则。
步骤402:数据流传输设备根据每个数据流的传输规则确定每个数据流对应的处理设备的信息;
具体地,由于数据流传输设备获取到的数据流的传输规则中包括数据流处理设备的IP地址和端口号,因此,数据流传输设备根据每个数据流的传输规则可以确定每个数据流对应的数据流处理设备的IP地址和端口号,并将确定的数据流处理设备的IP地址和端口号作为确定的每个数据流对应的处理设备的信息。
需要说明的是,如果一个数据流的传输规则中包括多个数据流处理设备的IP地址和端口号,即说明多个数据流处理设备均可以对该数据流进行处理,因此,数据流传输设备需要从多个可以处理该数据流的数据流处理设备中选择一个数据流处理设备,并将该数据流发送至选择的数据流处理设备进行处理。关于数据流传输设备选择数据流处理设备的方式,本实施例不作具体限定。具体实施时,数据流传输设备可以从多个可以处理该数据流的数据流处理设备中随机选择一个数据流处理设备。此外,本实施例提供的方法还支持采用CARP(Common Access Redundancy Protocol,共用地址冗余协议)算法从多个可以处理该数据流的数据流处理设备中选择一个数据流处理设备的方式,对于数据流A,数据流传输设备采用该种方式从多个可以处理数据流A的数据流处理设备中选择一个数据流处理设备的过程包括但不限于如下步骤:
第一步,对每个可以处理数据流A的数据流处理设备采用如下公式(1)分别计算各自对应的idx_key;
idx_key=hash(query_key+server_idx) (1)
其中,query_key是为数据流A预先设置的查询键值,server_idx使用主机序的无符号整数来表示数据流处理设备的IP地址,hash(query_key+server_idx)表示采用query_key+server_idx对一个大素数取模数,从而根据query_key和server_idx通过公式(1)进行计算得到每个数据流处理设备对应的idx_key。关于大素数的具体大小,本实施例不作具体限定。
第二步,从每个数据流处理设备对应的idx_key中选择最大idx_key,并将该最大idx_key对应的数据流处理设备作为选择出的数据流处理设备。
例如:数据流传输设备获取到了数据流DF1与其对应的传输规则TR1,其中传输规则TR1中包含多个数据流处理设备的IP地址与端口号,则该传输规则的内容如下面表2所示。
表2
IP地址 端口号
1000 20
2000 40
3000 80
从表2所示的传输规则中可以看出,可以处理数据流DF1的数据流处理设备为3个,以为数据流DF1预先设置的查询键值Query_Key为5254014,大素数为599999为例,针对IP地址为1000的数据流处理设备,根据上述公式(1)计算其对应的idx_key时,先将数据流DF1的Query_Key值5254014与数据流处理设备的IP地址1000相加,得到5264014,之后再将5264014对599999进行取模运算,得到的值为464022,因此,IP地址为1000的数据流处理设备对应的idx_key为464022。同理,按照计算IP地址为1000的数据流处理设备对应的idx_key的方式再分别计算IP地址为2000和3000的数据流处理设备对应的idx_key,得到的结果可如下面表3所示:
表3
IP地址 idx_key
1000 464022
2000 474022
3000 484022
从上述表3中的数据可以看出,最大idx_key为484022,而该最大idx_key对应IP地址为3000的数据流处理设备,因此,数据流传输设备将IP地址为3000的数据流处理设备作为选择出的数据流处理设备。
步骤403:数据流传输设备根据每个数据流对应的处理设备的信息将每个数据流发送至对应的处理设备;
具体地,由于每个数据流对应的处理设备的信息中包括了数据流处理设备的IP地址及端口号,因此,数据流传输设备根据每个数据流对应的处理设备的信息可将每个数据流发送至对应的处理设备。
例如:数据流传输设备通过上述步骤302确定数据流DF1对应的处理设备的信息为IP地址为3000,端口号为80,则数据流传输设备根据数据流DF1对应的处理设备的信息将数据流DF1发送至IP地址为3000的数据流处理设备的端口号为80的端口号上。
步骤404:数据流处理设备接收数据流传输设备发送的至少一个数据流,并获取每个数据流对应的处理配置文件,处理配置文件中包括数据流的处理方式信息及处理配置信息;
其中,本实施例不对数据流处理设备接收数据流传输设备发送的至少一个数据流的方式进行限定,同样不对接收到的数据流的数量进行限定。如图3所示,当任一数据流传输至业务集群中的数据流传输设备,并由数据流传输设备将其发送至数据流处理集群中对应的数据流处理设备后,为了使数据流处理设备接收到的数据流能够得到及时的处理,数据流处理设备需要获知接收到的每个数据流的处理方式。然而,由于每个数据流对应的业务不同,不同数据流处理设备处理数据流的方式也可能不同,因此,数据流处理设备为了明确对接收到的数据流进行如何处理,该数据流处理设备在处理数据流之前,需要获取每个数据流的处理方式信息,从而后续能够根据每个数据流的处理方式信息对该数据流进行处理。关于数据流处理设备获取数据流的处理方式信息的过程,本实施例不作具体限定。由于数据处理逻辑控制集群中的数据处理逻辑控制设备上存储了数据流的处理配置文件,而处理配置文件中又记录了数据流的处理方式信息,因此,数据流处理设备可以从数据处理逻辑控制设备中获取数据流的处理配置文件,具体获取方式包括但不限于如下方式:
对于任一数据流,确定任一数据流的标识,并向存储有处理配置文件的数据处理逻辑控制设备发送处理配置文件查询请求,处理配置文件查询请求中携带任一数据流的标识;
接收数据处理逻辑控制设备根据任一数据流的标识返回的处理配置文件,并将接收到的处理配置文件作为获取到的任一数据流的处理配置文件。
其中,数据处理逻辑控制设备存储的处理配置文件中记录的处理方式可由用户根据业务需求或是实际情况进行配置,之后根据用户的配置生成对应的处理配置文件,通过将该处理配置文件传输至数据处理逻辑控制设备,从而实现由数据处理逻辑控制设备存储每个数据流的处理配置文件。当然,除上述配置每个数据流的处理配置文件的方式外,还可以采用其他配置每个数据流的处理配置文件的方式,本实施例不对每个数据流的处理配置文件的配置方式进行限定。此外,无论采用哪种方式配置每个数据流的处理配置文件,本实施例不对数据流的处理配置文件的存储方式进行限定。例如,每个数据处理逻辑控制设备均可以存储全部数据流的处理配置文件,则数据流处理设备可以在数据处理逻辑控制集群中随机选择一个数据处理逻辑控制设备,并向其选择的数据处理逻辑控制设备发送处理配置文件查询请求。又例如,每个数据处理逻辑控制设备还可以存储全部数据流的处理配置文件,也就是说,不同的数据处理逻辑控制设备存储不同的数据流的处理配置文件,则数据流处理设备可以向数据处理逻辑控制集群中的所有数据处理逻辑控制设备均发送处理配置文件查询请求,如果哪个数据处理逻辑控制设备上具有对应的处理配置文件,则向数据流处理设备返回处理配置文件即可。
进一步地,由于每个数据流均有各自的处理配置文件,且不同的数据流对应不同的标识,则通过处理配置文件与标识之间的对应关系,可以明确不同的数据流的处理配置文件。具体实施时,数据处理逻辑控制设备在存储数据流的处理配置文件的同时,还可以预先存储每个数据流的标识与处理配置文件的对应关系。数据流处理设备在获取每个数据流的处理配置文件时,为了使数据处理逻辑控制设备能够明确数据流处理设备请求的是哪个数据流的处理配置文件,数据流处理设备在向数据处理逻辑控制设备发送处理配置文件查询请求时,可以先确定每个数据流的标识,并将该标识携带在处理配置文件查询请求中发送给数据处理逻辑控制设备。则数据处理逻辑控制设备根据数据流的标识与处理配置文件之间的对应关系查找得到与处理配置文件查询请求中携带的标识对应的处理配置文件。其中,由于数据流的处理配置文件能够使数据流处理设备明确对数据流如何处理,因此,该处理配置文件中包括但不限于数据流的处理方式信息。此外,对数据流进行处理之后,为了明确处理后的数据流应该传输至哪个设备,或是存储到哪个位置,处理配置文件中还包括处理配置信息,该处理配置信息中包括但不限于数据流处理后对应的标识及对应的存储位置信息等,本实施例不对处理配置文件中的处理配置信息的具体内容进行限定。当然,处理配置文件中除了包括数据流的处理方式信息和处理配置信息外,还可以包括其他信息,本实施例不对处理配置文件的具体内容进行限定。
为了便于理解,以数据流处理集群中的一个数据流处理设备接收到的数据流为数据流DF1,DF2,DF3,数据流DF1的标识为DF1,数据流DF2的标识为DF2,数据流DF3的标识为DF3为例,该数据流处理设备为了能够将这三个数据流进行处理,需要向数据处理逻辑控制设备查询这三个数据流各自对应的处理配置文件。具体实施时,数据流处理设备可以针对任一数据流向数据处理逻辑控制设备发送一个处理配置文件查询请求,该处理配置文件查询请求中携带任一数据流的标识。也就是说,针对三个数据流,数据流处理设备需要向数据处理逻辑控制设备发送三个处理配置文件查询请求才能够获取到这三个数据流的处理配置文件。以获取数据流DF1的处理配置文件,且数据处理逻辑控制集群中的每个数据处理逻辑控制设备各自存储了部分数据流的处理配置文件为例,数据流处理设备向数据处理逻辑控制集群中的每个数据处理逻辑控制设备发送携带数据流DF1的标识DF1的处理配置文件查询请求。每个数据处理逻辑控制设备接收到数据流处理设备发送的处理配置文件查询请求后,根据数据流的标识与处理配置文件的对应关系在各自存储的处理配置文件中查找与DF1对应的处理配置文件。其中,数据流的标识与处理配置文件的对应关系可如下面表4所示为例:
表4
数据流的标识 处理配置文件
DF1 M1
DF2 M2
DF3 M3
...... ......
如表4所示,标识为DF1的数据流的处理配置文件为M1,标识为DF2的数据流的处理配置文件为M2,标识为DF3的数据流的处理配置文件为M3。哪个数据处理逻辑控制设备根据表4所示的关系查询到DF1对应的处理配置文件M1,则向数据流处理设备返回处理配置文件M1,从而使数据流处理设备获取到数据流DF1的处理配置文件。
需要说明的是,以上仅以数据流处理设备针对任一数据流向数据流处理逻辑控制设备发送一个处理配置文件查询请求,以获取任一数据流的处理配置文件为例进行的解释说明。因此,对于三个数据流,数据流处理设备需要向数据处理逻辑控制设备发送三次处理配置文件查询请求。为了减少数据流处理设备发送处理配置文件查询请求的次数,从而节省资源,本实施例提供的方法还支持采用一条处理配置文件查询请求查询多个数据流的处理配置文件的情况。该种情况下,数据流处理设备可将多个数据流的标识携带在一个处理配置文件查询请求中,接收到该处理配置文件查询请求的数据处理逻辑控制设备可以分别查找与处理配置文件查询请求中携带的每个标识对应的处理配置文件,并将查找到的处理配置文件采用分别传输或一并传输的方式发送至数据流处理设备。为了使数据流处理设备能够明确数据处理逻辑控制设备返回的处理配置文件是哪个数据流的处理配置文件,数据处理逻辑控制设备返回处理配置文件时,还将携带对应的标识,使数据流处理设备根据处理配置文件对应的标识确定该处理配置文件是哪个数据流的处理配置文件。
步骤405:数据流处理设备根据每个数据流的处理配置文件对每个数据流进行并处理,得到每个数据流的处理结果;
针对该步骤,本实施例不对数据流处理设备根据每个数据流的处理配置文件对每个数据流进行并处理的方式进行限定。实际应用中,每个数据流处理设备的内部可以有多个处理器,每个处理器又可以调度多个处理进程,则数据流处理设备处理数据流的交互过程可如图5所示为例。如图5所示,数据流处理设备接收到数据流并获取到该数据流的处理配置文件后,可将接收到的数据流分配至对应的处理器,由对应的处理器中的处理线程按照数据流的处理配置文件对数据流进行处理。因此,数据流处理设备根据每个数据流的处理配置文件对每个数据流进行并行处理之前,还包括:确定每个数据流对应的处理器的过程。并在确定每个数据流对应的处理器之后,对于任一数据流,调度任一数据流对应的处理器按照任一数据流的处理配置文件对任一数据流进行处理,得到任一数据流的处理结果。
其中,数据流处理设备确定每个数据流对应的处理器的方式可以有多种,例如,数据流处理设备可以在其内部的多个处理器中随机选择一个处理器作为确定的数据流对应的处理器;又例如,数据流处理设备还可以根据其内部的每个处理器的负载选择一个负载最小的处理器作为数据流对应的处理器。当然,除上述两种确定数据流对应的处理器的方式外,还可以有其他确定方式,本实施例对此不作具体限定。
无论采用哪种方式确定数据流对应的处理器,在确定数据流对应的处理器之后,可将数据流分配至确定的处理器进行处理。又由于每个处理器可以调度多个处理进程,则在将数据流分配至确定的处理器之后,该处理器中的多个处理进程可以采用竞争的方式获取该数据流,并按照数据流对应的处理配置文件对数据流进行处理。其中,处理配置文件中的处理方式信息包括但不限于多种处理方式的信息,处理方式又包括但不限于数据加工处理、数据汇总处理、数据转发处理及数据输出处理等等。
例如,如图5所示,数据流处理集群中的一台数据流处理设备1接收到了数据流传输设备发送的数据流DF1,且数据流处理设备1上的数据传输层通过向数据处理逻辑控制集群中的数据处理逻辑控制设备发送携带数据流DF1的标识DF1的处理配置文件查询请求获取到数据流DF1对应的处理配置文件。则数据流处理设备1根据数据流DF1的处理配置文件将数据流DF1分配给了处理器1,调度处理器1对数据流DF1进行处理。又由于处理器1中有多个处理进程,这些处理进程采用竞争的方式获取数据流DF1,并按照数据流DF1的处理配置文件对数据流进行处理。例如,如果处理配置文件中的处理方式信息为数据加工处理方式的信息,且处理进程处理的数据流包括用户的即时通讯帐号和操作号,该操作号对应一个具体的操作方式,以操作方式为转换为例,则可以根据处理配置文件中的处理方式信息对数据流包括的帐号进行转换,生成一个对应的字段。又例如,如果处理配置文件中的处理方式信息为数据汇总处理方式的信息,且处理进程按照处理配置文件将处理的数据流进行汇总。当然,除上述几种处理方式外,还可以有其他处理方式,关于处理进程按照数据流的处理配置文件对数据流进行处理的方式,本实施例不作具体限定。
至此,通过上述步骤401至步骤405即可实现对数据流的一种处理。如果不同的数据流处理设备可以对数据流执行不同的处理,则对于一个数据流需要进行多种处理的情况,当一个数据流处理设备对接收到的数据流进行处理之后,本实施例提供的方法还包括输出每个数据流的处理结果的后续步骤,以通过后续设备对数据流继续进行处理,具体过程详见后续步骤。
步骤406:输出每个数据流的处理结果。
具体地,数据流处理设备对接收到的每个数据流进行处理后,可以在每个数据流处理结束后输出该数据流的处理结果,也可以待所有数据流均处理结束后再统一输出每个数据流的处理结果,本实施例不对数据流处理设备输出每个数据流的处理结果的方式进行限定。针对待所有数据流均处理结束后再统一输出每个数据流的处理结果的情况,由于每个数据流的处理过程有快有慢,各个数据流的处理速度不统一,因此,可将每个数据流的处理结果暂时存储到对应的处理器的共享内存中。之后再每隔预设时间从共享内存中导出该数据流的处理结果,并将导出的处理结果进行输出。
其中,预设时间可以为1秒、2秒或3秒等,本实施例不对预设时间的长短进行限定。另外,关于将每个数据流的处理结果存储到对应的处理器的共享内存的方式,本实施例不作具体限定。由于处理配置文件中除了包括处理方式信息外,还包括处理配置信息,而该处理配置信息中又包括但不限于数据流处理后对应的标识及对应的存储位置信息等,因此,可根据处理配置文件中的处理配置信息获取共享内存的位置信息,由此实现将每个数据流的处理结果存储到对应的处理器的共享内存中。
进一步地,该步骤406输出的每个数据流的处理结果可以为每个数据流的最终处理结果,则后续无需再由下一级数据流处理设备对其进行处理,而是直接将其输出至应用设备,由应用设备应用处理结果。此外,对于该步骤406输出的每个数据流的处理结果为非最终处理结果的情况,则后续仍然需要再由下一级其他数据流处理设备对其进行处理。为了明确是将数据流的处理结果输出至应用设备还是下一级处理设备,该步骤输出每个数据流的处理结果的方式,包括但不限于:
获取每个处理结果的传输规则,传输规则中包括每个处理结果对应的下一级设备的IP和端口号;
根据每个处理结果的传输规则确定每个处理结果对应的下一级设备的信息,并根据每个处理结果对应的下一级设备的信息将每个处理结果发送至对应的下一级设备,下一级设备为下一级处理设备或应用设备。
关于获取每个处理结果的传输规则的方式,本实施例不作具体限定,例如,此处获取每个处理结果的传输规则的方式可与上述步骤401中数据流传输设备获取数据流的传输规则的方式的原理相同,详见上述步骤401的内容,此处不再赘述。需要说明的是,由于上述步骤401中数据流传输设备在获取数据流的传输规则时,需要用到数据流的标识,因此,该步骤在获取每个处理结果的传输规则时,仍然需要确定每个处理结果的标识,关于确定每个处理结果的标识的方式,本实施例不作具体限定。由于每个数据流的处理配置文件中还包括处理配置信息,而处理配置信息又包括但不限于数据流处理后对应的标识及对应的存储位置信息等,其中的数据流处理后对应的标识即为处理结果的标识,因此,数据流处理设备可根据处理配置文件中的处理配置信息按照数据流传输设备获取数据流的传输规则的方式来获取处理结果的传输规则。如果传输规则中的下一级设备的IP地址为下一级处理设备的IP地址,则数据流处理设备根据传输规则中的下一级设备的IP地址将数据流的处理结果输出至下一级数据流处理设备;如果传输规则中的下一级设备的IP地址为应用设备的IP地址,则数据流处理设备根据传输规则中的下一级设备的IP地址将数据流的处理结果输出至应用设备。
此外,如果数据流处理设备获取到的处理结果的传输规则中也包括多个下一级设备的IP地址和端口号,则数据流处理设备同样可以选择一个下一级设备,具体选择方式同上述步骤402中数据流传输设备根据每个数据流的传输规则确定每个数据流对应的处理设备的信息的方式,具体详见上述步骤402的内容,此处不再赘述。
本实施例提供的方法,通过数据流传输设备获取数据流,并通过传输规则将获取到的数据流传输到对应的数据流处理设备,之后再由数据流处理设备根据数据流的处理配置文件对数据流进行并行处理,得到数据流的处理结果,由于数据流的处理过程并未涉及到对文件的操作,且多个数据流可以并行处理,从而能够提高数据流的处理效率。
实施例三
本发明实施例提供了一种数据流传输设备,该数据流传输设备用于执行上述实施例一或实施例二中数据流传输设备所执行的功能。参见图6,该数据流传输设备包括:
第一获取模块601,用于获取至少一个数据流;
第二获取模块602,用于获取每个数据流的传输规则,所述传输规则中包括数据流对应的处理设备的网际协议IP地址和端口号;
确定模块603,用于根据每个数据流的传输规则确定每个数据流对应的处理设备的信息;
发送模块604,用于根据每个数据流对应的处理设备的信息将每个数据流发送至对应的处理设备,由每个数据流对应的处理设备对每个数据流进行处理。
作为一种优选实施例,第二获取模块602,包括:
发送单元,用于对于任一数据流,确定任一数据流的标识,并向存储有传输规则的数据流向控制设备发送传输规则查询请求,传输规则查询请求中携带任一数据流的标识;
接收单元,用于接收数据流向控制设备根据任一数据流的标识返回的传输规则,并将接收到的传输规则作为获取到的任一数据流的传输规则。
其中,确定模块603,具体用于对于任一数据流,如果获取到的所述任一数据流的传输规则中包括多个处理设备的IP地址和端口号,则在所述多个处理设备的IP地址和端口号中选择一个处理设备的IP地址和端口号作为确定的所述任一数据流对应的处理设备的信息。
本实施例提供的数据流传输设备,通过获取数据流,并通过传输规则将获取到的数据流传输到对应的数据流处理设备,之后再由数据流处理设备根据数据流的处理配置文件对数据流进行并行处理,得到数据流的处理结果,由于数据流的处理过程并未涉及到对文件的操作,且多个数据流可以并行处理,从而能够提高数据流的处理效率。
实施例四
本发明实施例提供了一种数据流处理设备,该数据流处理设备用于执行上述实施例一或实施例二中数据流处理设备所执行的功能。参见图7,该数据流处理设备包括:
接收模块701,用于接收上一级设备发送的至少一个数据流;
获取模块702,用于获取每个数据流的处理配置文件,处理配置文件中包括数据流的处理方式信息及处理配置信息;
处理模块703,用于根据每个数据流的处理配置文件对每个数据流进行并行处理,得到每个数据流的处理结果。
作为一种优选实施例,接收模块701,用于接收上一级设备根据每个数据流的传输规则发送的数据流,上一级设备为上一级处理设备或数据流传输设备。
作为一种优选实施例,获取模块702,包括:
第一发送单元,用于对于任一数据流,确定任一数据流的标识,并向存储有处理配置文件的数据处理逻辑控制设备发送处理配置文件查询请求,处理配置文件查询请求中携带任一数据流的标识;
接收单元,用于接收数据处理逻辑控制设备根据任一数据流的标识返回的处理配置文件,并将接收到的处理配置文件作为获取到的任一数据流的处理配置文件。
作为一种优选实施例,该数据流处理设备,还包括:
确定模块,用于确定每个数据流对应的处理器;
处理模块,用于对于任一数据流,调度任一数据流对应的处理器按照任一数据流的处理配置文件对任一数据流进行处理,得到任一数据流的处理结果。
作为一种优选实施例,该数据流处理设备,还包括:
输出模块,用于输出每个数据流的处理结果。
作为一种优选实施例,该数据流处理设备,还包括:
存储模块,用于将每个数据流的处理结果存储到对应的处理器的共享内存中;
输出模块,包括:
导出单元,用于每隔预设时间从对应的共享内存中导出每个数据流的处理结果;
输出单元,用于将导出的处理结果进行输出。
作为一种优选实施例,输出模块,包括:
获取单元,用于获取每个处理结果的传输规则,传输规则中包括每个处理结果对应的下一级设备的IP和端口号;
第二发送单元,用于根据每个处理结果的传输规则确定每个处理结果对应的下一级设备的信息,并根据每个处理结果对应的下一级设备的信息将每个处理结果发送至对应的下一级设备,下一级设备为下一级处理设备或应用设备。
本实施例提供的数据流处理设备,通过获取数据流传输设备根据数据流传输规则传输的数据流,并根据数据流的处理配置文件对数据流进行并行处理,得到数据流的处理结果,由于数据流的处理过程并未涉及到对文件的操作,且多个数据流可以并行处理,从而能够提高数据流的处理效率。
实施例五
参见图8,本发明实施例提供了一种数据流并行处理的系统,包括:
业务集群801、数据流处理集群802、数据流向控制集群803和数据处理逻辑控制集群804;
业务集群中包括至少一个数据流传输设备,数据流处理集群中包括至少一个数据流处理设备,数据流向控制集群中包括至少一个用于存储数据流的传输规则的数据流向控制设备,数据处理逻辑控制集群中包括至少一个用于存储数据流对应的处理配置文件的数据处理逻辑控制设备;
其中,数据流传输设备从数据流向控制设备获取数据流的传输规则,并按照获取的传输规则将数据流发送至数据流处理设备,数据流处理设备从数据处理逻辑控制设备获取数据流对应的处理配置文件,并按照获取到的处理配置文件对数据流进行处理;
数据流传输设备如上述实施例三提供的设备,具体详见上述实施例三的内容,此处不再赘述;
数据流处理设备上述实施例四提供的设备,具体详见上述实施例四的内容,此处不再赘述。
本实施例提供的系统,通过数据流传输设备获取数据流,并通过传输规则将获取到的数据流传输到对应的数据流处理设备,之后再由数据流处理设备根据数据流的处理配置文件对数据流进行并行处理,得到数据流的处理结果,由于数据流的处理过程并未涉及到对文件的操作,且多个数据流可以并行处理,从而能够提高数据流的处理效率。
需要说明的是:上述实施例提供的数据流传输设备在传输数据流以及数据流处理设备在处理数据流时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将数据流传输设备及数据流处理设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据流传输设备、数据流处理设备、数据流并行处理系统与数据流并行处理的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (19)

1.一种数据流并行处理的方法,其特征在于,所述方法包括:
获取至少一个数据流,并对于任一数据流,确定所述任一数据流的标识,并向存储有传输规则的数据流向控制设备发送传输规则查询请求,所述传输规则查询请求中携带所述任一数据流的标识,所述传输规则中包括数据流对应的处理设备的网际协议IP地址和端口号;
接收所述数据流向控制设备根据所述任一数据流的标识返回的传输规则,并将接收到的传输规则作为获取到的所述任一数据流的传输规则;
根据每个数据流的传输规则确定每个数据流对应的处理设备的信息;
根据每个数据流对应的处理设备的信息将每个数据流发送至对应的处理设备,由每个数据流对应的处理设备对每个数据流进行处理。
2.根据权利要求1所述的方法,其特征在于,所述根据每个数据流的传输规则确定每个数据流对应的处理设备的信息,包括:
对于任一数据流,如果获取到的所述任一数据流的传输规则中包括多个处理设备的IP地址和端口号,则在所述多个处理设备的IP地址和端口号中选择一个处理设备的IP地址和端口号作为确定的所述任一数据流对应的处理设备的信息。
3.一种数据流并行处理的方法,其特征在于,所述方法包括:
接收上一级设备发送的至少一个数据流,并获取每个数据流的处理配置文件,所述处理配置文件中包括数据流的处理方式信息及处理配置信息;所述至少一个数据流是所述上一级设备根据所述至少一个数据流的对应的传输规则确定得到的本地的IP地址和端口号,而发送到本地的;所述至少一个数据流的对应的传输规则是所述上一级设备从数据流向控制设备获取的;所述数据流向控制设备是根据所述上一级设备发送的所述至少一个数据流的标识确定所述至少一个数据流的对应的传输规则的;
根据每个数据流的处理配置文件对每个数据流进行并行处理,得到每个数据流的处理结果。
4.根据权利要求3所述的方法,其特征在于,所述接收上一级设备发送的至少一个数据流,包括:
接收上一级设备根据每个数据流的传输规则发送的数据流,所述上一级设备为上一级处理设备或数据流传输设备。
5.根据权利要求3所述的方法,其特征在于,所述获取每个数据流的处理配置文件,包括:
对于任一数据流,确定所述任一数据流的标识,并向存储有处理配置文件的数据处理逻辑控制设备发送处理配置文件查询请求,所述处理配置文件查询请求中携带所述任一数据流的标识;
接收所述数据处理逻辑控制设备根据所述任一数据流的标识返回的处理配置文件,并将接收到的处理配置文件作为获取到的所述任一数据流的处理配置文件。
6.根据权利要求3所述的方法,其特征在于,所述根据每个数据流的处理配置文件对每个数据流进行并行处理之前,还包括:
确定每个数据流对应的处理器;
所述根据每个数据流的处理配置文件对每个数据流进行并行处理,包括:
对于任一数据流,调度所述任一数据流对应的处理器按照所述任一数据流的处理配置文件对所述任一数据流进行处理,得到所述任一数据流的处理结果。
7.根据权利要求6所述的方法,其特征在于,所述得到所述任一数据流的处理结果之后,还包括:
输出每个数据流的处理结果。
8.根据权利要求7所述的方法,其特征在于,输出每个数据流的处理结果之前,还包括:
将每个数据流的处理结果存储到对应的处理器的共享内存中;
所述输出每个数据流的处理结果,包括:
每隔预设时间从对应的共享内存中导出每个数据流的处理结果,并将导出的处理结果进行输出。
9.根据权利要求7所述的方法,其特征在于,所述输出每个数据流的处理结果,包括:
获取每个处理结果的传输规则,所述传输规则中包括每个处理结果对应的下一级设备的IP和端口号;
根据每个处理结果的传输规则确定每个处理结果对应的下一级设备的信息,并根据每个处理结果对应的下一级设备的信息将每个处理结果发送至对应的下一级设备,所述下一级设备为下一级处理设备或应用设备。
10.一种数据流传输设备,其特征在于,所述设备包括:
第一获取模块,用于获取至少一个数据流;
第二获取模块,用于对于任一数据流,确定所述任一数据流的标识,并向存储有传输规则的数据流向控制设备发送传输规则查询请求,所述传输规则查询请求中携带所述任一数据流的标识,所述传输规则中包括数据流对应的处理设备的网际协议IP地址和端口号;接收所述数据流向控制设备根据所述任一数据流的标识返回的传输规则,并将接收到的传输规则作为获取到的所述任一数据流的传输规则;
确定模块,用于根据每个数据流的传输规则确定每个数据流对应的处理设备的信息;
发送模块,用于根据每个数据流对应的处理设备的信息将每个数据流发送至对应的处理设备,由每个数据流对应的处理设备对每个数据流进行处理。
11.根据权利要求10所述的设备,其特征在于,所述确定模块,用于对于任一数据流,如果获取到的所述任一数据流的传输规则中包括多个处理设备的IP地址和端口号,则在所述多个处理设备的IP地址和端口号中选择一个处理设备的IP地址和端口号作为确定的所述任一数据流对应的处理设备的信息。
12.一种数据流处理设备,其特征在于,所述设备包括:
接收模块,用于接收上一级设备发送的至少一个数据流;所述至少一个数据流是所述上一级设备根据所述至少一个数据流的对应的传输规则确定得到的本地的IP地址和端口号,而发送到本地的;所述至少一个数据流的对应的传输规则是所述上一级设备从数据流向控制设备获取的;所述数据流向控制设备是根据所述上一级设备发送的所述至少一个数据流的标识确定所述至少一个数据流的对应的传输规则的;
获取模块,用于获取每个数据流的处理配置文件,所述处理配置文件中包括数据流的处理方式信息及处理配置信息;
处理模块,用于根据每个数据流的处理配置文件对每个数据流进行并行处理,得到每个数据流的处理结果。
13.根据权利要求12所述的设备,其特征在于,所述接收模块,用于接收上一级设备根据每个数据流的传输规则发送的数据流,所述上一级设备为上一级处理设备或数据流传输设备。
14.根据权利要求12所述的设备,其特征在于,所述获取模块,包括:
第一发送单元,用于对于任一数据流,确定所述任一数据流的标识,并向存储有处理配置文件的数据处理逻辑控制设备发送处理配置文件查询请求,所述处理配置文件查询请求中携带所述任一数据流的标识;
接收单元,用于接收所述数据处理逻辑控制设备根据所述任一数据流的标识返回的处理配置文件,并将接收到的处理配置文件作为获取到的所述任一数据流的处理配置文件。
15.根据权利要求12所述的设备,其特征在于,所述设备,还包括:
确定模块,用于确定每个数据流对应的处理器;
所述处理模块,用于对于任一数据流,调度所述任一数据流对应的处理器按照所述任一数据流的处理配置文件对所述任一数据流进行处理,得到所述任一数据流的处理结果。
16.根据权利要求15所述的设备,其特征在于,所述设备,还包括:
输出模块,用于输出每个数据流的处理结果。
17.根据权利要求16所述的设备,其特征在于,所述设备,还包括:
存储模块,用于将每个数据流的处理结果存储到对应的处理器的共享内存中;
所述输出模块,包括:
导出单元,用于每隔预设时间从对应的共享内存中导出每个数据流的处理结果;
输出单元,用于将导出的处理结果进行输出。
18.根据权利要求16所述的设备,其特征在于,所述输出模块,包括:
获取单元,用于获取每个处理结果的传输规则,所述传输规则中包括每个处理结果对应的下一级设备的IP和端口号;
第二发送单元,用于根据每个处理结果的传输规则确定每个处理结果对应的下一级设备的信息,并根据每个处理结果对应的下一级设备的信息将每个处理结果发送至对应的下一级设备,所述下一级设备为下一级处理设备或应用设备。
19.一种数据流并行处理的系统,其特征在于,所述系统包括:业务集群、数据流处理集群、数据流向控制集群和数据处理逻辑控制集群;
所述业务集群中包括至少一个数据流传输设备,所述数据流处理集群中包括至少一个数据流处理设备,所述数据流向控制集群中包括至少一个用于存储数据流的传输规则的数据流向控制设备,所述数据处理逻辑控制集群中包括至少一个用于存储数据流对应的处理配置文件的数据处理逻辑控制设备;
其中,所述数据流传输设备从所述数据流向控制设备获取数据流的传输规则,并按照获取的传输规则将数据流发送至所述数据流处理设备,所述数据流处理设备从所述数据处理逻辑控制设备获取数据流对应的处理配置文件,并按照获取到的处理配置文件对所述数据流进行处理;
所述数据流传输设备如所述权利要求10至11中任一权利要求所述的设备,所述数据流处理设备如所述权利要求12至18中任一权利要求所述的设备。
CN201310344091.6A 2013-08-08 2013-08-08 数据流并行处理的方法、设备及系统 Active CN104346135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310344091.6A CN104346135B (zh) 2013-08-08 2013-08-08 数据流并行处理的方法、设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310344091.6A CN104346135B (zh) 2013-08-08 2013-08-08 数据流并行处理的方法、设备及系统

Publications (2)

Publication Number Publication Date
CN104346135A CN104346135A (zh) 2015-02-11
CN104346135B true CN104346135B (zh) 2018-06-15

Family

ID=52501842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310344091.6A Active CN104346135B (zh) 2013-08-08 2013-08-08 数据流并行处理的方法、设备及系统

Country Status (1)

Country Link
CN (1) CN104346135B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778258B (zh) * 2015-04-21 2018-04-24 华中科技大学 一种面向协议数据流的数据抽取方法
CN105320636B (zh) * 2015-09-29 2018-07-13 北京航天发射技术研究所 Can总线数据等效装置及数据处理方法
CN106649352B (zh) * 2015-10-30 2020-03-03 北京国双科技有限公司 数据处理方法及装置
CN109937408A (zh) * 2016-11-14 2019-06-25 深圳市大疆创新科技有限公司 处理器间的数据流调度
CN108270731A (zh) * 2016-12-30 2018-07-10 中兴通讯股份有限公司 一种数据流传输方法、装置及相关设备
CN106790632B (zh) * 2017-01-03 2020-07-14 北京奇虎科技有限公司 一种流数据的并发传输方法和装置
CN108450033B (zh) * 2017-05-31 2020-12-15 华为技术有限公司 跨平台流式数据流
CN108563518A (zh) * 2018-04-08 2018-09-21 广州视源电子科技股份有限公司 主从机通信方法、装置、终端设备及存储介质
CN110196824B (zh) 2018-05-31 2022-12-09 腾讯科技(深圳)有限公司 实现数据传输的方法及装置、电子设备
CN109918354B (zh) * 2019-03-01 2022-11-04 浪潮商用机器有限公司 一种基于hdfs的磁盘定位方法、装置、设备及介质
CN111224979B (zh) * 2019-12-31 2022-02-18 厦门美域中央信息科技有限公司 一种基于ip数据流分析的链路通信监控视图构建方法
CN111756649A (zh) * 2020-05-29 2020-10-09 浪潮电子信息产业股份有限公司 一种数据传输方法、装置、设备及计算机可读存储介质
CN114866514B (zh) * 2022-04-29 2023-02-28 中国科学院信息工程研究所 多用户数据流转控制与处理方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388844A (zh) * 2008-11-07 2009-03-18 东软集团股份有限公司 一种数据流程的处理方法和系统
CN102201992A (zh) * 2011-05-25 2011-09-28 上海理工大学 面向流处理器并行环境的数据流通信系统及其通信方法
CN102957622A (zh) * 2011-08-16 2013-03-06 阿里巴巴集团控股有限公司 一种数据处理的方法、装置及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7123581B2 (en) * 2001-10-09 2006-10-17 Tellabs Operations, Inc. Method and apparatus to switch data flows using parallel switch fabrics

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388844A (zh) * 2008-11-07 2009-03-18 东软集团股份有限公司 一种数据流程的处理方法和系统
CN102201992A (zh) * 2011-05-25 2011-09-28 上海理工大学 面向流处理器并行环境的数据流通信系统及其通信方法
CN102957622A (zh) * 2011-08-16 2013-03-06 阿里巴巴集团控股有限公司 一种数据处理的方法、装置及系统

Also Published As

Publication number Publication date
CN104346135A (zh) 2015-02-11

Similar Documents

Publication Publication Date Title
CN104346135B (zh) 数据流并行处理的方法、设备及系统
CN105765578B (zh) 分布式文件系统中的数据的并行访问
US20110265098A1 (en) Message Passing with Queues and Channels
CN110537169A (zh) 分布式计算系统中的集群资源管理
JP2003273951A (ja) 情報処理装置および通信路選択方法
CN106487850A (zh) 一种云环境下获取镜像的方法、装置和系统
US20150081912A1 (en) Computer-based, balanced provisioning and optimization of data transfer resources for products and services
CN102725753A (zh) 优化数据访问的方法及装置、优化数据存储的方法及装置
WO2011120791A1 (en) Transmission of map-reduce data based on a storage network or a storage network file system
US9348855B2 (en) Supporting big data in enterprise content management systems
CN105677904B (zh) 基于分布式文件系统的小文件存储方法及装置
US20210334409A1 (en) Integrity verification in cloud key-value stores
KR100834361B1 (ko) 단일 시스템에서 효율적으로 지원하는 다중 원시 네트워크 프로토콜 구현
CN109726004A (zh) 一种数据处理方法及装置
CN104199912B (zh) 一种任务处理的方法及装置
CN107959695A (zh) 一种数据传输方法及装置
US9215294B2 (en) Management of communications between a client equipment and a server equipment providing to the client equipment computer resources represented according to a file system
US10387195B2 (en) Method, apparatus, and computer-readable medium for performing a data exchange on a data exchange framework
CN105814864B (zh) 一种输入输出io请求处理方法及文件服务器
CN104239508A (zh) 数据查询方法和装置
US9641611B2 (en) Logical interface encoding
US20110246582A1 (en) Message Passing with Queues and Channels
CN110417777A (zh) 一种优化的微服务间通信的方法及装置
JP3598522B2 (ja) 分散型データベース管理装置
JPWO2016092604A1 (ja) データ処理システムおよびデータアクセス方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190730

Address after: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Co-patentee after: Tencent cloud computing (Beijing) limited liability company

Patentee after: Tencent Technology (Shenzhen) Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.

TR01 Transfer of patent right