CN106168963A

CN106168963A - 实时流数据的处理方法、装置及服务器

Info

Publication number: CN106168963A
Application number: CN201610509735.6A
Authority: CN
Inventors: 郑汉彬; 王维
Original assignee: Beijing Kingsoft Internet Security Software Co Ltd
Current assignee: Beijing Kingsoft Internet Security Software Co Ltd
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2016-11-30
Anticipated expiration: 2036-06-30
Also published as: CN106168963B

Abstract

本发明提供了一种实时流数据的处理方法、装置及服务器。所述方法包括：对待处理数据根据键值进行哈希分片，得到记录多个分片数据的哈希表；将每个单位时间内的流数据进行哈希运算，得到每个单位时间内的流数据的键值；根据哈希表和每个单位时间内的流数据的键值，将每个单位时间内的流数据发送到对应的分片数据，进行数据连接生成数据集。所述装置包括分片模块、哈希模块和数据连接模块。本发明通过对待处理数据的分片处理，在数据连接时，能够先根据键值找到流数据对应的分片数据，再将每个单位时间内的流数据发送到对应的分片数据，进行数据连接生成数据集，每个单位时间内的流数据不再需要过多的网络传输操作，显著减小了数据连接操作的延迟。

Description

实时流数据的处理方法、装置及服务器

技术领域

本发明涉及大数据处理技术领域，尤其涉及实时流数据的处理方法、装置及服务器。

背景技术

随着搜索引擎，广告系统和推荐系统等技术在互联网企业中越来越广泛的应用，用户的浏览、点击等行为的实时收集和聚合计算变得越来越重要。若对用户行为进行分析，进行数据连接是大数据处理领域的重要操作，通过数据连接，可以结合多个不同的数据集发现更多的数据特征。

当前大数据处理中的数据连接方法主要有两种：

方法一、量级相当的两个数据集的连接。这种方式下，一般会根据连接操作使用的键值，将两个数据集中键值相同的数据项通过网络传输到同一个进程中完成连接操作。方法二、量级相差较大的两个数据集的连接。这种方式下，一般会将整个小数据集通过网络传输到大数据集每个分片所在机器上，然后计算进程根据键值将大数据集的一个分片和整个小数据集做连接。

因实时流数据处理系统对数据操作的延迟有较高的要求，上述两种方式若直接应用到实时流数据处理系统中，存在如下不足：

现有方式一，在数据连接过程中需要进行两次网络上的传输和三次内存中的计算，复杂的内存操作必然显著增加数据处理延迟；现有方式二，需要在网络上对小数据集进行过多的传输，会显著增加数据处理延迟。

发明内容

本发明实施例提出了一种实时流数据的处理方法、装置及服务器，能够解决数据处理延迟的问题，本发明能够显著减小数据连接操作的延迟。

第一方面，本发明实施例提供了一种实时流数据的处理方法，所述方法包括：

对待处理数据根据键值进行哈希分片，得到记录多个分片数据的哈希表；

将每个单位时间内的流数据进行哈希运算，得到所述每个单位时间内的流数据的键值；

根据所述哈希表和所述每个单位时间内的流数据的键值，将所述每个单位时间内的流数据发送到对应的分片数据所在的服务器，进行数据连接生成数据集。

其中，所述根据所述哈希表和所述每个单位时间内的流数据的键值，将所述每个单位时间内的流数据发送到对应的分片数据所在的服务器，具体包括：

根据所述每个单位时间内的流数据的键值，在所述哈希表中查找对应的分片数据；

查找到对应的分片数据时，获取所述分片数据所在的服务器地址；

根据所述服务器地址，将所述单位时间内的流数据发送到对应的服务器。

其中，所述每个单位时间内的哈希算法与待处理数据进行哈希分片的哈希算法相同。所述方法适用于Spark Streaming流数据处理平台、Hadoop MapReduce平台或Storm平台。

优选地，所述待处理数据的分片数据存储一个服务器或不同的服务器。

第二方面，本发明实施例提供了一种实时流数据的处理装置，所述处理装置包括：

分片模块，用于对待处理数据根据键值进行哈希分片，得到记录多个分片数据的哈希表；

哈希模块，用于将每个单位时间内的流数据进行哈希运算，得到所述每个单位时间内的流数据的键值；

数据连接模块，用于根据所述分片模块得到的所述哈希表和所述哈希模块得到的所述每个单位时间内的流数据的键值，将所述每个单位时间内的流数据发送到对应的分片数据所在的服务器，进行数据连接生成数据集。

其中，所述数据连接模块包括：

查找单元，用于根据哈希模块得到的所述每个单位时间内的流数据的键值，在所述分片模块的哈希表中查找对应的分片数据；

获取单元，用于当所述查找单元查找到对应的分片数据时，获取所述分片数据所在的服务器地址；

发送单元，用于根据所述服务器地址，将所述单位时间内的流数据发送到对应的服务器；

连接单元，用于将所述单位时间内的流数据与所述待处理数据的分片数据进行数据连接生成数据集。

其中，所述哈希模块中每个单位时间内的哈希算法与所述分片模块中待处理数据进行哈希分片的哈希算法相同。所述服务器位于Spark Streaming流数据处理平台、HadoopMapReduce平台或Storm平台。

优选地，所述分片模块得到的待处理数据的分片数据存储一个服务器或不同的服务器。

第三方面，本发明实施例提供了一种服务器，包括分片服务器、流数据服务器和主控服务器，所述分片服务器与所述流数据服务器与所述主控服务器连接；

分片服务器，用于对待处理数据根据键值进行哈希分片，得到记录多个分片数据的哈希表；

流数据服务器，用于将每个单位时间内的流数据进行哈希运算，得到所述每个单位时间内的流数据的键值；

主控服务器，用于根据所述分片服务器得到的所述哈希表和所述流数据服务器得到的每个单位时间内的流数据的键值，将所述每个单位时间内的流数据发送到对应的分片数据所在的分片服务器，进行数据连接生成数据集。

有益效果如下：

本发明通过首先对待处理数据进行分片处理，因而在将单位时间内的流数据连接到待处理数据时，根据单位时间内的流数据的键值和哈希表中记录的键值进行比对，找到要连接的对应的分片数据，然后才将每个单位时间内的流数据发送到对应的分片数据，进行数据连接生成数据集，每个单位时间内的流数据不再需要过多的网络传输操作，且因不需要在进程中完成连接操作，不存在复杂的内存操作，因此，本发明能够显著减小数据连接操作的延迟。

附图说明

下面将参照附图描述本发明的具体实施例，其中：

图1示出了本发明实施例一中实时流数据的处理方法的流程示意图；

图2示出了本发明实施例一中Spark Streaming数据连接操作处理流程示意图；

图3示出了本发明实施例二中实时流数据的处理方法的流程示意图；

图4示出了本发明实施例二中数据连接操作的示意图；

图5示出了本发明实施例三中实时流数据的处理装置的结构示意图；

图6示出了本发明实施例三中实时流数据的处理装置的另一结构示意图；

图7示出了本发明实施例四中服务器的结构示意图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图对本发明的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本发明的一部分实施例，而不是所有实施例的穷举。并且在不冲突的情况下，本说明中的实施例及实施例中的特征可以互相结合。

发明人在发明过程中注意到：实时流数据中的数据连接操作常见于一个单位时间内中的流数据和一个相对固定的大数据集合之间。大数据一般指单个机器处理不了的数据，如单个机器无法存储或无法传输处理的数据。实时流数据处理装置对数据操作的延迟有较高的要求。而当前的大数据处理领域使用的数据连接算法，要么需要过多的网络传输操作，要么需要过于复杂的内存操作，这样都会显著增加数据处理延迟。

基于此，本发明实施例提出了实时流数据的处理方法及装置，先对待处理数据进行分片处理，因而在将单位时间内的流数据连接到待处理数据时，根据单位时间内的流数据的键值和哈希表中记录的键值进行比对，然后才将每个单位时间内的流数据发送到对应的分片数据所在服务器，进行数据连接生成数据集，每个单位时间内的流数据不再需要过多的网络传输操作，且因不需要在进程中完成连接操作，不存在复杂的内存操作，因此，能够显著减小数据连接操作的延迟。

实施例一

图1示出了本发明实施例中实时流数据的处理方法的流程示意图，如图所示，包括：

步骤101、对待处理数据根据键值进行哈希分片，得到记录多个分片数据的哈希表；

步骤102、将每个单位时间内的流数据进行哈希运算，得到每个单位时间内的流数据的键值；

步骤103、根据哈希表和每个单位时间内的流数据的键值，将每个单位时间内的流数据发送到对应的分片数据所在的服务器，进行数据连接生成数据集。

本发明的方案适用于Spark Streaming流数据处理平台，如图2所示，大的圆角方框代表待处理数据，相对固定。单位时间内数据集中的每个圆角方框代表一个单位时间内的数据，实际过程中，因流数据要满足实时性，单位时间的量值比较小，单位时间内的数据也可以称为小时间片数据，连续的流数据被切分成了离散的小时间片数据。每个小时间片内的数据通过与待处理数据集合的连接操作，生成这个小时间片内的数据连接操作输出，由图2右边的小圆角方框表示。

本发明利用Spark Streaming平台的数据分片功能和透明的网络传输功能，实现本发明提出的数据连接操作。同时，本方案也适用于Hadoop MapReduce平台或Storm平台。

本发明通过对待处理数据进行分片处理，因而在将单位时间内的流数据连接到待处理数据时，根据单位时间内的流数据的键值和哈希表中记录的键值，就能知道将单位时间内的流数据与哪个分片数据进行连接，将每个单位时间内的流数据发送到对应的分片数据所在服务器，进行数据连接生成数据集，每个单位时间内的流数据不再需要过多的网络传输操作，且因不需要在进程中完成连接操作，不存在复杂的内存操作，显著减小了数据连接操作的延迟。

本发明实施例二以实际中流数据的处理方法为例，对本发明实施例一进行详细描述。

图3示出了本发明实施例中实时流数据的处理方法的流程示意图，如图所示，包括：

步骤201、对待处理数据根据键值进行哈希分片，得到记录多个分片数据的哈希表；

其中，该步骤对待处理数据进行分片操作，目的是将待处理数据根据键值分为多个小的分片数据，因而在与流数据进行连接时，可以根据流数据的键值与分片数据的键值，先进行匹配操作，然后再将流数据发送给对应的分片数据所在服务器进行数据连接，与现有的将流数据传输到不同待处理数据所在的服务器需要多次传输方式的方案相比，大大减少了流数据的网络传输。

大数据集被预先根据键值进行哈希分片并且每个分片内都使用哈希表结构进行存储，方便快速查询。通过待处理数据的预先哈希分片减少网络开销，通过哈希表结构的快速查询特点降低内存操作时间。

步骤202、将每个单位时间内的流数据进行哈希运算，得到每个单位时间内的流数据的键值；

其中，该步骤中对单位时间内的流数据进行哈希运算的哈希算法，一般来说与待处理数据的哈希算法相同。对于每个单位时间内的流数据均进行一次哈希运算，得到每个单位时间内的流数据的键值。每个时间片内的每个数据项都会根据相同的哈希函数传输到大数据集的分片数据所在的机器。这样，在一次数据连接操作中只有一次网络传输操作。

步骤203、根据每个单位时间内的流数据的键值，在哈希表中查找对应的分片数据；

该步骤完成数据连接操作只需要用小数据集每一项的键值去查询特定大数据集分片的哈希表，这个操作的复杂性是0(1)的。

结合图3所示的实时流数据的处理方法的流程示意图，对该步骤进行说明，因待处理数据已经进行预先哈希分片得到多个分片数据，而单位时间内的流数据本身就是多个时间片，在将每个时间片的流数据连接到待处理数据时，首先根据该时间片的流数据的键值到待处理数据的分片数据的键值中进行查找，查找到匹配的键值时，则将该时间片的流数据发送给该键值对应的待处理数据进行数据连接操作，生成新的数据集。

其中，本发明中所述的每个单位时间内的流数据，可以是根据实际应用环境需求，按照一定的时间段生成的流数据，如一个小时的流数据、一天的流数据、一周的流数据等，都可以称为时间片的流数据，本发明在此不做具体限定。

步骤204、查找到对应的分片数据时，获取分片数据所在的服务器地址；

其中，在上述步骤查找到对应的分片数据时，需要查找该分片数据所在的服务器地址，然后才能将流数据发送到对应的服务器上，与待处理的大数据进行连接。

具体地，根据数据ID和分片ID，可用从集群的数据管理单元中获取到数据分片所在的服务器地址。数据管理单元常见于各种分布式系统中，比如Hadoop中的NameNode和Spark中的BlockManager。

获取服务器地址的方式常用主流方式，在此详细描述，是为了便于本领域技术人员使用或理解。

步骤205、将单位时间内的流数据发送到对应的服务器；

根据获取的服务器地址，将该单位时间内的流数据发送到对应的服务器上。

步骤206、将单位时间内的流数据与待处理数据的分片数据进行数据连接生成数据集。

具体的数据连接操作，可以是将单位时间内的流数据连接到待处理数据的分片数据后面，也可以是将待处理数据的分片数据连接到单位时间内的流数据后面。

本发明先对待处理数据进行分片处理，因而在将单位时间内的流数据连接到待处理数据时，根据单位时间内的流数据的键值和哈希表中记录的键值进行比对，然后才将每个单位时间内的流数据发送到对应的分片数据，进行数据连接生成数据集，每个单位时间内的流数据不再需要过多的网络传输操作，且因不需要在进程中完成连接操作，不存在复杂的内存操作，能够显著了减小数据连接操作的延迟。

基于同一发明构思，本发明实施例中还提供了一种实时流数据的处理装置，由于这些设备解决问题的原理与一种实时流数据的方法相似，因此这些设备的实施可以参见方法的实施，重复之处不再赘述。

如图5所示，处理装置可以包括：

分片模块301，用于对待处理数据根据键值进行哈希分片，得到记录多个分片数据的哈希表；

哈希模块302，用于将每个单位时间内的流数据进行哈希运算，得到所述每个单位时间内的流数据的键值；

数据连接模块303，用于根据所述分片模块得到的所述哈希表和所述哈希模块得到的所述每个单位时间内的流数据的键值，将所述每个单位时间内的流数据发送到对应的分片数据所在的服务器，进行数据连接生成数据集。

其中，参见图6，数据连接模块303包括：

查找单元3031，用于根据哈希模块得到的所述每个单位时间内的流数据的键值，在所述分片模块的哈希表中查找对应的分片数据；

获取单元3032，用于当所述查找单元3031查找到对应的分片数据时，获取所述分片数据所在的服务器地址；

发送单元3033，用于根据所述服务器地址，将所述单位时间内的流数据发送到所述服务器；

连接单元3034，用于将所述单位时间内的流数据与所述待处理数据的分片数据进行数据连接生成数据集。

其中，哈希模块302中每个单位时间内的哈希算法与分片模块中待处理数据进行哈希分片的哈希算法相同。

其中，分片模块301得到的待处理数据的分片数据存储一个服务器或不同的服务器。

本发明提供的处理装置，由分片模块对待处理数据进行分片处理，在数据连接模块进行数据连接时，可以根据单位时间内的流数据的键值和哈希表中记录的键值进行比对，然后才将每个单位时间内的流数据发送到对应的分片数据所在服务器，进行数据连接生成数据集，每个单位时间内的流数据不再需要过多的网络传输操作，且因不需要在进程中完成连接操作，不存在复杂的内存操作，能够显著了减小数据连接操作的延迟。

实施例四

本实施例提供了一种服务器，参见图7，该服务器400包括流数据服务器401、分片服务器402和主控服务器403，分片服务器402与流数据服务器401与主控服务器403连接；

分片服务器402，用于对待处理数据根据键值进行哈希分片，得到记录多个分片数据的哈希表；

流数据服务器401，用于将每个单位时间内的流数据进行哈希运算，得到所述每个单位时间内的流数据的键值；

主控服务器403，用于根据分片服务器402得到的所述哈希表和流数据服务器401得到的每个单位时间内的流数据的键值，将所述每个单位时间内的流数据发送到对应的分片数据所在的分片服务器，进行数据连接生成数据集。

实际应用中，分片服务器可以包括多个分片模块，各个分片模块对不同的待处理数据并行实现哈希分片，提高对数据的处理速度，流数据服务器也可以包括多个哈希模块，各个哈希模块对不同的单位时间内的流数据进行并行处理。

本发明提供的服务器，将待处理数据进行分片处理，主控服务器进行数据连接时，可以根据单位时间内的流数据的键值和哈希表中记录的键值进行比对，然后才将每个单位时间内的流数据发送到对应的分片数据所在分片服务器，进行数据连接生成数据集，每个单位时间内的流数据不再需要过多的网络传输操作，且因不需要在进程中完成连接操作，不存在复杂的内存操作，能够显著了减小数据连接操作的延迟。

为了描述的方便，以上装置的各部分以功能分为各种模块或单元分别描述。当然，在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种实时流数据的处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述哈希表和所述每个单位时间内的流数据的键值，将所述每个单位时间内的流数据发送到对应的分片数据所在的服务器，具体包括：

3.如权利要求1或2所述的方法，其特征在于，所述每个单位时间内的流数据的哈希算法与待处理数据进行哈希分片的哈希算法相同。

4.如权利要求1或2所述的方法，其特征在于，所述待处理数据的分片数据存储在一个服务器或存储在不同的服务器。

5.如权利要求1-4任一所述的方法，其特征在于，所述方法适用于Spark Streaming流数据处理平台、Hadoop MapReduce平台或Storm平台。

6.一种实时流数据的处理装置，其特征在于，所述处理装置包括：

7.如权利要求6所述的处理装置，其特征在于，所述数据连接模块包括：

8.如权利要求6或7所述的处理装置，其特征在于，所述哈希模块中每个单位时间内的哈希算法与所述分片模块中待处理数据进行哈希分片的哈希算法相同。

9.如权利要求6或7所述的处理装置，其特征在于，所述分片模块得到的待处理数据的分片数据存储一个服务器或不同的服务器。

10.如权利要求6-9任一所述的处理装置，其特征在于，所述服务器位于SparkStreaming流数据处理平台、Hadoop MapReduce平台或Storm平台。