CN112948432B

CN112948432B - 数据处理方法和数据处理装置

Info

Publication number: CN112948432B
Application number: CN201911262422.5A
Authority: CN
Inventors: 安翔宇; 刘重阳; 周松桥; 石泽涛
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2023-10-13
Anticipated expiration: 2039-12-11
Also published as: CN112948432A

Abstract

本公开提供了一种数据处理方法和数据处理装置。数据处理方法包括：数据采集端采集流式数据文件，并获得流式数据文件的文件路径，根据该文件路径以及文件路径与数据类型的对应关系获得流式数据文件的数据类型，进而获得该流式数据文件的资源优先级；数据采集端根据该流式数据文件的资源优先级生成哈夫曼编码，并将流式数据文件和对应的哈夫曼编码传输到传输管道层；传输管道层对流式数据文件进行缓存，根据流式数据文件的哈夫曼编码获得该流式数据文件的资源优先级，并根据该资源优先级将该流式数据文件传输到数据输出端；以及数据输出端将该流式数据文件传输到外部设备。本公开提高了数据的处理效率和灵活性。

Description

数据处理方法和数据处理装置

技术领域

本公开涉及数据处理技术领域，特别涉及一种数据处理方法和数据处理装置。

背景技术

目前，各大互联网公司已经拥有PB(petabyte，拍字节)级数据存量，百TB(terabyte，太字节)级数据日增量。在这样的背景下，出现了流式数据处理这一解决方案。

针对多种数据的不同清洗规则的处理方法，目前主流是分别进行业务逻辑编写，这种方法的弊端是维护成本较高，且随着业务类型的增长，代码逻辑复杂性呈现倍速增长。而且针对不同协议的传输目标，需要重复提交，冗余性较高。

当前，主流的流式数据处理技术是Hadoop架构下Storm，需要设计一个用于实时计算的图状结构，我们称之为拓扑(topology)。这个拓扑将会被提交给集群，由集群中的主控节点(master node)分发代码，将任务分配给工作节点(worker node)执行。但是这种方案适用于单一数据源，在不同数据源需要数值匹配的过程中，并不能很好的适配业务需求。

在现有技术中，存在数据只能先到先处理的问题，因此，流式数据的处理方法的处理效率和灵活性还有待进一步提高。

发明内容

本公开解决的一个技术问题是：提供一种用于流式数据的数据处理方法，以提高数据的处理效率和灵活性。

根据本公开的一个方面，提供了一种数据处理方法，包括：数据采集端采集流式数据文件，并获得所述流式数据文件的文件路径，根据所述文件路径以及文件路径与数据类型的对应关系获得所述流式数据文件的数据类型，并根据所述数据类型以及数据类型与资源优先级的对应关系获得所述流式数据文件的资源优先级；所述数据采集端根据所述流式数据文件的资源优先级生成所述流式数据文件的哈夫曼编码，并将所述流式数据文件和所述哈夫曼编码传输到传输管道层；所述传输管道层对所述流式数据文件进行缓存，根据所述流式数据文件的哈夫曼编码获得所述流式数据文件的资源优先级，并根据所述流式数据文件的资源优先级将所述流式数据文件传输到数据输出端；以及所述数据输出端将所述流式数据文件传输到外部设备。

在一些实施例中，所述传输管道层的拓扑结构为有向无环图结构。

在一些实施例中，所述传输管道层包括总传输节点和多个分传输节点，其中，所述总传输节点分别与所述数据采集端和所述多个分传输节点连接，所述总传输节点和所述多个分传输节点按照从所述数据采集端指向所述数据输出端的方向组成有向无环图结构。

在一些实施例中，所述数据处理方法还包括：所述数据输出端监控所述外部设备的负载情况，并将所述外部设备的负载情况反馈给所述总传输节点；以及所述总传输节点根据所述外部设备的负载情况动态平衡所述流式数据文件的传输量。

在一些实施例中，所述数据处理方法还包括：所述数据采集端根据所述流式数据文件的文件路径以及文件路径与数据清洗规则的对应关系获得与所述流式数据文件对应的数据清洗规则，根据与所述流式数据文件对应的数据清洗规则对所述流式数据文件进行数据清洗；其中，所述数据采集端将经过数据清洗后的所述流式数据文件传输到所述传输管道层；

在一些实施例中，所述数据采集端采集流式数据文件的步骤包括：所述数据采集端实时监听用户上传数据事件，当监听到所述用户上传流式数据文件后，采集到所述流式数据文件。

根据本公开的另一个方面，提供了一种数据处理装置，包括：数据采集端，用于采集流式数据文件，并获得所述流式数据文件的文件路径，根据所述文件路径以及文件路径与数据类型的对应关系获得所述流式数据文件的数据类型，并根据所述数据类型以及数据类型与资源优先级的对应关系获得所述流式数据文件的资源优先级，根据所述流式数据文件的资源优先级生成所述流式数据文件的哈夫曼编码，并将所述流式数据文件和所述哈夫曼编码传输到传输管道层；所述传输管道层，用于对所述流式数据文件进行缓存，根据所述流式数据文件的哈夫曼编码获得所述流式数据文件的资源优先级，并根据所述流式数据文件的资源优先级将所述流式数据文件传输到数据输出端；以及所述数据输出端，用于将所述流式数据文件传输到外部设备。

在一些实施例中，所述数据输出端还用于监控所述外部设备的负载情况，并将所述外部设备的负载情况反馈给所述总传输节点；所述总传输节点用于根据所述外部设备的负载情况动态平衡所述流式数据文件的传输量。

在一些实施例中，所述数据采集端还用于根据所述流式数据文件的文件路径以及文件路径与数据清洗规则的对应关系获得与所述流式数据文件对应的数据清洗规则，根据与所述流式数据文件对应的数据清洗规则对所述流式数据文件进行数据清洗；其中，所述数据采集端将经过数据清洗后的所述流式数据文件传输到所述传输管道层；

在一些实施例中，所述数据采集端用于实时监听用户上传数据事件，当监听到所述用户上传流式数据文件后，采集到所述流式数据文件。

根据本公开的另一个方面，提供了一种数据处理装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如前所述的方法。

根据本公开的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如前所述的方法的步骤。

在上述数据处理方法中，数据采集端采集流式数据文件，并获得该流式数据文件的文件路径，根据该文件路径以及文件路径与数据类型的对应关系获得该流式数据文件的数据类型，并根据该数据类型以及数据类型与资源优先级的对应关系获得该流式数据文件的资源优先级；该数据采集端根据该流式数据文件的资源优先级生成该流式数据文件的哈夫曼编码，并将该流式数据文件和该流式数据文件的哈夫曼编码传输到传输管道层；该传输管道层对该流式数据文件进行缓存，根据该流式数据文件的哈夫曼编码获得该流式数据文件的资源优先级，并根据该流式数据文件的资源优先级将该流式数据文件传输到数据输出端；以及该数据输出端将该流式数据文件传输到外部设备。上述数据处理方法可以根据数据的不同优先级进行传输，改善了现有技术中数据只能先到先处理的问题，因而提高了数据的处理效率和灵活性。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示出根据本公开一些实施例的数据处理方法的流程图；

图2是示出根据本公开另一些实施例的数据处理方法的流程图；

图3是示出根据本公开一些实施例的数据处理装置的结构图；

图4是示出根据本公开另一些实施例的数据处理装置的结构图；

图5是示出根据本公开另一些实施例的数据处理装置的结构图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1是示出根据本公开一些实施例的数据处理方法的流程图。如图1所示，该数据处理方法包括步骤S102至S108。

在步骤S102，数据采集端采集流式数据文件，并获得该流式数据文件的文件路径，根据该文件路径以及文件路径与数据类型的对应关系获得该流式数据文件的数据类型，并根据该数据类型以及数据类型与资源优先级的对应关系获得该流式数据文件的资源优先级。

这里，流式数据文件的文件路径为该流式数据文件的存储位置。例如，某个数据文件的文件路径为/itf/dpi/fix/。

在一些实施例中，数据采集端采集流式数据文件的步骤可以包括：数据采集端实时监听用户上传数据事件，当监听到用户上传流式数据文件后，采集到该流式数据文件。

例如，数据采集端可以使用事件(EVENT，例如用户上传数据事件)为基本数据处理单元。数据采集端可以以FTP(File Transfer Protocol，文件传输协议)协议为基础进行定制开发监听用户上传事件。即，数据采集端可以通过FTP协议实时监听用户上传数据事件。数据采集端当监听到上传事件产生后，保持原有流式数据文件的存盘逻辑不变，获取该流式数据文件的文件路径。

例如，可以在数据采集端的配置文件中预先配置多个文件路径。该文件路径与流式数据文件可以是一一对应的关系。当数据采集端采集到流式数据文件后，根据该流式数据文件以及文件路径与流式数据文件的对应关系即可获得该流式数据文件的文件路径。如果采集到的流式数据文件没有对应的文件路径，则不处理这样的数据文件。

例如，数据采集端可以存储有文件路径与数据类型的对应关系(例如，一一对应关系)、数据类型与资源优先级的对应关系(例如，一一对应关系)。因此，该数据采集端可以根据所获得的流式数据文件的文件路径以及文件路径与数据类型的对应关系获得该流式数据文件的数据类型，并根据该流式数据文件的数据类型以及数据类型与资源优先级的对应关系获得该流式数据文件的资源优先级。

在步骤S104，数据采集端根据流式数据文件的资源优先级生成该流式数据文件的哈夫曼编码，并将该流式数据文件和该哈夫曼编码传输到传输管道层。

这里，可以利用哈夫曼编码作为流式数据文件的唯一标识。根据流式数据文件的资源优先级生成的哈夫曼编码用于唯一确定该流式数据文件。这里，数据在以报文传输时采用哈夫曼编码作为唯一标识，可以达到资源隔离的目的。

哈夫曼编码借助了数据结构当中的树型结构，在哈夫曼算法的支持下可以构造出最优二叉树，即哈夫曼树。因此，哈夫曼编码是在哈夫曼树的基础之上构造出来的一种编码形式。每个资源(例如流式数据文件)相当于最优二叉树的一个叶子节点。每个叶子节点的哈夫曼编码是唯一的，所以每个资源被唯一标识，达到资源隔离的目的。

在步骤S106，传输管道层对流式数据文件进行缓存，根据该流式数据文件的哈夫曼编码获得该流式数据文件的资源优先级，并根据该流式数据文件的资源优先级将该流式数据文件传输到数据输出端。

在一些实施例中，传输管道层的拓扑结构为有向无环图结构。例如，传输管道层可以包括总传输节点和多个分传输节点。该总传输节点分别与数据采集端和多个分传输节点连接。该总传输节点和该多个分传输节点按照从数据采集端指向数据输出端的方向组成有向无环图结构。

这里，有向无环图结构是指每个传输节点能够按照从数据采集端指向数据输出端的方向连接成网状结构，并且没有形成环路。因此，本领域技术人员能够理解该有向无环图的含义。

另外，这里需要说明的是，当描述到某个节点或结构连接其它节点或结构时，该某个节点或结构可以与所述其它节点或结构直接连接而不具有居间节点或结构，也可以不与所述其它节点或结构直接连接而具有居间节点或结构。例如，当描述总传输节点与多个分传输节点连接时，该总传输节点可以与某些分传输节点直接连接，也可以与另外的某些分传输节点不直接连接而具有居间的分传输节点。

上述传输通道层采用有向无环图，在出现性能瓶颈的时候，可以任意扩展通道，因此，横向扩展性更高。这样可以增强数据处理性能，加快处理速度。

在步骤S108，数据输出端将流式数据文件传输到外部设备。例如，该外部设备可以包括服务器。

至此，提供了根据本公开一些实施例的数据处理方法。该数据处理方法包括：数据采集端采集流式数据文件，并获得该流式数据文件的文件路径，根据该文件路径以及文件路径与数据类型的对应关系获得该流式数据文件的数据类型，并根据该数据类型以及数据类型与资源优先级的对应关系获得该流式数据文件的资源优先级；该数据采集端根据该流式数据文件的资源优先级生成该流式数据文件的哈夫曼编码，并将该流式数据文件和该流式数据文件的哈夫曼编码传输到传输管道层；该传输管道层对该流式数据文件进行缓存，根据该流式数据文件的哈夫曼编码获得该流式数据文件的资源优先级，并根据该流式数据文件的资源优先级将该流式数据文件传输到数据输出端；以及该数据输出端将该流式数据文件传输到外部设备。该数据处理方法可以根据数据的不同优先级进行传输，改善了现有技术中数据只能先到先处理的问题，因而提高了数据的处理效率和灵活性。

在一些实施例中，所述数据处理方法还可以包括：数据采集端根据流式数据文件的文件路径以及文件路径与数据清洗规则的对应关系获得与该流式数据文件对应的数据清洗规则，根据与该流式数据文件对应的数据清洗规则对该流式数据文件进行数据清洗；其中，数据采集端将经过数据清洗后的流式数据文件传输到传输管道层。该实施例可以实现对流式数据的清洗。

例如，数据采集端可以存储有文件路径与数据清洗规则的对应关系(例如，一一对应关系)，因此，数据采集端可以通过正则匹配(即根据流式数据文件的文件路径以及文件路径与数据清洗规则的对应关系)获得与该流式数据文件对应的数据清洗规则，从而按照该数据清洗规则对该流式数据文件进行数据清洗。

在一些实施例中，上述数据处理方法还可以包括：数据输出端监控外部设备的负载情况，并将该外部设备的负载情况反馈给总传输节点；以及总传输节点根据该外部设备的负载情况动态平衡流式数据文件的传输量。这里，通过数据输出端的负反馈，可以实现传输数据的动态平衡。

例如，数据输出端可以将某个流式数据文件传输到三个服务器(作为外部设备)A、B和C。这里，可以有三个数据输出端1、2和3，每个数据输出端对应一个服务器。例如，数据输出端1对应服务器A，数据输出端2对应服务器B，数据输出端3对应服务器C。当服务器A出现故障后，数据输出端1将该服务器A的负载情况反馈给总传输节点，总传输节点将对流式数据文件的传输量进行重新规划，使得输出到服务器A的数据传输量减少，而输出到服务器B和C的数据传输量增加，从而实现对流式数据文件的传输量的动态平衡。

在一些实施例中，数据输出端还可以获取剩余传输的数据量和传输速度并反馈给传输管道层；传输管道层根据获取的数据进行后续数据的分发，起到动态平衡的作用。

图2是示出根据本公开另一些实施例的数据处理方法的流程图。如图2所示，该数据处理方法可以包括步骤S202至S212。

在步骤S202，数据采集端采集流式数据文件，并获得该流式数据文件的文件路径，根据该文件路径以及文件路径与数据类型的对应关系获得该流式数据文件的数据类型，并根据该数据类型以及数据类型与资源优先级的对应关系获得该流式数据文件的资源优先级，根据该流式数据文件的文件路径以及文件路径与数据清洗规则的对应关系获得与该流式数据文件对应的数据清洗规则，根据与该流式数据文件对应的数据清洗规则对该流式数据文件进行数据清洗。

在步骤S204，数据采集端根据流式数据文件的资源优先级生成该流式数据文件的哈夫曼编码，并将经过数据清洗后的该流式数据文件和该流式数据文件的哈夫曼编码传输到传输管道层。

在步骤S206，传输管道层对流式数据文件进行缓存，根据该流式数据文件的哈夫曼编码获得该流式数据文件的资源优先级，并根据该流式数据文件的资源优先级将该流式数据文件传输到数据输出端。

在步骤S208，数据输出端将流式数据文件传输到外部设备。

在步骤S210，数据输出端监控外部设备的负载情况，并将该外部设备的负载情况反馈给传输管道层的总传输节点。

在步骤S212，总传输节点根据外部设备的负载情况动态平衡流式数据文件的传输量。

至此，提供了根据本公开另一些实施例的数据处理方法。通过对传输管道层建立拓扑结构，即对数据传输管道层构建有向无环图，可以实现数据的按优先级多路分发，并且采用数据输出端的负反馈，可以实现传输数据的动态平衡。该方法可以用于构建大数据流式数据处理架构。

本公开实施例的上述数据处理方法在数据量较大且处理逻辑复杂的情况下，处理机制更加灵活，横向扩展性更高，基于事件的处理机制使得每类接入数据可以作为一个独立处理单元，能够灵活应对不同清洗规则以及时效要求，具有高效采集、清洗的能力。而且上述方法根据传输管道层的拓扑设计和数据输出端的动态负载反馈，能够实现均衡的多路数据分发。该方法在实际生产场景中可以稳定、高效地处理流数据，增加系统的处理能力。

图3是示出根据本公开一些实施例的数据处理装置的结构图。如图3所示，数据处理装置300包括数据采集端310、传输管道层320和数据输出端(例如数据输出端331、332和333)。

数据采集端300用于采集流式数据文件，并获得该流式数据文件的文件路径，根据该文件路径以及文件路径与数据类型的对应关系获得该流式数据文件的数据类型，并根据该数据类型以及数据类型与资源优先级的对应关系获得该流式数据文件的资源优先级，根据该流式数据文件的资源优先级生成该流式数据文件的哈夫曼编码，并将该流式数据文件和该哈夫曼编码传输到传输管道层。

传输管道层320用于对流式数据文件进行缓存，根据该流式数据文件的哈夫曼编码获得该流式数据文件的资源优先级，并根据该流式数据文件的资源优先级将该流式数据文件传输到数据输出端。

数据输出端用于将流式数据文件传输到外部设备。例如，数据输出端331通过接收端340将流式数据文件传输到外部设备351，数据输出端332通过接收端340将流式数据文件传输到外部设备352，数据输出端333通过接收端340将流式数据文件传输到外部设备353。例如，外部设备351、352和353可以为服务器。

至此，提供了根据本公开一些实施例的数据处理装置。该数据处理装置包括数据采集端、传输管道层和数据输出端。数据采集端采集流式数据文件，并获得该流式数据文件的文件路径，根据该文件路径以及文件路径与数据类型的对应关系获得该流式数据文件的数据类型，并根据该数据类型以及数据类型与资源优先级的对应关系获得该流式数据文件的资源优先级，根据该流式数据文件的资源优先级生成该流式数据文件的哈夫曼编码，并将该流式数据文件和该流式数据文件的哈夫曼编码传输到传输管道层。传输管道层对该流式数据文件进行缓存，根据该流式数据文件的哈夫曼编码获得该流式数据文件的资源优先级，并根据该流式数据文件的资源优先级将该流式数据文件传输到数据输出端。数据输出端将该流式数据文件传输到外部设备。该数据处理装置可以根据数据的不同优先级进行传输，改善了现有技术中数据只能先到先处理的问题，因而提高了数据的处理效率和灵活性。

在一些实施例中，如图3所示，传输管道层320的拓扑结构为有向无环图结构。

例如，如图3所示，该传输管道层32可以包括总传输节点321和多个分传输节点322、323、324、325和326。该总传输节点321分别与数据采集端310和所述多个分传输节点连接。该总传输节点321和所述多个分传输节点322～326按照从数据采集端指向数据输出端的方向组成有向无环图结构。

例如，上面所述的多个分传输节点可以分成多级节点。例如可以按照与总传输节点的连接距离从近到远依次为第一级节点、第二级节点……第N级节点，N为正整数。例如，分传输节点322和323为第一级节点，分传输节点324、325和326为第二级节点。按照级联的方式将这些传输节点连接起来。这样从整体上看，整个传输管道层是按照从数据采集端指向数据输出端的方向传输数据的。

需要说明的是，图3中所示的总传输节点和分传输节点的数量仅是示例性的。本领域技术人员能够理解，该总传输节点和分传输节点的数量可以根据实际需要来确定，因此，总传输节点和分传输节点的数量并不仅限于此。

在一些实施例中，数据采集端310可以用于实时监听用户上传数据事件，当监听到用户上传流式数据文件后，采集到该流式数据文件。

在一些实施例中，数据采集端310还可以用于根据流式数据文件的文件路径以及文件路径与数据清洗规则的对应关系获得与该流式数据文件对应的数据清洗规则，根据与该流式数据文件对应的数据清洗规则对该流式数据文件进行数据清洗。该数据采集端将经过数据清洗后的流式数据文件传输到传输管道层320。

例如，数据采集端310可以将流式数据文件和对应的哈夫曼编码传输到传输管道层320的总传输节点321。总传输节点321可以按照相应的传输路径(该传输路径可以预先设定，例如不同的数据类型可以对应不同的传输路径)和资源优先级将该流式数据文件传输到数据输出端。

在一些实施例中，数据输出端还可以用于监控外部设备的负载情况，并将该外部设备的负载情况反馈给总传输节点321。总传输节点321用于根据外部设备的负载情况动态平衡流式数据文件的传输量。

上述数据处理装置可以应用于数据类型多、清洗逻辑复杂、日均接入量TB级以上的数据存储计算平台。通过构建事件实例，管道拓扑为有向无环图的方式，实现对数据源采集和多路分发的功能。上述数据处理装置可以有效适配复杂的数据处理场景，采用管道化清洗机制、分布式部署的方式，有效进行不同的数据处理，并可以有效进行数据送达点的设定，具备执行高效的特点，减少系统逻辑代码的冗余度。

在上述数据处理装置中，采用以事件为基础报文单元的资源隔离技术，并根据数据输出端的负反馈对有效期内的数据进行均衡分发，而且采用拓扑架构的管道传输机制来完成异构数据的多路分发。

图4是示出根据本公开另一些实施例的数据处理装置的结构图。该数据处理装置包括存储器410和处理器420。其中：

存储器410可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1和/或图2所对应实施例中的指令。

处理器420耦接至存储器410，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器420用于执行存储器中存储的指令，根据数据的不同优先级进行传输，改善了现有技术中数据只能先到先处理的问题，因而提高了数据的处理效率和灵活性。

在一些实施例中，还可以如图5所示，该数据处理装置500包括存储器510和处理器520。处理器520通过BUS总线530耦合至存储器510。该数据处理装置500还可以通过存储接口540连接至外部存储装置550以便调用外部数据，还可以通过网络接口560连接至网络或者另外一台计算机系统(未标出)，此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，根据数据的不同优先级进行传输，改善了现有技术中数据只能先到先处理的问题，因而提高了数据的处理效率和灵活性。

在另一些实施例中，本公开还提供了一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现图1和/或图2所对应实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种数据处理方法，包括：

数据采集端采集流式数据文件，并获得所述流式数据文件的文件路径，根据所述文件路径以及文件路径与数据类型的对应关系获得所述流式数据文件的数据类型，并根据所述数据类型以及数据类型与资源优先级的对应关系获得所述流式数据文件的资源优先级；

所述数据采集端根据所述流式数据文件的资源优先级生成所述流式数据文件的哈夫曼编码，并将所述流式数据文件和所述哈夫曼编码传输到传输管道层；

所述传输管道层对所述流式数据文件进行缓存，根据所述流式数据文件的哈夫曼编码获得所述流式数据文件的资源优先级，并根据所述流式数据文件的资源优先级将所述流式数据文件传输到数据输出端；以及

所述数据输出端将所述流式数据文件传输到外部设备；

其中，所述传输管道层的拓扑结构为有向无环图结构，所述传输管道层包括总传输节点和多个分传输节点，其中，所述总传输节点分别与所述数据采集端和所述多个分传输节点连接，所述总传输节点和所述多个分传输节点按照从所述数据采集端指向所述数据输出端的方向组成有向无环图结构。

2.根据权利要求1所述的数据处理方法，还包括：

所述数据输出端监控所述外部设备的负载情况，并将所述外部设备的负载情况反馈给所述总传输节点；以及

所述总传输节点根据所述外部设备的负载情况动态平衡所述流式数据文件的传输量。

3.根据权利要求1所述的数据处理方法，还包括：

所述数据采集端根据所述流式数据文件的文件路径以及文件路径与数据清洗规则的对应关系获得与所述流式数据文件对应的数据清洗规则，根据与所述流式数据文件对应的数据清洗规则对所述流式数据文件进行数据清洗；

其中，所述数据采集端将经过数据清洗后的所述流式数据文件传输到所述传输管道层。

4.根据权利要求1所述的数据处理方法，其中，所述数据采集端采集流式数据文件的步骤包括：

所述数据采集端实时监听用户上传数据事件，当监听到所述用户上传流式数据文件后，采集到所述流式数据文件。

5.一种数据处理装置，包括：

数据采集端，用于采集流式数据文件，并获得所述流式数据文件的文件路径，根据所述文件路径以及文件路径与数据类型的对应关系获得所述流式数据文件的数据类型，并根据所述数据类型以及数据类型与资源优先级的对应关系获得所述流式数据文件的资源优先级，根据所述流式数据文件的资源优先级生成所述流式数据文件的哈夫曼编码，并将所述流式数据文件和所述哈夫曼编码传输到传输管道层；

所述传输管道层，用于对所述流式数据文件进行缓存，根据所述流式数据文件的哈夫曼编码获得所述流式数据文件的资源优先级，并根据所述流式数据文件的资源优先级将所述流式数据文件传输到数据输出端；以及

所述数据输出端，用于将所述流式数据文件传输到外部设备；

6.根据权利要求5所述的数据处理装置，其中，

所述数据输出端还用于监控所述外部设备的负载情况，并将所述外部设备的负载情况反馈给所述总传输节点；

所述总传输节点用于根据所述外部设备的负载情况动态平衡所述流式数据文件的传输量。

7.根据权利要求5所述的数据处理装置，其中，

所述数据采集端还用于根据所述流式数据文件的文件路径以及文件路径与数据清洗规则的对应关系获得与所述流式数据文件对应的数据清洗规则，根据与所述流式数据文件对应的数据清洗规则对所述流式数据文件进行数据清洗；

8.根据权利要求5所述的数据处理装置，其中，

所述数据采集端用于实时监听用户上传数据事件，当监听到所述用户上传流式数据文件后，采集到所述流式数据文件。

9.一种数据处理装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至4任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求1至4任意一项所述的方法的步骤。