CN116881310B

CN116881310B - 一种大数据的集合计算方法及装置

Info

Publication number: CN116881310B
Application number: CN202311148074.5A
Authority: CN
Inventors: 李雪峰; 李江华; 唐轶贤
Original assignee: Aspire Technologies Shenzhen Ltd
Current assignee: Aspire Technologies Shenzhen Ltd
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-11-14
Anticipated expiration: 2043-09-07
Also published as: CN116881310A

Abstract

本发明公开了一种大数据的集合计算方法及装置，方法包括：将各个原始数据集映射为统一的数据集模型形式的数据流；将各个统一的数据流进行合并，得到并集的流式数据；根据所述键值属性，将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集；对于多个具备相同键值属性的流式数据子集，增量标记所述标识位；根据所标记的标识位的值所对应的不同组合，过滤得到各个数据集的各种并/交/差集合运算的组合。利用本发明实施例，能够适用于海量数据的一次性计算，即可得到并集、交集、差集任意组合的计算结果，降低传统集合计算需要多次重复消耗CPU和内存、运算时间的弊端。

Description

一种大数据的集合计算方法及装置

技术领域

本发明属于大数据计算技术领域，特别是一种大数据的集合计算方法及装置。

背景技术

大数据发展对互联网科技和基础算力具有十分重要的意义。对于传统的基于OLAP或者OLTP的数据集合之间的并集、交集、差集的计算，一般通过类似SQL的union 、innerjoin、lef join、right join的语法，单独查询计算完成相同数据结构集合之间的并集、交集、两种差集。即，定义集合A、集合B属于同一类型的数据集合：

I、 A union B :表示数据属于集合A或者属于集合B的数据子集

II、 A inner join B：表示数据属于集合A并且属于集合B的数据子集

III、A left join B：表示数据属于集合A，并且不包含集合B中与集合A无交集的数据子集

IV、 B left join A：表示数据属于集合B，并且不包含集合A中与集合B无交集的数据子集

即：U = {x|x 为数据结构被DataType 的全域数据} ，其中：

A = {x|f(x)}，B = {e|g(x)}

A∪B = {x|x∈A ∨ x∈B}

A∩B = {x|x∈A ∧ x∈B}

A\B ={x|x∈A ∧ x∉B}

B\A ={x|x∈B ∧ x∉A}

现有技术一般通过hash join或者nest loop join或者merge loop join完成上述的3种集合计算，并且只能一次提供一种集合计算的结果,并且受是否有索引、分区、数据大小、数据是否有序的多种限制，导致计算资源的大量消耗。

发明内容

本发明的目的是提供一种大数据的集合计算方法及装置，以解决现有技术中的不足，能够适用于海量数据的一次性计算，即可得到并集、交集、差集任意组合的计算结果，降低传统集合计算需要多次重复消耗CPU和内存、运算时间的弊端。

本申请的一个实施例提供了一种大数据的集合计算方法，所述方法包括：

将各个原始数据集映射为统一的数据集模型形式的数据流；其中，所述统一的数据集模型包括：统一的键值属性、各个数据集处理后的第二属性、各个数据集的标识位；

其中，对于数据集A、B、C，将数据集A：{k₁,k₂,O₁,O₂,...,O_l}映射成A`:{k₁,k₂,H_a,H_b,H_c,X₁,X₂,X₃}，其中，所述k₁、k₂为键值属性，所述O₁,O₂,...,O_l表示A有个业务属性，所述H_a、H_b、H_c为第二属性,表示A、B、C压缩后的序列化字符串，H_a=A,H_b=“ ”,H_c=“ ”，所述X₁、X₂、X₃表示标识位，X₁=1，X₂=0,X₃=0；

将数据集B:{k₁,k₂,k₃,P₁,P₂,...,P_m}映射成B`:{k₁,k₂,H_a,H_b,H_c,X₁,X₂,X₃}，其中，所述P₁,P₂,...,P_m表示B有个业务属性，H_a=“ ”,H_b=B,H_c=“ ”，X₁=0，X₂=1,X₃=0;

将数据集C:{k₁,k₂,k₃,Q₁,Q₂,...,Q_n}映射成C`:{k₁,k₂,H_a,H_b,H_c,X₁,X₂,X₃}，其中，所述Q₁,Q₂,...,Q_n表示C有个业务属性，H_a=“ ”,H_b=“ ”,H_c=C，X₁=0，X₂=0,X₃=1；

将各个统一的数据流进行合并，得到并集的流式数据；

根据所述键值属性，将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集；

对于多个具备相同键值属性的流式数据子集，增量标记所述标识位；

根据所标记的标识位的值所对应的不同组合，过滤得到各个数据集的各种并/交/差集合运算的组合；

其中，对于相同的key:{k₁,k₂}，当X₁=1并且X₂=1时输出A∩B,表示A、B的交集；

当X₁=1并且X₃=1时输出A∩C,表示A、C的交集；

当X₂=1并且X₃=1时输出B∩C,表示B、C的交集；

当X₁=1、X₂=1并且X₃=1时输出A∩B∩C,表示A、B、C的交集；

当X₁=1并且X₂=0时输出A\B,表示A减B的差集；

当X₁=0并且X₂=1时输出B\A,表示B减A的差集；

当X₁=1、X₂=0并且X₃=0时输出(A\B)\C,表示A减B的差集基础上减C的差集；其中，一种实施场景如下：

对于动环环境领域涉及几类数据：

（1）、PUE数据{PUE归属的省、PUE归属的站点、PUE值}

（2）、站点数据{站点归属的省、站点、站点气候类型}

（3）、告警数据{告警归属的省、告警归属的站点、告警归属的设备、告警级别、告警内容}

（4）、测点数据{测点归属的省、测点归属的站点、测点归属的设备、测点编码、测试值、测点采集时间}

现存在一个场景需要获取PUE的值位于特定范围内，站点气候类型属于温带湿润型气候，存在告警级别属于一级告警的所有测点数据，上面的四类属于数据结构的异构数据的数据，属于对于四类数据求交集的集合运算，实施步骤如下：

A、对于PUE数据按照PUE的值位于特定范围内过滤得到数据集合D₁；

B、对于站点数据按照站点气候类型属于温带湿润型气候过滤得到数据集合D₂；

C、对于告警数据按照告警级别属于一级告警进行过滤得到数据集合D₃；

D、对于测试点数定义数据集合D₄；

E、因告警数据和测点数据的key是{省、站点、设备}，因此使用本专利的步骤，对于D₂和D₃计算这两个数据集的并集得到D₃₄；

对于D₁、D₂、D₃₄的key是{省、站点}，因此使用本方法的步骤，对于D₁、D₂、D₃₄计算这三个数据集的并集得到D₁₂₃₄。

可选的，所述将各个统一的数据流进行合并，得到并集的流式数据，包括：

获得并集的流式数据U=A`∪B`∪C`，并定义R={k₁,k₂,H_a,H_b,H_c,X1,X2,X3}，其中，所述并集通过flink标准的union函数实现：

unionDataStream=A`union(B`,C`)

可选的，所述根据所述键值属性，将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集，包括：

利用key={k₁,k₂}，采用flink标准的keyBy函数将U按照key分成多个相同key的流式数据子集，其中，所述keyBy函数为：

keyedDataStream=unionDataStream.keyBy(key->{k₁,k₂})

可选的，所述对于多个具备相同键值属性的流式数据子集，增量标记所述标识位，包括：

对于keyedDataStream，利用flink的标准的reduce函数、window函数结合trigger函数/evictor函数进行增量标识计算累计标识X1,X2,X3。

本申请的又一实施例提供了一种大数据的集合计算装置，所述装置包括：

映射模块，用于将各个原始数据集映射为统一的数据集模型形式的数据流；其中，所述统一的数据集模型包括：统一的键值属性、各个数据集处理后的第二属性、各个数据集的标识位；

合并模块，用于将各个统一的数据流进行合并，得到并集的流式数据；

划分模块，用于根据所述键值属性，将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集；

标记模块，用于对于多个具备相同键值属性的流式数据子集，增量标记所述标识位；

组合模块，用于根据所标记的标识位的值所对应的不同组合，过滤得到各个数据集的各种并/交/差集合运算的组合；

当X₁=1并且X₃=1时输出A∩C,表示A、C的交集；

当X₂=1并且X₃=1时输出B∩C,表示B、C的交集；

当X₁=1、X₂=1并且X₃=1时输出A∩B∩C,表示A、B、C的交集；

当X₁=1并且X₂=0时输出A\B,表示A减B的差集；

当X₁=0并且X₂=1时输出B\A,表示B减A的差集；

对于动环环境领域涉及几类数据：

（1）、PUE数据{PUE归属的省、PUE归属的站点、PUE值}

（2）、站点数据{站点归属的省、站点、站点气候类型}

D、对于测试点数定义数据集合D₄；

本申请的又一实施例提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项中所述的方法。

本申请的又一实施例提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项中所述的方法。

与现有技术相比，本发明提供的一种大数据的集合计算方法，通过将各个原始数据集映射为统一的数据集模型形式的数据流；将各个统一的数据流进行合并，得到并集的流式数据；根据所述键值属性，将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集；对于多个具备相同键值属性的流式数据子集，增量标记所述标识位；根据所标记的标识位的值所对应的不同组合，过滤得到各个数据集的各种并/交/差集合运算的组合，从而能够适用于海量数据的一次性计算，即可得到并集、交集、差集任意组合的计算结果，降低传统集合计算需要多次重复消耗CPU和内存、运算时间的弊端。

附图说明

图1为本发明实施例提供的一种大数据的集合计算方法的流程示意图；

图2为本发明实施例提供的一种大数据的集合计算装置的结构示意图；

图3为本发明实施例提供的一种大数据的集合计算方法的计算机终端的硬件结构框图。

具体实施方式

下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

现有的基础大数据运算，存在以下几个方面的问题：

1、一次只能做一种集合运算，如果需要做交、并、差等集合运算，需要重新读取数据源再次做计算，重复消耗CPU和IO资源；

2、hash join 依赖于散列表、其中一个数据集的数据量要比较小，如果作为散列表的数据集比较大，那么需要使用页交换机制，分区等方式在内存和磁盘存储中交换；

3、merge join 依赖和假设数据集合是有序的，这个在单个集合数据量在亿级别及以上级别的数据集合时，并不具备广泛的可用性，应用范围比hash join窄；

4、nest loop 一般适用于小表数据关联大表数据，并且大表数据需要有索引，计算量在大表没有索引的情况下，计算量是非常巨大的；

3类传统的集合计算，都是依赖于OLTP或者OLTP对于当前数据集及其元数据的情况下做的优化算法选择，对于数据量亿级别以上的数据集合运算没有太多的优化空间。

基于此，本发明提出基于flink标准的流式计算集群，通过使用DataStream实现一种统一的集合计算方法，并且可以通过一次计算获取到任意集合的并集、交集、差集多种组合的计算结果。

参见图1，本发明的实施例提供了一种大数据的集合计算方法，所述方法可以包括：

S101，将各个原始数据集映射为统一的数据集模型形式的数据流；其中，所述统一的数据集模型包括：统一的键值属性、各个数据集处理后的第二属性、各个数据集的标识位；

具体的，对于数据集A、B、C，将数据集A：{k₁,k₂,O₁,O₂,...,O_l}映射成A`:{k₁,k₂,H_a,H_b,H_c,X₁,X₂,X₃}，其中，所述k₁、k₂为键值属性，所述O₁,O₂,...,O_l表示A有个业务属性，所述H_a、H_b、H_c为第二属性,表示A、B、C压缩后的序列化字符串，H_a=A,H_b=“ ”,H_c=“ ”，所述X₁、X₂、X₃表示标识位，X₁=1，X₂=0,X₃=0；

将数据集B:{k₁,k₂,k₃,P₁,P₂,...,P_m}映射成B`:{k₁,k₂,H_a,H_b,H_c,X₁,X₂,X₃}，其中，所述P₁,P₂,...,P_m表示B有个业务属性， H_a=“ ”,H_b=B,H_c=“ ”，X₁=0，X₂=1,X₃=0;

将数据集C:{k₁,k₂,k₃,Q₁,Q₂,...,Q_n}映射成C`:{k₁,k₂,H_a,H_b,H_c,X₁,X₂,X₃}，其中，所述Q₁,Q₂,...,Q_n表示C有个业务属性，H_a=“ ”,H_b=“ ”,H_c=C，X₁=0，X₂=0,X₃=1。

以三个数据集ABC为例，业务希望以{k₁,k₂}为键组合，对于数据集ABC做任意的并交差组合的集合运算并得到结果，假设存在：

数据集A有{k₁,k₂,O₁,O₂,...,O_l}

数据集B有{k₁,k₂,k₃,P₁,P₂,...,P_m}

数据集C有{k₁,k₂,k₃,Q₁,Q₂,...,Q_n}

说明：k₁,k₂,O₁,O_l等都是数据集A的一条记录的多个属性值,A₁,A₂,A₃才是数据集A的三条记录；

k₁,k₂,k₃,,P₁,P_m等都是数据集B的一条记录的多个属性值,B₁,B₂,B₃才是数据集B的三条记录；

k₁,k₂,k₃,Q₁,Q_n等都是数据集C的一条记录的多个属性值,C₁,C₂,C₃才是数据集C的三条记录。

其中，A的{k₁,k₂}与B的{k₁,k₂}以及C的{k₁,k₂}属于相同的键值空间，即{k₁,k₂}的组合，在数据集A至C中存在0到多个相同的记录对应的集合的记录的属性值也是{k₁,k₂}。A有个业务属性O_{1,...,l},B有m个业务属性P_{1,...,m},C有n个业务属性Q_{1,...,n}。

在实际应用中，集合计算步骤可以如下：

[001].A：{k₁,k₂,O₁,O₂,...,O_l}映射(map)成

A`:{k₁,k₂,H_a,H_b,H_c,X₁,X₂,X₃}，

其中,X₁=1，X₂=0,X₃=0; H_a=A,H_b=“ ”,H_c=“ ”,H_{a,b,c}是A、B、C压缩后的序列化字符串，映射使用flink标准的map函数或者flagMap函数。

[002].B:{k₁,k₂,k₃,P₁,P₂,...,P_m}映射(map)成

B`:{k₁,k₂,H_a,H_b,H_c,X₁,X₂,X₃}，

其中,X₁=0，X₂=1,X₃=0; H_a=“ ”,H_b=B,H_c=“ ”,H_{a,b,c}是A、B、C压缩后的序列化字符串，映射使用flink标准的map函数或者flagMap函数。

[003].C:{k₁,k₂,k₃,Q₁,Q₂,...,Q_n}映射(map)成

C`:{k₁,k₂,H_a,H_b,H_c,X₁,X₂,X₃}，

其中，X₁=0，X₂=0,X₃=1; H_a=“ ”,H_b=“ ”,H_c=C,H_{a,b,c}是A、B、C压缩后的序列化字符串，映射使用flink标准的map函数或者flagMap函数。

上述3个映射运算把不同的数据模型，转换成统一的数据模型：{统一的键值属性，各个数据集处理后的其他属性（第二属性），各个数据集的标识位}，即：

{键值区属性，压缩序列化后的A类数据其他属性，压缩序列化后的B类数据其他属性，压缩序列化后的C类数据其他属性，A类数据标识位，B类数据标识位，C类数据标识位}。

示例性的，对于上述“C`:{k₁,k₂,H_a,H_b,H_c,X₁,X₂,X₃}，其中，X₁=0，X₂=0,X₃=1; H_a=“ ”,H_b=“ ”,H_c=C,H_{a,b,c}是A、B、C压缩后的序列化字符串”，可知：

键值区属性：k₁,k₂

压缩序列化后的A类数据其他属性：H_a=“ ”

压缩序列化后的B类数据其他属性：H_b=“ ”

压缩序列化后的C类数据其他属性：H_c=C

A类数据标识位:X₁=0

B类数据标识位:X₂=0

C类数据标识位:X₃=1

S102，将各个统一的数据流进行合并，得到并集的流式数据；

具体的，可以获得并集的流式数据U=A`∪B`∪C`，并定义R={k₁,k₂,H_a,H_b,H_c,X₁,X₂,X₃}，其中，所述并集通过flink标准的union函数实现：

unionDataStream=A`union(B`,C`)

其中，Flink是下一代大数据计算平台，可处理流计算和批量计算。最简单的合流操作就是直接将多条流合在一起，这种操作称作为流的 “联合”(union) ，进行联合操作的流的数据类型需要保持一致，合并之后的流会包含所有流种的元素，数据类型保持不变，这种合流操作简单方便。

S103，根据所述键值属性，将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集；

具体的，可以利用key={k₁,k₂}，采用flink标准的keyBy函数将U按照key分成多个相同key的流式数据子集，其中，所述keyBy函数为：

keyedDataStream=unionDataStream.keyBy(key->{k₁,k₂})

其中，Apache Flink中的KeyBy算子是一种根据指定Key将数据流分区的算子。在使用KeyBy算子时，需要指定一个或多个Key，Flink会根据这些Key将数据流分成不同的分区，以便并行处理。 KeyBy算子通常用于实现基于Key的聚合操作，如求和、平均值等。它可以将具有相同Key的数据分配到同一个分区中，并在该分区上执行聚合操作。此外，KeyBy算子还可以用于流数据的状态管理，如将具有相同Key的数据存储在同一个状态中进行管理。

S104，对于多个具备相同键值属性的流式数据子集，增量标记所述标识位；

具体的，对于keyedDataStream，利用flink的标准的reduce函数、window函数结合trigger函数/evictor函数进行增量标识计算累计标识X₁,X₂,X₃。

对于keyedDataStream进行增量标识计算累计标识X₁,X₂,X₃，其中，增量计算可以使用flink的标准的reduce函数、window函数结合trigger函数/evictor函数、基于process可以使用专利号:ZL 2022 1 1012966.8、专利名称“基于流批一体的大数据批量计算的优化计算方法及装置”的计算方法优化计算过程原理这三种方式：

reduceDataStream=keyedDataStream.reduce(...)

reduceDataStream=keyedDataStream.window(...)[.trigger(...)][.evictor].apply(....)

reduceDataStream=keyedDataStream.process(...)

并且，对于定义的R的结构表可以如表1所示。

表1

S105，根据所标记的标识位的值所对应的不同组合，过滤得到各个数据集的各种并/交/差集合运算的组合。

具体的，对于相同的key:{k₁,k₂}，当X₁=1并且X₂=1时输出A∩B,表示A、B的交集；

当X₁=1并且X₃=1时输出A∩C,表示A、C的交集；

当X₂=1并且X₃=1时输出B∩C,表示B、C的交集；

当X₁=1并且X₂=1并且X₃=1时输出A∩B∩C,表示A、B、C的交集；

当X₁=1并且X₂=0时输出A\B,表示A减B的差集；

当X₁=0并且X₂=1时输出B\A,表示B减A的差集；

当X₁=1、X₂=0并且X₃=0时输出(A\B)\C,表示A减B的差集基础上减C的差集。

在实际应用中，上述unionDataStream的输出就是A∪B∪C,即A、B、C的并集；

如表1所示，对于相同的key:{k₁,k₂}：

当X₁=1并且X₂=1时的输出就是A∩B,即A、B的交集R₄、R₆；

当X₁=1并且X₃=1时的输出就是A∩C,即A、C的交集R₅、R₆；

当X₂=1并且X₃=1时的输出就是B∩C,即B、C的交集R₆、R₇；

当X₁=1并且X₂=1并且X₃=1时的输出就是A∩B∩C,即A、B、C的交集R₆；

当X₁=1并且X₂=0时的输出就是A\B,即A减B的差集R₁、R₅；

当X₁=0并且X₂=1时的输出就是B\A,即B减A的差集R₂、R₇；

当X₁=1并且X₂=0并且X₃=0时的输出就是(A\B)\C,即A减B的差集基础上减C的差集R₁。具体可以利用filter算子分别输出：

filterDataSteam=reduceDataStream.filter(...)

根据{X₁,X₂,X₃}的组合情况，即可得到集合A、B、C的两者或者三者之间的并集、交集、差集数据，在流批一体化的大数据中单次一次性计算即可得到不同数据集合的并集、交集、差集组合的计算结果。并且，通过统一计算模型，适用于不同数据结构的异构数据集之间的集合运算，适用于相同数据结构的同构数据集之间的集合运算。

示例性的，一种实施场景如下：

对于动环环境领域涉及几类数据：

（1）、PUE数据{PUE归属的省、PUE归属的站点、PUE值}

（2）、站点数据{站点归属的省、站点、站点气候类型}

D、对于测试点数定义数据集合D₄；

可见，通过将各个原始数据集映射为统一的数据集模型形式的数据流；将各个统一的数据流进行合并，得到并集的流式数据；根据所述键值属性，将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集；对于多个具备相同键值属性的流式数据子集，增量标记所述标识位；根据所标记的标识位的值所对应的不同组合，过滤得到各个数据集的各种并/交/差集合运算的组合，从而能够适用于海量数据的一次性计算，即可得到并集、交集、差集任意组合的计算结果，降低传统集合计算需要多次重复消耗CPU和内存、运算时间的弊端。

本发明的又一实施例提供了一种大数据的集合计算装置，参见图2，所述装置可以包括：

映射模块201，用于将各个原始数据集映射为统一的数据集模型形式的数据流；其中，所述统一的数据集模型包括：统一的键值属性、各个数据集处理后的第二属性、各个数据集的标识位；

合并模块202，用于将各个统一的数据流进行合并，得到并集的流式数据；

划分模块203，用于根据所述键值属性，将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集；

标记模块204，用于对于多个具备相同键值属性的流式数据子集，增量标记所述标识位；

组合模块205，用于根据所标记的标识位的值所对应的不同组合，过滤得到各个数据集的各种并/交/差集合运算的组合；

当X₁=1并且X₃=1时输出A∩C,表示A、C的交集；

当X₂=1并且X₃=1时输出B∩C,表示B、C的交集；

当X₁=1、X₂=1并且X₃=1时输出A∩B∩C,表示A、B、C的交集；

当X₁=1并且X₂=0时输出A\B,表示A减B的差集；

当X₁=0并且X₂=1时输出B\A,表示B减A的差集；

对于动环环境领域涉及几类数据：

（1）、PUE数据{PUE归属的省、PUE归属的站点、PUE值}

（2）、站点数据{站点归属的省、站点、站点气候类型}

F、对于PUE数据按照PUE的值位于特定范围内过滤得到数据集合D₁；

G、对于站点数据按照站点气候类型属于温带湿润型气候过滤得到数据集合D₂；

H、对于告警数据按照告警级别属于一级告警进行过滤得到数据集合D₃；

I、对于测试点数定义数据集合D₄；

J、因告警数据和测点数据的key是{省、站点、设备}，因此使用本专利的步骤，对于D₂和D₃计算这两个数据集的并集得到D₃₄；

下面以运行在计算机终端上为例对其进行详细说明。图3为本发明实施例提供的一种大数据的集合计算方法的计算机终端的硬件结构框图。如图3所示，计算机终端可以包括一个或多个（图3中仅示出一个）处理器302（处理器302可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器304，可选地，上述计算机终端还可以包括用于通信功能的传输装置306以及输入输出设备308。本领域普通技术人员可以理解，图3所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。

存储器304可用于存储应用软件的软件程序以及模块，如本申请实施例中的大数据的集合计算方法对应的程序指令/模块，处理器302通过运行存储在存储器304内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器304可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器304可进一步包括相对于处理器302远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输装置306包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置306可以为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

本发明实施例还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

具体的，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S102，将各个统一的数据流进行合并，得到并集的流式数据；

具体的，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（Random Access Memory，简称为RAM）、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明实施例还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

具体的，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

具体的，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S102，将各个统一的数据流进行合并，得到并集的流式数据；

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，以上所述仅为本发明的较佳实施例，但本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种大数据的集合计算方法，其特征在于，所述方法包括：

其中，对于数据集A、B、C，将数据集A：{k₁,k₂,O₁,O₂,...,O_l}映射成A`:{k₁,k₂,H_a,H_b,H_c,X₁,X₂,X₃}，其中，所述k₁、k₂为键值属性，所述O₁,O₂,...,O_l 表示A有个业务属性，所述H_a、H_b、H_c为第二属性,表示A、B、C压缩后的序列化字符串，H_a=A,H_b=“ ”,H_c=“ ”，所述X₁、X₂、X₃表示标识位，X₁=1，X₂=0,X₃=0；

将各个统一的数据流进行合并，得到并集的流式数据；

当X₁=1并且X₃=1时输出A∩C,表示A、C的交集；

当X₂=1并且X₃=1时输出B∩C,表示B、C的交集；

当X₁=1、X₂=1并且X₃=1时输出A∩B∩C,表示A、B、C的交集；

当X₁=1并且X₂=0时输出AB,表示A减B的差集；

当X₁=0并且X₂=1时输出BA,表示B减A的差集；

当X₁=1、X₂=0并且X₃=0时输出(AB)C,表示A减B的差集基础上减C的差集；其中，一种实施场景如下：

对于动环环境领域涉及几类数据：

（1）、PUE数据{PUE归属的省、PUE归属的站点、PUE值}

（2）、站点数据{站点归属的省、站点、站点气候类型}

D、对于测试点数定义数据集合D₄；

2.根据权利要求1所述的方法，其特征在于，所述将各个统一的数据流进行合并，得到并集的流式数据，包括：

获得并集的流式数据U=A`∪B`∪C`，并定义R={k₁,k₂,H_a,H_b,H_c,X₁,X₂,X₃}，其中，所述并集通过flink标准的union函数实现：

unionDataStream=A`union(B`,C`)。

3.根据权利要求2所述的方法，其特征在于，所述根据所述键值属性，将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集，包括：

keyedDataStream=unionDataStream.keyBy(key->{k₁,k₂})。

4.根据权利要求3所述的方法，其特征在于，所述对于多个具备相同键值属性的流式数据子集，增量标记所述标识位，包括：

对于keyedDataStream，利用flink的标准的reduce函数、window函数结合trigger函数/evictor函数进行增量标识计算累计标识X₁,X₂,X₃。

5.一种大数据的集合计算装置，其特征在于，所述装置包括：

当X₁=1并且X₃=1时输出A∩C,表示A、C的交集；

当X₂=1并且X₃=1时输出B∩C,表示B、C的交集；

当X₁=1、X₂=1并且X₃=1时输出A∩B∩C,表示A、B、C的交集；

当X₁=1并且X₂=0时输出AB,表示A减B的差集；

当X₁=0并且X₂=1时输出BA,表示B减A的差集；

对于动环环境领域涉及几类数据：

（1）、PUE数据{PUE归属的省、PUE归属的站点、PUE值}

（2）、站点数据{站点归属的省、站点、站点气候类型}

D、对于测试点数定义数据集合D₄；

6.根据权利要求5所述的装置，其特征在于，所述合并模块，具体用于：

unionDataStream=A`union(B`,C`)。

7.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-4中任一项所述的方法。

8.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1-4中任一项所述的方法。