CN116881310B - 一种大数据的集合计算方法及装置 - Google Patents
一种大数据的集合计算方法及装置 Download PDFInfo
- Publication number
- CN116881310B CN116881310B CN202311148074.5A CN202311148074A CN116881310B CN 116881310 B CN116881310 B CN 116881310B CN 202311148074 A CN202311148074 A CN 202311148074A CN 116881310 B CN116881310 B CN 116881310B
- Authority
- CN
- China
- Prior art keywords
- data
- alarm
- union
- station
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 42
- 238000013507 mapping Methods 0.000 claims abstract description 34
- 238000001914 filtration Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 6
- 238000009736 wetting Methods 0.000 claims description 6
- AQIXAKUUQRKLND-UHFFFAOYSA-N cimetidine Chemical group N#C/N=C(/NC)NCCSCC=1N=CNC=1C AQIXAKUUQRKLND-UHFFFAOYSA-N 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 238000005192 partition Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
- G06F16/2456—Join operations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据的集合计算方法及装置,方法包括:将各个原始数据集映射为统一的数据集模型形式的数据流;将各个统一的数据流进行合并,得到并集的流式数据;根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合。利用本发明实施例,能够适用于海量数据的一次性计算,即可得到并集、交集、差集任意组合的计算结果,降低传统集合计算需要多次重复消耗CPU和内存、运算时间的弊端。
Description
技术领域
本发明属于大数据计算技术领域,特别是一种大数据的集合计算方法及装置。
背景技术
大数据发展对互联网科技和基础算力具有十分重要的意义。对于传统的基于OLAP或者OLTP的数据集合之间的并集、交集、差集的计算,一般通过类似SQL的union 、innerjoin、lef join、right join的语法,单独查询计算完成相同数据结构集合之间的并集、交集、两种差集。即,定义集合A、集合B属于同一类型的数据集合:
I、 A union B :表示数据属于集合A或者属于集合B的数据子集
II、 A inner join B:表示数据属于集合A并且属于集合B的数据子集
III、A left join B:表示数据属于集合A,并且不包含集合B中与集合A无交集的数据子集
IV、 B left join A:表示数据属于集合B,并且不包含集合A中与集合B无交集的数据子集
即:U = {x|x 为数据结构被DataType 的全域数据} ,其中:
A = {x|f(x)},B = {e|g(x)}
A∪B = {x|x∈A ∨ x∈B}
A∩B = {x|x∈A ∧ x∈B}
A\B ={x|x∈A ∧ x∉B}
B\A ={x|x∈B ∧ x∉A}
现有技术一般通过hash join或者nest loop join或者merge loop join完成上述的3种集合计算,并且只能一次提供一种集合计算的结果,并且受是否有索引、分区、数据大小、数据是否有序的多种限制,导致计算资源的大量消耗。
发明内容
本发明的目的是提供一种大数据的集合计算方法及装置,以解决现有技术中的不足,能够适用于海量数据的一次性计算,即可得到并集、交集、差集任意组合的计算结果,降低传统集合计算需要多次重复消耗CPU和内存、运算时间的弊端。
本申请的一个实施例提供了一种大数据的集合计算方法,所述方法包括:
将各个原始数据集映射为统一的数据集模型形式的数据流;其中,所述统一的数据集模型包括:统一的键值属性、各个数据集处理后的第二属性、各个数据集的标识位;
其中,对于数据集A、B、C,将数据集A:{k1,k2,O1,O2,...,Ol}映射成A`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述k1、k2为键值属性,所述O1,O2,...,Ol表示A有个业务属性,所述Ha、Hb、Hc为第二属性,表示A、B、C压缩后的序列化字符串,Ha=A,Hb=“ ”,Hc=“ ”,所述X1、X2、X3表示标识位,X1=1,X2=0,X3=0;
将数据集B:{k1,k2,k3,P1,P2,...,Pm}映射成B`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述P1,P2,...,Pm表示B有个业务属性,Ha=“ ”,Hb=B,Hc=“ ”,X1=0,X2=1,X3=0;
将数据集C:{k1,k2,k3,Q1,Q2,...,Qn}映射成C`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述Q1,Q2,...,Qn表示C有个业务属性,Ha=“ ”,Hb=“ ”,Hc=C,X1=0,X2=0,X3=1;
将各个统一的数据流进行合并,得到并集的流式数据;
根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;
对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;
根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合;
其中,对于相同的key:{k1,k2},当X1=1并且X2=1时输出A∩B,表示A、B的交集;
当X1=1并且X3=1时输出A∩C,表示A、C的交集;
当X2=1并且X3=1时输出B∩C,表示B、C的交集;
当X1=1、X2=1并且X3=1时输出A∩B∩C,表示A、B、C的交集;
当X1=1并且X2=0时输出A\B,表示A减B的差集;
当X1=0并且X2=1时输出B\A,表示B减A的差集;
当X1=1、X2=0并且X3=0时输出(A\B)\C,表示A减B的差集基础上减C的差集;其中,一种实施场景如下:
对于动环环境领域涉及几类数据:
(1)、PUE数据{PUE归属的省、PUE归属的站点、PUE值}
(2)、站点数据{站点归属的省、站点、站点气候类型}
(3)、告警数据{告警归属的省、告警归属的站点、告警归属的设备、告警级别、告警内容}
(4)、测点数据{测点归属的省、测点归属的站点、测点归属的设备、测点编码、测试值、测点采集时间}
现存在一个场景需要获取PUE的值位于特定范围内,站点气候类型属于温带湿润型气候,存在告警级别属于一级告警的所有测点数据,上面的四类属于数据结构的异构数据的数据,属于对于四类数据求交集的集合运算,实施步骤如下:
A、对于PUE数据按照PUE的值位于特定范围内过滤得到数据集合D1;
B、对于站点数据按照站点气候类型属于温带湿润型气候过滤得到数据集合D2;
C、对于告警数据按照告警级别属于一级告警进行过滤得到数据集合D3;
D、对于测试点数定义数据集合D4;
E、因告警数据和测点数据的key是{省、站点、设备},因此使用本专利的步骤,对于D2和D3计算这两个数据集的并集得到D34;
对于D1、D2、D34的key是{省、站点},因此使用本方法的步骤,对于D1、D2、D34计算这三个数据集的并集得到D1234。
可选的,所述将各个统一的数据流进行合并,得到并集的流式数据,包括:
获得并集的流式数据U=A`∪B`∪C`,并定义R={k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述并集通过flink标准的union函数实现:
unionDataStream=A`union(B`,C`)
可选的,所述根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集,包括:
利用key={k1,k2},采用flink标准的keyBy函数将U按照key分成多个相同key的流式数据子集,其中,所述keyBy函数为:
keyedDataStream=unionDataStream.keyBy(key->{k1,k2})
可选的,所述对于多个具备相同键值属性的流式数据子集,增量标记所述标识位,包括:
对于keyedDataStream,利用flink的标准的reduce函数、window函数结合trigger函数/evictor函数进行增量标识计算累计标识X1,X2,X3。
本申请的又一实施例提供了一种大数据的集合计算装置,所述装置包括:
映射模块,用于将各个原始数据集映射为统一的数据集模型形式的数据流;其中,所述统一的数据集模型包括:统一的键值属性、各个数据集处理后的第二属性、各个数据集的标识位;
其中,对于数据集A、B、C,将数据集A:{k1,k2,O1,O2,...,Ol}映射成A`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述k1、k2为键值属性,所述O1,O2,...,Ol表示A有个业务属性,所述Ha、Hb、Hc为第二属性,表示A、B、C压缩后的序列化字符串,Ha=A,Hb=“ ”,Hc=“ ”,所述X1、X2、X3表示标识位,X1=1,X2=0,X3=0;
将数据集B:{k1,k2,k3,P1,P2,...,Pm}映射成B`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述P1,P2,...,Pm表示B有个业务属性,Ha=“ ”,Hb=B,Hc=“ ”,X1=0,X2=1,X3=0;
将数据集C:{k1,k2,k3,Q1,Q2,...,Qn}映射成C`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述Q1,Q2,...,Qn表示C有个业务属性,Ha=“ ”,Hb=“ ”,Hc=C,X1=0,X2=0,X3=1;
合并模块,用于将各个统一的数据流进行合并,得到并集的流式数据;
划分模块,用于根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;
标记模块,用于对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;
组合模块,用于根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合;
其中,对于相同的key:{k1,k2},当X1=1并且X2=1时输出A∩B,表示A、B的交集;
当X1=1并且X3=1时输出A∩C,表示A、C的交集;
当X2=1并且X3=1时输出B∩C,表示B、C的交集;
当X1=1、X2=1并且X3=1时输出A∩B∩C,表示A、B、C的交集;
当X1=1并且X2=0时输出A\B,表示A减B的差集;
当X1=0并且X2=1时输出B\A,表示B减A的差集;
当X1=1、X2=0并且X3=0时输出(A\B)\C,表示A减B的差集基础上减C的差集;其中,一种实施场景如下:
对于动环环境领域涉及几类数据:
(1)、PUE数据{PUE归属的省、PUE归属的站点、PUE值}
(2)、站点数据{站点归属的省、站点、站点气候类型}
(3)、告警数据{告警归属的省、告警归属的站点、告警归属的设备、告警级别、告警内容}
(4)、测点数据{测点归属的省、测点归属的站点、测点归属的设备、测点编码、测试值、测点采集时间}
现存在一个场景需要获取PUE的值位于特定范围内,站点气候类型属于温带湿润型气候,存在告警级别属于一级告警的所有测点数据,上面的四类属于数据结构的异构数据的数据,属于对于四类数据求交集的集合运算,实施步骤如下:
A、对于PUE数据按照PUE的值位于特定范围内过滤得到数据集合D1;
B、对于站点数据按照站点气候类型属于温带湿润型气候过滤得到数据集合D2;
C、对于告警数据按照告警级别属于一级告警进行过滤得到数据集合D3;
D、对于测试点数定义数据集合D4;
E、因告警数据和测点数据的key是{省、站点、设备},因此使用本专利的步骤,对于D2和D3计算这两个数据集的并集得到D34;
对于D1、D2、D34的key是{省、站点},因此使用本方法的步骤,对于D1、D2、D34计算这三个数据集的并集得到D1234。
本申请的又一实施例提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项中所述的方法。
本申请的又一实施例提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项中所述的方法。
与现有技术相比,本发明提供的一种大数据的集合计算方法,通过将各个原始数据集映射为统一的数据集模型形式的数据流;将各个统一的数据流进行合并,得到并集的流式数据;根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合,从而能够适用于海量数据的一次性计算,即可得到并集、交集、差集任意组合的计算结果,降低传统集合计算需要多次重复消耗CPU和内存、运算时间的弊端。
附图说明
图1为本发明实施例提供的一种大数据的集合计算方法的流程示意图;
图2为本发明实施例提供的一种大数据的集合计算装置的结构示意图;
图3为本发明实施例提供的一种大数据的集合计算方法的计算机终端的硬件结构框图。
具体实施方式
下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
现有的基础大数据运算,存在以下几个方面的问题:
1、一次只能做一种集合运算,如果需要做交、并、差等集合运算,需要重新读取数据源再次做计算,重复消耗CPU和IO资源;
2、hash join 依赖于散列表、其中一个数据集的数据量要比较小,如果作为散列表的数据集比较大,那么需要使用页交换机制,分区等方式在内存和磁盘存储中交换;
3、merge join 依赖和假设数据集合是有序的,这个在单个集合数据量在亿级别及以上级别的数据集合时,并不具备广泛的可用性,应用范围比hash join窄;
4、nest loop 一般适用于小表数据关联大表数据,并且大表数据需要有索引,计算量在大表没有索引的情况下,计算量是非常巨大的;
3类传统的集合计算,都是依赖于OLTP或者OLTP对于当前数据集及其元数据的情况下做的优化算法选择,对于数据量亿级别以上的数据集合运算没有太多的优化空间。
基于此,本发明提出基于flink标准的流式计算集群,通过使用DataStream实现一种统一的集合计算方法,并且可以通过一次计算获取到任意集合的并集、交集、差集多种组合的计算结果。
参见图1,本发明的实施例提供了一种大数据的集合计算方法,所述方法可以包括:
S101,将各个原始数据集映射为统一的数据集模型形式的数据流;其中,所述统一的数据集模型包括:统一的键值属性、各个数据集处理后的第二属性、各个数据集的标识位;
具体的,对于数据集A、B、C,将数据集A:{k1,k2,O1,O2,...,Ol}映射成A`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述k1、k2为键值属性,所述O1,O2,...,Ol表示A有个业务属性,所述Ha、Hb、Hc为第二属性,表示A、B、C压缩后的序列化字符串,Ha=A,Hb=“ ”,Hc=“ ”,所述X1、X2、X3表示标识位,X1=1,X2=0,X3=0;
将数据集B:{k1,k2,k3,P1,P2,...,Pm}映射成B`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述P1,P2,...,Pm表示B有个业务属性, Ha=“ ”,Hb=B,Hc=“ ”,X1=0,X2=1,X3=0;
将数据集C:{k1,k2,k3,Q1,Q2,...,Qn}映射成C`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述Q1,Q2,...,Qn表示C有个业务属性,Ha=“ ”,Hb=“ ”,Hc=C,X1=0,X2=0,X3=1。
以三个数据集ABC为例,业务希望以{k1,k2}为键组合,对于数据集ABC做任意的并交差组合的集合运算并得到结果,假设存在:
数据集A有{k1,k2,O1,O2,...,Ol}
数据集B有{k1,k2,k3,P1,P2,...,Pm}
数据集C有{k1,k2,k3,Q1,Q2,...,Qn}
说明:k1,k2,O1,Ol等都是数据集A的一条记录的多个属性值,A1,A2,A3才是数据集A的三条记录;
k1,k2,k3,,P1,Pm等都是数据集B的一条记录的多个属性值,B1,B2,B3才是数据集B的三条记录;
k1,k2,k3,Q1,Qn等都是数据集C的一条记录的多个属性值,C1,C2,C3才是数据集C的三条记录。
其中,A的{k1,k2}与B的{k1,k2}以及C的{k1,k2}属于相同的键值空间,即{k1,k2}的组合,在数据集A至C中存在0到多个相同的记录对应的集合的记录的属性值也是{k1,k2}。A有个业务属性O{1,...,l},B有m个业务属性P{1,...,m},C有n个业务属性Q{1,...,n}。
在实际应用中,集合计算步骤可以如下:
[001].A:{k1,k2,O1,O2,...,Ol}映射(map)成
A`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},
其中,X1=1,X2=0,X3=0; Ha=A,Hb=“ ”,Hc=“ ”,H{a,b,c}是A、B、C压缩后的序列化字符串,映射使用flink标准的map函数或者flagMap函数。
[002].B:{k1,k2,k3,P1,P2,...,Pm}映射(map)成
B`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},
其中,X1=0,X2=1,X3=0; Ha=“ ”,Hb=B,Hc=“ ”,H{a,b,c}是A、B、C压缩后的序列化字符串,映射使用flink标准的map函数或者flagMap函数。
[003].C:{k1,k2,k3,Q1,Q2,...,Qn}映射(map)成
C`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},
其中,X1=0,X2=0,X3=1; Ha=“ ”,Hb=“ ”,Hc=C,H{a,b,c}是A、B、C压缩后的序列化字符串,映射使用flink标准的map函数或者flagMap函数。
上述3个映射运算把不同的数据模型,转换成统一的数据模型:{统一的键值属性,各个数据集处理后的其他属性(第二属性),各个数据集的标识位},即:
{键值区属性,压缩序列化后的A类数据其他属性,压缩序列化后的B类数据其他属性,压缩序列化后的C类数据其他属性,A类数据标识位,B类数据标识位,C类数据标识位}。
示例性的,对于上述“C`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,X1=0,X2=0,X3=1; Ha=“ ”,Hb=“ ”,Hc=C,H{a,b,c}是A、B、C压缩后的序列化字符串”,可知:
键值区属性:k1,k2
压缩序列化后的A类数据其他属性:Ha=“ ”
压缩序列化后的B类数据其他属性:Hb=“ ”
压缩序列化后的C类数据其他属性:Hc=C
A类数据标识位:X1=0
B类数据标识位:X2=0
C类数据标识位:X3=1
S102,将各个统一的数据流进行合并,得到并集的流式数据;
具体的,可以获得并集的流式数据U=A`∪B`∪C`,并定义R={k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述并集通过flink标准的union函数实现:
unionDataStream=A`union(B`,C`)
其中,Flink是下一代大数据计算平台,可处理流计算和批量计算。最简单的合流操作就是直接将多条流合在一起,这种操作称作为流的 “联合”(union) ,进行联合操作的流的数据类型需要保持一致,合并之后的流会包含所有流种的元素,数据类型保持不变,这种合流操作简单方便。
S103,根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;
具体的,可以利用key={k1,k2},采用flink标准的keyBy函数将U按照key分成多个相同key的流式数据子集,其中,所述keyBy函数为:
keyedDataStream=unionDataStream.keyBy(key->{k1,k2})
其中,Apache Flink中的KeyBy算子是一种根据指定Key将数据流分区的算子。在使用KeyBy算子时,需要指定一个或多个Key,Flink会根据这些Key将数据流分成不同的分区,以便并行处理。 KeyBy算子通常用于实现基于Key的聚合操作,如求和、平均值等。它可以将具有相同Key的数据分配到同一个分区中,并在该分区上执行聚合操作。此外,KeyBy算子还可以用于流数据的状态管理,如将具有相同Key的数据存储在同一个状态中进行管理。
S104,对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;
具体的,对于keyedDataStream,利用flink的标准的reduce函数、window函数结合trigger函数/evictor函数进行增量标识计算累计标识X1,X2,X3。
对于keyedDataStream进行增量标识计算累计标识X1,X2,X3,其中,增量计算可以使用flink的标准的reduce函数、window函数结合trigger函数/evictor函数、基于process可以使用专利号:ZL 2022 1 1012966.8、专利名称“基于流批一体的大数据批量计算的优化计算方法及装置”的计算方法优化计算过程原理这三种方式:
reduceDataStream=keyedDataStream.reduce(...)
reduceDataStream=keyedDataStream.window(...)[.trigger(...)][.evictor].apply(....)
reduceDataStream=keyedDataStream.process(...)
并且,对于定义的R的结构表可以如表1所示。
表1
S105,根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合。
具体的,对于相同的key:{k1,k2},当X1=1并且X2=1时输出A∩B,表示A、B的交集;
当X1=1并且X3=1时输出A∩C,表示A、C的交集;
当X2=1并且X3=1时输出B∩C,表示B、C的交集;
当X1=1并且X2=1并且X3=1时输出A∩B∩C,表示A、B、C的交集;
当X1=1并且X2=0时输出A\B,表示A减B的差集;
当X1=0并且X2=1时输出B\A,表示B减A的差集;
当X1=1、X2=0并且X3=0时输出(A\B)\C,表示A减B的差集基础上减C的差集。
在实际应用中,上述unionDataStream的输出就是A∪B∪C,即A、B、C的并集;
如表1所示,对于相同的key:{k1,k2}:
当X1=1并且X2=1时的输出就是A∩B,即A、B的交集R4、R6;
当X1=1并且X3=1时的输出就是A∩C,即A、C的交集R5、R6;
当X2=1并且X3=1时的输出就是B∩C,即B、C的交集R6、R7;
当X1=1并且X2=1并且X3=1时的输出就是A∩B∩C,即A、B、C的交集R6;
当X1=1并且X2=0时的输出就是A\B,即A减B的差集R1、R5;
当X1=0并且X2=1时的输出就是B\A,即B减A的差集R2、R7;
当X1=1并且X2=0并且X3=0时的输出就是(A\B)\C,即A减B的差集基础上减C的差集R1。具体可以利用filter算子分别输出:
filterDataSteam=reduceDataStream.filter(...)
根据{X1,X2,X3}的组合情况,即可得到集合A、B、C的两者或者三者之间的并集、交集、差集数据,在流批一体化的大数据中单次一次性计算即可得到不同数据集合的并集、交集、差集组合的计算结果。并且,通过统一计算模型,适用于不同数据结构的异构数据集之间的集合运算,适用于相同数据结构的同构数据集之间的集合运算。
示例性的,一种实施场景如下:
对于动环环境领域涉及几类数据:
(1)、PUE数据{PUE归属的省、PUE归属的站点、PUE值}
(2)、站点数据{站点归属的省、站点、站点气候类型}
(3)、告警数据{告警归属的省、告警归属的站点、告警归属的设备、告警级别、告警内容}
(4)、测点数据{测点归属的省、测点归属的站点、测点归属的设备、测点编码、测试值、测点采集时间}
现存在一个场景需要获取PUE的值位于特定范围内,站点气候类型属于温带湿润型气候,存在告警级别属于一级告警的所有测点数据,上面的四类属于数据结构的异构数据的数据,属于对于四类数据求交集的集合运算,实施步骤如下:
A、对于PUE数据按照PUE的值位于特定范围内过滤得到数据集合D1;
B、对于站点数据按照站点气候类型属于温带湿润型气候过滤得到数据集合D2;
C、对于告警数据按照告警级别属于一级告警进行过滤得到数据集合D3;
D、对于测试点数定义数据集合D4;
E、因告警数据和测点数据的key是{省、站点、设备},因此使用本专利的步骤,对于D2和D3计算这两个数据集的并集得到D34;
对于D1、D2、D34的key是{省、站点},因此使用本方法的步骤,对于D1、D2、D34计算这三个数据集的并集得到D1234。
可见,通过将各个原始数据集映射为统一的数据集模型形式的数据流;将各个统一的数据流进行合并,得到并集的流式数据;根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合,从而能够适用于海量数据的一次性计算,即可得到并集、交集、差集任意组合的计算结果,降低传统集合计算需要多次重复消耗CPU和内存、运算时间的弊端。
本发明的又一实施例提供了一种大数据的集合计算装置,参见图2,所述装置可以包括:
映射模块201,用于将各个原始数据集映射为统一的数据集模型形式的数据流;其中,所述统一的数据集模型包括:统一的键值属性、各个数据集处理后的第二属性、各个数据集的标识位;
其中,对于数据集A、B、C,将数据集A:{k1,k2,O1,O2,...,Ol}映射成A`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述k1、k2为键值属性,所述O1,O2,...,Ol表示A有个业务属性,所述Ha、Hb、Hc为第二属性,表示A、B、C压缩后的序列化字符串,Ha=A,Hb=“ ”,Hc=“ ”,所述X1、X2、X3表示标识位,X1=1,X2=0,X3=0;
将数据集B:{k1,k2,k3,P1,P2,...,Pm}映射成B`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述P1,P2,...,Pm表示B有个业务属性,Ha=“ ”,Hb=B,Hc=“ ”,X1=0,X2=1,X3=0;
将数据集C:{k1,k2,k3,Q1,Q2,...,Qn}映射成C`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述Q1,Q2,...,Qn表示C有个业务属性,Ha=“ ”,Hb=“ ”,Hc=C,X1=0,X2=0,X3=1;
合并模块202,用于将各个统一的数据流进行合并,得到并集的流式数据;
划分模块203,用于根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;
标记模块204,用于对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;
组合模块205,用于根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合;
其中,对于相同的key:{k1,k2},当X1=1并且X2=1时输出A∩B,表示A、B的交集;
当X1=1并且X3=1时输出A∩C,表示A、C的交集;
当X2=1并且X3=1时输出B∩C,表示B、C的交集;
当X1=1、X2=1并且X3=1时输出A∩B∩C,表示A、B、C的交集;
当X1=1并且X2=0时输出A\B,表示A减B的差集;
当X1=0并且X2=1时输出B\A,表示B减A的差集;
当X1=1、X2=0并且X3=0时输出(A\B)\C,表示A减B的差集基础上减C的差集;其中,一种实施场景如下:
对于动环环境领域涉及几类数据:
(1)、PUE数据{PUE归属的省、PUE归属的站点、PUE值}
(2)、站点数据{站点归属的省、站点、站点气候类型}
(3)、告警数据{告警归属的省、告警归属的站点、告警归属的设备、告警级别、告警内容}
(4)、测点数据{测点归属的省、测点归属的站点、测点归属的设备、测点编码、测试值、测点采集时间}
现存在一个场景需要获取PUE的值位于特定范围内,站点气候类型属于温带湿润型气候,存在告警级别属于一级告警的所有测点数据,上面的四类属于数据结构的异构数据的数据,属于对于四类数据求交集的集合运算,实施步骤如下:
F、对于PUE数据按照PUE的值位于特定范围内过滤得到数据集合D1;
G、对于站点数据按照站点气候类型属于温带湿润型气候过滤得到数据集合D2;
H、对于告警数据按照告警级别属于一级告警进行过滤得到数据集合D3;
I、对于测试点数定义数据集合D4;
J、因告警数据和测点数据的key是{省、站点、设备},因此使用本专利的步骤,对于D2和D3计算这两个数据集的并集得到D34;
对于D1、D2、D34的key是{省、站点},因此使用本方法的步骤,对于D1、D2、D34计算这三个数据集的并集得到D1234。
可见,通过将各个原始数据集映射为统一的数据集模型形式的数据流;将各个统一的数据流进行合并,得到并集的流式数据;根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合,从而能够适用于海量数据的一次性计算,即可得到并集、交集、差集任意组合的计算结果,降低传统集合计算需要多次重复消耗CPU和内存、运算时间的弊端。
下面以运行在计算机终端上为例对其进行详细说明。图3为本发明实施例提供的一种大数据的集合计算方法的计算机终端的硬件结构框图。如图3所示,计算机终端可以包括一个或多个(图3中仅示出一个)处理器302(处理器302可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器304,可选地,上述计算机终端还可以包括用于通信功能的传输装置306以及输入输出设备308。本领域普通技术人员可以理解,图3所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。
存储器304可用于存储应用软件的软件程序以及模块,如本申请实施例中的大数据的集合计算方法对应的程序指令/模块,处理器302通过运行存储在存储器304内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器304可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器304可进一步包括相对于处理器302远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置306包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置306可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本发明实施例还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
具体的,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S101,将各个原始数据集映射为统一的数据集模型形式的数据流;其中,所述统一的数据集模型包括:统一的键值属性、各个数据集处理后的第二属性、各个数据集的标识位;
S102,将各个统一的数据流进行合并,得到并集的流式数据;
S103,根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;
S104,对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;
S105,根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合。
具体的,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
可见,通过将各个原始数据集映射为统一的数据集模型形式的数据流;将各个统一的数据流进行合并,得到并集的流式数据;根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合,从而能够适用于海量数据的一次性计算,即可得到并集、交集、差集任意组合的计算结果,降低传统集合计算需要多次重复消耗CPU和内存、运算时间的弊端。
本发明实施例还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
具体的,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
具体的,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S101,将各个原始数据集映射为统一的数据集模型形式的数据流;其中,所述统一的数据集模型包括:统一的键值属性、各个数据集处理后的第二属性、各个数据集的标识位;
S102,将各个统一的数据流进行合并,得到并集的流式数据;
S103,根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;
S104,对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;
S105,根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合。
可见,通过将各个原始数据集映射为统一的数据集模型形式的数据流;将各个统一的数据流进行合并,得到并集的流式数据;根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合,从而能够适用于海量数据的一次性计算,即可得到并集、交集、差集任意组合的计算结果,降低传统集合计算需要多次重复消耗CPU和内存、运算时间的弊端。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,以上所述仅为本发明的较佳实施例,但本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。
Claims (8)
1.一种大数据的集合计算方法,其特征在于,所述方法包括:
将各个原始数据集映射为统一的数据集模型形式的数据流;其中,所述统一的数据集模型包括:统一的键值属性、各个数据集处理后的第二属性、各个数据集的标识位;
其中,对于数据集A、B、C,将数据集A:{k1,k2,O1,O2,...,Ol}映射成A`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述k1、k2为键值属性,所述O1,O2,...,Ol 表示A有个业务属性,所述Ha、Hb、Hc为第二属性,表示A、B、C压缩后的序列化字符串,Ha=A,Hb=“ ”,Hc=“ ”,所述X1、X2、X3表示标识位,X1=1,X2=0,X3=0;
将数据集B:{k1,k2,k3,P1,P2,...,Pm}映射成B`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述P1,P2,...,Pm表示B有个业务属性,Ha=“ ”,Hb=B,Hc=“ ”,X1=0,X2=1,X3=0;
将数据集C:{k1,k2,k3,Q1,Q2,...,Qn}映射成C`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述Q1,Q2,...,Qn表示C有个业务属性,Ha=“ ”,Hb=“ ”,Hc=C,X1=0,X2=0,X3=1;
将各个统一的数据流进行合并,得到并集的流式数据;
根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;
对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;
根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合;
其中,对于相同的key:{k1,k2},当X1=1并且X2=1时输出A∩B,表示A、B的交集;
当X1=1并且X3=1时输出A∩C,表示A、C的交集;
当X2=1并且X3=1时输出B∩C,表示B、C的交集;
当X1=1、X2=1并且X3=1时输出A∩B∩C,表示A、B、C的交集;
当X1=1并且X2=0时输出AB,表示A减B的差集;
当X1=0并且X2=1时输出BA,表示B减A的差集;
当X1=1、X2=0并且X3=0时输出(AB)C,表示A减B的差集基础上减C的差集;其中,一种实施场景如下:
对于动环环境领域涉及几类数据:
(1)、PUE数据{PUE归属的省、PUE归属的站点、PUE值}
(2)、站点数据{站点归属的省、站点、站点气候类型}
(3)、告警数据{告警归属的省、告警归属的站点、告警归属的设备、告警级别、告警内容}
(4)、测点数据{测点归属的省、测点归属的站点、测点归属的设备、测点编码、测试值、测点采集时间}
现存在一个场景需要获取PUE的值位于特定范围内,站点气候类型属于温带湿润型气候,存在告警级别属于一级告警的所有测点数据,上面的四类属于数据结构的异构数据的数据,属于对于四类数据求交集的集合运算,实施步骤如下:
A、对于PUE数据按照PUE的值位于特定范围内过滤得到数据集合D1;
B、对于站点数据按照站点气候类型属于温带湿润型气候过滤得到数据集合D2;
C、对于告警数据按照告警级别属于一级告警进行过滤得到数据集合D3;
D、对于测试点数定义数据集合D4;
E、因告警数据和测点数据的key是{省、站点、设备},因此使用本专利的步骤,对于D2和D3计算这两个数据集的并集得到D34;
对于D1、D2、D34的key是{省、站点},因此使用本方法的步骤,对于D1、D2、D34计算这三个数据集的并集得到D1234。
2.根据权利要求1所述的方法,其特征在于,所述将各个统一的数据流进行合并,得到并集的流式数据,包括:
获得并集的流式数据U=A`∪B`∪C`,并定义R={k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述并集通过flink标准的union函数实现:
unionDataStream=A`union(B`,C`)。
3.根据权利要求2所述的方法,其特征在于,所述根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集,包括:
利用key={k1,k2},采用flink标准的keyBy函数将U按照key分成多个相同key的流式数据子集,其中,所述keyBy函数为:
keyedDataStream=unionDataStream.keyBy(key->{k1,k2})。
4.根据权利要求3所述的方法,其特征在于,所述对于多个具备相同键值属性的流式数据子集,增量标记所述标识位,包括:
对于keyedDataStream,利用flink的标准的reduce函数、window函数结合trigger函数/evictor函数进行增量标识计算累计标识X1,X2,X3。
5.一种大数据的集合计算装置,其特征在于,所述装置包括:
映射模块,用于将各个原始数据集映射为统一的数据集模型形式的数据流;其中,所述统一的数据集模型包括:统一的键值属性、各个数据集处理后的第二属性、各个数据集的标识位;
其中,对于数据集A、B、C,将数据集A:{k1,k2,O1,O2,...,Ol}映射成A`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述k1、k2为键值属性,所述O1,O2,...,Ol 表示A有个业务属性,所述Ha、Hb、Hc为第二属性,表示A、B、C压缩后的序列化字符串,Ha=A,Hb=“ ”,Hc=“ ”,所述X1、X2、X3表示标识位,X1=1,X2=0,X3=0;
将数据集B:{k1,k2,k3,P1,P2,...,Pm}映射成B`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述P1,P2,...,Pm表示B有个业务属性,Ha=“ ”,Hb=B,Hc=“ ”,X1=0,X2=1,X3=0;
将数据集C:{k1,k2,k3,Q1,Q2,...,Qn}映射成C`:{k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述Q1,Q2,...,Qn表示C有个业务属性,Ha=“ ”,Hb=“ ”,Hc=C,X1=0,X2=0,X3=1;
合并模块,用于将各个统一的数据流进行合并,得到并集的流式数据;
划分模块,用于根据所述键值属性,将所述并集的流式数据划分为多个具备相同键值属性的流式数据子集;
标记模块,用于对于多个具备相同键值属性的流式数据子集,增量标记所述标识位;
组合模块,用于根据所标记的标识位的值所对应的不同组合,过滤得到各个数据集的各种并/交/差集合运算的组合;
其中,对于相同的key:{k1,k2},当X1=1并且X2=1时输出A∩B,表示A、B的交集;
当X1=1并且X3=1时输出A∩C,表示A、C的交集;
当X2=1并且X3=1时输出B∩C,表示B、C的交集;
当X1=1、X2=1并且X3=1时输出A∩B∩C,表示A、B、C的交集;
当X1=1并且X2=0时输出AB,表示A减B的差集;
当X1=0并且X2=1时输出BA,表示B减A的差集;
当X1=1、X2=0并且X3=0时输出(AB)C,表示A减B的差集基础上减C的差集;其中,一种实施场景如下:
对于动环环境领域涉及几类数据:
(1)、PUE数据{PUE归属的省、PUE归属的站点、PUE值}
(2)、站点数据{站点归属的省、站点、站点气候类型}
(3)、告警数据{告警归属的省、告警归属的站点、告警归属的设备、告警级别、告警内容}
(4)、测点数据{测点归属的省、测点归属的站点、测点归属的设备、测点编码、测试值、测点采集时间}
现存在一个场景需要获取PUE的值位于特定范围内,站点气候类型属于温带湿润型气候,存在告警级别属于一级告警的所有测点数据,上面的四类属于数据结构的异构数据的数据,属于对于四类数据求交集的集合运算,实施步骤如下:
A、对于PUE数据按照PUE的值位于特定范围内过滤得到数据集合D1;
B、对于站点数据按照站点气候类型属于温带湿润型气候过滤得到数据集合D2;
C、对于告警数据按照告警级别属于一级告警进行过滤得到数据集合D3;
D、对于测试点数定义数据集合D4;
E、因告警数据和测点数据的key是{省、站点、设备},因此使用本专利的步骤,对于D2和D3计算这两个数据集的并集得到D34;
对于D1、D2、D34的key是{省、站点},因此使用本方法的步骤,对于D1、D2、D34计算这三个数据集的并集得到D1234。
6.根据权利要求5所述的装置,其特征在于,所述合并模块,具体用于:
获得并集的流式数据U=A`∪B`∪C`,并定义R={k1,k2,Ha,Hb,Hc,X1,X2,X3},其中,所述并集通过flink标准的union函数实现:
unionDataStream=A`union(B`,C`)。
7.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-4中任一项所述的方法。
8.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311148074.5A CN116881310B (zh) | 2023-09-07 | 2023-09-07 | 一种大数据的集合计算方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311148074.5A CN116881310B (zh) | 2023-09-07 | 2023-09-07 | 一种大数据的集合计算方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116881310A CN116881310A (zh) | 2023-10-13 |
CN116881310B true CN116881310B (zh) | 2023-11-14 |
Family
ID=88255493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311148074.5A Active CN116881310B (zh) | 2023-09-07 | 2023-09-07 | 一种大数据的集合计算方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116881310B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019242470A1 (zh) * | 2018-06-21 | 2019-12-26 | 中兴通讯股份有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
AU2020101943A4 (en) * | 2020-08-22 | 2020-10-01 | Guizhou Minzu University | A Robust Method for Distributed Traffic Subarea Division |
CN112818026A (zh) * | 2019-11-15 | 2021-05-18 | 北京京东尚科信息技术有限公司 | 数据整合方法和装置 |
CN114884738A (zh) * | 2017-11-17 | 2022-08-09 | 华为技术有限公司 | 一种识别加密数据流的方法及装置 |
CN115080156A (zh) * | 2022-08-23 | 2022-09-20 | 卓望数码技术(深圳)有限公司 | 基于流批一体的大数据批量计算的优化计算方法及装置 |
CN115118756A (zh) * | 2022-05-19 | 2022-09-27 | 中国电力科学研究院有限公司 | 能源互联网场景下安全交互协议设计方法及装置 |
CN115857907A (zh) * | 2023-02-06 | 2023-03-28 | 卓望数码技术(深圳)有限公司 | 一种业务流动态装配系统及方法 |
CN116261721A (zh) * | 2020-10-07 | 2023-06-13 | 维萨国际服务协会 | 用于大型数据集的安全和可扩展私有集合交集 |
CN116561135A (zh) * | 2023-07-10 | 2023-08-08 | 和元达信息科技有限公司 | 多特征数据交叉查询方法、设备及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11928593B2 (en) * | 2021-06-15 | 2024-03-12 | Fortinet, Inc. | Machine learning systems and methods for regression based active learning |
-
2023
- 2023-09-07 CN CN202311148074.5A patent/CN116881310B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114884738A (zh) * | 2017-11-17 | 2022-08-09 | 华为技术有限公司 | 一种识别加密数据流的方法及装置 |
WO2019242470A1 (zh) * | 2018-06-21 | 2019-12-26 | 中兴通讯股份有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
CN112818026A (zh) * | 2019-11-15 | 2021-05-18 | 北京京东尚科信息技术有限公司 | 数据整合方法和装置 |
AU2020101943A4 (en) * | 2020-08-22 | 2020-10-01 | Guizhou Minzu University | A Robust Method for Distributed Traffic Subarea Division |
CN116261721A (zh) * | 2020-10-07 | 2023-06-13 | 维萨国际服务协会 | 用于大型数据集的安全和可扩展私有集合交集 |
CN115118756A (zh) * | 2022-05-19 | 2022-09-27 | 中国电力科学研究院有限公司 | 能源互联网场景下安全交互协议设计方法及装置 |
CN115080156A (zh) * | 2022-08-23 | 2022-09-20 | 卓望数码技术(深圳)有限公司 | 基于流批一体的大数据批量计算的优化计算方法及装置 |
CN115857907A (zh) * | 2023-02-06 | 2023-03-28 | 卓望数码技术(深圳)有限公司 | 一种业务流动态装配系统及方法 |
CN116561135A (zh) * | 2023-07-10 | 2023-08-08 | 和元达信息科技有限公司 | 多特征数据交叉查询方法、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116881310A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111552687B (zh) | 时序数据的存储方法、查询方法、装置、设备及存储介质 | |
TWI600305B (zh) | 用於壓縮經由網路所接收之資料的方法及設備 | |
CN109241159B (zh) | 一种数据立方体的分区查询方法、系统及终端设备 | |
Lai et al. | Towards a framework for large-scale multimedia data storage and processing on Hadoop platform | |
CN107634848A (zh) | 一种采集分析网络设备信息的系统和方法 | |
JP7330393B2 (ja) | リソースを管理かつ制御する方法および装置、デバイスならびに記憶媒体 | |
CN114691786A (zh) | 数据血缘关系的确定方法及装置、存储介质、电子装置 | |
CN111258978A (zh) | 一种数据存储的方法 | |
CN106777027B (zh) | 大规模并行处理行列混合数据存储装置及存储、查询方法 | |
CN111061758B (zh) | 数据存储方法、装置及存储介质 | |
CN105405070A (zh) | 一种分布式内存电网系统构建方法 | |
CN111400393B (zh) | 基于多应用平台的数据处理方法和装置、存储介质 | |
CN110955685A (zh) | 一种大数据基数估计方法、系统、服务器和存储介质 | |
CN104462328A (zh) | 一种基于哈希表与双循环链表的混合数据管理方法及装置 | |
CN107870949A (zh) | 数据分析作业依赖关系生成方法和系统 | |
CN116881310B (zh) | 一种大数据的集合计算方法及装置 | |
CN104636432A (zh) | 一种日志文件压缩和解压的方法及装置 | |
Wang et al. | Block storage optimization and parallel data processing and analysis of product big data based on the hadoop platform | |
CN110347726A (zh) | 一种高效时序数据集成存储查询系统及方法 | |
CN115525603A (zh) | 存储统计方法、装置、计算机可读存储介质与ai设备 | |
CN115344582A (zh) | 元数据的管理方法、装置、电子设备及计算机存储介质 | |
Jindal et al. | Quantitative reduction in communication load for energy efficiency in WSN | |
CN104660428A (zh) | 一种性能数据的管理方法及装置 | |
CN118094650B (zh) | 一种基于区块链下农产品溯源存储方法 | |
CN114880350A (zh) | 空间数据检索方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |