CN111464451A - 一种数据流等值连接优化方法、系统及电子设备 - Google Patents

一种数据流等值连接优化方法、系统及电子设备 Download PDF

Info

Publication number
CN111464451A
CN111464451A CN202010210265.XA CN202010210265A CN111464451A CN 111464451 A CN111464451 A CN 111464451A CN 202010210265 A CN202010210265 A CN 202010210265A CN 111464451 A CN111464451 A CN 111464451A
Authority
CN
China
Prior art keywords
data streams
data stream
equivalent connection
data
connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010210265.XA
Other languages
English (en)
Other versions
CN111464451B (zh
Inventor
熊超
范小朋
须成忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202010210265.XA priority Critical patent/CN111464451B/zh
Publication of CN111464451A publication Critical patent/CN111464451A/zh
Priority to PCT/CN2020/140023 priority patent/WO2021190024A1/zh
Application granted granted Critical
Publication of CN111464451B publication Critical patent/CN111464451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/22Traffic shaping
    • H04L47/225Determination of shaping rate, e.g. using a moving window
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/17Interaction among intermediate nodes, e.g. hop by hop
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据流等值连接优化方法、系统及电子设备。包括:利用汉明范数算法对接收到的多路数据流之间的独立元素进行差异性计算;根据所述差异性计算结果计算所述多路数据流之间的交集,得到所述多路数据流需要等值连接的元素个数;根据所述元素个数确定等值连接顺序,对所述多路数据流进行优化等值连接操作。本申请没有窗口大小的限制,在连接的过程中,不会丢失元组数据,保证了结果的正确性;此外,本申请的算法空间复杂度为常数级,数据备份量小,并可在数据流动态变化的情况下使用。

Description

一种数据流等值连接优化方法、系统及电子设备
技术领域
本申请属于流数据处理技术领域,特别涉及一种数据流等值连接优化方法、系统及电子设备。
背景技术
Henzinger等人在1998年将数据流作为一种数据处理模型提出,他们将数据流定义为“只能按某种顺序读取一次的数据序列”。当前对数据流比较认可的定义为:所谓数据流S={a1,a2,……,ai}是指一个或多个设备源源不断产生的数据,这些数据产生的速度随着时间的变化而变化,同时,由于某些时间、存储等因素的限制,数据只能按照某种顺序读取一次或几次。
在大数据时代,信息来源丰富、种类多样,但每种数据流可能只提供部分信息,结合多种来源的数据,获取完整的信息成为势在必行的趋势。来自多个不同数据源的信息之间往往具有一定程度的关联性,需要将多个数据源的信息进行整合得出全面的信息。在多路数据流等值连接中,具有关联性的信息之间通过相同的连接属性结合在一起,如同一个地区的不同种类的传感器,可以将所处地区名称作为等值连接属性;对于执行等值连接操作而言,可以进一步优化等值连接谓词执行的次序,减少等值连接操作执行的次数。
因此,等值连接的顺序问题在数据流等值连接中十分重要。例如在
Figure BDA0002421365490000021
中,
Figure BDA0002421365490000022
Figure BDA0002421365490000023
可能比
Figure BDA0002421365490000024
产生的中间结果少,执行效率高。
现有技术中,多路数据流连接优化的方案包括:
(1)ATR/CTR[Gu X,Yu P S,Wang H.Adaptive Load Diffusion for MultiwayWindowed Stream Joins.[C]//IEEE International Conference on DataEngineering.IEEE,2007.]:ATR/CTR是应对多个窗口数据流连接操作设计的自适应负载扩散算法。这两个算法可实现保留语义的元组路由的功能,实现细粒度的负载均衡和连接操作的正确性。
(2)D-Streams[Zaharia M,Das T,Li H,et al.Discretized Streams:Fault-Tolerant Streaming Computation at Scale[C]//Proceedings of the Twenty-FourthACM Symposium on Operating Systems Principles.ACM,2013.]将连续流分解为离散单元,并将它们作为Spark上的有序批处理作业进行处理。用于流连接的这种批处理只能提供近似结果,因为分离批次中的一些目标元组对可能彼此错过以进行连接操作。
(3)TimeStream[Qian Z,He Y,Su C,et al.TimeStream:Reliable streamcomputation in the cloud[C]//Proceedings of the 8th ACM European Conferenceon Computer Systems.ACM,2013.]设计的弹性替代和依赖追踪机制,确保了数据流计算的可依赖性。
(4)PSP[Song Wang E R.E.:Scalable stream join processing withexpensive predicates:Workload distribution and adaptation by time-slicing[C]//International Conference on Extending Database Technology:Advances inDatabase Technology.ACM,2009.]通过对连接状态进行时间分片将宏连接运算符转换为一系列较小的子运算符,并且将连接处理分配给环结构中的这些子运算符。
(5)DYNAMIC算子[Elseidy M,Elguindy A,Vitorovic A,et al.Scalable andadaptive online joins[J].Proceedings of the VLDB Endowment,2014,7(6):441-452.]支持多路数据流的连接操作,使用基于矩阵的连接模型,冗余存储每个子处理单元的数据,并采用无窗口模式下的非阻塞元组处理方式以实时获取正确的查询结果。
(6)JB算子[Lin Q,Ooi B C,Wang Z,et al.Scalable Distributed Stream JoinProcessing[C]//AcmSigmod International Conference.ACM,2015.]利用基于完全二部图概念构建的join-biclique模型,将集群分为两个部分。JB算子可支持多路数据流的连接操作,并支持无窗口模式下的非阻塞元组处理方式。
综上所述,现有多路数据流连接优化方案存在的缺点在于:
(1)ATR/CTR需要控制重复结果的开销,且只能处理基于窗口模式的数据流连接操作,有窗口尺寸大小的限制。
(2)D-Streams方案由于将连续流分解为离散单位,在连接中的元组可能彼此错过而导致结果不正确。
(3)TimeStream和PSP都会产生很高的通信开销,以维护依赖关系或同步分布式连接状态。
(4)PSP算子的缺点是连接状态的备份导致过高的通信开销,有窗口大小的限制。
(5)DYNAMIC算子的缺点是数据备份量大。
(6)JB算子的缺点是需要人工干预数据分组的参数设置。
发明内容
本申请提供了一种数据流等值连接优化方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种数据流等值连接优化方法,包括以下步骤:
步骤a:利用汉明范数算法对接收到的多路数据流之间的独立元素进行差异性计算;
步骤b:根据所述差异性计算结果计算所述多路数据流之间的交集,得到所述多路数据流需要等值连接的元素个数;
步骤c:根据所述元素个数确定等值连接顺序,对所述多路数据流进行优化等值连接操作。
本申请实施例采取的技术方案还包括:所述步骤a前还包括:
读取生成数据;
将所述数据上传至消息发布系统;
所述消息发布系统对所述数据进行分组,模拟多路数据流;
通过数据流处理平台接收所述多路数据流。
本申请实施例采取的技术方案还包括:所述接收所述多路数据流的接收方式为基于Direct的方式。
本申请实施例采取的技术方案还包括:在所述步骤a中,所述差异性计算公式为:|A-B|+|B-A|,其中A,B分别代表两个数据流的独立元素取值集合。
本申请实施例采取的技术方案还包括:在所述步骤b中,所述多路数据流之间的交集计算公式为|A∩B|=|A∪B|-(|A-B|+|B-A|)。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述对所述多路数据流进行优化等值连接操作具体为基于滑动窗口机制进行多路数据流的优化等值连接操作。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述对所述多路数据流进行优化等值连接操作具体为采用左深树连接方式进行多路数据流的优化等值连接。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述对所述多路数据流进行优化等值连接操作还包括:每次等值连接时选取两个交集结果最小的数据流进行连接。
本申请实施例采取的另一技术方案为:一种数据流等值连接优化系统,包括:
差异性计算模块:用于利用汉明范数算法对多路数据流之间的独立元素进行差异性计算;
交集计算模块:用于根据所述差异性计算结果计算所述多路数据流之间的交集,得到所述多路数据流需要等值连接的元素个数;
等值连接优化模块:用于根据所述元素个数确定等值连接顺序,对所述多路数据流进行优化等值连接操作。
本申请实施例采取的又一技术方案为:一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的数据流等值连接优化方法的以下操作:
步骤a:利用汉明范数算法对接收到的多路数据流之间的独立元素进行差异性计算;
步骤b:根据所述差异性计算结果计算所述多路数据流之间的交集,得到所述多路数据流需要等值连接的元素个数;
步骤c:根据所述元素个数确定等值连接顺序,对所述多路数据流进行优化等值连接操作。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的数据流等值连接优化方法、系统及电子设备使用汉明范数对多路数据流进行独立元素的差异性评估,根据差异性评估结果计算出两个流的交集,根据交集结果确定多路数据流的等值连接优化方案。本申请没有窗口大小的限制,在连接的过程中,不会丢失元组数据,保证了结果的正确性;此外,本申请的算法空间复杂度为常数级,数据备份量小,并可在数据流动态变化的情况下使用。
附图说明
图1是本申请实施例的数据流等值连接优化方法的流程图;
图2为本申请实施例的Kafka架构图;
图3为基于Receiver方式的数据流接收示意图;
图4为基于Direct方式的数据流接收示意图;
图5为基于滑动窗口机制的连接操作示意图;
图6为本申请实施例的左深树连接方式示意图;
图7为本申请实施例的多路数据流等值连接方式示意图;
图8是本申请实施例的数据流等值连接优化系统的结构示意图;
图9是本申请实施例提供的数据流等值连接优化方法的硬件设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
请参阅图1,是本申请实施例的数据流等值连接优化方法的流程图。本申请实施例的数据流等值连接优化方法包括以下步骤:
S100:读取生成数据;
S200:将数据上传至Kafka消息发布系统;
本步骤中,Kafka架构如图2所示,Kafka启动和消息发布订阅流程包括:
1、启动zookeeper服务,再启动Kafka服务;
2、Producer发布消息,通过zookeeper找到某一个broker节点,将消息推送给broker节点并进行存储;
3、Consumer消费信息,通过zookeeper找到存储所需要信息的broker节点,从中拉取消息进行消费。
S300:Kafka利用topic对数据进行分组,模拟多路数据流;
S400:通过spark streaming流处理平台接收多路数据流;
本步骤中,利用Kafka消息发布系统与spark streaming流处理平台进行数据交互,Kafka提供了完善的生产者API,使用Kafka的消息队列模拟多路数据流的产生情况,spark streaming平台从Kafka中接收数据流。Spark Streaming流处理平台接收数据流的方式包括:
1)基于Receiver的方式:该方式调用了KafkUtils中的creatStream方法,利用Receiver来接收Kafka中存储的数据信息,并将其存入Spark的Executor中,当SparkStreaming提交对应的作业时再由Driver从Executor中拉取并处理这些数据,具体如图3所示。
2)基于Direct的方式:该方式调用了KafkUtils中的creatDirectStream方法,移除了Receiver,只获取对应topic下partion中的偏移量,也不提前拉取数据,而是在作业提交时由Driver直接将查询到的偏移量信息写入作业中,具体执行时再去Kafka中拉取数据,具体如图4所示。本申请使用基于Direct的方式进行数据分发。
S500:利用汉明范数算法对多路数据流之间的独立元素进行差异性计算;
本步骤中,汉明范数是数据流中独立元素个数的一个重要度量。当为单个流时,汉明范数的值是该流的独立元素的值,也就是不同元素的个数;当为两个流时,汉明范数的值是该两个流中每个元素出现频率不相等的元素的个数。要计算两个流的不同元素的个数,需要先将进行比较的属性进行去重,得到的结果就是元素出现的次数只有0或1,再根据汉明范数的值来判断两个流的差异性,汉明范数越大,即说明两个流的差异性越大。差异性计算公式为:|A-B|+|B-A|,其中A,B分别代表两个数据流的独立元素取值集合。
S600:根据差异性计算结果计算多路数据流之间的交集,得到多路数据流需要等值连接的元素个数;
本步骤中,数据流之间的交集结果即利用各个流的独立元素之和减去汉明范数得到需要进行等值连接的元素个数,两个数据流的交集结果越小,连接优先度越高,等值连接的次数越少,中间结果也就越少。交集计算公式具体为:|A∩B|=|A∪B|-(|A-B|+|B-A|)。
S700:根据多路数据流的交集结果确定等值连接顺序,并对多路数据流进行优化等值连接操作;
本步骤中,多路数据流的等值连接操作均基于滑动窗口机制。滑动窗口的基本原理是在数据流处理的过程中,圈定一个缓冲区,每次只处理缓冲区中的数据。随着时间的推移,缓冲区中的数据也随之改变,新数据不断进入,老数据随之过期,从而保证每次处理的数据规模不会过于庞大,同时保证了结果的时效性。具体如图5所示,t1时刻数据流中块2、3、4处于窗口缓冲区中,到t2时刻块2、3过期,块5、6进入窗口,使得窗口中数据变为块4、5、6。
本申请实施例中,多个连接的连接方式采用左深树连接方式,左深树连接具体如图6所示。但区别在于,本申请在下一次连接的连接选择中从本次中间结果和其他未连接的数据流中选取两个独立元素个数交集最小的数据流进行连接。
具体如图7所示,为本申请实施例的多路数据流等值连接方式示意图。Sparkstreaming平台利用Direct方式从Kafka中得到消息之后,首先在N个数据流中计算出各自之间的独立元素差异性,利用差异性得到N个流的交集大小,得到结果集result1,共有n*(n-1)/2种结果,从这些结果中找出交集最小的两个数据流S1,S2进行连接,得到中间结果R1;当中间结果为空时,说明两个流的交集也为空,即不需要进行后续的连接,最终得到的结果也是空;若中间结果R1不为空,则进行下一步连接,先将与S1,S2有关的结果从结果集result1中删除,只需计算R1与其他数据流的交集结果,得到result2,共有(n-1)*(n-2)/2种结果,再从result2种选取两个交集结果最小的数据流S3,S4进行连接,得到中间结果R2;重复上述步骤,直到所有数据流连接结束。
综上,每次等值连接选取两个交集结果最小的数据流进行连接,连接的次数最少,对资源的消耗也就越低,产生的中间结果也最少,后续的连接次数相应的也会越少。
本申请实施例中,数据流之间的连接有三种方式:Nested Loops、Hash Join和Sort Merge Join,在数据没有排序,并且连接时等值连接的情况下,Hash Join的连接方式更合适,性能表现更优。
请参阅图8,是本申请实施例提供的数据流等值连接优化系统的结构示意图。本申请实施例提供的数据流等值连接优化系统包括:
差异性计算模块:用于利用汉明范数算法对多路数据流之间的独立元素进行差异性计算;
交集计算模块:用于根据差异性计算结果计算多路数据流之间的交集,得到多路数据流需要等值连接的元素个数;
等值连接优化模块:用于根据元素个数确定等值连接顺序,对多路数据流进行优化等值连接操作。
图9是本申请实施例提供的数据流等值连接优化方法的硬件设备结构示意图。如图9所示,该设备包括一个或多个处理器以及存储器。以一个处理器为例,该设备还可以包括:输入系统和输出系统。
处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接,图9中以通过总线连接为例。
存储器作为一种非暂态计算机可读电子设备,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的处理方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入系统可接收输入的数字或字符信息,以及产生信号输入。输出系统可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理器执行时,执行上述任一方法实施例的以下操作:
步骤a:利用汉明范数算法对接收到的多路数据流之间的独立元素进行差异性计算;
步骤b:根据所述差异性计算结果计算所述多路数据流之间的交集,得到所述多路数据流需要等值连接的元素个数;
步骤c:根据所述元素个数确定等值连接顺序,对所述多路数据流进行优化等值连接操作。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例提供的方法。
本申请实施例提供了一种非暂态(非易失性)计算机电子设备,所述计算机电子设备存储有计算机可执行指令,该计算机可执行指令可执行以下操作:
步骤a:利用汉明范数算法对接收到的多路数据流之间的独立元素进行差异性计算;
步骤b:根据所述差异性计算结果计算所述多路数据流之间的交集,得到所述多路数据流需要等值连接的元素个数;
步骤c:根据所述元素个数确定等值连接顺序,对所述多路数据流进行优化等值连接操作。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读电子设备上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以下操作:
步骤a:利用汉明范数算法对接收到的多路数据流之间的独立元素进行差异性计算;
步骤b:根据所述差异性计算结果计算所述多路数据流之间的交集,得到所述多路数据流需要等值连接的元素个数;
步骤c:根据所述元素个数确定等值连接顺序,对所述多路数据流进行优化等值连接操作。
本申请实施例的数据流等值连接优化方法、系统及电子设备使用汉明范数对多路数据流进行独立元素的差异性评估,根据差异性评估结果计算出两个流的交集,根据交集结果确定多路数据流的等值连接优化方案。本申请没有窗口大小的限制,在连接的过程中,不会丢失元组数据,保证了结果的正确性;此外,本申请的算法空间复杂度为常数级,数据备份量小,并可在数据流动态变化的情况下使用。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的这些实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据流等值连接优化方法,其特征在于,包括以下步骤:
步骤a:利用汉明范数算法对接收到的多路数据流之间的独立元素进行差异性计算;
步骤b:根据所述差异性计算结果计算所述多路数据流之间的交集,得到所述多路数据流需要等值连接的元素个数;
步骤c:根据所述元素个数确定等值连接顺序,对所述多路数据流进行优化等值连接操作。
2.根据权利要求1所述的数据流等值连接优化方法,其特征在于,所述步骤a前还包括:
读取生成数据;
将所述数据上传至消息发布系统;
所述消息发布系统对所述数据进行分组,模拟多路数据流;
通过数据流处理平台接收所述多路数据流。
3.根据权利要求2所述的数据流等值连接优化方法,其特征在于,所述接收所述多路数据流的接收方式为基于Direct的方式。
4.根据权利要求1所述的数据流等值连接优化方法,其特征在于,在所述步骤a中,所述差异性计算公式为:|A-B|+|B-A|,其中A,B分别代表两个数据流的独立元素取值集合。
5.根据权利要求4所述的数据流等值连接优化方法,其特征在于,在所述步骤b中,所述多路数据流之间的交集计算公式为|A∩B|=|A∪B|-(|A-B|+|B-A|)。
6.根据权利要求1至5任一项所述的数据流等值连接优化方法,其特征在于,在所述步骤c中,所述对所述多路数据流进行优化等值连接操作具体为基于滑动窗口机制进行多路数据流的优化等值连接操作。
7.根据权利要求6所述的数据流等值连接优化方法,其特征在于,在所述步骤c中,所述对所述多路数据流进行优化等值连接操作具体为采用左深树连接方式进行多路数据流的优化等值连接。
8.根据权利要求7所述的数据流等值连接优化方法,其特征在于,在所述步骤c中,所述对所述多路数据流进行优化等值连接操作还包括:每次等值连接时选取两个交集结果最小的数据流进行连接。
9.一种数据流等值连接优化系统,其特征在于,包括:
差异性计算模块:用于利用汉明范数算法对多路数据流之间的独立元素进行差异性计算;
交集计算模块:用于根据所述差异性计算结果计算所述多路数据流之间的交集,得到所述多路数据流需要等值连接的元素个数;
等值连接优化模块:用于根据所述元素个数确定等值连接顺序,对所述多路数据流进行优化等值连接操作。
10.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述1至8任一项所述的数据流等值连接优化方法的以下操作:
步骤a:利用汉明范数算法对接收到的多路数据流之间的独立元素进行差异性计算;
步骤b:根据所述差异性计算结果计算所述多路数据流之间的交集,得到所述多路数据流需要等值连接的元素个数;
步骤c:根据所述元素个数确定等值连接顺序,对所述多路数据流进行优化等值连接操作。
CN202010210265.XA 2020-03-23 2020-03-23 一种数据流等值连接优化方法、系统及电子设备 Active CN111464451B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010210265.XA CN111464451B (zh) 2020-03-23 2020-03-23 一种数据流等值连接优化方法、系统及电子设备
PCT/CN2020/140023 WO2021190024A1 (zh) 2020-03-23 2020-12-28 一种数据流等值连接优化方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010210265.XA CN111464451B (zh) 2020-03-23 2020-03-23 一种数据流等值连接优化方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN111464451A true CN111464451A (zh) 2020-07-28
CN111464451B CN111464451B (zh) 2023-04-21

Family

ID=71682938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010210265.XA Active CN111464451B (zh) 2020-03-23 2020-03-23 一种数据流等值连接优化方法、系统及电子设备

Country Status (2)

Country Link
CN (1) CN111464451B (zh)
WO (1) WO2021190024A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112615910A (zh) * 2020-12-10 2021-04-06 中国科学院深圳先进技术研究院 一种数据流连接优化方法、系统、终端以及存储介质
WO2021190024A1 (zh) * 2020-03-23 2021-09-30 中国科学院深圳先进技术研究院 一种数据流等值连接优化方法、系统及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150172425A1 (en) * 2013-12-16 2015-06-18 International Business Machines Corporation Communication and message-efficient protocol for computing the intersection between different sets of data
CN105471893A (zh) * 2015-12-25 2016-04-06 南京邮电大学 一种分布式等值数据流连接方法
CN109462407A (zh) * 2018-12-13 2019-03-12 锐捷网络股份有限公司 维特比译码方法、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2071773B1 (en) * 2007-12-14 2011-07-20 Alcatel Lucent Back pressure mechanism using delay variation between packets on a point-to-point link
CN107623639B (zh) * 2017-09-08 2021-02-26 广西大学 基于emd距离的数据流分布式相似性连接方法
CN110659304B (zh) * 2019-09-09 2023-06-16 杭州中科先进技术研究院有限公司 一种基于数据倾斜的多路数据流连接系统
CN111464451B (zh) * 2020-03-23 2023-04-21 中国科学院深圳先进技术研究院 一种数据流等值连接优化方法、系统及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150172425A1 (en) * 2013-12-16 2015-06-18 International Business Machines Corporation Communication and message-efficient protocol for computing the intersection between different sets of data
CN105471893A (zh) * 2015-12-25 2016-04-06 南京邮电大学 一种分布式等值数据流连接方法
CN109462407A (zh) * 2018-12-13 2019-03-12 锐捷网络股份有限公司 维特比译码方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘学军;钱江波;: "分布式数据流连接查询算法" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021190024A1 (zh) * 2020-03-23 2021-09-30 中国科学院深圳先进技术研究院 一种数据流等值连接优化方法、系统及电子设备
CN112615910A (zh) * 2020-12-10 2021-04-06 中国科学院深圳先进技术研究院 一种数据流连接优化方法、系统、终端以及存储介质
CN112615910B (zh) * 2020-12-10 2021-10-29 中国科学院深圳先进技术研究院 一种数据流连接优化方法、系统、终端以及存储介质

Also Published As

Publication number Publication date
WO2021190024A1 (zh) 2021-09-30
CN111464451B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
Papadimitriou et al. Multiobjective query optimization
US6505187B1 (en) Computing multiple order-based functions in a parallel processing database system
US7814091B2 (en) Multi-tiered query processing techniques for minus and intersect operators
US9430524B1 (en) RLE-aware optimization of SQL queries
US20090119247A1 (en) Efficient hash based full-outer join
JPH06214843A (ja) データベース管理システムおよび問合せの処理方法
CN111464451A (zh) 一种数据流等值连接优化方法、系统及电子设备
CN110955732B (zh) 一种用于在Spark环境中实现分区负载均衡的方法和系统
US6567803B1 (en) Simultaneous computation of multiple moving aggregates in a relational database management system
US11301438B2 (en) System for automated data engineering for large scale machine learning
Wang et al. Phase-reconfigurable shuffle optimization for Hadoop MapReduce
US6549931B1 (en) Distributing workload between resources used to access data
US20120131587A1 (en) Hardware device for processing the tasks of an algorithm in parallel
Lakshmi et al. Limiting factors of join performance on parallel processors
US20130007023A1 (en) System and Method for Consolidating Search Engine Results
WO2021031527A1 (zh) 分布式数据库表连接方法、装置、系统、服务器及介质
Chen et al. Applying segmented right-deep trees to pipelining multiple hash joins
US9594573B2 (en) Systems and methods of block computation
Papadimos et al. Distributed queries without distributed state.
CN111859136A (zh) 个性化推荐方法、装置、设备及可读存储介质
CN108711136B (zh) 一种rdf图数据的cpu-gpu协同查询处理系统和方法
Su et al. A distributed query processing strategy using decomposition, pipelining and intermediate result sharing techniques
US20190205448A1 (en) Relational database system that uses real-time statistics for selection of physical operators
Shen et al. Application of Petri nets to deadlock avoidance in iPad-like manufacturing systems
US11023674B2 (en) Generation and application of object notation deltas

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant