CN106790620B - 一种分布式大数据处理方法 - Google Patents

一种分布式大数据处理方法 Download PDF

Info

Publication number
CN106790620B
CN106790620B CN201611258710.XA CN201611258710A CN106790620B CN 106790620 B CN106790620 B CN 106790620B CN 201611258710 A CN201611258710 A CN 201611258710A CN 106790620 B CN106790620 B CN 106790620B
Authority
CN
China
Prior art keywords
data
hypercube
nodes
data processing
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611258710.XA
Other languages
English (en)
Other versions
CN106790620A (zh
Inventor
张全友
寇琼洁
陶战刚
钱和平
吴俊红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mishan Digital Technology (Suzhou) Co.,Ltd.
Original Assignee
Xuchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuchang University filed Critical Xuchang University
Priority to CN201611258710.XA priority Critical patent/CN106790620B/zh
Publication of CN106790620A publication Critical patent/CN106790620A/zh
Application granted granted Critical
Publication of CN106790620B publication Critical patent/CN106790620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种分布式大数据处理方法,涉及数据处理技术领域。将超立方体数据模型中的节点划分为两个子超立方体,然后分别对每个子超立方体中的数据进行处理,随着规模n的变化,超立方体模型分布式算法的时间复杂度明显低于时戳分布式算法和DFS最小生成树分布式算法的时间复杂度。当n>k时,超立方体模型分布式算法的效率明显高于时戳分布式算法和DFS最小生成树分布式算法的效率。

Description

一种分布式大数据处理方法
技术领域
本发明涉及数据处理技术领域,特别涉及一种分布式大数据处理方法。
背景技术
大数据是指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》书中,大数据处理是指不用随机分析法、统计方法,而是采用所有数据同时进行分析处理。这样大数据分析工作如果采用分布式计算架构将会比单台计算机花费时间短。它的特色是利用云存储技术、分布式数据库、分布式处理,在海量数据中挖掘出有价值的信息。从海量数据中“提炼”出有价值的信息,这对数据处理能力和网络架构而言也是巨大的挑战。
目前对大数据的处理有时戳分布式算法和DFS最小生成树分布式算法两种处理方式。对于前者,对于一个全序对事件S,系统中的事件为接受消息后,取较大者作为新时戳。节点共有m个,节点的启动时间为t,则算法的消息复杂度为O(mn2),时间复杂度为O(t+L)。在最坏情况下,每个节点顺序依次操作,总复杂度至多是:O(m*mn2)+O(t+L)。该算法的问题是不同事件可能有相同时戳(并发事件),虽然可以选择节点地址作为时戳的低位,但是不能通过事件的时戳判定两事件之间是否是因果相关。而基于DFS生成树分布算法可以判断两个事件之间的因果关系。
DFS生成树分布算法,基于DFS生成树分布算法的思想是每个节点均可自发唤醒,构造一棵以自己为根的DFS生成树。若两棵DFS树试图链接同一节点时,该节点将加入根的id较大的DFS树。对于一个具有m条边和n个节点的网络,自发启动的节点共有p个,其中id值最大者的启动时间为t,则算法的消息复杂度为O(pn2),时间复杂度为O(t+m)。最坏情况下,每个节点均试图以自己为根构造一棵DFS树,总复杂度至多是O(pn2)+O(m*n)。以上两种梳理方法均存在数据处理效率不高的问题。
发明内容
本发明实施例提供了一种分布式大数据处理方法,用以解决现有技术中存在的问题。
一种分布式大数据处理方法,所述方法包括:
超立方体数据模型中具有n个节点,在该数据模型中随机选择一个节点作为中心元,然后将该中心元广播到其他节点,每个节点中的数据与该中心元的数据进行比较,其中数据量大于所述中心元的数据的节点组成第一子超立方体,数据量小于或等于所述中心元的数据的节点组成第二子超立方体;
所述第一子超立方体与所述第二子超立方体之间互联的两个节点之间形成通信链路,将所述第一子超立方体和第二子超立方体之间沿第q条通信链路互联的节点彼此互换数据,则节点标号的第i位为0的节点组成的i-1维子超立方体包含的数据都大于所述中心元中的数据,节点标号的第i位为1的节点组成的i-1维子超立方体包含剩余的数据;
对每个子超立方体中的数据进行数据处理;
对以上方法执行d次迭代,获得最终数据处理结果。
优选地,所述数据处理为串行快速排序或数据查询。
本发明的有益效果在于:随着规模n的变化,超立方体模型分布式算法的时间复杂度明显低于时戳分布式算法和DFS最小生成树分布式算法的时间复杂度。当n>k时,超立方体模型分布式算法的效率明显高于时戳分布式算法和DFS最小生成树分布式算法的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种分布式大数据处理方法的步骤流程图;
图2为超立方体的立体结构图;
图3为图2中超立方体的平面网状结构图;
图4为时间复杂度的变化趋势示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在介绍本发明的技术方案前,首先对使用到的技术术语进行解释:
节点:节点是指互联的处理服务器,连接后形成一个超立体结构,根据问题的大小该超立体结构可以扩展至不同维度。
数据:数据是指需要分布式处理的数据,可能是大批量需要排序、查找的数据。
数组:由于每个节点都有一个唯一的标号,这些标号形成一个数组。
参照图1,本发明实施例提供了一种分布式大数据处理方法,该方法包括:
步骤100,对于一个具有m条边和n个节点的超立方体数据模型,如图2所示,其中自发启动的节点有p个,在该数据模型中随机选择一个节点作为中心元,然后将该中心元广播到其他节点,每个节点中的数据与该中心元的数据进行比较,其中数据量大于所述中心元的数据的节点组成第一子超立方体,数据量小于或等于所述中心元的数据的节点组成第二超立方体,这样就把一个超立方体分解成了大小两个子超立方体;
步骤110,所述第一子超立方体与所述第二子超立方体之间互联的两个节点之间形成通信链路,将所述第一子超立方体和第二子超立方体之间沿第q条通信链路互联的节点彼此互换数据,则节点标号的第i位为0的节点组成的i-1维子超立方体包含的数据都大于所述中心元中的数据,节点标号的第i位为1的节点组成的i-1维子超立方体包含剩余的数据,每个节点的节点标号如图3所示;
步骤120,对每个子超立方体中的数据进行数据处理,在本实施例中,所述数据处理包括串行快速排序或数据查询等;
步骤130,对以上步骤100~120执行d次迭代,即前一次的处理结果作为后一次处理的数据基础,获得最终数据处理结果。
在以上处理方法中,如果第一次选择的中心元恰好是最小或最大元素,那么,在第一次分解后,所有的元素都将集中到一个i-1维子超立方体中,而另一个i-1维子超立方体为空。在后续的工作中,最多只有一半节点继续工作,而另一半则空闲。理想情况是每次分解处理都有大小为n/p的子数组。
假设,在d次分解的每一次分解中,节点P1中存储的子数组的大小都增加k倍,其中1≤k≤2。于是,d次分解中所花费的总时间为
Figure BDA0001199399930000041
当k>1,总的时间为O((kd-1)n/p)。由于p=2d,上式可以化简为O((plog 2 k-1)n/p)。
当k=2,则P1分解所用的时间为O(n-n/p),d次分解后,P1上的子数组大小为2dn/p。
当k=1.1,则分解所用的时间为O((p0.138-1)n/p),本地排序的子数组大小为n/p0.138
当k=1,则分解所用的时间为O((nlog2p)/p),本地排序的子数组大小为n/p,为理想情况。由此可见,k越大算法的性能越差,d次分解总的时间变化趋势如图4所示。
随着规模n的变化,超立方体模型分布式算法的时间复杂度明显低于时戳分布式算法和DFS最小生成树分布式算法的时间复杂度。当n>k时,超立方体模型分布式算法的效率明显高于时戳分布式算法和DFS最小生成树分布式算法的效率。超立方体模型分布式算法的加速比在某个点m之前,加速比明显低于时戳分布式算法和DFS最小生成树分布式算法的加速比,但是当n大于k时,加速比低于其余两种算法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (2)

1.一种分布式大数据处理方法,其特征在于,所述方法包括:
超立方体数据模型中具有n个节点,在该数据模型中随机选择一个节点作为中心元,然后将该中心元广播到其他节点,每个节点中的数据与该中心元的数据进行比较,其中数据量大于所述中心元的数据的节点组成第一子超立方体,数据量小于或等于所述中心元的数据的节点组成第二子超立方体;
所述第一子超立方体与所述第二子超立方体之间互联的两个节点之间形成通信链路,将所述第一子超立方体和第二子超立方体之间沿第q条通信链路互联的节点彼此互换数据,则节点标号的第i位为0的节点组成的i-1维子超立方体包含的数据量都大于所述中心元中的数据,节点标号的第i位为1的节点组成的i-1维子超立方体包含剩余的数据;
对互换数据后的每个子超立方体中的数据进行数据处理;
对以上方法执行d次迭代,获得最终数据处理结果。
2.如权利要求1所述的方法,其特征在于,所述数据处理为串行快速排序或数据查询。
CN201611258710.XA 2016-12-30 2016-12-30 一种分布式大数据处理方法 Active CN106790620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611258710.XA CN106790620B (zh) 2016-12-30 2016-12-30 一种分布式大数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611258710.XA CN106790620B (zh) 2016-12-30 2016-12-30 一种分布式大数据处理方法

Publications (2)

Publication Number Publication Date
CN106790620A CN106790620A (zh) 2017-05-31
CN106790620B true CN106790620B (zh) 2020-02-11

Family

ID=58953711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611258710.XA Active CN106790620B (zh) 2016-12-30 2016-12-30 一种分布式大数据处理方法

Country Status (1)

Country Link
CN (1) CN106790620B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491187B (zh) * 2018-02-11 2021-06-11 许昌学院 一种基于top-k分割超立方体模型的并行处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101330413A (zh) * 2007-06-22 2008-12-24 上海红神信息技术有限公司 基于环绕网络与超立方网络架构的混合多阶张量扩展方法
CN101414952A (zh) * 2008-11-28 2009-04-22 西安邮电学院 一种基于超立方体的可扩展并行计算互连网络拓扑结构
CN103631870A (zh) * 2013-11-06 2014-03-12 广东电子工业研究院有限公司 一种用于大规模分布式数据处理的系统及其方法
CN103891214A (zh) * 2011-10-26 2014-06-25 国际商业机器公司 优化超立方体网络中的数据传输
CN103902544A (zh) * 2012-12-25 2014-07-02 中国移动通信集团公司 一种数据处理方法及系统
CN104717111A (zh) * 2015-03-17 2015-06-17 中国科学技术大学苏州研究院 一种扩展交换立方体的互联网络结构

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7466656B2 (en) * 2004-10-26 2008-12-16 International Business Machines Corporation Method, apparatus and program storage device for efficient construction of network overlays through interconnection topology embedding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101330413A (zh) * 2007-06-22 2008-12-24 上海红神信息技术有限公司 基于环绕网络与超立方网络架构的混合多阶张量扩展方法
CN101414952A (zh) * 2008-11-28 2009-04-22 西安邮电学院 一种基于超立方体的可扩展并行计算互连网络拓扑结构
CN103891214A (zh) * 2011-10-26 2014-06-25 国际商业机器公司 优化超立方体网络中的数据传输
CN103902544A (zh) * 2012-12-25 2014-07-02 中国移动通信集团公司 一种数据处理方法及系统
CN103631870A (zh) * 2013-11-06 2014-03-12 广东电子工业研究院有限公司 一种用于大规模分布式数据处理的系统及其方法
CN104717111A (zh) * 2015-03-17 2015-06-17 中国科学技术大学苏州研究院 一种扩展交换立方体的互联网络结构

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于超立方体分割的分片线性逼近;章浩,王书宁;《清华大学学报(自然科学版)》;20080115;第48卷(第1期);153-156 *
气象数据归档与查询系统超立方体结构并行算法设计;宋石磊,宋君强,任开军;《计算机工程与科学》;20141215;第36卷(第12期);2410-2417 *

Also Published As

Publication number Publication date
CN106790620A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
US20210342747A1 (en) Method and system for distributed deep machine learning
Cheng et al. Fast algorithms for maximal clique enumeration with limited memory
Lattanzi et al. Filtering: a method for solving graph problems in mapreduce
CN102184205B (zh) 基于可扩展精度混沌哈希的多模式串匹配方法
CN109800431B (zh) 事件信息关键词提取、监控方法及系统及存储和处理装置
CN105956666B (zh) 一种机器学习方法及系统
Guo et al. Distributed algorithms on exact personalized pagerank
CN112286917B (zh) 数据处理方法、装置、电子设备和存储介质
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
Childs et al. Quantum algorithms for the ordered search problem via semidefinite programming
CN111861744A (zh) 一种实现区块链交易并行化的方法及区块链节点
CN106790620B (zh) 一种分布式大数据处理方法
Wang et al. Lnetwork: an efficient and effective method for constructing phylogenetic networks
Zhang et al. Distance-aware selective online query processing over large distributed graphs
CN113704624B (zh) 基于用户分流的策略推荐方法、装置、设备及介质
Xie et al. Modeling traffic of big data platform for large scale datacenter networks
CN106294721B (zh) 一种集群数据统计及导出方法及装置
CN111737347B (zh) 在Spark平台顺序切分数据的方法及装置
CN111177530B (zh) 基于大数据实现热点内容推送的方法及装置
US20160117350A1 (en) Column group selection method and apparatus for efficiently storing data in mixed olap/oltp workload environment
CN108304467A (zh) 用于文本间匹配的方法
Ahmed et al. On the performance of MapReduce: A stochastic approach
Augustine et al. Efficient Distributed Algorithms in the k-machine model via PRAM Simulations
Bliss et al. Solving polynomial systems in the cloud with polynomial homotopy continuation
Bai et al. Skyline-join query processing in distributed databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201223

Address after: 215500 2302, block a, 75 new century avenue, Changshu City, Suzhou City, Jiangsu Province

Patentee after: Suzhou Mr. Paper Network Technology Co.,Ltd.

Address before: 461000 No. 88 Bayi Road, Henan, Xuchang

Patentee before: XUCHANG University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220922

Address after: Room 315, Building 1, No. 88, Xianshi Road, Changshu High-tech Industrial Development Zone, Suzhou City, Jiangsu Province 215500

Patentee after: Mishan Digital Technology (Suzhou) Co.,Ltd.

Address before: 215500 2302, block a, 75 new century avenue, Changshu City, Suzhou City, Jiangsu Province

Patentee before: Suzhou Mr. Paper Network Technology Co.,Ltd.