CN108241472A - 一种支持局部性表达函数的大数据处理方法和系统 - Google Patents

一种支持局部性表达函数的大数据处理方法和系统 Download PDF

Info

Publication number
CN108241472A
CN108241472A CN201711250255.3A CN201711250255A CN108241472A CN 108241472 A CN108241472 A CN 108241472A CN 201711250255 A CN201711250255 A CN 201711250255A CN 108241472 A CN108241472 A CN 108241472A
Authority
CN
China
Prior art keywords
locality
big data
data processing
processing system
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711250255.3A
Other languages
English (en)
Other versions
CN108241472B (zh
Inventor
汪小林
潘成
陈峯
陈一峯
罗英伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201711250255.3A priority Critical patent/CN108241472B/zh
Publication of CN108241472A publication Critical patent/CN108241472A/zh
Application granted granted Critical
Publication of CN108241472B publication Critical patent/CN108241472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0631Configuration or reconfiguration of storage systems by allocating resources to storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种支持局部性表达函数的大数据处理方法和系统。该方法包括以下步骤:1)发掘大数据处理系统中所处理的数据的局部性,形成局部性表达函数;2)将局部性表达函数部署在大数据处理系统中;3)大数据处理系统按照局部性表达函数分配工作任务。所述大数据处理系统采用分布式存储方式或集中式存储方式;所述局部性表达函数在大数据处理系统中的部署方式分为两种类型:内置式冷启动模式、外置式热插拔模式。本发明通过发掘数据中隐藏的局部性,并且使用自定义的局部性函数表达出来,最终被大数据处理系统识别,按照局部性来分配机器执行任务,从而达到优化处理效率。

Description

一种支持局部性表达函数的大数据处理方法和系统
技术领域
本发明涉及一种将数据的局部性表达函数与分布式处理系统结合的方法和系统,属于分布式系统领域。
背景技术
随着数据量越来越大,计算机需要处理的业务越来越复杂,单机已经无法满足需求。一个有效的解决方案是把众多廉价的计算机整合起来,共同提供服务,这就是分布式系统。
严格来说,分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统。也就是说一个分布式系统中的计算机在空间部署上可以是随意分布的,这些计算机可能被放在不同的机柜上,也可能在不同的机房中,甚至分布在不同的城市。这些计算机之间通过网络来通信。
分布式系统从体量上实现了相当大的可扩展性,通过不断加入新的计算资源,可以处理的数据量也越来越大。但是随着任务中的数据量的不断扩张,也会有很多问题随之而来。比如不同机器在计算中需要传递的数据量会随着机器数量、运算数据、迭代次数等等因素的增加而增加,而不同机器之间是通过网络来传递数据的,网络带宽很容易会成为限制整体运算效率的瓶颈。又比如基于MapReduce架构的分布式系统,在多次迭代的过程中会产生大量的中间结果,这些结果没法都存储在内存中,只能换出到外存。大量数据在内外存的频繁换入换出,也会导致整体运算性能的下降。
充分发掘数据中的局部性可以帮助更好的优化分布式系统的计算。比如经典的PageRank算法,每一轮迭代计算中,都需要在各个网页链接之间传送数据。如果可以将整个网页链接关系的大图划分成几个较为均等的子图,并且各个网页之间的链接尽可能出现在同一个子图之内,那么在分布式迭代的过程中,可以将一个子图中的数据都放在一个物理节点上计算,可以大大节约网络带宽。再比如大规模(TB甚至更高级别)的<键,值>数据按键排序,数据中的键可能比较长,不太可能全部加载到内存中进行排序。使用外部排序的话,会产生很大的磁盘IO;或者采用分布式的排序,又会产生相当大的网络流量。如果此时有一种比key更简短的值可以代表整个键值对,并且满足一定的偏序关系,便可以将这个短小的值放入内存中进行预排序,预排序的结果可以对数据集进行更精确的划分,然后使用分布式的节点对每个划分好的子块进行细致的排序。这样可以降低一定程度的磁盘IO,从而达到优化整体任务的执行效果。
发明内容
本发明的目的是提出一种通用大数据处理系统和用户可自定义局部性表达函数(本发明将该局部性表达函数称为Locey)的结合方式,以优化数据处理效率。具体来说,大数据处理系统往往采用分布式的架构,需要多台机器之间分工协作,在处理不同类型的数据的时候,往往会产生机器与机器、内存与磁盘之间的数据传送。通过发掘数据中隐藏的局部性,并且使用自定义的局部性函数表达出来,最终被大数据处理系统识别,按照局部性来分配机器执行任务,从而达到优化处理效率。
本发明所述“局部性”是指程序运行时对数据访问的“时间局部性”与“空间局部性”的总称。时间局部性指的是“如果一个信息项正在被访问,那么在近期它很可能还会被再次访问”,空间局部性指的是“在最近的将来将用到的信息很可能与现在正在使用的信息在空间地址上是临近的”。
要使得分布式的大数据计算系统能够支持局部性表达函数,就必须先总结概括现有分布式的处理架构。分布式并行处理系统从磁盘I/O角度可以分为弱I/O和强I/O两种。一般的互联网大数据分析为弱I/O,这样存储可以采用分布式存储,具体为一个计算节点上挂一个大硬盘,典型例子为阿里云,硬件架构如图1。
在此类集群中将有一个主控节点用来控制和管理整个集群的正常运行,并协调管理集群中各个从节点完成数据存储和计算任务。每个从节点将同时担任数据存储节点和数据计算节点两种角色,这样设计的目的主要是在大数据环境下实现尽可能的本地化计算,以此提高系统的处理性能。为了能及时检测和发现集群中某个从节点发生故障失效,主控节点采用心跳机制定期检测从节点,如果从节点不能有效回应心跳信息,则系统认为这个从节点失效。
另一种分布式处理架构为强I/O类型。常见的业务有遥感图像处理等。强I/O对网速和磁盘寻址速度的要求很高。一般采用这样的系统架构,采用集中式存储,底层为SAN磁盘阵列,通过SAN交换机和计算服务器相连,各个计算服务器通过万兆以太网交换机相连,这样形成两个网络:存储网络和计算网络。硬件架构见图2。可以看到这种架构形成了三层网络,首先是存储阵列和计算节点基于数据存储形成了存储网络,然后各个计算节点基于管理的需要(如添加和删除节点)形成了管理网络,计算节点基于分布式计算的需要形成了计算网络(主要用于计算过程中的数据传输)。
如何将局部性表达函数的计算融入到分布式计算系统中,需要按照以上给出的两种类型来考虑。
1、针对基于分布式存储的大数据处理系统
分布式存储的处理系统的特点就是每个节点将同时担任数据存储节点和数据计算节点两种角色,这样可以尽可能将计算本地化。在这种结构下,如果某个机器它所需要的数据大都存储在自己的本机,那么在任务运行时,将会很大程度减少网络数据的传输。
根据不同任务的类型和结构各异的数据,这里将局部性表达函数按照启动时间分为两种可能性:内置式冷启动模式和外置式热插拔两种类型。
A、内置式冷启动模式
所谓内置式,是指整个分布式处理系统,在所有处理的环节,包括任务分配、数据载入、数据传输等各个方面都需要有局部性表达函数(Locey)的介入。所谓冷启动,指处理数据的人员需要在任务启动之前,就配置好各个地方需要的具体的Locey函数,迭代的收敛条件等等,并且定义不同的Locey值会对任务和数据的分配产生什么样的指导作用。
如图3所示,针对分布式存储的大数据处理系统,其中加入了内置式冷启动的Locey函数的主要的结构变动在集群控制器(集群主控节点),主控节点在一开始启动任务的时候就将Locey函数发送到各个从节点,指定在从节点应该如何计算局部性表达函数,同时存储主控节点也接收各个从节点发来的局部性函数值,来决定数据在不同从节点之间的移动。如果配置了迭代阈值或者迭代次数,Locey的计算是伴随着正常的计算任务一起进行的,这也就意味着Locey的值也可能随着迭代计算每次都不同,从而数据也可能因此而在迭代中移动。
B、外置式热插拔模式
外置式热插拔模式是指局部性表达函数不是写在整个分布式系统内部,而是通过一个外部的插件来完成,在操作人员觉得合适的时候来运行。在原有分布式系统内部,只是提供一个可供外部调用的API,然后外部可以自由编写具体的局部性表达函数和指定的操作。当任务处理人员发现某个时刻从任务监控中发现了数据的偏斜的规律(比如在运行分布式排序的任务,发现在一个区域的数据都被分配给了一个固定的机器,导致这个节点的任务量比其他节点多了很多,而这个节点内部的数据实际上是可以继续细分的),则可以在此刻执行外部的Locey插件,将数据按照Locey值的计算重新分布到各个计算节点。其架构如图4所示。在这其中,外部插件的编写依赖内部提供的API,并且可以在任意时间开始插件的运行和终止,从而做到热插拔。另外,每个插件可以封装成相对独立的功能,让多个不同的插件组合运行,互相之间共享计算的结果,从而增加插件的可复用性。
2、针对基于集中式存储的大数据处理系统
集中式存储和分布式存储最大的区别在于每个计算节点本身都不存储数据了,而是从统一的存储阵列读取数据,并通过万兆以太网来交换数据。所以计算节点的数据局部性没有分布式存储那么重要,但是如果发掘了计算任务中存在的局部性,从而使得每个计算节点中的计算任务有一定的“内敛性”——即跨节点的通信少、迭代次数少等等,也可以做到优化计算效率的结果。
同基于分布式存储的大数据处理系统类似,这里也将按照内置式冷启动模式和外置式热插拔两种类型来具体设计系统架构。
A、内置式冷启动模式
这个内置的冷启动是需要在主节点和从节点上都有配套的设置,启动时,需要由主节点将局部性表达函数发送到各个从节点,然后从节点通过计算后将结果通过万兆以太网发送到主节点,主节点再根据Locey配置的策略,从管理网络发布具体的任务分配情况。系统结构如图5。Locey函数在系统设计之初就已经嵌入其中,虽然依赖性高,但是可以根据系统的特点做特别的优化措施。
B、外置式热插拔模式
外置式的局部性管理,相当于在管理网络上再增加一个节点,专门用来发射局部性的管理指令,如图6所示。在结构上,Locey管理机和主控节点起到的职责是类似的,都可以负责计算任务的分配,并且在Locey管理机上线之后,可以主动发现主控节点,通过LoceyAPI与主控节点交互,传达相关的指令,最终以主控机的名义,在管理网络发布任务分配信息。
当计算任务的管理人员发现需要对任务进行调整的时候,可以将Locey管理机配置好并上线,作为主控节点的“参谋”影响主控节点发出的指令。
与现有技术相比,本发明具有以下有益效果:
1)通过局部性表达函数Locey,将程序运行时抽象的局部性,表达成具体可以衡量的数值,并用于指导数据的平衡分布;
2)针对不同应用场景,设计了如何将局部性表达函数嵌入到已有的分布式处理系统中,在分布式存储和集中式存储、内置式和外置式两个不同的维度的组合情况分别进行设计,基本覆盖了常见的分布式处理系统。
附图说明
图1为采用分布式存储的大数据处理系统架构图。
图2为采用集中式存储的大数据处理系统架构图。
图3为针对分布式存储的Locey内置式冷启动架构图。
图4为针对分布式存储的Locey外置式热插拔架构图。
图5为针对集中式存储的Locey内置式冷启动架构图。
图6为针对集中式存储的Locey外置式热插拔架构图。
图7为网页间的链接随着Locey迭代之后的变化图。
图8为100次PageRank迭代下locey对通信量的优化图。
具体实施方式
下面通过两个经典算法实例的叙述,对Locey函数如何结合大数据处理系统进行详细的说明。
1、Locey对PageRank算法的计算优化
PageRank在背景技术中有提到对其局部性的利用,可以降低PageRank算法的通讯量,从而提高计算的性能。这里详细叙述其过程。
对于谷歌当时发明PageRank算法,到如今各个互联网公司将这种算法应用到各处,大部分的使用场景都是基于分布式的存储来执行的。将大量的网页存放在分散的小机器中,并且在计算的时候,需要在各个机器之间不停传递数据执行迭代计算。
从经验出发,我们希望在整个图迭代计算的一开始,就能将大图划分成局部性比较好的子图,使得各个子图都有比较好的内聚性,从而降低各个子图之间的通讯量。这就符合了上面提到的针对分布式存储的内置式冷启动模式。Locey函数从执行一开始,就已经发布到各个执行节点中,在迭代的初期,伴随数据的传输,Locey也在迭代计算,逐步划分出局部性比较好的子图,之后Locey的计算就停止,图划分固定下来。
下面是具体的Locey函数:Locey为标量值,基于Locey的数值大小决定局部性(即根据Locey数值所处的区间分配到对应的处理节点上)。
对于一个网页之间的连接图G=<V,E>有如下几个公式:
Vu={v:(u,v)∈E|(v,u)∈E}
locey0(u)=RANDOM
其中,表示网页链接图中的点集,即网页集合,E表示网页链接图中的边集,即链接关系集合);Vu表示节点u的邻域,即所有u指向的节点和所有指向u的节点集合;v和u表示网页链接图中任意一个点,即任意一个网页;(u,v)表示网页u有一条指向网页v的连接;(v,u)表示网页v有一条指向网页u的连接;locey0表示第0轮Locey值,即初始化的Locey值;RANDOM表示一个随机函数,每次调用都会产生一个随机数值;loceyk表示第k轮迭代之后,各个节点的locey函数值。weight(v)是用户自定义的节点的权重,可以是度数,度数的平方等等值,而locey(v)被初始化为一个随机的值,通过迭代,能够不断发现整个图的局部性。在计算PageRank的迭代中迭代计算Locey,不断基于新的Locey对点和边的数据进行划分与重分布,当Locey变化不大时,停止Locey的迭代计算。
如图7所示,该图表现的是网页间的链接,深浅表示链接的多少,横坐标和纵坐标都表示Locey值,每当两个网页之间有链接,那么将它们的Locey值组成一个二维坐标,在图中标一个黑点。最初niters=0时(见(a)图),网页间随机排列。经过1轮Locey计算并按Locey排序后(niters=1,见(b)图),临近(指Locey值相近)网页间的链接明显多于远距离网页间。经过8轮Locey计算并按Locey排序后(niters=8,见(c)图),网页间链接主要集中于临近网页间。
将临近的网页放在同一个计算节点上进行计算,可以大大降低各节点之间的通信量。图8显示了在100次迭代情况下,由于将Locey值相近的网页聚集放置后,在各个主机间(16节点集群/32节点集群),总数据通信量(纵坐标)随着计算Locey的迭代次数(横坐标)的增加而减少的趋势。图8中(a)图、(b)图和(c)图采用了不同参数的收敛迭代函数,其中npow表示对weight函数取多少次方进行迭代,nparts表示数据划分的块数,即分配多少个计算节点。这体现出根据用户的调整,可以找到最佳的函数及参数来优化Locey的计算,达到好的实际效果。
2、Locey对排序算法的计算优化
在MapReduce架构的各种分布式系统中,经常会用到Shuffle、排序等操作。如果能对排序有不错的优化,那也能做到性能提高。这里对存储的方式就没有很特别的限制,待排序的数据可以是集中式存储的,也可以是分布式存储的。这里Locey的目标是能将全部的key转化之后装入内存,进行预排序,之后重新分布数据,让排序的范围变小,从而降低磁盘的IO量。
因为是数据排序之初想要进行预排序,所以Locey函数与分布式系统的结合方式应该着重于冷启动模式,并且内置式的会更好,可以伴随数据载入阶段进行Locey值的计算,理想的状况是数据加载完成,Locey的计算也完成了。
比如说针对64位整数的排序,可以将Locey函数取为高4位的二进制数,然后按照高4位的locey值预排序。因为Locey的值很短小,很有可能就可以全部装进内存进行排序,然后按预排序的结果分配到各个子节点进行更细粒度的排序。
当然,也可能遇到数据分布不均匀的情况,高4位可能并不能很好划分整个数据集群。那一个改进的Locey函数就可以从数据的采样分布结果入手,设计出一个能很好按照分布划分的Locey函数,再重新进行预排序、划分数据、细排序。
从上面这两个个例子也可以看出,Locey函数的选取完全是自由的,需要由数据处理的专业人员去挖掘数据中潜在的局部性,并将其用Locey函数表达出来,然后通过支持Locey的大数据处理系统去执行计算,达到减少通信量、减少IO、减少迭代次数等各种优化效果。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种支持局部性表达函数的大数据处理方法,其特征在于,包括以下步骤:
1)发掘大数据处理系统中所处理的数据的局部性,形成局部性表达函数;
2)将局部性表达函数部署在大数据处理系统中;
3)大数据处理系统按照局部性表达函数分配工作任务。
2.如权利要求1所述的方法,其特征在于,所述大数据处理系统采用分布式存储方式或集中式存储方式;所述局部性表达函数在在大数据处理系统中的部署方式分为两种类型:内置式冷启动模式、外置式热插拔模式。
3.如权利要求2所述的方法,其特征在于,对于采用内置式冷启动模式的局部性表达函数的分布式存储的大数据处理系统,主控节点在开始启动任务时将局部性表达函数发送到各个从节点,指定在从节点应该如何计算局部性表达函数,同时主控节点接收各个从节点发来的局部性函数值,来决定数据在不同从节点之间的移动。
4.如权利要求3所述的方法,其特征在于,如果配置了迭代阈值或者迭代次数,则局部性表达函数的值随着每次迭代计算而不同。
5.如权利要求2所述的方法,其特征在于,对于采用外置式热插拔模式的局部性表达函数的分布式存储的大数据处理系统,局部性表达函数通过外部的插件来部署,并在大数据处理系统内部提供一个可供外部调用的API,外部能够自由编写具体的局部性表达函数和指定的操作。
6.如权利要求5所述的方法,其特征在于,外部的插件能够在任意时间开始运行和终止,从而实现热插拔;每个插件能够封装成相对独立的功能,以使多个不同的插件组合运行,并且互相之间共享计算的结果,从而增加插件的可复用性。
7.如权利要求2所述的方法,其特征在于,对于采用内置式冷启动模式的局部性表达函数的集中式存储的大数据处理系统,由主控节点将局部性表达函数发送到各个从节点,从节点通过计算后将结果通过计算网络发送到主节点,主节点再根据局部性表达函数中配置的策略,从管理网络发布具体的任务分配情况。
8.如权利要求2所述的方法,其特征在于,对于采用外置式热插拔模式的局部性表达函数的集中式存储的大数据处理系统,在管理网络中增加一个局部性表达函数管理机,该局部性表达函数管理机与主控节点交互,实现任务的分配。
9.一种支持局部性表达函数的大数据处理系统,其特征在于,包括大数据处理系统,所述大数据处理系统中部署局部性表达函数,所述大数据处理系统按照所述局部性表达函数分配工作任务。
10.如权利要求9所述的系统,其特征在于,所述大数据处理系统采用分布式存储方式或集中式存储方式;所述局部性表达函数在在大数据处理系统中的部署方式分为两种类型:内置式冷启动模式、外置式热插拔模式。
CN201711250255.3A 2017-12-01 2017-12-01 一种支持局部性表达函数的大数据处理方法和系统 Active CN108241472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711250255.3A CN108241472B (zh) 2017-12-01 2017-12-01 一种支持局部性表达函数的大数据处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711250255.3A CN108241472B (zh) 2017-12-01 2017-12-01 一种支持局部性表达函数的大数据处理方法和系统

Publications (2)

Publication Number Publication Date
CN108241472A true CN108241472A (zh) 2018-07-03
CN108241472B CN108241472B (zh) 2021-03-12

Family

ID=62701007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711250255.3A Active CN108241472B (zh) 2017-12-01 2017-12-01 一种支持局部性表达函数的大数据处理方法和系统

Country Status (1)

Country Link
CN (1) CN108241472B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110572303A (zh) * 2019-09-12 2019-12-13 苏州浪潮智能科技有限公司 一种节点自动发现的方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663115A (zh) * 2012-04-16 2012-09-12 中国人民大学 基于页面染色技术的内存数据库访问优化方法
CN104133837A (zh) * 2014-06-24 2014-11-05 上海交通大学 一种基于分布式计算的互联网信息投放渠道优化系统
CN104573119A (zh) * 2015-02-05 2015-04-29 重庆大学 云计算中面向节能的Hadoop分布式文件系统存储策略
US9264519B1 (en) * 2011-08-20 2016-02-16 Datastax, Inc. Embedding application services in a distributed datastore
CN105677486A (zh) * 2016-01-08 2016-06-15 上海交通大学 数据并行处理方法及系统
CN106250233A (zh) * 2016-07-21 2016-12-21 鄞州浙江清华长三角研究院创新中心 MapReduce性能优化系统及优化方法
CN106339351A (zh) * 2016-08-30 2017-01-18 浪潮(北京)电子信息产业有限公司 一种sgd算法优化系统及方法
CN106547722A (zh) * 2015-09-16 2017-03-29 国网智能电网研究院 一种大数据并行优化方法
CN107122248A (zh) * 2017-05-02 2017-09-01 华中科技大学 一种存储优化的分布式图处理方法
CN107145307A (zh) * 2017-04-27 2017-09-08 郑州云海信息技术有限公司 一种基于分布式存储的动态元数据优化方法和系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9264519B1 (en) * 2011-08-20 2016-02-16 Datastax, Inc. Embedding application services in a distributed datastore
CN102663115A (zh) * 2012-04-16 2012-09-12 中国人民大学 基于页面染色技术的内存数据库访问优化方法
CN104133837A (zh) * 2014-06-24 2014-11-05 上海交通大学 一种基于分布式计算的互联网信息投放渠道优化系统
CN104573119A (zh) * 2015-02-05 2015-04-29 重庆大学 云计算中面向节能的Hadoop分布式文件系统存储策略
CN106547722A (zh) * 2015-09-16 2017-03-29 国网智能电网研究院 一种大数据并行优化方法
CN105677486A (zh) * 2016-01-08 2016-06-15 上海交通大学 数据并行处理方法及系统
CN106250233A (zh) * 2016-07-21 2016-12-21 鄞州浙江清华长三角研究院创新中心 MapReduce性能优化系统及优化方法
CN106339351A (zh) * 2016-08-30 2017-01-18 浪潮(北京)电子信息产业有限公司 一种sgd算法优化系统及方法
CN107145307A (zh) * 2017-04-27 2017-09-08 郑州云海信息技术有限公司 一种基于分布式存储的动态元数据优化方法和系统
CN107122248A (zh) * 2017-05-02 2017-09-01 华中科技大学 一种存储优化的分布式图处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋杰等: "MapReduce 大数据处理平台与算法研究进展", 《软件学报》 *
戴光明等: "《计算机组成原理》", 30 September 2006, 武汉大学出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110572303A (zh) * 2019-09-12 2019-12-13 苏州浪潮智能科技有限公司 一种节点自动发现的方法及装置
CN110572303B (zh) * 2019-09-12 2022-06-07 苏州浪潮智能科技有限公司 一种节点自动发现的方法及装置

Also Published As

Publication number Publication date
CN108241472B (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
Islam et al. Triple-H: A hybrid approach to accelerate HDFS on HPC clusters with heterogeneous storage architecture
Li et al. MapReduce parallel programming model: a state-of-the-art survey
Moritz et al. Sparknet: Training deep networks in spark
Checconi et al. Traversing trillions of edges in real time: Graph exploration on large-scale parallel machines
CN103176849B (zh) 一种基于资源分类的虚拟机集群的部署方法
US9459897B2 (en) System and method for providing data analysis service in cloud environment
WO2009103221A1 (zh) 一种高效的关联主体模型数据处理方法及其系统
CN106775446A (zh) 基于固态硬盘加速的分布式文件系统小文件访问方法
CN110362380A (zh) 一种面向网络靶场的多目标优化虚拟机部署方法
Liu et al. Scalable and adaptive data replica placement for geo-distributed cloud storages
Liu et al. Communication-efficient asynchronous federated learning in resource-constrained edge computing
Nicolae et al. Leveraging adaptive I/O to optimize collective data shuffling patterns for big data analytics
Cai et al. DSP: Efficient GNN training with multiple GPUs
CN103399894A (zh) 一种基于共享存储池的分布式事务处理方法
Xiahou et al. Multi-datacenter cloud storage service selection strategy based on AHP and backward cloud generator model
Miao et al. HET-GMP: A graph-based system approach to scaling large embedding model training
Shan et al. Accelerating applications at scale using one-sided communication
Noorshams Modeling and prediction of i/o performance in virtualized environments
US11687513B2 (en) Virtual data source manager of data virtualization-based architecture
Zhengqiao et al. Research on clustering algorithm for massive data based on Hadoop platform
US20210373916A1 (en) Software plugins of data virtualization-based architecture
CN108241472A (zh) 一种支持局部性表达函数的大数据处理方法和系统
Chang et al. Development of multiple big data analytics platforms with rapid response
US11960488B2 (en) Join queries in data virtualization-based architecture
Parashar Big data challenges in simulation-based science.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant