CN107247623B - 一种基于多核cpu的分布式集群系统及数据连接方法 - Google Patents

一种基于多核cpu的分布式集群系统及数据连接方法 Download PDF

Info

Publication number
CN107247623B
CN107247623B CN201710361514.3A CN201710361514A CN107247623B CN 107247623 B CN107247623 B CN 107247623B CN 201710361514 A CN201710361514 A CN 201710361514A CN 107247623 B CN107247623 B CN 107247623B
Authority
CN
China
Prior art keywords
mapping
thread
core
cpu
stipulations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710361514.3A
Other languages
English (en)
Other versions
CN107247623A (zh
Inventor
王宏志
孙旭冉
赵志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Da Da Data Industry Co Ltd
Original Assignee
Da Da Data Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Da Da Data Industry Co Ltd filed Critical Da Da Data Industry Co Ltd
Priority to CN201710361514.3A priority Critical patent/CN107247623B/zh
Publication of CN107247623A publication Critical patent/CN107247623A/zh
Application granted granted Critical
Publication of CN107247623B publication Critical patent/CN107247623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种基于多核CPU的分布式集群系统及数据连接方法,其中系统包括:映射服务器,包括至少一台具有多核CPU的计算机,用于在映射任务的进程内部启动n个映射线程,并以每个核心作为一个对应计算节点进行并行计算;其中每个映射线程从共享内存预先分配的缓冲区中读取对应的数据分片vi建立哈希表;规约服务器,包括至少一台具有多核CPU的计算机,用于在规约任务的进程内部启动m个规约线程,并以每个核心作为一个对应计算节点进行并行计算;其中每个规约线程从多个哈希表中分别获取属于自己的中间数据集进行比较连接。本发明最大限度地挖掘集群系统的运算潜能,并采用预先划分数据片的方式避免了共用内存产生的操作竞争。

Description

一种基于多核CPU的分布式集群系统及数据连接方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于多核CPU的分布式集群系统及数据连接方法。
背景技术
互联网技术和相关应用的飞速发展带来了数据的爆炸式增长,数据库规模从千比特(KB)、兆比特(MB)级飞跃到吉比特(GB)、太比特(TB)级甚至到皆比特(EB)、佑比特(ZB)级,海量的数据给数据分析相关工作带来了巨大的挑战,其中连接查询又是大规模数据分析中最重要和最基本操作之一,其性能直接关系到数据库的查询效率。
现有技术中提出了一种将哈希连接应用于大规模集群计算的方法,该方法利用MPI(Message-Passing-Interface消息传递接口)和RDMA(Remote Direct Memory Access,远程直接数据存取)技术,在超大规模计算机集群上进行哈希连接操作,使得数据可以直接通过网络进行传递而不对操作系统造成任何影响,消除了外部存储器复制和文本交换操作。这种算法使得哈希连接在计算机集群系统上得以更高效地应用,大大提高了计算机处理海量数据的能力。
然而,这种方法提高了集群系统整体的并行处理能力,重点在于利用RDMA技术降低了计算机间的数据交流代价,而没有挖掘单个处理节点的并行处理能力。但随着多核CPU的普及和并行处理技术的成熟,单机系统的并行处理能力已不容小视,单个处理节点的性能提升也将对整个集群系统的提升有着巨大的推动作用。
发明内容
本发明要解决的技术问题是,针对现有大规模集群数据处理方法没有挖掘单个处理节点的并行处理能力的缺陷,提供一种基于多核CPU的分布式集群系统及数据连接方法,将映射规约模型应用于多核CPU上,将单机的多线程并行连接算法与已有的分布式集群系统上的并行运算模型相结合,提高分布式集群系统的计算能力。
本发明第一方面,提供了一种基于多核CPU的分布式集群系统,包括:
映射服务器,包括至少一台具有多核CPU的计算机,用于在映射任务的进程内部启动n个映射线程,并以所述映射服务器中每个核心作为一个对应计算节点对所述n个映射线程进行并行计算;其中每个映射线程从共享内存预先分配的缓冲区中读取对应的数据分片vi,1≤i≤n,记录源表的连接属性和查询属性,生成键值对,并对所述连接属性建立各自的哈希表;
规约服务器,包括至少一台具有多核CPU的计算机,用于在规约任务的进程内部启动m个规约线程,并以所述规约服务器中每个核心作为一个对应计算节点对所述m个规约线程进行并行计算;其中每个规约线程用于查找所述哈希表,从多个哈希表中分别获取属于自己的中间数据集,并对所述中间数据集进行比较连接。
在根据本发明所述的基于多核CPU的分布式集群系统中,所述映射服务器预先将输入数据分成n等份,并分别存储至n个缓冲区,使每个映射线程对应一个缓冲区。
在根据本发明所述的基于多核CPU的分布式集群系统中,所述分布式集群系统内计算机之间的数据迁移采用远程直接数据存取方式,并采用消息传递接口进行编程实现通信。
在根据本发明所述的基于多核CPU的分布式集群系统中,所述映射服务器还用于对映射服务器的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对映射线程进行并行处理。
在根据本发明所述的基于多核CPU的分布式集群系统中,所述规约服务器还用于对规约服务器的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对规约线程进行并行处理。
本发明第二方面,提供了一种基于多核CPU的分布式集群系统的数据连接方法,所述基于多核CPU的分布式集群系统包括映射服务器和规约服务器,且所述映射服务器包括至少一台具有多核CPU的计算机,所述规约服务器包括至少一台具有多核CPU的计算机,所述数据连接方法包括:
映射步骤,在映射任务的进程内部启动n个映射线程,并以所述映射服务器中每个核心作为一个对应计算节点对所述n个映射线程进行并行计算;其中每个映射线程从共享内存预先分配的缓冲区中读取对应的数据分片vi,1≤i≤n,记录源表的连接属性和查询属性,生成键值对,并对所述连接属性建立各自的哈希表;
规约步骤,在规约任务的进程内部启动m个规约线程,并以规约服务器中每个核心作为一个对应计算节点对所述m个规约线程进行并行计算;其中每个规约线程用于查找所述哈希表,从多个哈希表中分别获取属于自己的中间数据集,并对所述中间数据集进行比较连接。
在根据本发明所述的基于多核CPU的分布式集群系统的数据连接方法中,所述映射步骤还包括:预先将输入数据分成n等份,并分别存储至n个缓冲区,使每个映射线程对应一个缓冲区。
在根据本发明所述的基于多核CPU的分布式集群系统的数据连接方法中,所述分布式集群系统内计算机之间的数据迁移采用远程直接数据存取方式,并采用消息传递接口进行编程实现通信。
在根据本发明所述的基于多核CPU的分布式集群系统的数据连接方法中,所述映射步骤还包括对映射服务器的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对映射线程进行并行处理。
在根据本发明所述的基于多核CPU的分布式集群系统的数据连接方法中,所述规约步骤还包括对规约服务器的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对规约线程进行并行处理。
实施本发明的基于多核CPU的分布式集群系统系统及数据连接方法,具有以下有益效果:本发明将单机的多线程并行连接算法与分布式集群系统上的并行运算模型相结合,使得多核计算机更能有效利用其硬件资源,最大限度地挖掘集群系统的运算潜能,发挥出更多的性能优势;进一步地,本发明在单机系统上应用多线程并行操作时,为了避免共用内存产生的操作竞争,采用了预先划分数据片,每个线程独占一个缓存区的方式来避免线程间产生竞争,这种方式较之于传统的加锁方式,减小了开销。
附图说明
图1为根据本发明优选实施例的基于多核CPU的分布式集群系统的结构图;
图2为根据本发明优选实施例的基于多核CPU的分布式集群系统的数据连接方法示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
哈希连接(Hash Join)是连接操作中广泛使用的一种简单高效的算法,在映射规约(Map Reduce)计算框架中一个完整的Hash Join包括映射(Map)、混洗(Shuffle)和规约(Reduce)三个阶段。本发明在多核CPU中,可采用多线程的方式完成每一个阶段,提高了CPU的利用率。混洗(Shuffle)用于将数据从映射端输出到规约端。
请参阅图1,为根据本发明优选实施例的基于多核CPU的分布式集群系统的结构图。如图1所示,该实施例提供的基于多核CPU的分布式集群系统包括:映射服务器100和规约服务器200。下面结合参阅图2对本发明的系统进行详细描述,该图2为根据本发明优选实施例的基于多核CPU的分布式集群系统的数据连接方法示意图。
映射服务器100包括至少一台具有多核CPU的计算机。映射服务器100用于在映射任务的进程内部启动n个映射线程,如图2中映射线程1至映射线程n,并以映射服务器100中每个核心作为一个对应计算节点对这n个映射线程进行并行计算。其中每个映射线程从共享内存预先分配的缓冲区中读取对应的数据分片,例如映射线程i从预先分配的缓冲区中读取对应的数据分片vi,1≤i≤n,n为映射线程的总数。映射线程在读取各自的数据分片后记录源表的连接属性和查询属性,生成键值对,并对连接属性建立各自的哈希表。如图2中映射线程1至映射线程n分别独立建立了哈希表1至哈希表n。也就是说,在多线程连接操作过程中,映射任务(MapTask)在其进程内部启动n个线程,又称为规约线程,通过这n个规约线程并行地进行连接操作来实现映射(Map)端连接操作的多线程化。即在映射(Map)阶段中,每个线程维护一个独立的哈希表,并行地从任务队列中取出任务,对元组在连接属性上做哈希运算,并存入到对应的哈希桶中。
由于所有线程共享同一内存,因此在读取数据时存在严重的竞争。为了避免竞争,本发明在映射操作前首先对数据进行预处理:假设共有n个映射线程同时工作,则将输入数据分成n等份,并维护n个缓冲区,每个映射线程独占一个缓冲区。这是一种空间换时间的策略,既避免了多个线程间的读冲突,而且较之于传统的加锁操作节省了同步开销。
规约服务器200包括至少一台具有多核CPU的计算机。该规约服务器200与映射服务器100连接,使得映射服务器100产生哈希表的数据可通过例如混洗(Shuffle)操作传输到规约服务器200。用于在规约任务的进程内部启动m个规约线程,如图2中规约线程1至规约线程n,并以规约服务器中每个核心作为一个对应计算节点对这m个规约线程进行并行计算。其中每个规约线程用于查找映射服务器100建立的所有哈希表,如哈希表1至哈希表n,从所有哈希表中分别获取属于自己的中间数据集,并对该中间数据集进行比较连接。多个规约线程在运行完成后得到最终关系表。也就是说,在规约(Reduce)阶段,每个规约任务(ReduceTasek)从存储着多个哈希表的中间缓冲区中分别拉取属于自己的中间数据集,对中间数据集进行排序、连接等规约操作。
因此,本发明在整个数据连接过程中,映射服务器100和规约服务器200的每个核心都被当作一个对应计算节点进行并行计算,并且多个线程共享同一内存,降低了数据间的通信代价。
在本发明中,分布式集群系统内各个计算机之间的数据迁移可以采用远程直接数据存取(RDMA,Remote Direct Memory Access)方式,并采用消息传递接口(MPI,Message-Passing-Interface)进行编程实现通信。使得数据可以直接通过网络进行传递而不对操作系统造成任何影响,消除了外部存储器复制和文本交换操作,加快了集群系统的运算速度。
在本发明更优选的实施例中,映射服务器100还可以对映射服务器100的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对映射线程进行并行处理。例如发现有新任务到达时,首先判断是否当前集群是否有空闲CPU核可以利用,如果没有,则回到线程继续等待;如果有可以利用的空闲核资源,则将新任务加上任务名后连同数据一起打包到计算节点请求计算,更新平台总空闲资源CPU核数为当前集群中空闲资源CPU核数减去该任务占用核数。同样地,规约服务器200也可以对规约服务器200的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对规约线程进行并行处理。
本发明还提供了一种基于多核CPU的分布式集群系统的数据连接方法,其中基于多核CPU的分布式集群系统如前所述,包括映射服务器100和规约服务器200,且映射服务器100包括至少一台具有多核CPU的计算机,规约服务器200包括至少一台具有多核CPU的计算机。该基于多核CPU的分布式集群系统的数据连接方法包括:
(1)映射步骤:由映射服务器100在映射任务的进程内部启动n个映射线程,并以映射服务器100中每个核心作为一个对应计算节点对所述n个映射线程进行并行计算;其中每个映射线程从共享内存预先分配的缓冲区中读取对应的数据分片vi,1≤i≤n,记录源表的连接属性和查询属性,生成键值对,并对所述连接属性建立各自的哈希表。优选地,该映射步骤还包括:预先将输入数据分成n等份,并分别存储至n个缓冲区,使每个映射线程对应一个缓冲区。
(2)规约步骤:由规约服务器200在规约任务的进程内部启动m个规约线程,并以规约服务器200中每个核心作为一个对应计算节点对所述m个规约线程进行并行计算;其中每个规约线程用于查找所述哈希表,从多个哈希表中分别获取属于自己的中间数据集,并对中间数据集进行比较连接。
在本发明更优选的实施例中,映射步骤中还可以对映射服务器100的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对映射线程进行并行处理。同样地,规约步骤中也可以对规约服务器200的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对规约线程进行并行处理。并且分布式集群系统内计算机之间的数据迁移采用远程直接数据存取方式,并采用消息传递接口进行编程实现通信。
综上所述,本发明将单机的多线程并行连接算法与分布式集群系统上的并行运算模型相结合,使得多核计算机更能有效利用其硬件资源,最大限度地挖掘集群系统的运算潜能,发挥出更多的性能优势。对于每一台计算机,将CPU上的每个核心或者硬件线程都当作一个对应计算节点,在映射规约(MapReduce)框架下进行多线程并行计算充分利用了每台计算机的储存能力和多核CPU的并行处理能力,提高了对每个计算节点的利用率;对于整个集群系统,采用MPI和RDMA技术进行通信,消除外部存储器的存储、复制和交换操作。二者结合,大大提高了整个集群系统的运算能力。进一步地,本发明在单机系统上应用多线程并行操作时,为了避免共用内存产生的操作竞争,采用了预先划分数据片,每个线程独占一个缓存区的方式来避免线程间产生竞争,这种方式较之于传统的加锁方式,减小了开销。
应该理解地是,本发明的基于多核CPU的分布式集群系统以及其数据连接方法的实现原理与过程相同,因此对基于多核CPU的分布式集群系统的实施例的具体描述也适用于基于多核CPU的分布式集群系统的数据连接方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于多核CPU的分布式集群系统,其特征在于,包括:
映射服务器,包括至少一台具有多核CPU的计算机,用于在映射任务的进程内部启动n个映射线程,并以所述映射服务器中每个核心作为一个对应计算节点对所述n个映射线程进行并行计算;其中每个映射线程从共享内存预先分配的缓冲区中读取对应的数据分片vi,1≤i≤n,记录源表的连接属性和查询属性,生成键值对,并对所述连接属性建立各自的哈希表,且每个映射线程维护一个独立的哈希表;
规约服务器,包括至少一台具有多核CPU的计算机,用于在规约任务的进程内部启动m个规约线程,并以所述规约服务器中每个核心作为一个对应计算节点对所述m个规约线程进行并行计算;其中每个规约线程用于查找所述哈希表,从多个哈希表中分别获取属于自己的中间数据集,并对所述中间数据集进行比较连接;
所述映射服务器还用于对映射服务器的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对映射线程进行并行处理;
所述规约服务器还用于对规约服务器的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对规约线程进行并行处理。
2.根据权利要求1所述的基于多核CPU的分布式集群系统,其特征在于,所述映射服务器预先将输入数据分成n等份,并分别存储至n个缓冲区,使每个映射线程对应一个缓冲区。
3.根据权利要求1所述的基于多核CPU的分布式集群系统,其特征在于,所述分布式集群系统内计算机之间的数据迁移采用远程直接数据存取方式,并采用消息传递接口进行编程实现通信。
4.一种基于多核CPU的分布式集群系统的数据连接方法,其特征在于,所述基于多核CPU的分布式集群系统包括映射服务器和规约服务器,且所述映射服务器包括至少一台具有多核CPU的计算机,所述规约服务器包括至少一台具有多核CPU的计算机,所述数据连接方法包括:
映射步骤,在映射任务的进程内部启动n个映射线程,并以所述映射服务器中每个核心作为一个对应计算节点对所述n个映射线程进行并行计算;其中每个映射线程从共享内存预先分配的缓冲区中读取对应的数据分片vi,1≤i≤n,记录源表的连接属性和查询属性,生成键值对,并对所述连接属性建立各自的哈希表,且每个映射线程维护一个独立的哈希表;
规约步骤,在规约任务的进程内部启动m个规约线程,并以规约服务器中每个核心作为一个对应计算节点对所述m个规约线程进行并行计算;其中每个规约线程用于查找所述哈希表,从多个哈希表中分别获取属于自己的中间数据集,并对所述中间数据集进行比较连接;
所述映射步骤还包括对映射服务器的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对映射线程进行并行处理;
所述规约步骤还包括对规约服务器的集群中空闲资源CPU核数进行采集统计,并实时更新空闲资源CPU核数,对规约线程进行并行处理。
5.根据权利要求4所述的基于多核CPU的分布式集群系统的数据连接方法,其特征在于,所述映射步骤还包括:预先将输入数据分成n等份,并分别存储至n个缓冲区,使每个映射线程对应一个缓冲区。
6.根据权利要求4所述的基于多核CPU的分布式集群系统的数据连接方法,其特征在于,所述分布式集群系统内计算机之间的数据迁移采用远程直接数据存取方式,并采用消息传递接口进行编程实现通信。
CN201710361514.3A 2017-05-22 2017-05-22 一种基于多核cpu的分布式集群系统及数据连接方法 Active CN107247623B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710361514.3A CN107247623B (zh) 2017-05-22 2017-05-22 一种基于多核cpu的分布式集群系统及数据连接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710361514.3A CN107247623B (zh) 2017-05-22 2017-05-22 一种基于多核cpu的分布式集群系统及数据连接方法

Publications (2)

Publication Number Publication Date
CN107247623A CN107247623A (zh) 2017-10-13
CN107247623B true CN107247623B (zh) 2018-04-13

Family

ID=60016978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710361514.3A Active CN107247623B (zh) 2017-05-22 2017-05-22 一种基于多核cpu的分布式集群系统及数据连接方法

Country Status (1)

Country Link
CN (1) CN107247623B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108242B (zh) * 2017-12-11 2021-05-18 成都四象联创科技有限公司 基于大数据的存储层智能分发控制方法
CN109976902B (zh) * 2017-12-28 2021-09-03 北京京东尚科信息技术有限公司 任务处理方法、系统、电子设备及计算机可读介质
CN109271344B (zh) * 2018-08-07 2020-08-04 浙江大学 基于申威芯片架构并行文件读取的数据预处理方法
CN110222075B (zh) * 2019-04-25 2021-11-19 视联动力信息技术股份有限公司 一种响应数据查询的方法、视联网系统以及mserver系统
CN111857982B (zh) * 2019-04-25 2023-10-27 浙江大学 一种数据处理方法及其装置
CN111082949B (zh) * 2019-10-29 2022-01-28 广东工业大学 一种类脑计算机中脉冲数据包高效传输方法
CN111506348A (zh) * 2020-04-22 2020-08-07 广州光大教育软件科技股份有限公司 手写板校正多线程并行处理方法、装置、设备以及介质
CN112634887B (zh) * 2020-12-08 2024-01-23 北京梧桐车联科技有限责任公司 语音模式控制方法、装置及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536724A (zh) * 2014-12-25 2015-04-22 华中科技大学 一种多核环境下哈希表并发访问性能优化方法
CN104978228A (zh) * 2014-04-09 2015-10-14 腾讯科技(深圳)有限公司 一种分布式计算系统的调度方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785469B2 (en) * 2014-02-07 2017-10-10 International Business Machines Corporation Detection of time points to voluntarily yield resources for context switching

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978228A (zh) * 2014-04-09 2015-10-14 腾讯科技(深圳)有限公司 一种分布式计算系统的调度方法和装置
CN104536724A (zh) * 2014-12-25 2015-04-22 华中科技大学 一种多核环境下哈希表并发访问性能优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hadoop平台的MapReduce模型性能优化研究;姚洪哲;《中国优秀硕士学位论文全文数据库》;20160315;说明书第4,9,14,28页 *
基于新型计算架构的大规模数据连接查询优化;尚宏佳;《中国优秀硕士学位论文全文数据库》;20170215;说明书第9-15页,第34-41页 *

Also Published As

Publication number Publication date
CN107247623A (zh) 2017-10-13

Similar Documents

Publication Publication Date Title
CN107247623B (zh) 一种基于多核cpu的分布式集群系统及数据连接方法
CN106777351B (zh) 基于art树分布式系统图存储计算系统及其方法
CN111338766B (zh) 事务处理方法、装置、计算机设备及存储介质
CN105138679B (zh) 一种基于分布式缓存的数据处理系统及处理方法
US9563697B1 (en) Calculating differences between datasets having differing numbers of partitions
EP2469423B1 (en) Aggregation in parallel computation environments with shared memory
US7752225B2 (en) Replication and mapping mechanism for recreating memory durations
CN110995488A (zh) 一种基于分层参数服务器的多机构协同学习系统及方法
CN107193898A (zh) 基于分级复用的日志数据流的查询共享方法和系统
CN106815302A (zh) 一种应用于游戏道具推荐的频繁项集挖掘方法
CN108268614A (zh) 一种森林资源空间数据的分布式管理方法
Qi S-store: A scalable data store towards permissioned blockchain sharding
CN107133243A (zh) 一种数据处理方法和服务器
Subramanian A fully dynamic data structure for reachability in planar digraphs
CN107395711A (zh) 异构系统会话存取方法及相关装置
CN112104504B (zh) 一种大规模资源访问的事务管理框架、设计方法及云平台
Khan Efficient Partitioning of Large Databases without Query Statistics.
CN106856509A (zh) 一种基于knl集群的大规模数据的处理方法及系统
CN109726252A (zh) 一种分布式数据集的数据管理方法及相关装置
WO2023000561A1 (zh) 一种对数据库操作进行加速的方法和装置
Gu et al. Distributed hypergraph processing using intersection graphs
CN204887003U (zh) 大数据处理平台网络架构
CN110597809B (zh) 一种支持树状数据结构的一致性算法系统及其实现方法
CN112966001A (zh) 一种基于区块链的BCTkPQ查询方法
Zhuang et al. Design of a more scalable database system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant