CN112037874B - 一种基于映射归约的分布式数据处理方法 - Google Patents

一种基于映射归约的分布式数据处理方法 Download PDF

Info

Publication number
CN112037874B
CN112037874B CN202010915505.6A CN202010915505A CN112037874B CN 112037874 B CN112037874 B CN 112037874B CN 202010915505 A CN202010915505 A CN 202010915505A CN 112037874 B CN112037874 B CN 112037874B
Authority
CN
China
Prior art keywords
data
disk
key value
ith
buffer area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010915505.6A
Other languages
English (en)
Other versions
CN112037874A (zh
Inventor
李磊
张人杰
卜晨阳
吴信东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010915505.6A priority Critical patent/CN112037874B/zh
Publication of CN112037874A publication Critical patent/CN112037874A/zh
Application granted granted Critical
Publication of CN112037874B publication Critical patent/CN112037874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0656Data buffering arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Abstract

本发明公开了一种基于映射归约的分布式数据处理方法,其步骤包括:1、对磁盘中的数据进行分片处理,2、在所设置的缓冲区内部,对第一步的处理结果再次进行数据处理,3、通过循环处理,对来自不同磁盘的数据进行规约。本发明通过对磁盘进行分片处理,对磁盘内部数据进行两次排序与合并,从而使得磁盘内部的数据通过映射规约能够有序地排列,高效查询,进而能够降低大规模数据处理时的工作量,提升运行效率。

Description

一种基于映射归约的分布式数据处理方法
技术领域
本发明属于数据处理技术领域,具体的说是一种基于映射归约的分布式数据处理方法。
背景技术
采用集中数据处理的传统数据处理模式中,来自所有终端的计算都由主机完成,这类网络处理速度可能有些慢。另外,如果用户有各种不同的需要,在集中式计算机网络上满足这些需要可能是十分困难的,因为每个用户的应用程序和资源都必须单独设置,而让这些应用程序和资源都在同一台集中式计算机上操作,使得系统效率不高。还有,因为所有用户都必须连接到一台中央计算机,集中连接可能成为集中式网络的一个大问题。集中式数据处理是基于一个大型的中央计算机,所有的数据、运算、处理任务全部在中央计算机系统上完成。中央计算机连接多个终端,终端用来输入和输出,不具有数据处理能力。远程终端通过网络连接到中央计算机,它们得到的信息是一致的。如果终端用户有不同的需要,要对每个用户的程序和资源做单独的配置,在集中式数据处理模式上做起来比较困难,而且效率不高。
传统的分布式数据处理虽然可以避免集中式处理的大部分问题,但是由于自身数据处理的特性,越是处理大规模的数据,对计算机硬件要求就越高。目前真正的电子病历数据还是存储在医疗机构本地的数据库中,现在的病历系统只是一个数据查询系统,无法满足不同医疗机构之间的数据处理问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种低硬件要求且具有高处理效率的基于映射归约的分布式数据处理方法,以期能通过对磁盘进行分片处理,对磁盘内部数据进行两次排序与合并,从而使得磁盘内部的数据通过映射规约能够有序地排列,高效查询,进而能够降低大规模数据处理时的工作量,提升计算机硬件运行效率。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于映射归约的分布式数据处理方法,是应用于由M个医院数据库和x个保存数据的磁盘N={N1,N2,...,Ni,...,Nx}所组成的数据处理环境中,其中,Ni表示保存数据的第i个磁盘,1≤i≤x,其特点是,所述分布式数据处理方法是按如下步骤执行:
步骤一、对磁盘中的数据进行分片处理;
步骤1.1、定义对第i个磁盘Ni所保存的数据分片的标准大小为S;定义第p个病人身份证号为kp,定义第p个病人病历信息为vp;由第p个病人身份证号kp及其所对应的第p个病历信息vp组合成第p个键值对(kp,vp)并存入第i个磁盘Ni中;
步骤1.2、将第m个医院数据库数据按照所定义标准分片大小S对第i个磁盘进行分片读取,从而得到第i个磁盘Ni的分片集合
Figure BDA0002664876150000021
Figure BDA0002664876150000022
表示第i个磁盘Ni的第j个分片,1≤j≤n;1≤m≤M;
步骤1.3、定义缓冲区并对缓冲区进行均等分区,得到分区后的缓冲区B={B1,B2,...,Bq,...,Bu},Bq表示缓冲区B的第q个分区,1≤q≤u;
步骤1.4、将第p个病人所对应的规约任务Kp=kp%u添加到对应的第p个病人病历信息vp中;
步骤1.5、将键值对(kp,vp)写入缓冲区B中;
步骤二、缓冲区内数据处理;
步骤2.1、判断缓冲区B是否达到溢写条件β,若缓冲区B中数据大小达到溢写条件β,则说明达到溢写条件,并执行步骤2.2;若缓冲区中数据大小未达到溢写条件β时,则说明未达到溢写条件,并返回骤2.1;
步骤2.2、对缓冲区B中的所有键值对进行排序,若键值对中的病人身份证号不同,则将病人身份证号较大的排列在前;若键值对中的病人身份证号相同,则读取相同病人身份证号的键值对中病人病历信息所包含的就医时间,并对就医时间进行比较,将就医时间较早的排列在前;从而得到排序后的键值对并写入缓冲区B中;
步骤2.3、对缓冲区B中排序后的键值对进行合并,将相同病人身份证号的键值对中的病人病历信息合并,从而生成临时文件F后写入第i个磁盘Ni
步骤2.4、定义时间周期为t;
步骤2.5、使用标识
Figure BDA0002664876150000023
来判断第j个分片Sj数据是否处理完毕,每经过时间周期t,用标示
Figure BDA0002664876150000024
对第j个分片Sj内剩余数据进行判断,若
Figure BDA0002664876150000025
则说明第j个分片Sj内的数据已经处理完毕,并对第i个磁盘Ni中的所有临时文件按照相同的病人身份证号进行合并,从而生成新的临时文件F′保存在第i个磁盘Ni中;若
Figure BDA0002664876150000026
则说明第j个分片Sj内的数据还未处理完毕,并返回执行步骤2.5;
步骤三、对来自不同磁盘的数据进行规约;
步骤3.1、构建规约任务集合R={R1,R2,...,Ru},Ru表示第u个规约任务;定义内存缓冲区为E,且E>B;u>x;
步骤3.2、初始化i=1;
步骤3.3、每经过时间周期t,用
Figure BDA0002664876150000031
判断是否第i个磁盘Ni中所有分片均已完成映射,若
Figure BDA0002664876150000032
则说明在第i个磁盘Ni中所有分片数据均已处理完毕,并执行步骤3.3;若
Figure BDA0002664876150000033
则说明在第i个磁盘Ni中存在未处理完数据的分片,并返回步骤3.2;
步骤3.4、读取第i个磁盘Ni中任意第p个键值对(kp,vp),并将第p个键值对(kp,vp)写入内存缓冲区E,读取第p个病历信息vp中的规约任务Kp,从而启动对应的第Kp个规约任务
Figure BDA0002664876150000034
步骤3.5、判断内存缓冲区E是否达到溢写比η,若内存缓冲区E数据大小达到溢写比η,则执行步骤3.6,若内存缓冲区E数据大小未达到溢写比η,则执行步骤3.8;
步骤3.6、对内存缓冲区E中的所有键值对进行排序,若键值对中的病人身份证号不同,则将病人身份证号较大的排列在前;若键值对中的病人身份证号相同,则读取相同病人身份证号键值对中的病人病历信息所包含的就医时间,并对就医时间进行比较,将就医时间较早的排列在前;从而得到排序后的键值对并写入内存缓冲区E中;
对内存缓冲区E中病人身份证号相同的键值对启动相同的规约任务进行合并;从而生成内存临时文件FE后写入第i个磁盘Ni
步骤3.7、第i个磁盘Ni启动第i个规约任务Ri,利用第i个规约任务Ri对第i个磁盘Ni中所有键值对按照相同病人身份证号进行合并,从而生成最终文件F*,使用最终文件F*覆盖第i个磁盘Ni中的所有键值对;
步骤3.8、将i+1赋值给i后,返回步骤3.3,直到i=x为止。
与现有技术相比,本发明的有益效果在于:
1、本发明通过设置缓冲区,规定缓冲区溢写比,实时对缓冲区内部进行监控,一旦达到溢写比就进行写入,保证缓冲区始终能够以一个较为高效的状态进行数据处理,通过将处理过的数据生成临时文件再次写入磁盘,降低了磁盘容量消耗,确保中间过渡的数据处理不会造成较大的额外存储消耗。
2、本发明通过对各个磁盘按照各自磁盘大小进行分片处理,定期对分片内部数据处理情况查询,确保能够较为高效地利用系统的处理性能,避免了空闲状态的浪费。
3、本发明通过对磁盘数据的两次排序合并,将存储在不同磁盘的同一病人病历高效地整合起来,降低了具体查询时的工作量,提高了系统性能,通过设置规约任务集合,在数据处理时提前写入对应规约任务,简化了病人病历处理的过程,确保了病人病历能够被高效精准地并行处理,减少了工作量,降低了系统负荷。
附图说明
图1为本发明的整体流程图。
具体实施方式
本实施例中,一种基于映射归约的分布式数据处理方法,是应用于由M个医院数据库和x个保存数据的磁盘N={N1,N2,...,Ni,...,Nx}所组成数据处理环境中,其中,Ni表示保存数据的第i个磁盘,1≤i≤x,如图1所示,该分布式数据处理方法是按如下步骤执行:
步骤一、对磁盘中的数据进行分片处理,通过对磁盘分片进行处理,提高数据处理效率,降低系统负荷;
步骤1.1、定义对第i个磁盘Ni所保存的数据分片的标准大小为S,通过设置分片大小,并行处理分片,提升处理效率,定义第p个病人身份证号为kp,定义第p个病人病历信息为vp;由第p个病人身份证号kp及其所对应的第p个病历信息vp组合成键值对(kp,vp)并存入第i个磁盘Ni中;
步骤1.2、将第m个医院数据库数据按照所定义标准分片大小S对第i个磁盘进行分片读取,从而得到第i个磁盘Ni的分片集合
Figure BDA0002664876150000041
Figure BDA0002664876150000042
表示第i个磁盘Ni的第j个分片,1≤j≤n;1≤m≤M;
步骤1.3、定义缓冲区并对缓冲区进行均等分区,得到分区后的缓冲区B={B1,B2,...,Bq,...,Bu},Bq表示缓冲区B的第q个分区,1≤q≤u;
步骤1.4、将第p个病人所对应的规约任务Kp=kp%u添加到对应的第p个病人病历信息vp中,将所对应的的规约任务提前写入,减少规约时的工作量,确保规约处理的精确性;
步骤1.5、将键值对(kp,vp)写入缓冲区B中,利用缓冲区的高效性,降低数据处理的时间消耗;
步骤二、缓冲区内数据处理;
步骤2.1、判断缓冲区B是否达到溢写条件β,若缓冲区B中数据大小达到溢写条件β,则说明达到溢写条件,并执行步骤2.2;若缓冲区中数据大小未达到溢写条件β时,则说明未达到溢写条件,并返回骤2.1;缓冲区内存储数据过少时会导致空间浪费,增加成本消耗,缓冲区存储数据过多时,会降低处理效率,设置溢写比,使得缓冲区能够始终以高效且低成本的状态去处理数据;
步骤2.2、对缓冲区B中的所有键值对进行排序,若键值对中的病人身份证号不同,则将病人身份证号较大的排列在前;若键值对中的病人身份证号相同,则读取相同病人身份证号的键值对中病人病历信息所包含的就医时间,并对就医时间进行比较,将就医时间较早的排列在前;从而得到排序后的键值对并写入缓冲区B中;
步骤2.3、对缓冲区B中排序后的键值对进行合并,将相同病人身份证号的键值对中的病人病历信息合并,从而生成临时文件F后写入第i个磁盘Ni
步骤2.4、定义时间周期为t,定期对分片内部数据处理情况进行检查,避免系统空闲,造成不必要的浪费;
步骤2.5、使用标识
Figure BDA0002664876150000051
来判断第j个分片Sj数据是否处理完毕,每经过时间周期t,用标示
Figure BDA0002664876150000052
对第j个分片Sj内剩余数据进行判断,若
Figure BDA0002664876150000053
则说明第j个分片Sj内的数据已经处理完毕,并对第i个磁盘Ni中的所有临时文件按照相同的病人身份证号进行合并,从而生成新的临时文件F′保存在第i个磁盘Ni中;若
Figure BDA0002664876150000054
则说明第j个分片Sj内的数据还未处理完毕,并返回执行步骤2.5;
本实施例中,会在磁盘内部自动进行分片,按照分片进行并行数据处理,定期对分片处理情况进行查询,对磁盘分片后第一次进行数据处理完毕后,会在内部生成一个临时文件Fp,并使用临时文件Fp覆盖原来磁盘中的文件,确保磁盘空间的有效利用。
步骤三、对来自不同磁盘的数据进行规约;
步骤3.1、通过将键值对合并程序封装从而构建规约任务集合R={R1,R2,...,Ru},Ru表示第u个规约任务;定义内存缓冲区为E,且E>B,u>x,对不同磁盘数据进行规约,需要更大的缓冲区;
步骤3.2、初始化i=1;
步骤3.3、每经过时间周期t,用
Figure BDA0002664876150000061
判断是否第i个磁盘Ni中所有分片均已完成映射,若
Figure BDA0002664876150000062
则说明在第i个磁盘Ni中所有分片数据均已处理完毕,并执行步骤3.3;若
Figure BDA0002664876150000063
则说明在第i个磁盘Ni中存在未处理完数据的分片,并返回步骤3.2;
步骤3.4、读取第i个磁盘Ni中任意第p个键值对(kp,vp),并将第p个键值对(kp,vp)写入内存缓冲区E,读取第p个病历信息vp中的规约任务Kp,从而启动对应的第Kp个规约任务
Figure BDA0002664876150000064
步骤3.5、判断内存缓冲区E是否达到溢写比η,若内存缓冲区E数据大小达到溢写比η,则执行步骤3.6,若内存缓冲区E数据大小未达到溢写比η,则执行步骤3.8,只有缓冲区达到溢写比时才允许缓冲区进行具体操作;
步骤3.6、对内存缓冲区E中的所有键值对进行排序,若键值对中的病人身份证号不同,则将病人身份证号较大的排列在前;若键值对中的病人身份证号相同,则读取相同病人身份证号键值对中的病人病历信息所包含的就医时间,并对就医时间进行比较,将就医时间较早的排列在前;从而得到排序后的键值对并写入内存缓冲区E中;
对内存缓冲区E中病人身份证号相同的键值对启动相同的规约任务进行合并;从而生成内存临时文件FE后写入第i个磁盘Ni
本实施例中,病人在不同医院的就医病历可能存储在不同磁盘上的不同区域,在对病人病历进行排序时,不需要按照病人身份证号在所有磁盘上依次查询,只需要对不同磁盘上的第一次数据处理结果进行合并即可,按照在各个医院就医时间的不同,从早到晚排序。
步骤3.7、第i个磁盘Ni启动第i个规约任务Ri,利用第i个规约任务Ri对第i个磁盘Ni中所有键值对按照相同病人身份证号进行合并,从而生成最终文件F*,使用最终文件F*覆盖第i个磁盘Ni中的所有键值对;
步骤3.8、将i+1赋值给i后,返回步骤3.3,直到i=x为止,对每一个磁盘的数据都要进行二次数据处理,进行两次合并,减少具体查询的工作量。

Claims (1)

1.一种基于映射归约的分布式数据处理方法,是应用于由M个医院数据库和x个保存数据的磁盘N={N1,N2,...,Ni,...,Nx}所组成的数据处理环境中,其中,Ni表示保存数据的第i个磁盘,1≤i≤x,其特征是,所述分布式数据处理方法是按如下步骤执行:
步骤一、对磁盘中的数据进行分片处理;
步骤1.1、定义对第i个磁盘Ni所保存的数据分片的标准大小为S;定义第p个病人身份证号为kp,定义第p个病人病历信息为vp;由第p个病人身份证号kp及其所对应的第p个病历信息vp组合成第p个键值对(kp,vp)并存入第i个磁盘Ni中;
步骤1.2、将第m个医院数据库数据按照所定义标准分片大小S对第i个磁盘进行分片读取,从而得到第i个磁盘Ni的分片集合
Figure FDA0002664876140000011
Figure FDA0002664876140000012
表示第i个磁盘Ni的第j个分片,1≤j≤n;1≤m≤M;
步骤1.3、定义缓冲区并对缓冲区进行均等分区,得到分区后的缓冲区B={B1,B2,...,Bq,...,Bu},Bq表示缓冲区B的第q个分区,1≤q≤u;
步骤1.4、将第p个病人所对应的归约 任务Kp=kp%u添加到对应的第p个病人病历信息vp中;
步骤1.5、将键值对(kp,vp)写入缓冲区B中;
步骤二、缓冲区内数据处理;
步骤2.1、判断缓冲区B是否达到溢写条件β,若缓冲区B中数据大小达到溢写条件β,则说明达到溢写条件,并执行步骤2.2;若缓冲区中数据大小未达到溢写条件β时,则说明未达到溢写条件,并返回骤2.1;
步骤2.2、对缓冲区B中的所有键值对进行排序,若键值对中的病人身份证号不同,则将病人身份证号较大的排列在前;若键值对中的病人身份证号相同,则读取相同病人身份证号的键值对中病人病历信息所包含的就医时间,并对就医时间进行比较,将就医时间较早的排列在前;从而得到排序后的键值对并写入缓冲区B中;
步骤2.3、对缓冲区B中排序后的键值对进行合并,将相同病人身份证号的键值对中的病人病历信息合并,从而生成临时文件F后写入第i个磁盘Ni
步骤2.4、定义时间周期为t;
步骤2.5、使用标识
Figure FDA0002664876140000021
来判断第j个分片Sj数据是否处理完毕,每经过时间周期t,用标识
Figure FDA0002664876140000022
对第j个分片Sj内剩余数据进行判断,若
Figure FDA0002664876140000023
则说明第j个分片Sj内的数据已经处理完毕,并对第i个磁盘Ni中的所有临时文件按照相同的病人身份证号进行合并,从而生成新的临时文件F′保存在第i个磁盘Ni中;若
Figure FDA0002664876140000024
则说明第j个分片Sj内的数据还未处理完毕,并返回执行步骤2.5;
步骤三、对来自不同磁盘的数据进行归约 ;
步骤3.1、构建归约 任务集合R={R1,R2,...,Ru},Ru表示第u个归约 任务;定义内存缓冲区为E,且E>B;u>x;
步骤3.2、初始化i=1;
步骤3.3、每经过时间周期t,用
Figure FDA0002664876140000025
判断是否第i个磁盘Ni中所有分片均已完成映射,若
Figure FDA0002664876140000026
则说明在第i个磁盘Ni中所有分片数据均已处理完毕,并执行步骤3.3;若
Figure FDA0002664876140000027
则说明在第i个磁盘Ni中存在未处理完数据的分片,并返回步骤3.2;
步骤3.4、读取第i个磁盘Ni中任意第p个键值对(kp,vp),并将第p个键值对(kp,vp)写入内存缓冲区E,读取第p个病历信息vp中的归约 任务Kp,从而启动对应的第Kp个归约 任务
Figure FDA0002664876140000028
步骤3.5、判断内存缓冲区E是否达到溢写比η,若内存缓冲区E数据大小达到溢写比η,则执行步骤3.6,若内存缓冲区E数据大小未达到溢写比η,则执行步骤3.8;
步骤3.6、对内存缓冲区E中的所有键值对进行排序,若键值对中的病人身份证号不同,则将病人身份证号较大的排列在前;若键值对中的病人身份证号相同,则读取相同病人身份证号键值对中的病人病历信息所包含的就医时间,并对就医时间进行比较,将就医时间较早的排列在前;从而得到排序后的键值对并写入内存缓冲区E中;
对内存缓冲区E中病人身份证号相同的键值对启动相同的归约 任务进行合并;从而生成内存临时文件FE后写入第i个磁盘Ni
步骤3.7、第i个磁盘Ni启动第i个归约 任务Ri,利用第i个归约 任务Ri对第i个磁盘Ni中所有键值对按照相同病人身份证号进行合并,从而生成最终文件F*,使用最终文件F*覆盖第i个磁盘Ni中的所有键值对;
步骤3.8、将i+1赋值给i后,返回步骤3.3,直到i=x为止。
CN202010915505.6A 2020-09-03 2020-09-03 一种基于映射归约的分布式数据处理方法 Active CN112037874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010915505.6A CN112037874B (zh) 2020-09-03 2020-09-03 一种基于映射归约的分布式数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010915505.6A CN112037874B (zh) 2020-09-03 2020-09-03 一种基于映射归约的分布式数据处理方法

Publications (2)

Publication Number Publication Date
CN112037874A CN112037874A (zh) 2020-12-04
CN112037874B true CN112037874B (zh) 2022-09-13

Family

ID=73591832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010915505.6A Active CN112037874B (zh) 2020-09-03 2020-09-03 一种基于映射归约的分布式数据处理方法

Country Status (1)

Country Link
CN (1) CN112037874B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297188B (zh) * 2021-02-01 2022-11-15 淘宝(中国)软件有限公司 数据处理方法以及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970520A (zh) * 2013-01-31 2014-08-06 国际商业机器公司 MapReduce架构中的资源管理方法、装置和架构系统
CN107807983A (zh) * 2017-10-30 2018-03-16 辽宁大学 一种支持大规模动态图数据查询的并行处理框架及设计方法
CN108027801A (zh) * 2015-12-31 2018-05-11 华为技术有限公司 数据处理方法、装置和系统
CN109558376A (zh) * 2018-11-09 2019-04-02 浙江工业大学 一种面向MapReduce框架的有效计算与数据传输重叠执行方法
CN110187969A (zh) * 2019-05-30 2019-08-30 北京理工大学 一种基于gpu的分布式大数据并行计算方法
CN110377601A (zh) * 2019-06-27 2019-10-25 河南省交通规划设计研究院股份有限公司 一种基于B树数据结构的MapReduce计算过程优化方法
CN110515969A (zh) * 2019-07-08 2019-11-29 中国平安人寿保险股份有限公司 数据查询处理方法、电子装置、计算机设备及存储介质
CN110532282A (zh) * 2019-08-09 2019-12-03 合肥工业大学 数据查询方法及装置
CN111028897A (zh) * 2019-12-13 2020-04-17 内蒙古农业大学 一种基于Hadoop的基因组索引构建的分布式并行计算方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11086837B2 (en) * 2019-01-15 2021-08-10 EMC IP Holding Company LLC Fast key-value storage for continuous data protection systems

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970520A (zh) * 2013-01-31 2014-08-06 国际商业机器公司 MapReduce架构中的资源管理方法、装置和架构系统
CN108027801A (zh) * 2015-12-31 2018-05-11 华为技术有限公司 数据处理方法、装置和系统
CN107807983A (zh) * 2017-10-30 2018-03-16 辽宁大学 一种支持大规模动态图数据查询的并行处理框架及设计方法
CN109558376A (zh) * 2018-11-09 2019-04-02 浙江工业大学 一种面向MapReduce框架的有效计算与数据传输重叠执行方法
CN110187969A (zh) * 2019-05-30 2019-08-30 北京理工大学 一种基于gpu的分布式大数据并行计算方法
CN110377601A (zh) * 2019-06-27 2019-10-25 河南省交通规划设计研究院股份有限公司 一种基于B树数据结构的MapReduce计算过程优化方法
CN110515969A (zh) * 2019-07-08 2019-11-29 中国平安人寿保险股份有限公司 数据查询处理方法、电子装置、计算机设备及存储介质
CN110532282A (zh) * 2019-08-09 2019-12-03 合肥工业大学 数据查询方法及装置
CN111028897A (zh) * 2019-12-13 2020-04-17 内蒙古农业大学 一种基于Hadoop的基因组索引构建的分布式并行计算方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Distributed file load rebalancing methodology for map reduce system;U. Saraswathi;《IEEE Xplore》;20150209;全文 *
MapReduce任务调度和洗牌调度问题的研究;刘文隆;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20200115;全文 *
MapReduce并行编程模型研究综述;杜江等;《计算机科学》;20150630;第42卷(第6A期);全文 *
基于Hadoop的排序性能优化研究;李千慧等;《电子设计工程》;20160131;第24卷(第02期);全文 *
基于并行的Apriori数据挖掘算法的研究;李若晨;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20180115;全文 *
海量车载信息的存储和挖掘方法的研究与应用;解镇源;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20160315;全文 *

Also Published As

Publication number Publication date
CN112037874A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
US20200050968A1 (en) Interactive interfaces for machine learning model evaluations
US10963810B2 (en) Efficient duplicate detection for machine learning data sets
US8364751B2 (en) Automated client/server operation partitioning
CN107608773A (zh) 任务并发处理方法、装置及计算设备
US7519636B2 (en) Key sequenced clustered I/O in a database management system
CN103336672B (zh) 数据读取方法、装置及计算设备
CN112380071B (zh) 一种快速备份ntfs文件系统的方法
US10810174B2 (en) Database management system, database server, and database management method
Zhao et al. An adaptive tuning strategy on spark based on in-memory computation characteristics
CN112612523A (zh) 一种嵌入式设备驱动系统及方法
CN112037874B (zh) 一种基于映射归约的分布式数据处理方法
CN105426119A (zh) 一种存储设备及数据处理方法
CN111966922A (zh) 基于互联网的智慧城市数据迁移存储管理系统
CN112486985A (zh) 一种锅炉数据的查询方法、装置、设备及存储介质
Quirino et al. fgssjoin: A GPU-based Algorithm for Set Similarity Joins.
CN116383240A (zh) 基于fpga多数据库加速查询方法、装置、设备及介质
CN116089535A (zh) 数据同步方法、装置、设备及存储介质
CN116089414A (zh) 基于海量数据场景的时序数据库写入性能优化方法及装置
EP4321981A1 (en) Data processing method and apparatus
CN113625967B (zh) 数据存储方法、数据查询方法及服务器
CN115016890A (zh) 虚拟机资源分配方法、装置、电子设备及存储介质
WO2022095423A1 (zh) 视频帧提取方法及相关设备
CN113672556A (zh) 一种批量文件的迁移方法及装置
CN115577113A (zh) 知识图谱平台
Shi et al. Performance evaluation and tuning of biopig for genomic analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant