CN112037874B

CN112037874B - 一种基于映射归约的分布式数据处理方法

Info

Publication number: CN112037874B
Application number: CN202010915505.6A
Authority: CN
Inventors: 李磊; 张人杰; 卜晨阳; 吴信东
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2022-09-13
Anticipated expiration: 2040-09-03
Also published as: CN112037874A

Abstract

本发明公开了一种基于映射归约的分布式数据处理方法，其步骤包括：1、对磁盘中的数据进行分片处理，2、在所设置的缓冲区内部，对第一步的处理结果再次进行数据处理，3、通过循环处理，对来自不同磁盘的数据进行规约。本发明通过对磁盘进行分片处理，对磁盘内部数据进行两次排序与合并，从而使得磁盘内部的数据通过映射规约能够有序地排列，高效查询，进而能够降低大规模数据处理时的工作量，提升运行效率。

Description

一种基于映射归约的分布式数据处理方法

技术领域

本发明属于数据处理技术领域，具体的说是一种基于映射归约的分布式数据处理方法。

背景技术

采用集中数据处理的传统数据处理模式中，来自所有终端的计算都由主机完成，这类网络处理速度可能有些慢。另外，如果用户有各种不同的需要，在集中式计算机网络上满足这些需要可能是十分困难的，因为每个用户的应用程序和资源都必须单独设置，而让这些应用程序和资源都在同一台集中式计算机上操作，使得系统效率不高。还有，因为所有用户都必须连接到一台中央计算机，集中连接可能成为集中式网络的一个大问题。集中式数据处理是基于一个大型的中央计算机，所有的数据、运算、处理任务全部在中央计算机系统上完成。中央计算机连接多个终端，终端用来输入和输出，不具有数据处理能力。远程终端通过网络连接到中央计算机，它们得到的信息是一致的。如果终端用户有不同的需要，要对每个用户的程序和资源做单独的配置，在集中式数据处理模式上做起来比较困难，而且效率不高。

传统的分布式数据处理虽然可以避免集中式处理的大部分问题，但是由于自身数据处理的特性，越是处理大规模的数据，对计算机硬件要求就越高。目前真正的电子病历数据还是存储在医疗机构本地的数据库中，现在的病历系统只是一个数据查询系统，无法满足不同医疗机构之间的数据处理问题。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种低硬件要求且具有高处理效率的基于映射归约的分布式数据处理方法，以期能通过对磁盘进行分片处理，对磁盘内部数据进行两次排序与合并，从而使得磁盘内部的数据通过映射规约能够有序地排列，高效查询，进而能够降低大规模数据处理时的工作量，提升计算机硬件运行效率。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于映射归约的分布式数据处理方法，是应用于由M个医院数据库和x个保存数据的磁盘N＝{N₁,N₂,...,N_i,...,N_x}所组成的数据处理环境中，其中，N_i表示保存数据的第i个磁盘，1≤i≤x，其特点是，所述分布式数据处理方法是按如下步骤执行：

步骤一、对磁盘中的数据进行分片处理；

步骤1.1、定义对第i个磁盘N_i所保存的数据分片的标准大小为S；定义第p个病人身份证号为k_p，定义第p个病人病历信息为v_p；由第p个病人身份证号k_p及其所对应的第p个病历信息v_p组合成第p个键值对(k_p,v_p)并存入第i个磁盘N_i中；

步骤1.2、将第m个医院数据库数据按照所定义标准分片大小S对第i个磁盘进行分片读取，从而得到第i个磁盘N_i的分片集合

表示第i个磁盘N_i的第j个分片，1≤j≤n；1≤m≤M；

步骤1.3、定义缓冲区并对缓冲区进行均等分区，得到分区后的缓冲区B＝{B₁,B₂,...,B_q,...,B_u}，B_q表示缓冲区B的第q个分区，1≤q≤u；

步骤1.4、将第p个病人所对应的规约任务K_p＝k_p％u添加到对应的第p个病人病历信息v_p中；

步骤1.5、将键值对(k_p,v_p)写入缓冲区B中；

步骤二、缓冲区内数据处理；

步骤2.1、判断缓冲区B是否达到溢写条件β，若缓冲区B中数据大小达到溢写条件β，则说明达到溢写条件，并执行步骤2.2；若缓冲区中数据大小未达到溢写条件β时，则说明未达到溢写条件，并返回骤2.1；

步骤2.2、对缓冲区B中的所有键值对进行排序，若键值对中的病人身份证号不同，则将病人身份证号较大的排列在前；若键值对中的病人身份证号相同，则读取相同病人身份证号的键值对中病人病历信息所包含的就医时间，并对就医时间进行比较，将就医时间较早的排列在前；从而得到排序后的键值对并写入缓冲区B中；

步骤2.3、对缓冲区B中排序后的键值对进行合并，将相同病人身份证号的键值对中的病人病历信息合并，从而生成临时文件F后写入第i个磁盘N_i；

步骤2.4、定义时间周期为t；

步骤2.5、使用标识

来判断第j个分片S_j数据是否处理完毕，每经过时间周期t，用标示

对第j个分片S_j内剩余数据进行判断，若

则说明第j个分片S_j内的数据已经处理完毕，并对第i个磁盘N_i中的所有临时文件按照相同的病人身份证号进行合并，从而生成新的临时文件F′保存在第i个磁盘N_i中；若

则说明第j个分片S_j内的数据还未处理完毕，并返回执行步骤2.5；

步骤三、对来自不同磁盘的数据进行规约；

步骤3.1、构建规约任务集合R＝{R₁,R₂,...,R_u}，R_u表示第u个规约任务；定义内存缓冲区为E，且E＞B；u＞x；

步骤3.2、初始化i＝1；

步骤3.3、每经过时间周期t，用

判断是否第i个磁盘N_i中所有分片均已完成映射，若

则说明在第i个磁盘N_i中所有分片数据均已处理完毕，并执行步骤3.3；若

则说明在第i个磁盘N_i中存在未处理完数据的分片，并返回步骤3.2；

步骤3.4、读取第i个磁盘N_i中任意第p个键值对(k_p,v_p)，并将第p个键值对(k_p,v_p)写入内存缓冲区E，读取第p个病历信息v_p中的规约任务K_p，从而启动对应的第K_p个规约任务

步骤3.5、判断内存缓冲区E是否达到溢写比η，若内存缓冲区E数据大小达到溢写比η，则执行步骤3.6，若内存缓冲区E数据大小未达到溢写比η，则执行步骤3.8；

步骤3.6、对内存缓冲区E中的所有键值对进行排序，若键值对中的病人身份证号不同，则将病人身份证号较大的排列在前；若键值对中的病人身份证号相同，则读取相同病人身份证号键值对中的病人病历信息所包含的就医时间，并对就医时间进行比较，将就医时间较早的排列在前；从而得到排序后的键值对并写入内存缓冲区E中；

对内存缓冲区E中病人身份证号相同的键值对启动相同的规约任务进行合并；从而生成内存临时文件F_E后写入第i个磁盘N_i；

步骤3.7、第i个磁盘N_i启动第i个规约任务R_i，利用第i个规约任务R_i对第i个磁盘N_i中所有键值对按照相同病人身份证号进行合并，从而生成最终文件F^*，使用最终文件F^*覆盖第i个磁盘N_i中的所有键值对；

步骤3.8、将i+1赋值给i后，返回步骤3.3，直到i＝x为止。

与现有技术相比，本发明的有益效果在于：

1、本发明通过设置缓冲区，规定缓冲区溢写比，实时对缓冲区内部进行监控，一旦达到溢写比就进行写入，保证缓冲区始终能够以一个较为高效的状态进行数据处理，通过将处理过的数据生成临时文件再次写入磁盘，降低了磁盘容量消耗，确保中间过渡的数据处理不会造成较大的额外存储消耗。

2、本发明通过对各个磁盘按照各自磁盘大小进行分片处理，定期对分片内部数据处理情况查询，确保能够较为高效地利用系统的处理性能，避免了空闲状态的浪费。

3、本发明通过对磁盘数据的两次排序合并，将存储在不同磁盘的同一病人病历高效地整合起来，降低了具体查询时的工作量，提高了系统性能，通过设置规约任务集合，在数据处理时提前写入对应规约任务，简化了病人病历处理的过程，确保了病人病历能够被高效精准地并行处理，减少了工作量，降低了系统负荷。

附图说明

图1为本发明的整体流程图。

具体实施方式

本实施例中，一种基于映射归约的分布式数据处理方法，是应用于由M个医院数据库和x个保存数据的磁盘N＝{N₁,N₂,...,N_i,...,N_x}所组成数据处理环境中，其中，N_i表示保存数据的第i个磁盘，1≤i≤x，如图1所示，该分布式数据处理方法是按如下步骤执行：

步骤一、对磁盘中的数据进行分片处理，通过对磁盘分片进行处理，提高数据处理效率，降低系统负荷；

步骤1.1、定义对第i个磁盘N_i所保存的数据分片的标准大小为S，通过设置分片大小，并行处理分片，提升处理效率，定义第p个病人身份证号为k_p，定义第p个病人病历信息为v_p；由第p个病人身份证号k_p及其所对应的第p个病历信息v_p组合成键值对(k_p,v_p)并存入第i个磁盘N_i中；

表示第i个磁盘N_i的第j个分片，1≤j≤n；1≤m≤M；

步骤1.4、将第p个病人所对应的规约任务K_p＝k_p％u添加到对应的第p个病人病历信息v_p中，将所对应的的规约任务提前写入，减少规约时的工作量，确保规约处理的精确性；

步骤1.5、将键值对(k_p,v_p)写入缓冲区B中，利用缓冲区的高效性，降低数据处理的时间消耗；

步骤二、缓冲区内数据处理；

步骤2.1、判断缓冲区B是否达到溢写条件β，若缓冲区B中数据大小达到溢写条件β，则说明达到溢写条件，并执行步骤2.2；若缓冲区中数据大小未达到溢写条件β时，则说明未达到溢写条件，并返回骤2.1；缓冲区内存储数据过少时会导致空间浪费，增加成本消耗，缓冲区存储数据过多时，会降低处理效率，设置溢写比，使得缓冲区能够始终以高效且低成本的状态去处理数据；

步骤2.4、定义时间周期为t，定期对分片内部数据处理情况进行检查，避免系统空闲，造成不必要的浪费；

步骤2.5、使用标识

对第j个分片S_j内剩余数据进行判断，若

本实施例中，会在磁盘内部自动进行分片，按照分片进行并行数据处理，定期对分片处理情况进行查询，对磁盘分片后第一次进行数据处理完毕后，会在内部生成一个临时文件F_p，并使用临时文件F_p覆盖原来磁盘中的文件，确保磁盘空间的有效利用。

步骤三、对来自不同磁盘的数据进行规约；

步骤3.1、通过将键值对合并程序封装从而构建规约任务集合R＝{R₁,R₂,...,R_u}，R_u表示第u个规约任务；定义内存缓冲区为E，且E＞B，u＞x，对不同磁盘数据进行规约，需要更大的缓冲区；

步骤3.2、初始化i＝1；

步骤3.3、每经过时间周期t，用

判断是否第i个磁盘N_i中所有分片均已完成映射，若

步骤3.5、判断内存缓冲区E是否达到溢写比η，若内存缓冲区E数据大小达到溢写比η，则执行步骤3.6，若内存缓冲区E数据大小未达到溢写比η，则执行步骤3.8，只有缓冲区达到溢写比时才允许缓冲区进行具体操作；

本实施例中，病人在不同医院的就医病历可能存储在不同磁盘上的不同区域，在对病人病历进行排序时，不需要按照病人身份证号在所有磁盘上依次查询，只需要对不同磁盘上的第一次数据处理结果进行合并即可，按照在各个医院就医时间的不同，从早到晚排序。

步骤3.8、将i+1赋值给i后，返回步骤3.3，直到i＝x为止，对每一个磁盘的数据都要进行二次数据处理，进行两次合并，减少具体查询的工作量。