CN103150401B

CN103150401B - 一种基于MapReduce的字段整体替换方法

Info

Publication number: CN103150401B
Application number: CN201310101969.3A
Authority: CN
Inventors: 杨超; 方宸; 涂来
Original assignee: NAVIMENTUM INFORMATION SYSTEM CO Ltd
Current assignee: NAVIMENTUM INFORMATION SYSTEM CO Ltd
Priority date: 2013-03-27
Filing date: 2013-03-27
Publication date: 2017-03-08
Anticipated expiration: 2033-03-27
Also published as: CN103150401A

Abstract

本发明涉及字段替换技术领域，公开了一种基于MapReduce的字段整体替换方法，包括：将数据表和替换表存储在文件系统中；对数据表中的数据进行映射，形成由数据对组成的字段序列；其中，数据对包括键和值；判断字段序列中的数据对是否需要替换；若数据对需要替换，则将数据对中的键替换成替换表中相应的数据。本发明在Hadoop的基础上，先将数据表数据和替换表数据存储在文件系统中，将数据字段化，再通过输入的替换需求将替换表中的数据替换数据表中的数据，从而方便地、自行地对数据中某一字段进行了整体替换，提高了数据的处理效率。

Description

一种基于MapReduce的字段整体替换方法

技术领域

本发明涉及字段替换技术领域，主要适用于基于MapReduce的字段整体替换方法。

背景技术

今天，在这个数据信息的时代，当商业智能数据分析、科学数据处理、互联网应用等具有海量数据需求的应用变得越来越普遍的时候，我们需要一个更好的工具来帮助我们完成这些任务。无论是从应用开发还是科学研究的角度来看，基于MapReduce编程模型的Hadoop开源系统成为了人们一种更为合理的选择。

MapReduce有三点优势。第一点，MapReduce采用的是无共享大规模集群系统。集群系统具有良好的性价比和可伸缩性，这就为MapReduce成为海量数据的处理平台奠定了基础。第二点，MapReduce结构简单，通俗易懂，很容易就能使用，这也就使得很多数据挖掘算法都采用MapReduce来实现。第三点，可以通过合适的索引技术以及查询算法进行优化，MapReduce可以提供非常好的数据处理能力。

在一个完整的数据处理过程中，首先我们会得到最原始的数据，随后我们再对这些数据进行下一步的处理。而在实际操作中，因为很多数据都涉及到用户的隐私，所以保证数据的安全性是必不可少的。这样我们就需要对数据的某些敏感字段进行加密，然后用加密的字段替换原始的字段，只要知道加密算法，我们就能还原出最原始的数据，所以加密操作是不会影响数据的准确性的。

除了在上述加密过程中涉及到了字段整体替换的功能之外，我们在后期数据处理的时候也会需要这一功能。比如在进行数据可视化的时候，对于某一个字段的内容，我们使用自己设计的id对其进行替换，这样能使得数据处理更加方便，也使得最后数据可视化的时候更加清晰和简洁。由此可以看出字段整体替换功能的应用是广泛且频繁的。

因此，在实际的数据操作中，用户会频繁的提出对数据进行字段整体替换的要求，而这些要求都需要管理或者操作这个数据平台的管理员去实现。由于这些操作具有统一的接口，只是用户操作的数据或者需要替换的字段不一样，而现有的数据平台不能够提供一个便捷的界面或者接口使得用户能够方便地、自行地完成字段替换操作。

发明内容

为了解决能够在数据平台上，方便地、自行地完成字段替换操作，本发明提供了一种基于MapReduce的字段整体替换方法，包括：

将数据表和替换表存储在文件系统中；

对所述数据表中的数据进行映射，形成由数据对组成的字段序列；其中，所述数据对包括键和值；判断所述字段序列中的数据对是否需要替换；若数据对需要替换，则将数据对中的键替换成所述替换表中相应的数据。

所述将数据表和替换表存储在文件系统中的步骤具体包括：根据存储指令将数据表和替换表存储在文件系统的指定位置，并为所述数据表和替换表中的数据添加字段序号；其中，所述替换表中每行数据有两个字段，且用制表符分开。

在对所述数据表中的数据进行映射的步骤之前还包括：通过确定输入的替换需求的合法性来判断是否对字段进行替换；其中，所述替换需求包括：所述替换表的输出路径和输入路径、所述数据表的输入路径及待替换字段序号。

所述通过确定输入的替换需求的合法性来判断是否对字段进行替换的步骤具体包括：先判断输入的替换需求是否为所需的字符串；若替换需求为所需的字符串，则判断所述替换表的输出路径在文件系统中是否存在；若所述替换表的输出路径在文件系统中不存在，则判断所述替换表的输入路径在文件系统中是否存在；若所述替换表的输入路径在文件系统中存在，则判断所述数据表的输入路径在文件系统中是否存在；若所述数据表的输入路径在文件系统中存在，则判断待替换字段序号是否在数据表的字段序号的范围之内；若待替换字段序号在数据表的字段序号的范围之内，则说明替换需求是合法的。

所述对数据表中的数据进行映射的步骤具体包括：根据输入的数据表的输入路径和替换表的输入路径判断数据行在所述数据表中还是在所述替换表中；若所述数据行在数据表中，则将数据行记录作为映射的输入值，然后根据所述待替换字段序号查找到字段中的数据，并作为映射的输出值，将数据行记录的非待替换字段作为映射的输出值；若所述数据行不在数据表中，则说明所述数据行在替换表中，将数据行记录作为映射的输入值，将所述第一个字段和加上标识符的第二个字段一起作为映射的输出值。

所述替换需求还包括：是否进行筛选的标志位；相应地，所述判断字段序列中的数据对是否需要替换的步骤还包括：若所述数据对不需要替换，则根据所述是否进行筛选的标志位来判断数据对是否需要筛选；若数据对需要筛选，则将数据对舍弃；若数据对不需要筛选，则去掉数据对中包含标识符的值，并对去掉包含标识符的值的数据对进行保存。

在所述将数据对中的键替换成替换表中相应的数据之后，判断所述字段序列中的数据对是否都进行了替换检查；若字段序列中的数据对都进行了替换检查，则将替换后的字段序列根据所述替换表的输出路径输出到指定位置；若字段序列中的数据对没有都进行替换检查，则对字段序列中未替换的数据对进行替换操作。

本发明的有益效果在于：

本发明提供的基于MapReduce的字段整体替换方法，在Hadoop的基础上，先将数据表数据和替换表数据存储在文件系统中，将数据字段化，再通过输入的替换需求将替换表中的数据替换数据表中的数据，从而方便地、自行地对数据中某一字段进行了整体替换，提高了数据的处理效率。

附图说明

图1为本发明实施例提供的基于MapReduce的字段整体替换方法的流程图；

图2是基于本发明实施例提供的基于MapReduce的字段整体替换方法的数据处理平台的结构示意图；

图3为本发明实施例提供的基于MapReduce的字段整体替换方法中数据存储的流程图。

具体实施方式

为进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于MapReduce的字段整体替换方法的具体实施方式及工作原理进行详细说明。

参见图1，本发明实施例提供的基于MapReduce的字段整体替换方法包括：

将数据表和替换表存储在文件系统中；具体的，根据存储指令将数据表和替换表存储在文件系统的指定位置，并为数据表和替换表中的数据添加字段序号；其中，替换表中每行数据有两个字段，且用制表符分开，第一个字段是被替换的数据，第二个字段则是替换后的数据。

通过确定输入的替换需求的合法性来判断是否对字段进行替换；其中，替换需求包括：替换表的输出路径和输入路径、数据表的输入路径、待替换字段序号以及是否进行筛选的标志位；具体的，先判断输入的替换需求是否为5个字符串，这5个字符串依次对应着数据表的输入路径、替换表的输入路径、替换表的输出路径、需要替换的字段序号以及是否进行筛选的标志位。若替换需求不是5个字符串，则提示用户重新输入，然后继续等待用户的字段替换需求。若替换需求为5个字符串，则获取这5个字符串，并判断替换表的输出路径在文件系统中是否存在；若替换表的输出路径在文件系统中存在，则提示用户重新输入，然后继续等待用户的字段替换需求。若替换表的输出路径在文件系统中不存在，则判断替换表的输入路径在文件系统中是否存在；若替换表的输入路径在文件系统中不存在，则提示用户重新输入，然后继续等待用户的字段替换需求。若替换表的输入路径在文件系统中存在，则判断数据表的输入路径在文件系统中是否存在；若数据表的输出路径在文件系统中不存在，则提示用户重新输入，然后继续等待用户的字段替换需求。若数据表的输入路径在文件系统中存在，则获取数据表中的字段总个数，并判断待替换字段序号是否在数据表的字段序号的范围之内；若待替换字段序号在数据表的字段序号的范围之内，则说明替换需求是合法的。

若替换需求是合法的，则对字段进行整体替换。具体的，若替换需求是合法的，先对数据行进行映射过程，形成由数据对组成的字段序列；其中，数据对包括键和值；再判断字段序列中的数据对是否需要替换；若数据对需要替换，则将数据对中的键替换成替换表中相应的数据。若数据对不需要替换，则根据是否进行筛选的标志位来判断数据对是否需要筛选；若数据对需要筛选，则将数据对舍弃；若数据对不需要筛选，则去掉数据对中包含标识符的值，并对去掉包含标识符的值的数据对进行保存。

在本实施例中，对数据行进行映射过程包括：先根据输入的数据表的输入路径和替换表的输入路径判断数据行在数据表中还是在替换表中；若数据行在数据表中，则将数据行记录作为映射的输入值，然后根据待替换字段序号查找到字段中的数据，并作为映射的输出值，将数据行记录的非待替换字段作为映射的输出值；若数据行不在数据表中，则说明数据行在替换表中，将数据行记录作为映射的输入值，再将第一个字段和加上标识符的第二个字段一起作为映射的输出值。

接着，判断字段序列中的数据对是否都进行了替换检查；若字段序列中的数据对都进行了替换检查，则将替换后的字段序列根据替换表的输出路径输出到指定位置；若字段序列中的数据对没有都进行替换检查，则对字段序列中未替换的数据对进行替换操作。

参见图2，基于本发明实施例提供的基于MapReduce的字段整体替换方法的数据处理平台101是由界面显示模块103、操作处理模块104及数据存储模块105组成的。用户操作需求102是用户对平台数据的处理要求。

用户使用数据处理平台101对数据进行相关操作，用户提出操作需求102，如登录、访问数据、查找等操作需求，都是在界面显示模块103上进行的。界面显示模块103能够以文件系统的形式显示存储的数据，用户通过在指定窗口输入关键字或者点击界面上相关的按钮，界面显示模块103就会将用户输入的数据转交给操作处理模块104。操作处理模块104根据用户的操作需求来使用相应的程序，如用户登录、访问数据、存储数据、删除数据这些简单的功能，也有字段整体替换这样的复杂操作。在完成用户提出的要求的过程中，操作处理模块104需要访问数据存储模块105中的数据，数据是以Hadoop中HDFS的形式存储的。在完成数据处理之后，操作处理模块104将结果保存在数据存储模块105中的用户指定的位置，这样用户就能使用访问文件系统的方式查看结果。

通过本发明实施例提供的基于MapReduce的字段整体替换方法对字段进行替换。由图3可知，在步骤201中，用户先在界面显示模块103中输入命令，要求向数据处理平台101存储数据表和替换表；随后操作处理模块104得到用户存储数据的需求。在步骤202中，系统会获取到用户需要存储的数据以及存储的目标路径；在步骤203中，将数据存放在用户指定的目标路径中。在步骤204中，系统会为数据中的字段添加序号，序号是从1开始的，即第一个字段序号是1，第二个字段序号是2，随后以此类推。接着，用户在界面显示模块103中对应着字段整体替换功能的窗口中填写筛选关键字，点击确定提交字段替换需求。操作处理模块104就能够获取到用户的字段替换需求。随后系统判断替换需求的合法性；若替换需求是合法的，则准备进行数据的替换。

在数据的替换过程中，是以MapReduce框架为基础的。首先根据用户键入的数据表的输入路径与替换表的输入路径，来判断某一行记录是数据表中的还是替换表中的。对于数据表中的每行记录，先将一行记录作为Map的输入value，然后根据用户键入的字段序号找到该字段中的数据，并作为Map的输出key，该行记录的其余字段作为Map的输出value。而对于替换表中的每行记录，先以一行记录作为Map的输入value进行Map过程，然后将第一个字段作为Map的输出key，在第二个字段前加上标识符一起作为Map的输出value，其中这里的标识符选用由几个不常用的字符组成的字符串。在两个表中的所有行都进行完Map过程之后，MapReduce会将map的输出进行整合，将具有相同的key值的value合并成values序列，然后以<key,values>对作为Reduce的输入，再进行Reduce过程。Reduce过程是针对每一对<key,values>对进行处理的，先判断values序列中是否有包含标识符的value，方便起见，这里将包含标识符的value简称为fvalue。如果values序列中存在fvalue，那么就说明这个<key,values>对的key需要进行替换，因此在将该<key,values>对中的key替换成fvalue中标识符后面的数据，并在values序列中去掉fvalue。随后对values序列中的每一个value按照<key,value>对的格式作为Reduce的输出，这样就完成了字段的替换。如果对于这个key没有替换的要求，然后就需要根据用户是否有筛选的要求来决定是否舍弃这一<key,values>对。如果用户不需要筛选，希望保留这些记录，因此只需要将该<key,values>对的values序列中去掉fvalue，再对values序列中的每一个value，按照<key,value>对的格式作为Reduce的输出，就可以输出数据表中的原始记录，也就保留了这一记录。如果用户需要筛选，则说明用户希望舍弃掉这些记录，再将这一<key,values>对舍弃掉了。在所有的<key,values>对都进行了Reduce过程之后，将Reduce的输出结果按照替换前的数据表格式存放在用户指定的输出路径中，以供用户之后的查看和其他操作。

本发明实施例提供的基于MapReduce的字段整体替换方法，在Hadoop的基础上，先将数据表数据和替换表数据存储在文件系统中，将数据字段化，再通过输入的替换需求将替换表中的数据替换数据表中的数据，从而方便地、自行地对数据中某一字段进行了整体替换，提高了处理数据的效率。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于MapReduce的字段整体替换方法，其特征在于，包括：

将数据表和替换表存储在文件系统中；

通过确定输入的替换需求的合法性来判断是否对字段进行替换；其中，所述替换需求包括：所述替换表的输出路径和输入路径、所述数据表的输入路径及待替换字段序号；所述通过确定输入的替换需求的合法性来判断是否对字段进行替换的步骤具体包括：先判断输入的替换需求是否为所需的字符串；若替换需求为所需的字符串，则判断所述替换表的输出路径在文件系统中是否存在；若所述替换表的输出路径在文件系统中不存在，则判断所述替换表的输入路径在文件系统中是否存在；若所述替换表的输入路径在文件系统中存在，则判断所述数据表的输入路径在文件系统中是否存在；若所述数据表的输入路径在文件系统中存在，则判断待替换字段序号是否在数据表的字段序号的范围之内；若待替换字段序号在数据表的字段序号的范围之内，则说明替换需求是合法的；

对所述数据表中的数据进行映射，形成由数据对组成的字段序列；其中，所述数据对包括键和值；判断所述字段序列中的数据对是否需要替换；若数据对需要替换，则将数据对中的键替换成所述替换表中相应的数据，从而方便地、自行地对数据中某一字段进行了整体替换；

所述将数据表和替换表存储在文件系统中的步骤具体包括：根据存储指令将数据表和替换表存储在文件系统的指定位置，并为所述数据表和替换表中的数据添加字段序号；其中，所述替换表中每行数据有两个字段，且用制表符分开；

所述对数据表中的数据进行映射的步骤具体包括：根据输入的数据表的输入路径和替换表的输入路径判断数据行在所述数据表中还是在所述替换表中；若所述数据行在数据表中，则将数据行记录作为映射的输入值，然后根据所述待替换字段序号查找到字段中的数据，并作为映射的输出值，将数据行记录的非待替换字段作为映射的输出值；若所述数据行不在数据表中，则说明所述数据行在替换表中，将数据行记录作为映射的输入值，将第一个字段和加上标识符的第二个字段一起作为映射的输出值，其中，所述第一个字段是被替换的数据，所述第二个字段是替换后的数据。

2.如权利要求1所述的基于MapReduce的字段整体替换方法，其特征在于，所述替换需求还包括：是否进行筛选的标志位；相应地，所述判断字段序列中的数据对是否需要替换的步骤还包括：若所述数据对不需要替换，则根据所述是否进行筛选的标志位来判断数据对是否需要筛选；若数据对需要筛选，则将数据对舍弃；若数据对不需要筛选，则去掉数据对中包含标识符的值，并对去掉包含标识符的值的数据对进行保存。

3.如权利要求2所述的基于MapReduce的字段整体替换方法，其特征在于，在所述将数据对中的键替换成替换表中相应的数据之后，判断所述字段序列中的数据对是否都进行了替换检查；若字段序列中的数据对都进行了替换检查，则将替换后的字段序列根据所述替换表的输出路径输出到指定位置；若字段序列中的数据对没有都进行替换检查，则对字段序列中未替换的数据对进行替换操作。