CN103150400B

CN103150400B - 一种基于MapReduce框架的数据筛选方法

Info

Publication number: CN103150400B
Application number: CN201310101529.8A
Authority: CN
Inventors: 杨超; 方宸; 涂来
Original assignee: NAVIMENTUM INFORMATION SYSTEM CO Ltd
Current assignee: NAVIMENTUM INFORMATION SYSTEM CO Ltd
Priority date: 2013-03-27
Filing date: 2013-03-27
Publication date: 2017-06-06
Anticipated expiration: 2033-03-27
Also published as: CN103150400A

Abstract

本发明涉及数据筛选技术领域，公开了一种基于MapReduce框架的数据筛选方法，包括：输入筛选需求；统计筛选需求中待筛选数据的字段总数N，令一个整型变量X的初始值为1；根据筛选需求提取筛选范围或关键字对待筛选的数据进行范围筛选或关键字筛选；判断整型变量X是否等于字段总数N；若X不等于N，则将整型变量X加1，继续对数据进行筛选直至待筛选的数据符合所有的筛选条件；将筛选后的数据按输出路径输出到目的地址；若X等于N，则将筛选后的数据按输出路径输出到目的地址。本发明在Hadoop平台的基础上，实现了对数据的筛选，从而提高了用户处理数据的效率和Hadoop平台的使用效率。

Description

一种基于MapReduce框架的数据筛选方法

技术领域

本发明涉及数据筛选技术领域，主要适用于基于MapReduce框架的数据筛选方法。

背景技术

Hadoop是一个开源的分布式系统框架，用户可以在不了解分布式底层细节的情况下，开发分布式程序。它实现了一个分布式的文件系统（HDFS），具有高容错性的特点，而且还可以部署在低廉的硬件上。它还提供了高传输率来访问应用程序的数据，适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求，这样就可以以流的形式访问文件系统中的数据。

基于Hadoop的业务平台一般都只有少量的用户，并且这些用户都是十分熟悉Hadoop的相关操作的，这里称为Hadoop管理员。如果有不了解Hadoop操作的用户想要访问或者使用业务平台里的数据，则需要将需求详细地告诉Hadoop管理员，让他们去实现自己的要求。但随着数据量的增大以及数据处理需求的增多，少数的几个管理员已经不能很高效的完成其他用户的需求了。并且对于业务平台中数据的操作，除去Hadoop自带的一些功能如存储、删除、下载数据等，其他的操作都可以通过管理员将写好的程序打包放在平台上，供普通用户去使用这些程序接口来实现，这样能够大大地提高平台的使用效率。用户会经常使用的操作有很多，比如基于多关键字的查找筛选。但是目前在Hadoop平台上，并没有实现对数据的筛选功能，这样不能保证用户处理数据的效率和Hadoop平台的使用效率。由于是多个用户共享一个文件系统，因此平台的管理员无法对用户的权限信息进行有效地管理。

发明内容

为了解决Hadoop操作平台上不具备数据筛选功能及使用效率低等问题，本发明提供了一种基于MapReduce框架的数据筛选方法，包括：输入筛选需求；所述筛选需求包括：数据的输入路径、数据的输出路径、字段序号、筛选上限、筛选下限及筛选关键字；

进行数据筛选；统计筛选需求中待筛选数据的字段总数N，令一个整型变量X的初始值为1；根据筛选需求提取筛选范围或关键字对待筛选的数据进行范围筛选或关键字筛选；判断所述整型变量X是否等于所述字段总数N；

若X不等于N，则将整型变量X加1，继续对数据进行筛选直至待筛选的数据符合所有的筛选条件；将筛选后的数据按所述输出路径输出到目的地址；

若X等于N，则将筛选后的数据按所述输出路径输出到目的地址。

所述进行数据筛选的步骤还包括：判断输入的筛选需求是否合法；若所述筛选需求合法，则进行数据筛选。

所述判断输入的筛选需求是否合法的步骤具体包括：判断MapReduce是否支持所述筛选需求的格式；若所述MapReduce支持筛选需求的格式，判断筛选需求中数据的输入路径在文件系统中是否存在；若所述数据的输入路径在所述文件系统中存在，判断所述筛选需求中数据的输出路径在所述文件系统中是否存在；若所述数据的输出路径在所述文件系统中不存在，判断所述筛选需求中待筛选数据的字段序号在所述文件系统中是否都存在；若所述字段序号在所述文件系统中都存在，则说明筛选需求是合法的。

所述根据筛选需求提取筛选范围或关键字对待筛选的数据进行范围筛选或关键字筛选的步骤具体包括：提取出筛选需求中字段序号所代表的数据；根据筛选需求判断是否需要对数据进行范围筛选；

若需要对数据进行范围筛选，则从筛选需求中提取出筛选上限和筛选下限；判断输入的字段序号是否在筛选范围内，若字段序号在筛选范围内，则对字段序号代表的数据进行保存；

若不需要对数据进行范围筛选，则从筛选需求中提取关键字，判断输入的字段序号所代表的内容是否等于关键字，若所述内容等于关键字，则对字段序号代表的数据进行保存。

所述待筛选的数据符合所有的筛选条件的步骤还包括：判断文件系统中的数据是否都经过了筛选；

若文件系统中不是所有数据都经过了筛选，则对文件系统中未筛选的数据进行筛选直至文件系统中的所有数据都经过了筛选；将筛选后的数据按所述数据的输出路径输出到目的地址；

若文件系统中的所有数据都经过了筛选，则将筛选后的数据按所述数据的输出路径输出到目的地址。

所述将筛选后的数据按所述数据的输出路径输出到目的地址的步骤具体包括：对筛选得到的数据进行整合得到包含键和值的数据对，作为化简运算的输入；再将所述化简运算的输出设为空，最后将得到的数据按数据的输出路径输出到目的地址。

本发明的有益效果在于：

本发明提供的基于MapReduce框架的数据筛选方法，在Hadoop平台上，通过提供统一的输入格式，即提供的筛选输入项相同，只是用户输入的筛选条件不同，不同筛选需求的用户都可以通过本发明提供的方法对数据进行筛选，从而避免了频繁的编写不同的筛选程序，进而实现了对数据的高效筛选，提高了用户处理数据的效率和Hadoop平台的使用效率。

附图说明

图1为本发明实施例提供的基于MapReduce框架的数据筛选方法的流程图；

图2为本发明实施例提供的基于MapReduce框架的数据筛选方法中对数据进行筛选的详细流程图；

图3为基于本发明实施例提供的基于MapReduce框架的数据筛选方法的MapReduce用户登录流程图；

图4为基于本发明实施例提供的基于MapReduce框架的数据筛选方法的MapReduce的数据筛选操作界面。

具体实施方式

为进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于MapReduce框架的数据筛选方法的具体实施方式及工作原理进行详细说明。

本发明实施例提供的基于MapReduce框架的数据筛选方法包括：

输入筛选需求；筛选需求包括：数据的输入路径、数据的输出路径、字段序号、筛选上限、筛选下限及筛选关键字；

判断输入的筛选需求是否合法；具体的，参见图1，首先判断MapReduce是否支持筛选需求的格式；若MapReduce不支持筛选需求的格式，则说明输入的筛选需求不合法，提示用户重新输入，并等待用户的下一个筛选请求；若MapReduce支持筛选需求的格式，再判断筛选需求中数据的输入路径在文件系统中是否存在；若输入路径在文件系统中不存在，则说明输入的筛选需求不合法，提示用户重新输入，并等待用户的下一个筛选请求；若输入路径在文件系统中存在，再判断筛选需求中数据的输出路径在文件系统中是否存在；若输出路径在文件系统中存在，则说明输入的筛选需求不合法，提示用户重新输入，并等待用户的下一个筛选请求；若输出路径在文件系统中不存在，再判断筛选需求中待筛选数据的字段序号在文件系统中是否都存在；若字段序号在文件系统中都存在，则说明筛选需求是合法的，再统计筛选需求中待筛选数据的字段总数N，否则说明输入的筛选需求不合法，提示用户重新输入，并等待用户的下一个筛选请求。

若筛选需求是合法的，则进行数据筛选；因为本发明是基于MapReduce框架的，所以是以行为单位进行处理的。参见图2，进行数据筛选的步骤还包括：首先按照筛选需求中的数据的输入路径，将存放数据的数据表中的一行记录作为映射Map的输入值value，进行映射Map过程。再令一个整型变量X的初始值为1；接着根据筛选需求提取筛选范围或关键字对待筛选的数据进行范围筛选或关键字筛选；再判断整型变量X是否等于字段总数N；其中，X和N均为正整数；

若X不等于N，则说明待筛选的数据并不符合筛选需求中的所有筛选条件，需要将整型变量X加1，再继续对数据进行筛选直至待筛选的数据符合所有的筛选条件；接着以用户键入的第一个要求筛选的字段序号所对应的字段作为映射Map的输出值key，将该行记录作为映射Map的输出值value；再判断文件系统中的数据是否都经过了筛选；

若文件系统中不是所有数据都经过了筛选，则对文件系统中未筛选的数据进行筛选直至文件系统中的所有数据都经过了筛选，再将筛选后的数据按数据的输出路径输出到目的地址；在本实施例中，先对筛选得到的数据进行整合得到包含键和值的数据对，即<key,values>对，作为化简运算Reduce的输入；再将化简运算Reduce的输出key设为空，最后将得到的数据按数据的输出路径输出到目的地址。

若文件系统中的所有数据都经过了筛选，则说明筛选过程完毕，再将筛选后的数据按数据的输出路径输出到目的地址。在本实施例中，先对筛选得到的数据进行整合得到包含键和值的数据对，即<key,values>对，作为化简运算Reduce的输入；再将化简运算Reduce的输出key设为空，最后将得到的数据按数据的输出路径输出到目的地址。

若X等于N，则说明待筛选的数据符合筛选要求中的所有筛选条件，接着以用户键入的第一个要求筛选的字段序号所对应的字段作为映射Map的输出key，将该行记录作为映射Map的输出值value；再判断文件系统中的数据是否都经过了筛选；

其中，筛选的具体过程为：

先令一个整型变量X的初始值为1；接着提取出筛选需求中字段序号所代表的数据；再根据筛选需求判断是否需要对数据进行范围筛选；

若需要对数据进行范围筛选，则从筛选需求中提取筛选上限和筛选下限；再判断输入的字段序号是否在筛选范围内，若字段序号不在筛选范围内，则说明字段序号不满足筛选要求，将字段序号代表的数据舍弃掉；若字段序号在筛选范围内，则说明字段序号满足筛选要求，对字段序号代表的数据进行保存；接着判断整型变量X是否等于字段总数N；

若不需要对数据进行范围筛选，则从筛选需求中提取关键字，再判断输入的字段序号所代表的内容是否等于关键字，若内容不等于关键字，则说明字段序号不满足筛选要求，将字段序号代表的数据舍弃掉；若内容等于关键字，则说明字段序号满足筛选要求，对字段序号代表的数据进行保存；接着判断整型变量X是否等于字段总数N。

通过本发明实施例提供的基于MapReduce框架的数据筛选方法在Hadoop数据存储平台上实现MapReduce框架的数据筛选功能，由图3可知，用户在进入操作界面的时候首先需要进行登录步骤101，步骤102通过判断用户名与密码是否正确，从而确定该用户是否登录成功。登录成功之后，根据用户名来判断该用户是普通用户103还是管理员104；普通用户103只能执行权限允许范围之内的操作，而管理员104则可以对所有文件都进行读写操作，并且还能够进行管理用户信息107的操作。

用户登录成功之后的界面中包含两个模块：文件系统模块105和复杂操作模块106。文件系统模块105所展示的文件系统是一个仿照Hadoop自带的、在网页上显示文件系统的一个系统，用户可以通过点击相应文件夹或者按钮来实现存储数据108、访问数据109、删除数据110、下载数据111等功能。其中数据是存储在HDFS中的。而复杂操作模块106则可以实现数据筛选功能112，点击复杂操作模块106可进入筛选操作界面。

参见图4，在筛选操作界面中，最开始筛选模块201中有两个窗口和一个按钮，分别是输入路径窗口202、输出路径窗口203、添加按钮204。输入路径窗口202中键入的输入路径必须存在于文件系统中，输出路径窗口203中键入的输出路径在文件系统中必须不存在，这样才能避免输出文件将其他文件覆盖。点击添加按钮204，界面会弹出一个下拉列表，让用户选择进行范围筛选还是关键字筛选，选择之后界面就会显示出包含筛选细节的子模块，点击多次就能获得多个子模块，这样就能实现多关键字的数据筛选功能。步骤205是判断用户是否要进行范围筛选，如果步骤205的结果为是，则准备进行范围筛选。所谓范围筛选就是对于某一个字段筛选出在筛选上下限之间的数据。此时界面上就会加载一个子模块207，这个子模块包含3个窗口和一个按钮。字段序号窗口211需要用户键入字段序号，筛选下限窗口212和筛选上限窗口213则需要用户键入筛选下限和筛选上限，而点击删除214就会删掉这个子模块207。如果步骤205的结果为否，则准备进行关键字筛选；此时界面上会出现子模块206，它包括两个窗口和一个按钮。其中字段序号窗口208中需要用户键入需要筛选的字段序号，筛选值窗口209中需要用户键入筛选值，点击删除210就会在界面上删掉这一个子模块206。在用户键入了所有的筛选需求之后，点击确定按钮215就能将筛选需求提交给系统进行筛选操作。

进入筛选页面后，首先判断用户输入的筛选需求的合法性；若用户输入的筛选需求是合法的，首先按照筛选需求中的数据的输入路径，将存放数据的数据表中的一行记录作为映射Map的输入值value，进行映射Map过程。再令一个整型变量X的初始值为1；接着提取出筛选需要中字段序号所代表的数据；再根据筛选需求判断是否需要对数据进行范围筛选；若需要对数据进行范围筛选，则根据用户键入的筛选上下限来提取出筛选范围；再判断输入的字段序号是否在筛选范围内，若字段序号不在筛选范围内，则说明字段序号不满足筛选要求，将字段序号代表的数据舍弃掉；若字段序号在筛选范围内，则说明字段序号满足筛选要求，对字段序号代表的数据进行保存；如果不需要对数据进行范围筛选，则说明用户要求进行关键字筛选，从用户键入的筛选需求中提取出筛选关键字，再判断输入的字段序号所代表的内容是否等于关键字，若内容不等于关键字，则说明字段序号不满足筛选要求，将字段序号代表的数据舍弃掉；若内容等于关键字，则说明字段序号满足筛选要求，对字段序号代表的数据进行保存；接着判断整型变量X是否等于字段总数N。若X不等于N，则说明待筛选的数据并不符合筛选需求中的所有筛选条件，需要将整型变量X加1，再继续对数据进行筛选直至待筛选的数据符合所有的筛选条件；接着以用户键入的第一个要求筛选的字段序号所对应的字段作为映射Map的输出值key，将该行记录作为映射Map的输出值value；再判断文件系统中的数据是否都经过了筛选；若文件系统中不是所有数据都经过了筛选，则对文件系统中未筛选数据进行筛选直至文件系统中的所有数据都经过了筛选，再将映射Map过程的输出数据进行整合得到<key,values>对，作为化简运算Reduce的输入。接着将化简运算Reduce的输出key设为空，输出值value则是values序列的每一项，最后将筛选结果保存在用户指定的输出路径中。若X等于N，则说明待筛选的数据符合筛选要求中的所有筛选条件，接着以用户键入的第一个要求筛选的字段序号所对应的字段作为映射Map的输出key，将该行记录作为映射Map的输出值value；再判断文件系统中的数据是否都经过了筛选；若文件系统中不是所有数据都经过了筛选，则对文件系统中未筛选的数据进行筛选直至文件系统中的所有数据都经过了筛选，再将映射Map过程的输出数据进行整合得到<key,values>对，作为化简运算Reduce的输入。接着将化简运算Reduce的输出key设为空，输出值value则是values序列的每一项，最后将筛选结果保存在用户指定的输出路径中。

本发明实施例提供的基于MapReduce框架的数据筛选方法，在Hadoop平台上，通过提供统一的输入格式，即提供的筛选输入项相同，只是用户输入的筛选条件不同，不同筛选需求的用户都可以通过本发明提供的方法对数据进行筛选，从而避免了频繁的编写不同的筛选程序，进而实现了对数据的高效筛选，提高了用户处理数据的效率和Hadoop平台的使用效率。本发明还赋予不同用户不同的操作权限，实现了数据筛选操作的界面化，使Hadoop平台在实现数据筛选功能的同时，便于管理。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于MapReduce框架的数据筛选方法，其特征在于，包括：

输入筛选需求；所述筛选需求包括：数据的输入路径、数据的输出路径、字段序号、筛选上限、筛选下限及筛选关键字；

若X不等于N，说明待筛选的数据并不符合筛选需求中的所有筛选条件，则将整型变量X加1，继续对数据进行筛选直至待筛选的数据符合所有的筛选条件；将筛选后的数据按所述输出路径输出到目的地址；

若X等于N，说明待筛选的数据符合筛选要求中的所有筛选条件，则将筛选后的数据按所述输出路径输出到目的地址；

所述进行数据筛选的步骤还包括：判断输入的筛选需求是否合法；若所述筛选需求合法，则进行数据筛选；所述判断输入的筛选需求是否合法的步骤具体包括：判断MapReduce是否支持所述筛选需求的格式；若所述MapReduce支持筛选需求的格式，判断筛选需求中数据的输入路径在文件系统中是否存在；若所述数据的输入路径在所述文件系统中存在，判断所述筛选需求中数据的输出路径在所述文件系统中是否存在；若所述数据的输出路径在所述文件系统中不存在，判断所述筛选需求中待筛选数据的字段序号在所述文件系统中是否都存在；若所述字段序号在所述文件系统中都存在，则说明筛选需求是合法的；

若不需要对数据进行范围筛选，则从筛选需求中提取关键字，判断输入的字段序号所代表的内容是否等于关键字，若所述内容等于关键字，则对字段序号代表的数据进行保存；

2.如权利要求1所述的基于MapReduce框架的数据筛选方法，其特征在于，所述将筛选后的数据按所述数据的输出路径输出到目的地址的步骤具体包括：对筛选得到的数据进行整合得到包含键和值的数据对，作为化简运算的输入；再将所述化简运算的输出设为空，最后将得到的数据按数据的输出路径输出到目的地址。