CN104573331B

CN104573331B - 一种基于MapReduce的K近邻数据预测方法

Info

Publication number: CN104573331B
Application number: CN201410803550.7A
Authority: CN
Inventors: 薛涛; 孙兵率
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2014-12-19
Filing date: 2014-12-19
Publication date: 2018-04-24
Anticipated expiration: 2034-12-19
Also published as: CN104573331A

Abstract

本发明公开的一种基于MapReduce的K近邻数据预测方法，包括如下步骤：确定训练数据和待测试数据，将训练数据上传至Hadoop集群，分散存储；设计Map函数计算待预测数据与本节点的部分训练数据之间的距离；设计Combine函数，对Map函数的输出进行局部排序；Reducer端设计Reduce函数，进行全局排序，得到全局的K个最近邻数据对象及其距离，利用距离加权方法，计算K个权重大小，将计算出的权重值定义为回归系数，计算出待预测数据的预测值。本发明采用变参机制替代传统线性回归预测方法中的固参模式，提高了数据预测的准确精度；利用MapReduce编程模型，在Hadoop分布式计算平台上实现并行计算，大幅度提高了大规模数据集的计算效率。

Description

一种基于MapReduce的K近邻数据预测方法

技术领域

本发明属于数据挖掘技术领域，涉及一种基于MapReduce的K近邻数据预测方法。

背景技术

线性回归预测作为数据挖掘中的统计、预测方法之一，在科研、商业数据分析中占据着重要的地位。传统的线性回归预测属于参数学习算法，其参数是固定不变的，而在实际应运中，数据的生成机制与线性回归模型有很大偏差，这样得出的分析数据往往与实际有很大出入，甚至是错误的数据。局部加权线性回归预测方法是一种非参数回归技术，它允许线性回归模型中的参数随着自变量的不同取值而变化。在大数据时代，传统的线性回归预测方法和局部加权线性回归预测方法，繁琐的计算步骤和效率极低的单机串行计算，已经无法继续胜任对数据进行挖掘和处理，对大规模数据的挖掘和处理能力存在着很大的局限性。

MapReduce编程模型是Google公司的核心计算模型，被应用于大规模集群上的复杂的并行计算。Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，该平台开源实现了MapReduce编程模型。K近邻(K-Nearest Neighbor)是一种简洁而有效的非参数学习方法。K近邻方法对每一个输入都会去训练数据集中去搜索与其最相似的K个数据对象，在K近邻学习过程中，当目标函数值为连续值时，对待预测数据搜索出的K个近邻点，分别给定一个距离加权，是一种简单可靠的变参回归预测方法。当训练数据达到海量规模时，K近邻的搜索效率将很难达到实际需求，而且海量的数据对于目前的计算机处理速度和内存空间也是一种挑战。

发明内容

本发明的目的是提供一种基于MapReduce的K近邻数据预测方法，解决了传统预测方法参数固定，数据处理精准度差以及对大规模数据的回归预测处理能力存在局限性的问题。

本发明所采用的技术方案是，一种基于MapReduce的K近邻数据预测方法，包括如下步骤：

步骤1、确定训练数据和待测试数据，并将训练数据上传至Hadoop分布式集群，分散至各集群节点中存储；

步骤2、在Hadoop分布式集群中各个节点的Mapper端，设计Map函数：根据欧式距离计算公式，计算出待预测数据与本节点部分训练数据样本之间的距离；

步骤3、在Mapper端，将步骤2所得距离值发送至集群节点的Combiner端，设计Combine函数：进行本地排序，选出局部距离最小的K个最近邻点，得到局部K-最近邻子集；

步骤4、在Combiner端，将步骤3所得的所有局部K-最近邻子集，发送至Hadoop分布式集群各Reducer端，设计Reduce函数：对所有局部K-最近邻子集进行重新排序，得到全局K-最近邻子集；利用距离加权方法，根据权重函数计算全局K-最近邻子集中训练数据对待预测数值影响的权重大小；利用回归函数，将所得权重值定义为回归系数，计算得出待预测数据的预测值；

步骤5、将步骤4处理后的数据存储在HDFS文件系统中，可用Hadoop相关查看工具查看或下载至本地。

本发明的特征还在于，

步骤2中，设计Map函数的过程为：函数输入定义为<LongWritable key，Text text>，key为训练数据行号，text为记录数据；输出函数定义为<Context context>，定义类Sample()，存储数据间距离和此条训练数据目标函数实际值；遍历所有训练数据和待预测数据，计算其距离，并将距离值和训练数据的目标函数值存入Sample()；输出context.write(key’，sample())，key’为待预测数据行号。

步骤3中，设计Combine函数具体过程为：将函数输入定义为<LongWritable key，Sample sample>，输出定义为<Context context>；把所有的sample存入一个链表结构里，arrayList.add(sample)；对arrayList进行局部排序，执行sort(arrayList)；从排好顺序的arrayList中仅取出前K个sample，并输出context.write(key，arrayList.get())。

步骤4中，设计Reduce函数过程为：函数输入定义为<LongWritable key，Iterator<Sample>values>，函数输出定义为<Context context>；取出所有的K最近邻点相关数据存入一个arrayList，进行全局排序，并取出全局的K个最近邻点相关数据存入sortedArrayList，sortedArrayList.add(arrayList.get())。

步骤4中，权重函数为：

其中，W(x,p_i)为权重值，d(x,p_i)为待预测点x训练数据中第i个邻居p_i的距离，1≤i≤n。

步骤4中，回归函数为：

其中，y'为测试样本的回归预测值，b_i为回归系数，y_i为训练样本p_i的目标值。

本发明的有益效果是：

1.采用变参机制替代传统线性回归预测中的固参模式，搜索局部最相关数据，利用动态拟合的方法测试样本的回归预测曲线，提高了预测的准确精度。

2.利用MapReduce编程模型，在Hadoop分布式进算平台上实现并行计算，大幅度提高了大规模数据集的计算效率。

附图说明

图1是本发明基于MapReduce的K近邻数据预测方法的流程图；

图2是本发明基于MapReduce的K近邻数据预测方法Hadoop平台集群结构示意图；

图3是本发明基于MapReduce的K近邻数据预测方法MapReduce运行机制图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

图1为本发明一种基于MapReduce的K近邻数据预测方法的流程图；以一条随机记录为例，该记录含15维数据，包括1个因变量和14个自变量；具体按照以下步骤实施：

步骤1：部署Hadoop分布式平台，以1个Master节点和9个Slave节点为例建立分布式集群，如图2所示；

步骤2：在Hadoop分布式环境中，将训练数据和待测试数据存储在HDFS分布式文件系统中，在数据存储过程中，系统将数据按64M模式分块存储。

步骤3：在Hadoop分布式集群中各个节点的Mapper端，设计Map函数，根据欧式距离计算公式，计算出待预测数据与本节点部分训练数据样本之间的距离。具体过程为：函数输入定义为<LongWritable key，Text text>，key为训练数据行号，text为记录数据data()；输出定义为<Context context>，定义类Sample()，存储数据间距离和此条训练数据目标函数实际值；遍历所有训练数据和待预测数据，计算其距离，并将距离值和训练数据的目标函数值存入Sample()，形如<距离值dst1，函数值t1>；输出context.write(key’，sample())，其中，key’是待预测数据行号；

步骤4：在Mapper端，将步骤3所得距离值发送至集群节点的Combiner端，设计Combine函数，并进行本地排序，选出局部距离最小的K个最近邻点，得到局部K-最近邻子集。具体过程为：函数输入定义为<LongWritable key，Sample sample>，输出定义为<Context context>；把所有的sample存入一个链表结构里，arrayList.add(sample)，存入后的arrayList格式为(<距离，函数值>，<距离，函数值>，…，<距离，函数值>)；然后对arrayList进行局部排序，排序过程需按照arrayList里对象的距离属性由小到大排序，执行sort(arrayList)；从排好序的arrayList中仅取出前K个sample，并输出context.write(key，arrayList.get())。

步骤5：在Combiner端，将步骤4所得的所有局部K-最近邻子集，发送至Hadoop分布式集群各Reducer端，设计Reduce函数，对所有局部K-最近邻子集进行重新排序，得到全局K-最近邻子集。具体过程为：函数输入定义为<LongWritable key，Iterator<Sample>values>，函数输出定义为<Context context>；key为待预测数据的行号ID，values为各节点传送的多个局部K最近邻子集的集合，提出所有的局部K最近邻点相关数据存入一个arrayList，进行全局排序，提取全局的K个最近邻点相关数据存入sortedArrayList，sortedArrayList.add(arrayList.get())。

步骤7：在全局的K-最近邻子集中，根据待预测数据与这K个最近邻点的距离值，利用距离加权方法，计算这K个邻近点对待预测点影响的权重大小。具体过程为：从数据组合sample<距离，函数值>中取得距离值，设训练数据点p_i与待预测数据x间的距离值为d(x,p_i)，根据距离加权计算公式：计算出拥有该距离的训练数据点对于待预测数据的权重W(x,p_i)。

步骤8：将这组K个权重值作为回归函数的K个回归系数，利用回归函数，计算待预测数据的预测值。具体过程为：从数据组合sample<距离，函数值>中取得距离值，设某条数据的函数值为y_i，它对待预测数据的距离权重为W(x,p_i)，令回归系数b_i＝W(x,p_i)，根据回归函数求出目标函数预测值y'；输出context.write(key，y')。

本发明一种基于MapReduce的K近邻数据预测方法，集群中各节点并行计算时，系统会首先将块数据分片，然后将片数据分配给Map函数处理，处理过程如图3所示；计算过程以MapReduce任务为粒度，每个MapReduce任务都可分为两个阶段：Map阶段和Reduce阶段；多个节点并行执行Map函数，每个Map函数接收一个<key，value>形式的输入，然后产生同种形式的中间输出，Hadoop对所有的Map函数输出做一次合并、排序等处理(Shuffle处理)，并将具有相同中间key值的value集合到一块传递给Reduce函数，Reduce函数就会接收到形如<key，[value1，value2，…]>的输入，然后对集合[value1，value2，…]进行处理并输出结果。

Map函数的主要任务是计算每一个待预测数据TestSet与每一个训练数据TrainSet间的距离Distance(TestSet，TrainSet)，距离计算公式采用标准的欧氏距离。Combine函数的主要任务是把本地Map函数产生的<key，value1>，<key，value2>，...多个键值对合并成一个新的<key，[value1，value2，…]>，这是Hadoop平台中MapReduce任务默认执行的Combine函数，为了减少Reduce节点不必要的计算和通信开销，这里重写了Combine方法，在其合并多个<key，value>之后，执行一个按数据样本间距离正向排序的操作，仅取其前K个值传递给Reduce函数。Reduce函数的主要任务是取出由Combine函数传递过来的K个最近邻训练样本相关数据，根据权重函数计算出回归系数b_i，最后由回归系数和K个最近邻训练样本目标值计算出待测样本的目标函数值。

Claims

1.一种基于MapReduce的K近邻数据预测方法，其特征在于，包括如下步骤：

步骤2、在Hadoop分布式集群中各个节点的Mapper端，设计Map函数，根据欧式距离计算公式，计算出待预测数据与本节点部分训练数据样本之间的距离；

所述设计Map函数的过程为：函数输入定义为<LongWritable key，Text text>，key为训练数据行号，text为记录数据；输出函数定义为<Context context>，定义类Sample()，存储数据间距离和此条训练数据目标函数实际值；遍历所有训练数据和待预测数据，计算其距离，并将距离值和训练数据的目标函数值存入Sample()；输出context.write(key’，sample())，key’为待预测数据行号；

步骤3、在Mapper端，将步骤2所得距离值发送至集群节点的Combiner端，设计Combine函数，并进行本地排序，选出局部距离最小的K个最近邻点，得到局部K-最近邻子集；

所述设计Combine函数的具体过程为：将函数输入定义为<LongWritable key，Samplesample>，输出定义为<Context context>；把所有的sample存入一个链表结构里，arrayList.add(sample)；对arrayList进行排序，执行sort(arrayList)；从排好顺序的arrayList中仅取出前K个sample，并输出context.write(key，arrayList.get())；

所述设计Reduce函数过程为：函数输入定义为<LongWritable key，Iterator<Sample>values>，函数输出定义为<Context context>；取出所有的K最近邻点相关数据存入一个arrayList，进行全局排序，并取出全局的K个最近邻点相关数据存sortedArrayList，sortedArrayList.add(arrayList.get())；

所述权重函数为：

<mrow> <mi>W</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>d</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </msup> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>d</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </msup> </mrow> </mfrac> <mo>,</mo> </mrow>

其中，W(x,p_i)为权重值，d(x,p_i)为待预测点x训练数据中第i个邻居p_i的距离，1≤i≤n；

所述回归函数为：

<mrow> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>b</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>,</mo> </mrow>

其中，y'为测试样本的回归预测值，b_i为回归系数，y_i为训练样本p_i的目标值；

步骤5、将步骤4处理后的数据存储在HDFS文件系统中，用Hadoop相关查看工具查看或下载至本地。