CN110727901B

CN110727901B - 一种用于大数据分析的数据样本均匀采样方法及装置

Info

Publication number: CN110727901B
Application number: CN201910900079.6A
Authority: CN
Inventors: 雷伯涵; 彭亚楠; 黄浩
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2024-04-16
Anticipated expiration: 2039-09-23
Also published as: CN110727901A

Abstract

本发明公开了一种用于大数据分析的数据样本均匀采样方法，先确定一个初始点数据作为第一个代表点，包括由用户指定初始数据点，或选择离数据集中心最近的数据点为初始数据点；计算所有候选点与其最近的代表点之间的距离，选择距离最远的候选点加入代表点集合，直到找到足够多的代表点，返回这些代表点作为最后选取的采样点。本发明可以获得分布均匀、覆盖完整的采样结果，从而较好地完成数据预处理工作，提高采样效率，从而提高大数据分析的整体效率，提供更准确的自动化分析结果。

Description

一种用于大数据分析的数据样本均匀采样方法及装置

技术领域

本发明属于大数据分析中数据预处理领域，尤其涉及一种大数据分析数据样本均匀采样方法及装置。

背景技术

数据是大数据时代的工业基础，在大规模数据中选取有代表性的样本是大数据分析的前提，物流、多媒体等各方面数据都被广泛采集并进行分析。大数据分析的应用非常广，比如说，利用大数据分析的技术探究档案用户行为背后的各类行为轨迹；IBM也充分应用了大数据分析的工具帮助企业做好预测；还有大数据在医疗疾病预测方面也起到了巨大的成效。目前关于大数据技术的实现已有一些研究成果，例如大数据存储服务方法-201610668885.1和一种大数据加密方法-201410258583.8等。本发明注意到，选取有代表性的样本，例如在构建零件质量评价模型的时候，专家分析的人力资源有限，必须选取有代表性的样本预先进行标记，才能支撑后面的训练，让评价模型更为准确，支持更广域的自动化样本分析。

减少采集的数据量是采样的最终目标，而在这个过程中，保持原有数据集信息的完整以及分布的均匀是困难的。最朴素的采样方法就是随机采样，而随机采样遇到的最大问题就是密度高的样本区域可能采样过多，而偏向离群部分的样本无法被采样覆盖。这也是大部分采样方法具有的问题，这样的采样结果可能在专家监督的时候极大地浪费人力，也会造成稀有样本无法被选取到，监督效果不完善，导致训练后模型效果不佳，从而影响后续的自动化分析成果的准确性。在很多方法中都有数据分布是均匀的假设，然而实际数据往往分布得很不均匀，甚至在某些特殊分析场景中，数据不仅不均匀，有的类别样本数还非常少，这种问题就很棘手，而常见的做法中，上采样会导致过拟合，下采样会丢失数据。综上所述，亟需一种可以不受数据样本分布密度影响的均匀采样方法来帮助模型训练，从而降低成本、提高效率。

发明内容

为了在采样的时候尽量减少样本密度对采样结果的影响，均匀地在数据中采样，本发明提供了一种不受数据样本分布密度影响的均匀采样方法。先确定一个初始点，计算所有候选点与其最近的代表点之间的距离，选择距离最远的候选点加入代表点集合，直到找到足够多的代表点。

本发明所采用的技术方案是一种用于大数据分析的数据样本均匀采样方法，先确定一个初始点，计算所有候选点与其最近的代表点之间的距离，选择距离最远的候选点加入代表点集合，直到找到足够多的代表点，返回这些代表点作为最后选取的采样点；实现方式如下，

记给定的数据集为P＝{p₁,p₂,…,p_n}，p_i为该数据集中第i个数据点，1≤i≤n，是一个d维向量；用R_t和C_t分别表示第t次选取后的代表点集合和候选点集合，采样过程中的每个数据点只能属于候选点集合或代表点集合，设定采样比例为α，执行包括以下步骤：

步骤1，指定数据集P的初始数据点作为第一个代表点，包括由用户指定初始数据点，或选择离数据集中心最近的数据点为初始数据点；

步骤2，假设已经选取了t个代表点，1≤t≤(α·n-1)，选择第t+1个代表点的实现如下，

对于每个候选点p_i∈C_t，得到距离最近的代表点进而得到与最近代表点的距离||p_i-p_j*||；

选取离最近代表点距离最远的候选点p_i*作为第t+1个代表点，计算公式如下，

步骤3，返回步骤2选择下一个代表点，直到代表点个数达到α·n个时，代表点采样结束。

而且，所述α∈[0.02,0.1]。

而且，步骤1中，选择离数据集中心最近的数据点为初始数据点，采用以下方式实现，首先，计算数据集P的正中心坐标，第j维的坐标最大值和最小值的均值为则正中心坐标为p_mean＝(p_mean,1,p_mean,2,…,p_mean,d)；

其中max_1≤i≤np_i,j是这n个数据点在第j维坐标上的坐标值中的最大值；min_1≤i≤np_i,j是这n个数据点在第j维坐标上的坐标值中的最小值；

然后，计算每个数据点到正中心的距离||p_i-p_mean||，取距离最小值相应的数据点作为第一个代表点。

本发明还提供用于大数据分析的数据样本均匀采样装置，用于执行如上所述的用于大数据分析的数据样本均匀采样方法。

本发明可以获得分布均匀、覆盖完整的采样结果，从而较好地完成数据预处理工作，提高采样效率，从而提高大数据分析的整体效率，提供更准确的自动化分析结果。

附图说明

图1是本发明实施例的流程图。

图2是本发明实施例的数据集。

图3是本发明实施例在数据集上采样的结果图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供用于大数据分析的数据样本均匀采样方法，是一种不受数据样本分布密度影响的均匀采样方法，记给定的数据集为P＝{p₁,p₂,…,p_n}，p_i为该数据集中第i个数据点(1≤i≤n)，是一个d维向量。设第t次选取后得到了第t个代表点，用R_t和C_t分别表示第t次选取后的代表点集合和候选点集合，采样过程中的每个数据点只能属于候选点集合或代表点集合，即P＝R_t∪C_t且设定采样比例为α。方法输出最后选取的采样点集合。参见图1，实施例的具体步骤如下：

步骤1：对于数据集P，由用户指定初始数据点，即第一个代表点。若用户未指定初始数据点，则选择离数据集正中心点最近的数据点作为第一个代表点。

作为优选，步骤1中，若用户未指定初始数据点，可采用如下方法选择初始数据点。

首先计算数据集P的正中心坐标。第j(1≤j≤d)维的坐标最大值和最小值的均值为则正中心坐标为p_mean＝(p_mean,1,p_mean,2,…,p_mean,d)。

其中，max_1≤i≤np_i,j是这n个数据点在第j维坐标上的坐标值中的最大值；min_1≤i≤ _np_i,j是这n个数据点在第j维坐标上的坐标值中的最小值，i是数据点的标号。

然后计算每个数据点到正中心的距离||p_i-p_mean||，取得到距离最小值的数据点作为第一个代表点。

步骤2：假设已经选取了t(1≤t≤(α·n-1))个代表点，现在要选择第(t+1)个代表点。对于每个候选点p_i∈C_t，得到距离其最近的代表点进而得到其与最近代表点的距离为||p_i-p_j*||。最后选取离最近代表点距离取值最大(即距离最远)的候选点p_i*作为第(t+1)个代表点，计算公式如下：

作为优选，步骤2中所述α∈[0.02,0.1]。

步骤3：返回步骤2选择下一个代表点，直到代表点个数达到α·n个时，代表点采样结束。

参见图2，以该数据集为例，运行上述流程后得到的结果如图3。

本发明研究了一种不受数据样本分布密度影响的均匀采样方法，通过本文方法，只需利用数据集中各数据样本的数据空间坐标即可获得分布均匀、覆盖完整的采样结果。具体实施时，可采用软件方式实现流程的自动运行。运行流程的装置也应当在本发明的保护范围内。

应当理解的是，本说明书未详细阐述的部分均属于现有技术，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种用于大数据分析的数据样本均匀采样方法，其特征在于：先从数据集指定一个初始数据点作为第一个代表点，数据集中属于代表点之外的数据点是候选点，计算所有候选点与其最近的代表点之间的距离，选择距离最远的候选点加入代表点集合，直到找到足够多的代表点，返回这些代表点作为最后选取的采样点；实现方式如下，

对于每个候选点p_i∈C_t，得到距离最近的代表点进而得到与最近代表点的距离/>

选取离最近代表点距离最远的候选点作为第t+1个代表点加入代表点集合，计算公式如下，

步骤3，返回步骤2选择下一个代表点，直到代表点个数达到α·n个时，找到足够多的代表点，代表点采样结束，返回这些代表点集合中的代表点作为最后选取的采样点。

2.根据权利要求1所述的用于大数据分析的数据样本均匀采样方法，其特征在于：所述α∈[0.02,0.1]。

3.根据权利要求1或2所述的用于大数据分析的数据样本均匀采样方法，其特征在于：步骤1中，选择离数据集中心最近的数据点为初始数据点，采用以下方式实现，

首先，计算数据集P的正中心坐标，第j维的坐标最大值和最小值的均值为则正中心坐标为p_mean＝(p_mean,1,p_mean,2,…,p_mean,d)；

4.一种用于大数据分析的数据样本均匀采样装置，其特征在于：用于执行如权利要求1至3任一项所述的用于大数据分析的数据样本均匀采样方法。