CN110609832B

CN110609832B - 一种面向流式数据的非重复采样方法

Info

Publication number: CN110609832B
Application number: CN201910811871.4A
Authority: CN
Inventors: 温延龙; 鲁茸定主; 袁晓洁
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2022-12-09
Anticipated expiration: 2039-08-30
Also published as: CN110609832A

Abstract

一种面向流式数据的非重复采样方法，包括：判断全局组团直径数组的稳定性；存储部分流式数据作为训练数据集，进行数据清洗，去除冗余、不规范数据点；基于数据集各维度分离度的特性，学习训练数据集在各维度上的最优组团直径；更新全局组团直径数组；结合局部敏感哈希，对流式数据进行非重复采样，并实时维护接收集合与拒绝集合；最后每当查询到来，就可以从接受集合中随机采样出结果集合。本发明提出的面向流式数据的非重复采样方法，能够根据数据点的空间分布，信息特征准确、高效的采样具有代表性的数据点，能够极大的减少数据量，同时高度保留原始数据的信息，方便上层应用进行快捷、高效的实时分析。

Description

一种面向流式数据的非重复采样方法

技术领域

本发明属于流数据处理领域。具体涉及一种面向流数据的非重复采样技术。

背景技术

随着大数据时代的到来，在移动通信，金融等领域实时产生了大量的流式数据，这类流式数据呈现典型的大数据特征，即真实、多样、量大、快速、高价值。由于流式数据的数据量巨大、采集速度极快、样式丰富，这使得很多传统的数据分析系统难以进行实时的处理和分析。

可见，若能在巨量的流式数据中，采样具有代表性的、数据量相对较小的数据集供上层应用进行分析，而不是原生的巨量流式数据，能够极大的减轻上层应用的处理负担，同时又能保证分析结果的准确性。

发明内容

本发明目的是解决传统的数据分析系统对于大量的流式数据难以进行实时处理和分析的问题。

本发明技术方案

一种面向流式数据的非重复采样方法，其步骤为：

第1、读取流式数据，判断全局组团直径数组的稳定性；

设置一个变量来存储全局组团直径数组的稳定性，初始值设置为0(表示不稳定)，再进入第2步，之后在第4.1步中重新计算全局组团直径数组的稳定性，若达到稳定，则置为1，同时对于下一轮的数据而言，将直接进入第5步；

定义1：流式数据，定义如下：

流式数据是一组顺序、大量、快速、连续到达的数据序列，一般情况下，流式数据被视为一个随时间延续而无限增长的动态数据集合；

第2、存储部分流式数据作为训练数据集，并进行数据清洗，去除不规范数据点；

第2.1、对于流式数据，数据会源源不断的到来，选取一个预设固定时间段内的数据进行存储，作为训练数据集；

第2.2、清洗训练数据集，去除不规范数据点；

定义2：不规范数据点，定义如下：

对于同一个数据集中的任意一个数据点，若存在以下一个或者多个情况，则该数据点为不规范数据点：

(4)存在缺失属性，也即数据点采集不完整；

(5)存在错误属性；

(6)存在重复数据点，也即存在所有属性均一致的数据点，那么除去第一次出现的数据点以外，剩余数据点均为重复数据点；

第3、基于数据集各维度分离度的特性，学习训练数据集在各维度上的最优组团直径；

定义3：(α，β)-数据集，定义如下：

令S为流式数据，d为S的数据维度，D(.，.)为欧式距离度量方法，α(α₁，...，α_d)为组团直径数组，β(β₁，...，β_d)为距离阈值数组，其满足β_i＞α_i，i∈[1，d]；那么对于任意S中的数据点u，v有：

要么D(u_i，v_i)≤α_i，要么D(u_i，v_i)≥β_i，α_i，i∈[1，d]，

则称流式数据S为(α，β)-数据集；

定义4：分离度，定义如下：

令S为(α，β)-数据集，那么在某一个维度i，存在多个符合要求的α_i和β_i，取其中α_i的最小值min(α_i)，取β_i的最大值max(β_i)，那么在维度i上的分离度为：

max(β_i)/min(α_i)，i∈[1，d]；

第4、更新全局组团直径数组；

第4.1、计算全局组团直径数组是否稳定，预先设置一个阈值，判断在训练数据集每一个维度上的组团直径与对应全局组团直径之间的误差是否在阈值范围内，只有当训练数据在所有维度上的最优组团直径与对应全局组团直径的误差都在阈值范围内，这时全局组团直径达到稳定；

第4.2、若全局组团直径数组未达到稳定，则在每一个维度上，将训练数据的最优组团直径与全局组团直径以2∶8权重进行加权平均，得到更新后的全局组团直径数组；

第5、结合局部敏感哈希，对流式数据进行非重复采样，并实时维护接收集合与拒绝集合；

第5.1、使用局部敏感哈希分配桶id；

通过局部敏感哈希将高度相似的数据点映射到相同的桶中，在每一个数据点到来时，为该数据点分配对应的桶id；

第5.2、计算该数据点是否为代表点；

如果该数据点不是代表点，说明在该数据点到来之前，已经到达与该数据点存在类似的数据点，他们同属一个组团，具有相似的特征值，所以设定先到的数据点作为代表整个组团的代表点，之后到的数据点就可以直接丢弃。如果该数据点是代表点，就表明该数据点是一个全新组团的代表点，就进入第5.3步；

定义5：代表点，定义如下：

令S为(α，β)-数据集，S^rep为当前所有的代表点集合，对于一个来自S的数据点u，如果有：

其中，Space(v)代表以v为中心，以α_i，i∈[1，d]为第i维直径长度的欧式空间，那么数据点u为S中的一个代表点；

第5.3、计算数据点所属的网格是否被采样；

在数据点为代表点的前提下，通过查看代表点所属的网格是否被采样，来决定是否采样该代表点，如果该数据点是代表点，并且其所属网格被采样，那么该数据点就被加入接受集合中，否则进入第5.4步；这里采用网格来代替数据点本身进行采样，其优势在于整个采样过程可以在所有数据点还未到达之前，就提前对空间划分网格进行采样，这样最终只需要简单查看代表点是否落在采样到的网格内即可，大幅度提高了采样的效率，同时也不乏随机性和公平性，保证每一个代表点都有相同的概率被采样；

定义6：网格：

令S为(α，β)-数据集，那么α(α₁，...，α_d)为S的组团直径数组，那么定义一个网格为在高维欧式空间中以α_i/2，i∈[1，d]为第i维直径长度的空间，这些网格对整个完整的欧式空间进行了切割，同时由于各个维度的整体取值范围是有界限的，所以需要切割的欧式空间是有界的，也即是总的网格数是有限的，能够在有限时间内完成；

定义7：所属的网格，定义如下：

对于数据点u来说，其所属的网格，也即是u所分布在欧式空间上的位置对应被切割到的网格；所以，每一个数据点有且仅有一个所属网格；

第5.4、计算数据点周围的网格是否被采样；

在数据点为代表点，同时其所属网格没有被采样的前提下，计算该数据点周围的网格是否被采样，如果其周围的网格被采样，那么该数据点就被加入拒绝集合，否则直接丢弃；存在接受集合与拒绝集合，就能够在采样过程中保证每一个代表点都能够被相同的概率采样，同时也保证了一个组团只会产生一个代表点。

定义8：周围的网格，定义如下：

对于数据点u来说，其周围的网格，代表了以u为中心，各维度直径为α_i，i∈[1，d]的空间内，除去u所属网格以外的所有网格；所以，每一个数据点，一般拥有多个周围网格；

第6、每当查询到来，就能够从接受集合中随机采样出结果集合。

本发明的优点和有益效果：

本发明提出了一种面向流式数据的非重复采样方法，一方面该方法可以从数据量巨大的流式数据中，增量式采样出相对小量的数据集，从而有效的缓解上层应用的处理负担，方便其进行分析处理。另一方面该方法采样出的数据点都具有代表性，使得采样出来的数据集能够极大的保留原生数据的特征和特性，从而保证上层应用的分析的准确性和有效性。本发明可以适用在所有流式处理系统中，尤其针对数值类型的数据，可以极大的减少上层应用的处理压力，提高分析效率，同时又能保证分析结果的高准确和高可靠，有效的解决了传统数据分析系统无法处理流式数据的问题，以及当前流式数据处理系统无法应对高速、量大、高爆发的流式数据的窘境。

附图说明

图1是面向流式数据的非重复采样方法的流程图。

图2是在数据集Sep-raw的第一维度中学习最优组团直径的趋势图，其中(a)组团个数随组团直径变化的曲线，(b)组团个数的对数随组团直径变化的曲线。

图3是采样过程对不同数据点处理方式的二维展示图。

图4是对不同数据集的采样中，各组团实际被采样的次数分布图，其中(a)Sep-uniform数据集(b)Sep-power数据集。

图5是对不同数据集进行实际采样的采样误差图，其中(a)Sep-uniform数据集(b)Sep-power数据集。

图6是本发明方法与现有方法RSIW在6个不同数据集上的处理时间对比图。

具体实施方式

下面结合附图详细说明本发明的具体实施方式。

本发明提供的一种面向流式数据的非重复采样方法，在实施阶段采用了9个数据集，来自4个不同的分组，在分组内部的所有数据集由一份相同的源数据集，结合不同的数据加工方式生成，数据集详细参数如表1所示。其中数据集D1的源数据集为来自UCI机器学习库的真实数据集Seeds，其包含了对三种不同品种小麦的7个真实属性测量值；数据集D2的源数据集也是来自UCI机器学习库的真实数据集Yacht，包含了不同帆船的7个真实测量值；数据集D3的源数据集为人造20维的数据集Rand20，其中所有数据点在任一维度上的值服从0-1正态分布；数据集D4的源数据集为人造10维的数据集Sep-raw，其生成方式为：设定第i维的组团直径α_i满足

第i维的阈值β_i满足β_i＝5×α_i，那么生成一个数据点u的第i维值u_i时，对于所有已经生成的任一数据点v需要满足：要么D(u_i，v_i)≤α_i，要么D(u_i，v_i)≥β_i，α_i，i∈[1，d]。

表1数据集详细参数

两种不同的数据加工方式：

(1)Uniform方式：遍历源数据集的所有数据点，对于任一一个数据点，我们添加x个邻近数据点，其中x为1至100内的一个随机数；

(2)Power方式：遍历源数据集的所有数据点，对于任一一个数据点，我们添加x个邻近数据点，其中x符合幂法则，即x＝「n/i]，n表示数据集的数据点个数，i表示轮到第i个数据点；

邻近数据点生成的方式为：对于一个d维度的源数据集的任一一个数据点u而言，首先随机生成一个d维度的数据点z，每一个维度服从0-1正态分布；其次随机得到数字g，

并将z放缩为长度g，记放缩后的数据点为z’；生成数据点u的一个邻近数据点y，y＝u+z’。

其处理流程如图1所示，具体步骤如下：

第1、读取流式数据，判断全局组团直径数组的稳定性；

判断存储全局组团直径数组稳定性的变量是否为0，如果为0，表示不稳定，那么进入第2步，之后在第4.1步中重新计算全局组团直径数组的稳定性，如果为1，进入步骤4；

在这一步中，需要提前预设两个时间段T₁、T₂，分别表示在每隔T₁时间段之后，存储T₂时间段内所有流式数据作为本轮训练数据集，之后进行数据清洗，去除存在缺失属性，错误属性，以及重复的数据点。

第3、基于数据集各维度分离度的特性，学习训练数据集在各个维度上的最优组团直径；

针对数据集每一维上的数据，我们需要学习该维度上的最优组团直径，可以观察到在(α，β)-数据集中，其任意两个数据点在第i维上的距离要么小于α_i，要么大于β_i，所以可以明显的推论出，当组团直径介于α_i和β_i之间时，在该维度上衡量得出的组团数目是保持不变的。同时，如图2所示，随着组团直径的逐渐增大，衡量出来的组团数目单调递减，并且，对比(a)，(b)两子图，使用组团数目的log可以更加明显的反应下降趋势。利用这一性质，我们可以检测该曲线上的最低斜率区间，斜率定义如下：

取得最低斜率区间之后，就可以获得一对组团直径，也即是α_ij与α_ij-1，那么我们取α_ij-1作为维度i上的最优组团直径。同时，为了保证结果的准确性，每一次组团直径的计算，都需要重复迭代N次，在每一次迭代中需要重新打乱所有数据的排列顺序，使得学习的组团直径能够更加准确，之后选取出现次数最多的组团直径，作为最终的最优组团直径。

详细的算法流程如下：

算法1：计算最优组团直径数组α

输入：清洗过的数据集Data，迭代的次数N

输出：Data的最优组团数组α

表2最优组团半径数组学习结果

数据集	α<sub>0</sub>	α<sub>1</sub>	α<sub>2</sub>	α<sub>3</sub>	α<sub>4</sub>	α<sub>5</sub>	α<sub>6</sub>	α7	α<sub>8</sub>	α<sub>9</sub>
											Sep-raw	1	1.4	2	2.8	4	5.7	8	11.3	16	22.6
Sep-uniform	1	1.5	2.2	2.8	4.2	5.7	8.2	11.5	16	22.6
											Sep-power	1	1.4	2	2.8	4	5.7	8	11.3	16	22.6
真实α	1	1.4	2	2.8	4	5.7	8	11.3	16	22.6

表2展示了算法1对于D4组数据集的最优组团半径学习的结果，首先该组数据集的源数据集为Sep-raw，其真实组团直径在第4行展示；我们在Sep-raw数据集上通过算法1学习得到的最优组团直径数组在第1行展示，对比第1行与第4行，可以看到各维度的组团直径均一致；第2行与第3行的结果，分别为在Sep-uniform和sep-power数据集上学习的结果，这两个数据集都是以Sep-raw为源数据集，再添加邻近数据点得到的，所以其真实组团直径数组是一致的，对比第3行与第4行，可以看到各维度均一致，对比第2行与第4行，可以看到最大误差不超过0.2；综上，算法1能够在较小的误差保证下，学习得到数据集在各维度上的最优直径，同时，在邻近数据点相对较少，也就是噪音点相对较少的情况下，可以达到极小误差。

第4、更新全局最优组团直径数组；

第4.1、判断全局组团直径数组的稳定性，也即是本轮在训练数据集上学习的最优组团直径数组与全局组团直径数组在各维度上的误差是否在一个预设的阈值之内。若所有的误差都在该阈值之内，则表示全局组团直径已经稳定，不再需要进行下一步的学习，换句话说，参数学习阶段已经完成，之后的数据直接跳转到第5步，若存在某一维度的误差大于阈值，则将训练数据的最优组团直径数组与全局组团直径数组以2∶8权重在每一维度进行加权平均，得到更新后的全局组团直径数组；

第5、结合局部敏感哈希，对流式数据进行非重复采样；

第5.1、通过局部敏感哈希将高度相似的数据点映射到相同的桶中，在每一个数据点到来时，为其分配对应的桶id；

对于局部敏感哈希，我们采用欧式距离来度量两点的相似度，若距离越近，那么两点的相似度越高，反之，距离越远，相似度就越低。具体的距离公式如下：

其中，u和v为两个数据点，d表示数据点的维度。有了距离度量公式之后，就采用哈希方法h(u)进行数据点u的映射，具体如下：

其中，u代表需要映射的数据点，v代表空间内的一个点，同时其与原点确定空间内的一条无穷线，b是一个偏移量，w为一个正实数。其思想为在d维欧氏空间中，随机找一个空间点v，并通过v与原点确定一条无穷线，每有数据点u到来，使用点积将u映射至该无穷线之上，再加上偏移量，减小误差，之后在无穷线上，以长度w来划分区间，编号不同的id，同一个区间内的所有数据点作为相似数据点映射到同一个id的桶中。

第4.2、判断该数据点是否为代表点

每当到达一个数据点u，我们得到其对应的桶id，之后遍历u所对应的接受集合

和

中的数据点p，查看u是否落在以p为中心，以α_i，i∈[1，d]为各维度边长的欧式空间内，也即是u是否在Space(p)内。如果对于所有的p，u都不在Space(p)内，那么我们说u是一个代表点，并进行下一步的计算。反之，如若存在这样的数据点p，使得u在Space(p)内，那么就说明u和p所携带的信息是相似的，我们只需要选择其中一个数据点即可代表两者，所以在我们已经选取了p作为代表点的前提下，u是多余的，因此我们简单丢弃u即可，如图3所示，u₀、u₁、u₂数据点为代表点，其余所有节点均不是代表点。

第4.3、计算数据点所属的网格是否被采样；

将高维度空间划分网格，在学习到各维度的直径α之后是相对容易的，只需要各维度的边长为对应的α_i即可。同时，我们设定使用网格左下角的空间点来唯一的代一个对应的网格。当数据点到来时，只需要在每一个维度，将该维度数值与α_i进行比取余计算，即可得到所在网格。

在获得数据点的所对应的网格之后，就需要使用哈希判断该网格是否被采样，这里我们使用的哈希函数为h_R(C)，具体如下：

h_R(C)＝h(C)mod R

其中，C代表的是网格，h(C)为一个完全随机哈希，即

R为一个正整数，用来控制采样的速率。

当h_R(C)为0时，我们就说网格C被采样。所以，可以发现当R为1时，表示所有的网格都会被采样，随着R逐渐增大，被采样的点就会逐渐稀疏。这样的特点，不论是程序启动时，还是在处理大量数据量之后的情况下，都能够保持接受集合中的数据点个数的稳定以及不同网格被采样的公平性。

在判定数据点u为代表点后，就需要计算u所属的网格C是否被采样，也就是计算h_R(C)是否为0，如果其为0，就代表u被成功采样，同时加入接受集合，并开始下一个数据点的处理。如图3所示，u₀数据点即为加入接受集合的数据点。反之，如果其不为0，就进入下一个步骤。

第4.4、计算数据点周围的网格是否被采样；

在保证数据点u为代表点，并且u所属的网格没有被采样的前提下，计算以u为中心，以α_i，i∈[1，d]为各维度边长的欧式空间所涉及到的多个网格中，是否存在某个网格C使得h_R(C)为0。如果存在这样的网格，那么我们就将数据点u加入拒绝集合，如图3中的数据点u₁即会被加入拒绝集合中。相反，如果u的所有周围网格都没有被采样，那么u就被简单丢弃，如图3中的数据点u₂所示。

最终，面向流式数据结合局部敏感哈希的非重复采样方法的详细伪代码如下：

算法2：结合局部敏感哈希的非重复采样

输入：原生流式数据S，接受集合的大小M

输出：采样结果集合S^smp

初始化：R←1，接受集合

拒绝集合

分析最终的采样结果，如图4所示，所有组团在实际采样中，被采样到的次数基本一致，反应了该发明提供的采样方法是一个有效，正确的非重复采样，其保证了每个组团被等概率的采样，使得采样更加的公正有效。

我们采用平均误差stdDevNm和最大误差maxDevNm来衡量采样的误差，具体定义如下：

令S为流式数据，α为S的最优组团直径数组，n为以α为组团半径衡量出S的组团个数，f^*＝1/n作为每一个组团被采样到的目标概率，f_i代表第i个组团被采样的经验概率，那么：

·平均误差stdDevNm为：

·最大误差maxDevNm为：

如图5所示，展示了在Sep-uniform和Sep-power数据集上的stdDevNm和maxDevNm误差，结果表明不论接受集合的大小是多少，平均误差和最大误差都非常小，其中平均误差全部小于0.06，最大误差不高于0.22。这都表明本发明能够实现高准确的采样，能够有效的采样到需求的代表点，极大限度的保留原生数据的特性和特征，同时显著的减少数据量。

图6在6个数据集上将算法2 LOAD与现有算法RSIW进行了运行时间比较，横坐标表示各个不同的数据集，纵坐标pTime表示每一个数据点被处理所需要消耗的时间，以毫秒为单位；从图中可以清楚的看到，在不同的数据集下，我们的运行时间低于现有算法近10倍，表明我们的算法可以在限定时间内，比现有算法处理近10倍多的数据集，验证了我们的方法更加适用于处理量大、快速的流数据。

Claims

1.一种面向流式数据的非重复采样方法，其步骤为：

第1、读取流式数据，判断全局组团直径数组的稳定性；

设置一个变量来存储全局组团直径数组的稳定性，初始值设置为0，表示不稳定，再进入第2步，之后在第4.1步中重新计算全局组团直径数组的稳定性，若达到稳定，则置为1，同时对于下一轮的数据而言，将直接进入第5步；

定义1：流式数据，定义如下：

流式数据是一组顺序、大量、快速、连续到达的数据序列,流式数据被视为一个随时间延续而无限增长的动态数据集合；

第2.2、清洗训练数据集，去除不规范数据点；

定义2：不规范数据点，定义如下：

(1)存在缺失属性，也即数据点采集不完整；

(2)存在错误属性；

(3)存在重复数据点，也即存在所有属性均一致的数据点，那么除去第一次出现的数据点以外，剩余数据点均为重复数据点；

定义3：(α,β)-数据集，定义如下：

令S为流式数据，d为S的数据维度，D(.,.)为欧式距离度量方法，α(α₁,…,α_d)为组团直径数组，β(β₁,…,β_d)为距离阈值数组，其满足β_i>α_i,i∈[1,d]；那么对于任意S中的数据点u，v有：

要么D(u_i,v_i)≤α_i，要么D(u_i,v_i)≥β_i，α_i,i∈[1,d]，

则称流式数据S为(α,β)-数据集；

定义4：分离度，定义如下：

令S为(α,β)-数据集，那么在某一个维度i，存在多个符合要求的α_i和β_i，取其中α_i的最小值min(α_i)，取β_i的最大值max(β_i)，那么在维度i上的分离度为：

max(β_i)/min(α_i)，i∈[1,d]；

第4、更新全局组团直径数组；

第4.2、若全局组团直径数组未达到稳定，则在每一个维度上，将训练数据的最优组团直径与全局组团直径以2:8权重进行加权平均，得到更新后的全局组团直径数组；

第5.1、使用局部敏感哈希分配桶id；

第5.2、计算该数据点是否为代表点；

如果该数据点不是代表点，说明在该数据点到来之前，已经有与该数据点类似的数据点到达，他们同属一个组团，具有相似的特征值，所以设定先到的数据点作为代表整个组团的代表点，之后到的数据点就可以直接丢弃；如果该数据点是代表点，就表明该数据点是一个全新组团的代表点，就进入第5.3步；

定义5：代表点，定义如下：

令S为(α,β)-数据集，S^rep为当前所有的代表点集合，对于一个来自S的数据点u，如果有：

其中，Space(v)代表以v为中心，以α_i,i∈[1,d]为第i维直径长度的欧式空间，那么数据点u为S中的一个代表点；

第5.3、计算数据点所属的网格是否被采样；

在数据点为代表点的前提下，通过查看代表点所属的网格是否被采样，来决定是否采样该代表点，如果该数据点是代表点，并且其所属网格被采样，那么该数据点就被加入接受集合中，否则进入第5.4步；

定义6：网格：

令S为(α,β)-数据集，那么α(α₁,…,α_d)为S的组团直径数组，那么定义一个网格为在高维欧式空间中以α_i/2,i∈[1,d]为第i维直径长度的空间，这些网格对整个完整的欧式空间进行了切割，同时由于各个维度的整体取值范围是有界限的，所以需要切割的欧式空间是有界限的，也即是总的网格数是有限的，能够在有限时间内完成；

定义7：所属的网格，定义如下：

第5.4、计算数据点周围的网格是否被采样；

在数据点为代表点，同时其所属网格没有被采样的前提下，计算该数据点周围的网格是否被采样，如果其周围的网格被采样，那么该数据点就被加入拒绝集合，否则直接丢弃；存在接受集合与拒绝集合，就能够在采样过程中保证每一个代表点都能够被相同的概率采样，同时也保证了一个组团只会产生一个代表点；

定义8：周围的网格，定义如下：

对于数据点u来说，其周围的网格，代表了以u为中心，各维度直径为α_i,i∈[1,d]的空间内，除去u所属网格以外的所有网格；所以，每一个数据点，拥有多个周围的网格；