CN109508350A

CN109508350A - 一种对数据进行采样的方法和装置

Info

Publication number: CN109508350A
Application number: CN201811307544.7A
Authority: CN
Inventors: 林荣恒; 苏运; 毕倩; 邹华; 叶泽州
Original assignee: Beijing University of Posts and Telecommunications; State Grid Shanghai Electric Power Co Ltd
Current assignee: Beijing University of Posts and Telecommunications; State Grid Shanghai Electric Power Co Ltd
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2019-03-22
Anticipated expiration: 2038-11-05
Also published as: CN109508350B

Abstract

本申请公开了一种对数据进行采样的方法，包括：对所有用户的初始数据进行抽样处理，其中，每个用户对应一个数据向量；对于各个抽样用户及其对应的数据向量，计算每个抽样用户与其他所有抽样用户的向量间的相似性，得到每个抽样用户对应的距离矩阵；根据所有抽样用户对应的距离矩阵，对抽样用户对应的数据向量进行数据聚类；根据聚类结果，选择最重要的一个或多个特征；将所有用户的初始数据按照选择出的所有特征分成k类，并在每一类中进行抽样处理，并保证不同类中的抽样数差值最小。应用本申请，能够实现均匀采样，提高数据处理的准确性。

Description

一种对数据进行采样的方法和装置

技术领域

本申请涉及采样技术，特别涉及一种对数据进行采样的方法和装置。

背景技术

随着大数据时代的到来，很多工作都需要以大量数据的分析为基础进行。通常，对于大数据量进行分析前，需要对数据进行适当的采用，以缩小数据量，并保持数据特性。

而在我们的学习和日常生活中，我们所遇到的大多数数据都存在数据不平衡的问题。例如，在信息安全监控、风险管理、文本分类、机器故障等方面，都有某些类存在较多样本，而某些类只存在较少或很少的样本的情况出现。数据集中不同类别的数据的数目相差很大，使得数据不均匀分布，这种数据不平衡可能会导致对数据后续的处理产生一定的影响，如在分类过程中，不平衡的训练数据会导致分类器的性能下降，使得分类结果不准确。

例如，随着智能电网的发展，电力数据量迅速增长。为了更快捷、有效的分析海量的电力数据，我们需要对电力数据进行采样分析。蓄水池抽样算法可以在数据量过大、数据长度未知的情况下对数据进行随机抽样，是目前电力系统中应用较普遍的对电力数据进行采样的方法。然而传统的诸如蓄水池算法之类的抽样算法无法均匀采样，因而会影响数据处理的准确性。那么，如何改进抽样算法，得到平衡的数据，是我们要解决的重要问题。

发明内容

本申请提供一种对数据进行采样的方法和装置，能够实现均匀采样，提高数据处理的准确性。

为实现上述目的，本申请采用如下技术方案：

一种对数据进行采样的方法，包括：

a、对所有用户的初始数据进行抽样处理，其中，每个用户对应一个数据向量；

b、对于各个抽样用户及其对应的数据向量，计算每个抽样用户与其他所有抽样用户的向量间的相似性，得到每个抽样用户对应的距离矩阵；根据所有抽样用户对应的距离矩阵，对抽样用户对应的数据向量进行数据聚类；根据聚类结果，选择最重要的一个或多个特征；

c、将所有用户的初始数据按照选择出的所有特征分成k类，并在每一类中进行抽样处理，并保证不同类中的抽样数差值最小。

较佳地，所述对抽样用户对应的数据向量进行数据聚类包括：

对抽样用户对于的数据向量进行聚类，计算轮廓系数，并取最大的轮廓系数作为聚类总数k，根据所述k进行聚类，得到聚类结果。

较佳地，所述根据聚类结果选择最重要的一个或多个特征包括：

针对聚类结果中每一类数据向量，计算每个备选特征对应的特征值；

根据各特征值计算各个备选特征的重要性，将最重要的一个或多个备选特征作为选择出的特征。

较佳地，所述备选特征为均值、标准差、方根幅值、峰度、偏度和/或峰值。

较佳地，所述步骤c包括：

c1、将所有用户中的第一个用户作为当前用户，初始化k个数据集，每个数据集的大小为n/k，每个数据集对应于所述数据聚类的一个类别；

c2、按照选择出的所有特征，确定当前用户的初始数据所属的类别x；

c3、判断所述类别x对应的数据集c是否放满，若是，则执行步骤c4，否则将当前用户对应的数据向量加入数据集c，再执行步骤c5；

c4、以(n/k)/m的概率替换掉数据集c中的一个数据向量；

c5、判断当前用户是否为最后一个用户，若是，则将k个数据集中的数据向量作为采样结果；否则，将下一个用户作为当前用户，返回步骤c2。

较佳地，步骤c中所述将所有用户的初始数据按照选择出的所有特征分成k类包括：

按照所述聚类结果，计算每一类的所有数据向量对应于所述所有特征的特征值/特征向量，将该特征值/特征向量作为分类标准；

对于所有用户中的任一用户，计算该用户的数据向量对应于所述所有特征的特征值/特征向量，将所述任一用户的特征值/特征向量与所述分类标准进行比较后，选择差别最小的一类作为所述任一用户的所属类。

较佳地，所述数据向量对应于所述所有特征的特征值/特征向量为：将所述数据向量中的数据分成N组，对应每组计算所述特征值/特征向量；

所述选择差别最小的一类包括：对应每组，计算任一用户的特征值/特征向量与所述分类标准的差值，再对各个组的差值计算加权和或加权平均，选择加权和或加权平均最小的一类作为差别最小的一类；

其中，N为预设的正整数。

较佳地，所述用户对应的数据向量为用户一年内的每日用电量组成的向量。

一种对数据进行采样的装置，包括：初始抽样单元、聚类单元和重抽样单元；

所述初始抽样单元，用于对所有用户的初始数据进行抽样处理，其中，每个用户对应一个数据向量；

所述聚类单元，用于对各个抽样用户及其对应的数据向量，计算每个抽样用户与其他所有抽样用户的向量间的相似性，得到每个抽样用户对应的距离矩阵；根据所有抽样用户对应的距离矩阵，对抽样用户对应的数据向量进行数据聚类；根据聚类结果，选择最重要的一个或多个特征；

所述重抽样单元，用于将所有用户的初始数据按照选择出的所有特征分成k类，并在每一类中进行抽样处理。

由上述技术方案可见，本申请中，对所有用户的初始数据进行传统抽样处理；对于各个抽样用户及其对应的数据向量，计算每个抽样用户与其他所有抽样用户的向量间的相似性，得到每个抽样用户对应的距离矩阵；根据所有抽样用户对应的距离矩阵，对抽样用户对应的数据向量进行数据聚类；根据聚类结果，选择最重要的一个或多个特征；将所有用户的初始数据按照选择出的所有特征分成k类，并在每一类中进行传统抽样处理，且每一类的抽样数相同。通过上述方式，利用聚类结果进行特征选择，然后再按照特征将所有初始数据分类后进行抽样，这样保证在不同特性的数据中抽样量相同，从而实现均匀抽样，提高数据处理的准确性。

附图说明

图1为本申请中采样方法的基本流程示意图；

图2为本申请中采样装置的基本结构示意图；

图3为本申请中采样方法和传统蓄水池采用方法的性能比较示意图。

具体实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

现有的抽样方法中直接在初始数据中进行抽样，没有考虑抽样数据的不同数据特征，因此，会造成不同类别的数据抽样量差别很大。本申请中的基本思想在于：对初始数据按照特征进行分类后，在每一类中进行抽样，并保证不同类中抽样数相同。

现有比较普遍的对数据进行分类的方法是数据聚类，但是，如果直接对初始数据进行数据聚类，数据处理的计算量过于庞大。考虑到该问题，本申请中的采样方法没有直接对初始数据进行聚类，而是首先进行数据采样，再对采用后的数据进行聚类后提取重要特征，并根据特征对初始数据进行快速分类。

具体地，本申请中对数据进行采样方法的思路包括：首先用户通过给出初始数据，对初始数据进行采样，然后对数据进行聚类，对聚类出的每一类的数据进行特征计算，特征提取，根据得到的特征进行快速分类，实现蓄水池抽样算法的均衡抽样，得到均匀分布的抽样数据。本申请中的方法尤其适用于不同数据特征的数据数目不同的场景，例如对用电数据进行采样的场景。

下面对本申请中采样方法的具体实现进行介绍。图1为本申请中采样方法的基本流程示意图。其中，以对所有用户一年内的用电数据进行采样为例进行说明。如图1所示，该方法包括：

步骤101，对所有用户的初始数据进行抽样处理。

其中，每个用户对应一个数据向量。本例中，在M个用户的全年用电数据中采样部分用户的全年用电数据。其中，全年用电数据是指一年内每日的用电量。因此，每个用户对应的一个数据向量包括365个数据，每个数据表示该用户某一天的用电量。

具体地，在电力系统中，每一个用户的原始数据为356天24点用电数据，将用户一天的用电量相加，减少数据量，得到用户356天每天的用电量数据。用户每天的用电量可以是将24个小时的用电量求和，以减少数据量。将用户的每天用电量数据作为初始数据，用于进行采样。本申请中，将用于采样的数据称为初始数据，也就是传统采样方法中使用的数据。初始数据可以是系统原始数据，也可以是在原始数据基础上进行处理后的数据(例如本例中的用户每天用电量数据)。

本步骤的处理可以与现有采样处理方法相同。以电力系统为例，对于用电量数据的采样，通常使用蓄水池算法，本例中也采用蓄水池算法。具体地，为实现从所有c条数据向量中抽取n条数据向量，可以如下进行采样：先将c条数据向量中的前n个数据向量取出来放入结果集中，然后从第n+1个数据向量开始遍历；假设遍历到第m个数据向量，以n/m的概率替换掉蓄水池中的某个数据向量，最后得到随机抽样的用户一年日用电数据。

步骤102，对于各个抽样用户及其对应的数据向量，计算每个抽样用户与其他所有抽样用户的向量间的相似性，得到每个抽样用户对应的距离矩阵。

通过步骤101的处理，某些用户的数据向量被采样出来，将这些数据向量被采样的用户称为抽样用户。

对于步骤101中的所有抽样用户，计算距离矩阵。其中，每个用户距离矩阵的计算方式可以采用现有方式，例如本例中对于用户的一年日用电数据向量计算距离矩阵时，采用DTW动态时间规整算法，该算法对于时间序列的相似性计算性能最优。

具体地，利用DTW动态时间规整算法计算每个抽样用户的用电曲线与其他各抽样用户的用电曲线的相似性，得到距离矩阵。其中，用户的用电曲线是将用户一年内的日用电数据绘成的曲线。某抽样用户A的用电曲线与另一抽样用户B的用电曲线间的相似性计算可以为：

D(i，j)＝Dist(i，j)+min[D(i-1，j)，D(i，j-1)，D(i-1,j-1)]

其中，i为用户A用电曲线上的一个点，i-1为用户A用电曲线上在点i之前的相邻点，j为用户B用电曲线上的一个点，j-1为用户B用电曲线上在点j之前的相邻点。Dist(i,j)为点i到点j的欧式距离，D(i,j)表示点i和点j的累积距离。D(0,1:)和D(1:,0)被初始化为无穷大，i>0，j>0。

将抽样用户A的用电曲线与所有其他抽样用户的用电曲线间的相似性计算完成后，将所有累积距离构成距离矩阵。其中，距离矩阵中的第i行记录的是用户A的用电曲线上点i与其他所有用户曲线上任一点的累积距离。

步骤103，根据所有抽样用户对应的距离矩阵，对抽样用户对应的数据向量进行数据聚类。

其中，数据聚类可以采用现有的聚类方式。在本例中，优选地，采用K-medoids聚类算法，该算法与DTW动态时间规整算法相结合能够更好地削弱异常值对于数据的影响，有利于提高采样性能。

在具体进行聚类处理时，根据得到的每个用户年用电曲线的距离矩阵，采用K-medoids聚类算法对数据进行聚类，计算轮廓系数，取轮廓系数最大的k值作为聚类总数。最后根据得到的k值进行K-medoids聚类，得到聚类结果。聚类结果中，一些抽样用户对应的数据向量被聚合为一类，具备相似的特征。

步骤104，根据聚类结果，选择最重要的一个或多个特征。

针对聚类结果中每一类数据向量，计算每个备选特征对应的特征值；根据各特征值计算各个备选特征的重要性，将最重要的一个或多个备选特征作为选择出的特征。

具体地，本例中，备选特征可以为均值、标准差、方根幅值、峰度、偏度、峰值等特征。对于每一类用户的一年内日用电数据，计算该类用电数据的均值、标准差、方根幅值、峰度、偏度、峰值等特征值，根据特征值计算各个备选特征的重要性。其中，可以采用随机森林算法等多种算法计算特征的重要性，本申请对此不作限定。根据各个备选特征的重要性计算结果，选择最重要的一个或多个特征。具体选择几个特征可以根据实际需要选择。本例中，选择一个特征。

步骤105，将所有用户的初始数据按照选择出的所有特征分成k类，并在每一类中进行传统抽样处理。

通过步骤104的处理，能够确定出待采样数据中进行数据聚类时最重要的特征，再依据这些特征对用户初始数据进行分类，从而实现快速分类。

本例中在步骤104选择出一个特征，假定该特征为均值，以下说明如何根据该特征分类初始数据。

从用户用电曲线可以看出，用电曲线基本对称，因此，可以仅针对前180天的数据进行运算。具体地，根据步骤103的聚类结果，计算每一类的所有抽样用户前90天用电量的均值和91-180天用电量的均值，作为分类的标准。针对所有原始用户，计算某用户A前90天用电量的均值和91-180天用电量的均值与每一类标准的差值，与哪一类的差值最小，该用户即被分为哪一类。

x为用户每日用电量，a_i为第i类第1-90每天平均用电量,b_i为第i类第91-180天平均用电量。

由上述可见，在根据特征进行分类时，具体处理方式可以为：按照步骤103的聚类结果，计算每一类的所有数据向量对应于选择的特征的特征值，将该特征值作为分类标准；对于所有用户中的任一用户X，计算该用户的数据向量对应于选择的特征的特征值，将用户X的特征值与分类标准进行比较后，选择差别最小的一类作为用户X的所属类。

进一步地，如步骤104所述，选择的备选特征可以是一个，也可以是多个。如果选择多个特征，那么在进行分类时，计算每一类的所有数据向量对应于选择的所有特征的特征值或特征向量，将其作为分类标准。然后，在进行比较时，计算某用户X对应于选择的所有特征的特征值或特征向量，与对应的分类标准进行比较，从而选择出所属类。其中，由于选择的特征为多个，因此，在计算特征信息时，对应于选择的所有特征计算的结果可以是特征值，也可以是特征向量。例如，计算结果可以是将选择的各个特征对应的特征值进行加权求和或者加权平均，从而计算得到一个特征值，将其作为分类标准；或者，计算结果也可以是将选择的各个特征对应的特征值构成特征向量，作为分类标准，在进行比较时，将各个特征向量中的特征值分别进行比较，例如，将均值和标准差作为选择的特征，计算结果为均值和峰值构成的向量，在进行比较时，将用户X的均值与某一类的标准均值进行比较，将用户X的峰值与该类的标准峰值进行比较。

另外，如本例中的前述处理，在对应于选择的特征计算特征值/特征向量时，还可以将数据向量中的数据分成N组，对应每组计算相应的特征值/特征向量(即对应前90天计算一个均值，对应于91-180天计算一个均值)，在选择差别最小的一类时，可以对应每组，计算某用户X的特征值/特征向量与分类标准的差值，再对各个组的差值计算加权和或加权平均，选择加权和或加权平均最小的一类作为差别最小的一类。

如上，即为本步骤中快速分类的具体方式。申请人对上述快速分类方式进行了验证。常用的衡量分类效果的指标有准确率(P)、召回率(R)、F1度量。为了验证上述快速分类的准确性，对聚类后的数据进行了快速分类，比较快速分类的结果是否和聚类的类别是否一致，并计算P，R，F1的值。其中，F1值越大代表分类效果越好。申请人采用不同的样本多次运行，F1的值始终保持在0.95以上，说明书上述快速分类方法是准确有效的。

在进行最终抽样处理时，可以将所有用户的初始数据按照选择出的所有特征分成k类，并在每一类中进行传统抽样处理，并保证不同类中的抽样数差值最小，也就是保证不同类别的抽样数尽量相同。其中，传统抽样处理时可以采用各种现有的采用方法，例如，蓄水池采样方法。

本例中，针对用电数据采用蓄水池算法进行采样，优选地，为提高采样效率，减小采样时间，可以按照如下方式同步进行分类和采样：

1:将第一个用户作为当前用户，初始化k个数据集，每个数据集的大小为n/k，每个数据集对应数据聚类的一个类别；

2:按照选择出的所有特征，确定当前用户的初始数据所属的类别x；其中，确定所属类别x的方式就是前述的快速分类方式；

3：判断类别x对应的数据集c是否放满，放满了进行步骤4，没有放满进行步骤5；

4：以(n/k)/m的概率替换掉数据集c中的某个数据向量；

5：将当前用户对应的用电数据放入数据集c中；

6：判断当前用户是否为最后一个用户，若是，则数据遍历结束，执行步骤7；否则，将下一个用户作为当前用户，返回步骤2；

7：最后，将k个数据集中的数据向量作为抽样结果输出。

上述即为本申请中采样方法的具体实现。本申请还提供了一种采样装置，可以用于实施上述采样方法。图2为本申请中采样装置的基本结构示意图。如图2所示，该装置包括：初始抽样单元、聚类单元和重抽样单元。

其中，初始抽样单元，用于对所有用户的初始数据进行抽样处理，其中，每个用户对应一个数据向量。聚类单元，用于对各个抽样用户及其对应的数据向量，计算每个抽样用户与其他所有抽样用户的向量间的相似性，得到每个抽样用户对应的距离矩阵；根据所有抽样用户对应的距离矩阵，对抽样用户对应的数据向量进行数据聚类；根据聚类结果，选择最重要的一个或多个特征。重抽样单元，用于将所有用户的初始数据按照选择出的所有特征分成k类，并在每一类中进行抽样处理。

为说明本申请中采样方法和装置的有效性，分别采用传统的蓄水池抽样算法和本申请改进后的采样算法从1504条数据中采样出160条数据。对于上述两种方式采样出的数据，采用随机森林算法进行分类，分类结果如图3所示。从图3中可以看出传统采样方法得到的数据分布不均匀，存在数据不平衡的问题。使用本申请改进后的采样方法抽样得到的结果数据基本均匀分布。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种对数据进行采样的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对抽样用户对应的数据向量进行数据聚类包括：

3.根据权利要求1所述的方法，其特征在于，所述根据聚类结果选择最重要的一个或多个特征包括：

4.根据权利要求3所述的方法，其特征在于，所述备选特征为均值、标准差、方根幅值、峰度、偏度和/或峰值。

5.根据权利要求1所述的方法，其特征在于，所述步骤c包括：

c4、以(n/k)/m的概率替换掉数据集c中的一个数据向量；

6.根据权利要求1、3、4或5所述的方法，其特征在于，步骤c中所述将所有用户的初始数据按照选择出的所有特征分成k类包括：

7.根据权利要求6所述的方法，其特征在于，所述数据向量对应于所述所有特征的特征值/特征向量为：将所述数据向量中的数据分成N组，对应每组计算所述特征值/特征向量；

其中，N为预设的正整数。

8.根据权利要求1所述的方法，其特征在于，所述用户对应的数据向量为用户一年内的每日用电量组成的向量。

9.一种对数据进行采样的装置，其特征在于，该装置包括：初始抽样单元、聚类单元和重抽样单元；