CN111639716B

CN111639716B - 基于密度偏差抽样的数据样本选择方法及装置

Info

Publication number: CN111639716B
Application number: CN202010499592.1A
Authority: CN
Inventors: 梁俊宇; 杨洋; 袁兴宇; 杨家全; 李浩涛
Original assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2023-07-18
Anticipated expiration: 2040-06-04
Also published as: CN111639716A

Abstract

本申请提供一种基于密度偏差抽样的数据样本选择方法及装置，在该方法中，根据预先设定的区间个数，将设备产生的第一原始数据划分到多个网格中，统计每个网格内第二原始数据的个数，对每个网格内的第二原始数据进行抽样前，设定抽样总数，进而计算每个网格内第二原始数据的抽样概率。计算每个网格内的第二原始数据的第一样本预估值，然后计算第一原始数据的第二样本预估值，判断所述抽样总数和第二样本预估值的差值是否大于预设阈值，如果是，调整抽样总数，重新计算每个网格内第二原始数据的抽样概率，如果不是，按照各个所述网格内所述第二原始数据的抽样概率进行抽样。采用上述方法，有效解决哈希冲突降低样本质量的问题。

Description

基于密度偏差抽样的数据样本选择方法及装置

技术领域

本申请涉及设备数据处理领域，尤其涉及一种基于密度偏差抽样的数据样本选择方法及装置。

背景技术

设备产生的原始数据是海量的，设备产生的原始数据能够反映设备原始的状态，通过对原始数据的分析达到对设备原始状态分析的目的。原始数据之间存在相似性和差异性，将原始数据划分到不同的类别中，属于同一类别的原始数据的相似性很大，但不同类别之间的原始数据相似性很小。原始数据划分到不同的类别中的过程称为聚类，对不同类别中的原始数据进行分析称为聚类分析。

聚类分析是在计算机内存的基础上运用算法进行的。如果对每个原始数据进行分析，容易出现算法运行时间过长，甚至内存溢出，导致无法聚类分析。因此，在对原始数据聚类分析之前，从海量的原始数据中抽取一部分原始数据作为样本，然后对样本数据聚类分析，通过分析样本数据反映海量的原始数据的特征，进而反映设备的运行状态。目前，主要采用随机抽样和密度偏差抽样对所有原始数据进行抽样。随机抽样是以相同的概率从所有原始数据中抽取一部分原始数据作为样本。密度偏差抽样首先将所有原始数据划分为不同的组，通过建立哈希函数将各组原始数据映射到哈希表中，根据各组原始数据的密度偏差确定各组的抽样概率。

当原始数据服从均匀分布时，随机抽样不仅能获得高质量样本，而且实现简单、运行效率高；当原始数据分布不均匀时，例如，现有两组原始数据，其中一组有50000个原始数据，另一组有1000个原始数据，假设需要的样本是1％，也就是选取510个原始数据，采用随机抽样，有1000个原始数据的组中仅19个原始数据可能被选取，在这个样本上聚类分析，则将这19个原始数据忽略或者视为孤立点。采用密度偏差抽样，有1000个原始数据的组中被选取的原始数据个数增多，有87个原始数据可能被选取。随机抽样容易丢失一些重要的原始数据，导致抽样样本不能保持所有原始数据的分布特征，有可能丢失小的类别。密度偏差抽样提高了不易被抽取到的原始数据的概率。然而，鉴于密度偏差抽样采用哈希表存储原始数据，哈希表中多组原始数据可能对应同一个地址，而一个地址只能对应一组原始数据，这样可能造成多组原始数据丢失，即产生哈希冲突，降低了样本的质量。因此，采用密度偏差抽样的同时，如何避免哈希冲突以提高样本的质量是现在亟需解决的问题。

发明内容

本申请提供一种基于密度偏差抽样的数据样本选择方法及装置，以解决采用密度偏差抽样中产生哈希冲突的问题。

在本申请的第一方面，公开了一种基于密度偏差抽样的数据样本选择方法，包括：

步骤101，获取设备产生的第一原始数据；

步骤102，根据预先设定的区间个数，将所述第一原始数据划分到多个网格中；

步骤103，统计各个所述网格内第二原始数据总数；

步骤104，根据预先设定的抽样总数，计算各个所述网格内所述第二原始数据的抽样概率；

步骤105，计算所述第二原始数据的第一样本预估值；

步骤106，根据所述第一样本预估值以及所述网格的数量，计算所述第一原始数据的第二样本预估值；

步骤107，判断所述抽样总数和第二样本预估值的差值是否大于预设阈值；

步骤108，如果不满足，调整抽样总数，返回步骤104的操作；

步骤109，如果满足，按照各个所述网格内所述第二原始数据的抽样概率进行抽样。

可选的，计算各个所述网格内所述第二原始数据的抽样概率，包括：

根据以下公式，计算各个所述网格内所述第二原始数据的抽样概率：

其中，f_j(n_j)为第j个网格内第二原始数据的抽样概率，G为网格数量，j为第j个网格，n_j为第j个网格内第二原始数据总数，n为预先设定的抽样总数，e为常数，其中0<e<1。

可选的，计算所述第二原始数据的第一样本预估值，包括：

根据以下公式，计算所述第二原始数据的第一样本预估值：

n_aj＝min{ceil{n_jf_j(n_j)},n_j}；

其中，n_aj为第j个网格内的第二原始数据的第一样本预估值，f_j(n_j)为第j个网格内第二原始数据的抽样概率，n_j为第j个网格内第二原始数据总数。

可选的，计算所述第一原始数据的第二样本预估值，包括：

根据以下公式，计算所述第一原始数据的第二样本预估值：

其中，n_a为第一原始数据的第二样本预估值，G为网格数量，j为第j个网格，n_aj为第j个网格内的第二原始数据的第一样本预估值。

可选的，调整抽样总数，包括：

根据以下公式，调整抽样总数：

n₁＝n+(e+1)*(n-n_a)；

其中，n₁为调整后的抽样总数，n为预先设定的抽样总数，e为常数，其中0<e<1，n_a为第一原始数据的第二样本预估值。

在本申请的第二方面，公开了一种基于密度偏差抽样的数据样本选择装置，包括：

获取模块，用于获取设备产生的第一原始数据；

划分模块，用于根据预先设定的区间个数，将所述第一原始数据划分到多个网格中；

统计模块，用于统计各个所述网格内第二原始数据总数；

第一计算模块，用于根据预先设定的抽样总数，(n)计算各个所述网格内所述第二原始数据的抽样概率；

第二计算模块，用于计算所述第二原始数据的第一样本预估值；

第三计算模块，用于计算计算所述第一原始数据的第二样本预估值；

判断模块，用于判断所述抽样总数和第二样本预估值的差值是否大于预设阈值；

调整模块，用于在所述抽样总数和第二样本预估值的差值大于预设阈值时，调整抽样总数；

抽样模块，用于在所述抽样总数和第二样本预估值的差值不小于预设阈值时，按照各个所述网格内所述第二原始数据的抽样概率进行抽样。

可选的，所述第一计算模块包括：

第一计算单元，用于根据以下公式，计算各个所述网格内所述第二原始数据的抽样概率：

可选的，所述第二计算模块包括：

第二计算单元，用于根据以下公式，计算所述第二原始数据的第一样本预估值：

n_aj＝min{ceil{n_jf_j(n_j)},n_j}；

可选的，所述第三计算模块包括：

第三计算单元，用于根据以下公式，计算所述第一原始数据的第二样本预估值：

可选的，所述调整模块包括：

调整单元，用于根据以下公式，调整抽样总数：

n₁＝n+(e+1)*(n-n_a)；

本申请提供一种基于密度偏差抽样的数据样本选择方法及装置，在该方法中，根据预先设定的区间个数，将设备产生的第一原始数据划分到多个网格中，统计每个网格内第二原始数据的个数，对每个网格内的第二原始数据进行抽样前，设定抽样总数，进而计算每个网格内第二原始数据的抽样概率。计算每个网格内的第二原始数据的第一样本预估值，然后计算第一原始数据的第二样本预估值，判断所述抽样总数和第二样本预估值的差值是否大于预设阈值，如果是，调整抽样总数，重新计算每个网格内第二原始数据的抽样概率，如果不是，按照各个所述网格内所述第二原始数据的抽样概率进行抽样。采用上述方法，在第一原始数据没有丢失的情况下，提高了样本的质量，从而解决了哈希冲突降低了样本质量的问题。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种基于密度偏差抽样的数据样本选择方法的工作流程示意图；

图2为本申请实施例公开的一种基于密度偏差抽样的数据样本选择装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供一种基于密度偏差抽样的数据样本选择方法，参见图1所示的工作流程示意图，所述方法包括：

步骤S101,获取设备产生的第一原始数据。

第一原始数据为设备运行过程中产生的运行数据。

步骤S102，根据预先设定的区间个数，将所述第一原始数据划分到多个网格中。

步骤S103，统计各个所述网格内第二原始数据总数。

第二原始数据为设备运行过程中产生的运行数据被划分到多个网格后，每个网格内的运行数据。

步骤S104，根据预先设定的抽样总数，计算各个所述网格内所述第二原始数据的抽样概率。

步骤S105，计算所述第二原始数据的第一样本预估值。

第一样本预估值为每个网格内预计要抽取的第二原始数据的数量值。

步骤S106，根据所述第一样本预估值以及所述网格的数量，计算所述第一原始数据的第二样本预估值。

第二样本预估值为每个网格内预计要抽取的第二原始数据的数量值的总和。

步骤S107，判断所述抽样总数和第二样本预估值的差值是否大于预设阈值。

本步骤中的预设阈值为1。

步骤S108，如果是，调整抽样总数，返回步骤104的操作。

步骤S109，如果不是，按照各个所述网格内所述第二原始数据的抽样概率进行抽样。

本申请提供一种基于密度偏差抽样的数据样本选择方法，在该方法中，根据预先设定的区间个数，将设备产生的第一原始数据划分到多个网格中，统计每个网格内第二原始数据的个数，对每个网格内的第二原始数据进行抽样前，设定抽样总数，进而计算每个网格内第二原始数据的抽样概率。计算每个网格内的第二原始数据的第一样本预估值，然后计算第一原始数据的第二样本预估值，判断所述抽样总数和第二样本预估值的差值是否大于预设阈值，如果是，调整抽样总数，重新计算每个网格内第二原始数据的抽样概率，如果不是，按照各个所述网格内所述第二原始数据的抽样概率进行抽样。本实施例在第一原始数据没有丢失的情况下，提高了样本的质量，从而解决了哈希冲突降低了样本质量的问题。

计算各个所述网格内所述第二原始数据的抽样概率，包括：

计算所述第二原始数据的第一样本预估值，包括：

根据以下公式，计算所述第二原始数据的第一样本预估值：

n_aj＝min{ceil{n_jf_j(n_j)},n_j}；

计算所述第一原始数据的第二样本预估值，包括：

根据以下公式，计算所述第一原始数据的第二样本预估值：

调整抽样总数，包括：

根据以下公式，调整抽样总数：

n₁＝n+(e+1)*(n-n_a)；

上述内容对本申请的方法实施例进行了介绍，下面通过装置实施例对一种基于密度偏差抽样的数据样本选择装置进行描述。对于装置实施例中未披露的细节，请参见本申请方法实施例。

本申请第二实施例公开了一种基于密度偏差抽样的数据样本选择装置，参见图2所示结构示意图，样本选择装置包括：

获取模块10，用于获取设备产生的第一原始数据；

划分模块20，用于根据预先设定的区间个数，将所述第一原始数据划分到多个网格中；

统计模块30，用于统计各个所述网格内第二原始数据总数；

第一计算模块40，用于根据预先设定的抽样总数，计算各个所述网格内所述第二原始数据的抽样概率；

第二计算模块50，用于计算所述第二原始数据的第一样本预估值；

第三计算模块60，用于计算计算所述第一原始数据的第二样本预估值；

判断模块70，用于判断所述抽样总数和第二样本预估值的差值是否大于预设阈值；

调整模块80，用于在所述抽样总数和第二样本预估值的差值大于预设阈值时，调整抽样总数；

抽样模块90，用于在所述抽样总数和第二样本预估值的差值小于预设阈值时，按照各个所述网格内所述第二原始数据的抽样概率进行抽样。

所述第一计算模块包括：

可选的，所述第二计算模块包括：

n_aj＝min{ceil{n_jf_j(n_j)},n_j}；

可选的，所述第三计算模块包括：

可选的，所述调整模块包括：

调整单元，用于根据以下公式，调整抽样总数：

n₁＝n+(e+1)*(n-n_a)；

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种基于密度偏差抽样的数据样本选择方法，其特征在于，包括：

步骤101，获取设备产生的第一原始数据；

步骤103，统计各个所述网格内第二原始数据总数；

步骤105，计算所述第二原始数据的第一样本预估值；

步骤108，如果是，调整抽样总数，返回步骤104的操作；

步骤109，如果不是，按照各个所述网格内所述第二原始数据的抽样概率进行抽样；

所述调整抽样总数，包括：

根据以下公式，调整抽样总数：

n₁＝n+(e+1)*(n-n_a)；

2.根据权利要求1所述的样本选择方法，其特征在于，计算各个所述网格内所述第二原始数据的抽样概率，包括：

3.根据权利要求2所述的样本选择方法，其特征在于，计算所述第二原始数据的第一样本预估值，包括：

根据以下公式，计算所述第二原始数据的第一样本预估值：

n_aj＝min{ceil{n_jf_j(n_j)},n_j}；

4.根据权利要求3所述的样本选择方法，其特征在于，计算所述第一原始数据的第二样本预估值，包括：

根据以下公式，计算所述第一原始数据的第二样本预估值：

5.一种基于密度偏差抽样的数据样本选择装置，其特征在于，包括：

获取模块，用于获取设备产生的第一原始数据；

统计模块，用于统计各个所述网格内第二原始数据总数；

第一计算模块，用于根据预先设定的抽样总数，计算各个所述网格内所述第二原始数据的抽样概率；

抽样模块，用于在所述抽样总数和第二样本预估值的差值小于预设阈值时，按照各个所述网格内所述第二原始数据的抽样概率进行抽样；

所述调整模块包括：

调整单元，用于根据以下公式，调整抽样总数：

n₁＝n+(e+1)*(n-n_a)；

6.根据权利要求5所述的样本选择装置，其特征在于，所述第一计算模块包括：

7.根据权利要求5所述的样本选择装置，其特征在于，所述第二计算模块包括：

n_aj＝min{ceil{n_jf_j(n_j)},n_j}；

8.根据权利要求5所述的样本选择装置，其特征在于，所述第三计算模块包括：