CN104731875B

CN104731875B - 一种获取多维数据稳定性的方法和系统

Info

Publication number: CN104731875B
Application number: CN201510100623.0A
Authority: CN
Inventors: 吴朝晖; 包友军; 姜晓红; 毛宇; 陈英芝
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-03-06
Filing date: 2015-03-06
Publication date: 2018-04-17
Anticipated expiration: 2035-03-06
Also published as: CN104731875A

Abstract

本发明适用于数据处理领域，提供了一种获取多维数据稳定性的方法和系统，所述方法包括：获取连续型多维数据；将所述连续型多维数据处理为低维数据；用于对所述低维数据进行均值分析，获取距离向量；对所述距离向量进行显著性分析，获取超半径r₁和r₂；通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估。本发明实施例，通过计算均值点到各个数据点的欧式距离，欧式距离的计算考虑所有的维度，并根据显著性要求计算出r₁和r₂，使得方法的扩展性很好，当数据集的维度非常高时，可以采用PCA降维方法对数据进行降维。

Description

一种获取多维数据稳定性的方法和系统

技术领域

本发明属于数据处理领域，尤其涉及一种获取多维数据稳定性的方法和系统。

背景技术

随着互联网和工业自动控制技术的快速发展，以及云计算、物联网等技术的兴起，数据正以前所未有的速度不断地增长累积，大数据时代已经到来。大数据体现了数据的高维度性，同时加大了数据的处理难度，数据的稳定性越来越难以控制。特别是在工业生产领域，产品数据的稳定性非常重要，一批产品生产完后，必须对产品的相关参数进行稳定性检查，以确保该批产品的均一性，产品质量数据的稳定程度关系着产品的质量命脉。

传统的数据稳定性判定方法比较单一，仅仅从每一维的数据来考虑，没有将所有的维度结合一起考虑。

发明内容

鉴于此，本发明提供一种获取多维数据稳定性的方法和系统，以解决现有技术没有从数据的多维度进行考虑的技术问题。

本发明实施例是这样实现的，一种获取多维数据稳定性的方法，所述方法包括以下步骤：

获取连续型多维数据；

将所述连续型多维数据处理为低维数据；

用于对所述低维数据进行均值分析，获取距离向量；

对所述距离向量进行显著性分析，获取超半径r₁和r₂；

通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估。

本发明实施例还提供一种获取多维数据稳定性的系统，所述系统包括：

连续型多维数据获取单元，用于获取连续型多维数据；

低维数据处理单元，用于将所述连续型多维数据获取单元获取的连续型多维数据处理为低维数据；

距离向量获取单元，用于对所述低维数据处理单元获取的低维数据进行均值分析，获取距离向量；

超半径获取单元，用于对所述距离向量获取单元获取的距离向量进行显著性分析，获取超半径r₁和r₂；

稳定性评估单元，用于在所述超半径获取单元获取之后，通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估。

本发明实施例，通过计算均值点到各个数据点的欧式距离，欧式距离的计算考虑所有的维度，并根据显著性要求计算出r₁和r₂，使得方法的扩展性很好，当数据集的维度非常高时，可以采用PCA降维方法对数据进行降维。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的获取多维数据稳定性方法的流程图；

图2是本发明实施例提供的多维数据稳定性示意图；

图3是本发明实施例提供的获取多维数据稳定性系统的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

如图1所示为本发明实施例提供的获取多维数据稳定性方法的流程图，所述方法包括以下步骤：

S101，获取连续型多维数据。

在本发明实施例中，获取多维数据稳定性的系统首先获取多维数据，该多维数据每行为一个样例，每列为一个维度，由于该多维数据是原始数据，需要进行对该多维数据进行清洗，得到干净的多维数据。所述获取多维数据的步骤，包括：

通过剔除离散型多维数据获取所述连续型多维数据。

步骤S102，将所述连续型多维数据处理为低维数据。

在本发明实施例中，多维数据包括高维数据和低维数据，由于低维数据更方便获取稳定性，因此获取多维数据稳定性的系统对获取的多维数据进行处理，通过处理将该多维数据处理为低维数据。所述将所述多维数据进行处理为低维数据的方法，包括：

1、将所述连续型多维数据与预设的维度阈值进行比较，将高于所述维度阈值的多维数据设置为高维数据，将低于等于所述维度阈值的多维数据设置为第一低维数据。

在本发明实施例中，获取多维数据稳定性的系统将获取的多维数据与预设的维度阈值进行比较，其中高于维度阈值的多维数据为高维数据，低于等于维度阈值的多维数据为第一低维数据。其中，维度阈值的设置根据实际应用的不同而不同，在此不做限定。

2、将所述高维数据降维为第二低维数据。

在本发明实施例中，通过PCA(Principal Components Analysis，简称：主成分分析算法)将高维数据降维为第二低维数据，PCA为现有技术，在此不做赘述。

3、将所述第一低维数据和第二低维数据确定为所述低维数据。

步骤S103，用于对所述低维数据进行均值分析，获取距离向量。

在本发明实施例中，获取多维数据稳定性的系统对低维数据进行均值分析，通过距离计算算法计算各个数据点到均值点的距离，得到距离向量。其中均值点的距离通过欧式距离度量。

步骤S104，对所述距离向量进行显著性分析，获取超半径r₁和r₂。

在本发明实施例中，获取多维数据稳定性的系统对距离向量进行显著性分析，根据预设的置信水平α，得到距离向量的概率累计分布图，根据概率分布累计得到超半径r₁和r₂，超半径是在平面图形圆的半径基础上扩展的，在多维空间上时，半径被扩展为超半径。其中置信水平α的取值为90％～95％。所述获取超半径r₁和r₂，包括：

通过公式P(distance＜r₁)＝(1-α)/2，P(distance＞r₂)＝(1-α)/2获取超半径r₁和r₂，其中distance为数据点到均值点的距离，r₂＞r₁。

步骤S105，通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估。

在本发明实施例中，预设的稳定性判断模型为Diversity_data＝(r₂-r₁)·r₁，其中Diversity_data为数据集的差异值，该值越大表示数据集差异越大，稳定性程度越差。

举例说明：

1)随机产生5个符合正态分布的数据集，数据集的维度为50，样例个数为1000，这5个数据集的均值点一样，每个数据集每个维度的方差一样，且符合0.1:1:5:10:18的比例；

2)判断该数据集是否为高维的数据集，该数据集的维度数为50，属于低维数据，则执行步骤4)；

3)采用数据PCA降维方法将高维的数据集转换为低维的数据，低维数据集更容易处理；

4)计算5个数据集的均值点，选择欧式距离计算方法，分别计算各个数据点到均值点的欧式距离，得到欧式距离向量；

5)对步骤4)产生的欧式距离向量进行显著性分析，选择置信水平为95％，分别得到5个距离向量的概率累计分布图，根据概率分布累计分别得到5组超半径r₁和r₂，超半径是在平面图形圆的半径基础上扩展的，在多维空间上时，半径被扩展为超半径；

6)采用建立的数据稳定计算模型对数据集进行稳定性评估，Diversity_data＝(r₂-r₁)·r₁，其中Diversity_data为数据集的差异值，该值越大表示数据集差异越大，稳定性程度越差，根据5组超半径r₁和r₂得到5组差异值，具体数值如表1所示，从而得到最终输出稳定性计算结果，并根据差异值和方差比例画出对应图像，如图2所示为本发明实施例提供的多维数据稳定性示意图，分析可得，数据的差异值变化幅度与差异值的变化一致，模型符合数据的结果。

表1

实施例二

如图3所示为本发明实施例提供的获取多维数据稳定性系统的结构图，为了便于说明，仅示出与本发明实施例相关的部分，包括：

连续型多维数据获取单元301，用于获取连续型多维数据。

在本发明实施例中，获取多维数据稳定性的系统首先获取多维数据，该多维数据每行为一个样例，每列为一个维度，由于该多维数据是原始数据，需要进行对该多维数据进行清洗，得到干净的多维数据。所述连续型多维数据获取单元301，包括：

连续型多维数据获取子单元3011，用于通过剔除离散型多维数据获取所述连续型多维数据。

低维数据处理单元302，用于将所述连续型多维数据获取单元301获取的连续型多维数据处理为低维数据。

在本发明实施例中，多维数据包括高维数据和低维数据，由于低维数据更方便获取稳定性，因此获取多维数据稳定性的系统对获取的多维数据进行处理，通过处理将该多维数据处理为低维数据。所述低维数据处理单元302，包括：

第一低维数据获取子单元3021，用于将所述连续型多维数据与预设的维度阈值进行比较，将高于所述维度阈值的多维数据设置为高维数据，将低于等于所述维度阈值的多维数据设置为第一低维数据。

第二低维数据获取子单元3022，用于将所述第一低维数据获取子单元3021获取的高维数据降维为第二低维数据。

低维数据确定子单元3023，用于将所述第一低维数据获取子单元3021获取的第一低维数据和所述第二低维数据获取子单元3022获取的第二低维数据确定为低维数据。

距离向量获取单元303，用于对所述低维数据处理单元302获取的低维数据进行均值分析，获取距离向量。

超半径获取单元304，用于对所述距离向量获取单元303获取的距离向量进行显著性分析，获取超半径r₁和r₂。

在本发明实施例中，获取多维数据稳定性的系统对距离向量进行显著性分析，根据预设的置信水平α，得到距离向量的概率累计分布图，根据概率分布累计得到超半径r₁和r₂，超半径是在平面图形圆的半径基础上扩展的，在多维空间上时，半径被扩展为超半径。其中置信水平α的取值为90％～95％。所述超半径获取单元304，包括：

超半径获取子单元3041，通过公式P(distance＜r₁)＝(1-α)/2，P(distance＞r₂)＝(1-α)/2获取超半径r₁和r₂，其中distance为数据点到均值点的距离变量，r₂＞r₁。

稳定性评估单元305，用于在所述超半径获取单元304获取之后，通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估。

本发明实施例，通过计算均值点到各个数据点的欧式距离，欧式距离的计算考虑所有的维度，并根据显著性要求计算出r₁和r₂，使得方法的扩展性很好，当数据集的维度非常高时，可以采用PCA降维方法对数据进行降维

本领域普通技术人员可以理解为上述实施例二所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

本领域普通技术人员还可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以在存储于一计算机可读取存储介质中，所述的存储介质，包括ROM/RAM、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种获取多维数据稳定性的方法，其特征在于，所述方法包括以下步骤：

获取连续型多维数据；

将所述连续型多维数据处理为低维数据；

用于对所述低维数据进行均值分析，获取距离向量；

对所述距离向量进行显著性分析，获取超半径r₁和r₂；具体的包括，获取多维数据稳定性的系统对所述距离向量进行显著性分析，根据预设的置信水平α，得到所述距离向量的概率累计分布图，根据所述概率分布累得到超半径r₁和r₂；

通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估；具体的所述预设的数据稳定性判断模型为Diversity_data＝(r₂-r₁)·r₁，其中Diversity为数据集的差异值，该值越大表示数据集差异越大，稳定性程度越差。

2.如权利要求1所述的方法，其特征在于，所述获取多维数据的步骤，包括：

通过剔除离散型多维数据获取所述连续型多维数据。

3.如权利要求1所述的方法，其特征在于，所述将所述多维数据进行处理为低维数据的方法，包括：

将所述连续型多维数据与预设的维度阈值进行比较，将高于所述维度阈值的多维数据设置为高维数据，将低于等于所述维度阈值的多维数据设置为第一低维数据；

将所述高维数据降维为第二低维数据；

将所述第一低维数据和第二低维数据确定为所述低维数据。

4.如权利要求1所述的方法，其特征在于，所述获取超半径r₁和r₂，包括：

通过公式P(distance＜r₁)＝(1-α)/2)，P(distance＞r₂)＝(1-α)/2获取超半径r₁和r₂，其中distance为数据点到均值点的距离变量，r₂＞r₁，α为置信水平。

5.一种获取多维数据稳定性的系统，其特征在于，所述系统包括：

连续型多维数据获取单元，用于获取连续型多维数据；

超半径获取单元，用于对所述距离向量获取单元获取的距离向量进行显著性分析，获取超半径r₁和r₂；具体的包括，获取多维数据稳定性的系统对所述距离向量进行显著性分析，根据预设的置信水平α，得到所述距离向量的概率累计分布图，根据所述概率分布累得到超半径r₁和r₂；

稳定性评估单元，用于在所述超半径获取单元获取之后，通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估，具体的所述预设的数据稳定性判断模型为Diversity_data＝(r₂-r₁)·r₁，其中Diversity为数据集的差异值，该值越大表示数据集差异越大，稳定性程度越差。

6.如权利要求5所述的系统，其特征在于，所述连续型多维数据获取单元，包括：

连续型多维数据获取子单元，用于通过剔除离散型多维数据获取所述连续型多维数据。

7.如权利要求5所述的系统，其特征在于，所述低维数据处理单元，包括：

第一低维数据获取子单元，用于将所述连续型多维数据与预设的维度阈值进行比较，将高于所述维度阈值的多维数据设置为高维数据，将低于等于所述维度阈值的多维数据设置为第一低维数据；

第二低维数据获取子单元，用于将所述第一低维数据获取子单元获取的高维数据降维为第二低维数据；

低维数据确定子单元，用于将所述第一低维数据获取子单元获取的第一低维数据和所述第二低维数据获取子单元获取的第二低维数据确定为低维数据。

8.如权利要求5所述的系统，其特征在于，所述超半径获取单元，包括：