CN104731875B - 一种获取多维数据稳定性的方法和系统 - Google Patents

一种获取多维数据稳定性的方法和系统 Download PDF

Info

Publication number
CN104731875B
CN104731875B CN201510100623.0A CN201510100623A CN104731875B CN 104731875 B CN104731875 B CN 104731875B CN 201510100623 A CN201510100623 A CN 201510100623A CN 104731875 B CN104731875 B CN 104731875B
Authority
CN
China
Prior art keywords
data
low
dimensional data
multidimensional data
stability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510100623.0A
Other languages
English (en)
Other versions
CN104731875A (zh
Inventor
吴朝晖
包友军
姜晓红
毛宇
陈英芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201510100623.0A priority Critical patent/CN104731875B/zh
Publication of CN104731875A publication Critical patent/CN104731875A/zh
Application granted granted Critical
Publication of CN104731875B publication Critical patent/CN104731875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于数据处理领域,提供了一种获取多维数据稳定性的方法和系统,所述方法包括:获取连续型多维数据;将所述连续型多维数据处理为低维数据;用于对所述低维数据进行均值分析,获取距离向量;对所述距离向量进行显著性分析,获取超半径r1和r2;通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估。本发明实施例,通过计算均值点到各个数据点的欧式距离,欧式距离的计算考虑所有的维度,并根据显著性要求计算出r1和r2,使得方法的扩展性很好,当数据集的维度非常高时,可以采用PCA降维方法对数据进行降维。

Description

一种获取多维数据稳定性的方法和系统
技术领域
本发明属于数据处理领域,尤其涉及一种获取多维数据稳定性的方法和系统。
背景技术
随着互联网和工业自动控制技术的快速发展,以及云计算、物联网等技术的兴起,数据正以前所未有的速度不断地增长累积,大数据时代已经到来。大数据体现了数据的高维度性,同时加大了数据的处理难度,数据的稳定性越来越难以控制。特别是在工业生产领域,产品数据的稳定性非常重要,一批产品生产完后,必须对产品的相关参数进行稳定性检查,以确保该批产品的均一性,产品质量数据的稳定程度关系着产品的质量命脉。
传统的数据稳定性判定方法比较单一,仅仅从每一维的数据来考虑,没有将所有的维度结合一起考虑。
发明内容
鉴于此,本发明提供一种获取多维数据稳定性的方法和系统,以解决现有技术没有从数据的多维度进行考虑的技术问题。
本发明实施例是这样实现的,一种获取多维数据稳定性的方法,所述方法包括以下步骤:
获取连续型多维数据;
将所述连续型多维数据处理为低维数据;
用于对所述低维数据进行均值分析,获取距离向量;
对所述距离向量进行显著性分析,获取超半径r1和r2
通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估。
本发明实施例还提供一种获取多维数据稳定性的系统,所述系统包括:
连续型多维数据获取单元,用于获取连续型多维数据;
低维数据处理单元,用于将所述连续型多维数据获取单元获取的连续型多维数据处理为低维数据;
距离向量获取单元,用于对所述低维数据处理单元获取的低维数据进行均值分析,获取距离向量;
超半径获取单元,用于对所述距离向量获取单元获取的距离向量进行显著性分析,获取超半径r1和r2
稳定性评估单元,用于在所述超半径获取单元获取之后,通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估。
本发明实施例,通过计算均值点到各个数据点的欧式距离,欧式距离的计算考虑所有的维度,并根据显著性要求计算出r1和r2,使得方法的扩展性很好,当数据集的维度非常高时,可以采用PCA降维方法对数据进行降维。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的获取多维数据稳定性方法的流程图;
图2是本发明实施例提供的多维数据稳定性示意图;
图3是本发明实施例提供的获取多维数据稳定性系统的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
如图1所示为本发明实施例提供的获取多维数据稳定性方法的流程图,所述方法包括以下步骤:
S101,获取连续型多维数据。
在本发明实施例中,获取多维数据稳定性的系统首先获取多维数据,该多维数据每行为一个样例,每列为一个维度,由于该多维数据是原始数据,需要进行对该多维数据进行清洗,得到干净的多维数据。所述获取多维数据的步骤,包括:
通过剔除离散型多维数据获取所述连续型多维数据。
步骤S102,将所述连续型多维数据处理为低维数据。
在本发明实施例中,多维数据包括高维数据和低维数据,由于低维数据更方便获取稳定性,因此获取多维数据稳定性的系统对获取的多维数据进行处理,通过处理将该多维数据处理为低维数据。所述将所述多维数据进行处理为低维数据的方法,包括:
1、将所述连续型多维数据与预设的维度阈值进行比较,将高于所述维度阈值的多维数据设置为高维数据,将低于等于所述维度阈值的多维数据设置为第一低维数据。
在本发明实施例中,获取多维数据稳定性的系统将获取的多维数据与预设的维度阈值进行比较,其中高于维度阈值的多维数据为高维数据,低于等于维度阈值的多维数据为第一低维数据。其中,维度阈值的设置根据实际应用的不同而不同,在此不做限定。
2、将所述高维数据降维为第二低维数据。
在本发明实施例中,通过PCA(Principal Components Analysis,简称:主成分分析算法)将高维数据降维为第二低维数据,PCA为现有技术,在此不做赘述。
3、将所述第一低维数据和第二低维数据确定为所述低维数据。
步骤S103,用于对所述低维数据进行均值分析,获取距离向量。
在本发明实施例中,获取多维数据稳定性的系统对低维数据进行均值分析,通过距离计算算法计算各个数据点到均值点的距离,得到距离向量。其中均值点的距离通过欧式距离度量。
步骤S104,对所述距离向量进行显著性分析,获取超半径r1和r2
在本发明实施例中,获取多维数据稳定性的系统对距离向量进行显著性分析,根据预设的置信水平α,得到距离向量的概率累计分布图,根据概率分布累计得到超半径r1和r2,超半径是在平面图形圆的半径基础上扩展的,在多维空间上时,半径被扩展为超半径。其中置信水平α的取值为90%~95%。所述获取超半径r1和r2,包括:
通过公式P(distance<r1)=(1-α)/2,P(distance>r2)=(1-α)/2获取超半径r1和r2,其中distance为数据点到均值点的距离,r2>r1
步骤S105,通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估。
在本发明实施例中,预设的稳定性判断模型为Diversity_data=(r2-r1)·r1,其中Diversity_data为数据集的差异值,该值越大表示数据集差异越大,稳定性程度越差。
本发明实施例,通过计算均值点到各个数据点的欧式距离,欧式距离的计算考虑所有的维度,并根据显著性要求计算出r1和r2,使得方法的扩展性很好,当数据集的维度非常高时,可以采用PCA降维方法对数据进行降维。
举例说明:
1)随机产生5个符合正态分布的数据集,数据集的维度为50,样例个数为1000,这5个数据集的均值点一样,每个数据集每个维度的方差一样,且符合0.1:1:5:10:18的比例;
2)判断该数据集是否为高维的数据集,该数据集的维度数为50,属于低维数据,则执行步骤4);
3)采用数据PCA降维方法将高维的数据集转换为低维的数据,低维数据集更容易处理;
4)计算5个数据集的均值点,选择欧式距离计算方法,分别计算各个数据点到均值点的欧式距离,得到欧式距离向量;
5)对步骤4)产生的欧式距离向量进行显著性分析,选择置信水平为95%,分别得到5个距离向量的概率累计分布图,根据概率分布累计分别得到5组超半径r1和r2,超半径是在平面图形圆的半径基础上扩展的,在多维空间上时,半径被扩展为超半径;
6)采用建立的数据稳定计算模型对数据集进行稳定性评估,Diversity_data=(r2-r1)·r1,其中Diversity_data为数据集的差异值,该值越大表示数据集差异越大,稳定性程度越差,根据5组超半径r1和r2得到5组差异值,具体数值如表1所示,从而得到最终输出稳定性计算结果,并根据差异值和方差比例画出对应图像,如图2所示为本发明实施例提供的多维数据稳定性示意图,分析可得,数据的差异值变化幅度与差异值的变化一致,模型符合数据的结果。
表1
实施例二
如图3所示为本发明实施例提供的获取多维数据稳定性系统的结构图,为了便于说明,仅示出与本发明实施例相关的部分,包括:
连续型多维数据获取单元301,用于获取连续型多维数据。
在本发明实施例中,获取多维数据稳定性的系统首先获取多维数据,该多维数据每行为一个样例,每列为一个维度,由于该多维数据是原始数据,需要进行对该多维数据进行清洗,得到干净的多维数据。所述连续型多维数据获取单元301,包括:
连续型多维数据获取子单元3011,用于通过剔除离散型多维数据获取所述连续型多维数据。
低维数据处理单元302,用于将所述连续型多维数据获取单元301获取的连续型多维数据处理为低维数据。
在本发明实施例中,多维数据包括高维数据和低维数据,由于低维数据更方便获取稳定性,因此获取多维数据稳定性的系统对获取的多维数据进行处理,通过处理将该多维数据处理为低维数据。所述低维数据处理单元302,包括:
第一低维数据获取子单元3021,用于将所述连续型多维数据与预设的维度阈值进行比较,将高于所述维度阈值的多维数据设置为高维数据,将低于等于所述维度阈值的多维数据设置为第一低维数据。
在本发明实施例中,获取多维数据稳定性的系统将获取的多维数据与预设的维度阈值进行比较,其中高于维度阈值的多维数据为高维数据,低于等于维度阈值的多维数据为第一低维数据。其中,维度阈值的设置根据实际应用的不同而不同,在此不做限定。
第二低维数据获取子单元3022,用于将所述第一低维数据获取子单元3021获取的高维数据降维为第二低维数据。
在本发明实施例中,通过PCA(Principal Components Analysis,简称:主成分分析算法)将高维数据降维为第二低维数据,PCA为现有技术,在此不做赘述。
低维数据确定子单元3023,用于将所述第一低维数据获取子单元3021获取的第一低维数据和所述第二低维数据获取子单元3022获取的第二低维数据确定为低维数据。
距离向量获取单元303,用于对所述低维数据处理单元302获取的低维数据进行均值分析,获取距离向量。
在本发明实施例中,获取多维数据稳定性的系统对低维数据进行均值分析,通过距离计算算法计算各个数据点到均值点的距离,得到距离向量。其中均值点的距离通过欧式距离度量。
超半径获取单元304,用于对所述距离向量获取单元303获取的距离向量进行显著性分析,获取超半径r1和r2
在本发明实施例中,获取多维数据稳定性的系统对距离向量进行显著性分析,根据预设的置信水平α,得到距离向量的概率累计分布图,根据概率分布累计得到超半径r1和r2,超半径是在平面图形圆的半径基础上扩展的,在多维空间上时,半径被扩展为超半径。其中置信水平α的取值为90%~95%。所述超半径获取单元304,包括:
超半径获取子单元3041,通过公式P(distance<r1)=(1-α)/2,P(distance>r2)=(1-α)/2获取超半径r1和r2,其中distance为数据点到均值点的距离变量,r2>r1
稳定性评估单元305,用于在所述超半径获取单元304获取之后,通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估。
在本发明实施例中,预设的稳定性判断模型为Diversity_data=(r2-r1)·r1,其中Diversity_data为数据集的差异值,该值越大表示数据集差异越大,稳定性程度越差。
本发明实施例,通过计算均值点到各个数据点的欧式距离,欧式距离的计算考虑所有的维度,并根据显著性要求计算出r1和r2,使得方法的扩展性很好,当数据集的维度非常高时,可以采用PCA降维方法对数据进行降维
本领域普通技术人员可以理解为上述实施例二所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
本领域普通技术人员还可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,包括ROM/RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种获取多维数据稳定性的方法,其特征在于,所述方法包括以下步骤:
获取连续型多维数据;
将所述连续型多维数据处理为低维数据;
用于对所述低维数据进行均值分析,获取距离向量;
对所述距离向量进行显著性分析,获取超半径r1和r2;具体的包括,获取多维数据稳定性的系统对所述距离向量进行显著性分析,根据预设的置信水平α,得到所述距离向量的概率累计分布图,根据所述概率分布累得到超半径r1和r2
通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估;具体的所述预设的数据稳定性判断模型为Diversity_data=(r2-r1)·r1,其中Diversity为数据集的差异值,该值越大表示数据集差异越大,稳定性程度越差。
2.如权利要求1所述的方法,其特征在于,所述获取多维数据的步骤,包括:
通过剔除离散型多维数据获取所述连续型多维数据。
3.如权利要求1所述的方法,其特征在于,所述将所述多维数据进行处理为低维数据的方法,包括:
将所述连续型多维数据与预设的维度阈值进行比较,将高于所述维度阈值的多维数据设置为高维数据,将低于等于所述维度阈值的多维数据设置为第一低维数据;
将所述高维数据降维为第二低维数据;
将所述第一低维数据和第二低维数据确定为所述低维数据。
4.如权利要求1所述的方法,其特征在于,所述获取超半径r1和r2,包括:
通过公式P(distance<r1)=(1-α)/2),P(distance>r2)=(1-α)/2获取超半径r1和r2,其中distance为数据点到均值点的距离变量,r2>r1,α为置信水平。
5.一种获取多维数据稳定性的系统,其特征在于,所述系统包括:
连续型多维数据获取单元,用于获取连续型多维数据;
低维数据处理单元,用于将所述连续型多维数据获取单元获取的连续型多维数据处理为低维数据;
距离向量获取单元,用于对所述低维数据处理单元获取的低维数据进行均值分析,获取距离向量;
超半径获取单元,用于对所述距离向量获取单元获取的距离向量进行显著性分析,获取超半径r1和r2;具体的包括,获取多维数据稳定性的系统对所述距离向量进行显著性分析,根据预设的置信水平α,得到所述距离向量的概率累计分布图,根据所述概率分布累得到超半径r1和r2
稳定性评估单元,用于在所述超半径获取单元获取之后,通过预设的数据稳定性判断模型对所述多维数据进行稳定性评估,具体的所述预设的数据稳定性判断模型为Diversity_data=(r2-r1)·r1,其中Diversity为数据集的差异值,该值越大表示数据集差异越大,稳定性程度越差。
6.如权利要求5所述的系统,其特征在于,所述连续型多维数据获取单元,包括:
连续型多维数据获取子单元,用于通过剔除离散型多维数据获取所述连续型多维数据。
7.如权利要求5所述的系统,其特征在于,所述低维数据处理单元,包括:
第一低维数据获取子单元,用于将所述连续型多维数据与预设的维度阈值进行比较,将高于所述维度阈值的多维数据设置为高维数据,将低于等于所述维度阈值的多维数据设置为第一低维数据;
第二低维数据获取子单元,用于将所述第一低维数据获取子单元获取的高维数据降维为第二低维数据;
低维数据确定子单元,用于将所述第一低维数据获取子单元获取的第一低维数据和所述第二低维数据获取子单元获取的第二低维数据确定为低维数据。
8.如权利要求5所述的系统,其特征在于,所述超半径获取单元,包括:
通过公式P(distance<r1)=(1-α)/2),P(distance>r2)=(1-α)/2获取超半径r1和r2,其中distance为数据点到均值点的距离变量,r2>r1,α为置信水平。
CN201510100623.0A 2015-03-06 2015-03-06 一种获取多维数据稳定性的方法和系统 Active CN104731875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510100623.0A CN104731875B (zh) 2015-03-06 2015-03-06 一种获取多维数据稳定性的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510100623.0A CN104731875B (zh) 2015-03-06 2015-03-06 一种获取多维数据稳定性的方法和系统

Publications (2)

Publication Number Publication Date
CN104731875A CN104731875A (zh) 2015-06-24
CN104731875B true CN104731875B (zh) 2018-04-17

Family

ID=53455762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510100623.0A Active CN104731875B (zh) 2015-03-06 2015-03-06 一种获取多维数据稳定性的方法和系统

Country Status (1)

Country Link
CN (1) CN104731875B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI697845B (zh) * 2018-07-13 2020-07-01 緯創資通股份有限公司 多目標追蹤方法與系統
WO2020089945A1 (en) * 2018-11-02 2020-05-07 Indian Institute Of Technology Delhi Multivariate data compression system and method thereof
CN110682865A (zh) * 2019-11-06 2020-01-14 复变时空(武汉)数据科技有限公司 一种司机驾驶行为监测方法
TWI766522B (zh) * 2020-12-31 2022-06-01 鴻海精密工業股份有限公司 資料處理方法、裝置、電子設備及存儲介質

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334786A (zh) * 2008-08-01 2008-12-31 浙江大学 一种基于规则邻域的数据降维方法
CN103678550A (zh) * 2013-09-09 2014-03-26 南京邮电大学 一种基于动态索引结构的海量数据实时查询方法
CN103678500A (zh) * 2013-11-18 2014-03-26 南京邮电大学 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334786A (zh) * 2008-08-01 2008-12-31 浙江大学 一种基于规则邻域的数据降维方法
CN103678550A (zh) * 2013-09-09 2014-03-26 南京邮电大学 一种基于动态索引结构的海量数据实时查询方法
CN103678500A (zh) * 2013-11-18 2014-03-26 南京邮电大学 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Experimental Evaluation of a New Speaker Identification Framework using PCA;Zhang Wanfeng 等;《IEEE International Conference on Systems,Man and Cybernetics,2003》;20031117;4147-4152 *
多属性群决策中基于数据稳定性与主观偏好的综合熵权法;周荣喜 等;《控制与决策》;20120727;第27卷(第8期);1169-1174 *

Also Published As

Publication number Publication date
CN104731875A (zh) 2015-06-24

Similar Documents

Publication Publication Date Title
CN104731875B (zh) 一种获取多维数据稳定性的方法和系统
Yu et al. Hierarchical streamline bundles
CN105096268B (zh) 一种点云去噪平滑方法
Shi et al. Adaptive simplification of point cloud using k-means clustering
Didimo et al. Topology-driven force-directed algorithms
CN104933156A (zh) 一种基于共享近邻聚类的协同过滤方法
CN115222625A (zh) 一种基于多尺度噪声的激光雷达点云去噪方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN104850712B (zh) 实物表面采样数据拓扑邻域查询方法
CN112418355A (zh) 基于孤立森林算法对异常点进行特征分析的方法及系统
Li et al. A new extracting algorithm of k nearest neighbors searching for point clouds
Hoan Improving feature map quality of SOM based on adjusting the neighborhood function
CN111027609B (zh) 一种图像数据加权分类方法和系统
JP5547128B2 (ja) クラスタリング装置及び方法及びプログラム
KR101576358B1 (ko) 온라인 분석 처리를 위한 그래프 큐브의 생성 방법
Purnawansyah et al. K-Means clustering implementation in network traffic activities
Liu et al. Dimension estimation using weighted correlation dimension method
CN107766887A (zh) 一种局部加权的不完整数据混杂聚类方法
CN111523576B (zh) 一种适用于电子质量检测的密度峰值聚类离群点检测方法
CN114004952A (zh) 基于统计流形曲率的带高密度噪声点云的数据处理方法
Oliveira et al. Unsupervised dimensionality reduction for very large datasets: Are we going to the right direction?
Ballester et al. Towards explaining the generalization gap in neural networks using topological data analysis
CN109753986A (zh) 一种基于数据块的索引信息的聚类方法和装置
Yang et al. Practical large scale classification with additive kernels
CN110309139B (zh) 高维近邻对搜索方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant