CN102799682A - 一种海量数据预处理方法及其系统 - Google Patents

一种海量数据预处理方法及其系统 Download PDF

Info

Publication number
CN102799682A
CN102799682A CN2012102606515A CN201210260651A CN102799682A CN 102799682 A CN102799682 A CN 102799682A CN 2012102606515 A CN2012102606515 A CN 2012102606515A CN 201210260651 A CN201210260651 A CN 201210260651A CN 102799682 A CN102799682 A CN 102799682A
Authority
CN
China
Prior art keywords
attributes
mrow
data
correlation
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102606515A
Other languages
English (en)
Other versions
CN102799682B (zh
Inventor
李伟伟
邓松
张涛
林为民
时坚
汪晨
周诚
管小娟
朱其军
蒋静
刘时敏
钱炫宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Global Energy Interconnection Research Institute
Original Assignee
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electric Power Research Institute Co Ltd CEPRI filed Critical China Electric Power Research Institute Co Ltd CEPRI
Priority to CN201210260651.5A priority Critical patent/CN102799682B/zh
Publication of CN102799682A publication Critical patent/CN102799682A/zh
Application granted granted Critical
Publication of CN102799682B publication Critical patent/CN102799682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种海量数据预处理方法及其系统,通过以相关系数作为数据降维和压缩的依据,有效的利用的属性之间的相关性。将海量数据以时间片轮转的方式进行存储和顺序编号,通过随机数生成算法和取模运算后,确定抽样样本的编号。提取样本后进行相关性的分析,将属性间的相关系数作为属性相关性矩阵的值,通过相关系数的计算得到体现属性相关性的权值。权值越大即属性的相关性越强,反之亦然。以相关性分析为基础,将相关性强的属性在降维过程中吸收掉,将相关性弱的属性进行聚类分析,有效的利用属性相关性,在保持原数据内在信息的基础上,实现海量数据的降维和压缩。

Description

一种海量数据预处理方法及其系统
技术领域
本发明涉及数据处理领域,具体涉及一种基于相关系数的海量数据预处理方法及其系统。
背景技术
随着信息化时代的到来,计算机的使用已经深入到了我们的工作和生活的各个方面,在众多的领域中,数据量都正在爆炸式的增长。当数据量增长超过普通桌面硬盘的存储容量时,称之为海量数据。海量数据是一种重要的数据资源,包含了很多有用的信息。如何对海量的数据进行管理并从中提取有用的知识是现在面临的一个重大的问题。
数据挖掘中的预处理主要是接受并理解用户的发现要求,确定发现任务,抽取与发现任务相关的知识源,根据与知识源相关的背景知识中的约束性规则对数据进行检查,通过清理和归纳等操作,生成供挖掘核心算法使用的目标数据,即知识基。知识基是原始数据库经过数据汇集处理得到的二维表,纵向为属性,横向为元组。它汇集了原始数据库中与发现任务相关的所有数据的总体特征,是知识发现状态空间的基地,也可以认为是最初始的知识模板。而海量数据预处理的主要任务是对数据的纵向降维和横向压缩。
目前对海量数据的处理大部分是采用分布式、硬件升级以及云计算相结合的方式来解决。如果不采用有效的预处理技术,将极大的浪费这些宝贵的资源增加数据处理系统的压力,因此找到一种高效的对海量数据的预处理的方法十分必要。
发明内容
针对现有技术的不足,本发明提供一种海量数据预处理方法及其系统,可以有效的对海量数据进行降维和压缩,便于从中提取有用的信息,提高资源的利用率,而不损失原数据的内在信息。
本发明提供的一种海量数据预处理方法,其改进之处在于,所述方法包括如下步骤:
(1)将海量数据以时间片轮转的方式进行存储,存储为文本文件并从小到大顺序编号[0,1,2,3,……];
(2)通过随机数生成算法和取模运算后,得到时间片编号,将此编号的时间片作为海量数据属性相关性分析的抽样样本;
(3)计算所述抽样样本中各个属性间的相关系数,建立属性相关系数为权值的矩阵;
(4)将所述矩阵通过和值计算得到各个属性的相关性权值wi,该权值代表了该属性和其它属性的相关性程度。
(5)将属性的相关性权值wi(其中i∈[1,q]),按照由大到小顺序进行排序,体现了属性相关性的强弱排序;
(6)选取所述相关性权值wi由大到小的前n个属性为要压缩的属性;
(7)将选取的n个属性从属性集中去除,留q-n个属性,完成数据降维的过程;其中,n为要降的维度,q为属性个数;
(8)选取所述相关性权值wi由小到大的前m个属性;其中m+n<=q;m为聚类分析的维数;
(9)将所述m个属性进行聚类分析,设定压缩后的数据数量,采用k中心算法对其进行计算分析,从而使数据压缩为设定的量,并使压缩后的数据具有代表性且保持数据间的相互关系。
优选的,步骤(2)所述采用一个随机数产生器,通过随机数产生算法,将产生的数值对时间片的总数取模计算,得到的值作为抽样时间片的编号;
通过随机数产生器产生随机数,对时间片总数取模运算,得到抽样时间片编号的公式为:
num=rand()mod sum;
其中,rand()为随机数产生器,sum为时间片的总数,num为最后抽样的时间片编号。
优选的,步骤(3)计算属性的相关系数的公式为:
r AB = &Sigma; ( A - A &OverBar; ) ( B - B &OverBar; ) ( q - 1 ) &sigma; A &sigma; B ;
其中,
Figure BDA00001928000300023
分别是A和B的均值,σA和σB是A和B的标准差,q为属性个数。优选的,步骤(3)所述属性相关系数为权值的矩阵为:
Figure BDA00001928000300024
其中,该矩阵为对称矩阵,rij为属性i、j的相关系数,q为属性个数。
优选的,步骤(3)和值计算公式为:
w i = 1 q &Sum; j = 1 q | r ij |
其中,rij为属性i、j的相关系数,q为属性个数。
优选的,步骤(2)采用一个随机数产生器,将产生的数值对所述时间片的总数进行取模计算,得到时间片编号。
优选的,所述计算属性的相关系数公式中,若rAB>0,则A增加B也增加,rAB越大,则A、B之间的关联就越紧密;若rAB=0,则A和B是独立的;若rAB<0,则A和B是负相关的,一个值随另一个值的减少而增加。
本发明基于另一目的提供的一种海量数据预处理系统,其改进之处在于,所述系统包括海量数据抽样模块、相关系数矩阵处理模块、数据降维模块和数据压缩模块;
所述海量数据抽样模块用于对海量数据以时间片轮转的方式进行存储,通过随机数生成算法和取模运算后,得到时间片编号,将此编号的时间片作为海量数据属性相关性分析的抽样样本;
所述相关系数矩阵处理模块用于得到抽样样本后,计算属性间数据相关系数,建立以相关系数为权值的属性相关性矩阵,并对通过矩阵的和值计算得到的相关性权值排序;
所述数据降维模块用于选取与其它属性相关性强的属性进行降维;
所述数据压缩模块用于选取降维之后的与其它属性相关性弱的属性进行聚类分析。
优选的,采用一个随机数产生器,通过随机数产生算法,将产生的数值对时间片的总数取模计算,得到的值作为时间片编号;
所述通过随机数产生器产生随机数,对时间片总数取模运算,得到抽样时间片编号的公式为:
num=rand()mod sum;
其中,rand()为随机数产生器,sum为时间片的总数,num为最后抽样的时间片编号。
优选的,所述相关系数矩阵处理模块计算属性间相关系数的公式为:
r AB = &Sigma; ( A - A &OverBar; ) ( B - B &OverBar; ) ( q - 1 ) &sigma; A &sigma; B ;
其中,
Figure BDA00001928000300042
Figure BDA00001928000300043
分别是A和B的均值,σA和σB是A和B的标准差,q为属性个数;若rAB>0,则A增加B也增加,rAB越大,则A、B之间的关联就越紧密;若rAB=0,则A和B是独立的;若rAB<0,则A和B是负相关的,一个值随另一个值的减少而增加;
所述属性相关性矩阵为:
Figure BDA00001928000300044
其中,该矩阵为对称矩阵,rij为属性i、j的相关系数,q为属性个数。优选的,所述和值计算公式为:
w i = 1 q &Sum; j = 1 q | r ij |
其中,rij为属性i、j的相关系数,q为属性个数。
与现有技术比,本发明的有益效果为:
本发明的海量数据抽样模块对海量数据的存储采用了时间片的方式,有利于数据的存储和均匀分布。采用随机产生算法产生样本序列号,也有利于数据进行抽样的随机性和代表性。
本发明的相关系数矩阵处理模块通过属性间相关系数的计算,并创建相关系数矩阵,利用和值的计算方式得到属性间相关性权值,很好的体现了属性间的相关性。用相关系数矩阵的分析来做数据的降维和聚类分析的依据,比单纯的将所有属性进行聚类分析更加提高了效率,使得聚类分析目的性更强,分析的过程更加简便。
本发明的数据降维模块通过相关系数矩阵处理模块的处理之后,得到了相关性权值的排序,数据降维模块将选取与其它属性相关性强的属性进行降维。通过数据降维模块的处理,使得我们数据样本(即抽样样本)的属性之间相关性低,分布合理,有利于后期对数据的其它处理。以相关系数矩阵的处理结果为依据来进行降维,并选择相关性强的属性进行降维,使得降维的过程更加简洁和有效。
本发明的数据压缩模块降维处理之后的数据样本已经得到了属性的优化,数据压缩模块选取降维之后的与其它属性相关性弱的属性进行聚类的分析,以减少所有属性进行聚类分析的计算复杂度。通过数据压缩模块的处理,使得数据的量得到大大的压缩,并且压缩后的数据能够反映数据之间的相对关系,能够对后期数据的分析提供有效的、精简的数据源。对降维后的数据样本进行压缩,并选择相关性弱的属性进行压缩,这样使得压缩后的数据更具有代表性。
本发明提出了一种以相关系数作为数据降维和压缩的依据,有效的利用的属性之间的相关性,实现海量数据的降维和压缩。将相关系数作为属性间的权值来做属性相关性权值的计算,不仅为下一步的降维提供依据,也为下一步聚类分析提供属性选择的依据。基于相关系数的预处理方法,有效的利用了属性的相关性,保持了原数据的内在相关信息,将预处理的过程简便化和有效化。
附图说明
图1为本发明提供的一种海量数据预处理方法的功能结构图。
图2为本发明提供的一种海量数据预处理方法的过程步骤图。
图3为本发明提供的一种基于相关系数的海量数据预处理方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
本实施例的整体思路是:通过以相关系数作为数据降维和压缩的依据,有效的利用的属性之间的相关性。将以时间片方式存储的海量数据信息,随机方法计算后,提取样本后进行相关性的分析,将属性间的相关系数作为属性相关性矩阵的值,通过相关系数的计算得到体现属性相关性的权值。权值越大即属性的相关性越强,反之亦然。以相关性分析为基础,将相关性强的属性在降维过程中吸收掉,将相关性弱的属性进行聚类分析,有效的利用属性相关性,在保持原数据内在信息的基础上,实现海量数据的降维和压缩。
本实施例的海量数据预处理方法的系统结构图如图1所示,其包括如下模块:
海量数据抽样模块:由于海量数据中的数据量比较大,在对海量数据进行降维和压缩之前,要对海量数据进行抽样。本发明采用了时间片轮转的方式对海量数据进行存储并对每个时间片进行编号。当我们要对这些以时间片轮转方式存储的日志进行抽样的时候,我们采用一个随机数产生器,将产生的数值对时间片的数值取模计算,得到的值就是我们要抽样的时间片编号。其可使抽样得到的数据有效、分布均匀并能够真实反映数据信息。
相关系数矩阵处理模块:得到数据样本之后,进行属性间数据相关性的计算,并创建一个以相关系数为权值的属性相关性矩阵。数据降维和压缩是以各个属性之间的相关性为依据,相关性的分析以相关性矩阵的处理为基础。在相关系数矩阵处理的模块中,通过相关系数以及和值计算充分分析各个属性之间的相关性,为数据的降维和压缩提供基础和理论依据。
数据降维模块:通过相关系数矩阵处理模块的处理之后,得到了相关性权值的排序,数据降维模块将选取与其它属性相关性强的属性进行降维。通过数据降维模块的处理,使得我们数据样本的属性之间相关性低,分布合理,有利于后期对数据的其它处理。
数据压缩模块:降维处理之后的数据样本已经得到了属性的优化,数据压缩模块选取降维之后的与其它属性相关性弱的属性进行聚类的分析,以减少所有属性进行聚类分析的计算复杂度。通过数据压缩模块的处理,使得数据的量得到大大的压缩,并且压缩后的数据能够反映数据之间的相对关系,能够对后期数据的分析提供有效的、精简的数据源。
针对上述系统,本实施例提供的一种海量数据预处理方法,其流程图如图2所示,包括如下步骤:
(1):以时间片轮转的方式存储海量数据为不同的文本文件并顺序编号。
(2):采用一个随机数产生器,将产生的一个数值对时间片的总数取模计算,得到的一个值就是我们要的时间片编号。将这个编号的时间片作为海量数据属性相关性分析的样本,抽时间片编号计算如下:
num=rand()mod sum
其中rand()为随机数产生器,sum为时间片的总数,num为最后抽样的时间片编号。
(3):计算抽样日志中各个属性间的相关系数,建立属性相关系数为权值的矩阵。
属性A、B的相关系数计算:
Figure BDA00001928000300061
其中
Figure BDA00001928000300062
分别是A和B的均值,σA和σB是A和B的标准差,q为属性个数;若rAB>0,则A增加B也增加,rAB越大,则A、B之间的关联就越紧密;若rAB=0,则A和B是独立的;若rAB<0,则A和B是负相关的,一个值随另一个值的减少而增加;
属性相关系数为权值的矩阵:
其中该矩阵为对称矩阵,rij为属性i、j的相关系数,q为属性个数。
(4):将形成的相关系数矩阵通过和值的计算得到每个属性的相关性权值,该权值代表了该属性和其它属性的相关性程度。
权值计算: w i = 1 q &Sum; j = 1 q | r ij |
其中rij为属性i、j的相关系数,q为属性个数。
(5):将抽样属性相关性权值wi(其中i∈[1,q])按照大小顺序进行排序,体现了属性相关性的强弱排序。
(6):选取抽样属性相关网中相关属性权值和最大的前n个属性即与其它属性相关性最强的n个属性,选择其为要压缩的属性,n为要降的维数,其中,n取值范围为[0,q-1]。n取值由用户确定。
(7):将选择的n个相关性较强的冗余属性从属性集中剔除,留q-n个属性,完成数据降维的过程,n为要降的维度,q为属性个数。
(8):选取抽样属性相关网中相关属性权值和最小的前m个属性即与其它属性相关性最弱的m个属性且m+n<=q,选择其作为聚类分析采用的要分析的属性,m为聚类分析的维数,n为要降的维度,q为属性个数。其中,m的取值范围为[1,q]。m取值由用户确定。
(9):将选择的m个属性进行聚类分析,设定压缩后的数据数量,采用k中心算法对其进行计算分析,从而使数据压缩为可接受的量,并使压缩后的数据具有代表性且保持数据间的相互关系,m为聚类分析的维数。
具体的,某企业拥有海量数据,为了便于对这些海量数据进行分析,先要对海量数据进行有效的预处理。采用的是本发明的基于相关系数的海量数据预处理办法。如图3所示,其具体的实施方法流程如下:
(1)通过数据采集进程,采集相关海量数据信息;通过时间片轮转存储进程,将海量数据分成多个文件存储并顺序编号;
(2)采用一个随机数产生器,将产生的数值对时间片的总数取模计算,得到的值就是我们要的时间片编号,将这个编号的时间片作为海量数据属性相关性分析的样本;
(3)计算抽样样本中各个属性的相关系数;建立属性相关系数为权值的对称相关矩阵;
(4)通过和值计算的方式,计算每个属性的相关性权值;
(5)对属性的权值排序,其代表了属性间相关性强弱的排序;
(6)定义要压缩的维数n,选择相关属性权值最大的前n个属性即与其它属性相关性最强的n个属性,选择其为要压缩掉的属性(n为要降的维度);
(7)将选择的n个相关性较强的冗余属性从属性集中剔除,留q-n个属性,完成数据降维的过程,使得海量数据的纵向得到压缩(n为要降的维度,q为属性个数);
(8)确定要进行聚类分析采用的属性的维数m,选择相关属性权值最小的m个属性即与其它属性相关性最弱的m个属性,选择其为要进行聚类分析的属性(m为聚类分析的维数);
(9)将选择的m个属性进行聚类分析,设定压缩后的数据数量,采用k中心算法对其进行计算分析,从而使数据压缩为可接受的量,并使压缩后的数据具有代表性且保持数据间的相互关系。进行聚类分析,使得海量数据的横向得到有效的收缩(m为聚类分析的维数);
(10)预处理结束。
需要说明的是,上述模块均可用计算机实现其功能。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (11)

1.一种海量数据预处理方法,其特征在于,所述方法包括如下步骤:
(1)将海量数据以时间片轮转的方式进行存储,存储为文本文件并从小到大顺序编号;
(2)通过随机数生成算法和取模运算后,得到时间片编号,将此编号的时间片作为海量数据属性相关性分析的抽样样本;
(3)计算所述抽样样本中各个属性间的相关系数,建立属性相关系数为权值的矩阵;
(4)将所述矩阵通过和值计算得到各个属性的相关性权值wi
(5)将属性的相关性权值wi,按照由大到小顺序进行排序;
(6)选取所述相关性权值wi由大到小的前n个属性为要压缩的属性;
(7)将选取的n个属性从属性集中去除,留q-n个属性,完成数据降维的过程;其中,n为要降的维度,q为属性个数;
(8)选取所述相关性权值wi由小到大的前m个属性;其中m+n<=q;m为聚类分析的维数;
(9)将所述m个属性进行聚类分析,设定压缩后的数据数量,采用k中心算法对其进行计算分析,从而使数据压缩为设定的量,并使压缩后的数据具有代表性且保持数据间的相互关系。
2.如权利要求1所述的预处理方法,其特征在于,步骤(2)所述采用一个随机数产生器,通过随机数产生算法,将产生的数值对时间片的总数取模计算,得到的值作为抽样时间片的编号;
通过随机数产生器产生随机数,对时间片总数取模运算,得到抽样时间片编号的公式为:
num=rand()modsum;
其中,rand()为随机数产生器,sum为时间片的总数,num为最后抽样的时间片编号。
3.如权利要求1所述的预处理方法,其特征在于,步骤(3)计算属性的相关系数的公式为:
r AB = &Sigma; ( A - A &OverBar; ) ( B - B &OverBar; ) ( q - 1 ) &sigma; A &sigma; B ;
其中,
Figure FDA00001928000200022
分别是A和B的均值,σA和σB是A和B的标准差,q为属性个数。
4.如权利要求1所述的预处理方法,其特征在于,步骤(3)所述属性相关系数为权值的矩阵为:
Figure FDA00001928000200023
其中,该矩阵为对称矩阵,rij为属性i、j的相关系数,q为属性个数。
5.如权利要求1所述的预处理方法,其特征在于,步骤(3)和值计算公式为:
w i = 1 q &Sum; j = 1 q | r ij |
其中,rij为属性i、j的相关系数,q为属性个数。
6.如权利要求1所述的预处理方法,其特征在于,步骤(2)采用一个随机数产生器,将产生的数值对所述时间片的总数进行取模计算,得到时间片编号。
7.如权利要求3所述的预处理方法,其特征在于,所述计算属性的相关系数公式中,若rAB>0,则A增加B也增加,rAB越大,则A、B之间的关联就越紧密;若rAB=0,则A和B是独立的;若rAB<0,则A和B是负相关的,一个值随另一个值的减少而增加。
8.一种海量数据预处理系统,其特征在于,所述系统包括海量数据抽样模块、相关系数矩阵处理模块、数据降维模块和数据压缩模块;
所述海量数据抽样模块用于对海量数据以时间片轮转的方式进行存储,通过随机数生成算法和取模运算后,得到时间片编号,将此编号的时间片作为海量数据属性相关性分析的抽样样本;
所述相关系数矩阵处理模块用于得到抽样样本后,计算属性间数据相关系数,建立以相关系数为权值的属性相关性矩阵,并对通过矩阵的和值计算得到的相关性权值排序;
所述数据降维模块用于选取与其它属性相关性强的属性进行降维;
所述数据压缩模块用于选取降维之后的与其它属性相关性弱的属性进行聚类分析。
9.如权利要求7所述的预处理系统,其特征在于,采用一个随机数产生器,通过随机数产生算法,将产生的数值对时间片的总数取模计算,得到的值作为时间片编号;
所述通过随机数产生器产生随机数,对时间片总数取模运算,得到抽样时间片编号的公式为:
num=rand()modsum;
其中,rand()为随机数产生器,sum为时间片的总数,num为最后抽样的时间片编号。
10.如权利要求7所述的预处理系统,其特征在于,所述相关系数矩阵处理模块计算属性间相关系数的公式为:
r AB = &Sigma; ( A - A &OverBar; ) ( B - B &OverBar; ) ( q - 1 ) &sigma; A &sigma; B ;
其中,
Figure FDA00001928000200032
Figure FDA00001928000200033
分别是A和B的均值,σA和σB是A和B的标准差,q为属性个数;若rAB>0,则A增加B也增加,rAB越大,则A、B之间的关联就越紧密;若rAB=0,则A和B是独立的;若rAB<0,则A和B是负相关的,一个值随另一个值的减少而增加;
所述属性相关性矩阵为:
Figure FDA00001928000200034
其中,该矩阵为对称矩阵,rij为属性i、j的相关系数,q为属性个数。
11.如权利要求7所述的预处理系统,其特征在于,所述和值计算公式为:
w i = 1 q &Sum; j = 1 q | r ij |
其中,rij为属性i、j的相关系数,q为属性个数。
CN201210260651.5A 2012-05-10 2012-07-25 一种海量数据预处理方法及其系统 Active CN102799682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210260651.5A CN102799682B (zh) 2012-05-10 2012-07-25 一种海量数据预处理方法及其系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210144439.2 2012-05-10
CN201210144439 2012-05-10
CN201210260651.5A CN102799682B (zh) 2012-05-10 2012-07-25 一种海量数据预处理方法及其系统

Publications (2)

Publication Number Publication Date
CN102799682A true CN102799682A (zh) 2012-11-28
CN102799682B CN102799682B (zh) 2015-01-07

Family

ID=47198792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210260651.5A Active CN102799682B (zh) 2012-05-10 2012-07-25 一种海量数据预处理方法及其系统

Country Status (1)

Country Link
CN (1) CN102799682B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605734A (zh) * 2013-11-19 2014-02-26 广东电网公司电力科学研究院 基于特征向量的数据传输压缩方法及其系统
CN103914373A (zh) * 2012-12-31 2014-07-09 百度在线网络技术(北京)有限公司 一种用于确定模块特征信息所对应的优先级的方法和设备
CN104318101A (zh) * 2014-10-23 2015-01-28 轻工业环境保护研究所 一种厌氧数学建模过程缺失数据的预处理方法
CN104424331A (zh) * 2013-09-10 2015-03-18 深圳市腾讯计算机系统有限公司 数据抽样方法及装置
WO2016101628A1 (zh) * 2014-12-23 2016-06-30 华为技术有限公司 一种数据建模中的数据处理方法及装置
CN106372412A (zh) * 2016-08-31 2017-02-01 北京可视化节能科技股份有限公司 联动设备能效分析系统
CN106547852A (zh) * 2016-10-19 2017-03-29 腾讯科技(深圳)有限公司 异常数据检测方法及装置、数据预处理方法及系统
WO2018014267A1 (zh) * 2016-07-20 2018-01-25 深圳市东信时代信息技术有限公司 海量人群特征数据的处理方法及系统
CN108628889A (zh) * 2017-03-21 2018-10-09 北京京东尚科信息技术有限公司 基于时间片的数据抽样方法、系统和装置
CN109471862A (zh) * 2018-11-12 2019-03-15 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN109491989A (zh) * 2018-11-12 2019-03-19 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN110995815A (zh) * 2019-11-27 2020-04-10 大连民族大学 一种基于Gaia大数据分析系统的信息传输方法
CN113349780A (zh) * 2021-06-07 2021-09-07 浙江科技学院 一种情绪设计对在线学习认知负荷影响的评估方法
CN113902785A (zh) * 2021-09-15 2022-01-07 珠海视熙科技有限公司 一种深度图像的处理方法、系统、装置及计算机存储介质
WO2022021849A1 (zh) * 2020-07-30 2022-02-03 苏州浪潮智能科技有限公司 一种基于icc的数据一致性检验方法及系统
CN117092255A (zh) * 2023-10-19 2023-11-21 广州恒广复合材料有限公司 一种洗护组合物中季铵盐质量检测分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1216841A (zh) * 1997-10-31 1999-05-19 国际商业机器公司 用于索引和检索的多维数据聚类和降维
US6539391B1 (en) * 1999-08-13 2003-03-25 At&T Corp. Method and system for squashing a large data set
CN101464907A (zh) * 2009-01-09 2009-06-24 中国科学院计算技术研究所 一种文本维度压缩及尺度调整方法以及基于此的分类方法
CN102243641A (zh) * 2011-04-29 2011-11-16 西安交通大学 大规模数据的高效聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1216841A (zh) * 1997-10-31 1999-05-19 国际商业机器公司 用于索引和检索的多维数据聚类和降维
US6539391B1 (en) * 1999-08-13 2003-03-25 At&T Corp. Method and system for squashing a large data set
CN101464907A (zh) * 2009-01-09 2009-06-24 中国科学院计算技术研究所 一种文本维度压缩及尺度调整方法以及基于此的分类方法
CN102243641A (zh) * 2011-04-29 2011-11-16 西安交通大学 大规模数据的高效聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
夏娇雄: "数据资源聚类预处理及其应用研究", 《中国博士学位论文全文数据库》, no. 4, 15 April 2008 (2008-04-15), pages 5 - 22 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914373A (zh) * 2012-12-31 2014-07-09 百度在线网络技术(北京)有限公司 一种用于确定模块特征信息所对应的优先级的方法和设备
CN104424331A (zh) * 2013-09-10 2015-03-18 深圳市腾讯计算机系统有限公司 数据抽样方法及装置
CN103605734B (zh) * 2013-11-19 2017-02-15 广东电网公司电力科学研究院 基于特征向量的数据传输压缩方法及其系统
CN103605734A (zh) * 2013-11-19 2014-02-26 广东电网公司电力科学研究院 基于特征向量的数据传输压缩方法及其系统
CN104318101A (zh) * 2014-10-23 2015-01-28 轻工业环境保护研究所 一种厌氧数学建模过程缺失数据的预处理方法
WO2016101628A1 (zh) * 2014-12-23 2016-06-30 华为技术有限公司 一种数据建模中的数据处理方法及装置
US10606862B2 (en) 2014-12-23 2020-03-31 Huawei Technologies Co., Ltd. Method and apparatus for data processing in data modeling
WO2018014267A1 (zh) * 2016-07-20 2018-01-25 深圳市东信时代信息技术有限公司 海量人群特征数据的处理方法及系统
CN106372412B (zh) * 2016-08-31 2019-03-26 北京可视化节能科技股份有限公司 联动设备能效分析方法
CN106372412A (zh) * 2016-08-31 2017-02-01 北京可视化节能科技股份有限公司 联动设备能效分析系统
CN106547852B (zh) * 2016-10-19 2021-03-12 腾讯科技(深圳)有限公司 异常数据检测方法及装置、数据预处理方法及系统
CN106547852A (zh) * 2016-10-19 2017-03-29 腾讯科技(深圳)有限公司 异常数据检测方法及装置、数据预处理方法及系统
CN108628889A (zh) * 2017-03-21 2018-10-09 北京京东尚科信息技术有限公司 基于时间片的数据抽样方法、系统和装置
CN108628889B (zh) * 2017-03-21 2021-05-25 北京京东尚科信息技术有限公司 基于时间片的数据抽样方法、系统和装置
CN109491989B (zh) * 2018-11-12 2021-08-31 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN109471862A (zh) * 2018-11-12 2019-03-15 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN109491989A (zh) * 2018-11-12 2019-03-19 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN110995815A (zh) * 2019-11-27 2020-04-10 大连民族大学 一种基于Gaia大数据分析系统的信息传输方法
CN110995815B (zh) * 2019-11-27 2022-08-05 大连民族大学 一种基于Gaia大数据分析系统的信息传输方法
WO2022021849A1 (zh) * 2020-07-30 2022-02-03 苏州浪潮智能科技有限公司 一种基于icc的数据一致性检验方法及系统
CN113349780A (zh) * 2021-06-07 2021-09-07 浙江科技学院 一种情绪设计对在线学习认知负荷影响的评估方法
CN113902785A (zh) * 2021-09-15 2022-01-07 珠海视熙科技有限公司 一种深度图像的处理方法、系统、装置及计算机存储介质
CN113902785B (zh) * 2021-09-15 2022-04-15 珠海视熙科技有限公司 一种深度图像的处理方法、系统、装置及计算机存储介质
CN117092255A (zh) * 2023-10-19 2023-11-21 广州恒广复合材料有限公司 一种洗护组合物中季铵盐质量检测分析方法及装置

Also Published As

Publication number Publication date
CN102799682B (zh) 2015-01-07

Similar Documents

Publication Publication Date Title
CN102799682B (zh) 一种海量数据预处理方法及其系统
CN108292315B (zh) 储存和检索数据立方体中的数据
Zhang et al. Sjmr: Parallelizing spatial join with mapreduce on clusters
CN105389349B (zh) 词典更新方法及装置
Zhang et al. Spatial queries evaluation with mapreduce
CN108376143B (zh) 一种新型的olap预计算系统及生成预计算结果的方法
CN101477542B (zh) 一种抽样分析方法、系统和设备
CN104182527B (zh) 基于偏序项集的中英文本词间关联规则挖掘方法及其系统
WO2018080850A2 (en) Query processing in data analysis
CN110389950B (zh) 一种快速运行的大数据清洗方法
US20060235879A1 (en) Techniques for specifying and collecting data aggregations
CN111881326A (zh) 一种图数据存储方法、装置、设备及可读存储介质
CN102314491A (zh) 多核环境下基于海量日志的类似行为模式用户识别方法
Sun et al. Survey of distributed computing frameworks for supporting big data analysis
CN103995828A (zh) 一种云存储日志数据分析方法
CN106599122B (zh) 一种基于垂直分解的并行频繁闭序列挖掘方法
Popova et al. Nosingles: a space-efficient algorithm for influence maximization
CN117648495B (zh) 一种基于云原生向量数据的数据推送方法及系统
Kontonasios et al. Maximum entropy modelling for assessing results on real-valued data
Gong et al. Automatic mapping of the best-suited dnn pruning schemes for real-time mobile acceleration
CN117880765A (zh) 用于短信数据的智能化管理系统
Rajput et al. Performance comparison of sequential quick sort and parallel quick sort algorithms
Kim et al. Decomposition-by-normalization (DBN) leveraging approximate functional dependencies for efficient tensor decomposition
CN107506476A (zh) 用户行为数据收集分析系统及分析方法
CN116595302A (zh) 一种不规则矩阵spmv在gpu上的实现方法、电子设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: STATE ELECTRIC NET CROP.

Effective date: 20130715

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130715

Address after: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15

Applicant after: China Electric Power Research Institute

Applicant after: State Grid Corporation of China

Address before: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15

Applicant before: China Electric Power Research Institute

C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160427

Address after: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15

Patentee after: China Electric Power Research Institute

Patentee after: State Grid Smart Grid Institute

Patentee after: State Grid Corporation of China

Address before: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15

Patentee before: China Electric Power Research Institute

Patentee before: State Grid Corporation of China

C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15

Patentee after: China Electric Power Research Institute

Patentee after: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE

Patentee after: State Grid Corporation of China

Address before: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15

Patentee before: China Electric Power Research Institute

Patentee before: State Grid Smart Grid Institute

Patentee before: State Grid Corporation of China