CN109885578A - 数据处理方法、装置、设备及存储介质 - Google Patents

数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109885578A
CN109885578A CN201910183535.XA CN201910183535A CN109885578A CN 109885578 A CN109885578 A CN 109885578A CN 201910183535 A CN201910183535 A CN 201910183535A CN 109885578 A CN109885578 A CN 109885578A
Authority
CN
China
Prior art keywords
acquisition system
data acquisition
dimensionality reduction
mapping matrix
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910183535.XA
Other languages
English (en)
Other versions
CN109885578B (zh
Inventor
姚超
韩军伟
郭雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201910183535.XA priority Critical patent/CN109885578B/zh
Publication of CN109885578A publication Critical patent/CN109885578A/zh
Application granted granted Critical
Publication of CN109885578B publication Critical patent/CN109885578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请实施例提供一种数据处理的方法、装置、设备及存储介质。该数据处理的方法包括:从第一设备接收D维的第一数据集合,D为大于2的整数;获取L个预选映射矩阵,根据L个预选映射矩阵获取第一数据集合降维后的L个降维数据集合,L个预选映射矩阵分别与L个降维数据集合对应,并根据L个降维数据集合、L个预选映射矩阵和第一数据集合,从L个预选映射矩阵中获取第一数据集合对应的映射矩阵;根据第一数据集合对应的映射矩阵,对第一数据集合进行降维处理,得到第二数据集合;将第二数据集合发送至第一设备。本申请实施例根据上述映射矩阵降维后的第二数据集合与第一数据集合的流形结构更相似,从而提高了数据降维的准确率。

Description

数据处理方法、装置、设备及存储介质
技术领域
本申请涉及数据处理领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
大数据时代下,数据量的不断膨胀导致了信息爆炸,这些数据往往呈现高维度的特性,高维数据因为其结构的复杂性,所以在现实世界中所掌握的技术通常是难以直接处理的。为了可以恰当地处理这些高维数据,数据降维技术由此诞生。数据降维是将数据从高维特征空间投影到低维特征空间的过程,且在降维的过程中能极大的保留数据的本质结构。邻域保持嵌入(Neighborhood Preserving Embedding,NPE)是一种典型的线性化的流形学习算法,使用局部表示得到投影矩阵,将高维流形数据投影到低维流形空间。
领域保持嵌入算法包括两个步骤:(1)学习高维数据的流形结构,即获取每个样本的k-近邻,使用k-近邻表示数据的流行结构;(2)根据高维数据的流形结构获取映射矩阵,在保持高维数据流形结构的同时,根据映射矩阵将高维流形数据映射到低维流形空间。
邻域保持嵌入算法根据高维数据的流形结构获取映射矩阵时,以数据的重构误差来判断映射的好坏,但是,邻域保持嵌入算法对重构误差的评价准则不够准确,从而降低了数据降维的准确率。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备及存储介质,以提高数据降维的准确率。
第一方面,本申请实施例提供一种数据处理方法,包括:从第一设备接收D维的第一数据集合,D为大于2的整数;获取L个预选映射矩阵,根据L个预选映射矩阵获取第一数据集合降维后的L个降维数据集合,L个预选映射矩阵分别与L个降维数据集合对应,并根据L个降维数据集合、L个预选映射矩阵和第一数据集合,从L个预选映射矩阵中获取第一数据集合对应的映射矩阵,L为大于1的整数;根据第一数据集合对应的映射矩阵,对第一数据集合进行降维处理,得到第二数据集合;将第二数据集合发送至第一设备。
可选地,对于第一数据集合中的任意一个第一样本,根据第一样本的邻域,获取K个权重集合,并从K个权重集合中确定第一样本对应的第一权重集合;K个权重集合中的权重集合中包括第一样本与第一样本的邻域中的样本之间的权重,K为大于1的整数;根据第一数据集合中的各样本各自对应的权重集合,获取第一数据集合对应的预选权重集合。
可选地,根据L个降维数据集合、L个预选映射矩阵和第一数据集合,从L个预选映射矩阵中获取第一数据集合对应的映射矩阵,包括:对于L个降维数据集合中的任意一个第一降维数据集合:根据第一降维数据集合,获取M个权重集合,并根据第一降维数据集合对应的第一预选映射矩阵和第一数据集合,从M个权重集合中确定第一降维数据集合对应的第一目标权重集合,M个权重集合中的任意一个权重集合中包括第一降维数据集合中的任意一个第一降维样本与所述第一降维样本的邻域之间的权重,M为大于1的整数;根据L个降维数据集合各自对应的目标权重集合和预选权重集合,从L个预选映射矩阵中确定第一数据集合对应的映射矩阵。
可选地,根据第一降维数据集合对应的第一预选映射矩阵和第一数据集合,从M个权重集合中确定第一降维数据集合对应的第一目标权重集合,包括:通过如下公式确定第一降维数据集合对应的第一目标权重集合:
其中,W为第一预选映射矩阵;WT为W的转置矩阵;xi为第一数据集合中的第i个样本;Ji(W)为第一降维数据集合中第i个样本降维后对应的样本的邻域;xj为第一数据集合中的第j个样本;qij为第一目标权重集合中的一个权重;和WTW=I为约束条件。
可选地,根据L个降维数据集合各自对应的目标权重集合和预选权重集合,从L个预选映射矩阵中确定第一样本对应的映射矩阵,包括:
通过如下公式确定第一样本对应的映射矩阵:
minW′‖P-Q‖2
其中,P为预选权重集合,Q为L个降维数据集合各自对应的目标权重集合中的一个权重集合。
第二方面,本申请实施例提供一种数据处理装置,包括:
接收模块,用于从第一设备接收D维的第一数据集合,D为大于2的整数。
第一获取模块,用于获取L个预选映射矩阵,根据L个预选映射矩阵获取第一数据集合降维后的L个降维数据集合,L个预选映射矩阵分别与L个降维数据集合对应,并根据L个降维数据集合、L个预选映射矩阵和第一数据集合,从L个预选映射矩阵中获取第一数据集合对应的映射矩阵,L为大于1的整数。
降维模块,用于根据第一数据集合对应的映射矩阵,对第一数据集合进行降维处理,得到第二数据集合。
发送模块,用于将第二数据集合发送至第一设备。
可选地,所述获取模块,还用于对于第一数据集合中的任意一个第一样本,根据第一样本的邻域,获取K个权重集合,并从K个权重集合中确定第一样本对应的第一权重集合,K个权重集合中的权重集合中包括第一样本与第一样本的邻域中的样本之间的权重,K为大于1的整数;以及用于根据第一数据集合中的各样本各自对应的权重集合,获取第一数据集合对应的预选权重集合。
可选地,获取模块具体用于:对于L个降维数据集合中的任意一个第一降维数据集合:根据第一降维数据集合,获取M个权重集合,并根据第一降维数据集合对应的第一预选映射矩阵和第一数据集合,从M个权重集合中确定第一降维数据集合对应的第一目标权重集合,M个权重集合中的任意一个权重集合中包括第一降维数据集合中的任意一个第一降维样本与所述第一降维样本的邻域之间的权重,M为大于1的整数;根据L个降维数据集合各自对应的目标权重集合和预选权重集合,从L个预选映射矩阵中确定第一数据集合对应的映射矩阵。
可选地,所述获取模块,具体用于:通过如下公式确定第一降维数据集合对应的第一目标权重集合:
其中,W为第一预选映射矩阵;WT为W的转置矩阵;xi为第一数据集合中的第i个样本;Ji(W)为第一降维数据集合中第i个样本降维后对应的样本的邻域;xj为第一数据集合中的第j个样本;qij为第一目标权重集合中的一个权重;和WTW=I为约束条件。
可选地,所述获取模块,具体用于:
通过如下公式确定第一样本对应的映射矩阵:
minW′‖O-Q‖2
其中,P为预选权重集合,Q为L个降维数据集合各自对应的目标权重集合中的一个权重集合。
第三方面,本申请实施例提供一种数据处理设备,包括处理器和存储器。
存储器用于存储计算机可执行指令。
处理器用于执行存储器存储的计算机执行指令,使得处理器执行如第一方面的数据处理方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质中存储有计算机执行指令,当计算机执行指令被处理器执行时用于实现如第一方面的数据处理方法。
第五方面,本申请实施例提供了一种计算机程序产品,包括计算机执行指令,当计算机执行指令被处理器执行时用于实现如第一方面的数据处理方法。
本申请实施例提供的数据处理方法、装置、设备及存储介质,通过获取L个预选映射矩阵,根据L个预选映射矩阵获取L个降维数据集合,再根据L个降维数据集合获取对应的L个目标权重集合,将L个目标权重集合与第一数据集合对应的预选权重集合作比较,差值最小的目标权重集合对应的降维数据集合是与第一数据集合流形结构最相似的降维数据集合,该降维数据集合对应的预选映射矩阵即为第一数据集合对应的映射矩阵。根据该映射矩阵降维后的第二数据集合与第一数据集合的流形结构更相似,从而可以提高数据降维的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的数据处理系统的架构图;
图2为本申请一实施例提供的数据处理方法的流程图;
图3为本申请一实施例提供的数据处理装置的示意图;
图4为本申请一实施例提供的数据处理设备的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
具体地,本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。本申请中术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1为本申请一实施例提供的数据处理系统的架构图,如图1所示,该数据处理系统包括数据处理装置110和第一设备120。
具体地,数据处理装置110用于从第一设备120接收D维的第一数据集合,D为大于2的整数;获取L个预选映射矩阵,根据L个预选映射矩阵获取第一数据集合降维后的L个降维数据集合,L个预选映射矩阵分别与L个降维数据集合对应,并根据L个降维数据集合、L个预选映射矩阵和第一数据集合,从L个预选映射矩阵中获取第一数据集合对应的映射矩阵;根据第一数据集合对应的映射矩阵,对第一数据集合进行降维处理,得到第二数据集合;数据处理装置110将该第二数据集合发送至第一设备120。
本实施例的数据处理方法是将高维数据投影到低维流形空间,该方法可以应用于人脸识别,比如对人脸识别算法中产生的高维数据进行降维,人脸识别算法可为机器学习算法。
下面采用具体的实施例对该数据处理方法进行详细说明。
图2为本申请一实施例提供的数据处理方法的流程图。该方法的执行主体是数据处理装置,该装置可以是计算机、平板电脑、笔记本电脑等智能设备的部分或者全部,下面以该方法的执行主体为数据处理装置对数据处理方法进行说明。如图2所示,该方法包括如下步骤:
步骤S201:从第一设备接收D维的第一数据集合,D为大于2的整数。
具体地,大于或等于3维的数据集合可称为高维数据集合,本实施例中第一数据集合可表示为RD,RD中有Z个样本:(x1,x2,…,xZ),D表示第一数据集合的维数。
需要说明的是,从第一设备接收到D维的第一数据集合之后,可以获取该第一数据集合对应的预选权重集合。具体地,获取该第一数据集合对应的预选权重集合,包括:
a1、对于第一数据集合中的任意一个第一样本,根据第一样本的邻域,获取K个权重集合,并从K个权重集合中确定第一样本对应的第一权重集合,K个权重集合中的任意一个权重集合包括第一样本与第一样本的邻域中的样本之间的权重,K为大于1的整数。
具体地,对于第一数据集合中的任意一个第一样本,获取该第一样本的邻域,其中,本实施例中的邻域可为k-近邻。第一样本可表示为xi,其中,获取该第一样本xi的邻域的方法可为现有技术中的算法,比如k-近邻(k-Nearest Neighbor,KNN)算法。
得到第一样本的邻域之后,根据第一样本的邻域,获取K个权重集合,并从K个权重集合中确定第一样本对应的第一权重集合,具体地,获取第一权重集合的方法可通过步骤a11至a12实现:
a11、对于第一样本的邻域中的任意一个第一邻域样本,获取第一样本与该第一邻域样本之间的K个权重。可以理解的是,对于第一样本的邻域中的每个邻域样本,均会获取第一样本与该邻域样本之间的K个权重。
a22、对于第一样本的邻域中的任意一个第一邻域样本,从第一样本与该第一邻域样本之间的K个权重中,确定第一样本与该第一邻域样本之间的目标权重。可以理解的是,对于第一样本的邻域中的每个邻域样本,均会获取第一样本与该邻域样本之间的目标权重。具体地,可通过如下公式获取第一样本与第一样本的邻域中每个邻域样本之间的目标权重:
其中,Ji为第一样本xi的邻域中的样本集合;mij为第一样本xi与Ji中第j个样本xj之间的目标权重;为约束条件。
公式(1)为一个目标函数,使该函数值最小时的mij即为第一样本xi与Ji中第j个样本xj之间的目标权重,第一样本xi与Ji中各邻域样本之间的目标权重组成第一权重集合。
对于第一数据集合中的其它样本可按照上述第一样本获取第一样本对应的第一权重集合的方法,得到第一数据集合中的其他样本对应的权重集合。
a2、根据第一数据集合中的各样本各自对应的权重集合,获取第一数据集合对应的预选权重集合。
具体地,第一数据集合中每一个样本各自对应的权重集合组成第一数据集合对应的预选权重集合,该第一数据集合对应的预选权重集合可以用P表示。
步骤S202:获取L个预选映射矩阵,根据L个预选映射矩阵获取第一数据集合降维后的L个降维数据集合,L个预选映射矩阵与L个降维数据集合一一对应,并根据L个降维数据集合、L个预选映射矩阵和第一数据集合,从L个预选映射矩阵中获取第一数据集合对应的映射矩阵,L为大于1的整数。
具体地,步骤S202可通过步骤b1至b3实现:
b1、获取L个预选映射矩阵的过程可如下:
具体地,随机初始化一个预选映射矩阵W1,W1映射矩阵的大小为D×L,L为第二数据集合的维度,也就是需要将第一数据集合降至的维度,在预选映射矩阵W1的基础上,获取下一个预选映射矩阵W2。具体地,可以通过如下公式获取W2
W2=-(g1+2σg1)+W1 (2)
其中,σ为常数;g1为根据预选映射矩阵W1对第一数据集合降维之后的梯度,g1的具体获取方法详见后续的阐述。
在W2的基础上,获取下一个预选映射矩阵W3。具体地,可以通过如下公式获取W3
W3=-(g2+2σg2)+W2 (3)
其中,g2为根据预选映射矩阵W2对第一数据集合降维之后的梯度。
因此,可通过如下公式,根据第l-1个预选映射矩阵Wl-1得到第l个预选映射矩阵Wl
其中,为在根据Wl-1获取Wl的过程中第h次根据预选映射矩阵Wl-1对第一数据集合降维之后的梯度;l=1……L;h=1……H,H为在根据Wl-1获取Wl的过程中,所需的σl的数目,为第h个σl的值,为采用得到的第h个映射矩阵,即为Wl
可以理解的是,获取之后,根据公式(4)即可得到下面详细说明的获取方法。
具体地,
其中,可通过如下公式获取:
(Wl-1)TWl-1=I (7)
其中,P为预选权重集合,O为函数的参数,Γt(O)是使函数(7)最小的oij的集合。
在获取第l个预选映射矩阵过程中,首先给σl赋于初始值此时h=1,通过公式(6)可得到代入公式(5)中可到代入公式(4)中可得到采用如下公式检查
其中,为根据对第一数据集合降维之后的降维数据集合对应的目标权重集合;Ql-1为根据Wl-1对第一数据集合降维之后的降维数据集合对应的目标权重集合;上述目标权重集合的获取方式详见后续的阐述。
如果满足公式(8),则就是Wl;如果不满足公式(8),则增大此时h=2,与获取同样的方法即可获取如果满足公式(8),则就是Wl。如果不满足公式(8),则更新直至根据更新后的得到的满足公式(8),就是Wl。综上,即采用如下公式检查
其中,为根据对第一数据集合降维之后的降维数据集合对应的目标权重集合;Ql-1为根据Wl-1对第一数据集合降维之后的降维数据集合对应的目标权重集合;上述目标权重集合的获取方式详见后面的阐述。
可以理解的是,按照获取Wl的方法继续获取Wl+1,直至得到的WL-1和WL满足如下条件:||WL-1-WL||2足够小时(比如小于第一预设值时),或者||QL-1-QL||2足够小时(比如小于第二预设值时),则停止获取预选映射矩阵,WL即为第L个预选映射矩阵。
下面对获取的方法进行详细说明。
对于第一数据集合RD,可通过如下公式获取第一数据集合中每个样本对应的梯度之和:
其中,gi为第i个样本xi对应的梯度,xi=[xi1,xi2,...,xik],gi可通过如下几个公式获取:
其中,Mt可通过如下公式获取:
Mt=M(MTOOTM+εI)-1B(ZO-Ci) (12)
其中,B=null(e1);I为单位阵;M=XiB;Ci=P(i,Ji);ZO可通过如下公式获取:
ZO=e1+B(MT OOTM+εI)-1MTOOT (13)
其中,e1=[1,0,0,...,0]T∈Rk
b2、根据L个预选映射矩阵获取第一数据集合降维后的L个降维数据集合。
具体地,下面以根据L个预选映射矩阵中的一个第一预选映射矩阵且第一预选映射矩阵为第l个预选映射矩阵Wl为例来说明根据第一预选映射矩阵获取第一数据集合降维后的第一降维数据集合的方法。
在第一数据集合中每个局部近邻是线性的情况下,可以通过公式yil=Wl Txi,得到第一降维数据集合。
在具有L个预选映射矩阵的情况下,会得到L个降维数据集合。
b3、根据L个降维数据集合、L个预选映射矩阵和第一数据集合,从L个预选映射矩阵中获取第一数据集合对应的映射矩阵。
具体地,获取第一数据集合对应的映射矩阵可通过b31至b32实现:
b31、对于L个降维数据集合中的任意一个第一降维数据集合:根据第一降维数据集合,获取M个权重集合,并根据第一降维数据集合对应的第一预选映射矩阵和第一数据集合,从M个权重集合中确定第一降维数据集合对应的第一目标权重集合。
首先,在第一降维数据集合为L个降维数据集合中的第l个降维数据集合时,第一降维数据集合可表示为Yl。M个权重集合为第一降维数据集合的各样本与各自的邻域中的样本之间的权重的集合。
可以根据如下公式获取第一降维数据集合Yl中的任意一个样本yi,l对应的第一子目标权重集合:
其中,Ji(Wl)为第一降维数据集合中样本yi,l的邻域中的样本集合;qij为第一降维数据集合中样本yi,l与Ji(Wl)中第j个样本yj之间的权重;和(Wl)TWl=I为约束条件。
公式(14)为一个目标函数,使该函数值最小时的qij即为第一降维数据集合中第一样本yi,l与Ji(Wl)中第j个样本yj之间的子目标权重,使该函数值最小时的qij的集合即为第一降维数据集合Yl中的样本yi,l对应的第一子目标权重集合。
接着,在得到第一降维数据集合中样本yj,l对应的第一子目标权重集合之后,对于第一降维数据集合中除样本yi,l之外的其它样本,可以按照同样的方法得到该其它样本对应的子目标权重集合,根据第一降维数据集合每个样本对应的子目标权重集合,得到的第一降维数据集合对应的第一目标权重集合。
如前所述,通过该方法可以获取根据对第一数据集合降维之后的降维数据集合对应的目标权重集合,以及根据Wl-1对第一数据集合降维之后的降维数据集合对应的目标权重集合。
在具有L个降维数据集合的情况下,会得到L个降维数据集合各自对应的目标权重集合。
b32、根据L个降维数据集合各自对应的目标权重集合和预选权重集合,从L个预选映射矩阵中确定第一数据集合对应的映射矩阵。
具体地,将第一数据集合对应的预选权重集合与L个降维数据集合对应的L个目标权重集合进行比较,得到L个差值。比较该L个差值,得到最小的一个差值,采用公式(14)计算该最小的差值对应的目标权重集合所采用的映射矩阵即为第一数据集合对应的映射矩阵。
可以通过如下公式确定第一样本对应的映射矩阵:
minW′||P-Q||2 (15)
其中,P为预选权重集合,Q为L个降维数据集合各自对应的目标权重集合中的一个权重集合。
公式(15)为一个目标函数,其目的是求使该函数最小时的W′,W′即为第一数据集合对应的映射矩阵。可以理解的是,W′为L个预选映射矩阵中的一个映射矩阵。
可以理解的是,上述获取第一数据集合对应的映射矩阵的过程可如下:首先获取预选映射矩阵Wl-1,根据该预选映射矩阵Wl-1对第一数据集合进行降维,得到一降维数据集合Yl-1,接着获取该降维数据集合Yl-1对应的目标权重集合,以及获取第一数据集合对应的预选权重集合与该降维数据集合对应的目标权重集合的差值。然后在Wl-1的基础上获取预选映射矩阵Wl,根据该预选映射矩阵Wl对第一数据集合进行降维,得到一降维数据集合Yl,接着获取该降维数据集合Yl对应的目标权重集合,以及获取第一数据集合对应的预选权重集合与该降维数据集合对应的目标权重集合的差值。依次类推,直至得到的WL满足如下条件||WL-1-WL||2,根据该预选映射矩阵WL对第一数据集合进行降维,得到一降维数据集合YL,接着获取该降维数据集合YL对应的目标权重集合,以及获取第一数据集合对应的预选权重集合与该降维数据集合对应的目标权重集合的差值。最终得到L个差值,L个差值中最小的差值所对应的预选映射矩阵即为第一数据集合对应的映射矩阵。
上述获取第一数据集合对应的映射矩阵的过程还可如下:先获取L个预选映射矩阵,再对于每个预选映射矩阵,根据该预选映射矩阵对第一数据集合进行降维,得到一降维数据集合,接着获取该降维数据集合对应的目标权重集合,以及获取第一数据集合对应的预选权重集合与该降维数据集合对应的目标权重集合的差值;最终得到L个差值,L个差值中最小的差值所对应的预选映射矩阵即为第一数据集合对应的映射矩阵。
步骤S203:根据第一数据集合对应的映射矩阵,对第一数据集合进行降维处理,得到第二数据集合。
具体地,根据步骤S202获取的第一数据集合对应的映射矩阵W′,通过公式yi=W′Txi对第一数据集合进行降维处理,得到第二数据集合;yi为第二数据集合中的任意一个样本。
步骤S204:将第二数据集合发送至第一设备。
本申请实施例通过获取L个预选映射矩阵,根据L个预选映射矩阵获取L个降维数据集合,再根据L个降维数据集合获取对应的L个目标权重集合,将L个目标权重集合与第一数据集合对应的预选权重集合作比较,差值最小的目标权重集合对应的降维数据集合是与第一数据集合流形结构最相似的降维数据集合,该降维数据集合对应的预选映射矩阵即为第一数据集合对应的映射矩阵。根据该映射矩阵降维后的第二数据集合与第一数据集合的流形结构更相似,从而可以提高数据降维的准确率。
图3为本申请一实施例提供的数据处理装置的示意图。本实施例提供一种数据处理装置,该装置可以是计算机、平板电脑、笔记本电脑等智能设备的部分或者全部。如图3所示,该装置包括:
接收模块310,用于从第一设备接收D维的第一数据集合,D为大于2的整数。
获取模块320,用于获取L个预选映射矩阵,根据L个预选映射矩阵获取第一数据集合降维后的L个降维数据集合,L个预选映射矩阵分别与L个降维数据集合对应,并根据L个降维数据集合、L个预选映射矩阵和第一数据集合,从L个预选映射矩阵中获取第一数据集合对应的映射矩阵,L为大于1的整数。
降维模块330,用于根据第一数据集合对应的映射矩阵,对第一数据集合进行降维处理,得到第二数据集合。
发送模块340,用于将第二数据集合发送至第一设备。
可选地,所述获取模块320,还用于对于第一数据集合中的任意一个第一样本,根据第一样本的邻域,获取K个权重集合,并从K个权重集合中确定第一样本对应的第一权重集合,K个权重集合中的权重集合中包括第一样本与第一样本的邻域中的样本之间的权重,K为大于1的整数;以及用于根据第一数据集合中的各样本各自对应的权重集合,获取第一数据集合对应的预选权重集合。
可选地,获取模块320具体用于:对于L个降维数据集合中的任意一个第一降维数据集合:根据第一降维数据集合,获取M个权重集合,并根据第一降维数据集合对应的第一预选映射矩阵和第一数据集合,从M个权重集合中确定第一降维数据集合对应的第一目标权重集合,M个权重集合中的任意一个权重集合中包括第一降维数据集合中的任意一个第一降维样本与所述第一降维样本的邻域之间的权重,M为大于1的整数;根据L个降维数据集合各自对应的目标权重集合和预选权重集合,从L个预选映射矩阵中确定第一数据集合对应的映射矩阵。
可选地,获取模块320具体用于:通过如下公式确定第一降维数据集合对应的第一目标权重集合:
其中,W为第一预选映射矩阵;WT为W的转置矩阵;xi为第一数据集合中的第i个样本;Ji(W)为第一降维数据集合中第i个样本降维后对应的样本的邻域;xj为第一数据集合中的第j个样本;qij为第一目标权重集合中的一个权重;和WTW=I为约束条件。
可选地,获取模块320具体用于:通过如下公式确定第一样本对应的映射矩阵:
minW′‖P-Q‖2
其中,P为预选权重集合,Q为L个降维数据集合各自对应的目标权重集合中的一个权重集合。
本申请实施例提供的数据处理装置,具体可以用于执行上述数据处理方法,其实现原理和效果可参考方法实施例部分,对此不再赘述。
图4为本申请一实施例提供的数据处理设备的示意图。如图4所示,本申请一实施例提供的数据处理设备包括:
存储器410,用于存储计算机可执行指令。
处理器420,用于执行存储器中存储的计算机可执行指令实现上述的数据处理方法。
本申请实施例提供的数据处理设备,具体可以用于执行上述数据处理方法,其实现原理和效果可参考方法实施例部分,对此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一数据处理方法。
本申请实施例还提供一种计算机程序产品,该程序产品包括计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一数据处理方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的计算机程序可以存储于一计算机可读取存储介质中。该计算机程序在被处理器执行时,实现包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
从第一设备接收D维的第一数据集合,D为大于2的整数;
获取L个预选映射矩阵,根据所述L个预选映射矩阵获取所述第一数据集合降维后的L个降维数据集合,L个预选映射矩阵分别与L个降维数据集合对应,并根据所述L个降维数据集合、所述L个预选映射矩阵和所述第一数据集合,从所述L个预选映射矩阵中获取所述第一数据集合对应的映射矩阵,L为大于1的整数;
根据所述第一数据集合对应的映射矩阵,对所述第一数据集合进行降维处理,得到第二数据集合;
将所述第二数据集合发送至所述第一设备。
2.根据权利要求1所述的方法,其特征在于,还包括:
对于所述第一数据集合中的任意一个第一样本,根据所述第一样本的邻域,获取K个权重集合,并从所述K个权重集合中确定所述第一样本对应的第一权重集合,所述K个权重集合中的权重集合中包括所述第一样本与所述第一样本的邻域中的样本之间的权重,K为大于1的整数;
根据所述第一数据集合中的各样本各自对应的权重集合,获取所述第一数据集合对应的预选权重集合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述L个降维数据集合、所述L个预选映射矩阵和所述第一数据集合,从所述L个预选映射矩阵中获取所述第一数据集合对应的映射矩阵,包括:
对于所述L个降维数据集合中的任意一个第一降维数据集合:根据所述第一降维数据集合,获取M个权重集合,并根据所述第一降维数据集合对应的第一预选映射矩阵和所述第一数据集合,从所述M个权重集合中确定所述第一降维数据集合对应的第一目标权重集合,所述M个权重集合中的任意一个权重集合中包括所述第一降维数据集合中的任意一个第一降维样本与所述第一降维样本的邻域之间的权重,M为大于1的整数;
根据所述L个降维数据集合各自对应的目标权重集合和所述预选权重集合,从所述L个预选映射矩阵中确定所述第一数据集合对应的映射矩阵。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一降维数据集合对应的第一预选映射矩阵和所述第一数据集合,从所述M个权重集合中确定所述第一降维数据集合对应的第一目标权重集合,包括:
通过如下公式确定所述第一降维数据集合对应的第一目标权重集合:
其中,W为所述第一预选映射矩阵;WT为W的转置矩阵;xi为所述第一数据集合中的第i个样本;Ji(W)为所述第一降维数据集合中所述第i个样本降维后对应的样本的邻域;xj为所述第一数据集合中的第j个样本;qij为所述第一目标权重集合中的一个权重;和WTW=I为约束条件。
5.根据权利要求3或4所述的方法,其特征在于,所述根据所述L个降维数据集合各自对应的目标权重集合和所述预选权重集合,从所述L个预选映射矩阵中确定第一样本对应的映射矩阵,包括:
通过如下公式确定所述第一样本对应的映射矩阵:
minw′‖P-Q‖2
其中,P为所述预选权重集合,Q为所述L个降维数据集合各自对应的目标权重集合中的一个权重集合。
6.一种数据处理装置,其特征在于,包括:
接收模块,用于从第一设备接收D维的第一数据集合,D为大于2的整数;
获取模块,用于获取L个预选映射矩阵,根据所述L个预选映射矩阵获取所述第一数据集合降维后的L个降维数据集合,L个预选映射矩阵分别与L个降维数据集合对应,并根据所述L个降维数据集合、所述L个预选映射矩阵和所述第一数据集合,从所述L个预选映射矩阵中获取所述第一数据集合对应的映射矩阵,L为大于1的整数;
降维模块,用于根据所述第一数据集合对应的映射矩阵,对所述第一数据集合进行降维处理,得到第二数据集合;
发送模块,用于将所述第二数据集合发送至所述第一设备。
7.根据权利要求6所述的装置,其特征在于,所述获取模块,还用于对于所述第一数据集合中的任意一个第一样本,根据所述第一样本的邻域,获取K个权重集合,并从所述K个权重集合中确定所述第一样本对应的第一权重集合,所述K个权重集合中的权重集合中包括所述第一样本与所述第一样本的邻域中的样本之间的权重,K为大于1的整数;以及
用于根据所述第一数据集合中的各样本各自对应的权重集合,获取所述第一数据集合对应的预选权重集合。
8.根据权利要求7所述的装置,其特征在于,所述获取模块具体用于:
对于所述L个降维数据集合中的任意一个第一降维数据集合:根据所述第一降维数据集合,获取M个权重集合,并根据所述第一降维数据集合对应的第一预选映射矩阵和所述第一数据集合,从所述M个权重集合中确定所述第一降维数据集合对应的第一目标权重集合,所述M个权重集合中的任意一个权重集合中包括所述第一降维数据集合中的任意一个第一降维样本与所述第一降维样本的邻域之间的权重,M为大于1的整数;以及
根据所述L个降维数据集合各自对应的目标权重集合和所述预选权重集合,从所述L个预选映射矩阵中确定所述第一数据集合对应的映射矩阵。
9.一种数据处理设备,其特征在于,包括:处理器和存储器;
所述存储器用于存储计算机可执行指令,以使所述处理器执行所述计算机可执行指令实现如权利要求1-5任一项所述的数据处理方法。
10.一种计算机存储介质,其特征在于,包括:计算机可执行指令,所述计算机可执行指令用于实现如权利要求1-5任一项所述的数据处理方法。
CN201910183535.XA 2019-03-12 2019-03-12 数据处理方法、装置、设备及存储介质 Active CN109885578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910183535.XA CN109885578B (zh) 2019-03-12 2019-03-12 数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910183535.XA CN109885578B (zh) 2019-03-12 2019-03-12 数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109885578A true CN109885578A (zh) 2019-06-14
CN109885578B CN109885578B (zh) 2021-08-13

Family

ID=66931887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910183535.XA Active CN109885578B (zh) 2019-03-12 2019-03-12 数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109885578B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005050197A (ja) * 2003-07-30 2005-02-24 Internatl Business Mach Corp <Ibm> コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン
CN102737237A (zh) * 2012-07-18 2012-10-17 山东师范大学 基于局部关联保持的人脸图像降维方法
CN103632164A (zh) * 2013-11-25 2014-03-12 西北工业大学 基于kap样本优化的knn卷钢图片数据的卷刚状态分类识别方法
CN104462818A (zh) * 2014-12-08 2015-03-25 天津大学 一种基于Fisher准则的嵌入流形回归模型
CN105138973A (zh) * 2015-08-11 2015-12-09 北京天诚盛业科技有限公司 人脸认证的方法和装置
CN107871139A (zh) * 2017-11-01 2018-04-03 西安交通大学 一种邻域保持嵌入改进算法的数据降维方法
CN108228823A (zh) * 2017-12-29 2018-06-29 中国电子科技集团公司信息科学研究院 一种高维图像数据降维的二值编码方法及系统
CN109189776A (zh) * 2018-10-24 2019-01-11 广东电网有限责任公司 一种数据降维方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005050197A (ja) * 2003-07-30 2005-02-24 Internatl Business Mach Corp <Ibm> コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン
CN102737237A (zh) * 2012-07-18 2012-10-17 山东师范大学 基于局部关联保持的人脸图像降维方法
CN103632164A (zh) * 2013-11-25 2014-03-12 西北工业大学 基于kap样本优化的knn卷钢图片数据的卷刚状态分类识别方法
CN104462818A (zh) * 2014-12-08 2015-03-25 天津大学 一种基于Fisher准则的嵌入流形回归模型
CN105138973A (zh) * 2015-08-11 2015-12-09 北京天诚盛业科技有限公司 人脸认证的方法和装置
CN107871139A (zh) * 2017-11-01 2018-04-03 西安交通大学 一种邻域保持嵌入改进算法的数据降维方法
CN108228823A (zh) * 2017-12-29 2018-06-29 中国电子科技集团公司信息科学研究院 一种高维图像数据降维的二值编码方法及系统
CN109189776A (zh) * 2018-10-24 2019-01-11 广东电网有限责任公司 一种数据降维方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAO YAO 等: "Local Regression and Global Information-Embedded Dimension Reduction", 《 IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
LEI GUO 等: "Unsupervised Nonlinear Dimensionality Reduction Based on Tensor Tangent Space Alignment", 《THIRD INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION (ICNC 2007)》 *

Also Published As

Publication number Publication date
CN109885578B (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
US10650042B2 (en) Image retrieval with deep local feature descriptors and attention-based keypoint descriptors
Coates et al. Selecting receptive fields in deep networks
WO2018227800A1 (zh) 一种神经网络训练方法及装置
CN106127297B (zh) 基于张量分解的深度卷积神经网络的加速与压缩方法
CA2913743C (en) Systems and methods for performing bayesian optimization
WO2019213459A1 (en) System and method for generating image landmarks
CN109154988A (zh) 级联卷积神经网络
US20170083754A1 (en) Methods and Systems for Verifying Face Images Based on Canonical Images
JP2019032808A (ja) 機械学習方法および装置
Javdani et al. Modeling and perception of deformable one-dimensional objects
CN110163813A (zh) 一种图像去雨方法、装置、可读存储介质及终端设备
CN105981050A (zh) 用于从人脸图像的数据提取人脸特征的方法和系统
CN113191390B (zh) 一种图像分类模型的构建方法、图像分类方法及存储介质
CN110389866A (zh) 磁盘故障预测方法、装置、计算机设备及计算机存储介质
CN106779055B (zh) 图像特征提取方法和装置
CN111783713A (zh) 基于关系原型网络的弱监督时序行为定位方法及装置
CN107871103A (zh) 一种人脸认证方法和装置
CN113095254A (zh) 一种人体部位关键点的定位方法及系统
CN108229536A (zh) 分类预测模型的优化方法、装置及终端设备
CN111310821A (zh) 多视图特征融合方法、系统、计算机设备及存储介质
CN104103042B (zh) 一种基于局部相似性和局部选择的非凸压缩感知图像重构方法
WO2016095068A1 (en) Pedestrian detection apparatus and method
CN109948575A (zh) 超声图像中眼球区域分割方法
CN104331711B (zh) 基于多尺度模糊测度与半监督学习的sar图像识别方法
CN109359542A (zh) 基于神经网络的车辆损伤级别的确定方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant