CN113780324A - 数据处理方法、装置、电子设备及存储介质 - Google Patents

数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113780324A
CN113780324A CN202110191245.7A CN202110191245A CN113780324A CN 113780324 A CN113780324 A CN 113780324A CN 202110191245 A CN202110191245 A CN 202110191245A CN 113780324 A CN113780324 A CN 113780324A
Authority
CN
China
Prior art keywords
dimensional data
feature
weight matrix
features
feature subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110191245.7A
Other languages
English (en)
Inventor
祖辰
杨立军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110191245.7A priority Critical patent/CN113780324A/zh
Publication of CN113780324A publication Critical patent/CN113780324A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种数据处理方法、装置、电子设备及存储介质。该方法包括:获取高维数据、待选取特征数量、第一目标权重矩阵和第二目标权重矩阵,所述高维数据包括多个特征;从所述高维数据中选取第一特征子集,所述第一特征子集包括所述待选取特征数量个特征;根据所述高维数据、所述第一特征子集、第一目标权重矩阵和所述第二目标权重矩阵,确定所述高维数据中各个特征的得分;根据所述高维数据中各个特征的得分,从所述高维数据中选取第二特征子集,所述第二特征子集包括所述待选取特征数量个特征;将所述第二特征子集确定为目标特征子集。该方法可以该方法可以提高数据处理的准确率,节约计算机资源,提高数据处理效率。

Description

数据处理方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
在对高维数据进行分类时,因高数数据中具有大量并不相关且冗余的特征,会导致非常高的计算成本,并且降低分类正确率或者聚类准确率等任务的性能。
相关技术中,以暴力计算方式计算每个特征子集的得分,通常需要付出高额的计算成本;将单个高维数据作为向量,即通过连续地将其所有行或者列向量串联起来,将高维数据转换为一个长向量,会因为样本矩阵的维度将远远大于样本个数而陷入维数灾难,增加算法的时间和空间成本,计算资源耗费巨大且处理效率较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据处理方法、装置、电子设备及存储介质,该方法可以提高数据处理的准确率,节约计算机资源,提高数据处理效率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供一种数据处理方法,包括:获取高维数据、待选取特征数量、第一目标权重矩阵和第二目标权重矩阵,所述高维数据包括多个特征;从所述高维数据中选取第一特征子集,所述第一特征子集包括所述待选取特征数量个特征;根据所述高维数据、所述第一特征子集、第一目标权重矩阵和所述第二目标权重矩阵,确定所述高维数据中各个特征的得分;根据所述高维数据中各个特征的得分,从所述高维数据中选取第二特征子集,所述第二特征子集包括所述待选取特征数量个特征;将所述第二特征子集确定为目标特征子集。
在本公开一些示例性实施例中,将所述第二特征子集确定为目标特征子集,包括:根据所述高维数据、所述第二特征子集、所述第一目标权重矩阵和所述第二目标权重矩阵,重新确定所述高维数据中各个特征的得分;根据重新确定的所述高维数据中各个特征的得分,从所述高维数据中选取第三特征子集,所述第三特征子集包括所述待选取特征数量个特征;将所述第三特征子集确定为所述目标特征子集。
在本公开一些示例性实施例中,根据所述高维数据、所述第一特征子集、第一目标权重矩阵和所述第二目标权重矩阵,确定所述高维数据中各个特征的得分,包括:根据所述高维数据和所述第一特征子集,确定第一特征选择矩阵;根据所述第一目标权重矩阵、所述第二目标权重矩阵和所述第一特征选择矩阵,确定所述第一特征子集的得分:根据所述第一特征选择矩阵,确定所述高维数据中各个特征对应的特征选择向量;根据所述第一目标权重矩阵、所述第二目标权重矩阵、所述高维数据中各个特征对应的特征选择向量和所述第一特征子集的得分,确定所述高维数据中各个特征的得分。
在本公开一些示例性实施例中,根据所述第一目标权重矩阵、所述第二目标权重矩阵和所述第一特征选择矩阵,确定所述第一特征子集的得分,包括:根据所述第一目标权重矩阵和所述第一特征选择矩阵,确定第一评分矩阵;根据所述第二目标权重矩阵和所述第二特征选择矩阵,确定第二评分矩阵;将所述第一评分矩阵的迹和所述第二评分矩阵的迹的比值确定为所述第一特征子集的得分。
在本公开一些示例性实施例中,上述方法还包括:获取包括多个训练高维数据及其类别标签的高维数据训练集;根据所述多个训练高维数据及其类别标签确定第一权重矩阵和第二权重矩阵;根据所述多个训练高维数据及所述第一权重矩阵确定所述第一目标权重矩阵;根据所述多个训练高维数据及所述第二权重矩阵确定所述第二目标权重矩阵。
在本公开一些示例性实施例中,根据所述高维数据中各个特征的得分,从所述高维数据中选取第二特征子集,包括:根据所述高维数据中各个特征的得分,从高到低选取所述待选取特征数据个特征作为所述第二特征子集。
在本公开一些示例性实施例中,所述高维数据包括图像,所述方法还包括:对所述目标特征子集进行处理,获得所述图像对应的目标类别。
本公开实施例提供一种数据处理装置,包括:数据获取模块,用于获取高维数据、待选取特征数量、第一目标权重矩阵和第二目标权重矩阵,所述高维数据包括多个特征;第一特征子集选取模块,用于从所述高维数据中选取第一特征子集,所述第一特征子集包括所述待选取特征数量个特征;得分确定模块,用于根据所述高维数据、所述第一特征子集、第一目标权重矩阵和所述第二目标权重矩阵,确定所述高维数据中各个特征的得分;第二特征子集选取模块,用于根据所述高维数据中各个特征的得分,从所述高维数据中选取第二特征子集,所述第二特征子集包括所述待选取特征数量个特征;目标特征子集确定模块,用于将所述第二特征子集确定为目标特征子集。
本公开实施例提供一种电子设备,包括:至少一个处理器;存储装置,用于存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如上述任一种数据处理方法。
本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一种数据处理方法。
本公开一些实施例提供的数据处理方法,根据高维数据、第一目标权重矩阵和所述第二目标权重矩阵,确定高维数据中各个特征的得分;根据高维数据中各个特征的得分,从高维数据中选取待选取特征数量个特征,不断迭代,可以获得全局最优的目标特征子集,可以去除高维数据中冗余的特征,提高数据处理的准确率;目标特征子集相对于高维数据维数较少,在后续对目标特征子集的处理过程中可以节约计算机资源,提高数据处理效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的数据处理方法的示例性系统架构的示意图。
图2是根据一示例性实施方式示出的一种数据处理方法的流程图。
图3是根据一示例性实施方式示出的另一种数据处理方法的流程图。
图4是根据一示例性实施方式示出的再一种数据处理方法的流程图。
图5是根据一示例性实施方式示出的再一种数据处理方法的流程图。
图6是根据一示例性实施方式示出的一种数据处理装置的框图。
图7是根据一示例性实施方式示出的一种电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本公开实施例的数据处理方法的示例性系统架构的示意图。
如图1所示,该系统架构可以包括服务器101、网络102和客户端103。网络102用以在客户端103和服务器101之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
服务器101可以是提供各种服务的服务器,例如对用户利用客户端103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给客户端103。
客户端103可以是手机、游戏主机、平板电脑、电子书阅读器、智能眼镜、智能家居设备、AR(Augmented Reality,增强现实)设备、VR(Virtual Reality,虚拟现实)设备等移动终端,或者,客户端103也可以是个人计算机,比如膝上型便携计算机和台式计算机等等。
客户端103例如可以获取用户的面部图像,客户端103可以将用户的面部图像发送至服务器101。
服务器101例如可以获取用户的面部图像;服务器101例如可以对用户的面部图像进行特征提取处理,获得全局最优的目标特征子集;服务器101例如可以对目标特征子集进行处理,获得面部图像所属的目标对象。
其中,服务器101对用户的面部图像进行特征提取处理可以包括:服务器101可以获取面部图像、待选取特征数量、第一目标权重矩阵和第二目标权重矩阵;服务器101可以从高维数据中选取第一特征子集,第一特征子集包括待选取特征数量个特征;服务器101可以根据高维数据、第一特征子集、第一目标权重矩阵和第二目标权重矩阵,确定高维数据中各个特征的得分;服务器101可以根据高维数据中各个特征的得分,从高维数据中选取第二特征子集,第二特征子集包括待选取特征数量个特征;服务器101可以将第二特征子集确定为目标特征子集。
服务器101还可以对第二特征子集进行处理,获得全局最优的目标特征子集。
服务器101可以将识别出的目标对象返回至客户端103;客户端103可以对目标对象进行判断,例如,客户端103可以对目标对象和预先存储的用户进行匹配,若匹配通过,则可以为用户解锁。
应该理解,图1中的客户端、网络和服务器的数目仅仅是示意性的,服务器101可以是一个实体的服务器,还可以为多个服务器组成的服务器集群,还可以是云端服务器,根据实际需要,可以具有任意数目的终端设备、网络和服务器。
下面,将结合附图及实施例对本公开示例实施例中的数据处理方法的各个步骤进行更详细的说明。
图2是根据一示例性实施方式示出的一种数据处理方法的流程图。本公开实施例提供的方法可以由如图1所示的服务器中执行,但本公开并不限定于此。
如图2所示,本公开实施例提供的数据处理方法可以包括以下步骤。
在步骤S202中,获取高维数据、待选取特征数量、第一目标权重矩阵和第二目标权重矩阵,高维数据包括多个特征。
本公开实施例中,高维数据可以为图像数据、文本数据、声音数据和影像数据中的至少一种。例如,高维数据可以为面脸图像、语音资料、录音或录像资料等。
在示例性实施例中,高维数据可以包括图像。
其中,图像可以包括面部图像、风景图像、建筑图像、车辆图像、动植物图像等等,面部图像可以包括人脸图像、动物面部图像等。
下面以高维数据为人脸图像为例进行说明,但本公开并不限定于此。
本公开实施例中,人脸图像的图像大小可以为m×n,其中,m可以表示图像的高,n可以表示图像的宽。人脸图像可以包括n个特征,其n个特征可以表示为{F1,F2,...,Fn}。
本公开实施例中,待选取特征数量可以为h,其中,n>h。待选取特征数量可以根据实际情况设置,本公开对此不做限制。
本公开实施例提供的数据处理方法,目的是为了从包括n个特征的高维数据中选取出h个最有效的特征,从而提高分类正确率或者聚类准确率,减少任务在时间和空间上的耗费。
本公开实施例中,第一目标权重矩阵可以同B来表示,第二目标权重矩阵可以用E来表示。第一目标权重矩阵和第二目标权重矩阵可以根据实际情况设置,也可以根据高维数据训练集训练获得,本公开对此不做限制。
例如,第一目标权重矩阵可以根据第一权重矩阵确定,第二目标权重矩阵可以根据第二权重矩阵确定。其中,第一权重矩阵可以用于描述相同类别或者局部相关关系,第二权重矩阵可以用于描述不同类别之间或者全局相关关系。
在步骤S204中,从高维数据中选取第一特征子集,第一特征子集包括待选取特征数量个特征。
仍以上述人脸图像为例,其n个特征可以表示为{F1,F2,...,Fn}。人脸图像的一个特征子集可以表示为φ(I)={FI(1),FI(2),...,FI(h)}。其中,I可以为集合{1,2,...,n}中所有元素的一个排列,例如,I可以为从集合{1,2,...,n}这n个元素中取出h个元素的一个排列。
本公开实施例提供的数据处理方法,目的是为了从高维数据中选取出全局最优的特征子集作为目标特征子集。
本公开实施例中,可以初始化特征子集,获得第一特征子集。
例如,可以从高维数据的n个特征中随机选取h个特征作为第一特征子集。
本公开实施例中,也可以确定分别高维数据中的n个特征的得分,选取得分较高的h个特征作为第一特征子集。
本公开实施例中,高维数据可以为2D图像数据,本公开实施例提供的数据处理方法是对2D图像数据进行处理,无需将2D图像数据转换为1D长向量再进行计算,避免了高维数据的固有空间结构信息的损失,节约了计算机资源,提高了数据处理效率。
在步骤S206中,根据高维数据、第一特征子集、第一目标权重矩阵和第二目标权重矩阵,确定高维数据中各个特征的得分。
本公开实施例中,可以根据高维数据和第一特征子集的对应关系,确定第一特征选择矩阵;根据第一特征选择矩阵、第一目标权重矩阵和第二目标权重矩阵,分别确定高维数据中n个特征的得分。
本公开实施例中,可以基于全局迹比准则确定高维数据中各个特征的得分。例如,可以根据第一特征子集确定第一特征选择矩阵;可以根据第一目标权重矩阵和第一特征选择矩阵,确定第一评分矩阵;根据第二目标权重矩阵和第二特征选择矩阵,确定第二评分矩阵;根据第一评分矩阵的迹和第二评分矩阵的迹的比值,确定高维数据中各个特征的得分。
在步骤S208中,根据高维数据中各个特征的得分,从高维数据中选取第二特征子集,第二特征子集包括待选取特征数量个特征。
在示例性实施例中,根据高维数据中各个特征的得分,从高到低选取待选取特征数据个特征作为第二特征子集。
本公开实施例中,可以将高维数据中n个特征的得分从高到低排列,从高维数据的n个特征中选取得分较高的h个特征作为第二特征子集。
在步骤S210中,将第二特征子集确定为目标特征子集。
本公开实施例中,可以将第二特征子集直接确定为目标特征子集;也可以对第二特征子集继续进行迭代处理,直至获得全局最优的特征子集,将全局最优的特征子集作为目标特征子集。
其中,上述对第二特征子集继续进行迭代处理可以包括:根据高维数据、第二特征子集、第一目标权重矩阵和第二目标权重矩阵,重新确定高维数据中n个特征的得分;根据重新确定的高维数据中n个特征的得分,从高维数据的n个特征中选取得分较高的h个特征作为第三特征子集;根据高维数据、第三特征子集、第一目标权重矩阵和第二目标权重矩阵,重新确定高维数据中n个特征的得分;根据重新确定的高维数据中n个特征的得分,从高维数据的n个特征中选取得分较高的h个特征作为第四特征子集;以此类推,直至选取出全局最优的特征子集作为目标特征子集;或者,直至选取出满足预设条件的特征子集作为目标特征子集。其中,预设条件可以根据实际情况设置。
在示例性实施例中,上述方法还可以包括:对目标特征子集进行处理,获得图像对应的目标类别。
其中,图像可以为面部图像,面部图像可以包括人脸图像;目标类别可以为面部图像所属的目标对象,目标对象例如可以为人、动物等。
本公开实施例中,以图像为人脸图像为例、目标类别为人脸图像对应的用户为例进行说明,但本公开并不限定于此。
本公开实施例提供的数据处理方法可以应用于面部识别领域。
例如,用户在使用终端设备之前,终端设备可以通过获取用户的面部图像对用户进行验证,终端设备可以将面部图像发送至服务器,服务器可以通过上述方法对面部图像进行特征提取,即降维处理,获得目标特征子集;服务器可以对目标特征子集进行分类,获得面部图像所属的目标对象,其中,目标对象可以为用户。服务器或终端设备可以判断获得的面部图像所属的用户和使用终端设备的用户是否匹配,若匹配,则可以确定使用终端设备的用户通过验证。
本公开实施例中,使用了AT&T人脸数据库来进行验证。其中,可以选择AT&T人脸数据库中40个不同的人,每个人选取10个不同的图像。数据库中的每幅图像大小为112×92,灰度等级为256。为了节省计算时间,每幅图像可以下采样到28×23的大小,并且不进行任何预处理。每组随机抽取2、4个样本进行训练,其余样本进行测试。
表1 AT&T数据集上各算法的性能
Figure BDA0002944209680000091
从表1可以看出,本公开实施例提出方法的结果在准确性和稳定性方面优于LDA(Linear Discriminant Analysis,线性判别分析)、NLDA(Null-space LinearDiscriminant Analysis,零空间线性判别分析)、DLDA(Direct Linear DiscriminantAnalysis,直接线性判别分析)。与2DLDA(二维线性判别分析)相比,本公开实施例提出方法在训练次数很小时表现出更好的性能。
本公开实施例提供的数据处理方法,根据高维数据、第一目标权重矩阵和所述第二目标权重矩阵,确定高维数据中各个特征的得分;根据高维数据中各个特征的得分,从高维数据中选取待选取特征数量个特征,不断迭代,可以获得全局最优的目标特征子集,可以去除高维数据中冗余的特征,提高数据处理的准确率;目标特征子集相对于高维数据维数较少,在后续对目标特征子集的处理过程中可以节约计算机资源,提高数据处理效率。
图3是根据一示例性实施方式示出的另一种数据处理方法的流程图。
本公开实施例中,在图2所示的数据处理方法的基础上,图3所示的数据处理方法进一步提供了如何将第二特征子集确定为目标特征子集,也即提供了上述步骤S210的一种实施例。
图3所示的数据处理方法可以包括以下步骤。
在步骤S202中,获取高维数据、待选取特征数量、第一目标权重矩阵和第二目标权重矩阵,高维数据包括多个特征。
在步骤S204中,从高维数据中选取第一特征子集,第一特征子集包括待选取特征数量个特征。
在步骤S206中,根据高维数据、第一特征子集、第一目标权重矩阵和第二目标权重矩阵,确定高维数据中各个特征的得分。
在步骤S208中,根据高维数据中各个特征的得分,从高维数据中选取第二特征子集,第二特征子集包括待选取特征数量个特征。
图3所示的数据处理方法中的步骤S202~步骤S208可以参照图2所示的数据处理方法中的步骤S202~步骤S208的描述,本公开在此不再赘述。
在步骤S302中,根据高维数据、第二特征子集、第一目标权重矩阵和第二目标权重矩阵,重新确定高维数据中各个特征的得分。
本公开实施例中,可以根据高维数据和第二特征子集的对应关系,确定第二特征选择矩阵;根据第二特征选择矩阵、第一目标权重矩阵和第二目标权重矩阵,分别重新确定高维数据中n个特征的得分。
在步骤S304中,根据重新确定的高维数据中各个特征的得分,从高维数据中选取第三特征子集,第三特征子集包括待选取特征数量个特征。
在示例性实施例中,根据高维数据中各个特征的得分,从高到低选取待选取特征数据个特征作为第三特征子集。
本公开实施例中,可以将高维数据中n个特征的得分从高到低排列,从高维数据的n个特征中选取得分较高的h个特征作为第三特征子集。
在步骤S306中,将第三特征子集确定为目标特征子集。
本公开实施例中,可以将第三特征子集直接确定为目标特征子集;也可以对第三特征子集继续进行迭代处理,直至获得全局最优的特征子集,将全局最优的特征子集作为目标特征子集。
图4是根据一示例性实施方式示出的再一种数据处理方法的流程图。
本公开实施例中,在图2所示的数据处理方法的基础上,图4所示的数据处理方法进一步提供了如何根据高维数据、第一特征子集、第一目标权重矩阵和第二目标权重矩阵,确定高维数据中各个特征的得分,也即提供了上述步骤S206的一种实施例。
图4所示的数据处理方法可以包括以下步骤。
在步骤S402中,根据高维数据和第一特征子集,确定第一特征选择矩阵。
本公开实施例中,高维数据的n个特征可以表示为{F1,F2,...,Fn},其中一个特征子集可以表示为φ(I)={FI(1),FI(2),...,FI(h)},特征选择矩阵可以表示为
Figure BDA0002944209680000111
特征选择矩阵中列向量
Figure BDA0002944209680000112
可以为:
wi=[0,...,0,1,0,...,0]T (1)
其中,wi中第i位置上元素为1,其余元素均为0。
本公开实施例中,根据高维数据和其中一个特征子集的对应关系,可以确定出与该特征子集对应的特征选择矩阵。
例如,根据高维数据和第一特征子集的对应关系,可以确定出第一特征选择矩阵;根据高维数据和第二特征子集的对应关系,可以确定出第二特征选择矩阵;……;根据高维数据和第k特征子集的对应关系,可以确定出第k特征选择矩阵。
其中,第一特征子集可以用φ(I1)表示,第一特征选择矩阵可以用
Figure BDA0002944209680000113
表示,类似地,任意一个特征子集可以用φ(Ik)表示,与特征子集对应的特征选择矩阵可以用
Figure BDA0002944209680000121
表示。
在步骤S404中,根据第一目标权重矩阵、第二目标权重矩阵和第一特征选择矩阵,确定第一特征子集的得分。
本公开实施例中,可以第一目标权重矩阵、第二目标权重矩阵和一个特征选择矩阵,确定与特征选择矩阵对应的特征子集的得分。
例如,可以根据第一目标权重矩阵、第二目标权重矩阵和第一特征选择矩阵,确定第一特征子集的得分;可以根据第一目标权重矩阵、第二目标权重矩阵和第二特征选择矩阵,确定第二特征子集的得分;……;可以根据第一目标权重矩阵、第二目标权重矩阵和第k特征选择矩阵,确定第k特征子集的得分。
例如,对于任意一个特征子集φ(Ik),该特征子集的得分λk可以通过以下公式计算得到:
Figure BDA0002944209680000122
其中,B表示第一目标权重矩阵,E表示第二目标权重矩阵,
Figure BDA0002944209680000123
表示第k特征选择矩阵。
在示例性实施例中,可以根据第一目标权重矩阵和第一特征选择矩阵,确定第一评分矩阵;根据第二目标权重矩阵和第二特征选择矩阵,确定第二评分矩阵;将第一评分矩阵的迹和第二评分矩阵的迹的比值确定为第一特征子集的得分。
例如,可以根据第一目标权重矩阵B和第一特征选择矩阵
Figure BDA0002944209680000124
确定第一评分矩阵
Figure BDA0002944209680000125
可以根据第二目标权重矩阵E和第一特征选择矩阵
Figure BDA0002944209680000126
确定第一评分矩阵
Figure BDA0002944209680000127
可以将第一评分矩阵
Figure BDA0002944209680000128
的迹和第二评分矩阵
Figure BDA0002944209680000129
的迹的比值确定为第一特征子集的得分。
在步骤S406中,根据第一特征选择矩阵,确定高维数据中各个特征对应的特征选择向量。
本公开实施例中,特征选择矩阵可以为
Figure BDA0002944209680000131
Figure BDA0002944209680000132
特征选择矩阵中列向量
Figure BDA0002944209680000133
可以为高维数据中各个特征对应的特征选择向量,其中,wi=[0,...,0,1,0,...,0]T。
在步骤S406中,根据第一目标权重矩阵、第二目标权重矩阵、高维数据中各个特征对应的特征选择向量和第一特征子集的得分,确定高维数据中各个特征的得分。
本公开实施例中,可以根据第一目标权重矩阵、第二目标权重矩阵、高维数据中各个特征对应的特征选择向量和一个特征子集的得分,确定高维数据中各个特征的得分。
例如,可以根据第一目标权重矩阵、第二目标权重矩阵、高维数据中各个特征对应的特征选择向量和第一特征子集的得分,确定高维数据中各个特征的得分;可以根据第一目标权重矩阵、第二目标权重矩阵、高维数据中各个特征对应的特征选择向量和第二特征子集的得分,确定高维数据中各个特征的得分;……;可以根据第一目标权重矩阵、第二目标权重矩阵、高维数据中各个特征对应的特征选择向量和第k特征子集的得分,确定高维数据中各个特征的得分。
本公开实施例中,可以通过以下公式确定一个特征子集的得分:
Figure BDA0002944209680000134
其中,一个特征子集的得分可以用score(φ(I))表示,也可以用λ表示。
特征选择的任务可以是通过解决以下优化问题来寻找得分最高的特征子集:
Figure BDA0002944209680000135
相关技术中,基于公式(3),可以根据以下公式确定高维数据中第i个特征的得分:
Figure BDA0002944209680000136
本公开实施例中,可以通过下述方法确定高维数据中第i个特征的得分,从而得到特征子集得分的全局最优解。
例如,可以假设当
Figure BDA0002944209680000141
时,公式(3)达到全局最大值λ*:
Figure BDA0002944209680000142
可以看出,对于任意的WI,公式(3)的值总小于等于λ*:
Figure BDA0002944209680000143
通过上式可以得到:
Figure BDA0002944209680000144
可以以λ为自变量构造函数f(λ)=maxφ(I)tr(WIT(B-λE)WI),则当且仅当λ=λ*时函数f(λ*)=0。
本公开实施例中,可以根据以下公式对高维数据中第i个特征的重要性进行评价:
Figure BDA0002944209680000145
其中,score2(Fi)表示第i个特征Fi的得分,λ表示一个特征子集的得分,可以通过公式(2)获得。
函数f(λ)可以改写为
Figure BDA0002944209680000146
即,f(λ)可以表示前h个score2得分最高的特征的得分之和。
对于任意一个特征子集λk,函数f(λ)可以表示为:
Figure BDA0002944209680000147
在函数f(λk)中,WI并不是固定的,因此在点λk处函数f(λk)的斜率为:
Figure BDA0002944209680000148
对上式进行一阶泰勒展开得到:
Figure BDA0002944209680000151
令g(λk+1)=0得到:
Figure BDA0002944209680000152
由于g(λ)可以近似的表示f(λ),公式(7)中的λk+1近似为函数f(λ)=0时的根,通过对λk+1的不断迭代即可以找到最终的λ使得f(λ)=0的全局最优解。
本公开实施例中,可以将第一目标权重矩阵B、第二目标权重矩阵E、高维数据中各个特征对应的特征选择向量wi和第一特征子集的得分λ1代入公式(9)确定高维数据中各个特征的得分,选取得分较高的h个特征作为第二特征子集;根据第二特征子集可以确定第二特征选择矩阵;将第二特征选择矩阵、第一目标权重矩阵B和第二目标权重矩阵E代入公式(13)可以获得第二特征子集的得分λ2;可以将第一目标权重矩阵B、第二目标权重矩阵E、第二特征选择矩阵对应的特征选择向量和第二特征子集的得分λ2代入公式(9)确定高维数据中各个特征的得分,选取得分较高的h个特征作为第三特征子集;……;以此类推,直至算法收敛,可以获得第k特征子集,将第k特征子集作为目标特征子集
Figure BDA0002944209680000153
Figure BDA0002944209680000154
其中,算法收敛的判断依据可以为,第k-1特征子集与第k特征子集相同,或者,第k-1特征子集与第k特征子集的差别小于预设阈值。
上述算法过程可以参见表2。
表2
Figure BDA0002944209680000155
Figure BDA0002944209680000161
图5是根据一示例性实施方式示出的另一种数据处理方法的流程图。
本公开实施例中,在图2所示的数据处理方法的基础上,图5所示的数据处理方法还可以包括以下步骤。
本公开实施例中,图5所示的方法可以用于确定第一目标权重矩阵和第二目标权重矩阵。
在步骤S502中,获取包括多个训练高维数据及其类别标签的高维数据训练集。
本公开实施例中,训练高维数据可以为图像数据、文本数据、声音数据和影像数据中的至少一种。
在示例性实施例中,训练高维数据可以包括图像。
其中,图像可以包括面部图像,面部图像可以包括人脸图像、动物面部图像等。
下面以训练高维数据为人脸图像为例进行说明,但本公开并不限定于此。
本公开实施例中,训练高维数据可以为N个大小为m×n的人脸图像,其中第i个人脸图像样本表示为
Figure BDA0002944209680000162
训练高维数据的类别标签可以为人脸图像所属的人物。
在步骤S504中,根据多个训练高维数据及其类别标签确定第一权重矩阵和第二权重矩阵。
图是一种自然而有效的对数据间关系进行编码的方法,可以应用于机器学习任务中,例如聚类流形学习,半监督学习和子空间学习。
为了进行特征选择任务,本公开实施例基于给定的数据构造无向加权图
Figure BDA0002944209680000163
Figure BDA0002944209680000164
其中,图
Figure BDA0002944209680000165
用于描述相同类别或者局部相关关系,图
Figure BDA0002944209680000166
用于描述不同类别之间或者数据的全局相关关系。图
Figure BDA0002944209680000167
Figure BDA0002944209680000168
可以分别用第一权重矩阵Ab和第二权重矩阵Aw进行刻画。
本公开实施例中,可以根据Fisher score(有监督特征选择算法)或Laplacianscore(无监督特征选择算法)来确定第一权重矩阵Ab和第二权重矩阵Aw。
特征选择是处理高维数据的方法之一,根据利用分类标签信息的方式,特征选择算法大致可分为无监督特征选择、半监督特征选择和有监督特征选择三类。这些特征选择算法也可以划分为包裹式和过滤式特征选择方法,具体来说包裹式特征选择方法是依赖于分类器的,并且特征子集是根据特定分类器的性能直接选择的,而过滤式特征选择算法与分类器无关,可以根据预先明确定义的标准选择特征子集。
Fisher score和Laplacian score是两种用于特征选择的过滤式方法,它们都属于基于图的常特征选择框架。在此框架中基于整个特征子集的得分选择特征子集,并通过迹比的形式计算最终的特征得分。
其中,在Fisher score算法中,第一权重矩阵Ab和第二权重矩阵Aw可以根据以下公式确定:
Figure BDA0002944209680000171
Figure BDA0002944209680000172
其中,c(i)表示样本点Gi的类别标签,ni表示第i个类别数据的样本总数。
在Laplacian score算法中,第一权重矩阵Ab和第二权重矩阵Aw可以根据以下公式确定:
Figure BDA0002944209680000173
Figure BDA0002944209680000174
其中,xi和xj可以根据特征选择矩阵WI和图像样本Gi、Gj确定:xi=GiWI,xj=GjWI。
Fisher score是一种有监督算法,可以利用标签信息来构建第一权重矩阵Ab和第二权重矩阵Aw;Laplacian score是一种无监督算法,不使用标签信息而采用样本空间结构关系来构建第一权重矩阵Ab和第二权重矩阵Aw。
在步骤S506中,根据多个训练高维数据及第一权重矩阵确定第一目标权重矩阵。
本公开实施例中,可以根据N各训练高维数据
Figure BDA0002944209680000181
及第一权重矩阵Ab确定第一目标权重矩阵B。
在步骤S508中,根据多个训练高维数据及第二权重矩阵确定第二目标权重矩阵。
本公开实施例中,可以根据N各训练高维数据
Figure BDA0002944209680000182
及第二权重矩阵Aw确定第二目标权重矩阵E。
本公开实施例中,当样本Gi和样本Gj归属为同一类别或者在原始样本空间中距离较近时,为了反映类间或者数据局部相关关系,可以将第二权重矩阵Aw中第i行第j列位置的元素
Figure BDA0002944209680000183
的值应相对较大,反之,该值则应相对较小。因此应该选择那些使式子
Figure BDA0002944209680000184
的值尽量小的特征子集。
本公开实施例中,为了反映不同类别之间或者数据的全局相关关系,当样本Gi和样本Gj归属为不同类别或者在原始样本空间中距离较远时,第一权重矩阵Ab中第i行第j列位置的元素
Figure BDA0002944209680000185
的值可以相对较大,反之该值则应相对较小。因此应该选择那些使式子
Figure BDA0002944209680000186
的值尽量大的特征子集。
可以构建以下目标公式来同时满足上述两项要求:
Figure BDA0002944209680000187
对公式(18)中分了
Figure BDA0002944209680000191
进行简单的代数推导可以得到:
Figure BDA0002944209680000192
其中,
Figure BDA0002944209680000193
为一个对角矩阵,其对角线上第i个元素
Figure BDA0002944209680000194
为矩阵Ab的第i行元素之和,即
Figure BDA0002944209680000195
Lb=Db-Ab为拉普拉斯矩阵,
Figure BDA0002944209680000196
为矩阵的张量积。
由上述定义可知,矩阵D可以用于对图中的顶点之间的关系进行刻画,即
Figure BDA0002944209680000197
的值越大可以表明顶点样本xi越重要。
同理可以得到
Figure BDA0002944209680000198
将公式(19)中推导得到的结论代入公式(18)则可以得到如下矩阵形式的结果:
Figure BDA0002944209680000199
其中,可以用第一目标权重矩阵B和第二权重矩阵E对公式(20)进行简化。其中,
Figure BDA00029442096800001910
Figure BDA00029442096800001911
由此可以得到:
Figure BDA00029442096800001912
其中,第一目标权重矩阵B和第二目标权重矩阵G为正定或者半正定矩阵。
需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图6是根据一示例性实施方式示出的一种数据处理装置的框图。
如图6所示,数据处理装置600可以包括:数据获取模块602、第一特征子集选取模块604、得分确定模块606、第二特征子集选取模块608及目标特征子集确定模块610。
其中,数据获取模块602可以用于获取高维数据、待选取特征数量、第一目标权重矩阵和第二目标权重矩阵,所述高维数据包括多个特征;第一特征子集选取模块604可以用于从所述高维数据中选取第一特征子集,所述第一特征子集包括所述待选取特征数量个特征;得分确定模块606可以用于根据所述高维数据、所述第一特征子集、第一目标权重矩阵和所述第二目标权重矩阵,确定所述高维数据中各个特征的得分;第二特征子集选取模块608可以用于根据所述高维数据中各个特征的得分,从所述高维数据中选取第二特征子集,所述第二特征子集包括所述待选取特征数量个特征;目标特征子集确定模块610可以用于将所述第二特征子集确定为目标特征子集。
在示例性实施例中,目标特征子集确定模块610可以包括:得分确定单元,可以用于根据所述高维数据、所述第二特征子集、所述第一目标权重矩阵和所述第二目标权重矩阵,重新确定所述高维数据中各个特征的得分;特征子集选取单元,可以用于根据重新确定的所述高维数据中各个特征的得分,从所述高维数据中选取第三特征子集,所述第三特征子集包括所述待选取特征数量个特征;目标特征子集确定单元,可以用于将所述第三特征子集确定为所述目标特征子集。
在示例性实施例中,得分确定模块606可以包括:第一特征选择矩阵确定单元,可以用于根据所述高维数据和所述第一特征子集,确定第一特征选择矩阵;第一特征子集的得分确定单元,可以用于根据所述第一目标权重矩阵、所述第二目标权重矩阵和所述第一特征选择矩阵,确定所述第一特征子集的得分:特征选择向量确定单元,可以用于根据所述第一特征选择矩阵,确定所述高维数据中各个特征对应的特征选择向量;各个特征的得分确定单元,可以用于根据所述第一目标权重矩阵、所述第二目标权重矩阵、所述高维数据中各个特征对应的特征选择向量和所述第一特征子集的得分,确定所述高维数据中各个特征的得分。
在示例性实施例中,第一特征子集的得分确定单元可以包括:第一评分矩阵确定单元,可以用于根据所述第一目标权重矩阵和所述第一特征选择矩阵,确定第一评分矩阵;第二评分矩阵确定单元,可以用于根据所述第二目标权重矩阵和所述第二特征选择矩阵,确定第二评分矩阵;迹比确定单元,可以用于将所述第一评分矩阵的迹和所述第二评分矩阵的迹的比值确定为所述第一特征子集的得分。
在示例性实施例中,数据处理装置600还可以包括:训练集获取模块,可以用于获取包括多个训练高维数据及其类别标签的高维数据训练集;权重矩阵确定模块,可以用于根据所述多个训练高维数据及其类别标签确定第一权重矩阵和第二权重矩阵;第一目标权重矩阵确定模块,可以用于根据所述多个训练高维数据及所述第一权重矩阵确定所述第一目标权重矩阵;第二目标权重矩阵确定模块,可以用于根据所述多个训练高维数据及所述第二权重矩阵确定所述第二目标权重矩阵。
在示例性实施例中,第二特征子集选取模块608可以包括:第二特征子集选取单元,可以用于根据所述高维数据中各个特征的得分,从高到低选取所述待选取特征数据个特征作为所述第二特征子集。
在示例性实施例中,所述高维数据包括图像,数据处理装置600还可以包括:目标类别获得模块,可以用于对所述目标特征子集进行处理,获得所述图像对应的目标类别。
需要注意的是,上述附图中所示的框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图7是根据一示例性实施方式示出的一种电子设备的结构示意图。需要说明的是,图7示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取高维数据、待选取特征数量、第一目标权重矩阵和第二目标权重矩阵,所述高维数据包括多个特征;从所述高维数据中选取第一特征子集,所述第一特征子集包括所述待选取特征数量个特征;根据所述高维数据、所述第一特征子集、第一目标权重矩阵和所述第二目标权重矩阵,确定所述高维数据中各个特征的得分;根据所述高维数据中各个特征的得分,从所述高维数据中选取第二特征子集,所述第二特征子集包括所述待选取特征数量个特征;将所述第二特征子集确定为目标特征子集。
以上具体地示出和描述了本发明的示例性实施方式。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取高维数据、待选取特征数量、第一目标权重矩阵和第二目标权重矩阵,所述高维数据包括多个特征;
从所述高维数据中选取第一特征子集,所述第一特征子集包括所述待选取特征数量个特征;
根据所述高维数据、所述第一特征子集、第一目标权重矩阵和所述第二目标权重矩阵,确定所述高维数据中各个特征的得分;
根据所述高维数据中各个特征的得分,从所述高维数据中选取第二特征子集,所述第二特征子集包括所述待选取特征数量个特征;
将所述第二特征子集确定为目标特征子集。
2.根据权利要求1所述的方法,其特征在于,将所述第二特征子集确定为目标特征子集,包括:
根据所述高维数据、所述第二特征子集、所述第一目标权重矩阵和所述第二目标权重矩阵,重新确定所述高维数据中各个特征的得分;
根据重新确定的所述高维数据中各个特征的得分,从所述高维数据中选取第三特征子集,所述第三特征子集包括所述待选取特征数量个特征;
将所述第三特征子集确定为所述目标特征子集。
3.根据权利要求1所述的方法,其特征在于,根据所述高维数据、所述第一特征子集、第一目标权重矩阵和所述第二目标权重矩阵,确定所述高维数据中各个特征的得分,包括:
根据所述高维数据和所述第一特征子集,确定第一特征选择矩阵;
根据所述第一目标权重矩阵、所述第二目标权重矩阵和所述第一特征选择矩阵,确定所述第一特征子集的得分:
根据所述第一特征选择矩阵,确定所述高维数据中各个特征对应的特征选择向量;
根据所述第一目标权重矩阵、所述第二目标权重矩阵、所述高维数据中各个特征对应的特征选择向量和所述第一特征子集的得分,确定所述高维数据中各个特征的得分。
4.根据权利要求3所述的方法,其特征在于,根据所述第一目标权重矩阵、所述第二目标权重矩阵和所述第一特征选择矩阵,确定所述第一特征子集的得分,包括:
根据所述第一目标权重矩阵和所述第一特征选择矩阵,确定第一评分矩阵;
根据所述第二目标权重矩阵和所述第二特征选择矩阵,确定第二评分矩阵;
将所述第一评分矩阵的迹和所述第二评分矩阵的迹的比值确定为所述第一特征子集的得分。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取包括多个训练高维数据及其类别标签的高维数据训练集;
根据所述多个训练高维数据及其类别标签确定第一权重矩阵和第二权重矩阵;
根据所述多个训练高维数据及所述第一权重矩阵确定所述第一目标权重矩阵;
根据所述多个训练高维数据及所述第二权重矩阵确定所述第二目标权重矩阵。
6.根据权利要求1所述的方法,其特征在于,根据所述高维数据中各个特征的得分,从所述高维数据中选取第二特征子集,包括:
根据所述高维数据中各个特征的得分,从高到低选取所述待选取特征数据个特征作为所述第二特征子集。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述高维数据包括图像,所述方法还包括:
对所述目标特征子集进行处理,获得所述图像对应的目标类别。
8.一种数据处理装置,其特征在于,包括:
数据获取模块,用于获取高维数据、待选取特征数量、第一目标权重矩阵和第二目标权重矩阵,所述高维数据包括多个特征;
第一特征子集选取模块,用于从所述高维数据中选取第一特征子集,所述第一特征子集包括所述待选取特征数量个特征;
得分确定模块,用于根据所述高维数据、所述第一特征子集、第一目标权重矩阵和所述第二目标权重矩阵,确定所述高维数据中各个特征的得分;
第二特征子集选取模块,用于根据所述高维数据中各个特征的得分,从所述高维数据中选取第二特征子集,所述第二特征子集包括所述待选取特征数量个特征;
目标特征子集确定模块,用于将所述第二特征子集确定为目标特征子集。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
存储装置,用于存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202110191245.7A 2021-02-19 2021-02-19 数据处理方法、装置、电子设备及存储介质 Pending CN113780324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110191245.7A CN113780324A (zh) 2021-02-19 2021-02-19 数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110191245.7A CN113780324A (zh) 2021-02-19 2021-02-19 数据处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113780324A true CN113780324A (zh) 2021-12-10

Family

ID=78835614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110191245.7A Pending CN113780324A (zh) 2021-02-19 2021-02-19 数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113780324A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117060353A (zh) * 2023-07-31 2023-11-14 中国南方电网有限责任公司超高压输电公司电力科研院 基于前馈神经网络高压直流输电系统故障诊断方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117060353A (zh) * 2023-07-31 2023-11-14 中国南方电网有限责任公司超高压输电公司电力科研院 基于前馈神经网络高压直流输电系统故障诊断方法及系统

Similar Documents

Publication Publication Date Title
US20200364505A1 (en) Committed information rate variational autoencoders
CN112732911B (zh) 基于语义识别的话术推荐方法、装置、设备及存储介质
WO2022105117A1 (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN110555714A (zh) 用于输出信息的方法和装置
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN112233698A (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN112668482B (zh) 人脸识别训练方法、装置、计算机设备及存储介质
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN114241459B (zh) 一种驾驶员身份验证方法、装置、计算机设备及存储介质
CN112418059A (zh) 一种情绪识别的方法、装置、计算机设备及存储介质
CN114863229A (zh) 图像分类方法和图像分类模型的训练方法、装置
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN114399808A (zh) 一种人脸年龄估计方法、系统、电子设备及存储介质
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN112307243A (zh) 用于检索图像的方法和装置
CN114299304A (zh) 一种图像处理方法及相关设备
CN113780324A (zh) 数据处理方法、装置、电子设备及存储介质
CN111709473A (zh) 对象特征的聚类方法及装置
CN113139490B (zh) 一种图像特征匹配方法、装置、计算机设备及存储介质
CN114819184A (zh) 稀疏矩阵建模方法、装置、计算机设备及介质
CN114119997A (zh) 图像特征提取模型的训练方法、装置、服务器和存储介质
CN111784787B (zh) 图像生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination