CN111783816A - 特征选择方法和装置、多媒体和网络数据降维方法和设备 - Google Patents

特征选择方法和装置、多媒体和网络数据降维方法和设备 Download PDF

Info

Publication number
CN111783816A
CN111783816A CN202010123816.9A CN202010123816A CN111783816A CN 111783816 A CN111783816 A CN 111783816A CN 202010123816 A CN202010123816 A CN 202010123816A CN 111783816 A CN111783816 A CN 111783816A
Authority
CN
China
Prior art keywords
matrix
feature selection
data
scale factor
target value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010123816.9A
Other languages
English (en)
Other versions
CN111783816B (zh
Inventor
祖辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010123816.9A priority Critical patent/CN111783816B/zh
Publication of CN111783816A publication Critical patent/CN111783816A/zh
Application granted granted Critical
Publication of CN111783816B publication Critical patent/CN111783816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种特征选择方法和装置、多媒体和网络数据降维方法和设备。该特征选择方法包括:获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;确定目标值最小的情况下的尺度因子向量;从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。本公开通过引入尺度因子对最小二乘回归的系数矩阵进行缩放,可以利用尺度因子对特征重要性进行评估。

Description

特征选择方法和装置、多媒体和网络数据降维方法和设备
技术领域
本公开涉及特征选择领域,特别涉及一种特征选择方法和装置、多媒体和网络数据降维方法和设备。
背景技术
随着现代社会数字技术的迅速发展,数据的形态变得越来越复杂同时数据的维度也越来越高,因此人们迫切需要高效稳定的FS(Feature Selection,特征选择)方法从海量的数据中剔除冗余无效的干扰特征而将真正有价值的特征保留下来。特征选择算法旨在根据特定任务中定义的相关度、偏好或者重要性对相关数据特的子集进行排序和选择。由于特征选择可以减少用于训练机器学习模型的特征数量,因此其可以缓解维度灾难,加速学习过程,提高模型性能并且可以增强对数据的理解。研究人员已经在各种应用条件和多个实际场景中对特征选择算法进行研究,目前特征选择已经成为机器学习和数据挖掘的重要组成部分。
发明内容
发明人通过研究发现:特征选择方法可以分为3类:包裹式(Wrapper)、过滤式(Filter)和嵌入式(Embedding)。图1为三类特征选择方法的示意图。包裹式特征选择(如图1(a))方法使用相关任务目标(分类和回归等)作为衡量标准对特征子集进行评价。过滤式特征选择(如图1(b))方法一般使用数据本身所具有的一些特性如互信息、信息增益和相关性对每个特征进行评分。嵌入式特征选择(如图1(c))方法将特征选择和机器学习过程进行融合,在目标函数优化过程中利用得到不同特征的权重系数进行评分。
在实际应用中由于包裹式特征选择算法通过最终的机器学习任务对特征进行评估,以选择最适合的特征子集,因此包裹式特征选择在性能优于过滤式特征选择,但是需要对模型进行反复迭代训练,所以计算开销较大。过滤式特征选择算法直接使用数据本身具有的统计信息对特征进行评估,与最终的目标任务无关。与包裹式和过滤式特征选择算法不同,嵌入式特征选择算法与最终的机器学习任务紧密耦合。其利用l1或者l2,1等惩罚项对需要学习的投影矩阵W进行约束得到特征的相应评分,但是使用这种惩罚项得到的特征重要性缺乏可解释性,并且无法找到同时具有全局性和稀疏性的投影矩阵最优解。
鉴于以上技术问题中的至少一项,本公开提供了一种特征选择方法和装置、多媒体和网络数据降维方法和设备,可以利用尺度因子对特征重要性进行评估。
根据本公开的一个方面,提供一种特征选择方法,包括:
获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;
根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;
确定目标值最小的情况下的尺度因子向量;
从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。
在本公开的一些实施例中,所述根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数包括:
确定目标值函数的第一项,采用尺度因子矩阵对回归系数矩阵进行缩放,其中,目标值函数的第一项为扩展后的最小二乘回归项,用于采用回归系数矩阵,将原始数据矩阵向标签矩阵进行映射;
将回归系数矩阵的lF范数的正则化项,作为目标值函数的第二项;
将目标值函数的第一项和第二项的和作为目标值函数。
在本公开的一些实施例中,所述确定目标值最小的情况下的尺度因子向量包括:
对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数;
交替优化回归系数矩阵和偏置向量两个变量,直到达到收敛条件;
将达到收敛条件下的尺度因子向量,作为目标值最小的情况下的尺度因子向量。
在本公开的一些实施例中,所述对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数包括:
将最小二乘回归项作为第二目标值函数的第一项;
将回归系数矩阵的l2,1范数平方正则化项作为第二目标值函数的第二项;
将第二目标值函数的第一项和第二项的和作为第二目标值函数。
在本公开的一些实施例中,所述交替优化回归系数矩阵和偏置向量两个变量包括:
设定回归系数矩阵不变,确定偏置向量的当前迭代的最优解;
设定偏置向量不变,确定回归系数矩阵的当前迭代的最优解。
在本公开的一些实施例中,所述从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征包括:
将尺度因子向量中的所有尺度因子从大到小进行排序;
选择前k个尺度因子对应的特征作为目标特征。
根据本公开的另一方面,提供一种多媒体数据降维处理方法,包括:
获取多媒体数据的原始数据矩阵;
采用如上述任一实施例所述的特征选择方法,确定原始数据矩阵的目标特征;
根据所述目标特征对多媒体数据的原始数据进行降维处理。
根据本公开的另一方面,提供一种网络数据降维处理方法,包括:
获取网络数据的原始数据矩阵;
采用如上述任一实施例所述的特征选择方法,确定原始数据矩阵的目标特征;
根据所述目标特征对网络数据的原始数据进行降维处理。
根据本公开的另一方面,提供一种特征选择装置,包括:
数据获取模块,用于获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;
目标函数确定模块,用于根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;
尺度因子确定模块,用于确定目标值最小的情况下的尺度因子向量;
特征选择模块,用于从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。
在本公开的一些实施例中,所述特征选择装置用于执行实现如上述任一实施例所述的特征选择方法的操作。
根据本公开的另一方面,提供一种特征选择装置,其特征在于,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述特征选择装置执行实现如上述任一实施例所述的特征选择方法的操作。
根据本公开的另一方面,提供一种多媒体数据降维处理设备,包括:
多媒体数据矩阵获取装置,用于获取多媒体数据的原始数据矩阵;
如上述任一实施例所述的特征选择装置,用于采用确定原始数据矩阵的目标特征;
多媒体数据降维处理装置,用于根据所述目标特征对多媒体数据的原始数据进行降维处理。
根据本公开的另一方面,提供一种网络数据降维处理设备,包括:
网络数据矩阵获取装置,用于获取网络数据的原始数据矩阵;
如上述任一实施例所述的特征选择装置,用于确定原始数据矩阵的目标特征;
网络数据降维处理装置,用于根据所述目标特征对网络数据的原始数据进行降维处理。
根据本公开的另一方面,提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如上述任一实施例所述的特征选择方法。
本公开通过引入尺度因子对最小二乘回归的系数矩阵进行缩放,可以利用尺度因子对特征重要性进行评估。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为三类特征选择方法的示意图。
图2为本公开特征选择方法一些实施例的示意图。
图3为本公开特征选择装置一些实施例的示意图。
图4为本公开特征选择装置另一些实施例的示意图。
图5为本公开多媒体数据降维处理方法一些实施例的示意图。
图6为本公开多媒体数据降维处理设备一些实施例的示意图。
图7为本公开网络数据降维处理方法一些实施例的示意图。
图8为本公开网络数据降维处理设备一些实施例的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
发明人通过研究发现:相关技术的嵌入式特征选择方法使用l2,1等惩罚项对投影矩阵W进行约束优化后,根据W每一行l2范数的大小对特征的重要性进行评估,然而这种评估方式缺乏可解释性。
为了解决相关技术的嵌入式特征选择方法利用投影矩阵对特征进行评估缺乏解释性的问题,本公开提出一种基于尺度因子加权的判别性特征选择方法和装置,下面通过具体实施例进行说明。
图2为本公开特征选择方法一些实施例的示意图。优选的,本实施例可由本公开特征选择装置执行。该方法包括以下步骤21-步骤24,其中:
步骤21,获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵。
在本公开的一些实施例中,电子数据可以为各种类型的网络数据、基因表达数据、文档词频数据、用户数据及多媒体数据等,其中,网络数据可以包括网络文档数据和网络使用数据等各种类型的网络数据,多媒体数据可以包括文本、声音、视频等多种媒体形式的数据。
在本公开的一些实施例中,各种类型的网络数据、基因表达数据、文档词频数据、用户数据及多媒体数据等电子数据为高维度数据即多维度数据,为属性大于2的数据。
在本公开的一些实施例中,步骤21可以包括步骤211-步骤213,其其中:
步骤211,进行本公开中符号和范数的定义。本公开中,矩阵使用斜体的大写字母书写,向量使用斜体的小写字母表示。
例如:对于矩阵M=(mij),用mi表示其第i行,mj表示其第j列。
矩阵
Figure BDA0002393802350000071
的Frobenius范数定义为
Figure BDA0002393802350000072
矩阵
Figure BDA0002393802350000073
的l2,1范数定义为
Figure BDA0002393802350000074
步骤212,假设现有c个类的训练数据样本
Figure BDA0002393802350000075
Figure BDA0002393802350000076
为第i个样本数据,d为样本的特征个数,n为训练样本个数,相应的类别标签矩阵为
Figure BDA0002393802350000077
为第i个样本的标签,若样本xi属于第i个类,则标签yi的第j个元素
Figure BDA0002393802350000078
其余元素均为0。
步骤22,根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数。
在本公开的一些实施例中,步骤22可以包括步骤221-步骤223,其中:
步骤221,确定目标值函数的第一项,采用尺度因子矩阵对回归系数矩阵进行缩放,其中,目标值函数的第一项为扩展后的最小二乘回归项,用于采用回归系数矩阵,将原始数据矩阵向标签矩阵进行映射。
步骤222,将回归系数矩阵的lF范数的正则化项,作为目标值函数的第二项。
步骤223,将目标值函数的第一项和第二项的和作为目标值函数。
在本公开的另一些实施例中,步骤22可以包括:为了度量d个特征的重要性,引入尺度因子向量
Figure BDA0002393802350000079
其中尺度因子第j个元素θj>0,(1≤j≤d)评估第j个特征,并且所有尺度因子和为1即
Figure BDA00023938023500000710
具体来说,若特征选择任务的目标是选取k个最重要的特征,可以对尺度因子向量θ中的元素进行从大到小排序,选取前k个值最大的尺度因子对应的特征。为了充分利用嵌入式特征选择方法与目标任务(分类或者回归)紧密融合的优势,本公开提出一种基于尺度因子加权的判别性特征选择算法,其目标公式如公式(1)所示:
Figure BDA0002393802350000081
公式(1)中,
Figure BDA0002393802350000082
为对角矩阵,对角线上元素为
Figure BDA0002393802350000083
非对角线上元素为0。
Figure BDA0002393802350000084
为回归系数矩阵,用于将原始数据向标签目标Y进行回归,b为偏置向量,e为元素均为1的向量,λ为正则化参数。公式(1)第一项
Figure BDA0002393802350000085
为扩展后的最小二乘回归,其动机为使得求解得到的变量W和b将样本向对应的标签进行映射,将数据标签的判别性信息嵌入到回归系数矩阵W,第二项
Figure BDA0002393802350000086
为lF范数的正则化项。
步骤23,确定目标值最小的情况下的尺度因子向量。
在本公开的一些实施例中,步骤23可以包括步骤231-步骤233,其中:
步骤231,对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数。
在本公开的一些实施例中,步骤231可以包括:将最小二乘回归项作为第二目标值函数的第一项;将回归系数矩阵的l2,1范数平方正则化项作为第二目标值函数的第二项;将第二目标值函数的第一项和第二项的和作为第二目标值函数。
在本公开的另一些实施例中,步骤231可以包括:
由于公式(1)中的第一项存在XTΘW,变量Θ和W耦合在一起不利于优化求解,因此令
Figure BDA0002393802350000087
带入公式(1),得到如下变换后的目标公式(2):
Figure BDA0002393802350000088
假设固定W和b变量,求解此时最优的θ等价于求解如下公式(3)的最优化问题:
Figure BDA0002393802350000091
公式(3)有约束的最优化问题可以通过拉格朗日乘子法转化为无约束优化问题进行求解,最优解为公式(4)所示:
Figure BDA0002393802350000092
将公式(4)带入优化问题(3)的目标公式,则显然有公式(5):
Figure BDA0002393802350000093
则目标公式(2)可以消除优化变量θ,得到化简后的目标公式(6):
Figure BDA0002393802350000094
化简后的目标公式(6)第二项
Figure BDA0002393802350000095
为l2,1范数平方正则化项,最优解W为行稀疏矩阵,即W的大部分行为全0向量,仅有少数行为非0向量。第j个特征的尺度因子θj的最优解为如公式(7)所示,,尺度因子值得大小反映对应特征在任务重的重要性,同时也给使用||wj||2评估特征提供理论支撑。
Figure BDA0002393802350000096
步骤232,交替优化回归系数矩阵和偏置向量两个变量,直到达到收敛条件。
在本公开的一些实施例中,步骤232中,所述交替优化回归系数矩阵和偏置向量两个变量的步骤可以包括步骤(1)和步骤(2),其中:
步骤(1),设定回归系数矩阵W不变,确定偏置向量b的当前迭代的最优解,即,设定固定W求解b。
当变量W固定时,优化目标公式(6)等价于优化公式(8)问题:
Figure BDA0002393802350000101
对上式中变量b求偏导,并令其为0,整理后则得到变量b当前迭代的最优解解析形式为公式(9):
Figure BDA0002393802350000102
步骤(2),设定偏置向量b不变,确定回归系数矩阵W的当前迭代的最优解,即,固定b求解W。
当变量b固定时,优化目标公式(6)等价于如下式公式(10)优化问题:
Figure BDA0002393802350000103
然而
Figure BDA0002393802350000104
的取值范围可能包含0,这会导致公式(10)在其取值为0的点不可微。为了避免出现这种情况,将l2,1范数
Figure BDA0002393802350000105
松弛为
Figure BDA0002393802350000106
其中ε为一个非常小的常量,一般取10-5。l2,1松弛后的目标公式为公式(11)所示:
Figure BDA0002393802350000107
Figure BDA0002393802350000108
对目标公式(10)中的优化变量W求导
Figure BDA0002393802350000109
并令其为0得到:
Figure BDA00023938023500001010
公式(12)中,
Figure BDA00023938023500001011
为对角矩阵,对角矩阵Q的第j个对角元素为
Figure BDA00023938023500001012
Q的值是根据W得到的,可以交替迭代求解W和Q,Q的最优解析解已得到,现在固定Q,求解W,将目标公式(11)转化为公式(13):
Figure BDA00023938023500001013
公式(13)中,Tr(WTQW)表示对矩阵WTQW求迹。
Figure BDA00023938023500001014
带入公式(13)可以得到公式(14)。
Figure BDA0002393802350000111
公式(14)中
Figure BDA0002393802350000112
其中I为单位矩阵,可以得到对W的偏导并令其为0,如公式(15)所示:
2XHT(HXTW-HY)42λQW=0 (15)
则W此步迭代的最优解解析形式为公式(16):
W=(XHTHXT+λQ)-1XHTHY (16)
由于HTH=H,公式(16)可以最终化简为公式(17):
W=(XHXT+λQ)-1XHY (17)
步骤233,将达到收敛条件下的尺度因子向量,作为目标值最小的情况下的尺度因子向量。
步骤24,从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。
在本公开的一些实施例中,步骤24可以包括:将尺度因子向量中的所有尺度因子从大到小进行排序;选择前k个尺度因子对应的特征作为目标特征。
基于本公开上述实施例提供的特征选择方法,通过引入尺度因子对最小二乘回归的系数矩阵进行缩放,并利用尺度因子对特征重要性进行评估。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例最后提出一种高效的可收敛迭代优化算法对提出的基于尺度因子加权的判别性特征选择方法进行优化求解。
本公开上述实施例的特征选择方法可以应用于网络数据、多媒体数据等电子数据的高维数据可视化、高维图像分类、高维数据压缩等高维数据的处理和分析领域,其中,高维数据压缩具体为将高维数据降低到2维或者3维用于数据低维展示;高维图像分类具体为将高维图像降维后使用分类器进行图像分类,如人脸识别、医学图像分类和高分辨率卫星图像分类等;高维数据压缩具体为将高维数据压缩后进行数据传输。
表1为本公开特征选择方法一些实施例中交替迭代优化算法的示意。
Figure BDA0002393802350000121
本公开上述实施例不需要对模型进行反复迭代训练,计算开销较小。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例特征选择算法与最终的机器学习任务紧密耦合。本公开上述实施例可以找到同时具有全局性和稀疏性的投影矩阵最优解。
为了验证本公开上述实施例提出方法的有效性,在八种标准数据集上对本公开上述实施例提出的特征选择方法进行验证,八种标准数据集信息如表2所示。
表2
Figure BDA0002393802350000131
本公开上述实施例在实验中使用尺度因子加权的判别性特征选择算法对训练样本进行特征选择,然后使用最近邻分类器进行分类任务,使用最终的分类正确率用来度量特征选择效果。同时为了与其他传统的特征选择方法进行对比,提出的方法实验结果与无监督特征降维方法PCA(principal components analysis,主成分分析)、无监督特征选择算法Laplacian Score(LS)和有监督特征选择算法Relief-F算法进行比较,并且使用全部的特征用于最近邻分类作为baseline。
本公开上述实施例对数据集进行十次随机划分,每次选取其中的9份数据作为训练数据,剩余的1份数据作为测试数据用于算法性能衡量,重复上述操作10次,取10次结果的平均值作为最终的实验结果。
表3
Figure BDA0002393802350000132
Figure BDA0002393802350000141
表3展示了五种不同方法在标准数据集上的分类结果,具体为本公开上述实施例提出的特征选择方法以及另外四种对比方法在8个标准数据集上分类任务准确率的结果,括号中为10次实验的方差。Baseline方法不进行特征选择,直接使用所有的原始数据特征进行分类。PCA、LS、Relief-F和本公开上述实施例提出的方法(Proposed)保留排序后原始特征个数的
Figure BDA0002393802350000142
用于后续分类任务,特别注意的是当样本数据维度远高于样本数目时d>>n,PCA保留数据
Figure BDA0002393802350000143
样本个数的特征作为分类器的输入。从表2的结果中可以看出,本发明提出的特征选择算法在7个数据集上取得了最好的分类准确率。在Binalpha数据集上的分类性能略低于Baseline和PCA,但是高于相关技术的LS和Relief-F特征选择算法,分析原因可能时因为Binalpha数据存在较多的类别(c=16),特征选择算法选取其中一部分特征可能会导致类别信息的大量丢失,进而使得最后的分类准确率与未进行特征选择算法Baseline和特征降维算法PCA有较大差距。
本公开上述实施例不需要对模型进行反复迭代训练,计算开销较小。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例特征选择算法与最终的机器学习任务紧密耦合。本公开上述实施例可以找到同时具有全局性和稀疏性的投影矩阵最优解。
图3为本公开特征选择装置一些实施例的示意图。如图3所示,本公开特征选择装置包括数据获取模块31、目标函数确定模块32、尺度因子确定模块33和特征选择模块34,其中:
数据获取模块31,用于获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵。
在本公开的一些实施例中,电子数据可以为各种类型的网络数据、基因表达数据、文档词频数据、用户数据及多媒体数据等,其中,网络数据可以包括网络文档数据和网络使用数据等各种类型的网络数据,多媒体数据可以包括文本、声音、视频等多种媒体形式的数据。
在本公开的一些实施例中,各种类型的网络数据、基因表达数据、文档词频数据、用户数据及多媒体数据等电子数据为高维度数据即多维度数据,为属性大于2的数据。
目标函数确定模块32,用于根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数。
在本公开的一些实施例中,目标函数确定模块32可以用于确定目标值函数的第一项,采用尺度因子矩阵对回归系数矩阵进行缩放,其中,目标值函数的第一项为扩展后的最小二乘回归项,用于采用回归系数矩阵,将原始数据矩阵向标签矩阵进行映射;将回归系数矩阵的lF范数的正则化项,作为目标值函数的第二项;将目标值函数的第一项和第二项的和作为目标值函数。
尺度因子确定模块33,用于确定目标值最小的情况下的尺度因子向量。
在本公开的一些实施例中,尺度因子确定模块33可以用于对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数;交替优化回归系数矩阵和偏置向量两个变量,直到达到收敛条件;将达到收敛条件下的尺度因子向量,作为目标值最小的情况下的尺度因子向量。
在本公开的一些实施例中,尺度因子确定模块33在对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数的情况下,可以用于将最小二乘回归项作为第二目标值函数的第一项;将回归系数矩阵的l2,1范数平方正则化项作为第二目标值函数的第二项;将第二目标值函数的第一项和第二项的和作为第二目标值函数。
在本公开的一些实施例中,尺度因子确定模块33在交替优化回归系数矩阵和偏置向量两个变量的情况下,可以用于设定回归系数矩阵不变,确定偏置向量的当前迭代的最优解;设定偏置向量不变,确定回归系数矩阵的当前迭代的最优解。
特征选择模块34,用于从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。
在本公开的一些实施例中,特征选择模块34可以用于将尺度因子向量中的所有尺度因子从大到小进行排序;选择前k个尺度因子对应的特征作为目标特征。
在本公开的一些实施例中,所述特征选择装置用于执行实现如上述任一实施例(例如图2实施例)所述的特征选择方法的操作。
基于本公开上述实施例提供的特征选择装置,通过引入尺度因子对最小二乘回归的系数矩阵进行缩放,并利用尺度因子对特征重要性进行评估。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例还提出一种高效的可收敛迭代优化算法对提出的基于尺度因子加权的判别性特征选择方法进行优化求解。
图4为本公开特征选择装置另一些实施例的示意图。如图4所示,本公开特征选择装置包括存储器41和处理器42,其中:
存储器41,用于存储指令。
处理器42,用于执行所述指令,使得所述特征选择装置执行实现如上述任一实施例(例如图2实施例)所述的特征选择方法的操作。
本公开上述实施例不需要对模型进行反复迭代训练,计算开销较小。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例特征选择算法与最终的机器学习任务紧密耦合。本公开上述实施例可以找到同时具有全局性和稀疏性的投影矩阵最优解。
图5为本公开多媒体数据降维处理方法一些实施例的示意图。优选的,本实施例可由本公开多媒体数据降维处理设备执行。该方法包括以下步骤51-步骤53,其中:
步骤51,获取多媒体数据的原始数据矩阵。
在本公开的一些实施例中,多媒体数据可以包括文本、声音、视频等多种媒体形式的数据。
步骤52,采用如上述任一实施例(例如图2实施例)所述的特征选择方法,确定原始数据矩阵的目标特征。
步骤53,根据所述目标特征对多媒体数据的原始数据进行降维处理。
在本公开的一些实施例中,步骤53可以包括:采用主成分分析、偏最小二乘或非线性映照等方式,根据所述目标特征对多媒体数据的原始数据进行降维处理。
图6为本公开多媒体数据降维处理设备一些实施例的示意图。如图6所示,本公开多媒体数据降维处理设备可以包括多媒体数据矩阵获取装置61、特征选择装置62和多媒体数据降维处理装置63,其中:
多媒体数据矩阵获取装置61,用于获取多媒体数据的原始数据矩阵。
特征选择装置62,用于采用确定原始数据矩阵的目标特征。
在本公开的一些实施例中,特征选择装置62可以为如上述任一实施例(例如图3或图4实施例)所述的特征选择装置。
多媒体数据降维处理装置63,用于根据所述目标特征对多媒体数据的原始数据进行降维处理。
本公开上述实施例可以更高效、准确地确定目标特征,从而可以方便、高效地对多媒体数据进行降维处理,将高维空间的多媒体数据投影到低维空间,一般为二维或二维空问中,方便进行后续的多媒体数据分类和和多媒体数据分析等数据处理。
图7为本公开网络数据降维处理方法一些实施例的示意图。优选的,本实施例可由本公开网络数据降维处理设备执行。该方法包括以下步骤71-步骤73,其中:
步骤71,获取网络数据的原始数据矩阵。
在本公开的一些实施例中,网络数据可以包括网络文档数据和网络使用数据等各种类型的网络数据.
步骤72,采用如上述任一实施例(例如图2实施例)所述的特征选择方法,确定原始数据矩阵的目标特征。
步骤73,根据所述目标特征对网络数据的原始数据进行降维处理。
在本公开的一些实施例中,步骤53可以包括:采用主成分分析、偏最小二乘或非线性映照等方式,根据所述目标特征对网络数据的原始数据进行降维处理。
图8为本公开网络数据降维处理设备一些实施例的示意图。如图8所示,本公开网络数据降维处理设备可以包括网络数据矩阵获取装置81、特征选择装置82和网络数据降维处理装置83,其中:
网络数据矩阵获取装置81,用于获取网络数据的原始数据矩阵。
特征选择装置82,用于采用确定原始数据矩阵的目标特征。
在本公开的一些实施例中,特征选择装置82可以为如上述任一实施例(例如图3或图4实施例)所述的特征选择装置。
网络数据降维处理装置83,用于根据所述目标特征对网络数据的原始数据进行降维处理。
本公开上述实施例可以更高效、准确地确定目标特征,从而可以方便、高效地对网络数据进行降维处理,将高维空间的网络数据投影到低维空间,一般为二维或二维空问中,方便进行后续的网络数据分类和和网络数据分析等数据处理。
根据本公开的另一方面,提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如上述任一实施例(例如图2实施例)所述的特征选择方法。
基于本公开上述实施例提供的计算机可读存储介质,通过引入尺度因子对最小二乘回归的系数矩阵进行缩放,并利用尺度因子对特征重要性进行评估。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例还提出一种高效的可收敛迭代优化算法对提出的基于尺度因子加权的判别性特征选择方法进行优化求解。
本公开上述实施例不需要对模型进行反复迭代训练,计算开销较小。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例特征选择算法与最终的机器学习任务紧密耦合。本公开上述实施例可以找到同时具有全局性和稀疏性的投影矩阵最优解。
在上面所描述的特征选择装置、多媒体数据降维处理设备和网络数据降维处理设备可以实现为用于执行本申请所描述功能的通用处理器、可编程逻辑控制器(PLC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims (13)

1.一种特征选择方法,其特征在于,包括:
获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;
根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;
确定目标值最小的情况下的尺度因子向量;
从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。
2.根据权利要求1所述的特征选择方法,其特征在于,所述根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数包括:
确定目标值函数的第一项,采用尺度因子矩阵对回归系数矩阵进行缩放,其中,目标值函数的第一项为扩展后的最小二乘回归项,用于采用回归系数矩阵,将原始数据矩阵向标签矩阵进行映射;
将回归系数矩阵的lF范数的正则化项,作为目标值函数的第二项;
将目标值函数的第一项和第二项的和作为目标值函数。
3.根据权利要求1或2所述的特征选择方法,其特征在于,所述确定目标值最小的情况下的尺度因子向量包括:
对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数;
交替优化回归系数矩阵和偏置向量两个变量,直到达到收敛条件;
将达到收敛条件下的尺度因子向量,作为目标值最小的情况下的尺度因子向量。
4.根据权利要求3所述的特征选择方法,其特征在于,所述对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数包括:
将最小二乘回归项作为第二目标值函数的第一项;
将回归系数矩阵的l2,1范数平方正则化项作为第二目标值函数的第二项;
将第二目标值函数的第一项和第二项的和作为第二目标值函数。
5.根据权利要求3所述的特征选择方法,其特征在于,所述交替优化回归系数矩阵和偏置向量两个变量包括:
设定回归系数矩阵不变,确定偏置向量的当前迭代的最优解;
设定偏置向量不变,确定回归系数矩阵的当前迭代的最优解。
6.根据权利要求1或2所述的特征选择方法,其特征在于,所述从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征包括:
将尺度因子向量中的所有尺度因子从大到小进行排序;
选择前k个尺度因子对应的特征作为目标特征。
7.一种多媒体数据降维处理方法,其特征在于,包括:
获取多媒体数据的原始数据矩阵;
采用如权利要求1-6中任一项所述的特征选择方法,确定原始数据矩阵的目标特征;
根据所述目标特征对多媒体数据的原始数据进行降维处理。
8.一种网络数据降维处理方法,其特征在于,包括:
获取网络数据的原始数据矩阵;
采用如权利要求1-6中任一项所述的特征选择方法,确定原始数据矩阵的目标特征;
根据所述目标特征对网络数据的原始数据进行降维处理。
9.一种特征选择装置,其特征在于,包括:
数据获取模块,用于获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;
目标函数确定模块,用于根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;
尺度因子确定模块,用于确定目标值最小的情况下的尺度因子向量;
特征选择模块,用于从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。
10.一种特征选择装置,其特征在于,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述特征选择装置执行实现如权利要求1-6中任一项所述的特征选择方法的操作。
11.一种多媒体数据降维处理设备,其特征在于,包括:
多媒体数据矩阵获取装置,用于获取多媒体数据的原始数据矩阵;
如权利要求9或10所述的特征选择装置,用于采用确定原始数据矩阵的目标特征;
多媒体数据降维处理装置,用于根据所述目标特征对多媒体数据的原始数据进行降维处理。
12.一种网络数据降维处理设备,其特征在于,包括:
网络数据矩阵获取装置,用于获取网络数据的原始数据矩阵;
如权利要求9或10所述的特征选择装置,用于确定原始数据矩阵的目标特征;
网络数据降维处理装置,用于根据所述目标特征对网络数据的原始数据进行降维处理。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1-6中任一项所述的特征选择方法。
CN202010123816.9A 2020-02-27 2020-02-27 特征选择方法和装置、多媒体和网络数据降维方法和设备 Active CN111783816B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010123816.9A CN111783816B (zh) 2020-02-27 2020-02-27 特征选择方法和装置、多媒体和网络数据降维方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010123816.9A CN111783816B (zh) 2020-02-27 2020-02-27 特征选择方法和装置、多媒体和网络数据降维方法和设备

Publications (2)

Publication Number Publication Date
CN111783816A true CN111783816A (zh) 2020-10-16
CN111783816B CN111783816B (zh) 2024-09-20

Family

ID=72753074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010123816.9A Active CN111783816B (zh) 2020-02-27 2020-02-27 特征选择方法和装置、多媒体和网络数据降维方法和设备

Country Status (1)

Country Link
CN (1) CN111783816B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505163A (zh) * 2021-09-10 2021-10-15 成都明途科技有限公司 基于大数据挖掘的组织目标分析方法、系统、存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150213327A1 (en) * 2014-01-29 2015-07-30 Lockheed Martin Corporation Visual feature extraction methods and systems
CN105320963A (zh) * 2015-10-21 2016-02-10 哈尔滨工业大学 面向高分遥感图像的大尺度半监督特征选择方法
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法
CN107203489A (zh) * 2017-03-27 2017-09-26 中国科学院信息工程研究所 一种基于最优重构的特征选择方法
CN107909077A (zh) * 2017-10-10 2018-04-13 安徽信息工程学院 半监督情况下基于稀疏化理论的特征选择方法
CN108388918A (zh) * 2018-02-28 2018-08-10 中国科学院西安光学精密机械研究所 具有结构保持特性的数据特征选择方法
CN109389127A (zh) * 2017-08-14 2019-02-26 华北理工大学 结构化多视图Hessian正则化稀疏特征选择方法
CN109800812A (zh) * 2019-01-24 2019-05-24 山东大学第二医院 基于仿冒过滤器的ct图像分类特征选择方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150213327A1 (en) * 2014-01-29 2015-07-30 Lockheed Martin Corporation Visual feature extraction methods and systems
CN105320963A (zh) * 2015-10-21 2016-02-10 哈尔滨工业大学 面向高分遥感图像的大尺度半监督特征选择方法
CN107203489A (zh) * 2017-03-27 2017-09-26 中国科学院信息工程研究所 一种基于最优重构的特征选择方法
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法
CN109389127A (zh) * 2017-08-14 2019-02-26 华北理工大学 结构化多视图Hessian正则化稀疏特征选择方法
CN107909077A (zh) * 2017-10-10 2018-04-13 安徽信息工程学院 半监督情况下基于稀疏化理论的特征选择方法
CN108388918A (zh) * 2018-02-28 2018-08-10 中国科学院西安光学精密机械研究所 具有结构保持特性的数据特征选择方法
CN109800812A (zh) * 2019-01-24 2019-05-24 山东大学第二医院 基于仿冒过滤器的ct图像分类特征选择方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN Z.等: "Iterative Sparsity Score for Feature Selection and Its Extension for Multimodal Data", NEUROCOMPUTING, 21 February 2017 (2017-02-21) *
彭瑶 等: "基于超图的多模态特征选择算法及其应用", 计算机科学与探索, 14 December 2016 (2016-12-14) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505163A (zh) * 2021-09-10 2021-10-15 成都明途科技有限公司 基于大数据挖掘的组织目标分析方法、系统、存储介质
CN113505163B (zh) * 2021-09-10 2021-12-14 成都明途科技有限公司 基于大数据挖掘的组织目标分析方法、系统、存储介质

Also Published As

Publication number Publication date
CN111783816B (zh) 2024-09-20

Similar Documents

Publication Publication Date Title
Pun et al. Persistent-Homology-based machine learning and its applications--A survey
Lei et al. Classification, parameter estimation and state estimation: an engineering approach using MATLAB
Litman et al. Learning spectral descriptors for deformable shape correspondence
Gisbrecht et al. Data visualization by nonlinear dimensionality reduction
Alzate et al. Multiway spectral clustering with out-of-sample extensions through weighted kernel PCA
CN104573729B (zh) 一种基于核主成分分析网络的图像分类方法
JP4376145B2 (ja) 画像分類学習処理システム及び画像識別処理システム
US20150074130A1 (en) Method and system for reducing data dimensionality
Li et al. A novel dimension reduction and dictionary learning framework for high-dimensional data classification
Dai et al. Metric imitation by manifold transfer for efficient vision applications
US20220058431A1 (en) Semantic input sampling for explanation (sise) of convolutional neural networks
Wang et al. Two-stage content based image retrieval using sparse representation and feature fusion
Song et al. MPPCANet: A feedforward learning strategy for few-shot image classification
Liu et al. A robust graph based multi-label feature selection considering feature-label dependency
CN111783816A (zh) 特征选择方法和装置、多媒体和网络数据降维方法和设备
Batalo et al. Temporal-stochastic tensor features for action recognition
Fonał et al. Fast hierarchical tucker decomposition with single-mode preservation and tensor subspace analysis for feature extraction from augmented multimodal data
Xu et al. Sliced inverse regression with adaptive spectral sparsity for dimension reduction
Peluffo et al. Optimal data projection for kernel spectral clustering
Perry et al. Visualization of topology optimization designs with representative subset selection
Ribeiro et al. Texture characterization via automatic threshold selection on image-generated complex network
CN112541502B (zh) 一种图像处理方法、装置及计算机存储介质和电子设备
Juneja et al. Graph-based strategy for establishing morphology similarity
CN113792761B (zh) 基于Gabor特征与EMAP特征的遥感图像分类方法
Nsimba et al. Nonlinear dimensionality reduction in texture classification: is manifold learning better than PCA?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant