CN111783816A - 特征选择方法和装置、多媒体和网络数据降维方法和设备 - Google Patents
特征选择方法和装置、多媒体和网络数据降维方法和设备 Download PDFInfo
- Publication number
- CN111783816A CN111783816A CN202010123816.9A CN202010123816A CN111783816A CN 111783816 A CN111783816 A CN 111783816A CN 202010123816 A CN202010123816 A CN 202010123816A CN 111783816 A CN111783816 A CN 111783816A
- Authority
- CN
- China
- Prior art keywords
- matrix
- feature selection
- data
- scale factor
- target value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 52
- 238000010187 selection method Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 166
- 239000013598 vector Substances 0.000 claims abstract description 76
- 230000006870 function Effects 0.000 claims description 65
- 238000012545 processing Methods 0.000 claims description 39
- 238000005457 optimization Methods 0.000 claims description 22
- 238000003672 processing method Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000000513 principal component analysis Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000013144 data compression Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种特征选择方法和装置、多媒体和网络数据降维方法和设备。该特征选择方法包括:获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;确定目标值最小的情况下的尺度因子向量;从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。本公开通过引入尺度因子对最小二乘回归的系数矩阵进行缩放,可以利用尺度因子对特征重要性进行评估。
Description
技术领域
本公开涉及特征选择领域,特别涉及一种特征选择方法和装置、多媒体和网络数据降维方法和设备。
背景技术
随着现代社会数字技术的迅速发展,数据的形态变得越来越复杂同时数据的维度也越来越高,因此人们迫切需要高效稳定的FS(Feature Selection,特征选择)方法从海量的数据中剔除冗余无效的干扰特征而将真正有价值的特征保留下来。特征选择算法旨在根据特定任务中定义的相关度、偏好或者重要性对相关数据特的子集进行排序和选择。由于特征选择可以减少用于训练机器学习模型的特征数量,因此其可以缓解维度灾难,加速学习过程,提高模型性能并且可以增强对数据的理解。研究人员已经在各种应用条件和多个实际场景中对特征选择算法进行研究,目前特征选择已经成为机器学习和数据挖掘的重要组成部分。
发明内容
发明人通过研究发现:特征选择方法可以分为3类:包裹式(Wrapper)、过滤式(Filter)和嵌入式(Embedding)。图1为三类特征选择方法的示意图。包裹式特征选择(如图1(a))方法使用相关任务目标(分类和回归等)作为衡量标准对特征子集进行评价。过滤式特征选择(如图1(b))方法一般使用数据本身所具有的一些特性如互信息、信息增益和相关性对每个特征进行评分。嵌入式特征选择(如图1(c))方法将特征选择和机器学习过程进行融合,在目标函数优化过程中利用得到不同特征的权重系数进行评分。
在实际应用中由于包裹式特征选择算法通过最终的机器学习任务对特征进行评估,以选择最适合的特征子集,因此包裹式特征选择在性能优于过滤式特征选择,但是需要对模型进行反复迭代训练,所以计算开销较大。过滤式特征选择算法直接使用数据本身具有的统计信息对特征进行评估,与最终的目标任务无关。与包裹式和过滤式特征选择算法不同,嵌入式特征选择算法与最终的机器学习任务紧密耦合。其利用l1或者l2,1等惩罚项对需要学习的投影矩阵W进行约束得到特征的相应评分,但是使用这种惩罚项得到的特征重要性缺乏可解释性,并且无法找到同时具有全局性和稀疏性的投影矩阵最优解。
鉴于以上技术问题中的至少一项,本公开提供了一种特征选择方法和装置、多媒体和网络数据降维方法和设备,可以利用尺度因子对特征重要性进行评估。
根据本公开的一个方面,提供一种特征选择方法,包括:
获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;
根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;
确定目标值最小的情况下的尺度因子向量;
从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。
在本公开的一些实施例中,所述根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数包括:
确定目标值函数的第一项,采用尺度因子矩阵对回归系数矩阵进行缩放,其中,目标值函数的第一项为扩展后的最小二乘回归项,用于采用回归系数矩阵,将原始数据矩阵向标签矩阵进行映射;
将回归系数矩阵的lF范数的正则化项,作为目标值函数的第二项;
将目标值函数的第一项和第二项的和作为目标值函数。
在本公开的一些实施例中,所述确定目标值最小的情况下的尺度因子向量包括:
对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数;
交替优化回归系数矩阵和偏置向量两个变量,直到达到收敛条件;
将达到收敛条件下的尺度因子向量,作为目标值最小的情况下的尺度因子向量。
在本公开的一些实施例中,所述对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数包括:
将最小二乘回归项作为第二目标值函数的第一项;
将回归系数矩阵的l2,1范数平方正则化项作为第二目标值函数的第二项;
将第二目标值函数的第一项和第二项的和作为第二目标值函数。
在本公开的一些实施例中,所述交替优化回归系数矩阵和偏置向量两个变量包括:
设定回归系数矩阵不变,确定偏置向量的当前迭代的最优解;
设定偏置向量不变,确定回归系数矩阵的当前迭代的最优解。
在本公开的一些实施例中,所述从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征包括:
将尺度因子向量中的所有尺度因子从大到小进行排序;
选择前k个尺度因子对应的特征作为目标特征。
根据本公开的另一方面,提供一种多媒体数据降维处理方法,包括:
获取多媒体数据的原始数据矩阵;
采用如上述任一实施例所述的特征选择方法,确定原始数据矩阵的目标特征;
根据所述目标特征对多媒体数据的原始数据进行降维处理。
根据本公开的另一方面,提供一种网络数据降维处理方法,包括:
获取网络数据的原始数据矩阵;
采用如上述任一实施例所述的特征选择方法,确定原始数据矩阵的目标特征;
根据所述目标特征对网络数据的原始数据进行降维处理。
根据本公开的另一方面,提供一种特征选择装置,包括:
数据获取模块,用于获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;
目标函数确定模块,用于根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;
尺度因子确定模块,用于确定目标值最小的情况下的尺度因子向量;
特征选择模块,用于从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。
在本公开的一些实施例中,所述特征选择装置用于执行实现如上述任一实施例所述的特征选择方法的操作。
根据本公开的另一方面,提供一种特征选择装置,其特征在于,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述特征选择装置执行实现如上述任一实施例所述的特征选择方法的操作。
根据本公开的另一方面,提供一种多媒体数据降维处理设备,包括:
多媒体数据矩阵获取装置,用于获取多媒体数据的原始数据矩阵;
如上述任一实施例所述的特征选择装置,用于采用确定原始数据矩阵的目标特征;
多媒体数据降维处理装置,用于根据所述目标特征对多媒体数据的原始数据进行降维处理。
根据本公开的另一方面,提供一种网络数据降维处理设备,包括:
网络数据矩阵获取装置,用于获取网络数据的原始数据矩阵;
如上述任一实施例所述的特征选择装置,用于确定原始数据矩阵的目标特征;
网络数据降维处理装置,用于根据所述目标特征对网络数据的原始数据进行降维处理。
根据本公开的另一方面,提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如上述任一实施例所述的特征选择方法。
本公开通过引入尺度因子对最小二乘回归的系数矩阵进行缩放,可以利用尺度因子对特征重要性进行评估。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为三类特征选择方法的示意图。
图2为本公开特征选择方法一些实施例的示意图。
图3为本公开特征选择装置一些实施例的示意图。
图4为本公开特征选择装置另一些实施例的示意图。
图5为本公开多媒体数据降维处理方法一些实施例的示意图。
图6为本公开多媒体数据降维处理设备一些实施例的示意图。
图7为本公开网络数据降维处理方法一些实施例的示意图。
图8为本公开网络数据降维处理设备一些实施例的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
发明人通过研究发现:相关技术的嵌入式特征选择方法使用l2,1等惩罚项对投影矩阵W进行约束优化后,根据W每一行l2范数的大小对特征的重要性进行评估,然而这种评估方式缺乏可解释性。
为了解决相关技术的嵌入式特征选择方法利用投影矩阵对特征进行评估缺乏解释性的问题,本公开提出一种基于尺度因子加权的判别性特征选择方法和装置,下面通过具体实施例进行说明。
图2为本公开特征选择方法一些实施例的示意图。优选的,本实施例可由本公开特征选择装置执行。该方法包括以下步骤21-步骤24,其中:
步骤21,获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵。
在本公开的一些实施例中,电子数据可以为各种类型的网络数据、基因表达数据、文档词频数据、用户数据及多媒体数据等,其中,网络数据可以包括网络文档数据和网络使用数据等各种类型的网络数据,多媒体数据可以包括文本、声音、视频等多种媒体形式的数据。
在本公开的一些实施例中,各种类型的网络数据、基因表达数据、文档词频数据、用户数据及多媒体数据等电子数据为高维度数据即多维度数据,为属性大于2的数据。
在本公开的一些实施例中,步骤21可以包括步骤211-步骤213,其其中:
步骤211,进行本公开中符号和范数的定义。本公开中,矩阵使用斜体的大写字母书写,向量使用斜体的小写字母表示。
例如:对于矩阵M=(mij),用mi表示其第i行,mj表示其第j列。
步骤212,假设现有c个类的训练数据样本 为第i个样本数据,d为样本的特征个数,n为训练样本个数,相应的类别标签矩阵为为第i个样本的标签,若样本xi属于第i个类,则标签yi的第j个元素其余元素均为0。
步骤22,根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数。
在本公开的一些实施例中,步骤22可以包括步骤221-步骤223,其中:
步骤221,确定目标值函数的第一项,采用尺度因子矩阵对回归系数矩阵进行缩放,其中,目标值函数的第一项为扩展后的最小二乘回归项,用于采用回归系数矩阵,将原始数据矩阵向标签矩阵进行映射。
步骤222,将回归系数矩阵的lF范数的正则化项,作为目标值函数的第二项。
步骤223,将目标值函数的第一项和第二项的和作为目标值函数。
在本公开的另一些实施例中,步骤22可以包括:为了度量d个特征的重要性,引入尺度因子向量其中尺度因子第j个元素θj>0,(1≤j≤d)评估第j个特征,并且所有尺度因子和为1即具体来说,若特征选择任务的目标是选取k个最重要的特征,可以对尺度因子向量θ中的元素进行从大到小排序,选取前k个值最大的尺度因子对应的特征。为了充分利用嵌入式特征选择方法与目标任务(分类或者回归)紧密融合的优势,本公开提出一种基于尺度因子加权的判别性特征选择算法,其目标公式如公式(1)所示:
公式(1)中,为对角矩阵,对角线上元素为非对角线上元素为0。为回归系数矩阵,用于将原始数据向标签目标Y进行回归,b为偏置向量,e为元素均为1的向量,λ为正则化参数。公式(1)第一项为扩展后的最小二乘回归,其动机为使得求解得到的变量W和b将样本向对应的标签进行映射,将数据标签的判别性信息嵌入到回归系数矩阵W,第二项为lF范数的正则化项。
步骤23,确定目标值最小的情况下的尺度因子向量。
在本公开的一些实施例中,步骤23可以包括步骤231-步骤233,其中:
步骤231,对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数。
在本公开的一些实施例中,步骤231可以包括:将最小二乘回归项作为第二目标值函数的第一项;将回归系数矩阵的l2,1范数平方正则化项作为第二目标值函数的第二项;将第二目标值函数的第一项和第二项的和作为第二目标值函数。
在本公开的另一些实施例中,步骤231可以包括:
假设固定W和b变量,求解此时最优的θ等价于求解如下公式(3)的最优化问题:
公式(3)有约束的最优化问题可以通过拉格朗日乘子法转化为无约束优化问题进行求解,最优解为公式(4)所示:
将公式(4)带入优化问题(3)的目标公式,则显然有公式(5):
则目标公式(2)可以消除优化变量θ,得到化简后的目标公式(6):
化简后的目标公式(6)第二项为l2,1范数平方正则化项,最优解W为行稀疏矩阵,即W的大部分行为全0向量,仅有少数行为非0向量。第j个特征的尺度因子θj的最优解为如公式(7)所示,,尺度因子值得大小反映对应特征在任务重的重要性,同时也给使用||wj||2评估特征提供理论支撑。
步骤232,交替优化回归系数矩阵和偏置向量两个变量,直到达到收敛条件。
在本公开的一些实施例中,步骤232中,所述交替优化回归系数矩阵和偏置向量两个变量的步骤可以包括步骤(1)和步骤(2),其中:
步骤(1),设定回归系数矩阵W不变,确定偏置向量b的当前迭代的最优解,即,设定固定W求解b。
当变量W固定时,优化目标公式(6)等价于优化公式(8)问题:
对上式中变量b求偏导,并令其为0,整理后则得到变量b当前迭代的最优解解析形式为公式(9):
步骤(2),设定偏置向量b不变,确定回归系数矩阵W的当前迭代的最优解,即,固定b求解W。
当变量b固定时,优化目标公式(6)等价于如下式公式(10)优化问题:
公式(13)中,Tr(WTQW)表示对矩阵WTQW求迹。
2XHT(HXTW-HY)42λQW=0 (15)
则W此步迭代的最优解解析形式为公式(16):
W=(XHTHXT+λQ)-1XHTHY (16)
由于HTH=H,公式(16)可以最终化简为公式(17):
W=(XHXT+λQ)-1XHY (17)
步骤233,将达到收敛条件下的尺度因子向量,作为目标值最小的情况下的尺度因子向量。
步骤24,从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。
在本公开的一些实施例中,步骤24可以包括:将尺度因子向量中的所有尺度因子从大到小进行排序;选择前k个尺度因子对应的特征作为目标特征。
基于本公开上述实施例提供的特征选择方法,通过引入尺度因子对最小二乘回归的系数矩阵进行缩放,并利用尺度因子对特征重要性进行评估。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例最后提出一种高效的可收敛迭代优化算法对提出的基于尺度因子加权的判别性特征选择方法进行优化求解。
本公开上述实施例的特征选择方法可以应用于网络数据、多媒体数据等电子数据的高维数据可视化、高维图像分类、高维数据压缩等高维数据的处理和分析领域,其中,高维数据压缩具体为将高维数据降低到2维或者3维用于数据低维展示;高维图像分类具体为将高维图像降维后使用分类器进行图像分类,如人脸识别、医学图像分类和高分辨率卫星图像分类等;高维数据压缩具体为将高维数据压缩后进行数据传输。
表1为本公开特征选择方法一些实施例中交替迭代优化算法的示意。
本公开上述实施例不需要对模型进行反复迭代训练,计算开销较小。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例特征选择算法与最终的机器学习任务紧密耦合。本公开上述实施例可以找到同时具有全局性和稀疏性的投影矩阵最优解。
为了验证本公开上述实施例提出方法的有效性,在八种标准数据集上对本公开上述实施例提出的特征选择方法进行验证,八种标准数据集信息如表2所示。
表2
本公开上述实施例在实验中使用尺度因子加权的判别性特征选择算法对训练样本进行特征选择,然后使用最近邻分类器进行分类任务,使用最终的分类正确率用来度量特征选择效果。同时为了与其他传统的特征选择方法进行对比,提出的方法实验结果与无监督特征降维方法PCA(principal components analysis,主成分分析)、无监督特征选择算法Laplacian Score(LS)和有监督特征选择算法Relief-F算法进行比较,并且使用全部的特征用于最近邻分类作为baseline。
本公开上述实施例对数据集进行十次随机划分,每次选取其中的9份数据作为训练数据,剩余的1份数据作为测试数据用于算法性能衡量,重复上述操作10次,取10次结果的平均值作为最终的实验结果。
表3
表3展示了五种不同方法在标准数据集上的分类结果,具体为本公开上述实施例提出的特征选择方法以及另外四种对比方法在8个标准数据集上分类任务准确率的结果,括号中为10次实验的方差。Baseline方法不进行特征选择,直接使用所有的原始数据特征进行分类。PCA、LS、Relief-F和本公开上述实施例提出的方法(Proposed)保留排序后原始特征个数的用于后续分类任务,特别注意的是当样本数据维度远高于样本数目时d>>n,PCA保留数据样本个数的特征作为分类器的输入。从表2的结果中可以看出,本发明提出的特征选择算法在7个数据集上取得了最好的分类准确率。在Binalpha数据集上的分类性能略低于Baseline和PCA,但是高于相关技术的LS和Relief-F特征选择算法,分析原因可能时因为Binalpha数据存在较多的类别(c=16),特征选择算法选取其中一部分特征可能会导致类别信息的大量丢失,进而使得最后的分类准确率与未进行特征选择算法Baseline和特征降维算法PCA有较大差距。
本公开上述实施例不需要对模型进行反复迭代训练,计算开销较小。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例特征选择算法与最终的机器学习任务紧密耦合。本公开上述实施例可以找到同时具有全局性和稀疏性的投影矩阵最优解。
图3为本公开特征选择装置一些实施例的示意图。如图3所示,本公开特征选择装置包括数据获取模块31、目标函数确定模块32、尺度因子确定模块33和特征选择模块34,其中:
数据获取模块31,用于获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵。
在本公开的一些实施例中,电子数据可以为各种类型的网络数据、基因表达数据、文档词频数据、用户数据及多媒体数据等,其中,网络数据可以包括网络文档数据和网络使用数据等各种类型的网络数据,多媒体数据可以包括文本、声音、视频等多种媒体形式的数据。
在本公开的一些实施例中,各种类型的网络数据、基因表达数据、文档词频数据、用户数据及多媒体数据等电子数据为高维度数据即多维度数据,为属性大于2的数据。
目标函数确定模块32,用于根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数。
在本公开的一些实施例中,目标函数确定模块32可以用于确定目标值函数的第一项,采用尺度因子矩阵对回归系数矩阵进行缩放,其中,目标值函数的第一项为扩展后的最小二乘回归项,用于采用回归系数矩阵,将原始数据矩阵向标签矩阵进行映射;将回归系数矩阵的lF范数的正则化项,作为目标值函数的第二项;将目标值函数的第一项和第二项的和作为目标值函数。
尺度因子确定模块33,用于确定目标值最小的情况下的尺度因子向量。
在本公开的一些实施例中,尺度因子确定模块33可以用于对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数;交替优化回归系数矩阵和偏置向量两个变量,直到达到收敛条件;将达到收敛条件下的尺度因子向量,作为目标值最小的情况下的尺度因子向量。
在本公开的一些实施例中,尺度因子确定模块33在对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数的情况下,可以用于将最小二乘回归项作为第二目标值函数的第一项;将回归系数矩阵的l2,1范数平方正则化项作为第二目标值函数的第二项;将第二目标值函数的第一项和第二项的和作为第二目标值函数。
在本公开的一些实施例中,尺度因子确定模块33在交替优化回归系数矩阵和偏置向量两个变量的情况下,可以用于设定回归系数矩阵不变,确定偏置向量的当前迭代的最优解;设定偏置向量不变,确定回归系数矩阵的当前迭代的最优解。
特征选择模块34,用于从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。
在本公开的一些实施例中,特征选择模块34可以用于将尺度因子向量中的所有尺度因子从大到小进行排序;选择前k个尺度因子对应的特征作为目标特征。
在本公开的一些实施例中,所述特征选择装置用于执行实现如上述任一实施例(例如图2实施例)所述的特征选择方法的操作。
基于本公开上述实施例提供的特征选择装置,通过引入尺度因子对最小二乘回归的系数矩阵进行缩放,并利用尺度因子对特征重要性进行评估。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例还提出一种高效的可收敛迭代优化算法对提出的基于尺度因子加权的判别性特征选择方法进行优化求解。
图4为本公开特征选择装置另一些实施例的示意图。如图4所示,本公开特征选择装置包括存储器41和处理器42,其中:
存储器41,用于存储指令。
处理器42,用于执行所述指令,使得所述特征选择装置执行实现如上述任一实施例(例如图2实施例)所述的特征选择方法的操作。
本公开上述实施例不需要对模型进行反复迭代训练,计算开销较小。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例特征选择算法与最终的机器学习任务紧密耦合。本公开上述实施例可以找到同时具有全局性和稀疏性的投影矩阵最优解。
图5为本公开多媒体数据降维处理方法一些实施例的示意图。优选的,本实施例可由本公开多媒体数据降维处理设备执行。该方法包括以下步骤51-步骤53,其中:
步骤51,获取多媒体数据的原始数据矩阵。
在本公开的一些实施例中,多媒体数据可以包括文本、声音、视频等多种媒体形式的数据。
步骤52,采用如上述任一实施例(例如图2实施例)所述的特征选择方法,确定原始数据矩阵的目标特征。
步骤53,根据所述目标特征对多媒体数据的原始数据进行降维处理。
在本公开的一些实施例中,步骤53可以包括:采用主成分分析、偏最小二乘或非线性映照等方式,根据所述目标特征对多媒体数据的原始数据进行降维处理。
图6为本公开多媒体数据降维处理设备一些实施例的示意图。如图6所示,本公开多媒体数据降维处理设备可以包括多媒体数据矩阵获取装置61、特征选择装置62和多媒体数据降维处理装置63,其中:
多媒体数据矩阵获取装置61,用于获取多媒体数据的原始数据矩阵。
特征选择装置62,用于采用确定原始数据矩阵的目标特征。
在本公开的一些实施例中,特征选择装置62可以为如上述任一实施例(例如图3或图4实施例)所述的特征选择装置。
多媒体数据降维处理装置63,用于根据所述目标特征对多媒体数据的原始数据进行降维处理。
本公开上述实施例可以更高效、准确地确定目标特征,从而可以方便、高效地对多媒体数据进行降维处理,将高维空间的多媒体数据投影到低维空间,一般为二维或二维空问中,方便进行后续的多媒体数据分类和和多媒体数据分析等数据处理。
图7为本公开网络数据降维处理方法一些实施例的示意图。优选的,本实施例可由本公开网络数据降维处理设备执行。该方法包括以下步骤71-步骤73,其中:
步骤71,获取网络数据的原始数据矩阵。
在本公开的一些实施例中,网络数据可以包括网络文档数据和网络使用数据等各种类型的网络数据.
步骤72,采用如上述任一实施例(例如图2实施例)所述的特征选择方法,确定原始数据矩阵的目标特征。
步骤73,根据所述目标特征对网络数据的原始数据进行降维处理。
在本公开的一些实施例中,步骤53可以包括:采用主成分分析、偏最小二乘或非线性映照等方式,根据所述目标特征对网络数据的原始数据进行降维处理。
图8为本公开网络数据降维处理设备一些实施例的示意图。如图8所示,本公开网络数据降维处理设备可以包括网络数据矩阵获取装置81、特征选择装置82和网络数据降维处理装置83,其中:
网络数据矩阵获取装置81,用于获取网络数据的原始数据矩阵。
特征选择装置82,用于采用确定原始数据矩阵的目标特征。
在本公开的一些实施例中,特征选择装置82可以为如上述任一实施例(例如图3或图4实施例)所述的特征选择装置。
网络数据降维处理装置83,用于根据所述目标特征对网络数据的原始数据进行降维处理。
本公开上述实施例可以更高效、准确地确定目标特征,从而可以方便、高效地对网络数据进行降维处理,将高维空间的网络数据投影到低维空间,一般为二维或二维空问中,方便进行后续的网络数据分类和和网络数据分析等数据处理。
根据本公开的另一方面,提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如上述任一实施例(例如图2实施例)所述的特征选择方法。
基于本公开上述实施例提供的计算机可读存储介质,通过引入尺度因子对最小二乘回归的系数矩阵进行缩放,并利用尺度因子对特征重要性进行评估。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例还提出一种高效的可收敛迭代优化算法对提出的基于尺度因子加权的判别性特征选择方法进行优化求解。
本公开上述实施例不需要对模型进行反复迭代训练,计算开销较小。本公开上述实施例证明了提出的方法等价于使用l2,1范数的平方作为惩罚项的稀疏特征选择模型,而尺度因子可以为使用稀疏解评估特征重要程度提供可解释性。本公开上述实施例特征选择算法与最终的机器学习任务紧密耦合。本公开上述实施例可以找到同时具有全局性和稀疏性的投影矩阵最优解。
在上面所描述的特征选择装置、多媒体数据降维处理设备和网络数据降维处理设备可以实现为用于执行本申请所描述功能的通用处理器、可编程逻辑控制器(PLC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。
Claims (13)
1.一种特征选择方法,其特征在于,包括:
获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;
根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;
确定目标值最小的情况下的尺度因子向量;
从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。
2.根据权利要求1所述的特征选择方法,其特征在于,所述根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数包括:
确定目标值函数的第一项,采用尺度因子矩阵对回归系数矩阵进行缩放,其中,目标值函数的第一项为扩展后的最小二乘回归项,用于采用回归系数矩阵,将原始数据矩阵向标签矩阵进行映射;
将回归系数矩阵的lF范数的正则化项,作为目标值函数的第二项;
将目标值函数的第一项和第二项的和作为目标值函数。
3.根据权利要求1或2所述的特征选择方法,其特征在于,所述确定目标值最小的情况下的尺度因子向量包括:
对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数;
交替优化回归系数矩阵和偏置向量两个变量,直到达到收敛条件;
将达到收敛条件下的尺度因子向量,作为目标值最小的情况下的尺度因子向量。
4.根据权利要求3所述的特征选择方法,其特征在于,所述对目标值函数进行处理,消除尺度因子向量,生成回归系数矩阵和偏置向量的第二目标值函数包括:
将最小二乘回归项作为第二目标值函数的第一项;
将回归系数矩阵的l2,1范数平方正则化项作为第二目标值函数的第二项;
将第二目标值函数的第一项和第二项的和作为第二目标值函数。
5.根据权利要求3所述的特征选择方法,其特征在于,所述交替优化回归系数矩阵和偏置向量两个变量包括:
设定回归系数矩阵不变,确定偏置向量的当前迭代的最优解;
设定偏置向量不变,确定回归系数矩阵的当前迭代的最优解。
6.根据权利要求1或2所述的特征选择方法,其特征在于,所述从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征包括:
将尺度因子向量中的所有尺度因子从大到小进行排序;
选择前k个尺度因子对应的特征作为目标特征。
7.一种多媒体数据降维处理方法,其特征在于,包括:
获取多媒体数据的原始数据矩阵;
采用如权利要求1-6中任一项所述的特征选择方法,确定原始数据矩阵的目标特征;
根据所述目标特征对多媒体数据的原始数据进行降维处理。
8.一种网络数据降维处理方法,其特征在于,包括:
获取网络数据的原始数据矩阵;
采用如权利要求1-6中任一项所述的特征选择方法,确定原始数据矩阵的目标特征;
根据所述目标特征对网络数据的原始数据进行降维处理。
9.一种特征选择装置,其特征在于,包括:
数据获取模块,用于获取原始数据矩阵和待选择特征数目k,其中,所述原始数据矩阵为电子数据的原始数据矩阵;
目标函数确定模块,用于根据原始数据矩阵、回归系数矩阵、标签矩阵、尺度因子矩阵和偏置向量确定目标值函数;
尺度因子确定模块,用于确定目标值最小的情况下的尺度因子向量;
特征选择模块,用于从尺度因子向量中选择k个尺度因子,将k个尺度因子对应的特征作为目标特征。
10.一种特征选择装置,其特征在于,包括:
存储器,用于存储指令;
处理器,用于执行所述指令,使得所述特征选择装置执行实现如权利要求1-6中任一项所述的特征选择方法的操作。
11.一种多媒体数据降维处理设备,其特征在于,包括:
多媒体数据矩阵获取装置,用于获取多媒体数据的原始数据矩阵;
如权利要求9或10所述的特征选择装置,用于采用确定原始数据矩阵的目标特征;
多媒体数据降维处理装置,用于根据所述目标特征对多媒体数据的原始数据进行降维处理。
12.一种网络数据降维处理设备,其特征在于,包括:
网络数据矩阵获取装置,用于获取网络数据的原始数据矩阵;
如权利要求9或10所述的特征选择装置,用于确定原始数据矩阵的目标特征;
网络数据降维处理装置,用于根据所述目标特征对网络数据的原始数据进行降维处理。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1-6中任一项所述的特征选择方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010123816.9A CN111783816B (zh) | 2020-02-27 | 2020-02-27 | 特征选择方法和装置、多媒体和网络数据降维方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010123816.9A CN111783816B (zh) | 2020-02-27 | 2020-02-27 | 特征选择方法和装置、多媒体和网络数据降维方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783816A true CN111783816A (zh) | 2020-10-16 |
CN111783816B CN111783816B (zh) | 2024-09-20 |
Family
ID=72753074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010123816.9A Active CN111783816B (zh) | 2020-02-27 | 2020-02-27 | 特征选择方法和装置、多媒体和网络数据降维方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783816B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505163A (zh) * | 2021-09-10 | 2021-10-15 | 成都明途科技有限公司 | 基于大数据挖掘的组织目标分析方法、系统、存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213327A1 (en) * | 2014-01-29 | 2015-07-30 | Lockheed Martin Corporation | Visual feature extraction methods and systems |
CN105320963A (zh) * | 2015-10-21 | 2016-02-10 | 哈尔滨工业大学 | 面向高分遥感图像的大尺度半监督特征选择方法 |
CN107203787A (zh) * | 2017-06-14 | 2017-09-26 | 江西师范大学 | 一种无监督正则化矩阵分解特征选择方法 |
CN107203489A (zh) * | 2017-03-27 | 2017-09-26 | 中国科学院信息工程研究所 | 一种基于最优重构的特征选择方法 |
CN107909077A (zh) * | 2017-10-10 | 2018-04-13 | 安徽信息工程学院 | 半监督情况下基于稀疏化理论的特征选择方法 |
CN108388918A (zh) * | 2018-02-28 | 2018-08-10 | 中国科学院西安光学精密机械研究所 | 具有结构保持特性的数据特征选择方法 |
CN109389127A (zh) * | 2017-08-14 | 2019-02-26 | 华北理工大学 | 结构化多视图Hessian正则化稀疏特征选择方法 |
CN109800812A (zh) * | 2019-01-24 | 2019-05-24 | 山东大学第二医院 | 基于仿冒过滤器的ct图像分类特征选择方法及系统 |
-
2020
- 2020-02-27 CN CN202010123816.9A patent/CN111783816B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213327A1 (en) * | 2014-01-29 | 2015-07-30 | Lockheed Martin Corporation | Visual feature extraction methods and systems |
CN105320963A (zh) * | 2015-10-21 | 2016-02-10 | 哈尔滨工业大学 | 面向高分遥感图像的大尺度半监督特征选择方法 |
CN107203489A (zh) * | 2017-03-27 | 2017-09-26 | 中国科学院信息工程研究所 | 一种基于最优重构的特征选择方法 |
CN107203787A (zh) * | 2017-06-14 | 2017-09-26 | 江西师范大学 | 一种无监督正则化矩阵分解特征选择方法 |
CN109389127A (zh) * | 2017-08-14 | 2019-02-26 | 华北理工大学 | 结构化多视图Hessian正则化稀疏特征选择方法 |
CN107909077A (zh) * | 2017-10-10 | 2018-04-13 | 安徽信息工程学院 | 半监督情况下基于稀疏化理论的特征选择方法 |
CN108388918A (zh) * | 2018-02-28 | 2018-08-10 | 中国科学院西安光学精密机械研究所 | 具有结构保持特性的数据特征选择方法 |
CN109800812A (zh) * | 2019-01-24 | 2019-05-24 | 山东大学第二医院 | 基于仿冒过滤器的ct图像分类特征选择方法及系统 |
Non-Patent Citations (2)
Title |
---|
CHEN Z.等: "Iterative Sparsity Score for Feature Selection and Its Extension for Multimodal Data", NEUROCOMPUTING, 21 February 2017 (2017-02-21) * |
彭瑶 等: "基于超图的多模态特征选择算法及其应用", 计算机科学与探索, 14 December 2016 (2016-12-14) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505163A (zh) * | 2021-09-10 | 2021-10-15 | 成都明途科技有限公司 | 基于大数据挖掘的组织目标分析方法、系统、存储介质 |
CN113505163B (zh) * | 2021-09-10 | 2021-12-14 | 成都明途科技有限公司 | 基于大数据挖掘的组织目标分析方法、系统、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111783816B (zh) | 2024-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pun et al. | Persistent-Homology-based machine learning and its applications--A survey | |
Lei et al. | Classification, parameter estimation and state estimation: an engineering approach using MATLAB | |
Litman et al. | Learning spectral descriptors for deformable shape correspondence | |
Gisbrecht et al. | Data visualization by nonlinear dimensionality reduction | |
Alzate et al. | Multiway spectral clustering with out-of-sample extensions through weighted kernel PCA | |
CN104573729B (zh) | 一种基于核主成分分析网络的图像分类方法 | |
JP4376145B2 (ja) | 画像分類学習処理システム及び画像識別処理システム | |
US20150074130A1 (en) | Method and system for reducing data dimensionality | |
Li et al. | A novel dimension reduction and dictionary learning framework for high-dimensional data classification | |
Dai et al. | Metric imitation by manifold transfer for efficient vision applications | |
US20220058431A1 (en) | Semantic input sampling for explanation (sise) of convolutional neural networks | |
Wang et al. | Two-stage content based image retrieval using sparse representation and feature fusion | |
Song et al. | MPPCANet: A feedforward learning strategy for few-shot image classification | |
Liu et al. | A robust graph based multi-label feature selection considering feature-label dependency | |
CN111783816A (zh) | 特征选择方法和装置、多媒体和网络数据降维方法和设备 | |
Batalo et al. | Temporal-stochastic tensor features for action recognition | |
Fonał et al. | Fast hierarchical tucker decomposition with single-mode preservation and tensor subspace analysis for feature extraction from augmented multimodal data | |
Xu et al. | Sliced inverse regression with adaptive spectral sparsity for dimension reduction | |
Peluffo et al. | Optimal data projection for kernel spectral clustering | |
Perry et al. | Visualization of topology optimization designs with representative subset selection | |
Ribeiro et al. | Texture characterization via automatic threshold selection on image-generated complex network | |
CN112541502B (zh) | 一种图像处理方法、装置及计算机存储介质和电子设备 | |
Juneja et al. | Graph-based strategy for establishing morphology similarity | |
CN113792761B (zh) | 基于Gabor特征与EMAP特征的遥感图像分类方法 | |
Nsimba et al. | Nonlinear dimensionality reduction in texture classification: is manifold learning better than PCA? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |