CN107220656A - 一种基于自适应特征降维的多标记数据分类方法 - Google Patents

一种基于自适应特征降维的多标记数据分类方法 Download PDF

Info

Publication number
CN107220656A
CN107220656A CN201710250167.7A CN201710250167A CN107220656A CN 107220656 A CN107220656 A CN 107220656A CN 201710250167 A CN201710250167 A CN 201710250167A CN 107220656 A CN107220656 A CN 107220656A
Authority
CN
China
Prior art keywords
matrix
multiple labeling
dimensionality reduction
labeling data
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710250167.7A
Other languages
English (en)
Inventor
龚晓庆
王磊
许鹏飞
郭军
肖云
徐丹
陈晓江
房鼎益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN201710250167.7A priority Critical patent/CN107220656A/zh
Publication of CN107220656A publication Critical patent/CN107220656A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于自适应特征降维的多标记数据分类方法,该方法的过程包括数据读取、重构标记矩阵、构造降维模型、降维模型优化、最优化求解、特征降维以及多标记数据分类等。本发明投影矩阵的最优化求解过程,对高维特征的数据,进行线性变换,投影到低维空间,有效的降低分类任务中数据的复杂程度,去除冗余特征,保留有辨识度的特征,很好的解决了传统方法导致计算复杂度高的问题,提高了数据分类的效率。本发明构造降维模型的过程,利用多标记数据的标记矩阵,通过聚类得到潜在语义信息,有效解决了原始数据中噪声对分类准确率的影响,提高了数据分类的准确率。

Description

一种基于自适应特征降维的多标记数据分类方法
技术领域
本发明属于机器学习技术领域,涉及一种基于自适应特征降维的多标记数据分类方法,用于数据挖掘和大数据中,对包含噪声、特征复杂的多标记数据进行分类。
背景技术
随着计算能力、存储、网络的高速发展,人类积累的数据量正以指数速度增长。对于这些数据,人们迫切希望从中提取出隐藏其中的有用信息,更需要发现更深层次的规律,对决策,商务应用提供更有效的支持。为了满足这种需求,数据挖掘技术的得到了长足的发展,而多标记数据的分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。
多标记数据,是指数据中一个样本同时属于多个类别,例如在图像分类任务中,一个图像同时包含“山川”和“河流”,一个文件可能同时属于“环保”和“健康”类别,一个基因同时属于“变异基因”和“复制基因”。多标记数据的特征是人为规定,多标记是先验信息,事前已知的。数据特征是指人为规定的对数据的描述方法,例如图像数据,特征可以是每个图像样本的像素的灰度值所组成的矩阵;文本数据,特征可以是每个文本样本的总字数,特定字符出现的频率等组成的矩阵。所获取的原始数据特征一般所处高维空间,包含信息冗余较大,应用于分类任务中,计算复杂度高,效率低,并且容易受噪声数据影响,准确度不高。因此,传统的分类方法不能很好的应用于数据挖掘的分类过程。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于,提供一种基于自适应特征降维的多标记数据分类方法,以解决现有的分类方法计算复杂度高,准确度低的缺点,提高分类任务的性能。
为了实现上述任务,本发明采用以下技术方案:
一种基于自适应特征降维的多标记数据分类方法,包括以下步骤:
步骤一,读取已知分类的多标记数据,分别将已知分类的多标记数据的特征和标记存储为特征矩阵X和标记矩阵Y;读取待分类的多标记数据,将待分类的多标记数据的特征存储为矩阵T;
步骤二,将标记矩阵Y重构为潜在语义矩阵V和系数矩阵B以降低标记矩阵Y中噪声的影响;
步骤三,引入投影矩阵W,利用截断范数构造降维模型如下:
上式中,xi是特征矩阵X的第i行,n是特征矩阵X的行数,即特征矩阵X中的样本个数;vi是潜在语义矩阵V的第i行,||·||F是F-范数,||·||2是2-范数,α和γ是系数,取值范围为(0,1];
步骤四,在降维模型中加入几何结构约束,以使降维前后数据的局部几何结构保持一致;
步骤五,利用降维模型构造目标函数,采用梯度下降法对目标函数进行迭代,直到目标函数收敛,得到投影矩阵W的最优解;
步骤六,对已知分类的多标记数据、待分类的多标记数据进行投影降维处理,并对降维后的数据进行分类处理,完成。
进一步地,步骤二中进行标记矩阵Y重构时需要满足的公式为:
上式中,表示F-范数的平方,Y为n×k的矩阵,V为n×c的矩阵,B为c×k的矩阵。n,c,k分别是矩阵中样本的个数、重构中聚类的个数、标记的个数。
进一步地,步骤四的具体过程包括:
步骤4.1,根据特征矩阵X计算相似度矩阵S的第i行第j列元素:
上式中,xi、xj分别是特征矩阵X的第i行和第j列向量,σ2是特征矩阵X的方差;
步骤4.2,定义拉普拉斯矩阵L:
L=A-S
其中对角矩阵A的第i行第i列元素n是相似度矩阵S中样本的个数;
步骤4.3,加入几何结构约束,构造模型如下:
上式中,β是系数,0<β≤1,Tr(·)表示矩阵的迹,ε为参数,取值范围为(0,0.1]。
进一步地,步骤五的具体过程包括:
步骤5.1,构造目标函数J如下:
为了方便求偏导数和迭代,对目标函数变形得:
其中矩阵F的第i行第i列元素Ind(·)表示满足条件值为1,不满足条件值为0;
步骤5.2,目标函数J(W,V,B)分别对W,V,B求偏导数:
步骤5.3,梯度下降过程,W、V、B的更新规则如下:
其中,λV,λB,λW为梯度下降的步长,取值范围均为(0,1];
步骤S54,对W、V、B分别赋予随机初值,代入目标函数J(W,V,B),求得的值记为;利用步骤S53中的变量更新规则,得到新的变量W',V',B',再代入目标函数J(W',V',B'),求得的值记为J';
计算目标函数的下降程度G=J'-J,若G>10^-3,则循环上述步骤,直到G≤10^-3,此时输出投影矩阵W,即为最优化解。
进一步地,步骤六中进行投影降维处理的过程为:
根据步骤五中得到的投影矩阵W,已知分类的多标记数据特征矩阵X的自适应降维后的特征矩阵X',如下:
X'=X*W
待分类的多标记数据特征矩阵自适应降维后的特征矩阵T',如下:
T'=T*W
进一步地,步骤六中进行分类处理的过程为:
计算特征矩阵T'中第i个样本与特征矩阵X'第j个样本之间的距离Dij
Dij=|X′i-T′j|i,j=1,2,…n
其中n为特征矩阵X'中样本个数;
对第i个样本与其他样本之间的距离进行升序排列:
{Di1,Di2,Di3…Dik…Din}
然后统计距离第i个样本最近的个样本中,统计出现频率最多的类标记,即为第i个样本的所属分类。
本发明与现有技术相比具有以下技术特点:
1.本发明投影矩阵的最优化求解过程,对高维特征的数据,进行线性变换,投影到低维空间,有效的降低分类任务中数据的复杂程度,去除冗余特征,保留有辨识度的特征,很好的解决了传统方法导致计算复杂度高的问题,提高了数据分类的效率。
2.本发明构造降维模型的过程,利用多标记数据的标记矩阵,通过聚类得到潜在语义信息,有效解决了原始数据中噪声对分类准确率的影响,提高了数据分类的准确率。
附图说明
图1为本发明方法的流程图;
具体实施方式
一、方法详细步骤
本发明提供了一种基于自适应特征降维的多标记数据分类方法,包括以下步骤:
步骤一,数据读取
利用Matlab读取已知分类的多标记数据,分别将已知分类的多标记数据的特征和标记存储为特征矩阵X和标记矩阵Y;读取待分类的多标记数据,将待分类的多标记数据的特征存储为矩阵T;
步骤二,重构标记矩阵
将标记矩阵Y重构为潜在语义矩阵V和系数矩阵B以降低标记矩阵Y中噪声的影响;具体地:
为了降低标记矩阵Y中噪声的影响,将Y重构为两个更低维度的潜在语义矩阵V和系数矩阵B。并且重构误差最小,需满足下式:
上式中,表示F-范数的平方,Y为n×k的矩阵,V为n×c的矩阵,B为c×k的矩阵。n,c,k分别是矩阵中样本的个数、重构中聚类的个数、标记的个数。特征矩阵和表即矩阵为同一个数据集不同方面的描述,其中的样本个数n是相同的。
步骤三,构造降维模型
引入投影矩阵W,利用截断范数构造降维模型如下:
上式中,xi是特征矩阵X的第i行,n是特征矩阵X的行数,即特征矩阵X中的样本数;vi是潜在语义矩阵V的第i行,||·||F是F-范数,||·||2是2-范数,α和γ是系数,取值范围为(0,1];投影矩阵W是d×c的矩阵,d是样本特征的维数,c是重构中聚类的个数。降维模型中第一项和第三项就是表达对W的要求,第一项最小化公式要求投影矩阵W要使得投影后的特征矩阵与潜在语义矩阵的误差尽可能小,第三项F-范数要求投影矩阵W每一个元素都尽可能小,从而使得模型泛化能力强。
因为潜在语义矩阵V减少了多标记矩阵Y中噪声的影响,所以我们利用回归模型和潜在语义矩阵V的优势,构造上述降维模型同时进行了标记矩阵Y的重构和降维,同时也加强了降维过程的鲁棒性。
步骤四,在降维模型中加入几何结构约束,以使降维前后数据的局部几何结构保持一致;
步骤4.1,根据特征矩阵X计算相似度矩阵S的第i行第j列元素:
上式中,xi、xj分别是特征矩阵X的第i行和第j列向量,σ2是特征矩阵X的方差;
步骤4.2,定义拉普拉斯矩阵L:
L=A-S
其中对角矩阵A的第i行第i列元素n是相似度矩阵S中样本的个数,也是行数或列数;矩阵的每个元素代表了任意两个样本之间的相似程度;
步骤4.3,为了使降维前后数据的局部几何结构保持一致,加入几何结构约束,构造模型如下:
上式中,β是系数,0<β≤1,Tr(·)表示矩阵的迹,ε为参数,取值范围为(0,0.1],其余参数含义同步骤三中的降维模型。
步骤五,利用步骤四处理后的降维模型构造目标函数,采用梯度下降法对目标函数进行迭代,直到目标函数收敛,得到投影矩阵W的最优解;
步骤5.1,构造目标函数J如下:
为了方便求偏导数和迭代,对目标函数变形得:
其中矩阵F的第i行第i列元素Ind(·)表示满足条件值为1,不满足条件值为0;
骤5.2,目标函数J(W,V,B)分别对W,V,B求偏导数:
步骤5.3,梯度下降过程,W、V、B的更新规则如下:
其中,λV,λB,λW为梯度下降的步长,取值范围均为(0,1];根据目标函数的趋势确定,当目标函数下降太慢时,将步长调大,当步长过大,而导致目标函数上升时,再将步长调小。
步骤S54,对W、V、B分别赋予随机初值,代入目标函数J(W,V,B),求得的值记为;利用步骤S53中的变量更新规则,得到新的变量W',V',B',再代入目标函数J(W',V',B'),求得的值记为J';
计算目标函数的下降程度G=J'-J,若G>10^-3,则循环上述步骤,直到G≤10^-3,此时输出投影矩阵W,即为最优化解。
步骤六,对已知分类的多标记数据、待分类的多标记数据进行投影降维处理,并对降维后的数据进行分类处理,完成;具体地:
进行投影降维处理的过程为:
根据步骤五中得到的投影矩阵W,已知分类的多标记数据特征矩阵X的自适应降维后的特征矩阵X',如下:
X'=X*W
待分类的多标记数据特征矩阵自适应降维后的特征矩阵T',如下:
T'=T*W
进行分类处理的过程为:
计算特征矩阵T'中第i个样本与特征矩阵X'第j个样本之间的距离Dij
Dij=|X′i-T′j|i,j=1,2,…n
其中n为特征矩阵X'中样本个数;
对第i个样本与其他样本之间的距离进行升序排列:
{Di1,Di2,Di3…Dik…Din}
然后统计距离第i个样本最近的个样本中,统计出现频率最多的类标记,
即为第i个样本的所属分类。
二、仿真实验
对本发明中提出的多标记降维方法的仿真。
仿真条件是MATLAB R2014b 64位软件下进行。
本实验以MR Boutell等人于2004年在Pattern Recognition上发表的论文“Learning multi-label scene classification”中的数据集Scene作为仿真实验的数据,包含1211个训练样本,1196个测试样本,294维特征,6个标记。分别对比本发明方法与主成分分析(PCA),线性判别式(LDA),局部保持投影(LPP)将特征降低到100维后的在各标记上的分类准确率和总的时间耗费。
表1本发明方法与PCA、LDA、LPP的准确率对比
表2本发明方法与PCA、LDA、LPP的耗费时间对比
方法 PCA LDA LPP 本发明方法
时间(秒) 121 82 180 58
结合表1和表2中的实验数据,本发明的多标记数据分类方法在4个标记的准确率都是高于其他三种方法,并且完成分类任务的时间成本明显低于其他方法。因此,实验结果表明,本发明在大多数情况下具有高准确率、高效率等优点。

Claims (6)

1.一种基于自适应特征降维的多标记数据分类方法,其特征在于,包括以下步骤:
步骤一,读取已知分类的多标记数据,分别将已知分类的多标记数据的特征和标记存储为特征矩阵X和标记矩阵Y;读取待分类的多标记数据,将待分类的多标记数据的特征存储为矩阵T;
步骤二,将标记矩阵Y重构为潜在语义矩阵V和系数矩阵B以降低标记矩阵Y中噪声的影响;
步骤三,引入投影矩阵W,利用截断范数构造降维模型如下:
上式中,xi是特征矩阵X的第i行,n是特征矩阵X中的样本个数,vi是潜在语义矩阵V的第i行,||·||F是F-范数,||·||2是2-范数,α和γ是系数,取值范围为(0,1];
步骤四,在降维模型中加入几何结构约束,以使降维前后数据的局部几何结构保持一致;
步骤五,利用降维模型构造目标函数,采用梯度下降法对目标函数进行迭代,直到目标函数收敛,得到投影矩阵W的最优解;
步骤六,对已知分类的多标记数据、待分类的多标记数据进行投影降维处理,并对降维后的数据进行分类处理,完成。
2.如权利要求1所述的所述的基于自适应特征降维的多标记数据分类方法,其特征在于,步骤二中进行标记矩阵Y重构时需要满足的公式为:
上式中,表示F-范数的平方,Y为n×k的矩阵,V为n×c的矩阵,B为c×k的矩阵,n,c,k分别是矩阵中样本的个数、重构中聚类的个数、标记的个数。
3.如权利要求1所述的所述的基于自适应特征降维的多标记数据分类方法,其特征在于,步骤四的具体过程包括:
步骤4.1,根据特征矩阵X计算相似度矩阵S的第i行第j列元素:
上式中,xi、xj分别是特征矩阵X的第i行和第j列向量,σ2是特征矩阵X的方差;
步骤4.2,定义拉普拉斯矩阵L:
L=A-S
其中对角矩阵A的第i行第i列元素n是相似度矩阵S中样本的个数;
步骤4.3,加入几何结构约束,构造模型如下:
上式中,β是系数,0<β≤1,Tr(·)表示矩阵的迹,ε为参数,取值范围为(0,0.1]。
4.如权利要求3所述的基于自适应特征降维的多标记数据分类方法,其特征在于,步骤五的具体过程包括:
步骤5.1,构造目标函数J如下:
为了方便求偏导数和迭代,对目标函数变形得:
其中矩阵F的第i行第i列元素Ind(·)表示满足条件值为1,不满足条件值为0;
步骤5.2,目标函数J(W,V,B)分别对W,V,B求偏导数:
步骤5.3,梯度下降过程,W、V、B的更新规则如下:
其中,λV,λB,λW为梯度下降的步长,取值范围均为(0,1];
步骤S54,对W、V、B分别赋予随机初值,代入目标函数J(W,V,B),求得的值记为;利用步骤S53中的变量更新规则,得到新的变量W',V',B',再代入目标函数J(W',V',B'),求得的值记为J';
计算目标函数的下降程度G=J'-J,若G>10^-3,则循环上述步骤,直到G≤10^-3,此时输出投影矩阵W,即为最优化解。
5.如权利要求4所述的基于自适应特征降维的多标记数据分类方法,其特征在于,步骤六中进行投影降维处理的过程为:
根据步骤五中得到的投影矩阵W,已知分类的多标记数据特征矩阵X的自适应降维后的特征矩阵X',如下:
X'=X*W
待分类的多标记数据特征矩阵自适应降维后的特征矩阵T',如下:
T'=T*W 。
6.如权利要求5所述的基于自适应特征降维的多标记数据分类方法,其特征在于,步骤六中进行分类处理的过程为:
计算特征矩阵T'中第i个样本与特征矩阵X'第j个样本之间的距离Dij
Dij=|X′i-T′j|i,j=1,2,…n
其中n为特征矩阵X'中样本个数;
对第i个样本与其他样本之间的距离进行升序排列:
{Di1,Di2,Di3…Dik…Din}
然后统计距离第i个样本最近的个样本中,统计出现频率最多的类标记,即为第i个样本的所属分类。
CN201710250167.7A 2017-04-17 2017-04-17 一种基于自适应特征降维的多标记数据分类方法 Pending CN107220656A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710250167.7A CN107220656A (zh) 2017-04-17 2017-04-17 一种基于自适应特征降维的多标记数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710250167.7A CN107220656A (zh) 2017-04-17 2017-04-17 一种基于自适应特征降维的多标记数据分类方法

Publications (1)

Publication Number Publication Date
CN107220656A true CN107220656A (zh) 2017-09-29

Family

ID=59927876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710250167.7A Pending CN107220656A (zh) 2017-04-17 2017-04-17 一种基于自适应特征降维的多标记数据分类方法

Country Status (1)

Country Link
CN (1) CN107220656A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388918A (zh) * 2018-02-28 2018-08-10 中国科学院西安光学精密机械研究所 具有结构保持特性的数据特征选择方法
CN108710725A (zh) * 2018-04-17 2018-10-26 桂林电子科技大学 一种基于多色集合理论的复杂装配尺寸链求解方法
CN110309425A (zh) * 2019-07-05 2019-10-08 北京字节跳动网络技术有限公司 用于存储数据的方法和装置
CN111563547A (zh) * 2020-04-30 2020-08-21 南京信息职业技术学院 一种基于改进的截断核范数的鲁棒主成分分析方法
CN113298149A (zh) * 2021-05-25 2021-08-24 广东云曌医疗科技有限公司 图像聚类方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388918A (zh) * 2018-02-28 2018-08-10 中国科学院西安光学精密机械研究所 具有结构保持特性的数据特征选择方法
CN108388918B (zh) * 2018-02-28 2020-06-12 中国科学院西安光学精密机械研究所 具有结构保持特性的数据特征选择方法
CN108710725A (zh) * 2018-04-17 2018-10-26 桂林电子科技大学 一种基于多色集合理论的复杂装配尺寸链求解方法
CN110309425A (zh) * 2019-07-05 2019-10-08 北京字节跳动网络技术有限公司 用于存储数据的方法和装置
CN110309425B (zh) * 2019-07-05 2021-08-24 北京字节跳动网络技术有限公司 用于存储数据的方法和装置
CN111563547A (zh) * 2020-04-30 2020-08-21 南京信息职业技术学院 一种基于改进的截断核范数的鲁棒主成分分析方法
CN111563547B (zh) * 2020-04-30 2023-05-02 南京信息职业技术学院 一种基于改进的截断核范数的鲁棒主成分分析方法
CN113298149A (zh) * 2021-05-25 2021-08-24 广东云曌医疗科技有限公司 图像聚类方法及系统
CN113298149B (zh) * 2021-05-25 2022-02-01 广东云曌医疗科技有限公司 图像聚类方法及系统

Similar Documents

Publication Publication Date Title
Zhang et al. Vector of locally and adaptively aggregated descriptors for image feature representation
CN107220656A (zh) 一种基于自适应特征降维的多标记数据分类方法
US6260036B1 (en) Scalable parallel algorithm for self-organizing maps with applications to sparse data mining problems
CN105184298B (zh) 一种快速局部约束低秩编码的图像分类方法
Yin et al. Scene classification based on single-layer SAE and SVM
Gosselin et al. Revisiting the fisher vector for fine-grained classification
Frossyniotis et al. A clustering method based on boosting
Taylor et al. Learning invariance through imitation
US9342991B2 (en) Systems and methods for generating a high-level visual vocabulary
CN109389166A (zh) 基于局部结构保存的深度迁移嵌入聚类机器学习方法
CN105574548A (zh) 一种基于稀疏和低秩表示图的高光谱数据降维方法
CN103258210B (zh) 一种基于字典学习的高清图像分类方法
CN110334724B (zh) 基于lstm的遥感对象自然语言描述及多尺度矫正方法
CN105678261B (zh) 基于有监督图的直推式数据降维方法
Picard et al. Efficient image signatures and similarities using tensor products of local descriptors
Yee et al. DeepScene: Scene classification via convolutional neural network with spatial pyramid pooling
CN106601235A (zh) 一种半监督多任务特征选择的语音识别方法
CN104376051A (zh) 随机结构保形哈希信息检索方法
CN108460400A (zh) 一种结合多种特征信息的高光谱图像分类方法
CN107578063B (zh) 基于快速选取地标点的图像谱聚类方法
CN112766400A (zh) 高维数据基于多个数据变换空间的半监督分类集成方法
CN106803105B (zh) 一种基于稀疏表示字典学习的图像分类方法
CN103473308B (zh) 基于最大间隔张量学习的高维多媒体数据分类方法
CN103456017B (zh) 基于种子集的半监督权重核模糊聚类的图像分割方法
CN102930258B (zh) 一种人脸图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170929