CN107256411A - 特征选择和标记相关性联合学习的多标记数据分类方法 - Google Patents
特征选择和标记相关性联合学习的多标记数据分类方法 Download PDFInfo
- Publication number
- CN107256411A CN107256411A CN201710388023.8A CN201710388023A CN107256411A CN 107256411 A CN107256411 A CN 107256411A CN 201710388023 A CN201710388023 A CN 201710388023A CN 107256411 A CN107256411 A CN 107256411A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- msup
- mtd
- munder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000002372 labelling Methods 0.000 title abstract 6
- 239000011159 matrix material Substances 0.000 claims abstract description 55
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims description 46
- 239000013598 vector Substances 0.000 claims description 24
- 239000003550 marker Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 238000013145 classification model Methods 0.000 claims description 7
- 230000000875 corresponding effect Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 abstract 1
- 230000037430 deletion Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种基于特征选择和标记相关性联合学习的多标记数据分类方法,主要针对标记缺失情况下的多标记数据分类问题,包含如下步骤:标记相关性矩阵初始化;运用特征选择和标记相关性联合学习算法(JLFLLC)学习得到标记相关性矩阵和分类器参数;模型预测;本发明将特征选择与标记相关性联合学习算法应用于多标记数据的分类,以此来提高多标记数据的分类精度,此外,本发明中将正则化技术运用在模型中,以控制联合学习模型中分类模型的复杂度和标记相关性的大小,防止过拟合,进一步提高多标记数据的分类效果。
Description
技术领域
本发明涉及机器学习和模式识别技术领域,特别是一种基于特征选择和标记相关性联合学习的多标记数据分类方法。
背景技术
在真实世界中,用一个标记难以确切地描述一些复杂的对象,学习对象可能与多个标记有关,如,在文本分类中,一则关于上海踩踏事件的新闻报道可能同时包含“上海”、“外滩”、“陈毅广场”、“踩踏事件”和“跨年夜活动”等多个概念类别标记;在图像分类中,一幅关于校园的图像可能同时与“草地”、“操场”、“建筑物”、“蓝天”和“白云”等多个语义概念标记有关。可见,同时具有多个标记的对象无处不在,而传统的监督学习方法难以很好地处理同时包含多个语义概念的对象,致使多标记学习成为机器学习、模式识别等领域中一个重要的研究热点。同时,在许多情况下,获得一个样本所属的完全标记是比较困难的,相反,获得部分标记却相对来说更容易些,即有部分标记缺失。在缺失标记的情况下,由于有些标记信息是缺失的,故难以通过计算标记的共现性或构建基于标记的邻接图来事先获得标记之间的标记性,也事先难以准确的给出先验知识来刻画标记之间的相关性。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,而提供一种基于特征选择和标记相关性联合学习的多标记数据分类方法,以此来有效地提高多标记数据的分类精度。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于特征选择和标记相关性联合学习的多标记数据分类方法,包括以下步骤:
步骤1、初始化标记相关性矩阵,对多标记数据的各个特征做归一化处理;
步骤2、运用特征选择和标记相关性联合学习算法学习得到标记相关性矩阵和分类器参数:交替迭代更新标记相关性矩阵和分类器参数,直到满足迭代终止条件输出学习得到的标记相关性矩阵和分类器参数;具体如下:
首先给出基于特征选择和标记相关性联合学习算法JLFLLC的模型如下所示:
s.t.sq,q=1,q=1,...,Q
其中,xi表示第i个样本,xi∈Rd,Q表示标记个数,Rd为d维特征空间,d为特征个数,Yiq=+1表示第i个样本隶属于第q个标记,Yiq=-1表示第i个样本不隶属于第q个标记,Yiq=0表示第i个样本关于第q个标记的信息是缺失的,b表示偏差向量,b=[b1,...,bQ]∈R1×Q,bq为第q个偏差项,R1×Q为1×Q维的实数空间,sq=[sq,1,...,sq,q-1,1,sq,q+1,...,sq,Q]T∈RQ,RQ为Q维的实数空间,sq,m为第q个标记与第m个标记的相关性大小,1≤m≤Q、m为整数且m≠q,T为转置,W为权重矩阵,α和β为正则化参数,λ为惩罚参数;
固定S,更新W和b,分类器参数包括W和b;将JLFLLC的模型的优化问题转化为如下等价的约束光滑凸优化问题,定义函数g(u,W)如下:
其中,u=[u1,...,ud]T,u为模型的松弛变量,uj为u第j个分量,wj为W的第j个分量,η为折中因子,函数J(W)为光滑凸函数,为光滑凸的;
采用基于Nesterov的加速梯度求解方法来求解问题(1),从而得到分类器参数;
固定W和b,更新S;W和b固定时,将JLFLLC的模型的优化问题退化为如下问题:
s.t.sq,q=1,q=1,...,Q
进一步,上式进一步分解成Q个独立的子优化问题,其中,第q个子优化问题表示为:
s.t.sq,q=1
该问题是个光滑的凸优化问题,利用最优化方法直接求解得到S;
步骤3、运用学习得到的标记相关性矩阵和分类器参数进行标记预测,得到分类结果;根据该分类结果获得多标记数据的分类模型,并根据该多标记数据的分类模型预测所有待分类的多标记数据的标记,输出多标记数据的分类结果。
作为本发明所述的一种基于特征选择和标记相关性联合学习的多标记数据分类方法进一步优化方案,步骤1中初始化标记相关性矩阵,即假设初始化时同一标记之间是相关的,而不同标记之间不相关。
作为本发明所述的一种基于特征选择和标记相关性联合学习的多标记数据分类方法进一步优化方案,初始化标记相关性矩阵为单位矩阵,归一化处理是使每个特征对应的特征向量的2范数为1。
作为本发明所述的一种基于特征选择和标记相关性联合学习的多标记数据分类方法进一步优化方案,所述步骤2具体如下:
首先给出基于特征选择和标记相关性联合学习算法的模型如下所示:
s.t.sq,q=1,q=1,...,Q
其中,xi表示第i个训练集样本,xi∈Rd,Q表示标记个数,Rd为d维特征空间,d为特征个数,Yiq=+1表示第i个样本隶属于第q个标记,Yiq=-1表示第i个样本不隶属于第q个标记,Yiq=0表示第i个样本关于第q个标记的信息是缺失的,b表示偏差向量,b=[b1,...,bQ]∈R1×Q,bq为第q个偏差项,R1×Q为1×Q维的实数空间,sq=[sq,1,...,sq,q-1,1,sq,q+1,...,sq,Q]T∈RQ,RQ为Q维的实数空间,sq,m为第q个标记与第m个标记的相关性大小,1≤m≤Q、m为整数且m≠q,T为转置,W为权重矩阵,α和β为正则化参数,λ为惩罚参数;
固定S,更新W和b,分类器参数包括W和b;
当标记相关矩阵S已知时,上式的模型的优化问题退化为:
该式为一个非光滑的凸问题,设数据矩阵X和标记矩阵Y已经中心化,此时所有的偏差项{bq}为0,该式改写为:
其中,η为折中因子,为光滑凸的,进一步,将其转化为如下等价的约束光滑凸优化问题,然后用Nesterov方法进行求解,定义函数g(u,W)如下:
其中,u=[u1,...,ud]T,u为模型的松弛变量,uj为u第j个分量,wj为W的第j个分量,函数J(W)为光滑凸函数,因此优化问题(1)是封闭凸的;
采用基于Nesterov的加速梯度求解方法来求解对问题(1),具体步骤如下:
A、初始化:设初始化步长γ0>0,初始解(u0,W0),设置最大迭代次数;
B、令(u1,W1)=(u0,W0),初始迭代步数t=1,β-1=0以及β0=1;
C、执行以下步骤,直到满足停止准则,停止准则为收敛或迭代次数t达到最大迭代次数;
(3.1)令其中,βt-1是第t-1次的正则化参数;
(3.2)(vt,Zt)=(ut+αt(ut-ut-1),Wt+αt(Wt-Wt-1)),其中,ut、Wt、vt、Zt分别是第t次迭代的参数,αt为连接系数;
(3.3)循环执行步骤3.3.1-3.3.2,直到其中,g(ut+1,Wt+1)是g(u,W)的第t+1次迭代;
(3.3.1)
(3.3.2)
(3.4)
(3.5)若满足停止准则,则(u,W)=(ut,Wt);
其中,γt表示第t次迭代步长,πΩ(v,Z)表示(v,Z)到凸集Ω上的欧式投影,其定义为:g(vt,Zt)为g(v,Z)的第t+1次迭代,g(v,Z)为松弛变量v和Z在g(u,W)中的函数值,▽vg(v,Z)表示g(v,Z)关于v的偏导数为:▽vg(v,Z)=η1,其中,1为全1的d维列向量,而▽Zg(v,Z)表示g(v,Z)关于Z的偏导数:▽Zg(v,Z)=XT(XZ-Y)+λXTXZM,其中,M=(IQ-S)(IQ-S)T,IQ表示Q维的单位矩阵;
固定W和b,更新S;
W和b固定时,优化问题退化为如下问题:
s.t.sq,q=1,q=1,...,Q
进一步,上式进一步分解成Q个独立的子优化问题,其中,第q个子优化问题表示为:
s.t.sq,q=1
该问题是个光滑的凸优化问题,利用最优化方法直接求解得到S。
作为本发明所述的一种基于特征选择和标记相关性联合学习的多标记数据分类方法进一步优化方案,采用Nesterov方法求解优化问题(1)的时间复杂度为其中,n、d和Q分别代表样本个数、特征个数以及标记个数,τ为容差。
作为本发明所述的一种基于特征选择和标记相关性联合学习的多标记数据分类方法进一步优化方案,步骤3中所述得到分类结果是指计算出未知样本xu的预测值q=1,...,Q;所述多标记数据的分类结果是指计算出未知样本xu的类别标记向量h(xu)=sgn(f1(xu),...,fQ(xu))。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)设计了将多标记数据的标记相关性和特征选择策略融合,构建联合的多标记数据分类学习模型;对构建的非光滑凸函数采用基于Nesterov的加速梯度求解方法进行有效求解;融合标记相关性和特征选择策略的学习模型可有效获得标记相关矩阵和分类器参数,进而可有效提高多标记数据的分类效果,本发明可直接用于多标记数据的分类;
(2)本发明能够通过嵌入标记相关性和特征选择策略可得到标记相关性矩阵和更有判别能力的分类器,以此来提高多标数据的分类精度,此外,本发明中通过挖掘标记之间的相关性,进而估计出缺失标记,适用于标记缺失情况下的多标记数据的分类,因此具有较高的使用价值;针对缺失标记的情况,通过学习来获得高阶非对称的标记相关性,并且同时学习分类模型以及对特征空间进行降维,可有效改进有标记缺失情况下的多标记数据分类精度。
附图说明
图1是本发明流程图。
图2是本发明中运用JLFLLC学习得到标记相关性矩阵和分类器步骤子流程图。
图3是本发明中分类步骤子流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
如图1所示,本发明公开了本发明公开了基于特征选择和标记相关性联合学习的多标记数据分类算法,包含如下步骤:
步骤1,标记相关性矩阵初始化为单位矩阵,即假设初始化时同一标记之间是相关的,而不同标记之间不相关,不同标记之间的相关性通过步骤2的学习得到;
步骤2,运用特征选择和标记相关性联合学习算法JLFLLC学习得到标记相关性矩阵和分类器参数:交替迭代更新标记相关性矩阵和分类器参数,直到满足迭代终止条件输出学习得到的标记相关性矩阵和分类器参数;
步骤3,模型预测:运用学习得到的标记相关性矩阵和分类器参数进行标记预测,得到分类结果;根据多标记数据的分类模型预测所有待分类的多标记数据的标记;输出多标记数据的分类结果。
需要说明的是本发明的核心步骤是运用JLFLLC学习得到标记相关性矩阵和分类器,并给出各步骤的具体实施方法。
如图2所示,标记相关性矩阵初始化及特征并归一化处理的具体实施步骤如下:
步骤4,标记相关性矩阵S=IQ,其中,IQ为单位矩阵;步骤5,归一化处理,使每个特征对应的特征向量的2范数为1。
如图2所示,运用JLFLLC学习得到标记相关性矩阵和分类器具体实施步骤如下:
对有缺失标记情况的多标记数据分类,挖掘标记之间的相关性才能有效克服标记缺失的情况。提出的模型同时考虑多标记分类,标记相关性以及特征选择,这样可以联合学习分类模型参数,标记相关性矩阵,并且可以进行特征选择。同时,为了考虑标记之间的相关性,构建了一个条件依赖网络,将输入向量和其他标记变量作为每个节点的父亲节点,然而其他标记变量不是一个固定的值,而是一个变量。此外,通过引入权重矩阵的l2,1范数选择多个两类分类任务之间共享的稀疏特征结构。由此,构建了一个联合学习模型,包括一个损失项(考虑缺失标记),两个正则化项:分别控制模型复杂度和标记相关性大小,以及权重矩阵的l2,1范数
综上可见,提出的模型具有以下特点:(1)提出了一个新的多标记分类算法,同时考虑了标记之间的相关性,缺失标记问题以及特征选择;(2)标记之间的相关性不是事先计算得到,而是通过学习得到,而且标记之间的相关性可以是负的,非对称的;(3)提出的模型不仅可以处理缺失标记的多标记数据集,也可以处理完全标记的多标记数据集。
先给出一些符号说明:
假设为包含n个样本的训练集。其中,xi∈Rd表示第i个训练样本,Yi∈{+1,0,-1}Q表示其相应的标记向量,d表示特征空间的维数,Q表示标记个数。Yiq=+1表示第i个样本隶属于第q个标记,Yiq=-1表示第i个样本不隶属于第q个标记,Yiq=0表示第i个样本关于第q个标记的信息是缺失的。训练第q个标记所对应的分类器时,用其他标记变量的值对原始特征向量进行扩展,即:将其他标记变量的值作为额外的特征,比如:用代替x,其中表示样本x在除了第q个标记之外的其他标记上的值。因此,第q个标记所对应的判别函数为:
其中,wq∈Rd和bq∈R分别表示第q个预测函数所对应的权重向量和偏差,表示标记相关性向量。已有方法采用:在每次迭代学习的过程中是固定的,学习wq时,只依赖于标记相关性向量而没有考虑其他的权重向量;与已有方法不同,新模型令是一个可变而非固定的值,这样在学习某个wq时,不仅考虑了其他的权重向量,而且也考虑了标记相关性向量这样不仅可以使得原本各自独立的二类分类器可以联合学习,从而增强了各个二类分类器的学习效果,而且标记相关性和多标记分类也联合学习,使得学习得到的标记之间的相关性更加准确。故提出的新算法的第q个标记所对应的判别函数为:
其中,sq=[sq,1,...,sq,q-1,1,sq,q+1,...,sq,Q]T∈RQ,权重矩阵W=[w1,...,wQ]∈Rd ×Q,偏差向量b=[b1,...,bQ]∈R1×Q。为了便于表示,令标记相关矩阵S=[s1,...,sQ]∈RQ×Q。
首先给出JLFLLC的模型如下:
s.t.sq,q=1,q=1,...,Q
式中:第一项为损失项,当且仅当样本所对应的标记为已知标记时才发生,第二项控制模型的复杂度,第三项用来控制标记相关性的大小,a和β为正则化参数,用来平衡这三项,约束项用来约束标记自身的相关性为1。Yiq=+1表示第i个样本隶属于第q个标记,Yiq=-1表示第i个样本不隶属于第q个标记,Yiq=0表示第i个样本关于第q个标记的信息是缺失的。b表示偏差向量,b=[b1,...,bQ]∈R1×Q,bq为第q个偏差项,R1×Q为1×Q维的实数空间,sq=[sq,1,...,sq,q-1,1,sq,q+1,...,sq,Q]T∈RQ,RQ为Q维的实数空间,sq,m为第q个标记与第m个标记的相关性大小,1≤m≤Q、m为整数且m≠q,T为转置,W为权重矩阵,α和β为正则化参数,λ为惩罚参数;
上述问题可以分解为2个子问题进行求解,固定S,更新W和b;固定W和b,更新S,JLFLLC的具体求解方法如下:
步骤5,固定S,更新W和b;改写模型,计算替代模型的优化参数:
固定S,更新W和b。当标记相关矩阵S已知时,模型中的第三项为常量,可以忽略,
同时约束项也可以忽略,因此模型的优化问题可退化为:
上式为一个非光滑的凸问题,直接求解困难。为了方便讨论,假设数据矩阵X和标记矩阵Y已经中心化,此时所有的偏差项{bq}为0。上式可改写为:
其中,为光滑凸的。进一步,将其转化为如下等价的约束光滑凸优化问题,然后用Nesterov方法进行求解:
其中,u=[u1,...,ud]T,d为松弛变量的个数,u为模型的松弛变量,uj为u第j个分量,wj为W的第j个分量。此外,函数J(W)为光滑凸函数,因此优化问题(1)是封闭凸的。
对问题(1),采用基于Nesterov(Y.Nesterov,I.U.E Nesterov,Introductorylectures on convex optimization:A basic course,Kluwer Academic Publishers,Holland,2004.)的加速梯度求解方法来求解,主要步骤如下:
(1)初始化:设γ0>0表示初始化步长,初始解(u0,W0),最大迭代次数为max_iter;
(2)令(u1,W1)=(u0,W0),t=1,β-1=0以及β0=1;
(3)反复执行以下步骤,直到收敛或迭代步数t为max_iter
(3.1)令其中βt-1是第t-1次的正则化参数;
(3.2)(vt,Zt)=(ut+αt(ut-ut-1),Wt+αt(Wt-Wt-1)),其中ut、Wt、vt、Zt分别是第t次迭代的参数,αt为连接系数。
(3.3)循环执行下列步骤直到其中g(ut+1,Wt+1)是g(u,W)的第t+1次迭代:
(3.3.1)
(3.3.2)
(3.4)
(3.5)若满足停止准则,则(u,W)=(ut,Wt),转(4)。
(4)结束.
其中,(3.3.2)中的γt表示第t次迭代步长,πΩ(v,Z)表示(v,Z)到凸集Ω上的欧式投影,其定义为: g(vt,Zt)为g(v,Z)的第t+1次迭代,▽vg(v,Z)表示g(v,Z)关于v的偏导数为:▽vg(v,Z)=η1,其中,1为全1的d维列向量,而▽Zg(v,Z)表示g(v,Z)关于Z的偏导数:▽Zg(v,Z)=XT(XZ-Y)+λXTXZM,其中M=(IQ-S)(IQ-S)T,IQ表示Q维的单位矩阵。(3.3)中的gγ,v,Z(u,W)如下:
步骤6,由改写模型的解决得到原模型的解,即得到原模型中分类器参数。
步骤7,固定W和b,更新S:
W和b固定时,模型中的第四项为常数项,故可以忽略。因此,优化问题退化为如下问题:
s.t.sq,q=1,q=1,...,Q
进一步,上式可以进一步分解成Q个独立的子优化问题,其中第q个子优化问题表示为:
s.t.sq,q=1
该问题是个光滑的凸优化问题,利用最优化方法可直接求解得到S。
步骤8,若不满足终止条件,则转步骤5;否则转步骤9;
步骤9,得到标记相关性矩阵和分类器。
如图3所示,模型预测具体实施步骤如下:
步骤10,对未标记样本进行归一化处理;
步骤11,计算未知样本xu的预测值
步骤12,计算未知样本xu的类别标记向量h(xu)=sgn(f1(xu),...,fQ(xu))。
步骤13,输出每个样本对应的标记集。
对所有待分类的多标记数据按上述方法进行分类,得到最终的多标记数据的分类结果。
以上对本发明所提供的基于特征选择和标记相关性联合学习的多标记数据分类方法进行了详细介绍。值得注意的是,具体实现该技术方案的方法和途径有很多,以上所述仅是本发明的优选实施方式,只用于帮助理解本发明的方法及核心思想;同时,对于本领域的一般技术人员,在本发明核心思想的基础上,做出的修改和调整都将视为本发明的保护范围。综上所述,本说明书内容不应理解为对本发明的限制,本发明的保护范围应由所附的权利要求来限定。
Claims (6)
1.一种基于特征选择和标记相关性联合学习的多标记数据分类方法,其特征在于,包括以下步骤:
步骤1、初始化标记相关性矩阵,对多标记数据的各个特征做归一化处理;
步骤2、运用特征选择和标记相关性联合学习算法学习得到标记相关性矩阵和分类器参数:交替迭代更新标记相关性矩阵和分类器参数,直到满足迭代终止条件输出学习得到的标记相关性矩阵和分类器参数;具体如下:
首先给出基于特征选择和标记相关性联合学习算法JLFLLC的模型如下所示:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>,</mo>
<mi>b</mi>
<mo>,</mo>
<mi>S</mi>
<mo>)</mo>
</mrow>
</msub>
<mo>=</mo>
<munder>
<mrow>
<mi>arg</mi>
<mi>min</mi>
</mrow>
<mrow>
<mi>W</mi>
<mo>,</mo>
<mi>b</mi>
<mo>,</mo>
<msubsup>
<mrow>
<mo>{</mo>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mo>}</mo>
</mrow>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</msubsup>
</mrow>
</munder>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>:</mo>
<msub>
<mi>Y</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
<mo>&NotEqual;</mo>
<mn>0</mn>
</mrow>
</munder>
<mi>log</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mi>exp</mi>
<mo>(</mo>
<mrow>
<mo>-</mo>
<msub>
<mi>Y</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mi>T</mi>
</msup>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>bs</mi>
<mi>q</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&alpha;</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>Ws</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>+</mo>
<mi>&beta;</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>W</mi>
<mo>|</mo>
<msub>
<mo>|</mo>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
s.t.sq,q=1,q=1,...,Q
其中,xi表示第i个样本,xi∈Rd,Q表示标记个数,Rd为d维特征空间,d为特征个数,Yiq=+1表示第i个样本隶属于第q个标记,Yiq=-1表示第i个样本不隶属于第q个标记,Yiq=0表示第i个样本关于第q个标记的信息是缺失的,b表示偏差向量,b=[b1,...,bQ]∈R1×Q,bq为第q个偏差项,R1×Q为1×Q维的实数空间,sq=[sq,1,...,sq,q-1,1,sq,q+1,...,sq,Q]T∈RQ,RQ为Q维的实数空间,sq,m为第q个标记与第m个标记的相关性大小,1≤m≤Q、m为整数且m≠q,T为转置,W为权重矩阵,α和β为正则化参数,λ为惩罚参数;
固定S,更新W和b,分类器参数包括W和b;将JLFLLC的模型的优化问题转化为如下等价的约束光滑凸优化问题,定义函数g(u,W)如下:
<mrow>
<munder>
<mi>min</mi>
<mrow>
<mo>{</mo>
<mi>u</mi>
<mo>,</mo>
<mi>W</mi>
<mo>}</mo>
<mo>&Element;</mo>
<mi>&Omega;</mi>
</mrow>
</munder>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>W</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>&eta;&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>d</mi>
</msubsup>
<msub>
<mi>u</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,u=[u1,...,ud]T,u为模型的松弛变量,uj为u第j个分量,wj为W的第j个分量,η为折中因子,函数J(W)为光滑凸函数,为光滑凸的;
采用基于Nesterov的加速梯度求解方法来求解问题(1),从而得到分类器参数;
固定W和b,更新S;W和b固定时,将JLFLLC的模型的优化问题退化为如下问题:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<munder>
<mi>min</mi>
<msubsup>
<mrow>
<mo>{</mo>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mo>}</mo>
</mrow>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</msubsup>
</munder>
</mtd>
<mtd>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>:</mo>
<msub>
<mi>Y</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
<mo>&NotEqual;</mo>
<mn>0</mn>
</mrow>
</munder>
<mi>log</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mi>exp</mi>
<mo>(</mo>
<mrow>
<mo>-</mo>
<msub>
<mi>Y</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mi>T</mi>
</msup>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>bs</mi>
<mi>q</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&alpha;</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>Ws</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&beta;</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
s.t.sq,q=1,q=1,...,Q
进一步,上式进一步分解成Q个独立的子优化问题,其中,第q个子优化问题表示为:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<munder>
<mi>min</mi>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
</munder>
</mtd>
<mtd>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>:</mo>
<msub>
<mi>Y</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
<mo>&NotEqual;</mo>
<mn>0</mn>
</mrow>
</munder>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mi>exp</mi>
<mo>(</mo>
<mrow>
<mo>-</mo>
<msub>
<mi>Y</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mi>T</mi>
</msup>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>bs</mi>
<mi>q</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&alpha;</mi>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>Ws</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&beta;</mi>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
s.t.sq,q=1
该问题是个光滑的凸优化问题,利用最优化方法直接求解得到S;
步骤3、运用学习得到的标记相关性矩阵和分类器参数进行标记预测,得到分类结果;根据该分类结果获得多标记数据的分类模型,并根据该多标记数据的分类模型预测所有待分类的多标记数据的标记,输出多标记数据的分类结果。
2.根据权利要求1所述的一种基于特征选择和标记相关性联合学习的多标记数据分类方法,其特征在于,步骤1中初始化标记相关性矩阵,即假设初始化时同一标记之间是相关的,而不同标记之间不相关。
3.根据权利要求1所述的一种基于特征选择和标记相关性联合学习的多标记数据分类方法,其特征在于,初始化标记相关性矩阵为单位矩阵,归一化处理是使每个特征对应的特征向量的2范数为1。
4.根据权利要求1所述的一种基于特征选择和标记相关性联合学习的多标记数据分类方法,其特征在于,所述步骤2具体如下:
首先给出基于特征选择和标记相关性联合学习算法的模型如下所示:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>,</mo>
<mi>b</mi>
<mo>,</mo>
<mi>S</mi>
<mo>)</mo>
</mrow>
</msub>
<mo>=</mo>
<munder>
<mrow>
<mi>arg</mi>
<mi>min</mi>
</mrow>
<mrow>
<mi>W</mi>
<mo>,</mo>
<mi>b</mi>
<mo>,</mo>
<msubsup>
<mrow>
<mo>{</mo>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mo>}</mo>
</mrow>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</msubsup>
</mrow>
</munder>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>:</mo>
<msub>
<mi>Y</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
<mo>&NotEqual;</mo>
<mn>0</mn>
</mrow>
</munder>
<mi>log</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mi>exp</mi>
<mo>(</mo>
<mrow>
<mo>-</mo>
<msub>
<mi>Y</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mi>T</mi>
</msup>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>bs</mi>
<mi>q</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&alpha;</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>Ws</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>+</mo>
<mi>&beta;</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>W</mi>
<mo>|</mo>
<msub>
<mo>|</mo>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
s.t.sq,q=1,q=1,...,Q
其中,xi表示第i个训练集样本,xi∈Rd,Q表示标记个数,Rd为d维特征空间,d为特征个数,Yiq=+1表示第i个样本隶属于第q个标记,Yiq=-1表示第i个样本不隶属于第q个标记,Yiq=0表示第i个样本关于第q个标记的信息是缺失的,b表示偏差向量,b=[b1,...,bQ]∈R1 ×Q,bq为第q个偏差项,R1×Q为1×Q维的实数空间,sq=[sq,1,...,sq,q-1,1,sq,q+1,...,sq,Q]T∈RQ,RQ为Q维的实数空间,sq,m为第q个标记与第m个标记的相关性大小,1≤m≤Q、m为整数且m≠q,T为转置,W为权重矩阵,α和β为正则化参数,λ为惩罚参数;
固定S,更新W和b,分类器参数包括W和b;
当标记相关矩阵S已知时,上式的模型的优化问题退化为:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<munder>
<mi>min</mi>
<mrow>
<mi>W</mi>
<mo>,</mo>
<mi>b</mi>
</mrow>
</munder>
</mtd>
<mtd>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>:</mo>
<msub>
<mi>Y</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
<mo>&NotEqual;</mo>
<mn>0</mn>
</mrow>
</munder>
<mi>log</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mi>exp</mi>
<mo>(</mo>
<mrow>
<mo>-</mo>
<msub>
<mi>Y</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mi>T</mi>
</msup>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>bs</mi>
<mi>q</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&alpha;</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>Ws</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>W</mi>
<mo>|</mo>
<msub>
<mo>|</mo>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
该式为一个非光滑的凸问题,设数据矩阵X和标记矩阵Y已经中心化,此时所有的偏差项{bq}为0,该式改写为:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<munder>
<mi>min</mi>
<mi>W</mi>
</munder>
</mtd>
<mtd>
<mrow>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&eta;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>W</mi>
<mo>|</mo>
<msub>
<mo>|</mo>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
其中,η为折中因子,为光滑凸的,进一步,将其转化为如下等价的约束光滑凸优化问题,然后用Nesterov方法进行求解,定义函数g(u,W)如下:
<mrow>
<munder>
<mi>min</mi>
<mrow>
<mo>{</mo>
<mi>u</mi>
<mo>,</mo>
<mi>W</mi>
<mo>}</mo>
<mo>&Element;</mo>
<mi>&Omega;</mi>
</mrow>
</munder>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>W</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>&eta;&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>d</mi>
</msubsup>
<msub>
<mi>u</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,u=[u1,...,ud]T,u为模型的松弛变量,uj为u第j个分量,wj为W的第j个分量,函数J(W)为光滑凸函数,因此优化问题(1)是封闭凸的;
采用基于Nesterov的加速梯度求解方法来求解对问题(1),具体步骤如下:
A、初始化:设初始化步长γ0>0,初始解(u0,W0),设置最大迭代次数;
B、令(u1,W1)=(u0,W0),初始迭代步数t=1,β-1=0以及β0=1;
C、执行以下步骤,直到满足停止准则,停止准则为收敛或迭代次数t达到最大迭代次数;
(3.1)令其中,βt-1是第t-1次的正则化参数;
(3.2)(vt,Zt)=(ut+αt(ut-ut-1),Wt+αt(Wt-Wt-1)),其中,ut、Wt、vt、Zt分别是第t次迭代的参数,αt为连接系数;
(3.3)循环执行步骤3.3.1-3.3.2,直到其中,g(ut+1,Wt+1)是g(u,W)的第t+1次迭代;
(3.3.1)γt=2-iγt-1,
(3.3.2)
(3.4)
(3.5)若满足停止准则,则(u,W)=(ut,Wt);
其中,γt表示第t次迭代步长,πΩ(v,Z)表示(v,Z)到凸集Ω上的欧式投影,其定义为:g(vt,Zt)为g(v,Z)的第t+1次迭代,g(v,Z)为松弛变量v和Z在g(u,W)中的函数值,表示g(v,Z)关于v的偏导数为:其中,1为全1的d维列向量,而表示g(v,Z)关于Z的偏导数:其中,M=(IQ-S)(IQ-S)T,IQ表示Q维的单位矩阵;
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>g</mi>
<mrow>
<mi>&gamma;</mi>
<mo>,</mo>
<mi>v</mi>
<mo>,</mo>
<mi>Z</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>W</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>,</mo>
<mi>Z</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mo><</mo>
<msub>
<mo>&dtri;</mo>
<mi>v</mi>
</msub>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>,</mo>
<mi>Z</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>u</mi>
<mo>-</mo>
<mi>v</mi>
<mo>></mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>+</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>d</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<msub>
<mrow>
<mo>(</mo>
<msub>
<mo>&dtri;</mo>
<mi>Z</mi>
</msub>
<mi>g</mi>
<mo>(</mo>
<mrow>
<mi>v</mi>
<mo>,</mo>
<mi>Z</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<msub>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>-</mo>
<mi>Z</mi>
<mo>)</mo>
</mrow>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>+</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mn>2</mn>
<mi>&gamma;</mi>
</mrow>
</mfrac>
<mo>|</mo>
<mo>|</mo>
<mi>u</mi>
<mo>-</mo>
<mi>v</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mn>2</mn>
<mi>&gamma;</mi>
</mrow>
</mfrac>
<mo>|</mo>
<mo>|</mo>
<mi>W</mi>
<mo>-</mo>
<mi>Z</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mi>F</mi>
<mn>2</mn>
</msubsup>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>;</mo>
</mrow>
固定W和b,更新S;
W和b固定时,优化问题退化为如下问题:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<munder>
<mi>min</mi>
<msubsup>
<mrow>
<mo>{</mo>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mo>}</mo>
</mrow>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</msubsup>
</munder>
</mtd>
<mtd>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>:</mo>
<msub>
<mi>Y</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
<mo>&NotEqual;</mo>
<mn>0</mn>
</mrow>
</munder>
<mi>log</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mi>exp</mi>
<mo>(</mo>
<mrow>
<mo>-</mo>
<msub>
<mi>Y</mi>
<mi>q</mi>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mi>T</mi>
</msup>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>bs</mi>
<mi>q</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&alpha;</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>Ws</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&beta;</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
s.t.sq,q=1,q=1,...,Q
进一步,上式进一步分解成Q个独立的子优化问题,其中,第q个子优化问题表示为:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<munder>
<mi>min</mi>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
</munder>
</mtd>
<mtd>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>:</mo>
<msub>
<mi>Y</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
<mo>&NotEqual;</mo>
<mn>0</mn>
</mrow>
</munder>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mi>exp</mi>
<mo>(</mo>
<mrow>
<mo>-</mo>
<msub>
<mi>Y</mi>
<mrow>
<mi>i</mi>
<mi>q</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mi>T</mi>
</msup>
<msup>
<mi>W</mi>
<mi>T</mi>
</msup>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>bs</mi>
<mi>q</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>&alpha;</mi>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>Ws</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&beta;</mi>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>s</mi>
<mi>q</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
s.t.sq,q=1
该问题是个光滑的凸优化问题,利用最优化方法直接求解得到S。
5.根据权利要求4所述的一种基于特征选择和标记相关性联合学习的多标记数据分类方法,其特征在于,采用Nesterov方法求解优化问题(1)的时间复杂度为其中,n、d和Q分别代表样本个数、特征个数以及标记个数,τ为容差。
6.根据权利要求1所述的一种基于特征选择和标记相关性联合学习的多标记数据分类方法,其特征在于,步骤3中所述得到分类结果是指计算出未知样本xu的预测值q=1,...,Q;所述多标记数据的分类结果是指计算出未知样本xu的类别标记向量h(xu)=sgn(f1(xu),...,fQ(xu))。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710388023.8A CN107256411A (zh) | 2017-05-27 | 2017-05-27 | 特征选择和标记相关性联合学习的多标记数据分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710388023.8A CN107256411A (zh) | 2017-05-27 | 2017-05-27 | 特征选择和标记相关性联合学习的多标记数据分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107256411A true CN107256411A (zh) | 2017-10-17 |
Family
ID=60027749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710388023.8A Pending CN107256411A (zh) | 2017-05-27 | 2017-05-27 | 特征选择和标记相关性联合学习的多标记数据分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107256411A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947938A (zh) * | 2019-01-28 | 2019-06-28 | 萍乡学院 | 多标记分类方法、系统、可读存储介质及计算机设备 |
CN110750520A (zh) * | 2019-10-23 | 2020-02-04 | 深圳前海微众银行股份有限公司 | 特征数据处理方法、装置、设备及可读存储介质 |
WO2021022717A1 (zh) * | 2019-08-02 | 2021-02-11 | 深圳前海微众银行股份有限公司 | 联邦学习中特征相关性分析方法、装置及可读存储介质 |
CN113378514A (zh) * | 2021-08-12 | 2021-09-10 | 华东交通大学 | 多标记数据特征选择处理方法及装置 |
CN114818979A (zh) * | 2022-05-25 | 2022-07-29 | 东南大学 | 一种基于最大化间隔机制的含噪多标记分类方法 |
-
2017
- 2017-05-27 CN CN201710388023.8A patent/CN107256411A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947938A (zh) * | 2019-01-28 | 2019-06-28 | 萍乡学院 | 多标记分类方法、系统、可读存储介质及计算机设备 |
WO2021022717A1 (zh) * | 2019-08-02 | 2021-02-11 | 深圳前海微众银行股份有限公司 | 联邦学习中特征相关性分析方法、装置及可读存储介质 |
CN110750520A (zh) * | 2019-10-23 | 2020-02-04 | 深圳前海微众银行股份有限公司 | 特征数据处理方法、装置、设备及可读存储介质 |
CN113378514A (zh) * | 2021-08-12 | 2021-09-10 | 华东交通大学 | 多标记数据特征选择处理方法及装置 |
CN113378514B (zh) * | 2021-08-12 | 2021-11-05 | 华东交通大学 | 多标记数据特征选择处理方法及装置 |
CN114818979A (zh) * | 2022-05-25 | 2022-07-29 | 东南大学 | 一种基于最大化间隔机制的含噪多标记分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Haeusser et al. | Associative deep clustering: Training a classification network with no labels | |
CN107256411A (zh) | 特征选择和标记相关性联合学习的多标记数据分类方法 | |
US11410033B2 (en) | Online, incremental real-time learning for tagging and labeling data streams for deep neural networks and neural network applications | |
Liu et al. | Multi-objective convolutional learning for face labeling | |
CN109558942B (zh) | 一种基于浅度学习的神经网络迁移方法 | |
CN110533024B (zh) | 基于多尺度roi特征的双二次池化细粒度图像分类方法 | |
CN109740686A (zh) | 一种基于区域池化和特征融合的深度学习图像多标记分类方法 | |
CN103605984B (zh) | 基于超图学习的室内场景分类方法 | |
CN111369572A (zh) | 一种基于图像修复技术的弱监督语义分割方法和装置 | |
CN112036447A (zh) | 零样本目标检测系统及可学习语义和固定语义融合方法 | |
SG171858A1 (en) | A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine | |
CN103745233B (zh) | 基于空间信息迁移的高光谱图像分类方法 | |
CN112488209B (zh) | 一种基于半监督学习的增量式图片分类方法 | |
CN108154156B (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
CN107330448A (zh) | 一种基于标记协方差和多标记分类的联合学习方法 | |
CN110705591A (zh) | 一种基于最优子空间学习的异构迁移学习方法 | |
Witoonchart et al. | Application of structured support vector machine backpropagation to a convolutional neural network for human pose estimation | |
CN104966052A (zh) | 基于属性特征表示的群体行为识别方法 | |
Jiang et al. | W-net: one-shot arbitrary-style Chinese character generation with deep neural networks | |
CN116363374B (zh) | 图像语义分割网络持续学习方法、系统、设备及存储介质 | |
CN110795410A (zh) | 一种多领域文本分类方法 | |
Xing et al. | Transfer shape modeling towards high-throughput microscopy image segmentation | |
CN111401122B (zh) | 一种基于知识分类的复杂目标渐近识别方法及装置 | |
CN110990630B (zh) | 一种基于图建模视觉信息的利用问题指导的视频问答方法 | |
Yamashita et al. | Cost-alleviative learning for deep convolutional neural network-based facial part labeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171017 |