CN117274726B - 一种基于多视角补标签的图片分类方法与系统 - Google Patents
一种基于多视角补标签的图片分类方法与系统 Download PDFInfo
- Publication number
- CN117274726B CN117274726B CN202311570268.4A CN202311570268A CN117274726B CN 117274726 B CN117274726 B CN 117274726B CN 202311570268 A CN202311570268 A CN 202311570268A CN 117274726 B CN117274726 B CN 117274726B
- Authority
- CN
- China
- Prior art keywords
- view
- representing
- matrix
- updating
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 239000011159 matrix material Substances 0.000 claims abstract description 73
- 230000000007 visual effect Effects 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 44
- 230000000295 complement effect Effects 0.000 claims abstract description 42
- 238000006243 chemical reaction Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 6
- 241000764238 Isis Species 0.000 claims description 5
- 230000003190 augmentative effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000006911 nucleation Effects 0.000 claims description 3
- 238000010899 nucleation Methods 0.000 claims description 3
- 230000000452 restraining effect Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 4
- 230000000153 supplemental effect Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多视角补标签的图片分类方法与系统。所述方法包括:提取训练图片的多视角视觉特征;将提取的特征送入多视角补标签学习模型中,利用交替方向乘子法求解每个视角所对应的转换矩阵;利用得到的转换矩阵对待识别的图像进行分类。本发明通过约束训练样本与补标签向量集相似度及其与非补标签向量集相似度的数量关系构建损失函数;利用不同视角视觉特征之间的信息共享实现它们的一致性和互补性;利用样本的非补标签集构建一种样本标签的半监督学习策略,实现对模型信息的充分挖掘,提高图像分类准确度。
Description
技术领域
本发明涉及图像识别技术领域,具体涉及一种基于补标签学习的图片分类方法与系统。
背景技术
传统图像识别的训练过程需要足够多的良好标注的样本来确保模型的泛化性能。然而,在现实应用中,获取每一个训练样本的所属类别往往需要花费大量的时间和人力成本。为此,基于弱监督学习的识别模型逐渐成为研究热点。使用补标签进行学习(Complementary Label Learning, CLL)是弱监督学习的一种。在补标签学习中,每个训练样本都对应一个补标签集,指定该样本不属于某些类。大多情况下,获取样本的补标签集要比获取它的正确标签容易得多,例如,通常人们难以给珍稀动物打上正确的标签,但却能够很容易地判断出它“是不是狗”、“是不是大象”、“是不是猴子”。然而,相比于明确标签,补标签所能提供的监督信息减少,因此,所训练的分类器的精度可能会降低。因此,需要一种新的补标签分类器,提高图片分类精度。
发明内容
发明目的:本发明的目的是提供一种基于多视角补标签的图片分类方法与系统,采用图片样本的多视角视觉特征对补标签分类器进行训练,提升补标签分类器的泛化性能,从而实现对图像的更精准的识别。
技术方案:第一方面,一种基于多视角补标签的图片分类方法,包括以下步骤:
提取训练图片的多视角视觉特征;
将提取的多视角视觉特征送入多视角补标签学习模型中,利用交替方向乘子法求解每个视角所对应的转换矩阵;
利用得到的转换矩阵对待识别的图片进行分类;
其中,多视角补标签学习模型表示为如下优化问题:
问题P1:
;
约束条件:
;
;
;
;
;
其中,K代表类别数,N代表训练样本个数,表示补标签集,Y代表可能标签集;分别为视角A、B对应的视觉特征核矩阵,为核函数,/>和/>分别为训练样本在A、B视角下的视觉特征矩阵;通过采用一个K维向量来表达任意标签,其中相应的标签分量为1,而其他分量均为0,则/>的每一列分别代表相应样本的非补标签向量集的平均向量和补标签向量集的平均向量,分别代表训练样本在视角A、B上的视觉特征的拉普拉斯算子矩阵,代表权系数,/>代表求矩阵的迹,/>代表转换矩阵,/>代表距离间隔,代表松弛变量,将原先的不等式约束转换为等式约束,/>表示Frobenius范数,/>,其中/>代表维度为K的单位矩阵,/>代表维度为的全一矩阵,/>代表维度为/>的全零矩阵。
进一步地,提取训练图片的多视角视觉特征包括:将同一图片数据集分别放入预训练好的第一识别网络以及第二识别网络进行特征提取,得到A、B视角下的特征数据,并在此基础上利用高斯核函数计算核矩阵/>。
进一步地,利用交替方向乘子法求解每个视角所对应的转换矩阵包括:
首先得到问题P1的增广拉格朗日函数:
;
其中是一个正则化参数,/>为拉格朗日乘子;
然后,通过求解以下关于的Sylvester方程更新/>:
;
其中代表维度为N的单位矩阵;
通过求解以下关于的Sylvester方程更新/>:
;
通过下式更新:
;
通过下式更新:
;
通过下式更新:
;
通过下式更新:
;
通过以下关于Y的Sylvester方程更新Y:
;
其中代表有m个1的列向量,更新Y后将其小于零的分量置零,并且对每一个样本的补标签集所对应的分量进行置零操作:
;
;
其中,/>代表样本i对应的补标签集;
通过下式更新:
;
更新拉格朗日乘子:
;
;
;
;
重复以上更新操作直到收敛为止,最终求解出转换矩阵和/>。
进一步地,收敛条件为:优化变量相邻迭代变化之差的范数小于设定阈值以及优化问题P1中等式约束的范数小于设定阈值。
进一步地,利用得到的转换矩阵对待识别的图片进行分类包括:首先计算A、B两个视角待识别图片与训练样本之间的核化矩阵,接着计算A、B两个视角待识别图片与所有类别之间的余弦相似度,然后将所两个视角求得的余弦相似度取平均,取计算后的最大分量下标对应的类别作为待识别图片的预测类别。
第二方面,一种基于多视角补标签的图片分类系统,包括:
训练数据提取模块,提取训练图片的多视角视觉特征;
模型学习模块,将提取的多视角视觉特征送入多视角补标签学习模型中,利用交替方向乘子法求解每个视角所对应的转换矩阵;
图片识别模块,利用得到的转换矩阵对待识别的图片进行分类;
其中,多视角补标签学习模型表示为如下优化问题:
问题P1:
;
约束条件:
;
;
;
;
;
其中,K代表类别数,N代表训练样本个数,表示补标签集,Y代表可能标签集;分别为视角A、B对应的视觉特征核矩阵,为核函数,/>和/>分别为训练样本在A、B视角下的视觉特征矩阵;通过采用一个K维向量来表达任意标签,其中相应的标签分量为1,而其他分量均为0,则/>的每一列分别代表相应样本的非补标签向量集的平均向量和补标签向量集的平均向量,分别代表训练样本在视角A、B上的视觉特征的拉普拉斯算子矩阵,代表权系数,/>代表求矩阵的迹,/>代表转换矩阵,/>代表距离间隔,代表松弛变量,将原先的不等式约束转换为等式约束,/>表示Frobenius范数,/>,其中/>代表维度为K的单位矩阵,/>代表维度为的全一矩阵,/>代表维度为/>的全零矩阵。
第三方面,本发明还提供一种计算机设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如本发明第一方面所述的一种基于多视角补标签的图片分类方法的步骤。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面所述的一种基于多视角补标签的图片分类方法的步骤。
有益效果:本发明提出一种新的补标签图像分类方法和系统,通过约束训练样本与补标签向量集相似度及其与非补标签向量集相似度的数量关系构建了稀疏的补标签分类损失函数,并引入多视角视觉特征融合机制和基于非补标签集的半监督学习策略,可以充分利用多视角视觉特征之间的一致性和互补性,并充分挖掘样本补标签空间中的可用信息。与传统补标签学习方法相比,本发明提出的方法一定程度上提高了对待识别图像的分类准确率。并且本发明提出的模型不仅可以用于补标签学习,还可以用于明确标签学习以及混合标签学习,具有良好的实用性。
附图说明
图1是本发明提供的多视角补标签图片分类方法的流程图;
图2是本发明方法与通过两种不同网络提取特征后的基于传统补标签学习的图像分类方法之间的对比。
具体实施方式
下面将结合附图对本发明实施例中的技术方案进行清楚、完整的描述。
本发明提出一种针对弱监督学习问题中利用补标签信息完成明确标签分类问题的框架,其主要思想是通过利用训练样本提供的补标签信息构建相应约束条件,同时加入多视角学习以及半监督学习两种方法来提高模型对监督信息的利用率,接着使用交替方向乘子法完成模型的求解过程,最后利用求解后的转换矩阵和/>完成待识别图像的分类。如图1所示,本发明的一种基于多视角补标签的图片分类方法,包括如下步骤:
步骤S1,提取训练图片的多视角视觉特征。
先利用两个已经训练好的识别网络来提取训练图片不同视角下的视觉特征。本发明实施例中将同一图片数据集分别放入预训练好的GoogleNet以及ResNet101进行特征提取,得到A、B视角下的特征数据,并在此基础上利用高斯核函数计算核矩阵/>。
步骤S2,根据训练图片数据对多视角补标签学习模型进行训练。
本发明中多视角补标签学习模型表示为如下优化问题:
问题P1:
;
约束条件:
(1.1)
(1.2)
(1.3)
(1.4)
(1.5)
其中,K代表类别数,N代表样本个数;分别为视角A、B对应的视觉特征核矩阵,为核函数,/>和/>分别为训练样本在A、B视角下的视觉特征矩阵;通过采用一个K维向量来表达任意标签(相应的标签分量为1,而其他分量均为0),则/>的每一列代表相应样本补标签向量集的平均向量,/>的每一列代表相应样本的待确定标签向量,分别代表训练样本在视角A、B上的视觉特征的拉普拉斯算子矩阵,代表权系数,/>代表求矩阵的迹,/>代表转换矩阵,/>代表距离间隔,给定大小为0.01,/>代表松弛变量,将原先的不等式约束转换为等式约束,/>表示Frobenius范数,/>,其中/>代表维度为K的单位矩阵,/>代表维度为/>的全一矩阵,/>代表维度为/>的全零矩阵。
优化问题P1通过使训练样本在尽可能靠近其待确定的标签向量的同时远离其补标签向量集的平均向量来构建模型,并使用交替方向乘子法对优化问题P1进行求解,约束中前两个约束1.1-1.2代表多视角模型中的互补性原则;约束中第三第四个约束1.3-1.4分别规定Y每列和为1,每个元素均位于0-1区间内;第五个约束1.5规定变量的非负性。本发明充分利用多视角视觉特征之间的一致性和互补性,并充分挖掘样本补标签空间中的可用信息,从而提高图片分类的精度。
用交替方向乘子法求解A、B视角对应的转换矩阵和/>。首先得到问题P1的增广拉格朗日函数:
;
其中是一个正则化参数,/>为拉格朗日乘子,下面使用交替方向乘子法求解:
步骤(1),通过求解以下关于的Sylvester方程更新/>:
(2)
其中代表维度为N的单位矩阵。
步骤(2),通过求解以下关于的Sylvester方程更新/>:
(3)
步骤(3),通过下式更新:
(4)
步骤(4),通过下式更新:
(5)
步骤(5),通过下式更新:
(6)
步骤(6),通过下式更新:
(7)
步骤(7),通过以下关于Y的Sylvester方程更新Y:
(8)
其中代表有m个1的列向量,用公式(8)更新Y后将其小于零的分量置零,并且对每一个样本的补标签集所对应的分量进行置零操作:
(9)
(10)
其中,/>代表样本i对应的补标签集。
步骤(8),通过下式更新:
(11)
步骤(9),更新拉格朗日乘子:
(12)
(13)
(14)
(15)
利用交替方向乘子法,通过上述的步骤(1)-(8)替更新优化变量,步骤(9)更新拉格朗日乘子。重复步骤(1)-步骤(9)直到收敛为止,最终求解出转换矩阵和/>。
其中收敛条件为:优化变量相邻迭代变化之差的范数小于设定阈值以及优化问题P1中等式约束的范数小于设定阈值,实施例中阈值设置为1e-5。这里等式约束的范数是指等号左右两边的差的范数,例如a=b,该等式约束的范数就是a-b的范数。
步骤S2求解得到变量中仅有/>和/>参与最终的图像分类。
步骤S3,利用求解得到的转换矩阵和/>完成图像分类。
首先计算A、B视角待识别图像与训练样本之间的核化矩阵,接着计算A、B两个视角待识别图像与所有类别之间的余弦相似度,然后将所两个视角求得的余弦相似度取平均,最后取计算后的最大分量下标对应的类别即为待识别图像的预测类别。所述的补标签分类是采用如下公式进行:
(16)
(17)
(18)
(19)
其中分别为待识别图片在视角A、B上的视觉特征;/>即步骤S2中求得的A、B视角下的转换矩阵;/>分别为待识别图片在视角A、B上的与各个类别的相似度向量,s代表它们的平均值;s最大分量的下标所对应的类别即为待识别图像的预测类别/>。
图2描述了本发明提出的方法与通过两种不同网络提取的特征训练的基于传统补标签学习的图像识别方法之间的对比。对比选用数据集CUB-200,取前20类的所有图片分别使用预训练好的ResNet101以及GoogleNet进行特征提取。对比选用的补标签范围为1-19。从图2可以看出,在少量补标签的情况下,本发明提出的多视角半监督模型与传统补标签模型在准确率上有显著的提高,进而证明了本发明提出的模型能够更好的挖掘模型监督信息。
基于和方法实施例同样的技术构思,本发明还提供一种基于多视角补标签的图片分类系统,包括:
训练数据提取模块,提取训练图片的多视角视觉特征;
模型学习模块,将提取的多视角视觉特征送入多视角补标签学习模型中,利用交替方向乘子法求解每个视角所对应的转换矩阵;
图片识别模块,利用得到的转换矩阵对待识别的图片进行分类;
其中,多视角补标签学习模型表示为如下优化问题:
问题P1:
;
约束条件:
;
;
;
;
;
其中,K代表类别数,N代表训练样本个数,表示补标签集,Y代表可能标签集;分别为视角A、B对应的视觉特征核矩阵,为核函数,/>和/>分别为训练样本在A、B视角下的视觉特征矩阵;通过采用一个K维向量来表达任意标签,其中相应的标签分量为1,而其他分量均为0,则/>的每一列分别代表相应样本的非补标签向量集的平均向量和补标签向量集的平均向量,分别代表训练样本在视角A、B上的视觉特征的拉普拉斯算子矩阵,代表权系数,/>代表求矩阵的迹,/>代表转换矩阵,/>代表距离间隔,代表松弛变量,将原先的不等式约束转换为等式约束,/>表示Frobenius范数,/>,其中/>代表维度为K的单位矩阵,/>代表维度为的全一矩阵,/>代表维度为/>的全零矩阵。
应理解,本发明实施例中的基于多视角补标签的图片分类系统可以实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
本发明还提供一种计算机设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如上所述的一种基于多视角补标签的图片分类方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的一种基于多视角补标签的图片分类方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、计算机设备或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程以及流程图中的流程的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。
Claims (9)
1.一种基于多视角补标签的图片分类方法,其特征在于,包括以下步骤:
提取训练图片的多视角视觉特征;
将提取的多视角视觉特征送入多视角补标签学习模型中,利用交替方向乘子法求解每个视角所对应的转换矩阵;
利用得到的转换矩阵对待识别的图片进行分类;
其中,多视角补标签学习模型表示为如下优化问题:
问题P1:
;
约束条件:
;
;
;
;
;
其中,K代表类别数,N代表训练样本个数,表示补标签集,Y代表可能标签集;分别为视角A、B对应的视觉特征核矩阵,为核函数,/>和/>分别为训练样本在A、B视角下的视觉特征矩阵;通过采用一个K维向量来表达任意标签,其中相应的标签分量为1,而其他分量均为0,则/>的每一列分别代表相应样本的非补标签向量集的平均向量和补标签向量集的平均向量,分别代表训练样本在视角A、B上的视觉特征的拉普拉斯算子矩阵,代表权系数,/>代表求矩阵的迹,/>代表转换矩阵,/>代表距离间隔,代表松弛变量,将原先的不等式约束转换为等式约束,/>表示Frobenius范数,/>,其中/>代表维度为K的单位矩阵,/>代表维度为的全一矩阵,/>代表维度为/>的全零矩阵;
利用交替方向乘子法求解每个视角所对应的转换矩阵包括:
首先得到问题P1的增广拉格朗日函数:
;
其中是一个正则化参数,/>为拉格朗日乘子;
然后,通过求解以下关于的Sylvester方程更新/>:
;
其中代表维度为N的单位矩阵;
通过求解以下关于的Sylvester方程更新/>:
;
通过下式更新:
;
通过下式更新:
;
通过下式更新:
;
通过下式更新:
;
通过以下关于Y的Sylvester方程更新Y:
;
其中代表有m个1的列向量,更新Y后将其小于零的分量置零,并且对每一个样本的补标签集所对应的分量进行置零操作:
;
;
其中,/>代表样本i对应的补标签集;
通过下式更新:
;
更新拉格朗日乘子:
;
;
;
;
重复以上更新操作直到收敛为止,最终求解出转换矩阵和/>。
2.根据权利要求1所述的方法,其特征在于,提取训练图片的多视角视觉特征包括:将同一图片数据集分别放入预训练好的第一识别网络以及第二识别网络进行特征提取,得到A、B视角下的特征数据,并在此基础上利用高斯核函数计算核矩阵/>。
3.根据权利要求1所述的方法,其特征在于,收敛条件为:优化变量相邻迭代变化之差的范数小于设定阈值以及优化问题P1中等式约束的范数小于设定阈值。
4.根据权利要求3所述的方法,其特征在于,所述设定阈值为1e-5。
5.根据权利要求1所述的方法,其特征在于,利用得到的转换矩阵对待识别的图片进行分类包括:首先计算A、B两个视角待识别图片与训练样本之间的核化矩阵,接着计算A、B两个视角待识别图片与所有类别之间的余弦相似度,然后将所两个视角求得的余弦相似度取平均,取计算后的最大分量下标对应的类别作为待识别图片的预测类别。
6.根据权利要求5所述的方法,其特征在于,利用得到的转换矩阵对待识别的图片进行分类的计算公式包括:
;
;
;
;
其中分别为待识别图片在视角A、B上的视觉特征;/>为A、B两个视角下的转换矩阵;/>分别为待识别图片在视角A、B上的与各个类别的相似度向量,s代表它们的平均值;s最大分量的下标所对应的类别即为待识别图像的预测类别/>。
7.一种基于多视角补标签的图片分类系统,其特征在于,包括:
训练数据提取模块,提取训练图片的多视角视觉特征;
模型学习模块,将提取的多视角视觉特征送入多视角补标签学习模型中,利用交替方向乘子法求解每个视角所对应的转换矩阵;
图片识别模块,利用得到的转换矩阵对待识别的图片进行分类;
其中,多视角补标签学习模型表示为如下优化问题:
问题P1:
;
约束条件:
;
;
;
;
;
其中,K代表类别数,N代表训练样本个数,表示补标签集,Y代表可能标签集;分别为视角A、B对应的视觉特征核矩阵,为核函数,/>和/>分别为训练样本在A、B视角下的视觉特征矩阵;通过采用一个K维向量来表达任意标签,其中相应的标签分量为1,而其他分量均为0,则/>的每一列分别代表相应样本的非补标签向量集的平均向量和补标签向量集的平均向量,分别代表训练样本在视角A、B上的视觉特征的拉普拉斯算子矩阵,代表权系数,/>代表求矩阵的迹,/>代表转换矩阵,/>代表距离间隔,代表松弛变量,将原先的不等式约束转换为等式约束,/>表示Frobenius范数,/>,其中/>代表维度为K的单位矩阵,/>代表维度为的全一矩阵,/>代表维度为/>的全零矩阵;
利用交替方向乘子法求解每个视角所对应的转换矩阵包括:
首先得到问题P1的增广拉格朗日函数:
;
其中是一个正则化参数,/>为拉格朗日乘子;
然后,通过求解以下关于的Sylvester方程更新/>:
;
其中代表维度为N的单位矩阵;
通过求解以下关于的Sylvester方程更新/>:
;
通过下式更新:
;
通过下式更新:
;
通过下式更新:
;
通过下式更新:
;
通过以下关于Y的Sylvester方程更新Y:
;
其中代表有m个1的列向量,更新Y后将其小于零的分量置零,并且对每一个样本的补标签集所对应的分量进行置零操作:
;
;
其中,/>代表样本i对应的补标签集;
通过下式更新:
;
更新拉格朗日乘子:
;
;
;
;
重复以上更新操作直到收敛为止,最终求解出转换矩阵和/>。
8.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如权利要求1-6中任一项所述的基于多视角补标签的图片分类方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的基于多视角补标签的图片分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311570268.4A CN117274726B (zh) | 2023-11-23 | 2023-11-23 | 一种基于多视角补标签的图片分类方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311570268.4A CN117274726B (zh) | 2023-11-23 | 2023-11-23 | 一种基于多视角补标签的图片分类方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117274726A CN117274726A (zh) | 2023-12-22 |
CN117274726B true CN117274726B (zh) | 2024-02-23 |
Family
ID=89201280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311570268.4A Active CN117274726B (zh) | 2023-11-23 | 2023-11-23 | 一种基于多视角补标签的图片分类方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274726B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541882B (zh) * | 2024-01-05 | 2024-04-19 | 南京信息工程大学 | 一种基于实例的多视角视觉融合转导式零样本分类方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945255A (zh) * | 2012-10-18 | 2013-02-27 | 浙江大学 | 跨媒体多视角非完美标签学习方法 |
CN109840530A (zh) * | 2017-11-24 | 2019-06-04 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN111191699A (zh) * | 2019-12-22 | 2020-05-22 | 中国人民解放军陆军工程大学 | 基于非负矩阵分解和划分自适应融合的多视角聚类方法 |
CN111460222A (zh) * | 2020-02-17 | 2020-07-28 | 天津大学 | 一种基于多视角低秩分解的短视频多标签分类方法 |
CN111639686A (zh) * | 2020-05-17 | 2020-09-08 | 西北工业大学 | 基于维度加权和视角特征一致性的半监督分类算法 |
CN114021670A (zh) * | 2022-01-04 | 2022-02-08 | 深圳佑驾创新科技有限公司 | 分类模型的学习方法及终端 |
CN114329232A (zh) * | 2022-01-06 | 2022-04-12 | 河海大学 | 一种基于科研网络的用户画像构建方法和系统 |
CN115189942A (zh) * | 2022-07-08 | 2022-10-14 | 华东理工大学 | 一种伪标签引导下的多视角共识图半监督网络入侵检测系统 |
CN116434273A (zh) * | 2023-03-20 | 2023-07-14 | 东南大学 | 一种基于单正标签的多标记预测方法及系统 |
CN116958735A (zh) * | 2023-06-08 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 视觉特征提取模型的训练方法、应用方法、装置及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102295805B1 (ko) * | 2019-04-02 | 2021-08-31 | 주식회사 마키나락스 | 학습 데이터 관리 방법 |
US20220076142A1 (en) * | 2020-09-08 | 2022-03-10 | Darwinai Corporation | System and method for selecting unlabled data for building learning machines |
CN113780245B (zh) * | 2021-11-02 | 2022-06-14 | 山东建筑大学 | 一种多场景下的物品检索方法及系统 |
-
2023
- 2023-11-23 CN CN202311570268.4A patent/CN117274726B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945255A (zh) * | 2012-10-18 | 2013-02-27 | 浙江大学 | 跨媒体多视角非完美标签学习方法 |
CN109840530A (zh) * | 2017-11-24 | 2019-06-04 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN111191699A (zh) * | 2019-12-22 | 2020-05-22 | 中国人民解放军陆军工程大学 | 基于非负矩阵分解和划分自适应融合的多视角聚类方法 |
CN111460222A (zh) * | 2020-02-17 | 2020-07-28 | 天津大学 | 一种基于多视角低秩分解的短视频多标签分类方法 |
CN111639686A (zh) * | 2020-05-17 | 2020-09-08 | 西北工业大学 | 基于维度加权和视角特征一致性的半监督分类算法 |
CN114021670A (zh) * | 2022-01-04 | 2022-02-08 | 深圳佑驾创新科技有限公司 | 分类模型的学习方法及终端 |
CN114329232A (zh) * | 2022-01-06 | 2022-04-12 | 河海大学 | 一种基于科研网络的用户画像构建方法和系统 |
CN115189942A (zh) * | 2022-07-08 | 2022-10-14 | 华东理工大学 | 一种伪标签引导下的多视角共识图半监督网络入侵检测系统 |
CN116434273A (zh) * | 2023-03-20 | 2023-07-14 | 东南大学 | 一种基于单正标签的多标记预测方法及系统 |
CN116958735A (zh) * | 2023-06-08 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 视觉特征提取模型的训练方法、应用方法、装置及设备 |
Non-Patent Citations (4)
Title |
---|
ComCo: Complementary supervised contrastive learning for complementary label learning;Haoran Jiang等;《Neural Networks》;第169卷;第44-56页 * |
基于实例的多视角多标签学习算法;苏可政等;《计算机科学与应用》;第12卷(第4期);第785-796页 * |
基于深度学习的噪声数据分类研究;刘德富;《中国博士学位论文全文数据库 信息科技辑》(第1期);第I140-33页 * |
多模态图像重排序算法研究;王天娇;《中国优秀硕士学位论文全文数据库 信息科技辑》(第12期);第I138-461页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117274726A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Melekhov et al. | Dgc-net: Dense geometric correspondence network | |
Li et al. | Natural image matting via guided contextual attention | |
US10152655B2 (en) | Deep-learning network architecture for object detection | |
Liu et al. | Local similarity pattern and cost self-reassembling for deep stereo matching networks | |
US20210335002A1 (en) | Method, apparatus, terminal, and storage medium for training model | |
CN117274726B (zh) | 一种基于多视角补标签的图片分类方法与系统 | |
CN112507990A (zh) | 视频时空特征学习、抽取方法、装置、设备及存储介质 | |
Fang et al. | DOG: A new background removal for object recognition from images | |
CN113657387B (zh) | 基于神经网络的半监督三维点云语义分割方法 | |
US20240257423A1 (en) | Image processing method and apparatus, and computer readable storage medium | |
CN112801104B (zh) | 基于语义分割的图像像素级伪标签确定方法及系统 | |
CN113011568B (zh) | 一种模型的训练方法、数据处理方法及设备 | |
CN114444565B (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
CN107330448A (zh) | 一种基于标记协方差和多标记分类的联合学习方法 | |
CN112926379A (zh) | 一种构建人脸识别模型的方法及装置 | |
CN111260794B (zh) | 基于跨源图像匹配的户外增强现实应用方法 | |
Lee et al. | Multi-resolution distillation for self-supervised monocular depth estimation | |
CN114882372A (zh) | 一种目标检测的方法及设备 | |
CN112529081B (zh) | 基于高效注意力校准的实时语义分割方法 | |
Gao et al. | Compact StereoNet: stereo disparity estimation via knowledge distillation and compact feature extractor | |
CN113962846A (zh) | 图像对齐方法及装置、计算机可读存储介质及电子设备 | |
Sharma | Foreground clustering for joint segmentation and localization in videos and images | |
CN117237984B (zh) | 基于标签一致性的mt腿部识别方法、系统、介质和设备 | |
CN113392840B (zh) | 基于多尺度分割融合的实时语义分割方法 | |
Yuan et al. | An anisotropic non-local attention network for image segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |