CN113095335B - 一种基于类别一致性深度学习的图像识别方法 - Google Patents
一种基于类别一致性深度学习的图像识别方法 Download PDFInfo
- Publication number
- CN113095335B CN113095335B CN202110408724.XA CN202110408724A CN113095335B CN 113095335 B CN113095335 B CN 113095335B CN 202110408724 A CN202110408724 A CN 202110408724A CN 113095335 B CN113095335 B CN 113095335B
- Authority
- CN
- China
- Prior art keywords
- mask
- category
- module
- consistency
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于类别一致性深度学习的图像识别方法。首先使用自动协同定位方法对训练集进行标注,得到类别一致二值掩码标签。用特征提取模块、分类器模块和类别一致掩码学习模块构造本发明的识别方法。每次迭代训练时,特征提取模块对输入图像进行特征提取;分类器模块根据提取的特征,进行计算并给出识别结果;类别一致掩码学习模块根据提取的特征,预测类别一致二值掩码。结合交叉熵损失和类别一致损失函数计算出损失值并进行反向传播,对识别方法的网络参数进行调整。重复上述步骤,直至训练结束,选择最优网络参数作为识别模型参数;实施本发明,能够以一种自监督学习的方式促进网络对关键特征的学习,实现高鲁棒性高准确率的图像识别。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于类别一致性深度学习的图像识别方法。
背景技术
在图像识别方法中,基于手工特征的图像识别算法依赖较多的人工干预,且容易受到光照、旋转、扭曲等因素的干扰。而卷积神经网络能够将特征提取和识别步骤相结合,通过端对端的学习,能够让卷积神经网络自动提取抽象特征,实现精确、高效的识别。另一方面,由于网络在训练的过程中,是直接对整张图像进行识别和训练,图像中的无关背景使得网络无法聚焦于每个类别下的视觉共性区域。如果能够在训练的过程中,同时要求网络对当前图像类别下包含视觉共性特征的区域进行定位分割,那么可以进一步加深网络对每个图像对象关键特征的理解,从而达到强化特征学习的目的。因此,本发明结合自监督学习的思想和自动协同定位方法,提出一种基于类别一致性深度学习的图像识别方法。通过强迫网络关注包含同一类别下的视觉共性特征区域,来强化对关键特征的学习,从而进一步提升识别性能,实现高鲁棒性、高准确率的图像智能识别。
发明内容
本发明实施例所要解决的技术问题在于,提供一种基于类别一致性深度学习的图像识别方法,通过强迫卷积神经网络关注包含同一类别下的视觉共性特征区域,来强化对关键特征的学习,从而进一步提升识别性能,并防止网络对无关背景特征的学习,实现高鲁棒性、高准确率的图像识别。
为了解决上述技术问题,本发明实施例提供了一种基于类别一致性深度学习的图像识别方法,所述方法包括以下步骤:
步骤S1、给定训练集Itrain={(ai∈R3×K×K,bi∈R1×C)|i∈[1,N]}以及测试集Itest={(ai∈R3×K×K,bi∈R1×C)|i∈[1,H]};使用自动协同定位方法对训练集Itrain进行标注,得到训练集的类别一致二值掩码标签Masktrain={mi∈R1×K×K|i∈[1,N]},这种掩码能够分割出每张图片所包含视觉共性特征的区域。其中,R表示实数域,ai表示第i张输入图像,3表示颜色通道数量,对应的颜色通道d∈{红,绿,蓝},K表示单张图片的宽或高的尺寸;bi表示第i张输入图像中对应的类别标签,根据所给定类别,生成对应的独热编码(one-hot)向量,C为类别数量;mi为对应的类别一致二值掩码标签。N表示训练集Itrain的样本数量;H表示测试集Itest的样本数量;
步骤S2、构建基于类别一致性深度学习的图像识别方法,首先用卷积神经网络构建特征提取模块用于图像特征的提取;然后构建分类器模块,将提取的特征进行输入,并进行预测给出识别结果;接着构建类别一致掩码学习模块,利用提取的特征进行类别一致二值掩码的预测。这三个模块的所有参数的总和称为θ,第q次迭代训练的参数设为θq。
步骤S3、在第q次迭代训练过程中,将所述训练集Itrain={(ai∈R3×K×K,bi∈R1×C)|i∈[1,N]}中的图像作为输入,特征提取模块进行特征提取,通过网络逐层计算,并将特征输入到分类器中,得到分类结果Ytrain={yi∈R1×C|i∈[1,N]};同时类别一致掩码学习模块利用提取的特征进行类别一致二值掩码的预测,得到预测的类别一致二值掩码其中,yi表示分类器模块对训练集Itrain的第i张图像的识别结果;/>表示对训练集Itrain的第i张输入图像进行预测的类别一致二值掩码,K'为预测的类别一致二值掩码的图像尺寸。
步骤S4、根据交叉熵损失函数计算识别结果Ytrain和训练集Itrain中的类别标签之间的误差;利用类别一致损失函数计算预测的类别一致二值掩码Maskout和训练集的类别一致二值掩码标签Masktrain之间的误差。根据损失值进行反向传播,利用随机梯度下降法,对特征提取模块、分类器模块和类别一致掩码学习模块的参数进行更新。
步骤S5、利用测试集Itest对本发明的基于类别一致性深度学习的图像识别方法的模型进行评估。将测试集Itest输入到特征提取模块中,并由分类器模块输出识别结果Ytest,若测试结果的准确率最高。则保存当前模型,并令θbest=θq;θbest表示在当前保存的最优基于类别一致性深度学习的图像识别方法模型的参数。同时在参数更新结束阶段,判断训练迭代次数q是否已达到最大迭代次数n,若已经达到最大迭代次数n,则训练阶段结束,进入下一步骤S6;反之,将跳转至步骤S3进行循环迭代训练,并令q=q+1;
步骤S6、得到本发明的基于类别一致性深度学习的图像识别方法的最优模型网络参数θbest,并根据所得到的最终的最优网络参数θbest,更新本发明的基于类别一致性深度学习的图像识别方法的参数;
在所述步骤S1中,自动协同定位方法为基于图像的协同定位,对同一类别的图像中的对象进行自动协同定位,而无需手工标注。自动协同定位方法为基于深度描述子变换的协同定位方法(请参考:Wei,X.S.,Zhang,C.L.,Wu,J.,Shen,C.,&Zhou,Z.H.(2019).Unsupervised object discovery and co-localization by deep descriptortransformation.Pattern Recognition,88,113–126.https://doi.org/10.1016/j.patcog.2018.10.022)。
在所述步骤S2中,特征提取模块、分类器模块和类别一致掩码学习模块都由卷积神经网络构造。特征提取模块可以是目前流行的卷积神经网络架构,如VGG-Net(请参考:Simonyan,K.,&Zisserman,A,Very deep convolutional networks for large-scaleimage recognition[C],3rd International Conference on LearningRepresentations,ICLR 2015-Conference Track Proceedings,2015,pp.1–14.)、ResNet(请参考:K.He,X.Zhang,S.Ren,and J.Sun,Deep residual learning for imagerecognition[C],in Proc.IEEE Conference on Computer Vision and PatternRecognition(CVPR),Las Vegas,NV,2016,pp.770-778.)、DenseNet(请参考:G.Huang,Z.Liu,L.V.D.Maaten,and K.Q.Weinberger,Densely connected convolutionalnetworks[C],in Proc.IEEE Conference on Computer Vision and PatternRecognition(CVPR),Honolulu,HI,2017,pp.2261-2269.)等网络架构。分类器模块通过引入全局平均池化层(global average pooling,GAP)、全连接层(fully connected layer,FC)和Soft-max激活函数来构造。类别一致掩码学习模块的结构包含七个连续的操作,包括3*3卷积层、双线性插值上采样、批归一化层、ReLU激活层、3*3卷积层、1*1卷积层和Sigmoid激活函数,这7个连续的参数中包含可学习的参数。通过这连续的7个操作的计算,类别一致掩码学习模块直接利用特征提取模块提取的最后一层的特征图作为输入,并生成预测的类别一致二值掩码。
在所述步骤S3中,分类结果Ytrain={yi∈R1×C|i∈[1,N]}中每个样本测试结果yi为向量,每个单元表示各个索引所对应的类别的概率,和训练集Itrain={(ai∈R3×K×K,bi∈R1 ×C)|i∈[1,N]}中的标签bi的数据类型相同。预测的类别一致二值掩码中每个样本的预测结果/>的张量。
在所述步骤S4中,利用得出的交叉熵损失函数和类别一致损失函数的损失值进行反向传播。其中,类别一致损失函数Lmask损失如公式为:
由于类别一致二值掩码实际上是一个二进制掩码,所以本发明用二分交叉熵损失逐个对像素点进行计算。其中,N是训练样本总数,类别一致二值掩码标签,/>预测的类别一致二值掩码,通过端对端的训练,类别一致掩码学习模块促使骨干网络能够针对同一类别下的共同视觉特征进行学习。因此,预测的掩码/>能够很好地捕捉类别一致性区域。促进了对关键特征的学习,帮助网络学习到更好的特征表示,并提高模型对图像识别的性能。
对基于类别一致性深度学习的图像识别方法的网络参数θq进行调整的具体步骤为:
根据交叉熵损失函数和类别一致损失函数,利用链式求导法则,对本发明的基于类别一致性深度学习的图像识别方法中的网络参数θq进行梯度的计算,并通过随机梯度下降法,将对应的网络参数θq进行更新;其中,
更新网络参数θq的公式如下:
其中,分别表示第q次迭代的模型网络参数中,对应的第l层的卷积层的参数、偏置向量的参数、BN层的参数;η表示超参数中的学习率;/>和分别表示对应卷积层的参数、偏置向量的参数和BN层的参数的梯度,通过链式求导法则求得。
其中,在所述步骤S5中,利用测试集Itest对本发明的基于类别一致性深度学习的图像识别方法进行评估,将测试集Itest={(ai∈R3×K×K,bi∈R1×C)|i∈[1,H]}中的图像输入到特征提取模块中,并由分类器模块输出识别结果Ytest={yi∈R1×C|i∈[1,H]}。对每个样本,对比标签bi和测试结果yi,并记录准确率。定义当前基于类别一致性深度学习的图像识别方法的网络参数θq的测试准确率为ACCq,并定义最优模型网络参数θbest的准确率为ACCbest,若ACCq>ACCbest,则令ACCbest=ACCq,且θbest=θq。
实施本发明实施例,具有如下有益效果:
1、与现有的图像识别方法相比,本发明方法能够帮助卷积神经网络关注同一类别下包含视觉共性特征的一致性区域,从而强化网络的特征提取能力,提高识别效果。并且该方法不需要人工标注的数据集。在本发明的基于类别一致性深度学习的图像识别方法中,训练的识别模型能够提高识别准确率,且不会影响到识别网络的推理速度。这使得基于卷积神经网络的识别模型能对光照、对比度、旋转、噪声等不利因素影响下的输入图像有较好的鲁棒性,在实际应用中有较好的价值和前景;
2、本发明属于一种基于卷积神经网络的自监督训练方法。是一种对图像识别任务的增益手段。结合特征提取模块、分类器模块和类别一致掩码学习模块来构成本发明的基于类别一致性深度学习的图像识别方法。通过强制深度神经网络从不相关的背景中区分出同一类别的图像对象的公共视觉特征区域,实现强化网络对关键特征的学习。本发明方法仅仅在训练阶段强化特征学习,且不会对推理阶段的推理速度产生影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例提供的基于类别一致性深度学习的图像识别方法的流程图;
图2为本发明实施例提供的基于类别一致性深度学习的图像识别方法的架构图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,为本发明实施例中,提出的一种基于类别一致性深度学习的图像识别方法,所述方法包括以下步骤:
步骤S1、给定训练集Itrain={(ai∈R3×K×K,bi∈R1×C)|i∈[1,N]}以及测试集Itest={(ai∈R3×K×K,bi∈R1×C)|i∈[1,H]};如图2(左)所示,使用自动协同定位方法对训练集Itrain进行标注,得到训练集的类别一致二值掩码标签Masktrain={mi∈R1×K×K|i∈[1,N]},这种掩码能够分割出每张图片所包含视觉共性特征的区域。其中,R表示实数域,ai表示第i张输入图像,3表示颜色通道数量,对应的颜色通道d∈{红,绿,蓝},K表示单张图片的宽或高的尺寸;bi表示第i张输入图像中对应的类别标签,根据所给定类别,生成对应的独热编码(one-hot)向量;C为类别数量;mi为对应的类别一致二值掩码标签。N表示训练集Itrain的样本数量;H表示测试集Itest的样本数量;
其中,自动协同定位方法为基于图像的协同定位,对同一类别的图像中的对象进行协同定位。协同定位方法为基于深度描述子变换进行协同定位(请参考:X.Wei,C.Zhang,J.Wu,C.Shen,and Z.Zhou,Unsupervised object discovery and co-localization bydeep descriptor transformation[J],Pattern Recognition,2019,88:113–126.)。
步骤S2、构建基于类别一致性深度学习的图像识别方法,首先用卷积神经网络构建特征提取模块用于图像特征的提取;然后构建分类器模块,将提取的特征进行输入,并进行预测给出识别结果;接着构建类别一致掩码学习模块,利用提取的特征进行类别一致二值掩码的预测。这三个模块的所有参数的总和称为θ,第q次迭代训练的参数设为θq。
整个方法的计算流程如图2所示。其中,特征提取网络可以是基于卷积神经网络的识别网络,如VGG-Net(请参考:Simonyan,K.,&Zisserman,A,Very deep convolutionalnetworks for large-scale image recognition[C],3rd International Conference onLearning Representations,ICLR 2015-Conference Track Proceedings,2015,pp.1–14.)、ResNet(请参考:K.He,X.Zhang,S.Ren,and J.Sun,Deep residual learning forimage recognition[C],in Proc.IEEE Conference on Computer Vision and PatternRecognition(CVPR),Las Vegas,NV,2016,pp.770-778.)、DenseNet(请参考:G.Huang,Z.Liu,L.V.D.Maaten,and K.Q.Weinberger,Densely connected convolutionalnetworks[C],in Proc.IEEE Conference on Computer Vision and PatternRecognition(CVPR),Honolulu,HI,2017,pp.2261-2269.)等CNN网络模型。
分类器模块可以直接引入全局平均池化层(global average pooling,GAP)、全连接层(fully connected layer,FC)和Soft-max激活函数来构造。
表1类别一致掩码学习模块中的详细操作
类别一致掩码学习模块的详细结构如表1所示,其中“Layer”表示构建单元,“#FIlters”表示输出通道数量。“Filter size”表示卷积核和步长的大小。表1中,不包含的参数则不会显示在表中。表1中包含七个连续的操作,包括3*3卷积层、双线性插值上采样、批归一化层、ReLU激活层、3*3卷积层、1*1卷积层和Sigmoid激活函数,这7个连续的参数中包含可学习的参数。通过这连续的7个操作的计算,类别一致掩码学习模块直接利用特征提取模块提取的最后一层的特征图作为输入,并生成预测的类别一致二值掩码。
步骤S3、在第q次迭代训练过程中,将所述训练集Itrain={(ai∈R3×K×K,bi∈R1×C)|i∈[1,N]}中的图像作为输入。特征提取模块进行特征提取,通过网络逐层计算,并将特征输入到分类器中,得到分类结果Ytrain={yi∈R1×C|i∈[1,N]};同时类别一致掩码学习模块利用提取的特征进行类别一致二值掩码的预测,得到预测的类别一致二值掩码其中,yi表示分类器模块对训练集Itrain的第i张图像的识别结果;/>表示对训练集Itrain的第i张输入图像预测的类别一致二值掩码,K'为预测的类别一致二值掩码的图像尺寸。
具体过程为,将训练集Itrain载入到计算机内存中。将训练集Itrain中第i张图像ai输入到特征提取模块中,经过网络的逐层计算。将最后一层特征图分别输入到分类器模块和类别一致掩码学习模块。接着分类器模块输出一个类别向量yi∈R1×C,表示对所有类别的预测结果;向量中的每一个单元,是对应的标量,表示对应类别的概率,每个标量取值范围为[0,1]。输出预测的类别一致二值掩码每个单元格的标量给出了是否为类别一致性区域的概率,每个单元格的取值范围为[0,1]。训练集Itrain的每个训练样本都以此方式进行计算,就能得到整个训练集Itrain的识别结果Ytrain和预测的类别一致二值掩码Maskout。
步骤S4、根据交叉熵损失函数计算识别结果Ytrain和训练集Itrain中的类别标签之间的误差;利用类别一致损失函数计算预测的类别一致二值掩码Maskout和训练集的类别一致二值掩码标签Masktrain之间的误差。根据损失值进行反向传播,利用随机梯度下降法,对特征提取模块、分类器模块和类别一致掩码学习模块的参数进行更新。
对训练集Itrain中的第i个样本,可以得到第i个标签bi∈R1×C和识别结果yi∈R1×C。bi向量是根据所给定类别的标签索引,生成对应的独热编码(one-hot)向量。在分类器模块中,交叉熵损失函数Lcls计算公式为:
这里以向量化的形式进行表示。通过对整个训练集的样本进行遍历,就能计算出交叉熵损失值。
同理,对第i个样本,有对应的类别一致二值掩码标签mi∈R1×K×K和预测的掩码可知两者的尺寸不一致,因为mi也是从预训练模型的特征图中上采样得来(参考协同定位方法:深度描述子变换)。为了能够将尺寸匹配,用于让网络学习对应的类别一致性区域,本发明将最邻近插值下采样方法作用在掩码标签mi上,来得到经过下采样版本的掩码标签/>并且这样不会损失原来掩码标签mi上的信息。
在得到的下采样版本掩码标签和对应预测的掩码/>之后,为了让类别一致掩码学习模块学习并预测正确的掩码,本发明定义了类别一致损失函数Lmask。因为交叉熵损失在许多图像分割应用中得到了广泛的应用,并且类别一致二值掩码实际上是一个二进制掩码,所以本发明用二分交叉熵损失逐个对像素点进行计算。Lmask损失如公式为:
通过端对端的训练,类别一致掩码学习模块促使骨干网络能够针对同一类别下的共同视觉特征进行学习。因此,预测的掩码能够很好地捕捉类别一致性区域。促进了对关键特征的学习,帮助网络学习到更好的特征表示,从而提高了模型对图像识别的性能。
通过将特征提取模块、分类器模块和类别一致掩码学习模块进行端到端的训练学习,就构成了本发明提出的基于类别一致性深度学习的图像识别方法。因此,将交叉熵损失和类别一致损失进行结合,就得到了本发明方法的最终目标函数,其公式为:
L=Lcls+αLmask,
其中,权重参数α用于调整分类损失Lcls和类别一致损失Lmask之间的重要性。这里本发明设定α=0.01。在训练过程中,整个网络的参数是通过最小化目标函数L来不断优化迭代而得到。在推理过程中,只需要用到特征提取模块和分类器模块就可以实现图像识别。而类别一致掩码学习模块使聚焦于各个类别图像的类别一致性的区域,从而减少不相关背景的影响。并且不会在推断时引入额外的计算成本。
根据交叉熵损失函数和类别一致损失函数,利用链式求导法则,对本发明的基于类别一致性深度学习的图像识别方法中的网络参数θq进行梯度的计算,并通过随机梯度下降法,将对应的网络参数θq进行更新;其中,
更新网络参数θq的公式如下:
其中,分别表示第q次迭代的模型网络参数中,对应的第l层的卷积层的参数、偏置向量的参数、BN层的参数;η表示超参数中的学习率;/>和分别表示对应卷积层的参数、偏置向量的参数和BN层的参数的梯度,通过链式求导法则求得。
步骤S5、利用测试集Itest对本发明的基于类别一致性深度学习的图像识别方法的模型进行评估。将测试集Itest输入到特征提取模块,并由分类器模块输出识别结果Ytest,若测试结果的准确率最高。则保存当前模型,并令θbest=θq;θbest表示在当前保存的最优的基于类别一致性深度学习的图像识别方法模型的参数。利用测试集Itest对本发明的基于类别一致性深度学习的图像识别方法进行评估,将测试集Itest={(ai∈R3×K×K,bi∈R1×C)|i∈[1,H]}中的图像输入到特征提取模块中,并由分类器模块输出识别结果Ytest={yi∈R1×C|i∈[1,H]}。对每个样本,对比标签bi∈R1×C和测试结果yi∈R1×C,并记录准确率。准确率的计算公式为:
其中,表示求向量中的最大值的下标,1{·}表示真值函数,若条件成立,则返回1,反之为0。定义当前基于类别一致性深度学习的图像识别方法的网络参数θq的测试准确率为ACCq,并定义最优模型网络参数θbest的准确率为ACCbest,若ACCq>ACCbest,则令ACCbest=ACCq,且θbest=θq。
同时在参数更新结束阶段,判断训练迭代次数q是否已达到最大迭代次数n,若已经达到最大迭代次数n,则训练阶段结束,进入下一步骤S6;反之,将跳转至步骤S3进行循环迭代训练,并令q=q+1;
步骤S6、得到本发明的基于类别一致性深度学习的图像识别方法的最优模型网络参数θbest,并根据所得到的最终的最优网络参数θbest,更新当前基于类别一致性深度学习的图像识别方法的参数;最终,特征提取模块和分类器模块被用于图像识别;而类别一致掩码学习模块不再被需要,仅用于训练阶段优化特征学习。
实施本发明实施例,具有如下有益效果:
1、与现有的图像识别方法相比,本发明方法能够帮助卷积神经网络关注同一类别下包含视觉共性特征的一致性区域,从而强化网络的特征提取能力,提高识别效果。并且该方法不需要人工标注的数据集。在本发明的基于类别一致性深度学习的图像识别方法中,训练的识别模型能够提高识别准确率,且不会影响到识别网络的推理速度。这使得基于卷积神经网络的识别模型能对光照、对比度、旋转、噪声等不利因素影响下的输入图像有较好的识别鲁棒性,在实际应用中有较好的价值和前景;
2、本发明属于一种基于卷积神经网络的自监督训练方法。是一种对图像识别任务的增益手段。结合特征提取模块、分类器模块和类别一致掩码学习模块来构成本发明的基于类别一致性深度学习的图像识别方法。通过强制深度神经网络从不相关的背景中区分出同一类别的图像的公共视觉特征区域,实现强化网络对关键特征的学习。本发明方法仅仅在训练阶段强化特征学习,且不会对推理阶段的推理速度产生影响。
对于本领域的技术人员,本发明不限于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其它具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的精神和范围,这些改进和变形也应视为本发明的保护范围。
Claims (5)
1.一种基于类别一致性深度学习的图像识别方法,其特征在于,所述方法包括以下步骤:
步骤S1、给定训练集和测试集;使用自动协同定位方法对训练集进行标注,得到训练集的类别一致二值掩码标签,这种掩码能够分割出每张图片所包含视觉共性特征的区域;
步骤S2、构建基于类别一致性深度学习的图像识别方法,首先用卷积神经网络构建特征提取模块用于图像特征的提取;然后构建分类器模块,将提取的特征进行输入,并进行预测给出识别结果;接着构建类别一致掩码学习模块,利用提取的特征进行类别一致二值掩码的预测;
步骤S3、在某一次迭代训练过程中,将所述训练集中的图像作为输入,特征提取模块进行特征提取,并由分类器模块输出识别结果;同时类别一致掩码学习模块利用提取的特征进行类别一致二值掩码的预测,得到预测的类别一致二值掩码;
步骤S4、根据交叉熵损失函数Lcls计算识别结果和训练集中的类别标签之间的误差;利用类别一致损失函数Lmask计算预测的类别一致二值掩码和训练集的类别一致二值掩码标签之间的误差;根据损失值进行反向传播,利用随机梯度下降法,对特征提取模块、分类器模块和类别一致掩码学习模块的参数进行更新;
步骤S5、利用测试集对所述方法的模型进行评估;若模型测试准确率为当前最高,则保存模型参数;判断训练是否结束,若结束则跳转至步骤S6,否则跳转至步骤S3;
步骤S6、得到最优模型参数,并将最优模型参数分别更新特征提取模块、分类器模块和类别一致掩码学习模块参数;将特征提取模块、分类器模块作为最终的识别模型;
其中,在所述步骤S4中,类别一致损失Lmask公式为:
2.根据权利要求1所述的基于类别一致性深度学习的图像识别方法,其特征在于,在所述步骤S4中,通过将特征提取模块、分类器模块和类别一致掩码学习模块进行端到端的训练学习,从而将交叉熵损失和类别一致损失进行结合,得到最终目标函数的公式为:
L=Lcls+αLmask,
其中,权重参数α用于调整分类损失Lcls和类别一致损失Lmask之间的重要性;在训练过程中,整个网络的参数是通过最小化目标函数L来不断优化迭代而得到;在推理过程中,只需要用到特征提取模块和分类器模块就可以实现图像识别;而类别一致掩码学习模块使聚焦于各个类别图像的类别一致性的区域,从而减少不相关背景的影响;并且不会在推断时引入额外的计算成本。
3.根据权利要求1所述的基于类别一致性深度学习的图像识别方法,其特征在于,在所述步骤S1中,训练集和测试集皆为图像集合,并且每张图像都包含对应的类别标签。
4.根据权利要求1所述的基于类别一致性深度学习的图像识别方法,其特征在于,在所述步骤S2中,特征提取模块、分类器模块和类别一致掩码学习模块都由卷积神经网络构造。
5.根据权利要求1所述的一种基于类别一致性深度学习的图像识别方法,其特征在于,在所述步骤S6中,类别一致掩码学习模块仅在训练阶段协助特征提取模块进行关键特征的学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110408724.XA CN113095335B (zh) | 2021-04-16 | 2021-04-16 | 一种基于类别一致性深度学习的图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110408724.XA CN113095335B (zh) | 2021-04-16 | 2021-04-16 | 一种基于类别一致性深度学习的图像识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113095335A CN113095335A (zh) | 2021-07-09 |
CN113095335B true CN113095335B (zh) | 2023-06-30 |
Family
ID=76678132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110408724.XA Active CN113095335B (zh) | 2021-04-16 | 2021-04-16 | 一种基于类别一致性深度学习的图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095335B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688966A (zh) * | 2019-09-30 | 2020-01-14 | 华东师范大学 | 语义指导的行人重识别方法 |
CN111368909A (zh) * | 2020-03-03 | 2020-07-03 | 温州大学 | 一种基于卷积神经网络深度特征的车标识别方法 |
-
2021
- 2021-04-16 CN CN202110408724.XA patent/CN113095335B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688966A (zh) * | 2019-09-30 | 2020-01-14 | 华东师范大学 | 语义指导的行人重识别方法 |
CN111368909A (zh) * | 2020-03-03 | 2020-07-03 | 温州大学 | 一种基于卷积神经网络深度特征的车标识别方法 |
Non-Patent Citations (2)
Title |
---|
基于卷积神经网络的双行车牌分割算法;赵汉理等;计算机辅助设计与图形学学报;第31卷(第08期);1320-1329 * |
基于深度学习的鱼类识别与检测的算法研究;王文成;蒋慧;乔倩;祝捍皓;郑红;;信息技术与网络安全(08);61-65+70 * |
Also Published As
Publication number | Publication date |
---|---|
CN113095335A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109886121B (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN110443818B (zh) | 一种基于涂鸦的弱监督语义分割方法与系统 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN111368909B (zh) | 一种基于卷积神经网络深度特征的车标识别方法 | |
CN112734696B (zh) | 基于多域特征融合的换脸视频篡改检测方法及系统 | |
CN110555881A (zh) | 一种基于卷积神经网络的视觉slam测试方法 | |
CN112183501B (zh) | 深度伪造图像检测方法及装置 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
CN111968150B (zh) | 一种基于全卷积神经网络的弱监督视频目标分割方法 | |
CN111460894B (zh) | 一种基于卷积神经网络的车标智能检测方法 | |
Chen et al. | Automated design of neural network architectures with reinforcement learning for detection of global manipulations | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN114565770A (zh) | 基于边缘辅助计算和掩模注意力的图像分割方法及系统 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
Xu et al. | AutoSegNet: An automated neural network for image segmentation | |
CN115240259A (zh) | 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统 | |
CN112529025A (zh) | 一种数据处理方法及装置 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
CN116206227B (zh) | 5g富媒体信息的图片审查系统、方法、电子设备及介质 | |
CN113095335B (zh) | 一种基于类别一致性深度学习的图像识别方法 | |
CN116091823A (zh) | 一种基于快速分组残差模块的单特征无锚框目标检测方法 | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |