CN115035302A - 一种基于深度半监督模型的图像细粒度分类方法 - Google Patents
一种基于深度半监督模型的图像细粒度分类方法 Download PDFInfo
- Publication number
- CN115035302A CN115035302A CN202210787416.7A CN202210787416A CN115035302A CN 115035302 A CN115035302 A CN 115035302A CN 202210787416 A CN202210787416 A CN 202210787416A CN 115035302 A CN115035302 A CN 115035302A
- Authority
- CN
- China
- Prior art keywords
- semi
- image
- feature
- supervised
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于深度半监督模型的图像细粒度分类方法,包括以下步骤:S1、获取原始图片,提取原始图片图像特征,组成全局特征矩阵;S2、对原始图片进行超像素分割,计算得出成特征分配映射;S3、将全局特征矩阵和特征分配映射进行非线性特征编码,得到超像素局部区域特征;S4、检测每个部分的发生概率,利用对齐概率分布得到超像素区域发生概率正则化项;S5、创建半监督神经网络,根据超像素区域发生概率正则化项和损伤函数训练半监督神经网络;S6、用训练好的半监督神经网络进行图像细粒度分类。本发明能够准确高效地对手写数字和医学细胞图像进行细粒度分类,兼具更优的图像细粒度分类准确率。
Description
技术领域
本发明属于图像分析技术领域,具体涉及一种基于深度半监督模型的图像细粒度分类方法。
背景技术
目前,深度模型在视觉方面非常成功,但其结果往往难以解释。虽然用多个方面解释一个模型,其中一种的方法是分割有意义的对象的局部区域来解释模型的预测结果(例如,人面部的眼睛、嘴巴、脸颊、前头和颈部),并进一步识别局部区域对决策的贡献程度(例如,嘴部区域更多用于区分是否微笑)。我们如何设计一个可解释的深度模型来学习发现对象局部区域和估计这些区域对视觉识别的重要性。可以采用一个简单的先验假设,即人脸会出现在大多数人脸识别这类图像中,而人脸不可能会出现在大多数鸟类图像中。该先验假设可用局部区域服从Beta分布来刻画,这种分布能够解释不同局部区域对于模型预测结果的重要程度,给出与预测结果一致的区域信息提示。因此,将这种先验假设以正则化项的形式加入模型训练过程,可以有效提升模型分类效果。
此外,在模型训练过程中,学者尝试同时使用有标记数据和无标记数据优化模型,提出了半监督学习的分类模型训练方法。现今,准确的图像深度学习分类模型在很大程度上,严重依赖于大量已标记的训练样本,但是实际应用中大量准确标记的多分类有标签训练样本往往是这类问题的瓶颈。而且,对于图像细粒度分类而言,许多图像分析的应用常常面临严重大类之间距离更大且小类之间距离更小的问题,简言之,就是越是相似图像类别之间的差异越小,导致准确的多分类决策更困难。在上述不可避免条件下,使用细粒度半监督神经网络提升分类模型的性能是一种新的研究方向。
总之,对于图像智能分析研究而言,分类是智能分析的一个重要落脚点。因此,本发明提出一种准确、有效地利用未标记数据对图像数据进行半监督细粒度分类的方法。
发明内容
本发明要解决的技术问题是提供一种基于深度半监督模型的图像细粒度分类方法,采用少量已标注数据集训练的深度半监督神经网络作为基分类器,借助一种从超像素分割后提取区域细粒度特征方法扩充图像数据的有效特征集,实现对图像准确细粒度分类。
为解决上述技术问题,本发明的实施例提供一种基于深度半监督模型的图像细粒度分类方法,包括以下步骤:
S1、获取原始图片,提取原始图片图像特征X1:N={Xn},组成全局特征矩阵X;
S2、对步骤S1中获得的原始图片进行超像素分割,图像划分为k个部分dk,计算得到特征分配映射Q;
S3、将步骤1中获得的全局特征矩阵X和步骤S2中获得的特征分配映射Q进行非线性特征编码,得到超像素局部区域特征Z;
S4、在给定Q前提下,检测每个部分dk的发生概率,利用对齐概率分布法得到超像素区域发生概率正则化项;
S5、创建半监督神经网络fθ(x),根据超像素区域发生概率正则化项和损伤函数训练半监督神经网络fθ(x);
S6、用步骤S5中训练好的半监督神经网络fθ(x)进行图像细粒度分类。
其中,所述步骤S1包括以下步骤:
S1.1、利用深度自编码器提取图像自编码特征X′1:i;
S1.2、利用卷积核提取卷积特征X′(i+1):N;
S1.3、利用深度自编码器和池化层提取图像特征组成特征矩阵X1:N。
其中,所述步骤S2包括以下步骤:
S2.1、将原始图片进行超像素分割成k个部分;
其中,所述步骤S3包括以下步骤:
其中,非线性特征编码公式为:
其中,z’k表示部分dk的超像素区域特征;
S3.2、将映射Z’输入带残差模块的子网络fz把Z’得特征表示fz(Z’),其中fz包含四个残差模块,每一个模块包含三个带batch norm和ReLU激活函数的卷积;
S3.3、将fz(Z’)输入到softmax层,得到每个区域的重要性概率softmax(fz(Z’T));
S3.4、把注意力模板f放在映射Z’的上,计算每个区域重要性,把区域重要性表示为注意力向量a,其中,模板f是一个神经网络,f的输入是z’k,输出是权重ak;
S3.5、用注意力向量调整a转换后的区域特征softmax(fz(Z’T)),计算公式为Z=asoftmax(fz(Z’T))。
其中,所述步骤S4包括以下步骤:
S4.2、将所有k部分检测器的输出合并到共现向量τ=[t1,t2,...,tK]T∈(0,1)K,表示所有超像素发生的概率;
S4.3、将所有共现向量τn,n=1,2,...,N合并成一个矩阵T=[τ1,τ2,...τN]∈(0,1)K×N,估计得到经验分布p(dk|X1:N);
其中,所述步骤S5包括以下步骤:
S5.1、建立随机初始化参数为θ的神经网络fθ(x),将区域特征Z和特征矩阵X输入神经网络进行训练;
S5.2、计算神经网络fθ(x)的监督数据和无监督数据损失项,其中,计算有标签数据的监督损失项的公式为:
计算无标签数据的无监督损失项的公式为:
S5.5、得到总损失,公式为:
Loss=loss1+loss2+Reg_prior;
S5.6、利用ADAM算法更新神经网络参数θ。
本发明上述技术方案的有益效果如下:
本发明采用少量已标注数据集训练的深度半监督神经网络作为基分类器,借助一种从超像素分割后提取区域细粒度特征方法扩充图像数据的有效特征集,结合了区域细粒度的特征与深度半监督神经网络模型对数字图像和细胞图像进行准确分类,实现对图像准确细粒度分类,兼具深度半监督神经网络模型与细粒度图像特征提取的优势,能有效利用未标记图像数据,从而实现图像的细粒度分类准确率提升。
附图说明
图1为本发明流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明的实施例提供一种基于深度半监督模型的图像细粒度分类方法,包括以下步骤:
S1、获取原始图片,提取原始图片图像特征X1:N={Xn},组成全局特征矩阵X;
S2、对步骤S1中获得的原始图片进行超像素分割,图像划分为k个部分dk,计算得到特征分配映射Q;
S3、将步骤1中获得的全局特征矩阵X和步骤S2中获得的特征分配映射Q进行非线性特征编码,得到超像素局部区域特征Z;
S4、在给定Q前提下,检测每个部分dk的发生概率,利用对齐概率分布法得到超像素区域发生概率正则化项;
S5、创建半监督神经网络fθ(x),根据超像素区域发生概率正则化项和损伤函数训练半监督神经网络fθ(x);
S6、用步骤S5中训练好的半监督神经网络fθ(x)进行图像细粒度分类。
本实施例中,所述步骤S1包括以下步骤:
S1.1、利用深度自编码器提取图像自编码特征X′1:i;
S1.2、利用卷积核提取卷积特征X′(i+1):N;
S1.3、利用深度自编码器和池化层提取图像特征组成特征矩阵X1:N。
所述步骤S2包括以下步骤:
S2.1、将原始图片进行超像素分割成k个部分;
所述步骤S3包括以下步骤:
其中,非线性特征编码公式为:
其中,z’k表示部分dk的超像素区域特征;
S3.2、将映射Z’输入带残差模块的子网络fz把Z’得特征表示fz(Z’),其中fz包含四个残差模块,每一个模块包含三个带batch norm和ReLU激活函数的卷积;
S3.3、将fz(Z’)输入到sofimax层,得到每个区域的重要性概率softmax(fz(Z’T));
S3.4、把注意力模板f放在映射Z’的上,计算每个区域重要性,把区域重要性表示为注意力向量a,其中,模板f是一个神经网络,f的输入是z’k,输出是权重ak;
S3.5、用注意力向量调整a转换后的区域特征softmax(fz(Z’T)),计算公式为Z=asoftmax(fz(Z’T))。
所述步骤S4包括以下步骤:
S4.2、将所有k部分检测器的输出合并到共现向量τ=[t1,t2,...,tK]T∈(0,1)K,表示所有超像素发生的概率;
S4.3、将所有共现向量τn,n=1,2,...,N合并成一个矩阵T=[τ1,τ2,...τN]∈(0,1)K×N,估计得到经验分布p(dk|X1:N);
所述步骤S5包括以下步骤:
S5.1、建立随机初始化参数为θ的神经网络fθ(x),将区域特征Z和特征矩阵X输入神经网络进行训练;
S5.2、计算神经网络fθ(x)的监督数据和无监督数据损失项,其中,计算有标签数据的监督损失项的公式为:
计算无标签数据的无监督损失项的公式为:
S5.5、得到总损失,公式为:
Loss=loss1+loss2+Reg_prior;
S5.6、利用ADAM算法更新神经网络参数θ。
本发明提供的一种基于深度半监督模型的图像细粒度分类方法进行建模求解的两个关键点是:
(1)如何设计有效细粒度特征提取方法。学习分类对象样本的的各个组成部分没有对区域明确监督信息,它本身就是一个具有挑战性的问题。提出方法的不同之处,在于使用对象样本的区域局部特征作为最终分类网络的输入。先用超像素对目标对象分割;再用非线性编码方法提取目标对象的各区域注意力权重,达到局部特征提取效果是该方法的特色之一。
(2)如何将未标选样本用于半监督模型训练。与其他半监督模型相比,提出方法采用加入区域先验知识和未标记样本在损失函数中,以达到充分利用重要区域信息和大量未标记样本提升分类模型效果的目的。因此,仅需要少量有标记数据引导,同时充分利用大量无标记数据来提升模型的性能,最终避免了无标记数据资源浪费、提升了小样本有标记监督学习模型的泛化能力、缓解了单纯无标记数据学习方法不准确问题。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于深度半监督模型的图像细粒度分类方法,其特征在于,包括以下步骤:
S1、获取原始图片,提取原始图片图像特征X1:N={Xn},组成全局特征矩阵X;
S2、对步骤S1中获得的原始图片进行超像素分割,图像划分为k个部分dk,计算得到特征分配映射Q;
S3、将步骤1中获得的全局特征矩阵X和步骤S2中获得的特征分配映射Q进行非线性特征编码,得到超像素局部区域特征Z;
S4、在给定Q前提下,检测每个部分dk的发生概率,利用对齐概率分布法得到超像素区域发生概率正则化项;
S5、创建半监督神经网络fθ(x),根据超像素区域发生概率正则化项和损伤函数训练半监督神经网络fθ(x);
S6、用步骤S5中训练好的半监督神经网络fθ(x)进行图像细粒度分类。
2.根据权利要求1所述的基于深度半监督模型的图像细粒度分类方法,其特征在于,所述步骤S1包括以下步骤:
S1.1、利用深度自编码器提取图像自编码特征X′1:i;
S1.2、利用卷积核提取卷积特征X′(i+1):N;
S1.3、利用深度自编码器和池化层提取图像特征组成特征矩阵X1:N。
4.根据权利要求1所述的基于深度半监督模型的图像细粒度分类方法,其特征在于,所述步骤S3包括以下步骤:
其中,非线性特征编码公式为:
其中,z’k表示部分dk的超像素区域特征;
S3.2、将映射Z’输入带残差模块的子网络fz把Z’得特征表示fz(Z’),其中fz包含四个残差模块,每一个模块包含三个带batch norm和ReLU激活函数的卷积;
S3.3、将fz(Z’)输入到softmax层,得到每个区域的重要性概率softmax(fz(Z’T));
S3.4、把注意力模板f放在映射Z’的上,计算每个区域重要性,把区域重要性表示为注意力向量a,其中,模板f是一个神经网络,f的输入是z’k,输出是权重ak;
S3.5、用注意力向量调整a转换后的区域特征softmax(fz(Z’T)),计算公式为Z=softmax(fz(Z’T))a。
5.根据权利要求1所述的基于深度半监督模型的图像细粒度分类方法,其特征在于,所述步骤S4包括以下步骤:
S4.2、将所有k部分检测器的输出合并到共现向量τ=[t1,t2,...,tK]T∈(0,1)K,表示所有超像素发生的概率;
S4.3、将所有共现向量τn,n=1,2,...,N合并成一个矩阵T=[τ1,τ2,...τN]∈(0,1)K×N,估计得到经验分布p(dk|X1:N);
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210787416.7A CN115035302A (zh) | 2022-07-05 | 2022-07-05 | 一种基于深度半监督模型的图像细粒度分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210787416.7A CN115035302A (zh) | 2022-07-05 | 2022-07-05 | 一种基于深度半监督模型的图像细粒度分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115035302A true CN115035302A (zh) | 2022-09-09 |
Family
ID=83128167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210787416.7A Pending CN115035302A (zh) | 2022-07-05 | 2022-07-05 | 一种基于深度半监督模型的图像细粒度分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115035302A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117611930A (zh) * | 2024-01-23 | 2024-02-27 | 中国海洋大学 | 一种基于clip的医学图像的细粒度分类方法 |
-
2022
- 2022-07-05 CN CN202210787416.7A patent/CN115035302A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117611930A (zh) * | 2024-01-23 | 2024-02-27 | 中国海洋大学 | 一种基于clip的医学图像的细粒度分类方法 |
CN117611930B (zh) * | 2024-01-23 | 2024-04-26 | 中国海洋大学 | 一种基于clip的医学图像的细粒度分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN109063723B (zh) | 基于迭代挖掘物体共同特征的弱监督图像语义分割方法 | |
US11315345B2 (en) | Method for dim and small object detection based on discriminant feature of video satellite data | |
CN110728200B (zh) | 一种基于深度学习的实时行人检测方法及系统 | |
CN108875624B (zh) | 基于多尺度的级联稠密连接神经网络的人脸检测方法 | |
WO2019140767A1 (zh) | 安检识别系统及其控制方法 | |
CN112966691B (zh) | 基于语义分割的多尺度文本检测方法、装置及电子设备 | |
CN111191654B (zh) | 道路数据生成方法、装置、电子设备及存储介质 | |
CN109325507B (zh) | 结合超像素显著性特征与hog特征图像分类方法和系统 | |
CN109886159B (zh) | 一种非限定条件下的人脸检测方法 | |
CN111223084A (zh) | 一种染色体切割数据的处理方法、系统和存储介质 | |
CN116258719A (zh) | 基于多模态数据融合的浮选泡沫图像分割方法和装置 | |
CN111507275A (zh) | 一种基于深度学习的视频数据时序信息提取方法及装置 | |
CN115240024A (zh) | 一种联合自监督学习和半监督学习的地外图片分割方法和系统 | |
CN114943876A (zh) | 一种多级语义融合的云和云影检测方法、设备及存储介质 | |
CN113283282A (zh) | 一种基于时域语义特征的弱监督时序动作检测方法 | |
CN113420827A (zh) | 语义分割网络训练和图像语义分割方法、装置及设备 | |
CN115035302A (zh) | 一种基于深度半监督模型的图像细粒度分类方法 | |
Alsanad et al. | Real-time fuel truck detection algorithm based on deep convolutional neural network | |
CN117437647B (zh) | 基于深度学习和计算机视觉的甲骨文字检测方法 | |
CN112418032A (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
CN108460772B (zh) | 基于卷积神经网络的广告骚扰传真图像检测系统及方法 | |
Wang et al. | Remote sensing semantic segregation for water information extraction: Optimization of samples via training error performance | |
Pulido et al. | Multiresolution classification of turbulence features in image data through machine learning | |
CN115240271A (zh) | 基于时空建模的视频行为识别方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |