CN114443878A - 图像分类方法、装置、设备及存储介质 - Google Patents
图像分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114443878A CN114443878A CN202111574143.XA CN202111574143A CN114443878A CN 114443878 A CN114443878 A CN 114443878A CN 202111574143 A CN202111574143 A CN 202111574143A CN 114443878 A CN114443878 A CN 114443878A
- Authority
- CN
- China
- Prior art keywords
- target object
- image
- target
- graph
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提出一种图像分类方法、装置、设备及存储介质,该方法包括:获取训练集,训练集包括原始样本图像对应的全局特征图和从原始样本图像中截取的目标对象图,目标对象图中标注有目标对象所属的类别标签;构建用于对目标对象进行分类的网络模型结构;根据训练集对网络模型结构进行训练,得到训练好的目标分类模型。本申请从原始样本图像中截取出目标对象图,将目标对象图和全局特征图共同作为训练样本。后续模型提取目标对象图的特征,对目标对象的整体特征感受野更佳,使模型对目标对象图的学习更精确。在对目标对象图学习的基础上结合全局特征图,既提高学习目标对象的精确程度,又不会丧失全局特征,能显著提高对目标对象进行细分类的准确性。
Description
技术领域
本申请属于图像处理技术领域,具体涉及一种图像分类方法、装置、设备及存储介质。
背景技术
目前,网络中存在大量的图像,在很多领域需要对图像中的目标对象进行分类。例如,对图像中的人物按照职业进行分类,对图像中的美食按照制作原材料进行分类,对图像中的建筑按照建造风格进行分类,等等。
相关技术中提出了一种基于深度学习的目标检测开源模型,可以检测出图像中是否包含目标对象,但无法对目标对象进行细分类。可以重新进行数据标注,对不同的目标对象予以区分。但在不同类别的目标对象的相似性很高时,模型提取的特征受图像感受野的影响,导致细分类的准确度不高。
发明内容
本申请提出一种图像分类方法、装置、设备及存储介质,从原始样本图像中截取出目标对象图,将目标对象图和全局特征图共同作为训练样本。后续模型提取目标对象图的特征,对目标对象的整体特征感受野更佳,使模型对目标对象图的学习更精确。在对目标对象图学习的基础上结合全局特征图,既提高学习目标对象的精确程度,又不会丧失全局特征,能显著提高对目标对象进行细分类的准确性。
本申请第一方面实施例提出了图像分类方法,包括:
获取训练集,所述训练集包括原始样本图像对应的全局特征图和从所述原始样本图像中截取的目标对象图,所述目标对象图中标注有目标对象所属的类别标签;
构建用于对所述目标对象进行分类的网络模型结构;
根据所述训练集对所述网络模型结构进行训练,得到训练好的目标分类模型。
在本申请的一些实施例中,所述获取训练集,包括:
获取原始样本图像;
通过预设目标检测模型,检测所述原始样本图像中是否包含目标对象;
若确定包含所述目标对象,则从所述原始样本图像中截取出对应的目标对象图,在所述目标对象图中标注所述目标对象所属的类别标签。
在本申请的一些实施例中,所述获取训练集,包括:
确定包含所述目标对象后,记录所述预设目标检测模型检测过程中获得的所述原始样本图像对应的全局特征图;
将所述全局特征图和标注后的所述目标对象图组成训练集中的一组样本数据。
在本申请的一些实施例中,所述构建用于对所述目标对象进行分类的网络模型结构,包括:
基于预设分类模型,构建目标特征处理分支;
将第一卷积层和第二卷积层连接,得到全局特征处理分支;
将所述目标特征处理分支和所述全局特征处理分支均与拼接层连接;
将所述拼接层与池化层和全连接层依次连接,得到用于对所述目标对象进行分类的网络模型结构。
在本申请的一些实施例中,所述根据所述训练集对所述网络模型结构进行训练,包括:
从所述训练集中获取目标对象图及其对应的全局特征图;
根据所述目标对象图及其对应的所述全局特征图,通过所述网络模型结构识别所述目标对象图中的目标对象属于各个类别标签的预测概率;
根据所述目标对象属于各个类别标签的预测概率,通过预设损失函数计算当前训练周期的损失值。
在本申请的一些实施例中,所述根据所述目标对象图及其对应的所述全局特征图,通过所述网络模型结构识别所述目标对象图中的目标对象属于各个类别标签的预测概率,包括:
将所述目标对象图输入所述目标特征处理分支,输出目标特征向量;
将所述全局特征图输入所述全局特征处理分支,输出全局特征向量;
通过所述拼接层将所述目标特征向量和所述全局特征向量拼接为特征拼接向量;
根据所述特征拼接向量,通过所述池化层和所述全连接层依次进行池化和全连接处理,得到所述目标对象图中的目标对象属于各个类别标签的预测概率。
在本申请的一些实施例中,所述方法还包括:
获取待分类图像;
通过预设目标检测模型,检测所述待分类图像中是否包括目标对象;
若确定包含目标对象,则通过训练好的所述目标分类模型确定所述待分类图像中的所述目标对象所属的类别。
在本申请的一些实施例中,所述通过训练好的所述目标分类模型确定所述待分类图像中的所述目标对象所属的类别,包括:
通过所述预设目标检测模型识别所述待分类图像中目标对象的外接框;
从所述待分类图像中截取出所述外接框的区域,得到所述待分类图像对应的目标对象图;
记录所述预设目标检测模型检测所述待分类图像过程中提取的所述待分类图像对应的全局特征图;
根据所述待分类图像对应的目标对象图和全局特征图,通过训练好的所述目标分类模型确定所述待分类图像中的所述目标对象所属的类别。
在本申请的一些实施例中,所述根据所述待分类图像对应的目标对象图和全局特征图,通过训练好的所述目标分类模型确定所述待分类图像中的所述目标对象所属的类别,包括:
将所述待分类图像对应的目标对象图和全局特征图输入训练好的所述目标分类模型中,得到所述待分类图像中的所述目标对象属于各个类别的预测概率;
将预测概率最大的类别确定为所述待分类图像中的所述目标对象所属的类别。
本申请第二方面的实施例提供了一种图像分类装置,包括:
获取模块,用于获取训练集,所述训练集包括原始样本图像对应的全局特征图和从所述原始样本图像中截取的目标对象图,所述目标对象图中标注有目标对象所属的类别标签;
模型构建模块,用于构建用于对所述目标对象进行分类的网络模型结构;
模型训练模块,用于根据所述训练集对所述网络模型结构进行训练,得到训练好的目标分类模型。
本申请第三方面的实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序以实现上述第一方面所述的方法。
本申请第四方面的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行实现上述第一方面所述的方法。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
在本申请实施例中,从原始样本图像中截取出目标对象图,将该目标对象图和原始样本图像对应的全局特征图共同作为一组训练样本。构建了包括目标对象处理分支和全局特征处理分支的网络模型结构,通过目标对象处理分支对目标对象图进行特征提取,确保特征提取过程中对于目标对象的整体特征感受野更佳,使得模型对目标对象图的特征的学习更精确。通过全局特征处理分支对全局特征图进行处理,拼接目标对象处理分支与全局特征处理分支的输出,基于拼接的特征向量进行类别预测,既提高了学习目标对象的特征的精确程度,又不会丧失原始图像的全局特征。利用训练好的目标分类模型来对目标对象进行分类,能够显著提高对目标对象进行细分类的准确性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变的明显,或通过本申请的实践了解到。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。
在附图中:
图1示出了本申请一实施例所提供的一种图像分类方法的流程图;
图2示出了本申请一实施例所提供的Yolov5模型的结构示意图;
图3示出了本申请一实施例所提供的MBConv的结构示意图;
图4示出了本申请一实施例所提供的一种用于对目标对象进行分类的网络模型结构示意图;
图5示出了本申请一实施例所提供的采用EfficientNet B0网络来构建的用于对目标对象进行分类的网络模型结构示意图;
图6示出了本申请一实施例所提供的一种图像分类方法的另一流程图;
图7示出了本申请一实施例所提供的一种图像分类装置的结构示意图;
图8示出了本申请一实施例所提供的一种电子设备的结构示意图;
图9示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
下面结合附图来描述根据本申请实施例提出的一种图像分类方法、装置、设备及存储介质。
目前,网络中存在大量的图像,在很多领域需要对图像中的目标对象进行分类。例如,对图像中的人物按照职业进行分类,对图像中的美食按照制作原材料进行分类,对图像中的建筑按照建造风格进行分类,等等。相关技术中通常采用基于深度学习的开源模型进行目标检测,可以检测出图像中是否包含目标对象,但无法对目标对象进行细分类。虽然可以重新进行数据标注,对不同的目标对象予以区分。但在不同类别的目标对象的相似性很高时,相关技术中的开源模型提取的特征受图像感受野的影响,对目标对象的细分类的准确度都不高。
基于此,本申请实施例提出了一种图像分类方法,该方法从原始样本图像中截取出目标对象图,将该目标对象图和原始样本图像对应的全局特征图共同作为一组训练样本。在训练目标分类模型时对目标对象图进行特征提取,确保特征提取过程中对于目标对象的整体特征感受野更佳,使得模型对目标对象图的特征的学习更精确。在从目标对象图中提取的特征的基础上结合原始样本图像对应的全局特征图,使得模型的学习过程中,既提高了学习目标对象的特征的精确程度,又不会丧失原始图像的全局特征,大大提高了模型对目标对象进行分类的准确性。
参见图1,该方法具体包括以下步骤:
步骤101:获取训练集,该训练集包括原始样本图像对应的全局特征图和从原始样本图像中截取的目标对象图,目标对象图中标注有目标对象所属的类别标签。
获取大量的原始样本图像,通过预设目标检测模型,分别检测每个原始样本图像中是否包含目标对象。其中,预设目标检测模型可以为Yolov1至Yolov5共5个Yolo算法中的任意一种,也可以为EfficientDet、SSD(Single Shot MultiBox Detector)等其他任意能够实现目标检测的模型。目标对象可以为指定的任意对象,如人、植物、动物、食物,等等。
对于任一原始样本图像,若通过预设目标检测模型检测出该原始样本图像中包含目标对象,则从该原始样本图像中截取出对应的目标对象图。在实际应用中一个原始样本图像中可能包含一个或多个目标对象,对于包含多个目标对象的情况,按照同样的方式分别从原始样本图像中截取出每个目标对象对应的目标对象图。
具体地,若确定该原始样本图像中包含目标对象,则在该原始样本图像中确定出目标对象的最小外接框,该最小外接框的形状可以为矩形、圆形或椭圆形等。从该原始样本图像中截取出该最小外接框的图像区域,得到目标对象图像。
通过上述方式从原始样本图像中截取出一个或多个目标对象图之后,还在截取的目标对象图中标注该目标对象所属的类别标签。
从原始样本图像中截取出仅包含目标对象的区域,对截取出的目标对象图进行类别标注作为后续模型训练的样本,能够使得对目标对象图进行特征提取的模型的各个处理层的特征感受野更佳,提高各个处理层特征提取的准确性,进而提高后续训练得到的目标分类模型对目标对象细分类的准确性。
预设目标检测模型在检测原始样本图像的过程中会提取该原始样本图像的全局特征图,在确定于原始样本图像中包含目标对象之后,还存储该原始样本图像的全局特征图。
假设预设目标检测模型为Yolov5,图2示出了Yolov5的网络结构,将原始样本图像从Yolov5的输入端输入,则Yolov5骨干网络Backbone部分输出的特征图即为原始样本图像的全局特征图。
通过上述方式获得原始样本图像对应的一个或多个标注了类别标签的目标对象图,以及获得原始样本图像的全局特征图后,对于标注后的每个目标对象图,都将该全局特征图与该目标对象图组成训练集中的一组样本数据。
将目标对象图及其对应的全局特征图同时作为一组训练样本,能够避免目标对象图丧失了原始样本图像的全局特征的弊端,达到既能增强模型对目标对象图的学习强度,又能兼顾原始样本图像中背景区域对识别目标对象所属类别所贡献的特征,进一步提高后续训练出的目标分类模型对目标对象细分类的准确性。
对于获取的大量原始样本图像中的其他每个原始样本图像,均按照上述方式分别检测其他每个原始样本图像中是否包含目标对象,并按照上述方式生成多组样本数据。
将获得的所有样本数据组成训练集。然后通过步骤102和103的操作来训练目标分类模型。
步骤102:构建用于对目标对象进行分类的网络模型结构。
首先基于预设分类模型,构建目标特征处理分支。目标特征处理分支用于对目标对象图进行特征提取。预设分类模型可以为EfficientNet B0至EfficientNet B8这9种高效分类网络中的任一种,也可以为ResNet、vittransformer等任意其他分类网络。
此处以预设分类模型为EfficientNet B0网络为例进行说明。表1示出了EfficientNet B0网络的主要网络结构。将EfficientNet B0网络中从Conv3×3至Conv1×1之间的共9个操作层的结构作为目标特征处理分支。其中,MBConv来自MobileNetV3网络中的InvertedResidualBlock。EfficientNet中激活函数使用了Swish激活函数,另外在MBConv中加入了SE(Squeeze-and-Excitation)模块,MBConv的结构如图3所示。
表1
将第一卷积层和第二卷积层连接,得到全局特征处理分支。其中第一卷积层的输入端用于输入全局特征图,第一卷积层的输入端可以与预设目标检测模型中输出全局特征图的处理层的输出端连接。第一卷积层可以为卷积核为3×3的卷积层,第二卷积层可以为卷积核为1×1的卷积层。
将目标特征处理分支和全局特征处理分支均与拼接层连接,然后将拼接层与池化层和全连接层依次连接,得到用于对目标对象进行分类的网络模型结构,如图4所示。其中,拼接层用于将目标特征处理分支输出的目标特征向量与全局特征处理分支输出的全局特征向量拼接在一起。池化层和全连接层可以均为预设分类模型包括的处理层。以预设分类模型采用EfficientNet B0网络来构建目标特征处理分支为例,则池化层和全连接层可以分别为上述表1所示的EfficientNet B0网络中的Pooling和FC。基于EfficientNetB0网络最终构建的网络模型结构如图5所示。
通过上述方式构建的网络模型结构,可以是在EfficientNet B0至EfficientNetB8、ResNet、vittransformer等分类网络的基础上进行结构调整,利用这些分类网络的主干网络来学习目标对象图,在此基础上增加两个卷积层来处理全局特征图,增加一个拼接层来拼接提取的目标对象图的特征和提取的全局特征图的特征。整个网络模型结构简单,通过简单的结构改进即可获得大幅度提升目标细分类的准确性的效果。
步骤103:根据训练集对网络模型结构进行训练,得到训练好的目标分类模型。
从训练集中获取目标对象图及目标对象图对应的全局特征图。根据目标对象图及其对应的全局特征图,通过步骤102构建的网络模型结构识别目标对象图中的目标对象属于各个类别标签的预测概率。
具体地,将目标对象图输入目标特征处理分支,输出目标特征向量。将全局特征图输入全局特征处理分支,输出全局特征向量。然后将目标特征向量和全局特征向量输入拼接层,通过拼接层将目标特征向量和全局特征向量拼接为特征拼接向量。最后根据特征拼接向量,通过池化层和全连接层依次进行池化和全连接处理,得到目标对象图中的目标对象属于各个类别标签的预测概率。
根据目标对象属于各个类别标签的预测概率,通过预设损失函数计算当前训练周期的损失值。
其中,预设损失函数可以为交叉熵损失函数Cross Entropy Loss Function,预设损失函数也可以为其他任意二分类或多分类的损失函数。
在上述模型训练过程中使用AdamW优化器,该优化器容易调参,同时可以训练出与SGD(随机梯度下降)+Moment等同的模型性能。学习率调度器可以采用如下所示的CosineAnnealingWarmRestarts学习率调度公式,余弦退火学习率可以让模型跳出局部最优解,从而训练得到更好的模型。
其中,ηmin为最小学习率,ηmac为初始学习率,Tcur为上次学习率重置后的epochs(训练轮数),Ti表示经过多少epochs(训练轮数)后,学习率进行重置,当Tcur=Ti时,设置ηt=ηmin,当学习率重制后Tcur=0时,设置ηt=ηmax。
本申请实施例并不限定具体使用何种损失函数、优化器和学习率调度器,上述仅以示例的方式给出了一些损失函数、优化器和学习率调度器,实际应用中可根据需求选用合适的损失函数、优化器和学习率调度器。
通过上述方式计算出当前训练周期的损失函数之后,判断当前已训练的周期数目是否达到了预设次数,如果是,则停止训练,根据已训练的周期中损失值最小的训练周期的模型参数以及步骤102构建的网络模型结构,获得训练好的目标分类模型。
如果当前已训练的周期数目未达到预设次数,则继续训练,直至训练次数达到预设次数后,按照上述方式获得最终训练好的目标分类模型。
通过上述方式训练出目标分类模型之后,即可将该目标分类模型部署在需要提供目标对象分类服务的设备上。部署该服务之后即可利用目标分类模型来对目标对象进行分类。
具体地,获取待分类图像。首先通过预设目标检测模型,检测待分类图像中是否包括目标对象。如果不包含目标对象,则直接返回不包含目标对象的提示信息。若确定待分类图像中包含目标对象,则通过训练好的目标分类模型确定待分类图像中的目标对象所属的类别。
首先通过预设目标检测模型识别待分类图像中目标对象的外接框,从待分类图像中截取出外接框的区域,得到待分类图像对应的目标对象图。记录预设目标检测模型检测待分类图像过程中提取的待分类图像对应的全局特征图。根据待分类图像对应的目标对象图和全局特征图,通过训练好的目标分类模型确定待分类图像中的目标对象所属的类别。
具体地,将待分类图像对应的目标对象图和全局特征图输入训练好的目标分类模型中,得到待分类图像中的目标对象属于各个类别的预测概率。即将待分类图像对应的目标对象图输入训练好的目标分类模型的目标特征处理分支,输出待分类图像对应的目标特征向量。将待分类图像对应的全局特征图输入目标分类模型的全局特征处理分支,输出待分类图像对应的全局特征向量。通过拼接层将目标特征向量和全局特征向量拼接为特征拼接向量。根据特征拼接向量,通过池化层和全连接层依次进行池化和全连接处理,得到待分类图像中的目标对象属于各个类别标签的预测概率。将预测概率最大的类别确定为待分类图像中的目标对象所属的类别。
本申请实施例提出的图像分类方法是一个两阶段的方法,第一阶段使用预设目标检测模型,第二阶段使用具有目标特征处理分支和全局特征处理分支的目标分类模型。第一阶段中,使用预设目标检测模型检测到目标对象,从原始图像中将包含目标对象的图像区域进行裁剪,得到目标对象图。第二阶段中,应用本申请实施例训练的目标分类模型进行分类。
由于目标分类模型包括目标特征处理分支,通过该目标特征处理分支对从原始图像中裁剪出的目标对象图进行调整提取,因此该目标特征处理分支的各个处理层的特征表示可以有更好的感受野,所以目标分类模型能够很好的对检测的目标对象进行分类,分类的准确性很高。
为了便于理解本申请实施例提出的图像分类方法,下面结合具体实例进行说明。假设目标对象为人,将人分为医生、护士、其他人三类。预设目标检测模型以Yolov5模型为例,构建的用于进行分类的网络模型结构以图5所示采用EfficientNet B0网络来构建的模型结构为例。首先获取大量原始图像,通过Yolov5模型检测每个原始图像中是否包含人像,若包含则从原始图像中截取出仅包含人像的图像,将截图的图像称为人物图像,在人物图像中标注该任务所属的类别,如属于医生则标注1,属于护士则标注2,属于其他人则标注0。以及获取Yolov5模型对原始图像检测过程中提取的原始图像的全局特征图。
通过上述方式获得大量的标注后的人物图像及每个人物图像对应的全局特征图,然后利用这些人物图像及其对应的全局特征图训练图5所示的网络模型结构,具体训练过程上文已详述,在此不再重复。训练得到目标分类模型之后,如图6所示,获取待分类图像,将待分类图像输入Yolov5模型进行人员检测,判断待分类图像中是否包含人像,若不包含,则直接输出识别结果,该识别结果指示待分类图像中不包含人像。若确定待分类图像中包含人像,则从待分类图像中裁剪出人物图像,以及从Yolov5模型获得待分类图像对应的全局特征图。将人物图像和全局特征图输入训练好的目标分类模型中,输出待分类图像中人物属于医生、护士及其他人三种类别的预测概率,将预测概率最高的类别作为待分类图像中人物所属的类别。通过上述方式识别出待分类图像中人物所属的类别后,将该类别返回给调用该分类服务的用户端。
在本申请实施例中,从原始样本图像中截取出目标对象图,将该目标对象图和原始样本图像对应的全局特征图共同作为一组训练样本。构建了包括目标对象处理分支和全局特征处理分支的网络模型结构,通过目标对象处理分支对目标对象图进行特征提取,确保特征提取过程中对于目标对象的整体特征感受野更佳,使得模型对目标对象图的特征的学习更精确。通过全局特征处理分支对全局特征图进行处理,拼接目标对象处理分支与全局特征处理分支的输出,基于拼接的特征向量进行类别预测,既提高了学习目标对象的特征的精确程度,又不会丧失原始图像的全局特征。利用训练好的目标分类模型来对目标对象进行分类,能够显著提高对目标对象进行细分类的准确性。
本申请实施例还提供图像分类装置,该用于执行上述任一实施例提供的图像分类方法。如图7所示,该装置包括:
获取模块201,用于获取训练集,训练集包括原始样本图像对应的全局特征图和从原始样本图像中截取的目标对象图,目标对象图中标注有目标对象所属的类别标签;
模型构建模块202,用于构建用于对目标对象进行分类的网络模型结构;
模型训练模块203,用于根据训练集对网络模型结构进行训练,得到训练好的目标分类模型。
获取模块201,用于获取原始样本图像;通过预设目标检测模型,检测原始样本图像中是否包含目标对象;若确定包含目标对象,则从原始样本图像中截取出对应的目标对象图,以及记录预设目标检测模型检测过程中获得的原始样本图像对应的全局特征图;在目标对象图中标注目标对象所属的类别标签;将全局特征图和标注后的目标对象图组成训练集中的一组样本数据。
模型构建模块202,用于基于预设分类模型,构建目标特征处理分支;将第一卷积层和第二卷积层连接,得到全局特征处理分支;将目标特征处理分支和全局特征处理分支均与拼接层连接;将拼接层与池化层和全连接层依次连接,得到用于对目标对象进行分类的网络模型结构。
模型训练模块203,用于从训练集中获取目标对象图及其对应的全局特征图;根据目标对象图及其对应的全局特征图,通过网络模型结构识别目标对象图中的目标对象属于各个类别标签的预测概率;根据目标对象属于各个类别标签的预测概率,通过预设损失函数计算当前训练周期的损失值。
模型训练模块203,用于将目标对象图输入目标特征处理分支,输出目标特征向量;将全局特征图输入全局特征处理分支,输出全局特征向量;通过拼接层将目标特征向量和全局特征向量拼接为特征拼接向量;根据特征拼接向量,通过池化层和全连接层依次进行池化和全连接处理,得到目标对象图中的目标对象属于各个类别标签的预测概率。
该装置还包括:分类模块,用于获取待分类图像;通过预设目标检测模型,检测待分类图像中是否包括目标对象;若确定包含目标对象,则通过训练好的目标分类模型确定待分类图像中的目标对象所属的类别。
分类模块,用于通过预设目标检测模型识别待分类图像中目标对象的外接框;从待分类图像中截取出外接框的区域,得到待分类图像对应的目标对象图;记录预设目标检测模型检测待分类图像过程中提取的待分类图像对应的全局特征图;根据待分类图像对应的目标对象图和全局特征图,通过训练好的目标分类模型确定待分类图像中的目标对象所属的类别。
分类模块,用于将待分类图像对应的目标对象图和全局特征图输入训练好的目标分类模型中,得到待分类图像中的目标对象属于各个类别的预测概率;将预测概率最大的类别确定为待分类图像中的目标对象所属的类别。
本申请的上述实施例提供的图像分类装置与本申请实施例提供的图像分类方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种电子设备,以执行上述图像分类方法。请参考图8,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图8所示,电子设备8包括:处理器800,存储器801,总线802和通信接口803,所述处理器800、通信接口803和存储器801通过总线802连接;所述存储器801中存储有可在所述处理器800上运行的计算机程序,所述处理器800运行所述计算机程序时执行本申请前述任一实施方式所提供的图像分类方法。
其中,存储器801可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口803(可以是有线或者无线)实现该装置网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线802可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器801用于存储程序,所述处理器800在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述图像分类方法可以应用于处理器800中,或者由处理器800实现。
处理器800可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器800中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器800可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801,处理器800读取存储器801中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的图像分类方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的图像分类方法对应的计算机可读存储介质,请参考图9,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的图像分类方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的图像分类方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下示意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种图像分类方法,其特征在于,包括:
获取训练集,所述训练集包括原始样本图像对应的全局特征图和从所述原始样本图像中截取的目标对象图,所述目标对象图中标注有目标对象所属的类别标签;
构建用于对所述目标对象进行分类的网络模型结构;
根据所述训练集对所述网络模型结构进行训练,得到训练好的目标分类模型。
2.根据权利要求1所述的方法,其特征在于,所述获取训练集,包括:
获取原始样本图像;
通过预设目标检测模型,检测所述原始样本图像中是否包含目标对象;
若确定包含所述目标对象,从所述原始样本图像中截取出对应的目标对象图,在所述目标对象图中标注所述目标对象所属的类别标签。
3.根据权利要求2所述的方法,其特征在于,所述获取训练集,包括:
确定包含所述目标对象后,记录所述预设目标检测模型检测过程中获得的所述原始样本图像对应的全局特征图;
将所述全局特征图和标注后的所述目标对象图组成训练集中的一组样本数据。
4.根据权利要求1所述的方法,其特征在于,所述构建用于对所述目标对象进行分类的网络模型结构,包括:
基于预设分类模型,构建目标特征处理分支;
将第一卷积层和第二卷积层连接,得到全局特征处理分支;
将所述目标特征处理分支和所述全局特征处理分支均与拼接层连接;
将所述拼接层与池化层和全连接层依次连接,得到用于对所述目标对象进行分类的网络模型结构。
5.根据权利要求4所述的方法,其特征在于,所述根据所述训练集对所述网络模型结构进行训练,包括:
从所述训练集中获取目标对象图及其对应的全局特征图;
根据所述目标对象图及其对应的所述全局特征图,通过所述网络模型结构识别所述目标对象图中的目标对象属于各个类别标签的预测概率;
根据所述目标对象属于各个类别标签的预测概率,通过预设损失函数计算当前训练周期的损失值。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标对象图及其对应的所述全局特征图,通过所述网络模型结构识别所述目标对象图中的目标对象属于各个类别标签的预测概率,包括:
将所述目标对象图输入所述目标特征处理分支,输出目标特征向量;
将所述全局特征图输入所述全局特征处理分支,输出全局特征向量;
通过所述拼接层将所述目标特征向量和所述全局特征向量拼接为特征拼接向量;
根据所述特征拼接向量,通过所述池化层和所述全连接层依次进行池化和全连接处理,得到所述目标对象图中的目标对象属于各个类别标签的预测概率。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
获取待分类图像;
通过预设目标检测模型,检测所述待分类图像中是否包括目标对象;
若确定包含目标对象,则通过训练好的所述目标分类模型确定所述待分类图像中的所述目标对象所属的类别。
8.根据权利要求7所述的方法,其特征在于,所述通过训练好的所述目标分类模型确定所述待分类图像中的所述目标对象所属的类别,包括:
通过所述预设目标检测模型识别所述待分类图像中目标对象的外接框;
从所述待分类图像中截取出所述外接框的区域,得到所述待分类图像对应的目标对象图;
记录所述预设目标检测模型检测所述待分类图像过程中提取的所述待分类图像对应的全局特征图;
根据所述待分类图像对应的目标对象图和全局特征图,通过训练好的所述目标分类模型确定所述待分类图像中的所述目标对象所属的类别。
9.根据权利要求8所述的方法,其特征在于,所述根据所述待分类图像对应的目标对象图和全局特征图,通过训练好的所述目标分类模型确定所述待分类图像中的所述目标对象所属的类别,包括:
将所述待分类图像对应的目标对象图和全局特征图输入训练好的所述目标分类模型中,得到所述待分类图像中的所述目标对象属于各个类别的预测概率;
将预测概率最大的类别确定为所述待分类图像中的所述目标对象所属的类别。
10.一种图像分类装置,其特征在于,包括:
获取模块,用于获取训练集,所述训练集包括原始样本图像对应的全局特征图和从所述原始样本图像中截取的目标对象图,所述目标对象图中标注有目标对象所属的类别标签;
模型构建模块,用于构建用于对所述目标对象进行分类的网络模型结构;
模型训练模块,用于根据所述训练集对所述网络模型结构进行训练,得到训练好的目标分类模型。
11.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111574143.XA CN114443878A (zh) | 2021-12-21 | 2021-12-21 | 图像分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111574143.XA CN114443878A (zh) | 2021-12-21 | 2021-12-21 | 图像分类方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114443878A true CN114443878A (zh) | 2022-05-06 |
Family
ID=81363283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111574143.XA Pending CN114443878A (zh) | 2021-12-21 | 2021-12-21 | 图像分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114443878A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091848A (zh) * | 2023-04-03 | 2023-05-09 | 青岛创新奇智科技集团股份有限公司 | 试管分类方法、装置、设备及存储介质 |
-
2021
- 2021-12-21 CN CN202111574143.XA patent/CN114443878A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091848A (zh) * | 2023-04-03 | 2023-05-09 | 青岛创新奇智科技集团股份有限公司 | 试管分类方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471938B (zh) | 一种文本分类方法及终端 | |
CN107403198B (zh) | 一种基于级联分类器的官网识别方法 | |
WO2019100724A1 (zh) | 训练多标签分类模型的方法和装置 | |
WO2019100723A1 (zh) | 训练多标签分类模型的方法和装置 | |
CN112990297A (zh) | 多模态预训练模型的训练方法、应用方法及装置 | |
CN104933420B (zh) | 一种场景图像识别方法和场景图像识别设备 | |
CN110222780B (zh) | 物体检测方法、装置、设备和存储介质 | |
WO2022006295A1 (en) | Methods and apparatus to decode documents based on images using artificial intelligence | |
CN115937655B (zh) | 多阶特征交互的目标检测模型及其构建方法、装置及应用 | |
CN110309301B (zh) | 企业类别的分类方法、装置及智能终端 | |
CN113537070B (zh) | 一种检测方法、装置、电子设备及存储介质 | |
CN115546831A (zh) | 一种多粒度注意力机制跨模态行人搜索方法和系统 | |
CN111488829A (zh) | 杆塔巡检照片分类方法、装置、电子设备以及存储介质 | |
CN111401062A (zh) | 文本的风险识别方法、装置及设备 | |
CN114443878A (zh) | 图像分类方法、装置、设备及存储介质 | |
CN111178363A (zh) | 文字识别方法、装置、电子设备以及可读存储介质 | |
CN111062385A (zh) | 一种用于图像文本信息检测的网络模型构建方法与系统 | |
CN115984671A (zh) | 模型在线更新方法、装置、电子设备及可读存储介质 | |
CN111046262A (zh) | 一种数据标注方法、装置及计算机存储介质 | |
CN115661584B (zh) | 一种模型训练方法、开放域目标检测方法及相关装置 | |
CN112801221B (zh) | 一种数据分类方法、装置、设备及存储介质 | |
KR102451758B1 (ko) | 이물질 선별 방법 및 장치 | |
CN116993996B (zh) | 对图像中的对象进行检测的方法及装置 | |
CN114443877A (zh) | 图像多标签分类的方法、装置、设备及存储介质 | |
WO2023220859A1 (en) | Multi-dimensional attention for dynamic convolutional kernel |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |