CN114443877A - 图像多标签分类的方法、装置、设备及存储介质 - Google Patents
图像多标签分类的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114443877A CN114443877A CN202111574142.5A CN202111574142A CN114443877A CN 114443877 A CN114443877 A CN 114443877A CN 202111574142 A CN202111574142 A CN 202111574142A CN 114443877 A CN114443877 A CN 114443877A
- Authority
- CN
- China
- Prior art keywords
- classification
- label
- training
- model
- label classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种图像多标签分类的方法、装置、设备及存储介质,该方法包括:获取训练集,训练集包括标注有多个分类标签的样本图像;构建用于多标签分类的网络模型结构,网络模型结构包括多个激活层,激活层的数目与分类标签的数目相等;根据训练集训练网络模型结构,得到训练好的多标签分类模型。本申请使用具有多个激活层的多标签分类模型进行多标签分类。多标签分类模型的结构简单,运算量小。进一步地,在多标签分类模型中添加多头注意力机制,从而能学习到不同分类标签之间的关联性,提高多标签分类的准确性。多标签分类模型具有更轻的网络结构,训练时能更快收敛,提高模型训练效率,在相同资源情况下该多标签分类模型具有更高的服务性能。
Description
技术领域
本申请属于图像处理技术领域,具体涉及一种图像多标签分类的方法、装置、设备及存储介质。
背景技术
目前,网络中存在海量的图像,对图像进行多标签分类,有助于对图像进行结构化分析处理。
相关技术中通常采用检测和语义分割模型对图像进行多标签分类,但该方式更适合对象是一个具体事物的情况,对于抽象的概念,很难进行检测目标框和语义分割的掩码定义,比如是否有光照的情况难以进行分类。
发明内容
本申请提出一种图像多标签分类的方法、装置、设备及存储介质,使用具有多个激活层的多标签分类模型进行多标签分类。多标签分类模型的结构简单,运算量小,具有更轻的网络结构,训练时能更快收敛,提高模型训练效率,在相同资源情况下该多标签分类模型具有更高的服务性能。
本申请第一方面实施例提出了一种图像多标签分类的方法,包括:
获取训练集,所述训练集包括标注有多个分类标签的样本图像;
构建用于进行多标签分类的网络模型结构,所述网络模型结构包括多个激活层,所述激活层的数目与所述分类标签的数目相等;
根据所述训练集训练所述网络模型结构,得到训练好的多标签分类模型。
在本申请的一些实施例中,所述构建用于进行多标签分类的网络模型结构,包括:
基于预设分类模型,构建主干分类器;
将所述主干分类器与多个激活层连接。
在本申请的一些实施例中,所述构建用于进行多标签分类的网络模型结构,包括:
基于预设分类模型,构建主干分类器;
将所述主干分类器与多头注意力层连接;
将所述多头注意力层与多个激活层连接。
在本申请的一些实施例中,所述预设分类模型包括EfficientNet网络;
将所述EfficientNet网络的归一化层去除,得到所述主干分类器。
在本申请的一些实施例中,所述根据所述训练集训练所述网络模型结构,得到训练好的多标签分类模型,包括:
从所述训练集中获取样本图像;
将所述样本图像输入所述主干分类器,输出每个分类标签对应的特征向量;
将每个所述特征向量分别输入所述多个激活层中,得到每个分类标签对应的预测概率;
根据每个分类标签对应的预测概率,通过预设损失函数计算当前训练周期的损失值。
在本申请的一些实施例中,所述根据所述训练集训练所述网络模型结构,得到训练好的多标签分类模型,包括:
从所述训练集中获取样本图像;
将所述样本图像输入所述主干分类器,输出每个分类标签对应的特征向量;
将每个分类标签对应的特征向量输入所述多头注意力层,输出每个分类标签对应的多头注意力矩阵;
将每个所述多头注意力矩阵分别输入所述多个激活层中,得到每个分类标签对应的预测概率;
根据每个分类标签对应的预测概率,通过预设损失函数计算当前训练周期的损失值。
在本申请的一些实施例中,所述方法还包括:
获取待分类图像;
通过训练好的所述多标签分类模型对所述待分类图像进行分类。
在本申请的一些实施例中,所述通过训练好的所述多标签分类模型对所述待分类图像进行分类,包括:
将所述待分类图像输入训练好的所述多标签分类模型中,获得每个分类标签对应的预测概率;
将预测概率大于预设阈值的分类标签确定为所述待分类图像所属的分类标签。
本申请第二方面的实施例提供了一种图像多标签分类的装置,包括:
获取模块,用于获取训练集,所述训练集包括标注有多个分类标签的样本图像;
模型构建模块,用于构建用于进行多标签分类的网络模型结构,所述网络模型结构包括多个激活层,所述激活层的数目与所述分类标签的数目相等;
模型训练模块,用于根据所述训练集训练所述网络模型结构,得到训练好的多标签分类模型。
本申请第三方面的实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序以实现上述第一方面所述的方法。
本申请第四方面的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行实现上述第一方面所述的方法。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
在本申请实施例中,使用具有多个激活层的多标签分类模型来对图像进行多标签分类。多标签分类模型的结构简单,运算量小。进一步地,在多标签分类模型中添加多头注意力机制,使得多标签分类模型能够学习到不同分类标签之间的关联性,提高多标签分类的准确性。本申请提供的这两种多标签分类模型都具有更轻的网络结构,在训练过程中能够更快地收敛,提高模型训练效率,在相同的资源情况下本申请训练的多标签分类模型具有更高的服务性能。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变的明显,或通过本申请的实践了解到。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。
在附图中:
图1示出了本申请一实施例所提供的一种图像多标签分类的方法流程图;
图2示出了本申请一实施例所提供的一种用于多标签分类的网络模型的结构示意图;
图3示出了本申请一实施例所提供的MBConv的结构示意图;
图4示出了本申请一实施例所提供的EfficientNet网络的结构示意图;
图5示出了本申请一实施例所提供的以EfficientNet网络构建主干分类器的多标签分类模型的结构示意图;
图6示出了本申请一实施例所提供的另一种用于多标签分类的网络模型的结构示意图;
图7示出了本申请一实施例所提供的注意力机制的结构示意图;
图8示出了本申请一实施例所提供的多头注意力机制的结构示意图;
图9示出了本申请一实施例所提供的多头注意力机制的另一结构示意图;
图10示出了本申请一实施例所提供的以EfficientNet网络构建主干分类器的另一多标签分类模型的结构示意图;
图11示出了本申请一实施例所提供的一种图像多标签分类的装置的结构示意图;
图12示出了本申请一实施例所提供的一种电子设备的结构示意图;
图13示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
下面结合附图来描述根据本申请实施例提出的一种图像多标签分类的方法、装置、设备及存储介质。
目前网络中存在海量的图像,对这些图像进行结构化分析处理具有重要意义。现有的图像分析处理方式主要集中于分类、检测、语义分割等。日常生活中的图片本质上是多标签的,图像分类作为单标签的分析方式受到了一定的限制,检测和语义分割可以解决多标签的问题,但有着标注工作量巨大的问题,更适合于解决特定场景下的问题。此外,检测和分割更适合对象是一个具体事物的情况,对于抽象的概念,很难进行检测目标框和语义分割掩码定义,比如是否有光照。多标签分类通用场景下最适用的图片结构化分析处理方式。
相关技术中采用TresnetASL模型来对图像进行多标签分类,但该模型的网络结构较大。有些场景追求不降低网络性能的情况下,使用更轻量级的网络。
基于此本申请实施例提供一种图像多标签分类的方法,该方法使用具有多个激活层的多标签分类模型来对图像进行多标签分类。多标签分类模型的结构简单,运算量小。进一步地,在多标签分类模型中添加多头注意力机制,使得多标签分类模型能够学习到不同分类标签之间的关联性,提高多标签分类模型进行多标签分类的准确性。
参见图1,该方法具体包括以下步骤:
步骤101:获取训练集,该训练集包括标注有多个分类标签的样本图像。
获取大量的样本图像,在每个样本图像中标注多个分类标签。分类标签可以包括需要分类的任意标签,如是否包含人像、是否为医护人员、是否为手术过程图、是否包含手术部位,等等。每个分类标签都是一个二分类问题,通过不同的取值来表示具体的类别,如是否包围医护人员的分类标签的取值为1,表示图中的人物为医护人员;而分类标签的取值为0,则表示图中的人物不是医护人员。
分类标签是由图像多标签分类的具体业务需求来决定的,本申请实施例不对分类标签的具体内容进行限定。
需要说明的是,一个样本图像可以同时属于多个分类,假设用1表示样本图像属于某个分类,则一个样本图像标注的多个分类标签中可以同时有多个分类标签的取值为1。
步骤102:构建用于进行多标签分类的网络模型结构,该网络模型结构包括多个激活层,激活层的数目与分类标签的数目相等。
在本申请的一些实施例中,基于预设分类模型,构建主干分类器。将主干分类器与多个激活层连接,得到用于进行多标签分类的网络模型结构。图2示出了该网络模型结构的示意图,图中示意性地画出了激活层1、激活层2、……、激活层N。实际应用中激活层的数目与分类标签的数目相等。
预设分类模型可以为EfficientNet B0至EfficientNet B8这9种高效分类网络中的任一种,也可以为ResNet、vittransformer等任意其他分类网络。此处以预设分类模型为EfficientNet B0网络为例进行说明。表1示出了EfficientNet B0网络的主要网络结构。将EfficientNet B0网络中从Conv3×3至FC之间的结构作为主干分类器。
表1
操作层 | 分辨率 | 通道数 | 层数 |
Conv3×3 | 224×224 | 32 | 1 |
MBConv1,k3×3 | 122×122 | 16 | 1 |
MBConv6,k3×3 | 122×122 | 24 | 2 |
MBConv6,k5×5 | 56×56 | 40 | 2 |
MBConv6,k3×3 | 28×28 | 80 | 3 |
MBConv6,k5×5 | 14×14 | 112 | 3 |
MBConv6,k5×5 | 14×14 | 192 | 4 |
MBConv6,k3×3 | 7×7 | 320 | 1 |
Conv1×1&Pooling&FC | 7×7 | 1280 | 1 |
其中,在EfficientNet B0网络中MBConv来自MobileNetV3网络中的InvertedResidualBlock。MBConv中加入了SE(Squeeze-and-Excitation)模块,MBConv的结构如图3所示。EfficientNet网络中激活函数使用了Swish激活函数,EfficientNet网络的结构如图4所示,全连接层FC输出的特征向量输入softmax激活层,最终输出预测概率。从图4可以看出EfficientNet网络通过softmax激活层仅能输出一种分类的预测概率,无法实现多标签分类。
本申请实施例将EfficientNet网络中的softmax归一化层去除,得到主干分类器。将主干分类器的全连接层FC分别与多个激活层连接,得到用于进行多标签分类的网络模型结构。其中,激活层的数目与分类标签的数目相等,每个激活层均采用sigmoid函数作为激活函数。该网络模型结构如图5所示,图5中多个Sigmoid层即为多个激活层,每个激活层分别输出一种分类标签的预测概率。图5中示意性地画出了5个激活层Sigmoid,每个激活层Sigmoid对应于一个输出值(即预测概率)。
在本申请的另一些实施例中,基于预设分类模型,构建主干分类器。然后先将主干分类器与多头注意力层连接,再将多头注意力层与多个激活层连接,得到用于进行多标签分类的网络模型结构。其中,构建主干分类器的过程与上文所述的构建过程相同,在此不再赘述。图6示出了包括多头注意力层的网络模型结构的示意图,图中示意性地画出了激活层1、激活层2、……、激活层N。实际应用中激活层的数目与分类标签的数目相等。
注意力机制Attention用于计算"相关程度",表示为将query(Q)和键值对key-value映射到输出上,映射公式如下所示。其中query、每个key、每个value都是向量,输出是V中所有values的加权,其中权重是由query和每个key计算出来的,注意力机制Attention的结构如图7所示。
通过上述公式首先计算Q和K的相似度,将得到的相似度进行Softmax操作,进行归一化。最后针对计算出来的权重,对V中所有的values进行加权求和计算,得到Attention向量。
多头注意力机制是在上述注意力机制的基础上,对Q,K,V进行分组计算,最后将结果拼接得到的,多头注意力机制的结构如图8和9所示。多头注意力机制的公式表示为:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,Q、K、V分别表示query、key、value的向量,W表示权重,WQ、WK、WV、WO分别表示query、key、value及输出Out的权重矩阵,headi表示第i个头。
本申请实施例在主干分类器于多个激活层之间增加多头注意力层,主干分类器以EfficientNet网络为例,则构建的用于进行多标签分类的网络模型结构如图10所示。图10中多个Sigmoid层即为多个激活层,每个激活层分别输出一种分类标签的预测概率。图10中示意性地画出了5个激活层Sigmoid,每个激活层Sigmoid对应于一个输出值(即预测概率)。
通过多头注意力层学习不同类别之间的关联性多头注意力层输出每个分类标签对应的特征向量,再通过多个激活层采用sigmoid函数分别根据每个分类标签对应的特征向量计算每个分类标签对应的预测概率,实现基于图像的多标签分类,提高模型多标签分类的准确性。
步骤103:根据训练集训练网络模型结构,得到训练好的多标签分类模型。
在本申请的一些实施例中,步骤102构建了如图2所示的网络模型结构。对该网络模型结构进行训练,首先从训练集中获取样本图像,获取的样本图像的数目可以为图2所示的网络模型结构对应的batch size个样本图像。将获取的样本图像输入主干分类器,输出每个分类标签对应的特征向量。将每个特征向量分别输入多个激活层中,主干分类器输出的特征向量的数目与分类标签的数目及激活层的数目均相等,将每个特征向量分别输入到不同的激活层中,每个激活层均输出各自接收的特征向量对应的预测概率,即得到了每个分类标签对应的预测概率。根据每个分类标签对应的预测概率,通过预设损失函数计算当前训练周期的损失值。
预设损失函数可以为ASL(Auto Seg-Loss,自动损失函数),或其他任意二分类损失函数。ASL损失函数的公式如下所示:
其中,L+是正样本损失值,L-是负样本损失值,p是激活层输出的预测概率,γ是focusing参数。pm=max(p-m,0),m是超参数,用于调节p调整的幅度。
在上述模型训练过程中使用AdamW优化器,该优化器容易调参,同时可以训练出与SGD(随机梯度下降)+Moment等同的模型性能。学习率调度器可以采用如下所示的CosineAnnealingWarmRestarts学习率调度公式,余弦退火学习率可以让模型跳出局部最优解,从而训练得到更好的模型。
其中,ηmin为最小学习率,ηmax为初始学习率,Tcur为上次学习率重置后的epochs(训练轮数),Ti表示经过多少epochs(训练轮数)后,学习率进行重置,当Tcur=Ti时,设置ηt=ηmin,当学习率重置后Tcur=0时,设置ηt=ηmax。
本申请实施例并不限定具体使用何种损失函数、优化器和学习率调度器,上述仅以示例的方式给出了一些损失函数、优化器和学习率调度器,实际应用中可根据需求选用合适的损失函数、优化器和学习率调度器。
通过上述方式计算出当前训练周期的损失值之后,判断当前已训练的周期数目是否达到了预设次数,如果是,则停止训练,根据已训练的周期中损失值最小的训练周期的模型参数以及图2所示的网络模型结构,获得训练好的多标签分类模型。如果当前已训练的周期数目未达到预设次数,则继续训练,直至训练次数达到预设次数后,按照上述方式获得最终训练好的多标签分类模型。
在本申请的一些实施例中,步骤102构建了如图6所示的网络模型结构。对该网络模型结构进行训练,首先从训练集中获取样本图像,获取的样本图像的数目可以为图6所示的网络模型结构对应的batch size个样本图像。将获取的样本图像输入主干分类器,输出每个分类标签对应的特征向量。主干分类器输出的特征向量的数目与分类标签的数目相等,将每个分类标签对应的特征向量输入多头注意力层,输出每个分类标签对应的多头注意力矩阵。多头注意力层输出的多头注意力矩阵的数目与分类标签的数目及激活层的数目均相等,将每个多头注意力矩阵分别输入每个激活层中,每个激活层均输出各自接收的多头注意力矩阵对应的预测概率,即得到了每个分类标签对应的预测概率。根据每个分类标签对应的预测概率,通过预设损失函数计算当前训练周期的损失值。
计算当前训练周期的损失值的过程以及模型训练的收敛过程,均与上述训练图2所示的模型网络结构的过程相同,按照上述方式训练出图6所示结构的多标签分类模型。
通过上述方式训练出多标签分类模型之后,即可将多标签分类模型部署在需要提供多标签分类服务的设备上。部署该服务之后即可利用多标签分类模型来对图像进行多标签分类。
具体地,获取待分类图像;通过训练好的多标签分类模型对待分类图像进行分类。将待分类图像输入训练好的多标签分类模型中,获得每个分类标签对应的预测概率。将预测概率大于预设阈值的分类标签确定为待分类图像所属的分类标签。
若部署的多标签分类模型的结构如图2所示,则将待分类图像输入多标签分类模型的主干分类器中,输出每个分类标签对应的特征向量。将每个特征向量分别输入不同的激活层中,每个激活层都根据各自接收到的特征向量,采用sigmoid算法计算各自的特征向量对应的分类标签的预测概率。将预测概率大于预设阈值的分类标签确定为待分类图像所属的分类标签,将确定的待分类图像所属的分类标签返回给调用该服务的用户端。
图2所示结构的多标签分类模型具有更轻量级的网络结构,在训练过程中能够更快收敛,提高模型的训练效率。且利用该多标签分类模型能够准确地实现对图像的多标签分类。
若部署的多标签分类模型的结构如图6所示,则将待分类图像输入多标签分类模型的主干分类器中,输出每个分类标签对应的特征向量。将每个特征向量输入多头注意力层,输出每个分类标签对应的多头注意力矩阵。将每个多头注意力矩阵分别输入不同的激活层中,每个激活层都根据各自接收到的多头注意力矩阵,采用sigmoid算法计算各自的多头注意力矩阵对应的分类标签的预测概率。将预测概率大于预设阈值的分类标签确定为待分类图像所属的分类标签,将确定的待分类图像所属的分类标签返回给调用该服务的用户端。
图6所示结构的多标签分类模型的量级较小,在训练过程中能够更快收敛,提高模型的训练效率。且该多标签分类模型中包括多头注意力层,在训练过程中多头注意力层学习了不同分类标签之间的关联性。在通过该多标签分类模型对待分类图像进行多标签分类时,多头注意力层将其学习到的不同分类标签之间的关联性应用于各分类标签之间的区分,使得最终的多标签分类的准确性更高。
在本申请实施例中,使用具有多个激活层的多标签分类模型来对图像进行多标签分类。多标签分类模型的结构简单,运算量小。进一步地,在多标签分类模型中添加多头注意力机制,使得多标签分类模型能够学习到不同分类标签之间的关联性,提高多标签分类的准确性。本申请提供的这两种多标签分类模型都具有更轻的网络结构,在训练过程中能够更快地收敛,提高模型训练效率,在相同的资源情况下本申请训练的多标签分类模型具有更高的服务性能。
本申请实施例还提供一种图像多标签分类的装置,该用于执行上述任一实施例提供的图像多标签分类的方法。如图11所示,该装置包括:
获取模块201,用于获取训练集,训练集包括标注有多个分类标签的样本图像;
模型构建模块202,用于构建用于进行多标签分类的网络模型结构,网络模型结构包括多个激活层,激活层的数目与分类标签的数目相等;
模型训练模块203,用于根据训练集训练网络模型结构,得到训练好的多标签分类模型。
模型构建模块202,用于基于预设分类模型,构建主干分类器;将主干分类器与多个激活层连接。
模型构建模块202,用于基于预设分类模型,构建主干分类器;将主干分类器与多头注意力层连接;将多头注意力层与多个激活层连接。
预设分类模型包括EfficientNet网络;模型构建模块202,用于将EfficientNet网络的归一化层去除,得到主干分类器。
模型训练模块203,用于从训练集中获取样本图像;将样本图像输入主干分类器,输出每个分类标签对应的特征向量;将每个特征向量分别输入多个激活层中,得到每个分类标签对应的预测概率;根据每个分类标签对应的预测概率,通过预设损失函数计算当前训练周期的损失值。
模型训练模块203,用于从训练集中获取样本图像;将样本图像输入主干分类器,输出每个分类标签对应的特征向量;将每个分类标签对应的特征向量输入多头注意力层,输出每个分类标签对应的多头注意力矩阵;将每个多头注意力矩阵分别输入多个激活层中,得到每个分类标签对应的预测概率;根据每个分类标签对应的预测概率,通过预设损失函数计算当前训练周期的损失值。
该装置还包括:分类模块,用于获取待分类图像;通过训练好的多标签分类模型对待分类图像进行分类。
分类模块,用于将待分类图像输入训练好的多标签分类模型中,获得每个分类标签对应的预测概率;将预测概率大于预设阈值的分类标签确定为待分类图像所属的分类标签。
在本申请实施例中,使用具有多个激活层的多标签分类模型来对图像进行多标签分类。多标签分类模型的结构简单,运算量小。进一步地,在多标签分类模型中添加多头注意力机制,使得多标签分类模型能够学习到不同分类标签之间的关联性,提高多标签分类的准确性。本申请提供的这两种多标签分类模型都具有更轻的网络结构,在训练过程中能够更快地收敛,提高模型训练效率,在相同的资源情况下本申请训练的多标签分类模型具有更高的服务性能。
本申请实施方式还提供一种电子设备,以执行上述图像多标签分类的方法。请参考图12其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图12所示,电子设备8包括:处理器800,存储器801,总线802和通信接口803,所述处理器800、通信接口803和存储器801通过总线802连接;所述存储器801中存储有可在所述处理器800上运行的计算机程序,所述处理器800运行所述计算机程序时执行本申请前述任一实施方式所提供的图像多标签分类的方法。
其中,存储器801可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口803(可以是有线或者无线)实现该装置网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线802可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器801用于存储程序,所述处理器800在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述图像多标签分类的方法可以应用于处理器800中,或者由处理器800实现。
处理器800可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器800中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器800可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801,处理器800读取存储器801中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的图像多标签分类的方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的图像多标签分类的方法对应的计算机可读存储介质,请参考图13,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的图像多标签分类的方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的图像多标签分类的方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下示意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种图像多标签分类的方法,其特征在于,包括:
获取训练集,所述训练集包括标注有多个分类标签的样本图像;
构建用于进行多标签分类的网络模型结构,所述网络模型结构包括多个激活层,所述激活层的数目与所述分类标签的数目相等;
根据所述训练集训练所述网络模型结构,得到训练好的多标签分类模型。
2.根据权利要求1所述的方法,其特征在于,所述构建用于进行多标签分类的网络模型结构,包括:
基于预设分类模型,构建主干分类器;
将所述主干分类器与多个激活层连接。
3.根据权利要求1所述的方法,其特征在于,所述构建用于进行多标签分类的网络模型结构,包括:
基于预设分类模型,构建主干分类器;
将所述主干分类器与多头注意力层连接;
将所述多头注意力层与多个激活层连接。
4.根据权利要求2或3所述的方法,其特征在于,所述预设分类模型包括EfficientNet网络;
将所述EfficientNet网络的归一化层去除,得到所述主干分类器。
5.根据权利要求2所述的方法,其特征在于,所述根据所述训练集训练所述网络模型结构,得到训练好的多标签分类模型,包括:
从所述训练集中获取样本图像;
将所述样本图像输入所述主干分类器,输出每个分类标签对应的特征向量;
将每个所述特征向量分别输入所述多个激活层中,得到每个分类标签对应的预测概率;
根据每个分类标签对应的预测概率,通过预设损失函数计算当前训练周期的损失值。
6.根据权利要求3所述的方法,其特征在于,所述根据所述训练集训练所述网络模型结构,得到训练好的多标签分类模型,包括:
从所述训练集中获取样本图像;
将所述样本图像输入所述主干分类器,输出每个分类标签对应的特征向量;
将每个分类标签对应的特征向量输入所述多头注意力层,输出每个分类标签对应的多头注意力矩阵;
将每个所述多头注意力矩阵分别输入所述多个激活层中,得到每个分类标签对应的预测概率;
根据每个分类标签对应的预测概率,通过预设损失函数计算当前训练周期的损失值。
7.根据权利要求1-3、5、6任一项所述的方法,其特征在于,所述方法还包括:
获取待分类图像;
通过训练好的所述多标签分类模型对所述待分类图像进行分类。
8.根据权利要求7所述的方法,其特征在于,所述通过训练好的所述多标签分类模型对所述待分类图像进行分类,包括:
将所述待分类图像输入训练好的所述多标签分类模型中,获得每个分类标签对应的预测概率;
将预测概率大于预设阈值的分类标签确定为所述待分类图像所属的分类标签。
9.一种图像多标签分类的装置,其特征在于,包括:
获取模块,用于获取训练集,所述训练集包括标注有多个分类标签的样本图像;
模型构建模块,用于构建用于进行多标签分类的网络模型结构,所述网络模型结构包括多个激活层,所述激活层的数目与所述分类标签的数目相等;
模型训练模块,用于根据所述训练集训练所述网络模型结构,得到训练好的多标签分类模型。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111574142.5A CN114443877A (zh) | 2021-12-21 | 2021-12-21 | 图像多标签分类的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111574142.5A CN114443877A (zh) | 2021-12-21 | 2021-12-21 | 图像多标签分类的方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114443877A true CN114443877A (zh) | 2022-05-06 |
Family
ID=81363527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111574142.5A Pending CN114443877A (zh) | 2021-12-21 | 2021-12-21 | 图像多标签分类的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114443877A (zh) |
-
2021
- 2021-12-21 CN CN202111574142.5A patent/CN114443877A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
Li et al. | 2-D stochastic configuration networks for image data analytics | |
WO2019100724A1 (zh) | 训练多标签分类模型的方法和装置 | |
WO2019100723A1 (zh) | 训练多标签分类模型的方法和装置 | |
CN111191526B (zh) | 行人属性识别网络训练方法、系统、介质及终端 | |
US20220198339A1 (en) | Systems and methods for training machine learning model based on cross-domain data | |
CN112183577A (zh) | 一种半监督学习模型的训练方法、图像处理方法及设备 | |
EP3029606A2 (en) | Method and apparatus for image classification with joint feature adaptation and classifier learning | |
CN111325318B (zh) | 神经网络的训练方法、神经网络的训练装置和电子设备 | |
CN115937655B (zh) | 多阶特征交互的目标检测模型及其构建方法、装置及应用 | |
JPWO2019102962A1 (ja) | 学習装置、学習方法、及び、プログラム | |
CN112036555B (zh) | 目标检测框架的优化方法及装置、存储介质、电子设备 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN115311504B (zh) | 一种基于注意力重定位的弱监督定位方法和装置 | |
Vo et al. | Active learning strategies for weakly-supervised object detection | |
CN110717401A (zh) | 年龄估计方法及装置、设备、存储介质 | |
CN114863407A (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
CN114299304B (zh) | 一种图像处理方法及相关设备 | |
CN113361384A (zh) | 人脸识别模型压缩方法、设备、介质及计算机程序产品 | |
CN114443877A (zh) | 图像多标签分类的方法、装置、设备及存储介质 | |
CN115359296A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN110826726B (zh) | 目标处理方法、目标处理装置、目标处理设备及介质 | |
Shah et al. | Optimal approach for image recognition using deep convolutional architecture | |
CN117789263A (zh) | 皱纹检测方法、装置、设备及存储介质 | |
CN111858999A (zh) | 一种基于分段困难样本生成的检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |