CN117876797A

CN117876797A - 图像多标签分类方法、装置及存储介质

Info

Publication number: CN117876797A
Application number: CN202410268622.6A
Authority: CN
Inventors: 常屹冉; 程聪; 李显巨; 丁慧君; 韩旭; 冯健; 张潇恺
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2024-03-11
Filing date: 2024-03-11
Publication date: 2024-04-12
Anticipated expiration: 2044-03-11
Also published as: CN117876797B

Abstract

本发明涉及图像处理领域，提供了一种图像多标签分类方法、装置及存储介质，其中，该方法包括：通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征，得到融合特征集合；根据融合特征集合中的第N级融合特征确定待识别图像的第一级分类结果，第一级分类结果包括矿区类别或非矿区类别；通过矿区图像多标签分类模型中的深度融合模块将融合特征集合中的融合特征与目标标签依赖关系进行深度融合，得到第二级分类结果；根据第一级分类结果和第二级分类结果确定待识别图像的目标分类结果，其中，目标分类结果用于表示待识别图像的矿区占地类型。通过本发明，解决了相关技术中对图像进行矿区占地类型分类时准确性较低的问题。

Description

图像多标签分类方法、装置及存储介质

技术领域

本发明涉及图像处理领域，具体而言，涉及一种图像多标签分类方法、装置及存储介质。

背景技术

矿区图像可以是由遥感技术拍摄得到的，遥感技术得到的遥感图像的分辨率的增大，使得遥感图像更加精细、复杂，遥感地物天然的尺寸差异也愈发明显，其中包括的地物信息也更加丰富多样与细微，因此对于遥感技术得到的遥感图像进行矿区占地类型分类时，单标签图像分类逐渐无法满足人们对复杂场景下土地覆盖分类的需求。多标签图像分类旨在预测出一张图片内的多个目标，更适用于矿区场景下的土地覆盖分类。

对图像进行矿区占地类型识别时，对于在矿区内存在的目标，在非矿区内也会出现许多一样的目标，例如在矿区出现的建筑、水池，会被识别矿区建筑、洗矿池，但是在非矿区中出现的建筑、水池，不能被称为矿区建筑、洗矿池等。

由于矿区和非矿区内的目标存在很多相同的特征，在为图像矿区占地类型分类的时候可能会出现误差，比如将包括非矿区建筑的图像确定为矿区建筑类别的图像，因此，相关技术中存在对图像进行矿区占地类型分类时准确性较低的问题。

发明内容

本发明解决的问题是对图像进行矿区占地类型分类时准确性较低的问题。

为解决上述问题，本发明提供了一种图像多标签分类方法，该方法包括：通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征，得到融合特征集合，其中，所述融合特征集合中包括N级融合特征，所述级联特征提取模块包括N级特征提取单元；根据所述融合特征集合中的第N级所述融合特征确定所述待识别图像的第一级分类结果，所述第一级分类结果包括矿区类别或非矿区类别；通过所述矿区图像多标签分类模型中的深度融合模块将所述融合特征集合中的融合特征与目标标签依赖关系进行深度融合，得到第二级分类结果，其中，所述第二级分类结果包括一个或多个分类标签；根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果，其中，所述目标分类结果用于表示所述待识别图像的矿区占地类型。

可选地，通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征，得到融合特征集合，包括：将第i级所述融合特征输入至第i+1级所述特征提取单元；通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作，得到M个尺度特征，其中，i为大于或等于1的整数，且i小于N；根据M个所述尺度特征得到第i+1级所述融合特征。

可选地，所述通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作，得到M个尺度特征，包括：通过M个所述卷积核中的第j个所述卷积核对第i级所述融合特征中的第j个尺度融合特征进行卷积，得到M个所述尺度特征中的第j个所述尺度特征，其中，1≤j≤M，且j为整数，其中，第i级所述融合特征包括M个所述尺度融合特征。

可选地，所述根据M个所述尺度特征得到第i+1级所述融合特征，包括：将第j个所述尺度特征与第j+1个所述尺度特征进行融合，得到第i+1级所述融合特征中的第j个尺度融合特征，其中，在j=M时，第j+1个所述尺度特征为第1个所述尺度特征。

可选地，在对第i级所述融合特征中的第j个尺度融合特征进行卷积之前，所述方法还包括：通过通道注意力机制确定第i级所述融合特征中的第j个所述尺度融合特征的权重；根据第j个所述尺度融合特征与所述权重得到加权后的第j个尺度融合特征；将所述加权后的第j个尺度融合特征输入至第j个所述卷积核。

可选地，所述通过所述矿区图像多标签分类模型中的深度融合模块将融合特征集合中的融合特征与目标标签依赖关系进行深度融合，得到第二级分类结果，包括：将所述N级融合特征中的每一级融合特征分别与目标标签依赖关系进行深度融合，得到N级融合结果；通过目标全连接层对N级所述融合特征中的第N级所述融合特征进行降维，得到降维特征；将所述降维特征与所述N级融合结果进行连接，得到目标分类特征；将所述目标分类特征输入至目标分类器，通过所述目标分类器得到所述第二级分类结果。

可选地，所述根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果，包括：在所述第一级分类结果为所述非矿区类别的情况下，将所述非矿区类别作为所述目标分类结果；在所述第一级分类结果为所述矿区类别的情况下，将所述第二级分类结果作为所述目标分类结果。

可选地，在通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征之前，所述方法还包括：获取训练集，其中，所述训练集包括多张训练图像，以及每张训练图像对应的第一级分类标签和第二级分类标签；使用所述训练集对初始模型进行迭代训练得到所述矿区图像多标签分类模型；

其中，对所述初始模型进行迭代训练中的第m次训练包括：根据所述训练集中每张训练图像对应的第一级分类标签和第二级分类标签确定标签依赖关系；将所述训练集中的训练图像输入至第m个训练模型中，通过第m个所述训练模型中的级联特征提取模块提取所述训练图像的N级融合特征，其中，m为正整数，m=1时，第m个所述训练模型为所述初始模型；根据所述训练图像的N级融合特征中的第N级融合特征确定所述训练图像的第一级分类结果；通过第m个所述训练模型中的深度融合模块将所述训练图像的N级融合特征分别与标签依赖关系进行深度融合，得到所述训练图像的第二级分类结果；根据所述训练图像的第一级分类结果与所述训练图像的第一级分类标签确定第一损失值，并根据所述训练图像的第二级分类结果与所述训练图像的第二级分类标签确定第二损失值；将所述第一损失值和所述第二损失值进行加权，得到目标损失值；在目标损失值不满足预设条件时，根据所述目标损失值对所述第m个所述训练模型中的模型参数进行修改，得到第m+1个所述训练模型，并使用第m+1个训练模型进行下一次训练；在所述目标损失值满足预设条件时，将所述第m个所述训练模型作为所述矿区图像多标签分类模型，并将所述第m次训练中学习到的标签依赖关系作为所述目标标签依赖关系。

本发明还提供一种图像多标签分类装置，该装置包括：提取模块，用于通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征，得到融合特征集合，其中，所述融合特征集合中包括N级融合特征，所述级联特征提取模块包括N级特征提取单元；

第一确定模块，用于根据所述融合特征集合中的第N级所述融合特征确定所述待识别图像的第一级分类结果，所述第一级分类结果包括矿区类别或非矿区类别；

融合模块，用于通过所述矿区图像多标签分类模型中的深度融合模块将所述融合特征集合中的融合特征与目标标签依赖关系进行深度融合，得到第二级分类结果，其中，所述第二级分类结果包括一个或多个分类标签；

第二确定模块，用于根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果，其中，所述目标分类结果用于表示所述待识别图像的矿区占地类型。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，当所述计算机程序被处理器执行时，执行如上所述的图像多标签分类方法。

在本实施例中，通过级联特征提取模块对待识别图像进行多级特征提取，得到N级融合特征，根据第N级融合特征确定出第一级分类结果，第N级融合特征作为最后一级提取的特征更全面，使第一级分类结果更准确。融合特征集合中包含不同级别的N级融合特征，将不同级别的N级融合特征与目标标签依赖关系融合，能够提取出更多有效信息，从而提高第二级分类结果的准确性。使用多级分类输出第一级分类结果和第二级分类结果，两级分类结果共同决定待识别图像的目标分类结果，在其中一个分类结果出现偏差时，可根据另一个分类结果输出正确的分类结果，从而提高对待识别图像进行矿区占地类型分类时准确性。

附图说明

图1是根据本发明实施例的图像多标签分类方法的流程示意图；

图2是根据本发明实施例的级联特征提取模块处理过程的示意图；

图3是根据本发明实施例的矿区图像多标签分类模型的框架示意图；

图4是根据本发明实施例的矿区图像多标签分类模型训练过程的示意图；

图5是根据本发明实施例的图像多标签分类装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

应当理解，本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”；术语“可选地”表示“可选的实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

如图1所示，在本发明实施例提供了一种图像多标签分类方法，该方法包括如下步骤：

步骤S101：通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征，得到融合特征集合，其中，所述融合特征集合中包括N级融合特征，所述级联特征提取模块包括N级特征提取单元；

在本实施例中，矿区图像多标签分类模型用于对待识别图像进行识别，识别出待识别图像中的目标的占地类型。矿区图像多标签分类模型中包括级联特征提取模块、多级跨模态特征融合模块。

将待识别图像输入至矿区图像多标签分类模型，通过矿区图像多标签分类模型输出表示待识别图像的矿区占地类型的目标的分类结果，换言之，为待识别图像中添加分类标签。

矿区图像多标签分类模型在处理待识别图像时，首先使用级联特征提取模块提取出待识别图像中的特征，在提取特征时，分为多级提取，即级联特征提取模块分为N级特征提取单元，每一级特征提取单元提取出一级融合特征，第1级特征提取单元提取出第1级融合特征，第2级特征提取单元提取出第2级融合特征，以此类推，N级特征提取单元一共提取出N级融合特征。

其中，N为大于1的正整数，N是预设值。

在本实施例中，级联特征提取模块在提取特征时，上一级特征提取单元提取到的融合特征作为特征提取单元的输入。对于第1级特征提取单元，将待识别图像输入至第1级特征提取单元，第1级特征提取单元中的M个卷积核对待识别图像进行卷积操作，得到M个尺度特征，根据M个尺度特征得到第1级融合特征。

对于第2级至第N级特征提取单元中的任意一个特征提取单元（第i+1级特征提取单元），将上一级特征提取单元（即第i级特征提取单元）提取到的融合特征（第i级融合特征）输入至该特征提取单元（即第i+1级特征提取单元，其中，i为大于或等于1的整数，且i小于N），该特征提取单元中的M个卷积核对待识别图像进行卷积操作，得到M个尺度特征，根据M个尺度特征得到该特征提取单元提取的融合特征并输出该融合特征（即第i+1级融合特征）。

可选地，所述通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作，得到M个尺度特征，包括：通过M个所述卷积核中的第j个所述卷积核对第i级所述融合特征中的第j个尺度融合特征进行卷积，得到M个所述尺度特征中的第j个所述尺度特征，其中，1≤j≤M，且j为整数，其中，第i级所述融合特征包括M个所述尺度融合特征。其中，M为大于1的正整数，M是预设值。

在本实施例中，对于任意一级特征提取单元均包括M个通道注意力机制和M个卷积核，且在一个特征提取单元中每个通道注意力机制都连接着一个卷积核，即一个特征提取单元中第j个通道注意力机制与第j个卷积核连接，M个卷积核的大小均不相同，以学习待识别图像不同尺度的特征。

不同的特征提取单元中的卷积核一一对应，即一级特征提取单元的M个卷积核中的第j个卷积核与下一级特征提取单元的M个卷积核中的第j个卷积核尺度相同。

对于第1级特征提取单元，待识别图像分别输入至第1级特征提取单元中的每个通道注意力机制，每个通道注意力机制确定出一个待识别图像的权重，并使用确定出的权重对待识别图像进行加权，将加权后的待识别图像输入至与该通道注意力机制连接的卷积核，通过该卷积核对加权后的待识别图像进行卷积，得到一个尺度特征，第1级特征提取单元共有M个卷积核，一共得到M个尺度特征，通过M个尺度特征得到第1级特征提取单元输出的第1级融合特征。

进一步地，对于第1级特征提取单元中得到M个尺度特征，将每个卷积核得到的尺度特征与该卷积核对应的下一个卷积核得到的尺度特征进行融合，得到该卷积核对应的尺度融合特征，第M个卷积核得到的尺度特征与第1个卷积核得到的尺度特征进行融合，得到第M个卷积核对应的融合特征（即第M个尺度融合特征），一共能得到M个尺度融合特征，该M个尺度融合特征即第1级特征提取单元提取到的第1级融合特征。

对于第2级至第N级特征提取单元中的任意一个特征提取单元（第i+1级特征提取单元），将上一级特征提取单元提取到的融合特征中的M个尺度融合特分别输入至该级特征提取单元中的对应的通道注意力机制，即将第i级融合特征中的第j个所述尺度融合特征输入至第i+1级特征提取单元中的第j个通道注意力机制并确定出该尺度融合特征对应的权重，并使用确定出的权重对该尺度特征进行加权，将加权后的尺度融合特征输入至与第j个通道注意力机制连接的第j个卷积核，通过该卷积核对加权后的尺度融合特征进行卷积，得到第j个尺度特征，一共得到该级特征提取单元对应的M个尺度特征，通过M个尺度特征得到第i+1级特征提取单元输出的第i+1级融合特征。

进一步地，在第i+1级特征提取单元中，将第j个尺度特征与第j+1个尺度特征进行融合，得到的尺度融合特征即第i+1级所述融合特征中的第j个尺度融合特征，一共得到M个尺度融合特征。在j=M时，第j+1个所述尺度特征为第1个所述尺度特征，即第M个尺度特征与第1个尺度特征融合得到的尺度融合特征为第M个尺度融合特征。第i+1级特征提取单元输出的第i+1级融合特征即包括上述M个尺度融合特征。

以N=3，M=4为例，级联特征提取模块处理过程如图2所示，级联特征提取模块包括三个特征提取单元，第1级特征提取单元提取到的融合特征包括4个尺度融合特征（X11、X12、X13、X14），X11、X12、X13、X14作为第2级特征提取单元的输入，第2级特征提取单元提取到的融合特征包括4个尺度融合特征（X21、X22、X23、X24），X21、X22、X23、X24作为第3级特征提取单元的输入，第3级特征提取单元提取到的融合特征包括4个尺度融合特征（X31、X32、X33、X34）。

每个特征提取单元包括4个卷积核，每个卷积核之前连接一个通道注意力机制，相邻特征提取单元中的卷积核一一对应，对应的两个卷积核尺度相同，即卷积核11、卷积核21、卷积核31尺度相同，卷积核12、卷积核22、卷积核32尺度相同，卷积核13、卷积核23、卷积核33尺度相同，卷积核14、卷积核24、卷积核34尺度相同。

待识别图像分别输入至第1级特征提取单元中的4个通道注意力机制，通过4个通道注意力机制分别对待识别图像进行加权，将加权后的待识别图像输入至对应连接的卷积核，通过该卷积核对加权后的待识别图像进行卷积，得到4尺度特征（Y11、Y12、Y13、Y14），Y11、Y12、Y13、Y14融合得到第1级融合特征（X11、X12、X13、X14），具体地，Y11与Y12融合得到第1级特征提取单元中第1个尺度融合特征（X11），Y12与Y13融合得到第1级特征提取单元中第2个尺度融合特征（X12），Y13与Y14融合得到第1级特征提取单元中第3个尺度融合特征（X13），Y14与Y11融合得到第1级特征提取单元中第4个尺度融合特征（X14）。

第1级融合特征作为第2级特征提取单元的输入，输出第2级融合特征，具体地，X11通过加权后得到X11’输入至卷积核21，X12通过加权后得到X12’输入至卷积核22，X13通过加权后得到X13’输入至卷积核23，X14通过加权后得到X14’输入至卷积核24，得到4个尺度特征（Y21、Y22、Y23、Y24），Y21、Y22、Y23、Y24融合得到第2级融合特征（X21、X22、X23、X24），Y21、Y22、Y23、Y24融合与上述Y11、Y12、Y13、Y14融合过程类似，在此不再赘述。

第2级融合特征作为第3级特征提取单元的输入，输出第3级融合特征（X31、X32、X33、X34），与第2级特征提取单元类似，在此不再赘述。

级联特征提取模块是基于注意力增强的多尺度特征级联模块，每个特征提取模块包括多个不同大小的卷积核，实现不同尺度的特征提取；对卷积核提取到的图像特征进行融合作为下一个提取单元的输入，实现了从低级到高级特征的提取；对特征提取单元的输入数据通过通道注意力机制赋值权重，以减少特征的冗余度。

步骤S102：根据所述融合特征集合中的第N级所述融合特征确定所述待识别图像的第一级分类结果，所述第一级分类结果包括矿区类别或非矿区类别；

在本实施例中，第一级分类可以分为矿区类别和非矿区类别，第二级分类较第一级分类更细致，示例性的，第二级分类可以包括非矿区、采矿场、转移站点、固体废物、矿山建设，其中，非矿区表示不是矿区的土地覆盖类型，采矿场表示进行采矿作业的区域，包括采矿和废弃矿坑，转移站点表示用于采矿活动的场地，用于临时储存、运输和加工原材料，例如矿石、沙子、炉渣等，固体废物表述矿山开采过程中产生的各种固体废物，包括但不限于矿石碎片、矿渣、废石、废弃岩石、尾矿等，矿山建设表示矿废集中排放场所，采矿场、转移站点、固体废物、矿山建设属于第一级分类中的矿区。第一级分类结果先识别出是否为矿区，第二级分类结果则为矿区占地的多标签场景分类结果。

步骤S103：通过所述矿区图像多标签分类模型中的深度融合模块将所述融合特征集合中的融合特征与目标标签依赖关系进行深度融合，得到第二级分类结果，其中，所述第二级分类结果包括一个或多个分类标签；

可选地，通过所述矿区图像多标签分类模型中的深度融合模块将融合特征集合中的融合特征与目标标签依赖关系进行深度融合，得到第二级分类结果，包括：将所述N级融合特征中的每一级融合特征分别与目标标签依赖关系进行深度融合，得到N级融合结果；通过目标全连接层对N级所述融合特征中的第N级所述融合特征进行降维，得到降维特征；将所述降维特征与所述N级融合结果进行连接，得到目标分类特征；将所述目标分类特征输入至目标分类器，通过所述目标分类器得到所述第二级分类结果。

在本实施例中，目标分类器可以是全连接层，也可以是其他分类器。级联特征提取模块中有N级特征提取单元，能够得到N级融合特征，N级融合特征中的第i级融合特征即第i级特征提取单元提取到的特征。

将N级融合特征输入至矿区图像多标签分类模型中的深度融合模块，深度融合模块获取目标标签依赖关系，目标标签依赖关系是在模型训练时得到的，多标签分类时，标签之间具有很强的标签共现相关性，例如，天空和云通常同时出现，而水和汽车几乎从不同时出现。目标标签依赖关系表示第一级分类和第二级分类对应的分类标签之间的共现关系。第一级分类结果为第一级分类对应的分类标签，第二级分类结果为第二级分类对应的分类标签。

N级融合特征中每个融合特征分别与目标标签依赖关系分别进行深度融合得到，得到N级融合结果。对N级融合特征中第N级融合特征进行降维，以将第N级融合特征与N级融合结果能够连接起来，得到目标分类特征，目标分类器根据目标分类特征完成分类操作，得到第二级分类结果。

进一步地，矿区图像多标签分类模型还包括第一分类器，将第N级融合特征输入至第一分类器，输出第一级分类结果。

步骤S104：根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果，其中，所述目标分类结果用于表示所述待识别图像的矿区占地类型。

在本实施例中，采用多级输出的方式确定待识别图像的矿区占地类型。先由第一级分类识别出待识别图像中的区域是否为矿区类别，在第一级分类结果为非矿区类别的情况下，将非矿区类别作为目标分类结果，具体分为情况一：第二分类结果属于矿区（即第二分类结果包括以下至少之一：采矿场、转移站点、固体废物、矿山建设），可能是矿区和非矿区内的目标的共性导致第二分类结果的误判，仍然确定目标分类结果为非矿区类别；情况二：第二分类结果为非矿区类别，两级分类结果一致，确定出目标分类结果为非矿区类别。

在第一级分类结果为矿区类别的情况下，如果此时第二分类结果中识别出属于矿区的第二级标签为非矿区类别，可能是第一分类结果出现了误判，确定目标分类结果为非矿区类别；在第一级分类结果为矿区类别的情况下，如果第二分类结果属于矿区类别（即第二分类结果包括以下至少之一：采矿场、转移站点、固体废物、矿山建设），两级分类结果一致，将所述第二级分类结果作为所述目标分类结果。

在本实施例中，通过级联特征提取模块对待识别图像进行多级特征提取，得到N级融合特征，根据第N级融合特征确定出第一级分类结果，第N级融合特征作为最后一级提取的特征更全面，使第一级分类结果更准确。使用多级分类输出第一级分类结果和第二级分类结果，两级分类结果共同决定待识别图像的目标分类结果，在其中一个分类结果出现偏差时，可根据另一个分类结果输出正确的分类结果，从而提高对待识别图像进行矿区占地类型分类时准确性。

矿区图像多标签分类模型的的框架如图3所示，待识别图像输入至矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征，得到N级融合特征，将最后一级特征提取单元输出的融合特征（即N级融合特征中的第N级融合特征）输出至第一分类器中，得到待识别图像的第一分类结果；将N级融合特征分别输入至深度融合模块，将目标标签依赖关系输入至深度融合模块，每级融合特征均与目标标签依赖关系进行深度融合，得到N级融合结果，将N级融合结果连接后的特征作为深度融合模块的输出特征，输出特征与降维后的第N级融合特征（即降维特征）连接后，输入至目标分类器中，生成训练图像的第二分类结果。根据第一分类结果和第二分类结果可以确定目标分类结果。

可选地，在通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征之前，所述方法还包括：

获取训练集，其中，所述训练集包括多张训练图像，以及每张训练图像对应的第一级分类标签和第二级分类标签；使用所述训练集对初始模型进行迭代训练得到所述矿区图像多标签分类模型，其中，对所述初始模型进行迭代训练中的第m次训练包括：根据所述训练集中每张训练图像对应的第一级分类标签和第二级分类标签确定标签依赖关系；将所述训练集中的训练图像输入至第m个训练模型中，通过第m个所述训练模型中的级联特征提取模块提取所述训练图像的N级融合特征，其中，m为正整数，m=1时，第m个所述训练模型为所述初始模型；根据所述训练图像的N级融合特征中的第N级融合特征确定所述训练图像的第一级分类结果；通过第m个所述训练模型中的深度融合模块将所述训练图像的N级融合特征分别与标签依赖关系进行深度融合，得到所述训练图像的第二级分类结果；根据所述训练图像的第一级分类结果与所述训练图像的第一级分类标签确定第一损失值，并根据所述训练图像的第二级分类结果与所述训练图像的第二级分类标签确定第二损失值；将所述第一损失值和所述第二损失值进行加权，得到目标损失值；在目标损失值不满足预设条件时，根据所述目标损失值对所述第m个所述训练模型中的模型参数进行修改，得到第m+1个所述训练模型，并使用第m+1个训练模型进行下一次训练；在所述目标损失值满足预设条件时，将所述第m个所述训练模型作为所述矿区图像多标签分类模型，并将所述第m次训练中学习到的标签依赖关系作为所述目标标签依赖关系。

在本实施例中，在对待识别图像进行矿区多标签分类之前，首先需要训练矿区图像多标签分类模型以及构建目标标签依赖关系，对初始模型进行迭代训练，直至训练出满足预设条件的模型，即将训练集输入至初始模型，根据初始模型的输出结果计算损失值，根据损失值去调整初始模型的参数，将训练集输入至调整参数后的模型，根据输出结果计算损失值，根据损失值在上次调整参数后的模型的基础上再此修改模型参数，循环上述训练过程，直至模型输出结果的损失值满足预设条件时停止训练，将此时的训练模型作为训练矿区图像多标签分类模型。

矿区图像多标签分类模型训练过程包括多次训练，每次训练过程类似，上述第m次训练为多次训练中的任意一次训练。

矿区图像多标签分类模型训练过程如图4所示，训练时的训练模型包括级联特征提取模块、深度融合模块、标签依赖关系学习模块、第一分类器、目标分类器、全连接层、损失值计算模块。训练集中的训练图像输入至训练模型中的级联特征提取模块提取训练图像的特征，得到N级融合特征，将最后一级特征提取单元输出的融合特征（即N级融合特征中的第N级融合特征）输出至第一分类器中，得到训练图像的第一分类结果；

标签依赖关系学习模块根据训练集中的训练图像的第一分类标签和第二分类标签学习标签依赖关系，在训练完成时，将最后一个训练过程中学习到的标签依赖关系作为目标标签依赖关系，并将目标标签依赖关系保存在矿区图像多标签分类模型中，以在对待识别图像进行多标签分类时直接使用。

具体地，标签依赖关系学习模块学习标签依赖关系包括：根据训练集中所有训练图像对应的第一分类标签和第二分类标签中提取标签共现矩阵，并将所有标签文本转化为标签词向量；使用多层GCN网络根据标签共现矩阵和标签词向量学习标签依赖关系。

将N级融合特征分别输入至深度融合模块，将标签依赖关系输入至深度融合模块，每级融合特征均与标签依赖关系进行深度融合，得到N级深度融合特征，将N级深度融合特征连接后的特征作为深度融合模块的输出特征，输出特征与降维后的最后一级特征提取单元输出的融合特征连接后，输入至目标分类器中，生成训练图像的第二分类结果。

其中，最后一级特征提取单元输出的融合特征连接通过全连接层进行降维。

得到训练图像的第一分类结果和第二分类结果后，根据第一分类结果与训练图像的第一分类标签计算第一损失值，根据第二分类结果与训练图像的第二分类标签计算第二损失值，对第一损失值和第二损失值进行加权合并，得到目标损失值，根据目标损失值反向传播，即在目标损失值不满足预设条件时，根据目标损失值计算训练模型的参数梯度，进而调整训练模型的参数，得到新的训练模型，直至目标损失值满足预设条件，训练完成。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

如图5所示，在本发明另一实施例中提供了一种图像多标签分类装置，该装置包括：

提取模块501，用于通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征，得到融合特征集合，其中，所述融合特征集合中包括N级融合特征，所述级联特征提取模块包括N级特征提取单元；

第一确定模块502，用于根据所述融合特征集合中的第N级所述融合特征确定所述待识别图像的第一级分类结果，所述第一级分类结果包括矿区类别或非矿区类别；

融合模块503，用于通过所述矿区图像多标签分类模型中的深度融合模块将所述融合特征集合中的融合特征与目标标签依赖关系进行深度融合，得到第二级分类结果，其中，所述第二级分类结果包括一个或多个分类标签；

第二确定模块504，用于根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果，其中，所述目标分类结果用于表示所述待识别图像的矿区占地类型。

在一个可选的实施例中，上述装置还用于通过以下方式通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征，得到融合特征集合：将第i级所述融合特征输入至第i+1级所述特征提取单元；通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作，得到M个尺度特征，其中，i为大于或等于1的整数，且i小于N；根据M个所述尺度特征得到第i+1级所述融合特征。

在一个可选的实施例中，上述装置还用于通过以下方式通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作，得到M个尺度特征：通过M个所述卷积核中的第j个所述卷积核对第i级所述融合特征中的第j个尺度融合特征进行卷积，得到M个所述尺度特征中的第j个所述尺度特征，其中，1≤j≤M，且j为整数，其中，第i级所述融合特征包括M个所述尺度融合特征。

在一个可选的实施例中，上述装置还用于通过以下方式根据M个所述尺度特征得到第i+1级所述融合特征：将第j个所述尺度特征与第j+1个所述尺度特征进行融合，得到第i+1级所述融合特征中的第j个尺度融合特征，其中，在j=M时，第j+1个所述尺度特征为第1个所述尺度特征。

在一个可选的实施例中，上述装置还用于在对第i级所述融合特征中的第j个尺度融合特征进行卷积之前执行以下操作：通过通道注意力机制确定第i级所述融合特征中的第j个所述尺度融合特征的权重；根据第j个所述尺度融合特征与所述权重得到加权后的第j个尺度融合特征；将所述加权后的第j个尺度融合特征输入至第j个所述卷积核。

在一个可选的实施例中，上述装置还用于通过以下方式通过所述矿区图像多标签分类模型中的深度融合模块将融合特征集合中的融合特征与目标标签依赖关系进行深度融合，得到第二级分类结果：将所述N级融合特征中的每一级融合特征分别与目标标签依赖关系进行深度融合，得到N级融合结果；通过目标全连接层对N级所述融合特征中的第N级所述融合特征进行降维，得到降维特征；将所述降维特征与所述N级融合结果进行连接，得到目标分类特征；将所述目标分类特征输入至目标分类器，通过所述目标分类器得到所述第二级分类结果。

在一个可选的实施例中，上述装置还用于通过以下方式根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果：在所述第一级分类结果为所述非矿区类别的情况下，将所述非矿区类别作为所述目标分类结果；在所述第一级分类结果为所述矿区类别的情况下，将所述第二级分类结果作为所述目标分类结果。

在一个可选的实施例中，上述装置还用于在通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征之前，执行以下操作：获取训练集，其中，所述训练集包括多张训练图像，以及每张训练图像对应的第一级分类标签和第二级分类标签；使用所述训练集对初始模型进行迭代训练得到所述矿区图像多标签分类模型；其中，对所述初始模型进行迭代训练中的第m次训练包括：根据所述训练集中每张训练图像对应的第一级分类标签和第二级分类标签确定标签依赖关系；将所述训练集中的训练图像输入至第m个训练模型中，通过第m个所述训练模型中的级联特征提取模块提取所述训练图像的N级融合特征，其中，m为正整数，m=1时，第m个所述训练模型为所述初始模型；根据所述训练图像的N级融合特征中的第N级融合特征确定所述训练图像的第一级分类结果；通过第m个所述训练模型中的深度融合模块将所述训练图像的N级融合特征分别与标签依赖关系进行深度融合，得到所述训练图像的第二级分类结果；根据所述训练图像的第一级分类结果与所述训练图像的第一级分类标签确定第一损失值，并根据所述训练图像的第二级分类结果与所述训练图像的第二级分类标签确定第二损失值；将所述第一损失值和所述第二损失值进行加权，得到目标损失值；在目标损失值不满足预设条件时，根据所述目标损失值对所述第m个所述训练模型中的模型参数进行修改，得到第m+1个所述训练模型，并使用第m+1个训练模型进行下一次训练；在所述目标损失值满足预设条件时，将所述第m个所述训练模型作为所述矿区图像多标签分类模型，并将所述第m次训练中学习到的标签依赖关系作为所述目标标签依赖关系。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，当所述计算机程序被处理器执行时，实现如上所述的图像多标签分类方法。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（Random Access Memory，简称为RAM）、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

虽然本发明披露如上，但本发明的保护范围并非仅限于此。本领域技术人员在不脱离本发明的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种图像多标签分类方法，其特征在于，包括：

通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征，得到融合特征集合，其中，所述融合特征集合中包括N级融合特征，所述级联特征提取模块包括N级特征提取单元；

根据所述融合特征集合中的第N级所述融合特征确定所述待识别图像的第一级分类结果，所述第一级分类结果包括矿区类别或非矿区类别；

通过所述矿区图像多标签分类模型中的深度融合模块将所述融合特征集合中的融合特征与目标标签依赖关系进行深度融合，得到第二级分类结果，其中，所述第二级分类结果包括一个或多个分类标签；

根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果，其中，所述目标分类结果用于表示所述待识别图像的矿区占地类型。

2.根据权利要求1所述的方法，其特征在于，通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征，得到融合特征集合，包括：

将第i级所述融合特征输入至第i+1级所述特征提取单元；

通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作，得到M个尺度特征，其中，i为大于或等于1的整数，且i小于N；

根据M个所述尺度特征得到第i+1级所述融合特征。

3.根据权利要求2所述的方法，其特征在于，所述通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作，得到M个尺度特征，包括：

通过M个所述卷积核中的第j个所述卷积核对第i级所述融合特征中的第j个尺度融合特征进行卷积，得到M个所述尺度特征中的第j个所述尺度特征，其中，1≤j≤M，且j为整数，其中，第i级所述融合特征包括M个所述尺度融合特征。

4.根据权利要求3所述的方法，其特征在于，所述根据M个所述尺度特征得到第i+1级所述融合特征，包括：

将第j个所述尺度特征与第j+1个所述尺度特征进行融合，得到第i+1级所述融合特征中的第j个所述尺度融合特征，其中，在j=M时，第j+1个所述尺度特征为第1个所述尺度特征。

5.根据权利要求3所述的方法，其特征在于，在对第i级所述融合特征中的第j个尺度融合特征进行卷积之前，所述方法还包括：

通过通道注意力机制确定第i级所述融合特征中的第j个所述尺度融合特征的权重；

根据第j个所述尺度融合特征与所述权重得到加权后的第j个尺度融合特征；

将所述加权后的第j个尺度融合特征输入至第j个所述卷积核。

6.根据权利要求1所述的方法，其特征在于，所述通过所述矿区图像多标签分类模型中的深度融合模块将融合特征集合中的融合特征与目标标签依赖关系进行深度融合，得到第二级分类结果，包括：

将所述N级融合特征中的每一级融合特征分别与目标标签依赖关系进行深度融合，得到N级融合结果；

通过目标全连接层对N级所述融合特征中的第N级所述融合特征进行降维，得到降维特征；

将所述降维特征与所述N级融合结果进行连接，得到目标分类特征；

将所述目标分类特征输入至目标分类器，通过所述目标分类器得到所述第二级分类结果。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果，包括：

在所述第一级分类结果为所述非矿区类别的情况下，将所述非矿区类别作为所述目标分类结果；

在所述第一级分类结果为所述矿区类别的情况下，将所述第二级分类结果作为所述目标分类结果。

8.根据权利要求1所述的方法，其特征在于，在通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征之前，所述方法还包括：

获取训练集，其中，所述训练集包括多张训练图像，以及每张训练图像对应的第一级分类标签和第二级分类标签；

使用所述训练集对初始模型进行迭代训练得到所述矿区图像多标签分类模型，

其中，对所述初始模型进行迭代训练中的第m次训练包括：

根据所述训练集中每张训练图像对应的第一级分类标签和第二级分类标签确定标签依赖关系；

将所述训练集中的训练图像输入至第m个训练模型中，通过第m个所述训练模型中的级联特征提取模块提取所述训练图像的N级融合特征，其中，m为正整数，m=1时，第m个所述训练模型为所述初始模型；

根据所述训练图像的N级融合特征中的第N级融合特征确定所述训练图像的第一级分类结果；

通过第m个所述训练模型中的深度融合模块将所述训练图像的N级融合特征分别与标签依赖关系进行深度融合，得到所述训练图像的第二级分类结果；

根据所述训练图像的第一级分类结果与所述训练图像的第一级分类标签确定第一损失值，并根据所述训练图像的第二级分类结果与所述训练图像的第二级分类标签确定第二损失值；

将所述第一损失值和所述第二损失值进行加权，得到目标损失值；

在目标损失值不满足预设条件时，根据所述目标损失值对所述第m个所述训练模型中的模型参数进行修改，得到第m+1个所述训练模型，并使用第m+1个训练模型进行下一次训练；

在所述目标损失值满足预设条件时，将所述第m个所述训练模型作为所述矿区图像多标签分类模型，并将所述第m次训练中学习到的标签依赖关系作为所述目标标签依赖关系。

9.一种图像多标签分类装置，其特征在于，包括：

提取模块，用于通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征，得到融合特征集合，其中，所述融合特征集合中包括N级融合特征，所述级联特征提取模块包括N级特征提取单元；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，当所述计算机程序被处理器执行时，实现如所述权利要求1-8任一项中所述的图像多标签分类方法。