CN117876797A - 图像多标签分类方法、装置及存储介质 - Google Patents

图像多标签分类方法、装置及存储介质 Download PDF

Info

Publication number
CN117876797A
CN117876797A CN202410268622.6A CN202410268622A CN117876797A CN 117876797 A CN117876797 A CN 117876797A CN 202410268622 A CN202410268622 A CN 202410268622A CN 117876797 A CN117876797 A CN 117876797A
Authority
CN
China
Prior art keywords
fusion
image
classification result
stage
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410268622.6A
Other languages
English (en)
Other versions
CN117876797B (zh
Inventor
常屹冉
程聪
李显巨
丁慧君
韩旭
冯健
张潇恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202410268622.6A priority Critical patent/CN117876797B/zh
Publication of CN117876797A publication Critical patent/CN117876797A/zh
Application granted granted Critical
Publication of CN117876797B publication Critical patent/CN117876797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理领域,提供了一种图像多标签分类方法、装置及存储介质,其中,该方法包括:通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征,得到融合特征集合;根据融合特征集合中的第N级融合特征确定待识别图像的第一级分类结果,第一级分类结果包括矿区类别或非矿区类别;通过矿区图像多标签分类模型中的深度融合模块将融合特征集合中的融合特征与目标标签依赖关系进行深度融合,得到第二级分类结果;根据第一级分类结果和第二级分类结果确定待识别图像的目标分类结果,其中,目标分类结果用于表示待识别图像的矿区占地类型。通过本发明,解决了相关技术中对图像进行矿区占地类型分类时准确性较低的问题。

Description

图像多标签分类方法、装置及存储介质
技术领域
本发明涉及图像处理领域,具体而言,涉及一种图像多标签分类方法、装置及存储介质。
背景技术
矿区图像可以是由遥感技术拍摄得到的,遥感技术得到的遥感图像的分辨率的增大,使得遥感图像更加精细、复杂,遥感地物天然的尺寸差异也愈发明显,其中包括的地物信息也更加丰富多样与细微,因此对于遥感技术得到的遥感图像进行矿区占地类型分类时,单标签图像分类逐渐无法满足人们对复杂场景下土地覆盖分类的需求。多标签图像分类旨在预测出一张图片内的多个目标,更适用于矿区场景下的土地覆盖分类。
对图像进行矿区占地类型识别时,对于在矿区内存在的目标,在非矿区内也会出现许多一样的目标,例如在矿区出现的建筑、水池,会被识别矿区建筑、洗矿池,但是在非矿区中出现的建筑、水池,不能被称为矿区建筑、洗矿池等。
由于矿区和非矿区内的目标存在很多相同的特征,在为图像矿区占地类型分类的时候可能会出现误差,比如将包括非矿区建筑的图像确定为矿区建筑类别的图像,因此,相关技术中存在对图像进行矿区占地类型分类时准确性较低的问题。
发明内容
本发明解决的问题是对图像进行矿区占地类型分类时准确性较低的问题。
为解决上述问题,本发明提供了一种图像多标签分类方法,该方法包括:通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征,得到融合特征集合,其中,所述融合特征集合中包括N级融合特征,所述级联特征提取模块包括N级特征提取单元;根据所述融合特征集合中的第N级所述融合特征确定所述待识别图像的第一级分类结果,所述第一级分类结果包括矿区类别或非矿区类别;通过所述矿区图像多标签分类模型中的深度融合模块将所述融合特征集合中的融合特征与目标标签依赖关系进行深度融合,得到第二级分类结果,其中,所述第二级分类结果包括一个或多个分类标签;根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果,其中,所述目标分类结果用于表示所述待识别图像的矿区占地类型。
可选地,通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征,得到融合特征集合,包括:将第i级所述融合特征输入至第i+1级所述特征提取单元;通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作,得到M个尺度特征,其中,i为大于或等于1的整数,且i小于N;根据M个所述尺度特征得到第i+1级所述融合特征。
可选地,所述通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作,得到M个尺度特征,包括:通过M个所述卷积核中的第j个所述卷积核对第i级所述融合特征中的第j个尺度融合特征进行卷积,得到M个所述尺度特征中的第j个所述尺度特征,其中,1≤j≤M,且j为整数,其中,第i级所述融合特征包括M个所述尺度融合特征。
可选地,所述根据M个所述尺度特征得到第i+1级所述融合特征,包括:将第j个所述尺度特征与第j+1个所述尺度特征进行融合,得到第i+1级所述融合特征中的第j个尺度融合特征,其中,在j=M时,第j+1个所述尺度特征为第1个所述尺度特征。
可选地,在对第i级所述融合特征中的第j个尺度融合特征进行卷积之前,所述方法还包括:通过通道注意力机制确定第i级所述融合特征中的第j个所述尺度融合特征的权重;根据第j个所述尺度融合特征与所述权重得到加权后的第j个尺度融合特征;将所述加权后的第j个尺度融合特征输入至第j个所述卷积核。
可选地,所述通过所述矿区图像多标签分类模型中的深度融合模块将融合特征集合中的融合特征与目标标签依赖关系进行深度融合,得到第二级分类结果,包括:将所述N级融合特征中的每一级融合特征分别与目标标签依赖关系进行深度融合,得到N级融合结果;通过目标全连接层对N级所述融合特征中的第N级所述融合特征进行降维,得到降维特征;将所述降维特征与所述N级融合结果进行连接,得到目标分类特征;将所述目标分类特征输入至目标分类器,通过所述目标分类器得到所述第二级分类结果。
可选地,所述根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果,包括:在所述第一级分类结果为所述非矿区类别的情况下,将所述非矿区类别作为所述目标分类结果;在所述第一级分类结果为所述矿区类别的情况下,将所述第二级分类结果作为所述目标分类结果。
可选地,在通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征之前,所述方法还包括:获取训练集,其中,所述训练集包括多张训练图像,以及每张训练图像对应的第一级分类标签和第二级分类标签;使用所述训练集对初始模型进行迭代训练得到所述矿区图像多标签分类模型;
其中,对所述初始模型进行迭代训练中的第m次训练包括:根据所述训练集中每张训练图像对应的第一级分类标签和第二级分类标签确定标签依赖关系;将所述训练集中的训练图像输入至第m个训练模型中,通过第m个所述训练模型中的级联特征提取模块提取所述训练图像的N级融合特征,其中,m为正整数,m=1时,第m个所述训练模型为所述初始模型;根据所述训练图像的N级融合特征中的第N级融合特征确定所述训练图像的第一级分类结果;通过第m个所述训练模型中的深度融合模块将所述训练图像的N级融合特征分别与标签依赖关系进行深度融合,得到所述训练图像的第二级分类结果;根据所述训练图像的第一级分类结果与所述训练图像的第一级分类标签确定第一损失值,并根据所述训练图像的第二级分类结果与所述训练图像的第二级分类标签确定第二损失值;将所述第一损失值和所述第二损失值进行加权,得到目标损失值;在目标损失值不满足预设条件时,根据所述目标损失值对所述第m个所述训练模型中的模型参数进行修改,得到第m+1个所述训练模型,并使用第m+1个训练模型进行下一次训练;在所述目标损失值满足预设条件时,将所述第m个所述训练模型作为所述矿区图像多标签分类模型,并将所述第m次训练中学习到的标签依赖关系作为所述目标标签依赖关系。
本发明还提供一种图像多标签分类装置,该装置包括:提取模块,用于通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征,得到融合特征集合,其中,所述融合特征集合中包括N级融合特征,所述级联特征提取模块包括N级特征提取单元;
第一确定模块,用于根据所述融合特征集合中的第N级所述融合特征确定所述待识别图像的第一级分类结果,所述第一级分类结果包括矿区类别或非矿区类别;
融合模块,用于通过所述矿区图像多标签分类模型中的深度融合模块将所述融合特征集合中的融合特征与目标标签依赖关系进行深度融合,得到第二级分类结果,其中,所述第二级分类结果包括一个或多个分类标签;
第二确定模块,用于根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果,其中,所述目标分类结果用于表示所述待识别图像的矿区占地类型。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,当所述计算机程序被处理器执行时,执行如上所述的图像多标签分类方法。
在本实施例中,通过级联特征提取模块对待识别图像进行多级特征提取,得到N级融合特征,根据第N级融合特征确定出第一级分类结果,第N级融合特征作为最后一级提取的特征更全面,使第一级分类结果更准确。融合特征集合中包含不同级别的N级融合特征,将不同级别的N级融合特征与目标标签依赖关系融合,能够提取出更多有效信息,从而提高第二级分类结果的准确性。使用多级分类输出第一级分类结果和第二级分类结果,两级分类结果共同决定待识别图像的目标分类结果,在其中一个分类结果出现偏差时,可根据另一个分类结果输出正确的分类结果,从而提高对待识别图像进行矿区占地类型分类时准确性。
附图说明
图1是根据本发明实施例的图像多标签分类方法的流程示意图;
图2是根据本发明实施例的级联特征提取模块处理过程的示意图;
图3是根据本发明实施例的矿区图像多标签分类模型的框架示意图;
图4是根据本发明实施例的矿区图像多标签分类模型训练过程的示意图;
图5是根据本发明实施例的图像多标签分类装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”;术语“可选地”表示“可选的实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
如图1所示,在本发明实施例提供了一种图像多标签分类方法,该方法包括如下步骤:
步骤S101:通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征,得到融合特征集合,其中,所述融合特征集合中包括N级融合特征,所述级联特征提取模块包括N级特征提取单元;
在本实施例中,矿区图像多标签分类模型用于对待识别图像进行识别,识别出待识别图像中的目标的占地类型。矿区图像多标签分类模型中包括级联特征提取模块、多级跨模态特征融合模块。
将待识别图像输入至矿区图像多标签分类模型,通过矿区图像多标签分类模型输出表示待识别图像的矿区占地类型的目标的分类结果,换言之,为待识别图像中添加分类标签。
矿区图像多标签分类模型在处理待识别图像时,首先使用级联特征提取模块提取出待识别图像中的特征,在提取特征时,分为多级提取,即级联特征提取模块分为N级特征提取单元,每一级特征提取单元提取出一级融合特征,第1级特征提取单元提取出第1级融合特征,第2级特征提取单元提取出第2级融合特征,以此类推,N级特征提取单元一共提取出N级融合特征。
其中,N为大于1的正整数,N是预设值。
可选地,通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征,得到融合特征集合,包括:将第i级所述融合特征输入至第i+1级所述特征提取单元;通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作,得到M个尺度特征,其中,i为大于或等于1的整数,且i小于N;根据M个所述尺度特征得到第i+1级所述融合特征。
在本实施例中,级联特征提取模块在提取特征时,上一级特征提取单元提取到的融合特征作为特征提取单元的输入。对于第1级特征提取单元,将待识别图像输入至第1级特征提取单元,第1级特征提取单元中的M个卷积核对待识别图像进行卷积操作,得到M个尺度特征,根据M个尺度特征得到第1级融合特征。
对于第2级至第N级特征提取单元中的任意一个特征提取单元(第i+1级特征提取单元),将上一级特征提取单元(即第i级特征提取单元)提取到的融合特征(第i级融合特征)输入至该特征提取单元(即第i+1级特征提取单元,其中,i为大于或等于1的整数,且i小于N),该特征提取单元中的M个卷积核对待识别图像进行卷积操作,得到M个尺度特征,根据M个尺度特征得到该特征提取单元提取的融合特征并输出该融合特征(即第i+1级融合特征)。
可选地,所述通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作,得到M个尺度特征,包括:通过M个所述卷积核中的第j个所述卷积核对第i级所述融合特征中的第j个尺度融合特征进行卷积,得到M个所述尺度特征中的第j个所述尺度特征,其中,1≤j≤M,且j为整数,其中,第i级所述融合特征包括M个所述尺度融合特征。其中,M为大于1的正整数,M是预设值。
可选地,在对第i级所述融合特征中的第j个尺度融合特征进行卷积之前,所述方法还包括:通过通道注意力机制确定第i级所述融合特征中的第j个所述尺度融合特征的权重;根据第j个所述尺度融合特征与所述权重得到加权后的第j个尺度融合特征;将所述加权后的第j个尺度融合特征输入至第j个所述卷积核。
在本实施例中,对于任意一级特征提取单元均包括M个通道注意力机制和M个卷积核,且在一个特征提取单元中每个通道注意力机制都连接着一个卷积核,即一个特征提取单元中第j个通道注意力机制与第j个卷积核连接,M个卷积核的大小均不相同,以学习待识别图像不同尺度的特征。
不同的特征提取单元中的卷积核一一对应,即一级特征提取单元的M个卷积核中的第j个卷积核与下一级特征提取单元的M个卷积核中的第j个卷积核尺度相同。
对于第1级特征提取单元,待识别图像分别输入至第1级特征提取单元中的每个通道注意力机制,每个通道注意力机制确定出一个待识别图像的权重,并使用确定出的权重对待识别图像进行加权,将加权后的待识别图像输入至与该通道注意力机制连接的卷积核,通过该卷积核对加权后的待识别图像进行卷积,得到一个尺度特征,第1级特征提取单元共有M个卷积核,一共得到M个尺度特征,通过M个尺度特征得到第1级特征提取单元输出的第1级融合特征。
进一步地,对于第1级特征提取单元中得到M个尺度特征,将每个卷积核得到的尺度特征与该卷积核对应的下一个卷积核得到的尺度特征进行融合,得到该卷积核对应的尺度融合特征,第M个卷积核得到的尺度特征与第1个卷积核得到的尺度特征进行融合,得到第M个卷积核对应的融合特征(即第M个尺度融合特征),一共能得到M个尺度融合特征,该M个尺度融合特征即第1级特征提取单元提取到的第1级融合特征。
对于第2级至第N级特征提取单元中的任意一个特征提取单元(第i+1级特征提取单元),将上一级特征提取单元提取到的融合特征中的M个尺度融合特分别输入至该级特征提取单元中的对应的通道注意力机制,即将第i级融合特征中的第j个所述尺度融合特征输入至第i+1级特征提取单元中的第j个通道注意力机制并确定出该尺度融合特征对应的权重,并使用确定出的权重对该尺度特征进行加权,将加权后的尺度融合特征输入至与第j个通道注意力机制连接的第j个卷积核,通过该卷积核对加权后的尺度融合特征进行卷积,得到第j个尺度特征,一共得到该级特征提取单元对应的M个尺度特征,通过M个尺度特征得到第i+1级特征提取单元输出的第i+1级融合特征。
进一步地,在第i+1级特征提取单元中,将第j个尺度特征与第j+1个尺度特征进行融合,得到的尺度融合特征即第i+1级所述融合特征中的第j个尺度融合特征,一共得到M个尺度融合特征。在j=M时,第j+1个所述尺度特征为第1个所述尺度特征,即第M个尺度特征与第1个尺度特征融合得到的尺度融合特征为第M个尺度融合特征。第i+1级特征提取单元输出的第i+1级融合特征即包括上述M个尺度融合特征。
以N=3,M=4为例,级联特征提取模块处理过程如图2所示,级联特征提取模块包括三个特征提取单元,第1级特征提取单元提取到的融合特征包括4个尺度融合特征(X11、X12、X13、X14),X11、X12、X13、X14作为第2级特征提取单元的输入,第2级特征提取单元提取到的融合特征包括4个尺度融合特征(X21、X22、X23、X24),X21、X22、X23、X24作为第3级特征提取单元的输入,第3级特征提取单元提取到的融合特征包括4个尺度融合特征(X31、X32、X33、X34)。
每个特征提取单元包括4个卷积核,每个卷积核之前连接一个通道注意力机制,相邻特征提取单元中的卷积核一一对应,对应的两个卷积核尺度相同,即卷积核11、卷积核21、卷积核31尺度相同,卷积核12、卷积核22、卷积核32尺度相同,卷积核13、卷积核23、卷积核33尺度相同,卷积核14、卷积核24、卷积核34尺度相同。
待识别图像分别输入至第1级特征提取单元中的4个通道注意力机制,通过4个通道注意力机制分别对待识别图像进行加权,将加权后的待识别图像输入至对应连接的卷积核,通过该卷积核对加权后的待识别图像进行卷积,得到4尺度特征(Y11、Y12、Y13、Y14),Y11、Y12、Y13、Y14融合得到第1级融合特征(X11、X12、X13、X14),具体地,Y11与Y12融合得到第1级特征提取单元中第1个尺度融合特征(X11),Y12与Y13融合得到第1级特征提取单元中第2个尺度融合特征(X12),Y13与Y14融合得到第1级特征提取单元中第3个尺度融合特征(X13),Y14与Y11融合得到第1级特征提取单元中第4个尺度融合特征(X14)。
第1级融合特征作为第2级特征提取单元的输入,输出第2级融合特征,具体地,X11通过加权后得到X11’输入至卷积核21,X12通过加权后得到X12’输入至卷积核22,X13通过加权后得到X13’输入至卷积核23,X14通过加权后得到X14’输入至卷积核24,得到4个尺度特征(Y21、Y22、Y23、Y24),Y21、Y22、Y23、Y24融合得到第2级融合特征(X21、X22、X23、X24),Y21、Y22、Y23、Y24融合与上述Y11、Y12、Y13、Y14融合过程类似,在此不再赘述。
第2级融合特征作为第3级特征提取单元的输入,输出第3级融合特征(X31、X32、X33、X34),与第2级特征提取单元类似,在此不再赘述。
级联特征提取模块是基于注意力增强的多尺度特征级联模块,每个特征提取模块包括多个不同大小的卷积核,实现不同尺度的特征提取;对卷积核提取到的图像特征进行融合作为下一个提取单元的输入,实现了从低级到高级特征的提取;对特征提取单元的输入数据通过通道注意力机制赋值权重,以减少特征的冗余度。
步骤S102:根据所述融合特征集合中的第N级所述融合特征确定所述待识别图像的第一级分类结果,所述第一级分类结果包括矿区类别或非矿区类别;
在本实施例中,第一级分类可以分为矿区类别和非矿区类别,第二级分类较第一级分类更细致,示例性的,第二级分类可以包括非矿区、采矿场、转移站点、固体废物、矿山建设,其中,非矿区表示不是矿区的土地覆盖类型,采矿场表示进行采矿作业的区域,包括采矿和废弃矿坑,转移站点表示用于采矿活动的场地,用于临时储存、运输和加工原材料,例如矿石、沙子、炉渣等,固体废物表述矿山开采过程中产生的各种固体废物,包括但不限于矿石碎片、矿渣、废石、废弃岩石、尾矿等,矿山建设表示矿废集中排放场所,采矿场、转移站点、固体废物、矿山建设属于第一级分类中的矿区。第一级分类结果先识别出是否为矿区,第二级分类结果则为矿区占地的多标签场景分类结果。
步骤S103:通过所述矿区图像多标签分类模型中的深度融合模块将所述融合特征集合中的融合特征与目标标签依赖关系进行深度融合,得到第二级分类结果,其中,所述第二级分类结果包括一个或多个分类标签;
可选地,通过所述矿区图像多标签分类模型中的深度融合模块将融合特征集合中的融合特征与目标标签依赖关系进行深度融合,得到第二级分类结果,包括:将所述N级融合特征中的每一级融合特征分别与目标标签依赖关系进行深度融合,得到N级融合结果;通过目标全连接层对N级所述融合特征中的第N级所述融合特征进行降维,得到降维特征;将所述降维特征与所述N级融合结果进行连接,得到目标分类特征;将所述目标分类特征输入至目标分类器,通过所述目标分类器得到所述第二级分类结果。
在本实施例中,目标分类器可以是全连接层,也可以是其他分类器。级联特征提取模块中有N级特征提取单元,能够得到N级融合特征,N级融合特征中的第i级融合特征即第i级特征提取单元提取到的特征。
将N级融合特征输入至矿区图像多标签分类模型中的深度融合模块,深度融合模块获取目标标签依赖关系,目标标签依赖关系是在模型训练时得到的,多标签分类时,标签之间具有很强的标签共现相关性,例如,天空和云通常同时出现,而水和汽车几乎从不同时出现。目标标签依赖关系表示第一级分类和第二级分类对应的分类标签之间的共现关系。第一级分类结果为第一级分类对应的分类标签,第二级分类结果为第二级分类对应的分类标签。
N级融合特征中每个融合特征分别与目标标签依赖关系分别进行深度融合得到,得到N级融合结果。对N级融合特征中第N级融合特征进行降维,以将第N级融合特征与N级融合结果能够连接起来,得到目标分类特征,目标分类器根据目标分类特征完成分类操作,得到第二级分类结果。
进一步地,矿区图像多标签分类模型还包括第一分类器,将第N级融合特征输入至第一分类器,输出第一级分类结果。
步骤S104:根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果,其中,所述目标分类结果用于表示所述待识别图像的矿区占地类型。
可选地,所述根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果,包括:在所述第一级分类结果为所述非矿区类别的情况下,将所述非矿区类别作为所述目标分类结果;在所述第一级分类结果为所述矿区类别的情况下,将所述第二级分类结果作为所述目标分类结果。
在本实施例中,采用多级输出的方式确定待识别图像的矿区占地类型。先由第一级分类识别出待识别图像中的区域是否为矿区类别,在第一级分类结果为非矿区类别的情况下,将非矿区类别作为目标分类结果,具体分为情况一:第二分类结果属于矿区(即第二分类结果包括以下至少之一:采矿场、转移站点、固体废物、矿山建设),可能是矿区和非矿区内的目标的共性导致第二分类结果的误判,仍然确定目标分类结果为非矿区类别;情况二:第二分类结果为非矿区类别,两级分类结果一致,确定出目标分类结果为非矿区类别。
在第一级分类结果为矿区类别的情况下,如果此时第二分类结果中识别出属于矿区的第二级标签为非矿区类别,可能是第一分类结果出现了误判,确定目标分类结果为非矿区类别;在第一级分类结果为矿区类别的情况下,如果第二分类结果属于矿区类别(即第二分类结果包括以下至少之一:采矿场、转移站点、固体废物、矿山建设),两级分类结果一致,将所述第二级分类结果作为所述目标分类结果。
在本实施例中,通过级联特征提取模块对待识别图像进行多级特征提取,得到N级融合特征,根据第N级融合特征确定出第一级分类结果,第N级融合特征作为最后一级提取的特征更全面,使第一级分类结果更准确。使用多级分类输出第一级分类结果和第二级分类结果,两级分类结果共同决定待识别图像的目标分类结果,在其中一个分类结果出现偏差时,可根据另一个分类结果输出正确的分类结果,从而提高对待识别图像进行矿区占地类型分类时准确性。
矿区图像多标签分类模型的的框架如图3所示,待识别图像输入至矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征,得到N级融合特征,将最后一级特征提取单元输出的融合特征(即N级融合特征中的第N级融合特征)输出至第一分类器中,得到待识别图像的第一分类结果;将N级融合特征分别输入至深度融合模块,将目标标签依赖关系输入至深度融合模块,每级融合特征均与目标标签依赖关系进行深度融合,得到N级融合结果,将N级融合结果连接后的特征作为深度融合模块的输出特征,输出特征与降维后的第N级融合特征(即降维特征)连接后,输入至目标分类器中,生成训练图像的第二分类结果。根据第一分类结果和第二分类结果可以确定目标分类结果。
可选地,在通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征之前,所述方法还包括:
获取训练集,其中,所述训练集包括多张训练图像,以及每张训练图像对应的第一级分类标签和第二级分类标签;使用所述训练集对初始模型进行迭代训练得到所述矿区图像多标签分类模型,其中,对所述初始模型进行迭代训练中的第m次训练包括:根据所述训练集中每张训练图像对应的第一级分类标签和第二级分类标签确定标签依赖关系;将所述训练集中的训练图像输入至第m个训练模型中,通过第m个所述训练模型中的级联特征提取模块提取所述训练图像的N级融合特征,其中,m为正整数,m=1时,第m个所述训练模型为所述初始模型;根据所述训练图像的N级融合特征中的第N级融合特征确定所述训练图像的第一级分类结果;通过第m个所述训练模型中的深度融合模块将所述训练图像的N级融合特征分别与标签依赖关系进行深度融合,得到所述训练图像的第二级分类结果;根据所述训练图像的第一级分类结果与所述训练图像的第一级分类标签确定第一损失值,并根据所述训练图像的第二级分类结果与所述训练图像的第二级分类标签确定第二损失值;将所述第一损失值和所述第二损失值进行加权,得到目标损失值;在目标损失值不满足预设条件时,根据所述目标损失值对所述第m个所述训练模型中的模型参数进行修改,得到第m+1个所述训练模型,并使用第m+1个训练模型进行下一次训练;在所述目标损失值满足预设条件时,将所述第m个所述训练模型作为所述矿区图像多标签分类模型,并将所述第m次训练中学习到的标签依赖关系作为所述目标标签依赖关系。
在本实施例中,在对待识别图像进行矿区多标签分类之前,首先需要训练矿区图像多标签分类模型以及构建目标标签依赖关系,对初始模型进行迭代训练,直至训练出满足预设条件的模型,即将训练集输入至初始模型,根据初始模型的输出结果计算损失值,根据损失值去调整初始模型的参数,将训练集输入至调整参数后的模型,根据输出结果计算损失值,根据损失值在上次调整参数后的模型的基础上再此修改模型参数,循环上述训练过程,直至模型输出结果的损失值满足预设条件时停止训练,将此时的训练模型作为训练矿区图像多标签分类模型。
矿区图像多标签分类模型训练过程包括多次训练,每次训练过程类似,上述第m次训练为多次训练中的任意一次训练。
矿区图像多标签分类模型训练过程如图4所示,训练时的训练模型包括级联特征提取模块、深度融合模块、标签依赖关系学习模块、第一分类器、目标分类器、全连接层、损失值计算模块。训练集中的训练图像输入至训练模型中的级联特征提取模块提取训练图像的特征,得到N级融合特征,将最后一级特征提取单元输出的融合特征(即N级融合特征中的第N级融合特征)输出至第一分类器中,得到训练图像的第一分类结果;
标签依赖关系学习模块根据训练集中的训练图像的第一分类标签和第二分类标签学习标签依赖关系,在训练完成时,将最后一个训练过程中学习到的标签依赖关系作为目标标签依赖关系,并将目标标签依赖关系保存在矿区图像多标签分类模型中,以在对待识别图像进行多标签分类时直接使用。
具体地,标签依赖关系学习模块学习标签依赖关系包括:根据训练集中所有训练图像对应的第一分类标签和第二分类标签中提取标签共现矩阵,并将所有标签文本转化为标签词向量;使用多层GCN网络根据标签共现矩阵和标签词向量学习标签依赖关系。
将N级融合特征分别输入至深度融合模块,将标签依赖关系输入至深度融合模块,每级融合特征均与标签依赖关系进行深度融合,得到N级深度融合特征,将N级深度融合特征连接后的特征作为深度融合模块的输出特征,输出特征与降维后的最后一级特征提取单元输出的融合特征连接后,输入至目标分类器中,生成训练图像的第二分类结果。
其中,最后一级特征提取单元输出的融合特征连接通过全连接层进行降维。
得到训练图像的第一分类结果和第二分类结果后,根据第一分类结果与训练图像的第一分类标签计算第一损失值,根据第二分类结果与训练图像的第二分类标签计算第二损失值,对第一损失值和第二损失值进行加权合并,得到目标损失值,根据目标损失值反向传播,即在目标损失值不满足预设条件时,根据目标损失值计算训练模型的参数梯度,进而调整训练模型的参数,得到新的训练模型,直至目标损失值满足预设条件,训练完成。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
如图5所示,在本发明另一实施例中提供了一种图像多标签分类装置,该装置包括:
提取模块501,用于通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征,得到融合特征集合,其中,所述融合特征集合中包括N级融合特征,所述级联特征提取模块包括N级特征提取单元;
第一确定模块502,用于根据所述融合特征集合中的第N级所述融合特征确定所述待识别图像的第一级分类结果,所述第一级分类结果包括矿区类别或非矿区类别;
融合模块503,用于通过所述矿区图像多标签分类模型中的深度融合模块将所述融合特征集合中的融合特征与目标标签依赖关系进行深度融合,得到第二级分类结果,其中,所述第二级分类结果包括一个或多个分类标签;
第二确定模块504,用于根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果,其中,所述目标分类结果用于表示所述待识别图像的矿区占地类型。
在一个可选的实施例中,上述装置还用于通过以下方式通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征,得到融合特征集合:将第i级所述融合特征输入至第i+1级所述特征提取单元;通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作,得到M个尺度特征,其中,i为大于或等于1的整数,且i小于N;根据M个所述尺度特征得到第i+1级所述融合特征。
在一个可选的实施例中,上述装置还用于通过以下方式通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作,得到M个尺度特征:通过M个所述卷积核中的第j个所述卷积核对第i级所述融合特征中的第j个尺度融合特征进行卷积,得到M个所述尺度特征中的第j个所述尺度特征,其中,1≤j≤M,且j为整数,其中,第i级所述融合特征包括M个所述尺度融合特征。
在一个可选的实施例中,上述装置还用于通过以下方式根据M个所述尺度特征得到第i+1级所述融合特征:将第j个所述尺度特征与第j+1个所述尺度特征进行融合,得到第i+1级所述融合特征中的第j个尺度融合特征,其中,在j=M时,第j+1个所述尺度特征为第1个所述尺度特征。
在一个可选的实施例中,上述装置还用于在对第i级所述融合特征中的第j个尺度融合特征进行卷积之前执行以下操作:通过通道注意力机制确定第i级所述融合特征中的第j个所述尺度融合特征的权重;根据第j个所述尺度融合特征与所述权重得到加权后的第j个尺度融合特征;将所述加权后的第j个尺度融合特征输入至第j个所述卷积核。
在一个可选的实施例中,上述装置还用于通过以下方式通过所述矿区图像多标签分类模型中的深度融合模块将融合特征集合中的融合特征与目标标签依赖关系进行深度融合,得到第二级分类结果:将所述N级融合特征中的每一级融合特征分别与目标标签依赖关系进行深度融合,得到N级融合结果;通过目标全连接层对N级所述融合特征中的第N级所述融合特征进行降维,得到降维特征;将所述降维特征与所述N级融合结果进行连接,得到目标分类特征;将所述目标分类特征输入至目标分类器,通过所述目标分类器得到所述第二级分类结果。
在一个可选的实施例中,上述装置还用于通过以下方式根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果:在所述第一级分类结果为所述非矿区类别的情况下,将所述非矿区类别作为所述目标分类结果;在所述第一级分类结果为所述矿区类别的情况下,将所述第二级分类结果作为所述目标分类结果。
在一个可选的实施例中,上述装置还用于在通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征之前,执行以下操作:获取训练集,其中,所述训练集包括多张训练图像,以及每张训练图像对应的第一级分类标签和第二级分类标签;使用所述训练集对初始模型进行迭代训练得到所述矿区图像多标签分类模型;其中,对所述初始模型进行迭代训练中的第m次训练包括:根据所述训练集中每张训练图像对应的第一级分类标签和第二级分类标签确定标签依赖关系;将所述训练集中的训练图像输入至第m个训练模型中,通过第m个所述训练模型中的级联特征提取模块提取所述训练图像的N级融合特征,其中,m为正整数,m=1时,第m个所述训练模型为所述初始模型;根据所述训练图像的N级融合特征中的第N级融合特征确定所述训练图像的第一级分类结果;通过第m个所述训练模型中的深度融合模块将所述训练图像的N级融合特征分别与标签依赖关系进行深度融合,得到所述训练图像的第二级分类结果;根据所述训练图像的第一级分类结果与所述训练图像的第一级分类标签确定第一损失值,并根据所述训练图像的第二级分类结果与所述训练图像的第二级分类标签确定第二损失值;将所述第一损失值和所述第二损失值进行加权,得到目标损失值;在目标损失值不满足预设条件时,根据所述目标损失值对所述第m个所述训练模型中的模型参数进行修改,得到第m+1个所述训练模型,并使用第m+1个训练模型进行下一次训练;在所述目标损失值满足预设条件时,将所述第m个所述训练模型作为所述矿区图像多标签分类模型,并将所述第m次训练中学习到的标签依赖关系作为所述目标标签依赖关系。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,当所述计算机程序被处理器执行时,实现如上所述的图像多标签分类方法。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
虽然本发明披露如上,但本发明的保护范围并非仅限于此。本领域技术人员在不脱离本发明的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。

Claims (10)

1.一种图像多标签分类方法,其特征在于,包括:
通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征,得到融合特征集合,其中,所述融合特征集合中包括N级融合特征,所述级联特征提取模块包括N级特征提取单元;
根据所述融合特征集合中的第N级所述融合特征确定所述待识别图像的第一级分类结果,所述第一级分类结果包括矿区类别或非矿区类别;
通过所述矿区图像多标签分类模型中的深度融合模块将所述融合特征集合中的融合特征与目标标签依赖关系进行深度融合,得到第二级分类结果,其中,所述第二级分类结果包括一个或多个分类标签;
根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果,其中,所述目标分类结果用于表示所述待识别图像的矿区占地类型。
2.根据权利要求1所述的方法,其特征在于,通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征,得到融合特征集合,包括:
将第i级所述融合特征输入至第i+1级所述特征提取单元;
通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作,得到M个尺度特征,其中,i为大于或等于1的整数,且i小于N;
根据M个所述尺度特征得到第i+1级所述融合特征。
3.根据权利要求2所述的方法,其特征在于,所述通过第i+1级所述特征提取单元中的M个卷积核对第i级所述融合特征进行卷积操作,得到M个尺度特征,包括:
通过M个所述卷积核中的第j个所述卷积核对第i级所述融合特征中的第j个尺度融合特征进行卷积,得到M个所述尺度特征中的第j个所述尺度特征,其中,1≤j≤M,且j为整数,其中,第i级所述融合特征包括M个所述尺度融合特征。
4.根据权利要求3所述的方法,其特征在于,所述根据M个所述尺度特征得到第i+1级所述融合特征,包括:
将第j个所述尺度特征与第j+1个所述尺度特征进行融合,得到第i+1级所述融合特征中的第j个所述尺度融合特征,其中,在j=M时,第j+1个所述尺度特征为第1个所述尺度特征。
5.根据权利要求3所述的方法,其特征在于,在对第i级所述融合特征中的第j个尺度融合特征进行卷积之前,所述方法还包括:
通过通道注意力机制确定第i级所述融合特征中的第j个所述尺度融合特征的权重;
根据第j个所述尺度融合特征与所述权重得到加权后的第j个尺度融合特征;
将所述加权后的第j个尺度融合特征输入至第j个所述卷积核。
6.根据权利要求1所述的方法,其特征在于,所述通过所述矿区图像多标签分类模型中的深度融合模块将融合特征集合中的融合特征与目标标签依赖关系进行深度融合,得到第二级分类结果,包括:
将所述N级融合特征中的每一级融合特征分别与目标标签依赖关系进行深度融合,得到N级融合结果;
通过目标全连接层对N级所述融合特征中的第N级所述融合特征进行降维,得到降维特征;
将所述降维特征与所述N级融合结果进行连接,得到目标分类特征;
将所述目标分类特征输入至目标分类器,通过所述目标分类器得到所述第二级分类结果。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果,包括:
在所述第一级分类结果为所述非矿区类别的情况下,将所述非矿区类别作为所述目标分类结果;
在所述第一级分类结果为所述矿区类别的情况下,将所述第二级分类结果作为所述目标分类结果。
8.根据权利要求1所述的方法,其特征在于,在通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征之前,所述方法还包括:
获取训练集,其中,所述训练集包括多张训练图像,以及每张训练图像对应的第一级分类标签和第二级分类标签;
使用所述训练集对初始模型进行迭代训练得到所述矿区图像多标签分类模型,
其中,对所述初始模型进行迭代训练中的第m次训练包括:
根据所述训练集中每张训练图像对应的第一级分类标签和第二级分类标签确定标签依赖关系;
将所述训练集中的训练图像输入至第m个训练模型中,通过第m个所述训练模型中的级联特征提取模块提取所述训练图像的N级融合特征,其中,m为正整数,m=1时,第m个所述训练模型为所述初始模型;
根据所述训练图像的N级融合特征中的第N级融合特征确定所述训练图像的第一级分类结果;
通过第m个所述训练模型中的深度融合模块将所述训练图像的N级融合特征分别与标签依赖关系进行深度融合,得到所述训练图像的第二级分类结果;
根据所述训练图像的第一级分类结果与所述训练图像的第一级分类标签确定第一损失值,并根据所述训练图像的第二级分类结果与所述训练图像的第二级分类标签确定第二损失值;
将所述第一损失值和所述第二损失值进行加权,得到目标损失值;
在目标损失值不满足预设条件时,根据所述目标损失值对所述第m个所述训练模型中的模型参数进行修改,得到第m+1个所述训练模型,并使用第m+1个训练模型进行下一次训练;
在所述目标损失值满足预设条件时,将所述第m个所述训练模型作为所述矿区图像多标签分类模型,并将所述第m次训练中学习到的标签依赖关系作为所述目标标签依赖关系。
9.一种图像多标签分类装置,其特征在于,包括:
提取模块,用于通过矿区图像多标签分类模型中的级联特征提取模块提取待识别图像的特征,得到融合特征集合,其中,所述融合特征集合中包括N级融合特征,所述级联特征提取模块包括N级特征提取单元;
第一确定模块,用于根据所述融合特征集合中的第N级所述融合特征确定所述待识别图像的第一级分类结果,所述第一级分类结果包括矿区类别或非矿区类别;
融合模块,用于通过所述矿区图像多标签分类模型中的深度融合模块将所述融合特征集合中的融合特征与目标标签依赖关系进行深度融合,得到第二级分类结果,其中,所述第二级分类结果包括一个或多个分类标签;
第二确定模块,用于根据所述第一级分类结果和所述第二级分类结果确定所述待识别图像的目标分类结果,其中,所述目标分类结果用于表示所述待识别图像的矿区占地类型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,当所述计算机程序被处理器执行时,实现如所述权利要求1-8任一项中所述的图像多标签分类方法。
CN202410268622.6A 2024-03-11 2024-03-11 图像多标签分类方法、装置及存储介质 Active CN117876797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410268622.6A CN117876797B (zh) 2024-03-11 2024-03-11 图像多标签分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410268622.6A CN117876797B (zh) 2024-03-11 2024-03-11 图像多标签分类方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN117876797A true CN117876797A (zh) 2024-04-12
CN117876797B CN117876797B (zh) 2024-06-04

Family

ID=90581537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410268622.6A Active CN117876797B (zh) 2024-03-11 2024-03-11 图像多标签分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN117876797B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019100723A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN112465071A (zh) * 2020-12-18 2021-03-09 深圳赛安特技术服务有限公司 图像多标签分类方法、装置、电子设备及介质
CN113191390A (zh) * 2021-04-01 2021-07-30 华中科技大学 一种图像分类模型的构建方法、图像分类方法及存储介质
CN113723513A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 多标签图像分类方法、装置及相关设备
CN113807412A (zh) * 2021-08-30 2021-12-17 广州大学 一种多标签图像分类方法、装置、设备及存储介质
CN114139588A (zh) * 2020-08-14 2022-03-04 北京亿阳信通科技有限公司 一种基于深度特征融合的病理图像分类装置、方法及装置的使用方法
CN115731422A (zh) * 2022-11-29 2023-03-03 阳光保险集团股份有限公司 多标签分类模型的训练方法、分类方法及装置
CN116721301A (zh) * 2023-08-10 2023-09-08 中国地质大学(武汉) 目标场景分类模型训练方法、分类方法、设备及存储介质
CN116935100A (zh) * 2023-06-19 2023-10-24 河海大学 一种基于特征融合和自注意力机制的多标签图像分类方法
CN117237704A (zh) * 2023-08-29 2023-12-15 中国科学院上海微系统与信息技术研究所 一种基于二维依赖性的多标签图像分类方法
CN117351371A (zh) * 2023-10-18 2024-01-05 兰州理工大学 一种基于深度学习的遥感图像目标检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019100723A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN114139588A (zh) * 2020-08-14 2022-03-04 北京亿阳信通科技有限公司 一种基于深度特征融合的病理图像分类装置、方法及装置的使用方法
CN112465071A (zh) * 2020-12-18 2021-03-09 深圳赛安特技术服务有限公司 图像多标签分类方法、装置、电子设备及介质
CN113191390A (zh) * 2021-04-01 2021-07-30 华中科技大学 一种图像分类模型的构建方法、图像分类方法及存储介质
CN113807412A (zh) * 2021-08-30 2021-12-17 广州大学 一种多标签图像分类方法、装置、设备及存储介质
CN113723513A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 多标签图像分类方法、装置及相关设备
CN115731422A (zh) * 2022-11-29 2023-03-03 阳光保险集团股份有限公司 多标签分类模型的训练方法、分类方法及装置
CN116935100A (zh) * 2023-06-19 2023-10-24 河海大学 一种基于特征融合和自注意力机制的多标签图像分类方法
CN116721301A (zh) * 2023-08-10 2023-09-08 中国地质大学(武汉) 目标场景分类模型训练方法、分类方法、设备及存储介质
CN117237704A (zh) * 2023-08-29 2023-12-15 中国科学院上海微系统与信息技术研究所 一种基于二维依赖性的多标签图像分类方法
CN117351371A (zh) * 2023-10-18 2024-01-05 兰州理工大学 一种基于深度学习的遥感图像目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI, M.,ET AL.: "A Multi-Level Output-Based DBN Model for Fine Classification of Complex Geo-Environments Area Using Ziyuan-3 TMS Imagery", SENSORS 2021, vol. 21, no. 6, 16 March 2021 (2021-03-16), pages 1 - 11 *
赵海英;周伟;侯小刚;齐光磊;: "多标签分类的传统民族服饰纹样图像语义理解", 光学精密工程, no. 03, 15 March 2020 (2020-03-15), pages 186 - 194 *

Also Published As

Publication number Publication date
CN117876797B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN108647742B (zh) 基于轻量级神经网络的快速目标检测方法
CN110111334B (zh) 一种裂缝分割方法、装置、电子设备及存储介质
CN110598800A (zh) 一种基于人工智能的垃圾分类识别方法
EP3690741B1 (en) Method for automatically evaluating labeling reliability of training images for use in deep learning network to analyze images, and reliability-evaluating device using the same
CN109886066A (zh) 基于多尺度和多层特征融合的快速目标检测方法
CN112084930A (zh) 一种全视野数字病理切片的病灶区域分类方法及其系统
CN111259812B (zh) 基于迁移学习的内河船舶重识别方法、设备及存储介质
CN111680705B (zh) 适于目标检测的mb-ssd方法和mb-ssd特征提取网络
CN113591866B (zh) 基于db与crnn的特种作业证件检测方法及系统
CN116721301B (zh) 目标场景分类模型训练方法、分类方法、设备及存储介质
CN113971764B (zh) 一种基于改进YOLOv3的遥感图像小目标检测方法
CN115953621A (zh) 一种基于不可靠伪标签学习的半监督高光谱图像分类方法
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
CN112016617A (zh) 细粒度分类方法、装置及计算机可读存储介质
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN111753714B (zh) 基于字符分割的多方向自然场景文本检测方法
CN117876797B (zh) 图像多标签分类方法、装置及存储介质
CN117333035A (zh) 基于卫星遥感数据的城市土地利用策略生成方法、装置、设备及介质
CN116977750A (zh) 土地覆盖场景分类模型构建方法及分类方法
Feng et al. Real-time object detection method based on YOLOv5 and efficient mobile network
CN115424250A (zh) 一种车牌识别方法及装置
Ahmed et al. A CNN-based novel approach for the detection of compound Bangla handwritten characters
CN113822375B (zh) 一种改进的交通图像目标检测方法
CN117075778B (zh) 一种图片文字的信息处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant