CN112861941A - 一种多标签图像分类方法、装置、设备和存储介质 - Google Patents

一种多标签图像分类方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112861941A
CN112861941A CN202110114531.3A CN202110114531A CN112861941A CN 112861941 A CN112861941 A CN 112861941A CN 202110114531 A CN202110114531 A CN 202110114531A CN 112861941 A CN112861941 A CN 112861941A
Authority
CN
China
Prior art keywords
image
label
detected
classification
preset classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110114531.3A
Other languages
English (en)
Inventor
陈川
张梓旸
郑子彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110114531.3A priority Critical patent/CN112861941A/zh
Publication of CN112861941A publication Critical patent/CN112861941A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种多标签图像分类方法、装置、设备和存储介质,方法包括:响应于图像分类请求,获取待检测图像;对所述待检测图像进行特征提取得到图像特征;获取所述待检测图像对应的预置分类器,所述预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的,其中,所述待检测图像和所述训练图像为同一场景图像;将所述图像特征和所述预置分类器融合,得到所述待检测图像的多标签分类结果。解决了现有的多标签分类方法在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构,导致分类结果准确度较差的技术问题。

Description

一种多标签图像分类方法、装置、设备和存储介质
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种多标签图像分类方法、装置、设备和存储介质。
背景技术
多标签图像分类是计算机视觉中的重要任务,目的是预测图像或视频中存在的类别。近年来,随着大规模人工标记数据集的建立及卷积神经网络的发展,单标签图像分类取得了较大的进展。通过处理一系列单标签分类任务,可以扩展到多标签分类任务。与单标签分类相比,多标签分类应用更加广泛,如互联网搜索、安全监视、机器人等。
现有的多标签分类方法虽然可以取得一定的分类效果,但是在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构,导致分类结果准确度较差。
发明内容
本申请提供了一种多标签图像分类方法、装置、设备和存储介质,解决了现有的多标签分类方法在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构,导致分类结果准确度较差的技术问题。
有鉴于此,本申请第一方面提供了一种多标签图像分类方法,包括:
响应于图像分类请求,获取待检测图像;
对所述待检测图像进行特征提取得到图像特征;
获取所述待检测图像对应的预置分类器,所述预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的,其中,所述待检测图像和所述训练图像为同一场景图像;
将所述图像特征和所述预置分类器融合,得到所述待检测图像的多标签分类结果。
可选地,所述预置分类器的配置过程具体包括:
通过数据驱动的方式构建所述训练图像中标签之间的相关性,得到所述训练图像的邻接矩阵;
将所述邻接矩阵和所述训练图像的标签特征输入至所述图神经网络,使得所述标签特征在所述图神经网络中按照所述邻接矩阵进行传播;
将所述图神经网络输出的标签结果作为所述预置分类器。
可选地,所述预置分类器的配置过程还包括:
将所述训练图像的训练图像特征和所述预置分类器进行融合,得到所述训练图像的训练分类结果;
将所述训练分类结果输入至多标签分类损失函数后,根据预置优化方法对所述预置分类器进行优化。
可选地,所述预置优化方法包括:梯度下降法。
可选地,对所述待检测图像进行特征提取得到图像特征,具体包括:
通过卷积神经网络对所述待检测图像进行图像特征提取,得到若干待检测图像特征值;
保留大于预设阈值的所述待检测图像特征值,得到图像特征。
可选地,将所述图像特征和所述预置分类器融合,得到所述待检测图像的多标签分类结果,具体包括:
将所述图像特征和所述预置分类器线性结合,得到所述待检测图像的多标签分类结果。
可选地,获取所述待检测图像对应的预置分类器,具体包括:
获取待检测图像的场景信息;
根据所述场景信息和预置分类器的对应关系,确定场景信息对应的所述预置分类器,并将该预置分类器作为所述待检测图像对应的预置分类器。
本申请第二方面提供了一种多标签图像分类装置,包括:
第一获取单元,被配置为用于响应于图像分类请求,获取待检测图像;
提取单元,被配置为用于对所述待检测图像进行特征提取得到图像特征;
第二获取单元,被配置为用于获取所述待检测图像对应的预置分类器,所述预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的,其中,所述待检测图像和所述训练图像为同一场景图像;
分类单元,用于将所述图像特征和所述预置分类器融合,得到所述待检测图像的多标签分类结果。
本申请第三发明提供了一种多标签图像分类设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如第一方面所述的多标签图像分类方法。
本申请第四方面提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行如第一方面所述的多标签图像分类方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种多标签图像分类方法,包括:响应于图像分类请求,获取待检测图像;对所述待检测图像进行特征提取得到图像特征;获取所述待检测图像对应的预置分类器,所述预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的,其中,所述待检测图像和所述训练图像为同一场景图像;将所述图像特征和所述预置分类器融合,得到所述待检测图像的多标签分类结果。本申请中的预置分类器是基于图像的拓扑结构对标签进行嵌入后得到的,故结合待检测图像的图像特征(图像内容信息)和预置分类器(标签拓扑信息)得到的多标签分类结果准确度较高,从而解决了现有的多标签分类方法在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构,导致分类结果准确度较差的技术问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例中一种多标签图像分类方法的实施例一的流程示意图;
图2为本申请实施例中一种多标签图像分类方法的实施例二的流程示意图;
图3为本申请实施例中ResNet的网络结构图;
图4为本申请实施例中注意力计算的示意图;
图5为本申请实施例中一种多标签图像分类装置的实施例的结构示意图。
具体实施方式
本申请实施例提供了一种多标签图像分类方法、装置、设备和存储介质,解决了现有的多标签分类方法在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构,导致分类结果准确度较差的技术问题。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,本申请实施例中一种多标签图像分类方法的实施例一的流程示意图。
本实施例中的一种多标签图像分类方法包括:
步骤101、响应于图像分类请求,获取待检测图像。
在进行多标签图像分类检测时,首先响应于图像分类请求,获取待检测图像。
可以理解的是,待检测图像的获取方式和待检测图像的种类等,本领域技术人员可以根据需要进行设置,在此不做具体限定和赘述。
步骤102、对待检测图像进行特征提取得到图像特征。
在获取到待检测图像后,对待检测图像进行特征提取得到待检测图像对应的图像特征。
需要说明的是,特征提取的方法和具体提取的图像特征的信息本领域技术人员可以根据分类需求设置,在此不做具体限定和赘述。
步骤103、获取待检测图像对应的预置分类器。
本实施例中的,预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的,其中,待检测图像和训练图像为同一场景图像。
预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的,且图神经网络通过邻接关系使信息在结点之间传播,本实施例中通过图神经网络的节点表达训练图像的标签特征之间的交互。
可以理解的是,在某一场景时(例如无人驾驶的障碍物检测、比赛中的对象检测),尽管拍摄到的图像是不同的,但是这些图像对应的标签大致是相对固定的。故,在本实施例中训练图像和待检测图像为同一场景图像时,获取通过训练图像的标签嵌入配置的预置分类器,也即获取了该场景时相对固定的标签特征。
步骤104、将图像特征和预置分类器融合,得到待检测图像的多标签分类结果。
在得到待检测图像的图像特征和预置分类器后,将图像特征和预置分类器融合便可得到待检测图像的多标签分类结果。
本实施例中,首先响应于图像分类请求,获取待检测图像;对待检测图像进行特征提取得到图像特征;获取待检测图像对应的预置分类器,预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的,其中,待检测图像和训练图像为同一场景图像;将图像特征和预置分类器融合,得到待检测图像的多标签分类结果。本申请中的预置分类器是基于图像的拓扑结构对标签进行嵌入后得到的,故结合待检测图像的图像特征(图像内容信息)和预置分类器(标签拓扑信息)得到的多标签分类结果准确度较高,从而解决了现有的多标签分类方法在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构,导致分类结果准确度较差的技术问题。
以上为本申请实施例提供的一种多标签图像分类方法的实施例一,以下为本申请实施例提供的一种多标签图像分类方法的实施例二。
请参阅图2,本申请实施例中一种多标签图像分类方法的实施例二的流程示意图。
本实施例中的一种多标签图像分类方法包括:
步骤201、响应于图像分类请求,获取待检测图像。
需要说明的是,步骤201的描述与实施例一种步骤101的描述相同,在此不再赘述。
步骤202、通过卷积神经网络对待检测图像进行图像特征提取,得到若干待检测图像特征值。
本实施例中选用ResNet作为基准模型进行图像特征的提取。该模型的参数量比低,且能够在提升准确率的同时加速神经网络的训练。
如图3所示为ResNet的网络结构,ResNet的主要思想是引入了“快捷连接”,在保留前层一定比例的输出同时跳过多层连接到输出,在一定程度上解决了传统网络中梯度消失/爆炸和信息丢失的问题,且由于“快捷连接”的引入在一定程度上保护了信息的完整性,整个模型只需要学习输入与输出不同的部分,简化了学习难度。
可以理解的是,具体ResNet的版本,本领域技术人员可以根据需要选择,在此不做具体限定和赘述。具体地,本实施例中选择ResNet-101模型用于图像特征提取。此时,当待检测图像的大小为448×448时,可以得到大小为2048×14×14的特征。
步骤203、保留大于预设阈值的待检测图像特征值,得到图像特征。
在所有的待检测图像特征值中,保留大于预设阈值的待检测图像特征值,得到图像特征,即认为保留的是待检测图像中最显著的部分。
具体地本实施例中保留大于预设阈值的待检测图像特征值,即通过全局最大池化操作来得到图像特征,具体的计算公式为:
X=fgmp(fcnn(I,θcnn));
其中,θcnn为模型参数,fcnn为卷积函数,用于进行图像特征提取,得到待检测图像特征值,fgmp为全局最大池化函数,X为图像特征,I为待检测图像的像素矩阵。
步骤204、获取待检测图像的场景信息。
在获取待检测图像后,可以获取待检测图像的场景信息。
步骤205、根据场景信息和预置分类器的对应关系,确定场景信息对应的预置分类器,并将该预置分类器作为待检测图像对应的预置分类器。
本实施例中,预置分类器的配置过程具体包括:
通过数据驱动的方式构建训练图像中标签之间的相关性,得到训练图像的邻接矩阵;
将邻接矩阵和训练图像的标签特征输入至图神经网络,使得标签特征在图神经网络中按照邻接矩阵进行传播;
将图神经网络输出的标签结果作为预置分类器。
本实施例中以一种数据驱动的方式来构建邻接矩阵A,具体来说,通过计算标签之间的共现次数来定义邻接矩阵。即通过条件概率来建模结点之间的依赖性P(Lj|Li),也就是标签Li出现时,标签Lj也出现的概率。然而大多数情况中,P(Lj|Li)可能并不等于P(Li|Lj),因此构建出来的矩阵是非对称的。
本实施例在训练集中构建矩阵M,Mij代表标签i和标签j同时出现的次数,再通过矩阵M来构建条件概率矩阵:Pi=Mi/Ni,其中Ni代表标签i在训练集中出现的次数,Pij代表标签Li出现时,标签Lj也出现的概率。
为了防止过拟合现象的发生从而影响模型的泛化能力,本实施例使用阈值τ来滤除噪声边缘,由此构建出的邻接矩阵A为:
Figure BDA0002917019110000071
一个结点的更新特征包含了自己和邻居结点的特征,那么在相似的场景下,同一个实体的标签可能会有所不同,这就可能会出现过拟合的问题。为了缓解这个问题,本实施例对邻接矩阵进行重加权的操作:
Figure BDA0002917019110000072
其中,A'ij是重加权之后的邻接矩阵,p是一个超参数,控制着结点自身和其相邻结点的权重,当p→1时,模型不考虑结点自身的特征,p→0时,模型不考虑结点邻居的特征。
图神经网络的目的是通过结点的表示来学习分类器
Figure BDA0002917019110000073
在得到标签之间的邻接矩阵后,就可以用图神经网络来进行结点之间信息的传递。本实施例汇总用图神经网络来建模结点拓扑关系中信息的交互。
本实施例中图神经网络对应的GCN模型如下:
Figure BDA0002917019110000074
其中,
Figure BDA0002917019110000081
为增加自连接的邻接矩阵,IN为单位矩阵,
Figure BDA0002917019110000082
中的元素
Figure BDA0002917019110000083
Figure BDA0002917019110000084
Wl是第l层的可训练权重矩阵,σ(.)为激活函数,比如ReLU(.)=max(0,.)等,Hl是第l层的表示向量,其中H0=X。
本实施例将各标签的初始表示输入到GCN模型中,如上式所示,每一个GCN层都以前一层的输出特征Hl作为本层的输入,然后输出新的特征H(l+1),如此不断迭代,各结点的信息就会在彼此邻居间传播,在最后一个GCN层,模型的输出为矩阵W,也就是构建出的分类器。
在得到待检测图像的图像特征X和分类器W之后,就可以通过相乘的方式将二者线性的结合起来,即应用学习到的分类器到图像表示,可以得到预测的分数:
Figure BDA0002917019110000085
具体来说,图像特征X为d×1的矩阵,d为特征嵌入的维度。标签分类器W为C×d的矩阵,C为标签总数。那么
Figure BDA0002917019110000086
相当于图像特征的一次线性变换,变换后维度是C×1,输出即为预测出的各个标签的出现的可能性。
进一步地,预置分类器的配置过程还包括:
将训练图像的训练图像特征和预置分类器进行融合,得到训练图像的训练分类结果;
将训练分类结果输入至多标签分类损失函数后,根据预置优化方法对预置分类器进行优化。
假设每一张图像的正确标签是y,yi={0,1}表示标签i是否出现在此图像中。最后整个网络使用多标签分类损失进行训练,多标签分类损失函数如下所示:
Figure BDA0002917019110000087
其中,σ(.)为sigmoid方程;yc
Figure BDA0002917019110000088
分别代表实际和预测中第c个标签是否出现;C为标签总数。
可以理解的是,上述的预置优化方法可以是梯度下降法,也可以是其他的优化方法,本领域技术人员可以根据需要进行限定,在此不再赘述。
预置分类器的改进。首先回顾模型的输入为
Figure BDA0002917019110000089
也就是n个结点的特征,其中
Figure BDA0002917019110000091
F为结点的特征数,n为结点的个数,模型的输出为
Figure BDA0002917019110000092
F′是变换后结点的特征数。
为了建立输入到输出的映射关系,我们需要对所有结点训练一个权值矩阵:W∈RF′*F,通过至少一次线性变换来从输入的特征得到输出的特征。定义注意力互相关系数为:
Figure BDA0002917019110000093
其中f为特征映射函数,这个系数代表结点j对于结点i的重要性,此外系数的定义并没有考虑到图结构的信息,因此使模型可以适用于推理性任务中,注意力的计算如图4所示。
为了使得互相关系数更易于比较和计算,模型中引入激活函数softmax对结点i的所有相邻结点j的αij进行正则化:
Figure BDA0002917019110000094
式中,LeakyReLU代表线性激活函数,T代表向量的转置,
Figure BDA0002917019110000095
为可学习的映射矩阵,作用是把向量转换为标量。
最终每个结点的输出为:
Figure BDA0002917019110000096
式中,
Figure BDA0002917019110000097
为为结点i在图神经网络中第l+1层的表示,
Figure BDA0002917019110000098
为为结点i和结点j之间可学习的权重,
Figure BDA0002917019110000099
为结点j在第l层的表示。
步骤206、将图像特征和预置分类器线性结合,得到待检测图像的多标签分类结果。
本实施例中,首先响应于图像分类请求,获取待检测图像;对待检测图像进行特征提取得到图像特征;获取待检测图像对应的预置分类器,预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的,其中,待检测图像和训练图像为同一场景图像;将图像特征和预置分类器融合,得到待检测图像的多标签分类结果。本申请中的预置分类器是基于图像的拓扑结构对标签进行嵌入后得到的,故结合待检测图像的图像特征(图像内容信息)和预置分类器(标签拓扑信息)得到的多标签分类结果准确度较高,从而解决了现有的多标签分类方法在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构,导致分类结果准确度较差的技术问题。
以上为本申请实施例提供的一种多标签图像分类方法的实施例二,以下为本申请实施例提供的一种多标签图像分类装置的实施例。
请参阅图5,本申请实施例中一种多标签图像分类装置的实施例的结构示意图。
本实施例一种多标签图像分类装置包括:
第一获取单元501,被配置为用于响应于图像分类请求,获取待检测图像;
提取单元502,被配置为用于对待检测图像进行特征提取得到图像特征;
第二获取单元503,被配置为用于获取待检测图像对应的预置分类器,预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的,其中,待检测图像和训练图像为同一场景图像;
分类单元504,用于将图像特征和预置分类器融合,得到待检测图像的多标签分类结果。
本实施例中,首先响应于图像分类请求,获取待检测图像;对待检测图像进行特征提取得到图像特征;获取待检测图像对应的预置分类器,预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的,其中,待检测图像和训练图像为同一场景图像;将图像特征和预置分类器融合,得到待检测图像的多标签分类结果。本申请中的预置分类器是基于图像的拓扑结构对标签进行嵌入后得到的,故结合待检测图像的图像特征(图像内容信息)和预置分类器(标签拓扑信息)得到的多标签分类结果准确度较高,从而解决了现有的多标签分类方法在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构,导致分类结果准确度较差的技术问题。
本申请实施例还提供了一种多标签图像分类设备的实施例,本实施例中的多标签图像分类设备包括处理器以及存储器;存储器用于存储程序代码,并将程序代码传输给处理器;处理器用于根据程序代码中的指令执行如实施例一或实施例二的多标签图像分类方法。
本实施例中实施例还提供了一种存储介质的实施例,本实施例中的存储介质用于存储程序代码,程序代码用于执行如实施例一或实施例二的多标签图像分类方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个待安装电网网络,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种多标签图像分类方法,其特征在于,包括:
响应于图像分类请求,获取待检测图像;
对所述待检测图像进行特征提取得到图像特征;
获取所述待检测图像对应的预置分类器,所述预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的,其中,所述待检测图像和所述训练图像为同一场景图像;
将所述图像特征和所述预置分类器融合,得到所述待检测图像的多标签分类结果。
2.根据权利要求1所述的多标签图像分类方法,其特征在于,所述预置分类器的配置过程具体包括:
通过数据驱动的方式构建所述训练图像中标签之间的相关性,得到所述训练图像的邻接矩阵;
将所述邻接矩阵和所述训练图像的标签特征输入至所述图神经网络,使得所述标签特征在所述图神经网络中按照所述邻接矩阵进行传播;
将所述图神经网络输出的标签结果作为所述预置分类器。
3.根据权利要求2所述的多标签图像分类方法,其特征在于,所述预置分类器的配置过程还包括:
将所述训练图像的训练图像特征和所述预置分类器进行融合,得到所述训练图像的训练分类结果;
将所述训练分类结果输入至多标签分类损失函数后,根据预置优化方法对所述预置分类器进行优化。
4.根据权利要求2所述的多标签图像分类方法,其特征在于,所述预置优化方法包括:梯度下降法。
5.根据权利要求1所述的多标签图像分类方法,其特征在于,对所述待检测图像进行特征提取得到图像特征,具体包括:
通过卷积神经网络对所述待检测图像进行图像特征提取,得到若干待检测图像特征值;
保留大于预设阈值的所述待检测图像特征值,得到图像特征。
6.根据权利要求1所述的多标签图像分类方法,其特征在于,将所述图像特征和所述预置分类器融合,得到所述待检测图像的多标签分类结果,具体包括:
将所述图像特征和所述预置分类器线性结合,得到所述待检测图像的多标签分类结果。
7.根据权利要求1所述的多标签图像分类方法,其特征在于,获取所述待检测图像对应的预置分类器,具体包括:
获取待检测图像的场景信息;
根据所述场景信息和预置分类器的对应关系,确定场景信息对应的所述预置分类器,并将该预置分类器作为所述待检测图像对应的预置分类器。
8.一种多标签图像分类装置,其特征在于,包括:
第一获取单元,被配置为用于响应于图像分类请求,获取待检测图像;
提取单元,被配置为用于对所述待检测图像进行特征提取得到图像特征;
第二获取单元,被配置为用于获取所述待检测图像对应的预置分类器,所述预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的,其中,所述待检测图像和所述训练图像为同一场景图像;
分类单元,用于将所述图像特征和所述预置分类器融合,得到所述待检测图像的多标签分类结果。
9.一种多标签图像分类设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至7中任一项所述的多标签图像分类方法。
10.一种存储介质,其特征在于,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1至7中任一项所述的多标签图像分类方法。
CN202110114531.3A 2021-01-26 2021-01-26 一种多标签图像分类方法、装置、设备和存储介质 Pending CN112861941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110114531.3A CN112861941A (zh) 2021-01-26 2021-01-26 一种多标签图像分类方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110114531.3A CN112861941A (zh) 2021-01-26 2021-01-26 一种多标签图像分类方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN112861941A true CN112861941A (zh) 2021-05-28

Family

ID=75986783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110114531.3A Pending CN112861941A (zh) 2021-01-26 2021-01-26 一种多标签图像分类方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112861941A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203775A (zh) * 2016-03-18 2017-09-26 阿里巴巴集团控股有限公司 一种图像分类的方法、装置和设备
CN109784404A (zh) * 2019-01-16 2019-05-21 福州大学 一种融合标签信息的多标签分类原型系统及方法
CN110084296A (zh) * 2019-04-22 2019-08-02 中山大学 一种基于特定语义的图表示学习框架及其多标签分类方法
CN111276240A (zh) * 2019-12-30 2020-06-12 广州西思数字科技有限公司 一种基于图卷积网络的多标签多模态全息脉象识别方法
CN111291643A (zh) * 2020-01-20 2020-06-16 北京百度网讯科技有限公司 视频的多标签分类方法、装置、电子设备与存储介质
CN111897985A (zh) * 2020-06-23 2020-11-06 西安交通大学 图像多标签分类方法、系统、设备及可读存储介质
CN112199536A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于跨模态的快速多标签图像分类方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203775A (zh) * 2016-03-18 2017-09-26 阿里巴巴集团控股有限公司 一种图像分类的方法、装置和设备
CN109784404A (zh) * 2019-01-16 2019-05-21 福州大学 一种融合标签信息的多标签分类原型系统及方法
CN110084296A (zh) * 2019-04-22 2019-08-02 中山大学 一种基于特定语义的图表示学习框架及其多标签分类方法
CN111276240A (zh) * 2019-12-30 2020-06-12 广州西思数字科技有限公司 一种基于图卷积网络的多标签多模态全息脉象识别方法
CN111291643A (zh) * 2020-01-20 2020-06-16 北京百度网讯科技有限公司 视频的多标签分类方法、装置、电子设备与存储介质
CN111897985A (zh) * 2020-06-23 2020-11-06 西安交通大学 图像多标签分类方法、系统、设备及可读存储介质
CN112199536A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于跨模态的快速多标签图像分类方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
QING LI等: "Learning label correlations for multi-label image recognition with graph networks", 《PATTERN RECOGNITION LETTERS》 *
ZHAO-MIN CHEN等: "Multi-Label Image Recognition With Graph Convolutional Networks", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
李辉等: "基于图卷积网络的多标签食品原材料识别", 《南京信息工程大学学报》 *
董畅: "露天煤矿区的高分遥感图像多标签分类", 《中国优秀博硕士学位论文全文数据库(硕士) 工程科技Ⅰ辑》 *

Similar Documents

Publication Publication Date Title
US20230196117A1 (en) Training method for semi-supervised learning model, image processing method, and device
Xu et al. Multi-scale continuous crfs as sequential deep networks for monocular depth estimation
Ricci et al. Monocular depth estimation using multi-scale continuous CRFs as sequential deep networks
Stivaktakis et al. Deep learning for multilabel land cover scene categorization using data augmentation
Fu et al. Fast crowd density estimation with convolutional neural networks
CN109033107B (zh) 图像检索方法和装置、计算机设备和存储介质
CN109840531A (zh) 训练多标签分类模型的方法和装置
CN112906720B (zh) 基于图注意力网络的多标签图像识别方法
US20220375213A1 (en) Processing Apparatus and Method and Storage Medium
CN110929622A (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN113159283B (zh) 一种基于联邦迁移学习的模型训练方法及计算节点
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN112487207A (zh) 图像的多标签分类方法、装置、计算机设备及存储介质
WO2021073311A1 (zh) 图像识别方法、装置、计算机可读存储介质及芯片
Grigorev et al. Depth estimation from single monocular images using deep hybrid network
CN113642400A (zh) 基于2s-agcn的图卷积动作识别方法、装置及设备
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
Ramasinghe et al. A context-aware capsule network for multi-label classification
CN114821298A (zh) 一种具有自适应语义信息的多标签遥感图像分类方法
CN112528077B (zh) 基于视频嵌入的视频人脸检索方法及系统
Everett et al. Protocaps: A fast and non-iterative capsule network routing method
Hu et al. Unifying label propagation and graph sparsification for hyperspectral image classification
Rout et al. Natural scene classification using deep learning
CN112861941A (zh) 一种多标签图像分类方法、装置、设备和存储介质
CN114821188A (zh) 图像处理方法、场景图生成模型的训练方法以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210528